Értékelés:

A könyvről szóló kritikák vegyes fogadtatásra hívják fel a figyelmet: egyes felhasználók nagyra értékelik a PySpark lefedettségét, különösen az első néhány fejezetet, valamint a Python-felhasználók számára könnyű átmenetet. Számos kritika azonban megemlíti a mélység hiányát, a gyenge írásminőséget és a nem megfelelő részletességet, ami az általános kivitelezéssel kapcsolatos csalódottsághoz vezet.
Előnyök:⬤ Jól lefedi a PySparkot, különösen a kezdeti fejezetekben
⬤ hasznos az önképzéshez és a Pythonról a PySparkra való átálláshoz
⬤ jó példákat ad
⬤ hasznos az adattudományban kezdő és középhaladó tanulók számára.
⬤ Rosszul megírt, sok hibával
⬤ hiányoznak a részletes technikai információk és az áttekinthetőség
⬤ triviális példák és a lehetőségek elégtelen magyarázata
⬤ az általános kivitelezés nem tekinthető kielégítőnek
⬤ jelentős elégedetlenség a szerkesztéssel és a tartalom minőségével.
(5 olvasói vélemény alapján)
Applied Data Science Using Pyspark: Learn the End-To-End Predictive Model-Building Cycle
Fedezze fel a PySpark képességeit és alkalmazását az adattudomány területén. Ez az átfogó útmutató a napi felhasználási esetek kézzel válogatott példáival végigvezet a prediktív modellépítési cikluson a legújabb technikák és trükkök segítségével.
Az Applied Data Science Using PySpark hat részre oszlik, amelyek végigvezetnek a könyvön. Az 1. szakaszban a PySpark alapjaival kezdjük, az adatmanipulációra összpontosítva. Megismertetjük Önt a nyelvvel, majd erre építve megismertetjük Önt a polcról elérhető matematikai függvényekkel. A 2. szakaszban belemerülsz a változók kiválasztásának művészetébe, ahol bemutatjuk a PySparkban elérhető különböző kiválasztási technikákat. A 3. szakaszban a gépi tanulási algoritmusokon, implementációkon és finomhangolási technikákon keresztül vezetünk végig. Beszélni fogunk a különböző validálási metrikákról is, és arról, hogyan használjuk őket a legjobb modellek kiválasztásához. A 4. és 5. szakasz a gépi tanulási pipeline-okon és a modell operacionalizálására és Dockeren/egy API-n keresztül történő kiszolgálására rendelkezésre álló különböző módszereken megy keresztül. Az utolsó részben az egyszerű kísérletezéshez szükséges újrafelhasználható objektumokkal foglalkozunk, és megtanulunk néhány trükköt, amelyek segítségével optimalizálhatjuk programjainkat és gépi tanulási pipeline-ainkat.
A könyv végére meglátja a PySpark rugalmasságát és előnyeit az adattudományi alkalmazásokban. Ezt a könyvet azoknak ajánljuk, akik a párhuzamos számítástechnika erejét szeretnék kibontakoztatni a nagy adathalmazokkal való egyidejű munkával.
Mit fogsz tanulni
⬤ Elkészítsen egy végponttól végpontig tartó előrejelző modellt.
⬤ Másféle változó kiválasztási technikák alkalmazása.
⬤ Modellek üzemeltetése.
⬤ Elsajátít több algoritmust és implementációt.
Kinek szól ez a könyv
Adattudósok és gépi tanulással és mélytanulással foglalkozó mérnökök, akik meg akarják tanulni és használni a PySparkot az áramló adatok valós idejű elemzésére.