Nagy adathalmazok kezelése Pythonnal: A Python-kód párhuzamosítása és elosztása

Értékelés:   (3.9 az 5-ből)

Nagy adathalmazok kezelése Pythonnal: A Python-kód párhuzamosítása és elosztása (T. Wolohan John)

Olvasói vélemények

Összegzés:

A könyvet azért dicsérik, mert képes összekapcsolni a Python összetett témáit és a valós alkalmazásokat, így hasznos a tanulók számára, akik fejleszteni szeretnék készségeiket. Ugyanakkor kritikák is érik a könyv mélységének hiánya, redundanciája és az olyan alapvető eszközök, mint a Hadoop és a Spark, nem tárgyalása miatt.

Előnyök:

Hasznos az összetett témák összekapcsolásában, valós problémákat kínál, előnyös a munkaerő-piaci készségek szempontjából, jó az alapvető ismeretek bővítésére.

Hátrányok:

Ismétlődő és kevés információ, bizonyos területeken nincs mélység, hiányosságok az alapvető eszközökről, néhány kódolási példa gyenge vagy értelmetlen.

(3 olvasói vélemény alapján)

Eredeti címe:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Könyv tartalma:

Összefoglaló.

A modern adattudományi megoldásoknak tisztának, könnyen olvashatónak és skálázhatónak kell lenniük. A Mastering Large Datasets with Python című könyvben a szerző, J. T. Wolohan megtanítja, hogyan lehet egy kis projektet a Python-kódolás funkcionálisan befolyásolt megközelítése segítségével skálázni. Olyan módszereket és beépített Python-eszközöket fedezhet fel, amelyek alkalmasak az áttekinthetőségre és a skálázhatóságra, mint például a nagy teljesítményű párhuzamossági módszer, valamint a nagy adatátviteli teljesítményt lehetővé tevő elosztott technológiákat. A gyakorlati oktatóanyagban található bőséges gyakorlati gyakorlatok rögzítik ezeket az alapvető készségeket bármely nagyszabású adattudományi projekthez.

A nyomtatott könyv megvásárlása magában foglalja a Manning Publications ingyenes e-könyvét PDF, Kindle és ePub formátumban.

A technológiáról.

A laptop méretű adatokon jól működő programozási technikák lelassulhatnak - vagy teljesen kudarcot vallhatnak -, ha hatalmas fájlokra vagy elosztott adathalmazokra alkalmazzák őket. A nagy teljesítményű map and reduce paradigma és az azt támogató Python-alapú eszközök elsajátításával olyan adatközpontú alkalmazásokat írhat, amelyek hatékonyan skálázódnak anélkül, hogy a követelmények változásával a kódbázis újraírására lenne szükség.

A könyvről.

A Mastering Large Datasets with Python megtanít olyan kódot írni, amely bármilyen méretű adathalmazt képes kezelni. Laptop méretű adathalmazokkal kezd, amelyek megtanítják az adatelemzés párhuzamosítását a nagy feladatok kisebb, egyszerre futtatható feladatokra bontásával. Ezután ugyanezeket a programokat ipari méretű adathalmazokra méretezed felhőszerverek fürtjén. A map and reduce paradigma szilárdan a helyén van, és olyan eszközöket fedezel fel, mint a Hadoop és a PySpark, hogy hatékonyan feldolgozhass hatalmas elosztott adathalmazokat, felgyorsíthatod a döntéshozatalt gépi tanulással, és egyszerűsítheted az adattárolást az AWS S3 segítségével.

Ami benne van.

⬤ Egy bevezetés a map and reduce paradigmába.

⬤ Parallelizálás a multiprocessing modullal és a pathos keretrendszerrel.

⬤ Hadoop és Spark az elosztott számítástechnikához.

⬤ AWS-feladatok futtatása nagy adathalmazok feldolgozásához.

Az olvasóról.

Azoknak a Python-programozóknak, akiknek gyorsabban kell dolgozniuk több adattal.

A szerzőről.

J. T. Wolohan a Booz Allen Hamilton vezető adattudósa, és a bloomingtoni Indiana University PhD kutatója.

Tartalomjegyzék:

1. RÉSZ.

1 ) Bevezetés.

2 ) A nagy adathalmazokkal végzett munka felgyorsítása: Térképes és párhuzamos számítástechnika.

3 ) Funkcióvezetékek az összetett transzformációk leképezéséhez.

4 ) Nagy adathalmazok feldolgozása lusta munkafolyamatokkal.

5 ) Halmozási műveletek reduce segítségével.

6 ) A map és reduce felgyorsítása fejlett párhuzamosítással.

2. RÉSZ.

7 ) Igazán nagy adathalmazok feldolgozása Hadoop és Spark segítségével.

8 ) Legjobb gyakorlatok nagy adatokhoz az Apache Streaming és az mrjob segítségével.

9 ) PageRank map és reduce segítségével PySparkban.

10 ) Gyorsabb döntéshozatal gépi tanulással és PySparkkal.

3. RÉSZ.

11 ) Nagy adathalmazok a felhőben az Amazon Web Services és az S3 segítségével.

12 ) MapReduce a felhőben az Amazon Elastic MapReduce szolgáltatásával.

A könyv egyéb adatai:

ISBN:9781617296239
Szerző:
Kiadó:
Kötés:Puha kötés
A kiadás éve:2020
Oldalak száma:312

Vásárlás:

Jelenleg kapható, készleten van.

A szerző további könyvei:

Nagy adathalmazok kezelése Pythonnal: A Python-kód párhuzamosítása és elosztása - Mastering Large...
Összefoglaló.A modern adattudományi megoldásoknak...
Nagy adathalmazok kezelése Pythonnal: A Python-kód párhuzamosítása és elosztása - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

A szerző munkáit az alábbi kiadók adták ki:

© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)