Adattisztítás a hatékony adattudományért: A munka másik 80%-ának elvégzése Python, R és parancssori eszközökkel

Értékelés:   (4.8 az 5-ből)

Adattisztítás a hatékony adattudományért: A munka másik 80%-ának elvégzése Python, R és parancssori eszközökkel (David Mertz)

Olvasói vélemények

Összegzés:

A könyvet dicsérik az adattisztítási technikák átfogó lefedettségéért és az adatok elemzésre való előkészítésének fontosságáért az adattudományban. Az olvasók nagyra értékelik a szerző, Dr. Mertz magával ragadó írói stílusát, valamint azt, hogy a bemagolt tanulás helyett az adatmanipuláció mögötti gondolkodási folyamatra helyezi a hangsúlyt. A könyv értékes forrásként szolgál mind az adattudomány újonnan belépők, mind a tapasztalt szakemberek számára.

Előnyök:

Az adattisztítási technikák és az adatelőkészítés átfogó lefedettsége.
A szerző magával ragadó és világos írásmódja.
Hangsúlyozza az adatmanipuláció mögötti gondolkodási folyamatot a puszta kódolás helyett.
Számos kódpéldát tartalmaz R, Python és parancssori eszközökkel.
Minden szinten hasznos a szakemberek számára, a kezdőktől a szakértőkig.
Iránymutatások az adatok verziószámozására és az adatmanipuláció reprodukálhatóságára vonatkozóan.
Betekintést nyújt a különböző adatformátumokba és azok kezelésébe.

Hátrányok:

Néhány olvasó szerint a témák szervezése nem volt annyira egyértelmű, mivel a technikák gyakran felhasználói történeteken belül, nem pedig önálló receptek formájában kerülnek bemutatásra.
A könyv inkább a táblázatos adatokra összpontosít, és nem foglalkozik eléggé a szöveges és képi adatok tisztításával.
Egyes olvasók kevésbé rejtélyes változóneveket kívántak a kódpéldákban.
Az adattisztítási receptek strukturált katalógusára vonatkozó elvárások csalódást okozhatnak.

(15 olvasói vélemény alapján)

Eredeti címe:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Könyv tartalma:

Átfogó útmutató az adattudósok számára a hatékony adattisztítási eszközök és technikák elsajátításához

Főbb jellemzők:

⬤ Master adattisztítási technikák nyelv-agnosztikus módon.

⬤ Tanuljon érdekes gyakorlati példákból számos területről, például a biológia, az időjárási adatok, a demográfia, a fizika, az idősorok és a képfeldolgozás területéről.

⬤ Munkálkodjon részletes, kommentált, jól tesztelt kódmintákkal Python és R nyelven.

Könyv leírása:

Az adattudományban, az adatelemzésben vagy a gépi tanulásban afféle közhely, hogy a tényleges cél eléréséhez szükséges erőfeszítések nagy része az adatok tisztításában rejlik. A Davidre jellemző barátságos és humoros stílusban megírt könyv részletesen tárgyalja a minden termelési adattudományi vagy adatelemzési csővezetékben elvégzett alapvető lépéseket, és felkészít az adatok vizualizálására és a modellezési eredményekre.

A könyv belemerül az adatbevitelhez, az anomália-felismeréshez, az értékimputációhoz és a feature engineeringhez szükséges eszközök és technikák gyakorlati alkalmazásába. A könyv minden fejezet végén hosszadalmas gyakorlatokat is kínál a megszerzett készségek gyakorlására.

Először az olyan adatformátumok adatbevitelét vizsgálja meg, mint a JSON, CSV, SQL RDBMS-ek, HDF5, NoSQL-adatbázisok, képformátumú fájlok és binárisan szerializált adatszerkezetek. A könyv továbbá számos példaadatkészletet és adatfájlt ad meg, amelyek letölthetők és önállóan vizsgálhatók.

A formátumokról továbblépve imputálja a hiányzó értékeket, felismeri a megbízhatatlan adatokat és a statisztikai anomáliákat, valamint szintetikus jellemzőket hoz létre, amelyek szükségesek a sikeres adatelemzési és vizualizációs célok eléréséhez.

A könyv végére biztos ismereteket szerezhet a valós adattudományi és gépi tanulási feladatok elvégzéséhez szükséges adattisztítási folyamatról.

Mit fog tanulni:

⬤ Az egyes adatpontokhoz tartozó problémás adatok azonosítása.

⬤ Azonosítani a problémás adatokat az adatok szisztematikus "alakjában".

⬤ Az adatintegritási és adathigiéniai problémák orvoslása.

⬤ Adatok előkészítése analitikai és gépi tanulási feladatokhoz.

⬤ Értékek beillesztése hiányzó vagy megbízhatatlan adatokba.

⬤ Szintetikus jellemzők előállítása, amelyek jobban megfelelnek az adattudományi, adatelemzési vagy vizualizációs céloknak.

Kinek szól ez a könyv:

Ez a könyv a szoftverfejlesztők, az adattudósok, a feltörekvő adattudósok és az adatelemzés vagy a tudományos számítástechnika iránt érdeklődő diákok számára készült.

Hasznosak a statisztikával való alapvető ismeretek, a gépi tanulás általános fogalmai, egy programozási nyelv (Python vagy R) ismerete és az adattudomány némi ismerete. A szószedet, a hivatkozások és a barátságos mellékszavak minden olvasót segítenek a felzárkózásban.

A szöveg hasznos lesz a középhaladó és haladó adattudósok számára is, akik javítani szeretnék az adathigiénia szigorát, és felfrissítést szeretnének az adatelőkészítéssel kapcsolatos kérdésekről.

A könyv egyéb adatai:

ISBN:9781801071291
Szerző:
Kiadó:
Kötés:Puha kötés

Vásárlás:

Jelenleg kapható, készleten van.

A szerző további könyvei:

Adattisztítás a hatékony adattudományért: A munka másik 80%-ának elvégzése Python, R és parancssori...
Átfogó útmutató az adattudósok számára a hatékony...
Adattisztítás a hatékony adattudományért: A munka másik 80%-ának elvégzése Python, R és parancssori eszközökkel - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
A reguláris kifejezések rejtélyes furcsaságai - The Puzzling Quirks of Regular Expressions
Ez a szórakoztató, szoftverfejlesztőknek és programozási...
A reguláris kifejezések rejtélyes furcsaságai - The Puzzling Quirks of Regular Expressions
Jobb Python-kód: A Guide for Aspiring Experts - Better Python Code: A Guide for Aspiring...
Túl a "többnyire működő" Python kódon a kifejező,...
Jobb Python-kód: A Guide for Aspiring Experts - Better Python Code: A Guide for Aspiring Experts

A szerző munkáit az alábbi kiadók adták ki:

© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)