Értékelés:
A könyvet dicsérik az adattisztítási technikák átfogó lefedettségéért és az adatok elemzésre való előkészítésének fontosságáért az adattudományban. Az olvasók nagyra értékelik a szerző, Dr. Mertz magával ragadó írói stílusát, valamint azt, hogy a bemagolt tanulás helyett az adatmanipuláció mögötti gondolkodási folyamatra helyezi a hangsúlyt. A könyv értékes forrásként szolgál mind az adattudomány újonnan belépők, mind a tapasztalt szakemberek számára.
Előnyök:⬤ Az adattisztítási technikák és az adatelőkészítés átfogó lefedettsége.
⬤ A szerző magával ragadó és világos írásmódja.
⬤ Hangsúlyozza az adatmanipuláció mögötti gondolkodási folyamatot a puszta kódolás helyett.
⬤ Számos kódpéldát tartalmaz R, Python és parancssori eszközökkel.
⬤ Minden szinten hasznos a szakemberek számára, a kezdőktől a szakértőkig.
⬤ Iránymutatások az adatok verziószámozására és az adatmanipuláció reprodukálhatóságára vonatkozóan.
⬤ Betekintést nyújt a különböző adatformátumokba és azok kezelésébe.
⬤ Néhány olvasó szerint a témák szervezése nem volt annyira egyértelmű, mivel a technikák gyakran felhasználói történeteken belül, nem pedig önálló receptek formájában kerülnek bemutatásra.
⬤ A könyv inkább a táblázatos adatokra összpontosít, és nem foglalkozik eléggé a szöveges és képi adatok tisztításával.
⬤ Egyes olvasók kevésbé rejtélyes változóneveket kívántak a kódpéldákban.
⬤ Az adattisztítási receptek strukturált katalógusára vonatkozó elvárások csalódást okozhatnak.
(15 olvasói vélemény alapján)
Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Átfogó útmutató az adattudósok számára a hatékony adattisztítási eszközök és technikák elsajátításához
Főbb jellemzők:
⬤ Master adattisztítási technikák nyelv-agnosztikus módon.
⬤ Tanuljon érdekes gyakorlati példákból számos területről, például a biológia, az időjárási adatok, a demográfia, a fizika, az idősorok és a képfeldolgozás területéről.
⬤ Munkálkodjon részletes, kommentált, jól tesztelt kódmintákkal Python és R nyelven.
Könyv leírása:
Az adattudományban, az adatelemzésben vagy a gépi tanulásban afféle közhely, hogy a tényleges cél eléréséhez szükséges erőfeszítések nagy része az adatok tisztításában rejlik. A Davidre jellemző barátságos és humoros stílusban megírt könyv részletesen tárgyalja a minden termelési adattudományi vagy adatelemzési csővezetékben elvégzett alapvető lépéseket, és felkészít az adatok vizualizálására és a modellezési eredményekre.
A könyv belemerül az adatbevitelhez, az anomália-felismeréshez, az értékimputációhoz és a feature engineeringhez szükséges eszközök és technikák gyakorlati alkalmazásába. A könyv minden fejezet végén hosszadalmas gyakorlatokat is kínál a megszerzett készségek gyakorlására.
Először az olyan adatformátumok adatbevitelét vizsgálja meg, mint a JSON, CSV, SQL RDBMS-ek, HDF5, NoSQL-adatbázisok, képformátumú fájlok és binárisan szerializált adatszerkezetek. A könyv továbbá számos példaadatkészletet és adatfájlt ad meg, amelyek letölthetők és önállóan vizsgálhatók.
A formátumokról továbblépve imputálja a hiányzó értékeket, felismeri a megbízhatatlan adatokat és a statisztikai anomáliákat, valamint szintetikus jellemzőket hoz létre, amelyek szükségesek a sikeres adatelemzési és vizualizációs célok eléréséhez.
A könyv végére biztos ismereteket szerezhet a valós adattudományi és gépi tanulási feladatok elvégzéséhez szükséges adattisztítási folyamatról.
Mit fog tanulni:
⬤ Az egyes adatpontokhoz tartozó problémás adatok azonosítása.
⬤ Azonosítani a problémás adatokat az adatok szisztematikus "alakjában".
⬤ Az adatintegritási és adathigiéniai problémák orvoslása.
⬤ Adatok előkészítése analitikai és gépi tanulási feladatokhoz.
⬤ Értékek beillesztése hiányzó vagy megbízhatatlan adatokba.
⬤ Szintetikus jellemzők előállítása, amelyek jobban megfelelnek az adattudományi, adatelemzési vagy vizualizációs céloknak.
Kinek szól ez a könyv:
Ez a könyv a szoftverfejlesztők, az adattudósok, a feltörekvő adattudósok és az adatelemzés vagy a tudományos számítástechnika iránt érdeklődő diákok számára készült.
Hasznosak a statisztikával való alapvető ismeretek, a gépi tanulás általános fogalmai, egy programozási nyelv (Python vagy R) ismerete és az adattudomány némi ismerete. A szószedet, a hivatkozások és a barátságos mellékszavak minden olvasót segítenek a felzárkózásban.
A szöveg hasznos lesz a középhaladó és haladó adattudósok számára is, akik javítani szeretnék az adathigiénia szigorát, és felfrissítést szeretnének az adatelőkészítéssel kapcsolatos kérdésekről.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)