Értékelés:
A könyvet általánosságban jól fogadták, mint a webkúszás és -kaparás megértéséhez szükséges forrást, különösen a kezdők számára. Egyes felhasználók azonban úgy találják, hogy gyakorlati alkalmazhatósága korlátozott, mivel a könyv a mintaoldalakra összpontosít, és nem ad alapos útmutatást a hibakereséshez vagy a valós problémamegoldáshoz.
Előnyök:Nagyszerű forrást nyújt a webes feltérképezés megértéséhez, különösen az AWS és a közös feltérképezési adatok felhasználásával. A szerző a kezdők számára alkalmas példákkal ellátott, lépésről lépésre haladó útmutatót tartalmaz. Sok felhasználó kiváló forrásnak tartja a webkaparáshoz.
Hátrányok:Az információk hasznossága némileg korlátozott, mivel a kód elsősorban a könyvben megadott mintaoldalakon működik. Kevés szó esik a hibakeresésről vagy a koncepciók valós forgatókönyvekre való alkalmazásáról, amit néhány felhasználó kiábrándítónak talált.
(4 olvasói vélemény alapján)
Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale
A webes adatgyűjtés méretarányos felhasználásával gyorsan strukturált formátumba hozhat korlátlan mennyiségű, a világhálón elérhető ingyenes adatot. Ez a könyv megtanítja, hogyan használjon Python szkripteket a weboldalak méretarányos feltérképezéséhez és a HTML- és JavaScript-képes oldalak adatainak lekaparásához, valamint strukturált adatformátumokba, például CSV, Excel, JSON formátumba való átalakításához, vagy egy tetszőleges SQL-adatbázisba való betöltéséhez.
Ez a könyv túllép a webkaparás alapjain, és olyan haladó témákkal foglalkozik, mint a természetes nyelvfeldolgozás (NLP) és a szövegelemzés, amelyekkel az Amazon Web Services (AWS) alapú felhőinfrastruktúrán elosztott nagyadat-technikák alkalmazásával termelési léptékben kivonhatja egy oldalról az emberek nevét, helyét, e-mail címét, elérhetőségi adatait stb. A könyv egy robusztus adatfeldolgozó és adatbeviteli csővezeték fejlesztésével foglalkozik a Common Crawl korpuszon, amely petabájtnyi nyilvánosan elérhető adatot tartalmaz, és az AWS nyílt adatok nyilvántartásában elérhető webes crawl-adathalmaz.
A strukturált adatok kinyerése az internetről tartalmaz egy lépésről-lépésre bemutatót is a saját lánctalpasok telepítéséről egy webkaparó keretrendszer (például a Scrapy) használatával, valamint a valós problémák kezeléséről (például a Captcha feltörése, a proxy IP-rotáció és más). A könyvben használt kódok segítenek megérteni a koncepciókat a gyakorlatban, és megírni a saját webkúszót az üzleti ötletei megvalósításához.
Mit fogsz tanulni
⬤ A webkaparás megértése, annak alkalmazásai/felhasználásai, és hogyan kerülheti el a webkaparást a nyilvánosan elérhető nyugalmi API végpontok megütésével, hogy közvetlenül kapjon adatokat.
⬤ Elkészítesz egy webkaparót és egy kúszót a semmiből az lxml és a BeautifulSoup könyvtár segítségével, és megismered a JavaScript-képes oldalakról való kaparást a Selenium segítségével.
⬤ AWS-alapú felhőalapú számítástechnika használata EC2, S3, Athena, SQS és SNS segítségével a feltérképezett oldalakból származó hasznos információk elemzésére, kinyerésére és tárolására.
⬤ Az Amazon Relational Database Service (RDS) rendszeren futó PostgreSQL és az SQLite SQLalchemy használatával SQL nyelv használata.
⬤ A sci-kit learn, a Gensim és a spaCy áttekintése NLP feladatok elvégzéséhez feltérképezett weboldalakon, mint például név-entitás felismerés, téma klaszterezés (Kmeans, Agglomeratív klaszterezés), téma modellezés (LDA, NMF, LSI), téma osztályozás (naiv Bayes, Gradient Boosting Classifier) és szöveg hasonlóság (cosine távolság alapú legközelebbi szomszédok).
⬤ Webarchív fájlformátumok kezelése és a Common Crawl nyílt adatainak feltárása az AWS-en.
⬤ A webes crawl-adatok gyakorlati alkalmazásainak bemutatása egy hasonló weboldal-eszköz és egy, a builtwith.com-hoz hasonló technológiai profilozó építésével.
⬤ Skriptek írása az Ahrefs.com-hoz, Moz.com-hoz, Majestic.com-hoz stb. hasonló webes léptékű backlink-adatbázis létrehozásához keresőmotor-optimalizálás (SEO), versenytárs-kutatás, valamint a webhelyek domain-autoritásának és rangsorolásának meghatározása céljából.
⬤ A webes lánctalpas adatok felhasználása hírek hangulatelemző rendszerének vagy alternatív pénzügyi elemzésnek a tőzsdei kereskedési jelzésekre kiterjedő létrehozásához.
⬤ Írjon egy gyártásra kész lánctalpas programot Python nyelven a Scrapy keretrendszer használatával, és foglalkozzon a Captchák, az IP-rotáció és egyéb gyakorlati megoldásokkal.
Kinek szól ez a könyv
Elsődleges célközönség: adatelemzők és tudósok, akik kevéssé vagy egyáltalán nem érintkeznek valós adatfeldolgozási kihívásokkal, másodlagos: tapasztalt szoftverfejlesztők, akik webes adatfeldolgozást végeznek, és akiknek szükségük van egy alapozóra, harmadlagos: üzleti tulajdonosok és startup-alapítók, akiknek többet kell tudni a végrehajtásról, hogy jobban irányítsák technikai csapatukat.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)