Strukturált adatok kinyerése az internetről: A webkúszók és -kaparók elsajátítása

Strukturált adatok kinyerése az internetről: Webkúszók/kaparók futtatása nagy adattermelési léptékben (M. Patel Jay)

Olvasói vélemények

Összegzés:

A könyvet általánosságban jól fogadták, mint a webkúszás és -kaparás megértéséhez szükséges forrást, különösen a kezdők számára. Egyes felhasználók azonban úgy találják, hogy gyakorlati alkalmazhatósága korlátozott, mivel a könyv a mintaoldalakra összpontosít, és nem ad alapos útmutatást a hibakereséshez vagy a valós problémamegoldáshoz.

Előnyök:

Nagyszerű forrást nyújt a webes feltérképezés megértéséhez, különösen az AWS és a közös feltérképezési adatok felhasználásával. A szerző a kezdők számára alkalmas példákkal ellátott, lépésről lépésre haladó útmutatót tartalmaz. Sok felhasználó kiváló forrásnak tartja a webkaparáshoz.

Hátrányok:

Az információk hasznossága némileg korlátozott, mivel a kód elsősorban a könyvben megadott mintaoldalakon működik. Kevés szó esik a hibakeresésről vagy a koncepciók valós forgatókönyvekre való alkalmazásáról, amit néhány felhasználó kiábrándítónak talált.

(4 olvasói vélemény alapján)

Eredeti címe:

Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Könyv tartalma:

A webes adatgyűjtés méretarányos felhasználásával gyorsan strukturált formátumba hozhat korlátlan mennyiségű, a világhálón elérhető ingyenes adatot. Ez a könyv megtanítja, hogyan használjon Python szkripteket a weboldalak méretarányos feltérképezéséhez és a HTML- és JavaScript-képes oldalak adatainak lekaparásához, valamint strukturált adatformátumokba, például CSV, Excel, JSON formátumba való átalakításához, vagy egy tetszőleges SQL-adatbázisba való betöltéséhez.

Ez a könyv túllép a webkaparás alapjain, és olyan haladó témákkal foglalkozik, mint a természetes nyelvfeldolgozás (NLP) és a szövegelemzés, amelyekkel az Amazon Web Services (AWS) alapú felhőinfrastruktúrán elosztott nagyadat-technikák alkalmazásával termelési léptékben kivonhatja egy oldalról az emberek nevét, helyét, e-mail címét, elérhetőségi adatait stb. A könyv egy robusztus adatfeldolgozó és adatbeviteli csővezeték fejlesztésével foglalkozik a Common Crawl korpuszon, amely petabájtnyi nyilvánosan elérhető adatot tartalmaz, és az AWS nyílt adatok nyilvántartásában elérhető webes crawl-adathalmaz.

A strukturált adatok kinyerése az internetről tartalmaz egy lépésről-lépésre bemutatót is a saját lánctalpasok telepítéséről egy webkaparó keretrendszer (például a Scrapy) használatával, valamint a valós problémák kezeléséről (például a Captcha feltörése, a proxy IP-rotáció és más). A könyvben használt kódok segítenek megérteni a koncepciókat a gyakorlatban, és megírni a saját webkúszót az üzleti ötletei megvalósításához.

Mit fogsz tanulni

⬤ A webkaparás megértése, annak alkalmazásai/felhasználásai, és hogyan kerülheti el a webkaparást a nyilvánosan elérhető nyugalmi API végpontok megütésével, hogy közvetlenül kapjon adatokat.

⬤ Elkészítesz egy webkaparót és egy kúszót a semmiből az lxml és a BeautifulSoup könyvtár segítségével, és megismered a JavaScript-képes oldalakról való kaparást a Selenium segítségével.

⬤ AWS-alapú felhőalapú számítástechnika használata EC2, S3, Athena, SQS és SNS segítségével a feltérképezett oldalakból származó hasznos információk elemzésére, kinyerésére és tárolására.

⬤ Az Amazon Relational Database Service (RDS) rendszeren futó PostgreSQL és az SQLite SQLalchemy használatával SQL nyelv használata.

⬤ A sci-kit learn, a Gensim és a spaCy áttekintése NLP feladatok elvégzéséhez feltérképezett weboldalakon, mint például név-entitás felismerés, téma klaszterezés (Kmeans, Agglomeratív klaszterezés), téma modellezés (LDA, NMF, LSI), téma osztályozás (naiv Bayes, Gradient Boosting Classifier) és szöveg hasonlóság (cosine távolság alapú legközelebbi szomszédok).

⬤ Webarchív fájlformátumok kezelése és a Common Crawl nyílt adatainak feltárása az AWS-en.

⬤ A webes crawl-adatok gyakorlati alkalmazásainak bemutatása egy hasonló weboldal-eszköz és egy, a builtwith.com-hoz hasonló technológiai profilozó építésével.

⬤ Skriptek írása az Ahrefs.com-hoz, Moz.com-hoz, Majestic.com-hoz stb. hasonló webes léptékű backlink-adatbázis létrehozásához keresőmotor-optimalizálás (SEO), versenytárs-kutatás, valamint a webhelyek domain-autoritásának és rangsorolásának meghatározása céljából.

⬤ A webes lánctalpas adatok felhasználása hírek hangulatelemző rendszerének vagy alternatív pénzügyi elemzésnek a tőzsdei kereskedési jelzésekre kiterjedő létrehozásához.

⬤ Írjon egy gyártásra kész lánctalpas programot Python nyelven a Scrapy keretrendszer használatával, és foglalkozzon a Captchák, az IP-rotáció és egyéb gyakorlati megoldásokkal.

Kinek szól ez a könyv

Elsődleges célközönség: adatelemzők és tudósok, akik kevéssé vagy egyáltalán nem érintkeznek valós adatfeldolgozási kihívásokkal, másodlagos: tapasztalt szoftverfejlesztők, akik webes adatfeldolgozást végeznek, és akiknek szükségük van egy alapozóra, harmadlagos: üzleti tulajdonosok és startup-alapítók, akiknek többet kell tudni a végrehajtásról, hogy jobban irányítsák technikai csapatukat.

A könyv egyéb adatai:

ISBN:	9781484265758
Szerző:	M. Patel Jay
Kiadó:	Apress
Kötés:	Puha kötés

Vásárlás:

Jelenleg kapható, készleten van.

Strukturált adatok kinyerése az internetről: Webkúszók/kaparók futtatása nagy adattermelési léptékben

Olvasói vélemények

Eredeti címe:

Könyv tartalma:

A könyv egyéb adatai:

Vásárlás:

A szerző további könyvei:

A szerző munkáit az alábbi kiadók adták ki: