An Architecture for Fast and General Data Processing on Large Clusters
Az elmúlt néhány évben a számítástechnikai rendszerek jelentős változáson mentek keresztül, mivel a növekvő adatmennyiség és a processzorok sebességének csökkenése miatt egyre több alkalmazásnak kell klaszterekre skálázódnia. Napjainkban számtalan adatforrás - az internettől kezdve az üzleti műveleteken át a tudományos műszerekig - nagy és értékes adatfolyamokat állít elő. Az egyes gépek feldolgozási képességei azonban nem tartanak lépést az adatok méretével. Ennek eredményeképpen a szervezeteknek egyre inkább szükségük van arra, hogy számításaikat fürtökre skálázzák ki.
Ezzel egyidejűleg az adatfeldolgozáshoz szükséges sebesség és kifinomultság is nőtt. Az egyszerű lekérdezések mellett egyre gyakoribbak az olyan összetett algoritmusok, mint a gépi tanulás és a gráfelemzés. A kötegelt feldolgozás mellett pedig a valós idejű adatok streaming elemzésére is szükség van, hogy a szervezetek időben léphessenek. A jövőbeli számítástechnikai platformoknak nemcsak a hagyományos munkaterhelések skálázására lesz szükségük, hanem ezeknek az új alkalmazásoknak a támogatására is.
Ez a könyv, a 2014-es ACM Dissertation Award-díjas disszertáció átdolgozott változata, olyan architektúrát javasol a klaszteres számítástechnikai rendszerek számára, amely képes kezelni a feltörekvő adatfeldolgozási munkaterheket méretarányosan. Míg a korai fürtszámítási rendszerek, például a MapReduce, kötegelt adatfeldolgozást kezeltek, a mi architektúránk lehetővé teszi a streaming és interaktív lekérdezéseket is, miközben megtartja a MapReduce skálázhatóságát és hibatűrését. És míg a legtöbb telepített rendszer csak az egyszerű egymenetes számításokat (pl. SQL-lekérdezéseket) támogatja, a miénk a komplex analitikához, például a gépi tanuláshoz szükséges többmenetes algoritmusokra is kiterjed. Végül, ellentétben az e munkaterhelések némelyikére javasolt speciális rendszerekkel, a mi architektúránk lehetővé teszi e számítások kombinálását, ami gazdag új alkalmazásokat tesz lehetővé, amelyek például a streaming és a kötegelt feldolgozás keveredését teszik lehetővé.
Ezeket az eredményeket a MapReduce egyszerű kiterjesztésével érjük el, amely az adatok megosztására szolgáló primitíveket, az úgynevezett rugalmas elosztott adathalmazokat (Resilient Distributed Datasets, RDD) ad hozzá. Megmutatjuk, hogy ez elegendő a munkaterhelések széles körének lefedésére. Az RDD-ket a nyílt forráskódú Spark rendszerben implementáljuk, amelyet szintetikus és valós munkaterhelések segítségével értékelünk. A Spark számos területen eléri vagy meghaladja a speciális rendszerek teljesítményét, miközben erősebb hibatűrő tulajdonságokat kínál, és lehetővé teszi e munkaterhelések kombinálását. Végül megvizsgáljuk az RDD-k általánosságát mind elméleti modellezési, mind rendszerszempontból.
A disszertáció ezen változata a szövegben végig javításokat végez, és egy új szakasszal egészül ki, amely az Apache Spark ipari fejlődéséről szól 2014 óta. Ezenkívül szerkesztés, formázás és hivatkozások kerültek hozzá a hivatkozásokhoz.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)