Látás-nyelvi előképzés: Alapok, legújabb eredmények és jövőbeli tendenciák

Látás-nyelvi előképzés: Alapok, legújabb eredmények és jövőbeli tendenciák (Zhe Gan)

Eredeti címe:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Könyv tartalma:

Az ember a világot számos csatornán keresztül érzékeli, például a szem által látott képeket vagy a fül által hallott hangokat. Bár bármelyik csatorna hiányos vagy zajos lehet, az ember természetes módon képes összehangolni és egyesíteni a több csatornából gyűjtött információkat, hogy megragadja a világ jobb megértéséhez szükséges kulcsfogalmakat.

A mesterséges intelligencia (AI) egyik fő törekvése olyan algoritmusok kifejlesztése, amelyek a számítógépeket felruházzák a multimodális (vagy többcsatornás) adatokból való hatékony tanulás képességével. Ezek az adatok hasonlóak a látásból és a nyelvből nyert látványhoz és hangokhoz, amelyek segítenek az embereknek értelmet adni a körülöttünk lévő világnak. A számítógépek például utánozhatnák ezt a képességet azáltal, hogy egy szöveges lekérdezéshez (vagy fordítva) a legrelevánsabb képeket keresik meg, és egy kép tartalmát természetes nyelvvel írják le. A Vision-and-Language (VL), a számítógépes látás és a természetes nyelvfeldolgozás (NLP) találkozásánál elhelyezkedő népszerű kutatási terület, ezt a célt kívánja elérni.

Ez a monográfia a multimodális intelligencia látás-nyelvi előképzési (VLP) módszereit tekinti át, amelyeket az elmúlt néhány évben fejlesztettek ki. A megközelítések három kategóriába sorolhatók: (i) VLP kép-szöveg feladatokhoz, mint például képfeliratozás, kép-szöveg visszakeresés, vizuális kérdésválaszolás és vizuális alapozás; (ii) VLP alapvető számítógépes látás feladatokhoz, mint például (nyílt halmazú) képosztályozás, objektumdetektálás és szegmentálás; és (iii) VLP videó-szöveg feladatokhoz, mint például videófeliratozás, videó-szöveg visszakeresés és videó kérdésválaszolás. Minden egyes kategória esetében átfogó áttekintést nyújtunk a legkorszerűbb módszerekről, és konkrét rendszerek és modellek esettanulmányok segítségével megvitatjuk az elért eredményeket és a még megoldásra váró kihívásokat. Ezen túlmenően minden kategóriában bemutatásra kerülnek a kutatóközösségben aktívan kutatott fejlett témák, mint például a nagy alapmodellek, az egységes modellezés, a kontextuson belüli néhány felvételes tanulás, a tudás, a robusztusság és a számítógépes látás a természetben, hogy csak néhányat említsünk.

A könyv egyéb adatai:

ISBN:9781638281320
Szerző:
Kiadó:
Nyelv:angol
Kötés:Puha kötés

Vásárlás:

Jelenleg kapható, készleten van.

A szerző további könyvei:

Látás-nyelvi előképzés: Alapok, legújabb eredmények és jövőbeli tendenciák - Vision-Language...
Az ember a világot számos csatornán keresztül érzékeli,...
Látás-nyelvi előképzés: Alapok, legújabb eredmények és jövőbeli tendenciák - Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

A szerző munkáit az alábbi kiadók adták ki: