Statistical Methods for Annotation Analysis
Az adatok címkézése a tudomány egyik legalapvetőbb tevékenysége, amely évtizedek óta meghatározza a gyakorlatot, különösen az orvostudományban, valamint a korpusznyelvészeti kutatásokat legalább a Brown-korpusz kifejlesztése óta. A mesterséges intelligencia (AI) gépi tanulás irányába történő elmozdulásával a mesterséges intelligencia rendszerek képzéséhez és értékeléséhez felhasználható adathalmazok (az AI-ban korpuszoknak is nevezett korpuszok) létrehozása is központi tevékenységgé vált ezen a területen.
A korai AI-adatkészletek ad-hoc alapon, konkrét problémák megoldására jöttek létre. Ahogy egyre nagyobb és több újrafelhasználható adathalmazok jöttek létre, amelyek nagyobb befektetést igényeltek, úgy vált szükségessé az adathalmazok létrehozásának szisztematikusabb megközelítése a minőség javítása érdekében. Számos - gyakran, de nem kizárólag az orvostudományokból származó - statisztikai módszert alkalmaztak annak biztosítására, hogy a használt címkék ne legyenek szubjektívek, vagy hogy a kódolók által megadott különböző címkék közül lehessen választani.
Az ilyen módszerek széles skáláját alkalmazzák ma már rendszeresen. E könyv célja, hogy áttekintést nyújtson az ilyen, a jegyzetelési gyakorlatot támogató statisztikai módszerek közül a legszélesebb körben használtakról.
A szerzők tudomása szerint ez az első könyv, amely megkísérli lefedni a szélesebb körben használt módszerek két családját. Az első módszercsalád a címkézési sémák kidolgozásával foglalkozik, és különösen annak biztosításával, hogy ezek a sémák olyanok legyenek, hogy a kódolók között megfelelő egyetértés figyelhető meg.
A második családba tartoznak azok a módszerek, amelyeket a kódolók eredményeinek elemzésére fejlesztettek ki, miután a rendszerben megállapodtak, különösen, bár nem kizárólagosan, hogy azonosítsák a kódolók által megadott címkék közül a legvalószínűbbet egy tételhez. E könyv elsősorban a természetes nyelvfeldolgozásra összpontosít, a mesterséges intelligenciának arra a területére, amely a nyelvi értelmezés és termelés modelljeinek fejlesztésével foglalkozik, de az itt tárgyalt módszerek nagy része, ha nem a legtöbbje alkalmazható a mesterséges intelligencia más területein, sőt, az adattudomány más területein is.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)