Simulating Information Retrieval Test Collections
A szimulált tesztgyűjteményeket olyan helyzetekben lehet alkalmazni, amikor a valódi adatkészletekhez nem lehet könnyen hozzáférni titoktartási aggályok vagy gyakorlati kényelmetlenségek miatt. Potenciálisan támogathatják az információkeresési (IR) kísérleteket, a hangolást, a validálást, a teljesítmény előrejelzését és a hardver méretezését. Természetesen a szimulációból kapott eredmények pontossága és hasznossága a szimulációt alátámasztó modellek hűségétől és általánosságától függ. A valós korpusz emulációjának hűségét valószínűleg korlátozza az a követelmény, hogy a valós korpuszban lévő bizalmas információk ne legyenek kivehetők az emulált változatból. Bemutatunk egy sor olyan módszert, amelyek az emuláció hűsége és a magánélet védelmének mértéke közötti kompromisszumokat vizsgálják.
Bemutatunk három különböző egyszerű szöveggenerátortípust, amelyek mikroszinten működnek: Markov-modelleket, neurális hálós modelleket és helyettesítő kódokat. Makroszintű módszereket is ismertetünk, amelyekkel egy korpusz makro-tulajdonságait tudjuk megtervezni, megadva egy sor modellt az egyes kiemelkedő tulajdonságokra: dokumentumhossz-eloszlás, szógyakoriság-eloszlás (független és nem független esetekre), szóhossz és szöveges reprezentáció, valamint a korpusz növekedése.
Bemutatjuk a meglévő korpuszok emulációjának és a korpuszok két nagyságrenddel történő felskálázásának eredményeit. Megmutatjuk, hogy a viszonylag egyszerű módszerekkel létrehozott szimulált gyűjtemények bizonyos célokra alkalmasak, és nagyon gyorsan létrehozhatók. Sőt, néha megvalósítható lehet egy egyszerű, könnyű korpuszgenerátor beágyazása egy indexelőbe hatékonysági vizsgálatok céljából.
Természetesen egy mesterséges szövegkorpusz nem támogathatja az IR-kísérleteket kompatibilis lekérdezések készletének hiányában. Megvitatjuk és kikísérletezzük a lekérdezések generálására és a lekérdezési napló emulációjára szolgáló közzétett módszereket.
Bemutatunk egy proof-of-the-pudding vizsgálatot, amelyben megfigyeljük a TREC korpuszok emulált változatain kapott hatékonysági és eredményességi eredmények előrejelzési pontosságát. A tanulmány három nyílt forráskódú keresőrendszert és több TREC-adatkészletet tartalmaz. A titkosság és az előrejelzési pontosság között kompromisszum van, és érdekes kölcsönhatások vannak a keresőrendszerek és az adatkészletek között. Előzetes következtetésünk az, hogy léteznek olyan emulációs módszerek, amelyek hasznos előrejelzési pontosságot érnek el, miközben számos alkalmazás számára megfelelő szintű titkosságot biztosítanak.
Az itt leírt módszerek közül sokat a SynthaCorpus nyílt forráskódú projektben valósítottak meg, amely a következő címen érhető el: https: //bitbucket.org/davidhawking/synthacorpus/.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)