Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
Az egyre növekvő adatgazdag környezetben a sokféle, gyakran szabad szöveges forrásból hatalmas mennyiségű, egymástól eltérő, gyakran szabad szöveges forrásból kell kinyerni, szűrni és korrelálni a használható információkat. A kinyert információk hasznossága attól függ, hogy hogyan hajtjuk végre ezeket a lépéseket, és hogyan mutatjuk be a legrelevánsabb információkat az elemzőnek.
A szabad szövegből történő információ kinyerésének egyik módszere a Latent Dirichlet Allocation (LDA), egy dokumentum-kategorizálási technika, amely a dokumentumokat összefüggő témákba sorolja. Bár az LDA figyelembe vesz néhány implicit kapcsolatot, mint például a szinonímia (azonos jelentés), gyakran figyelmen kívül hagy más szemantikai kapcsolatokat, mint például a poliszémia (különböző jelentések), a hiponímia (alárendelt), a meronímia (része) és a troponómia (mód).
Ennek a hiányosságnak a kompenzálására explicit szóontológiákat, például a WordNet-et, építünk be az LDA-algoritmusba, hogy figyelembe vegyük a különböző szemantikai kapcsolatokat. A 20 Newsgroups, NIPS, OHSUMED és IED dokumentumgyűjteményen végzett kísérletek azt mutatják, hogy az ilyen tudás beépítése adott paraméterek mellett javítja a perplexitás mértékét az egyszerű LDA-hoz képest.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)