Statistical and Semantic Similarity between English Sentences
Ez a könyv különböző algoritmusokat mutat be az angol nyelvű szövegek közötti szemantikai hasonlóságok kiszámítására.
Három különböző algoritmust vizsgáltam az angol mondathasonlóság kiszámítására. Az első algoritmus, amelyet a szakirodalomban jól vizsgáltak Salton és Buckley, 1988, Wu és Salton, 1981), az egyes mondatokban lévő szavakat a terminusfrekvencia és az inverz dokumentumfrekvencia (tf-idf ) alapján súlyozza, és nem használ szemantikai információt.
A második algoritmus az azonos beszédrészhez tartozó szavak közötti szemantikai távolság mértékét használja. A harmadik algoritmus a tf-idf-értékeket és a szavak közötti szemantikai távolságot kombinálja. A második és a harmadik algoritmus teljesítményét két adathalmazon értékeltem: O'Shea mondatpárokból álló, emberi hasonlósági ítéleteket tartalmazó halmazát Li et al., Aug, Rubenstein és Goodenough, 1965), valamint a Microsoft Research mondatszintű parafrázis adathalmazát Rus et al., 2012).
O'Shea adathalmazán a harmadik algoritmus pontosabban egyezik az emberi ítéletekkel, mint a második. A Microsoft adathalmazon nem volt szignifikáns különbség a két algoritmus között.
© Book1 Group - minden jog fenntartva.
Az oldal tartalma sem részben, sem egészben nem másolható és nem használható fel a tulajdonos írásos engedélye nélkül.
Utolsó módosítás időpontja: 2024.11.13 21:05 (GMT)