
A Tutorial on Thompson Sampling
A Thompson-féle mintavételezés olyan online döntési problémák algoritmusa, ahol a cselekvéseket szekvenciálisan kell végrehajtani oly módon, hogy egyensúlyt kell teremteni az azonnali teljesítmény maximalizálását célzó ismeretek kihasználása és a jövőbeni teljesítményt javító új információk felhalmozásába való befektetés között.
Az algoritmus a problémák széles körét kezeli számítási szempontból hatékony módon, és ezért széles körű használatnak örvend. Az A Tutorial on Thompson Sampling az algoritmust és annak alkalmazását tárgyalja, a koncepciókat számos példán keresztül szemlélteti, beleértve a Bernoulli bandit problémákat, a legrövidebb út problémáit, a termékajánlást, a választékot, az aktív tanulást neurális hálózatokkal és a Markov-döntési folyamatok megerősített tanulását.
E problémák többsége összetett információs struktúrákat foglal magában, ahol egy cselekvés során feltárt információ más cselekvésekről alkotott meggyőződéseket informál. A könyv kitér arra is, hogy mikor és miért hatékony, illetve miért nem hatékony a Thompson-mintavételezés, valamint az alternatív algoritmusokkal való kapcsolatokat is tárgyalja.