
Model-based Reinforcement Learning: A Survey
A szekvenciális döntéshozatal, amelyet általában Markov-döntési folyamat (MDP) optimalizálásként formalizálnak, a mesterséges intelligencia egyik fontos kihívása. A probléma két legfontosabb megközelítése a megerősítéses tanulás (RL) és a tervezés. Ez a monográfia a két terület integrációját tekinti át, ismertebb nevén a modellalapú megerősítéses tanulást.
A modellalapú RL két fő lépésből áll: a dinamikai modelltanulás és a tervezés-tanulás integrációja. A téma átfogó áttekintésében a szerzők először a dinamikai modelltanulással foglalkoznak, beleértve az olyan kihívásokat, mint a sztochaszticitás, a bizonytalanság, a részleges megfigyelhetőség és az időbeli absztrakció kezelése. Ezután bemutatják a tervezés-tanulás integráció szisztematikus kategorizálását, beleértve olyan szempontokat, mint például: hol kezdjük a tervezést, milyen költségvetést rendeljünk a tervezéshez és a valós adatgyűjtéshez, hogyan tervezzünk, és hogyan integráljuk a tervezést a tanulási és cselekvési ciklusba.
Végezetül a szerzők tárgyalják az implicit modellalapú RL-t mint a modelltanulás és tervezés végponttól végpontig tartó alternatíváját, és kitérnek a modellalapú RL lehetséges előnyeire. Eközben a szerzők kapcsolatot teremtenek számos kapcsolódó RL területtel, köztük a hierarchikus RL-rel és a transzfer-tanulással.
Ez a monográfia átfogó koncepcionális áttekintést tartalmaz a tervezés és a tanulás kombinációjáról a Markov-döntési folyamatok optimalizálásához. Világos és teljes körű bevezetést nyújt a témába a hallgatók és a kutatók számára egyaránt.