
Risk-Sensitive Reinforcement Learning via Policy Gradient Search
A megerősítő tanulás (RL) a mesterséges intelligencia és a gépi tanulás egyik alappillére. Minden optimalizálási vagy irányítási probléma fontos szempontja a kockázat fogalma, de ennek beépítése az RL-be meglehetősen új keletű fejlemény. Ez a monográfia a kockázatérzékeny RL-re vonatkozó kutatásokat tekinti át, amelyek a politika gradiens keresést használják.
A szerzők áttekintik az ezen a területen végzett legújabb munkákat, különösen ott, ahol a megoldás megközelítése a policy gradiens keresés. Az első kockázatérzékeny RL-beállításban foglalkoznak a variancián, a feltételes kockáztatott értéken és a véletlenszerű korlátozásokon alapuló népszerű kockázati mértékekkel, és bemutatnak egy sablont a politika-gradiens alapú kockázatérzékeny RL-algoritmusokhoz, amelyek Lagrange-formulát használnak. Abban a környezetben, ahol a kockázatot közvetlenül a célfüggvénybe építik be, exponenciális hasznossági formulát, kumulatív kilátáselméletet és koherens kockázati mértékeket vesznek figyelembe.
A kezdők és szakértők számára egyaránt megírt szöveget a szerzők teljesen önállóvá tették, ugyanakkor úgy szervezték, hogy a szakértő olvasók átugorhassák a háttérfejezeteket. Ez egy teljes körű útmutató a gépi tanulás ezen aspektusával foglalkozó hallgatók és kutatók számára.