作为《强化学习》系列的补充,专注于代码实操。Follow的上海交大张老师的教程。
基础篇
初探强化学习
”人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。“
如何衡量一个policy是好是坏?其实在RL里就是通过state value / action来衡量的,因为通常模型已知(即\(p(s'|s,a), p(r|s,a)\)已知),所以通过bellman-equation可知,不同的policy(即\(\pi(a|s)\))会产生不同的state value。因此通过观察state value,就可以知道policy是好是坏。