动手学强化学习

作为《强化学习》系列的补充，专注于代码实操。Follow的上海交大张老师的教程。

基础篇

初探强化学习

”人生中充满选择，每次选择就是一次决策，我们正是从一次次决策中，把自己带领到人生的下一段旅程中。“

如何衡量一个policy是好是坏？其实在RL里就是通过state value / action来衡量的，因为通常模型已知（即\(p(s'|s,a), p(r|s,a)\)已知），所以通过bellman-equation可知，不同的policy（即\(\pi(a|s)\)）会产生不同的state value。因此通过观察state value，就可以知道policy是好是坏。