agent学习的过程中,常常无法及时获得回报。就像家长让小朋友写作业,小朋友可能觉得这个是负面的反馈而不去写作业(做作业让我觉得很痛苦qwq),而没有意识到以后会获得的巨大回报:写完作业后成绩提高,考上好大学,成为高富帅,从此走向巅峰赢取白富美...
这个一开始的暂时的小的reward 就叫 Sparse Reward
如何让agent在Sparse Reward 中拥有更好的学习表现?
1.“写完作业就给糖吃”
把关键的一些动作强制地定义为正的reward,这样agent就不会反感这一学习行为,从而一步步走到最大的reward
2.“兴趣是最好的老师 ” Curiosity Module
尽管是一些风吹草动,很难让agent得到一些有用的反馈。这时让agent自己预测这个动作将来的reward,这样也能达到最终的效果。让agent预测做一个动作的未来的reward,从而使agent有兴趣的学习。
3.“制定学习计划” Curriculum Learning
人来设定agent的学习顺序,使agent以从易到难的顺序学习
4.阶层式强化学习 Hierarchical RL
由上层agent提出愿景,由最下层agent来执行动作