什么是Sparse Reward

it2022-05-05 299

agent学习的过程中，常常无法及时获得回报。就像家长让小朋友写作业，小朋友可能觉得这个是负面的反馈而不去写作业（做作业让我觉得很痛苦qwq），而没有意识到以后会获得的巨大回报：写完作业后成绩提高，考上好大学，成为高富帅，从此走向巅峰赢取白富美...

如何让agent在Sparse Reward 中拥有更好的学习表现？

1.“写完作业就给糖吃”

把关键的一些动作强制地定义为正的reward，这样agent就不会反感这一学习行为，从而一步步走到最大的reward

2.“兴趣是最好的老师 ” Curiosity Module

尽管是一些风吹草动，很难让agent得到一些有用的反馈。这时让agent自己预测这个动作将来的reward，这样也能达到最终的效果。让agent预测做一个动作的未来的reward，从而使agent有兴趣的学习。

3.“制定学习计划” Curriculum Learning

人来设定agent的学习顺序，使agent以从易到难的顺序学习

4.阶层式强化学习 Hierarchical RL

由上层agent提出愿景，由最下层agent来执行动作

最新回复(0)