迁移强化学习
条评论参考文献:迁移强化学习, 迁移学习在强化学习中的应用及进展
相同状态动作空间下的迁移(the same state(observation)-action transfer)
- 迁移内容:
- 具体知识(specific knowledge):
- 策略(policy):
- 直接更新(reuse for update):直接使用知识对策略或者值函数进行更新,如策略蒸馏
- 辅助探索(reuse for exploration):使用源域上的知识帮助目标域上的智能体去探索,如策略复用
- 价值函数(value function)
- 示范(demonstrations)
- 策略(policy):
- 抽象知识(abstract knowledge)
- 具体知识(specific knowledge):