参考文献:迁移强化学习, 迁移学习在强化学习中的应用及进展

相同状态动作空间下的迁移(the same state(observation)-action transfer)

  • 迁移内容:
    • 具体知识(specific knowledge):
      • 策略(policy):
        • 直接更新(reuse for update):直接使用知识对策略或者值函数进行更新,如策略蒸馏
        • 辅助探索(reuse for exploration):使用源域上的知识帮助目标域上的智能体去探索,如策略复用
      • 价值函数(value function)
      • 示范(demonstrations)
    • 抽象知识(abstract knowledge)