强化学习的方法分类

  • 基于价值

    价值函数 V

  • 基于动作

    动作函数 Q

  • Actor-Critic 动作+评论 , 学生听老师

价值和策略近似

使用深度网络等来模拟 状态价值函数和 动作价值函数

端到端强化学习

深度强化学习

前沿研究

image.png

目标策动 在 机器人、 游戏等用得多

将复杂任务,分割成多步中间状态,分步训练

目标策动 在 机器人、 游戏等用得多

将复杂任务,分割成多步中间状态,分步训练