强化学习的方法分类
-
基于价值
价值函数 V
-
基于动作
动作函数 Q
-
Actor-Critic 动作+评论 , 学生听老师
价值和策略近似
使用深度网络等来模拟 状态价值函数和 动作价值函数
端到端强化学习
深度强化学习
前沿研究

目标策动 在 机器人、 游戏等用得多
将复杂任务,分割成多步中间状态,分步训练
目标策动 在 机器人、 游戏等用得多
将复杂任务,分割成多步中间状态,分步训练
基于价值
价值函数 V
基于动作
动作函数 Q
Actor-Critic 动作+评论 , 学生听老师
使用深度网络等来模拟 状态价值函数和 动作价值函数
深度强化学习

目标策动 在 机器人、 游戏等用得多
将复杂任务,分割成多步中间状态,分步训练
目标策动 在 机器人、 游戏等用得多
将复杂任务,分割成多步中间状态,分步训练