人杰地灵东箭南金

🏠 首页 ⏳ 时间线 🏷️ 标签 🎲 漫步

❯

❯

❯

001-简介

2026年2月07日1分钟阅读

强化学习的方法分类

基于价值

价值函数 V
基于动作

动作函数 Q
Actor-Critic 动作+评论，学生听老师

价值和策略近似

使用深度网络等来模拟状态价值函数和动作价值函数

端到端强化学习

深度强化学习

前沿研究

目标策动在机器人、游戏等用得多

将复杂任务，分割成多步中间状态，分步训练

目标策动在机器人、游戏等用得多

将复杂任务，分割成多步中间状态，分步训练

关系图谱

强化学习的方法分类
价值和策略近似
端到端强化学习
前沿研究

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions
2026年3月20日
GSD+Superpowers
2026年3月20日
openpcdet-LION环境配置
2026年3月20日

Created with Quartz v4.5.2 © 2026

GitHub