7_TD3
代码 13_TD3.ipynb
#机器学习/强化学习/连续动作 #机器学习/强化学习/异策略 #机器学习/强化学习/确定性策略
twin delayed DDPG
-
第一个技巧是,采用了两个评论员网络,谁给出的目标Q值小,就用谁的Q值,评论员网络也就是Q网络;
-
第三个技巧是,这里策略(演员)网络的更新也要延迟,策略网络更新太快会导致输出的动作很不稳定。并且更新方法采用和 DDPG 一样的软更新;
- 即时更新
- 原评论员网络
critic_1
和critic_2
直接梯度下降
- 原评论员网络
- 延迟更新
- 原演员网络
actor
直接梯度下降 - 目标评论员网络
target_critic_1
和target_critic_2
软更新 - 目标演员网络
target_actor
软更新
- 原演员网络