7_TD3

代码 13_TD3.ipynb

#机器学习/强化学习/连续动作 #机器学习/强化学习/异策略 #机器学习/强化学习/确定性策略

twin delayed DDPG

  1. 第一个技巧是,采用了两个评论员网络,谁给出的目标Q值小,就用谁的Q值,评论员网络也就是Q网络;

  2. 第二个技巧是,目标网络需要延迟更新,在 DDPG 之前的 DQN 中就已经这样操作了;

  3. 第三个技巧是,这里策略(演员)网络的更新也要延迟,策略网络更新太快会导致输出的动作很不稳定。并且更新方法采用和 DDPG 一样的软更新;