11_Hindsight Experience Replay
1. 事后经验回放
该方法简称 HER,也可以叫事后诸葛亮算法,即虽然有些动作没有获得奖励,但是在学习经验时,仍然会取消一些行为的惩罚甚至给奖励。该方法只能用于异策略算法,如 DQN、DDPG、TD3 等。
在采样方面,和前面的模型预测控制一样,一次采一整个轨迹,首先在轨迹上随机抽一个状态
所以这个方法只是在经验池和采样方面做了修改,但是效果是不错的。原始情况下,智能体做了大量交互但是可能毫无奖励,因为奖励通常是很稀疏的,所以智能体长期学不到东西,通过 HER 算法把一些一无所获的探索也给出奖励,这样相当于鼓励了探索。
可以发现强化学习的很多改进算法都是在改进探索机制。比如 SAC 引入动作熵的概念强调探索和利用的平衡,