11_Hindsight Experience Replay

1. 事后经验回放

该方法简称 HER，也可以叫事后诸葛亮算法，即虽然有些动作没有获得奖励，但是在学习经验时，仍然会取消一些行为的惩罚甚至给奖励。该方法只能用于异策略算法，如 DQN、DDPG、TD3 等。

在采样方面，和前面的模型预测控制一样，一次采一整个轨迹，首先在轨迹上随机抽一个状态 $s_{1}$ ，再确定一个状态 $s_{2}$ ，作为一个新的目标， $s_{2}$ 的选取有多种方法，这里只说一个：在该轨迹上从 $s_{1}$ 至最终状态里随机抽一个 $s_{2}$ ，然后计算 $s_{1}$ 的下一个状态 $s_{1}^{^{'}}$ 与 $s_{2}$ 的距离，设定一个阈值，如果比这个阈值小，就认为虽然没有完成任务，但是已经有所进步，故把 $s_{1}$ 的 $r_{1}$ 从惩罚变成不惩罚，或者改成奖励。

所以这个方法只是在经验池和采样方面做了修改，但是效果是不错的。原始情况下，智能体做了大量交互但是可能毫无奖励，因为奖励通常是很稀疏的，所以智能体长期学不到东西，通过 HER 算法把一些一无所获的探索也给出奖励，这样相当于鼓励了探索。

可以发现强化学习的很多改进算法都是在改进探索机制。比如 SAC 引入动作熵的概念强调探索和利用的平衡，