Prioritized Experience Replay

摘要

创新点：在抽取经验池中过往经验样本时，采取按优先级抽取的方法
改进：同上
改进原因：原来随机抽取经验忽略了经验之间的重要程度，实际上如人脑中一定会有更为重要的记忆
带来益处：使得算法更快收敛，效果更好

经验回放使得在线强化学习的agent能够记住和重新利用过去的经验，在以往的研究中，过去的经验（transition，经验池中的一条记录，表示为元祖形式，包含state，action，reward,discount factor,next state），只是通过均匀采样来获取。然而这种方法，只要原来有过这个经验，那么就跟别的经验以相同的概率会被再次利用，忽略了这些经验各自的重要程度。

本文我们提出了一种优先回放结构，这种方法可以使重要的经验被回放的概率大，从而使学习变得更有效率。

[x] Edit By Porter, 积水成渊,蛟龙生焉。

论文笔记7：Prioritized Experience Replay

本文标题:Prioritized Experience Replay

文章作者:

发布时间:2019-01-04, 22:55:03

最后更新:2024-06-14, 16:38:29

原始链接:https://blogs.porterpan.top/PrioritizedEP/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。