Prioritized Experience Replay

摘要

  • 创新点:在抽取经验池中过往经验样本时,采取按优先级抽取的方法

  • 改进:同上

  • 改进原因: 原来随机抽取经验忽略了经验之间的重要程度,实际上如人脑中一定会有更为重要的记忆

  • 带来益处:使得算法更快收敛,效果更好

经验回放使得在线强化学习的agent能够记住和重新利用过去的经验,在以往的研究中,过去的经验(transition,经验池中的一条记录,表示为元祖形式,包含state,action,reward,discount factor,next state),只是通过均匀采样来获取。然而这种方法,只要原来有过这个经验,那么就跟别的经验以相同的概率会被再次利用,忽略了这些经验各自的重要程度。

本文我们提出了一种优先回放结构,这种方法可以使重要的经验被回放的概率大,从而使学习变得更有效率。

  • [x] Edit By Porter, 积水成渊,蛟龙生焉。

K近邻算法

摘要

K近邻算法(K-nearest neighbor, k-NN)是一种基本的分类与回归的方法。

k近邻算法:

输入:训练数据集

T=(x1,y1),(x2,y2)...,(xN,yN)T={(x_{1},y_{1}), (x_{2},y_{2})..., (x_{N},y_{N})}

其中

xiϵχRnx_{i}\epsilon \chi \subseteq R^{n}

为实例的特征向量

yiϵY=c1,c2......,cK,y_{i} \epsilon Y={c_{1}, c_{2}......, c_{K}, }

为实例的类别,i=1,2,…,N

输出:给定实例x,要能输出新给的特征向量所属y中的类

(1). 根据给定的距离度量,在训练集T中找出与x最邻近的k个点,涵盖这k个点的x的邻域基座 Nk(x)N_{k} (x) ;

(2). 在 Nk(x)N_{k} (x) 中根据分类决策规则(如多数表决表,对Nk(x)N_{k} (x) 进行排序,然后取出现频率最高的第k个点的类)决定x的类别y:

y=argmaxcj xiNk(x) I(yi=cj)y=arg\, \max_{c_{j}}^{\ } \sum_{x_{i}\subseteq N_{k}(x)}^{\ } I(y_{i}=c_{j})

其中I为指示函数,为$$y_{i}=c_{j}$$情况下, I = 1 否则I = 0

  • [x] Edit By Porter, 积水成渊,蛟龙生焉。

2.1 马尔科夫链

摘要

本篇文章笔记总结来自网络和书本,引用部分都有来源,内容主要介绍马尔科夫相关的性质和几个实例进行论述。状态空间中经过从一个状态到另一个状态的转换的随机过程,需要具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

  • [x] Edit By Porter, 积水成渊,蛟龙生焉。

网页设计基础笔记

Porter Pan

摘要

  • 网页效果图设计,可以Fireworks,也可以Photoshop以及其他的平面设计软件
  • 根据网页效果图进行切图

为什么要切图:提高网站下载速率,规律:能用CSS效果表现出来的就少用图像,也是为了提高下载速率

|