摘要本节主要是学习TensorFlow的相关学习笔记,主要是基础的学习路线,包括简单的实例笔记等。
内容包括如下:
部分数学推导 部分代码实现 神经网络的优化过程 正则化过程数学推导 正则化过程代码实现 提示本部分是一个PDF手稿,暂时未整理排版,只能在电脑端预览本部分的PDF笔记,手机上的PDF笔记将不会显示出来。
[x] Edit By Porter, 积水成渊,蛟龙生焉。
第四章、神经网络优化针对《TensorFlow学习笔记》做相关学习笔记,这一段落主要记录神经网络的优化相关的知识。
4.1 正则化的理论知识 4.1.1 过拟合神经网络模型在训练数据集上表现很好,但是却在新的预测或者分类的数据集上的表现不是很理想,这就说明模型的泛化能力差,可能存在过拟合现象(也有可能是存在欠拟合的情况)
4.1.2 正则化在损失函数中给每个参数加上权重参数ω \omega ω 加上权重系数η \eta η ,引入模型复杂度指标,实现对模型的噪声抑制,避免最终的模型存在过拟合现象。
4.1.3 正则化的理论思路机器学习的大部分带参模型的结构基本上和如下模型形似,模型如下:
ω ∗ = a r g min ω ∑ i L ( y i , f ( x i ; ω ) ) + α Ω ( ω ) \omega^{*} = arg \min_{\omega} \sum_{i}^{} L(y_{i},f(x_{i};\omega)) + \alpha \Omega(\omega) ω ∗ = a r g ω min i ∑ L ( y i , f ( x i ; ω ) ) + α Ω ( ω )
其中$\alpha 为正则化系数 , 也是一个权值。 为正则化系数, 也是一个权值。 为 正 则 化 系 数 , 也 是 一 个 权 值 。 \Omega$是一个规则化函数。
规则化函数Ω \Omega Ω , 有很多种选择,一般是性复杂度的单调递增函数,模型越复杂,规则化值就越大。一般常见的比如L0范数, L1范数,迹范数,Frobenius范数和核范数等等。
J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) \widetilde{J}(\theta;X,y) = J(\theta;X,y)+\alpha \Omega(\theta) J ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ )
J ~ \widetilde{J} J 为正则化后的函数;
J ( θ ; X , y ) J(\theta;X,y) J ( θ ; X , y ) 为标准目标函数;
Ω \Omega Ω 是权衡范数惩罚项;
α ∈ [ 0 , ∝ ) \alpha \in [0, \propto) α ∈ [ 0 , ∝ ) 是权衡范数惩罚项Ω \Omega Ω 和标准目标函数J ( θ ; X , y ) J(\theta;X,y) J ( θ ; X , y ) 的相对贡献超参数;
注解1: 分类和回归问题的区别输入变量与输出变量均为连续变量的预测问题是回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
Logistic回归,也可以说是二分类的情况;
4.1.4 L 2 L^{2} L 2 参数正则化L 2 L_{2} L 2 范数可以防止过拟合,提升模型的泛化能力。
Ω ( θ ) = 1 2 ∣ ∣ ω ∣ ∣ 2 2 \Omega(\theta)=\frac{1}{2} ||\omega||^{2}_{2} Ω ( θ ) = 2 1 ∣ ∣ ω ∣ ∣ 2 2
为了简单的表示,我们假设不考虑偏置,模型中只存在权重系数ω \omega ω ,则θ = = ω \theta == \omega θ = = ω ,代入模型的总的目标函数,得到如下表达式。
J ~ ( ω ; X , y ) = J ( ω ; X , y ) + α 1 2 ∣ ∣ ω ∣ ∣ 2 2 = J ( ω ; X , y ) + α 2 ω ⊤ ω \widetilde{J}(\omega;X,y) = J(\omega;X,y)+\alpha \frac{1}{2} ||\omega||^{2}_{2} \\ = J(\omega;X,y)+ \frac{\alpha}{2} \omega^{\top}\omega J ( ω ; X , y ) = J ( ω ; X , y ) + α 2 1 ∣ ∣ ω ∣ ∣ 2 2 = J ( ω ; X , y ) + 2 α ω ⊤ ω
与之对应的梯度为:
▽ ω J ~ ( ω ; X , y ) = α ω + ▽ ω J ( ω ; X , y ) \triangledown_{\omega} \widetilde{J}(\omega;X,y)=\alpha \omega + \triangledown_{\omega}J(\omega;X,y) ▽ ω J ( ω ; X , y ) = α ω + ▽ ω J ( ω ; X , y )
使用单步梯度下降更新权重,即执行如下更新:
ω ← ω − ϵ ( α ω + ▽ ω J ( ω ; X , y ) ) \omega \leftarrow \omega - \epsilon(\alpha \omega + \triangledown_{\omega}J(\omega;X,y)) ω ← ω − ϵ ( α ω + ▽ ω J ( ω ; X , y ) )
这种写法对上面的进一步改写就是这样的
ω ← ω − ϵ ▽ ω J ~ ( ω ; X , y ) \omega \leftarrow \omega - \epsilon \triangledown_{\omega} \widetilde{J}(\omega;X,y) ω ← ω − ϵ ▽ ω J ( ω ; X , y )
有没有发现 $\epsilon 和梯度下降算法的学习率表达式还是有点相似 , 但是别忘了 和梯度下降算法的学习率表达式还是有点相似, 但是别忘了 和 梯 度 下 降 算 法 的 学 习 率 表 达 式 还 是 有 点 相 似 , 但 是 别 忘 了 \widetilde{J}和 和 和 J$两个表达式里面是不一样的。
4.1.5 L 1 L^{1} L 1 参数正则化类似,对模型参数ω \omega ω 的L 1 L^{1} L 1 正则化被定义为:
Ω ( θ ) = ∣ ∣ ω ∣ ∣ 1 = ∑ i ∣ ω i ∣ \Omega(\theta) = ||\omega||_{1} = \sum_{i}|\omega_{i}| Ω ( θ ) = ∣ ∣ ω ∣ ∣ 1 = i ∑ ∣ ω i ∣
对应的正则化目标函数为:
J ~ ( ω ; X , y ) = α ∣ ∣ ω ∣ ∣ 1 + J ( ω ; X , y ) \widetilde{ J}(\omega;X,y)=\alpha||\omega||_{1}+J(\omega;X,y) J ( ω ; X , y ) = α ∣ ∣ ω ∣ ∣ 1 + J ( ω ; X , y )
4.1.6 L 2 、 L 2 L^{2}、L^{2} L 2 、 L 2 参数正则化的区别为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解,如下图:
通过这个L 1 − b a l l L_{1}-ball L 1 − b a l l 和L 2 − b a l l L_{2}-ball L 2 − b a l l 图像可以看出,L 1 L_{1} L 1 和每隔坐标轴都有“角”的出现,最优解如果出现在轴上,代表对应的轴上的ω \omega ω 参数为0,例如图中的相交点就有w1=0,而更高维的时候(想象一下三维的L1-ball 是什么样的?)除了角点以外,还有很多边的轮廓也是既有很大的概率成为第一次相交的地方,又会产生稀疏性。
相比之下,L2-ball 就没有这样的性质,因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性,而L2-regularization 不行的原因了。
注解1: 批量梯度下降算法批量梯度下降算法(batch gradient descent)的公式为:
repeat until convergence{
θ j : = θ j − α ∂ ∂ j J ( θ 0 , θ 1 ) ( f o r j = 0 a n d j = 1 ) \theta_{j}: = \theta_{j} - \alpha \frac{\partial}{\partial _{j}}J(\theta_{0}, \theta_{1}) \qquad (for j = 0 \quad and \quad j = 1) θ j : = θ j − α ∂ j ∂ J ( θ 0 , θ 1 ) ( f o r j = 0 a n d j = 1 )
}
α \alpha α 就是学习率, 他决定了代价函数沿着梯度下降程度最大的方向向下迈出的下一步的步长;
其中代价函数的梯度代表下一步迈步的方向;
前面一个负号,代表,方向永远向着局部梯度最优点的方向;
参考来自: 4.2 正则化的代码实现 4.2.1 基础知识通过对未经正则化前的散点图和经过正则化后的散点图进行对比,我们可以发现,如果引入正则化后,所能够带来的优势。
4.2.1 TensorFlow基本函数tf.add_to_collection(‘list_name’,element) 将元素element添加到列表list_name中。
tf.get_collection(‘list_name’) 返回名称为list_name的列表
将列表元素相加并返回
Adam 这个名字来源于 adaptive moment estimation , 自适应矩估计,如果一个随机变量X服从某个分布,X的一阶矩是求取X样本的平均值,表示为E ( X ) E(X) E ( X ) 。X的二阶矩是表示求取样本的平方的平均值,表示为E ( X 2 ) E(X^{2}) E ( X 2 )
Adam 也是基于梯度下降的方法,但是每次迭代参数的学习步长都有一个确定的范围,不会因为很大的梯度导致很大的学习步长,参数的值比较稳定,AdamOptimizer通过动量(参数的移动平均数)来改善传统梯度下降,促进超参数动态调整。
1 2 3 4 5 6 7 8 9 10 11 12 13 import tensorflow as tftf.add_to_collection('losses' , tf.constant(2.2 )) tf.add_to_collection('losses' , tf.constant(3. )) with tf.Session() as sess: print (sess.run(tf.get_collection('losses' ))) print (sess.run(tf.add_n(tf.get_collection('losses' )) 结果: [2.2 , 3.0 ] 5.2 注意: 使用tf.add_n对列表元素进行相加时,列表内元素类型必须一致,否则会报错。
4.3 综合代码包括了正则化,包括指数衰减学习率
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 import numpy as npimport matplotlib.pyplot as pltseed = 2 def generateds (): rdm = np.random.RandomState(seed) X = rdm.randn(300 ,2 ) Y_ = [int (x0*x0 + x1*x1 <2 ) for (x0,x1) in X] Y_c = [['red' if y else 'blue' ] for y in Y_] X = np.vstack(X).reshape(-1 ,2 ) Y_ = np.vstack(Y_).reshape(-1 ,1 ) return X, Y_, Y_c def get_weight (shape, regularizer ): w = tf.Variable(tf.random_normal(shape), dtype=tf.float32) tf.add_to_collection('losses' , tf.contrib.layers.l2_regularizer(regularizer)(w)) return w def get_bias (shape ): b = tf.Variable(tf.constant(0.01 , shape=shape)) return b def forward (x, regularizer ): w1 = get_weight([2 ,11 ], regularizer) b1 = get_bias([11 ]) y1 = tf.nn.relu(tf.matmul(x, w1) + b1) w2 = get_weight([11 ,1 ], regularizer) b2 = get_bias([1 ]) y = tf.matmul(y1, w2) + b2 return y