加载中...

提升神经网络的性能

发表于2025-10-10|更新于2025-11-11|ML&DL笔记

|总字数:2.5k|阅读时长:8分钟

Course 2

1.10 梯度消失与梯度爆炸

梯度函数呈指数级增长或指数级递减，导致训练难度上升

梯度下降算法的步长需要非常小，要花费很长时间来学习

1.11 神经网络的权重随机初始化

当使用ReLU函数时设置初始权重的方差为2/n,使用其他激活函数（如tanh）时可设置方差为1/n，降低梯度消失和爆炸问题

目的是为了训练出权重和梯度不会增长或消失过快的深度网络

1.12 梯度的数值逼近

双边公差为3.0001，单边公差为3.0301，双边误差比单边误差更小

1.13 梯度检验

检查误差的式子中的分母用于预防向量太小或太大

1.14 关于梯度检验实现的注记

使用dropout正则化后很难计算代价函数J，因此不能同时使用dropout正则化和梯度检验

在随机初始化过程中运行梯度检验，然后再训练网络，此时w和b不接近于0，可以更好地确定w和b；若随机初始化值比较小，则反复训练神经网络之后再重新运行梯度检验

2.1 Mini-batch 梯度下降法

mini-batch梯度下降法比batch梯度下降法运行地更快

2.2 理解mini-batch梯度下降法

mini-batch梯度下降曲线的噪声（波动）产生的原因是每个批计算得出的cost不同，可大可小，分批进行计算梯度就会产生这样的波动，总体没问题

mini-batch大小为m（样本总数量）时最终结果最准确，总是向着最小值的方向靠近，但是每次迭代的耗时很长

mini-batch大小为1时即随机梯度下降，最终结果会一直在最小值附近波动但是不会停留在最小值，通过减小学习率可以改善或减少噪声，但是最大缺点是失去了向量化的加速作用

中等大小的mini-batch不会总是向着最小值方向靠近，但是比随机梯度下降更持续地靠近最小值方向，同时通过矢量化加速后训练速度更快

2.3 指数加权平均

第t天的温度为 $V_t=\beta V_{t-1}+(1-\beta)\theta_t$ ，其中$\theta_t$为第t天的温度

$V_t$相当于前$\frac{1}{1-\beta}$天的温度平均值

$\beta$为0.9时为红线，增长速度较恰当

$\beta$为0.98时为绿线，是前50天的温度平均值，因此增长较慢曲线较平缓

$\beta$为0.5时为黄线，前2天的温度平均值，平均的样本太少因此噪音大

2.4 理解指数加权平均

如图所示，上面的坐标图为样本点分布，下面的坐标图为每个$\theta$的系数的分布，根据参数$\beta$可知系数分布呈指数形式$0.1\times (0.9)^{100-t}$。而拟合后的曲线的每个样本点的值则为上方的前$\frac{1}{1-\beta}$个样本点的值分别乘下方的前$\frac{1}{1-\beta}$个样本点的值后的求和。

所有系数之和近似为1。

由于有公式$(1-\epsilon)^{\frac{1}{\epsilon}}=\frac{1}{e}$，因此当$\beta$为0.9时$\epsilon=1-\beta=0.1$,此时往前数第$\frac{1}{\epsilon}=10$天即$V_{90}$的系数值恰好为当天系数值的$\frac{1}{e}$，因此当$\beta=0.9$时$V_t$的值为前10天的温度的平均值。

由此可推出$V_t$相当于前$\frac{1}{1-\beta}$天的温度平均值，这是大致的思考方向而不是数学证明。

实际执行：

2.5 指数加权平均的偏差修正

若$V_0$为0则计算$V_1$和$V_2$时得出的结果会偏小，即如图中紫色曲线所示，刚开始的几个点的值会比绿色线的值小，到了后面才重合。

为了修正偏差，采用公式$\frac{V_t}{1-\beta^t}$对$V_t$进行修正，当t较小时修正效果明显，当t较大时分母趋近于1而计算结果近似于原来的值，因此起到了对刚开始的几个点的值的修正作用。

2.6 动量梯度下降法

因为纵轴方向上的分量的均值接近于0，因此使用指数加权平均后梯度下降曲线在纵轴方向上的波动小了很多，减少了不必要的计算。

同时因为在横轴方向上的分量始终向着最小值方向，因此在横轴方向上下降的速度比使用动量梯度下降法之前要快。

比喻：就像一个球在从碗边往下滚，$\beta$相当于摩擦力，$V_{dw}$和$V_{db}$相当于速度，$dw$和$db$相当于加速度。

$\beta =0.9$是很棒的鲁棒数，效果很好

使用梯度下降法或Momentum时通常不会受到偏差修正的困扰，因此无须进行偏差修正

有的论文会删去$dW$的系数$(1-\beta)$，这两种方法效果都很好，只会影响到学习率$\alpha$的最佳值。通常不倾向于这么做，因为调整参数会很麻烦。

2.7 RMSprop

全称为root mean square prop

$S_{dW}=\beta S_{dW}+（1-\beta）(dW)^2$

$S_{db}=\beta S_{db}+（1-\beta）(db)^2$

$W:=W-\alpha\times\frac{dW}{\sqrt{S_{dW}}}$

$b:=b-\alpha\times\frac{db}{\sqrt{S_{db}}}$

若$dW$较小而$db$较大，则得出的W较大而b较小，结果就是纵轴（b方向）上摆动较小而横轴（W方向）上继续推进，这样就可以用一个更大的学习率$\alpha$来加速学习。

实际上$dW$和$db$都是高纬度向量，但是RMSprop算法始终能够去掉那些有摆动的方向。

实际中要在分母加上一个很小的值$\epsilon$，防止分母为0，$\epsilon$为多少没关系。

2.8 Adam 优化算法

该算法被证明能够有效适用于不同神经网络

参数默认值如下：

需要调整学习率$\alpha$，其余的通常选择默认值。

2.9 学习率衰减

本质在于在学习初期，能够承受较大的步伐，但当开始收敛的时候，小一些的学习率能够让步伐小一些去靠近最优值。

$\alpha=\frac{1}{1+DecayRate*EpochNum}\times\alpha_0$

其他衰减方式：

2.10 局部最优问题

plateaus 平稳期

3.1 调试处理

要调试的参数重要性（用方框颜色表示）：红>黄>紫

随机取值

从粗糙到精细，缩小范围进行搜索

3.2 为超参数选择合适的范围

在数轴上取值的过程，不用随机均匀取值法，要按图中的方法

在图中最小值的对数为a，最大值的对数为b

原因：当参数$\beta$接近1即$(1-\beta)$接近0时灵敏度会变化，即使参数值变化很小，所以要给接近1的区间分配更多搜索资源

3.3 超参数训练的实践：Pandas VS Caviar

3.4 正则化网络的激活函数

输入特征值X常被归一化为均值为0方差为1，而我们可能可以希望可以自由选择隐藏单元被归一化后的均值和方差

通过赋予$\gamma$和$\beta$来构造含其他平均值和方差的隐藏单元值，其中$Z_{norm}^{(i)}$矩阵中的元素均值为0方差为1

注意，这里的$\beta$跟momentum和Adam中的$\beta$没有关系，两者完全不同

3.5 将 Batch Norm 拟合进神经网络

注意，这里的$\beta$跟momentum和Adam中的$\beta$没有关系，两者完全不同

因为在对$Z^{[l]}$归一化减去均值的时候会把参数$b^[l]$消去，所以可以把参数$b^[l]$省略

总体算法流程：

3.6 Batch Norm 为什么奏效？

1、batch归一化限制了在前层的参数更新，影响数值分布的程度，使得中间参数的数值分布更稳定，因此batch归一化减少了输入值改变的问题。

它减弱了前层参数的作用与后层参数的作用之间的联系，使得网络每层都可以自己学习，稍稍独立于其他层，有助于加速整个网络的学习。

2、batch归一化有轻微的正则化效果，因为给隐藏单元的参数添加了微小的噪音，这迫使后层的单元不过分依赖于任何一个隐藏单元。

可以将batch归一化和dropout一起使用

如果使用了batch-size较大的batch会轻微减少正则化效果，这是dropout一个奇怪的性质

不要把batch归一化当做正则化的方式，用来加速学习了会有意想不到的副作用

3.7 测试时的 Batch Norm

$\theta$为对应隐藏层的Z的均值的估值,X_{i}为第i个mini-batch对应的输入特征值

可以根据每个mini-batch训练出的结果用指数加权平均来追踪求得在对应层的$\sigma^2$和$\mu$的值

根据训练集估算$\mu$和$\sigma^2$，然后在测试集对隐藏单元的Z值进行调整

3.8 Softmax 回归

最后一层softmax的输出$a^{[l]}$为结果是各个类别的可能性

特殊性：输入一个向量，最后输出一个向量

图中为Softmax分类器没有隐藏层的情况下的分类结果，决策边界均为线性，使用含有隐藏层的神经网络可以学习更复杂的非线性决策边界。

3.9 训练一个 Softmax 分类器

Hardmax：最大的元素输出为1，其他的输出为0

3.10 深度学习框架

文章作者: Lee

文章链接: http://www.lee666.xyz/2025/10/10/ML&DL笔记/深度学习笔记-Course2/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Lee的学习之旅！

相关推荐

机器学习策略

1.1 为什么是ML策略 ML策略有助于快速地判断哪些想法是靠谱的，或者甚至提出新的想法 1.2 正交化 Orthogonalization：每次只调整部分性质，而其他性质不改变，从而调整整体模型，即调整时各个性质之间不会相互影响 1.3 单一数字评估指标查准率（P）：识别到是cat的样本中实际上确实为cat的图片的百分比查全率（R）：对所有cat的图片，模型识别出的图片所占的百分比单一数字评估指标 F1分数：P和R的调和平均数($\frac{2}{\frac{1}{P}+\frac{1}{R}}$) 1.4 满足和优化指标若有N个指标，则选择其中1个作为优化指标，其他N-1个作为满足指标，满足指标的运行结果只要到达某一个阈值即可。 1.5 训练_开发__测试集划分开发集和训练集必须要处于同一分布中

决策树参考教程：(超爽中英!) 2025公认最好的【吴恩达机器学习】教程！附课件代码 Machine Learning Specialization C2 - Advanced Learning Algorithms-week4 学习过程测量纯度 $H(p_1)$表示$p_1$的熵值，表示不纯度，熵值越大表示样本集越不纯（pure）熵函数： $p_0=1-p_1$ $H(p_1)=-p_1log_2(p_1)-p_0log_2(p_0)=-p_1log_2(p_1)-(1-p_1)log_2(1-p_1)$ 取log的底数为2使得函数的峰值为1，把0log(0)看作0 选择拆分信息增益熵：$H(p)=-\sum_{i=1}^{n}p_ilog_2p_i$ 条件熵：$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$ 信息增益：$g(X,Y)=H(Y)-H(Y|X)$ 整合使用独热编码当决策树中的某个特征的离散值数量超过两个时可以使用 one hot...

卷积神经网络

1.2 边缘检测示例示例中为灰度图像，所以图片维度为(6,6,1) 1.4 Padding 在边缘填充像素，padding为填充的像素层数当$p=\frac{f-1}{2}$时输出的图像大小和原图像大小一样，f通常是奇数，推荐只用f为奇数的过滤器 1.5 卷积步长目标矩阵为$n\times n$，内核大小为$f \times f$，padding为p,strides为2,则卷积得出的矩。阵大小为$(\llcorner\frac{n+2p-f}{s}+1\lrcorner) \times (\llcorner\frac{n+2p-f}{s}+1\lrcorner)$,其中对结果进行向下取整。数学教科书中的卷积运算在进行之前要先将内核矩阵根据负对角线进行翻转然后才继续操作。计算机的卷积运算在数学层面上叫做互相关，不需要进行翻转。 1.6...

数据加载中