加载中...

决策树

发表于2025-10-14|更新于2025-10-14|ML&DL笔记

|总字数:673|阅读时长:2分钟

决策树

参考教程：(超爽中英!) 2025公认最好的【吴恩达机器学习】教程！附课件代码 Machine Learning Specialization

C2 - Advanced Learning Algorithms-week4

学习过程

测量纯度

$H(p_1)$表示$p_1$的熵值，表示不纯度，熵值越大表示样本集越不纯（pure）

熵函数：

$p_0=1-p_1$

$H(p_1)=-p_1log_2(p_1)-p_0log_2(p_0)=-p_1log_2(p_1)-(1-p_1)log_2(1-p_1)$

取log的底数为2使得函数的峰值为1，把0log(0)看作0

选择拆分信息增益

熵：$H(p)=-\sum_{i=1}^{n}p_ilog_2p_i$

条件熵：$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$

信息增益：$g(X,Y)=H(Y)-H(Y|X)$

整合

使用独热编码

当决策树中的某个特征的离散值数量超过两个时可以使用 one hot encoding

连续的有价值特征

为了让决策树在每个节点处理连续数值特征时能够进行分割，只需要考虑不同的值进行分割，进行常规的信息增益计算，然后选择能够提供最大的可能信息增益的特征值。

回归树

引入各动物的重量(weight)

选择分割特征的一种好方法是选择加权方差最低的值。

使用多个决策树

树集成(tree ensemble)使算法变得不那么敏感和更加稳健

在新样本上运行这三棵树，并让它们对最终预测进行投票，这使得整体算法对任何单颗树的影响变得不那么敏感。

放回抽样是构建树集成的关键构件，用于构建一个与原始数据集不太相同的“新”数据集。

随机森林算法

当B值远大于某个值时会面临收益递减，实际效果不会有明显提升，反而会减慢计算速度。

把袋装决策树转换为随机森林的关键思想：在每个节点随机化特征选择，这种技术往往更多用于具有大量特征的更大问题，这探索并平均了训练集的许多小变化

k的一个典型选择时选择$\sqrt(n)$

XGBoost

以更高的概率选择那些在目前构建的树集合中表现较差（分类出错）的样本

XGBoost不需要生成大量随机选择的训练集，比有放回采样程序更高效

什么时候用决策树

决策树和集成树作用在表格化（结构化）数据上效果更好

决策树和集成树运行速度更快

可以用梯度下降方法同时训练多个串联的神经网络，而决策树一次只能训练一个

文章作者: Lee

文章链接: http://www.lee666.xyz/2025/10/14/ML&DL笔记/决策树/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Lee的学习之旅！

相关推荐

机器学习策略

1.1 为什么是ML策略 ML策略有助于快速地判断哪些想法是靠谱的，或者甚至提出新的想法 1.2 正交化 Orthogonalization：每次只调整部分性质，而其他性质不改变，从而调整整体模型，即调整时各个性质之间不会相互影响 1.3 单一数字评估指标查准率（P）：识别到是cat的样本中实际上确实为cat的图片的百分比查全率（R）：对所有cat的图片，模型识别出的图片所占的百分比单一数字评估指标 F1分数：P和R的调和平均数($\frac{2}{\frac{1}{P}+\frac{1}{R}}$) 1.4 满足和优化指标若有N个指标，则选择其中1个作为优化指标，其他N-1个作为满足指标，满足指标的运行结果只要到达某一个阈值即可。 1.5 训练_开发__测试集划分开发集和训练集必须要处于同一分布中

提升神经网络的性能

Course 21.10 梯度消失与梯度爆炸梯度函数呈指数级增长或指数级递减，导致训练难度上升梯度下降算法的步长需要非常小，要花费很长时间来学习 1.11 神经网络的权重随机初始化当使用ReLU函数时设置初始权重的方差为2/n,使用其他激活函数（如tanh）时可设置方差为1/n，降低梯度消失和爆炸问题目的是为了训练出权重和梯度不会增长或消失过快的深度网络 1.12 梯度的数值逼近双边公差为3.0001，单边公差为3.0301，双边误差比单边误差更小 1.13 梯度检验检查误差的式子中的分母用于预防向量太小或太大 1.14 关于梯度检验实现的注记使用dropout正则化后很难计算代价函数J，因此不能同时使用dropout正则化和梯度检验在随机初始化过程中运行梯度检验，然后再训练网络，此时w和b不接近于0，可以更好地确定w和b；若随机初始化值比较小，则反复训练神经网络之后再重新运行梯度检验 2.1 Mini-batch 梯度下降法 mini-batch梯度下降法比batch梯度下降法运行地更快 2.2...

卷积神经网络

1.2 边缘检测示例示例中为灰度图像，所以图片维度为(6,6,1) 1.4 Padding 在边缘填充像素，padding为填充的像素层数当$p=\frac{f-1}{2}$时输出的图像大小和原图像大小一样，f通常是奇数，推荐只用f为奇数的过滤器 1.5 卷积步长目标矩阵为$n\times n$，内核大小为$f \times f$，padding为p,strides为2,则卷积得出的矩。阵大小为$(\llcorner\frac{n+2p-f}{s}+1\lrcorner) \times (\llcorner\frac{n+2p-f}{s}+1\lrcorner)$,其中对结果进行向下取整。数学教科书中的卷积运算在进行之前要先将内核矩阵根据负对角线进行翻转然后才继续操作。计算机的卷积运算在数学层面上叫做互相关，不需要进行翻转。 1.6...

数据加载中