首页分享理解机器学习：树模型详解

理解机器学习：树模型详解

来源：花匠小妙招时间：2025-05-09 15:23

机器学习-树模型基础

最新推荐文章于 2024-04-30 15:43:14 发布

先不要昵称于 2018-10-17 19:58:37 发布

本文深入探讨了树模型的基础，包括二叉树与多叉树，以及树模型中的损失概念，如熵和Gini指标。介绍了ID3、C45和CART三种树模型的构建方法和区别，并讨论了特征类型、剪枝策略及其相关问题。树模型因其可解释性和训练速度而受到青睐，但泛化能力较弱。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习-树模型基础一、树模型的基础 1.1. 二叉树与多叉树 1.2. 树模型中的“损失” 二、树模型的构建 2.1. ID3 2.2. C45 2.3. CART 2.4. 叶子结点的表示三、树模型的讨论 3.1. 特征类型 3.2. 剪枝 3.3. 相关的问题

一、树模型的基础

1.1. 二叉树与多叉树

略。 1

1.2. 树模型中的“损失”

如果类比一般机器学习模型中的损失函数的概念，树模型中的“损失的下降”指的是树的一个结点分裂为多个子节点时，子节点的混乱程度之和是否要比父节点小。熵和Gini指标是表示混乱程度的两种经典的方式。

（1）熵：表示树的一个结点内部信息混乱程度。
E n t r o p y = − ∑ c = 1 C P ( c ) ∗ l o g 2 ( P ( c ) ) Entropy=-sum_{c=1}^CP(c)*log_2(P(c)) Entropy=−∑c=1CP(c)∗log2(P(c))，其中 C C C表示类别的数量， c c c表示第几个类， P ( c ) P(c) P(c)表示该类别出现的比例。熵是非负数，熵越小树的结点越纯。

举个例子，在树的一个结点中，如果存在A,B和C三个类别的数据，数量比例分别为20%，30%和50%，那么当前结点的熵值为： e n t r o p y = − 0.2 ∗ l o g 2 ( 0.2 ) − 0.3 ∗ l o g 2 ( 0.3 ) − 0.2 ∗ l o g 2 ( 0.5 ) = 1.4854 entropy=-0.2*log_2(0.2)-0.3*log_2(0.3)-0.2*log_2(0.5)=1.4854 entropy=−0.2∗log2(0.2)−0.3∗log2(0.3)−0.2∗log2(0.5)