机器学习-树模型基础
最新推荐文章于 2024-04-30 15:43:14 发布

先不要昵称 于 2018-10-17 19:58:37 发布
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文深入探讨了树模型的基础,包括二叉树与多叉树,以及树模型中的损失概念,如熵和Gini指标。介绍了ID3、C45和CART三种树模型的构建方法和区别,并讨论了特征类型、剪枝策略及其相关问题。树模型因其可解释性和训练速度而受到青睐,但泛化能力较弱。
摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >
机器学习-树模型基础 一、树模型的基础 1.1. 二叉树与多叉树 1.2. 树模型中的“损失” 二、树模型的构建 2.1. ID3 2.2. C45 2.3. CART 2.4. 叶子结点的表示 三、树模型的讨论 3.1. 特征类型 3.2. 剪枝 3.3. 相关的问题 一、树模型的基础
1.1. 二叉树与多叉树
略。 1
1.2. 树模型中的“损失”
如果类比一般机器学习模型中的损失函数的概念,树模型中的“损失的下降”指的是树的一个结点分裂为多个子节点时,子节点的混乱程度之和是否要比父节点小。熵和Gini指标是表示混乱程度的两种经典的方式。
(1)熵:表示树的一个结点内部信息混乱程度。
E n t r o p y = − ∑ c = 1 C P ( c ) ∗ l o g 2 ( P ( c ) ) Entropy=-sum_{c=1}^CP(c)*log_2(P(c)) Entropy=−∑c=1CP(c)∗log2(P(c)),其中 C C C表示类别的数量, c c c表示第几个类, P ( c ) P(c) P(c)表示该类别出现的比例。熵是非负数,熵越小树的结点越纯。
举个例子,在树的一个结点中,如果存在A,B和C三个类别的数据,数量比例分别为20%,30%和50%,那么当前结点的熵值为: e n t r o p y = − 0.2 ∗ l o g 2 ( 0.2 ) − 0.3 ∗ l o g 2 ( 0.3 ) − 0.2 ∗ l o g 2 ( 0.5 ) = 1.4854 entropy=-0.2*log_2(0.2)-0.3*log_2(0.3)-0.2*log_2(0.5)=1.4854 entropy=−0.2∗log2(0.2)−0.3∗log2(0.3)−0.2∗log2(0.5)
相关知识
鸢尾花数据集可视化与机器学习模型评估
UCI机器学习数据库:数据集与应用详解
【机器学习】机器学习树模型中超参数优化方法
机器学习系列(4)
【机器学习】花卉识别01
机器学习鸢尾花数据集
Python机器学习基础教程
Python机器学习案例:鸢尾花分类
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能、RAG等11大系列集锦
用Python实现简单机器学习模型:以鸢尾花数据集为例
网址: 理解机器学习:树模型详解 https://www.huajiangbk.com/newsview1907301.html