9.决策树
#####9 决策树##### #从理论上构建决策树 #1. 决策树的生成 #2. 生成数的剪枝 #分类树和回归树 #分类树是针对于目标变量为离散型的情况,即最终目标是预测各样本的所属类别。 #回归树适用于目标变量为连续型。 #####9.1.3 常用算法##### #CART和C4.5 #分类回归树CART,即可以建立分类树也可以建造回归树的算法。它是许多集成分类 #算法的基分类器。如Boosting和Random Forests等都以此为基础。 #C4.5是ID3的改进算法,两者都以熵理论和信息增益为基础。其算法的精髓所在,即 #是使用熵值或者信息增益值来确定使用哪个变量作为各节点的判定变量。 #####9.2 R中的实现##### #算法名称 软件包 核心函数 # rpart rpart(),prune.rpart(),post() #CART rpart.plot rpart.plot() # maptree draw.tree() #C4.5 RWeka J48() #####9.2.2 核心函数##### #1. rpart函数 #rpart(formula, data, weights, subset, na.action=na.rpart, method, model=FALSE, # x=FALSE, y=TRUE, parms, control, cost, ...) #其中,formult中放置想要建立模型的公式,即设置输入输出变量,格式为y~x1+x2+x3,当 #输出变量为了除了y的所有变量时,也可以用y~.来表示;data为待训练数据集;subset可 #以选择出data中的若干行样本来建立模型。 #na.action用来处理缺失值,其默认选择为na.rpart,即仅提出缺失y值,或缺失所有输入 #变量值的样本;method参数用于选择决策树的类型,包括anova、poisson、class和exp4种 #类型,在不进行设置时,R会自己来猜测,比如当y为因子变量时,默认取class型。其中, #anova型对于与我们所说的回归树,而class型则为分类树。 #control参数可参照rpart.control,即: #rpart.control(minsplit=20, minbucket=round(minsplit/3), cp=0.01, maxcompete=4, # maxsurrogate=5, usesurrogate=2, xval=10, surrogatestyle=0, maxdepth=30,...) #其中,minsplit表示每个节点中所含样本数的最小值,默认为20;minbucket则表示所含每 #个叶节点中所含样本数的最小值,默认取1/3的minsplit的四舍五入值;cp,即指复杂度参 #数,假设我们设置了cp=0.03,则表明在建模过程中仅保留可以使得模型拟合程度提升0.03及 #以上的节点,该参数的作用在于可以通过减去对模型贡献不大的分支,来提高算法效率; #maxdepth可控制数的高度,即设置节点层次的最大值,其中根节点的高度为0,以此类推。 #2. prune.rpart函数 #函数prune.rpart()可根据cp值对决策树进行剪枝,即减去cp值较小的不重要的分支。其格 #式为prune(tree,cp,...),放入决策树名称及cp值即可。 #3. rpart.plo
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051相关知识
决策树算法简介
决策树完成鸢尾花分类
基于决策树构建鸢尾花数据的分类模型并绘制决策树模型
分类算法3:决策树及R语言实现
决策树对鸢尾花数据的处理实践
决策树之鸢尾花卉实例解析
决策树可视化:鸢尾花数据集分类(附代码数据集)
实验——基于决策树算法完成鸢尾花卉品种预测任务
Python语言基于CART决策树的鸢尾花数据分类
鸢尾花分类与直方图、散点图的绘制及可视化决策树
网址: 9.决策树 https://www.huajiangbk.com/newsview854466.html
上一篇: 最近写完了一篇分析六... |
下一篇: 用数据说话,谁是2024春节档最 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039