首页 分享 用sklearn做一个完整的机器学习工程——以波士顿房价预测为例(二、select a model and train it)

用sklearn做一个完整的机器学习工程——以波士顿房价预测为例(二、select a model and train it)

来源:花匠小妙招 时间:2024-11-14 12:55

最新推荐文章于 2024-10-11 13:03:22 发布

PythonstartL 于 2018-10-11 10:32:53 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

终于到了这一步了!你在前面限定了问题、获得了数据、探索了数据、采样了一个测试集、写了自动化的转换流水线来清理和为算法准备数据。现在,早就已经准备好选择并训练一个机器学习模型了。

那我们就从线性模型开始讲起吧!

普通的广义线性模型,都是拟合一个带有系数  的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:

,当然如果是做分类的话,请参照李航的logistic回归

在sklearn中广义线性模型也特别好实现

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()

lin_reg.fit(housing_prepared,housing_labels)

#输出权重

lin_reg.coef_

#去前6行数据进行评估

some_data = housing_prepared[:6]

some_labels = housing_labels[:6]

lin_reg.predict(some_data)#得到:

array([ 203682.37379543,  326371.39370781,  204218.64588245,
         58685.4770482 ,  194213.06443039,  156914.96268363])

实际值为 [ 286600.0,  340600.0,196900.0, 46300.0,254500.0,127900.0]相差有的大概差个20%左右吧

普通最小二乘法的缺点

对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。当各项是相关的,且设计矩阵  的各列近似线性相关&#

相关知识

机器学习术语表
机器学习入门——鸢尾花问题
谷歌出品!机器学习常用术语总结
机器学习常用术语
如何翻译和解释机器学习术语?请看 Google 官方答案 下
【机器学习】KNN算法实现鸢尾花分类
5 MLP版本的鸢尾花分类任务
Google发布机器学习术语表 (包括简体中文)
机器学习(04)——常用专业术语2
干货来袭,谷歌最新机器学习术语表

网址: 用sklearn做一个完整的机器学习工程——以波士顿房价预测为例(二、select a model and train it) https://www.huajiangbk.com/newsview545941.html

所属分类:花卉
上一篇: 机器学习系列
下一篇: 【机器学习】随机森林处理数据实践

推荐分享