机器学习系列(4)
2022-05-26 590
版权
举报
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介: 已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。
我们要解决的问题如下:
已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。
那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5,然后她就问你:“我家这朵鸢尾花到底属于哪个分类?”
一、检查数据
数据格式有无问题?
数据数值有无问题?
数据是否需要修复和删除?
表格说明:横行属于一朵花的数据 Sepal length/width:花萼的长度/宽度数据 Petal length/width:花瓣的长度/宽度数据 class:植物学家鉴定的花的类型
AI 代码解读
import seaborn as sns import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号 from datetime import datetime plt.figure(figsize=(16,10)) import pyecharts.options as opts from pyecharts.charts import Line from pyecharts.faker import Faker from pyecharts.charts import Bar import os from pyecharts.options.global_options import ThemeType
AI 代码解读
iris_data=pd.read_csv("iris.csv",na_values='NA') # na_values:在读取的时候直接将空值赋值为NA iris_data.head()
AI 代码解读
# 使用pairpoint进行检查,看看原始的数据是否有问题 sns.pairplot(iris_data.dropna())
AI 代码解读
sns.pairplot(iris_data.dropna(),hue='class')# hue='class' 按照class进行分类
AI 代码解读
二、清理数据
# 3 对数据进行修正 cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.5) iris_data.loc[cond]
AI 代码解读
iris_data.loc[iris_data['class']=='versicolor','class']='Iris-versicolor' iris_data.loc[iris_data['class']=='Iris-setossa','class']='Iris-setosa'
AI 代码解读
sns.pairplot(iris_data.dropna(),hue='class')
AI 代码解读
此时经过修正完之后,就只有三类数据了
显示图片:
from PIL import Image img = Image.open('test.jpg') plt.imshow(img) plt.show()
AI 代码解读
1、对缺失值NAN进行修正
# 对缺失值NAN进行修正(找出所有字段的缺失值) iris_data.loc[ (iris_data['sepal_width'].isnull()) | (iris_data['sepal_length'].isnull()) | (iris_data['petal_width'].isnull()) | (iris_data['petal_length'].isnull()) ]
AI 代码解读
找到的异常值:
# 使用mean均值对nan进行替换 irissetosa=iris_data['class']=='Iris-setosa' irissetosa avgpetalwd=iris_data.loc[irissetosa,'petal_width'].mean() avgpetalwd
AI 代码解读
iris_data.loc[irissetosa & (iris_data['petal_width'].isnull()),'petal_width']=avgpetalwd
AI 代码解读
2、对sepal_width异常数据进行纠正
分析:有图中该异常点的颜色可知,该数据是属于Iris-setosa,找到异常数据之后,填充为均值即可。
通过切片方式找到这个异常点:
cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.0) iris_data.loc[cond]
AI 代码解读
接下来寻找sepal_width的均值:
对异常值赋值为均值:
iris_data.loc[irissetosa & (cond),'sepal_width']=avgpetalwd
AI 代码解读
此时就没有异常数据了:
在来看看图片,如下图,异常点就消失了:
文章标签:
关键词:
目录
打赏
0
0
0
2
相关文章
|
6月前
|
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
189 2 2
|
1月前
|
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
197 0 0
|
6月前
|
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
130 2 2
|
6月前
|
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【10月更文挑战第4天】在数据科学领域,模型评估是连接理论与实践的桥梁,帮助我们理解模型在未知数据上的表现。对于初学者而言,众多评估指标和工具常令人困惑。幸运的是,Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式,带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具,如交叉验证、评分函数(准确率、精确率、召回率、F1 分数)、混淆矩阵和 ROC 曲线等。
100 1 1
|
7月前
|
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
282 8 8
|
7月前
|
数据可视化大不同!Python数据分析与机器学习中的Matplotlib、Seaborn应用新视角!
在数据科学与机器学习领域,数据可视化是理解数据和优化模型的关键。Python凭借其强大的可视化库Matplotlib和Seaborn成为首选语言。本文通过分析一份包含房屋面积、卧室数量等特征及售价的数据集,展示了如何使用Matplotlib绘制散点图,揭示房屋面积与售价的正相关关系;并利用Seaborn的pairplot探索多变量间的关系。在机器学习建模阶段,通过随机森林模型展示特征重要性的可视化,帮助优化模型。这两个库在数据分析与建模中展现出广泛的应用价值。
90 2 2
热门文章
最新文章
相关知识
机器学习系列
开源书籍—鸢尾花书:从加减乘除到机器学习系列
机器学习=编程?NO!
[Python机器学习]鸢尾花分类 机器学习应用
Python机器学习基础教程
《机器学习》(西瓜书)学习笔记
机器学习笔记(通俗易懂)
机器学习术语表
鸢尾花分类,一个经典的机器学习教科书案例
【机器学习
网址: 机器学习系列(4) https://www.huajiangbk.com/newsview1786867.html
上一篇: Developer guides |
下一篇: 支付宝开放平台文档中心 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039