首页 分享 机器学习系列(4)

机器学习系列(4)

来源:花匠小妙招 时间:2025-04-23 18:53

2022-05-26 590

版权

举报

版权声明:

本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

简介: 已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。

我们要解决的问题如下:

已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。

那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5,然后她就问你:“我家这朵鸢尾花到底属于哪个分类?”

一、检查数据

数据格式有无问题?
数据数值有无问题?
数据是否需要修复和删除?

表格说明:横行属于一朵花的数据 Sepal length/width:花萼的长度/宽度数据 Petal length/width:花瓣的长度/宽度数据 class:植物学家鉴定的花的类型

AI 代码解读

import seaborn as sns import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号 from datetime import datetime plt.figure(figsize=(16,10)) import pyecharts.options as opts from pyecharts.charts import Line from pyecharts.faker import Faker from pyecharts.charts import Bar import os from pyecharts.options.global_options import ThemeType

AI 代码解读

iris_data=pd.read_csv("iris.csv",na_values='NA') # na_values:在读取的时候直接将空值赋值为NA iris_data.head()

AI 代码解读

# 使用pairpoint进行检查,看看原始的数据是否有问题 sns.pairplot(iris_data.dropna())

AI 代码解读

sns.pairplot(iris_data.dropna(),hue='class')# hue='class' 按照class进行分类

AI 代码解读

二、清理数据

# 3 对数据进行修正 cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.5) iris_data.loc[cond]

AI 代码解读

iris_data.loc[iris_data['class']=='versicolor','class']='Iris-versicolor' iris_data.loc[iris_data['class']=='Iris-setossa','class']='Iris-setosa'

AI 代码解读

sns.pairplot(iris_data.dropna(),hue='class')

AI 代码解读

此时经过修正完之后,就只有三类数据了

显示图片:

from PIL import Image img = Image.open('test.jpg') plt.imshow(img) plt.show()

AI 代码解读

1、对缺失值NAN进行修正

# 对缺失值NAN进行修正(找出所有字段的缺失值) iris_data.loc[ (iris_data['sepal_width'].isnull()) | (iris_data['sepal_length'].isnull()) | (iris_data['petal_width'].isnull()) | (iris_data['petal_length'].isnull()) ]

AI 代码解读

找到的异常值:

# 使用mean均值对nan进行替换 irissetosa=iris_data['class']=='Iris-setosa' irissetosa avgpetalwd=iris_data.loc[irissetosa,'petal_width'].mean() avgpetalwd

AI 代码解读

iris_data.loc[irissetosa & (iris_data['petal_width'].isnull()),'petal_width']=avgpetalwd

AI 代码解读

2、对sepal_width异常数据进行纠正

分析:有图中该异常点的颜色可知,该数据是属于Iris-setosa,找到异常数据之后,填充为均值即可。

通过切片方式找到这个异常点:

cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.0) iris_data.loc[cond]

AI 代码解读

接下来寻找sepal_width的均值:

对异常值赋值为均值:

iris_data.loc[irissetosa & (cond),'sepal_width']=avgpetalwd

AI 代码解读

此时就没有异常数据了:

在来看看图片,如下图,异常点就消失了:

文章标签:

关键词:

目录

打赏

0

0

0

2

相关文章

|

6月前

|

实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!

【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。

189 2 2

|

1月前

|

基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型

本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。

197 0 0

|

6月前

|

R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域

【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。

130 2 2

|

6月前

|

从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!

【10月更文挑战第4天】在数据科学领域,模型评估是连接理论与实践的桥梁,帮助我们理解模型在未知数据上的表现。对于初学者而言,众多评估指标和工具常令人困惑。幸运的是,Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式,带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具,如交叉验证、评分函数(准确率、精确率、召回率、F1 分数)、混淆矩阵和 ROC 曲线等。

100 1 1

|

7月前

|

Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!

在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。

282 8 8

|

7月前

|

数据可视化大不同!Python数据分析与机器学习中的Matplotlib、Seaborn应用新视角!

在数据科学与机器学习领域,数据可视化是理解数据和优化模型的关键。Python凭借其强大的可视化库Matplotlib和Seaborn成为首选语言。本文通过分析一份包含房屋面积、卧室数量等特征及售价的数据集,展示了如何使用Matplotlib绘制散点图,揭示房屋面积与售价的正相关关系;并利用Seaborn的pairplot探索多变量间的关系。在机器学习建模阶段,通过随机森林模型展示特征重要性的可视化,帮助优化模型。这两个库在数据分析与建模中展现出广泛的应用价值。

90 2 2

热门文章

最新文章

相关知识

机器学习系列
开源书籍—鸢尾花书:从加减乘除到机器学习系列
机器学习=编程?NO!
[Python机器学习]鸢尾花分类 机器学习应用
Python机器学习基础教程
《机器学习》(西瓜书)学习笔记
机器学习笔记(通俗易懂)
机器学习术语表
鸢尾花分类,一个经典的机器学习教科书案例
【机器学习

网址: 机器学习系列(4) https://www.huajiangbk.com/newsview1786867.html

所属分类:花卉
上一篇: Developer guides
下一篇: 支付宝开放平台文档中心

推荐分享