首页分享机器学习系列(4)

机器学习系列(4)

来源：花匠小妙招时间：2025-04-23 18:53

2022-05-26 590

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：已知鸢尾花iris分为三个不同的类型：山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica，这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标（也可能还有其他参考）。我们并不知道具体的分类标准，但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定，我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。

我们要解决的问题如下：

已知鸢尾花iris分为三个不同的类型：山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica，这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标（也可能还有其他参考）。我们并不知道具体的分类标准，但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定，我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。

那么问题来了，你女朋友家的一株鸢尾花开花了,她测量了一下，花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5，然后她就问你：“我家这朵鸢尾花到底属于哪个分类？”

一、检查数据

数据格式有无问题？
数据数值有无问题？
数据是否需要修复和删除？

表格说明：横行属于一朵花的数据 Sepal length/width:花萼的长度/宽度数据 Petal length/width:花瓣的长度/宽度数据 class：植物学家鉴定的花的类型

AI 代码解读

import seaborn as sns import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号 from datetime import datetime plt.figure(figsize=(16,10)) import pyecharts.options as opts from pyecharts.charts import Line from pyecharts.faker import Faker from pyecharts.charts import Bar import os from pyecharts.options.global_options import ThemeType

AI 代码解读

iris_data=pd.read_csv("iris.csv",na_values='NA') # na_values:在读取的时候直接将空值赋值为NA iris_data.head()

AI 代码解读

# 使用pairpoint进行检查,看看原始的数据是否有问题 sns.pairplot(iris_data.dropna())

AI 代码解读

sns.pairplot(iris_data.dropna(),hue='class')# hue='class' 按照class进行分类

AI 代码解读

二、清理数据

# 3 对数据进行修正 cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.5) iris_data.loc[cond]

AI 代码解读

iris_data.loc[iris_data['class']=='versicolor','class']='Iris-versicolor' iris_data.loc[iris_data['class']=='Iris-setossa','class']='Iris-setosa'

AI 代码解读

sns.pairplot(iris_data.dropna(),hue='class')

AI 代码解读

此时经过修正完之后，就只有三类数据了

显示图片：

from PIL import Image img = Image.open('test.jpg') plt.imshow(img) plt.show()

AI 代码解读

1、对缺失值NAN进行修正

# 对缺失值NAN进行修正(找出所有字段的缺失值) iris_data.loc[ (iris_data['sepal_width'].isnull()) | (iris_data['sepal_length'].isnull()) | (iris_data['petal_width'].isnull()) | (iris_data['petal_length'].isnull()) ]

AI 代码解读

找到的异常值：

# 使用mean均值对nan进行替换 irissetosa=iris_data['class']=='Iris-setosa' irissetosa avgpetalwd=iris_data.loc[irissetosa,'petal_width'].mean() avgpetalwd

AI 代码解读

iris_data.loc[irissetosa & (iris_data['petal_width'].isnull()),'petal_width']=avgpetalwd

AI 代码解读

2、对sepal_width异常数据进行纠正

分析：有图中该异常点的颜色可知，该数据是属于Iris-setosa，找到异常数据之后，填充为均值即可。

通过切片方式找到这个异常点：

cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.0) iris_data.loc[cond]

AI 代码解读

接下来寻找sepal_width的均值：

对异常值赋值为均值：

iris_data.loc[irissetosa & (cond),'sepal_width']=avgpetalwd

AI 代码解读

此时就没有异常数据了：

在来看看图片，如下图，异常点就消失了：

文章标签：

关键词：

打赏

6月前

实战派教学：掌握Scikit-learn，轻松实现数据分析与机器学习模型优化！

【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具，简化了数据预处理、模型训练与评估流程，并提供丰富算法库。本文通过实战教学，详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤，助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优，每一步都配有示例代码，便于理解和实践。

189 2 2

1月前

基于机器学习的数据分析：PLC采集的生产数据预测设备故障模型

本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数，进行数据预处理和特征提取，选择合适的机器学习模型（如随机森林、XGBoost），并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查，强调模型预测应结合定期维护，确保系统稳定运行。

197 0 0

6月前

R语言是一种强大的统计分析工具，广泛应用于数据分析和机器学习领域

【10月更文挑战第21天】R语言是一种强大的统计分析工具，广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧，包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面，以帮助读者更好地掌握R语言的编程技巧，提高数据分析的效率。

130 2 2

6月前

从零到精通：Scikit-learn在手，数据分析与机器学习模型评估不再难！

【10月更文挑战第4天】在数据科学领域，模型评估是连接理论与实践的桥梁，帮助我们理解模型在未知数据上的表现。对于初学者而言，众多评估指标和工具常令人困惑。幸运的是，Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式，带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具，如交叉验证、评分函数（准确率、精确率、召回率、F1 分数）、混淆矩阵和 ROC 曲线等。

100 1 1

7月前

Python数据分析革命：Scikit-learn库，让机器学习模型训练与评估变得简单高效！

在数据驱动时代，Python 以强大的生态系统成为数据科学的首选语言，而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库，然后利用内置数据集进行数据准备，选择合适的模型（如逻辑回归），并通过交叉验证评估其性能。最终，使用模型对新数据进行预测，简化整个流程。无论你是新手还是专家，Scikit-learn 都能助你一臂之力。

282 8 8

7月前

数据可视化大不同！Python数据分析与机器学习中的Matplotlib、Seaborn应用新视角！

在数据科学与机器学习领域，数据可视化是理解数据和优化模型的关键。Python凭借其强大的可视化库Matplotlib和Seaborn成为首选语言。本文通过分析一份包含房屋面积、卧室数量等特征及售价的数据集，展示了如何使用Matplotlib绘制散点图，揭示房屋面积与售价的正相关关系；并利用Seaborn的pairplot探索多变量间的关系。在机器学习建模阶段，通过随机森林模型展示特征重要性的可视化，帮助优化模型。这两个库在数据分析与建模中展现出广泛的应用价值。

90 2 2