首页 分享 Python数据分析——寒假学习[1](鸢尾花数据集)

Python数据分析——寒假学习[1](鸢尾花数据集)

来源:花匠小妙招 时间:2024-11-14 13:07

数据探索(Exploratory Data Analysis, EDA)

在Python中,进行数据探索是数据分析和机器学习项目的重要步骤之一,数据探索的目标是更好地了解数据,解释数据中的模式、趋势和关系。

1-导入相关的工具模块

from sklearn import datasets

import pandas as pd

import matplotlib.pyplot as plt

2-导入数据集

iris=datasets.load_iris()

data=pd.DataFrame(data=iris.data,columns=iris.feature_names)

data['target']=iris.target

3-预览数据

data.info()

data.head()

data.describe()

4-探索分布

plt.figure(figsize=(10,6))

plt.scatter(data['sepal length (cm)'],data['sepal width (cm)'],c=data['target'],cmap='viridis')

plt.xlabel('Sepal Length(cm)')

plt.ylabel('Sepal Width(cm)')

plt.title('Sepal Length vs Sepal Width')

plt.show()

data['target'].hist()

5-相关性分析

correlation_matrix=data.corr()

print(correlation_matrix)

import seaborn as sns

sns.heatmap(correlation_matrix,annot=True,cmap='coolwarm',linewidths=0.5)

6-检测异常值、缺失值、重复值

异常值:异常值是指与数据集中大多数观测值明显不同的值。它们可能是数据记录中的极端值,通常比其他观测值要远离数据的中心趋势(例如均值或中位数)。异常值会对统计分析和建模产生负面影响。

plt.boxplot(data['petal length (cm)'])

plt.title('Boxplot of Petal Length')

plt.show()

data.isnull().sum()

data.duplicated()

data.duplicated().sum()

相关知识

《机器学习》分析鸢尾花数据集
分析鸢尾花数据集
鸢尾花数据集下载
卷积神经网络实现鸢尾花数据分类python代码实现
【机器学习实战】科学处理鸢尾花数据集
Python原生代码实现KNN算法(鸢尾花数据集)
深度学习花卉识别:Python数据集解析
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
机器学习数据集之鸢尾花
KNN算法实现鸢尾花数据集分类

网址: Python数据分析——寒假学习[1](鸢尾花数据集) https://www.huajiangbk.com/newsview546261.html

所属分类:花卉
上一篇: 数据分析(Python)入门—鸢
下一篇: 机器学习鸢尾花数据集

推荐分享