Python数据分析——寒假学习[1](鸢尾花数据集)
数据探索(Exploratory Data Analysis, EDA)
在Python中,进行数据探索是数据分析和机器学习项目的重要步骤之一,数据探索的目标是更好地了解数据,解释数据中的模式、趋势和关系。
1-导入相关的工具模块
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
2-导入数据集
iris=datasets.load_iris()
data=pd.DataFrame(data=iris.data,columns=iris.feature_names)
data['target']=iris.target
3-预览数据
data.info()
data.head()
data.describe()
4-探索分布
plt.figure(figsize=(10,6))
plt.scatter(data['sepal length (cm)'],data['sepal width (cm)'],c=data['target'],cmap='viridis')
plt.xlabel('Sepal Length(cm)')
plt.ylabel('Sepal Width(cm)')
plt.title('Sepal Length vs Sepal Width')
plt.show()
data['target'].hist()
5-相关性分析
correlation_matrix=data.corr()
print(correlation_matrix)
import seaborn as sns
sns.heatmap(correlation_matrix,annot=True,cmap='coolwarm',linewidths=0.5)
6-检测异常值、缺失值、重复值
异常值:异常值是指与数据集中大多数观测值明显不同的值。它们可能是数据记录中的极端值,通常比其他观测值要远离数据的中心趋势(例如均值或中位数)。异常值会对统计分析和建模产生负面影响。
plt.boxplot(data['petal length (cm)'])
plt.title('Boxplot of Petal Length')
plt.show()
data.isnull().sum()
data.duplicated()
data.duplicated().sum()
相关知识
《机器学习》分析鸢尾花数据集
分析鸢尾花数据集
鸢尾花数据集下载
卷积神经网络实现鸢尾花数据分类python代码实现
【机器学习实战】科学处理鸢尾花数据集
Python原生代码实现KNN算法(鸢尾花数据集)
深度学习花卉识别:Python数据集解析
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
机器学习数据集之鸢尾花
KNN算法实现鸢尾花数据集分类
网址: Python数据分析——寒假学习[1](鸢尾花数据集) https://www.huajiangbk.com/newsview546261.html
上一篇: 数据分析(Python)入门—鸢 |
下一篇: 机器学习鸢尾花数据集 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039