首页分享 R 中鸢尾花数据集的完整指南

R 中鸢尾花数据集的完整指南

来源：花匠小妙招时间：2024-11-14 13:05

iris数据集是 R 中的集成数据集，包含 3 个不同物种的 50 朵花的 4 个不同属性（以厘米为单位）的测量值。

本教程以 iris 数据集为例，介绍如何在 R 中探索和总结数据集。

相关： R 中 mtcars 数据集的完整指南

加载鸢尾花数据集

由于iris数据集是R中的内置数据集，我们可以使用以下命令加载它：

data(iris)

我们可以使用head()函数查看数据集的前六行：

#view first six rows of iris dataset head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa

总结 Iris 数据集

我们可以使用summary()函数快速总结数据集中的每个变量：

#summarize iris dataset summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500 Species setosa:50 versicolor:50 virginica :50

对于每个数值变量，我们可以看到以下信息：

最小值：最小值。第一个 Qu ：第一个四分位数（第 25 个百分位数）的值。中位数：中值。平均值：平均值。第三曲：第三个四分位数（第 75 个百分位数）的值。最大值：最大值。

对于数据集中唯一的分类变量（物种），我们看到每个值的频率计数：

setosa ：该物种出现了 50 次。杂色：该物种出现 50 次。virginica ：该物种出现了 50 次。

我们可以使用dim()函数获取数据集的行数和列数维度：

#display rows and columns dim(iris) [1] 150 5

我们可以看到数据集有150行和5列。

我们还可以使用names()函数来显示数据框的列名称：

#display column names names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"

可视化 Iris 数据集

我们还可以创建绘图来可视化数据集的值。

例如，我们可以使用hist()函数创建某个变量值的直方图：

#create histogram of values for sepal length hist(iris$Sepal.Length, col=' steelblue ', main=' Histogram ', xlab=' Length ', ylab=' Frequency ')

我们还可以使用plot()函数创建任意变量成对组合的散点图：

#create scatterplot of sepal width vs. sepal length plot(iris$Sepal.Width, iris$Sepal.Length, col=' steelblue ', main=' Scatterplot ', xlab=' Sepal Width ', ylab=' Sepal Length ', pch= 19 )

我们还可以使用boxplot()函数为每个组创建箱线图：

#create scatterplot of sepal width vs. sepal length boxplot(Sepal.Length~Species, data=iris, main=' Sepal Length by Species ', xlab=' Species ', ylab=' Sepal Length ', col=' steelblue ', border=' black ')