R 中鸢尾花数据集的完整指南
iris数据集是 R 中的集成数据集,包含 3 个不同物种的 50 朵花的 4 个不同属性(以厘米为单位)的测量值。
本教程以 iris 数据集为例,介绍如何在 R 中探索和总结数据集。
相关: R 中 mtcars 数据集的完整指南
加载鸢尾花数据集
由于iris数据集是R中的内置数据集,我们可以使用以下命令加载它:
data(iris)
我们可以使用head()函数查看数据集的前六行:
#view first six rows of iris dataset head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa
总结 Iris 数据集
我们可以使用summary()函数快速总结数据集中的每个变量:
#summarize iris dataset summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500 Species setosa:50 versicolor:50 virginica :50
对于每个数值变量,我们可以看到以下信息:
最小值:最小值。第一个 Qu :第一个四分位数(第 25 个百分位数)的值。中位数:中值。平均值:平均值。第三曲:第三个四分位数(第 75 个百分位数)的值。最大值:最大值。对于数据集中唯一的分类变量(物种),我们看到每个值的频率计数:
setosa :该物种出现了 50 次。杂色:该物种出现 50 次。virginica :该物种出现了 50 次。我们可以使用dim()函数获取数据集的行数和列数维度:
#display rows and columns dim(iris) [1] 150 5
我们可以看到数据集有150行和5列。
我们还可以使用names()函数来显示数据框的列名称:
#display column names names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
可视化 Iris 数据集
我们还可以创建绘图来可视化数据集的值。
例如,我们可以使用hist()函数创建某个变量值的直方图:
#create histogram of values for sepal length hist(iris$Sepal.Length, col=' steelblue ', main=' Histogram ', xlab=' Length ', ylab=' Frequency ')
我们还可以使用plot()函数创建任意变量成对组合的散点图:
#create scatterplot of sepal width vs. sepal length plot(iris$Sepal.Width, iris$Sepal.Length, col=' steelblue ', main=' Scatterplot ', xlab=' Sepal Width ', ylab=' Sepal Length ', pch= 19 )
我们还可以使用boxplot()函数为每个组创建箱线图:
#create scatterplot of sepal width vs. sepal length boxplot(Sepal.Length~Species, data=iris, main=' Sepal Length by Species ', xlab=' Species ', ylab=' Sepal Length ', col=' steelblue ', border=' black ')
x 轴显示三个物种,y 轴显示每个物种的萼片长度值的分布。
这种类型的图使我们能够快速看出,弗吉尼亚物种的萼片长度往往是最大的,而山桃物种的萼片长度往往是最小的。
其他资源
以下教程更详细地解释了如何在 R 中汇总数据集:
在 R 中创建汇总表的最简单方法
如何在R中计算五个数字的总和
大家好,我是本杰明,一位退休的统计学教授,后来成为 Statorials 的热心教师。 凭借在统计领域的丰富经验和专业知识,我渴望分享我的知识,通过 Statorials 增强学生的能力。了解更多
相关知识
R语言数据分析案例:鸢尾花(IRIS)
【机器学习】经典数据集鸢尾花的分类识别
分析鸢尾花数据集
鸢尾花数据集下载
对鸢尾花数据集和月亮数据集,分别采用线性LDA、k
《机器学习》分析鸢尾花数据集
基于Logistic回归模型对鸢尾花数据集的线性多分类
卷积神经网络实现鸢尾花数据分类python代码实现
实验一:鸢尾花数据集分类
机器学习数据集之鸢尾花
网址: R 中鸢尾花数据集的完整指南 https://www.huajiangbk.com/newsview546209.html
上一篇: python实战(一)——iri |
下一篇: [Python] 机器学习 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039