如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?
发布于 作者:苏南大叔 来源:程序如此灵动~本篇文章的大纲内容使用chatgpt
自动生成,用时三秒,然后由苏南大叔进行补充润色,用时半天。本文的主要内容描述的是机器学习里面最著名的数据集之一:鸢尾花数据集。
大家好,这里是苏南大叔的“程序如此灵动”博客,记录苏南大叔和计算机代码的故事。本文对鸢尾花数据集进行宏观上的简要描述,内容包括:鸢尾花数据集的获取方法、数据格式和各个数据字段的含义,没有啥测试环境的区别。
鸢尾花数据集
机器学习是人工智能的一个分支,利用计算机算法从数据样本中自主学习,进而预测未来数据的趋势和类别。而在机器学习领域中,鸢尾花数据集一直被公认为是一个广泛使用的数据集,考验着机器学习算法的优劣。
鸢尾花数据集是由R. A. Fisher在1936年创建的,这个数据集的标准版本里面一共有150条数据,分属三种鸢尾花。每50条数据表述的是其中的一种鸢尾花。
数据集中包含了3种不同类型的鸢尾花。分别是:
- 山鸢尾(Iris Setosa)
- 变色鸢尾(Iris Versicolour)
- 维吉尼亚鸢尾(Iris Virginica)
每种鸢尾花数据测量了4个属性,最终得出了一个所属种类的结论。前四个字段称之为data
,最后一个字段称之为标签label
(至少sklearn
里面是这么对字段称呼进行表述的)。
中文 | 英文 | 解释 |
---|---|---|
花萼长度 | Sepal Length | 指花萼顶端到花萼基部的距离,单位为厘米。 |
花萼宽度 | Sepal Width | 指花萼基部的最大宽度,单位为厘米。 |
花瓣长度 | Petal Length | 指花瓣基部到顶端的距离,单位为厘米。 |
花瓣宽度 | Petal Width | 指花瓣最大宽度,单位为厘米。 |
鸢尾花种类 | Iris Species | 根据不同的鸢尾花种类进行标记。 |
花萼就是包裹在花瓣外面,最外面的那一层。注意对比下图:
如何获得鸢尾花数据集的数据
实际上在常见的机器学习的库(比如sklearn
)里面,都是自带这个鸢尾花数据集的。
最常见的sklearn
中就是存在这个鸢尾花数据iris.csv
(151条数据)的,参考位置:
<python>\Lib\site-packages\sklearn\datasets\data\iris.csv
可以参考下面的在线的版本:
iris.csv
中有151条数据,带着一个奇怪的头150 4 setosa versicolor virginica
。然而并它并不是列名,表示共有150
条数据,每条4
条数据,标签0,1,2
分别代表setosa versicolor virginica
这三种鸢尾花。
在线鸢尾花数据版本(备选)
备选二:来自tensorflow
的训练集版本(121条记录)
鸢尾花数据集的格式说明
这些鸢尾花数据集大体表述的是一个意思,但是格式略有不同。不同点主要体现在:表头和种类标签。代码读取的时候,要特别注意。
鸢尾花数据集的标准数据格式如下:
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
...
6.7,3.0,5.2,2.3,Iris-virginica
6.3,2.5,5.0,1.9,Iris-virginica
其中,前4列数据分别指花萼长度、花萼宽度、花瓣长度和花瓣宽度,最后1列数据为该样本对应的鸢尾花种类。不同数据之间以逗号隔开,每个数据样本占据一行。
总结
通过对各个数据字段的理解,可以更好地认识鸢尾花数据集。在很多的机器学习算法中,都可以对这个鸢尾花数据集进行预测。如何运用这个鸢尾花数据来进行分类和预测呢?请关注苏南大叔的更多机器学习的文章:
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。