我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

本篇文章的大纲内容使用chatgpt自动生成,用时三秒,然后由苏南大叔进行补充润色,用时半天。本文的主要内容描述的是机器学习里面最著名的数据集之一:鸢尾花数据集。

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - 鸢尾花数据集
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-1)

大家好,这里是苏南大叔的“程序如此灵动”博客,记录苏南大叔和计算机代码的故事。本文对鸢尾花数据集进行宏观上的简要描述,内容包括:鸢尾花数据集的获取方法、数据格式和各个数据字段的含义,没有啥测试环境的区别。

鸢尾花数据集

机器学习是人工智能的一个分支,利用计算机算法从数据样本中自主学习,进而预测未来数据的趋势和类别。而在机器学习领域中,鸢尾花数据集一直被公认为是一个广泛使用的数据集,考验着机器学习算法的优劣。

鸢尾花数据集是由R. A. Fisher在1936年创建的,这个数据集的标准版本里面一共有150条数据,分属三种鸢尾花。每50条数据表述的是其中的一种鸢尾花。

数据集中包含了3种不同类型的鸢尾花。分别是:

  • 山鸢尾(Iris Setosa)
  • 变色鸢尾(Iris Versicolour)
  • 维吉尼亚鸢尾(Iris Virginica)

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - 鸢尾花字段
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-2)

每种鸢尾花数据测量了4个属性,最终得出了一个所属种类的结论。前四个字段称之为data,最后一个字段称之为标签label(至少sklearn里面是这么对字段称呼进行表述的)。

中文英文解释
花萼长度Sepal Length指花萼顶端到花萼基部的距离,单位为厘米。
花萼宽度Sepal Width指花萼基部的最大宽度,单位为厘米。
花瓣长度Petal Length指花瓣基部到顶端的距离,单位为厘米。
花瓣宽度Petal Width指花瓣最大宽度,单位为厘米。
鸢尾花种类Iris Species根据不同的鸢尾花种类进行标记。

花萼就是包裹在花瓣外面,最外面的那一层。注意对比下图:

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - 鸢尾花
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-3)

如何获得鸢尾花数据集的数据

实际上在常见的机器学习的库(比如sklearn)里面,都是自带这个鸢尾花数据集的。
最常见的sklearn中就是存在这个鸢尾花数据iris.csv(151条数据)的,参考位置:

<python>\Lib\site-packages\sklearn\datasets\data\iris.csv

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - iris-data
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-4)

可以参考下面的在线的版本:

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - iris-csv
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-5)

iris.csv中有151条数据,带着一个奇怪的头150 4 setosa versicolor virginica。然而并它并不是列名,表示共有150条数据,每条4条数据,标签0,1,2分别代表setosa versicolor virginica这三种鸢尾花。

在线鸢尾花数据版本(备选)

这是付费可看内容,收费5元。

备选二:来自tensorflow的训练集版本(121条记录)

鸢尾花数据集的格式说明

这些鸢尾花数据集大体表述的是一个意思,但是格式略有不同。不同点主要体现在:表头和种类标签。代码读取的时候,要特别注意。

鸢尾花数据集的标准数据格式如下:

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
...
6.7,3.0,5.2,2.3,Iris-virginica
6.3,2.5,5.0,1.9,Iris-virginica

其中,前4列数据分别指花萼长度、花萼宽度、花瓣长度和花瓣宽度,最后1列数据为该样本对应的鸢尾花种类。不同数据之间以逗号隔开,每个数据样本占据一行。

苏南大叔:如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花? - 数据格式
如何获得机器学习的鸢尾花数据集?有哪几种鸢尾花?(图6-6)

总结

通过对各个数据字段的理解,可以更好地认识鸢尾花数据集。在很多的机器学习算法中,都可以对这个鸢尾花数据集进行预测。如何运用这个鸢尾花数据来进行分类和预测呢?请关注苏南大叔的更多机器学习的文章:

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   机器学习