以鸢尾花数据集为例,如何分析数据字段的相关性?
发布于 作者:苏南大叔 来源:程序如此灵动~

本文以经典的鸢尾花数据为例,展示dataframe
的数据相关性分析功能,也就是说看看各个字段之间相关度有多少。当然,这些相关度的计算,都是基于数字类型的。注意:字符串类型是无法参与相关度计算的。

大家好,这里是苏南大叔的“程序如此灵动”博客,这里讲述苏南大叔和计算机代码之间的故事。测试环境:python@3.6.8
,pandas@1.1.5
。
鸢尾花数据源
从以前的文章里面,大家可以知道:鸢尾花数据源实际上有好几个,也有好几个不同的数据格式。而本文的目的是计算字段的相关性,所以对于鸢尾花数据集的不标准性,必然要做出一些调整。这些调整的细节,就要具体看使用的是哪个鸢尾花数据集了。
参考文章:
鸢尾花数据调整
下面的代码,是基于加州大学欧文分校的鸢尾花数据集,

corr()
【报错】文字类型的字段,是无法参与相关性分析的。
报错:
【解决方案】之数据筛选:
输出:

【解决方案】之数据修改:
输出:
图形化相关性
如果说上述的相关性数据表格还不够清晰明了的话,还可以使用seaborn
的图形进行进一步具象化处理。
图形结果如下:


从图形上可以看到:
颜色越浅,相关系数越高,相关性越强。而黑色的方块显示其相关性最低。
plt
画图中文方框的问题,解决方案:
corr()
参数
相关度计算,实际上有3种算法。对比3种算法的结果,虽然数值不同,但是趋势是一致的。所以,作为比较为目的的相关性分析来说,使用具体哪种算法,对于实际的效果来说,并没有太大区别。

pearson
【默认】是pearson
算法。
输出:
spearman
【第二种算法】spearman
:
输出:
kendall
【第三种算法】kendall
:
输出:
结语
更多机器学习的相关经验文章,可以参考下面的文章链接:


