分类 python 下的文章 - 程序如此灵动~ - 做一名不被定义的苏南大叔 newsn.net

苏南大叔 » python

分类 python 下的文章【分类结果介于标签结果和搜索结果之间】

以kaggle泰坦尼克数据集为例，列举数据集观测的几种手段

发布于2024年10月29日

继续机器学习的泰塔尼克数据集文章，本文以kaggle竞赛的泰坦尼克数据集为标的物。当然，这个kaggle数据集和其它版本的泰坦尼克数据集也没有太大分别。只不过，kaggle的版本是已经固定切分好的，不用再对数据集进...

数据处理，对dataframe数据进行查询筛选的方法总结

发布于2024年10月01日

本文探讨dataframe里面数据查询刷选的方法，这个需求的实现写法其实很多，在这里做个简单的总结。并不涉及机器学习数据预测之类的事情。仅仅是个数据查询的文章。苏南大叔的“程序如此灵动”博客，记录苏南大叔的代码编程...

permutation_importance()，如何衡量模型特征重要性？

发布于2024年09月30日

继续特征重要性分析的话题，本文和上一篇文章类似，龙套代码还是采用xgboost对泰坦尼克号数据进行分析。但是特征重要性分析的结果，则采用更加具有通用性的permutation_importance()。苏南大叔的“...

机器学习xgboost模型，特性重要性输出的依据是什么？

发布于2024年09月29日

本文讨探xgboost的稍稍基础一些的内容：“特征重要性”。对应到数据集里面，就是特征特性features。对于任何一个模型的预测结果来说，它都是对这些特征进行各种分析得出的结论。这些特征都有一个重要性的说法。谁对...

以泰坦尼克数据集为例，可视化分析不同年龄段的生存率

发布于2024年09月27日

本文仅仅是个数据分析，具体来说是个数据可视化的过程，不存在机器学习的数据预测部分。主要的思路就是，把数据集的age字段进行加工，然后按年龄段分组，最终列柱状图进行可视化对比。苏南大叔的“程序如此灵动”博客，记录苏南...