python计算分位数,系列数据的分位数数学计算方法发布于2024年11月05日 python 分位数并不是百分数,中位数并不是平均数。在相关的数据计算中,这些概念需要明确分辨。否则将无法理解很多内容,比如股票的K线图。本文将再次审视dataframe相关计算中的“分位数”的概念。从原理上再次解释这些分位数是... 阅读更多
数据可视化,以泰坦尼克数据集为例,柱状图展示字段空值率发布于2024年11月01日 python 拿到一个数据集,首先就是要查看数据的合理性,是否存在着一些不合理的值,譬如空值。可以打印所有或者部分数据,然后人眼观测数据。或者通过df.info()之类的方式,数据化查看空值情况。本文讲述的是:图形化显示空值的情... 阅读更多
以kaggle泰坦尼克数据集为例,列举数据集观测的几种手段发布于2024年10月29日 python 继续机器学习的泰塔尼克数据集文章,本文以kaggle竞赛的泰坦尼克数据集为标的物。当然,这个kaggle数据集和其它版本的泰坦尼克数据集也没有太大分别。只不过,kaggle的版本是已经固定切分好的,不用再对数据集进... 阅读更多
数据处理,对dataframe数据进行查询筛选的方法总结发布于2024年10月01日 python 本文探讨dataframe里面数据查询刷选的方法,这个需求的实现写法其实很多,在这里做个简单的总结。并不涉及机器学习数据预测之类的事情。仅仅是个数据查询的文章。苏南大叔的“程序如此灵动”博客,记录苏南大叔的代码编程... 阅读更多
permutation_importance(),如何衡量模型特征重要性?发布于2024年09月30日 python 继续特征重要性分析的话题,本文和上一篇文章类似,龙套代码还是采用xgboost对泰坦尼克号数据进行分析。但是特征重要性分析的结果,则采用更加具有通用性的permutation_importance()。苏南大叔的“... 阅读更多