get_dummies函数,特征工程转换DataFrame数据为独热码发布于2024年01月24日 python pandas.get_dummies()是用在机器学习的特征工程处理方面的函数。主要的作用是:基于独热码的哑变量生成。其函数返回值表现形式上是和独热编码很类似,当然也有所不同。苏南大叔的“程序如此灵动”博客,记录苏... 阅读更多
dataframe如何改变dtype为Categorical?自定义排序筛选发布于2024年01月23日 python 涉及到一个新的dtype类型:Categorical。如何理解这个Categorical数据类型呢?什么时候使用这个Categorical数据类型呢?如何使用.astype()来改变dataframe的dtype呢... 阅读更多
机器学习,如何理解sklearn的独热编码器OneHotEncoder?发布于2024年01月22日 python 在本文中,苏南大叔准备讲解一下sklearn比较常用的独热编码器,英文名是OneHotEncoder。独热编码主要用于分类特征的各个取值之间是无序的情况,各种特征之间理论上并没有顺序或者大小的关系。但是为了机器学习... 阅读更多
机器学习,分析认识sklearn的OrdinalEncoder编码器发布于2024年01月21日 python sklearn里面内置了很多编码器,用于把人类认识的单词转化为程序认识的数字。本文描述第二个编码器OrdinalEncoder(序数编码器),它和上一个LabelEncoder在编码的原理上是很相似的。但是,它接受... 阅读更多
如何修改sklearn的Label编码器?自定义classes_属性?发布于2024年01月20日 python 苏南大叔在本文中,将继续回顾一下sklearn中的LabelEncoder编码器,这里有一个小小的问题,就是可能对其中的分类字典.classes_里的“单词”顺序不满意。那么,本文里面就是研究这种sklearn自定... 阅读更多