以泰坦尼克号数据集为例,探讨数据清洗及修复的流程手段发布于2024年09月26日 python 话题回到泰坦尼克数据集,本文以该数据集为例,探讨对数据进行清洗处理的几种方式。对于数据清洗这件事情来说,本文的内容并不是很完整,但是具有代表性。同时,需要注意的是:泰坦尼克数据集也是有很多个版本的,缺失值的情况并不... 阅读更多
数据清洗,如何处理完全重复或部分重复的数据?发布于2024年09月25日 python 上一篇文章中,苏南大叔所描述的例子,侧重于字段名重复,而并不是关心对应字段的数据。而本篇文章中,则更加关注于数据本身。即横向的一条数据,用于描述某个个体特征的一条数据。如果两条(甚至多条)数据重复。该如何处理数据呢... 阅读更多
数据清洗,如何处理DataFrame的重复列名数据?发布于2024年09月24日 python 为了保持数据的整洁和合理,有必要对拿到的数据集进行整理。其中首当其冲的就是重复数据,重复的数据分为两种情况,分别是重复列和重复行。本文就第一种情况,重复列的情况进行阐述。苏南大叔的“程序如此灵动”博客,记录苏南大叔... 阅读更多
以泰坦尼克号数据集为例,如何统计每个字段的非na值数量?发布于2024年09月23日 python 实际工作中遇到的数据集都会存在着多多少少的不完美数据,即空值na数据。面对这些不完美数据,在做进一步的处理之前。还应该有个大体的空值数量的了解和认知。本文就是对这一点进行讨论的。苏南大叔的"程序如此灵动"博客,记录... 阅读更多
以泰坦尼克数据集为例,探讨空值检测手段isna()和isnull()发布于2024年09月21日 python 话题回到泰坦尼克数据集,本文以该数据集为例,探讨对数据进行清洗处理中空值检测的几种方式。因为在数据清洗的领域里面,空值是一定影响数据预测的结果的。一定要提前预防。苏南大叔的“程序如此灵动”博客,记录苏南大叔的代码经... 阅读更多