机器学习xgboost模型,特性重要性输出的依据是什么?发布于2024年09月29日 python 本文讨探xgboost的稍稍基础一些的内容:“特征重要性”。对应到数据集里面,就是特征特性features。对于任何一个模型的预测结果来说,它都是对这些特征进行各种分析得出的结论。这些特征都有一个重要性的说法。谁对... 阅读更多
机器学习,如何使用xgboost预测泰坦尼克数据集结果?发布于2024年09月28日 机器学习 对这个泰坦尼克数据集已经反复分析了好多次了,在本文中就根据这个数据集的其中一个版本,叫做xgboost的预测。其实,用什么模型来预测,都会有数据结果。不同的就是:预测的精准度的问题。可谓是条条大路通罗马,款款预测有... 阅读更多
以泰坦尼克数据集为例,可视化分析不同年龄段的生存率发布于2024年09月27日 python 本文仅仅是个数据分析,具体来说是个数据可视化的过程,不存在机器学习的数据预测部分。主要的思路就是,把数据集的age字段进行加工,然后按年龄段分组,最终列柱状图进行可视化对比。苏南大叔的“程序如此灵动”博客,记录苏南... 阅读更多
以泰坦尼克号数据集为例,探讨数据清洗及修复的流程手段发布于2024年09月26日 python 话题回到泰坦尼克数据集,本文以该数据集为例,探讨对数据进行清洗处理的几种方式。对于数据清洗这件事情来说,本文的内容并不是很完整,但是具有代表性。同时,需要注意的是:泰坦尼克数据集也是有很多个版本的,缺失值的情况并不... 阅读更多
数据清洗,如何处理完全重复或部分重复的数据?发布于2024年09月25日 python 上一篇文章中,苏南大叔所描述的例子,侧重于字段名重复,而并不是关心对应字段的数据。而本篇文章中,则更加关注于数据本身。即横向的一条数据,用于描述某个个体特征的一条数据。如果两条(甚至多条)数据重复。该如何处理数据呢... 阅读更多