我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

继鸢尾花数据集之后,苏南大叔来分析一下机器学习中非常著名的泰坦尼克数据集。这个数据集的标签是“survived”,而字段包括:年龄、阶层、票价、仓号、登船地、是否有亲戚同乘等等。数据表明:泰坦尼克号的乘客里面,最终谁会被救是有迹可循的。

苏南大叔:机器学习数据集,解读泰坦尼克数据,有哪些字段? - 泰坦尼克号数据
机器学习数据集,解读泰坦尼克数据,有哪些字段?(图2-1)

大家好,这里是苏南大叔的“程序如此灵动”博客,这里讲述苏南大叔和计算机代码之间的故事。本文主要分析的对象是“泰坦尼克数据集”。

下载泰坦尼克数据集

泰坦尼克数据集,没有集成在sklearn里面。在网上的版本也很多,有很多字段细节和数量上的差异,大家注意鉴别。数据集地址:

数据集字段

不同的数据集来源都有自己的字段名称,数据条数也不一致。但是大体上是相同的。字段含义参考如下:

字段名内容
survived0 没有获救 1 幸存
pclass票等级,1 = 1st, 2 = 2nd, 3 = 3rd
name姓名
sex性别,female/male
age年龄
sibspSiblings/Spouses Aboard,船上亲属非老幼,(兄弟姐妹,配偶)
parchParents/Children Aboard,船上亲属老幼,(父母,儿童)
ticket船票id
fare船票价格
cabin/room客舱号,房间号
embarked登船地,C、S、Q
passengerid乘客编号
boat(id)幸存者乘坐的救生艇编号
body(id)被找到的遇难者编号
home.dest出发地&目的地

读取数据集

这里仅放一个简单的例子,作为文章内容的扩充。参考代码:

import pandas as pd
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic = pd.read_csv(url)
print(titanic.head())

苏南大叔:机器学习数据集,解读泰坦尼克数据,有哪些字段? - 数据集读取代码
机器学习数据集,解读泰坦尼克数据,有哪些字段?(图2-2)

参考文章

更多文章

后续将对这个泰坦尼克数据集进行多方位的分析,比如:如何处理数据缺失?如何处理数据异常?如何对数据进行预测?更多精彩文章,请点击:

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   机器学习    ai