机器学习数据集,解读泰坦尼克数据,有哪些字段?
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
继鸢尾花数据集之后,苏南大叔来分析一下机器学习中非常著名的泰坦尼克数据集。这个数据集的标签是“survived”,而字段包括:年龄、阶层、票价、仓号、登船地、是否有亲戚同乘等等。数据表明:泰坦尼克号的乘客里面,最终谁会被救是有迹可循的。
大家好,这里是苏南大叔的“程序如此灵动”博客,这里讲述苏南大叔和计算机代码之间的故事。本文主要分析的对象是“泰坦尼克数据集”。
下载泰坦尼克数据集
泰坦尼克数据集,没有集成在sklearn
里面。在网上的版本也很多,有很多字段细节和数量上的差异,大家注意鉴别。数据集地址:
- https://www.openml.org/data/get_csv/16826755/phpMYEkMl【非csv】
- https://www.openml.org/data/download/4965305/titanic.arff【非csv】
- https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv 【推荐】
- https://biostat.app.vumc.org/wiki/pub/Main/DataSets/titanic.txt【不稳定】【迅雷可下载】
- http://hbiostat.org/data/repo/titanic3.xls
- http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls
- https://www.kaggle.com/competitions/titanic/data 【需要登陆】
- https://gitee.com/cqj957631697/titanic 【git命令下载】
数据集字段
不同的数据集来源都有自己的字段名称,数据条数也不一致。但是大体上是相同的。字段含义参考如下:
字段名 | 内容 |
---|---|
survived | 0 没有获救 1 幸存 |
pclass | 票等级,1 = 1st, 2 = 2nd, 3 = 3rd |
name | 姓名 |
sex | 性别,female/male |
age | 年龄 |
sibsp | Siblings/Spouses Aboard,船上亲属非老幼,(兄弟姐妹,配偶) |
parch | Parents/Children Aboard,船上亲属老幼,(父母,儿童) |
ticket | 船票id |
fare | 船票价格 |
cabin/room | 客舱号,房间号 |
embarked | 登船地,C、S、Q |
passengerid | 乘客编号 |
boat(id) | 幸存者乘坐的救生艇编号 |
body(id) | 被找到的遇难者编号 |
home.dest | 出发地&目的地 |
读取数据集
这里仅放一个简单的例子,作为文章内容的扩充。参考代码:
import pandas as pd
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic = pd.read_csv(url)
print(titanic.head())
参考文章
- https://www.openml.org/search?type=data&sort=runs&id=40945&status=active
- https://tensorflow.google.cn/datasets/catalog/titanic
- https://www.kaggle.com/c/titanic/data
- https://www.kaggle.com/c/titanic/
- https://www.openml.org/d/40704
- https://www.openml.org/d/40945
更多文章
后续将对这个泰坦尼克数据集进行多方位的分析,比如:如何处理数据缺失?如何处理数据异常?如何对数据进行预测?更多精彩文章,请点击:
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。