Python:泰坦尼克号生存率分析

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

留胡子的杨桃 · 企业微信工作台的应用可以分组吗?怎么进行分组 ...· 7 月前 ·

文质彬彬的热带鱼 · "今日头条"终于上了"头条"！无视监管竟做 ...· 9 月前 ·

有胆有识的作业本 · 关于开展用水权交易试点工作的通知_上海市水务局· 1 年前 ·

爱吹牛的人字拖 · 麦田怪怪圈01-神秘调查帮-🌈️包子漫畫· 1 年前 ·

很拉风的沙滩裤 · 急先锋迅雷下载_急先锋720P_急先锋108 ...· 1 年前 ·

我们发现数据总共有1309行。

其中数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据：

1）年龄（Age）里面数据总数是1046条，缺失了1309-1046=263，缺失率263/1309=20%

2）船票价格（Fare）里面数据总数是1308条，缺失了1条数据

字符串列：

1）登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少

2）船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大

这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。

3.数据清洗

3.1数据预处理

缺失值处理

在前面，理解数据阶段，我们发现数据总共有1309行。其中数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据。字符串列：登船港口（Embarked）、船舱号（Cabin）里面有缺失数据。这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。很多机器学习算法为了训练模型，要求所传入的特征中不能有空值。

1.如果是数值类型，用平均值取代

2.如果是分类数据，用最常见的类别取代

3.使用模型预测缺失值，例如：K-NN

1.年龄（Age）&船票价格（Fare）缺失值处理：

3.2特征提取

3.2.1数据分类

查看数据类型，分为3种数据类型。并对类别数据处理：用数值代替类别，并进行One-hot编码。

1.数值类型：

乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）

2.时间序列：无

3.分类数据：

1）有直接类别的

乘客性别（Sex）：男性male，女性female

登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国瑟堡市Cherbourg，出发地点2：Q=爱尔兰昆士敦Queenstown

客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱

2）字符串类型：可能从这里面提取出特征来，也归到分类数据中

乘客姓名（Name）

客舱号（Cabin）

船票编号（Ticket）

有直接类别-性别（Sex）

4.构建模型

用训练数据和某个机器学习算法得到机器学习模型，用测试数据评估模型

4.1 建立训练数据集和测试数据集

1）坦尼克号测试数据集因为是我们最后要提交给Kaggle的，里面没有生存情况的值，所以不能用于评估模型。

我们将Kaggle泰坦尼克号项目给我们的测试数据，叫做预测数据集（记为pred,也就是预测英文单词predict的缩写）。

也就是我们使用机器学习模型来对其生存情况就那些预测。

2）我们使用Kaggle泰坦尼克号项目给的训练数据集，做为我们的原始数据集（记为source），

从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）。

rowNum是我们在最开始合并数据前知道的，原始数据集有总共有891条数据

从特征集合full_X中提取原始数据集提取前891行数据时，我们要减去1，因为行号是从0开始的。