添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

我们发现数据总共有1309行。

其中数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:

1)年龄(Age)里面数据总数是1046条,缺失了1309-1046=263,缺失率263/1309=20%

2)船票价格(Fare)里面数据总数是1308条,缺失了1条数据

字符串列:

1)登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失比较少

2)船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%,缺失比较大

这为我们下一步数据清洗指明了方向,只有知道哪些数据缺失数据,我们才能有针对性的处理。

3.数据清洗

3.1数据预处理

缺失值处理

在前面,理解数据阶段,我们发现数据总共有1309行。 其中数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据。 字符串列:登船港口(Embarked)、船舱号(Cabin)里面有缺失数据。这为我们下一步数据清洗指明了方向,只有知道哪些数据缺失数据,我们才能有针对性的处理。很多机器学习算法为了训练模型,要求所传入的特征中不能有空值。

1.如果是数值类型,用平均值取代

2.如果是分类数据,用最常见的类别取代

3.使用模型预测缺失值,例如:K-NN

1.年龄(Age)&船票价格(Fare)缺失值处理:

3.2特征提取

3.2.1数据分类

查看数据类型,分为3种数据类型。并对类别数据处理:用数值代替类别,并进行One-hot编码。

1.数值类型:

乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)

2.时间序列:无

3.分类数据:

1)有直接类别的

乘客性别(Sex):男性male,女性female

登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国 瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown

客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

2)字符串类型:可能从这里面提取出特征来,也归到分类数据中

乘客姓名(Name)

客舱号(Cabin)

船票编号(Ticket)

有直接类别-性别(Sex)

4.构建模型

用训练数据和某个机器学习算法得到机器学习模型,用测试数据评估模型

4.1 建立训练数据集和测试数据集

1)坦尼克号测试数据集因为是我们最后要提交给Kaggle的,里面没有生存情况的值,所以不能用于评估模型。

我们将Kaggle泰坦尼克号项目给我们的测试数据,叫做预测数据集(记为pred,也就是预测英文单词predict的缩写)。

也就是我们使用机器学习模型来对其生存情况就那些预测。

2)我们使用Kaggle泰坦尼克号项目给的训练数据集,做为我们的原始数据集(记为source),

从这个原始数据集中拆分出训练数据集(记为train:用于模型训练)和测试数据集(记为test:用于模型评估)。

rowNum是我们在最开始合并数据前知道的,原始数据集有总共有891条数据

从特征集合full_X中提取原始数据集提取前891行数据时,我们要减去1,因为行号是从0开始的。