• 回答数

    1

  • 浏览数

    295

angelabaobao
首页 > 英语培训 > 填补缺失值的英文

1个回答 默认排序
  • 默认排序
  • 按时间排序

李大胆yao一起吧

已采纳

样本数据量十分大且缺失值不多 的情况下非常有效,但如果样本量本身不大且缺失也不少,那么不建议使用。

补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,一些模型无法应对具有缺失值的数据,因此要对缺失值进行处理。然而还有一些模型本身就可以应对具有缺失值的数据,此时无需对数据进行处理,比如 Xgboos等树模型 。

虚拟变量其实就是缺失值的一种衍生变量。具体做法是通过判断特征值是否有缺失值来定义一个新的二分类变量。比如,特征为A含有缺失值,我们 衍生出一个新的特征B,如果A中特征值有缺失,那么相应的B中的值为1,如果A中特征值没有缺失,那么相应的B中的值为0。

data_train[['Cabin','CabinCat']].head(10)

对于定类数据:使用 众数(mode)填补 ,比如一个学校的男生和女生的数量,男生500人,女生50人,那么对于其余的缺失值我们会用人数较多的男生来填补。 对于定量(定比)数据:使用平均数(mean)或中位数(median)填补 ,比如一个班级学生的身高特征,对于一些同学缺失的身高值就可以使用全班同学身高的平均值或中位数来填补。一般如果特征分布为正太分布时,使用平均值效果比较好,而当分布由于异常值存在而不是正太分布的情况下,使用中位数效果比较好。

注:此方法虽然简单,但是不够精准,可能会引入噪声,或者会改变特征原有的分布。 如果缺失值是随机性的,那么用平均值比较适合保证无偏,否则会改变原分布。

利用其它变量做模型的输入进行缺失变量的预测,与我们正常建模的方法一样,只是目标变量变为了缺失值。如果其它特征变量与缺失变量无关,则预测的结果毫无意义。如果预测结果相当准确,则又说明这个变量完全没有必要进行预测,因为这必然是与特征变量间存在重复信息。

填补缺失值的英文

283 评论(11)

相关问答