数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(3)
2023-05-21 来源:飞速影视
本文将介绍三种方法,帮助大家更多地了解数据集中的缺失数据。
方法 1:缺失数据热图
当特征数量较少时,我们可以通过热图对缺失数据进行可视化。
cols = df.columns[:30] # first 30 columnscolours = ["#000099", "#ffff00"] # specify the colours - yellow is missing. blue is not missing.sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))
下表展示了前 30 个特征的缺失数据模式。横轴表示特征名,纵轴表示观察值/行数,黄色表示缺失数据,蓝色表示非缺失数据。
例如,下图中特征 life_sq 在多个行中存在缺失值。而特征 floor 只在第 7000 行左右出现零星缺失值。
缺失数据热图方法 2:缺失数据百分比列表
当数据集中存在很多特征时,我们可以为每个特征列出缺失数据的百分比。
# if it"s a larger dataset and the visualization takes too long can do this.# % of missing.for col in df.columns: pct_missing = np.mean(df[col].isnull()) print("{} - {}%".format(col, round(pct_missing*100)))
得到如下列表,该表展示了每个特征的缺失值百分比。
具体而言,我们可以从下表中看到特征 life_sq 有 21% 的缺失数据,而特征 floor 仅有 1% 的缺失数据。该列表有效地总结了每个特征的缺失数据百分比情况,是对热图可视化的补充。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号