数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(4)
2023-05-21 来源:飞速影视
前 30 个特征的缺失数据百分比列表方法 3:缺失数据直方图
在存在很多特征时,缺失数据直方图也不失为一种有效方法。
要想更深入地了解观察值中的缺失值模式,我们可以用直方图的形式进行可视化。
# first create missing indicator for features with missing datafor col in df.columns: missing = df[col].isnull() num_missing = np.sum(missing)
if num_missing > 0: print("created missing indicator for: {}".format(col)) df["{}_ismissing".format(col)] = missing
# then based on the indicator, plot the histogram of missing valuesismissing_cols = [col for col in df.columns if "ismissing" in col]df["num_missing"] = df[ismissing_cols].sum(axis=1)
df["num_missing"].value_counts().reset_index().sort_values(by="index").plot.bar(x="index", y="num_missing")
直方图可以帮助在 30,471 个观察值中识别缺失值状况。
例如,从下图中可以看到,超过 6000 个观察值不存在缺失值,接近 4000 个观察值具备一个缺失值。
缺失数据直方图如何处理缺失数据?
这方面没有统一的解决方案。我们必须研究特定特征和数据集,据此决定处理缺失数据的最佳方式。
下面介绍了四种最常用的缺失数据处理方法。不过,如果情况较为复杂,我们需要创造性地使用更复杂的方法,如缺失数据建模。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号