数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(7)
2023-05-21 来源:飞速影视
解决方案 4:替换缺失值
对于分类特征,我们可以添加新的带值类别,如 _MISSING_。对于数值特征,我们可以用特定值(如-999)来替换缺失值。
这样,我们就可以保留缺失值,使之提供有价值的信息。
# categoricaldf["sub_area"] = df["sub_area"].fillna("_MISSING_")
# numericdf["life_sq"] = df["life_sq"].fillna(-999)
不规则数据(异常值)
异常值指与其他观察值具备显著差异的数据,它们可能是真的异常值也可能是错误。
如何找出异常值?
根据特征的属性(数值或分类),使用不同的方法来研究其分布,进而检测异常值。
方法 1:直方图/箱形图
当特征是数值变量时,使用直方图和箱形图来检测异常值。
下图展示了特征 life_sq 的直方图。
# histogram of life_sq.df["life_sq"].hist(bins=100)
由于数据中可能存在异常值,因此下图中数据高度偏斜。
直方图为了进一步研究特征,我们来看一下箱形图。
# box plot.df.boxplot(column=["life_sq"])
从下图中我们可以看到,异常值是一个大于 7000 的数值。
箱形图方法 2:描述统计学
对于数值特征,当异常值过于独特时,箱形图无法显示该值。因此,我们可以查看其描述统计学。
例如,对于特征 life_sq,我们可以看到其最大值是 7478,而上四分位数(数据的第 75 个百分位数据)是 43。因此值 7478 是异常值。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号