当前位置：首页 > 资讯 >

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(7)

2023-05-21 来源:飞速影视

解决方案 4：替换缺失值
对于分类特征，我们可以添加新的带值类别，如 _MISSING_。对于数值特征，我们可以用特定值（如-999）来替换缺失值。
这样，我们就可以保留缺失值，使之提供有价值的信息。
# categoricaldf["sub_area"] = df["sub_area"].fillna("_MISSING_")
# numericdf["life_sq"] = df["life_sq"].fillna(-999)
不规则数据（异常值）
异常值指与其他观察值具备显著差异的数据，它们可能是真的异常值也可能是错误。
如何找出异常值？
根据特征的属性（数值或分类），使用不同的方法来研究其分布，进而检测异常值。
方法 1：直方图/箱形图
当特征是数值变量时，使用直方图和箱形图来检测异常值。
下图展示了特征 life_sq 的直方图。
# histogram of life_sq.df["life_sq"].hist(bins=100)
由于数据中可能存在异常值，因此下图中数据高度偏斜。

直方图为了进一步研究特征，我们来看一下箱形图。
# box plot.df.boxplot(column=["life_sq"])
从下图中我们可以看到，异常值是一个大于 7000 的数值。

箱形图方法 2：描述统计学
对于数值特征，当异常值过于独特时，箱形图无法显示该值。因此，我们可以查看其描述统计学。
例如，对于特征 life_sq，我们可以看到其最大值是 7478，而上四分位数（数据的第 75 个百分位数据）是 43。因此值 7478 是异常值。

1 ...5 6 7 8 9 ...14 查看全文

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(7)

让我怎么相信你

怎么办家康

据幸存的六人所述

二哥来了怎么办

怎么办！脱口秀专场

我太受欢迎了该怎么办

赖汉的幸福指数

目前抖音最火最好听的10首歌曲【dj版】据说最后一首是00后的最爱