当前位置：首页 > 资讯 >

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(3)

2023-05-21 来源:飞速影视

本文将介绍三种方法，帮助大家更多地了解数据集中的缺失数据。
方法 1：缺失数据热图
当特征数量较少时，我们可以通过热图对缺失数据进行可视化。
cols = df.columns[:30] # first 30 columnscolours = ["#000099", "#ffff00"] # specify the colours - yellow is missing. blue is not missing.sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))
下表展示了前 30 个特征的缺失数据模式。横轴表示特征名，纵轴表示观察值/行数，黄色表示缺失数据，蓝色表示非缺失数据。
例如，下图中特征 life_sq 在多个行中存在缺失值。而特征 floor 只在第 7000 行左右出现零星缺失值。

缺失数据热图方法 2：缺失数据百分比列表
当数据集中存在很多特征时，我们可以为每个特征列出缺失数据的百分比。
# if it"s a larger dataset and the visualization takes too long can do this.# % of missing.for col in df.columns: pct_missing = np.mean(df[col].isnull()) print("{} - {}%".format(col, round(pct_missing*100)))
得到如下列表，该表展示了每个特征的缺失值百分比。
具体而言，我们可以从下表中看到特征 life_sq 有 21% 的缺失数据，而特征 floor 仅有 1% 的缺失数据。该列表有效地总结了每个特征的缺失数据百分比情况，是对热图可视化的补充。

1 2 3 4 5 ...14 查看全文

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(3)

让我怎么相信你

怎么办家康

据幸存的六人所述

二哥来了怎么办

怎么办！脱口秀专场

我太受欢迎了该怎么办

赖汉的幸福指数

目前抖音最火最好听的10首歌曲【dj版】据说最后一首是00后的最爱