当前位置：首页 > 资讯 >

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(10)

2023-05-21 来源:飞速影视

key = ["timestamp", "full_sq", "life_sq", "floor", "build_year", "num_room", "price_doc"]
df.fillna(-999).groupby(key)["id"].count().sort_values(ascending=False).head(20)
基于这组关键特征，我们找到了 16 条复制数据。

如何处理基于关键特征的复制数据？删除这些复制数据。
# drop duplicates based on an subset of variables.
key = ["timestamp", "full_sq", "life_sq", "floor", "build_year", "num_room", "price_doc"]df_dedupped2 = df.drop_duplicates(subset=key)
print(df.shape)print(df_dedupped2.shape)
删除 16 条复制数据，得到新数据集 df_dedupped2。
不一致数据
在拟合模型时，数据集遵循特定标准也是很重要的一点。我们需要使用不同方式来探索数据，找出不一致数据。大部分情况下，这取决于观察和经验。不存在运行和修复不一致数据的既定代码。
下文介绍了四种不一致数据类型。
不一致数据类型 1：大写
在类别值中混用大小写是一种常见的错误。这可能带来一些问题，因为 Python 分析对大小写很敏感。
如何找出大小写不一致的数据？
我们来看特征 sub_area。
df["sub_area"].value_counts(dropna=False)
它存储了不同地区的名称，看起来非常标准化。

1 ...8 9 10 11 12 ...14 查看全文

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(10)

让我怎么相信你

怎么办家康

据幸存的六人所述

二哥来了怎么办

怎么办！脱口秀专场

我太受欢迎了该怎么办

赖汉的幸福指数

目前抖音最火最好听的10首歌曲【dj版】据说最后一首是00后的最爱