数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(10)
2023-05-21 来源:飞速影视
key = ["timestamp", "full_sq", "life_sq", "floor", "build_year", "num_room", "price_doc"]
df.fillna(-999).groupby(key)["id"].count().sort_values(ascending=False).head(20)
基于这组关键特征,我们找到了 16 条复制数据。
如何处理基于关键特征的复制数据?删除这些复制数据。
# drop duplicates based on an subset of variables.
key = ["timestamp", "full_sq", "life_sq", "floor", "build_year", "num_room", "price_doc"]df_dedupped2 = df.drop_duplicates(subset=key)
print(df.shape)print(df_dedupped2.shape)
删除 16 条复制数据,得到新数据集 df_dedupped2。
不一致数据
在拟合模型时,数据集遵循特定标准也是很重要的一点。我们需要使用不同方式来探索数据,找出不一致数据。大部分情况下,这取决于观察和经验。不存在运行和修复不一致数据的既定代码。
下文介绍了四种不一致数据类型。
不一致数据类型 1:大写
在类别值中混用大小写是一种常见的错误。这可能带来一些问题,因为 Python 分析对大小写很敏感。
如何找出大小写不一致的数据?
我们来看特征 sub_area。
df["sub_area"].value_counts(dropna=False)
它存储了不同地区的名称,看起来非常标准化。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号