数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(9)

2023-05-21 来源:飞速影视
我们可以逐一查看这些变量,确认它们是否提供有用信息。(此处不再详述。)

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡


如何处理重复数据?我们需要了解重复特征背后的原因。当它们的确无法提供有用信息时,我们就可以丢弃它。
不必要数据类型 2:不相关
再次强调,数据需要为项目提供有价值的信息。如果特征与项目试图解决的问题无关,则这些特征是不相关数据。
如何找出不相关数据?
浏览特征,找出不相关的数据。
例如,记录多伦多气温的特征无法为俄罗斯房价预测项目提供任何有用信息。
如何处理不相关数据?
当这些特征无法服务于项目目标时,删除之。
不必要数据类型 3:复制
复制数据即,观察值存在副本。
复制数据有两个主要类型。
复制数据类型 1:基于所有特征
如何找出基于所有特征的复制数据?
这种复制发生在观察值内所有特征的值均相同的情况下,很容易找出。
我们需要先删除数据集中的唯一标识符 id,然后删除复制数据得到数据集 df_dedupped。对比 df 和 df_dedupped 这两个数据集的形态,找出复制行的数量。
# we know that column "id" is unique, but what if we drop it?df_dedupped = df.drop("id", axis=1).drop_duplicates()
# there were duplicate rowsprint(df.shape)print(df_dedupped.shape)
我们发现,有 10 行是完全复制的观察值。
如何处理基于所有特征的复制数据?
删除这些复制数据。
复制数据类型 2:基于关键特征
如何找出基于关键特征的复制数据?
有时候,最好的方法是删除基于一组唯一标识符的复制数据。
例如,相同使用面积、相同价格、相同建造年限的两次房产交易同时发生的概率接近零。
我们可以设置一组关键特征作为唯一标识符,比如 timestamp、full_sq、life_sq、floor、build_year、num_room、price_doc。然后基于这些特征检查是否存在复制数据。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号