数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(12)

2023-05-21 来源:飞速影视

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡


相关文章:https://towardsdatascience.com/how-to-manipulate-date-and-time-in-python-like-a-boss-ddea677c6a4d不一致数据类型 3:类别值
分类特征的值数量有限。有时由于拼写错误等原因可能出现其他值。
如何找出类别值不一致的数据?
我们需要观察特征来找出类别值不一致的情况。举例来说:
由于本文使用的房地产数据集不存在这类问题,因此我们创建了一个新的数据集。例如,city 的值被错误输入为「torontoo」和「tronto」,其实二者均表示「toronto」(正确值)。
识别它们的一种简单方式是模糊逻辑(或编辑距离)。该方法可以衡量使一个值匹配另一个值需要更改的字母数量(距离)。
已知这些类别应仅有四个值:「toronto」、「vancouver」、「montreal」和「calgary」。计算所有值与单词「toronto」(和「vancouver」)之间的距离,我们可以看到疑似拼写错误的值与正确值之间的距离较小,因为它们只有几个字母不同。
from nltk.metrics import edit_distance
df_city_ex = pd.DataFrame(data={"city": ["torontoo", "toronto", "tronto", "vancouver", "vancover", "vancouvr", "montreal", "calgary"]})
df_city_ex["city_distance_toronto"] = df_city_ex["city"].map(lambda x: edit_distance(x, "toronto"))df_city_ex["city_distance_vancouver"] = df_city_ex["city"].map(lambda x: edit_distance(x, "vancouver"))df_city_ex
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号