数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(13)

2023-05-21 来源:飞速影视

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡


如何处理类别值不一致的数据?我们可以设置标准将这些拼写错误转换为正确值。例如,下列代码规定所有值与「toronto」的距离在 2 个字母以内。
msk = df_city_ex["city_distance_toronto"] <= 2df_city_ex.loc[msk, "city"] = "toronto"
msk = df_city_ex["city_distance_vancouver"] <= 2df_city_ex.loc[msk, "city"] = "vancouver"
df_city_ex

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡


不一致数据类型 4:地址地址特征对很多人来说是老大难问题。因为人们往数据库中输入数据时通常不会遵循标准格式。
如何找出地址不一致的数据?
用浏览的方式可以找出混乱的地址数据。即便有时我们看不出什么问题,也可以运行代码执行标准化。
出于隐私原因,本文采用的房地产数据集没有地址列。因此我们创建具备地址特征的新数据集 df_add_ex。
# no address column in the housing dataset. So create one to show the code.df_add_ex = pd.DataFrame(["123 MAIN St Apartment 15", "123 Main Street Apt 12 ", "543 FirSt Av", " 876 FIRst Ave."], columns=["address"])df_add_ex
我们可以看到,地址特征非常混乱。

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号