数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(14)
2023-05-21 来源:飞速影视
如何处理地址不一致的数据?运行以下代码将所有字母转为小写,删除空格,删除句号,并将措辞标准化。
df_add_ex["address_std"] = df_add_ex["address"].str.lower()df_add_ex["address_std"] = df_add_ex["address_std"].str.strip() # remove leading and trailing whitespace.df_add_ex["address_std"] = df_add_ex["address_std"].str.replace(".", "") # remove period.df_add_ex["address_std"] = df_add_ex["address_std"].str.replace("street", "st") # replace street with st.df_add_ex["address_std"] = df_add_ex["address_std"].str.replace("apartment", "apt") # replace apartment with apt.df_add_ex["address_std"] = df_add_ex["address_std"].str.replace("av", "ave") # replace apartment with apt.
df_add_ex
现在看起来好多了:
结束了!我们走过了长长的数据清洗旅程。现在你可以运用本文介绍的方法清洗所有阻碍你拟合模型的「脏」数据了。
参考链接:https://towardsdatascience.com/data-cleaning-in-python-the-ultimate-guide-2020-c63b88bf0a0d
本文为机器之心编译,转载请联系本公众号获得授权。
原标题:《数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡》
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号