当前位置：首页 > 资讯 >

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(13)

2023-05-21 来源:飞速影视

如何处理类别值不一致的数据？我们可以设置标准将这些拼写错误转换为正确值。例如，下列代码规定所有值与「toronto」的距离在 2 个字母以内。
msk = df_city_ex["city_distance_toronto"] <= 2df_city_ex.loc[msk, "city"] = "toronto"
msk = df_city_ex["city_distance_vancouver"] <= 2df_city_ex.loc[msk, "city"] = "vancouver"
df_city_ex

不一致数据类型 4：地址地址特征对很多人来说是老大难问题。因为人们往数据库中输入数据时通常不会遵循标准格式。
如何找出地址不一致的数据？
用浏览的方式可以找出混乱的地址数据。即便有时我们看不出什么问题，也可以运行代码执行标准化。
出于隐私原因，本文采用的房地产数据集没有地址列。因此我们创建具备地址特征的新数据集 df_add_ex。
# no address column in the housing dataset. So create one to show the code.df_add_ex = pd.DataFrame(["123 MAIN St Apartment 15", "123 Main Street Apt 12 ", "543 FirSt Av", " 876 FIRst Ave."], columns=["address"])df_add_ex
我们可以看到，地址特征非常混乱。

1 ...10 11 12 13 14 查看全文

数据缺失、混乱、重复怎么办？最全数据清洗指南让你所向披靡(13)

让我怎么相信你

怎么办家康

据幸存的六人所述

二哥来了怎么办

怎么办！脱口秀专场

我太受欢迎了该怎么办

赖汉的幸福指数

目前抖音最火最好听的10首歌曲【dj版】据说最后一首是00后的最爱