数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(11)
2023-05-21 来源:飞速影视
但是,有时候相同特征内存在不一致的大小写使用情况。「Poselenie Sosenskoe」和「pOseleNie sosenskeo」指的是相同的地区。如何处理大小写不一致的数据?
为了避免这个问题,我们可以将所有字母设置为小写(或大写)。
# make everything lower case.df["sub_area_lower"] = df["sub_area"].str.lower()df["sub_area_lower"].value_counts(dropna=False)
不一致数据类型 2:格式我们需要执行的另一个标准化是数据格式。比如将特征从字符串格式转换为 DateTime 格式。
如何找出格式不一致的数据?
特征 timestamp 在表示日期时是字符串格式。
df
如何处理格式不一致的数据?使用以下代码进行格式转换,并提取日期或时间值。然后,我们就可以很容易地用年或月的方式分析交易量数据。
df["timestamp_dt"] = pd.to_datetime(df["timestamp"], format="%Y-%m-%d")df["year"] = df["timestamp_dt"].dt.yeardf["month"] = df["timestamp_dt"].dt.monthdf["weekday"] = df["timestamp_dt"].dt.weekday
print(df["year"].value_counts(dropna=False))print()print(df["month"].value_counts(dropna=False))
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号