数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(8)
2023-05-21 来源:飞速影视
df["life_sq"].describe()
方法 3:条形图当特征是分类变量时,我们可以使用条形图来了解其类别和分布。
例如,特征 ecology 具备合理的分布。但如果某个类别「other」仅有一个值,则它就是异常值。
# bar chart - distribution of a categorical variabledf["ecology"].value_counts().plot.bar()
条形图其他方法:还有很多方法可以找出异常值,如散点图、z 分数和聚类,本文不过多探讨全部方法。
如何处理异常值?
尽管异常值不难检测,但我们必须选择合适的处理办法。而这高度依赖于数据集和项目目标。
处理异常值的方法与处理缺失值有些类似:要么丢弃,要么修改,要么保留。(读者可以返回上一章节处理缺失值的部分查看相关解决方案。)
不必要数据
处理完缺失数据和异常值,现在我们来看不必要数据,处理不必要数据的方法更加直接。
输入到模型中的所有数据应服务于项目目标。不必要数据即无法增加价值的数据。
这里将介绍三种主要的不必要数据类型。
不必要数据类型 1:信息不足/重复
有时一个特征不提供信息,是因为它拥有太多具备相同值的行。
如何找出重复数据?
我们可以为具备高比例相同值的特征创建一个列表。
例如,下图展示了 95% 的行是相同值的特征。
num_rows = len(df.index)low_information_cols = [] #
for col in df.columns: cnts = df[col].value_counts(dropna=False) top_pct = (cnts/num_rows).iloc[0] if top_pct > 0.95: low_information_cols.append(col) print("{0}: {1:.5f}%".format(col, top_pct*100)) print(cnts) print()
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号