数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡(2)
2023-05-21 来源:飞速影视
本文两位作者 Lianne & Justin。在进入数据清洗流程之前,我们先来看一下数据概况。
# import packagesimport pandas as pdimport numpy as npimport seaborn as sns
import matplotlib.pyplot as pltimport matplotlib.mlab as mlabimport matplotlibplt.style.use("ggplot")from matplotlib.pyplot import figure
%matplotlib inlinematplotlib.rcParams["figure.figsize"] = (12,8)
pd.options.mode.chained_assignment = None
# read the datadf = pd.read_csv("sberbank.csv")
# shape and data types of the dataprint(df.shape)print(df.dtypes)
# select numeric columnsdf_numeric = df.select_dtypes(include=[np.number])numeric_cols = df_numeric.columns.valuesprint(numeric_cols)
# select non numeric columnsdf_non_numeric = df.select_dtypes(exclude=[np.number])non_numeric_cols = df_non_numeric.columns.valuesprint(non_numeric_cols)
从以上结果中,我们可以看到该数据集共有 30,471 行、292 列,还可以辨别特征属于数值变量还是分类变量。这些都是有用的信息。
现在,我们可以浏览「脏」数据类型检查清单,并一一攻破。
开始吧!
缺失数据
处理缺失数据/缺失值是数据清洗中最棘手也最常见的部分。很多模型可以与其他数据问题和平共处,但大多数模型无法接受缺失数据问题。
如何找出缺失数据?
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号