原文标题:《Excel 里把人“逼疯”的杂乱数据,原来 1 分钟就能整理好!》
锵锵!大家好哇~ 我是最近在研究数据分析的卫星酱~
数据分析中有个很重要的预处理步骤,叫做「数据清洗」。
简单来说就是把数据中「脏脏的 」部分 —— 缺失的、重复的、错误的等等,给它清除掉,剩下「干净的」数据。
光讲概念也太难理解了,卫某今天就直接用实例,给大家看看数据清洗,到底是怎么个事儿~
1、缺失数据
如果某处缺了一两个数据,最简单的方法就是 —— 扔了它。
别笑!
这的确是正规的数据清洗手段,在表格不大、不完整数据较少的情况下,完全可以这样做。
「比如 2002 年「产品 C」的产量缺失了,那就偷偷把 2002 年从统计表里删掉,只分析后面的~」
但这样可能将潜在信息删除,也可能导致数据分析出现较大偏差。
所以,如果数据很多、空缺也多,删除过多条目会使得结果产生较大偏差时,我们还是得把空缺补上。
❶ 空值变 0 值
【Ctrl+G】定位,【定位条件】,选择【空值】,【确定】,最后输入 0。
❷ 统计学方法
但很多时候不能这样粗暴地填充。
实际应用常选择统计学方法,比如平均值,来填充缺失的数据。
当然,根据数据实际类型,也可能使用中间值、最大值、最小值或者其他更复杂的函数值。
像这个预测函数,就怪好用的。
2、重复数据
至于重复数据,在之前的「数据核对」篇中已经讲过了,这里就不再赘述。
很多时候,我们在基础的 Excel 应用中就完成了「数据清洗」的步骤。
数据分析的门槛,真的没我们想象的那么高~
3、错误数据
函数错误值,比如#DIV / 0!、#N / A! 之类,只要在公式外套上 IFERROR 就行:
另一种错误数据,就没那么好对付了……
「比如等级只有「A / B / C」三种,有个单元格却出现了「D」的;或者要求填写「√」,偏偏有人写「☑」的……」
这种除了在一开始设置数据验证,就只有用查找、计数、条件格式等偏门方法了
这种错误数据「D」,可以用【查找】或【筛选】直接定位它。
而「感觉上不对」的数据,就比较难找到了:
▲ 误差过大,不是测量误差可以解释的
这时我们就只能因地制宜,想办法定位它,例如用 IF 函数筛选大于 36.13 的数据。
找到之后按照「缺失数据」的办法处理它就是了。
4、写在最后
好啦,今天从数据类型的角度给大家简单讲了下数据清洗的做法~
小伙伴们还知道哪些属于数据清洗的 Excel 操作呢?
本文来自微信公众号:秋叶 Excel(ID:excel100),作者:卫星酱
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。