数据分析师——你的数据错了怎么办?

数据分析师最怕什么?数据错误!无论你是初级的数据提取师还是高级的商业分析师,无论你是通过数据统计工具埋点获取数据,还是通过SQL汇总或提取数据,又或者是使用Python计算数据。都无法逃脱数据错误的问题。这个看起来非常低级的错误,却是数据分析师永远无法摆脱的痛。

drawn-illusion-four-stick-548897-8008934

数据错误无法避免

数据错误的问题可能来自分析师主观的操作失误,也可能来自各种客观因素。比如,不同统计工具间的统计逻辑差异,业务方对同一个指标不同的定义和计算规则,用户和合作伙伴行为的复杂性和潜在的欺诈流量,原始数据太脏或缺失,复杂多变走位风骚的业务逻辑,以及需求方可能压根就不知道或者表达清楚自己到底想要什么?

小到单一数据的提取,大到一份商业分析报告,不分重要程度,不分公司大小都会遇到数据错误的问题,甚至连当前市值5千亿美金的Facebook在2012年上市之初的几份季报中也反复的说明我们有一些关键指标出现了错误,不信你往下看。

Facebook2012年2月1日提交S-1文件。在随后的2012年Q3和Q4的季报中专门用一段“关键指标的局限性”(Limitations of Key Metrics)来说明影响指标的因素,以及关键指标中存在的错误。(我在S-1文件中并没有找到Limitations of Key Metrics部分的内容和对地理位置指标算法的披露)

以下是具体内容:

“例如,在2012年6月初,我们发现了我们用于估计用户地理位置的算法中的一个错误,该算法影响了我们在截至2012年3月31日期间对某些用户位置的归属。虽然这个问题没有影响我们的全球MAU总数,但它确实影响了我们对不同地理区域用户的归属。我们估计,截至2012年3月31日,由于误差,美国和加拿大地区的MAU数量被高估了约3%,这些高估被其他地区的低估抵消。此外,我们对用户位置收入的估计也受这些因素的影响。我们定期审查并尽可能调整计算这些指标的流程,以提高其精确性。此外,由于方法上的差异,我们的MAU和DAU估算数将与第三方公布的估算数不同。例如,一些第三方无法精确地度量移动用户,或者无法计算特定用户组的移动用户数,也无法对移动用户数进行分析。”

Facebook2012Q4
由于早期Facebook通过IP地址统计PC端的用户地理位置,由于IP地址库本身的精确性问题,以及用户使用代理服务器的问题,造成Facebook对用户地理归属的错误。进而影响了美国和加拿大地区MAU和ARPU值的计算结果。在随后的Q4中Facebook也依然单独说明了这个问题。

2013年Q1的季报中这个问题被移到了风险因素(Risk Factors)中,并一直保留到现在。如果你去看2018年Q4的报告依然会找到这些错误信息。除此之外,还包含重复账户和虚假账户的信息对MAU造成的影响。

Facebook2013Q1RF
Facebook错误确实影响了数据精确性,但这对宏观层面的业务表现并没有影响。换句话说,美国和加拿大的MAU被高估了3%,但并不会影响这两个国家MAU在整体排序中的位置及ARPU值第一的重要性。数据不够精确,但是很准确。

那么既然数据错误这个问题是无法避免的,当遇到这个问题时怎么办呢?结合Facebook的处理方法以及之前的经验,我们给出两个方法:事前说明和事后补救。

事先说明事后补救

事前说明主要是对业务逻辑和衡量指标的统一。如果最基本的指标定义都不一致,那么计算方法也一定是不一致的。这样的结果就是数据错误。所以在最开始,需要先罗列出关键的指标体系,以及每个指标的定义和计算方法。在内形成共识后附在每个分析报告的后面。当然,这是对已有数据的处理方法,还有一种情况就是数据缺失,或者需要预测和推理,这时就需要用到事后补救的方法。

事后补救是针对计算逻辑中的缺失值进行估算时,写清楚现有的条件,你的假设和具体的推算方法。说的直白一点就是当你拍脑袋的时候,告诉大家你是按什么逻辑拍的。是按历史数据增长率算的,还是按行业平均增速估的。每个数值来自哪里等等。

例如,对之前文章中我们讨论的Apple App Store累计下载量进行预测。Apple官方给出的下载量数据只截止到2016年Q1的1000亿。在现有的历史数据下,我们通过回归粗略推测2016年Q2的累积下载量为1162亿。这里没有考虑到iphone销量变化对App下载的影响。

数据错误这件事对分析师来说在所难免,即使主观做到最好,客观因素也不可能面面俱到。人的行为本来就是复杂多变的,不可能用一个简单的数字来涵盖,连Facebook也无法妥善的处理好这样的问题。所以,请理解数据分析师的工作,理解这些混乱且无法改变的客观因素。力求准确,但求精确。

—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—

Speak Your Mind

*