上周,我的一个同龄人让我解释一下我所说的数据直觉是什么意思,我意识到我真的没有一个好的定义。这是个问题!我一直在说数据直觉!
数据直觉是我面试新数据科学家的三项技能之一(还有统计学和技术技能)。事实上,我刚刚花了2020年的前九个月建立了Mozilla的数据直觉。我真的很惊讶地意识到,我无法很好地解释我正在努力培养的东西。
换句话说,如果某人有很强的数据直觉,那么用数据来误导他们就更难了,可以把这看作是对黑暗数据艺术的一种防御。
数据直觉很强的人可以很快发现数据臭味(代码气味的近亲)。这些数据问题不一定会使分析无效,但肯定会引起对结果的怀疑。例如:
一项分析突出地报告了一个看似武断的指标-4天保留率增加了0.5%!4天保留期是从哪里来的?我们不是通常跟踪7天的保留期吗?在我相信结果之前,这需要更多的关注。
在预期名义结果的情况下,一项分析报告了非凡的结果-此功能将保留率提高了10%!但是,过去的努力是试图将留存率提高0.5%,而留存率不是已经达到90%了吗?我们是如何获得并增长10%的呢?
这些都是极端的例子。通常情况下,问题更微妙,会导致人们对结果普遍感到不安(这就是为什么它被称为直觉)。
我很清楚,数据直觉与产品直觉是相关的,尽管它们是不同的技能。产品直觉可以将我们的结果联系起来,让我们更容易识别分析中的特殊主张。要知道留存率提高10%是荒谬的,我们需要知道用户已经保持得很好了。
强大的数据直觉还可以帮助您发现分析设计方面的问题。比如:作者是如何收集数据的?这是一个有代表性的样本吗?他们需要进行实验才能确定因果关系吗?
这里有一个例子--比如一项分析报告说,创建Firefox账户的Firefox用户比没有创建Firefox账户的用户高出10%。默认情况下,许多人将其解读为,如果我们投入一些时间帮助用户开户,我们将看到留存率增加。相反,数据直觉较强的人会意识到这些结果只是相关的(而不是因果的)。
经常使用该产品的用户往往停留的时间更长。开户的用户是更活跃的用户,因此他们保留得更好。使Firefox崩溃的用户是更活跃的用户,也保留得更好。
我认为这种直觉不仅仅是对统计学的理解。强大的统计背景可以帮助我在阅读白皮书的方法部分时发现问题。强大的数据直觉帮助我确定我在多大程度上信任我在新闻标题中听到的结果。数据直觉帮助我确定结果是否足够真实。
我几乎将数据直觉定义为一种怀疑主义,但我认为这是一种糟糕的描述。怀疑主义过分关注于忽视结果。
直觉不仅仅是怀疑。它将新数据作为现有知识体系的一部分。很多时候,这意味着认定新的传入数据是不一致的,需要更多的调查才能信任它们。但在其他时候,这意味着面对比我们现有知识体系更权威的新数据,这意味着改变我们的观点。
我想听听你们对这个问题的看法。我之所以公开发布这个定义,部分原因是我想援引坎宁安定律。得出正确答案的最好方法就是发布错误的答案!
你对数据直觉的定义有共鸣吗?我错过了什么重要的东西吗?让我知道!我的电子邮件在这一页的底部。
我将在接下来的几个月里建立一些自助式培训,帮助Mozilla的非数据人员建立数据直觉。我宁愿现在就错,而不是明年!
请随时通过电子邮件分享任何反馈!你可以在gmail上通过harterrt联系到我。期待您的回音!