要避免的常见概率错误

2020-11-04 17:23:10

如果你想快速了解一个新的领域,你能做的最重要的事情之一就是找出人们常犯的错误,然后避免它们。以下是我们在考虑统计数据时往往会犯的一些最可预测的错误。

业余选手倾向于追求卓越。专业人士通常知道,避免愚蠢要有效得多。避开典型的错误是走在人群前面的最简单的方法。

更好地理解概率会让你对世界有更准确的认识,并帮助你做出更好的决定。然而,许多人都被同样的几个问题所困扰,因为概率的各个方面与我们认为的直觉相悖。即使你从高中开始就没有研究过这个话题,在你的工作和生活中,你可能每天都会使用概率评估。

在“裸体统计”一书中,查尔斯·惠兰(Charles Wheelan)带领读者进行了一次统计基础知识的走马观花之旅。在其中一章中,他提供了避免一些“最常见的与概率相关的错误、误解和伦理困境”的建议。无论你是这个话题的新手,还是只想复习一下,这里都是惠兰课程的总结,并告诉你如何应用这些课程。

“用一枚公平的硬币抛出头的概率是1/2。连续抛出两个头的概率是(1/2)^2或1.4,因为两个独立事件都发生的可能性是它们各自概率的乘积。”

当一个事件与另一个事件相互关联时,前者发生的概率增加或减少后者发生的概率。你的车险在车祸后会变得更贵,因为车祸不是独立的事件。进入一家公司的人将来更有可能进入另一家公司。也许他们不是一个好的司机,也许他们酒后开车,或者他们的视力不完美。不管怎么解释,保险公司都知道要修改他们的风险评估。

然而,有时,发生的事件可能会导致改变,使其在未来变得不太可能发生。如果你今早把咖啡洒在衬衫上,你今天下午可能不太可能做同样的事,因为你会更加谨慎。如果一家航空公司去年发生了坠机事件,你很可能会更安全地乘坐他们的航班,因为他们会对安全程序进行广泛的改进,以防止再次发生灾难。

有一点我们应该特别注意事件的独立性或相依性,那就是在制定计划时。我们的大部分计划并没有按我们希望的那样进行。我们延误了,我们不得不走回头路,我们必须做出意想不到的改变。有时,我们认为我们可以通过稍后加快行动来弥补计划中某一部分的延误。但计划的各个部分并不是独立的。随着问题的加剧和积累,一个地区的延误会使其他地区的延误更有可能发生。

任何时候,当你考虑事件序列的概率时,一定要确定它们是否是独立的。

“当独立的事件不被视为独立事件时,就会出现另一种错误。。。如果你抛一枚公平的硬币100万次,并连续得到100万个头,那么下一次抛出头的概率仍然是二分之一。两个事件之间统计独立性的定义就是,一个事件的结果对另一个事件的结果没有影响。“。

想象一下,你正在当地的一家咖啡馆吃早餐三明治,突然有人粗鲁地插到你前面排队,无视你的抗议。当天晚些时候,当你在另一家咖啡馆等待轮到你点拿铁时,同样的事情发生了:一个随机的陌生人推到你前面。当晚回家前,当你去不同的地方给孩子买糕点时,你已经被你遇到的所有粗鲁行为惹恼了,以至于你愤怒地注视着每个进入商店的人,警惕任何试图取代你的人。但当然,这两个粗鲁的陌生人是独立的事件。他们不太可能一起工作来惹恼你。事实上,一天内发生两次并不会增加第三次发生的可能性。

这里要记住的最重要的事情是,合取事件发生的概率永远不会高于每个事件发生的概率。

“你可能已经在报纸上读过这个故事,或者可能已经看到新闻曝光:在一个特定地区,一些统计上不太可能的人患上了一种罕见的癌症。一定是水,或者是当地的发电厂,或者是手机发射塔。

。。。但这一群病例也可能是纯粹偶然的产物,即使病例数量看起来非常不可能。是的,在同一所学校、教堂或工作场所的五个人感染同样罕见的白血病的概率可能是百万分之一,但有数百万所学校、教堂和工作场所。在其中一个地方,5个人可能会患上同样罕见的白血病,这并不是很不可能。“。

概率的一个重要教训是,虽然特定的不太可能的事件是,嗯,不太可能的,但任何不太可能的事件发生的可能性都很高。你中彩票的几率几乎为零。但总得有人赢。你被闪电击中的几率几乎为零。但是,有这么多人四处走动,有这么多风暴,这迟早会发生在某人身上。

对于一连串不太可能发生的事件也是如此。任何一个人多次中奖或被雷击不止一次的几率甚至比发生一次的几率更接近于零。然而,当我们审视世界上所有的人时,这肯定会发生在某些人身上。

我们都是模式匹配的生物。我们发现随机性很难处理,很难在混乱的事件中寻找意义。所以星系团经常愚弄我们也就不足为奇了。如果你遇到这样的情况,明智的做法是记住它可能是偶然的产物,而不是任何更有意义的东西。当然,一年内发生三起车祸,或者在同一个会议上遇到两个大学室友,这可能是不和谐的。然而,这一切都不太可能发生在某人身上吗?

“当围绕统计证据的上下文被忽视时,检察官的谬误就会发生。。。如果你用来自一百万人的样本在数据库中进行同样的操作,那么在一百万匹配中找到巧合的可能性相对较高。“。

重要的是要看一下围绕统计数据的上下文。比方说,你正在评估是否服用医生建议的药物。快速浏览一下信息传单,你会发现它有10000人中有1人有血栓的风险。你应该担心吗?嗯,那要看具体情况了。10000人中有1人的数字考虑到了可能服用这种药物的具有不同基因和不同生活方式的广泛人群。如果你是一个有血栓家族史的超重、有血栓家族史的连续吸烟者,而且每个月要乘坐两次12小时的航班,你可能想要和你的医生进行更严肃的讨论,而不是一个没有相关家族病史的活跃的非吸烟者。

统计数据给我们提供了一个简单的快照,但是如果我们想要一个更细粒度的图像,我们需要考虑上下文。

“概率告诉我们,任何异常值--一种在一个或另一个方向上特别远离均值的观察结果--之后可能会出现与长期均值最为一致的结果。

。。。思考这一均值倒退的一种方式是,表现-无论是精神上的还是身体上的-包括潜在的与天赋相关的努力加上运气的因素,无论是好是坏。(统计学家会称之为随机误差。)。在任何情况下,那些在一段时间内表现远远高于平均水平的人很可能运气好;那些表现远低于平均水平的人可能运气不好。。。。当一段非常好的运气或非常不好的运气结束时--这是不可避免的--由此产生的表现将更接近平均水平。“。

温和的事件往往紧随极端事件之后。回归平均数经常误导我们的一个领域是,当考虑人们在体育或管理等领域的表现时。我们可能认为一次非凡的成功预示着未来的成功。然而,从一个结果来看,我们不能知道这是天赋的结果还是运气的结果-在这种情况下,下一个结果可能是平均的。失败或成功之后通常会发生更接近平均水平的事件,而不是另一个极端。

回归平均数告诉我们,区分技能和运气的方法是看某人的记录。你掌握的信息越多越好。即使过去的业绩并不总是预示着未来的业绩,但持续的高业绩记录是一个比单一亮点好得多的指标。

如果你想了解基本统计数据,可以去查尔斯惠兰的“裸体统计”(Naked Statistics)看看。