是轶事数据的复数形式吗?

2022-02-21 08:34:03

你可能听过“轶事的复数不是数据”这句话,但这句话的发起者、政治学家雷蒙德·沃尔芬格(Raymond Wolfinger)似乎说的恰恰相反!故事是这样的:

有一次,当一名学生将沃尔芬格的一个说法归类为“只是轶事”时,他停顿了一下,期待了第二次,把罗伯特·达尔的《谁治理》的一本放在了他的研讨会桌上,回答说:“轶事的复数形式就是数据。”

那么,哪些是数据,哪些不是数据?我认为轶事通常意味着一个有趣的故事。关于你日常生活的故事并不特别有趣,因此它们不会作为轶事流传。今天,我煮了一杯咖啡。虽然这可能是真的,但没人愿意听到更多关于这件事的消息。但如果我今天告诉你我跳伞了,你可能会更感兴趣。

当我们想尽我们所能去了解我们周围的世界时,故事并不能解决这个问题;我们需要使用统计推断。如果我们想研究一个群体,我们必须从该群体中随机抽取样本。从这个随机样本中,我们可以获得关于它是从统计数据中提取的人口的信息。你会听到日常生活中的一些统计数据。人们最常谈论的是“中庸”。随机样本中变量的平均值是该变量在观察次数上的所有值之和:

如果我能得到总体平均数,我不会真的关心样本平均数,但通常这太难了。想象一下,我想知道美国男性的平均身高。我可以随机抽取样本并取平均值,或者我可以测量美国的每个男性,但我们知道这是不可行的。然而,随着我的样本量越来越大,我真的越来越接近这个确切的群体。这就是所谓的大数定律。

这里需要注意的是,样本必须是随机的。如果我有一个非随机样本,我不一定会收敛于真均值。事实上,如果我不是随机抽样,我的平均值可能会随着样本的增加而变得更加错误。

想象一下,我经营着一家出售渔具的商店,人们在寻找新的钓鱼竿时,他们会定期和我聊天,给我讲故事。有时,这些故事会涉及到捕鱼技巧的壮观展示。我可以问每个讲故事的人这条鱼有多大,然后取平均值。让我们假设他们是诚实的渔民。如果我出去钓鱼,我会期望钓到一条与故事中鱼的平均长度差不多的鱼吗?没有,我没有随机抽样!

一堆有趣的故事会受到抽样偏见的影响。如果你钓到一条大鱼,你只会讲一个鱼的故事,否则谁在乎呢?一个更好的方法是捕获100条鱼,并计算出平均大小,以确定该地区的鱼有多大。我们预计鱼会更接近这个平均值,而不是惊人故事产生的平均值。当然,我个人捕到的鱼可能会受到一些偏见的影响。也许,我不擅长钓鱼,结果却钓到了一群小家伙。即使考虑到这些偏见,我还是会选择我的平均值,而不是消费者的平均值,因为抽样过程更随机。

我可以用一种更少偏见、更好的方式调查人们,即使是自我报告。当你有社会期望偏差时,自我报告是很棘手的。如果你问某人“你多久偷一次?”或者“你对你丈夫不忠吗?”,你不太可能得到准确的描述。人们被怂恿撒谎。如果你等得太久,人们也不太擅长回忆信息。下面是一个有趣的问题自我报告数据示例列表。

如果我问某人一个直截了当的、不涉及政治、不涉及道德的问题,而这个问题又不太可能被遗忘,我可能会得到一个相当准确的答案。如果我问“今天早上你早餐吃了什么?”,我希望答案是正确的。如果我问“告诉我你吃了什么早餐”,他们可能会说“嗯,这一次我在日本……”。

人们通常对奇闻轶事有一个问题,那就是当人们看到与他们的经历相反的数据时,他们会提起奇闻轶事。如果我说狗通常比猫大,有人可能会反驳说:“嗯,我有一只非常小的狗,它比我的猫小。”如果有人说“所有的狗都比猫大”,这是一个恰当的回答当人们说“狗比猫大”时,有时会产生歧义,这有时意味着所有的狗都比猫大,有时意味着大多数狗都比猫大或介于两者之间。

问题在于,人们会使用个人经验,并将其与堆积如山的证据进行权衡。如果这门学科像社会心理学一样没有得到很好的复制,这可能没什么问题,但总的来说,我们不应该更多地权衡经验证据。但如果你没有好的经验证据呢?那么你可能需要利用个人经验。从技术上讲,对于贝叶斯来说,轶事就是数据。轶事是我们应该用来更新先验知识的信息。从技术上讲,它可能是一个小数目,但实际上应该是一个小数目。

有时候,我们不得不用我们所知道的来解决问题。我们不能只是去查阅调查和一堆数据。我们必须独立思考。如果有人说:“如果你不用谷歌就能在10英尺内猜出你周围的树木在未来15分钟内的平均高度,我会给你1万美元。”我们必须想到苍蝇。我不会对树的高度有很好的先验知识,也许我知道树不是一英里高,也不是5英尺高,但我想我在其他方面相当无知。

实际上,一个好的策略是走出去,开始尝试弄清楚这些树有多高。“嗯,这一栋比一栋两层楼高约6英尺,而这一栋比这所房子小。”你会想把它写下来,然后把它们平均起来。当然,这些数据可能是有偏见的,但它会如此有偏见以至于你不应该使用它吗?我不这么认为。

我认为这样做的一个原则是:如果没有证据表明情况并非如此,那么就假设你的个人经历接近平均水平。

如果我们相信这一原则,那么,如果我们知道个人故事不是有趣的轶事,而且显然不常见,那么这些故事至少接近人口的平均水平。如果我们这样认为,那么目前使用个人证据进行推理在一定程度上是合理的。

我们对学术研究有更高的严格标准,但我们往往没有能力研究一切,但我们需要了解信息。如果我们想知道理发师是否能把我们的头发理好,我们可以问我们的朋友谁去找他。他显然是一个有偏见的样本,但我们完全没有掌握信息。如果我们有一个N=1的观察结果,我们有一些证据需要更新。

这个问题让我很感兴趣,因为我对量化自我——追踪自我信息的实践——有着浓厚的兴趣。追踪的目标通常是更好地了解自己。目前我感兴趣的一些问题是,睡得多是让我感觉更好还是更糟,以及心率和心率变化等生物数据与情绪的关系。

量化自我很酷,因为它让你探索与你最相关的条件,即你自己的生活。我可以查看CBT是否能缓解抑郁症状,并发现它在很多人身上都有效,但要想知道它是否对我有效,最好的方法是尝试一下。要想知道运动、饮食、睡眠等是否能改变你,最好的办法就是衡量你想改变的东西。

一个重要的问题是,当你做出改变时,你是否有影响,是否值得与他人分享。我想是的。我相信即使是少量的数据也足以更新你的信念。通常情况下,如果我们在没有事先研究的情况下探索某个小领域,我们就会不知所措。不管怎样,我们都没有好主意。在这方面,一小段数据是有价值的。如果我想知道一些安眠药是否有效,并且网上有一篇评论,总比没有评论好。棘手的部分是要认识到报道的偏见。

感谢您阅读Parrhesia的时事通讯!免费订阅以接收新帖子并支持我的工作。