Desystemize 的论点,用一句话概括:要让数字有意义,需要做大量工作,而我们基本上没有这样做。这是一个简化的版本,还有很多值得探索的地方。在某些领域,这种情况发生得越来越少,近似值越来越好,有界的失败案例和无止境的失败案例。这不仅仅是数字,真的 - 这是我们为扩大我们的知识而创建的抽象,因为数字更多的是一种症状而不是原因。但归根结底,我们的使命是将细节注入到系统中,而这些细节并不像他们认为的那么重要。 “注入细节”——这是一个有点尴尬的措辞,不是吗?我更喜欢使用专注于我们正在积极做的事情的建设性语言,但我们手头没有熟悉的短语来做这种工作。我们谈论这些东西还不够。这就是我的全部观点!这份时事通讯被称为去系统化而不是细节注入器,因为——嗯,因为细节注入器将是一个可怕的名字,而且因为我们在这个领域的语言非常适合构建系统而不是拆除它们。必要时,如果不是选择的话,这些故事将主要集中在出现问题的地方。我更喜欢强调胜利而不是失败,但正如我们会发现的那样,胜利很少而且相距甚远,而失败就在我们身边。尽管如此,消极情绪并不是开始新事物的方法,是吗?让我们从少数胜利中的一个开始,以便我们了解去系统化的实际含义。让我们谈谈计数刻度。计数是一个系统,它比我们认为的要深刻和强大得多。毕竟,如果我捡起一只动物,数一数它身上的蜱虫(“蜱虫负担”),然后再把它松开,我就从头开始创造了一些东西。我们现在有了一个数字,而在此之前只有一个混乱而详细的世界。当我们放开那只动物时,我们将永远无法回到当时的世界并再看一眼,但只要我们愿意,这个数字将在未来存活多久。我们可以研究一段我们无法重温的过去,因为我们已经制作了一个数字作为它的镜子。系统擅长创造事物!例如,如果您想研究莱姆病的传播,您将需要这些作品。进行这项研究的人之一是 Richard S. Ostfeld 博士,他的书“莱姆病:复杂系统的生态学”很好地记录了他的实验室小组的调查。 80 年代和 90 年代初的许多研究都倾向于将白足鼠作为引起莱姆病的蜱的主要宿主,至少在美国东北部是这样。它们很丰富,它们倾向于将负责任的细菌(伯氏疏螺旋体)传递给以它们为食的蜱,但最重要的是:它们的蜱负担最高。正是由于这些罪名,我们才能确定有罪的一方。再次被系统的力量拯救了。但请记住,使计数如此强大的全部原因是过去是不可触及的。我们完全依赖现场计数作为访问过去的准确方式。给定动物的蜱虫数量与给定动物的蜱虫数量真的一样吗?这就是 Ostfeld 博士的用武之地,用我的钱,这是有史以来最精美的简单实验之一:“多年来,我的研究小组设置并检查了数十万个活体动物陷阱。当我们捕捉到白色足鼠,我们将动物从陷阱中取出并抓住它的颈背以检查其性别、繁殖状况、身份(耳标上的数字)、体重以及附着在其上的蜱虫数量不知什么原因,老鼠身上的黑腿蜱朝向耳朵,耳朵很大,只有稀疏的皮毛。通过仔细检查老鼠的耳朵和脸大约一分钟,我们检测到大约90%的蜱附着在它上面。我们知道这一点是因为我们已经将数百只老鼠带回实验室并将它们关在铁丝网笼中(提供水和它们最喜欢的食物),放在盛有水的平底锅上长达 5 天,比通常的黑腿蜱幼虫还要长在他们离开主人之前保持联系。(Th笼子下面的水盘里不仅有蜱虫——这是一项凌乱且具有挑战性的任务,但有时我们必须为科学做出牺牲。)因此,我们对许多单独的老鼠的蜱虫负担进行了全面统计,我们也在实验室中检查了这些老鼠。场地。对花栗鼠(Tamias striatus)重复相同的过程,我们知道在实地一分钟的检查中,我们检测到了大约 60% 到 75% 的蜱虫。对于我们捕获的所有其他哺乳动物和鸟类宿主,野外计数是如此狂野的低估,我们甚至不打扰。这些其他宿主上的黑腿蜱往往会分布在整个身体上,那里的皮毛或羽毛可能又密又厚,蜱是不可能看到的。如果宿主被麻醉,可以更仔细地检查它们,但即使是这些计数也往往会严重低估实际的蜱负担。”事实证明,有些物种比其他物种更容易计算蜱,而我们希望的那些实地计数是过去的一面镜子实际上只是告诉我们哪些物种的蜱虫最明显。为此,Ostfeld 博士的实验室小组(由 Kathleen LoGiudice 领导)收集了尽可能多的哺乳动物和鸟类物种,通过泛法进行测试。即便如此,这也有它的困难。例如,短尾鼩鼱具有远离陷阱的观察技能,没有用于标记的外部大耳朵,并且难以在实验室中存活——Ostfeld 博士认为这可能是这也是它们在莱姆病生态学中不重要的原因。不过,泛法对各种动物都有效,并揭示了一个令人惊讶的事实;白足小鼠的蜱虫负担是所有受试哺乳动物中最低的。但由于那些 ti他们确实拥有的 cks 在他们的耳朵上明显可见,使他们免于对场计数的正常戏剧性低估,将场计数与真实数字等同起来给了他们不应有的突出地位。它们仍然是莱姆病生态学的关键部分,但与之前假设的单一物种理论相去甚远。从生态学的角度来看,这只是像往常一样运作的科学;一个在反映世界方面做得不好的系统被一个做得更好的系统所取代。对我们来说,最有趣的部分是一个特别的句子:“对于我们捕获的所有其他哺乳动物和鸟类宿主,该领域的计数是如此疯狂的低估,我们甚至都懒得理会。”这就是去系统化的含义:不再相信给定的过程模拟了它打算模拟的世界部分。计数不是数字,我们将停止这样做。令我们高兴的是,它发生在这里,调查它所需要的细节描绘了一幅严峻的画面。
首先,我们应该注意到这个实验毫不费力地导致了一个新的系统化是多么幸运。我们通过创建另一个系统(盘计数)来证明一个系统(场计数)是错误的,该系统的设计保证它更准确,然后表明数字有很大的不同。但是即使我们没有平移计数来替换它们,字段计数也是错误的。当你提出一个好数字来反驳它时,很容易让人们摆脱一个坏数字;在没有替代品的情况下,要做到这一点要困难得多。在考虑去系统化时,更换系统是一种奢侈,而不是保证。更常见的结果是谦虚地走开,因为您正在调查的事情对于系统化来说太滑了。还有技术问题——或者更具体地说,缺乏技术。近年来,我们重新混合、复合和分析数字的能力呈爆炸式增长:机器学习算法可以从稀薄的空气中提取“洞察力”,大量的训练数据存储,各种有望从任何数字中获得更多收益的统计技术。照顾他们。但是我们从正确的数字开始的能力仍然受到一些生态学家筛选潮湿的老鼠粪便并计算蜱虫需要多长时间的限制。每年我们的分析工具与我们必须检查与世界的对应关系的人类规模的工具越来越不同步,使我们的眼睛比我们的胃大,并增加了假设数据必须没问题的诱惑,以便我们可以进入有趣的部分。最后,几乎所有过度系统化的故事背后都有一个冷酷而可怕的真相:该领域本身并没有任何迹象表明它们是错误的。那些老鼠耳朵上的蜱虫确实存在!即使有人愿意承认字段计数是严重低估,也会因为认为所有物种的不准确度大致相等,而不是“严重低估,特别是白脚老鼠和花栗鼠除外,对它们的计数将很接近”以一种使它们看起来比所有其他物种更容易被蜱虫感染的方式进行准确”。由于是系统生成数据,因此错误也将是系统性的;这违背了我们将错误视为围绕真实中心的一种随机模糊的直觉。 Ostfeld 博士在这一段的开头并没有指出这样那样的统计技术清楚地表明蜱计数有问题。他以一句话开头:“多年来,我的研究小组设置并检查了数十万个活体动物陷阱。”换句话说,正是对数据生成过程的熟悉使实验室小组能够想象这种潜在的漏洞并提出这个实验。当数据到达分析师手中时,修复已经为时已晚。你不能算出错误的数字。这个错误之所以被发现,只是因为生成数据和分析数据的人是同一个人。这对生态学来说很棒——但是随着数据科学变得越来越专业化,它将越来越多地由明确且纯粹的数据科学家来完成。他们会从某个地方的存储库继承数据集,并且永远不会发现这些系统性错误中的一个,因为即使他们愿意,他们也无法筛选潮湿的老鼠粪便。让我们回顾一下。我们从计数开始,这可能是全世界存在的最简单的系统化。事实证明,“拿起一只动物并数它身上的蜱虫”不仅不足以了解它身上有多少蜱虫,而且以非随机且令人难以置信的误导方式也不够充分。要发现这个错误,你必须密切参与数据生成过程,并有足够的好奇心来设计一个实验。那个实验涉及很多艰苦、乏味和粗暴的工作。如果你成功了,那么你会得到一个很好的数字,只是因为你碰巧正在研究一个系统由于其自身的优点而糟糕的问题,而不是因为域本身固有地抵制系统化。这就是实现适当的去系统化所需要的。但是对于系统化有抵抗力的域呢,我们只能说“我不知道正确答案是什么,只是没有好的方法可以找到它?”如果发现完全基于机器学习技术,并且没有简单的方法将它们与世界对应起来呢?那些因为侵犯了您的隐私而主动试图隐藏其生成过程的数据呢?如果没有利益相关者愿意为通信工作投入时间和精力,那么预期会以机器速度得出的结果呢?简而言之 - 我们看到了让这个看起来简单的系统(“你可以通过计算它们知道动物身上有多少蜱虫”)有意义是多么困难。鉴于此,我们周围的所有其他系统有多大意义?坏消息是:现代世界的意义危机几乎和听起来一样糟糕。好消息是:每周一次左右,您可以收到一封有关它的电子邮件。欢迎去系统化!