电子表格的暴政

2021-07-24 07:06:28

去年十月初,我的电话响了。电话里是一位研究员从今天这个 BBC 议程设置的早间广播节目中打来电话。她告诉我发生了一些奇怪的事情,她希望我能解释一下。近 16,000 例 Covid 阳性病例已从英国的接触者追踪系统中完全消失。这些是 16,000 人本应被警告他们已被感染并对他人构成危险,16,000 例接触追踪者本应被追踪以查明感染者去了哪里,他们遇到了谁以及还有谁可能处于危险之中。这些都没有发生。这是一个惊人的故事,随着时间的推移,我会深入研究会计、流行病学和疫苗接种的历史,与微软创始人比尔盖茨讨论文件格式,甚至追溯安然公司倒闭的余震。但最重要的是,这是一个故事,它教会了我我们将数字视为理所当然的方式。现在,随着英国在病例迅速增加的背景下暂时重新开放,我们希望疫苗接种能让我们保持安全。疫苗已经 - 正确地 - 被吹捧为科学胜利。他们的发展和推出是在英雄般的规模上进行的。但早在 9 月和 10 月,当英国也在病例增加的惊人相似背景下重新开放时,我们没有疫苗来保护我们。相反,我们试图用数据为自己辩护。我们似乎不像现在对疫苗那么着迷于数据。这是一种耻辱,因为当你依靠数字来保证你的安全时,努力保持你的数字是正确的很重要。 Excel 的起源可以追溯到比微软更远的地方。在 1300 年代后期,特别是一位名叫 Francesco di Marco Datini 的意大利纺织品商人的爆发表明,需要一个可靠的会计系统。可怜的达蒂尼被傻瓜包围了。 “一碗牛奶里看不到乌鸦!”他斥责了一名同事。 “你可能会从鼻子到嘴里迷路!”他责备另一个。 Iris Origo 生动的书 The Merchant of Prato 描述了 Datini 的日常生活并解释了他的问题:跟踪复杂世界中的一切。到 14 世纪末,像达蒂尼这样的商人已经从单纯的旅行推销员发展而来,他们能够通过轻拍钱包来跟踪利润。他们现在负责复杂的操作。

例如,达蒂尼(Datini)在绵羊生长前两年就从马略卡岛订购了羊毛,这是为了在羊毛变成漂亮的染色布卷之前进行加工的众多分包商的对冲。牧羊人和消费者之间的供应链横跨巴塞罗那、比萨、威尼斯、瓦伦西亚、北非和马洛卡。从最初订购羊毛到最终销售布料,历时四年。难怪达蒂尼在任何时候都坚持绝对清楚他的产品在哪里,更不用说他的钱了。他是怎么做到的?电子表格。当然,达蒂尼早在 1396 年就没有使用 Excel。但他确实使用了它的直接前身:根据复式簿记系统布置的纸张,也称为“威尼斯簿记”。在复式簿记中,每个条目进行两次。 (线索在名称中。)例如,如果您在羊毛上花费了 100 佛罗林,则在您的现金帐户中记录为贷记 100 佛罗林,并在您的资产帐户中借记了价值 100 佛罗林的羊毛。这种将所有内容预订两次的额外努力使得检测错误变得更加容易。如果制作了一本,账簿就不会平衡。复式记账成为记录谁欠谁什么、外汇交易、盈亏等一切的基本方法。它帮助 Datini 和像他这样的商人确保没有任何损失,无论他们的同事多么无能。一个世纪后,复式预订大师是 Luca Pacioli。他是一位严肃的数学家,也是列奥纳多·达·芬奇 (Leonardo da Vinci) 的朋友。但他今天最为人所知的是有史以来最著名的会计师。早在 1494 年,他就写了一本关于复式记账法的书。帕乔利曾告诫说:“如果你不能成为一名优秀的会计师,你就会像盲人一样摸索前进,可能会遭受巨大损失。”我们不必接受 Pacioli 麻木不仁的比喻来理解他的观点:当你看到周围的障碍和机遇时,生活会更轻松。好的账目清楚地向我们展示了否则什么是不可见的。但如果你不能保持你的电子表格直截了当,你可能会面临巨大的损失。 (稍后会详细介绍。)将近五百年后的 1978 年,一位名叫丹·布里克林(Dan Bricklin)的学生坐在哈佛商学院的教室里。当他看着他的会计教授在黑板上填写行和列时,他萌生了一个想法。每次教授进行更改时,他都必须在网格中上下工作,擦除并重写其他数字以使所有内容加起来。 Bricklin 知道这种擦除和重写每天都在发生,每天数百万次,在世界各地,因为会计文员调整他们所谓的电子表格中的条目:大张纸分布在会计分类帐的两页上。 Bricklin 是一位极客和前程序员,他立即想到:“我可以在计算机上做到这一点。”正如史蒂文·利维(Steven Levy)在 1980 年代中期 Harper's 的经典专题中所描述的那样,剩下的就是历史。 Bricklin 和一位朋友将他们的电子表格程序称为 VisiCalc。它于 1979 年 10 月 17 日开始销售。很快,Lotus 1-2-3 和 Excel 紧随其后。

对于会计师来说,数字电子表格是革命性的,只需在键盘上轻点几下就可以代替数小时的艰苦工作。但有些事情并没有改变。会计师仍然有他们的专业培训和复式系统。我们其他人没有,但这并没有阻止 Excel 变得无处不在。毕竟,它是一种易于访问且灵活的工具,就像用于数字的瑞士军刀一样,可以放在您的数字后袋中。任何白痴都可以使用它。天哪,我们做到了。没有人真正知道从电子表格中消失的 16,000 个 Covid 阳性病例发生了什么。负责该过程的政府机构英国公共卫生 (PHE) 仍未就该问题发表任何非常有用的信息。 “任何案件都‘丢失’的说法完全是错误的,”他们告诉我。 “没有遗漏任何病例。在转介病例以进行接触者追踪并在全国数字中报告时出现延误。”这种延迟通常是四到五天,足以使测试结果几乎毫无用处。如果我在假期前把护照放错了,然后在家里呆了五天后才找到它,我不确定我是否会得意洋洋地在空中挥舞它并声明:“我的护照‘丢失’的说法是完全不正确的。 ”对于接触者追踪系统,丢失五天就丢失了。问题是,它们是怎么丢失的?在 PHE 的数据管道中的某个地方,有人使用了错误的 Excel 文件格式,XLS 而不是最新的 XLSX。而且 XLS 电子表格根本没有那么多行:2 的 16 次方,大约 64,000。这意味着在一些自动化过程中,案例已经从电子表格的底部消失了,没有人注意到。每个人都可以看到这起事故有趣的一面。简单地用完空间来放置数字的想法非常有趣。微软从来就不是任何人的酷概念,这一事实只是增加了荒谬。 Clippy 是 Office 2000 中饱受诟病的自动助手,他开始以模因的形式四处散播:“看起来你正在努力追踪全球流行病。你要帮忙吗?”数据丢失丑闻发生几周后,我发现自己可以向比尔·盖茨本人询问发生的事情。盖茨不再经营微软,我正在采访他关于 BBC 一个名为“如何为世界接种疫苗”的节目的疫苗问题。但是有机会向他询问有关 XLS 和 XLSX 的乐趣,这太好了,不容错过。

我尽可能用最书呆子的方式表达了这个问题,盖茨的回答是如此严肃,我不得不微笑:“我猜……他们超过了 64,000 的限制,这在新格式中是不存在的,所以……” 嗯,确实如此。盖茨接着补充说:“让人们仔细检查事情是件好事,我很抱歉发生了这种情况。”过时的 XLS 格式究竟是如何被使用的尚不清楚。 PHE给我发了一个解释,但很模糊。我不明白,所以我把它展示给欧洲电子表格风险小组 Eusprig 的一些成员。他们一生都在分析电子表格出现问题时会发生什么。他们是我喜欢的人。但他们也不明白 PHE 告诉我的内容。这一切都对细节有所了解。他们一致认为,基本问题是无论 PHE 做错了什么,它都没有正确的检查和控制来标记问题。或者正如盖茨所说,“让人们仔细检查事情是件好事。”最初的纸质电子表格旨在帮助我们不迷失方向,人们自然会想象数字电子表格不仅速度更快,而且更准确。是吗?一个线索来自计算机科学家 Felienne Hermans 进行的一项精彩研究。几年前,Hermans 意识到她可以研究大量的电子表格来源。这个消息来源是破产的能源公司安然公司。 2001 年安然公司因一场史诗般的会计丑闻倒闭后,监管机构从该公司的服务器中提取了 50 万封电子邮件的缓存。这些电子邮件现在是公开可用的,研究人员已经对其进行了研究,试图了解从非正式书面语言的演变到人们使用电子邮件文件夹的方式等方方面面。 Hermans 对其中一些电子邮件的附件很感兴趣:电子表格。她开始挖掘它们,不是寻找欺诈,而是寻找存在明显错误(例如缺失或循环引用)的电子表格。她查看了近 10,000 个包含计算的电子表格,发现四分之一至少有一个这样的错误。错误甚至似乎成倍增加。如果一个电子表格有任何错误,平均它包含750多个。电子表格怎么会出现这么多错误? 《Humble Pi》一书的作者马特·帕克 (Matt Parker) 是一本关于数学事故及其后果的书,他指出 Excel 自身的功能与用户的错误假设相结合,经常会导致错误。

例如,在 Excel 中输入一个国际电话号码,程序会去掉前导零,这些零在数学整数中是多余的,但在电话号码中没有。相反,如果您键入 20 位序列号,Excel 会认为这 20 位数字是一个巨大的数量并将它们四舍五入,将最后几位数字变为零。或者假设您是一名遗传学研究人员,正在输入一个基因的名称,例如“膜相关环-CH-型手指 1”,或简称为 March1,或者可能是 Sept1 基因。您可以想象 Excel 下一步会做什么。它将这些基因名称转换为日期。一项研究估计,所有遗传学论文中有 20% 的错误是由 Excel 的自动更正引起的。微软的防御很简单:默认设置旨在用于日常场景。这是礼貌的说法:伙计们,Excel 不是为遗传学研究人员设计的。它是为会计师设计的。但科学家们拿起 Excel 并开始使用它是可以理解的。它很强大,很灵活。它无处不在。它可能不是正确的工具,但它是正确的工具。当由训练有素的会计师用于执行复式记账时,Excel 是一个非常专业的工具,这是一个历史悠久的内置错误检测系统。但是,当遗传学研究人员或接触者追踪器投入使用时,这就像使用您的瑞士军刀安装厨房一样,因为它是您手头最接近的工具。并非不可能,但几乎不可取。然而,当遗传学研究界正在努力解决自动更正基因问题时,他们接受了一个严酷的事实,即他们永远不会让人们摆脱 Excel。相反,负责人——雨果基因命名委员会——决定更改相关基因的名称。这个决定是可以理解的。但它也巧妙地说明了我们由于将数据视为事后的想法而经历的扭曲,只是在电子表格上拼凑起来的东西。这是一种耻辱,因为历史表明,管理良好的信息可以带来变革。

几个月前,我在 Twitter 上问人们是否可以推荐一些关于根除天花的好书。大多数人推荐关于爱德华詹纳的书,他在 1796 年是第一个展示有效天花疫苗的人。这很有启发性,因为我问过天花的根除情况,而天花在 1796 年并没有被根除。甚至还差得远。虽然没有高效疫苗就不可能根除,但它也需要高效利用信息。或者正如 Datini 所说的那样,它不需要从鼻子到嘴巴迷路。自从1796年天花疫苗问世以来,人们就梦想根除这种疾病。但这些梦想一直未能实现。在一次又一次地尝试为整个星球接种疫苗的过程中,疫苗接种人员从未设法接触到足够多的人。在较贫穷的国家,天花在农村地区或被忽视的社区中徘徊。一代婴儿出生时没有任何免疫力,很快,疾病又卷土重来。在 1960 年代中期,天花每年仍导致 200 万人死亡。世界卫生组织宣布将加倍努力根除这种疾病,并计划通过加强大规模疫苗接种运动来实现这一目标。领导这些努力的人之一是出生于爱荷华州的流行病学家比尔·福格 (Bill Foege),他非常了解天花,可以通过嗅觉发现病例。 (病变起泡的皮肤有一种独特的气味。)Foege 会出现在尼日利亚东部的一个村庄里,他的身高只有六英尺七英寸,长者们会喊出一句话,来看看世界上最高的人!人们做到了。 Foege 估计他曾经在一天内为 11,600 人接种了疫苗。仅仅消除周期性爆发是不够的。然后,在 1966 年末,福格收到一条无线电消息,警告说大约一百英里外的一个村庄爆发了天花。他到那里旅行,发现了五个病例,并为他们接触过的每个人接种了疫苗。 (即使在人们接触病毒一天或更长时间后接种天花疫苗仍然有效。)标准做法是为周围数英里的每个人接种疫苗。但是 Foege 的团队只是没有足够的剂量。相反,他使用无线电和当地传教士网络来发现新病例。每天晚上七点钟,他们会打开收音机并发布消息。每当报告爆发时,福格和他的团队都会迅速赶到现场并接种疫苗。

希望是创造像防火带一样的东西,防止疾病蔓延。它奏效了。使用这种策略,Foege 的团队在六个月内消灭了尼日利亚东部的天花。那是 1967 年,很快内战席卷了这个国家。尽管那场战争发生了混乱和巨大的流血事件,但天花并没有卷土重来。秘诀是少担心从来都不够好的全面覆盖,而更担心快速找到每次爆发的确切位置。消灭一切都与信息有关。在那之前,信息非常零散。世卫组织意识到,在 1000 万的背景下,它每年只能发现 10 万左右的病例。 Foege 的经验表明,如果公共卫生工作者掌握了数据,他们就可以战胜天花。该策略被称为环形疫苗接种。它与接触者追踪不同,但有很多共同点:在这两种情况下,您都需要快速隔离感染者并找到他们最近的接触者。环形疫苗接种有效。在不到十年的时间里,医生们争先恐后地赶往印度爆发疫情,以便在病毒灭绝之前观察到一例天花病例。 1977 年底,最后一次野外天花爆发是在索马里。令人惊讶的是,23 岁的厨师兼兼职接种员 Ali Maow Maalin 没有接种疫苗。他出现了天花症状,与 91 位朋友和联系人一起接种了疫苗并康复。马林一生致力于根除小儿麻痹症。疫苗很重要。事实上,必不可少。但快速识别和追踪有风险的接触者也是如此。天花在近两个世纪的疫苗接种中幸存下来——但它无法在一个运行良好的系统中幸存下来,该系统针对疫情并跟踪潜在病例。事后看来,这似乎很简单。在某种程度上,确实如此。但是,当然,跟踪事物比最初看起来更难。 Francesco di Marco Datini 本来可以告诉你的。大流行的一个显着教训是,如果处理得当,数据会变得多么强大——以及当数据被弄乱时会造成多大的破坏。几乎我们问过的关于这种病毒的每个问题都需要巧妙地使用统计数据来回答。谁有?它是如何传播的?谁最危险?我们该如何治疗?如果没有良好的数据流和可靠的数据分析方法,我们就没有希望回答这些问题。

这不仅仅是让正确的科学家解决正确的方程的情况。数据不会长在树上:它们必须被组装起来。正确完成此过程的一个示例是恢复(Covid-19 治疗的随机评估)。 Recovery 是一个系统,用于对不同的 Covid 疗法进行简单但强大的随机试验,作为全英国医院 Covid 患者常规治疗的一个组成部分。它是在几天之内由两位牛津学者彼得·霍比和马丁·兰德雷在大流行开始时建立的。复苏产生了源源不断的重要发现,特别是抗疟药羟氯喹无济于事,而廉价的类固醇地塞米松则是救命稻草。 (它挽救了多少生命尚不清楚,但现在肯定超过一百万。)这是一个例子,说明当我们不仅认真对待数据,而且认真对待“数据基础设施”、工具和我们必须收集、管理和分析这些数据的过程。很难想到与许多所谓复杂的西方民主国家中失火的联系人追踪系统形成更清晰的对比。 《自然》去年年底报道称,澳大利亚、华盛顿州和夏威夷仍在使用电话或传真来分享有关新病例的信息,来自非洲的公共卫生专业人员对美国系统未能吸取来之不易的经验教训感到震惊。埃博拉爆发。运行良好的联系人跟踪系统不仅仅是数据基础设施。但如果没有好的数据,这项任务几乎是不可能的。与天花一样,成功始于快速弄清楚病毒的位置——因此,它接下来可能会去哪里。疫苗也没有使接触者追踪过时。大多数人仍然没有接种疫苗,有些人永远不会。总有一天会发生另一场大流行,又一次,又一次。我们不能保证疫苗每次都有效,疫苗需要时间来开发。在我们等待的过程中,总会有接触者追踪。良好的联系人追踪,就像我们想要实现的其他数千件好事一样,需要投资于严肃的数据基础设施。假设您真的想要证明联系人追踪有效,您将如何获得?假设你是一个疯狂的科学家,对权力疯狂,不受传统伦理的阻碍。你可能会入侵该国的接触者追踪系统,然后你会删除一些阳性病例,确保某些地区丢失了很多病例等等

......