使用OpenSAFELY进行安全且盲目的医疗数据分析

2021-01-11 17:25:19

该小组创建了一个新平台,用于以安全(研究人员从未看到过数据)和可重复的方式分析大量健康数据。他们用它来确定哪些因素使人们因COVID-19死亡的风险最高。这有助于指导公共卫生对策。

当COVID-19首次出现时,全球政府不得不在几乎没有信息的情况下做出艰难的公共卫生决策。他们采取的减少传播的措施可以预防与COVID-19相关的死亡,但也可能对身心健康造成负面影响😷。

了解什么因素决定COVID-19严重后果的风险可以帮助指导这些政策。例如,建议高危人群在家中进行防护。

为了了解这些风险因素,有必要分析大量病历。不幸的是,访问这些记录并正确链接它们通常需要大量的监管批准,并且需要很长时间。

要真正了解COVID,我们需要将临床预约记录与测试结果,死亡记录等联系起来。

结果,很难获得真正的大数据集,但越大越好。

那我们该怎么办?这个研究小组提出了一个很好的解决方案……

在较小的数据集中,您可能会看到趋势-但随后没有足够的数据来自信地说这不是随机变化造成的。

正如在本研究中所做的那样,当查看有助于结果的许多不同变量时,这确实很重要。

他们组建了一个由临床医生,程序员,数据科学家和流行病学家组成的团队,并提出了一种提取和分析健康数据的新方法。他们称此平台为OpenSAFELY。

传统方法是:(i)清理数据并假名化(ii)下载数据,然后(iii)进行分析。

这有点像匿名化,但并不严格。可以识别个人身份的信息(例如出生日期或家庭住址)已被修改,但仍可由那些人(即研究人员)使用“取消识别密钥”重新识别。

但是,这并不是特别安全(如果有人的笔记本电脑被盗了,该怎么办?),假名并不是安全的,它允许重复分析,从而冒着错误关系的风险。

该小组的新方法是将用于分析数据的代码直接上传到电子健康记录。然后运行代码并返回结果。数据永远不会离开健康记录。这样可以保护隐私并防止重复分析💯

他们以此为基础,在1700万个人的GP健康记录数据集中,研究了影响死于COVID-19的风险的因素。 数据中识别出的模式总是有可能陷入偶然。 如果测试具有“ 95%的置信度”,则意味着有5%的机会是偶然发生的。 在解释结果时,我们可以牢记这一点。 但是,如果我们运行多个分析以寻找真实结果,会发生什么? 我们给数据很多机会降到由于机会而导致的5%。 迫于发布有趣的发现的压力,这可能会激励研究人员进行多次测试以发现这些关系,但这可能并非如此。 这些看似有趣,但它们是不好的科学。 1️⃣首先,在研究人员确定要分析的数据(例如所有糖尿病患者)后,他们编写了一些代码以从健康记录中提取数据。

2️⃣运行该代码时,他们会收到要下载的数据。但是,数据是一个占位符。看起来像真实数据-但是所有值都组成了!了解数据的结构有助于研究人员编写代码。

3️⃣工作代码被发送到运行状况记录(打包在称为Docker的包装程序中),在该记录中执行分析。仅将结果返回给研究人员-患者数据永远不会离开健康记录。因此,没有人(甚至没有研究人员)看到原始的患者数据。

他们查看了1700万人的数据,发现与COVID-19相关的死亡人数增加了:

BAME种族(部分原因是医疗问题的普遍发生和更高的剥夺水平)

这种分析是在大流行初期进行的。这意味着我们没有现在的测试能力🧪。为了避免这种情况,研究人员纳入了“临床可疑”的COVID-19病例,而不仅仅是通过COVID-19测试确认的病例。其中一些“阳性”病例实际上可能没有COVID-19。

在这种规模的数据分析中,还存在其他常见问题:一些患者缺少数据,例如肥胖,吸烟状况和种族。此外,健康记录的可用性在不同地区之间也有所不同。他们使用的是单个GP电子唱片公司(TPP)的数据,而某些地区(例如苏格兰和英格兰东北部)使用的是称为EMIS的替代产品。这意味着该研究的样本人群可能无法代表整个人群(或者实际上不是英格兰以外的人群)。

它们未在此处包括其定义,但来自英国政府,其中包括:持续不断的新咳嗽或温度≥37.8°C,或正常的嗅觉(失眠)或味觉(失眠)消失或改变

使该平台运行并在如此短的时间内发布分析结果是一项伟大的壮举。 这类研究通常不会那么快地发生。 该研究帮助公共卫生团队和研究人员做出了决定。 例如,在英国,这为建议高危人群屏蔽盾提供了支持。 这也为健康数据的数据分析提供了一个新的范例,可以使未来的研究更快,更安全和可重现。 所有代码都是开源的,可以免费获得。 这意味着任何人都可以检查代码,其他研究人员可以自由使用它。 自本文以来,同一研究小组已使用该平台研究了(i)与学龄儿童一起生活,(ii)HIV,(iii)种族,(iv)服用羟氯喹和(( v)患有哮喘或COPD的类固醇。