Warning: Can only detect less than 5000 characters
有254/320篇论文,描述了基于深入的学习的模型,其中215个被排除在详细审查(包括一个混合纸)之外。我们发现,110篇论文(51%)从索赔清单(补充讨论1)中至少有三个识别的强制性标准失败,23%失败2和26%失败。在被拒绝的论文中,由于以下三种纸币的最常见原因是由于以下内容的文件不足。
(3)49%(105)的培训方法(例如,优化器,损失函数,学习率)的详细信息
有69篇论文描述了传统的机器学习方法,其中44种被排除在审查之外,即RQS小于6,或者在纸上未指定使用的数据集。只有两篇有额度≥6的论文,但未能披露分析中使用的数据集。在剩下的论文中,导致最低RQS结果的两个因素是省略以下内容。
两个混合文件都失败了医学成像中人工智能的清单(索赔)检查,但通过了射线质量得分(RQS)标准。可以在补充数据2中找到完整的详细信息。
在37篇论文的至少一半中,有六个非强制要求标准不满足。
(4)25未报告用于评估结果意义或确定置信区间的统计测试
在25篇论文中,包括两个混合纸,没有使用纵向成像,通过使用幻影研究或公共协议进行验证或标准化图像采集进行前瞻性研究。只有六篇论文描述了外部验证,只有四篇论文报告了校准统计数据(预测风险与观察到的达成级别)以及模型预测的相关统计显着性。完整的RQS分数位于补充数据2中。
公共数据集在32/62论文中出现的文献中广泛使用(参见关于公共数据集列表的补充讨论2,三篇论文使用公共和私人数据)。私人数据用于33/62篇论文,其中21篇使用来自中国大陆的数据,三个使用来自法国的数据和使用来自伊朗,美国,比利时,巴西,香港和荷兰的数据的剩余数据。
二十二篇论文被认为是Covid-19的诊断来自CXR图像16,17,18,19,20,21,21,23,24,25,26,27,28,29,30,31,32,33,34,33,32,33,34 ,35,36.这些纸张中的大多数用于现成网络,包括Reset-18或Reset-50 16,17,20,26,22,32,37,Densenet-121 27,28,31,32, 34,VGG-16或VGG-19 19,33,35,35,38和38和高效通知网络30,39,考虑定制架构18,25,36和三个使用手工工程特征22,23,24。大多数论文分类为三类,即Covid-19,非Covid-19肺炎和正常16,19,21,23,25,26,28,30,32,33,34,35,36,37,虽然两者通过将非Covid-19肺炎划分为病毒和细菌肺炎17,29. Reset和DenSenet架构的表现比其他阵地更好,而准确程度为0.88至0.99。但是,我们谨慎对比进行直接比较,因为论文使用不同的培训和测试设置(例如,不同的数据集和数据分区大小)并考虑不同数量的类。
将十八篇论文应用于CT成像的深度学习技术,所有这些都被诬陷为分类任务,以区分Covid-19与其他肺病理(如(病毒或细菌)肺炎,间质肺病35,40,41,43, 44,45,46,47和/或非Covid-19等级40,41,44,46,48,49,50,51,52。全三维(3D)体积仅考虑在七篇论文中40,43,47,50,52,53,54与剩余部分考虑孤立的2D片甚至2D贴片45.在大多数2D模型中,作者采用了转移学习,网络预先培训了Imagenet 55.几乎所有型号使用肺部分段作为预处理步骤。一张纸48使用生成的逆境网络56方法来解决CoVID-19 CT成像的缺乏。在接收器操作特性曲线(AUC)下的区域报告的值范围为0.70至1.00。
八篇论文使用传统的Covid-19诊断方法使用手工工程特征40,57,58,59,60,61,62或卷积神经网络(CNN) - 提示特征46.4纸46,59,60, 62掺入临床特征,其中从CT图像获得的临床特征。所有纸张使用手工工程功能采用特征减少,在最终模型中使用4到39个功能。对于最终分类,使用逻辑回归40,58,59,60,61的五个纸张,一个使用随机森林57,一个多层的感知46和一个比较许多不同的机器学习分类器来确定最佳的62.精度范围为0.76到0.98(参考文献40,46,57,58,59)。如前所述,我们谨慎对比进行直接比较。混合纸40中的传统机器学习模型比其深度学习模型的精度低0.05较低。
19篇论文开发了Covid-19 51,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80的患者预后的模型,使用CT和四个使用CXR。这些模型是为预测结果的严重性而开发,包括:死亡或对通风72,78,79的需求,需要重症监护单元(ICU)入学63,73,77,78,79,急性呼吸窘迫综合征80的进展,医院住院的长度为51,74,转化为严重疾病的可能性64,65,75和肺部感染程度76.大多数纸张使用的模型基于多变量的Cox比例危险模型51,72,78,79,Logistic回归65,73,74,75,80,线性回归75,76,随机森林74,77或比较各种机器学习模型,例如基于树的方法,支持向量机,神经网络和最近的邻居聚类63, 64。
通过手动的射线特征63,64,68,69,70,72,74,75,77,78,79,80或深学习51,66,70,71,73,76,提取来自放射数据的预测器。临床数据包括基本观察,血清学和合并症。仅八种模型集成了放射学和临床数据62,63,69,72,73,77,78,79。
在预测模型的偏见评估工具的风险之后(Probast)指导,对四个域中的所有62篇论文评估偏见的风险:参与者,预测因子,结果和分析。结果如表1所示。我们发现55/62纸在至少一个结构域中的偏倚风险很高,其他域在至少一个结构域中不清楚。
几乎所有论文都有很高(45/62)或者对其参与者偏见的风险很高(45/62),只有六个评估的偏倚风险很低。这主要是由于以下问题:(1)对于公共数据集,不可能知道患者是否真正的Covid-19积极,或者如果它们具有潜在的选择偏见,则为任何人可以贡献图像16,24,26,28 ,29,30,31,32,34,35,37,41,4,48,49,76; (2)本文仅使用原始数据集的子集,应用一些排除标准,无需足够的细节以可再现的16,43,44,48,49,51,61,70,71,75,76;和/或(3)Covid-19队列与对照组之间的人口统计数据有很大的差异,例如,儿科患者为17,24,28,29,31,32,35,37,45, 46,59,81。
对于使用深度学习模型提取特征的模型,预测器是未知的和抽象的成像功能。因此,对于这些论文(38/62),我们无法判断预测因子中的偏见。对于20篇论文,由于使用预定义的手工工程特征,偏差的风险被记录为低。对于剩下的4篇论文,由于具有相关结果的知识评估的预测因子,记录了高风险。
对于纸纸的大多数(25/62),发现了结果变量中偏差的风险较低,目前不清楚26/62和11/62。为了评估结果中的偏见,我们采用了使用私有数据集和公共数据集的论文的不同方法(三篇论文使用混合物)。
对于使用公共数据集的35个论文,结果由数据集的发起者分配,而不是论文的作者。使用公共数据集的论文通常具有不明确的偏见风险(30/35),因为它们使用了从数据集发起者直接源的结果。
对于使用私有数据集的33篇论文,CoVID-19诊断是由于阳性RT-PCR或抗体试验24/33并且具有低偏差风险。由于Covid-19 40,82的诊断不一致,对照组63,65的定义不清楚,其他纸具有高(7/33)或不清楚(2/33)偏倚风险(2/33)偏差风险本身26,54,60,71,使用未成本的参考来定义结果74或通过组合公共和私有数据集41,66,83来定义结果74。
只有十篇论文的偏见风险很低。大多数论文中的高风险主要是由于Covid-19患者的小样本大小(导致高度不平衡的数据集),仅使用单个内部阻止集来验证其算法(而不是交叉验证或自动启动)和对性能度量的缺乏适当的评估(例如,没有校准/鉴别讨论)18,19,20,22,23,44,48,52,64,72,80。一种具有高风险的纸张BIAS 32在REF的数据集上声明了外部验证。 84,未意识到这已经包括来自ref的数据集。 85和参考。 86用于训练算法。
有两种方法可以验证算法的性能,即内部和外部验证。对于内部验证,测试数据来自与开发数据的相同源以及它们来自不同源的外部验证。包括内部和外部验证都允许更多地洞察算法的概括性。我们发现48/62篇论文仅考虑内部验证,使用外部验证22,32,41,42,51,54,63,66,67,69,73,78,79。二十多次使用真正的外部测试数据集和在同一数据上测试的数据集在32训练中培训。
在表2中,我们提供每份纸张中引用的性能指标。十篇论文使用交叉验证来评估模型性能21,35,36,47,49,57,65,72,74,75,77,一种使用交叉验证和外部测试集41,一个引用相关度量76并且一个有一个不明确的验证方法17.另一篇论文都有一个内部阻滞或外部测试集,具有使用未引号的操作点从测试数据导出的灵敏度和特异性(除了Ref.16之外,引用操作点0.5) 。预计将根据用于调谐和选择最终算法的验证数据的算法性能来选择操作点。然而,接收器操作特性(ROC)曲线和AUC值对于与验证数据无关的内部保持或外部测试数据给出。
在图1中。在图2中,我们显示了32个诊断模型的培训队列中使用的数据量(按类分割)。我们排除了许多研究18,20,22,23,25,28,29,32,35,43,45,58,71,因为尚不清楚使用了多少图像。如果一篇论文只向患者(而不是图像数量)表示,我们认为每位患者只有一张图像。我们认为,20/32篇论文在课程之间具有合理的平衡(具有参考的例外。17,24,26,30,31,33,36,37,40,51,61,62。然而,大多数数据集是非常小,使用少于2,000个DataPoints的19/32篇关于开发的文件(具有例外的参考。17,18,26,27,31,33,36,41,48,53,57,81)。只有七个论文使用了一个数据集,具有超过2,000个DataPoints的Covid-19正面和其他类别27,41,48,53,54,57,81。
注意到我们排除了Bai等人。 81从图中使用了更多的培训数据(118,401图像)而不是其他论文。对于Xu等人。如图62所示,图表中的两个Covid-19类作为一个组合类显示。
图3显示了熔断/测试队列中使用的每个类的图像的数量。我们发现6/32纸具有不平衡的测试数据集17,24,33,36,37,61.只有6/32篇论文在超过1000张图像17,27,36,41,54,81上测试。只有4 / 32具有大型和平衡的测试数据集27,41,54,81。
注意到我们排除了Bai等人。 81和张等人。 27来自这一点
......