请查找评论以扩展Riley等人的重要且富有洞察力的论文。
Gaël Varoquaux,法国Inria研究主任-加拿大McGill大学客座教授Russell A.Poldrack,加利福尼亚州斯坦福大学教授Sylvain Arlot,法国巴黎萨克雷大学教授Yoshua Bengio,加拿大Mila魁北克算法研究所教授。
作为他们关于预测模型所需样本量的重要论文的侧重点,(Riley等人。2020)写道,他们“不建议拆分数据(例如,拆分成模型训练和测试样本),因为这效率很低,最好使用所有数据进行模型开发,使用重采样方法(如自举)进行内部验证”。由于这种表述可能会导致混淆,我们想在此澄清的是,必须按照预测模型验证的经典指南(Poldrack、Huckins和Varoquaux 2019;James等人),使用与用于拟合模型的数据不同的数据来评估预测模型。2013第5章)。
通过其预测,将使用临床预测模型。因此,验证这样的模型并评估其性能必须衡量这些预测的质量,甚至建立内部有效性。它要求测量泛化误差,这与普通的拟合优度测量不同,因为这样的误差是模型针对看不见的个体的特征。对用于拟合模型的数据进行评估的预测模型的误差-称为“训练误差”或“表观误差”-将低估泛化误差,因为模型已经在那些特定的数据点上进行了优化。一个极端的例子是一个最近邻分类器(Hastie、Tibshiani和Friedman 2013,第2章):这样的预测模型通过存储拟合期间的所有数据来工作;要对新的观测进行预测,它会找到它已经看到的最相似的观测,并预测相应的结果。这个预测模型对它已经看到的数据不会有任何错误,尽管它通常不会对新数据做出完美的预测。由于这些原因,评估预测模型的标准实践是将数据分成用于拟合模型的“训练集”和用于评估模型性能的“测试集”。在数据有限的情况下,单一拆分会导致噪声评估,最好在所谓的“交叉验证”中重复拆分(Moons等人。2015年;Arlot和Celisse,2010年)。
交叉验证链接到引导,因为两者都是重采样过程。然而,在使用Bootstrap估计泛化误差时必须小心,因为仍然需要在看不见的数据上对模型进行评估,以避免偏差。一种方法是在Bootstrap复制中遗漏的原始数据点的分数上测试该模型(Breiman,1996)。这种方法与交叉验证共有的一个令人失望的方面是,它必须丢弃一些本来可以用来拟合模型的宝贵数据,从而导致模型表现可能更差。为此,人们在纠正表观误差的偏差方面进行了积极的研究。然而,在没有已知灾难性故障的情况下,很难获得泛化误差的估计。例如,在临床研究中流行的精炼自助法(Efron和Tibishani,1994年第17章)(Moons等人。2015),通过将其与在引导复制上拟合的模型在全部数据上的评估进行比较,调查了表观误差的偏差。尽管如此,由于完整数据与Bootstrap重复的观测值共享约63.2%,因此推广误差的估计是有偏差的。例如,对于具有完全随机二进制结果的数据,对于最近邻分类器(具有零明显误差),改进的引导将测量100%*.632+.368*50%=81.6%,而假设数据是完全随机的,则实际错误率为50%。引入Bootstrap.632是为了纠正这种偏差(Efron和Tibshiani 1994,第17章),它考虑了在Bootstrap复制副本之外的点上测量的误差与表观误差的加权平均。然而,对于最近的一个邻居,这也失败了,导致报告的错误为63.2%,而不是完全随机结果的50%。为此,(Efron和Tibshiani 1997)引入了Bootstrap.632+,用预测因子的无信息错误率(通过评估所有可能的协变量和结果组合的预测模型来估计)来修正Bootstrap.632。引导的最后一个变体没有明显的漏洞,尽管它的理论属性还没有完全被理解。这段对Bootstrap变体的改进历史表明,在测量泛化误差时要避免其偏差是多么困难。甚至用I.I.D.估计模型参数的置信区间。数据,有许多已知的设置引导失败(Beran 1997;Mammen 2012;Davison,Hinkley,
阿洛特西尔万和阿兰·塞利斯。2010年。“模型选择的交叉验证程序概述。”统计调查4:40-79。
贝兰鲁道夫。1997年。“诊断引导成功。”统计数学研究所年鉴49(1):1-24。
戴维森,A.C.,D.V.欣克利,和G.A.Young。2003年。“Bootstrap方法论的最新发展。”统计科学:数理统计研究所期刊综述。
埃夫隆,布拉德利。2003年。“对自助带的再思考。”“统计科学:数理统计研究所评论学报”18(2):135-40。
埃夫隆、布拉德利和罗伯特·提布希拉尼。1997年。“交叉验证的改进:632+Bootstrap方法。”“美国统计协会期刊”92(438):548-60。
哈斯蒂,特雷弗,罗伯特·提布希拉尼和杰罗姆·弗里德曼。2013年。统计学习的要素:数据挖掘、推理和预测。斯普林格科技与商业媒体。
詹姆斯、加雷斯、丹妮拉·威滕、特雷弗·哈斯蒂和罗伯特·提布希拉尼。2013年。统计学习导论:以R·斯普林格统计教材中的应用为例。斯普林格。
奶妈,伊诺。2012年。Bootstrap什么时候起作用?:渐近结果和模拟。斯普林格科技与商业媒体。
题名/责任者:The W.Moons,Karel G.M.,Douglas G.Altman,Johannes B.Reitsma,John P.A.Ioannidis,Petra MacAskill,Ewout W.Steyerberg,Andrew J.Vickers,David F.Ransohoff,和Gary S.Collins。2015年。“个人预后或诊断多变量预测模型的透明报告(三脚架):解释和阐述。”“内科年鉴”162(1):W1-73。
题名/责任者:The First of First,and and Gel Varoquaux.。2019年。“建立预测证据的最佳实践:回顾。”JAMA精神病学。
莱利,理查德·D,乔伊·恩索尔,凯姆·I·E·斯内尔,小弗兰克·E·哈雷尔,格伦·P·马丁,约翰尼斯·B·莱茨马,卡雷尔·G·M·穆斯,加里·柯林斯和马尔滕·范·斯梅登。2020年。“计算开发临床预测模型所需的样本量。”BMJ 368:M441。
首页--期刊主要分类--期刊细介绍--期刊题录与文摘--期刊详细文摘内容。2001年。“预测模型的内部验证:Logistic回归分析某些程序的效率。”“临床流行病学杂志”54(8):774-81。
张志远,萨米·本吉奥,莫里茨·哈特,本杰明·雷赫特和奥里奥尔·维亚尔。2016年。“理解深度学习需要重新思考概括。”ICLR。