交叉验证:它估计是什么,它的估计程度如何?

2021-04-04 14:20:13

下载PDF摘要:交叉验证是一种广泛使用的技术来估计预测误差,但行为是复杂的,而不完全理解。理想情况下,人们希望跨验证估计模型的预测误差,适合训练数据。我们证明,这不是普通最小二乘面的表现形式的情况;相反,它估计模型的平均规范误差适合于从Chesame群体中得出的其他看不见的培训集。我们进一步表明,对于预测误差的最受欢迎,包括数据拆分,自动启动,和#39; CP,发生这种现象。接下来,用于从交叉验证的预测错误排序的标准置信区间可能具有远低于所需水平的覆盖率。因为每个数据点用于训练和测试,因此每个折叠的测量精度等都存在orcorrelation,因此常见的方差太小。我们介绍一个嵌套的交叉验证化学,更准确地估计这种方差,并经验上显示了修改,即在传统交叉验证间隔失败的情况下近似正确的覆盖范围。最后,乌西巴分析还表明,在用简单的数据分割产生预测可信度的置信区间时,应该不会将模型重新安装在Checined数据上,因为这使得置信区间无效。