下载PDF摘要:我们考虑做出生命关键决策的黑盒人工智能系统的范例。我们提出了一个辩论机框架,它将主要人工智能系统与接受过独立培训以执行相同任务的次要人工智能系统配对。我们表明,在没有任何潜在系统设计或操作知识的情况下,两个系统之间的不一致足以在人类监督过度分歧的情况下任意提高整个决策管道的准确性。我们在两个应用中展示了该系统:(1)图像分类的示例和(2)在大规模真实半自动驾驶数据上的应用。对于第一个应用,我们将该框架应用到图像分类中,在ImageNet上实现了从8.0%到2.8%的TOP-5错误。对于第二个应用,我们将该框架应用于TeslaAutopilot,并展示了预测90.4%被人工注释员标记为具有挑战性和需要人工监督的系统脱离的能力。