自然语言基准没有很好地衡量AI模型的一般知识

2020-08-24 04:18:12

开放领域问答模型-理论上能够用新奇的答案回答新问题的模型-通常只是简单地记忆在它们所训练的数据中找到的答案,这取决于数据集。这是一个隶属于Facebook和伦敦大学学院的研究团队的断言,他们在一篇预印本论文中提出了证据,证明在开放领域基准测试的模型给出的答案中,有60%-70%嵌入了训练集中的某个地方。

开放领域问答因其实际应用而受到人工智能领域的关注,最近又作为一种分析语言模型对事实知识掌握情况的方法而受到关注。但是,对模型可以回答哪些类型的问题的深入理解仍然难以捉摸;不知道问题和答案在基准语料库中是如何分布的,因此很难将结果与上下文联系起来。

在他们的研究中,研究人员试图评估流行的开放领域问答数据集的测试集,包括WebQuestions、TriviaQA和开放式自然问题。他们确定了模型应该能够回答的问题类别,并为每个测试集中的1000个问题-答案对进行了注释,以获得各自训练集中的重复问题。然后,他们使用开卷(利用从大量文档语料库进行检索)和闭卷方法(侧重于在没有外部知识的情况下训练大型模型)计算基准上的几个模型的性能。

所讨论的三个数据集并不太相似,这是对所有三个保证的健壮性的点测试。WebQuestions包含来自搜索引擎的3778个培训和2032个测试问答对,而TriviaQA包含来自免费琐事网站的78785个培训和11313个测试问答对。与此同时,开放式自然问题包括79,168个培训和3610个问答对,来自搜索引擎和维基百科文章的组合。

该团队理论上认为,开放领域问答模型应该能够(1)回忆起训练时看到的问题的答案,(2)在测试时回答新问题,并从训练期间看到的一组答案中选择一个答案,以及(3)回答没有包含在训练数据集中的答案的新问题。为了确定上述基准是否衡量了这些行为中的任何一种,合著者根据答案是否出现在训练集中的某个地方来划分每个语料库中的测试数据。根据研究人员的说法,大约58%-71%的测试答案也在训练数据中的某个地方,这表明大多数测试数据没有探索答案的泛化。

该团队还使用1000个带注释的问题集,探索了训练数据中释义问题的基准。他们说,28%-34%的问题被转译了,大多数是近乎重复的问题,只有一两个词不同。合著者写道:“这一结果表明,这些数据集的30%的测试集只探测模型能多好地简单地记忆训练中看到的问题-答案对。”

研究人员选择了几个“开卷”模型-密集段落检索、检索-增强生成和解码器融合-和“闭卷”模型(Facebook的BART和谷歌的T5)进行测试,以及存储所有可用答案并基于相似性度量对新答案进行分类的最近邻模型。在基准语料库上的结果表明,所有模型都能很好地记忆问题,其中一个未经训练的最近邻模型正确回答了20%的试题。但他们在无法从训练集中记忆的问题上表现不佳,重复和不重复数据之间的平均绝对性能差异为63%。当谈到泛化时,一种可靠地记忆问题的模型-T5-挣扎着,只获得了22%的匹配分数。

研究人员写道:“很明显,这些数据集的表现不能通过整体问答的准确性来正确理解。”“我们建议今后更多地强调行为导向的评估,而不是追求单个数字的总体准确性数字。”