人工智能研究人员创建了一个语言模型测试工具,该工具在亚马逊、谷歌和微软提供的商业云人工智能产品中发现了主要缺陷。昨天,一篇详细介绍核对表工具的论文获得了计算语言学协会(ACL)会议组织者颁发的最佳论文奖。本周在网上举行的ACL会议是研究人员创建语言模型的最大年度聚会之一。
今天的NLP模型通常根据它们在一系列单独任务中的表现进行评估,例如使用带有GLUE之类排行榜的基准数据集回答问题。相反,CheckList采用与任务无关的方法,允许人们创建测试,这些测试使用功能(行)和测试类型(列)在类似电子表格的矩阵中填充单元格,以及可视化和其他资源。
核对表分析发现,亚马逊的理解在文本中放置随机缩短的URL或Twitter句柄时,约有四分之一的情感分析预测会发生变化,而谷歌云的自然语言和亚马逊的理解在文本中人名或地点发生变化时会出错。
“当否定出现在句子末尾时,所有商业模型的(情绪分析)失败率都接近100%(例如。“我以为这架飞机会很糟糕,但事实并非如此”),或者在否定和充满感情的词语之间有中性的内容,“该报写道。
VB Transform 2020 Online-7月14-17日。加入领先的人工智能高管:注册的最后机会!
Checklist在解释对Quora问题的回答时也发现了缺陷,尽管在Quora问题对基准挑战中超过了人类的准确性。来自微软、华盛顿大学和加州大学欧文分校的核对表的创建者说,结果表明,使用这种方法可以改进任何现有的NLP模型。
“虽然传统的基准表明,这些任务的模型和人类一样准确,但核对表显示了各种严重的缺陷,商业和研究模型无法有效处理基本的语言现象,如否定、命名实体、共指、语义角色标签等,因为它们与每项任务有关,”白皮书写道。“使用核对表的NLP从业者创建的测试数量是未使用核对表的用户的两倍,发现的错误数量几乎是不使用核对表的用户的三倍。”
谷歌的Bert和Facebook的AI的Roberta也使用核对表进行了评估。作者说,伯特在机器理解方面表现出性别偏见,例如,压倒性地预测男性会成为医生。研究还发现,伯特在处理关于无神论者、黑人、男同性恋者或女同性恋者的文本时,总是对异性恋或亚洲人做出积极的预测,而对负面的预测。2020年初的一项分析也发现,大规模语言模型中存在系统性偏见。
近几个月来,一些最大的基于Transformer的语言模型应运而生,从Nvidia的Megatron到微软的Turing NLG。大型语言模型在特定任务中取得了令人印象深刻的分数。但一些NLP研究人员认为,对单个任务的人类水平表现的关注忽略了NLP系统仍然脆弱或不够健壮的方面。
作为与微软负责文本分析的团队的用例测试的一部分,检查表发现了以前未知的错误。文本分析是客户目前使用的一种模型,经过多次评估。在评估NLP系统时,微软团队现在将使用核对表作为其工作流程的一部分。一群来自工业界和学术界的人在两个小时的时间里使用该工具测试人工智能,也能够发现最先进的NLP模型中的不准确或错误。CheckList的开源版本目前在GitHub上可用。
行为测试有时被称为黑盒测试,它是软件工程中常见的一种方法,但在人工智能中并不常见。Checklist能够在情感分析、机器理解和重复问题检测等领域进行测试。它还可以分析三种任务范围内的健壮性、公平性和逻辑测试等功能。
作者毫不含糊地得出结论,仅有基准任务不足以评估NLP模型,但他们也表示,核对表应该补充而不是取代现有的挑战和用于衡量语言模型性能的基准数据集。
他说:“这一小部分测试说明了除了标准评估外,系统测试的好处。根据基准准确性结果,这些任务可能被认为是‘已解决的’,但这些测试突出了各个方面的改进-特别是未能证明手头任务事实上需要的基本技能,“论文写道。
ACL的其他值得注意的工作包括华盛顿大学教授艾米莉·本德(Emily Bender)和萨尔兰大学(Saarland University)教授亚历山大·科勒(Alexander Koller)获得最佳主题奖的研究。论文认为,GPT-3或BERT衍生物等大型神经网络NLP模型的进展值得称赞,但媒体和学术界成员不应将大型神经网络称为能够理解或理解,在定义意义或理解等概念时,NLP领域需要清晰和谦逊。
报告写道:“虽然大型神经语言模型很可能最终成为人类类比自然语言理解的最终全面解决方案的重要组成部分,但它们并不是解决这一重大挑战的几乎没有的解决方案。”
最后,来自美国陆军研究实验室、伊利诺伊大学、厄巴纳-香槟大学和哥伦比亚大学的一个系统凭借其名为Gaia的系统获得了最佳演示论文奖,该系统允许对照片和视频等多媒体进行文本查询。