Facebook今天推出了Dynabench,这是一个用于人工智能数据收集和基准测试的平台,它使用“循环中”的人和模型来创建具有挑战性的测试数据集。利用一种名为动态对抗性数据收集的技术,Dynabench衡量了人类欺骗人工智能的难度,Facebook认为,与目前的基准相比,人工智能是衡量模型质量的更好指标。
许多研究表明,常用的基准测试在估计真实世界的人工智能性能方面做得很差。最近的一份报告发现,自然语言处理(NLP)模型给出的答案中有60%-70%嵌入了基准训练集中的某个地方,这表明这些模型通常只是简单地记忆答案。另一项研究-对3000多篇人工智能论文进行的荟萃分析-发现,用于对人工智能和机器学习模型进行基准测试的指标往往不一致,被不规则跟踪,而且信息不是特别丰富。
Facebook试图纠正这一点似乎是受到了图灵测试的启发,图灵测试是一种测试机器表现出与人类相同(或没有区别)的行为的能力的测试。当用户使用Dynabench来衡量其模型的性能时,该平台会跟踪哪些示例欺骗了模型并导致错误的预测。这些例子改进了系统,并成为更具挑战性的数据集的一部分,这些数据集训练下一代模型,这些模型反过来可以与Dynabench进行基准比较,以创建研究进展的“良性循环”。至少在理论上是这样。
Facebook研究人员杜威·基拉(Douwe Kiela)和阿迪娜·威廉姆斯(Adina Williams)在一篇博客文章中解释说:“Dynabench本质上是一次科学实验,目的是看看人工智能研究界是否能够更好地衡量我们系统的能力,并取得更快的进展。”他说:“我们将推出来自NLP的4项知名任务--Dynabench。我们计划向世界开放Dynabench,以支持所有类型的任务、语言和模式。我们希望能刺激‘模型黑客’拿出有趣的模型出错的新例子,刺激‘模型建设者’建造弱点更少的新模型。“。
Facebook并不是第一个提出以人群为中心的模型开发方法。2017年,马里兰大学计算语言学和信息处理实验室推出了一个名为“Break It,Build It”的平台,研究人员可以在这个平台上向用户提交模型,用户的任务是提供击败它们的例子。2019年的一篇论文描述了一种设置,在这种设置中,琐事爱好者被指示制作通过现场人机比赛验证的问题。最近,伦敦大学学院(University College London)的研究人员探索了训练人工智能模型对“对抗性收集的”人类准备的数据集的影响。
Facebook本身也在玩弄利用人在环中的人工智能培训和基准的想法。Dynabench的基础可能在于Facebook AI研究人员在2018年发表的一篇论文,在论文中,合著者建议使用游戏化来激励用户在相互合作的同时训练更好的模型。这项基础性的工作帮助改进了Facebook对攻击性语言的检测,并导致了一个数据集的发布-对抗性自然语言推理-通过让注释员在推理任务上愚弄模型来构建的。此外,2018年的研究可能为Facebook最近试行的基于文本的奇幻角色扮演游戏的开发提供了信息,该游戏在从志愿者那里收集数据和根据收集的数据建立再培训模型之间迭代,使研究人员能够以众包每句话五分之一的价格获得数据。
一篇描述这款基于文本的游戏的论文的合著者写道:“我们发现这令人兴奋,因为这种方法表明,有可能建立不断改进的模型,从野外与人类互动中学习(而不是用付费的众包工作人员进行实验)。”他指的是通过亚马逊机械土耳其(Amazon Mechanical Turk)等平台向众包工作人员支付费用,让他们执行人工智能培训和基准任务的做法。“这代表着从社区大部分工作中普遍存在的有限静态数据集设置的范式转变。”
在Dynabench中,通过Torchserve和Captum(Facebook的PyTorch机器学习框架的可解释性库)在云中进行多轮基准测试。在每一轮中,研究人员或工程师选择一个或多个模型作为测试目标。Dynabench使用这些模型收集示例,并定期向社区发布更新的数据集。当新的最先进的模型捕捉到大多数或所有愚弄了以前的模型的例子时,新一轮的循环就可以开始了,这些更好的模型也在循环中。
众包注释器使用Mephisto连接到Dynabench,Mephisto是一个用于启动、监控和检查众包数据科学工作负载的平台。他们几乎在瞬间就会收到对给定模型反应的反馈,这使得他们能够采取一些策略,比如让模型聚焦在错误的单词上,或者试图回答需要广泛现实世界知识的问题。
Facebook表示,Dynabench上的所有示例都经过了其他注释器的验证,如果这些注释器不同意原始标签,则该示例将被丢弃。如果该示例具有攻击性或存在其他错误,注释员可以标记该示例,这将触发专家审查。(Facebook表示,它为此聘请了一位专门的语言学家。)。
Dynabench的第一次迭代集中在英语NLP领域的四个核心任务-自然语言推理、问答、情感分析和仇恨言论上,Kiela和Williams表示,该领域最容易受到快速基准“饱和”的影响。(虽然研究界花了大约18年的时间才在计算机视觉基准MNIST上达到人类的水平,花了大约6年的时间才在ImageNet上超过人类,但模型在语言理解的GLUE基准上只花了一年就击败了人类。)。Facebook与北卡罗来纳大学教堂山分校(University Of North Carolina At Chapel Hill)、伦敦大学学院(University College London)和斯坦福大学(Stanford)等学术机构的研究人员合作,以确定、开发和维护Dynabench的任务,该公司表示,将利用资金鼓励人们注释任务-这是基准过程中的关键一步。
Kiela和Williams断言,因为这个过程可以频繁重复,Dynabench可以用来识别偏差,并创建测试模型是否克服了偏差的示例。他们还争辩说,Dynabench使模型对漏洞和其他弱点更加健壮,因为人类注释员可以生成许多示例来试图愚弄它们。
他们写道:“归根结底,这一指标将更好地反映人工智能模型在最重要的情况下的表现:当与人互动时,人们的行为和反应方式复杂、变化,而这些方式无法在一组固定的数据点中反映出来。”“Dynabench可以用静态考试无法做到的方式来挑战它。例如,一名大学生可能试图通过记住一大组事实来在一次考试中取得优异成绩。”但这种策略在口试中行不通,因为在口试中,当学生被问到探索性的、意想不到的问题时,必须表现出真正的理解力。
Dynabench在多大程度上缓解了模式偏见还有待观察,特别是考虑到Facebook在这方面的糟糕记录。“纽约时报”(New York Times)最近的一篇报道发现,有证据表明,Facebook的推荐算法鼓励了QAnon的增长。QAnon是一个松散的附属组织,声称一个恋童癖阴谋集团正在密谋反对唐纳德·特朗普(Donald Trump)总统。另一项调查显示,2019年在美国的Instagram上,黑人用户被自动审核系统禁用账户的可能性比那些活动表明自己是白人的用户高出约50%。今年1月,西雅图大学(Seattle University)副教授凯特琳·林·卡尔森(Caitlin Ring Carlson)公布了一项实验的结果。在这项实验中,她和一名同事收集了300多条似乎违反了Facebook仇恨言论规则的帖子,并通过该服务的工具进行了报告;只有大约一半的帖子最终被删除。今年5月,由于一个后来被修复的漏洞,Facebook的自动系统威胁要禁止在该平台上手工缝制面具的群的组织者发表评论或发帖,通知他们该群可能会被完全删除。
Facebook表示,虽然Dynabench目前还没有提供任何缓解偏见的工具,但随着研究的成熟,未来的版本可能会提供。Facebook的一位发言人通过电子邮件告诉VentureBeat:“衡量偏见在研究界仍然是一个悬而未决的问题。”作为一个研究社区,我们需要找出我们不希望模型存在什么样的偏差,并积极缓解这些…。使用Dynabench,注释员试图利用模型中的弱点,如果模型有不必要的偏差,注释员将能够利用这些来创建愚弄模型的示例。然后,这些例子就会成为数据集的一部分,应该能让研究人员努力减轻不必要的偏见。
这是抛开众包模式本身可能存在问题的事实不谈。去年,“连线”(Wire)报道了亚马逊机械土耳其(Amazon Mechanical Turk)等平台对自动机器人的易感性。即使工人被证实是人,他们的动机也是出于工资而不是利息,这可能会导致低质量的数据-特别是当他们受到不好的待遇,薪酬低于市场利率的时候。包括尼鲁法尔·萨利希在内的研究人员曾试图通过像迪纳摩这样的开放访问工人团体来解决亚马逊机械土耳其人的缺陷,但仅此而已
对于Facebook来说,它表示Dynabench的开放性将使其能够避免常见的众包陷阱。该公司计划这样做,这样任何人都可以用一系列不同的语言创建自己的任务,这样一些注释员就可以从他们贡献的任何工作中获得补偿。
这位发言人说:“Dynabench允许任何人自愿成为一名注释员,并创造例子来挑战模特。”“我们还计划用付费的注释员来补充这些志愿者的努力,特别是那些将从专家那里受益的任务;我们将公平补偿这些注释员(就像我们对其他众包平台上的人工智能研究项目所做的那样),如果他们成功地创造了愚弄模型的例子,他们将获得进一步的奖金。”
至于Kiela和Williams,他们将Dynabench描述为一项加速人工智能研究进展的科学实验。他们写道:“我们希望这将有助于向世界展示当今最先进的人工智能模型可以实现什么,以及我们还有多少工作要做。”