Google开源人工智能,搜索表以回答自然语言问题

2020-05-06 04:18:29

谷歌今天开源了一个机器学习模型,它可以指出自然语言问题的答案(例如,“哪个摔跤手出场次数最多?”)。在电子表格和数据库中。该模型的创建者声称,它甚至能够找到分散在多个细胞中的答案,或者可能需要聚合多个细胞。

Google Research的托马斯·穆勒(Thomas Müller)在一篇博客文章中指出,世界上的大部分信息都是以表格的形式存储的,比如全球金融统计数据和体育结果。但这些表格往往缺乏一种直观的方式来筛选它们-这是谷歌的人工智能模型旨在解决的一个问题。

回答诸如“前两名摔跤运动员的平均冠军时间?”该模型对问题进行联合编码,并逐行对表内容进行编码。它利用基于Transformer的BERT体系结构-既是双向的(允许它访问来自过去和未来方向的内容)又是无监督的(这意味着它可以接收既没有分类也没有标记的数据)-与称为嵌入的数字表示一起扩展,以编码表结构。

根据Müller的说法,一个关键的补充是用于编码结构化输入的嵌入。列索引、行索引和一个特殊的等级索引的学习嵌入向模型指示数值列中元素的顺序。

VB Transform 2020 Online-7月15日至17日:与领先的AI高管一起参加年度AI活动。立即注册,可节省30%的数字访问通行证。

对于每个表格单元格,模型都会生成一个分数,指示该单元格成为答案一部分的概率。此外,它还输出一个运算(例如,“Average”、“SUM”或“Count”),指示必须应用哪个运算(如果有的话)才能产生最终答案。

为了预先训练模型,研究人员从英文维基百科中提取了620万对表格-文本对,作为训练数据集。在预培训期间,模型学习了-以相对较高的准确性-恢复表格和文本中已被删除的单词。事实上,对于培训期间看不到的桌子,71.4%的项目恢复正确。

在预训后,米勒和他的团队通过弱监督对模型进行了微调,使用有限的源来提供标记训练数据的信号。他们报告说,最好的模型比最先进的顺序回答数据集(Sequential Answer DataSet)高出12个百分点。顺序回答数据集是微软创建的基准,用于探索在桌子上回答问题的任务。它还击败了斯坦福大学WikiTableQuestions之前的顶级模式,后者包含来自维基百科的问题和表格。

“弱监督方案是有益的,因为它允许非专家提供训练模型所需的数据,并且比强监督花费更少的时间,”Müller说。