Facebook和CMU引入Tabert来理解表格数据查询

2020-07-15 07:52:09

卡内基梅隆大学(Carnegie Mellon University)和Facebook AI的一组研究人员最近推出了表格数据模型Tabert。Tabert建立在流行的Bert NLP模型之上,是第一个预先训练好的模型,可以学习自然语言句子和表格数据的表示,并且可以作为通用编码器插入到神经语义解析器中。在实验中,Tabert驱动的神经语义解析器在具有挑战性的基准测试WikiTableQuestions上表现出了性能改进,并在Text-to-SQL数据集Spider上展示了具有竞争力的性能。

自2018年Google Brain引入BERT(来自Transformers的双向编码器表示)以来,大规模的预训练语言模型已经在广泛的NLP任务中取得了SOTA结果。然而,BERT和类似的预先训练的语言模型通常针对自由形式的自然语言文本进行训练,并且不具备处理诸如对典型数据库表中发现的结构化数据进行语义解析之类的任务。例如,一个经过预先训练和微调的语言模型将如何回答这样一个问题:“(赛车手)Piotr最后一次获得第一名是在哪个城市?”当给出包含年份、地点、位置和事件列的相关数据表时?模型需要了解表中的列集(也称为模式),并将输入文本与模式精确匹配,以推断正确的响应。Tabert在一个由2600万个表格及其上下文信息组成的平行语料库上接受了预先培训,以确定表格数据和相关自然语言文本之间的关联。Facebook表示,与依赖输入话语表示和表格模式的系统不同,Tabert可以作为通用编码器插入到神经语义解析器中,以计算话语和表格的表示。首先基于输入话语创建配对表的内容快照,然后转换器将快照中的每一行编码成话语和单元令牌的矢量编码。因为这些行级向量是独立计算的,所以研究人员实现了一种垂直自我注意机制,该机制对来自不同行的垂直对齐的向量进行操作,以允许信息流通过它们的单元表示。

在实验中,Tabert被应用于两种不同的语义分析范例:经典的有监督学习设置在Spider Text-to-SQL数据集上,以及具有挑战性的弱监督学习基准WikiTableQuestions。该团队观察到,使用Tabert增强的系统比使用Bert的系统性能更好,并且在WikiTableQuestions上实现了最先进的性能。在Spider上,性能排名接近排行榜榜首的提交数量。

Tabert的引入是Facebook持续努力的一部分,目的是开发能够提供更好的人机交互的人工智能助手。Facebook的一篇博客文章指出,当答案隐藏在数据库或表格中时,这种方法可以使其Portal智能扬声器等设备中的数字助理提高问答准确性。论文“Tabert:联合理解文本和表格数据的前期培训”可以在Facebook内容分发网络上找到。

这份报告让我们看到了中国政府和企业主在与新冠肺炎的斗争中是如何利用人工智能技术的。它也可以在亚马逊Kindle上买到。

我们知道你不想错过任何故事。我们可以订阅我们广受欢迎的、同步的全球AI周刊,以获得每周的AI更新。