下载PDF摘要:近年来,神经网络在解决长期存在的人工智能问题上表现出令人印象深刻的性能提升,特别是在回答来自自然语言文本的查询方面。这些进展提出了一个问题,即它们是否可以扩展到可以放松数据库管理的基本假设的程度,即我们的数据表示为预定义模式的字段。本文提出了回答这个问题的第一步。我们描述了NeuralDB,这是一个没有预定义模式的数据库系统,其中的更新和查询都是用自然语言给出的。我们开发的查询处理技术建立在最先进的自然语言处理方法提供的原语之上。我们首先证明,在核心,最近的NLP转换器,由预先训练的语言模型驱动,如果给出了确切的相关事实集,就可以回答SELECT-PROJECT-JOIN查询。但是,它们不能扩展普通数据库,也不能执行聚合查询。基于这些发现,我们描述了一个并行运行多个神经SPJ运算符的NeuralDB体系结构,每个运算符都有一组数据库语句,可以产生查询的一个答案。如果需要,将这些运算符的结果提供给聚合运算符。我们描述了一种学习如何创建适当的事实集以馈送到每个神经SPJ运算符的算法。重要的是,该算法可以由神经SPJ算子本身进行训练。我们通过实验验证了NeuralDB及其组件的准确性,表明我们能够以非常高的准确率回答超过数千个句子的查询。