Google使用的参数减少了300倍,接近BERT级别的性能

2020-09-24 09:00:50

在过去的十年里,深度神经网络的大规模部署从根本上改变了研究方法。特别是在自然语言处理(NLP)领域,深度神经网络的创新一直在不断发展,以满足新的市场需求。最近,人们对开发完全可以在智能手机、智能手表和物联网设备上运行的小型精确NLP神经网络的兴趣与日俱增。今天的许多研究都在探索如何改变NLP模型的开发,以便它们可以在设备上运行,而不是通过高科技数据中心运行。考虑到移动设备的内存和处理能力通常有限,这些NLP型号必须足够小巧、高效和健壮,而不会影响质量。谷歌AI最近发布了新的精简版pQRNN,这是谷歌AI去年创建的投影注意力神经网络PRADO的n个扩展,已经在许多参数低于200K的文本分类任务上实现了SOTA性能。普拉多使用极少的参数来学习与任务最相关或最有用的令牌的例子激励了谷歌人工智能研究人员进一步挖掘其潜力。与以前的设备上神经模型(如基于位置敏感投影的轻量级文本分类模型自适应神经网络(SGNN))不同,PRADO将可训练的投影与注意力和卷积相结合,以捕获长文本分类的长期依赖关系。谷歌人工智能研究人员设计Prado是为了从单词(而不是单词或字符)中学习文本段群集,并解释说,本质上是核心设计降低了模型参数,“因为单词单元更有意义,而大多数(NLP)任务最相关的单词都相当小。”

Prado从单词而不是单词片段或字符学习文本段簇的能力使其在低复杂度的NLP任务中获得了良好的性能。PQRNN PRADO扩展由三个构建块组成。投影操作将文本中的标记转换为三元向量序列,密集瓶颈层学习与NLP任务相关的每词表示,以及QRNN编码器堆栈仅从文本输入学习上下文表示,而不采用任何预处理。

在Civil_Comments数据集上,PQRNN与Sota NLP模型BERT相比,性能接近BERT水平,但使用的参数少300倍,而且不需要预训练。基于新模型的设备上设计在各种文本分类应用中具有潜力,如垃圾邮件检测、产品分类、情感分类等。论文PRADO:Projection Attribute Networks for Document Class On-Device可在aclweb上获得,Google AI已经在GitHub上开源了PRADO模型。

这份报告让我们看到了中国在与新冠肺炎的战斗中是如何利用人工智能技术的。亚马逊Kindle上也有,在这份报告的同时,我们还推出了一个全球数据库,涵盖12个大流行场景的额外1428个人工智能解决方案。

我们知道你不想错过任何新闻或研究突破。我们订阅我们广受欢迎的时事通讯同步全球AI周刊,以获得每周的AI更新。