像GPT-3这样的语言模型可以先制定一种新的搜索引擎

2021-05-15 05:56:34

1998年,一些斯坦福研究生发表了一篇文章,描述了一种新的搜索引擎:“在本文中,我们展示了谷歌,一个大型搜索引擎的原型,它批量使用超文本中存在的结构。谷歌旨在爬行和索引Web,并比现有系统更加满足搜索结果。“

关键创新是一种名为PageRank的算法,通过计算它们在Web上的其他页面的链接来计算它们对用户查询的相关性来排名搜索结果。在PageRank的后面,谷歌成为了互联网的门户,谢尔盖布林和拉里页面建造了世界上最大的公司之一。

现在,谷歌研究人员团队发布了一个关于一个激进的重新设计的提案,它抛出了排名方法,并用一个大的AI语言模型替换它,例如BERT或GPT-3 - 或它们的未来版本。这个想法是,而不是在广大的网页列表中搜索信息,而是用户会提出疑问并在这些页面上培训的语言模型直接回答它们。该方法不仅可以改变搜索引擎如何工作,而是他们所做的 - 以及我们如何与他们互动

即使Web大小爆炸,搜索引擎也变得更快,更准确。 AI现在用于对结果进行排名,谷歌使用BERT来了解搜索查询。然而在这些调整之下,所有主流搜索引擎仍然以20年前的方式工作,即用爬虫索引网页(读取Web不级别的软件并维护它找到的所有东西的列表),符合用户查询的结果从这个索引中收集,结果排名。

“这种指数 - 检索 - 然后排名蓝图已经受到时间的考验,很少受到挑战或严重的酝酿,”唐纳德·梅尔兹勒及其在谷歌研究写作的同事。

问题是,即使是今天最好的搜索引擎也仍然用包含所要求的信息的文档列表,而不是信息本身。搜索引擎也不擅长响应需要从多个来源汲取的答案的查询。它好像你问你的医生是否有建议并收到了读取的文章列表而不是直接答案。

Metzler和他的同事对搜索引擎感兴趣,这些搜索引擎表现得像人类专家。它应该以多个文档合成的自然语言,并将其答案与支持证据的参考资料备份,因为维基百科文章旨在实现。

大型语言模型让我们一部分在那里。 GPT-3在大多数Web和数百个书籍上培训,从多个来源绘制来自多个来源的信息,以回答自然语言的问题。问题是它不会跟踪这些来源,不能为其答案提供证据。如果GPT-3是没有办法,是否是鹦鹉值得信赖的信息或不诚实的信息 - 或者只是简单地喷出自己制作的废话。

Metzler和他的同事叫语言模特稀释剂 - “他们被认为是很多了解,但他们的知识是皮肤深沉的。”他们声称的解决方案是建立和培训未来的伯特和GPT-3,以保留他们的话语来自的记录。没有这样的模型尚不能这样做,但原则上有可能,并且在那方面有早期工作。

在英国谢菲尔德大学英国谢菲尔德大学的Ziqi Zhang表示,在谢菲尔德大学的答案中,在向构建信息上汇总文件来回答询问文件的询问有数十年。但是这些技术都没有彻底地检测搜索,因为它们每个都是解决特定问题并且不明显。他说,本文的令人兴奋的前提是,大型语言模型能够同时进行所有这些事情。

然而,张指出,语言模型与技术或专业主题没有良好,因为他们训练了文本中的示例较少。 “网站上的电子商务数据有数百次数据比Quantum力学的数据更多,”他说。今天的语言模型也倾向于英语,这将留下Web的非英语部分。

张某仍然欢迎这个想法。 “过去,这是可能的,因为大型语言模型最近只起飞,”他说。 “如果它有效,它会改变我们的搜索体验。”