人工智能的长期目标是建立“多模式”神经网络,即AI系统,该系统学习几种模式(主要是文本和视觉域)中的概念,以便更好地了解世界。在我们最新的研究公告中,我们提出了两个神经网络,使我们更接近这一目标。
第一个神经网络DALL·E可以成功地将文本转换为适合自然语言表达的各种概念的适当图像。 DALL·E使用与GPT-3相同的方法,在这种情况下,该方法适用于文本-图像对,表示为来自某个字母的“令牌”序列。
第二种,CLIP,具有可靠地执行一组惊人的视觉识别任务的能力。给定一组用语言表示的类别,CLIP可以以“零镜头”方式立即将图像分类为属于这些类别中的一个,而无需像标准那样微调特定于这些类别的数据神经网络。与行业基准ImageNet相比,CLIP在识别异常图像方面优于著名的ResNet-50系统,并且远远超过ResNet。