借助Axios Markets时事通讯,掌握最新的市场趋势和经济见解。免费注册。
机器学习公司OpenAI正在开发可改善计算机视觉并可以从文本提示生成原始图像的模型。
为何重要:新模型是不断努力的最新步骤,以创建具有通用情报元素的机器学习系统,同时执行在现实世界中实际有用的任务,而不会动摇计算能力。
发生了什么:OpenAI今天宣布了两个新系统,这些系统试图对图像进行处理,这是其具有里程碑意义的GPT-3模型去年为生成文本所做的。
DALL-E是一种神经网络,可以“提取任何文本并从中提取图像,” OpenAI联合创始人兼首席科学家Ilya Sutskever说。其中包括训练中从未遇到过的概念,例如上图所示的拟人化萝卜萝卜walking狗的图画。
闪回:DALL-E的操作与GPT-3类似,后者是巨大的变形模型,可以根据简短提示生成原始文本段落。
CLIP,另一个新的神经网络,可以采用任何视觉类别集,并立即创建非常强大和可靠的视觉可分类文字描述," Sutskever说,以较少的培训和昂贵的计算能力改进了现有的计算机视觉技术。
他们在说什么:去年,我们能够在使用GPT-3的文本上取得实质性的进步,但事实是,世界并非仅建立在文本之上, Sutskever说。 "这是朝着建立可以同时处理图像和文本的神经网络这一宏伟目标迈出的一步。
工作原理:DALL-E(OpenAI被选为超现实主义艺术家Salvador Dali和致命可爱的皮克斯机器人WALL-E的肖像)是跳出来的模型,因为它旨在实现“星际迷航”的梦想:告诉计算机使用常规语言创建什么。
例如:输入提示“一罐汤”,其中有单词“天窗”。在它上然后您将获得如下图所示的图像。
"可以将不相干的无关概念放到一个功能对象中, DALL-E小组负责人Aditya Ramesh说。
CLIP只需很少的训练就可以识别图像,从而可以为遇到的图像添加字幕。
该模型的真正优势在于它的效率,这随着训练机器学习模型的计算成本的增长而在领域内变得越来越重要。
是的,但是:与GPT-3一样,新模型也远非完美,特别是DALL-E取决于是否能够生成连贯图像的文本提示的确切用语方式。
底线:人工智能可能越来越近,一次涂鸦。