图像GPT

2020-06-18 02:54:57

我们发现,就像在语言上训练的大型转换器模型可以生成连贯的文本一样,在像素序列上训练的相同的精确模型可以生成连贯的图像补全和样本。通过建立样本质量和图像分类精度之间的关系,我们证明了我们的最佳生成模型也包含了在无监督环境下与顶级卷积网络竞争的特征。

无监督和自我监督学习,或者说没有人类标记数据的学习,是机器学习的一个长期挑战。最近,它在语言方面取得了令人难以置信的成功,像BERT、GPT-2、Roberta、T5和其他变种这样的转换器模型在一系列语言任务上都取得了最好的性能。然而,同一大类模型在产生用于图像分类的强特征方面并不成功。我们的工作旨在理解和弥合这一差距。

像BERT和GPT-2这样的转换器模型是领域不可知的,这意味着它们可以直接应用于任何形式的1-D序列。当我们对展开为长像素序列的图像训练GPT-2时,我们将其称为IGPT,我们发现该模型似乎能够理解物体外观和类别等二维图像特征。即使没有人类提供的标签的指导,它也能产生不同范围的相干图像样本,这就证明了这一点。作为进一步的证明,该模型的特征在许多分类数据集上达到了最先进的性能,在ImageNet上达到了接近最先进的无监督精度[1]。

为了突出生成式序列建模作为通用非监督学习算法的潜力,我们故意使用与GPT-2相同的语言转换器体系结构。因此,我们需要更多的计算来产生与顶级无监督卷积网络的特征相竞争的特征。然而,我们的结果表明,当面对一个正确的模型先验未知的新领域时,大型GPT-2可以学习优秀的功能,而不需要特定于领域的架构设计选择。

在语言领域,依赖于单词预测的无监督学习算法(如GPT-2和BERT)非常成功,在各种语言任务中取得了最佳性能。这一成功的一个可能原因是下游语言任务的实例自然出现在课文中:问题之后通常是答案(这有助于回答问题),段落之后通常是摘要(有助于总结)。相反,像素序列不清楚地包含它们所属图像的标签。

即使没有这种明确的监督,图像上的GPT-2仍然有可能工作的原因:经过下一个像素预测训练的足够大的转换器最终可能学会生成具有清晰可识别对象的不同[2]样本。一旦它学会了这样做,一个被称为“综合分析”的想法[3]表明该模型也将了解对象类别。许多早期的生殖模型都受到这个想法的激励,最近,BigBiGan就是一个产生了令人鼓舞的样本和特征的例子。在我们的工作中,我们首先证明了更好的产生式模型可以获得更强的分类性能。然后,通过对GPT-2的生成能力进行优化,实现了多种环境下的顶级分类性能,为综合分析提供了进一步的依据。

生成式序列建模是一种通用的无监督学习算法:由于所有数据类型都可以表示为字节序列,因此转换器可以直接应用于任何数据类型,而不需要额外的工程设计。我们的工作通过直接将用于训练GPT-2自然语言的体系结构应用于图像生成来测试这种通用性的能力。我们故意选择放弃以卷积或相对关注、稀疏关注和二维位置嵌入等技术的形式手工编码任何特定于图像的知识。

由于它的通用性,我们的方法在无监督的情况下需要更多的计算量才能获得有竞争力的性能。事实上,对比方法仍然是从图像中产生高质量特征的计算效率最高的方法。然而,为了证明无监督变压器模型与最好的无监督卷积网络具有竞争性,我们提供了证据,证明了用手工编码的领域知识来换取计算是可能的。在没有太多知识可以手工编写代码的新领域,我们能做的最好的事情就是投入计算机,我们的工作表明这种策略并不完全疯狂。

我们在ImageNet上训练了分别包含76M、455M和1.4B参数的IGPT-S、IGPT-M和IGPT-L变压器。我们还对iGPT-XL[4]进行了培训,它是一个68亿参数转换器,混合了ImageNet和来自Web的图像。由于对注意力密集的长序列建模的计算量很大,我们在32x32、48x48和64x64的低分辨率下进行训练。

虽然在更低的分辨率下工作以进一步降低计算成本是很有诱惑力的,但先前的工作已经证明,人类在图像分类方面的性能开始迅速下降到这些大小以下。取而代之的是,受早期彩色显示调色板的启发,我们创建了自己的9位调色板来表示像素。使用此调色板可产生比标准(R,G,B)调色板短3倍的输入序列长度,同时仍能忠实地编码颜色。

我们使用两种方法来评估模型性能,这两种方法都涉及下游分类任务。第一种,我们称之为线性探针,使用训练好的模型从下游数据集中的图像中提取特征[5],然后将Logistic回归拟合到标签上。第二种方法对下游数据集上的整个模型进行微调[6]。

由于下一像素预测与图像分类没有明显的相关性,所以来自最后一层的特征可能不是对象类别中最具预测性的。我们的第一个结果表明,特征质量是深度的急剧增加然后温和降低的函数。这种行为表明转换器生成模型分两个阶段运行:在第一阶段,每个位置从其周围的上下文中收集信息,以构建上下文图像特征。在第二阶段,该上下文特征被用来解决条件下一个像素预测任务。我们观察到的线性探头的两级性能让人想起另一个无监督的神经网络,瓶颈自动编码器,它是手动设计的,以便使用中间的特征。

我们的下一个结果建立了生成性能和特征质量之间的联系。我们发现,增加模型的规模和训练更多的迭代都会产生更好的生成性能,这直接转化为更好的特征质量。

当我们在CIFAR-10、CIFAR-100和STL-10上使用线性探针评估我们的功能时,我们的性能优于所有监督和非监督传输算法的特征。在完全微调的情况下,我们的结果也是令人信服的。

鉴于人们在ImageNet上对无监督和自我监督学习的兴趣重新抬头,我们还在ImageNet上使用线性探针评估了我们的模型的性能。这是一个特别困难的设置,因为我们不使用标准的ImageNet输入分辨率进行训练。然而,在48x48图像上训练的iGPT-L最佳层的1536个特征上的线性探针产生了65.2%的TOP-1准确率,超过了AlexNet。

对比方法通常在8192个特征上报告它们的最佳结果,因此我们理想地评估嵌入维数为8192的iGPT进行比较。然而,训练这样一个模型的成本高得令人望而却步,因此我们改为将多个层的要素连接起来作为近似。不幸的是,我们的功能往往是跨层关联的,因此我们需要更多的功能才能具有竞争力。从IGPT-XL的5个层中提取15360个特征,可以获得72.0%的TOP-1准确率,表现优于AMDIM、MoCo和CPCv2,但仍远远落后于SimCLR。

由于像BERT这样的掩蔽语言模型在大多数语言任务中的表现都优于生成模型,因此我们还评估了BERT在我们的图像模型上的性能。我们不是训练我们的模型来预测给定所有前面像素的下一个像素,而是屏蔽掉15%的像素,并训练我们的模型从未屏蔽的像素中预测它们。我们发现,尽管线性探头在BERT模型上的性能明显较差,但它们在微调过程中表现出色:

虽然无监督学习承诺了优秀的特征,而不需要人类标记的数据,但最近在更宽容的半监督学习框架下取得了重大进展,它允许有限的人类标记数据。成功的半监督方法通常依赖于巧妙的技术,如一致性正则化、数据增强或伪标记,而纯粹基于生成的方法多年来一直没有竞争力。我们在该子领域的竞争性基准上对iGPT-L[7]进行了评估,发现对来自非增广图像的特征的简单线性探测的性能优于Mean Teacher和MixMatch,尽管它的性能逊于FixMatch。

虽然我们已经证明了iGPT能够学习强大的图像功能,但是我们的方法仍然有很大的局限性。因为我们在语言中使用了用于GPT-2的通用序列转换器,所以我们的方法需要大量的计算:IGPT-L接受了大约2500个V100天的训练,而一个性能类似的MoCo模型可以在大约70个V100天内进行训练。

与此相关的是,我们使用变压器对低分辨率输入进行建模,而大多数自我监督的结果使用基于卷积的编码器,这可以很容易地消耗高分辨率的输入。可能需要一种新的体系结构,例如与领域无关的多尺度转换器,以进一步扩展。考虑到这些限制,我们的工作主要是一个概念验证演示,证明了大型基于变压器的语言模型在新领域学习优秀的无监督表示的能力,而不需要硬编码的领域知识。然而,训练这些模型的巨大资源成本和基于卷积神经网络的方法更高的精度阻碍了这些表示在视觉领域的实际应用。

最后,生成性模型可能会表现出偏向,这些偏向是它们接受过训练的数据的结果。这些偏差中的许多都很有用,比如假设棕色和绿色像素的组合表示覆盖着树叶的树枝,然后使用此偏差继续图像。但是,当从公平和代表性的角度考虑时,其中一些偏见将是有害的。例如,如果这个模型发展了一个偏向男性的科学家的视觉概念,那么它可能会一致地完成科学家与呈现男性的人的图像,而不是性别的混合。我们预计开发人员将需要更加关注他们输入到系统中的数据,并更好地理解这些数据与经过训练的模型中的偏差之间的关系。

我们已经证明,通过权衡二维知识和从网络中间选择预测特征,序列变换器可以在无监督图像分类方面与顶级卷积网络竞争。值得注意的是,我们通过直接将GPT-2语言模型应用于图像生成来实现我们的结果。我们的结果表明,由于序列变压器的简单性和通用性,只要有足够的计算,它最终可能是学习许多领域优秀特征的有效途径。

如果您对与我们合作进行这一领域的研究感到兴奋,我们正在招聘!

最重要的是,我们要感谢我们的论文合著者Rewin Child,Jeff Wu,Heewoo Jun,Prafulla Dhariwal和David Luan。

感谢他们对这项工作的反馈和对此版本的贡献:Vedant Misra,Noah Golmant,Johannes Otterbach,Pranav Shyam,Aditya Ramesh,Yura Burda,Harri Edwards,Chris Hallacy,Jeff Clune,Jack Clark,Irene Solaiman,Ryan Lowe,Greg Brockman,Kelly Sims,David Farhi,Will Guss,Quoc V.Le和Ashish Vaswani。

Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.,Kaiser,L.,&;Polosukhin,I.&34;注意力就是你所需要的。

Devlin,J.,Chang,M.,Lee,K.,&;Toutanova,K.(2018年)。BERT:语言理解的深度双向转换器的预培训。";arxiv预印本。

雷德福,A.,吴军,Child,R.,Luan,D.,Amodei,D.,&;Sutskever,I.(2019年)。语言模型是无人监督的多任务学习者。技术报告,OpenAI。

刘勇,奥特,M.,戈亚尔,N.,杜,J.,Joshi,M.,Chen,D.,Levy,O.,Lewis,M.,Zettlemoyer,L.,&;Stoyanov,V.(2019)。罗伯塔:经过大力优化的伯特预训方法。arxiv预印本。

Raffel,C.,Shazeer,N.,Roberts,A.,Lee,K.,Narang,S.,Matena,M.,周,Y.,Li,W.,&Amp;Liu,P.(2019)。使用统一文本到文本转换器探索迁移学习的局限性。arxiv预印本。

Peters,M.,Neumann,M.,Iyyer,M.,Gardner,M.,Clark,C.,Lee,K.,&;Zettlemoyer,L.(2018年)。NAACL 2018中的深度上下文单词表示法。

霍华德,J.,鲁德,S.(2018年)。用于文本分类的通用语言模型微调。";在ACL 2018中。

雷德福,A.,纳拉西汉,K.,Salimans,T.,&;Sutskever,I.(2018年)。通过生成性预培训提高语言理解能力。技术报告,OpenAI。

Ke N.,GoYal,A.,Bilaniuk,O.,Binas,J.,Mozer,M.,Pal,C.,Bengio,Y(2018年)。稀疏而专注的回溯:NeurIPS 2018中通过提醒实现的临时信用分配。

陈东,Kornblith,S.,Norouzi,M.,Hinton,G.(2020)。视觉表征对比学习的简单框架。arxiv预印本。

Bachman,P.,Hjelm,R.,&Amp;Buchwalter,W.(2019年)。通过最大化视图间的互信息来学习表示。NeurIPS 2019。

Kolesnikov,A.&;Beyer,L.&;Zhai,X.,Puigcerver,J.,Yung,J.,Gelly,S.,Houlsby,N.(2019年)。大转印(位):一般视觉表现学习。arxiv预印本。

黄勇,郑勇,Bapna,A.,Firat,O.,Chen,D.,Chen,M.,Lee,H.,Ngiam,J.,Le,Q.V.,Wu,Y.,&;Chen,Z.(2019)&34;Gpip:高效训练巨型神经网络使用管道并行性。摘自NeurIPS 2019。

桑德勒,M.,巴卡什,J.,日莫吉诺夫,A.&霍华德,A.(2019年)。非歧视数据还是弱模型?关于数据和模型解析在ICCV 2019中的相对重要性。

Lasserre,J.,Bishop,C.,&Amp;Minka,T.P.(2006)。生成性和歧视性模式的原则性混合。在2006年的CVPR中。

Erhan,D.,Bengio,Y.,Courville,A.,Manzagol,P.,Vincent,P.,Bengio,S.(2010)。为什么无人监督的前期培训有助于深度学习?在JMLR 2010中。

米科洛夫,T.,Karafiat,M.,Burget,L.,Cernocky,J.,Khudanpur,S.(2010)。基于递归神经网络的语言模型,摘自InterSpeech-2010。

何凯、范海、吴勇、谢山、格尔希克(2019)。无监督视觉表征学习的动量对比。arxiv预印本。

Henaff,O.,Srinivas,A.,de Fauw,J.,Razavi,A.,Doersch,C.,Eslami,S.,Oord,A.(2019年)。采用对比预测编码的高效数据图像识别。";arxiv预印本。

Parmar,N.,Vaswani,A.,Uszkoreit,J.,Kaiser,L.,Shazeer,N.,Ku,A.,&;Tran,D.(2018年)。ICML 2018中的图像转换器。

梅尼克,J.,Kalchbrenner,N.(2018年)。用小尺度像素网络和多维放大生成高保真图像。";arxiv预印。

辛顿,G.,Osindero,S.,&Amp;Teh,Y.(2006)。一种神经计算中深度信任网络的快速学习算法。

文森特,P.,Larochelle,H.,Bengio,Y.和Amp;Manzagol,P.(2008)。用去噪自动编码器提取和合成健壮的特征。在ICML 2008中。

Coates,A.,Lee,H.,&Amp;Ng,A.Y.(2011)。单层网络在无监督特征学习中的分析。见AISTATS 2011。

Le Q.V.,Ranzato,M.,Muna,R.,Devin,M.,Chen,K.,Corrado,G.,Dean,J.&;Ng,A.Y.(2012)。使用大规模无监督学习构建高级功能。在ICML 2012中。

西雷桑,D.,梅尔,U,甘巴德拉,L.&Amp;Schmidhuber,J.(2010)。深度大而简单的神经网络在手写数字识别上的出色表现。在Corr 2010。

Shaw,P.,Uszkoreit,J.,&;Vaswani A.(2018年)。NAACL 2018年采用相对位置表述的自我关注。

Child,R.,Gray,S.,Radford,A.,&;Sutskever,I.(2019年)。";使用稀疏变压器生成长序列。";arxiv预印。

王晓明(1991).北京:北京:北京.。在随机点立体图中发现表面的自组织神经网络。

Bromley,J.,Guyon,I.,LeCun,Y.,Sackinger,E.和Amp;Shah,R.(1994)。在NeurIPS 1994中使用连体时延神经网络进行签名验证。

Mikolov,T.,Sutskever,I.,Chen,K.,Corrado,G.,&Amd;Dean,J.(2013)。在NeurIPS 2013中分发单词和短语的表示及其组合性。

Oord,A.,Li,Y.,Vinyals,O.(2018年)。对比预测编码表示学习。arxiv预印本。

Hjelm,R.,Fedorov,A.,Lvoie-MarChildon,S.,Grewal,K.,Bachman,P.,Trischler,A.,&;Bengio,Y.(2018年)。通过互信息估计和最大化学习深度表示。在ICLR 2019。

胡同,E.,Khimulya,G.,Biswas,S.,AlQuraishi,M.,Church,G.(2019年)。统一的理性蛋白质工程与仅序列的深度表示学习。在“自然方法”中。

Rives,A.,GoYal,S.,Meier,J.,Guo,D.,Ott,M.,Zitnick,C.,Ma,J.,Fergus,R.(2019年)。生物结构和功能从无监督学习扩展到2.5亿蛋白质序列。生物Rxiv预印本。

托拉尔巴,A.,费格斯,R.,弗里曼,W.(2008)。8000万张微小图像:用于非参数对象和场景识别的大型数据集。收录于IEEE模式分析和机器智能汇刊。

科恩布利斯,S.,施伦斯,J.,和Amp;Le,Q.V.(2019年)。在CVPR 2019中,做更好的ImageNet型号传输更好吗?

Cubuk,E.,Zoph,B.,Mane,D.,Vasudevan,V.,&;Le,Q.V.(2019年)。自动增强:在CVPR 2019中从数据中学习增强策略。

Tan,M.,Le,Q.V.(2019年)。“高效网络:卷积神经网络的再思考模型缩放”,载于ICML 2019年。

Gidaris,S.,Singh,P.&;Komodakis,N.(2018年)。通过预测图像旋转的非监督表示学习。在ICLR 2018年。

Kingma,D.,Rezende,D.J.,Mohamed,S.,&Amp;Well,M.(2014年)。深度生成模型的半监督学习,NeurIPS 2014。

萨利曼,T.,古德费罗,I.,Zaremba,W.,Cheung,V.,Radford,A.,Chen,X.(2016)。改进了NeurIPS 2016中的Gans培训技术。

Berthelot,D.,Carlini,N.,GoodFloor,I.,Papernot,N.,Oliver,A.,Raffel,C.(2019年)。MixMatch:半监督学习的整体方法。NeurIPS 2019。

谢勤,戴振中,霍维,E.,梁明,和乐,Q.V.(2019年)。用于一致性培训的无监督数据增强。";arxiv预印。

孙凯,Berthelot,D.,Li,C.,Zhang,Z.,Carlini,N.,Cubuk,E.,Kurakin,A.,Zhang,H.,Raffel,C.(2020)。修复匹配:简化半监督Lea。

..