GPT-J-6B:基于6B的基于JAX的变压器

2021-06-09 21:04:22

GPT-J-6B在各种零射流下游任务上与6.7B GPT-3(或yie)进行几乎按照6.7b gpt-3(或yie)。 GPT-J是在各种下游任务上的零射击性能方面最正常的公共变压器LM。 该项目需要大量的人数 - 小时时间比其他大规模模型开发所做的,这表明JAX + XMAP + TPU是用于快速开发大型模型的正确工具组。 Ben Wang写了代码和Colab笔记本,建立了API和RAN实验的一部分。 Aran Komatsuzaki提出了这个项目,设计了高级计划和配置,写了这篇文章并建议了本文。 我们的型号设计和封锁数据选择与6.7B GPT-3的差异有一些差异。 尤其, 高效注意(线性,本地/滑动窗口等)不用于简单性,因为它在此规模上不会有显着提高的吞吐量。

每个注意力头的尺寸设置为256,其两倍于可比大小的GPT-3的两倍。这明显改善了具有最小性能下降的吞吐量。

零拍摄性能大致与可比大小的GPT-3表示,并且可比大小的GPT-3的性能间隙比GPT-Neo模型更近。

6B GPT-J用于训练的吞吐量(151K令牌/秒)比同一硬件(TPU V3-256 POD)上的2.7B GPT-NEO(148K代币)更快,效率提高约125% 。

在TPU V3-256 POD上的6B配置中,GPT-J实现了高绝对效率。硬件具有13.4pflops的理论最大值,而GPT-J可以在GPT3纸张中测量的5.4 PFLOPS(忽略注意计算,忽略等梯度检查点等Compute-Memory Transoff)。考虑到这些额外因素时,使用8.1PFLOP,或大约60%的理论最大值。

下面,我们将列出一些有趣的样本,我们发现使用GPT-J生成,以及他们的提示。

提示-------什么是75 * 10?-------------输出:750WAT是-0.002拿72.75?-72.752calculate -0.5 - 1039.-1039.5是-1360和2的差异为-27.95〜20.7.95 alculate -0.3 + -169.-169.3为0.7减去0.05?0.65钙-2 + 0.0899.-1.9101

在这种情况下,模型在自己创建问题的情况下完全执行添加和减法。

提示-------定理3.2:任何循环组是abelian.proof:-------------输出:让G成为循环组。如果订单为1,则它是微不足道的。如果订单为1,则G只有一个元素,所以它是abelian.如果订单不是1,则设g是循环阶段的循环级n。然后通过单个元素a生成g。让a = gt。注意G是阿比越一组,所以gt ^ n = e。但是t ^ n = e,所以gt ^ n = t ^ n = e,所以t ^ n = g ^ n。对于G,(gt)^ n = t ^ n中的任何元素g,所以g ^ n =(gt)^ n = t ^ n = g ^ n。所以g是阿贝尔。

虽然模型可以模仿在某种程度上在某种程度上模仿证明这个简单的定理,但仍然存在巨大的差距,具有人为级别的准确性。

提示------段落:獾是家族芥末虫的短腿杂志,其中包括水獭,果皮,黄鼠狼和狼獾。它们属于Carnivoran哺乳动物的大量亚达。 11种獾在三个亚属中分组:melinae(欧亚獾),mellivorinae(蜂蜜獾或火箭)和用具标本(美国獾)。 Mydaus属的亚洲臭味獾以前包括在Melinae(并因此的芥末状)内,但最近的遗传证据表明这些实际上是臭鼬家族的成员,将它们放在分类家庭Mephitidae中。问题:是一个像獾一样的狼獾?-------------输出(贪婪):答:狼獾是鼬家族的成员,但这不是獾.- --------------输出(p = 0.9):a:你'首先需要建立一个狼獾的意思,你的意思是獾。狼獾是CANID订单Carnivora的毛皮成员,包括狗,狐狸和黄鼠狼。它们与獾也不一样,也没有獾最初被描述为的獾。他们不同的动物&#39。獾是CANID;狼獾是CANIDS.as,差异是什么,没有。

完成Booolq(Superglue)的问题。虽然两种采样方法都会产生相同的正确结论,但核心采样幻觉并包含不正确的推理,而贪婪的抽样简明扼要地答案。通常,我们观察到,当输出应该短暂时,贪婪的采样更准确,并且含有比核采样更少的竖起,这是可预测的,这鉴于分类任务通常使用贪婪的采样。

提示------类Multiheadedittenty(NN.Module):DEF __Init __(self,h,d_model,dropout = 0.1): - - - - - - - - - - - - ------输出:超级(多重密封,自我) .__ init __()self.dropout = nn.dropout(ropout)self.h = nn.modulelist([nn.linear,h)_在范围(h)])self.d = nn.linear(d_model, d_model)self.d_model = d_model def forward(self,x,h_att_mask,return_h_att_mask = false):""" :Param X:一系列单词形状(批量,SEQ,VOCAB),:PARAM H_ATT_MASK:注意头部的掩模,具有形状(批量,SEQ,HEAD):PARAM返回_H_ATT_MASK:是否返回注意蒙版&# 34;""

虽然该模型知道是什么关注,但它不知道其在定理证明中的精确机制。

提示------关于鹅的有趣事实:1。鹅有令人印象深刻的视觉能力!-------------输出:他们可以看到人脸并对it反应。鹅产生了很多噪音!他们可以听到和看到超过100英里的距离!3。鹅是世界上最大的猎物!他们的平均翅膀45英寸。鹅可以每小时飞1,000英里!他们可以在短距离每小时旅行40英里。鹅通常伴有生活!他们将与任何其他鹅配合,他们被植被关联。鹅有各种发声。最突出的是鸣叫呼叫,主要是为沟通而被融资。除了南极洲之外,鹅可以在每个大陆上找到:鹅是阿塞尔属的鸟类。它们是原产于北半球的北半球,在各种环境中发现。地图通常非常孤独的鸟类,很少形成繁殖对。地图以其长长的脖子,独特的头顶和重型的身体为特征。温带地区,鹅温带地区是一个常见的景象,因为它们形成了大群。最常见的

@misc {gpt-j,作者= {wang,ben和komatsuzaki,aran},title = {{gpt-j-6b:60亿参数自回归语言模型}},hobullished = {\ url {https:// github .com / Kingoflolz / Mesh-Tranformer-Jax}},年= 2021,月= 5月} @misc {mesh-tranformer-jax,author = {wang,ben},标题= {{mesh-transformer-jax:与jax语言模型的模型并行实现,hobublished = {\ url {https:// github.com/kingoflolz/mesh-transformer-jax}},年= 2021,月= may}