ai可以生成令人信服的文本 - 任何人都可以使用它

2021-03-30 00:28:01

一些最令人眼花缭乱的人工智能最令人眼花缭乱的进步由于只有在大型技术公司提供的资源,其中数以千计的强大的计算机和数据的数据可以像免费的格兰多巴酒吧和午睡豆荚一样多样。

通过将代码,数据和计算机功率汇集在近年来开发的最史诗和潜在有用的AI算法之一,通过将代码,数据和计算机电源汇集,新项目旨在表明这一点。

Eleuther是匹配GPT-3的开源努力,该公司在2020年发布的强大语言算法,由Openai发布,有时在给出文本提示时有时能够用英语写出引人注目的一致论文。

Eleuther仍然是某种方式匹配GPT-3的完整能力,但上周,研究人员发布了一个新的版本,称为GPT-Neo,它与GPT-3的最低复杂版本一样强大。

开放式采购大型AI项目可以使技术在大型技术公司越来越根深蒂固的时候,该技术可以使技术更加接近和普遍普遍。它还可能影响努力在关键AI的后面赚钱,可以提高AI工具将不行使或被滥用的可能性。

“现在有巨大的兴奋,开源NLP和在大科技公司以外的有用模型生产。”康奈尔大学计算机科学教授亚历山大·鲁斯(Alexander Rush)表示,据称为自然语言处理的AI的子场,专注于帮助机器使用语言。 “NLP空间竞赛有类似的东西。”

如果是这种情况,那么GPT-3可能会被视为该字段的Sputnik。 GPT-3由一个巨大的人工神经网络组成,喂养了从网络刮擦的许多文字的单词。 GPT-3可以令人惊讶地雄辩和铰接,虽然它也可以突然出现出恐慌和令人反感的陈述。数十种研究团体和公司正在寻求利用该技术的方法。

GPT-3的代码尚未发布,但来自学术界和工业的eleuther背后的几十名研究人员正在绘制描述它是如何运作的论文。

匆忙,谁没有与eleuther联系,说该项目是最令人印象深刻的NLP中越来越多的开源努力之一。除了在GPT-3之后建模的强大语言算法之外,他表示,Eleuther团队已经策划并发布了一种高质量的文本数据集,称为培训NLP算法。

马萨诸塞大学大学计算机科学教授Mohit Iyyer正在使用Eleuther来利用Eleuther来挖掘着名文本的洞察力的资料和模型,以及其他项目。这包括培训一种算法,以预测Jane Eyre等书籍的部分将被引用在特定的批评中。 Iyyer表示,这可能有助于制作一个具有更微妙的语言的程序。 “我们肯定会感谢他们将所有这些数据汇总为一个资源,”Iyyer说。

您想要了解Linux,GNU的一切以及大公司如何从自由,基于协作的软件上赚钱。

也许任何开源AI项目的最大挑战是所需的大量计算能力。培训GPT-3要求相当于价值的云计算资源的数百万美元。 Openai最近表示,2012年和2018年,尖端AI项目所需的计算机电力增加了约300,000次。

eLeuther项目利用云公司Coreweave以及谷歌捐赠的分布式计算资源,通过TensoRFlow研究云,根据项目成员提供备用计算机电源的主动性。为了简化访问计算机电源,Eleuther团队创建了一种方法来跨多台拆分AI计算。但如果项目继续增长,则尚不清楚如何满足计算要求。

Openai正在投注GPT-3可以商业化。 2019年7月,Openai获得了Microsoft的10亿美元投资,其中一年后获得了许可证GPT-3的独家权利。 Openai表示,使用有限访问API,在工作中超过300个GPT-3项目。这些包括用于从客户反馈中汲取洞察力的工具,该系统自动生成子弹点的电子邮件,从未结束基于文本的冒险游戏。 Eleuther可能会更轻松地构建类似的工具,而无需访问GPT-3 API。

该项目突出了对强大的AI系统开放访问的另一个挑战。因为GPT-3和类似的大型语言模型从随机文本抽取,所以它们可以重现偏差或产生滥用或歧视性演讲。它也可以想到,GPT-3这样的工具可用于生成假新闻或欺诈性消息。这是Openai没有释放GPT-3的完整版本的一个原因。

Eleuther使用的数据集比GPT-3更多样化,它避免了一些诸如Reddit的来源,这些来源更有可能包括可疑材料。 Connor Leahy是一位独立的AI研究人员和Eleforher Cofounder,说,Eleuther项目已经“超过几个月的长度来解决这个数据集,确保它既良好过滤和多样化,并记录其缺点和偏见。”

康奈尔匆匆忙忙地认为,公开开发的工具更好。 “我在确切的错误方向上发现了封闭的源头论点,”他说,注意许多学者有兴趣研究语言模型可以行为不端和寻找问题的解决方案。 “开源努力一直是对这些努力和进步至关重要。”他说。

🎧声音不对的东西?查看我们最喜欢的无线耳机,声栏和蓝牙音箱