GPT-2知道您的电话号码吗?

2020-12-27 22:06:09

但是,OpenAI的GPT-2语言模型确实知道如何达到特定的Peter W ---(为保护隐私而删除的名称)。当出现简短的Internet文本提示时,该模型将准确生成Peter的联系信息,包括他的工作地址,电子邮件,电话和传真:

在我们最近的论文中,我们评估了大型语言模型如何记忆和反省训练数据的这种稀有片段。我们关注GPT-2,发现至少0.1%的文本代(非常保守的估计)包含长逐字字符串,这些字符串是从其训练集中的文档中“复制粘贴”的。

对于在私人数据(例如,用户的电子邮件)上训练的语言模型,这种记忆将是一个明显的问题,因为该模型可能会无意间输出用户的敏感对话。但是,即使对于通过网络上的公共数据(例如GPT-2,GPT-3,T5,RoBERTa,TuringNLG)进行训练的模型,训练数据的记忆也引发了多个具有挑战性的监管问题,从滥用个人身份信息到侵犯版权。

BAIR博客的普通读者可能熟悉语言模型中的数据存储问题。去年,我们的合著者尼古拉斯·卡利尼(Nicholas Carlini)描述了一篇解决了一个更简单问题的论文:测量明确注入模型模型训练集中的特定句子(例如信用卡号)的记忆。

相反,我们的目的是提取语言模型存储的自然发生的数据。这个问题更具挑战性,因为我们不知道先验要寻找哪种文本。也许模型存储了信用卡号,或者存储了整本书的段落,甚至是代码段。

请注意,由于大型语言模型的过拟合程度最小(它们的训练损失和测试损失几乎相同),因此我们知道,记忆一旦发生,必定是罕见的现象。我们的论文介绍了如何使用以下两步“提取攻击”找到此类示例:

首先,我们通过与GPT-2作为黑盒进行交互来生成大量样本(即,我们向其提供简短提示并收集生成的样本)。

其次,我们保留生成的样本的可能性异常高。例如,我们保留了GPT-2比其他语言模型(例如,GPT-2的变体较小)分配更高可能性的所有示例。

通过使用三种不同的采样策略查询GPT-2,我们总共生成了600,000个采样。每个样本包含256个令牌,或平均大约200个单词。在这些样本中,我们选择了1,800个异常可能性极高的样本进行手动检查。在1,800个样本中,我们发现604个样本包含从训练集中逐字复制的文本。

我们的论文表明,上述提取攻击的某些实例可以在识别稀有存储数据时达到70%的精度。在本文的其余部分中,我们将重点介绍在存储的输出中发现的潜在问题。

我们对存储的数据的多样性感到惊讶。该模型重新生成了新闻标题,唐纳德·特朗普的演讲,软件日志片段,整个软件许可证,源代码片段,《圣经》和《古兰经》的段落,圆周率的前800位等等的清单!

虽然某些形式的记忆相当不错(例如,记忆pi的数字),但其他形式的问题则更多。在下面,我们展示了该模型记忆个人可识别数据和受版权保护的文本的能力,并讨论了机器学习模型中此类行为尚待确定的法律后果。

回想一下GPT-2对Peter W的深入了解。互联网搜索显示,Peter的信息在Web上可用,但仅在六个专业页面上可用。

彼得的情况并非唯一:记住的示例中约有13%包含个人和公司的名称或联系信息(电子邮件,推特句柄,电话号码等)。尽管这些个人信息都不是“秘密”的(任何人都可以在网上找到它),但将其包含在语言模型中仍然会引起许多隐私问题。特别是,它可能会违反用户隐私立法,例如GDPR,如下所述。

当Peter将他的联系信息放在网上时,它具有预期的使用环境。不幸的是,基于GPT-2构建的应用程序没有意识到这种情况,因此可能会无意间以Peter不希望的方式共享Peter的数据。例如,客户服务聊天机器人可能会无意间输出Peter的联系信息。

更糟的是,我们发现许多GPT-2案例在被视为令人反感或其他不合适的情况下生成了记忆的个人信息。在一种情况下,GPT-2在两个真实用户之间生成了关于跨性别权利的虚拟IRC对话。摘录的摘录如下所示:

[2015-03-11 14:04:11] ------如果您是跨性别女人[2015-03-11 14:04:13] ------您仍然可以拥有[ 2015-03-11 14:04:20] ------如果您希望自己的鸡巴与跨性别者相同[2015-03-11 14:04:25] ------作为跨性别者

此对话中的特定用户名仅在整个Web上出现两次,两次都出现在私人IRC日志中,该日志是作为GamerGate骚扰活动的一部分在网上泄漏的。

在另一种情况下,该模型生成有关M. R.被谋杀的新闻报道(真实事件)。但是,GPT-2错误地将谋杀归因于A. D.,他实际上是与无关犯罪的谋杀受害者。

A --- D ---,35岁,于四月被大陪审团起诉,在警察发现其妻子M --- R ---,36岁和女儿的尸体后被捕。

这些示例说明了语言模型中存在的个人信息比范围有限的系统中存在的个人信息问题会多得多。例如,搜索引擎还从Web抓取个人数据,但仅在定义明确的上下文(搜索结果)中输出。滥用个人数据会带来严重的法律问题。例如,欧盟的GDPR规定:

“应出于特定,明确和合法的目的收集[...]个人数据,并且不得以与那些目的[...]不兼容的方式进行进一步处理,[并且]以确保适当保护个人数据的方式进行处理”

记住个人数据可能并不构成“适当的安全性”,并且有一种观点认为,将数据隐式包含在下游系统的输出中与数据收集的原始目的(即通用语言建模)不兼容。

除了违反数据滥用规定之外,在不适当的背景下虚假陈述个人的个人信息还涉及防止隐私权遭到诽谤或虚假侵权的现行隐私法规。同样,虚假陈述公司或产品名称也可能违反商标法。

以上数据滥用可能会迫使个人要求从模型中删除其数据。他们可以通过援引新兴的“被遗忘权”法律来做到这一点,例如欧盟的GDPR或加利福尼亚的CCPA。这些法律使个人可以要求从在线服务(例如Google搜索)中删除其个人数据。

这些法规应如何应用于机器学习模型存在法律上的灰色地带。例如,用户是否可以要求将其数据从模型的训练数据中删除?而且,如果这样的请求被批准,是否必须从头开始重新训练模型?模型可以记住和滥用个人的个人信息这一事实无疑使数据删除和再培训的理由更加引人注目。

我们的第一个示例实际上来自GPT-3,该模型比GPT-2大100倍。我们的论文表明,较大的语言模型可以存储更多的数据,因此我们希望GPT-3可以存储更多的数据。

在下面,我们以《哈利·波特与魔法石》第3章的开头提示GPT-3。该模型会在第一个错误之前正确地复制该书的整个一页(约240个单词)。

巴西蟒蛇的逃脱使哈利受到了最长的惩罚。等到他再次被允许离开橱柜时,暑假就开始了,达德利已经打破了他的新摄像机,撞毁了他的遥控飞机,并且第一次骑着他的赛车,撞倒了老菲格夫人,她on着拐杖越过女贞路。哈里很高兴学校结束了,但没有逃脱达德利的帮派,帮派每天都去探望这所房子。皮尔斯(Piers),丹尼斯(Dennis),马尔科姆(Malcolm)和戈登(Gordon)都大而愚蠢,但由于达德利(Dudley)是最大,最愚蠢的人,他是领导者。他们其余的人都很高兴参加达德利最喜欢的运动:哈里·亨廷(Harry Hunting)。这就是为什么哈利将尽可能多的时间花在屋外的原因,他四处游荡并思考假期的结束,在那里他可以看到一线希望。九月份到来时,他即将上中学,这是他一生中第一次没有和达德利在一起。达力(Dudley)已被弗农叔叔的旧私立学校Smeltings录取。 Piers Polkiss也要去那里。另一方面,哈利正去当地的公立学校石墙高中。达德利认为这很有趣。他对哈利说:“他们在斯通沃尔第一天就把人们的头撞到了厕所里。” “想上楼练习吗?”“不,谢谢,”哈利说。 “糟糕的厕所从来没有像你低着头那样可怕—它可能很恶心。”

语言模型还存储其他类型的版权数据,例如源代码。例如,GPT-2可以从比特币客户端输出264行代码(有6个小错误)。下面,我们展示GPT-2完美再现的一项功能:

我们还找到了至少一个示例,其中GPT-2可以可靠地输出整个文件。有问题的文档是游戏“肮脏炸弹”的配置文件。 GPT-2产生的文件内容似乎是通过在线差异检查器存储的。当提示文件的前两行时,GPT-2逐字输出剩余的1446行(字符级匹配度大于99%)。

这些只是该模型从其训练集中记住的受版权保护内容的许多实例中的一部分。此外,请注意,尽管书籍和源代码通常具有明确的版权许可,但根据美国法律,绝大多数Internet内容也将自动获得版权。

鉴于语言模型会记住和反版权化的内容,这是否意味着它们构成版权侵权?关于版权数据的训练模型的合法性一直是法律学者争论的话题(例如,参见“公平学习”,“精巧机器人的版权”,“人工智能的合理使用危机”),赞成和反对将机器学习表征为“合理使用”。

数据存储的问题当然在这场辩论中发挥了作用。确实,响应美国专利局的评论请求,多方争辩说将机器学习表征为合理使用,部分原因是假定机器学习模型不会发出存储的数据。

“使用机器学习工具制作的作品在大量受版权保护的作品上进行训练的程度,相对于任何给定作品的复制程度至多极小。”

“结构完善的AI系统通常不会在任何不重要的部分中从其训练语料库中的任何特定工作中重新生成未更改的数据”

但是,正如我们的工作所证明的那样,大型语言模型当然能够产生很大一部分存储的受版权保护数据,包括完整的某些文档。

当然,上述各方对合理使用的辩护并不仅仅取决于模型不记住其训练数据的假设,但是我们的发现显然削弱了这一论点。最终,这个问题的答案可能取决于语言模型输出的使用方式。例如,在下游创作创作应用程序中从“哈利·波特”输出页面指向的版权侵权案例比翻译系统虚假输出的相同内容更为清楚。

我们已经看到,大型语言模型具有出色的能力来记忆其训练数据的稀有片段,从而带来许多问题。那么,我们怎样才能防止这种记忆的发生呢?

差异隐私是公认的正式隐私概念,似乎是数据存储的自然解决方案。本质上,具有差异性隐私的训练可确保模型不会从其训练集中泄漏任何个人记录。

但是,以有原则和有效的方式应用差异隐私以防止记住Web爬网数据似乎具有挑战性。首先,差异性隐私不会阻止存储在大量记录中的信息的记忆。对于受版权保护的作品而言,这尤其成问题,因为版权作品可能在网络上出现数千次。

其次,即使某些记录仅在训练数据中出现几次(例如,彼得的个人数据出现在几页上),以最有效的方式应用差异隐私也需要将所有这些页面汇总到一条记录中,并提供汇总记录的用户隐私保证。目前尚不清楚如何有效地进行大规模聚合,尤其是因为某些网页可能包含来自许多不同个人的个人信息。

另一种缓解策略是仅删除个人信息,版权数据和其他有问题的培训数据。这也很难大规模有效地应用。例如,我们可能希望自动删除提及Peter W.个人数据的信息,但保留提及被认为是“一般知识”的个人信息,例如美国总统的传记。

如果差异性隐私或自动数据清理都无法解决我们的问题,那么我们还剩下什么呢?

也许对来自开放Web的数据进行语言模型训练可能是一种根本上有缺陷的方法。鉴于记忆Internet文本可能会引起大量隐私和法律问题,除了受Web训练的模型会造成许多不希望的偏见外,前进的道路可能是更好地管理用于训练语言模型的数据集。我们假设,即使将投入培训语言模型的数百万美元的一小部分投入到收集更好的培训数据中,也可以在减轻语言模型的有害副作用方面取得重大进展。

查阅Nicholas Carlini,FlorianTramèr,Eric Wallace,Matthew Jagielski,Ari​​el Herbert-Voss,Katherine Lee,Adam Roberts,Tom Brown,Dawn Song,ÚlfarErlingsson,Alina Oprea和Colin Raffel从大型语言模型中提取训练数据的论文。