一个坏苹果

2021-08-09 06:04:36

在过去的几天里,我的收件箱里充斥着关于 Apple 的 CSAM 公告的消息。自从我深入研究照片分析技术和儿童剥削材料的报告以来,每个人似乎都希望得到我的意见。在这篇博文中,我将讨论 Apple 宣布的内容、现有技术以及对最终用户的影响。此外,我将指出苹果公司的一些有问题的说法。免责声明:我不是律师,这不是法律建议。此博客条目包括我对这些法律的非律师理解。在一份名为“扩大对儿童的保护”的公告中,Apple 解释了他们对防止剥削儿童的关注。文章开头苹果指出儿童性虐待材料 (CSAM) 的传播是一个问题。我同意,这是一个问题。在我的 FotoForensics 服务中,我通常每天向国家失踪和受虐儿童中心 (NCMEC) 提交一些 CSAM 报告(或“CP”——儿童色情照片)。 (它实际上已写入联邦法律:18 USC § 2258A。只有 NMCEC 可以接收 CP 报告,而 18 USC § 2258A(e) 将服务提供商未能报告 CP 定为重罪。)我不允许色情或裸露在我的网站上,因为允许此类内容的网站会吸引 CP。通过禁止用户和阻止内容,我目前将色情内容保持在上传内容的 2-3% 左右,而 CP 低于 0.06%。根据NCMEC,我2019年向NCMEC提交了608份报告,2020年提交了523份报告。同年,苹果分别提交了205份和265份报告。并不是 Apple 没有收到比我的服务更多的图片,或者他们没有我收到的 CP。相反,他们似乎没有注意到,因此没有报告。 Apple 的设备以一种非常独特的方式重命名图片。 (文件名弹道学可以很好地发现它。)根据我提交给 NCMEC 的报告数量,该图像似乎触及了 Apple 的设备或服务,我认为 Apple 存在非常大的 CP/CSAM 问题。由于 Apple 处理加密的方式(为了您的隐私),他们很难(如果不是不可能的话)访问您 iCloud 帐户中的内容。您的内容在他们的云中加密,他们无权访问。如果 Apple 想要打击 CSAM,那么他们必须在您的 Apple 设备上进行。这是 Apple 宣布的内容:从 iOS 15 开始,Apple 将部署可在您的设备上运行的 CSAM 扫描仪。如果它遇到任何 CSAM 内容,它会将文件发送给 Apple 进行确认,然后他们将向 NCMEC 报告。 (Apple 在他们的公告中写道,他们的员工“手动审查每个报告以确认是否匹配”。除非他们有副本,否则他们无法手动审查它。)虽然我理解 Apple 提出 CSAM 解决方案的原因,但存在一些严重的问题与他们的实施。检测 CP 的方法有多种:密码学、算法/感知、AI/感知和 AI/解释。尽管有很多关于这些解决方案有多好的论文,但这些方法都不是万无一失的。加密解决方案使用与已知图像匹配的校验和,如 MD5 或 SHA1。如果一个新文件具有与已知文件完全相同的加密校验和,那么它很可能逐字节相同。如果已知校验和用于已知 CP,则匹配识别 CP,而无需人工检查匹配。 (减少人类看到的这些令人不安的图片数量的任何事情都是一件好事。)在 2014 年和 2015 年,NCMEC 表示他们将向服务提供商提供已知 CP 的 MD5 哈希值,以检测已知不良文件。我反复请求 NCMEC 提供哈希集,以便我可以尝试自动检测。最终(大约一年后)他们为我提供了大约 20,000 个与已知 CP 匹配的 MD5 哈希值。此外,我还有来自其他执法机构的大约 300 万个 SHA1 和 MD5 哈希值。这听起来可能很多,但事实并非如此。对文件的单个位更改将阻止 CP 文件匹配已知散列。如果一张图片是简单的重新编码,它可能会有不同的校验和——即使内容在视觉上是相同的。在我在 FotoForensics 使用这些散列的六年中,我只匹配了这 300 万个 MD5 散列中的 5 个。 (它们真的没那么有用。)另外,其中一个绝对是假阳性。 (误报是一个穿着衣服的男人抱着一只猴子——我认为它是一只恒河猴。没有孩子,没有裸体。)仅基于 5 场比赛,我能够推断出 20% 的加密哈希可能是被错误地归类为 CP。 (如果我在 Defcon 上发表演讲,我会确保在媒体中包含这张图片——这样 CP 扫描仪就会错误地将 Defcon DVD 标记为 CP 的来源。[对不起,杰夫!])感知哈希寻找相似的图片属性。如果两张图片在相似的区域有相似的斑点,那么这两张图片是相似的。我有一些博客条目详细介绍了这些算法的工作原理。 NCMEC 使用 Microsoft 提供的称为 PhotoDNA 的感知哈希算法。 NMCEC 声称他们与服务提供商共享这项技术。但是,获取过程很复杂:因为FotoForensics,我对这段代码有合法的用途。我想在上传过程中检测CP,立即阻止该用户,并自动将其报告给NCMEC。然而,在多次请求(跨越多年)之后,我从未通过 NDA 步骤。我两次收到 NDA 并签署了它,但 NCMEC 从未反签并停止响应我的状态请求。 (我不是一个小人物。如果你按照 2020 年提交的数量对 NCMEC 的报告提供者列表进行排序,那么我在 168 个中排名第 40。2019 年,我在 148 个中排名第 31。 ) 由于 NCMEC 将 PhotoDNA 视为商业机密,我决定使用 Microsoft 发表的一些论文对算法进行逆向工程。 (没有一篇论文说明它是如何工作的,但我从一堆他们的营销宣传和高级幻灯片中拼凑了它的工作原理。)我知道我已经正确地实现了它,因为拥有代码的其他提供商能够使用我的散列以正确匹配图片。也许他们不希望真正的技术人员查看 PhotoDNA 是有原因的。微软表示“PhotoDNA 哈希是不可逆的”。这不是真的。 PhotoDNA 哈希可以投影到 26x26 灰度图像中,该图像只是有点模糊。 26x26 比大多数桌面图标大;它的细节足以识别人和物体。反转 PhotoDNA 哈希并不比解决 26x26 数独谜题复杂;一项非常适合计算机的任务。我有一份关于 PhotoDNA 的白皮书,我已私下分发给 NCMEC、ICMEC(NCMEC 的国际同行)、一些 ICAC、一些技术供应商和 Microsoft。少数提供反馈的人非常关注论文指出的 PhotoDNA 的局限性。我没有公开我的白皮书,因为它描述了如何反转算法(包括伪代码)。如果有人发布将 NCMEC 散列反转为图片的代码,那么每个拥有 NCMEC 的 PhotoDNA 散列的人都将拥有儿童色情内容。通过感知散列,该算法识别已知的图像属性。 AI 解决方案类似,但不是先验地知道属性,而是使用 AI 系统来“学习”属性。例如,多年前有一位中国研究人员正在使用人工智能来识别姿势。 (有些姿势在色情片中很常见,但在非色情片中并不常见。)这些姿势成为了属性。 (我从来没有听说过他的系统是否有效。)人工智能的问题在于你不知道它认为哪些属性很重要。回到大学时,我的一些朋友试图教人工智能系统从面部照片中识别男性或女性。它学到的主要内容是什么?男人留胡须,女人留长发。它确定嘴唇模糊的女人一定是“男性”,而长头发的男人一定是女性。 Apple 表示,他们的 CSAM 解决方案使用称为 NeuralHash 的 AI 感知哈希。它们包括一份技术论文和一些技术评论,声称该软件可以像宣传的那样工作。但是,我在这里有一些严重的担忧:审阅者包括密码学专家(我不关心密码学)和一些图像分析。然而,没有一个评论者有隐私背景。此外,尽管他们就合法性发表了声明,但他们不是法律专家(并且他们错过了一些明显的法律问题;请参阅我的下一部分)。 Apple 的技术白皮书过于技术性——但并没有提供足够的信息供人们确认实施。 (我在我的博客文章“Oh Baby,Talk Technical To Me”下的“Over-Talk”中介绍了这种类型的论文。)实际上,它是通过繁琐的符号来证明的。这导致了一个普遍的谬误:如果它看起来非常技术,那么它一定非常好。同样,苹果的一位评论员写了整篇论文,里面充满了数学符号和复杂变量。 (但这篇论文看起来令人印象深刻。请记住孩子们:数学证明与代码审查不同。)Apple 声称“每年错误标记给定帐户的几率为万亿分之一”。我在这叫胡说八道。 Facebook 是最大的社交媒体服务之一。早在 2013 年,他们每天收到 3.5 亿张照片。不过,Facebook 还没有公布更多最近的数字,所以我只能尝试估计。 2020年,FotoForensics收到图片931466张,向NCMEC提交报告523份;那是 0.056%。同年,Facebook 向 NCMEC 提交了 20,307,216 份报告。如果我们假设 Facebook 的报告速度与我相同,那么这意味着 Facebook 在 2020 年收到了大约 360 亿张图片。按照这个速度,他们需要大约 30 年才能收到 1 万亿张图片。根据我看到的所有报告,Facebook 拥有比 Apple 更容易访问的照片。请记住:Apple 表示他们无法访问用户在 iCloud 上的照片,因此我不相信他们可以访问 1 万亿张图片进行测试。那么他们还能从哪里获得 1 万亿张照片呢?随机生成:与人的照片相比,对随机生成的图片进行测试是不现实的。网络爬虫:爬网是可行的,但我的网络日志很少显示 Apple 的机器人在做爬虫。如果他们这样做,那么他们的收获速度不足以解释一万亿张图片。合作伙伴关系:他们可以建立某种合作伙伴关系来提供图片。但是,我还没有看到任何此类公告。而诸如更大许可的成本可能会出现在他们的年度股东报告中。 (但我没有看到任何这样的披露。) NCMEC:在 NCMEC 的 2020 年总结报告中,他们表示他们在 2020 年收到了 6540 万份文件。NCMEC 成立于 1984 年。如果我们假设他们每次收到相同数量的文件年(总体高估),那么这意味着他们有大约 25 亿个文件。我不认为 N​​CMEC 有 1 万亿个例子可以与苹果分享。

也许 Apple 是根据其哈希中的位数进行“万亿分之一”的估算?使用加密哈希(MD5、SHA1 等),我们可以使用位数来识别冲突的可能性。如果赔率是“万亿分之一”,则意味着该算法有大约 40 位的哈希值。但是,计算散列的位大小不适用于感知散列。对于感知哈希,真正的问题是这些特定属性在照片中出现的频率。这与查看散列中的位数不同。 (两张不同的汽车图片会有不同的感知哈希值。从相似角度拍摄的相似狗的两张不同照片将具有相似的哈希值。而白色墙壁的两张不同图片几乎相同。)使用人工智能驱动的感知哈希值,包括诸如此类的算法Apple 的 NeuralHash,你甚至不知道属性,所以你不能直接测试可能性。唯一真正的解决方案是通过大量视觉上不同的图像进行测试。但正如我所提到的,我认为 Apple 无法访问 1 万亿张图片。什么是真正的错误率?我们不知道。苹果似乎不知道。由于他们不知道,他们似乎刚刚抛出了一个非常大的数字。据我所知,苹果声称的“万亿分之一”是毫无根据的估计。在这方面,苹果为其算法提供了误导性支持和误导性准确率。 AI 驱动的解释解决方案尝试使用 AI 来学习上下文元素。人、狗、成人、儿童、衣服等。虽然人工智能系统在识别方面取得了长足的进步,但该技术远不足以识别 CSAM 的图片。还有极端的资源需求。如果在您的 iPhone 上运行上下文解释性 CSAM 扫描仪,那么电池寿命将急剧下降。我怀疑充满电的电池只能使用几个小时。幸运的是,Apple 并没有采取这种解决方案。 Apple 专注于 AI 驱动的感知哈希解决方案。自从 Apple 最初发布 CSAM 以来,我已经看到很多文章关注 Apple 扫描您的文件或访问您加密设备上的内容。就个人而言,这并不困扰我。您拥有可在驱动器解锁时扫描您的设备的防病毒 (AV) 工具,并且拥有可清点所有内容的文件索引系统。当您在设备上搜索文件时,它会访问预先计算的文件索引。 (请参阅 Apple 的 Spotlight 和 Microsoft 的 Cortana。)您可能会争辩说,作为用户,您可以选择使用哪种 AV,而 Apple 没有给您选择权。但是,Microsoft 随附了 Defender。 (尝试禁用它祝你好运;每次更新后它都会打开。)同样,我的 Android 附带 McAfee。 (我不知道如何关闭它!)我觉得 Apple 解决方案令人烦恼的是他们在发现可疑内容后会做什么。使用索引服务,索引会保留在设备上。使用 AV 系统,潜在的恶意软件会被隔离——但会留在设备上。但是使用 CSAM 吗? Apple 表示:只有当超过阈值时,加密技术才允许 Apple 解释与匹配的 CSAM 图像相关联的安全凭证的内容。然后,Apple 手动审查每份报告以确认是否存在匹配项,禁用用户帐户,并向 NCMEC 发送报告。为了手动查看匹配,他们必须有权访问内容。这意味着内容必须转移到 Apple。此外,正如 Apple 的一位技术评论员所写,“用户无法从系统中获得直接反馈,因此无法直接了解他们的照片是否与 CSAM 数据库匹配。”这导致了两大问题:非法搜查和非法收集儿童剥削材料。如前所述,Apple 表示他们将扫描您的 Apple 设备以查找 CSAM 材料。如果他们发现他们认为匹配的内容,那么他​​们会将其发送给 Apple。问题是你不知道哪些图片会被发送到苹果。您可能拥有公司机密信息,而 Apple 可能会悄悄地复制一份。您可能正在与法律当局合作调查一起剥削儿童的案件,Apple 会悄悄地复制一份证据。重申:扫描您的设备不存在隐私风险,但在没有任何通知的情况下从您的设备复制文件绝对是一个隐私问题。可以这样想:您的房东拥有您的财产,但在美国,他无法随时进入。为了进入,房东必须获得许可、事先通知或有理由。任何其他原因都是非法侵入。此外,如果房东拿走任何东西,那就是盗窃。 Apple 的许可协议说他们拥有操作系统,但这并没有授予他们随时搜索或获取内容的权限。与 CSAM 相关的法律非常明确。 18 美国法典 § 2252 规定,故意转移 CSAM 材料是重罪。 (在 2258A 中,唯一的例外是在向 NCMEC 报告时。)在这种情况下,Apple 有充分的理由相信他们正在传输 CSAM 材料,并且他们将其发送给 Apple——而不是 NCMEC。 Apple 随后会对其进行检查并将其转发给 NCMEC,这并不重要。 18 USC § 2258A 是特定的:数据只能发送到 NCMEC。 (使用2258A,服务商将CP照片交给警察或FBI是违法的,只能寄给NCMEC,然后NCMEC会联系警察或FBI。)Apple详细说明的是故意分发(到 Apple)、收集(在 Apple)和访问(在 Apple 观看)他们强烈有理由相信是 CSAM 的材料。正如我的律师向我解释的那样,这是重罪。在 FotoForensics,我们有一个简单的流程:当我的管理员审查上传的内容时,我们不希望看到 CP 或 CSAM。我们不是“有意”看到它,因为它只占上传的不到 0.06%。此外,我们的评论为各种研究项目列出了许多类型的图片。 CP 不是研究项目之一。我们不是故意找CP的。我们遵守法律。苹果公司的提议不符合法律。在 Apple 宣布这一消息后的数小时和数天里,媒体进行了大量报道和技术社区的反馈——其中大部分都是负面的。一些例子: EFF:“Apple 的关于加密的‘思考不同’的计划为您的私人生活打开了后门” The Verge:“WhatsApp 领导和其他技术专家回击 Apple 的儿童安全计划”

随后是备忘录泄露,据称是从 NCMEC 到 Apple:我了解与 CSAM、CP 和儿童剥削相关的问题。我在会议上就这个话题发表过演讲。我是强制性记者;我向 NCMEC 提交的报告比 Apple、Digital Ocean、Ebay、Grindr 和 Internet Archive 还多。 (并不是我的服务收到了更多信息;而是我们在检测和报告它时更加警惕。)我不是 CP 的粉丝。虽然我欢迎更好的解决方案,但我认为 Apple 的解决方案过于具有侵略性,违反了法律的条文和意图。如果 Apple 和 NCMEC 将我视为“少数人的尖叫声”之一,那么他们就没有在听。