去年 6 月,拥有超过 100 万订阅者的 YouTube 国际象棋频道的主持人安东尼奥·拉迪奇(Antonio Radić)正在直播对特级大师中村光的采访,当时广播突然中断。观众被告知拉迪奇的视频因“有害和危险”内容而被删除,而不是关于国际象棋开局、著名比赛和标志性球员的热烈讨论。拉迪奇看到一条消息,称该视频违反了 YouTube 的社区准则,该视频仅包含对国王的印度防御的讨论,这仅是令人反感的内容。它保持离线 24 小时。究竟发生了什么还不清楚。除了说删除拉迪奇的视频是一个错误之外,YouTube 拒绝发表评论。但一项新研究表明,它反映了旨在自动检测在线仇恨言论、虐待和错误信息的人工智能程序的缺陷。 Ashique KhudaBukhsh 是卡内基梅隆大学专门研究人工智能的项目科学家,他本人也是一名严肃的国际象棋棋手,他想知道 YouTube 的算法是否可能被涉及黑白棋子、攻击和防御的讨论所混淆。所以他和 CMU 的工程师 Rupak Sarkar 设计了一个实验。他们训练了两个版本的语言模型 BERT,一个使用来自种族主义极右翼网站 Stormfront 的消息,另一个使用来自 Twitter 的数据。然后,他们在 8,818 个国际象棋视频的文本和评论上测试了算法,发现它们远非完美。算法将大约 1% 的抄本或评论标记为仇恨言论。但是,超过 80% 的标记是误报——从上下文来看,该语言不是种族主义。 “如果没有人参与,”两人在他们的论文中说,“依靠现成的分类器对国际象棋讨论的预测可能会产生误导。”实验暴露了人工智能语言程序的一个核心问题。检测仇恨言论或辱骂不仅仅是捕捉脏话和短语。相同的词在不同的上下文中可能具有截然不同的含义,因此算法必须从一串词中推断出含义。 “从根本上说,语言仍然是一件非常微妙的事情,”曾与 KhudaBukhsh 合作过的 CMU 教授 Tom Mitchell 说。 “这些经过训练的分类器不会很快达到 100% 准确。”
华盛顿大学专门研究人工智能和语言的副教授 Yejin Choi 表示,考虑到当今语言理解的局限性,她对 YouTube 的下架“一点也不”感到惊讶。 Choi 表示,在检测仇恨言论方面取得更多进展将需要大量投资和新方法。她说,当算法不仅仅是单独分析一段文本时,算法会更好地工作,例如,结合用户的评论历史或发表评论的频道的性质。但 Choi 的研究还表明,仇恨言论检测是如何使偏见永久化的。在 2019 年的一项研究中,她和其他人发现,人工注释者更有可能将自认为是非裔美国人的用户的 Twitter 帖子标记为辱骂性的,并且经过训练以识别使用这些注释的滥用行为的算法会重复这些偏见。公司已经花费了数百万美元来收集和注释自动驾驶汽车的训练数据,但 Choi 表示,同样的努力还没有投入到注释语言中。到目前为止,还没有人收集和注释包含大量语言含糊不清的“边缘案例”的仇恨言论或滥用的高质量数据集。 “如果我们在数据收集上进行这种水平的投资——甚至是其中的一小部分——我相信人工智能可以做得更好,”她说。 CMU 教授 Mitchell 表示,YouTube 和其他平台可能拥有比 KhudaBukhsh 构建的更复杂的人工智能算法。但即使是那些仍然是有限的。大型科技公司指望人工智能来解决在线仇恨言论。 2018 年,马克·扎克伯格告诉国会,人工智能将有助于消除仇恨言论。本月早些时候,Facebook 表示,其人工智能算法检测到该公司在 2020 年最后三个月删除的仇恨言论的 97%,高于 2017 年的 24%。但它没有透露算法遗漏的仇恨言论的数量,或如何人工智能经常出错。 WIRED 将 CMU 研究人员收集的一些评论输入到两个仇恨言论分类器中——一个来自 Jigsaw,一个专注于处理错误信息和有毒内容的 Alphabet 子公司,另一个来自 Facebook。一些陈述,例如“在1:43,如果白王简单地移动到G1,那么黑的攻击结束,白只是一个马,对吧?”被判断为 90% 可能不是仇恨言论。但声明“白色对黑色的攻击是残酷的。白方正在践踏黑方的防御。黑王要倒下了……”被判定为仇恨言论的可能性超过 60%。目前尚不清楚内容在 YouTube 和其他平台上被错误标记为仇恨言论的频率。 “我们不知道它发生的频率,”KhudaBukhsh 说。 “如果一个 YouTuber 没有那么出名,我们就不会看到它。”
📱 在最新款手机之间纠结?不要害怕——查看我们的 iPhone 购买指南和最喜欢的 Android 手机