新闻:一款名为TextFooler的软件可以欺骗自然语言处理(NLP)系统,只需将句子中的某些单词替换为同义词就可以误解文本。在测试中,它能够大幅降低三个最先进的NLP系统的准确性。例如,在识别Yelp上的评论是正面的还是负面的方面,谷歌强大的Bert神经网络的表现差了5到7倍。
他们在NLP系统上测试了这种攻击,这些系统经过训练,可以完成识别新闻主题、检测假新闻和分析情绪等任务。在所有情况下,人工智能都变得明显更糟。
工作原理:该软件由麻省理工学院的一个团队开发,它在句子中寻找对NLP分类器最重要的单词,并用人类会觉得自然的同义词取代它们。例如,把“人物在不可能的人为情况下,完全与现实隔绝”改为“人物在不可能的工程环境中,完全与现实隔绝”,这对我们的理解没有什么实质上的区别。但这些调整让人工智能对句子的解释完全不同。
重要原因:我们已经看到了许多这种对抗性攻击的例子,最常见的是图像识别系统,在图像识别系统中,输入的微小变化都会让人工智能感到困惑,并使其对所看到的内容进行错误分类。TextFooler显示,这种攻击风格也破坏了NLP,虚拟助手背后的人工智能-如Siri,Alexa和Google Home-以及其他语言分类器,如垃圾邮件过滤器和仇恨言论检测器。研究人员说,像TextFooler这样的工具可以通过暴露它们的弱点,帮助NLP系统变得更健壮。