对于科技博客的读者来说,中国进行大规模的审查并不是什么新鲜事。可能更令人惊讶的是,它的审查制度甚至延伸到了生活中最无害的方面。Chinai时事通讯提供了杰夫·丁(Jeff Ding)翻译的来自中国人工智能世界的有趣文本,其中就提到了一个这样的案例。它讲述的是一部名为“坏孩子”的中国网络电视连续剧。以下是网站Sixth Tone对它的描述:
自6月中旬第一集在中国类似Netflix的视频平台爱奇艺上发布以来,“坏孩子”凭借其情节、摄影、选角、对白、节奏和配乐赢得了广泛好评。由于其人物的心理和复杂的动机,它还在网上引发了关于人性的广泛讨论。
然而,正如第六音文章指出的那样,当局要求对该系列进行大量修改才能获得批准。“坏孩子”的一位粉丝Eury Chen想知道到底有什么改变,为什么会这样。在由Chinai翻译的一篇博客文章中,陈解释了他是如何做到这一点的:
两天前,我一口气看了电视剧“坏孩子”,情节相当激动人心。缺点是,为了让这部电视剧通过(国家广播电视总局)的审查,第11集和第12集的剪辑序列被打乱,甚至到了台词被修改的地步,以至于电影中有几个地方演员的嘴部动作和台词不匹配,这让人感到困惑。因此,我试图通过人工智能技术来还原修改后的台词,从而还原一些包含更黑暗真相的原始情节。
这项人工智能技术使用了谷歌的Facemesh软件包,该软件包可以在图像和视频中追踪人脸上的关键地标。通过分析唇动,可以预测汉语音节的发音。然而,有一个特殊的问题使得使用人工智能来传播中文变得困难。汉语中有很多同音字(发音相似,意思不同)。为了绕过这个问题,陈冠希探索了可能的汉字序列,以找到与当时的情节最匹配的汉字序列。正如他的博客文章(和中文翻译)所解释的那样,这让他能够弄清楚为什么某些线路被中国当局封锁--事实证明这完全是出于微不足道的原因。
也许比这个特定案例的细节更有趣的是,有可能使用人工智能来进行大部分的唇读,让人类知识在可能的中文短语列表中进行选择。大多数语言不需要这个额外的阶段,因为它们很少有汉语那么多的同音字。事实上,对于英语短语,研究人员在2016年已经声称,他们的基于人工智能的理网在句子级别的重叠说话人拆分任务中达到了95.2%的准确率,表现优于经验丰富的人类唇读器。
很明显,我们正在迅速接近一种情况,即人工智能能够以任何语言传播视频。这对聋人或重听人来说显然是件好事,但也有严重的不利之处。这意味着很快世界各地数以百万计的高质量闭路电视系统不仅能够使用面部识别软件来识别我们是谁,而且还可以运行人工智能模块来传播我们正在说的话。