Deepfake语音技术:很好。 不好 未来

2021-02-09 20:05:45

基于语音克隆或人声准完美复制的Deepfake语音技术,无论好坏,都可以使用。可以将其用于语音合成,该语音合成可以将语音返回给由于急性或慢性疾病(如ALS,失用症,脑外伤,中风等)而失去语音的人。

它已经在影视行业,游戏,呼叫中心中使用,并且对于加密和治疗也很方便。但是,不可否认的是,它可能对民主进程,尤其是与隐私价值有关的进程构成重大威胁。如果使用不当,则Deepfake语音技术可能会造成欺骗和骚扰。

正是因为我们完全意识到这一点,所以在Respeecher,我们非常重视语音技术的使用,以最大程度地降低使人们误以为有人认为某人说了些什么的风险。

我们致力于确保我们的突破性技术仅用于符合道德标准的项目,不会落入错误之手。未经许可,我们不会使用私人或演员的声音,我们总是征求声音所有者的书面同意。但是,我们确实允许对理查德·尼克松(Richard Nixon)或巴拉克·奥巴马(Barack Obama)等历史人物和政客的声音进行非欺骗性的使用,但仅适用于符合道德标准的项目。

企业用例呢?数字显示,经济组织有很大的机会利用声音来收购和保留新业务。根据AppDynamics从2018年开始的报告,到2020年,预计将有一半的网络搜索是语音驱动的。

接受调查的IT决策者中有61%甚至更进一步,他们期望语音命令将完全替代手动键入的命令,以在Internet上查找信息。年轻一代引领潮流-84%的千禧一代已经使用语音助手来帮助他们跟踪日常工作和职责。

使患有多种疾病的人能够自然说话

通过说出语言进行交流,分享思想和情感的能力非常重要,实际上,正是这些因素使我们人类变得与众不同。但是突破性的语音转换技术可以为残障人士提供更多功能。

考虑通过语音控制扩展家庭自动化技术。语音克隆可以使自然无法说话的人变得更加独立,可以更好地使用可以通过语音控制的设备。

根据Ovum的数字助理和支持语音AI的设备预测:2016-21,到2021年,语音助手的人数将超过地球上人类的数量。让我们以Google助理为例。它的语音由基于两个深度神经网络的文本语音转换系统Tacotron 2生成。

首先将文本随时间转换为音频的可视表示形式(即频谱图),然后WaveNet系统分析频谱图并创建音频元素。结果是,即使涉及到具有挑战性的单词的发音,语音也几乎无法与人类语音区分开。

借助人工智能进行语音克隆,无需为每个新会话记录笔记,也无需再次记录以纠正潜在的错误。这样可以减少专业录制的讲座的财务和时间成本,从而促进在线课程的普及。这绝非易事,尤其是在由于COVID-19限制而穿越的艰难时期。

可以通过结合使用Deepfake语音技术和Deepfake视频来创建带有明显性或暴力场景的假冒视频,但这些视频非常逼真。

如果您收到一封电子邮件,要求您“通过以下电子邮件与X银行联系,以指导您进一步进行电汇程序”,则很可能您将其视为垃圾邮件,而对此无所作为。但是,听起来像是受信任的联系人的某人的后续电话建议您回复该电子邮件,这可能会改变主意,使您无法做到自己想做的事情。

有人可能假装自己是X公司的首席执行官,从这个职位上可以在虚假的收益电话中显示虚假数据,使利益相关者和投资者误以为股价与实际价格不同。可以使用相同的非法手段破坏行业竞争对手。

我们痛苦地意识到,合成媒体技术有可能以有害方式使用。这就是为什么我们的技术无法为公众所用的原因之一。通过限制我们与谁合作以及我们允许他们与我们的技术做什么,我们将语音转换系统的使用限制为非欺骗性的内容创建应用程序。

我们希望早日投放市场,实际上可以帮助公众了解技术上可行的方法,并减少人们因欺骗性的合成语音而跌倒的可能性。我们还认为,Youtube和Facebook等网守可以在限制这种危害方面发挥重要作用,并且我们准备与此类平台合作,以检测并突出标记合成语音。

鉴于以上引用的AppDynamics报告的发现,公司对语音转换技术的使用不应以“是否”为框架,而应以“何时”为框架。 69%的IT决策者为在未来三年内已经投资或计划投资语音技术的组织工作。

无论您是在考虑语音复制,语音问题的治疗,配音和ADR,加密,游戏等,所有这些都可能会受益于语音克隆。例如,游戏中实时系统(目前正在进行的过程)的设想开发将允许玩家在游戏中的聊天中使用不同的声音。深度语音技术的发展日新月异。

Reespecher现在正在研究突破性技术,这些技术将使海外运营商听起来像本地人。最终,我们正在接近解决方案,以使操作员听起来更像是通过电话与他们交谈的人。同样,一旦我们完成了语音改造,我们的机器人操作员将很快听起来更人性化。

Deepfake语音技术确实确实带来了安全风险,但是承认它们并试图将其最小化是将重点主要放在产品上的第一步。听起来与原始说话者无法区分的克隆声音是电影制作人,游戏开发人员,其他媒体内容创作者以及呼叫中心不久之后的天堂之选。

由于数字化复制的声音已经可以捕捉到细微差别和情感,因此应用领域的范围正在扩大,因为对于所有最近尝试与(例如,Samsung&# 39的Bixby,Apple的Siri或亚马逊的Alexa。 咨询和陪伴是有望通过产生表达情感的声音而出现的新功能。 新获得的更改内容的可能性将简化创作过程,而无需重新录制原始声音。 本文不一定反映《经济时报》编辑或管理层的意见