Google Meet的噪音消除是如何工作的

2020-06-10 01:47:07

今天,谷歌将在Google Meet上启用人工智能噪音消除功能。就像微软团队即将推出的噪音抑制功能一样,该功能利用了有监督的学习,这需要在已标记的数据集上训练AI模型。这是一个逐步推出的过程,所以如果你是G Suite的客户,你可能要到本月晚些时候才能得到噪音消除。噪音消除将首先出现在网络上,Android和iOS随后会出现。

今年4月,谷歌宣布Meet的噪音消除功能将进入G Suite Enterprise和G Suite Enterprise for Education客户。该公司是这样描述的:“为了帮助限制对会议的干扰,Meet现在可以智能地过滤掉背景干扰-比如你在做会议笔记时,你的狗吠叫或击键。”尽管你可以在Google Meet的设置中将其关闭,但“去噪音器”(俗称“去噪音器”)在默认情况下是打开的。

随着冠状病毒危机迫使数百万人在家学习和工作,协作和视频会议工具的使用呈爆炸性增长。谷歌是众多试图超越Zoom的公司之一,Zoom的每日会议参与者在三个月内从1000万飙升至2亿以上。谷歌正在将Meet定位为企业和消费者都可以选择的G Suite,截至4月份,Meet的日会议参与者已达1亿人。

G Suite产品管理总监Serge Lachapelle从事视频会议工作已有25年,其中13年在谷歌。随着公司大部分员工转向在家工作,拉查佩勒的团队获准在Google Meet会议上部署去噪音器。我们讨论了项目是如何开始的,他的团队是如何构建噪音消除的,所需的数据,人工智能模型,去噪器是如何工作的,它消除了哪些噪音,哪些没有,隐私,以及用户体验方面的考虑(没有任何视觉迹象表明去噪器是打开的)。

VB Transform 2020 Online-7月15-17日。加入领先的人工智能高管:注册免费直播。

当谷歌推出大的新功能时,它通常会从一小部分用户开始,然后根据结果加大推出的力度。噪音消除也不会有什么不同。“我们计划在6月份逐步做到这一点,”Lachapelle说。“但实际上,在过去的一年里,我们在谷歌内部一直在使用它。”

该项目可以追溯到更远的地方,从2017年1月谷歌收购Limes Audio开始。Lachapelle说:“通过这次收购,我们的斯德哥尔摩办事处有了一些令人惊叹的音频专家。”

最初的噪音消除想法是在跨时区举行会议时的烦恼中诞生的。

“它在摔门时效果很好,”Lachapelle说。“它对狗吠、孩子打架等都很管用。我们一开始采取比较温和的方法,或者有时我们不会取消所有的事情,因为我们不想走得太远,开始取消不应该取消的事情。有时候,听到我在深呼吸,或者那些更自然的声音,对你来说是件好事。因此,这将是一个将持续多年的项目,我们将对其进行调整,使其变得越来越好。“。

在我们的号召下,Lachapelle演示了几个该功能的实际应用示例。他在杯子里打打钢笔,敲打易拉罐,把塑料袋弄得沙沙作响,甚至鼓掌。然后,在打开消噪器后,他又重新做了一次-它起作用了。你可以在上面的视频中看到他重现类似的声音(烤坚果袋沙沙作响,单击钢笔,敲击玻璃杯中的艾伦键,折断尺子,鼓掌)。

Lachapelle说:“掌声部分是一种奇怪的时刻,因为当我们对整个团队进行第一次演示时,人们爆发出掌声,这抵消了掌声。”“那时我们明白了,‘哦,我们需要一个控制器来在设置中打开和关闭它,因为可能会有一些用例,你真的不想让你的噪音被消除。’”

消噪器做什么和不做什么的界限是模糊的。这并不像探测人类的声音并否定其他一切那么简单。

“人类的声音有这么大的范围,”拉查佩勒说。“我想说尖叫是一件很难的事。这是人的声音,但它是噪音。狗在特定的间距,这也是非常困难的。所以有些东西有时会溜走。在这些事情上,这还是一项正在进行的工作。“。

“像吸尘器这样的东西,我们做得非常好,”他继续说。“前几天我和克里斯蒂娜有个大客户会面,她在苏黎世--她领导着我们的支持团队。当我们和这位顾客交谈时,突然我看到在后面,她的Roomba开始滚进房间,卡在她的桌子下面。她在那里试着和顾客交谈,把Roomba扔掉,而我们从来没有听到Roomba的声音。一片寂静。我以为那是一种终极考验。如果我们能把这些东西拿出来-钻探,隔壁施工的人,坐在厨房里的人,他们已经启动了搅拌机-这些东西它真的非常擅长。“。

乐器也可能会被过滤掉。Lachapelle说:“在相当大的程度上,确实是这样的。”“尤其是打击乐器。有时吉他听起来很像声音--你开始接触到那里的极限。但如果你让音乐在背景中播放,通常情况下它会把一切都剪掉。“。

演唱可以,但乐器不能,“特别是当他们在背景中的时候。”

至关重要的是,Google Meet的噪音消除功能正在所有语言中推广。乍一看,这似乎很明显,但Lachapelle说,团队发现在多种语言上测试该系统是“极其重要的”。

“当我们说英语时,我们会使用一定范围的声音,”Lachapelle说。“与其他语言相比,有一种特定的方式来传递辅音和元音。所以这些都是重要的考虑因素。我们做了很多跨不同语言的验证。我们对此进行了大量测试。“。

另一个挑战是处理距离问题。这不是机器学习的问题,而是“噪音太大,离麦克风太近”的问题。

“键盘打字很棘手,”Lachapelle说。“这就像音频信号中的阶跃函数。特别是如果键盘离麦克风很近,麦克风旁边的键砰的一声就意味着我们无法从麦克风中取出语音,因为麦克风已经被键盘饱和了。所以有些情况下,如果我的麦克风超载,我的声音就无法通过。这或多或少变得不可能了。“。

在决定过滤掉什么时,团队将距离麦克风的距离考虑在内。因此,该模型适用于振幅。在我们的电话中,Lachapelle用他的iPhone播放了一些音乐。当他把手机的扬声器放在麦克风旁边时,我们可以听到音乐稍微传来,而他从更远的地方传来的声音有一点扭曲。Google Meet并没有完全取消音乐-它更沉闷。当他关掉去噪音器时,音乐的音量开到了最大。

“这就是你看到它找到我们所说的那个门槛的时候,”Lachapelle说。“你不想有假阳性,所以我们会出于安全考虑而犯错。与其阻挡真正应该通过的东西,不如让它通过。这就是我们现在要开始调优的内容,一旦我们开始将其发布给越来越多的用户。我们将会得到很多关于它的反馈。有人会有一种我们没有想到的情况,我们必须考虑到这一点,并进一步发展这一模式。“。

考虑到AI模型包含的所有不同类型的噪声,调整AI模型将是困难的。但最终目标并不是让模型完全消除背景噪音。也不能保证所有类型的笑声都能百分之百通过。

“我们的目标是让谈话变得更好,”Lachapelle说。“因此,我们的目标是让你我所说的话清晰易懂--绝对是这样。如果音乐在背景中播放,我们不能全部取消,只要你和我能在打开它的情况下进行更好的对话,那么这就是一场胜利。所以这永远是关于你和我能够更好地了解彼此。“

在智能手机和人们在旅途中工作的时代,让对话更加连贯尤为重要。

Lachapelle说:“我们现在有很大一部分用户在使用手机,从百分比上看,我们从来没有见过这么多的手机使用量。”“我知道我们都在谈论系统中发生的数十亿分钟之类的事情。但在这一大块中,移动用户的比例从来没有这么高过。而且移动用户通常处于非常嘈杂的环境中。因此,对于那个用例,它将产生巨大的影响。我现在坐在瑞典的小办公室里,手里拿着我那华丽的麦克风和一副很好的耳机,这可能不是我们设计这个的目的。我们是为嘈杂的环境设计的,因为人们需要随时随地交谈。“。

当你在进行谷歌会议呼叫时,你的语音会从你的设备发送到谷歌数据中心,在那里它会通过TPU上的机器学习模型,重新加密,然后发送回会议。(媒体在传输过程中始终是加密的,即使在谷歌自己的网络、计算机和数据中心内移动时也是如此。有两个例外:当您使用传统电话呼入时,以及当会议被录音时。)。

Lachapelle说:“在去噪的情况下,去噪器使用在所有参与者之间共享的密钥读取数据,对其进行去噪,然后使用相同的密钥将其发送出去。”这是在我们数据中心的安全服务(我们称之为Borg)中完成的,为了确保隐私、机密性和安全性,数据永远不能在去噪过程之外访问。我们仍在维修基础设施中的管道,以连接正常使用电话拨号的人。但那会稍晚一点,因为他们是一群非常吵闹的人。“。

LaChapelle反复强调,谷歌将随着时间的推移改进这一功能,但不会直接使用外部会议。录制的会议也不会用于训练人工智能。

Lachapelle说:“我们不看会议中发生的任何事情,除非你决定记录会议。”“然后,当然,我们参加会议,把它放到Google Drive上。因此,我们的工作方式是通过我们的客户渠道和支持,等等,并试图找出事情没有像预期的那样工作的情况。在Google内部,有记录的会议,如果有人发现发生的问题,那么希望他们能将其发送给团队。但我们不会为此目的查看录音,除非有人手动将文件发送给我们。“。

如果你是G Suite的企业客户,当谷歌本月为你打开开关时,Meet的噪音消除功能将默认开启。当您想要“噪音”通过时,您必须在设置中将其关闭。在Web上,您将单击右下角的三个点,然后单击“设置”。在音频选项卡下的麦克风和扬声器之间,您将看到一个可以打开或关闭的额外开关。它的标签是“噪音消除:过滤掉非语音的声音。”

谷歌决定将这个开关设置在设置中,而不是在通话过程中可见的地方。而且没有任何视觉迹象表明噪音正在被抵消。这意味着通话中的噪音将被抵消,人们甚至不会意识到它正在发生,更不用说这项功能的存在了。我们问Lachapelle为什么会做出这些决定。

“有些人可能希望我们表现出‘看看我们有多好’。现在你的噪音正在被过滤掉。我想你可以把它归结为用户界面的考虑,“Lachapelle说。“我们做了很多用户测试和对用户的采访。去年,我们在分娩前的实验室里有用户,我们在他们身上测试了不同的型号。再加上-你可以看到Meet不是到处都有按钮,它是一个相当干净的用户界面。基本上,我对你的问题的回答是,这是基于我们所做的用户调查,并试图保持Meet的界面尽可能整洁。“。

在典型的Google Meet呼叫中,您可以将自己设置为静音,也可以根据设置将他人设置为静音。但谷歌选择不让用户噪音取消其他用户。噪声消除发生在发送者一侧,也就是噪声的发源地,所以这就是开关所在的位置。虽然这在大多数情况下可能是有意义的,但这意味着接收者无法控制他们听到的噪音消除。这个团队是故意做出这个决定的,但这并不是一个容易的决定。

Lachapelle说:“我认为关闭开关根本不会被大量使用。”“所以把它放在前面和中心可能会让它超载。这应该只是魔术,并在后台工作。不过,再说一遍,你的想法是对的。这正是我们一直在谈论的。我们一直在测试。这确实表明你在这方面做了很多功课。因为这些都是挑战。我不认为我们中的任何一个人百分之百肯定这是正确的方式。让我们拭目以待吧。“。

如果不成功,那也没关系。谷歌已经完成了大部分工作。移动开关-“我不想说这很简单,但它比改变整个机器学习模型要简单得多。”我们询问替代解决方案是否意味着在接收端,甚至在两端都安装交换机。

Lachapelle说:“所以我们会尝试这一点,当我们把它送到越来越多的用户手中时,我们可能会想要转移到你所描述的东西上。”“这项工作绝不是完成的。这将是一项将持续一段时间的工作。另外,我们还会学到很多东西。比如什么样的控件对用户来说是最好的。你如何让用户明白这是怎么回事?他们需要明白这是怎么回事吗?我们认为我们已经有了如何迈出第一步的想法,但除此之外,对于我们所有的用户来说,这将是一段旅程。“。

Lachapelle说,如果目前的解决方案不起作用,团队可能会建造几个原型,做一些更多的用户研究,并通过G Suite的Alpha程序对其进行测试。

谷歌还做出了一个有意识的决定,将机器学习模型放在云端,这并不是立竿见影的选择。

“有很多方法可以应用这些模型,”Lachapelle说。“有些需要更强壮的端点--你需要一台好的计算机。您已经看到了一些已经发布的东西,其中一些作为扩展,或者一些需要更强大的图形卡。我们不想走那条路。我们希望确保无论您的笔记本电脑上有什么手机,都可以在您的手机上访问它。笔记本电脑变得越来越薄--它们不再有粉丝了。用CPU将它们加载得太重并不是一个好主意。所以我们决定看看能否在云中做到这一点。“

Lachapelle说:“仅仅在五年、六年、七年前,在云中操纵媒体可能会增加200毫秒的延迟,300毫秒的延迟。”“我们的工作一直是以最快的速度通过云端。但现在有了这些TensorFlow处理器,以及我们基础设施的基本构建方式,我们发现我们可以实时进行媒体操作,有时只会增加大约20毫秒的延迟。这就是我们走的路。“。

谷歌确实考虑过使用EDGE-将机器学习模型放在实际设备上,比如在Android和iOS上的Google Meet应用程序中。

“我们当然想过了,”拉查佩勒说。但我们决定,我们希望在各种设备上拥有更一致的体验。假设我有一个先进的i9处理器,然后我可以使用[噪音消除]。但如果我换成只有i3处理器的笔记本电脑,我的声音就会差得多。因此,我们真的试图看看如何才能以一致的方式将这一点带给一大群人。这关系到体验的一致性。“。

谷歌决定使用云意味着你应该在每台设备上拥有完全相同的无噪音会议体验。你也不需要更新任何东西,甚至手机上的Google Meet应用程序也不需要更新。服务器端将打开噪音消除功能。

“我们真的认为这会有很大帮助,”L。

..