NVIDIA称其人工智能可以解决视频通话中的一些最大问题

2020-10-07 15:29:38

NVIDIA宣布为开发者提供一个新的视频会议平台,名为NVIDIA Maxine,声称可以解决视频通话中一些最常见的问题。

Maxine将使用NVIDIA的GPU在云中处理通话,并在人工智能的帮助下以多种方式提高通话质量。使用人工智能,Maxine可以重新调整呼叫者的面部和凝视,使他们始终直视相机,通过只传输“关键脸部点”,将视频的带宽需求“降低到H.264流媒体视频压缩标准要求的十分之一”,并提升视频的分辨率。Maxine提供的其他功能包括脸部重新照明、实时翻译和转录,以及动画化身。

NVIDIA的面部对齐功能将确保您始终盯着相机。

当然,并非所有这些功能都是新功能。视频压缩和实时转录已经很普遍了,微软和苹果已经在Surface Pro X和FaceTime中引入了凝视对齐功能,以确保人们在视频通话时保持眼神接触(尽管NVIDIA的面部对齐功能看起来比这更极端)。

但NVIDIA无疑希望其在云计算领域的影响力和令人印象深刻的人工智能研发工作将帮助其超越竞争对手。然而,真正的考验将是看看是否有老牌的视频会议公司真的采用了NVIDIA的技术。Maxine不是一个消费者平台,而是第三方公司改进自己软件的工具包。不过,到目前为止,NVIDIA只宣布了一项合作伙伴关系-与通信公司Avaya,后者将使用Maxine的精选功能。如下图所示,所有主要云供应商都将Maxine作为其NVIDIA GPU云服务的一部分提供。

在与记者的电话会议中,NVIDIA负责媒体和娱乐的总经理理查德·克里斯(Richard Kerris)将Maxine描述为一项“非常令人兴奋和非常及时的声明”,并强调其人工智能驱动的视频压缩是一项特别有用的功能。

Kerris说:“我们都经历过带宽在我们这些天每天进行的会议中受到限制的时候,”Kerris说,“我们都经历过带宽受到限制的时代,我们这些天每天都在进行会议。”“如果我们将人工智能应用到这个问题上,我们可以重建两端的不同场景,只传输需要传输的内容,从而大大减少带宽。”

NVIDIA表示,其压缩功能使用一种名为生成性对抗网络(Gans)的人工智能方法,在云中部分重建呼叫者的面部。这与许多深伪中使用的技术相同。该公司在一篇博客文章中表示:“人工智能软件不是流传输整个像素屏幕,而是分析每个人在通话中的关键脸部点,然后智能地重新制作另一边视频中的面部动画。”“这使得在互联网上来回流动的数据少得多的视频流成为可能。”

与以往一样,我们需要看到更多这项技术的实际应用,并等待NVIDIA达成的任何合作协议,然后才能知道这将对日常视频通话产生多大影响。但NVIDIA的声明表明,视频会议的未来将比以往任何时候都更加人工化,AI被用来拉直你的视线,甚至重建你的脸,所有这些都是以节省带宽的名义进行的。

更新10月5日美国东部时间下午4:11:更新包括Avaya正在使用Maxine的消息。