NVIDIA Research发明了一种使用人工智能在大幅降低视频通话带宽的同时提高质量的方法。
研究人员取得了显著的成果:通过用神经网络取代传统的H.264视频编解码器,他们成功地将视频呼叫所需的带宽减少了一个数量级。在一个示例中,所需的数据速率从97.28KB/帧下降到区区0.1165 KB/帧-减少到所需带宽的0.1%。
人工智能辅助视频会议背后的机制非常简单。这项技术的工作原理是用神经数据取代传统的全视频帧。通常,视频呼叫的工作方式是向接收方发送H.264编码的帧,而这些帧的数据非常繁重。对于人工智能辅助的视频呼叫,首先,发送方发送呼叫方的参考图像。然后,它不发送像素压缩的图像流,而是在眼睛、鼻子和嘴巴周围发送图像上的特定参考点。
接收器侧的生成性对抗性网络(或GAN,一种神经网络)然后使用与关键点组合的参考图像来重建后续图像。因为关键点比全像素图像小得多,所以发送的数据要少得多,因此互联网连接可能会慢得多,但仍能提供清晰和功能强大的视频聊天。
在研究人员最初的例子中,他们表明,使用传统方法和新的神经网络方法,快速的互联网连接产生的流质量几乎相同。但最令人印象深刻的是他们随后的例子,在这些例子中,使用传统方法的网速显示质量有相当大的下降,而神经网络能够产生极其清晰和无伪影的视频源。
即使受试者戴着口罩、眼镜、耳机或帽子,神经网络也可以工作。
有了这项技术,更多的人可以享受更多的功能,而使用的数据却少得惊人。
但技术使用案例并不止步于此:因为神经网络使用的是参考数据而不是完整的数据流,该技术将允许用户甚至改变相机角度,使其看起来就像是直接看着屏幕一样,即使他们没有这样做。这项技术被称为“自由观看”,可以让屏幕外有单独摄像头的人看起来与视频通话中的人保持眼神交流。
NVIDIA也可以对角色动画使用相同的方法。使用与原始提要不同的关键点,他们可以添加衣服、头发,甚至可以设置视频游戏角色的动画。
使用这种神经网络将对现代劳动力产生巨大的影响,不仅可以缓解网络的压力,还可以在远程工作时给用户更多的自由。然而,由于这项技术的工作方式,几乎可以肯定会有关于如何部署它的问题,并导致可能出现的“深度假货”问题,这些问题变得更可信,更难检测。