PCM——电脑坏了

2022-02-20 17:25:22

我开始写一篇关于媒体容器格式的帖子,然后我解释了MPEG基本流是如何';t在一个容器中,但仍然具有容器的大部分功能,并且很难回到主题,直到我决定我应该从更基本的东西开始。所以让我们';让我们来谈谈表面上基本的音频格式PCM。

PCM代表脉冲编码调制,从根本上说,它是模拟数据数字化的基本技术。PCM是如此明显,以至于解释它几乎有点愚蠢,但这里是这样的:给定一个模拟信号,在正则区间测量信号的振幅,并量化到接近可表示数(换句话说,四舍五入)。结果是";PCM信号";就是这个数字序列。如果你还记得大学数据通信中的奈奎斯特和香农,你可能会意识到这个过程中最重要的考虑是采样频率必须是待数字化信号中最高频率分量的两倍。

例如,在电话网络中,PCM编码以8kHz的频率执行。这可能看起来低得出奇,但语音频率在3kHz以上,所以8kHz PCM代表的高达4kHz的频率对于可理解的语音来说是完全足够的。不过,它对音乐并不特别友好,这也是古老音乐的一部分。因此,在音乐和普通数字音频中,由于CD的采样率为44.1kHz,因此传统的采样率为44.1kHz。可听频率通常被定义为";高达20kHz和#34;虽然很少有人能真正听到这么高的声音(我自己的听力在14kHz时下降,这是年龄和青少年接触numetal的综合结果)。这意味着采样率为40kHz;CD使用44.1kHz的原因基本上是因为他们想要更高的舒适度,而44.1kHz是他们在当时的设备上可以轻松达到的最高频率。换句话说,有';没有特别的原因,但它';这是一个持久的标准。

PCM编码中的另一个重要考虑因素是采样可能获取的离散值的数量。这通常表示为代表每个样本的可用位数,称为";钻头深度" 例如,位深度为8允许每个样本有255个值中的一个,我们可以标记为127到128。位深度很重要,因为它限制了信号的动态范围。简单地说,动态范围是振幅的最大可能变化,或者是音量和音量之间的最大可能变化。在模拟和数字系统中,处理大的动态范围可能非常困难,因为电子和算法都难以处理跨越多个数量级的值。

在PCM编码中,比特深度对结果比特率有很大影响。CD上使用的16位音频的动态范围比8位音频大得多,但代价是比特率翻倍。动态范围在音乐中很重要,但在语音中也出人意料地重要,8的深度实际上不足以重现易于理解的语音。

然而,由于技术限制,人们选择了8kHz和8位样本进行电话通话。那么,语音是如何通过8位PCM传输的呢?

我们需要谈谈压缩和压缩的主题。这里可能会有一些困惑,因为";压缩#34;通常用于计算中,参考降低数据比特率的方法。然而,在音频工程中,压缩指的是减少音频动态范围的技术,通过使更安静的声音越来越大,直到声音趋于固定音量。像其他一些作家一样,我将使用";动态压缩";当提到音频技术时,避免混淆。出于实践和审美的原因(更不用说,可以说是愚蠢的原因),某种程度的动态压缩应用于我们收听的大多数类型的音频。

压扩是一种压缩和扩展的方法,用于将宽动态范围的信号打包到动态范围较小的信道中。顾名思义,压扩基本上包括对信号进行压缩、传输,然后对其进行扩展。然而,考虑到信号在压缩时失去了动态范围,该信号如何扩展?诀窍在于压扩器的两侧都是非线性的,压缩的声音比压缩的声音大。这很有效,因为在实践中,许多类型的音频显示振幅的非线性分布。例如,在语音的情况下,在低音量水平下可以发现更多的细节,但为了获得良好的清晰度,必须保留偶尔出现的峰值。

实际上,压扩非常常用于PCM,因此压扩器被认为是PCM编码的一部分。到目前为止,当我描述PCM时,我一直在描述线性PCM或LPCM。LPCM将每个样本与一组均匀分布的离散值进行匹配。许多实际的PCM系统使用某种形式的非线性PCM,其中可能的采样值是对数分布的。这使得压缩成为PCM本身的一部分,因为编码器有效地压缩,解码器有效地扩展。一种说明这一点的方法是考虑如果使用非线性PCM编码器数字化音频然后使用线性PCM解码器播放它会发生什么:它会被声音压缩,而安静的组件移动到更高的值或更大的范围。

压缩确实会导致失真,但它';这是一个对语音(或在许多情况下甚至对音乐)来说不太容易察觉的问题,它在比特深度上带来了显著的节省。压扩在语音编码中无处不在。

一件奇怪的事你';ll run with PCM是µ-law PCM和A-law PCM之间的区别。在电话世界中,电话呼叫通常被编码为未压缩的8kHz、8位PCM,导致64kbps比特率成为电信系统的基本带宽单位。考虑到未压缩PCM的简单性,许多电话系统(如VoIPsoftware)希望您从两个不同的#34;版本";PCM的。电话PCM的秘密在于,压扩被视为PCM编解码器的一部分,出于历史原因,有两种常用算法正在使用。实际差异是用于压扩的函数或曲线,或者换句话说,非线性的确切性质。在美国和日本(由于二战历史的原因,日本的电话系统与美国非常相似),被称为µ-law的曲线被普遍使用。在欧洲和世界大多数其他地方,使用了一种稍有不同的曲线,称为a定律。在实践中,两者之间的差异并不是特别显著,而是';s很难将其中一种称为优于另一种,因为两者都只是对量化误差的动态范围进行了略微不同的权衡(A-定律是一种具有更大动态范围和更大可能失真的选项)。

压扩技术很少应用于音乐和一般多媒体应用中。了解这一点的一种方法是了解不同音频编解码器的专业化:µ-law PCM和A-law PCM都是所谓的语音编解码器的简单示例,Speex和Opus是更复杂的示例,它们使用有损压缩技术进一步降低比特率(或在64kbps时获得更好的保真度)。语音编解码器专门用于语音目的,因此对语音进行假设,包括狭窄的频率范围和特定的时间特性。通过语音编解码器传送的音乐往往会变得绝对不可收听,尤其是对于有损语音编解码器,GSM手机上的音乐令人痛苦地说明了这一点。

在多媒体音频系统中,我们不得不使用通用音频编解码器,其中大多数是围绕音乐设计的。压扩是一种有效的aspeech编码技术,被排除在这些音频系统之外。PCM仍然被广泛使用,但一般认为音频PCM意味着线性PCM。

如前所述,PCM音频最常见的约定是16位44.1kHz。这就是CD使用的格式,它有效地将数字音频引入了消费市场。在专业市场,数字音频有着较长的历史,48kHz也被广泛使用。。。然而,你可能仅仅通过数学嗅觉就知道,从48kHz到44.1kHz的转换是一个失真问题,因为两个采样率的公共倍数非常大。在consumeraudio中越来越常用的采样率是96kHz和#34;高分辨率音频";通常指96kHz和24位深度。

关于96kHz采样是否真的是个好主意,存在一些争论。记住我们的奈奎斯特·香农(Nyquist Shannon),请注意,我们从44.1kHz到96kHz采样的切换中获得的所有额外保真度都超出了即使是最好的人耳也能检测到的范围。在实践中,96kHz的更大优势可能是它是专业设备经常使用的48kHz的偶数倍,因此消除了采样率转换的影响。另一方面,有理由相信,真实音频再现系统的实用性(即扬声器的物理特性,其设计用于再现音频)导致96kHz采样保存的高频分量在较低的音频频率下变成失真。。。与直觉相反的结果是,96kHz采样实际上可能会降低主观音频质量,而这是通过真实的放大器和扬声器产生的。在任何情况下,更改为24位采样肯定是有用的,因为它提供了更大的动态范围。不幸的是,就像";HDR和#34;视频(这是相同的概念,更大的采样深度可以获得更大的动态范围),大多数真实音频是16位的,而通过24位音频链进行回放需要不需要';通常不会产生失真,但会暴露软件和设备中令人恼火的错误。幸运的是,主观伽马的问题,这使得非HDR视频到HDR显示设备的缩放异常复杂,在音频的情况下远没有那么重要。

PCM音频,无论以何种比特率和比特深度,由于其大小,不常以文件的形式出现。也就是说,";WAV和#34;文件格式是一种简单的PCM编码,存储在更复杂的容器中。PCM通常用作设备或系统逻辑组件之间的传输。例如,如果您使用USB音频设备,则计算机正在向该设备发送aPCM流。不幸的是,蓝牙无法为多媒体质量的PCM提供足够的带宽,因此我们现在无处不在的蓝牙音频设备必须使用某种形式的压缩。PCM传输的一个不太常见但清晰的例子是S/PDIF,这是一种常见的消费数字音频传输,可以通过同轴或光纤电缆传输两个44.1或48kHz 16位PCM信道。

你可能想知道这与当今最常见的消费数字音频传输HDMI有什么关系。HDMI是一系列令人困惑的新视频标准之一,这些标准是作为模拟VGA的替代品开发的,但HDMI更多地起源于市场的消费者a/V部分(通常是日本的怀疑),因此与电视的关联性比(计算机行业支持的)显示端口标准更大。全面治疗HDMI';它的许多功能和缺点都是它自己的,但它';值得一提的是音频频道。

HDMI通过在"期间与数字视频信号交错来承载前向(主,非返回)音频通道;垂直消隐间隔";这一概念源于CRT显示器的机械操作,但仍然是利用视频通道中多余带宽的一种有效方法。垂直消隐这一术语现在有些过时,但其基本思想是传输帧所需的时间比显示帧所需的时间少,因此传输每帧之间的空闲时间可用于传输数据。HDMI规格允许最多8个通道的24位PCM,采样率高达192kHz——尽管设备只需要支持2个通道的立体声。

尽管有这种功能,但在HDMI连接上通常看不到8通道(通常在A/Vparlance中是7.1和34通道)音频。电影和电视节目通常以压缩格式分发多声道音频,该格式设计用于S/PDIF,最常见的是杜比数字和DTS(Xperi)。实际上,只要终端设备支持,HDMI音频通道基本上可以移动任何格式。这可能会导致实践中的一些复杂性,例如,当播放一张带有7.1通道DTS音频的蓝光光盘时,该音频来自一个通用操作系统,该操作系统通常输出PCM立体声。立体声接收机等高端HDMID设备必须支持对一系列音频格式的自动检测,而媒体设备必须能够输出各种格式,并在运行期间经常在它们之间切换。

在HDMI上,在垂直空白区间插入音频的实用性要求将音频数据打包,或分成块,以便将其划分为VBI,然后在接收设备上重新组装成连续流。打包音频和/或视频数据的概念实际上在媒体格式领域非常常见,打包是实现多个独立流灵活复用的一种简单方法。这个承诺,即我们将要讨论的数据包,现在似乎是一个好地方。包是我最喜欢的东西!

稍后在电脑上。rip:MPEG。不是关于压缩,而是关于MPEG媒体的物理表示,如基本流、传输流和容器。随着流媒体成为一种非常常见的软件应用程序,这些都是越来越重要的话题。。。加上它';这很有趣,有助于解释糟糕的Hulu电视应用程序的真实行为。

简要说明:如果你想知道,PCM被称为DPCM是没有充分理由的。解释似乎只是因为它是与PWM和PPM一起开发的,所以PCM这个名字提供了一种令人愉悦的对称性。它';但是,除此之外,很难让这个词有多大意义";代码";在电话行业中经常被用来指代数字频道。