LPC背后的理论是什么?
为什么(某些)LPC实施比其他压缩语音编码方案更能容忍传输或编码错误量化?
LPC方法也可以用于卡尔曼滤波方法的平滑或短期“预测”吗?
在什么条件或约束下使用LPC才有效?


评论

“为什么说LPC比其他压缩语音编码方案更能容忍传输或编码错误?”谁说的?我不太了解LPC,但我认为这与减少冗余有关,这会产生相反的效果。

这个问题是在错误的前提下产生的误导。请关闭并更正此问题。

这里有多个问题和前提。您认为需要修理哪些?

为什么说(为什么)LPC的某些实现比其他压缩语音编码方案更能容忍传输或编码错误量化?是相当错误的。您能否引用任何专门说明比其他方法更好的参考文献?

这实际上是我的问题。我在某个地方听说过,但不知道为什么这么说。

#1 楼

首先,说线性预测编码(LPC)“更能容忍传输或编码错误”并不是完全正确的。传输系数的形式有很大的不同。例如,如果求解线性预测系数,则它们可能对量化非常敏感,就像高阶IIR滤波器系数一样(这是因为合成滤波器将是IIR,但稍后会更多)。但是,如果以其他形式传输它们,则可以轻松解决此问题。

一种方法是传递反射系数。如果递归求解第k阶线性预测滤波器,则每个阶段的最高阶系数称为反射系数。这些可以一起使用以完全表征系统(可以从Levinson递归中轻松看出)。实际上,您可以将它们全部一起使用以形成晶格滤波器。这些滤波器通常在需要量化的情况下使用,因为它们对低位数的鲁棒性更高。此外,如果这些反射系数的大小受单位限制,则可以确保使用BIBO稳定滤波器,这对于LPC至关重要,在LPC中,该滤波器用于合成信号。还有其他常用的方法,例如线谱对,但不像LPC的AR建模那样直观地定义为反射系数。

现在,要解决第一个问题,即LPC的理论围绕声道建模。本质上,我们将语音建模为空气振动,作为某种结构的管子的输入。您可以查找一些更详细的资源来充实此模型(管的长度,空气强度,结构等)。这些资源将这些结构直接与响应各种刺激(例如白噪声)的IIR滤波器相关。

因此,当我们求解线性预测系数时,我们正在寻找系数,这样,如果我们将信号(例如语音)输入到由系数创建的FIR滤波器中,就会得到白噪声作为输出。因此,请考虑这意味着什么。我们正在输入高度相关的信号,并输出白噪声序列。因此,实际上,我们正在删除该信号的所有线性相关性。另一种看待这种情况的方式是,所有有意义的信息都包含在消除此线性相关性的系数中。因此,我们可以传递这些系数(或如上所述的某种形式),并且接收端可以重新创建信号。这是通过反转线性预测FIR滤波器以创建IIR滤波器并输入白噪声来完成的。因此,压缩来自消除此线性相关性并传递系数。这就是为什么Burg方法有时也称为最大熵方法的原因,因为它旨在最大化线性预测滤波器中输出噪声的“随机性”或白度。在物理建模之外,另一种看待此问题的方法是,人声频谱(除了嘶嘶声之类的清脆声音除外)往往非常冲动,使其成为AR建模的极佳候选者。

您的最后一个问题,我不确定您是在问什么。 LPC或线性预测编码的意思是“压缩”信号,前提是该信号可以如前所述进行有效建模。您肯定可以使用线性预测来进行“短期预测”。这是用于功率谱密度估计的高分辨率AR方法背后的隐含基础。自相关序列可以从有限数据记录的有限形式递归扩展为无窗序列的理论自相关序列。这也是为什么PSD估计的AR方法不显示旁瓣现象的原因。

评论


$ \ begingroup $
“ LPC的理论围绕声道建模”是否总是这样? FLAC在一般音频波形上使用LPC,而不仅仅是语音。
$ \ endgroup $
– Endolith
2012年5月23日在3:09



$ \ begingroup $
道歉,我最初是通过将声带作为物理模型的类比而学习的。正如我所说,在某些地方他们更深入地研究了这一点。但是您是正确的,LPC适用于通用音频波形。正如我所提到的,它在任何脉冲频谱上都能很好地工作。结果是,它在频谱冲击较小的噪声信号上效果不佳(这是因为噪声信号可以更好地建模为ARMA流程)。
$ \ endgroup $
–布莱恩(Bryan)
2012年5月23日,下午3:53