在大多数音频处理任务中,最常用的转换之一是MFCC(梅尔频率倒谱系数)。缩放。

我没有得到的是DCT(离散余弦变换)步骤:在此步骤中我可以获得什么信息?此步骤的视觉效果是什么?

评论

我将对MFCC或至少一个链接进行简要说明:en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient

#1 楼

您可以将DCT视为压缩步骤。通常,对于MFCC,您将采用DCT,然后仅保留前几个系数。这与将DCT用于JPEG压缩基本上是相同的原因。选择DCT是因为它们的边界条件在这些类型的信号上效果更好。

让我们将DCT与傅立叶变换进行对比。傅里叶变换由具有整数个周期的正弦曲线组成。这意味着,所有傅立叶基函数都以相同的值开始和结束-它们不能很好地表示以不同值开始和结束的信号。请记住,傅立叶变换假设有一个周期性扩展:如果您想象一张纸上的信号,则傅立叶变换希望将那张纸卷成圆柱体,使左右两侧相遇。频谱的形状大致像一条具有负斜率的线(这很典型)。傅立叶变换将不得不使用许多不同的系数来适应这种形状。另一方面,DCT的余弦的周期数为半整数。例如,有一个DCT基函数,看起来像那条带有负斜率的线。它不假设周期延长(而是均匀延长),因此会更好地拟合该形状。一旦计算出梅尔频谱,就可以以类似于人类听力工作方式的方式来表示敏感频谱。这种形状的某些方面比其他方面更相关。通常,更大的总体频谱形状比频谱中嘈杂的精细细节更重要。您可以想象画一条平滑的线来遵循频谱形状,而画出的平滑线可能会告诉您有关信号的信息。

当您使用DCT并丢弃较高的系数时,您将采用此频谱形状,并且仅保留对于表示此平滑形状更重要的部分。如果您使用傅立叶变换,那么将重要信息保持在低系数中就做得不好。低阶系数将代表频谱形状的一些简单方面,因此它们将具有良好的功能,而您舍弃的高阶系数更像噪声,并且在训练上并不重要。此外,对梅尔光谱幅值本身进行训练可能不会那么好,因为在不同频率处的特定幅度并不像光谱的一般形状那么重要。

评论


$ \ begingroup $
也有兴趣阅读有关相关问题的答案。
$ \ endgroup $
–埃里克·普拉顿
16年5月10日在2:39

#2 楼

理解MFCC的关键是在链接的文章中的句子开头:


它们是从音频剪辑的倒谱表示中派生出来的...


MFCC就像是对数频谱频谱的倒频谱。

信号$ x(t)$的倒频谱就是:

$$ C(z)= {\ cal F} ^ {-1}(\ log(| {\ cal F}(x(t))| ^ 2)$$

其中$ {\ cal F} $是傅立叶变换,而$ {\ cal F} ^ {-1} $是其逆函数。操作意味着原始信号的卷积在倒频谱中显示为简单的加法运算。

这种优势可以延续到MFCC中,尽管提升并不像在标准倒频谱中那样直接。 br /> MFCC的不同之处在于,使用离散余弦变换(DCT)作为最终变换而不是傅里叶逆变换。结果系数是实数值,这使得后续处理和存储更加容易。