谁能解释倒谱均值归一化,卷积的等效性如何影响它?是否必须在基于MFCC的说话人识别中执行CMN?为什么卷积的属性是MFCC的基本需求?

我对这种信号处理非常陌生。请帮助

评论

可以在不使用滤波器组的情况下将频率直接转换为melscale在MFCC过程中工作吗?

#1 楼

只是为了弄清楚-此属性不是基础,而是重要。在使用DCT代替DFT进行频谱计算时,这是根本的区别。

为什么要进行倒谱均值归一化

在说话人识别中,我们要消除任何声道效果(声道的冲激响应,音频路径,房间等)。假设输入信号为$ x [n] $且信道脉冲响应由$ h [n] $给出,则记录的信号为两者的线性卷积:

$$ y [n] = x [n] \ star h [n] $$

通过傅立叶变换,我们得到:

$$ Y [f] = X [f] \ cdot H [ f] $$

,因为FT的卷积乘法等价特性-这就是为什么它在此步骤中具有如此重要的FFT的原因。取频谱的对数:

$$ Y [q] = \ log Y [f] = \ log \ left(X [f] \ cdot H [f] \ right)= X [q ] + H [q] $$

,因为:$ \ log(ab)= \ log a + \ log b $。显然,$ q $是货币。可能会注意到,通过在时域中进行卷积倒谱,我们最终在倒谱(querency)域中进行了加法运算。

什么是倒谱均值归一化?

现在我们知道,在倒频谱域中,任何卷积失真都由加法表示。我们假设它们都是固定的(这是一个很强的假设,因为声道和声道的响应没有改变),并且固定的语音部分可以忽略不计。我们可以观察到,对于第i个帧,真实值为:

$$ Y_i [q] = H [q] + X_i [q] $$

我们得到所有帧的平均值

$$ \ dfrac {1} {N} \ sum_ {i} Y_i [q] = H [q] + \ dfrac {1} {N} \ sum_ { i} X_i [q] $$

定义差异:

$$ \ begin {array}
&R_i [q]&= Y_i [q]- \ dfrac {1} {N} \ sum_ {j} Y_j [q] \\
&= H [q] + X_i [q]-\ left(H [q] + \ dfrac {1} {N } \ sum_ {j} X_j [q] \ right)\\
&= X_i [q]-\ dfrac {1} {N} \ sum_ {j} X_j [q] \\
\结束{array} $$

最后,我们去除了通道失真的信号。将以上所有方程式简化为英语:


计算倒频谱
从每个系数中减去平均值
除以方差,还可以选择除以方差以执行倒谱均值归一化。

是否必须进行倒谱均值归一化?

不是强制性的,尤其是当您试图在单个环境中识别一位讲话者时。实际上,它甚至会恶化您的结果,因为附加噪声容易导致错误:

$$ y [n] = x [n] \ star h [n] + w [n] $$

$$ Y [f] = X [f] \ cdot H [f] + W [f] $$

$$ \ log Y [f] = \ log \ left [X [f] \ left(H [f] + \ dfrac {W [f]} {X [f]} \ right)\ right] = \ log X [f] + \ log \ left (H [f] + \ color {red} {\ dfrac {W [f]} {X [f]}} \ right)$$

在较差的SNR条件下,标记项可能会超过估计值。

尽管执行CMS,通常可以获得很少的额外收益。如果您从系数的导数中获得更高的性能提升,那么您的识别率就会真正提高。最终决定权取决于您,尤其是还有很多其他方法可用于改善语音识别系统。

评论


$ \ begingroup $
@mun:很高兴。为什么不将对问题的答案标记为已接受,这样就可以消除新用户限制?
$ \ endgroup $
–jojek♦
2014年12月10日上午11:12

$ \ begingroup $
@mun:恭喜!现在,您发布更多链接,对问题和答案+标记帖子投票。
$ \ endgroup $
–jojek♦
2014年12月10日上午11:17

$ \ begingroup $
@jojek ..我对所有这些都是新手。但很高兴我解决了我的问题。
$ \ endgroup $
–mun
2014年12月10日上午11:19

$ \ begingroup $
@mun:那我绝对建议您快速浏览
$ \ endgroup $
–jojek♦
2014-12-10 11:28

$ \ begingroup $
在最后一个答案中,我无法真正理解“从系数导数中获得的性能提升”。你能给一些简单的解释吗?非常感谢
$ \ endgroup $
–王帅
15年8月13日在8:03