分析时,我只是在计算相同数量的重叠谱,因此功能数量相同。现在的性能还不是很好,它只能检测静音与不静音。
这种信号检测有哪些技术?我担心的一个问题是,由于时域中不同长度的声音会导致特征向量的长度不同,因此我不能使用相同的分类器,因此我会坚持下去。
#1 楼
您是要检测语音还是非语音,还是要区分各种非语音声音?我不清楚您的问题。我认为一种不错的第一种方法是将您的信号分成帧并计算梅尔频率倒谱系数(MFCC)以及增量MFCC (相邻帧的MFCC之间的差异)和Delta-delta MFCC(在相隔两帧的帧中MFCC之间的差异)。这不是唯一的方法,但是如果没有更具体的问题域知识,这可能是一个不错的起点。 MFCC(如果您还不熟悉的话)。基本上,您采用DFT,采用幅度,计算与人耳相对应的三角形窗口内的能量,采用这些系数的DCT(本质上是作为压缩步骤),然后丢弃高阶系数,通常只采用前十二个系数。我对这篇文章中DCT步骤的含义有一个解释:如何在MFCC提取过程中解释DCT步骤?
然后您可以说将这些系数用作SVM的特征。