我正在尝试检测和分类非语音声音。目前,我正在使用来自训练声音的一系列移动重叠功率谱作为我要寻找的功能。

分析时,我只是在计算相同数量的重叠谱,因此功能数量相同。现在的性能还不是很好,它只能检测静音与不静音。

这种信号检测有哪些技术?我担心的一个问题是,由于时域中不同长度的声音会导致特征向量的长度不同,因此我不能使用相同的分类器,因此我会坚持下去。

#1 楼

您是要检测语音还是非语音,还是要区分各种非语音声音?我不清楚您的问题。

我认为一种不错的第一种方法是将您的信号分成帧并计算梅尔频率倒谱系数(MFCC)以及增量MFCC (相邻帧的MFCC之间的差异)和Delta-delta MFCC(在相隔两帧的帧中MFCC之间的差异)。这不是唯一的方法,但是如果没有更具体的问题域知识,这可能是一个不错的起点。 MFCC(如果您还不熟悉的话)。基本上,您采用DFT,采用幅度,计算与人耳相对应的三角形窗口内的能量,采用这些系数的DCT(本质上是作为压缩步骤),然后丢弃高阶系数,通常只采用前十二个系数。我对这篇文章中DCT步骤的含义有一个解释:如何在MFCC提取过程中解释DCT步骤?

然后您可以说将这些系数用作SVM的特征。

#2 楼

我认为您通常会一直关注语音检测问题,这种问题一直存在,并且到现在为止,已经开发出了无数种方法来解决此问题。例如,看起来本文也使用了光谱技术,因此您可能要从这里开始。良好的旧Google搜索将返回许多结果,并提供论文和文章的链接。一种允许假设良好的语音噪声比(声音比环境噪声,音乐和其他不相关的内容响亮),另一种则不作这样的假设,而是尝试在非常嘈杂的信号中识别语音的存在(语音掩埋在噪声)。根据您要尝试的内容,您最终将看到非常不同的论文。也许,如果您稍微澄清一下您的问题并详细说明您正在使用的语音信号类型,则该站点可能会提供更多帮助。