我的问题是我不知道背景噪声的能量,所以我不能仅仅限制能量。处理是实时完成的,我有大约500毫秒的时间来决定。
理想情况下,我希望安静的辅音被认为是非静音的。

评论

我没有足够的信息来提供完整的答案,但是您的问题被称为语音活动检测。并没有达成共识的最佳方法,而且如果您看的话,可能会遇到许多不同的方法。也许其他一些可以充实它。

@Michael Litvin,有一类非线性滤波器(在“能量检测”中使用,名称为“ Teager-Kaiser”。我认为它是所谓的“ voltera内核”的子集。抱歉,我无法提供任何更多信息,但是如果您搜索这些单词,您可能会找到所需的信息。我知道,Teager-Kaiser方法用于“何时”鲸鱼的声音相对于背景噪声才开始。

#1 楼

您可以查看很多参数:


总体能量
短期频谱:语音具有相当独特的“粉红色”频谱和噪声(这是如果是电主导的,则发生在非语音部分)趋于白色;如果是声学背景噪声或传声器噪声,则趋向于“红色”(即低频沉重)。幅值统计。大多数噪声信号具有高斯分布,语音更接近拉普拉斯分布。

我认为,这三种信号的组合应能提供相当鲁棒的检测方案。