如何将电话音频分为静音/非静音？

信号处理 | 2021-01-15 | 编程黑洞网 | 0条评论 | 1066 人阅读

我的问题是我不知道背景噪声的能量，所以我不能仅仅限制能量。处理是实时完成的，我有大约500毫秒的时间来决定。
理想情况下，我希望安静的辅音被认为是非静音的。

我没有足够的信息来提供完整的答案，但是您的问题被称为语音活动检测。并没有达成共识的最佳方法，而且如果您看的话，可能会遇到许多不同的方法。也许其他一些可以充实它。

@Michael Litvin，有一类非线性滤波器（在“能量检测”中使用，名称为“ Teager-Kaiser”。我认为它是所谓的“ voltera内核”的子集。抱歉，我无法提供任何更多信息，但是如果您搜索这些单词，您可能会找到所需的信息。我知道，Teager-Kaiser方法用于“何时”鲸鱼的声音相对于背景噪声才开始。

#1 楼

您可以查看很多参数：

总体能量
短期频谱：语音具有相当独特的“粉红色”频谱和噪声（这是如果是电主导的，则发生在非语音部分）趋于白色；如果是声学背景噪声或传声器噪声，则趋向于“红色”（即低频沉重）。幅值统计。大多数噪声信号具有高斯分布，语音更接近拉普拉斯分布。

我认为，这三种信号的组合应能提供相当鲁棒的检测方案。