用于语音识别的降噪与应该使人类的语音“更难以理解”的降噪有何不同？

信号处理 | 2021-01-11 | 编程黑洞网 | 0条评论 | 363 人阅读

这是一个引起我一段时间兴趣的问题，主要是因为我自己正在为现有的语音识别系统进行降噪工作。

关于降噪技术的大多数论文似乎都集中在使语音对人类更清晰，或者如何改善诸如“语音质量”之类的模糊术语。

我敢肯定，使用这样的标准，您可以识别出可以使嘈杂的语音信号更容易被人听的滤波器。当试图评估已去噪的语音信号时，可以使用来改进语音识别系统的准确性。

我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关？是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度（例如，如果还给出了原始的干净语音）？还是唯一的方法来找出您的降噪技术有多强，在降噪后的数据上训练语音识别系统并查看其准确性？

如果有人能指点我，我会很高兴朝正确的方向发展，或者提供一些讨论此问题的论文。提前谢谢！

#1 楼

我真的没有找到讨论这种差异的论文。

关于这一主题的整本书都有：

稳健的自动语音识别第一版

语音清晰度和语音质量是否与语音识别系统的准确性相关？

通常，降噪通常不会以不可预测的方式破坏功能并降低语音识别准确性。

是否有客观的措施可以评估“好”，例如，是否还给出了原始的干净语音，则降噪后的语音信号将用于语音识别系统？还是唯一的方法来找出您的降噪技术有多好，在降噪后的数据上训练语音识别系统并查看其准确性？

第二。而且，基于特征的降噪实际上可以从频谱中完全删除重要信息，因此您无法修复干净系统的准确性。因此，现代方法是对嘈杂的数据执行多样式训练，而不是事先使用降噪算法。最终可以更准确地识别。

$ \ begingroup $
感谢您的回答。我想我不是在寻找合适的论文。我会看那本书。
$ \ endgroup $
– marlonfl
17年7月26日在12:11

$ \ begingroup $
好吧，如果您想要论文，可以查看CHIME-4挑战结果，主要是强大的ASR的技术水平。
$ \ endgroup $
– Nikolay Shmyrev
17年7月26日在14:01