这是一个引起我一段时间兴趣的问题,主要是因为我自己正在为现有的语音识别系统进行降噪工作。

关于降噪技术的大多数论文似乎都集中在使语音对人类更清晰,或者如何改善诸如“语音质量”之类的模糊术语。

我敢肯定,使用这样的标准,您可以识别出可以使嘈杂的语音信号更容易被人听的滤波器。当试图评估已去噪的语音信号时,可以使用来改进语音识别系统的准确性。

我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多强,在降噪后的数据上训练语音识别系统并查看其准确性?

如果有人能指点我,我会很高兴朝正确的方向发展,或者提供一些讨论此问题的论文。提前谢谢!

#1 楼


我真的没有找到讨论这种差异的论文。


关于这一主题的整本书都有:

稳健的自动语音识别第一版


语音清晰度和语音质量是否与语音识别系统的准确性相关?


通常,降噪通常不会以不可预测的方式破坏功能并降低语音识别准确性。


是否有客观的措施可以评估“好”,例如,是否还给出了原始的干净语音,则降噪后的语音信号将用于语音识别系统?还是唯一的方法来找出您的降噪技术有多好,在降噪后的数据上训练语音识别系统并查看其准确性?


第二。而且,基于特征的降噪实际上可以从频谱中完全删除重要信息,因此您无法修复干净系统的准确性。因此,现代方法是对嘈杂的数据执行多样式训练,而不是事先使用降噪算法。最终可以更准确地识别。

评论


$ \ begingroup $
感谢您的回答。我想我不是在寻找合适的论文。我会看那本书。
$ \ endgroup $
– marlonfl
17年7月26日在12:11

$ \ begingroup $
好吧,如果您想要论文,可以查看CHIME-4挑战结果,主要是强大的ASR的技术水平。
$ \ endgroup $
– Nikolay Shmyrev
17年7月26日在14:01