我正在尝试从声音文件中提取特征并将声音分类为属于特定类别(例如:狗叫声,车辆引擎等)。我想在以下方面做一些澄清:

1)这样做完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是有可能有一个程序可以接收声音样本并只说出它是哪种声音吗? (假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。

2)我假设第一步是音频特征提取。本文建议提取MFCC,并将其提供给机器学习算法。 MFCC是否足够?还有其他通常用于声音分类的功能吗?

谢谢您的时间。

#1 楼


从长远来看是可行的-扩展到什么程度?你会看见。对环境声分类的这项任务还没有很好的研究。机器学习范式的选择也很关键-统计方法还是二进制分类器?您可以从GMM,ANN和SVM开始-我选择GMM和ANN。 。您可能还需要添加其他功能,例如MPEG-7描述符。必须执行适当的功能优化,因为有时您不需要太多功能,尤其是当它们不可分离时。有关更多信息,请参阅我以前的答案:


频谱特征提取
MFCC提取
声音检测


评论


$ \ begingroup $
晚上我会扩大答案。
$ \ endgroup $
–jojek♦
2014年6月23日12:20在

$ \ begingroup $
还在等待扩展答案...
$ \ endgroup $
– ith
17年3月3日于12:45

$ \ begingroup $
晚上...
$ \ endgroup $
–jojek♦
17年3月3日于12:46

#2 楼

非语言音频(更不用说环境了)似乎是主流机器学习媒体类型(如图像,语音,文本)的弟弟。

要回答您的问题,是否可以训练网络来识别给定的声音?是的!但是出于所有相同的原因,很难学习机器学习。

但是,音频的真正缺点是什么,为什么我称它为图像和语音的小兄弟,是因为音频缺乏大规模的标签数据集。对于语音,有TIMIT,对于图像,有ImagenNet,CIFAR,Caltech;对于文本和自然语言处理,有大量的文学作品,等等。

据我所知,最大的两个非语言人类*标记的音频数据集是UrbanSounds和ESC-100数据集,对于真正的深度学习方法而言,它们太小了。在使用2层ConvNet的这些数据集上,有些公开的混合结果。

MFCC特征通常是语音识别和音频分析中公认的基线特征表示。但是还有大量其他音频功能表示!本文给出了音频特征类型的一个很好的分类法。

我最近看到的最令人兴奋的声音分类工作是由DeepMind的一些人(称为WaveNet)完成的。

#3 楼

这是10种类别的声音分类的解决方案:狗叫,汽车喇叭,儿童游戏等。它基于使用神经网络的张量流库。通过将声音片段转换为声谱图来提取特征

评论


$ \ begingroup $
简单地链接不足以作为答案。
$ \ endgroup $
–吉尔斯
16-10-20在14:27

$ \ begingroup $
是的,请扩展该链接的内容。
$ \ endgroup $
– Peter K.♦
16-10-20在14:31

$ \ begingroup $
但是仍然感谢您的链接。
$ \ endgroup $
–凯文·马丁·何塞(Kevin Martin Jose)
16-10-24在9:26

$ \ begingroup $
实际上,我还试图了解更多有关链接中提供的教程中使用的技术的信息。我是计算机视觉和图像处理专家,所以我对声音信号的了解非常有限。当我有了更好的理解时,我将尝试详细说明答案。
$ \ endgroup $
– abggcv
16-10-24在17:31

#4 楼

是的,这是非常可行的。尽管神经网络在这种分类训练方面很出色,但是甚至没有必要-具有精选的功能集,仅经典聚类算法(例如高斯混合模型或主成分分析)也可能会做。现代图书馆大约95%或更多的时间可以正确使用这些内容。