1)这样做完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是有可能有一个程序可以接收声音样本并只说出它是哪种声音吗? (假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。
2)我假设第一步是音频特征提取。本文建议提取MFCC,并将其提供给机器学习算法。 MFCC是否足够?还有其他通常用于声音分类的功能吗?
谢谢您的时间。
#1 楼
从长远来看是可行的-扩展到什么程度?你会看见。对环境声分类的这项任务还没有很好的研究。机器学习范式的选择也很关键-统计方法还是二进制分类器?您可以从GMM,ANN和SVM开始-我选择GMM和ANN。 。您可能还需要添加其他功能,例如MPEG-7描述符。必须执行适当的功能优化,因为有时您不需要太多功能,尤其是当它们不可分离时。有关更多信息,请参阅我以前的答案:
频谱特征提取
MFCC提取
声音检测
#2 楼
非语言音频(更不用说环境了)似乎是主流机器学习媒体类型(如图像,语音,文本)的弟弟。要回答您的问题,是否可以训练网络来识别给定的声音?是的!但是出于所有相同的原因,很难学习机器学习。
但是,音频的真正缺点是什么,为什么我称它为图像和语音的小兄弟,是因为音频缺乏大规模的标签数据集。对于语音,有TIMIT,对于图像,有ImagenNet,CIFAR,Caltech;对于文本和自然语言处理,有大量的文学作品,等等。
据我所知,最大的两个非语言人类*标记的音频数据集是UrbanSounds和ESC-100数据集,对于真正的深度学习方法而言,它们太小了。在使用2层ConvNet的这些数据集上,有些公开的混合结果。
MFCC特征通常是语音识别和音频分析中公认的基线特征表示。但是还有大量其他音频功能表示!本文给出了音频特征类型的一个很好的分类法。
我最近看到的最令人兴奋的声音分类工作是由DeepMind的一些人(称为WaveNet)完成的。
#3 楼
这是10种类别的声音分类的解决方案:狗叫,汽车喇叭,儿童游戏等。它基于使用神经网络的张量流库。通过将声音片段转换为声谱图来提取特征评论
$ \ begingroup $
简单地链接不足以作为答案。
$ \ endgroup $
–吉尔斯
16-10-20在14:27
$ \ begingroup $
是的,请扩展该链接的内容。
$ \ endgroup $
– Peter K.♦
16-10-20在14:31
$ \ begingroup $
但是仍然感谢您的链接。
$ \ endgroup $
–凯文·马丁·何塞(Kevin Martin Jose)
16-10-24在9:26
$ \ begingroup $
实际上,我还试图了解更多有关链接中提供的教程中使用的技术的信息。我是计算机视觉和图像处理专家,所以我对声音信号的了解非常有限。当我有了更好的理解时,我将尝试详细说明答案。
$ \ endgroup $
– abggcv
16-10-24在17:31
评论
$ \ begingroup $
晚上我会扩大答案。
$ \ endgroup $
–jojek♦
2014年6月23日12:20在
$ \ begingroup $
还在等待扩展答案...
$ \ endgroup $
– ith
17年3月3日于12:45
$ \ begingroup $
晚上...
$ \ endgroup $
–jojek♦
17年3月3日于12:46