特征提取以进行声音分类

我正在尝试从声音文件中提取特征并将声音分类为属于特定类别（例如：狗叫声，车辆引擎等）。我想在以下方面做一些澄清：

1）这样做完全可行吗？有些程序可以识别语音，并可以区分不同类型的狗吠。但是有可能有一个程序可以接收声音样本并只说出它是哪种声音吗？（假设有一个包含很多声音样本的数据库）。输入的声音样本可能有点嘈杂（麦克风输入）。

2）我假设第一步是音频特征提取。本文建议提取MFCC，并将其提供给机器学习算法。 MFCC是否足够？还有其他通常用于声音分类的功能吗？

谢谢您的时间。

#1 楼

从长远来看是可行的-扩展到什么程度？你会看见。对环境声分类的这项任务还没有很好的研究。机器学习范式的选择也很关键-统计方法还是二进制分类器？您可以从GMM，ANN和SVM开始-我选择GMM和ANN。。您可能还需要添加其他功能，例如MPEG-7描述符。必须执行适当的功能优化，因为有时您不需要太多功能，尤其是当它们不可分离时。有关更多信息，请参阅我以前的答案：

频谱特征提取
MFCC提取
声音检测

$ \ begingroup $
晚上我会扩大答案。
$ \ endgroup $
–jojek♦
2014年6月23日12:20在

$ \ begingroup $
还在等待扩展答案...
$ \ endgroup $
– ith
17年3月3日于12:45

$ \ begingroup $
晚上...
$ \ endgroup $
–jojek♦
17年3月3日于12:46

#2 楼

非语言音频（更不用说环境了）似乎是主流机器学习媒体类型（如图像，语音，文本）的弟弟。

要回答您的问题，是否可以训练网络来识别给定的声音？是的！但是出于所有相同的原因，很难学习机器学习。

但是，音频的真正缺点是什么，为什么我称它为图像和语音的小兄弟，是因为音频缺乏大规模的标签数据集。对于语音，有TIMIT，对于图像，有ImagenNet，CIFAR，Caltech；对于文本和自然语言处理，有大量的文学作品，等等。

据我所知，最大的两个非语言人类*标记的音频数据集是UrbanSounds和ESC-100数据集，对于真正的深度学习方法而言，它们太小了。在使用2层ConvNet的这些数据集上，有些公开的混合结果。

MFCC特征通常是语音识别和音频分析中公认的基线特征表示。但是还有大量其他音频功能表示！本文给出了音频特征类型的一个很好的分类法。

我最近看到的最令人兴奋的声音分类工作是由DeepMind的一些人（称为WaveNet）完成的。

#3 楼

这是10种类别的声音分类的解决方案：狗叫，汽车喇叭，儿童游戏等。它基于使用神经网络的张量流库。通过将声音片段转换为声谱图来提取特征

$ \ begingroup $
简单地链接不足以作为答案。
$ \ endgroup $
–吉尔斯
16-10-20在14:27

$ \ begingroup $
是的，请扩展该链接的内容。
$ \ endgroup $
– Peter K.♦
16-10-20在14:31

$ \ begingroup $
但是仍然感谢您的链接。
$ \ endgroup $
–凯文·马丁·何塞（Kevin Martin Jose）
16-10-24在9:26

$ \ begingroup $
实际上，我还试图了解更多有关链接中提供的教程中使用的技术的信息。我是计算机视觉和图像处理专家，所以我对声音信号的了解非常有限。当我有了更好的理解时，我将尝试详细说明答案。
$ \ endgroup $
– abggcv
16-10-24在17:31

#4 楼

是的，这是非常可行的。尽管神经网络在这种分类训练方面很出色，但是甚至没有必要-具有精选的功能集，仅经典聚类算法（例如高斯混合模型或主成分分析）也可能会做。现代图书馆大约95％或更多的时间可以正确使用这些内容。

编程黑洞网

特征提取以进行声音分类

#1 楼

评论

#2 楼

#3 楼

评论

#4 楼