傅里叶变换通常用于声音的频率分析。但是,在分析人类对声音的感知时,它具有一些缺点。例如,它的频点是线性的,而人耳却对数而不是线性地响应频率。

与傅立叶变换不同,小波变换可以修改不同频率范围的分辨率。小波变换的属性可以为较低的频率提供较大的时间支持,而为较高的频率保持较短的时间宽度。它可以应用于音乐转录并产生非常精确的结果,这是使用傅立叶变换技术无法实现的。它能够捕获每个重复音符和交替音符的短脉冲,每个音符都有清晰的开始和结束时间。

常量Q变换(与Morlet小波变换密切相关)也非常适合音乐数据。由于变换的输出有效地是幅度/相位相对于对数频率,因此有效覆盖一个给定范围所需的频谱仓更少,这在频率跨越几个倍频程时证明是有用的。

该变换显示出减少具有较高频率箱的频率分辨率,这对于听觉应用是理想的。它反映了人类的听觉系统,从而在较低的频率下频谱分辨率更好,而在较高的频率下时间分辨率提高了。

我的问题是:还有其他变换可以模仿人类的听觉系统吗?有没有人试图设计一种在解剖学/神经学上尽可能匹配人类听觉系统的变换?

例如,已知人耳对声音强度具有对数响应。还已知等响度轮廓不仅随强度变化,而且随频谱分量的频率间隔变化。即使总声压保持恒定,在许多关键频带中包含频谱分量的声音也会被感知到更大。

最后,人耳具有与频率相关的有限时间分辨率。也许这也可以考虑在内。

评论

您对“转换”施加任何数学限制吗?

感谢所有链接!

没有任何单一的变换可以充分模仿像人类听觉系统这样复杂的系统。现有的HAS模型使用复杂的信号处理架构,并进行多次转换,每个转换都为听力的另一个方面建模。可能是您要考虑逐个建模。

#1 楼

在设计此类转换时,应考虑到相互竞争的利益:


对人类听觉系统的忠诚度(随人而异),包括非线性甚至混乱的方面(耳鸣)
易于进行分析的数学公式
可以离散化或允许快速实现
存在合适的稳定逆函数

最近有两个最近的设计引起了我的注意:音频驱动的伽马通小波变换,信号处理,2014年


连续小波变换(CWT)提供良好的时间和频率定位的能力具有使其成为信号时频分析的流行工具。小波表现出恒定的Q
性质,
在外围听觉系统中也具有。基底膜滤器或
听觉滤器通常通过Gammatone函数建模,
为实验确定的响应提供良好的近似值。
从这些滤器派生的滤器组称为a /> Gammatone滤镜库。通常,小波分析可以比作
滤波器组分析,因此,标准小波分析和Gammatone滤波器组之间的有趣联系。但是,Gammatone
函数不能完全符合小波的要求,因为它的时间平均时间不为零。我们展示了如何利用Gammatone函数构造善意的小波
。我们分析诸如
可允许性,时间带宽乘积,消失矩等属性,这些属性在小波上下文中尤其相关。我们还说明了如何将建议的听觉小波作为线性常数不变的线性微分方程控制的线性位移不变系统的脉冲响应来产生。我们提出模拟电路
建议的CWT的实施。我们还演示了如何将
伽马通导出的小波用于瞬态信号的奇异性检测和
时频分析。


ERBlet变换:听觉ICASSP 2013的基于时间的时频表示方法,ICASSP 2013


本文描述了一种获得声音的感性动机和完全可逆的时频表示方法
/>信号。基于帧理论和最近的非平稳Gabor变换,制定了一种分辨率随频率变化的线性表示形式,并将其实现为非均匀滤波器组。
以匹配人类听觉时间。频率分辨率,变换
使用在心理声学“ ERB”频率尺度上等距间隔的高斯窗口。此外,转换具有适应性强的分辨率和冗余性。仿真表明,即使每个ERB使用一个滤波器,并且冗余度非常低(1.08),使用快速的迭代方法和预处理也可以实现完美的重建。与线性伽马内通滤波器组的比较表明,ERBlet很好地近似了听觉时频分辨率。


我还要提及:

本文提出了一种基于听觉的音频信号处理变换,WASPAA2009。


本文提出了一种基于听觉的变换。通过
分析过程,该变换将时域信号转换为一组滤波器组输出。滤波器组的频率响应和分布与耳蜗基底膜中的相似。信号处理可以在分解后的信号域中进行。通过合成过程,可以通过简单的计算将分解后的信号合成为原始信号。
此外,还针对正向和逆向变换提供了离散时间信号的快速算法。该转换已在
理论中得到批准,并在实验中得到了验证。给出了降噪应用的一个例子。所提出的变换对背景噪声和计算噪声具有鲁棒性,并且没有音高谐波。
派生的快速算法也可以用于计算连续
小波变换