我想开始学习音频信号处理。在线上有很多书籍和学术论文,所有这些似乎都忽略了该主题的基础。

我已经读过微积分是开始进行信号分析之前的第一步。

在我看来,音频信号分析只是所需的全部知识的一部分。其他主题包括音乐理论,音频工程和程序设计。

评论

我同意微积分的背景(至少是)对于您有机会理解信号和系统理论课文或课程中可能遇到的数学将非常重要。我会确保你先在那儿sn一息。

这些幻灯片可能会有所帮助。它们使您了解了音频处理和音频编程的一些非数学/工程基础知识。 blog.bjornroche.com/2011/11/…

#1 楼

我建议看看Julius O. Smith III教授的物理音频信号处理。它可以在线购买,也可以通过亚马逊的按需印刷服务购买。

尤其值得一读的是《图书系列概述》中的描述。



#2 楼

我认为,在没有先了解基本音频是什么以及数字音频表示的各种方式是什么之前,没有必要深入探讨DFT / FFT / IIR / FIR和小波的复杂性。一般是音频(在空气中,而不是在水或其他材料中):


音频由声压波组成
它们会导致空气压缩和稀疏
这些波从声源的点向外传播。
波彼此干扰,导致出现波峰和波谷
波可以被材料吸收和反射

如何用声音表示音频:


麦克风和前置放大器将声压波转换为电信号
典型地,该信号同时具有正电压和负电压(如交流电压)磁带会在出现时存储这些差异,因此当输入信号的强度等于信号强度的极限时,术语“饱和”就会发生系统(电压的任何增加都无法准确表示)
当输入信号高于系统所能表示的范围时,会发生削波,因此信号会被削波(或四肢限制)

如何用数字表示音频? br />此时间段称为采样率,它确定可以表示的最高频率(奈奎斯特极限)
奈奎斯特极限为采样率/ 2(越接近极限,表示越差
位范围确定本底噪声(16位为-96dB,8位为-48dB)
单个16位音频样本可以是-32768至32767(可以同时表示模拟信号的负摆幅)
每个字节只允许8位(就计算机存储而言),因此16位样本必须至少由2个字节表示。
这些字节的存储顺序称为字节序类型(big或小)
立体声样本需要为每个声道分配一个单独的样本,一个用于左声道,另一个用于右声道

存储数字音频有哪些不同的方式:

< br PCM(脉冲编码调制)是数字音频存储的最常见的未压缩方式
存在许多压缩方法以减少使用的数据量,有些是无损的,有些是有损的可以是单声道或立体声(交织的样本)
MP3文件经过压缩,有损并且使用心理声学来实现非常高的数据压缩率
即使是最低位范围(1位),也取决于它们的用途,通常是播放存储为1位音频的礼品卡

如何在数字领域更加熟悉音频:


做就做,做更多!下载诸如audacity之类的程序,并使用不同的采样率和位范围创建不同的音频文件
创建正弦/三角形/正方形和锯齿形音调并聆听不同之处
学习如何听见8型之间的区别位10KHz文件和16位44.1KHz文件(CD品质)
通过高通/低通/带通滤波器进行实验,并听到差异
将信号推入其饱和极限以了解削波影响音频信号
如果您的软件具有此功能,则将包络应用于信号
非谐波失真和谐波失真之间存在差异,请同时尝试
使用频谱图(FFT)查看这些波形信号以熟悉它们
同时使用线性图和对数图来查看差异
下采样和上采样信号,并了解它们如何影响音频
使用不同的抖动方法(在转换位范围时)并听到差异

,这将希望您在尝试任何DSP之前先了解一下数字表示的音频是什么以及听起来是什么样的差异。如果您可以识别出例如输入的是8位信号还是16位信号,或者采样率由于转换中的错误计算而被破坏,那么总是很容易知道FFT分析出了问题。

评论


$ \ begingroup $
感谢您的回答。我知道这些事情,现在想进入dsp编码方面。
$ \ endgroup $
–系统
13年7月31日在18:42