我在某些地方读到音乐大部分以44.1 kHz采样,而我们最多只能听到20 kHz。为什么呢?

评论

年轻人可以听到较高的频率。其他录制技术使用的频率高达48 kHz。

奈奎斯特定理:每个摆动需要两个样本才能说明波的频率。

因为处理器速度更快,内存价格便宜,但是好的模拟滤波器仍然很棘手,甚至更高的采样率也很有意义(96或192 kHz)。

@ThorbjørnRavnAndersen我认为48 kHz很常见,因为它可以分为视频制作中使用的24、25和30 fps。 24并没有均匀地进入44100。这就是Wikipedia提到的。

@SohamDe这是因为,如果您以20 kHz的频率采样20 kHz音频信号,您将什么也听不到。想象一下,正弦波每1 / 20,000秒出现一次峰值。好吧,如果您以完全相同的速率对其进行采样,那么您将仅对峰(或节点,或碰巧要对其进行采样的任何级别)进行采样。因此,当您从数字信号中重新创建信号时,您得到的只是一条平线。这个概念称为混叠,它使您必须至少采样想要听见的最大频率的两倍。 44 100 Hz很方便,因为它可以被2的幂整除。

#1 楼


实际信号的采样率必须大于信号带宽的两倍。音频实际上是从0 Hz开始的,因此44.1 kHz记录的音频中出现的最高频率是22.05 kHz(22.05 kHz带宽)。千赫。额外的2 kHz用于滤波器的滚降;它是一个“摆动室”,由于滤波器不完善,音频可能会混叠,但我们听不到。
44.1 kHz的特定值与当时使用的PAL和NTSC视频帧速率兼容。 br />
请注意,基本原理已在许多地方发布:Wikipedia:为什么选择44.1 kHz?

评论


$ \ begingroup $
嗨,我真的同意您的回答,但是“ ..两倍最高频率”一词很快就吸引了初学者,因为奈奎斯特是关于带宽而不是最高频率;我继续进行,并对您的答案做了些微修改。请检查是否还可以。
$ \ endgroup $
– MarcusMüller
17 Mar 5 '17 at 6:28

$ \ begingroup $
@Ruslan:维基百科对此很好。
$ \ endgroup $
–jojek♦
17 Mar 5 '17 at 11:58

$ \ begingroup $
@BrianDrummond可以编辑吗?
$ \ endgroup $
– Endolith
17 Mar 5 '17 at 17:20

$ \ begingroup $
@MarcusMüller被“ Nyqvist是允许的最高频率”咬伤的初学者,无论如何都将被咬住伪影而被咬...之后,他们还将了解如何将带宽$Δf$的任何频率范围解调$ 0 $和$Δf之间的一个= f_s / 2 $。
$ \ endgroup $
–leftaround关于
17 Mar 5 '17在22:12



$ \ begingroup $
如果一个人分开听,可能无法分辨出有10个谐波的19,999.9Hz声音与有9个谐音的20,000.1Hz声音之间的区别,但这并不意味着听不到两者之间的过渡。拥有一个更渐进的截止滤波器可以避免此类问题。
$ \ endgroup $
–超级猫
17 Mar 5 '17 at 22:26

#2 楼

Sony选择了44,100,因为它是前四个质数的平方的乘积。这使它可以被许多其他整数整除,这在数字采样中非常有用。人类的听力提高了一倍。上面的部分为过滤器留出了一定的余地,从而使过滤器更便宜(减少了碎屑的产生)。

正如罗素在评论中指出的那样,可被许多其他整数整除的方法在选择采样率的时间。早期的数字音频记录在现有的模拟视频记录媒体上,根据地区的不同,该媒体支持NTSC或PAL视频规范。 NTSC和PAL的“每场行数”和“每秒场数”速率不同,其LCM(以及每行样本数)为44100。

评论


$ \ begingroup $
选择的不仅仅是获得许多主要因素,而是要充分利用NTSC和PAL视频记录设备来存储数字母带。 zh.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
$ \ endgroup $
–拉塞尔·博罗戈夫(Russell Borogove)
17 Mar 6 '17 at 0:59

$ \ begingroup $
@RussellBorogove:谢谢。按照Wiki链接,44100是NTSC和PAL视频功能的采样率的LCM。这是具有许多因素的数字的直接结果,我相信您认为这匹马在此规格上处于领先地位是正确的。
$ \ endgroup $
– dotancohen
17 Mar 6 '17 at 6:32

$ \ begingroup $
可被许多数字整除,但不能被8整除:)
$ \ endgroup $
– Bogdan Alexandru
17 Mar 6 '17 at 16:02

$ \ begingroup $
(维基百科说,从40.5到46.8 kHz的各种速率都可以满足这些标准,并且选择44.1 kHz为抗锯齿滤波器提供过渡带)
$ \ endgroup $
– Endolith
17 Mar 7 '17 at 19:12



$ \ begingroup $
@BogdanAlexandru也不能被1 ms USB帧整除:D
$ \ endgroup $
– Endolith
17年8月8日在20:15

#3 楼

奈奎斯特速率高于要捕获而没有歧义(例如混叠)的基带信号带宽限制的两倍。

以低于20kHz两倍的速率采样,您将无法分辨

补充:请注意,任何有限长度的信号在频域中都具有无限的支持,因此不受严格的带宽限制。这是另一个原因,需要对任何非无限音频源进行采样,采样频率要高于最高频谱的两倍(在基带信号中),以避免明显的混叠(除了有限的滤波器过渡滚降的原因之外)。

评论


$ \ begingroup $
嗨,我真的同意您的回答,但是“ ..两倍最高频率”一词很快就吸引了初学者,因为奈奎斯特是关于带宽而不是最高频率;我继续进行,并对您的答案做了些微修改。请检查是否还可以。
$ \ endgroup $
– MarcusMüller
17 Mar 5 '17 at 6:29

$ \ begingroup $
@MarcusMüller,因为要进行采样的“初学者”始于对基带信号而不是通带信号的采样,所以它实际上是关于最高频率(有时称为“ bandlimit”)而不是带宽(关于单侧信号还有一个额外的歧义或两侧带宽)。
$ \ endgroup $
–罗伯特·布里斯托-约翰逊
17 Mar 5 '17 at 6:43

$ \ begingroup $
@ robertbristow-johnson并没有考虑到这种歧义。嗯我喜欢带宽限制方法!
$ \ endgroup $
– MarcusMüller
17 Mar 5 '17 at 6:46

$ \ begingroup $
在Wikipedia文章中,我们将其称为“ $ B $”,尽管Shannon说$ f_ \ text {s} \ ge 2B $足够,但他假设能量有限,因此没有正弦曲线(具有无限能量且也可以将狄拉克三角洲的价格设置为$ \ pm B $)。如果您允许频率为$ B $的正弦波,那么通常是$ f_ \ text {s}> 2B $。
$ \ endgroup $
–罗伯特·布里斯托-约翰逊
17 Mar 5 '17 at 6:54



#4 楼

基本上,两倍的带宽是信号采样的常见要求,因此$ 2×20 = 40 $ kHz是最小的。然后,多一点用于处理不完美的滤波和量化。详细信息如下。

理论上您所需要的不是实践中所需要的。这是引号(归因于很多):在理论上,理论与实践之间没有区别。在实践中。我的知识可能会很生疏,请谨慎使用。然后,从理论上讲,连续的带宽受限现象可能会以大约两倍的带宽(或两倍于基带信号的最大频率)进行采样而不会造成损失。 “奈奎斯特速率”通常定义为:


可以在不引入误差的情况下采样信号的最小速率


分析的“采样定理”部分。 “可以”很重要。有一个合成部分:连续信号可以类似地使用基数正弦波“重建”。这不是唯一的技术,也没有考虑到低通预滤波,非线性(例如量化,饱和度)和其他随时间变化的因素。

人类的听觉并不简单话题。人们听到的声音频率范围是20 Hz至20,000 Hz。但是,赫兹的精确界限并不是所有人的自然特征。随着年龄的增长,对高频的敏感性逐渐丧失。另一方面:


在理想的实验室条件下,尽管成年人的阈值在15 kHz时会急剧增加,但人类可以听到低至12 Hz和高至28 kHz的声音
/>

听觉不是线性的:听觉和痛苦阈值都有。它不是时不变的。在时间和频率上都有掩盖效果。

如果20 Hz到20,000 Hz的频带是一个常见范围,并且从理论上讲40,000 Hz就足够了,那么需要一点额外的费用来应对额外的失真。一条经验法则表明,可以再增加10%(2.2美元乘以信号带宽),而44,100 Hz可以做到。它可以追溯到1970年代后期。为什么不使用44,000 Hz?主要是由于CD的普及所设定的标准,其技术一如既往地基于折衷。
此外,44,100是前四个素数的平方的乘积($ 2 ^ 2 \乘以3 ^ 2 \乘以5 ^ 2 \乘以7 ^ 2 $),因此系数较小,有利于计算(例如FFT)。

因此,从$ 2 \乘以20 $到$ 44.1 $(和倍数),我们在安全性,量化,可用性,计算和标准方面保持平衡。

其他存在一些选项:例如,DAT格式以48 kHz采样发布,最初转换困难。我应该使用哪种采样率和位深度来讨论有关量化(或位深度)的96 kHz?
这是一个有争议的主题,请参见24位48kHz与24位96kHz。
例如,您可以检查Audacity采样率。

评论


$ \ begingroup $
1.问题的答案是奈奎斯特定理规定> 40kHz,而不是> 20kHz。 2.在低端,无论是人类的听力还是CD格式都不限于20Hz。任何足够大的管风琴都可以产生16Hz音调,而CD可以轻松再现它。一些器官的频率下降到8Hz,开始被视为个体振动,但CD仍可以复制。
$ \ endgroup $
–user207421
17 Mar 5 '17 at 22:20

$ \ begingroup $
我同意您的评论,但“命令”除外(这是“如果”条件)。您能指出我偏离的地方吗?
$ \ endgroup $
– Laurent Duval
17 Mar 6 '17 at 7:40

$ \ begingroup $
我对@LaurentDuval的答案只有一个补充。语音,音乐和声音通常是非平稳信号。尽管有效地限制了这些频率,但是我们仍然不知道人耳如何将连续的时间信号转换为神经发射,从而促进了我们对声音的感知。人们通常认为有些人“金耳朵”,可以区分44.1 kHz和96 kHz的录音。另外,我还没有证实,似乎更高的采样率有利于感知其他线索,例如双耳录音中的定位。
$ \ endgroup $

17 Mar 7 '17 at 11:49

#5 楼

为什么已经准确回答了44.1 kHz的原因-但要着眼于与人类感知极限有关的问题,原因非常简单。

及时的分辨率必须很好足以生成所有可能的波形,直到可感知的极限。根据采样定理,分辨率必须使得采样频率至少是该频率的两倍。直观地讲,在最高频率下,您至少需要2个点来表示信号的最大和最小-给出此Ascii-art方波:

_   _
 |_| |_


#6 楼

为了忠实地再现信号,采样率越快越好。之所以选择〜40 kHz,是因为它是一个低采样率,大多数人无法分辨出(重建时)的差异。引入音频采样后,内存和存储成本很高,而且不可能廉价地获得更高的采样率。

如果人类听力的上限加倍,则每个周期两个样本的重建效果很差,即使它满足采样信号的奈奎斯特标准,一个简单的图表也会显示一个正弦波,每个周期两个样本您每个周期的两个采样在再现波形方面有多差。您可以从字面上将正弦波转换为方波。 20 kHz的好处是没人知道。我敢打赌,狗可以。