DCT可以用于音频幅度频谱而不是DFT吗？

据我了解，DCT具有相同大小N的DFT的一半bin大小。DFT还包含相位信息，但是通常只需要幅度谱时就不需要此信息。

DCT可以用于提供密度为DFT两倍（仓间隔的一半）的幅度谱吗？或者会丢失异相信息？
重叠50％怎么办？

我相信DCT也包含相位信息，只是不使用复数。通过丢弃相同的负频率，“实际FFT”还为相同信息使用一半的内存和一半的计算时间。 “除了正弦基函数中的半采样相移以外，双倍长度FFT的实部与DCT相同”

实际上，至少可以将系数的符号视为穷人的相位。

#1 楼

是的，DCT可用于提供密度为两倍的强度谱。我不太了解重叠，但是我假设由于DCT覆盖的范围较小，因此您认为会有重叠。为了给这个问题一个合适的答案，让我快速回顾一下DCT在图像处理中的主要用途。

首先，我们需要做一些假设。为了使用DCT，您需要有一个真实的信号。这是根据定义。当您说的时候，DCT的bin大小是DFT的N大小的一半，您假设信号是低频信号。否则，不会那么多。

对于DCT在压缩中的使用，由于图像的DFT将是对称的，因此它会产生冗余信息（一个侧镜足以再现信号）。因此，与DFT相比，使用DCT内核来产生更密集的信息。低频音频信号也是如此，可以以相同的方式使用。尽管DCT的核心变得更密集，但系数却变得更大，因为DCT的内核覆盖了信号的两侧（实部和虚部）。

我的专业是图像处理，因此我尝试在图像处理中映射DCT和DFT概念和说明。但是，图像和音频之间的差异可能是尺寸。在图像处理中，您知道大小（用于FFT和其他处理目的的行和列）。我想您需要以某种方式划分音频数据的向量，以便进行进一步处理。

这是从网络上拍摄的图像，但是我没有记下来，可能是维基百科。 br />

如您所见，变换后的图像在DCT中通过幅度谱表示没有问题。以更紧凑，更密集的方式查看系数的大小。它大于DFT的两倍。 DFT是对称的，您可以将其分为两部分。一部分是多余的。另外，DCT可以存储的信息不仅是DFT的一半，而且是DFT的近四分之一。在图像中，DCT通常会胜过DFT。

$ \ begingroup $
由于FFT在X和Y维度上都是多余的，因此不能将FFT分为四分之一吗？
$ \ endgroup $
– Endolith
2011年9月7日在19:44

$ \ begingroup $
为什么看起来FFT包含更多信息而DCT包含更多零？
$ \ endgroup $
– Endolith
2011年9月7日19:53

$ \ begingroup $
第一个问题，我不太了解，您对X和Y尺寸的含义是什么？第二个问题是由于内核不同。它看起来不像DCT包含更多的零，实际上它包含比普通傅立叶变换（DFT）更多的零。再次是由于它们内核不同。
$ \ endgroup $
– Hephaestus
2011-09-13 0:47

$ \ begingroup $
我的意思是图像是真实信号，因此FFT包含冗余信息。在这两个维度上，FFT的负一半只是正一半的镜像。
$ \ endgroup $
– Endolith
2011年11月14日18:56

#2 楼

重叠50％的情况如何？

从这个问题，我了解到您正在考虑以滑动傅立叶或频谱图的方式执行本地化的块处理。

是否可以使用DCT来提供密度为DFT两倍（仓间隔的一半）的幅度谱，否则会丢失相位信息？

如果谈论幅度谱，当然，相位的一部分（无论是复数傅立叶系数的参数还是DCT系数的符号）都会丢失。

因此，您当然可以插入一个许多内核代替了短期傅里叶公式中的加窗傅里叶变换，仅用于分析。各种DCT，它们的重叠版本（LOT，MDCT），具有良好的正交和窗口特性，甚至可以反转（合成）。通常用于分析，开始和音调检测（盲源分离），例如A. Liutkus的STFT，MDCT和Inverses Matlab工具箱。大型频率分析工具箱（LTFAT）还具有：具有线性时频刻度的快速TF变换：Gabor（STFT），Wilson和窗口MDCT
Gabor和WMDCT域中的稀疏回归

我不太了解音频。但是，50％或75％的重叠是很常见的，很少有人使用其他设置。但是，通常使用至少两个窗口大小，一个较长的静止部分，一个短暂的瞬态，以帮助克服“单窗口”时频限制。

编程黑洞网

DCT可以用于音频幅度频谱而不是DFT吗？

评论

#1 楼

评论

#2 楼