假设从线性回归中的残差到信号处理中的噪声是正态分布的?通过将它们视为正态分布,我们可以说出噪声中的模式,但不应将噪声视为随机的。这在我看来是矛盾的,因为一方面是随机的,另一方面,它们的分布被认为是正态分布。噪声分布不应该只是随机的吗?

我相信我对统计分布概念的理解有些欠缺,这导致我感到困惑,或者我认为这是错误的。

再举一个例子-当一个数据通过添加高斯噪声来增强数据时,为什么不希望改变数据的整体分布,为什么?

评论

首先要问一些问题-您熟悉中心极限定理吗?这有助于了解为什么我们自然环境中的许多过程都是高斯分布的。为了回答您的第二个问题,分布将卷积,因此根据数据的分布它将改变分布。但是,在这种情况下,我们经常认为数据是“信号”-我们经常对噪声与信号的比较方式感兴趣。在这种情况下,噪声将是相对于信号应在的位置的每个样本偏差-这是原始噪声,因此具有相同的距离。

我本来会根据物理现象留下答案,但@MBaz的答案涵盖了这一点。我认为提出这个问题的方式最好是先看“现实”,然后再看描述它的数学。检出例如高斯作为扩散方程的解。从概念上讲,这可以帮助您了解为什么它适用于自然界中的许多事物。

尽管通常认为噪声是高斯噪声,但并不是普遍认为噪声是高斯噪声。如果知道产生噪声的物理过程,则可以使用更合适的模型。

噪声不是高斯的一种常见情况是量化噪声。对模拟信号进行数字化处理时,模拟值和数字值之间会存在差异,可由A / D转换器的分辨率表示(8位,12位,16位等)。噪声均匀分布跨量化间隔。

有时这样做只是为了使问题在数学上易于解决,尽管有人希望这也是一个“现实”的假设。

#1 楼

从一个比其他答案(更聪明)更基本的层次开始,我想回答这个问题的这一部分:


这似乎与我矛盾一方面,它是随机的,另一方面,它们的分布被认为是正态分布。


也许这里的问题是“随机”是什么意思?

要明确:“随机”和“正态分布”互不矛盾。 “随机”只是意味着我们无法准确预测下一个值是什么。但这并不意味着我们不能对此做出概率陈述。

考虑两个实验:


如果您抛出一个(公平的)死亡,那么它可以显示1到6之间的任何数字。我们无法确定哪个数字会出现,但是我们可以说所有数字都有相同的可能性(即分布均匀)。
如果掷两个骰子并拿走它们的总和可以是2到12之间的任何数字。同样,总和仍然是随机的-我们无法预测会是什么-但我们可以说这些值的可能性不一样。 (例如,7的可能性是12的六倍)。因此在这种情况下,它的分布不均匀。 (您可以绘制所有概率;它们呈峰状,有点像正态分布。)

所以没有矛盾:这两种情况都是随机的并且具有已知的分布。

事实上,大多数随机事物往往具有不均匀的分布:电气噪声,天气,等待下一辆公交车,投票方式...能够对它们做出一般性陈述而又无法预测确切的值是统计的优势之一。

(至于为什么经常以正态分布结束,这是中央极限定理的结果,该定理说,当您组合许多独立的随机变量时,结果趋向于高斯(正态)分布。所以您会看到大量增长。)

评论


$ \ begingroup $
这是解决原始提问者的困惑的答案。请更多类似这样。
$ \ endgroup $
– JonathanZ支持MonicaC
18年11月7日在21:17

$ \ begingroup $
@gidds谢谢您的回答,这很温和地消除了我的疑问。您能否将其与一个问题相关联:我们有一个二进制分类任务,并且两个类数据都来自高斯分布,但我猜参数不同(否则分类任务只是随机的,没有数学方法可以学习此类数据中的任何模式)网络模型会固有地学习数据中的某种模式以进行分类吗?
$ \ endgroup $
–热心
18年11月8日在1:04

#2 楼

看的地方是大数的弱定律和强定律,这是中心极限定理的基础,该定理指出,如果您在这些随机数的方差上添加了一些具有某些温和条件的独立随机变量,则总和将与正态分布无法区分。

正态分布还具有所有具有约束方差的分布的最大熵的性质。

正态分布是线性估计的关键,但应注意的是,它不是信号处理中考虑的唯一分布,尽管对新手来说似乎如此。

正常通常是一个很好的模型。许多物理噪声机制呈正态分布。它还倾向于接受封闭式解决方案。

还有一种情况,尽管不是完全准确的假设,但正常假设仍然有效。

我不明白您的最后一句话。数据具有分布,并且添加法线噪声不会改变该分布。信号和噪声分布反映了两者。

对Gram Chalier系列等正态分布也有一些“细化”或修正。

评论


$ \ begingroup $
我认为他的最后一个陈述是在观察经典的二进制调制分布-分布当然发生了变化,但代表了两条高斯曲线,一条以$ + \ sqrt {E} $的平均值为中心,另一条以$- \ sqrt {E} $,每个均值的分布相同。
$ \ endgroup $
–丹·博申(Dan Boschen)
18年11月6日在23:46

$ \ begingroup $
大量的弱定律和/或强定律与此问题无关,并且在证明中心极限定理时也不需要它们。
$ \ endgroup $
– Dilip Sarwate
18年11月8日在4:21

$ \ begingroup $
大数定律比中心极限定理要早30年。说与这件事无关的事是不正确的
$ \ endgroup $
–user28715
18年11月8日在7:45

#3 楼

添加正态分布的数字后,正态分布(我喜欢称其为“高斯”)保持正态。因此,如果高斯进入LTI滤波器,则会出现高斯分布。但是由于这个中心极限定理,即使p.d.f是一致的随机过程进入具有长而密集的脉冲响应的LTI滤波器,结果将趋于正态分布。因此LTI系统实际上仅更改某些参数,例如功率谱或信号的自相关。 LTI滤波器可以使p.d.f均匀白色随机过程变成高斯p.d.f.粉红的噪音。

#4 楼

我将尝试消除一种可能的混乱根源。如果从一个分布中选择每个样本值感觉“不够随机”,那么让我们尝试通过增加另一层随机性使事情“更加随机”。

想象一下,对于每个样本,噪声是随机的,就其意义而言,噪声来自于从可能的分布列表中为该样本随机选择的分布他们自己的出现概率以及可能样本值的概率列表。仅需三个分布和四个可能的样本值即可使其简单:

$$ \ begin {array} {l | llll}&\ rlap {\ text {样本值及其概率-}} \\
\ text {概率}&\ rlap {\ text {发行版中的功能}} \\
\ text {of distribution}&-2&-1&0&1 \\
\ hline
\ color {blue} {0.3}&0.4&0.2&0.3&0.1 \\
\ color {blue} {0.2}&0.5&0.1&0.2&0.2 \\
\ color { blue} {0.5}&0.1&0.4&0.4&0.1 \ end {array} $$

这里实际上是分布的分布。但是有一个单一的分布说明了有关该样本的值的概率的所有信息:
\ rlap {\ text {其总概率}} \\
\ hline
0.27&0.28&0.33&0.12
\ end {array} $$

总概率是在可能的分布上作为样本值的条件概率之和得出的:
$ 0.4 \ times \ color {blue} {0.3} + 0.5 \ times \ color {blue} {0.2} + 0.1 \ times \ color {blue} {0.5} = 0.27 \\
0.2 \ times \ color {blue} {0.3} + 0.1 \ times \ color {blue} {0.2} + 0.4 \ times \ color {blue} {0.5} = 0.28 \\
0.3 \ times \ color {blue} {0.3} + 0.2 \ times \ color {blue} {0.2 } + 0.4 \ times \ color {blue} {0.5} = 0.33 \\
0.1 \ times \ color {blue} {0.3} + 0.2 \ times \ color {blue} {0.2} + 0.1 \ times \ color {blue} {0.5} = 0.12 $$

应用的概率定律:

$$ P(A_i \ cap B_j)= P(A_i | B_j)\ color {blue} {P(B_j)} \ quad \ text {条件概率} $$
$$ P(A_i)= \ sum_jP(A_i \ cap B_j)\ quad \ text {总概率} $$

其中$ A_i $是$的事件i \ text {th} $样本值的出现和$ B_j $是选择$ j \ text {th} $分布的互斥和详尽的事件。

如果使用连续分布,则需要进行类似的处理位置,因为可以将这些事件建模为离散分布,以限制可能的事件数接近无穷大。

#5 楼

噪声不是随机的。它实际上是分形的。

Mandelbrot在IBM工作时发现了这一点。并且知道这导致了拨号调制解调器的改进等等。在此之前,9600波特率遥不可及。