卡尔曼滤波和(必要时重复)最小二乘多项式回归之间的关系(如果有)?

评论

马上,通过卡尔曼滤波,我们无法访问将来的值(因此是预测部分),而在多边形拟合中,我们拥有最适合数据的整个数据集。不过,这是个好问题! +1。

@Mohammad:您在哪里看到需要为两种方法提供不同的数据点(子集)?

@Mohammad多项式回归可以外推,因此可以用于将来的预测。

@DipanMehta / @ hotpaw2嗯,我想我没有意识到。 AFAIK for poly我们需要先访问整个数据集,然后才能计算出最佳拟合。 (离线处理)。尽管现在我想起来了,但我认为在线版本也可以工作……每次有新样品出现时,我们都会重新寻找最合适的方法。但是“预测”在哪里呢? />
@Mohammad并不擅长数学-但基本上对于任何回归而言都是如此。支持您有训练矢量$ X_t $,并应用了$ Y_t $,并发现了模型参数$ \ alpha [i] $,现在又有了另一个$ X_k $,其外推长度可以使您获得对$ Y_K $的最佳估计上面的模型只是预测。当您实际基于误差测量$ Y_K'$时,您就有机会更新/改进模型。

#1 楼

1.最优标准方面存在差异。

卡尔曼滤波器是线性估计器。它是线性最佳估计量-即从间接,不准确和不确定的观察结果中推断出感兴趣的模型参数。

但是在什么意义上是最优的?如果所有噪声均为高斯噪声,则卡尔曼滤波器将估计参数的均方误差最小化。这意味着,当基础噪声不是高斯噪声时,承诺将不再成立。在非线性动力学的情况下,众所周知,状态估计的问题变得困难。在这种情况下,没有任何一种过滤方案明显优于所有其他策略。在这种情况下,如果非线性估算器可以使用附加信息更好地对系统进行建模,则可能会更好。 [请参阅参考1-2]

多项式回归是线性回归的一种形式,其中自变量x和因变量y之间的关系被建模为n阶多项式。

$$ Y = a_0 + a_1x + a_2x ^ 2 + \ epsilon $$

请注意,尽管多项式回归将非线性模型拟合到数据中,但这些模型都是从估计的角度来看,线性函数是线性的,因为回归函数在未知参数$ a_0,a_1,a_2 $方面是线性的。如果我们将x,x ^ 2 $视为不同的变量,则多项式回归也可以视为多元线性回归。

多项式回归模型通常使用最小二乘法拟合。同样在最小二乘法中,我们使均方误差最小。在高斯-马尔可夫定理的条件下,最小二乘法最小化了系数的无偏估计量的方差。该定理指出,在以下条件下,普通最小二乘(OLS)或线性最小二乘是最佳线性无平衡估计器(BLUE):

a。当错误的期望值为零时,即$ E(e_i)= 0 $
b。具有相等的方差,即$方差(e_i)= \ sigma ^ 2 <\ infty $
C。错误是不相关的,即$ cov(e_i,e_j)= 0 $


注意:在这里,错误不必是高斯的,也不必是IID。它只需要是不相关的。


2。卡尔曼滤波器是估计器从最小二乘的演变而来。

1970年,H。W. Sorenson发表了IEEE Spectrum文章,标题为“最小二乘估计:从高斯到卡尔曼”。 [参见参考文献3。]这是一篇开创性的论文,它为高斯(Kauss)这样的现代估计量如何提供了关于高斯最小二乘的原始思想的深刻见解。

Gauss的工作不仅介绍了最小二乘框架,而且实际上是最早使用概率观点的工作之一。虽然最小二乘以各种回归方法的形式演变,但还有另一项关键工作使滤波器理论被用作估计量。

用于固定时间序列估计的滤波理论是由诺伯特·维纳(Norbert Wiener)在1940年代(第二次世界大战期间)建立的,并于1949年发表,现在被称为维纳滤波器。这项工作完成得很早,但直到第二次世界大战后才被归类。 Wiener工作的离散时间等效项由Kolmogorov独立推导并于1941年出版。因此,该理论通常称为Wiener-Kolmogorov滤波理论。

传统上,滤波器是为实现所需的频率响应而设计的。但是,在维纳滤波器的情况下,与对所需无噪声信号的估计相比,它可以减少信号中存在的噪声量。韦纳滤波器实际上是一个估计量。然而,在一篇重要的论文中,Levinson(1947)[参见参考文献6]表明,在离散时间内,整个理论可以减小到最小二乘,因此在数学上非常简单。参见参考文献4

。因此,我们可以看到Weiner的工作为估计问题提供了一种新方法。从使用最小二乘到另一种公认的过滤器理论的演变。
但是,关键限制是维纳滤波器假定输入是固定的。可以说,卡尔曼滤波器是进化的下一步,它将放弃平稳的标准。在卡尔曼滤波器中,状态空间模型可以动态调整以处理信号或系统的非平稳性质。

卡尔曼滤波器基于离散时域中的线性动态系统。因此,与维纳相反,它能够处理潜在的时变信号。由于Sorenson的论文在高斯的最小二乘法和卡尔曼滤波器之间作了平行绘制,如

稍后允许状态从一次更改为下一次。差异引入了对
高斯问题的非平凡修改,但可以在最小二乘方格框架内进行处理。


3。就预测的因果关系而言,它们是相同的;除了实现效率外,有时还可以将卡尔曼滤波器用于基于过去数据的未来事件预测,其中回归或最小二乘会在端到端进行平滑处理。这不是真的。读者应注意,这两个估计量(以及您可以想到的几乎所有估计量)都可以完成任何一项工作。您可以应用卡尔曼滤波器来应用卡尔曼平滑。

同样,基于回归的模型也可以用于预测。给定训练向量$ X_t $,您应用了$ Y_t $并发现了模型参数$α_0... a_K $现在对于另一个样本$ X_k $,我们可以根据模型外推$ Y_K $。

因此,这两种方法都可以以平滑或拟合(非因果关系)的形式使用,也可以用于未来的预测(因果关系)。但是,关键的区别在于实现的意义重大。在多项式回归的情况下-需要重复整个过程,因此虽然可以实施因果估计,但计算量可能很大。 [但是,我敢肯定,到目前为止,必须进行一些研究才能使事情反复进行]。

另一方面,卡尔曼滤波器本质上是递归的。因此,将其用于将来仅使用过去的数据进行预测将非常有效。

这是另一个比较几种方法的出色演示:参考5

参考文献


卡尔曼滤波器的最佳介绍-Dan Simon Kalman滤波嵌入式系统编程2001年6月第72页,
演讲:Lindsay Kleeman了解和应用卡尔曼滤波
H。 W. Sorenson最小二乘估计:从高斯到Kalman IEEE Spectrum,1970年7月。第63-68页。
麻省理工学院的讲义课件
介绍从线性回归到卡尔曼的SimoSärkkä
超越赫尔辛基工业大学的过滤器
莱文森,N。(1947)。 “滤波器设计和预测中的维纳RMS误差标准。” J.数学Phys。,第25卷,第261–278页。


评论


$ \ begingroup $
非常好的故障!
$ \ endgroup $
–太空
2012年5月26日在22:27

$ \ begingroup $
“理解和应用卡尔曼滤波”链接已断开。我认为此链接有效:cs.cmu.edu/~motionplanning/papers/sbp_papers/integrated3/…
$ \ endgroup $
– Vinod
2014年4月19日在10:03



$ \ begingroup $
很好的答案。这就是这个网站很棒的原因!
$ \ endgroup $
–罗伊
14年4月19日在11:03

$ \ begingroup $
很棒的答案,有时候很难找到诸如此类的简单而基本的问题的答案
$ \ endgroup $
–ZiglioUK
15年2月22日,0:53

#2 楼

差异非常大,因为它们是两个完全不同的模型,可以用来解决相同的问题。让我们快速回顾一下。

多项式回归是函数逼近的一种方式。我们有一个形式为$ \ lbrace x_i,z_i \ rbrace $的数据集,并希望确定函数关系,通常通过估计概率密度$ p(z | x)$来表示。在这个$ p $是高斯的假设下,我们得到最小二乘解作为最大似然估计器。 LDS是状态空间模型的一种特殊情况,其中我们假设观察到的数据是通过对高斯随机变量对Markov链的后续步骤进行线性变换而生成的。因此,我们实际上要做的是对$ p(x_ {1:T})$建模,这是一个时间序列的概率。然后,卡尔曼滤波的过程是预测时间序列的下一个值,例如最大化$ p(x_ {t + 1} | x_ {1:t})$。但是,可以使用相同的模型进行平滑,插值等更多的推理。两者是完全不同的,但是时间序列预测是函数逼近的特例。
此外,两个模型都基于观察到的数据建立了完全不同的假设。

评论


$ \ begingroup $
关于观测数据有哪些不同的假设?
$ \ endgroup $
– hotpaw2
2012年5月17日11:57



$ \ begingroup $
@ hotpaw2,PR:数据是由具有附加高斯噪声的多项式生成的。 LDS:数据是由未观测的高斯分布变量的马尔可夫链生成的,它与观测数据呈线性关系。
$ \ endgroup $
–拜耳
2012年5月17日13:47

#3 楼

不是卡尔曼滤波器的专家,但是我认为传统卡尔曼滤波假定可观察数据与您要推断的数据之间存在线性关系,而扩展卡尔曼滤波器等更复杂的模型则可以假设非线性关系。

考虑到这一点,我相信对于传统的卡尔曼滤波器,在线线性回归在性能上将类似于卡尔曼。但是,也可以使用多项式回归,这种回归假设传统的Kalman可能无法捕获的非线性关系。

#4 楼

卡尔曼滤波可为下一个状态提供多种预测,而不会进行回归推断。

评论


$ \ begingroup $
有多个预测?还是单个多维预测向量? (可以提供多维线性或多项式回归?)
$ \ endgroup $
– hotpaw2
2012年5月14日16:16

$ \ begingroup $
每个维度/变量都有多个预测(正确的预测是确定性)。这与将噪声合并到预测中的方式有​​关。
$ \ endgroup $
– Geerten
2012年5月15日下午6:51

$ \ begingroup $
并非完全正确。 PR也为您提供了发行版,只是不常用。另外,如果将最小二乘多项式回归用于时间序列预测,则其噪声模型与卡尔曼滤波器完全相同。
$ \ endgroup $
–拜耳
2012年5月17日13:52

#5 楼

已经说了很多,请允许我添加一些评论:卡尔曼滤波器是贝叶斯概率论的一种应用,这意味着“先验信息”或“先验不确定性”可以(并且必须)被指定。据我了解,传统的最小二乘拟合并非如此。虽然可以使用LSQ拟合中的概率对观察结果(数据)进行加权,但不能轻易考虑解决方案的先验知识。

总而言之,KF找到的解决方案将取决于br /> a)提供“预测”的模型

b)“观测”的测量

c)预测和观察的不确定性

d)解决方案的先验知识。

“先验知识”被指定为初始猜测的方差,但在每个应用程序中都不相关或以不同程度使用。
如前所述,KF的常见用途是减少实时观测中的噪声。将观测值与模型预测值进行比较可以帮助估计无噪声的“真实测量”。这种常见的应用程序将KF称为过滤器的原因。
在此示例中,最初的猜测将是假设从零时点开始的假设解,KF从该时间开始具有相关的“先前不确定性”。通常,您会在预测模型中拥有一些未知的参数,但是这些参数可能会受到测量值的限制,即“可观察”。随着时间序列的推移,KF将改进对这些参数和“真实测量值”的估计。在那种情况下,通常将初始状态指定为仅产生一致的滤波性能:定义为实际估计误差在KF提供的解决方案的不确定性范围内。在此示例中,可以将初始状态的先前不确定性指定为较大,从而为KF提供纠正其包含的任何错误的机会。还可以指定较小的值,以将过滤器推向有意义的未来估计(与观测值一致)。

KF设计的这一领域可能涉及反复试验或工程判断初始状态的值及其不确定性会导致良好的性能。因此,KF滤波器设计的这一方面和其他方面,包括指定不确定性以导致良好的性能(数值,估计,预测...),通常被称为“滤波器调整”。

但是在其他应用中,可以采用更严格和有用的方法来处理先前的不确定性。前一个示例是关于实时估计(从不确定的测量结果中滤除噪声)。初始状态及其方差(不确定性)几乎是尽早初始化滤波器的必要条件,此后初始状态变得越来越不重要,因为将来的观察将用于改进估计。现在考虑在特定时间t_s应用于测量和模型预测的卡尔曼滤波器。我们有不确定的观察结果,不确定的模型,但我们对要寻找的解决方案也有一些先验知识。假设我们知道其高斯PDF:均值和方差。在这种情况下,解决方案可能在很大程度上取决于先前的不确定性,即上面的d)项,希望增加的信息可以改善KF解决方案(误差较小且不确定性较小)。

此功能这是贝叶斯理论的基础,它使KF可以解决随机问题,同时考虑到通常可用的各种不确定性/信息。由于KF已经开发和应用了数十年,因此其基本功能并不总是得到详细描述。以我的经验,许多论文和书籍都专注于最优性和线性化(扩展的KF,无味的KF等)。但是,通过阅读介绍性文章和有关“粒子过滤器”的文章,我发现了对贝叶斯理论与KF之间联系的很好描述。这些是贝叶斯估计的另一种且最近的实现,如果您有兴趣,请查阅它们!

评论


$ \ begingroup $
通过在实际数据之前添加一些预先设置的先验/预测/猜测(均值和方差)数据点,然后使用迭代最小二乘法,可以使人获得类似的贝叶斯更新效果(通过使用卡尔曼滤波器提供)平方多项式回归以随着实际数据的出现而更新预测(以及方差或回归系数)?
$ \ endgroup $
– hotpaw2
17年7月20日在19:37



$ \ begingroup $
尽管可以轻推适合“先验”数据的函数(除了我们给它们的名称之外,该函数与任何其他数据都没有什么不同),但是在条件设置中组合不确定性的正确方法(贝叶斯理论中定义了先验+观察=后验)。我并不是说不可能通过其他方式重现贝叶斯结果,但是数据拟合和贝叶斯定理是不同的东西,仅后者被认为可以产生正确的统计数据。我希望添加观察值和计算条件概率之间会有区别。
$ \ endgroup $
–巴特·范·霍夫(Bart Van Hove)
17年7月20日在23:49



$ \ begingroup $
该解决方案确实专注于用法,因此我提高了使用率。
$ \ endgroup $
–狂徒
17年7月25日在19:40

$ \ begingroup $
您可能还会发现这个StackExchange线程也很有趣,这个问题与您的问题非常相似,但是将多项式拟合与一般的贝叶斯推断进行了比较,卡尔曼滤波器就是一个例子。 stats.stackexchange.com/questions/252577/…
$ \ endgroup $
–巴特·范·霍夫(Bart Van Hove)
17年7月27日在8:30



$ \ begingroup $
提供更多背景信息:卡尔曼滤波器是解决一般贝叶斯问题的一种特殊方法,尤其适用于涉及数据时间序列(例如在线估计)的问题。我上面链接的主题考虑了一次回归问题的一般贝叶斯处理,一次使用所有数据,这比多项式拟合更像多项式拟合,而不是在线卡尔曼滤波,如此处几个答案所述。
$ \ endgroup $
–巴特·范·霍夫(Bart Van Hove)
17年7月27日在8:38

#6 楼

我建议参考一下有关最小二乘和卡尔曼滤波器的比较:

卡尔曼滤波的基本原理:P。Zarchan和H. Mussof的实用方法

特别是第3章(递归最小二乘滤波)和第4章(多项式卡尔曼滤波器)。

在第4章中,作者证明了具有零过程噪声和无限初始状态协方差矩阵的离散(时间)n阶多项式卡尔曼滤波器完全等效于n阶递归最小-平方滤波器(根据增益和方差预测)。