为什么将数据转换为类别可线性分离的高维特征空间会导致过度拟合？

我在关于SVM和线性不可分数据的部分中读了我的书（Webb和Wiley进行的统计模式分类）：

在许多现实世界中的实际问题中，不会存在线性
类的边界分离和寻找最佳分离超平面的问题是没有意义的。
即使我们使用复杂的特征向量$ \ Phi（x）$将数据转换为a
类可线性分离的高维特征空间，这将导致数据过度拟合，从而导致泛化能力差。

为什么变换将数据存储到其中类别可线性分离的高维特征空间会导致拟合过度和泛化能力差？

#1 楼

@ffriend上有一篇很好的文章，但是一般来说，如果您转换到高维特征空间并从那里进行训练，则学习算法将被“强制”考虑到较高空间的特征，即使它们可能没有任何特征与原始数据有关，并且没有提供预测质量。

这意味着您在训练时不会适当地概括学习规则。

举一个直观的例子：假设您想根据身高预测体重。您拥有所有这些数据，对应于人们的体重和身高。让我们说，通常，它们遵循线性关系。也就是说，您可以将体重（W）和身高（H）描述为：

$$
$$

，其中$ m $是线性方程的斜率，而$ b $是y截距，在这种情况下是W截距。

让我们说您是一位经验丰富的生物学家，并且您知道这种关系是线性的。您的数据看起来像一个散点图，呈上升趋势。如果将数据保留在二维空间中，则将使其适合一条线。它可能无法解决所有问题，但是没关系-您知道该关系是线性的，无论如何都需要一个很好的近似值。

现在，我们假设您获取了此二维数据并将其转换为更高维的空间。因此，您不仅增加了$ H $，还增加了5个维度：$ H ^ 2 $，$ H ^ 3 $，$ H ^ 4 $，$ H ^ 5 $和$ \ sqrt {H ^ 2 + H ^ 7} $。

现在，您去查找多项式的系数以适合此数据。也就是说，您要查找此“最适合”数据的多项式的系数$ c_i $：

$$
W = c_1H + c_2H ^ 2 + c_3H ^ 3 + c_4H ^ 4 + c_5H ^ 5 + c_6 \ sqrt {H ^ 2 + H ^ 7}
$$

如果这样做的话，您会得到什么样的评价？您会得到一个看起来很像@ffriend最右图的图。您已经过度拟合了数据，因为您“强迫”学习算法要考虑与任何无关的高阶多项式。从生物学上讲，体重只是线性地取决于身高。它不取决于$ \ sqrt {H ^ 2 + H ^ 7} $或任何更高阶的废话。

这就是为什么如果您盲目地将数据转换为高阶维度，则会面临过度拟合和不泛化的风险。

#2 楼

假设我们正在尝试使用线性回归（这在本质上是SVM所做的事情）找到近似2D点集的函数。在下面的3张图像中，红叉是观察值（训练数据），而3条蓝线代表具有不同多项式的方程式用于回归。

第一幅图像是通过线性生成的方程。如您所见，它反映的点很差。之所以称为欠拟合，是因为我们给学习算法的“自由度”太小（多项式太小）。二阶图像要好得多-我们使用了二阶多项式，看起来不错。但是，如果我们进一步提高“自由度”，则会获得第3张图像。蓝线恰好穿过十字架，但您认为这条线确实描述了依赖性吗？我不这么认为。是的，在训练集上，学习误差（十字和直线之间的距离）很小，但是如果再添加一个观测值（例如，来自真实数据），则误差最大可能会比使用第二个方程式时的误差大得多。图片。这种效果称为过拟合-我们尝试过分紧跟训练数据并遇到麻烦。
使用单个变量的多项式是内核的一个简单示例-我们使用多个（$ x $，$ x ^ 2 $，$ x ^ 3 $等）。您会看到将数据转换为高维空间可能有助于克服欠拟合，但也可能导致过度拟合。真正的挑战是找到什么是“正当的”。
几个提示，供您进一步研究此主题。您可以使用称为交叉验证的过程来检测过度拟合。简而言之，您将数据分为10个部分，其中9个用于训练，1个用于验证。如果验证集上的错误比训练集上的错误高得多，则说明您过拟合了。大多数机器学习算法使用一些参数（例如SVM中的内核参数）来克服过度拟合的问题。另外，这里一个流行的关键字是正则化-直接影响优化过程的算法修改，字面意思是“不要太紧跟训练数据”。

顺便说一句，我不确定DSP是否是解决此类问题的合适站点，也许您也会对CrossValidated感兴趣。

$ \ begingroup $
这是被偷的，是从吴安德（Andrew Ng）关于机器学习的视频讲座中借来的。除非那是你吴医生在这种情况下，您是否正在寻找实验室的博士生？（可以在coursera.com上为有兴趣的人找到这些讲座）
$ \ endgroup $
–网络人
2012年11月12日19:18

$ \ begingroup $
@CyberMen：它是从images.google.com中偷来的：）但是，是的，符号与Ng的符号非常相似。我肯定会建议他的课程（和其他论文）来介绍机器学习。
$ \ endgroup $
–ffriend
2012年11月12日19:51

$ \ begingroup $
我认为，至少在其他SE网站中，DSP是解决此类问题的合适之地。
$ \ endgroup $
–吉吉利
2012年11月13日19:30

#3 楼

您进一步阅读了吗？

在6.3.10节的最后：

“但是，经常有一些内核参数必须设置
和错误的选择会导致错误的概括。对于特定问题，
最佳内核的选择无法解决，对于某些特殊问题，例如文档
分类，已经导出了特殊内核
。 “

使我们进入第6.3.3节：

”可接受的内核必须作为内部产品在
中表示特征空间，这意味着它们必须满足Mercer的条件。“

内核本身就具有相当困难的区域，您可以拥有大量数据，其中在不同部分应应用不同的参数，例如平滑，但不知道确切的时间。因此，这种事情很难一概而论。

$ \ begingroup $
我读过我说的“ 4.2.5支持向量机”，我不知道您在说第6节。由于我在问题中提到的那段没有任何内容，因此我认为最好在这里提出。
$ \ endgroup $
–吉吉利
2012年11月11日15:44

$ \ begingroup $
抱歉，我也将它与Webb的统计模式识别混合使用，我现在正在寻找并且具有相同的章节。
$ \ endgroup $
– sigrlami
2012年11月11日15:52

编程黑洞网

为什么将数据转换为类别可线性分离的高维特征空间会导致过度拟合？

#1 楼

#2 楼

评论

#3 楼

评论