我正在尝试使用MCS(多分类器系统)在有限的数据上做一些更好的工作,即变得更加准确。

我目前正在使用K-means聚类,但可能选择使用FCM (模糊c均值),数据被聚类为组(集群),数据可以表示任何内容,例如颜色。在进行预处理和规范化之后,我首先对数据进行聚类,然后得到介于两者之间的许多不同的聚类。然后,我继续使用聚类作为贝叶斯分类器的数据,每个聚类表示不同的颜色,对贝叶斯分类器进行训练,然后将来自聚类的数据通过单独的贝叶斯分类器进行处理。每个贝叶斯分类器仅接受一种颜色的训练。如果我们将3-10的光谱视为蓝色,将13-20的光谱视为红色,而将0-3之间的光谱从白色变为1.5,则逐渐将蓝色变成1.5-3,从蓝色变为红色。

我想知道如何应用或使用哪种聚合方法(如果您要使用的是哪种聚合方法),以使贝叶斯分类器变得更强大,它如何工作?聚合方法是否已经知道答案,或者是人为交互来纠正输出,然后将这些答案返回到贝叶斯训练数据中?或两者结合?在查看Bootstrap聚合时,需要让整体模型中的每个模型具有相等的权重,因此不确定在这种特定情况下我将袋装作为聚合方法吗?但是,提升涉及通过训练每个新模型实例来强调强调先前模型被错误分类的训练实例,从而逐步建立整体,不确定是否可以更好地替代装袋,因为不确定如何在新实例上逐步建立模型?最后一个是贝叶斯模型平均,这是一种集成技术,旨在通过从假设空间采样假设并使用贝叶斯定律将它们组合起来来近似贝叶斯最佳分类器,但是完全不确定如何从搜索空间采样假设?

我知道通常您会使用一种竞争性的方法来在两种分类算法之间跳动,有人说是的,也许可以应用权重,如果正确,则可以同时使用两种分类器中的最佳方法,但要保持是的,我不想采用竞争性方法。

另一个问题是将这两种方法一起使用将是有益的,我知道我提供的示例非常原始,可能不适用于该示例,但在更复杂的数据中有用吗?

编辑

有人告诉我,这可能是从Stack溢出提出这个问题的更好的地方,原始问题:

https://stackoverflow.com/questions/9536786/集成学习多个分类器系统

评论

我确实知道这有点晚了,但我想知道:您是否使用k均值聚类的输出作为贝叶斯分类器的标签?如果您随机初始化k均值聚类(大多数情况下已完成),则标签不稳定。今天,您可能会选择使用随机森林作为整体分类器。如果找到答案,请亲自回答您的问题。