基于 kNN 特征扩增的多维分类

摘要多维分类(Multi-Dimensional Classification)处理的是一个实例与多个类变量相关联的问题 , 每个类变量通过一个特定的类空间指定其类成员 。 现有的方法是从 MDC 实例中学习的 , 重点是对类变量之间的依赖关系进行建模 , 而操纵特征空间的潜在有用性尚未得到研究 。 本文提出了一种新的 MDC 特征操作方法 , 该方法利用 kNN 扩增特征丰富了原始特征空间 。 具体地说 , 通过对相邻 MDC 实例的类成员关系的简单统计来生成增强特征向量 。 通过这种方法 , 将来自类空间的判别信息编码到特征空间中 , 帮助训练多维分类模型 。 为了验证所提出的特征增强技术的有效性 , 我们对 11 个基准数据集和 4 个最先进的 MDC 方法进行了大量的实验 。 实验结果表明 , 与原始特征空间相比 , 加入 kNN 增强特征可以显著提高现有 MDC 方法的分类性能 。
介绍多维分类的目的是对具有丰富语义的现实世界对象进行建模 , 它假设有多个类空间 , 从不同的维度刻画对象的语义 。 在这里 , 一个 MDC 示例与多个类变量相关联 , 每个类变量都指定了它的类成员关系 , 即一个特定的类空间 。 具体地说 , 从 MDC 例子中学习的需要自然地出现在许多场景中 。 例如 , 自然景物图像的语义可以从季节维度(春季、夏季、秋季和冬季)和景观维度(可能的类别有山、草地、湖泊等)来表征 。 另一个例子是 , 一首音乐的语义可以从体裁维度来描述(可能有摇滚、流行、古典等) , 从乐器维度(可能有钢琴、小提琴、吉他等)和语言维度(可能有英语、汉语、西班牙语等) 。
从 MDC 示例中学习 , 一个直观的解决方案是将多维分类问题分解为多个独立的多类分类问题 , 每个类空间一个 。 然而 , 在这种情况下 , 类空间之间的依赖关系被忽略 , 这将影响诱导预测模型的泛化性能 。 因此 , 现有的 MDC 方法通过以不同的方式对来自不同维度的类变量之间的依赖关系进行建模 , 例如捕捉类变量之间的成对交互 , 指定类变量的链接顺序 , 假设类变量上的有向无环图(DAG)结构等 。
除了在输出空间中建模类变量之间的依赖关系外 , 我们还展示了操作特征空间对于多维分类的潜在有用性 。 本文提出了一种简单而有效的多维分类 kNN 特征扩充方法 KRAM 。 KRAM 利用当前流行的 KNN 技术对 MDC 实例的特征空间进行操作 , 利用相邻 MDC 实例的类成员数统计来丰富原始特征空间 。
这样 , 将类空间中的判别信息编码到特征空间中 , 以便于后续的 MDC 预测模型的归纳 。 大量的实验清楚地验证了 KRAM 方法在提高基于 KNN 增强特征的 MDC 方法预测性能方面的有效性 。
本文的其余部分安排如下 。 首先 , 简要介绍了多维分类的相关工作 。 其次 , 介绍了该方法的技术细节 。 第三 , 比较研究的实验结果报告 。 最后 , 总结全文 。
KRAM 方法虽然类空间之间的建模依赖关系在 MDC 实例学习中起着至关重要的作用 , 但在 MDC 研究中 , 操纵特征空间对模型归纳的重要性还没有得到很好的研究 。 在本节中 , 我们将介绍 KRAM 方法的技术细节 , 该方法旨在通过使用 KNN 技术丰富原始特征空间来提高所学习 MDC 模型的泛化能力 。
基于 kNN 特征扩增的多维分类文章插图
基于 kNN 特征扩增的多维分类文章插图
基于 kNN 特征扩增的多维分类文章插图
基于 kNN 特征扩增的多维分类文章插图
基于 kNN 特征扩增的多维分类文章插图
实验实验配置
基于 kNN 特征扩增的多维分类文章插图
基于 kNN 特征扩增的多维分类文章插图
表 2 中的前七个数据集是从不同的实际 MDC 中收集的任务 。