基于 kNN 特征扩增的多维分类
摘要多维分类(Multi-Dimensional Classification)处理的是一个实例与多个类变量相关联的问题 , 每个类变量通过一个特定的类空间指定其类成员 。 现有的方法是从 MDC 实例中学习的 , 重点是对类变量之间的依赖关系进行建模 , 而操纵特征空间的潜在有用性尚未得到研究 。 本文提出了一种新的 MDC 特征操作方法 , 该方法利用 kNN 扩增特征丰富了原始特征空间 。 具体地说 , 通过对相邻 MDC 实例的类成员关系的简单统计来生成增强特征向量 。 通过这种方法 , 将来自类空间的判别信息编码到特征空间中 , 帮助训练多维分类模型 。 为了验证所提出的特征增强技术的有效性 , 我们对 11 个基准数据集和 4 个最先进的 MDC 方法进行了大量的实验 。 实验结果表明 , 与原始特征空间相比 , 加入 kNN 增强特征可以显著提高现有 MDC 方法的分类性能 。
介绍多维分类的目的是对具有丰富语义的现实世界对象进行建模 , 它假设有多个类空间 , 从不同的维度刻画对象的语义 。 在这里 , 一个 MDC 示例与多个类变量相关联 , 每个类变量都指定了它的类成员关系 , 即一个特定的类空间 。 具体地说 , 从 MDC 例子中学习的需要自然地出现在许多场景中 。 例如 , 自然景物图像的语义可以从季节维度(春季、夏季、秋季和冬季)和景观维度(可能的类别有山、草地、湖泊等)来表征 。 另一个例子是 , 一首音乐的语义可以从体裁维度来描述(可能有摇滚、流行、古典等) , 从乐器维度(可能有钢琴、小提琴、吉他等)和语言维度(可能有英语、汉语、西班牙语等) 。
从 MDC 示例中学习 , 一个直观的解决方案是将多维分类问题分解为多个独立的多类分类问题 , 每个类空间一个 。 然而 , 在这种情况下 , 类空间之间的依赖关系被忽略 , 这将影响诱导预测模型的泛化性能 。 因此 , 现有的 MDC 方法通过以不同的方式对来自不同维度的类变量之间的依赖关系进行建模 , 例如捕捉类变量之间的成对交互 , 指定类变量的链接顺序 , 假设类变量上的有向无环图(DAG)结构等 。
除了在输出空间中建模类变量之间的依赖关系外 , 我们还展示了操作特征空间对于多维分类的潜在有用性 。 本文提出了一种简单而有效的多维分类 kNN 特征扩充方法 KRAM 。 KRAM 利用当前流行的 KNN 技术对 MDC 实例的特征空间进行操作 , 利用相邻 MDC 实例的类成员数统计来丰富原始特征空间 。
这样 , 将类空间中的判别信息编码到特征空间中 , 以便于后续的 MDC 预测模型的归纳 。 大量的实验清楚地验证了 KRAM 方法在提高基于 KNN 增强特征的 MDC 方法预测性能方面的有效性 。
本文的其余部分安排如下 。 首先 , 简要介绍了多维分类的相关工作 。 其次 , 介绍了该方法的技术细节 。 第三 , 比较研究的实验结果报告 。 最后 , 总结全文 。
KRAM 方法虽然类空间之间的建模依赖关系在 MDC 实例学习中起着至关重要的作用 , 但在 MDC 研究中 , 操纵特征空间对模型归纳的重要性还没有得到很好的研究 。 在本节中 , 我们将介绍 KRAM 方法的技术细节 , 该方法旨在通过使用 KNN 技术丰富原始特征空间来提高所学习 MDC 模型的泛化能力 。
文章插图
文章插图
文章插图
文章插图
文章插图
实验实验配置
文章插图
文章插图
表 2 中的前七个数据集是从不同的实际 MDC 中收集的任务 。
- Edm 加工处理的任务是预测电火花加工过程中的控制操作 , 其中 2 个类空间对应于两个控制参数间隙和流量 。
- Flare1 处理预测特定类型太阳耀斑在 24 小时内发生的次数的任务 , 其中 3 类空间对应于普通、中度和重度太阳耀斑 。
- Song 研究的任务是预测自己收集和注释的歌曲的属性 , 其中 3 个类空间对应于一首歌的情感、体裁和场景 。
- Water Quality 处理斯洛文尼亚河流动植物物种预测任务 , 其中 14 个类别空间对应不同物种的相对代表性 。 通过聚焦于植物上的 7 类空间或动物上的 7 类空间 , 我们分别获得了 WQplants 和 WQanimals 数据集 。
- 互联互通|MIUI13即将登场,小米MIX4、小米11Ultra首批尝鲜,基于安卓12
- EMUI|EMUI 12内测更新来袭:基于安卓10,并带来多项功能!
- 模型|EMNLP2021 Findings|字节火山翻译提出:基于自修正编码器的神经机器翻译
- 国企网|基于 ZStack Cloud 的英特尔精选开源云解决方案白皮书
- gen.g战队|荣耀赵明:荣耀60官方定档,双环设计凸显品牌特征,能否赢得喜欢
- IP|新思科技与台积电开发基于N4P制程的最广泛IP核组合
- 操作系统|基于3个操作系统的靶场,教你从零开始做安全渗透工程师
- 众筹|发布 T40 和 T20P 农业无人飞机,大疆的技术有何特征?
- rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
- 人民交通网|RingCentral 和 Mitel 宣布战略合作伙伴关系,帮助客户无缝迁移到基于云的统一商务通