基于 kNN 特征扩增的多维分类( 二 ) 摘要多维分类（Multi-DimensionalClass

文章插图
表 2 中的前七个数据集是从不同的实际 MDC 中收集的任务。

Edm 加工处理的任务是预测电火花加工过程中的控制操作，其中 2 个类空间对应于两个控制参数间隙和流量。
Flare1 处理预测特定类型太阳耀斑在 24 小时内发生的次数的任务，其中 3 类空间对应于普通、中度和重度太阳耀斑。
Song 研究的任务是预测自己收集和注释的歌曲的属性，其中 3 个类空间对应于一首歌的情感、体裁和场景。
Water Quality 处理斯洛文尼亚河流动植物物种预测任务，其中 14 个类别空间对应不同物种的相对代表性。通过聚焦于植物上的 7 类空间或动物上的 7 类空间，我们分别获得了 WQplants 和 WQanimals 数据集。
Thyroid 处理基于患者信息估计甲状腺问题类型的任务，其中 7 个类空间对应于 7 种不同情况的诊断。
表 2 中的最后四个数据集来自基准多标签学习任务，包括音频分类：Music、图像分类：Image、Scene；基因功能分析：Yeast 。这里，每个类空间对应于一个二进制值的类变量，该变量指定一个概念是否与示例相关。

评价指标：

文章插图

Hamming Score:

文章插图
Hamming 分数衡量了 MDC 预测器正确分类的类空间的平均分数。

Exact Match:

文章插图
【基于 kNN 特征扩增的多维分类】精确匹配度量 MDC 预测器对所有类空间进行正确分类的测试示例的比例。从概念上讲，精确匹配是一个严格的度量，对于具有大量类空间的 MDC 任务，其值可能相当低。

Sub-Exact Match:

文章插图
次精确匹配对应于精确匹配的一个宽松版本，它测量测试示例的比例，其中 MDC 预测器在所有类空间中最多进行一个错误分类。
比较方法 KRAM 是一种从 MDC 实例中学习的元策略，它可以与任何现成的 MDC 学习算法（如表 1 中的 L 相结合来提高其泛化性能。在本文中，四种成熟的 MDC 方法被用于实例化 KRAM：

二元关联 (Binary Relevance):：这种方法将多维分类问题分解为若干个独立的多类分类问题，每个类空间一个。
分类器链集合（Ensembles of Classifier Chains）：该方法将多维分类问题转化为多类分类问题链，其中链中的后续分类器是通过将前面的预测作为额外特征来构建的。具体地说，用不同的随机链式次序建立分类器链的集合。
类幂集集合（Ensembles of Class Powerset）该方法将多维分类问题转化为一个多类分类问题，将 MDC 类变量的每个不同组合视为一个新的类。具体地说，通过随机抽样 MDC 训练集来构建一个类集模型。
超分类器集合（Ensembles of Super Class classifiers）这种方法的工作原理是将 MDC 类变量划分为多个超类组，其中类变量之间的条件依赖关系用于完成划分过程。具体来说，通过随机抽样 MDC 训练集来建立一个超级类模型的集合。

从原始 MDC 训练集中随机抽取 67%的样本来生成基本 MDC 模型，对于集成方法 ECC、ECP 和 ESC ，基本分类器的数目设为 10 个。此外，基本 MDC 模型的预测是通过多数投票来组合的。