基于 kNN 特征扩增的多维分类( 二 ) 摘要多维分类（Multi-Dimensiona

Thyroid 处理基于患者信息估计甲状腺问题类型的任务，其中 7 个类空间对应于 7 种不同情况的诊断。

表 2 中的最后四个数据集来自基准多标签学习任务，包括音频分类：Music、图像分类：Image、Scene；基因功能分析：Yeast 。这里，每个类空间对应于一个二进制值的类变量，该变量指定一个概念是否与示例相关。

评价指标：

文章插图

Hamming Score:

文章插图
【基于 kNN 特征扩增的多维分类】Hamming 分数衡量了 MDC 预测器正确分类的类空间的平均分数。

Exact Match:

文章插图
精确匹配度量 MDC 预测器对所有类空间进行正确分类的测试示例的比例。从概念上讲，精确匹配是一个严格的度量，对于具有大量类空间的 MDC 任务，其值可能相当低。

Sub-Exact Match:

文章插图
次精确匹配对应于精确匹配的一个宽松版本，它测量测试示例的比例，其中 MDC 预测器在所有类空间中最多进行一个错误分类。
比较方法 KRAM 是一种从 MDC 实例中学习的元策略，它可以与任何现成的 MDC 学习算法（如表 1 中的 L 相结合来提高其泛化性能。在本文中，四种成熟的 MDC 方法被用于实例化 KRAM：

二元关联 (Binary Relevance):：这种方法将多维分类问题分解为若干个独立的多类分类问题，每个类空间一个。
分类器链集合（Ensembles of Classifier Chains）：该方法将多维分类问题转化为多类分类问题链，其中链中的后续分类器是通过将前面的预测作为额外特征来构建的。具体地说，用不同的随机链式次序建立分类器链的集合。
类幂集集合（Ensembles of Class Powerset）该方法将多维分类问题转化为一个多类分类问题，将 MDC 类变量的每个不同组合视为一个新的类。具体地说，通过随机抽样 MDC 训练集来构建一个类集模型。
超分类器集合（Ensembles of Super Class classifiers）这种方法的工作原理是将 MDC 类变量划分为多个超类组，其中类变量之间的条件依赖关系用于完成划分过程。具体来说，通过随机抽样 MDC 训练集来建立一个超级类模型的集合。

从原始 MDC 训练集中随机抽取 67%的样本来生成基本 MDC 模型，对于集成方法 ECC、ECP 和 ESC ，基本分类器的数目设为 10 个。此外，基本 MDC 模型的预测是通过多数投票来组合的。

文章插图
实验结果

文章插图

文章插图
根据报告的实验结果，可以观察到：

文章插图

文章插图
结论本文的主要贡献有两个方面：1）提出了一种新的基于特征空间的多维分类策略，为学习 MDC 实例提供了一种新的解决方案；2）设计了一种基于￥看￥ NN 增广特征的简单而有效的方法来证明所提策略的合理性，其有效性在广泛的比较研究的基础上得到了充分的验证。在将来，探索 MDC 特性空间操作的其他方法是很有趣的。此外，针对特定的 MDC 方法设计特征扩充技术也值得进一步研究。
本文由南京大学软件学院 2020 级硕士柯轶东转述