基于 kNN 特征扩增的多维分类( 二 )


基于 kNN 特征扩增的多维分类文章插图
表 2 中的前七个数据集是从不同的实际 MDC 中收集的任务 。

  • Edm 加工处理的任务是预测电火花加工过程中的控制操作 , 其中 2 个类空间对应于两个控制参数间隙和流量 。
  • Flare1 处理预测特定类型太阳耀斑在 24 小时内发生的次数的任务 , 其中 3 类空间对应于普通、中度和重度太阳耀斑 。
  • Song 研究的任务是预测自己收集和注释的歌曲的属性 , 其中 3 个类空间对应于一首歌的情感、体裁和场景 。
  • Water Quality 处理斯洛文尼亚河流动植物物种预测任务 , 其中 14 个类别空间对应不同物种的相对代表性 。 通过聚焦于植物上的 7 类空间或动物上的 7 类空间 , 我们分别获得了 WQplants 和 WQanimals 数据集 。
  • Thyroid 处理基于患者信息估计甲状腺问题类型的任务 , 其中 7 个类空间对应于 7 种不同情况的诊断 。
  • 表 2 中的最后四个数据集来自基准多标签学习任务 , 包括音频分类:Music、图像分类:Image、Scene;基因功能分析:Yeast 。 这里 , 每个类空间对应于一个二进制值的类变量 , 该变量指定一个概念是否与示例相关 。
评价指标:
基于 kNN 特征扩增的多维分类文章插图
  • Hamming Score:

基于 kNN 特征扩增的多维分类文章插图
Hamming 分数衡量了 MDC 预测器正确分类的类空间的平均分数 。
  • Exact Match:

基于 kNN 特征扩增的多维分类文章插图
【基于 kNN 特征扩增的多维分类】精确匹配度量 MDC 预测器对所有类空间进行正确分类的测试示例的比例 。 从概念上讲 , 精确匹配是一个严格的度量 , 对于具有大量类空间的 MDC 任务 , 其值可能相当低 。
  • Sub-Exact Match:

基于 kNN 特征扩增的多维分类文章插图
次精确匹配对应于精确匹配的一个宽松版本 , 它测量测试示例的比例 , 其中 MDC 预测器在所有类空间中最多进行一个错误分类 。
比较方法 KRAM 是一种从 MDC 实例中学习的元策略 , 它可以与任何现成的 MDC 学习算法(如表 1 中的 L 相结合来提高其泛化性能 。 在本文中 , 四种成熟的 MDC 方法被用于实例化 KRAM:
  • 二元关联 (Binary Relevance)::这种方法将多维分类问题分解为若干个独立的多类分类问题 , 每个类空间一个 。
  • 分类器链集合(Ensembles of Classifier Chains):该方法将多维分类问题转化为多类分类问题链 , 其中链中的后续分类器是通过将前面的预测作为额外特征来构建的 。 具体地说 , 用不同的随机链式次序建立分类器链的集合 。
  • 类幂集集合(Ensembles of Class Powerset)该方法将多维分类问题转化为一个多类分类问题 , 将 MDC 类变量的每个不同组合视为一个新的类 。 具体地说 , 通过随机抽样 MDC 训练集来构建一个类集模型 。
  • 超分类器集合(Ensembles of Super Class classifiers)这种方法的工作原理是将 MDC 类变量划分为多个超类组 , 其中类变量之间的条件依赖关系用于完成划分过程 。 具体来说 , 通过随机抽样 MDC 训练集来建立一个超级类模型的集合 。
从原始 MDC 训练集中随机抽取 67%的样本来生成基本 MDC 模型 , 对于集成方法 ECC、ECP 和 ESC , 基本分类器的数目设为 10 个 。 此外 , 基本 MDC 模型的预测是通过多数投票来组合的 。