基于 kNN 特征扩增的多维分类( 二 )

  • Thyroid 处理基于患者信息估计甲状腺问题类型的任务 , 其中 7 个类空间对应于 7 种不同情况的诊断 。
  • 表 2 中的最后四个数据集来自基准多标签学习任务 , 包括音频分类:Music、图像分类:Image、Scene;基因功能分析:Yeast 。 这里 , 每个类空间对应于一个二进制值的类变量 , 该变量指定一个概念是否与示例相关 。
  • 评价指标:
    基于 kNN 特征扩增的多维分类文章插图
    • Hamming Score:

    基于 kNN 特征扩增的多维分类文章插图
    【基于 kNN 特征扩增的多维分类】Hamming 分数衡量了 MDC 预测器正确分类的类空间的平均分数 。
    • Exact Match:

    基于 kNN 特征扩增的多维分类文章插图
    精确匹配度量 MDC 预测器对所有类空间进行正确分类的测试示例的比例 。 从概念上讲 , 精确匹配是一个严格的度量 , 对于具有大量类空间的 MDC 任务 , 其值可能相当低 。
    • Sub-Exact Match:

    基于 kNN 特征扩增的多维分类文章插图
    次精确匹配对应于精确匹配的一个宽松版本 , 它测量测试示例的比例 , 其中 MDC 预测器在所有类空间中最多进行一个错误分类 。
    比较方法 KRAM 是一种从 MDC 实例中学习的元策略 , 它可以与任何现成的 MDC 学习算法(如表 1 中的 L 相结合来提高其泛化性能 。 在本文中 , 四种成熟的 MDC 方法被用于实例化 KRAM:
    • 二元关联 (Binary Relevance)::这种方法将多维分类问题分解为若干个独立的多类分类问题 , 每个类空间一个 。
    • 分类器链集合(Ensembles of Classifier Chains):该方法将多维分类问题转化为多类分类问题链 , 其中链中的后续分类器是通过将前面的预测作为额外特征来构建的 。 具体地说 , 用不同的随机链式次序建立分类器链的集合 。
    • 类幂集集合(Ensembles of Class Powerset)该方法将多维分类问题转化为一个多类分类问题 , 将 MDC 类变量的每个不同组合视为一个新的类 。 具体地说 , 通过随机抽样 MDC 训练集来构建一个类集模型 。
    • 超分类器集合(Ensembles of Super Class classifiers)这种方法的工作原理是将 MDC 类变量划分为多个超类组 , 其中类变量之间的条件依赖关系用于完成划分过程 。 具体来说 , 通过随机抽样 MDC 训练集来建立一个超级类模型的集合 。
    从原始 MDC 训练集中随机抽取 67%的样本来生成基本 MDC 模型 , 对于集成方法 ECC、ECP 和 ESC , 基本分类器的数目设为 10 个 。 此外 , 基本 MDC 模型的预测是通过多数投票来组合的 。
    基于 kNN 特征扩增的多维分类文章插图
    实验结果
    基于 kNN 特征扩增的多维分类文章插图
    基于 kNN 特征扩增的多维分类文章插图
    基于 kNN 特征扩增的多维分类文章插图
    基于 kNN 特征扩增的多维分类文章插图
    基于 kNN 特征扩增的多维分类文章插图
    根据报告的实验结果 , 可以观察到:
    基于 kNN 特征扩增的多维分类文章插图
    基于 kNN 特征扩增的多维分类文章插图
    结论本文的主要贡献有两个方面:1)提出了一种新的基于特征空间的多维分类策略 , 为学习 MDC 实例提供了一种新的解决方案;2)设计了一种基于¥看¥ NN 增广特征的简单而有效的方法来证明所提策略的合理性 , 其有效性在广泛的比较研究的基础上得到了充分的验证 。 在将来 , 探索 MDC 特性空间操作的其他方法是很有趣的 。 此外 , 针对特定的 MDC 方法设计特征扩充技术也值得进一步研究 。
    本文由南京大学软件学院 2020 级硕士柯轶东转述