探索主题模型可解释性问题

LDA主题模型(Latent Dirichlet Allocation Topic Model , LDA-TM) , 因其远读和超书架功能能够以主题词聚类的方式直观呈现单个文本及海量文本库所隐含的语义结构 , 被越来越多地用于辅助人文解释和论证 , 目前已涵盖新闻传播、文学、史学、文化学、诗歌、中国古代典籍和哲学等各个领域 。 例如 , 西安交通大学与美国印第安纳大学合作开发的汉典主题模型 , 就是在古汉语文本语料库基础上建立的LDA主题模型 。
然而 , 人工智能和机器学习只是呈现出算法得出的词汇聚类 , 究竟每个类(即主题)有什么意义 , 至少目前来说还需要由人来解释 。 形象地说 , 由人结合人文领域专业知识给出解释 , 就是给主题贴标签 。 而人类使用者只能通过检视一个主题中极少量的最高概率核心词作判断 , 这里就存在如下两个问题 。 一是全部词项在每个主题中是全概率分布 , 仅依靠前15或20个最高权重词来判断一个主题的意义 , 实际上不得不放弃绝大多数词的主题权重 , 结果是否会存在一定局限性?我们实验室的另一项工作正在对此进行探究 。 二是基于人文语料库训练的LDA主题模型需要有良好的质量 , 这是解释和论证的基础 , 那么 , 可否建立评估模型质量的计算方法?本项工作就是从主题模型的解释学视角首次进行这样的尝试 。
作为机器学习辅助人文研究的一种新工具 , LDA主题模型具有良好的质量 , 就意味着训练出的词语集簇(主题)具有可解释性 , 使人们容易判断和解释其意义 。 虽然对于如“汉典”这类基于人文语料库的主题模型来说 , 并不存在对主题内容的统一标准解释 , 但当评估者实际面对主题时 , 不同主题的解释难度的确存在较大差异 。 因此 , 我们将模型的可解释性与人工得出判断的难易程度相关联 , 即人工作出判断的难度越低 , 该模型的可解释性就越好 。 因为背景知识水平、目标、动机及判断过程中出现的各种其他心理因素的差异 , 人工判断的结果往往差异较大 。 而且 , 进行人工判断还需找到并组织合适的人员来参与评估模型 , 这种方式的效率较为低下 。 我们的目标是参照人工评估结果 , 尝试建立可靠的计算方法去评估模型的可解释性 , 以替代效率低下的人工方法 。
以人工评估作为计算评估的参照
我们先通过问卷调查方式获取模型主题质量的人工评估结果 。 我们从国内一所重点大学邀请了150名来自不同专业的学生并将其进行分组 。 通过系统抽样的方法从汉典主题模型中抽取75个主题 , 并将这75个主题进行分组 。 将每个主题的最高权重词的前15个显示给学生(具体形式如 , Topic 25:气 , 服 , 热 , 治 , 病 , 水 , 寒 , 血 , 黄 , 汤 , 脉 , 阳 , 痛 , 药 , 阴) 。 每个主题分别由50个学生通过阅读前15个最具代表性的词语来进行评估 。 我们要求学生用2—3个词概括每一主题的意思 , 并给出解释难易程度的评估分值 。 最终我们收集到3750条数据 。
在评估过程中 , 因评估者心理因素和知识背景等存在多重差异 , 很难找到一个标准的人工评估结果 。 在此次研究中 , 所有评估者都是对中国传统文化有一定常识的大学生 , 他们的知识背景保持大致相同水平 。 这样 , 以平均分数代表人工评估结果是合理的(如果评估者中有一些关于中国传统文化的专家 , 那么评估结果会存在一个等级结构 , 我们则需要对专家评估结果和学生评估结果给予不同的权重) 。 最终 , 每一主题都有50个由评估者给出的分值 , 我们取这50个评估分值的平均值作为该主题的人工评估结果 。
探索可能的计算方法
许多因素都有可能影响人对主题的理解和解释 。 针对汉典主题模型的解释 , 我们提出两个假设 。 假设一:“语义相似性”假设 。 前15个词项间的语义相似性会影响评估者对主题进行概括和解释的难易程度 , 词项之间语义相似性更高 , 评估者就更容易对这一组词项所表达的意义进行概括和解释 。 假设二:“词语熟悉度”假设 。 评估者对一组词的熟悉程度会影响其进行概括和解释的难易程度 , 对词语越熟悉 , 就越容易对该主题所表达的意义进行概括和解释 。
假设一对应的计算方法是测量词距 , 我们采用开源的“中文同义词词典计划”()来测度主题词之间的同义性 。 该词典使用Word2vec()这种人工神经网络方法 , 在具有丰富语境信息的大数据中训练出高质量的同义词模型 。 其原理是将语义表达映射到向量表征 , 这样 , 所有词汇都被映射到一个高维度的向量空间中 , 词与词之间的相似性就可根据高维空间中的向量间距离来测量 。