探索主题模型可解释性问题( 二 )


经过下载维基汉字语料库、繁简体转换、解霸分词、训练词向量4个步骤 , 我们计算得到每个主题中词与词之间同义性的量度(数值范围0—1 , 越趋近于1 , 词义越相似) , 再与之前得到的人工评估结果进行比较(数值范围1—5 , 数值越大 , 主题越易解释) 。 我们假定 , 两个值应该呈现正相关性 , 然而计算结果显示出一种极弱的负相关性(如图一左所示) 。
假设二对应于计算主题词的熟悉度与主题解释性之间的关系 , 我们考虑从测量主题熵和主题词词频两个方面来进行 。 主题的“香农熵”就是测量该主题在语料库文档中的分布 。 主题熵值越高 , 该主题就越可能成为许多文档的高权重主题 。 按照我们的假定 , 主题熵与主题的解释性之间应呈现出一种负相关性 , 因为主题熵越低 , 主题出现在更少的文档中 , 意义更明确 。 数据结果与我们假定一致 , 但显示出的相关性很弱(如图一中所示) 。
关于词频 , 词频越高 , 意味着人们对该词越熟悉 。 因此 , 由高频词主导的主题意义就更易解释 。 虽然高频词往往是如“礼”“理”“道”“气”这类具有多重语义蕴涵的中国哲学核心词 , 但多重语义并不降低主题的可解释性 , 因为人们识别主题意义时 , 往往根据词与词的相关性(即语境)作判断 。 而主题模型的主题恰恰可以聚类析别出一个多义词的不同语境 。 比如 , “气”分别有中医理论的气、道家宇宙论的气、理学工夫论的气等语境 。 因此 , 我们假定主题词频应与可解释性呈正相关 。 数据结果与我们的假定一致 , 但显示的正相关性也很弱(如图一右所示) 。
另外 , 在计算词频时 , 考虑到汉典的古汉语语境 , 以及人工评估主体处于当下认知文化背景 , 我们使用的是汉字词频表而非汉语词词频表 , 而且是现代汉字词频表而非古代汉字词频表 。
讨论及反思
在主题模型的解释学探究中 , 一个重要而有趣的认知问题是 , 人们究竟是如何概括得出主题模型中一个个词群的意义的?我们对人工评估出的最易和最难解释的各自TOP10主题进行仔细考察 , 发现除上述考察的词语熟悉度因素外 , 评估者对主题可解释性的判断还可能基于是否能将字组成词 。 由此 , 我们将各个主题前15个单字词进行排列组合 , 计算其能组成的双字词、三字词和四字词的数量总和 , 再通过对照现代汉语词典和词频列表检查这些组合 , 从而得到以此方式组成的有意义词语的数量(如图二所示) 。 数据分析显示 , 可形成有意义词语的数量(即该主题的可组合性)与可解释性呈正相关 , 与我们的预测一致 。
上述我们的初步分析得出 , 主题词的语义相似性、主题熵和主题词频率是评估主题模型质量的三种可能的计算方法 。 但是 , 当评估者在评估主题的可解释性时 , 相比词与词之间的语义相似度 , 人对词的熟悉度对于主题可解释性的影响可能更为重要 , 根据熟悉度设计计算方法可能更有意义 。 同时 , 考察人们如何在汉典主题模型背景下解释一组主题词 , 并发现主题中单字词之间的关系 , 也是一个值得进一步探究的问题 。 考虑到前面测量主题词距与可解释性之间得到的弱相关结果 , 将词距测量与可组合性结合 , 可作为进一步考察的思路 。
【探索主题模型可解释性问题】(作者单位:西安交通大学计算哲学实验室;南京大学哲学系;美国匹兹堡大学科学史与科学哲学系)

  • 来源:中国社会科学网-中国社会科学报
  • 作者:王小红 浦江淮 Colin Allen
  • 获取更多学术资讯 请关注中国社会科学网官方微信公众号cssn_cn