探索主题模型可解释性问题( 二 ) LDA主题模型（LatentDirichletAllo

经过下载维基汉字语料库、繁简体转换、解霸分词、训练词向量4个步骤，我们计算得到每个主题中词与词之间同义性的量度（数值范围0—1 ，越趋近于1 ，词义越相似），再与之前得到的人工评估结果进行比较（数值范围1—5 ，数值越大，主题越易解释）。我们假定，两个值应该呈现正相关性，然而计算结果显示出一种极弱的负相关性（如图一左所示）。
假设二对应于计算主题词的熟悉度与主题解释性之间的关系，我们考虑从测量主题熵和主题词词频两个方面来进行。主题的“香农熵”就是测量该主题在语料库文档中的分布。主题熵值越高，该主题就越可能成为许多文档的高权重主题。按照我们的假定，主题熵与主题的解释性之间应呈现出一种负相关性，因为主题熵越低，主题出现在更少的文档中，意义更明确。数据结果与我们假定一致，但显示出的相关性很弱（如图一中所示）。
关于词频，词频越高，意味着人们对该词越熟悉。因此，由高频词主导的主题意义就更易解释。虽然高频词往往是如“礼”“理”“道”“气”这类具有多重语义蕴涵的中国哲学核心词，但多重语义并不降低主题的可解释性，因为人们识别主题意义时，往往根据词与词的相关性（即语境）作判断。而主题模型的主题恰恰可以聚类析别出一个多义词的不同语境。比如， “气”分别有中医理论的气、道家宇宙论的气、理学工夫论的气等语境。因此，我们假定主题词频应与可解释性呈正相关。数据结果与我们的假定一致，但显示的正相关性也很弱（如图一右所示）。
另外，在计算词频时，考虑到汉典的古汉语语境，以及人工评估主体处于当下认知文化背景，我们使用的是汉字词频表而非汉语词词频表，而且是现代汉字词频表而非古代汉字词频表。
讨论及反思
在主题模型的解释学探究中，一个重要而有趣的认知问题是，人们究竟是如何概括得出主题模型中一个个词群的意义的？我们对人工评估出的最易和最难解释的各自TOP10主题进行仔细考察，发现除上述考察的词语熟悉度因素外，评估者对主题可解释性的判断还可能基于是否能将字组成词。由此，我们将各个主题前15个单字词进行排列组合，计算其能组成的双字词、三字词和四字词的数量总和，再通过对照现代汉语词典和词频列表检查这些组合，从而得到以此方式组成的有意义词语的数量（如图二所示）。数据分析显示，可形成有意义词语的数量（即该主题的可组合性）与可解释性呈正相关，与我们的预测一致。
上述我们的初步分析得出，主题词的语义相似性、主题熵和主题词频率是评估主题模型质量的三种可能的计算方法。但是，当评估者在评估主题的可解释性时，相比词与词之间的语义相似度，人对词的熟悉度对于主题可解释性的影响可能更为重要，根据熟悉度设计计算方法可能更有意义。同时，考察人们如何在汉典主题模型背景下解释一组主题词，并发现主题中单字词之间的关系，也是一个值得进一步探究的问题。考虑到前面测量主题词距与可解释性之间得到的弱相关结果，将词距测量与可组合性结合，可作为进一步考察的思路。
【探索主题模型可解释性问题】（作者单位：西安交通大学计算哲学实验室；南京大学哲学系；美国匹兹堡大学科学史与科学哲学系）

来源：中国社会科学网-中国社会科学报
作者：王小红浦江淮 Colin Allen
获取更多学术资讯请关注中国社会科学网官方微信公众号cssn_cn