中国|中国提出的AI方法影响越来越大，天大等从大量文献中挖掘AI发展规律( 三 ) 高薪|发展规律|文献|方法|中国

3.2 AI 标记的抽取与归一
AI 标记的抽取与归一具有很大的挑战。由于每年都会涌现出大量 AI 文献，新的 AI 标记数量不断增加，形式也多种多样，一些常见词可能也会被当作数据集。例如 DROP 在 2019 年发表的 [2] 中被当成数据集。AI 标记的命名没有特定的规范。此外，一些 AI 标记存在歧义的问题。例如 CNN，既可以表示 Cable News Network 数据集，又可以表示 Convolutional Neural Networks 方法。比如 LDA，既可以表示 Latent Dirichlet Allocation 方法，又可以表示 Linear Discriminant Analysis 方法。
3.2.1 AI 标记抽取模型
AI 标记抽取是一个典型的命名实体识别问题。本文采用的 AI 标记抽取模型基于目前经典的 CNN+BiLSTM+CRF 框架[15]，并作了小的改进，如图 3 所示。

文章插图
Figure 3：AI 标记抽取模型结构
对于一个输入句子，其中 w_i 表示第 i 个单词。首先将每个单词切分成字符级，通过 CNN 网络获取到每个单词的 character-level embedding。然后经过 Glove embedding[17] 模块获取到每个单词的 word-level embedding。将句子中每个单词的 character-level embedding 与每个单词的 word-level embedding 拼接，然后送入到 Bi-LSTM。使用 self-attention[25] 计算每个单词与其他所有单词之间的关联。最后，将通过 self-attention 获取到的隐向量送入 CRF[10]，得到每个单词的标签序列 y。y∈，分别对应方法、数据集、指标和其他。
【 中国|中国提出的AI方法影响越来越大，天大等从大量文献中挖掘AI发展规律】3.2.2 实验设置
模型参数设置如下。最大句子长度选取为 100，最大单词长度选取为 50，batchsize 选取为 16。字符级 CNN 网络使用 5 个并列的 3D 卷积 - 激活 - 最大池化，5 次卷积中每次分别用 10 个 1*1*50,1*2*50,1*3*50,1*4*50,1*5*50 的 3 维卷积核，激活函数均使用 ReLU。最后将 5 次得到的结果进行拼接，得到每个单词 50 维字符级词向量。Bi-LSTM 选用一层，hidden 维度选为 200，self-attention 的 hidden 维度选为 400。
3.2.3 评估结果
利用原始样本与其对应的小写化后的样本对模型进行训练。在测试时，我们分别对测试样本（1040 个句子）及其对应的 1040 个小写化后的样本进行测试。AI 标记抽取模型的评估结果如表 3 所示。

文章插图
Table 3：AI 标记抽取模型评估结果
由表 3 可看出，相比于传统的 CNN+BiLSTM+CRF 模型，我们的模型无论是对于 AI 标记的整体识别，还是各个 AI 标记的单独识别，在 F1、Recall、precision 三个指标上效果均有所提高。此外，结合黑白名单等规则进行优化后，我们模型的 F1 为 0.864，Recall 为 0.876，Precision 为 0.853。
3.2.4 AI 标记归一
对于一些有多种表示形式的 AI 标记，我们制定了一系列的规则策略进行归一化。例如，对于方法「Long Short-Term Memory」，我们将「LSTM」、「LSTM-based」、「Long Short-Term Memory」等归一化成「LSTM (Long Short-Term Memory)」。对于指标「accuracy」，我们将「mean accuracy」、「predictive accuracy」等包含「accuracy」的指标都归一化成「accuracy」。详细归一化策略参见附录 A。对于出现的一些一词多义的情况，考虑到很多 AI 标记能够根据实体类别进行区分，且同一类型的一词多义出现概率很小，我们不对这种情况专门进行处理。
3.3 AI 标记原始论文溯源
要想得到一个方法或数据集从提出开始逐渐被其他文献引用的研究踪迹，首先需要追溯到方法和数据集的原始文献。我们将追溯到的方法和数据集原始文献称为「原始论文」。我们只对明确出现在后续文献的方法或者实验章节的方法或数据集进行追溯。
3.3.1 溯源方法
考虑到在一篇文献中，方法或数据集在被引用时，后面经常会附有其对应的原始论文。因此，在我们提出的溯源方法中，对于每个 AI 标记，我们首先找出引用该 AI 标记的文献集合。对于文献集合中的每篇文献，查找该 AI 标记出现的句子集合。对于每个句子，查看该 AI 标记后面的一个位置或者两个位置是否有参考文献，将有参考文献的信息记录下来。最后，将每个 AI 标记对应的引用数量最多的文献作为其原始文献。
3.3.2 评估结果
利用本文的溯源方法，我们追溯到了 CCF corpus 中提出的被明确引用次数大于 1 的方法的原始文献 4105 篇，方法 5118 个。追溯到 CCF corpus 中提出的被明确引用次数大于 1 的数据集的原始文献 949 篇，数据集 1265 个。
我们随机抽取得到的结果中被明确引用次数为 5、4、3、2 的方法各 200 个，被明确引用次数为 5、4、3、2 的数据集各 100 个。对这 800 个方法和 400 个数据集对应的原始文献结果进行人工评估，评估结果见表 4。结果准确率都超过了 90%。