中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律( 十 )


[31] Bin Zheng, David C McLean, and Xinghua Lu. 2006. Identifying biological concepts from a protein-related corpus with a probabilistic topic model. BMC bioinformatics 7, 1 (2006), 58. https://doi.org/10.1186/1471-2105-7-58
附录 A. 归一化策略
1 方法
1) 除了「C4.5」、「ID3」等特殊方法以外,其余方法去除数字。如果方法是复数形式,则将其转换为单数形式。例如,「SVMs」归一化成「SVM」。
2) 将去除数字和转为单数形式后,小写化形式相同的方法归一化成同一种形式。
3) 将词组中全由小写字母构成的单词去除后,小写化形式相同的方法归一化成同一种形式。
4) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有方法中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。例如将「Long Short-Term Memory」和「LSTM」,都归一化成「LSTM (Long Short-Term Memory)」。
2 数据集
1) 去除数据集中的数字。如果数据集是复数形式,则将其转换为单数形式。例如,「COLT 2011」归一化成「COLT」。
2) 将去除数字和复数后,小写化形式相同的数据集归一化成同一种形式。
3) 如果词组中有单词以大写字母开头,则只保留词组中以大写字母开头的单词。例如,「Yale face」归一化成「Yale」。
4) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有数据集中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。
3 指标
1) 去除指标中的数字。如果指标是复数形式,则将其转换为单数形式。例如,「error rates」归一化成「error rate」。
2) 将去除数字和复数后,小写化形式相同的指标归一化成同一种形式。
3)只要指标中包含 recall、accuracy、precision、speed 或 error rate 这几个词,就把指标都分别归一化成「recall」、「accuracy」、「precision」、「speed」、「error rate」。例如,「mean accuracy」、「predictive accuracy」等包含「accuracy」的指标都归一化成「accuracy」。
4) 只要指标中包含 F-score、F-measure、macroF、microF、F1,就把指标都归一化为「F-measure」。
5) 如果词组中的某个单词全由大写字母组成且该词组最后一个单词不是 rate、ratio、error,则只保留全由大写字母组成的单词。例如,「ACC information」归一化成「ACC」,「RMS error」归一化成「RMS error」。
6) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有指标中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。
Java工程师入门深度学习(三):轻松上手Deep Java Library
DJL是亚马逊推出的开源的深度学习开发包,它是在现有深度学习框架基础上使用原生Java概念构建的开发库。DJL目前提供了MXNet,、PyTorch和TensorFlow的实现。Java开发者可以立即开始将深度学习的SOTA成果集成到Java应用当中。
11月5日20:00,魏莱(AWS算法工程师)将带来线上分享,介绍DJL主要模块并结合具体场景讲解各模块的使用方法、主要API的使用方法和注意事项、神经网络从训练到部署的基本流程并结合动手深度学习Java版讲解具体代码和实操展示。