最强|剑指临床试验的设计难题！达摩院提出新模型EBM-Net，比最强基线模型准确率高9.6%( 二 ) 模型|难题|准确率|基线|达摩

为了解决上述临床试验结果预测任务，达摩院的团队提出了针对循证医学的EBM-Net模型，其结构如图2所示，具体分为三步进行：
首先，用启发式方法收集隐式证据；
然后，用隐式证据预训练比较语言模型；
最后，用预训练的模型进行临床试验结果预测。
收集隐式证据临床证据常常以一种比较的形式表达，如“瑞德西韦比对照组有更好的治疗新冠肺炎的疗效”，而找到这些证据就可以为我们提供训练文本。
研究团队发现，PubMed和PubMed Central是一个提供生物医学方面的论文搜寻以及摘要，文献资源中就包含需要的证据文本（注：医学领域最好的大规模语言模型BioBERT的训练数据即来自PubMed）。
这篇论文提出用关键词匹配的方法，收集PubMed和PubMed Central中所有含有比较语义的句子：
为寻找表达升高和降低的语义，匹配含有“than”的句子，再进一步匹配形容词或副词的比较级，如“higher”，“smaller”等，同时含有“than”和一个或更多比较级的句子被收集；为寻找表达相似的语义，匹配含有“no difference between”和“similar to”模式的句子。
这些句子被称为隐式证据，因为它们往往隐式地含有临床证据所需要的PICO组分。他们还收集这些句子对应的文章摘要里的背景和方法的部分，作为隐式证据的背景B。
这种方法可以从PubMed和PubMed Central中提取出1180万条隐式证据，其中240万条表达结果降低，350万条表达结果相似，590万条表达结果升高。
预训练比较语言模型将收集到的隐式证据中提示结果语义的词去除，就构造了一个类似语言模型训练的问题，通过给定上下文信息，预测去除的比较词。
论文中改进语言模型，提出用比较语言模型预训练一个Transformer编码器模型，即EBM-Net，以获取预测临床试验结果的能力。具体地，两组样本被用于预训练：
1、用正序的隐式证据预测其结果；
2、用反序的隐式证据预测相反的结果。
加入反序的例子有利于模型学到治疗组和对照组之间的比较，而不是语言模型里的共现关系。
临床试验结果预测在微调和测试时，团队将一个新临床试验要研究的PICO要素拼接成E，将E和其研究背景B输入到上述预训练好的EBM-Net模型中，输出其预测的比较结果，从而预测临床试验的结果。
标准数据集的试验结果EBM-Net在临床试验结果预测任务的标准数据集Evidence Integration试验结果如图3所示：

文章插图
从结果中可以看出：
1、EBM-Net相比其他方法，包括随机预测、词袋+逻辑回归、利用MeSH知识图谱、信息检索+阅读理解模型以及目前生物医学NLP领域的SOTA模型BioBERT，都有很大的提高：BioBERT作为最强的基线模型，也比EBM-Net低了10.7%的相对macro-F1和9.6%的准确率；
2、EBM-Net相比其他方法在对抗攻击下更鲁棒：用|Δ||Δ|，即在对抗数据集上的accuracy的相对减少的值来衡量模型的鲁棒性，|Δ||Δ|越大表示模型越易受攻击。
BioBERT的|Δ||Δ|几乎是EBM-Net的两倍（5.1%比2.7%），说明EBM-Net远比BioBERT鲁棒；
EBM-Net用于新冠肺炎相关临床试验达摩院团队还基于COVID-evidence数据库提取了截止5月12日前完成的22篇临床试验的结果，以本工作定义的临床试验结果预测的格式构建了一个小型数据集。
达摩院团队提出的EBM-Net模型在该数据集上进行留一法验证得到的macro-F1和accuracy都远高于BioBERT，分别是45.5%比36.1%和59.1%比50.0%，再一次验证了EBM-Net的有效性。
总结为了优化临床试验的设计过程，本文从NLP的角度定义了临床试验结果预测任务，并且提出了一种基于大规模隐式证据预训练的EBM-Net模型来解决这个任务。
EBM-Net在标准数据集和新冠肺炎相关临床试验上都有较好的表现，大幅超过生物医学NLP的SOTA模型BioBERT。
未来，临床试验可以在EBM-Net等相关模型的协助下进行设计：
当我们固定了想要研究的疾病人群（P）和观察指标（O）后，可以固定以现有的标准治疗为对照（C），遍历每种可能的新型治疗方式（I）以及其相关的背景介绍（B），用模型预测其成功的概率，优先选取所有可能的治疗方式中成功概率高的做临床试验。
当然，模型在技术上还需要进一步地提高才能更好地辅助临床试验设计。后续，我们可以把团队构建的大规模医学知识图谱集成在模型中，使其拥有更准确和鲁棒的预测能力。雷锋网