知社学术圈|npj:即时主动学习—捕捉稀有原子事件的力场


知社学术圈|npj:即时主动学习—捕捉稀有原子事件的力场
文章图片
近年来机器学习(ML)的快速发展使得基于第一性原理计算高效获得高精度分子动力学力场成为可能 。 目前人们已经发展了许多机器学习的力场模拟方法 , 由此实现了众多分子和固态系统的高精度计算 , 其精度接近密度泛函理论(DFT)等的量子力学方法 , 同时计算量显著降低 。 然而 , 当前大多数可用的ML力场只能给出能量、力和应力点的估算 , 而不是预测性分布 , 因而不能显示模型的不确定性 。 若没有模型不确定性估算 , 力场的拟合将费时费力 , 即需要从第一性原理计算数据库中手动或随机选择数千个参考结构来拟合 。 另外 , 在分子动力学模拟中 , 由于缺乏对模型不确定性的评估方法 , 将难以确定力场何时是可信赖的 , 从而导致结果的不可靠 。
来自美国哈佛大学的JonathanVandermause和BorisKozinsky共同领导的团队报道了一种基于机器学习的力场构建方法 。 该方法基于高斯过程回归的主动学习框架发展 。 其优势有二:其一 , 可以基于密度泛函理论(DFT)计算获得小数据集(~100个)来获得精确的力场;其二 , 通过误差估计可在偏离训练数据时自动进化 。 该优势使得该方法可以准确模拟和捕捉那些短暂且发生概率较低的原子事件 。 这些优势源于该模型使用了完全可解释的、低维的、非参数化力场 。 与经典的Stillinger-Weber力场类似 , 本研究使用的力场是基于多体原子间相互作用的 , 通常在2体和3体模型下即可具有足够的精度 。 基于此 , 可将描述符空间简化为一个低维空间 , 这一方面使得通过一组小的训练数据即可对全空间进行采样 , 另一方面也简化了学习任务 , 从而可以采用数据驱动的方式实现参数的自动调整 。 将该方法应用于含有单一或多种元素体系的分子动力学模拟 , 如铝晶体熔化、空位扩散和原子扩散、AgI中离子扩散等 。 结果表明 , 他们的方法能以低几个数量级的计算成本获得与DFT计算相当的精度 , 目前已完全在线开源发布 。
该文近期发表于npjComputationalMaterials6:20(2020) , 英文标题与摘要如下 , 点击https://www.nature.com/articles/s41524-020-0283-z可以自由获取论文PDF 。
知社学术圈|npj:即时主动学习—捕捉稀有原子事件的力场
文章图片
On-the-flyactivelearningofinterpretableBayesianforcefieldsforatomisticrareevents
JonathanVandermause,StevenB.Torrisi,SimonBatzner,YuXie,LixinSun,AlexieM.Kolpak&BorisKozinsky
Machinelearnedforcefieldstypicallyrequiremanualconstructionoftrainingsetsconsistingofthousandsoffirstprinciplescalculations,whichcanresultinlowtrainingefficiencyandunpredictableerrorswhenappliedtostructuresnotrepresentedinthetrainingsetofthemodel.Thisseverelylimitsthepracticalapplicationofthesemodelsinsystemswithdynamicsgovernedbyimportantrareevents,suchaschemicalreactionsanddiffusion.WepresentanadaptiveBayesianinferencemethodforautomatingthetrainingofinterpretable,low-dimensional,andmulti-elementinteratomicforcefieldsusingstructuresdrawnontheflyfrommoleculardynamicssimulations.Withinanactivelearningframework,theinternaluncertaintyofaGaussianprocessregressionmodelisusedtodecidewhethertoacceptthemodelpredictionortoperformafirstprinciplescalculationtoaugmentthetrainingsetofthemodel.Themethodisappliedtoarangeofsingle-andmulti-elementsystemsandshowntoachieveafavorablebalanceofaccuracyandcomputationalefficiency,whilerequiringaminimalamountofabinitiotrainingdata.Weprovideafullyopen-sourceimplementationofourmethod,aswellasaproceduretomaptrainedmodelstocomputationallyefficienttabulatedforcefields.