Nature | 贝叶斯反应优化在化学合成中的应用( 二 )
优化器的发展
对于给定的搜索空间 , 贝叶斯反应优化首先通过实验设计(如DOE或atrandom)或从已有的结果中收集初始反应结果数据(图1c) 。 这些数据被用来训练一个概率代理模型 , 该模型是通过将之前的观测结果与一个先验函数相结合来构建的 , 该先验函数捕捉了我们对反应响应面的假设(如平滑度和实验噪声) , 这使得推断全局最优位置成为可能 。 在训练代理模型之后 , 通过优化获取函数 , 在反应空间中依次选择新的实验 , 以最大化候选实验的预期效用 , 用于下一次评估(图1c) 。 最后 , 对所提出的实验进行了验证 , 并将实验结果添加到记录中 , 并更新代理模型后验 。 这一过程不断重复 , 直到反应收率最大化 , 资源耗尽或空间探索到不太可能找到改进的条件 。 研究者首先开发了一个用于贝叶斯反应优化的灵活python包 , 名为“通过贝叶斯优化实验设计”(EDBO) 。 在EDBO的开发中 , 研究者强调了一个简单但模块化的界面、任意用户定义的反应空间的使用以及对人在回路或自动优化的适用性 。 研究者选择用不同的随机初始启动数据进行反应优化 , 选择平均损失小、结果方差小、最坏情况损失小的优化器配置 。 同时发现 , 利用密度泛函理论编码的反应空间、高斯过程代理模型和并行的预期改进作为获取函数(见下文) , 利用可用的反应数据可以获得良好的优化性能 。 研究者从文献中收集了反应数据 , 用于优化器的开发和评估 , 图2选取了SuzukiMiyaura(1)和BuchwaldHartwig反应(2a-2e)的钯催化交叉偶联数据 , 其目标是在数百或数千种可能的反应条件组合的情况下优化所需产品的收率 。 
文章图片
图2.使用训练数据用于选择贝叶斯优化器参数
图片来源于Nature
研究者探索了基于化学描述子指纹的反应编码的使用 , 该编码基于通过DFT计算的反应组分的量子化学性质 , 使用开源库生成的化学信息学描述子和二进制单热编码(OHE)表示 。 在分别对每种数据类型的优化器进行优化后 , 研究者发现使用每种编码进行并行反应优化的平均损失 , 在很大程度上无法区分 。 然而 , DFT编码描述符在最坏情况损失方面给出了最一致的结果(所有反应的产率≤5% , 相对于Mordred和OHE分别≤15%和≤8%) 。 因此 , 研究者选择使用DFT描述符来进行剩下的实验 。
接下来 , 研究者分析了各种代理模型的性能 。 一个有效的代理模型最基本的要求是做出预测和估计方差的能力 。 为了获得良好的性能 , 必须对代理模型进行优化 。 在这里 , 研究者根据反应1和2a-e的回归性能 , 选择了代理模型参数 。 研究过程中 , 研究者发现在平均损失、结果方差和最坏情况损失方面 , 带有Matérn内核的高斯过程模型提供了优于随机森林模型的优化性能 。
训练代理模型后 , 通过优化获取函数 , 依次选择反应空间中的新实验(图1c) 。 贝叶斯优化(以及一般的主动学习方法)的中心原则是利用信息和不确定性来驱动优化 。 作为插值方法 , 常数平均高斯过程倾向于预测当前最佳观测值附近的最高产量 。 相比之下 , 通过选择预测不确定性最大的点进行评估 , 开拓性采集函数(纯搜索)将倾向于更彻底地研究整个响应面 。 为了演示二分法 , 研究者在同一点初始化后 , 在反应1的二维表示中追踪了开拓者和探索者的决定(图3a) 。 实际上 , 在前10次评估中 , 开发人员留在单个集群中 , 而探索人员则遍历整个空间 , 访问通过k-均值聚类确定了所有5个更大的集群 。 接下来 , 研究者通过测量其对整个空间的适合度 , 来跟踪与每个获取函数相关的代理模型的理解(图3b) 。 在50个实验过程中 , 探索者和开拓者的分数出现了分歧 , 因为探索者更适合反应表面 。 最后 , 研究者考虑了两种算法研究的每个反应的产率(图3b) , 发现探险者和开拓者选择的大多数点分别给出了低产率和高产率 。 
文章图片
图3.反应优化中的探索与开发的平衡
图片来源于Nature
在实践中 , 从平衡探索和开发的实用程序中 , 得到的采集函数通常在非凹优化中提供更好的性能 。 重要的是 , 该实用程序可以写成模型后验分布的函数 , 这使得评估成本低廉 , 并使信息收集明确地纳入候选选择中 。 另外 , 由于高斯过程代表了函数的分布 , 人们可以绘制并最大化候选模型 , 使其适合信息可用的数据 , 并根据函数形状和未知区域的估计方差变化而变化——这个过程称为汤普森抽样 。 实际上 , 与纯粹的开发和探索相比 , 优化反应1的预期改进路径访问五个集群中的三个 , 对应的代理模型对反应响应面具有中等拟合(图3a-b) 。
- 中国汽车品牌是对特斯拉的真正威胁吗?
- 马斯克:全自动驾驶测试版需求量高 将推出下载测试版快速入口
- 特斯拉CEO埃隆·马斯克:将在大约10天内将“下载测试版”按钮添加到汽车显示屏服务功能上
- 特斯拉|约谈,道歉,特斯拉在华到底怎么了(一)
- 特斯拉大陆超充桩数量破6000
- 英超最新积分榜:莱斯特城逆转绝杀,曼联掉到第3名
- 八强诞生!中国斯诺克两大王牌晋级,特鲁姆普轰出两个4-0
- 数读3月6日全球疫情:全球日增确诊超42万例 累计超1.17亿例 俄罗斯总统顾问确诊新冠肺炎
- 斯巴鲁力狮,外观设计豪华大气,你会喜欢吗?
- 斯柯达又一黑马,奥迪的底盘保时捷设计,售价良心预计16万
