Nature | 贝叶斯反应优化在化学合成中的应用( 三 )
贝叶斯优化通常 , 可表述为一个次序问题 。 然而 , 对于许多反应优化问题 , 并行运行实验是至关重要的 , 因为时间是一个巨大的成本(许多反应需要数小时或数天才能完成) 。 而汤普森抽样自然适合通过抽样N个候选响应面 , 从高斯过程代理模型的后验预测分布 。 然而 , 为了实现分析性收集函数的并行决策 , 研究者迭代地预测能够最大化收集函数的实验 , 在每一步上采用前一次迭代的替代模型 , 并将其对最可能结果的预测纳入下一个选定的实验 。 研究者发现这些基本算法 , 在并行环境下提供了良好的性能 。 值得注意的是 , 对于反应1和2a-e , 可以观察到并行优化(批数 , 5)与次序优化(批数 , 1)在50个实验预算下的平均表现一样好(p>0.05) 。
在建立了有效的获取和批处理策略后 , 研究者评估了平衡探索和开发的各种收集函数的并行优化性能(图3) 。 总体而言 , 研究者发现平行预期改善和汤普森取样都提供了出色的表现 , 并且他们的平均结果在统计学上无法区分(所有6个反应的p>0.05) 。 然而 , 模拟运行结果的方差和最坏情况损失在汤普森抽样中更大 。 重要的是 , 预期改善的表现非常一致;经过30多个随机初始化 , 它在最优解的狭窄范围内收敛(最坏情况下损失≤5%收益率) 。
基准测试
接下来 , 研究者从统计上评估了DOE方法与贝叶斯优化方法的性能 。 尽管DOE最常用于连续参数的优化 , 但研究者发现了两种有效地用于具有分类变量的化工过程优化的设计:广义子集设计(GSD)和D-优化设计 。 对于开发集合中的每个反应 , 这些基于DOE的优化在平均结果(p<0.05)、标准偏差(贝叶斯优化 , ≤1.9;GSD≤6.9;D-优化≤3.3)和最坏情况损失(贝叶斯优化 , ≤5;GSD≤16;D-优化≤15)偏离贝叶斯优化 。 因此 , 在其他条件相同的情况下 , 贝叶斯优化在使用分类变量的反应优化中不仅应用更简单 , 而且性能更优越 。
在对贝叶斯优化框架为反应优化进行了调整后 , 研究者在一个新的反应空间中进行了统计学性能测试 。 钯催化的C-H功能化 , 由于其不需要预功能化起始材料 , 就能产生分子复杂性而在制药开发中引起了越来越多的兴趣 。 杂环的直接功能化反应 , 是一种非常有吸引力的反应 , 因为它们普遍存在于生物活性化合物中 。 然而 , 对于一个给定的杂芳烃底物的功能化 , 往往需要改进反应条件 , 以达到最佳的反应活性和选择性 。 在这里 , 研究者测试了咪唑的直接芳基化 , 以反应3为例(图4) , 这与商业化合成JAK2抑制剂BMS-911543的关键步有关(图1a) 。 
文章图片
图4.贝叶斯反应优化的统计验证
图片来源于Nature
反应优化真正开始于定义搜索空间 。 为了促进统计验证实验条件的详尽评估 , 研究者首先考虑了一组更大的似是合理的实验 , 然后通过无监督学习量化潜在反应条件之间的相似性 , 并选择那些研究者期望在更大的搜索空间中 , 得到满意分布的条件 。
研究者认为 , 在Bristol–Myers–Squibb(BMS)直接芳基化研究中 , 选择合适的配体、碱、溶剂、温度和浓度对实现最佳反应收率至关重要 。 在这项研究中 , 研究者从70个潜在磷类化物中选择了12个配体(图4) 。 总体而言 , 研究者选择了一个包含1728种反应的子空间 , 包括12种配体、4种碱、4种溶剂、3种温度和3种浓度(图4) , 作为一组易于处理的实验来作为真实情况 。
接下来 , 研究者通过HTE收集了整个搜索空间的实验结果(图4) 。 然后 , 为了将贝叶斯优化的表现与人类专家的表现进行对比 , 研究者开发了一个游戏 , 跟踪不同背景和经验水平的化学家在优化反应3时所做的决策 。 虽然游戏的目的是在固定的实验预算下模拟反应优化 , 但数据是真实的 。 每次实验“运行”返回实验室中相应实验的实际结果 。 在游戏中 , 参与者有“一个月”的时间 , 来寻找反应的最佳条件 , 并有能力“每个工作日”进行一批五项实验 。 参与者通过一个返回结果 , 并跟踪他们决定的网络应用程序来“运行”他们的实验 。
总共有50名来自学术界和工业界的专家化学家和工程师参与了反应优化游戏(图4c) 。 因此 , 贝叶斯反应优化器也玩了50次游戏(图4b) , 每次都以不同的随机初始化开始 。 人类参与者和机器学习优化器之间的第一个比较点是他们在优化过程中每一步的原始最大观测产量 。 人类的初始选择明显优于随机选择(p<0.05) , 在第一批实验中发现的条件平均高出15% 。 然而 , 即使是随机初始化 , 在5个实验的3个批次中 , 优化器的平均性能超过了人类 。 值得注意的是 , 与人类参与者相比 , 贝叶斯优化>99%的时间 , 产出100%的实验预算 。 在前50个实验中 , 贝叶斯优化倾向于 , 发现全局最优条件(CgMe-PPh,CsOPiv或CsOAc,DMAc,0.153M,105°C)(图4b) 。 重要的是 , 据目前所知 , CgMe-PPh还没有被用作咪唑直接芳基化的配体 。 因此 , 有经验的化学家起初倾向于不研究这种配体 。
- 中国汽车品牌是对特斯拉的真正威胁吗?
- 马斯克:全自动驾驶测试版需求量高 将推出下载测试版快速入口
- 特斯拉CEO埃隆·马斯克:将在大约10天内将“下载测试版”按钮添加到汽车显示屏服务功能上
- 特斯拉|约谈,道歉,特斯拉在华到底怎么了(一)
- 特斯拉大陆超充桩数量破6000
- 英超最新积分榜:莱斯特城逆转绝杀,曼联掉到第3名
- 八强诞生!中国斯诺克两大王牌晋级,特鲁姆普轰出两个4-0
- 数读3月6日全球疫情:全球日增确诊超42万例 累计超1.17亿例 俄罗斯总统顾问确诊新冠肺炎
- 斯巴鲁力狮,外观设计豪华大气,你会喜欢吗?
- 斯柯达又一黑马,奥迪的底盘保时捷设计,售价良心预计16万
