按关键词阅读: 设备 检测 半导体 印芯半导体
我们证明了提议目标的任何全局最小值都会产生一个策略,该策略从所需的分布中采样,并证明 GFlowNets 在奖励函数有多种模式的简单域和分子合成任务上的改进性能和多样性。
这在探索很重要的任务中很有用,即我们想从返回函数的前导模式中采样。这相当于将能量函数转化为相应的生成模型的问题,其中要生成的对象是通过一系列动作获得的。通过改变能量函数的温度(即乘法缩放)或获取返回的幂,可以控制发生器的选择性,即仅在低温下从最高模式附近产生或探索更多更高的温度。
这种设置的一个激励应用是迭代黑盒优化,其中学习者可以访问一个 oracle,该 oracle 可以为每一轮的大量候选者计算奖励,例如,在药物发现应用中。当 oracle 本身不确定时,生成的候选者的多样性尤其重要,比如,它可能由细胞检测组成,这是临床试验的廉价代理,或者它可能由对接模拟的结果组成(估计候选者小分子与目标蛋白结合),这是更准确但更昂贵的下游评估(如细胞检测或小鼠体内检测)的代表。
当调用 oracle 很昂贵时(例如涉及生物实验),Angermueller 等人(2020年)已证明在此类探索环境中应用机器学习的标准方法是获取已经从 oracle 收集的数据(例如一组( x, y) 对,其中 x 是候选解,y 是来自 oracle 的 x 的标量评估)并训练一个监督代理 f(被视为模拟器),它从 x 预测 y。函数 f 或 f 的变体包含其值的不确定性,如贝叶斯优化(Srinivas 等人,2010 年;Negoescu 等人,2011 年),然后可以用作奖励函数 R 来训练生成模型或一项政策,这将为下一次实验测定产生一批候选物。
搜索使 R(x) 最大化的 x 是不够的,因为我们希望为一批查询采样具有高 R 值的一组代表性 x,即围绕 R(x) 的模式。请注意,存在获得多样性的替代方法,例如,使用批量贝叶斯优化(Kirsch 等人,2019)。所提出的方法的一个优点是计算成本与批次的大小呈线性关系(与比较候选对的方法相反,这至少是二次的)。由于可以使用合成生物学对十万个候选物进行分析,线性缩放将是一个很大的优势。
因此,在本文中,我们专注于将给定的正奖励或回报函数转换为生成策略的特定机器学习问题,该策略以与回报成正比的概率进行采样。在上面提到的应用中,我们只在生成一个候选后才应用奖励函数,即除了终端状态外,奖励为零,返回的是终端奖励。我们处于 RL 所谓的情节环境中。
我们的方法将给定状态下分配给动作的概率视为与节点为状态的网络相关联的流,而该节点的输出边是由动作驱动的确定性转换。进入网络的总流量是终端状态(即分区函数)中奖励的总和,可以显示为根节点(或开始状态)的流量。我们的算法受到 Bellman 更新的启发,并在流入和流出每个状态的流入和流出流量匹配时收敛。选择一个动作的概率与对应于该动作的输出流成正比的策略被证明可以达到预期的结果,即采样一个终端状态的概率与其奖励成正比。
此外,我们表明由此产生的 RL 设置是离策略的;即使训练轨迹来自不同的策略,只要它有足够大的支持,它也会收敛到上述解决方案。本文的主要贡献如下:
? 我们提出了 GFlowNets ,这是一种基于流网络和本地流匹配条件的非归一化概率分布的新生成方法:进入状态的流必须匹配输出流。
? 我们证明了 GFlowNets的关键特性,包括流匹配条件(许多训练目标可以提供)与生成的策略与目标奖励函数的匹配结果之间的联系。我们还证明了它的离线特性和渐近收敛性(如果训练目标可以最小化)。此外,我们还证明了Buesing 等人之前(2019 年)将生成过程视为一棵树,当存在许多可导致相同状态的动作序列时,该工作将失败。
? 我们在合成数据上证明了从寻求一种回报模式,而是寻求对整个分布及其所有模式进行建模的有用性。
? 我们成功将 GFlowNet 应用于大规模分子合成领域,并与 PPO 和 MCMC 方法进行了对比实验。
稿源:(雷峰网)
【傻大方】网址:/c/1202b20K2021.html
标题:函数|Bengio 终于换演讲题目了!生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”?( 二 )