黑叔科技|用强化学习设计税收策略，Salesforce开发AI经济学家( 二 ) 机器之心报道编辑：小舟、张倩用强化学

第四， AI驱动的税收政策在与人类参与者进行的实验中使用时，也很有效。在MTurk上进行的实验中， AI税收政策提供了与Saez框架相似的平等-生产率权衡。同时具有较高的反收入加权社会福利。
TheAIEconomist的应用创新
人工智能为复杂的经济优化问题提供了强大的算法和计算解决方案。因此，研究者开发了一种经济策略设计方法。该方法运用强化学习和经济模拟方法，以数据驱动的方式快速设计和评估新的经济策略。
研究者在论文中介绍了通过AI智能体进行模拟来研究经济设计的框架。文中描述了模拟环境的核心机制，包括训练AI智能体进行优化的目标，并介绍了在这种情况下典型的经济AI智能体的突现行为（emergentbehavior）。

文章图片
该研究中使用的一般网络架构的示意图。
如上图所示，空间观察（spatialobservations）由两个卷积层（CNN）的栈来处理，并被「压平」为固定长度的特征向量。该特征向量与其他观察输入连接在一起，结果由两个全连接层（MLP）的栈来处理。接下来，输出被用于更新LSTM的隐藏状态，动作logit通过更新后的隐藏状态的线性投影来计算。最后，网络计算每个动作头的softmax概率层。
对于智能体策略，只有一个操作空间和操作头。对于税收策略，每种税率都有一个单独的动作空间和动作头。
该研究中引入的社会计划者（socialplanner），使用经济政策来改善社会成果，尤其是在税收和再分配两方面。这一问题的难点在于税收会降低生产率。工作者可能会因为对收入缴税而选择放弃劳动，从而减少了劳动的效用。这可能会对技能更高的工作者产生更高的影响。
因此，在经济平等与生产力之间需要权衡：允许财富重新分配的相同干预措施也首先导致重新分配的财富减少。由于税收和劳动力之间存在这种耦合关系，确定最佳税收政策会带来困难且受约束的优化问题。
研究者在论文中详细描述了theAIEconomist学到的税收策略的类型，定义了可以采用的社会目标的类型，并描述了如何使用强化学习共同优化智能体行为和经济中使用的税收策略。
借助AI智能体提升社会成果
研究者将theAIEconomist的经济成果与自由市场（不征税或再分配）、模拟的美国联邦税收计划以及由Saez框架产生的税收策略进行了比较。
对下图中的4种情况，研究者都用强化学习来优化经济AI智能体的行为，结果如下图所示。

文章图片
总体经济成果比较结果。
如上图所示， theAIEconomist相比于基线模型显著提高了平等-生产率权衡。所有基线模型均已收敛。
含有人类参与者的社会成果
此外，研究者还探讨了AI学习的税收策略能否在有人类参与（人可以赚钱）的经济模拟中提高社会成果。为此，开发者在AmazonMechanicalTurk（MTurk）平台上进行了实验，参与者来自美国。
研究发现， theAIEconomist的税收策略可以在无需进行大量重新校准或微调的情况下扩展到有人类参与的模拟。与最强的基线（Saez的税收策略）相比， theAIEconomist实现了具有竞争力的经济平等-生产率权衡，并获得了更高的收入加权的社会福利。

文章图片
伦理与道德规范
经济模拟可以研究各种经济诱因及其后果，包括利益相关者的资本主义模型。但本研究中使用的模拟不是实际可用于重新配置税收政策的实际工具。研究者鼓励任何使用theAIEconomist的人发布描述经过训练的AI驱动的税收模型的道德考量的模型卡片和数据表，以提高透明度。