科技行者深度学习模型并非“越大越好”,它可能引起气候变化问题


科技行者 6月22日 北京消息:本月早些时候 , OpenAI宣布已经建成史上最大的人工智能模型 , 该模型规模惊人 , 被命名为“GPT-3” , 是一项令人印象深刻的技术成就 。 然而 , 它却凸显了人工智能领域的一个隐患 。
现代人工智能模型需要消耗大量能量 , 并且这些能量需求正以惊人的速度增长 。 在深度学习时代 , 产生一流的人工智能模型所需的计算资源 , 平均每3.4个月翻一番;这意味着 , 能量需求在2012年至2018年之间增加了300,000倍 。 而“GPT-3”只是这种指数级增长轨迹上的一个最新节点 。
科技行者深度学习模型并非“越大越好”,它可能引起气候变化问题
本文插图
深度学习模型真的越大越好吗?
在今天 , 人工智能的碳足迹是有意义的 , 而如果这个行业趋势继续下去 , 情况将很快变得糟糕得多 。 除非我们愿意重新评估并改革当今的人工智能研究方向 , 否则 , 人工智能领域可能会成为我们在未来几年中应对气候变化的对手 。
GPT-3很好地说明了这种现象 。 该模型包含多达1750亿个参数 。 如何理解这个数字呢?不妨参考一下它的前身模型GPT-2 , 它在去年发布时被认为是最先进的 , GPT-2只有15亿个参数 。 去年GPT-2的训练耗费了数十千兆次/天 , 这个计算输入的数量已经非常庞大了 , 而GPT-3需要的数量可能是GPT-2的好几千倍 。
依靠越来越大的模型 , 来推动人工智能技术进步 , 这种做法的问题在于 , 构建和部署这些模型需要大量的能源消耗 , 并因此产生碳排放 。
在2019年一项被广泛讨论的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度学习的能源和政策考虑)》中 , 由Emma Strubell领导的一组研究人员 , 评估了训练单个深度学习模型的能量消耗 , 这个数值可能高达626,155磅的二氧化碳排放量——约相当于五辆汽车在整个生命周期内的碳足迹 。 相比之下 , 一个普通的美国人每年产生的二氧化碳排放量大约是36,156磅 。
可以肯定的是 , 这项评估针对的是能耗特别高的模型 。 如今 , 训练一个普通规模的机器学习模型产生的碳排放量应该远远小于626,155磅 。
【科技行者深度学习模型并非“越大越好”,它可能引起气候变化问题】同时值得注意的是 , 在进行这项分析时 , GPT-2是当时可供研究的、最大的模型 , 研究人员将其视为模型大小的上限 。 可仅仅一年之后 , GPT-2看上去很袖珍了 , 比它的后继产品小了一百倍 。
那么 , 机器学习模型到底为什么会需要消耗这么多的能量呢?
第一个原因是 , 用于训练这些模型的数据集的大小在不断地膨胀 。 在2018年 , BERT模型在使用了30亿个单词的数据集进行训练之后 , 实现了同类中最佳的NLP(自然语言处理)性能 。 XLNet使用了320亿个单词的数据集进行训练 , 并且在性能上超过了BERT 。 不久之后 , GPT-2接受了400亿个单词的数据集的训练 。 而让之前所有此类工作都相形见绌的是 , GPT-3将使用一个包含5,000亿个单词的加权数据集进行训练 。
在训练过程中 , 神经网络会针对输入的每条数据 , 执行一整套冗长的数学运算(既包括正向传播 , 也包括反向传播) , 并且以复杂的方式更新其参数 。 因此 , 更大的数据集 , 就会转化为飞速增长的计算和能源需求 。
导致人工智能巨大能量消耗的另一个原因是 , 开发模型所需要进行的大量实验和调校 。 今天的机器学习 , 在很大程度上仍然是反复试错的练习 。 从业人员通常会在训练过程中针对给定模型构建数百个不同的版本 , 在确定最佳设计之前 , 他们会尝试不同的神经体系架构和超参数 。
上述提到的那篇2019年研究论文中 , 描述了一个案例研究 。 研究人员们选择了一个平均规模的模型——比GPT-3之类的博人眼球的庞然大物要小得多 , 并且不仅检查了训练最终版本所需的能量 , 还测量了为了生产这个最终版本进行的各种测试的总体能量消耗 。