科技行者深度学习模型并非“越大越好”,它可能引起气候变化问题( 二 )


在六个月的过程之中 , 他们培训了4,789个不同版本的模型 , 总共需要花费9,998天的GPU时间(超过27年) 。 考虑到所有这些因素 , 这些研究人员估计 , 构建该模型总计要产生78,000磅的二氧化碳排放量 , 超过一个普通美国成年人两年的碳排放量 。
到此为止 , 这次讨论还仅仅涉及了机器学习模型的训练环节 。 但是训练只是一个模型生命周期的起点 。 模型训练完成之后 , 就会在现实世界中得到应用 。
部署人工智能模型 , 让它们在现实环境中采取行动——这个过程被称为推理 , 该过程的能耗比训练环节更高 。 实际上 , 英伟达公司(Nvidia)估计 , 神经网络80%至90%的能量消耗出现在推理环节 , 而不是训练环节 。
例如 , 想想自动驾驶汽车中的人工智能 。 首先必须要对神经网络进行培训 , 让它学会驾驶 。 在训练完成并部署到自动驾驶汽车上之后 , 模型会不断地进行推理 , 才能在环境中行驶 , 只要汽车还在使用之中 , 这个过程就会日复一日地持续下去 。
毋庸置疑 , 模型具有的参数越多 , 对这种持续不断的推理的能量需求就越高 。
能源使用和碳排放
既然提到了人工智能能量消耗和碳排放之间的关系 。 那么思考这种关系的最好方式是什么呢?
EPA数据显示 , 在美国 , 一千瓦时的能耗平均会产生0.954磅的二氧化碳排放量 。 这个平均值 , 反应了美国能源网中不同能量来源(例如可再生能源、核能、天然气、煤炭)的相对比例和碳足迹的变化 。
上述提到的那篇2019年研究分析 , 采用了全美国的平均值 , 以便根据各种人工智能模型的能量需求来计算碳排放量 。 这是一个比较合理的假设 。 例如 , 亚马逊网络服务公司(Amazon Web Services)的电力来源组合 , 大致反应了美国整体的电力来源 , 而且绝大多数的人工智能模型都是在云端进行训练的 。
当然 , 如果使用主要由可再生能源产生的电力训练人工智能模型 , 那么碳足迹也会相应地降低 。 例如 , 与AWS相比 , 谷歌云平台(Google Cloud Platform)使用的电力结构在可再生能源方面的比重更大 。 (上述那篇2019年研究论文显示 , 两家公司的这一比例分别为56%和17% 。 )
或者 , 举另一个例子 , 如果在太平洋西北部的硬件上训练一个模型 , 所产生的碳排放量会低于其他国家 , 这是因为这一地区拥有丰富的清洁水源 。 而在这方面 , 每一家云服务提供商都在鼓吹自己在碳补偿方面的投资 。
总体而言 , 使用美国总体能源平均值 , 应该可以大致准确地估算出人工智能模型的碳足迹 。
效益递减
通过不断变大的模型 , 追求人工智能进步的做法 , 凸显了模型规模和模型性能之间的关系 。 下列数据显示得很清楚:模型规模的增加 , 最终会导致性能回报的急剧下降 。
比如 , ResNet是2015年发布的一个著名计算机视觉模型 。 该模型的改进版本称为ResNeXt , 于2017年问世 。 与ResNet相比 , ResNeXt所需的计算资源要多35%(以总浮点运算来衡量) , 准确度却只提高了0.5% 。
艾伦人工智能研究所(Allen AI Institute)2019年的一篇论文提供了详细的数据 , 记录了不同任务、模型和人工智能子领域中的效益递减问题 。 与GPT-2相比 , 最新发布的大型模型GPT-3出现了明显的效益递减迹象 。
如果人工智能社区仍然继续沿着当前的研究方向前进 , 就会不断的构建越来越大的模型 , 耗费越来越多的能源 , 以实现越来越小的性能提升 。 任何成本/收益分析都会变得越来越比例失调 。
既然存在效益递减的问题 , 又是什么在推动着模型不断地朝着越来越大的方向发展呢?一个主要的原因是 , 当前人工智能社区对获取“最好的”性能基准测试结果非常关注 。 构建一个新模型 , 能够在性能基准测试中创下新的准确性记录 , 即便成绩提升仅仅是微不足道的一点 , 也可以赢得研究人员的认可和好评 。