娱乐家常菜|机器学习的训练成本难题，FB最大模型训练一轮电费就好几百万大数据文摘出品来源：economist编译：

文章图片
大数据文摘出品
来源：economist
编译：张大笔茹、Andy
对于计算工业，其最基本的一个假设是：数字处理会变得越来越便宜。并且根据著名的摩尔定律，可以预测在给定尺寸的芯片其上面能集成的电路个数（差不多相当于算力）通常每两年会翻一番。
斯坦福人工智能研究所副所长克里斯托弗·曼宁表示，对于许多相对简单的AI应用来言，上述假设意味着训练成本的降低。但对于有些应用现在却不是这样的，特别是因为不断增加的研究复杂性和竞争性，使得最前沿模型的训练成本还在不断上升。
曼宁用BERT模型来举例， BERT是谷歌在18年提出的AI语言模型，已被用在谷歌搜索中。该模型有超过3.5亿个内部参数，而且要大量数据来进行训练，大概用了33亿个大部分来自维基百科的单词来训练。接着曼宁说，现在看来维基百科都不是个多大的数据集了。 “如果能用300亿个单词训练一个系统，那它的性能肯定比用30亿个单词训练的系统要好。 ”但更多的数据也意味着要用更多算力进行支持。

文章图片
总部位于加州的OpenAI表示，随着对机器学习兴趣的不断增加，对算力的需求从12年开始也急剧增加了。到18年，用于训练大型模型的计算机算力相比之前已增长了30万倍，并且还每三个半月翻一番（见图）。比如，为训练能在DOTA2中击败人类的“OpenAIFive”系统，就几乎将机器学习训练扩展到了“前所未有的水平” ，差不多用数千块芯片训练了十多个月。
关于所有这些训练成本的确切数字，马萨诸塞州阿默斯特大学的研究人员在19年发表的一篇论文中进行了估计，例如训练某个版本的Transformer模型可能就要花费300万美金。同时Facebook的AI负责人杰罗姆·佩森蒂表示，针对当前最大的模型进行一轮训练光是电费可能就好几百万美金。
云计算辅助
然而，对于Facebook这样19年利润就达185亿美元的公司，这点钱不算什么。但对于那些现金并不充足的公司就有点压力山大了。著名风险投资公司AndreessenHorowitz(a16z)指出，许多AI初创公司都是从云计算公司（如亚马逊和微软）来租用训练所需的算力。而因此带来的费用（有时占收入的25％或更多）也是AI初创公司投资吸引力低于老式软件公司的原因之一。 3月，曼宁博士在斯坦福大学的同事们，包括著名的李飞飞，一起呼吁创建美国国家研究云计算计划，旨在帮助美国AI研究人员应对不断增长的训练费用。
对算力日益增长的需求同时也推动了芯片设计和AI专用计算设备的蓬勃发展。专用芯片的第一波浪潮是GPU的出现，其在90年代设计出来就是为了用于增强视频游戏图形处理。而非常巧的是， GPU也非常适合现在AI应用中的数学计算。
相比起GPU现在还有更专业的芯片，各个公司也正在致力于研究这些芯片。去年12月，英特尔就以20亿美元的价格收购了以色列公司HabanaLabs；而成立于16年的英国公司Graphcore在2019年的估值为20亿美元；最大的GPU制造商Nvidia等公司已对其芯片进行了重新设计来适应AI的计算需求；Google内部设计了自己的“张量处理单元”（TPU）芯片；而中国科技巨头百度也已用上了自己的“昆仑”芯片。毕马威的阿方索·马龙认为，专用AI芯片的市场价值已达约100亿美元的规模，而到2025年预估能达到800亿美元。
【娱乐家常菜|机器学习的训练成本难题，FB最大模型训练一轮电费就好几百万】Graphcore的创始人之一奈杰尔·图恩表示：“计算机体系结构需要适应现在训练处理数据的方式。 ”对于AI运算其最基础的特征可以说就是“并行” ，即将运算切分为很多小块同时进行运算。例如， Graphcore的芯片有1,200多个单独的数字运算核，能连接在一起提供更多的算力。而加州的创业公司Cerebras采取了更极端的方法，每个芯片占用了整张硅片，每张硅片上能放置40万左右个核。