光学|光学计算有望改变游戏规则的AI性能芯片|尼克·哈里

_原题为 光学计算有望改变游戏规则的AI性能
[据美国电子工程网站8月24日报道]麻省理工学院的分公司Lightmatter开发用于人工智能加速的光学计算处理器，本周在Hot Chips 32上展示了一种测试芯片。利用硅光子学和MEMS技术，处理器以毫瓦激光光源为动力，以光速（在硅中）执行矩阵矢量乘法。与基于晶体管的芯片（包括最新的GPU）相比，计算速度要快几个数量级，而且功耗很小。
Lightmatter的目的是通过展示该测试芯片来证明其处理器设计方法是可靠的。该公司是最早提供针对AI推理工作负载量身定制的工作光学计算（硅光子学）芯片的公司之一。
【光学|光学计算有望改变游戏规则的AI性能】Lightmatter将于2021年秋季推出其首个商业产品，该产品是基于该演示器的后继产品的带光学计算芯片的PCIe卡。专为数据中心AI推理工作负载而设计。
硅光子技术的进步-通过硅芯片传播光-使复杂的片上结构成为可能，可以对其进行操纵，以与传统的基于晶体管的电子器件完全不同的方式执行MAC操作。由于基于晶体管的芯片达到了Dennard缩放的极限，因此单位面积的功耗增加了，并且冷却技术的实际极限无法跟上更大的芯片。因此，存在具有节能优势的不同技术的空间。
Lightmatter首席执行官尼克·哈里斯（Nick Harris）在EE Times接受热芯片采访之前说：“我们通过使用一种完全不同的物理类型解决了整个能量缩放问题。 ”“这意味着我们可以使用一组不同的规则进行扩展，因此[光学计算]更快，能耗更低。 ”
究竟有多快，有多低能量？
哈里斯说：“我们可以利用现有的AI数据中心，将能源消耗减少20倍，而物理足迹减少5倍。 ”“而这只是我们正在构建的第一代产品。未来的路途很长。 ”
哈里斯强调说，该测试芯片是作为该技术的演示器而构建的，并且在基准测试中表现不佳，但他坚持认为，在实际应用中， Lightmatter的演示器仍将击败AI加速器的市场领导者Nvidia的Ampere A100 。哈里斯说，与A100相比， Lightmatter的芯片在BERT和Resnet-50推理等工作负载上提供20倍的能源效率和至少5倍的吞吐量。
芯片设计
实际上， Lightmatter的芯片是两个垂直堆叠的芯片。最上面是一个12nm ASIC ，用于存储内存并协调位于下面的90nm光学计算机芯片的控制。两个管芯均在GlobalFoundries上使用标准CMOS工艺制造。
光子处理器具有64 x 64光子矩阵矢量乘积计算器；数据在不到200皮秒的时间内传播到整个芯片，比晶体管计算要快几个数量级，晶体管计算需要多个时钟周期。计算引擎由50毫瓦的激光驱动。
哈里斯认为，这种低功耗光学计算芯片的优势之一是可以与控制/内存ASIC进行3D堆叠。基于晶体管的计算芯片会散发过多的热量。哈里斯指出，堆叠的芯片缩短了ASIC上的操作数存储区与光子芯片上的计算元件之间的跟踪线-从数据转换器到光学计算引擎的距离不到总路由的1毫米。反过来，这改善了延迟和功耗。
哈里斯说：“这里有一个很好的积极反馈回路。 ”“省电让我们可以堆叠，而堆叠可以节省更多功率。 ”
DAC接收数字输入信号，将其转换为模拟电压，并使用该电压来驱动激光器（该技术已在光纤发送器中广泛使用）。来自该激光器的光进入计算阵列。计算元素是马赫曾德尔干涉仪（MZI）。进入MZI的相干光分为两部分，每半部分的相位调整不同。将具有不同相位的信号组合会导致相长或相消干涉，从而有效地调制通过MZI的光的亮度（该调制可被视为乘法运算）。在波导（承载光的“电线”）相遇的地方，信号被有效地加在一起。这是光MAC的基础。从计算阵列输出的光到达光电二极管，光电二极管的信号通过ADC馈送，以便与其余数字电路接口。
MZI中的关键操作是通过机械方式实现的，用于改变光的相位。在他的Hot
Chips演讲中， Lightmatter副总工程师Carl Ramey解释说，光子学芯片使用纳米光学机电系统（NOEMS）。与MEMS器件类似，波导结构通过在下面蚀刻而悬挂，然后通过向其上方和下方的电容器板添加电荷来偏转。这样可以成功地将光的相位更改为所需的数量。
“NOEMS设备具有一些非常惊人的性能， ”Ramey说。 “它们的损耗极低，静态功耗几乎为零。我们只需将一些电子倾倒到小电容器上，几乎没有泄漏-电容足够小，致动所用的动态功率也确实很小。 [这些结构]也可以以相对较高的速度启动，最高可达数百兆赫。 ”
节约能源
拉米说， Lightmatter的演示器具有64 x 64计算元素，但是可以很容易地扩大规模。
他说：“类似于基于晶体管的脉动阵列，计算量与面积成线性比例关系。 ”
“延迟也随着阵列的尺寸而缩放。因此，在典型的流水线晶体管设计中，您需要64个时钟周期来执行此处的操作，从左到右。我们的延迟也会随着阵列尺寸而增加，但速度要快三个数量级。因此，即使是一千乘一千的阵列，其延迟也将大大低于纳秒。 ” 分页标题
有趣的是，光学计算阵列消耗的功率与面积的平方根成比例。这是因为功耗主要归因于数据转换。
“当我们将每个新元素添加到阵列中时，我们将获得更多的性能，但是我们只需要付出功率的平方根即可。 ”Ramey说。 “因此，我们制造的芯片越大，实际上它们的效率就越高。这与仅线性缩放的电子系统完全不同：更高的性能，更高的功耗。 ”
除了与计算相关的能量外，还有与在芯片周围移动数据有关的能量（当今大型的基于晶体管的AI芯片可能会在整个硅片上刻录50-100W的移动数据）。通过光学计算，以光学方式移动数据意味着不需要电源，从而节省了很多钱。
结果是设备的工作功耗小于3W ，这是其他计算方法每次推理操作所消耗的能量的一小部分。
多路复用
光学计算的另一个有趣特征是复用能力。与光通信中使用的技术类似，可以将多个独立的数据流编码到不同波长的光上，并同时馈入计算引擎。这意味着光学计算芯片可以同时执行多个AI推理。
“这是光学计算的一个非常独特的特性， ”Lightmatter的首席执行官Nick Harris说。 “这意味着您只有一个物理资源，一个处理器，但是它的作用就像一排处理器。 ”
虽然指定的光谱（1310至1600nm）在理论上可以满足至少一千个通道的要求，但哈里斯表示，相对不成熟的激光技术目前将其限制为八个通道。
显示它正常工作
如今， Lightmatter的目标客户是数据中心，包括横向扩展系统，例如高性能计算，尽管将来可能会扩展。自动驾驶技术是未来的发展方向，但是哈里斯承认，进入这一领域所需的可靠性工程将是“一项艰巨的任务” 。
Lightmatter具有完整的软件堆栈，可以与TensorFlow或Pytorch集成。哈里斯说，他们的目标是在两个机器学习框架之间实现即插即用。
该公司目前在马萨诸塞州波士顿市有46人。 Lightmatter成立于2017年，已从包括Google Ventures在内的投资者那里筹集了3300万美元的资金，并拥有30项专利。
对于初创企业而言，首批挑战之一可能是将光学计算的整个概念出售给持怀疑态度的客户。哈里斯计划如何做到这一点？
他说：“这是一个艰巨的挑战。 ”
“自1960年代以来的计算历史上，从来没有一种技术取代过电子晶体管进行计算。从来没有发生过人们已经尝试过，但没有成功。我认为这是您第一次看到它的实现，而我们的销售方式就是通过展示它的运行来实现。 ”（国家工业信息安全发展研究中心李茜楠）