抛弃注意力,类Transformer新模型实现新SOTA( 三 )
本文插图
利用多查询 lambda 降低复杂度
对于多个 |b| 元素 , 每个都包含 |n| 输入 。 应用 lambda 层所需算数运算和内存占用的数量分别为 Θ(bnmkv) 和 Θ(bnkv + knm) 。 由于E_nm 参数捕获了基于位置的交互, 因此相对于输入长度 , 研究者拥有的内存占用仍是二次的 。 但是 , 这个二次项并不随批大小扩展 , 这与生成每个示例(per-example)注意力图谱的注意力操作一样 。 在实践中 , 超参数 |k| 设为很小的值 , 如 |k| =16 , 并且在注意力失效的情况下可以处理大批量的大型输入 。
多查询 lambdas 可以降低复杂度 。 lambdas 将注意力图 q_n ∈ R^k映射到输出 y_n ∈ R^d 。 如公式2所示 , 这意味着 |v|=d 。 所以 , |v| 的较小值成为了特征向量 y_n上的瓶颈 , 但考虑到 Θ(bnmkv) 和 Θ(bnkv + knm) 的时间和空间复杂度 , 更大的输入维数 |v| 将导致非常高昂的计算成本 。
所以 , 研究者提出将 lambda 层的时间和空间复杂度从输出维数 d 中解耦 。 他们并没有强制地令 |v|=d , 而是创建了 |h| 查询, 将相同的 lambda 函数 λ_n 应用到每个查询 q^h_n , 并将输出串连接成 y_n=concat(λ_nq^1_n , · · · ,λ_nq^|h|_n ) 。
由于每个 lambda 都应用于 |h| 查询 , 所以研究者将这一操作当做多查询 lambda 层 。 这也可以理解为将 lambda 约束到具有 |h| 等重复块的更小块矩阵 。 现在d=|hv| , 并且时间和空间复杂度变成了 Θ(bnmkd/h) 和 Θ(bnkd/h + knm) 。 此外 , 研究者注意到 , 这类似于多头或多查询注意力机制 , 但motivation不同 。 在注意力操作中使用多个查询增强了表示能力和复杂度 。 而在本研究中 , 使用多查询 lambdas 降低了复杂度和表示能力 。
下表2比较了多查询 lambda 层和多头注意力操作的时间和空间复杂度:
本文插图
批量多查询 lambda 层可以使用 einsum 实现高效执行 , 具体如下
本文插图
局部位置的 lambdas 可以通过 lambdas 卷积来获得 , 具体如上文公式3所示 。
实验
LambdaNetworks 优于基于卷积和注意力的同类方法
在下表 3 中 , 研究者进行了控制实验 , 以比较 LambdaNetworks 与 a)基线 ResNet50、b)通道注意力和 c)以往使用自注意力来补充或替换 ResNet50 中的 3x3 卷积的研究方法 。 结果显示 , 在参数成本仅为其他方法一小部分的情况下 , lambda 层显著优于这些方法 , 并且相较于 Squeeze-and-Excitation(通道注意力)实现了 +0.8% 的提升 。
本文插图
在上表 4 中 , 研究者对比了 lambda 层和自注意力机制 , 并给出了它们的吞吐量、内存复杂度和 ImageNet 图像识别准确性比较 , 这一结果展示了注意力机制的不足 。 相比之下 , lambda 层可以捕获高分辨率图像上的全局交互 , 并可以比局部自注意力机制获得多 1.0% 的提升 , 同时运行速度几乎是后者的 3 倍 。
此外 , 位置嵌入也可以在 lambda 层之间共享 , 以最小的降级花费进一步降低了内存使用的需求 。 最后 , lambda 卷积具有线性内存复杂度 , 这在图像检测和分割任务中遇到非常大的图片时非常有用 。
LambdaResNets 明显改善了 ImageNet 分类任务的速度-准确性权衡
下图 2 展示了 LambdaResNets与使用或不使用 channel attention 机制的ResNet 及最流行的 EfficientNets 相比的效果 。 LambdaResNets 在所有深度和图像尺度上均优于基准水平 , 最大的 LambdaResNet 实现了 SOTA 水平准确度 84.8 。 更值得注意的是 , LambdaResNets 在准确性一定的情况下比 EfficientNets 要快大概 3.5 倍 , 速度-准确性曲线提升明显 。
- 柏铭007iPhone12或再引领轻薄时尚风潮,半斤机将被抛弃
- 《监控资本主义》:社交媒体背后,是谁在操纵我们的注意力
- 小小国际指南|我国直接将其“抛弃”!选择兄弟国进行合作,进口货物遭限制?
- 「闺蜜」比起一个人的时髦,好闺蜜更要一起穿出CP感,轻轻松松吸引注意力
- 「爱情」我不会为他放弃我自己,也不会为他抛弃我自己~至所有女人!
- 丹东一姐|现实版“农夫与蛇”:汶川地震中,李应霞弃腿救夫,却惨遭抛弃
- ZAKER|Science发文:一场灾难!,美科学界「抛弃」特朗普
- 狗狗@狗狗被主人抛弃,脖子上的纸条引发网友热议:养不起干嘛不送人?
- 日本|一声不吭打造7艘航母,日本决心翻脸抛弃美国,扭头先送莫迪大礼
- 迅雷:一个被时代抛弃的“剩者”