标签复杂度下的文章 - 科学空间|Scientific Spaces

18 Mar

时空之章：将Attention视为平方复杂度的RNN

By 苏剑林 | 2024-03-18 | 41203位读者 | 引用

近年来，RNN由于其线性的训练和推理效率，重新吸引了不少研究人员和用户的兴趣，隐约有“文艺复兴”之势，其代表作有RWKV、RetNet、Mamba等。当将RNN用于语言模型时，其典型特点就是每步生成都是常数的空间复杂度和时间复杂度，从整个序列看来就是常数的空间复杂度和线性的时间复杂度。当然，任何事情都有两面性，相比于Attention动态增长的KV Cache，RNN的常数空间复杂度通常也让人怀疑记忆容量有限，在Long Context上的效果很难比得上Attention。

在这篇文章中，我们表明Causal Attention可以重写成RNN的形式，并且它的每一步生成理论上也能够以$\mathcal{O}(1)$的空间复杂度进行（代价是时间复杂度非常高，远超平方级）。这表明Attention的优势（如果有的话）是靠计算堆出来的，而不是直觉上的堆内存，它跟RNN一样本质上都是常数量级的记忆容量（记忆瓶颈）。

点击阅读全文...

分类：数学研究标签：语言模型, RNN, attention, 复杂度阅读全文 34 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

Jun Sun: RoPE~膜拜大佬
Arasaka: 博主您好，非常感谢这篇文章。但是有一个小问题，如果路径$\boldsymbol{\varphi...
Kai1124: 苏老师您好，我有一个疑惑，我理解X分布的PDF可以由Z分布的PDF乘雅可比矩阵行列式得来，但是...
QTB: 根据这篇确实推出来二者等价了，谢谢解答！
aaaa: 我印象中EMA的提出也是为了解决塌缩问题。这篇论文通过优化器直接就能fix掉塌缩问题也就不需要...
vqeqbnykba: 你的文章让我感受到了快乐，每天都要来看一看。http://www.zhenweilaser.com
starfruit007: 首先，非常感谢您的回复，但是，我想在尝试“狡辩”一下，我目前理解下来伯努利分布在式$(18)$...
eagle: 苏神你好，背景是目前我们在某个性能推理任务中对比了rope2d与摊平使用rope1d的效果，r...
撼马吊索具厂家: 撼马吊索具公司是一家专业生产吊装带、拴紧器、电动葫芦的厂家。http://www.hanmad...
撼马: 撼马吊索具公司是一家专业生产吊装带、拴紧器、电动葫芦的厂家。