标签秩下的文章 - 科学空间|Scientific Spaces

12 Dec

注意力机制真的可以“集中注意力”吗？

By 苏剑林 | 2023-12-12 | 32830位读者 | 引用

之前在《Transformer升级之路：3、从Performer到线性Attention》、《为什么现在的LLM都是Decoder-only的架构？》等文章中，我们从Attention矩阵的“秩”的角度探讨了Attention机制，并曾经判断线性Attention不如标准Attention的关键原因正是“低秩瓶颈”。然而，这一解释对于双向的Encoder模型或许成立，但却难以适用于单向的Decoder模型，因为Decoder的Attention矩阵的上三角部分是被mask掉的，留下的下三角矩阵必然是满秩的，而既然都是满秩了，那么低秩瓶颈问题似乎就不复存在了。

所以，“低秩瓶颈”并不能完全解释线性Attention的能力缺陷。在这篇文章中，笔者试图寻求另一个角度的解释。简单来说，与标准Attention相比，线性Attention更难“集中注意力”，从而难以准确地定位到关键token，这大概是它效果稍逊一筹的主要原因。

点击阅读全文...

分类：信息时代标签：熵, 稀疏, attention, 秩阅读全文 8 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

yetian: 实际中都是基于（23）吗？采样于原数据集和正态噪音
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...
ZYZ: https://github.com/naver-ai/rope-vit
ZYZ: 数学上应该没区别，实际中时好时坏。 EDM里面的input output scaling也相当...
Linz: 感谢您的分享，您的想法和推导非常有意思！我们也发现了比较相关的性质，整理到了之前的文章（Lin...
JimmySue: 苏神，信噪比章节的对比方式感觉不严谨。高斯分布样本的均值的分布方差是原来的 1/n, 均值 p...
tsotfsk: AUC的光滑近似就是pairwise的loss。《MBA: Mini-Batch AUC O...
王磊: 如果把模型架构和训练方式分开考虑的话，rectified flow是一种特定的训练contin...
777: 是推理的时候多步去噪后的结果近乎噪声，预测x0正常也指的是多步去噪后的最终结果，用的是1d的unet