包含关键字从动力学角度看优化算法的文章 - 科学空间|Scientific Spaces

12 Dec

注意力机制真的可以“集中注意力”吗？

By 苏剑林 | 2023-12-12 | 32918位读者 | 引用

之前在《Transformer升级之路：3、从Performer到线性Attention》、《为什么现在的LLM都是Decoder-only的架构？》等文章中，我们从Attention矩阵的“秩”的角度探讨了Attention机制，并曾经判断线性Attention不如标准Attention的关键原因正是“低秩瓶颈”。然而，这一解释对于双向的Encoder模型或许成立，但却难以适用于单向的Decoder模型，因为Decoder的Attention矩阵的上三角部分是被mask掉的，留下的下三角矩阵必然是满秩的，而既然都是满秩了，那么低秩瓶颈问题似乎就不复存在了。

所以，“低秩瓶颈”并不能完全解释线性Attention的能力缺陷。在这篇文章中，笔者试图寻求另一个角度的解释。简单来说，与标准Attention相比，线性Attention更难“集中注意力”，从而难以准确地定位到关键token，这大概是它效果稍逊一筹的主要原因。

点击阅读全文...

分类：信息时代标签：熵, 稀疏, attention, 秩阅读全文 8 评论

21 Feb

“闭门造车”之多模态模型方案浅谈

By 苏剑林 | 2024-02-21 | 44077位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 55 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

吴幼安: 苏剑林老师有什么好的纯英文教材推荐吗，辞职后正在德国读数学硕士，老师讲课内容和推荐的课本还有作...
zcj5918: 其实QR分解也可以，本质上无非多了一步“对轴”的步骤，那个下三角矩阵无非就是每一行多一个数字。...
zcj5918: 我感觉，你这里考虑QR分解的话还是稍微晦涩了一点。其实，如果你$n$维空间中拿到了$k$个线性...
xtdwxk: 苏神好，有个疑问：RoBERTa-wwm-ext本身不就是词为单位吗，直接用就是词为单位吧？
罗: 感谢苏神解惑
李炯城: 我的图： http://14.29.193.103:81/1.png 我的验证代码： http...
李炯城: 您好，苏工。RoFormer - Enhanced Transformer with Rota...
yetian: 实际中都是基于（23）吗？采样于原数据集和正态噪音
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...