1 Dec

Performer：用随机投影将Attention的复杂度线性化

By 苏剑林 | 2020-12-01 | 115821位读者 |

Attention机制的$\mathcal{O}(n^2)$复杂度是一个老大难问题了，改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如我们以往介绍过的Sparse Attention以及Google前几个月搞出来的Big Bird，等等；二是走线性化的思路，这部分工作我们之前总结在《线性Attention的探索：Attention必须有个Softmax吗？》中，读者可以翻看一下。本文则介绍一项新的改进工作Performer，出自Google的文章《Rethinking Attention with Performers》，它的目标相当霸气：通过随机投影，在不损失精度的情况下，将Attention的复杂度线性化。

说直接点，就是理想情况下我们可以不用重新训练模型，输出结果也不会有明显变化，但是复杂度降到了$\mathcal{O}(n)$！看起来真的是“天上掉馅饼”般的改进了，真的有这么美好吗？

Attention #

我们知道，Attention的一般定义为：
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)}\label{eq:gen-att}\end{equation}

对于标准的Scaled-Dot Attention来说，$\text{sim}(\boldsymbol{q}, \boldsymbol{k})=e^{\boldsymbol{q}\cdot \boldsymbol{k}}$（有时候指数部分还会多个缩放因子，这里我们就不显式写出来了），将整个序列的运算写成矩阵形式就是：
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\end{equation}
我们主要关心Self Attention场景，所以一般有$\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}$。在上式中，$\boldsymbol{Q}\boldsymbol{K}^{\top}$这一步相当于要对$n^2$个向量对做内积，得到$n^2$个实数，因此不管时间还是空间复杂度都是$\mathcal{O}(n^2)$的。

而对于线性Attention来说，$\text{sim}(\boldsymbol{q}, \boldsymbol{k})=\phi(\boldsymbol{q})\cdot \varphi(\boldsymbol{k})$，其中$\phi,\varphi$是值域非负的激活函数。这样一来，Attention的核心计算量（式$\eqref{eq:gen-att}$中的分子部分）就变成了
\begin{equation}\left(\phi(\boldsymbol{Q})\varphi(\boldsymbol{K})^{\top}\right)\boldsymbol{V}=\phi(\boldsymbol{Q})\left(\varphi(\boldsymbol{K})^{\top}\boldsymbol{V}\right)\end{equation}
上式左端的复杂度依然是$\mathcal{O}(n^2)$的，由于矩阵乘法满足结合律，我们可以先算后面两个矩阵的乘法，这样复杂度就可以降为$\mathcal{O}(n)$了，详细介绍还是请读者翻看之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》，这里就不过多展开了。

Performer #

现在我们就可以进入到Performer的介绍了，开头已经说了，Performer的出发点还是标准的Attention，所以在它那里还是有$\text{sim}(\boldsymbol{q}, \boldsymbol{k})=e^{\boldsymbol{q}\cdot \boldsymbol{k}}$，然后它希望将复杂度线性化，那就是需要找到新的$\tilde{\boldsymbol{q}}, \tilde{\boldsymbol{k}}$，使得：
\begin{equation}\text{sim}(\boldsymbol{q}, \boldsymbol{k}) \approx \tilde{\boldsymbol{q}}\cdot\tilde{\boldsymbol{k}}\end{equation}
如果找到合理的从$\boldsymbol{q},\boldsymbol{k}$到$\tilde{\boldsymbol{q}},\tilde{\boldsymbol{k}}$的映射方案，便是该思路的最大难度了。

漂亮的随机映射 #

Performer的最大贡献就在于，它找到了一个非常漂亮的映射方案：
\begin{equation}\begin{aligned}
e^{\boldsymbol{q}\cdot \boldsymbol{k}}&=\mathbb{E}_{\boldsymbol{\omega}\sim \mathcal{N}(\boldsymbol{\omega};0,\boldsymbol{1}_d)}\left[e^{\boldsymbol{\omega}\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2} \times e^{\boldsymbol{\omega}\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2}\right]\\[6pt]
&\approx\underbrace{\frac{1}{\sqrt{m}}\begin{pmatrix}e^{\boldsymbol{\omega}_1\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2} \\
e^{\boldsymbol{\omega}_2\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2}\\
\vdots\\
e^{\boldsymbol{\omega}_m\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2} \end{pmatrix}}_{\tilde{\boldsymbol{q}}}
\cdot \underbrace{\frac{1}{\sqrt{m}}\begin{pmatrix}e^{\boldsymbol{\omega}_1\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2} \\
e^{\boldsymbol{\omega}_2\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2}\\
\vdots\\
e^{\boldsymbol{\omega}_m\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2} \end{pmatrix}}_{\tilde{\boldsymbol{k}}}
\end{aligned}\label{eq:core}\end{equation}
我们先分析一下上式究竟说了什么。第一个等号意味着左右两端是恒等的，那也就意味着，只要我们从标准正态分布$\mathcal{N}(\boldsymbol{\omega};0,\boldsymbol{1}_d)$中采样无穷无尽的$\boldsymbol{\omega}$，然后算出$e^{\boldsymbol{\omega}\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2} \times e^{\boldsymbol{\omega}\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2}$的平均，结果就等于$e^{\boldsymbol{q}\cdot \boldsymbol{k}}$，写成积分形式就是：
\begin{equation}\begin{aligned}
&\frac{1}{(2\pi)^{d/2}}\int e^{-\Vert\boldsymbol{\omega}\Vert^2 / 2}\times e^{\boldsymbol{\omega}\cdot \boldsymbol{q}-\Vert \boldsymbol{q}\Vert^2 / 2} \times e^{\boldsymbol{\omega}\cdot \boldsymbol{k}-\Vert \boldsymbol{k}\Vert^2 / 2}d\boldsymbol{\omega}
\\
=&\frac{1}{(2\pi)^{d/2}}\int e^{-\Vert\boldsymbol{\omega}-\boldsymbol{q}-\boldsymbol{k}\Vert^2 / 2 + \boldsymbol{q}\cdot \boldsymbol{k}}d\boldsymbol{\omega}\\
=&\, e^{\boldsymbol{q}\cdot \boldsymbol{k}}
\end{aligned}\end{equation}
当然实际情况下我们只能采样有限的$m$个，因此就得到了第二个约等号，它正好可以表示为两个$m$维向量的内积的形式，这正是我们需要的$e^{\boldsymbol{q}\cdot \boldsymbol{k}}\approx \tilde{\boldsymbol{q}}\cdot\tilde{\boldsymbol{k}}$！所以，借助这个近似，我们就可以将两个$d$维向量的内积的指数，转化为了两个$m$维向量的内积了，从而理论上来说，我们就可以将原来head_size为$d$的标准Attention，转化为head_size为$m$的线性Attention了，这便是整篇论文的核心思路。

推导过程讨论 #

可能有些读者会比较关心式$\eqref{eq:core}$的来源，这里展开讨论一下，当然如果不关心的读者可以直接跳过这一节。尽管直接通过计算积分可以验证式$\eqref{eq:core}$是成立的，但对于任意定义的$\text{sim}(\boldsymbol{q}, \boldsymbol{k})$，是否可以找到类似的线性近似？下面我们将会证明，类似的线性化方案可以通过一个一般化的流程找到，只不过得到的结果可能远远不如式$\eqref{eq:core}$漂亮有效。

具体来说，对于任意的$\text{sim}(\boldsymbol{q}, \boldsymbol{k})$，我们可以改写为
\begin{equation}\text{sim}(\boldsymbol{q}, \boldsymbol{k}) = \frac{\beta(\boldsymbol{q})\gamma(\boldsymbol{k})\text{sim}(\boldsymbol{q}, \boldsymbol{k})}{\beta(\boldsymbol{q})\gamma(\boldsymbol{k})}\end{equation}
然后我们可以对$\beta(\boldsymbol{q})\gamma(\boldsymbol{k})\text{sim}(\boldsymbol{q}, \boldsymbol{k})$做傅里叶变换：
\begin{equation}\mathcal{F}(\boldsymbol{\omega}_q, \boldsymbol{\omega}_k)=\frac{1}{(2\pi)^{d/2}}\int \beta(\boldsymbol{q})\gamma(\boldsymbol{k})\text{sim}(\boldsymbol{q}, \boldsymbol{k})e^{-i\boldsymbol{\omega}_q\cdot \boldsymbol{q}-i\boldsymbol{\omega}_k\cdot \boldsymbol{k}}d\boldsymbol{q}d\boldsymbol{k}\end{equation}
至于为什么要先乘以$\beta(\boldsymbol{q})\gamma(\boldsymbol{k})$，那是因为直接对$\text{sim}(\boldsymbol{q}, \boldsymbol{k})$做傅里叶变换的结果可能不好看甚至不存在，乘一个函数之后可能就可以了，比如可以让$\beta(\boldsymbol{x})=\gamma(\boldsymbol{x})=e^{-\lambda\Vert x\Vert^2}$，只要$\lambda$足够大，就可以让很多$\text{sim}(\boldsymbol{q}, \boldsymbol{k})$都完成傅里叶变换了。

接着我们执行逆变换，并代回原式，就得到
\begin{equation}\text{sim}(\boldsymbol{q}, \boldsymbol{k})=\frac{1}{(2\pi)^{d/2}}\int \mathcal{F}(\boldsymbol{\omega}_q, \boldsymbol{\omega}_k)\frac{e^{i\boldsymbol{\omega}_q\cdot \boldsymbol{q}}}{\beta(\boldsymbol{q})} \frac{e^{i\boldsymbol{\omega}_k\cdot \boldsymbol{k}}}{\gamma(\boldsymbol{k})}d\boldsymbol{\omega}_q d\boldsymbol{\omega}_k\end{equation}
如果我们能算出$\mathcal{F}(\boldsymbol{\omega}_q, \boldsymbol{\omega}_k)$并完成归一化，那么它就可以成为一个可以从中采样的分布，从中可以采样出随机向量$\boldsymbol{\omega}_q,\boldsymbol{\omega}_k$来，然后近似转化为$\frac{e^{i\boldsymbol{\omega}_q\cdot \boldsymbol{q}}}{\beta(\boldsymbol{q})}, \frac{e^{i\boldsymbol{\omega}_k\cdot \boldsymbol{k}}}{\gamma(\boldsymbol{k})}$组成的向量序列的内积。当然，这里的运算可能涉及到虚数，而我们一般只是处理实数，但这问题不大，我们可以用欧拉公式$e^{i \theta}=\cos\theta + i\sin\theta$展开，整个运算过程只保留实部即可，形式不会有太大的变化。理论上来说，整套流程可以走下来，不会有什么困难，但是相比式$\eqref{eq:core}$，存在的问题是：1、现在需要采样两组随机变量$\boldsymbol{\omega}_q,\boldsymbol{\omega}_k$，会扩大估计的方差；2、最终保留实部后，得到的将会是$\sin,\cos$的组合形式，其结果无法保证非负性，需要额外的clip来处理。

而式$\eqref{eq:core}$的特别之处在于，$e^{\boldsymbol{q}\cdot \boldsymbol{k}}$可以改写为
\begin{equation}e^{\boldsymbol{q}\cdot \boldsymbol{k}} = e^{\Vert \boldsymbol{q}\Vert^2 / 2 + \Vert \boldsymbol{k}\Vert^2 / 2 - \Vert\boldsymbol{q}-\boldsymbol{k}\Vert^2 / 2}\end{equation}
所以只需要转化为单个变量$\boldsymbol{q}-\boldsymbol{k}$的问题，而$e^{-\Vert\boldsymbol{q}-\boldsymbol{k}\Vert^2 / 2}$的傅里叶变换正好是$e^{-\Vert\boldsymbol{\omega}\Vert^2 / 2}$，所以做逆变换我们有
\begin{equation}e^{\boldsymbol{q}\cdot \boldsymbol{k}}=\frac{e^{\Vert \boldsymbol{q}\Vert^2 / 2 + \Vert \boldsymbol{k}\Vert^2 / 2}}{(2\pi)^{d/2}}\int e^{-\Vert\boldsymbol{\omega}\Vert^2 / 2 + i \boldsymbol{\omega}\cdot (\boldsymbol{q} - \boldsymbol{k})} d\boldsymbol{\omega}\end{equation}
到这里，如果直接取实部展开，得到的也是$\sin,\cos$的组合，这就是原论文说的$\text{trig}$形式的投影方案。不过，有一个更加巧妙的性质可以改变这一切！注意到上式是一个恒等式，所以我们可以左右两边都置换$\boldsymbol{q}\to -i\boldsymbol{q},\boldsymbol{k}\to i\boldsymbol{k}$，结果是：
\begin{equation}e^{\boldsymbol{q}\cdot \boldsymbol{k}}=\frac{e^{-\Vert \boldsymbol{q}\Vert^2 / 2 - \Vert \boldsymbol{k}\Vert^2 / 2}}{(2\pi)^{d/2}}\int e^{-\Vert\boldsymbol{\omega}\Vert^2 / 2 + \boldsymbol{\omega}\cdot (\boldsymbol{q} + \boldsymbol{k})} d\boldsymbol{\omega}\end{equation}
这便是式$\eqref{eq:core}$。置换$\boldsymbol{q}\to -i\boldsymbol{q},\boldsymbol{k}\to i\boldsymbol{k}$使得上述左边保持不变，并且右边完全脱离虚数还保持了非负性，真的是集众多巧合于一身，“只此一家，别无分号”的感觉～

正交化降低方差 #

除了提出式$\eqref{eq:core}$来对标准Attention进行线性化外，原论文还做了进一步的增强。在式$\eqref{eq:core}$，$\boldsymbol{\omega}_1,\boldsymbol{\omega}_2,\cdots,\boldsymbol{\omega}_m$是独立重复地从$\mathcal{N}(\boldsymbol{\omega};0,\boldsymbol{1}_d)$中采样出来的，而原论文则指出，如果将各个$\boldsymbol{\omega}_i$正交化，能有效地降低估算的方差，提高单次估算的平均精度。

注意，这里的正交化指的是保持$\boldsymbol{\omega}_i$的模长不变，仅仅是对其方向进行施密特正交化。这个操作首先提出在同样是Google的论文《The Unreasonable Effectiveness of Structured Random Orthogonal Embeddings》中，而Performer在其论文附录里边，足足花了6页纸来论证这个事情。这里照搬6页证明显然是不适合的，那对于我们来说，该怎么去理解这个策略比较好呢？

其实，这个策略有效的最根本原因，是采样分布$\mathcal{N}(\boldsymbol{\omega};0,\boldsymbol{1}_d)$的各向同性，即其概率密度函数$(2\pi)^{-d/2}e^{-\Vert\boldsymbol{\omega}\Vert^2 / 2}$只依赖于$\boldsymbol{\omega}$的模长$\Vert\boldsymbol{\omega}\Vert$，所以它在方向上是均匀的。而如果我们要降低估算的方差，那么就应该要降低采样的随机性，使得采样的结果更为均匀一些。而各个向量正交化，是方向上均匀的一种实现方式，换句话说，将各个$\boldsymbol{\omega}_i$正交化促进了采样结果的均匀化，从而降低估算的方差。此外，正交化操作一般只对$m\leq d$有效，如果$m > d$，原论文的处理方式是每$d$个向量为一组分别进行正交化。

我们可以联想到，正交化操作只是让采样的方向更加均匀化，如果要做得更加彻底些，可以让采样的模长也均匀化。具体来说，将标准正态分布变换为$d$维球坐标得到其概率微元为：
\begin{equation}\frac{1}{(2\pi)^{d/2}} r^{d-1} e^{-r^2 /2} dr dS\end{equation}
其中$dS = \sin^{d-2}\varphi_{1} \sin^{d-3}\varphi_{2} \cdots \sin\varphi_{d-2}\,d\varphi_{1}\,d\varphi_{2}\cdots d\varphi_{d-1}$代表在$d$维球面上的积分微元。上式就显示出，标准正态分布在方向是均匀的，模长的概率密度函数正比于$r^{d-1} e^{-r^2 /2}$，我们定义它的累积概率函数：
\begin{equation}P_d(r\leq R) = \frac{\int_0^R r^{d-1} e^{-r^2 /2} dr}{\int_0^{\infty} r^{d-1} e^{-r^2 /2} dr}\end{equation}
如果要采样$m$个样本，那么让$P_d(r\leq R_i) = \frac{i}{m+1},\,i=1,2,\cdots,m$，从中解出$m$个$R_i$作为模长就行了。

性能与效果 #

理论的介绍就到这里了，其实已经展开得都多了，一般来说只要对线性Attention有所了解的话，那么只要看到式$\eqref{eq:core}$，就能很快理解Performer的要点了，剩下的都是锦上添花的内容，不影响全文的主线。接下来我们就主要看对Performer的评测。

原论文的评测 #

我们先来看看原论文的评测，其实它的评测还是很丰富的，但是有点乱，对于主要关心NLP的读者来说可能还有点莫名其妙。

一开始是速度上的评测，这个不意外，反正就是序列长了之后Performer比标准的Transformer有明显优势：

Performer与标准Transformer的速度对比（实线：Performer，虚线：标准Transformer）

接着，是近似程度的比较，说明了采样正交化的有效性，以及所提的式$\eqref{eq:core}$相比旧的基于$\sin,\cos$函数的形式的精确性：

左图：比较采样向量正交化的有效性；有图：比较Performer所用的近似与旧的基于三角函数的近似的精确性

那能不能达到我们一开始的预期目标——不用重新训练已训练好的模型呢？很遗憾，不行，原论文做了两个实验，显示Performer直接加载Transformer的权重不能重现已有的结果，但经过finetune后可以迅速恢复。至于为什么一开始没有很好地重现，论文没有做展开分析。

Performer加载已训练好的Transformer权重实验

最后，论文还做了蛋白质序列和图像的实验，证明Performer对于长序列是很有效的，特别地，至少比Reformer有效，全文的实验差不多就是这样，内容很多，但有点找不到北的感觉。

其他论文的评测 #

也许是自己的同事都看不下去了，后来Google又出了两篇论文《Efficient Transformers: A Survey》和《Long Range Arena: A Benchmark for Efficient Transformers》，系统地评测和比较了已有的一些改进Transformer效率的方法，其中就包含了Performer。相比之下，这两篇论文给出的结果就直观多了，简单几个图表，就把各个模型的位置给表达清楚了。

各种高效Transformer分门别类

各类改进版Transformer比较。其中decode那一栏指的是能否mask掉未来信息，用于做语言模型

各个Transformer模型的“效果-速度-显存”图，纵轴是效果，横轴是速度，圆圈的大小代表所需要的显存。理论上来说，越靠近右上方的模型越好，圆圈越小的模型越好

更详细的评测信息，大家自行去看这两篇论文就好。

问题与思考 #

看起来Performer是挺不错的，那是不是说我们就可以用它来替代Transformer了？并不是，纵然Performer有诸多可取之处，但仍然存在一些无法解决的问题。

首先，为了更好地近似标准Transformer，Performer的$m$必须取得比较大，至少是$m > d$，一般是$d$的几倍，这也就是说，Performer的head_size要比标准Transformer要明显大。虽然理论上来说，不管$m$多大，只要它固定了，那么Performer关于序列长度的复杂度是线性的，但是$m$变大了，在序列长度比较短时计算量是明显增加的。换句话说，短序列用Performer性能应该是下降的，根据笔者的估计，只有序列长度在5000以上，Performer才会有比较明显的优势。

其次，目前看来Performer（包括其他的线性Attention）跟相对位置编码是不兼容的，因为相对位置编码是直接加在Attention矩阵里边的，Performer连Attention矩阵都没有，自然是加不了的。此外，像UniLM这种特殊的Seq2Seq做法也做不到了，不过普通的单向语言模型还是可以做到的。总之，$\mathcal{O}(n^2)$的Attention矩阵实际上也带来了很大的灵活性，而线性Attention放弃了这个Attention矩阵，也就放弃了这种灵活性了。

最后，也是笔者觉得最大的问题，就是Performer的思想是将标准的Attention线性化，所以为什么不干脆直接训练一个线性Attention模型，而是要向标准Attention靠齐呢？从前面的最后一张图来看，Performer并没有比Linear Transformer有大的优势（而且笔者觉得最后一张图的比较可能有问题，Performer效果可能比Linear Transformer要好，但是速度怎么可能还超过了Linear Transformer？Performer也是转化为Linear Transformer的，多了转化这一步，速度怎能更快？），因此Performer的价值就要打上个问号了，毕竟线性Attention的实现容易得多，而且是通用于长序列/短序列，Performer实现起来则麻烦得多，只适用于长序列。

全文的总结 #

本文主要介绍了Google的新模型Performer，这是一个通过随机投影将标准Attention的复杂度线性化的工作，里边有不少值得我们学习的地方，最后汇总了一下各个改进版Transformer的评测结果，以及分享了笔者对Performer的思考。

转载到请包括本文地址：https://www.kexue.fm/archives/7921

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Dec. 01, 2020). 《Performer：用随机投影将Attention的复杂度线性化》[Blog post]. Retrieved from https://www.kexue.fm/archives/7921

@online{kexuefm-7921,
        title={Performer：用随机投影将Attention的复杂度线性化},
        author={苏剑林},
        year={2020},
        month={Dec},
        url={\url{https://www.kexue.fm/archives/7921}},
}

分类：数学研究,信息时代标签：优化, attention 28 评论

< exp(x)在x=0处的偶次泰勒展开式总是正的 | 层次分解位置编码，让BERT可以处理超长文本 >

你也许还对下面的内容感兴趣

发表你的看法

起微

December 2nd, 2020

厉害啦(ง •̀_•́)ง

回复评论

MECH SIHAO

December 3rd, 2020

苏神，请教一个问题，RoBERTa在预训练的时候需要把数据复制十份，生成十个tfrecord文件，然后训练40个epoch，这样每个文件出现4次，达到真随机Masked效果。
但是bert4keras的pretrain.py函数在load_tfrecord文件时用的是以下这段代码：
————————————————————————————
record_names = ['corpus.%s.tfrecord' % i for i in range(10)]
...
dataset = tf.data.TFRecordDataset(record_names) # 加载
dataset = dataset.map(parse_function) # 解析
————————————————————————————
这段代码应该会把十个文件一起读到datasets里面？然后再训练，岂不是训练一个epoch把这10个文件都用到了？：
————————————————————————————
train_model.fit(
dataset,
steps_per_epoch=steps_per_epoch,
epochs=epochs,
callbacks=[checkpoint, csv_logger],
)

回复评论

苏剑林发表于 December 3rd, 2020

这种大规模的预训练任务下，可以说没有什么epoch的概念了。这里的steps_per_epoch，就是以steps_per_epoch那么多步数为epoch，而这里的epoch的意义是：每steps_per_epoch步保存一次模型。仅此而已。

总不能等到跑完一遍全部数据后（可能要花十几天），才保存一次模型吧？要是中间断了不就亏大了？

回复评论

MECH SIHAO 发表于 December 3rd, 2020

明白了明白了，多谢指教

回复评论

路人甲发表于 December 16th, 2020

请问预训练任务下，全部数据需要跑多遍吗？

回复评论

苏剑林发表于 December 16th, 2020

一般一遍以上，看数据量

回复评论

MECH SIHAO

December 3rd, 2020

那苏神，假如我现在要微调roberta，假如有2kw条语料，生成了10份tfrecord文件，以上述理论，按照你的原始配置，steps_per_epoch = 10000的情况下，num_train_steps设置为多少才能把这十份文件完整遍历一遍呢？

这样计算对吗：
语料总数 = 2kw
num_train_steps = (10*2kw)/(batch_size/grad_accum_steps)

回复评论

苏剑林发表于 December 4th, 2020

除以batch_size就行了。

回复评论

MECH SIHAO 发表于 December 4th, 2020

好的，谢谢苏神解答

回复评论

LinkerLin

December 14th, 2020

我突然想到是不是可以用 GraphSAGE类似的子图采样的方案来？
注意力矩阵和Graph的邻接矩阵很像。

回复评论

苏剑林发表于 December 14th, 2020

是很像，采样之后呢？

回复评论

Akane 发表于 June 5th, 2024

采样之后只使用子图中节点（对应的token）的kv做计算，没采样到的token就忽略，这样计算量就可控了，如果结合一些图算法可能还可以对kv cache的换入换出做优化？比如采样概率足够低且距离足够远的token被换出？

回复评论

苏剑林发表于 June 5th, 2024

采样K、V的话，容易漏很多吧？

回复评论

橙C

February 28th, 2021

赞，分析很清晰。苏神有没有试过performer的实际效果？我找了个开源的TF版本，塞到GPT2里面，发现效果和Transformer没啥区别，设置和那篇是8 heads, 512 hidden dimensions，d = 2048。训练的速度是快了一点点但是对显存的开销并没有0.37X和0.85X的这么明显，显存开销几乎没有区别，这是为什么呢？感觉有可能是我用的不对[捂脸]
所以想请教大佬有没有实际试过

回复评论

苏剑林发表于 March 1st, 2021

我没有使用过，正如我在本文的“问题与思考”一节所说到的那样，我质疑Performer的必要性（为什么不干脆训练一个Linear Attention模型？），所以就算我去做，我也是干脆用Linear Attention了。

此外，这种Linear Attention类的工作，一般要2048+的序列长度，才能真正感知到加速，而且Performer比一般的Linear Attention还复杂，我估计都要5000+的序列长度，才能明显感知到加速和省显存吧。

回复评论

橙C 发表于 March 1st, 2021

感谢苏神！我觉得也可能要2048+才能真正感到加速。不过想请教下苏神，5000+才能明显感觉加速和省显存是怎么估算的？我感觉其实如果按照那篇测试论文的设置，8 heads, 512 hidden dimensions，这样平均每个head有512/8=64 dimensions，O(L^2d)=O(2048^2*64)的量级应该就比O(Lrd)*2=O(2048*64*64*2)应该高一个数量级，不过我这里假设映射后r的维度和d一样了，但是按照论文的加速结果来看,r和d应该大概是8:1的关系？
不知道想的对不对，苏神有空帮忙看看

回复评论

苏剑林发表于 March 1st, 2021

在这篇文章（ https://kexue.fm/archives/7947 ）我给出过一个数据，里边显示其实在不超过2048长度的时候，哪怕BERT也是接近线性的（虽然理论上是$\mathcal{O}(n^2)$），我也简单测过Linear Attention的速度和显存，在长度为1024时，其实跟BERT没有太大差别（快一点点，省一点点显存，但不明显），而Performer相当于复杂化的Linear Attention，所以我大概断定5000+。

其实，对于中文任务，如果字数不超过2000，那么建议还是用 https://kexue.fm/archives/7947 的方法配合原始的BERT就好了。还有一个节省显存的技巧是WoBERT（ https://kexue.fm/archives/7758 ），即以词为单位，这样一来字数为2000，词数可能只有1500甚至更短，也就节省了显存了。

回复评论

橙C

March 1st, 2021

我先研究下～感谢苏神分享！

回复评论

test123

March 4th, 2021

公式8是不是有问题，等式后面第一部分是多余的？

回复评论

苏剑林发表于 March 4th, 2021

你说积分号前面的那个$\frac{1}{(2\pi)^{d/2}}$？自然不是多余的。

回复评论

test123 发表于 March 4th, 2021

傅里叶变化的公式正向变换是没有\frac{1}{(2\pi)^{d/2}}，逆向变化有这个？

回复评论

苏剑林发表于 March 4th, 2021

不过的教程有着不同的定义，核心都是$\int f(\boldsymbol{x})e^{-i\boldsymbol{\omega}\cdot \boldsymbol{x}}d\boldsymbol{x}$，可能会差个常数。这里使用的是比较对称的一种定义，也是比较通用的一种。

回复评论

ltekills3g

March 23rd, 2023

感觉骚操作在于把e(q*k)这种内积指数因子，转化为多维正态分布向量求数学期望，进而把数学期望用物理方式（采样&求均值）实现，最后还能用有限维向量内积去近似，整个这段都很令人兴奋

回复评论

Curran

November 14th, 2023

醍醐灌顶！

回复评论

我在Performer中发现了Transformer-VQ的踪影 R11; AI 資訊

November 29th, 2023

[...]为此，笔者花了一些时间思考可以替代掉VQ的线性化思路。从Transformer-VQ的$expleft(QC^{top}right)$形式中，笔者联想到了Performer，继而“顺藤摸瓜”地发现原来Performer可以视为Soft版的Transformer-VQ。进一步地，笔者尝试类比Performer的推导方法来重新导出Transformer-VQ，为其后的优化提供一些参考结果。[...]

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

Performer：用随机投影将Attention的复杂度线性化

Attention #

Performer #

漂亮的随机映射 #

推导过程讨论 #

正交化降低方差 #

性能与效果 #

原论文的评测 #

其他论文的评测 #

问题与思考 #

全文的总结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接