27 Jun

重温SSM（四）：有理生成函数的新视角

By 苏剑林 | 2024-06-27 | 30986位读者 |

在前三篇文章中，我们较为详细地讨论了HiPPO和S4的大部分数学细节。那么，对于接下来的第四篇文章，大家预期我们会讨论什么工作呢？S5、Mamba乃至Mamba2？都不是。本系列文章主要关心SSM的数学基础，旨在了解SSM的同时也补充自己的数学能力。而在上一篇文章我们简单提过S5和Mamba，S5是S4的简化版，相比S4基本上没有引入新的数学技巧，而Mamba系列虽然表现优异，但它已经将$A$简化为对角矩阵，所用到的数学技巧就更少了，它更多的是体现了工程方面的能力。

这篇文章我们来学习一篇暂时还声名不显的新工作《State-Free Inference of State-Space Models: The Transfer Function Approach》（简称RFT），它提出了一个新方案，将SSM的训练、推理乃至参数化，都彻底转到了生成函数空间中，为SSM的理解和应用开辟了新的视角

基础回顾 #

首先我们简单回顾一下上一篇文章关于S4的探讨结果。S4基于如下线性RNN
\begin{equation}\begin{aligned}
x_{k+1} =&\, \bar{A} x_k + \bar{B} u_k \\
y_{k+1} =&\, \bar{C}^* x_{k+1} \\
\end{aligned}\label{eq:linear}\end{equation}
其中$u,y\in\mathbb{R},x\in\mathbb{R}^d,\bar{A}\in\mathbb{R}^{d\times d},\bar{B},\bar{C}\in\mathbb{R}^{d\times 1}$，这里旨在做一般化的讨论，所以我们绕过了$\bar{A}$与$A$的联系，假设$\bar{A}$为一般矩阵。设初始状态为零，那么直接迭代可以写出：
\begin{equation}y_L = \sum_{k=0}^L \bar{C}^*\bar{A}^k \bar{B}u_{L-k} = \bar{K}_{< L} * u_{< L} \end{equation}

其中$*$是卷积运算，而
\begin{equation}\bar{K}_k = \bar{C}^*\bar{A}^k\bar{B},\quad \bar{K}_{< L} = \big(\bar{K}_0,\bar{K}_1,\cdots,\bar{K}_{L-1}\big),\quad u_{< L} = (u_0,u_1,\cdots,u_{L-1})\end{equation}
由于卷积可以通过离散傅里叶变换（DFT）高效计算，所以剩下的问题是如何高效地将$\bar{K}$算出来，这就是S4的核心贡献。为此，S4引入了生成函数
\begin{align}\mathcal{G}(z|\bar{K}) =&\, \sum_{k=0}^{\infty} \bar{C}^*\bar{A}^k \bar{B}z^k = \bar{C}^*\left(I - z\bar{A}\right)^{-1}\bar{B} \\
\mathcal{G}_L(z|\bar{K}) =&\, \sum_{k=0}^{L-1} \bar{C}^*\bar{A}^k \bar{B}z^k = \bar{C}^*(I - z^L\bar{A}^L)\left(I - z\bar{A}\right)^{-1}\bar{B} \end{align}
如果能够高效地计算$\mathcal{G}_L(z|\bar{K})$，那么就可以代入$z=e^{-2i\pi l/L},l=0,1,2,\dots,L-1$，其结果就是$\bar{K}$的DFT，于是进一步逆变换（IDFT）后就可以得到$\bar{K}$，由于此时的$z$总满足$z^L=1$，所以我们也可以设$\tilde{C}^* = \bar{C}^*(I - \bar{A}^L)$，那么$\mathcal{G}_L(z|\bar{K})$的形式就跟$\mathcal{G}(z|\bar{K})$一致了：
\begin{equation}\mathcal{G}_L(z|\bar{K}) = \tilde{C}^*\left(I - z\bar{A}\right)^{-1}\bar{B}\end{equation}

那怎么高效计算$\mathcal{G}(z|\bar{K})$或者$\mathcal{G}_L(z|\bar{K})$呢？S4将$\bar{A}$分解为“对角+低秩”的形式，然后通过Woodbury恒等式进行计算，其最终结果为
\begin{equation}\mathcal{G}(z|\bar{K}) = \frac{2}{1+z}\bar{C}^* \left[R_z^{-1} - R_z^{-1}u(I + v^*R_z^{-1}u)^{-1} v^*R_z^{-1}\right]B\end{equation}
其中$R_z$是$d\times d$的对角阵，$u,v,B,\bar{C}$都是$d\times 1$的列向量，这意味着给定$z$计算$\mathcal{G}(z|\bar{K})$的复杂度为$\mathcal{O}(d)$，而如果要对$z=e^{-2i\pi l/L},l=0,1,2,\dots,L-1$进行计算，那么朴素实现的计算量是$\mathcal{O}(Ld)$。S4提出可以将其转化为Cauchy核问题进行计算，复杂度进一步降低到$\mathcal{O}((L+d)\log^2(L+d))$。

不管哪一种，我们可以发现其复杂度不仅依赖于$L$，还依赖于$d$（state size），而RFT则提出了一种新方法，将复杂度直接降低到了最理想的$\mathcal{O}(L\log L)$，不依赖state size，而且推导过程相比S4还明显简化，同时也不依赖于$\bar{A}$是对角阵或者“对角+低秩”的假设。

有理函数 #

RFT是Rational Transfer Function的缩写，它的重点是Rational Function，即我们所说的有理函数（两个多项式相除）。它跟生成函数有什么关系呢？RFT的作者们非常高明地观察到，$\mathcal{G}_L(z|\bar{K})$实际上是一个有理函数！具体来说，我们有
\begin{equation}\mathcal{G}_L(z|\bar{K}) = \tilde{C}^*\left(I - z\bar{A}\right)^{-1}\bar{B} = \frac{b_1 + b_2 z + b_3 z^2 + \cdots + b_dz^{d-1}}{1 + a_1 z + a_2 z^2 + \cdots + a_d z^d}\label{eq:gz-rf}\end{equation}
其中$a_1,a_2,\cdots,a_d,b_1,b_2,\cdots,b_d$都是标量，如果$\bar{A},\bar{B},\tilde{C}$都是实矩阵，那么它们都是实数。如果单纯想要意识到存在这么个相等的形式，我们只需要利用矩阵求逆的一个经典公式：
\begin{equation}M^{-1} = \frac{\text{adj}(M)}{\det(M)}\end{equation}
其中$\det(M)$是$M$的行列式，而$\text{adj}(M)$是$M$的伴随矩阵，由于伴随矩阵涉及到大量行列式计算，所以这个求逆公式在实际计算中通常没什么价值，但在理论分析时通常能起到奇效。比如，我们将它代入到$\mathcal{G}_L(z|\bar{K})$中，就得到
\begin{equation}\mathcal{G}_L(z|\bar{K}) = \tilde{C}^*\left(I - z\bar{A}\right)^{-1}\bar{B} = \frac{\tilde{C}^*\text{adj}(I - z\bar{A})\bar{B}}{\det(I - z\bar{A})}\end{equation}
我们知道，$d$阶行列式多项$d$个元素相乘的求和，所以$\det(I - z\bar{A})$是关于$z$的$d$次多项式；接着根据伴随矩阵的定义，它的每个元素都是$d-1$阶行列式，也就是$d-1$次多项式，左乘$\tilde{C}^*$和右乘$\bar{B}$只不过是将这些元素加权求和，所以结果还是$d-1$次多项式。因此，$\mathcal{G}_L(z|\bar{K})$是$z$的$d-1$次行列式除以$z$的$d$次行列式，再将分母的常数项系数标准化为$1$，就得到了式$\eqref{eq:gz-rf}$。

对应关系 #

进一步，我们可以利用一个行列式恒等式来确定系数$a=(a_1,a_2,\cdots,a_d),b=(b_1,b_2,\cdots,b_d)$与$\bar{A},\bar{B},\tilde{C}$的关系。这个恒等式是
\begin{equation}\det(I + UV) = \det(I + VU)\label{eq:det-iuv}\end{equation}
直接证明这个行列式不难，算是一道普通的考研题，只需要注意到
\begin{equation}\begin{pmatrix}I & U \\ -V & I\end{pmatrix} = \begin{pmatrix}I + UV & U \\ 0 & I\end{pmatrix}\begin{pmatrix}I & 0 \\ -V & I\end{pmatrix} = \begin{pmatrix}I & 0 \\ -V & I + VU\end{pmatrix}\begin{pmatrix}I & U \\ 0 & I\end{pmatrix}\end{equation}
根据行列式的定义和形式，中间部份的行列式就是$\det(I + UV)$，最右边的行列式就是$\det(I + VU)$，它们同一个矩阵的行列式，所以结果相等。这个结果还可以进一步推广到（当$A,D$都可逆时）
\begin{equation}\det\begin{pmatrix}A & B \\ C & D\end{pmatrix} = \det(A)\det(D-CA^{-1}B) = \det(D)\det(A-BD^{-1}C)\end{equation}
更远一点的话，它还可以一般化为我们在《两个多元正态分布的KL散度、巴氏距离和W距离》提过的“舒尔补（Schur complement）”理论。

回到正题，注意在式$\eqref{eq:det-iuv}$及其推导中，我们不需要假设$U,V$都是方阵，所以实际上式$\eqref{eq:det-iuv}$对于非方阵也是成立的，只要单位阵$I$自动匹配$UV$和$VU$的大小就行。特别地，如果$U,V$分别是列、行向量，那么$VU$就是一个标量，对应的$I$就是1，其行列式就是自身，即$\det(I + UV) = 1 + VU$。利用这个特例，我们有
\begin{equation}\begin{aligned}
\mathcal{G}_L(z|\bar{K}) =&\, z^{-1}\left[1+\tilde{C}^*\left(z^{-1}I - \bar{A}\right)^{-1}\bar{B} - 1 \right]\\
=&\, z^{-1}\left[\det\left(I + \left(z^{-1} I - \bar{A}\right)^{-1}\bar{B}\tilde{C}^*\right) - 1\right]\\
=&\, z^{-1}\left\{\det\left[\left(z^{-1} I - \bar{A}\right)^{-1}\left(z^{-1} I - \bar{A} + \bar{B}\tilde{C}^*\right)\right] - 1\right\} \\
=&\, z^{-1}\left[\frac{\det(z^{-1} I - \bar{A} + \bar{B}\tilde{C}^*)}{\det(z^{-1} I - \bar{A})} - 1\right] \\
=&\, \frac{z^{d-1}\left[\det(z^{-1} I - \bar{A} + \bar{B}\tilde{C}^*)-\det(z^{-1} I - \bar{A})\right]}{z^d\det(z^{-1} I - \bar{A})} \\
\end{aligned}\end{equation}
分母中的$\det(z^{-1} I - \bar{A})$，是以$\lambda=z^{-1}$为变量的矩阵$\bar{A}$的特征多项式，它是$z^{-1}$的$d$次首一多项式，乘以$z^d$后变成了$z$的常数项为1的$d$次多项式；同理，分子中的$\det(z^{-1} I - \bar{A} + \bar{B}\tilde{C}^*)$是$\bar{A} - \bar{B}\tilde{C}^*$的特征多项式（$z^{-1}$的$d$次首一多项式），减去$\det(z^{-1} I - \bar{A})$后正好得到$z^{-1}$的$d-1$次多项式，乘以$z^{d-1}$变成$z$的$d-1$次多项式。所以，$a$向量正好是多项式$\det(\lambda I - \bar{A})$除最高次项外的各系数，而$b$向量则是多项式$\det(\lambda I - \bar{A} + \bar{B}\tilde{C}^*)-\det(\lambda I - \bar{A})$的各系数（次数从高到低排序）。

惊喜突现 #

现在我们先缓一缓，思考一下我们做了什么，要往哪里去。

我们的出发点是线性系统$\eqref{eq:linear}$，为了让它可以并行训练，我们将其转化为了$\bar{K}_{< L}$与$u_{< L}$的卷积，就可以通过先DFT后相乘再IDFT来高效计算，因此这一步的效率不成问题。现在$u_{< L}$是现成的，但$\bar{K}_{< L}$未知，所以问题变成了如何高效计算卷积核$\bar{K}_{< L}=\{\tilde{C}^*\bar{A}^k\bar{B}\}_{k=0}^{L-1}$，为此我们进一步引入了生成函数$\mathcal{G}_L(z|\bar{K})$，只要能够高效计算$\mathcal{G}_L(z|\bar{K})$，那么就有
\begin{equation}DFT(\bar{K}_{< L}) = \Big\{\mathcal{G}_L(z|\bar{K})\Big\}_{z=e^{-2i\pi l/L},l=0,1,2,\dots,L-1}\end{equation}
然后IDFT就可以恢复原本的$\bar{K}_{< L}$。对于$z=e^{-2i\pi l/L}$，我们有$z^L=1$，于是
\begin{equation}\mathcal{G}_L(z|\bar{K}) = \tilde{C}^*(I - z^L\bar{A}^L)\left(I - z\bar{A}\right)^{-1}\bar{B} = \underbrace{\bar{C}^*(I - \bar{A}^L)}_{\tilde{C}^*}\left(I - z\bar{A}\right)^{-1}\bar{B} \end{equation}
也就是我们可以先将整个$\bar{C}^*(I - \bar{A}^L)$视为训练参数$\tilde{C}^*$，事后再解出对应的$\bar{C}$用于推理。

S4通过“对角+低秩”的分解来计算$\mathcal{G}_L(z|\bar{K})$，而这篇文章则指出$\mathcal{G}_L(z|\bar{K})$实际上是一个有理函数，即式$\eqref{eq:gz-rf}$。如果我们此时代入$z=e^{-2i\pi l/L}$，就会发现一些让人惊喜的结果，比如分母
\begin{equation}1 + a_1 z + a_2 z^2 + \cdots + a_d z^d = \sum_{k=0}^L a_k z^k = \sum_{k=0}^L a_k e^{-2i\pi kl/L} = DFT(\bar{a}_{< L})\end{equation}
其中$\bar{a}_{< L} = (a_0,a_1,a_2,\cdots,a_{L-1}) = (1, a_1,a_2, \cdots, a_d, 0, \cdots, 0)$，也就是说，根据定义分母就是将$a$左边拼一个1、后边拼若干个0、凑成$L$个数后的DFT！同理，定义$\bar{b}_{< L} = (b_1,b_2,\cdots,b_d,0,0,\cdots,0)$，那么分子就是$DFT(\bar{b}_{< L})$，于是我们可以简单地写出
\begin{equation}DFT(\bar{K}_{< L}) = \frac{DFT(\bar{b}_{< L})}{DFT(\bar{a}_{< L})} = \frac{DFT(b_1,b_2,\cdots,b_d,0,0,\cdots,0)}{DFT(1, a_1,a_2, \cdots, a_d, 0, \cdots, 0)}\end{equation}
然后IDFT就可以得到$\bar{K}_{< L}$，其中DFT和IDFT的计算复杂度都是$\mathcal{O}(L\log L)$，跟$d$无关（只需要$d < L$）！这就是RTF的复杂度与state size大小$d$无关的核心思想。

另起炉灶 #

按照上面的引入顺序，我们的计算过程应该是先给定$\bar{A},\bar{B},\tilde{C}$，然后计算$\bar{A}$和$\bar{A}-\bar{B}\tilde{C}^*$的特征多项式系数，进而得到$a_1,a_2, \cdots, a_d$和$b_1,b_2,b_3,\cdots,b_d$，最后计算DFT、相除然后IDFT来得到$\bar{K}_{< L}$。如果是单纯的计算，那么这个过程没啥问题，但我们面对的是训练场景，$\bar{A},\bar{B},\tilde{C}$可能带有训练参数，这时候计算$\bar{A}$和$\bar{A}-\bar{B}\tilde{C}^*$的特征多项式这一步就不那么容易传播梯度了。

对于这个问题，更加干脆的方案是“另起炉灶”——直接以RTF形式的式$\eqref{eq:gz-rf}$为出发点，将$a=(a_1,a_2, \cdots, a_d)$和$b=(b_1,b_2,b_3,\cdots,b_d)$设为可训练参数，那么我们连特征多项式的计算都省了，直接就可以DFT和IDFT去算$\bar{K}_{\leq L}$。不仅如此，原本$\bar{A},\bar{B},\tilde{C}$共有$d^2+2d$个参数，现在$a,b$两个向量一共就$2d$个参数，大大节省了参数量。而因为任意的$\bar{A},\bar{B},\tilde{C}$都可以算出对应的$a,b$，所以RFT的理论能力是不差于原始的RNN形式的。

当然，RTF只是提供了一种直接以$a,b$为参数的高效训练的方式，如果要做step by step推理，那么还是要转回RNN形式，这意味着给定训练好的$a,b$，我们要找出一组$\bar{A},\bar{B},\tilde{C}$，然后代入式$\eqref{eq:linear}$来推理。注意$a,b\to\bar{A},\bar{B},\tilde{C}$是$2d$个参数到$d^2+2d$个参数的映射，肯定有无穷多组解，而我们只需要找出尽可能简单的一组解就行了。

友之矩阵 #

怎么求这组解呢？前面我们已经证明了，$a$向量正好是多项式$\det(z I - \bar{A})$除最高次项外的各系数，所以给定$a$求$\bar{A}$，就是已知特征多项式的情况下求对应的矩阵，最简单的解是对角矩阵，假设$\lambda_1,\lambda_2,\cdots,\lambda_d$为$\lambda^d + a_1 \lambda^{d-1} + a_2 \lambda^{d-2} + \cdots + a_d =0$的$d$个根，那么让$\bar{A}=\text{diag}(\lambda_1,\lambda_2,\cdots,\lambda_d)$即可。不过，这样可能会出现虚数根，某种程度上可能不够简洁，同时这种纯粹的形式解也无法直接观察$\bar{A}$与$a$之间的联系。

事实上，求一个实矩阵使其特征多项式为给定的实系数多项式，这个问题早有研究，其答案有一个有趣的名字，叫做“友矩阵（Companion matrix）”，其形式为（为了对齐原论文的结果，这里相比维基百科的格式多了个翻转）：
\begin{equation}\bar{A} = \begin{pmatrix}-a_1 & - a_2 & \cdots & -a_{d-1} & -a_d \\
1 & 0 & \cdots & 0 & 0 \\
0 & 1 & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 1 & 0 \\
\end{pmatrix}\label{eq:bar-A}\end{equation}
事后去证明该矩阵满足
\begin{equation}\det(\lambda I-\bar{A})=\lambda^d + a_1 \lambda^{d-1} + a_2 \lambda^{d-2} + \cdots + a_d\end{equation}
并不难，直接根据行列式的定义对$\det(\lambda I-\bar{A})$的第一行展开即可。更深刻的问题是如何想到这个构造，这里笔者提供自己的想法。根据特征多项式来构造矩阵，本质上就是逐渐将多项式变换为一个$\lambda$只出现在对角线上的行列式，比如$d=2$时我们有
\begin{equation}\lambda^2 + a_1 \lambda + a_2 = (\lambda + a_1)\lambda - (-1) \times a_2
) = \det\begin{pmatrix} \lambda + a_1 & a_2 \\ -1 & \lambda\end{pmatrix}\end{equation}
这就可以抽出对应的$\bar{A}$。对于一般的$d$，我们有
\begin{equation}\lambda^d + a_1 \lambda^{d-1} + a_2 \lambda^{d-2} + \cdots + a_d = \det\begin{pmatrix} \lambda^{d-1} + a_1 \lambda^{d-2} + \cdots + a_{d-1} & a_d \\ -1 & \lambda\end{pmatrix}\end{equation}
这当然还不是最终答案，但这成功将多项式的次数减少了一，这启示我们或许可以考虑递归地构建，即左上角再以$\lambda^{d-1} + a_1 \lambda^{d-2} + \cdots + a_{d-1}$为特征多项式构造原矩阵，然后微调一下右上和左下的行列，形成分块矩阵。细心多尝试一下，就有机会自己构造出式$\eqref{eq:bar-A}$的结果。

有了$\bar{A}$，构造$\bar{B},\tilde{C}$就容易多了。还是根据前面的结论，我们有
\begin{equation}\begin{gathered}
\det(\lambda I - \bar{A} + \bar{B}\tilde{C}^*)-\det(\lambda I - \bar{A}) = b_1 \lambda^{d-1} + b_2 \lambda^{d-2} + \cdots + b_d \\
\Downarrow \\
\det(\lambda I - \bar{A} + \bar{B}\tilde{C}^*)= \lambda^d + (a_1 + b_1) \lambda^{d-1} + (a_2+b_2) \lambda^{d-2} + \cdots + (a_d + b_d)
\end{gathered}\end{equation}
也就是$\bar{A} - \bar{B}\tilde{C}^*$的特征多项式为上式，那么根据$\bar{A}$的构造方式，我们得到$\bar{A} - \bar{B}\tilde{C}^*$的一个解是
\begin{equation}\bar{A} - \bar{B}\tilde{C}^* = \begin{pmatrix}-a_1 - b_1 & - a_2 - b_2 & \cdots & -a_{d-1} - b_{d-1} & -a_d - b_d\\
1 & 0 & \cdots & 0 & 0 \\
0 & 1 & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 1 & 0 \\
\end{pmatrix}\end{equation}
于是
\begin{equation}\bar{B}\tilde{C}^* = \begin{pmatrix}b_1 & b_2 & \cdots & b_{d-1} & b_d\\
0 & 0 & \cdots & 0 & 0 \\
0 & 0 & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 0 & 0 \\
\end{pmatrix} = \begin{pmatrix}1 \\ 0 \\ \vdots \\ 0 \\ 0\end{pmatrix}\begin{pmatrix}b_1 & b_2 & \cdots & b_{d-1} & b_d\end{pmatrix}\end{equation}
这意味着我们可以找到一组解$\bar{B} = [1, 0, \cdots, 0, 0], \tilde{C}^* = [b_1 , b_2 , \cdots , b_{d-1} , b_d]$，然后进一步解得$\bar{C}^* = \tilde{C}^*(I - \bar{A}^L)^{-1}$。

初始方式 #

我们来完整地$x_k$的递归形式：
\begin{equation}
x_{k+1} = \begin{pmatrix}-a_1 & - a_2 & \cdots & -a_{d-1} & -a_d \\
1 & 0 & \cdots & 0 & 0 \\
0 & 1 & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 1 & 0 \\
\end{pmatrix} x_k + \begin{pmatrix}1 \\ 0 \\ \vdots \\ 0 \\ 0\end{pmatrix} u_k = \begin{pmatrix} u_k - \langle a, x_k\rangle \\ x_{k,(0)} \\ x_{k,(1)} \\ \vdots \\ x_{k,(d-3)} \\ x_{k,(d-2)}\end{pmatrix}
\end{equation}
由于$\bar{A}$极其稀疏的特点，每一步递归可以在$\mathcal{O}(d)$而不是$\mathcal{O}(d^2)$完成。特别地，当$a_1=a_2=\cdots=a_d=0$时，我们可以得到：
\begin{equation}\begin{aligned}
x_1 =&\, [u_0,0,\cdots,0] \\
x_2 =&\, [u_1,u_0,0,\cdots,0] \\
&\vdots \\
x_d =&\, [u_{d-1},\cdots,u_1,u_0] \\
x_{d+1} =&\, [u_d, u_{d-1},\cdots,u_1] \\
&\vdots \\
\end{aligned}\end{equation}
也就是说，模型一直在滚动储存最近的$d$个$u_k$，如果没有任何其他先验知识，那么这很明显是一个很合理的初始解，所以原论文在初始化阶段将$a_1,a_2,\cdots,a_d$设为零。

原论文对这个初始化还有一个增强数值稳定性、防止梯度爆炸的解释。从上一篇文章我们知道，线性系统$\eqref{eq:linear}$具备相似不变性，这意味着它的动力学跟将$\bar{A}$对角化后的动力学在数学上是一致的，而$\bar{A}$的对角化矩阵，就是它的特征多项式的所有零点组成的对角矩阵，如果某个零点$\lambda_k$的模大于1，那么经过多步递归后就可能发生数值/梯度爆炸。

换句话说，我们最好可以约束$a_1,a_2,\cdots,a_d$，使得多项式$\lambda^d + a_1 \lambda^{d-1} + a_2 \lambda^{d-2} + \cdots + a_d$的所有零点的模都不大于1，以获得更好的数值稳定性同时避免梯度爆炸。然而，保证多项式的零点都在单位圆内的充要条件依然不得而知，但有一个相对简单的充分条件是$|a_1| + |a_2| + \cdots + |a_d| < 1$。

结论：当$|a_1| + |a_2| + \cdots + |a_d| < 1$时，多项式$\lambda^d + a_1 \lambda^{d-1} + a_2 \lambda^{d-2} + \cdots + a_d$的所有零点模长都不超过1。
证明：用反证法。假设该多项式有一个模大于1的零点$\lambda_0$，那么$|\lambda_0^{-1}| < 1$，于是
\begin{equation}\begin{aligned}
1 =&\, -a_1\lambda_0^{-1}-a_2\lambda_0^{-2}-\cdots-a_d \lambda_0^{-d} \\
\leq &\, |a_1\lambda_0^{-1}+a_2\lambda_0^{-2}+\cdots+a_d \lambda_0^{-d}| \\
\leq &\, |a_1\lambda_0^{-1}|+|a_2\lambda_0^{-2}|+\cdots+|a_d \lambda_0^{-d}| \\
\leq &\, |a_1|+|a_2|+\cdots+|a_d| \\
< &\, 1
\end{aligned}\end{equation}
这就出现了$1 < 1$的矛盾，因此假设不成立，多项式的所有零点模长都不大于1。

然而，RTF指出，如果直接约束$a_1,a_2,\cdots,a_d$满足$|a_1| + |a_2| + \cdots + |a_d| < 1$，会大大削弱模型的表达能力，弊大于利；RTF进一步发现，只需要在初始化阶段尽可能满足该条件，然后让模型自己慢慢学就行了。最满足这个条件的取值自然是$a_1=a_2=\cdots=a_d=0$，所以RTF选取了全零初始化。

实验效果 #

关于实验部份，下面两张图表就可以看出RTF的显著特点：

RTF的复杂度基本上跟state size无关

RTF可以通过增大state size来提高效果

第一张图显示了RTF的计算复杂度（时间、空间）跟state size没有明显关系，而正因为如此，我们可以通过增大RTF的state size来改善RTF的效果（反正不增加复杂度），也就是第二张图表所显示出来的效果。其他实验结果读者自行翻阅原论文即可。

文章小结 #

本文介绍了SSM模型的一个新工作RTF，它观察到线性RNN的卷积核的生成函数实际上可以表示为一个有理函数（分式多项式），利用这个特点，我们可以将SSM的参数化全部转移到生成函数空间上去，并利用离散傅立叶变换来加速，这使得整个计算流程显著简化。跟S4的“对角+低秩”分解相比，RTF也显得更为简明直观。

转载到请包括本文地址：https://www.kexue.fm/archives/10180

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jun. 27, 2024). 《重温SSM（四）：有理生成函数的新视角》[Blog post]. Retrieved from https://www.kexue.fm/archives/10180

@online{kexuefm-10180,
        title={重温SSM（四）：有理生成函数的新视角},
        author={苏剑林},
        year={2024},
        month={Jun},
        url={\url{https://www.kexue.fm/archives/10180}},
}

分类：数学研究标签：生成函数, 线性, RNN, ssm 3 评论

< 重温SSM（三）：HiPPO的高效计算（S4） | “闭门造车”之多模态思路浅谈（二）：自回归 >

你也许还对下面的内容感兴趣

发表你的看法

路金成

July 3rd, 2024

(11)想写 det(I+UV)=det(I+VU)吧，写成了det(I+UV)=det(I+UV)了

回复评论

苏剑林发表于 July 6th, 2024

已修正，感谢指出。

回复评论

hazdzz

July 6th, 2024

SSM 看來真就是 Linear Attention + Polynomial filter + Linear RNN

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

重温SSM（四）：有理生成函数的新视角

基础回顾 #

有理函数 #

对应关系 #

惊喜突现 #

另起炉灶 #

友之矩阵 #

初始方式 #

实验效果 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接