标签迭代下的文章 - 科学空间|Scientific Spaces

26 Sep

脑洞大开：非线性RNN居然也可以并行计算？

By 苏剑林 | 2023-09-26 | 49611位读者 | 引用

近年来，线性RNN由于其可并行训练以及常数推理成本等特性，吸引了一定研究人员的关注（例如笔者之前写的《Google新作试图“复活”RNN：RNN能否再次辉煌？》），这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而，目前看来这“一席之地”只属于线性RNN，因为非线性RNN无法高效地并行训练，所以在架构之争中是“心有余而力不足”。

不过，一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法，它提出了一种迭代算法，宣传可以实现非线性RNN的并行训练！真有如此神奇？接下来我们一探究竟。

求不动点

原论文对其方法做了非常一般的介绍，而且其侧重点是PDE和ODE，这里我们直接从RNN入手。考虑常见的简单非线性RNN：
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：方程, 迭代, 语言模型, RNN 阅读全文 27 评论

4 Apr

数值方法解方程之终极算法

By 苏剑林 | 2010-04-04 | 43690位读者 | 引用

呵呵，做了一回标题党，可能说得夸张了一点。说是“终极算法”，主要是因为它可以任意提高精度、而且几乎可以应付任何非线性方程（至少理论上是这样），提高精度是已知的迭代式上添加一些项，而不是完全改变迭代式的形式，当然在提高精度的同时，计算量也会随之增大。其理论基础依旧是泰勒级数。

我们考虑方程$x=f(y)$，已知y求x是很容易的，但是已知x求y并不容易。我们考虑把y在$(x_0,y_0)$处展开成x的的泰勒级数。关键是求出y的n阶导数$\frac{d^n y}{dx^n}$。我们记$f^{(n)}(y)=\frac{d^n x}{dy^n}$，并且有
$$\frac{dy}{dx}=\frac{1}{(\frac{dx}{dy})}=f'(y)^{-1}$$

点击阅读全文...

分类：数学研究标签：方程, 级数, 函数, 数值算法, 迭代, 泰勒级数阅读全文 6 评论

6 Mar

(原创)切抛物线法解方程

By 苏剑林 | 2010-03-06 | 31905位读者 | 引用

牛顿法使用的是函数切线的方程的零点来逼近原函数的零点，他所使用的是“切直线”，要是改为同曲率的“切抛物线”，则有更稳定的收敛效果以及更快的收敛速度

设函数$y=f(x)$在$(x_0,y_0)$处有一条“切抛物线”$y=ax^2+bx+c$，则应该有

$a(x_0+\Delta x)^2+b(x_0+\Delta x)+c=f(x_0+\Delta x)$-------(A)
$ax_0^2+bx_0+c=f(x_0)$-------(B)
$a(x_0-\Delta x)^2+b(x_0-\Delta x)+c=f(x_0-\Delta x)$-------(C)

其中$lim_{\Delta x->0}$

点击阅读全文...

分类：数学研究标签：方程, 函数, 数值算法, 零点, 迭代, 曲线, 抛物线阅读全文 3 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

脑洞大开：非线性RNN居然也可以并行计算？

求不动点

数值方法解方程之终极算法

(原创)切抛物线法解方程

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接