标签积分下的文章 - 科学空间|Scientific Spaces

28 Jun

积分梯度：一种新颖的神经网络可视化方法

By 苏剑林 | 2020-06-28 | 141178位读者 | 引用

本文介绍一种神经网络的可视化方法：积分梯度（Integrated Gradients），它首先在论文《Gradients of Counterfactuals》中提出，后来《Axiomatic Attribution for Deep Networks》再次介绍了它，两篇论文作者都是一样的，内容也大体上相同，后一篇相对来说更易懂一些，如果要读原论文的话，建议大家优先读后一篇。当然，它已经是2016～2017年间的工作了，“新颖”说的是它思路上的创新有趣，而不是指最近发表。

笔者在中文情感分类上对积分梯度的实验效果（越红的token越重要）

所谓可视化，简单来说就是对于给定的输入$x$以及模型$F(x)$，我们想办法指出$x$的哪些分量对模型的决策有重要影响，或者说对$x$各个分量的重要性做个排序，用专业的话术来说那就是“归因”。一个朴素的思路是直接使用梯度$\nabla_x F(x)$来作为$x$各个分量的重要性指标，而积分梯度是对它的改进。然而，笔者认为，很多介绍积分梯度方法的文章（包括原论文），都过于“生硬”（形式化），没有很好地突出积分梯度能比朴素梯度更有效的本质原因。本文试图用自己的思路介绍一下积分梯度方法。

点击阅读全文...

分类：信息时代标签：积分, 梯度, 可视化阅读全文 28 评论

16 Nov

为什么勒贝格积分比黎曼积分强？

By 苏剑林 | 2016-11-16 | 144060位读者 | 引用

学过实变函数的朋友，总会知道有个叫勒贝格积分的东西，号称是黎曼积分的改进版。虽然“实变函数学十遍，泛函分析心泛寒”，在学习实变函数的时候，我们通常都是云里雾里的，不过到最后，在老师的“灌溉”之下，也就耳濡目染了知道了一些结论，比如“黎曼可积的函数（在有限区间），也是勒贝格可积的”，说白了，就是“勒贝格积分比黎曼积分强”。那么，问题来了，究竟强在哪儿？为什么会强？

黎曼

勒贝格

这个问题，笔者在学习实变函数的时候并没有弄懂，后来也一直搁着，直到最近认真看了《重温微积分》之后，才有了些感觉。顺便说，齐民友老师的《重温微积分》真的很赞，值得一看。

本是同根生，相煎何太急？

点击阅读全文...

分类：数学研究标签：积分, 分析, 测度阅读全文 14 评论

6 Nov

【外微分浅谈】5. 几何意义

By 苏剑林 | 2016-11-06 | 94073位读者 | 引用

对于前面所述的外微分，包括后面还略微涉及到的微分形式的积分，都是纯粹代数定义的内容，本身不具有任何的几何意义。但是，我们可以将某些公式或者定义，与一些几何内容对应起来，使我们更深刻地理解它，并且更灵活运用它。但是，它仅仅是一种对应，而且取决于我们的诠释。比如，我们说外微分公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dx\land dy \tag{32} $$
对应于格林公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dxdy \tag{33} $$
。这是没问题的，但它们并不等价，它们仅仅是形式上刚好一样。因为格林公式是描述闭合曲线的积分跟面积分的联系，而外微分的公式是一种纯粹的代数运算。因为你完全可以将$dx\land dy$对应于$-dxdy$而不是$dxdy$，这样就得到另外一种几何的对应。

更深刻的问题是：为什么恰好有这个对应？也就是说，为什么经过一些调整和诠释后，就能够得到与积分公式的对应？首先要明确的是外积与普通的数的乘积，除了反对称性之外，是没有任何区别的，因此不少性质得以保留；其次，还应该要回到反对称本身来考虑，矩阵的行列式代表着矩阵所对应的向量组张成的$n$维立体的体积，然而行列式是反对称的，这就意味着反对称运算跟体积、积分等有着先天的联系。当然，更细致的认识，笔者也还没做到。

此外，我们说寻求微分形式的几何意义，通常只是针对不超过3维的空间来讨论的，更高维的几何图像我们很难想象出来，尤其是高维的曲面积分，一般只是类比，但类比是否成立，有时还需要进一步商榷。因此，这种情况下，倒不如干脆点，说微分形式描述的东西就是几何，而不再去寻找所谓的几何意义了。也就是说，反过来，将微分形式和外微分作为公理式的第一性原理来定义几何。

甚至，你可以只将外微分当作是一种记忆各种微分、积分公式的有效途径，比如现在我要大家默写三维空间中的斯托克斯公式，大家估计会乱，因为不一定记得是哪个减哪个。但是在外微分框架下，可以很快地将它推导一遍。好比式$(11)$，如果非要寻求几何解释，那就是开普勒第二定律：单位时间内扫过的面积相等；然而没有几何解释，你依旧可以把方程解下去。

点击阅读全文...

分类：数学研究标签：积分, 几何, 外微分阅读全文 9 评论

15 Apr

斯特灵(stirling)公式与渐近级数

By 苏剑林 | 2016-04-15 | 85966位读者 | 引用

斯特灵近似，或者称斯特灵公式，最开始是作为阶乘的近似提出
$$n!\sim \sqrt{2\pi n}\left(\frac{n}{e}\right)^n$$
符号$\sim$意味着
$$\lim_{n\to\infty}\frac{\sqrt{2\pi n}\left(\frac{n}{e}\right)^n}{n!}=1$$
将斯特灵公式进一步提高精度，就得到所谓的斯特灵级数
$$n!=\sqrt{2\pi n}\left(\frac{n}{e}\right)^n\left(1+\frac{1}{12n}+\frac{1}{288n^2}\dots\right)$$
很遗憾，这个是渐近级数。

https://en.wikipedia.org/wiki/Stirling%27s_approximation

本文将会谈到斯特灵公式及其渐近级数的一个改进的推导，并解释渐近级数为什么渐近。

点击阅读全文...

分类：数学研究标签：级数, 积分, 分析阅读全文 6 评论

15 Feb

积分估计的极值原理——变分原理的初级版本

By 苏剑林 | 2016-02-15 | 47156位读者 | 引用

如果一直关注科学空间的朋友会发现，笔者一直对极值原理有偏爱。比如，之前曾经写过一系列《自然极值》的文章，介绍一些极值问题和变分法；在物理学中，笔者偏爱最小作用量原理的形式；在数据挖掘中，笔者也因此对基于最大熵原理的最大熵模型有浓厚的兴趣；最近，在做《量子力学与路径积分》的习题中，笔者也对第十一章所说的变分原理产生了很大的兴趣。

对于一样新东西，笔者的学习方法是以一个尽可能简单的例子搞清楚它的原理和思想，然后再逐步复杂化，这样子我就不至于迷失了。对于变分原理，它是估算路径积分的一个很强大的方法，路径积分是泛函积分，或者说，无穷维积分，那么很自然想到，对于有限维的积分估计，比如最简单的一维积分，有没有类似的估算原理呢？事实上是有的，它并不复杂，弄懂它有助于了解变分原理的核心思想。很遗憾，我并没有找到已有的资料描述这个简化版的原理，可能跟我找的资料比较少有关。

从高斯型积分出发

变分原理本质上是Jensen不等式的应用。我们从下述积分出发
$$\begin{equation}\label{jifen}I(\epsilon)=\int_{-\infty}^{\infty}e^{-x^2-\epsilon x^4}dx\end{equation}$$

点击阅读全文...

分类：数学研究标签：不等式, 积分, 极值阅读全文 2 评论

30 Aug

封闭曲线所围成的面积：一个新技巧

By 苏剑林 | 2015-08-30 | 80908位读者 | 引用

本文主要做了一个尝试，尝试不通过Green公式而实现将封闭曲线的面积与线积分相互转换。这种转换的思路，因为仅仅利用了二重积分的积分变换，较为容易理解，而且易于推广。至于这种技巧是否真正具有实际价值，还请读者评论。

假设平面上一条简单封闭曲线由以下参数方程给出：
$$\begin{equation}\left\{\begin{aligned}x = f(t)\\y = g(t)\end{aligned}\right.\end{equation}$$
其中参数$t$位于某个区间$[a,b]$上，即$f(a)=f(b),g(a)=g(b)$。现在的问题是，求该封闭曲线围成的区域的面积。

点击阅读全文...

分类：数学研究标签：积分, 变换阅读全文 5 评论

26 Apr

高斯型积分的微扰展开（三）

By 苏剑林 | 2015-04-26 | 33981位读者 | 引用

换一个小参数

比较《高斯型积分的微扰展开（一）》和《高斯型积分的微扰展开（二）》两篇文章，我们可以得出关于积分
$$\int_{-\infty}^{+\infty} e^{-ax^2-\varepsilon x^4} dx\tag{1}$$
的两个结论：第一，我们发现类似$(4)$式的近似结果具有良好的性质，对任意的$\varepsilon$都能得到一个相对靠谱的近似；第二，我们发现在指数中逐阶展开，得到的级数效果会比直接展开为幂级数的效果要好。那么，两者能不能结合起来呢？

我们将$(4)$式改写成
$$\int_{-\infty}^{+\infty} e^{-ax^2-\varepsilon x^4} dx\approx\sqrt{\frac{2\pi}{a+\sqrt{a^2+6 \varepsilon}}}=\sqrt{\frac{\pi}{a+\frac{1}{2}\left(\sqrt{a^2+6 \varepsilon}-a\right)}}\tag{6}$$

点击阅读全文...

分类：数学研究标签：积分, 摄动, 微扰阅读全文 1 评论

16 Apr

采样定理：有限个点构建出整个函数

By 苏剑林 | 2015-04-16 | 42774位读者 | 引用

假设我们在听一首歌，那么听完这首歌之后，我们实际上在做这样的一个过程：耳朵接受了一段时间内的声波刺激，从而引起了大脑活动的变化。而这首歌，也就是这段时间内的声波，可以用时间$t$的函数$f(t)$描述，这个函数的区间是有限的，比如$t\in[0,T]$。接着假设另外一个场景——我们要用电脑录下我们唱的歌。这又是怎样一个过程呢？要注意电脑的信号是离散化的，而声波是连续的，因此，电脑要把歌曲记录下来，只能对信号进行采样记录。原则上来说，采集的点越多，就能够越逼真地还原我们的歌声。可是有一个问题，采集多少点才足够呢？在信息论中，一个著名的“采样定理”（又称香农采样定理，奈奎斯特采样定理）告诉我们：只需要采集有限个样本点，就能够完整地还原我们的输入信号来！

采集有限个点就能够还原一个连续的函数？这是怎么做到的？下面我们来解释这个定理。

任意给定一个函数，一般来说我们都可以将它做傅里叶变换：
$$F(\omega)=\int_{-\infty}^{+\infty} f(t)e^{i\omega t}dt\tag{1}$$
虽然我们的积分限写了正负无穷，但是由于$f(t)$是有限区间内的函数，所以上述积分区间实际上是有限的。

点击阅读全文...

分类：数学研究标签：积分, fourier, 采样阅读全文 5 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

积分梯度：一种新颖的神经网络可视化方法

为什么勒贝格积分比黎曼积分强？

本是同根生，相煎何太急？

【外微分浅谈】5. 几何意义

斯特灵(stirling)公式与渐近级数

积分估计的极值原理——变分原理的初级版本

从高斯型积分出发

封闭曲线所围成的面积：一个新技巧

高斯型积分的微扰展开（三）

换一个小参数

采样定理：有限个点构建出整个函数

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接