标签统计下的文章 - 科学空间|Scientific Spaces

31 Mar

中位数（Median）简介

By 苏剑林 | 2026-03-31 | 3819位读者 | 引用

最近重新学习了一下中位数的概念，趁新鲜记录一下要点。

做异常值剔除或者裁剪时，我们经常需要一个“基准”，比如对于一堆非负数据，我们可能认为大于基准的50倍就是异常值。那这个基准如何选取呢？一个常用的指标是平均值，然而平均值容易被异常值“带偏”，因此以它为基准可能会偏向异常值，从而漏掉一些结果，这时我们可以考虑选取中位数为基准。

基本性质

对于一维数据点$x_1,x_2,\cdots,x_n$，它们的平均值（Mean）定义为
\begin{equation}\newcommand{mean}{\mathop{\text{mean}}}\mean(x_1,x_2,\cdots,x_n) = \frac{1}{n}\sum_{i=1}^n x_i\end{equation}
由于全体数据都直接参与平均计算，所以一旦有几个点特别大，那么平均值也会随之变大，从而干扰异常值的判断。

点击阅读全文...

分类：数学研究标签：代数, 统计, 概率, 几何阅读全文 5 评论

19 Jun

简述无偏估计和有偏估计

By 苏剑林 | 2019-06-19 | 107299位读者 | 引用

对于大多数读者（包括笔者）来说，他们接触到的第一个有偏估计量，应该是方差
\begin{equation}\hat{\sigma}^2_{\text{有偏}} = \frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2,\quad \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i\label{eq:youpianfangcha}\end{equation}
然后又了解到对应的无偏估计应该是
\begin{equation}\hat{\sigma}^2_{\text{无偏}} = \frac{1}{n-1}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\label{eq:wupianfangcha}\end{equation}
在很多人的眼里，公式$\eqref{eq:youpianfangcha}$才是合理的，怎么就有偏了？公式$\eqref{eq:wupianfangcha}$将$n$换成反直觉的$n-1$，反而就无偏了？

下面试图用尽量清晰的语言讨论一下无偏估计和有偏估计两个概念。

点击阅读全文...

分类：数学研究标签：统计, 概率, 估计阅读全文 12 评论

7 Jan

基于遗忘假设的平滑公式

By 苏剑林 | 2017-01-07 | 25515位读者 | 引用

统计是通过大量样本来估计真实分布的过程，通常与统计相伴出现的一个词是“平滑”，即对统计结果打折扣的处理过程。平滑的思想来源于：如果样本空间非常大，那么统计的结果是稀疏的，这样由于各种偶然因素的存在，导致了小的统计结果不可靠，如频数为1的结果可能只是偶然的结果，其频率并不一定近似于$1/N$，频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑，使得结论更为可靠。

平滑的方法有很多，这里介绍一种基于遗忘假设的平滑公式。假设的任务为：我们要从一批语料中，统计每个字的字频。我们模仿人脑遗忘的过程，假设这个字出现一次，我们脑里的记忆量就增加1，但是如果一个周期内（先不管这个周期多大），这个字都没有出现，那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的，那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

点击阅读全文...

分类：数学研究标签：统计, 语料, 平滑阅读全文抢沙发

21 Aug