标签问题下的文章 - 科学空间|Scientific Spaces

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

By 苏剑林 | 2023-09-20 | 64568位读者 | 引用

前天晚上微信群里有群友提出了一个问题：

对于一个任意整数$N > 100$，求一个近似算法，使得$N=a\times b+c$（其中$a,b,c$都是非负整数），并且令$a+b+c$尽量地小。

初看这道题，笔者第一感觉就是“这还需要算法？”，因为看上去自由度太大了，应该能求出个解析解才对，于是简单分析了一下之后就给出了个“答案”，结果很快就有群友给出了反例。这时，笔者才意识到这题并非那么平凡，随后正式推导了一番，总算得到了一个可行的算法。正当笔者以为这个问题已经结束时，另一个数学群的群友精妙地构造了新的参数化，证明了算法的复杂度还可以进一步下降！

整个过程波澜起伏，让笔者获益匪浅，遂将过程记录在此，与大家分享。

点击阅读全文...

分类：数学研究,问题百科标签：最优, 问题阅读全文 14 评论

13 Sep

大词表语言模型在续写任务上的一个问题及对策

By 苏剑林 | 2023-09-13 | 59243位读者 | 引用

对于LLM来说，通过增大Tokenizer的词表来提高压缩率，从而缩短序列长度、降低解码成本，是大家都喜闻乐见的事情。毕竟增大词表只需要增大Embedding层和输出的Dense层，这部分增加的计算量几乎不可感知，但缩短序列长度之后带来的解码速度提升却是实打实的。当然，增加词表大小也可能会对模型效果带来一些负面影响，所以也不能无节制地增加词表大小。本文就来分析增大词表后语言模型在续写任务上会出现的一个问题，并提出参考的解决方案。

优劣分析

增加词表大小的好处是显而易见的。一方面，由于LLM是自回归的，它的解码会越来越慢，而“增大词表 → 提高压缩率 → 缩短序列长度”，换言之相同文本对应的tokens数变少了，也就是解码步数变少了，从而解码速度提升了；另一方面，语言模型的训练方式是Teacher Forcing，缩短序列长度能够缓解Teacher Forcing带来的Exposure Bias问题，从而可能提升模型效果。

点击阅读全文...

分类：信息时代标签：概率, 问题, 语言模型阅读全文 13 评论

28 Aug

Lion/Tiger优化器训练下的Embedding异常和对策

By 苏剑林 | 2023-08-28 | 57277位读者 | 引用

打从在《Tiger：一个“抠”到极致的优化器》提出了Tiger优化器之后，Tiger就一直成为了我训练模型的“标配”优化器。最近笔者已经尝试将Tiger用到了70亿参数模型的预训练之中，前期效果看上来尚可，初步说明Tiger也是能Scale Up的。不过，在查看训练好的模型权重时，笔者发现Embedding出现了一些异常值，有些Embedding的分量达到了$\pm 100$的级别。

经过分析，笔者发现类似现象并不会在Adam中出现，这是Tiger或者Lion这种带符号函数$\text{sign}$的优化器特有的问题，对此文末提供了两种参考解决方案。本文将记录笔者的分析过程，供大家参考。

现象

接下来，我们的分析都以Tiger优化器为例，但分析过程和结论同样适用于Lion。

点击阅读全文...

分类：信息时代标签：问题, 梯度, 优化器阅读全文 20 评论

26 Mar

科学空间浏览指南（FAQ）

By 苏剑林 | 2019-03-26 | 187392位读者 | 引用

事实上，除了写博客内容，在这几年里，笔者是花了相当一部分时间来做科学空间的“表面功夫”，为此还专门学了一点php、css和js。虽然不敢说精益求精，但总体来说网站的浏览体验应该比前几年要好得多。

考虑到有些读者可能需要的功能，但一时半会未必能留意到，遂来整理一些站内技巧。

文章篇

什么环境阅读文章最佳？

两年前科学空间就已经加入了响应式设计，自动适应不同分辨率的屏幕。因此，不管哪个分辨率的环境应该都能看清文字内容，唯一的问题是，在小屏幕手机下公式可能会显示不全或者错位。为了较好地阅读公式，最好在7寸以上的屏幕上阅读。如果一定要用小屏幕的手机，可以考虑横屏阅读。

点击阅读全文...

分类：问题百科标签：网站, 问题, faq 阅读全文 23 评论

4 May

[问题解答]运煤车的最大路程（更正）

By 苏剑林 | 2014-05-04 | 54508位读者 | 引用

刚刚在浏览卢昌海大师的微博时，发现他微博上有一道比较有趣的题目，于是饶有兴致地思考了一翻，构思了一个答案，希望读者们看看这个答案有问题不？

五一”长假微博很闷，出一道题给博友们解闷：
用重载列车运煤，每次可装1万吨，每行驶1公里耗煤1吨，起点处共有N万吨煤（简单起见N为正整数），请问最远可运至何处（是国营煤老板，成本不计，只要运到的数量大于0就算成功）？并求$N\to\infty$时的渐进形式。

点击阅读全文...

分类：问题百科标签：趣味, 最优, 问题阅读全文 7 评论

7 Jan

角的疑惑——为什么使用弧度？

By 苏剑林 | 2013-01-07 | 42910位读者 | 引用

也许当我们从小学数学进入中学数学的过程中，让我们最郁闷的事情就是课本上把用的好好的角度制改为弧度制了，那个好好的360°的周角无端端变成了一个无理数$2\pi$，为此还多了一堆转换公式，那时这可把我折腾了好一阵子。为什么一个完美的360°不用，反而转向一个无理数$2\pi$？这里边涉及到了相当多的原因，在这些原因中，重新体现了数学体系的一致与简约。当然，文章里的观点只是我自己的看法，仅供大家参考。

弧度制：简约的要求

如果读者已经学过了极限理论，那么我就可以直接说，引入弧度制，是为了在这样的一种角的度量体制下，满足：
$$\lim_{x\to 0} \frac{\sin x}{x}=1$$

点击阅读全文...

分类：问题百科标签：几何, 问题, 测量阅读全文 5 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

自然数集中 N = ab + c 时 a + b + c 的最小值

大词表语言模型在续写任务上的一个问题及对策

优劣分析

Lion/Tiger优化器训练下的Embedding异常和对策

现象

科学空间浏览指南（FAQ）

文章篇

什么环境阅读文章最佳？

[问题解答]运煤车的最大路程（更正）

角的疑惑——为什么使用弧度？

弧度制：简约的要求

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接