标签编程下的文章 - 科学空间|Scientific Spaces

14 Jan

旁门左道之如何让Python的重试代码更加优雅

By 苏剑林 | 2024-01-14 | 65519位读者 | 引用

这篇文章我们讨论一个编程题：如何更优雅地在Python中实现重试。

在文章《新年快乐！记录一下 Cool Papers 的开发体验》中，笔者分享了开发Cool Papers的一些经验，其中就提到了Cool Papers所需要的一些网络通信步骤。但凡涉及到网络通信，就有失败的风险（谁也无法保证网络不会间歇性抽风），所以重试是网络通信的基本操作。此外，当涉及到多进程、数据库、硬件交互等操作时，通常也需要引入重试机制。

在Python中，实现重试并不难，但如何更加简单而又不失可读性地实现重试，还是有一定技巧的。接下来笔者分享一下自己的尝试。

循环重试

完整的重试流程大致上包含循环重试、异常处理、延时等待、后续操作等部分，其标准写法就是用for循环，用“try ... except ...”来捕捉异常，一个参考代码是：

点击阅读全文...

分类：信息时代标签：编程, 代码, python, 优化阅读全文 11 评论

8 Sep

有限内存下全局打乱几百G文件（Python）

By 苏剑林 | 2021-09-08 | 105308位读者 | 引用

这篇文章我们来做一道编程题：

如何在有限内存下全局随机打乱（Shuffle）几百G的文本文件？

题目背景其实很明朗，现在预训练模型动辄就几十甚至几百G语料了，为了让模型能更好地进行预训练，对训练语料进行一次全局的随机打乱是很有必要的。但对于很多人来说，几百G的语料往往比内存还要大，所以如何能在有限内存下做到全局的随机打乱，便是一个很值得研究的问题了。

已有工具

假设我们的文件是按行存储的，也就是一行代表一个样本，我们要做的就是按行随机打乱文件。假设我们只有一个文件，并且这个文件大小明显小于内存，那么我们可以用linux自带的shuf命令：

shuf input.txt -o output.txt

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 17 评论

27 Oct

什么时候多进程的加速比可以大于1？

By 苏剑林 | 2019-10-27 | 79172位读者 | 引用

多进程或者多线程等并行加速目前已经不是什么难事了，相信很多读者都体验过。一般来说，我们会有这样的结论：多进程的加速比很难达到1。换句话说，当你用10进程去并行跑一个任务时，一般只能获得不到10倍的加速，而且进程越多，这个加速比往往就越低。

要注意，我们刚才说“很难达到1”，说明我们的潜意识里就觉得加速比最多也就是1。理论上确实是的，难不成用10进程还能获得20倍的加速？这不是天上掉馅饼吗？不过我前几天确实碰到了一个加速比远大于1的例子，所以在这里跟大家分享一下。

词频统计

我的原始任务是统计词频：我有很多文章，然后我们要对这些文章进行分词，最后汇总出一个词频表出来。一般的写法是这样的：

tokens = {}

for text in read_texts():
    for token in tokenize(text):
        tokens[token] = tokens.get(token, 0) + 1

这种写法在我统计THUCNews全部文章的词频时，大概花了20分钟。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 13 评论

19 Feb

过程

在Python中，如果要多进程运算，一般是通过multiprocessing来实现的，常用的是multiprocessing中的进程池，比如：

from multiprocessing import Pool
import time

def f(x):
    time.sleep(1)
    print x+1
    return x+1

a = range(10)
pool = Pool(4)
b = pool.map(f, a)
pool.close()
pool.join()

print b

这样写简明清晰，确实方便，有趣的是，只需要将multiprocessing换成multiprocessing.dummy，就可以将程序从多进程改为多线程了。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 3 评论

21 Apr

写在前面：作为离散数学的实验作业，我选择了研究数独。经过测试发现，数独的自动推理还不算难，我把两种常规的推理思路转化为了计算机代码，并结合了随机性推导，得到了一个解题能力还不错的数独程序。事实上，本文的程序还可以进一步优化，以得到更高能力的数独程序（只需要整理一下代码，加上几个循环和判断即可），但是我实在太懒，没有动力继续弄下去了，就这样先和大家分享吧。最后，笔者认为本文的算法是更接近我们的思维的算法。

数独简介

历史
相传数独源起于拉丁方阵（Latin Square），1970年代在美国发展，改名为数字拼图（Number Place）、之后流传至日本并发扬光大，以数学智力游戏智力拼图游戏发表。在1984年一本游戏杂志《パズル通信ニコリ》正式把它命名为数独，意思是“在每一格只有一个数字”。后来一位前任香港高等法院的新西兰籍法官高乐德（Wayne Gould）在1997年3月到日本东京旅游时，无意中发现了。他首先在英国的《泰晤士报》上发表，不久其他报纸也发表，很快便风靡全英国，之后他用了6年时间编写了电脑程式，并将它放在网站上，使这个游戏很快在全世界流行。
台湾于2005年5月由“中国时报”首度引进, 且每日连载, 亦造成很大的回响。台湾数独发展协会(Taiwan Sudoku Association, 简称 TSA)亦为世界解谜联盟会员。香港是在2005年7月30日由AM730在创刊时引入数独。中国大陆是在2007年2月28日正式引入数独。北京晚报智力休闲数独俱乐部（数独联盟前身）在新闻大厦举行加入世界谜题联合会的颁证仪式，成为世界谜题联合会的39个成员之一。（引用自“中文维基百科”： http://zh.wikipedia.org/wiki/数独）

点击阅读全文...

分类：数学研究标签：逻辑, 推理, 数字, 编程, 代码, 算法阅读全文 1 评论

24 Apr

“抢15”游戏简析

By 苏剑林 | 2013-04-24 | 45359位读者 | 引用

昨天在上“科学计算软件”课时，讲到了一个“抢15”游戏（Pick15），就是在1~9这9个数字中，双方轮流选一个数字，不可重复，谁的数字中有三个数字的和为15的，谁就是赢家。

这是个简单的游戏，属于博弈论范畴。在博弈论中有一个著名的“策梅洛定理”（Zermelo's theorem），它指出在二人的有限游戏中，如果双方皆拥有完全的资讯，并且运气因素并不牵涉在游戏中，那先行或后行者当一必有一方有必胜/必不败的策略。比如中国象棋就属于这一类游戏，它告诉我们对于其中一方必有一种必不败策略（有可能和棋，有可能胜，反正不会输）。当然，策梅洛定理只是告诉我们其存在性，并没有告诉我们怎么发现这个策略，甚至连哪一方有这种最优策略都没有给出判别方法。这是幸运的，因为如果真有一天发现了这种策略，那么像象棋这类博弈就失去了意义了。

上述的抢15游戏当然也属于这类游戏。不同于象棋的千变万化，它的变化比较简单，而且很容易看出它对先手有着明显的优势。下面我们来分析一下。

点击阅读全文...

分类：数学研究标签：编程, 博弈, 策略阅读全文 2 评论

28 Sep

开始学习数学软件Scilab

By 苏剑林 | 2012-09-28 | 51848位读者 | 引用

其实很早之前我就想学习一款数学软件的使用，以前很感兴趣的是mathematica，也玩弄过一阵子，但毕竟在高中没有多大需要，也就没有坚持下来。更重要的是，这些软件都是要收费的。上了大学后，听了师兄姐对数学建模的讲述，发现他们基本上也是用mathematica或者matlab的，但这两个软件都是要收费的，我不大想用破解版本。既然我都已经用上了ubuntu了，那么我就该好好利用它。据说命令跟matlab很相似的软件是scilab，还有octave，不同的是这些都是开源免费的。

出于熟悉代码操作和数学软件编程的目的，我选择了学习scilab。虽然网上说octave与matlab的相似程度更高，但是我感觉scilab比octave用的更广一些，所以就用它。所谓“一理通百理明”，先专心学好一个。

下面是我编写的第一个scialb程序，利用威尔逊方法来进行素性测试。这个代码的主要目的是练习条件语句和循环语句，以及一些输出输入的技巧而已。程序本身比较丑陋。

//我的第一个scilab程序
//完成于2012.09.27

label1=['p:';];  //定义标签
B=x_mdialog(['本程序使用威尔逊方法判断进行素数测试。';'请输入要判断的数'],label1,['127';]);  //输入框
p=evstr(B(1));  //提取输入框里边的数字进行赋值
i=1;
j=1;
q=p-1;
while i<q
    j=j*i;
    j=modulo(j,p);//这个是模函数。
    i=i+1;
end
if j==1
    messagebox(['这是一个素数';],['测试结果']);  //输出，其中后边的“测试结果”是输入框的标题
else
    messagebox(['这是一个合数';],['测试结果']);
end

点击阅读全文...

分类：数学研究标签：编程, 代码, 数学软件, 开发, scilab 阅读全文 6 评论

9 Aug