12 Sep

【中文分词系列】 5. 基于语言模型的无监督分词

By 苏剑林 | 2016-09-12 | 191336位读者 |

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。

看上去很完美，可是怎么做到呢？《2.基于切分的新词发现》中提供了一种思路，但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路，它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看，这样的分词系统未免太过粗糙了。因此，我一直想着怎么提高这个精度，前期得到了一些有意义的结果，但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作，所以这算是笔者在分词方面的一点原创工作了。

语言模型 #

首先简单谈一下语言模型。

很多数据挖掘的读者都已经听说过Word2Vec，知道它是一个能够生成词向量的工具，很多人也知道将词向量作为模型的特征来进行输入。但相信不少读者不知道为什么会有词向量，为什么Word2Vec能生成词向量。Word2Vec本身的光芒（Google出品、速度快、效果也不错、在Python中有很好实现等）已经把同类产品以及背后的原理都给掩盖下去了。事实上，词向量的初衷，是为了更好地生成语言模型，最经典的文章应该是深度学习的鼻祖之一——Bengio——的《A Neural Probabilistic Language Model》。这一段的重点是谈语言模型，不是词向量。关于词向量，有兴趣的读者可以参考下面的文章：

Deep Learning in NLP （一）词向量和语言模型：
http://licstar.net/archives/328
火光摇曳的《我们是这样理解语言的》系列：
http://www.flickering.cn/?s=我们是这样理解语言的

语言模型是计算条件概率
$$p(w_n|w_1,w_2,\dots,w_{n-1})$$
的模型，其中$w_1,w_2,\dots,w_{n-1}$是句子中的前$n-1$个词（或字），$w_n$是第$n$个词（或字）。语言模型在很多方面都有应用，比如说分词、语音识别、机器翻译等。为了得到语言模型，有很多方法，比如说最简单的是“统计+平滑”的方法，还有最大熵语言模型、CRF语言模型等，而当前深度学习框架下研究得很多的是“神经网络语言模型”，它的大概思路是：$p(w_n|w_1,w_2,\dots,w_{n-1})$是关于$w_1,w_2,\dots,w_n$的一个函数，这个函数的具体形式我不知道，所以利用神经网络去拟合它，为了更好地拟合，并且减少模型参数，还把词语“嵌入”到实数空间中，用短向量来表示词语，跟语言模型一起训练。从这个角度看，词向量只是语言模型的副产品。

语言模型生成的词向量能够较好地表示语义，这是很有趣的，却也是在情理之中。什么是语义？对人类来说，语义是一种推理和理解的过程，而我们的语言模型，就是从前$n-1$个字推测下一个字，这也是一个推理的过程。既然包含了推理成分在里边，就有可能捕捉到语义了。

无监督分词 #

说语言模型似乎说得有点多了，不过，本文要介绍的分词方法，就是以“基于字的语言模型”为基础的。

我们从最大概率法出发，如果一个长度为$l$的字符串$s_1, s_2, \dots, s_l$，最优分词结果为$w_1, w_2, \dots, w_m$，那么它应该是所有切分中，概率乘积
$$p(w_1)p(w_2)\dots p(w_m)$$
最大的一个。

假如没有词表，自然也就不存在$w_1, w_2, \dots, w_m$这些词了。但是，我们可以用贝叶斯公式，将词的概率转化为字的组合概率：
$$p(w)=p(c_1)p(c_2|c_1)p(c_3|c_1 c_2)\dots p(c_k|c_1 c_2 \dots c_{k-1})$$
其中$w$是一个$k$字词，$c_1,c_2,\dots,c_k$分别是$w$的第$1,2,\dots,k$个字。可以发现，$p(c_k|c_1 c_2 \dots c_{k-1})$就是我们前面提到过的字的语言模型。

当然，对于很大的$k$，$p(c_k|c_1 c_2 \dots c_{k-1})$还是不容易估算的，不过幸好按照我们的经验，词的平均长度不会很大，因此，我们只需要用n-gram语言模型就够了，其中$n$为4时效果就挺不错了。

那分词具体又是怎么操作呢？假如字符串$s_1, s_2, s_3\dots, s_l$，如果不进行切分，那么它的路径概率应该是
$$p(s_1)p(s_2)p(s_3)\dots p(s_l)$$
如果$s_1, s_2$应该合并为一个词，那么它的路径概率是
$$p(s_1 s_2)p(s_3)\dots p(s_l)=p(s_1)p(s_2|s_1)p(s_3)\dots p(s_l)$$
如果$s_2, s_3$应该合并为一个词，那么它的路径概率是
$$p(s_1)p(s_2 s_3)\dots p(s_l)=p(s_1)p(s_2)p(s_3|s_2)\dots p(s_l)$$
如果$s_1, s_2, s_3$应该合并为一个词，那么它的路径概率是
$$p(s_1 s_2 s_3)\dots p(s_l)=p(s_1)p(s_2|s_1)p(s_3|s_1 s_2)\dots p(s_l)$$
看到特点了吗？每一种切分方式，事实上都对应着$l$个条件概率的相乘，我们就是从这些条件概率的相乘模式中，找出结果最大的那个。而同样的，如果我们知道了最优的相乘模式，就可以对应地写出分词结果来。

更系统地看，其实就是将分词转化为了标注问题，如果字语言模型取到4-gram，那么它相当于做了如下的字标注：

b：单字词或者多字词的首字
c：多字词的第二字
d：多字词的第三字
e：多字词的其余部分

对于句子中的一个字$s_k$来说，就有
$$\begin{aligned}&p(b)=p(s_k)\\
&p(c)=p(s_k|s_{k-1})\\
&p(d)=p(s_k|s_{k-2} s_{k-1})\\
&p(e)=p(s_k|s_{k-3} s_{k-2} s_{k-1})
\end{aligned}$$

这就是将分词问题变成了一种字标注问题，而每个标签的概率由语言模型给出。而且，显然b后面只能接b或者c，类似地，就得到非零的转移概率只有：
$$p(b|b),\,p(c|b),\,p(b|c),\,p(d|c),\,p(b|d),\,p(e|d),\,p(b|e),\,p(e|e)$$
这些转移概率的值，决定了划分出来的是长词还是短词。最后找最优路径，依旧由viterbi算法完成。

到这里，问题就变成了语言模型的训练了，这是无监督的。我们只需要花心思优化语言模型，而这方面不论是理论还是实战都已经很成熟了，有不少现成的工具可以用。简单地可以只用传统的“统计+平滑”模型，如果要从语义来做，那么就可以用最新的神经语言模型。总而言之，分词的效果，取决于语言模型的质量。

实践：训练 #

首先来训练语言模型。这里文本数据是50万微信公众号的文章，约2GB大小，训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。

kenlm是一个C++编写的语言模型工具，具有速度快、占用内存小的特点，也提供了Python接口。首先下载编译它：

wget -O - http://kheafield.com/code/kenlm.tar.gz |tar xz 
cd kenlm
./bjam -j4
python setup.py install

接着训练语言模型。kenlm的输入很灵活，不用预先生成语料文本，而可以通过管道的方式传递。比如先编写一个p.py

import pymongo
db = pymongo.MongoClient().weixin.text_articles

for text in db.find(no_cursor_timeout=True).limit(500000):
    print ' '.join(text['text']).encode('utf-8')

我的文章放在MongoDB中，所以是上面的格式，如果你的数据放在其他地方，请做相应修改，其实很简单，就是把你要训练的文本分好词（用空格隔开，如果你是做基于字的模型，就把模型的每个字用空格隔开），然后逐一print出来。

然后就可以训练语言模型了，这里训练一个4-gram的语言模型：

python p.py|./kenlm/bin/lmplz -o 4 > weixin.arpa
./kenlm/bin/build_binary weixin.arpa weixin.klm

arpa是通用的语言模型格式，klm是kenlm定义的二进制格式，klm格式占用空间更少。最后我们就可以在Python中载入了

import kenlm
model = kenlm.Model('weixin.klm')
model.score('微 信', bos=False, eos=False)
'''
score函数输出的是对数概率，即log10(p('微 信'))，其中字符串可以是gbk，也可以是utf-8
bos=False, eos=False意思是不自动添加句首和句末标记符
'''

实践：分词 #

有了上述基础，就可以来做一个分词系统了。

import kenlm
model = kenlm.Model('weixin.klm')

from math import log10

#这里的转移概率是人工总结的，总的来说，就是要降低长词的可能性。
trans = {'bb':1, 'bc':0.15, 'cb':1, 'cd':0.01, 'db':1, 'de':0.01, 'eb':1, 'ee':0.001}
trans = {i:log10(j) for i,j in trans.iteritems()}

def viterbi(nodes):
    paths = nodes[0]
    for l in range(1, len(nodes)):
        paths_ = paths
        paths = {}
        for i in nodes[l]:
            nows = {}
            for j in paths_:
                if j[-1]+i in trans:
                    nows[j+i]= paths_[j]+nodes[l][i]+trans[j[-1]+i]
            k = nows.values().index(max(nows.values()))
            paths[nows.keys()[k]] = nows.values()[k]
    return paths.keys()[paths.values().index(max(paths.values()))]

def cp(s):
    return (model.score(' '.join(s), bos=False, eos=False) - model.score(' '.join(s[:-1]), bos=False, eos=False)) or -100.0

def mycut(s):
    nodes = [{'b':cp(s[i]), 'c':cp(s[i-1:i+1]), 'd':cp(s[i-2:i+1]), 'e':cp(s[i-3:i+1])} for i in range(len(s))]
    tags = viterbi(nodes)
    words = [s[0]]
    for i in range(1, len(s)):
        if tags[i] == 'b':
            words.append(s[i])
        else:
            words[-1] += s[i]
    return words

实践：效果 #

语言模型的大小有近3G，因此就不放出来了，有需要的读者可以联系我。下面看一下一些例子。

水是生命的源泉，是人类赖以生存且无可替代的营养物质。为使队员们更加了解水对生命的至关重要性，提高队员们对水更科学的认识与理解，倡导节水爱水的环保意识，青少年环境知识科普课堂走进大金小学，为五、六年级近 300 余名队员开展了一场《水与生命》为主题的科普知识讲座。此次活动共分为三场进行，宣讲人祝老师结合 PPT ，图文并茂、生动地从水的特性、水与生命、水与生活以及节水技巧四个方面与队员们进行了交流。祝老师告诉队员们水对人体的重要性，详细说明了水的营养组成，同时提醒队员们要学会健康科学的饮水方法，并分享了节水小窍门，希望队员们都能以自己为榜样，努力承担 “ 小小节水宣传员 ”的职责，积极带动身边的人一起参与节约用水。 PH 试纸检测水的酸碱度，队员们都表现了浓厚的兴趣，纷纷取了试纸回家测试水质。讲座结束后，队员们都领到了 “ 小小节水宣传员 ” 培训课程的结业证书。从队员们兴奋的表情中能够感受到队员们节水爱水的决心。保护水环境，珍惜水资源，从点滴做起，从自己做起，只要每个人都做到了保护生态、爱护环境，那么碧水蓝天就会离我们越来越近！打赏小编的最好方式就是 —— 点赞 ↓↓ 长按二维码，关注我们吧！ ↓↓

可以看到，效果还是不错的，对长词的识别效果都挺好。但是，有些情况可能不符合我们的习惯认识，比如“队员们”作为一个词了，还有“且无可替代”错误地分为了“且无可替代”，因为“且无”太频繁了。

区志愿者协会在前几日得知芦林街道三官殿居有一居民家庭特别困难的情况， 12月 12 日下午，招募了 7 名志愿者来到芦林三官殿周全禄老人家，送去了一袋大米和一床棉被。此次助养慰问品是由广丰区志愿者协会公益基金提供， “ 暖冬行动 ” 作为志愿者协会帮困项目的其中重要一项，由参与暖冬行动的志愿者们负责执行发放到走访核实的困境家庭手中。志愿者现场和周全禄老人交谈，从他本人和周边群众了解到他的基本家庭状况，他本人今年 62 岁，娶了一个患有精神疾病的妻子，生了 2个儿子，小孩大的 14 岁，小的 12 岁，妻子在十年前也离家出走，至今未回，留下他和 2个儿子共同生活，由于儿子遗传了母亲的精神疾病，大儿子的种种不正常表现，不能在学校正常上学，只能整天跟着小儿子两个人无所事事，游手好闲，什么事也做不了。周老本身就是一个老实巴交的农民，今年不慎干农活时摔了一跤，医药费 2万多元，都是村里和亲戚邻居帮忙筹集的。他住的房子也是亲戚筹集盖的一层瓦房。凌乱的客厅，衣服基本上就是没有什么换洗，湿了就随意搭着晾干，然后接着穿我们在他家看到做的饭菜，这就是一家人赖以生存的厨房。这就是卧室，床铺被褥都是破旧不堪，我们带去的一床新棉被他的外甥女偶尔帮他整理下卫生，做些家务赠人玫瑰，手有余香；扶困助弱，千古美德；能力不分大小，善举不分先后，真情重在付出。众人拾柴火焰高，我们将把所有爱心力量汇集在一起，传递社会大家庭的温暖，传递社会正能量，放飞困境儿童的未来梦想！伸出您的双手，奉献您的爱心，让我们行动起来，共同关爱困境家庭，让所他们同在蓝天下健康快乐成长！如果您或您身边的人有 12 - 15 岁男孩子的衣物，棉被等暖冬物质可以捐赠，请伸出您充满爱心的双手，给这个特殊家庭一个暖暖的冬日！！！暖冬物质接收地址：广丰区志愿者协会暖冬物质接收联系人： 18 6 07 03 48 18 （段先生） 13 8 70 32 70 03 （陈女士）供稿：段建波图片：段建波编辑：周小飞

可以看到，即使对“拾柴火焰高”这样的长词也有不错的识别效果。当然，错误的例子也不少，比如“把所有”、“让我们”、“请伸出您”成为了一个词。

根据业务发展需要，现将我公司 20 16 年招聘应届高校毕业生公告如下 : 一、招聘岗位 20 16 年我公司拟招聘应届高校毕业生 20 名。招聘岗位和学历、专业要求见下表。二、报名条件 1. 列入国家招生计划、具备派遣资格、处于毕业学年的全日制普通高等院校在校生，以及经教育部留学服务中心认证并具备派遣资格的归国留学生 ; 2. 遵守国家法律法规和学校规章制度，具有良好的思想品质和道德素质，无刑事犯罪和严重违反校纪校规记录 ; 3. 专业对口，符合工作岗位要求，热爱铁路集装箱事业 ; 4. 学习成绩优良，取得相应的大学本科及以上学历和学位证书 ; 应聘在京单位岗位毕业生需取得国家大学外语四级考试合格证书 ( 主修其他语种除外 ); 5. 身心健康，近期医院健康体检合格，能够适应应聘岗位工作要求。三、报名方法应聘者需登录 " 中国铁路人才招聘网 — 个人中心 " 栏目按照流程进行报名应聘 ( 首次登录须进行网上注册 )。报名截止日期为 20 16 年 1月 10 日。每人限报一个岗位。四、招聘流程 1. 资格确认。根据资格审查和初步筛选情况，于201 6年 2月 28 日前，择优以邮件、短信或电话方式通知毕业生参加招聘考试。 2. 招聘考试。参加招聘考试的毕业生应携带在中国铁路人才招聘网打印的毕业生应聘登记表，本人身份证、学生证、所在学校盖章的就业推荐表、成绩单、外语证书等材料的原件及复印件。招聘考试在 20 16 年 4月 15 日前完成，具体时间、地点另行通知。 3. 人员公示。拟录用人选将统一在中国铁路人才招聘网和公司官网进行公示。招聘过程中，对未进入下一环节的毕业生不再另行通知。五、其他事项 1. 公司不委托第三方招聘，也不在招聘过程中向应聘者收任何费用。 2. 应聘者的报名材料概不退回，在招聘过程中公司对应聘者的相关信息予以保密。毕业生应对招聘各环节所提供的材料的真实性负责，凡弄虚作假的，一经发现，取消聘用资格。 3. 单位地址：北京市西城区鸭子桥路 24 号中铁商务大厦邮政编码： 10 00 55 联系电话：0 10 - 51 89 27 23

总的来说 #

总的来说，这种无监督的分词方式，事实上是对我们的用字习惯做了总结，把我们常见的用字模式提取了出来。因此，它对于不少长词，尤其是固定搭配的成语，有着很好的识别效果。同时，我们也有一些频繁的用字组合，比如前面说的“让我们”之类的，也被视为单个词语了。可能我们会觉得这是一个不合理的情况，但反过来想想，既然我们经常说“让我们”，那么为什么不把“让我们”就作为一个“词”呢？

换句话说，我们做分词，事实上就是事先提取出固定的用语模式罢了，这个固定的用语模式，不一定是我们认识中的“词”，也有可能是习惯用语等。当然，这里边有个相互矛盾的地方，就是分词的粒度太细，则词表的词数不会过多，但单个句子的长度则会变长；分词的粒度太粗，则词表的词数可能暴增，但好处是单个句子的长度会减少。而本文所提供的分词方式，可以通过转移概率的调整，来实现对分词粒度的调整，以适应不同的任务。

同时，前面已经说了，分词的效果取决于语言模型的质量，这使得我们只需要优化语言模型，而且语言模型可以无监督地训练，这是一个明显的好处。比如，如果我们希望能够实现具有语义理解能力的分词模型，那么用神经网络之类的方法训练语言模型即可，如果我们考虑速度，那么传统的统计方法就不错了（用kenlm从50万文本中得到语言模型，只用了10分钟不到）。总而言之，提供了最大的自由度。

转载到请包括本文地址：https://www.kexue.fm/archives/3956

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Sep. 12, 2016). 《【中文分词系列】 5. 基于语言模型的无监督分词》[Blog post]. Retrieved from https://www.kexue.fm/archives/3956

@online{kexuefm-3956,
        title={【中文分词系列】 5. 基于语言模型的无监督分词},
        author={苏剑林},
        year={2016},
        month={Sep},
        url={\url{https://www.kexue.fm/archives/3956}},
}

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现 35 评论

< 基于双向LSTM和迁移学习的seq2seq核心实体识别 | 【理解黎曼几何】1. 一条几何之路 >

你也许还对下面的内容感兴趣

发表你的看法

chandlervan

August 4th, 2019

感谢苏神！
请教一个问题，这里用这种方法生成的分词模型，与结巴的效果对比，有无什么可比较的方面呢？这样理解的话kenlm能够因应不同语料的统计，生成对应的分词模型；但感觉对比加了对应场景词库的jieba模型，应该还是jieba的效果要好点吧。

回复评论

苏剑林发表于 August 5th, 2019

无监督算法本身就是主要来解决“场景词库哪里来”的问题，你都说有了场景词库还要将它加入到jieba了，那有什么好比较的，肯定jieba好啊

回复评论

August 10th, 2019

请问训练数据可否提供，是什么样子的呢？

回复评论

苏剑林发表于 August 10th, 2019

不可提供，无固定格式，只需看懂全文，然后自行修改，如不愿意学习，请勿参考本文。

回复评论

warth

August 12th, 2019

看了文章想到一个问题，无监督分词是不是无法统计准确率？应该采取何种方式来评判模型的性能呢？

回复评论

苏剑林发表于 August 13th, 2019

可以用现成的标注语料作为测试集来评估性能

回复评论

August 12th, 2019

苏神您好, 请问如果使用LSTM作为语言模型, 例如要计算`中文分词`中的P(词|中文分), 是不是用`中文分`作为输入得到的`词`的概率?
另外对于单字的概率, 网络是没法得到的吧, 是不是还是需要用统计平滑的方式?

回复评论

苏剑林发表于 August 13th, 2019

1、是；
2、语言模型一般都会引入一个标记，p(字|)就是单字概率。

回复评论

ga 发表于 August 13th, 2019

明白了, 感谢解答

回复评论

chandlervan 发表于 August 13th, 2019

苏神你好，看到这个问题很感兴趣，追问一个问题：
这里你说的标记，指的是开始符号吗,？所以单字概率是不是P(字|)？

回复评论

半块豆干

September 17th, 2019

苏神，借楼问一下，我最近在看词向量的文章，在看A Neural Probabilistic Language Model这篇的时候，关于他词向量的处理那部分不太理解。
里面说We can then incorporate j in V and recompute probabilities for this slightly larger set (which only requires a renormalization for all the words, except for word i, which requires a pass through the neural network). 这里为什么要进行recompute probabilities，以及renormalization for all the words啊，原本输出的词向量矩阵本也没有normalization这个操作吧。只有输出的softmax才有normalization的操作。（我理解的normalization的操作就是概率归一化）所以如果要进行renormalization，是一个怎样的操作？
此外，在初始化oov词j的时候的公式：$C(j) \leftarrow \sum_{i \in V}C(i)\hat{P}(i|w^{t-1}_{t-n+1})$的时候，也利用oov词j的词向量吧，因为oov词j在i的上下文中。是哪里理解的有问题吗。

回复评论

苏剑林发表于 September 20th, 2019

这文章我不大清楚，没时间去读了，抱歉。

回复评论

liuyukid

September 23rd, 2019

苏神，你好。请问这个模型涉及监督学习吗？因为我觉得无监督学习得到的语言模型的每个输出是m（词典大小）维的向量，但具体在做4-gram分词的时候，最后的输出应该是4维的向量吧？那么得到这个4维向量全连接层是需要训练的吧。这是我的一点疑问，我不知道是不是我没看懂你的方法。。望解答，谢谢！

回复评论

苏剑林发表于 September 24th, 2019

确实是你没看懂。

最后的4维向量是$[p(c_n),p(c_n|c_{n-1}),p(c_n|c_{n-2},c_{n-1}), p(c_n|c_{n-3},c_{n-2},c_{n-1})]$，也就是当前字$c_n$在1gram、2gram、3gram、4gram语言模型中的概率，其中$c_{n-1}$是$c_n$的前第1个字，$c_{n-2}$是$c_n$的前第2个字，，$c_{n-2}$是$c_n$的前第3个字。

回复评论

March 10th, 2021

大佬，是不是有点类似sentencepiece？

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

【中文分词系列】 5. 基于语言模型的无监督分词

语言模型 #

无监督分词 #

实践：训练 #

实践：分词 #

实践：效果 #

总的来说 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接