22 Aug

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

By 苏剑林 | 2016-08-22 | 605216位读者 |

关于字标注法 #

上一篇文章谈到了分词的字标注法。要注意字标注法是很有潜力的，要不然它也不会在公开测试中取得最优的成绩了。在我看来，字标注法有效有两个主要的原因，第一个原因是它将分词问题变成了一个序列标注问题，而且这个标注是对齐的，也就是输入的字跟输出的标签是一一对应的，这在序列标注中是一个比较成熟的问题；第二个原因是这个标注法实际上已经是一个总结语义规律的过程，以4tag标注为为例，我们知道，“李”字是常用的姓氏，一半作为多字词（人名）的首字，即标记为b；而“想”由于“理想”之类的词语，也有比较高的比例标记为e，这样一来，要是“李想”两字放在一起时，即便原来词表没有“李想”一词，我们也能正确输出be，也就是识别出“李想”为一个词，也正是因为这个原因，即便是常被视为最不精确的HMM模型也能起到不错的效果。

关于标注，还有一个值得讨论的内容，就是标注的数目。常用的是4tag，事实上还有6tag和2tag，而标记分词结果最简单的方法应该是2tag，即标记“切分/不切分”就够了，但效果不好。为什么反而更多数目的tag效果更好呢？因为更多的tag实际上更全面概括了语义规律。比如，用4tag标注，我们能总结出哪些字单字成词、哪些字经常用作开头、哪些字用作末尾，但仅仅用2tag，就只能总结出哪些字经常用作开头，从归纳的角度来看，是不够全面的。但6tag跟4tag比较呢？我觉得不一定更好，6tag的意思是还要总结出哪些字作第二字、第三字，但这个总结角度是不是对的？我觉得，似乎并没有哪些字固定用于第二字或者第三字的，这个规律的总结性比首字和末字的规律弱多了（不过从新词发现的角度来看，6tag更容易发现长词。）。

双向LSTM #

关于双向LSTM，理解的思路是：双向LSTM是LSTM的改进版，LSTM是RNN的改进版。因此，首先需要理解RNN。

笔者曾在拙作《从Boosting学习到神经网络：看山是山？》说到过，模型的输出结果，事实上也是一种特征，也可以作为模型的输入来用，RNN正是这样的网络结构。普通的多层神经网络，是一个输入到输出的单向传播过程。如果涉及到高维输入，也可以这样做，但节点太多，不容易训练，也容易过拟合。比如图像输入是1000x1000的，难以直接处理，这就有了CNN；又或者1000词的句子，每个词用100维的词向量，那么输入维度也不小，这时候，解决这个问题的一个方案是RNN（CNN也可以用，但RNN更适合用于序列问题。）。

RNN的过程

RNN的意思是，为了预测最后的结果，我先用第一个词预测，当然，只用第一个预测的预测结果肯定不精确，我把这个结果作为特征，跟第二词一起，来预测结果；接着，我用这个新的预测结果结合第三词，来作新的预测；然后重复这个过程；直到最后一个词。这样，如果输入有n个词，那么我们事实上对结果作了n次预测，给出了n个预测序列。整个过程中，模型共享一组参数。因此，RNN降低了模型的参数数目，防止了过拟合，同时，它生来就是为处理序列问题而设计的，因此，特别适合处理序列问题。

LSTM对RNN做了改进，使得能够捕捉更长距离的信息。但是不管是LSTM还是RNN，都有一个问题，它是从左往右推进的，因此后面的词会比前面的词更重要，但是对于分词这个任务来说是不妥的，因为句子各个字应该是平权的。因此出现了双向LSTM，它从左到右做一次LSTM，然后从右到左做一次LSTM，然后把两次结果组合起来。

在分词任务中的应用 #

关于深度学习与分词，很早就有人尝试过了，比如下列文章：
http://blog.csdn.net/itplus/article/details/13616045

https://github.com/xccds/chinese_wordseg_keras

http://www.leiphone.com/news/201608/IWvc75oJglAIsDvJ.html

这些文章中，不管是用简单的神经网络还是LSTM，它们的做法都跟传统模型是一样的，都是通过上下文来预测当前字的标签，这里的上下文是固定窗口的，比如用前后5个字加上当前字来预测当前字的标签。这种做法没有什么不妥之处，但仅仅是把以往估计概率的方法，如HMM、ME、CRF等，换为了神经网络而已，整个框架是没变的，本质上还是n-gram模型。而有了LSTM，LSTM本身可以做序列到序列（seq2seq）的输出，因此，为什么不直接输出原始句子的序列呢？这样不就真正利用了全文信息了吗？这就是本文的尝试。

LSTM可以根据输入序列输出一个序列，这个序列考虑了上下文的联系，因此，可以给每个输出序列接一个softmax分类器，来预测每个标签的概率。基于这个序列到序列的思路，我们就可以直接预测句子的标签。

Keras实现 #

事不宜迟，动手最重要。词向量维度用了128，句子长度截断为32（抛弃了多于32字的样本，这部分样本很少，事实上，用逗号、句号等天然分隔符分开后，句子很少有多于32字的。）。这次我用了5tag，在原来的4tag的基础上，加上了一个x标签，用来表示不够32字的部分，比如句子是20字的，那么第21～32个标签均为x。

在数据方面，我用了Bakeoff 2005的语料中微软亚洲研究院（Microsoft Research）提供的部分。代码如下，如果有什么不清晰的地方，欢迎留言。

# -*- coding:utf-8 -*-
import re
import numpy as np
import pandas as pd

s = open('msr_train.txt').read().decode('gbk')
s = s.split('\r\n')

def clean(s): #整理一下数据，有些不规范的地方
    if u'“/s' not in s:
        return s.replace(u' ”/s', '')
    elif u'”/s' not in s:
        return s.replace(u'“/s ', '')
    elif u'‘/s' not in s:
        return s.replace(u' ’/s', '')
    elif u'’/s' not in s:
        return s.replace(u'‘/s ', '')
    else:
        return s

s = u''.join(map(clean, s))
s = re.split(u'[，。！？、]/[bems]', s)

data = [] #生成训练样本
label = []
def get_xy(s):
    s = re.findall('(.)/(.)', s)
    if s:
        s = np.array(s)
        return list(s[:,0]), list(s[:,1])

for i in s:
    x = get_xy(i)
    if x:
        data.append(x[0])
        label.append(x[1])

d = pd.DataFrame(index=range(len(data)))
d['data'] = data
d['label'] = label
d = d[d['data'].apply(len) <= maxlen]
d.index = range(len(d))
tag = pd.Series({'s':0, 'b':1, 'm':2, 'e':3, 'x':4})

chars = [] #统计所有字，跟每个字编号
for i in data:
    chars.extend(i)

chars = pd.Series(chars).value_counts()
chars[:] = range(1, len(chars)+1)

#生成适合模型输入的格式
from keras.utils import np_utils
d['x'] = d['data'].apply(lambda x: np.array(list(chars[x])+[0]*(maxlen-len(x))))

def trans_one(x):
    _ = map(lambda y: np_utils.to_categorical(y,5), tag[x].reshape((-1,1)))
    _ = list(_)
    _.extend([np.array([[0,0,0,0,1]])]*(maxlen-len(x)))
    return np.array(_)

d['y'] = d['label'].apply(trans_one)

#设计模型
word_size = 128
maxlen = 32
from keras.layers import Dense, Embedding, LSTM, TimeDistributed, Input, Bidirectional
from keras.models import Model

sequence = Input(shape=(maxlen,), dtype='int32')
embedded = Embedding(len(chars)+1, word_size, input_length=maxlen, mask_zero=True)(sequence)
blstm = Bidirectional(LSTM(64, return_sequences=True), merge_mode='sum')(embedded)
output = TimeDistributed(Dense(5, activation='softmax'))(blstm)
model = Model(input=sequence, output=output)
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

batch_size = 1024
history = model.fit(np.array(list(d['x'])), np.array(list(d['y'])).reshape((-1,maxlen,5)), batch_size=batch_size, nb_epoch=50)

#转移概率，单纯用了等概率
zy = {'be':0.5, 
      'bm':0.5, 
      'eb':0.5, 
      'es':0.5, 
      'me':0.5, 
      'mm':0.5,
      'sb':0.5, 
      'ss':0.5
     }

zy = {i:np.log(zy[i]) for i in zy.keys()}

def viterbi(nodes):
    paths = {'b':nodes[0]['b'], 's':nodes[0]['s']}
    for l in range(1,len(nodes)):
        paths_ = paths.copy()
        paths = {}
        for i in nodes[l].keys():
            nows = {}
            for j in paths_.keys():
                if j[-1]+i in zy.keys():
                    nows[j+i]= paths_[j]+nodes[l][i]+zy[j[-1]+i]
            k = np.argmax(nows.values())
            paths[nows.keys()[k]] = nows.values()[k]
    return paths.keys()[np.argmax(paths.values())]

def simple_cut(s):
    if s:
        r = model.predict(np.array([list(chars[list(s)].fillna(0).astype(int))+[0]*(maxlen-len(s))]), verbose=False)[0][:len(s)]
        r = np.log(r)
        nodes = [dict(zip(['s','b','m','e'], i[:4])) for i in r]
        t = viterbi(nodes)
        words = []
        for i in range(len(s)):
            if t[i] in ['s', 'b']:
                words.append(s[i])
            else:
                words[-1] += s[i]
        return words
    else:
        return []

not_cuts = re.compile(u'([\da-zA-Z ]+)|[。，、？！\.\?,!]')
def cut_word(s):
    result = []
    j = 0
    for i in not_cuts.finditer(s):
        result.extend(simple_cut(s[j:i.start()]))
        result.append(s[i.start():i.end()])
        j = i.end()
    result.extend(simple_cut(s[j:]))
    return result

我们可以用model.summary()看一下模型的结构。

>>> model.summary()
_______________________________________________________
Layer (type) Output Shape Param # Connected to
=======================================================
input_2 (InputLayer) (None, 32) 0
_______________________________________________________
embedding_2 (Embedding) (None, 32, 128) 660864 input_2[0][0]
_______________________________________________________
bidirectional_1 (Bidirectional) (None, 32, 64) 98816 embedding_2[0][0]
_______________________________________________________
timedistributed_2 (TimeDistribute) (None, 32, 5) 325 bidirectional_1[0][0]
=======================================================
Total params: 760005
_______________________________________________________

最终的模型结果如何？我不打算去对比那些评测结果了，现在的模型在测试上达到90%以上的准确率不是什么难事。我关心的是对新词的识别和对歧义的处理。下面是一些测试结果（随便选的）：

RNN 的意思是，为了预测最后的结果，我先用第一个词预测，当然，只用第一个预测的预测结果肯定不精确，我把这个结果作为特征，跟第二词一起，来预测结果；接着，我用这个新的预测结果结合第三词，来作新的预测；然后重复这个过程。
结婚的和尚未结婚的
苏剑林是科学空间的博主。
广东省云浮市新兴县
魏则西是一名大学生
这真是不堪入目的环境
列夫·托尔斯泰是俄罗斯一位著名的作家
保加利亚首都索非亚是全国政治、经济、文化中心，位于保加利亚中西部
罗斯福是第二次世界大战期间同盟国阵营的重要领导人之一。 1941 年珍珠港事件发生后，罗斯福力主对日本宣战，并引进了价格管制和配给。罗斯福以租借法案使美国转变为 “ 民主国家的兵工厂 ” ，使美国成为同盟国主要的军火供应商和融资者，也使得美国国内产业大幅扩张，实现充分就业。二战后期同盟国逐渐扭转形势后，罗斯福对塑造战后世界秩序发挥了关键作用，其影响力在雅尔塔会议及联合国的成立中尤其明显。后来，在美国协助下，盟军击败德国、意大利和日本。

可以发现，测试结果是很乐观的。不论是人名（中国人名或外国人名）还是地名，识别效果都很好。关于这个模型，目前就说到这里，以后会继续深入的。

最后 #

事实上本文是提供了一个框架，能够直接通过双向LSTM对序列进行标注，给出完整的标注序列。这种标注的思路，可以用于很多任务，如词性标注、实体识别，因此，基于双向LSTM的seq2seq标注思路，有很广的应用，值得研究。甚至最近热门的深度学习的机器翻译，都是用这种序列到序列的模型实现的。

msr_train.txt.zip

转载到请包括本文地址：https://www.kexue.fm/archives/3924

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Aug. 22, 2016). 《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注》[Blog post]. Retrieved from https://www.kexue.fm/archives/3924

@online{kexuefm-3924,
        title={【中文分词系列】 4. 基于双向LSTM的seq2seq字标注},
        author={苏剑林},
        year={2016},
        month={Aug},
        url={\url{https://www.kexue.fm/archives/3924}},
}

分类：信息时代标签：概率, python, 分词, 自然语言处理 139 评论

< 【中文分词系列】 3. 字标注法与HMM模型 | 进驻中山大学南校区，折腾校园网 >

你也许还对下面的内容感兴趣

发表你的看法

弓军金

February 10th, 2017

你好，博主，这里请教你一个问题：在网上查看资料，dnn用于序列标注的方法有1）lstm（blstm）；2）BiLSTM CRF；3）Seq2seq（翻译模型）等等。想问下你这里介绍的方法是lstm还是seq2seq？这两种方法的差别在哪里？
还有一个问题，seq2seq方法需要对输入长度进行规整，固定长度么？在encode过程中，序列长度需要保持不变么？

回复评论

弓军金发表于 February 10th, 2017

在请教下，这里用到转移概率和维特比的目的是什么？转移概率是上下文信息，但是你的lstm已经用过了上下文以及转移信息，这两者有什么区别？

回复评论

苏剑林发表于 February 11th, 2017

1、你这三个分类有点奇怪。首先我没有用到crf，但我用到了bilstm，另外seq2seq本身也用到了lstm，我这个是一个序列标注，形式上算是seq2seq，但跟翻译、对话系统中的seq2seq又有所不同。

2、viterbi加转移概率主要是为了排除绝对不合理的情形，比如，如果不用viterbi，直接采用每个的最大概率标签，则可能得到bbbbbb这样的标注结果，但是按照我们的规定，b后面不能接b，而viterbi规划可以排除这样的不合理情形

回复评论

shen 发表于 November 26th, 2017

我看下来之后也有这个疑问。可能@弓军金同学没说清楚。
（1）seq2seq模型在lstm做encode得到固定长度文本表示后继续用lstm做decode生成一个新的序列。
（2）现在这块很多所谓的bi-lstm CRF做序列标注都是在bi lstm之后使用viterbe译码考虑整个句子的情况。

感觉你博客里描述的跟（2）更相近一些，所以我会觉得你这个是bilstm+crf，而不是翻译模型的那种seq2seq。

回复评论

苏剑林发表于 November 27th, 2017

的确跟(2)接近一些，但是CRF不是这样的。请参考http://kexue.fm/archives/4695/

我只用到了逐标签softmax，没有用到CRF

回复评论

姜潘

February 28th, 2017

为什么用你的代码跑完准确率只在32%左右啊？分词的结果更是很烂，比如"结婚的和尚未结婚的"，分完之后变成了['结', '婚', '的和', '尚未结', '婚', '的']

回复评论

苏剑林发表于 March 1st, 2017

完全没改动吗？不至于呀，我上面的结果，尤其是"结婚的和尚未结婚的"，都是实验结果的。

至于准确率只有30％多，那是正确的，因为x标签没有算进去。

回复评论

姜潘发表于 March 1st, 2017

分词是直接调用cut_word('结婚的和尚未结婚的')？如果没错的话，能麻烦您再仔细看下你的代码吗？谢谢

回复评论

苏剑林发表于 March 1st, 2017

cut_word(u'结婚的和尚未结婚的')试试看

PS：为什么不是麻烦您再仔细看下你的代码呢？你是怀疑我上面那些例子都是伪造的？

回复评论

姜潘发表于 March 1st, 2017

恩恩，谢谢，我再仔细瞅瞅！

回复评论

jackli777 发表于 October 12th, 2020

前来考古，我得到的结果和苏神一样，可能需要你再仔细看看，哈哈！

回复评论

variator_xf 发表于 July 7th, 2017

我用cut_word(u'结婚的和未结婚的')出现错误

回复评论

thy

February 28th, 2017

博主，您好。请问，在Embedding层中既然设置了mask_zero，为什么后面还需要训练的分类数是5呢？标签也为您代码中添加的x做了标记？

回复评论

苏剑林发表于 March 1st, 2017

因为在训练的时候，你还是得给填充部分一个标签呀。我好像测试过，如果用4个标签，填充部分用s标签，最后的输出结果会偏向s。

回复评论

thy 发表于 March 2nd, 2017

非常感谢热心博主的回复。
我是这个意思，mask_zero=true，应该是对后面的填充部分不做计算吧？这样的话，是不是也不会把填充部分的数据传递到最后呢？所以在计算损失值的时候，应该与您代码中的标记x没有关系了吧？刚接触这个不久，不是很懂，谢谢博主的回复。
另外请问，这里不用设置LSTM自循环的层数吗？

回复评论

苏剑林发表于 March 2nd, 2017

具体我没有看keras的源代码，不知道mask情况下它的loss是怎么算的。我理解你的意思，但是我感觉这个x标签还是起到了一定的作用，至少，算准确率的时候，好像把它算进去了。

回复评论

thy 发表于 March 3rd, 2017

好的，谢谢您的解答。

回复评论

ody

March 7th, 2017

博主，我想问几个问题
1.lstm，blstm对序列长度有要求吗，比如200字符长度效果最佳？
2.keras 后端tensorflow时，分布式多台机器（cpu）同时训练是可行的吗，我看很多都只写了支持多GPU，然后博主有关注过分布式多机训练吗，有推荐的文档或者demo吗，我折腾一个星期了还没整好。。

回复评论

xpc

March 23rd, 2017

你好，我在跑程序的时候，在56行的时候提示list和map不能相加，你是用什么版本的python

回复评论

苏剑林发表于 March 23rd, 2017

python2.7，你将map(xxx)改为list(map(xxx))就行了

回复评论

zouyijiao

April 10th, 2017

TimeDistributed这个是什么层，作用是什么，刚开始接触深度，在keras上也没看到介绍

回复评论

苏剑林发表于 April 10th, 2017

请问这个是啥？
http://keras-cn.readthedocs.io/en/latest/layers/wrapper/

回复评论

依依雨柔

April 11th, 2017

有没有4tags的代码？可以看一下吗

回复评论

苏剑林发表于 April 11th, 2017

本文就是4tags的...

回复评论

依依雨柔发表于 April 12th, 2017

题主，你的数据集是人工标注还是写程序标注的？

回复评论

苏剑林发表于 April 12th, 2017

文章已经说了，在数据方面，我用了Bakeoff 2005的语料中微软亚洲研究院（Microsoft Research）提供的部分，应该是它们人工标注的。

回复评论

依依雨柔发表于 April 12th, 2017

您的“生成适合模型输入的格式”from keras.utils import np_utils
d['x'] = d['data'].apply(lambda x: np.array(list(chars[x])+[0]*(maxlen-len(x))))
d['y'] = d['label'].apply(lambda x: np.array(map(lambda y:np_utils.to_categorical(y,5), tag[x].reshape((-1,1)))+[np.array([[0,0,0,0,1]])]*(maxlen-len(x))))
这个是什么原理啊，有点看不懂

回复评论

苏剑林发表于 April 12th, 2017

不懂就逐句运行，每运行一句，查看一次运行结果。

回复评论

张修齐

May 1st, 2017

大神有空能写个实体识别的系列吗，期待啊

回复评论

guoguo03

May 3rd, 2017

大神，我看了好久，或许我应该？把代码读懂了...我有一个疑问（首先我要有个预设，我是个小白哈),就是d['y'] 的生成那部分，我一句句输出看结果，发现，它的每一条记录都是三层列表嵌套，然后输入到模型中就是[[[[0.0, 1.0, 0.0, 0.0, 0.0]], [[0.0, 0.0, 0.0,...]大概是这样的，为什么要有这么多嵌套，或者说是一定要是这样的格式吗，因为你用了map以及apply可能有这样的输出，那如果用了别的函数产生[[[1,0,0,1,0],[1,0,0,0,0],...],[[1,0,0,1,0],[1,0,0,0,0],...]...]这样的格式可以吗？当然，我会自己试试可行不可行，不过很好奇你在处理label的输入时，是怎么考虑这个输入格式的，谢谢大神

回复评论

苏剑林发表于 May 3rd, 2017

这种格式叫做one hot，也就是说，是一个三维矩阵，形状为[样本数,每个样本的字数,标签数]，假如当前字的标签是s，那么我们希望模型最后给出当前字s的概率是1，其他是0（最理想的情况下），因此，对应的概率分布为[1,0,0,0,0]这样。也可以自己通过其他方式来输出这种格式。

回复评论

guoguo03 发表于 May 3rd, 2017

咦我刚刚回复了，但是没看到回到哪里去了....我再写一遍好了
好激动谢谢大神的恢复
还有一个问题：就是viterbi在这里的函数感觉是遍历了所有序列，选取概率最大的序列（嗯，这个方法真的好好，刚开始我也以为只要选取每种最大的概率就好了，这样就会出现博主在评论里所说的那种可能有SSS之类的情况)，但是我觉得这里viterbi函数并不是HMM求解viterbi算法？我在网上看了viterbi算法，感觉他们介绍的是，在外部状态已知，求解内在状态。而本文中的函数，好像就是枚举所有分词情况，求最大概率。我也只是感觉，小白一只哈，谢谢大神！！

回复评论

苏剑林发表于 May 3rd, 2017

这里是考虑条件概率p(标签|字)，而HMM是p(字|标签)，所以才有所谓的“外部状态已知，求解内在状态”。但你将它用一个网络图表示出来，变成一个求最大路径的问题，那两者都是等效的。

换句话说，考虑p(标签|字)时，同一个字的各个概率之和为1，而HMM考虑p(字|标签)，同一个字的各个概率之和不唯一。但是，如果你仅仅它们当成图上的节点的权重，无视它的概率意义（就没有归不归一化的问题了），那么都是一样的。

回复评论

guoguo03 发表于 May 4th, 2017

嗯懂你的意思啦~~

回复评论

variator_xf

July 7th, 2017

你好，我把模型训练了一遍，可是不知道模型保存到哪里了，另外就是，我下一次该怎么调用啊

回复评论

苏剑林发表于 July 9th, 2017

运行完本文的脚本，模型并没有保存，要保存模型，需要用model.save_weights函数。

在看本文之前，请详细把http://keras.io或keras-cn.readthedocs.io/en/latest/看几遍（注意，是详细不是浏览，是几遍不是一遍，是看了之后再看本文，不是看完本文再看它们）

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

关于字标注法 #

双向LSTM #

在分词任务中的应用 #

Keras实现 #

最后 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接