CN109408801A

CN109408801A - 一种基于朴素贝叶斯算法的中文分词方法

Info

Publication number: CN109408801A
Application number: CN201810985776.1A
Authority: CN
Inventors: 邵玉斌; 郭海震; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-03-01

Abstract

本发明涉及一种基于朴素贝叶斯算法的中文分词方法，属于自然语言处理就是领域。本发明首先选择合适的文档作为语料库，并把语料库按句分行处理；然后对语料库进行标注，不仅为每个字标注出状态，还要标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下个字的属性；然后使用每个汉字的特征文件训练一个模型；接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字；最后，根据不同的汉字状态，将带分词的句子分词。

Description

一种基于朴素贝叶斯算法的中文分词方法

技术领域

本发明涉及一种基于朴素贝叶斯算法的中文分词方法，属于自然语言处理就是领域。

背景技术

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。中文分词对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响页面的返回结果。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive BayesianModel，NB M)。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier，或NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

发明内容

本发明要解决的技术问题是提出一种基于朴素贝叶斯算法的中文分词方法，用以解决上述问题。

本发明的技术方案是：一种基于朴素贝叶斯算法的中文分词方法，首先选择合适的文档作为语料库，并把语料库做按句分行处理；然后对语料库进行标注，不仅为每个字标注出状态，还要标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下个字的属性；然后使用每个汉字的特征文件训练一个模型；接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字；最后，根据不同的汉字状态，将带分词的句子分词。

具体步骤为：

(1)找到适合作为训练集的语料，将语料按句子进行切分，使得每一行只有一个句子；

(2)处理步骤(1)切分的句子，手工标注每个汉字，将每个字标注为状态集states中的一个；

(3)处理步骤(2)获得的训练集，统计状态集中每个状态的下一个状态出现的次数，记作转移矩阵transfer，transfer包括两部分：first_transfer和second_transfer；

(4)对步骤(3)的结果中的first_transfer进行归一化处理，每一个状态出现的次数除以四个状态出现的总和，记为概率矩阵pro1_transfer；

(5)对步骤(3)的结果中的second_transfer进行归一化处理，记当前字的状态为cur_s tate，下一个出现字的状态为sub_state，每个当前字下一个可能出现的状态有四个，归一化处理就是取每一个sub_state出现的次数除以当前状态下可能出现的四个状态出现次数的总和，记作转移概率矩阵pro2_transfer；

(6)提取每个字的特征feature，为后续步骤预测字的状态提供依据，对步骤(3)的结果进行处理，在为每个字生成特征feature的过程中，为了提高准确性，充分利用上下文的关系，为每个字提取特征的时候考虑其前后多个字，组成一个窗口；

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储，并以字节流的方式保存在本地；

(10)预测要分词的句子sentence中各个字的状态，其中，每个字的状态是状态集state s中的一个，各个字的预测状态是以其各个状态的得分score来确定，标注的时候要区分句首字和非句首字，句首字使用case1来预测其状态，非句首字用case2预测词性，最后选出一个得分最高的状态；

(11)将标注好状态的字进行分词：依次拿到一个字，若这个字的状态是S，则该字就是一个词，若这个字的状态是B，则继续拿下一个字，直到拿到字的状态是E时，把这几个字作为一个词输出；

(12)判断要分词的句子sentence是否完结，如果完结，则分词结束，否则递归重复步骤(11)。

所述步骤1中的切分为把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行。

所述步骤(2)中的states是指：states＝[B、M、E、S]；其中，B表示这个字在词语中位于开始位置，M表示这个字在词语中位于中间位置，E表示这个字在词语中位于末尾位置，S 表示这个字可以独立成词。

所述步骤(3)中的first_transfer是指：first_transfer表示每个句子中句首字的状态， first_transfer＝{B：freq₀，M：freq₁，E：freq₂，S：freq₃}；

所述步骤(3)中的second_transfer是指：second_transfer＝{B：{B：freq₄，M：freq₅，E： freq₆，S：freq₇}，M：{B：freq₈，M：freq₉，E：freq₁₀，S：freq₁₁}，E：{B：freq₁₂，M：freq₁₃， E：freq₁₄，S：freq₁₅}，S：{B：freq₁₆，M：freq₁₇，E：freq₁₈，S：freq₁₉}}。

所述步骤(4)中的pro1_transfer是指：pro1_transfer＝{B：freq₀/(freq₀+freq₁+freq₂+freq₃)， M：freq₁/(freq₀+freq₁+freq₂+freq₃)，E：freq₂/(freq₀+freq₁+freq₂+freq₃)，S：freq₃/(freq₀+fre q₁+freq₂+freq₃)}。

所述步骤(5)中的pro2_transfer是指：pro2_transfer＝{B：{B：freq₄/(freq₄+freq₅+freq₆ +freq₇)，M：freq₅/(freq₄+freq₅+freq₆+freq₇)，E：freq₆/(freq₄+freq₅+freq₆+freq₇)，S：freq₇/ (freq₄+freq₅+freq₆+freq₇)}，M：{B：freq₈/(freq₈+freq₉+freq₁₀+freq₁₁)，M：freq₉/(freq₈+fr eq₉+freq₁₀+freq₁₁)，E：freq₁₀/(freq₈+freq₉+freq₁₀+freq₁₁)，S：freq₁₁/(freq₈+freq₉+freq₁₀+freq₁₁)}，E：{B：freq₁₂/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，M：freq₁₃/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)， E：freq₁₄/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，S：freq₁₅/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)}，S：{B： freq₁₆/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，M：freq₁₇/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，E：freq₁₈/(freq ₁₆+freq₁₇+freq₁₈+freq₁₉)，S：freq₁₉/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)}}；

所述步骤(6)中feature是指：在为每个字提取特征的时候，为了提高正确率，充分利用上下文关系，考虑其前后多个字，组成一个窗口，具体的，这里考虑其前后共三个字，记[w ₀w₁w₂]三个字组成的一个窗口，则w₁的特征feature_w₁＝[w₀，w₁，w₂，w₀w₁，w₁w₂，w₀w₂]，因此每个字都有六维特征。

所述步骤(7)中model是指：由步骤(2)可知，所有汉字只有四种状态，所以模型文件中有四个状态，分别为：B，M，E，S，又每个汉字的特征是六维的，所有每个标签后有六维特征，训练过程如下：将步骤(3)标注好的每个字按其状态把它的特征写入对应的维度位置，然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重，也就是特征出现的次数。

所述步骤(8)中pro_model是指：该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征，归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。

所述步骤(10)中score是指：一个字被预测成某一状态的可能性，由两部分组成，第一部分是由转移概率矩阵得到的，第二部分是由各个字的特征得到的；

所述步骤(10)中states是指：和步骤(2)中states一样，states＝[B、M、E、S]；

所述步骤(10)中case1是指：若标注的字是句首的字，则该字的各个状态的得分是该字被预测成各个状态在概率矩阵pro1_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和，最后选出得分最高的状态作为预测结果；

所述步骤(10)中case2是指：若标注的字是非句首的字，则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model 各个状态的得分之和，最后选出得分最高的状态作为预测结果。

本发明的有益效果是：利用朴素贝叶斯法，提高相关度排序，分词正确、准确。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于朴素贝叶斯算法的中文分词方法，首先选择合适的文档作为语料库，并把语料库做按句分行处理；然后对语料库进行标注，不仅为每个字标注出状态，还要标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下个字的属性；然后使用每个汉字的特征文件训练一个模型；接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字；最后，根据不同的汉字状态，将带分词的句子分词。

具体步骤为：

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

所述步骤(1)是指：把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行，具体地：

真理的力量在于实践

红海早过了

……

……。

所述步骤(2)中的states是指：states＝[B、M、E、S]；其中，B表示这个字在词语中位于开始位置，M表示这个字在词语中位于中间位置，E表示这个字在词语中位于末尾位置，S 表示这个字可以独立成词，具体地：

真/B理/E的/S力/B量/E在/B于/E实/B践/E

红/B海/E早/S过/S了/S

……

……。

所述步骤(4)中的first_transfer是指：first_transfer表示每个句子中句首字的状态，first _transfer＝{B：freq₀，M：freq₁，E：freq₂，S：freq₃}，具体地：

first_transfer＝{B：2，M：0，E：0，S：0}。

所述步骤(4)中的second_transfer是指：second_transfer＝{B：{B：freq₄，M：freq₅，E： freq₆，S：freq₇}，M：{B：freq₈，M：freq₉，E：freq₁₀，S：freq₁₁}，E：{B：freq₁₂，M：freq₁₃， E：freq₁₄，S：freq₁₅}，S：{B：freq₁₆，M：freq₁₇，E：freq₁₈，S：freq₁₉}}，具体地：

second_transfer＝{B：{B：0，M：0，E：5，S：0}，M：{B：0，M：0，E：0，S：0}，

E：{B：2，M：0，E：0，S：2}，S：{B：1，M：0，E：0，S：2}}。

所述步骤(5)中的pro1_transfer是指：pro1_transfer＝{B：freq₀/(freq₀+freq₁+freq₂+freq₃)， M：freq₁/(freq₀+freq₁+freq₂+freq₃)，E：freq₂/(freq₀+freq₁+freq₂+freq₃)，S：freq₃/(freq₀+fre q₁+freq₂+freq₃)}，具体地：

pro1_transfer＝{B：1，M：0，E：0，S：0}。

所述步骤(6)中的pro2_transfer是指：pro2_transfer＝{B：{B：freq₄/(freq₄+freq₅+freq₆ +freq₇)，M：freq₅/(freq₄+freq₅+freq₆+freq₇)，E：freq₆/(freq₄+freq₅+freq₆+freq₇)，S：fre q₇/(freq₄+freq₅+freq₆+freq₇)}，M：{B：freq₈/(freq₈+freq₉+freq₁₀+freq₁₁)，M：freq₉/(freq ₈+freq₉+freq₁₀+freq₁₁)，E：freq₁₀/(freq₈+freq₉+freq₁₀+freq₁₁)，S：freq₁₁/(freq₈+freq₉+freq₁₀ +freq₁₁)}，E：{B：freq₁₂/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，M：freq₁₃/(freq₁₂+freq₁₃+freq₁₄+fr eq₁₅)，E：freq₁₄/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，S：freq₁₅/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)}，

S：{B：freq₁₆/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，M：freq₁₇/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，E： freq₁₈/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，S：freq₁₉/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)}}，具体地：

pro2_transfer＝{B：{B：0，M：0，E：1，S：0}，M：{B：0，M：0，E：0，S： 0}，E：{B：1/2，M：0，E：0，S：1/2}，S：{B：1/3，M：0，E：0，S：1/3}}。

所述步骤(7)中feature是指：在为每个字提取特征的时候，为了提高正确率，充分利用上下文关系，考虑其前后多个字，组成一个窗口，具体的，这里考虑其前后三个字，记[w₀ w₁w₂]三个字组成的一个窗口，则w₁的特征feature_w₁＝[w₀，w₁，w₂，w₀w₁，w₁w₂，w₀w₂]，因此每个字都有六维特征，具体地：

以”真理的”为窗口，则‘理’的特征feature_寒＝[真，理，的，真理，理的，真的]。

所述步骤(8)中model是指：由步骤(2)可知，所有汉字只有四种状态，所以模型文件中有四个状态，分别为：B，M，E，S，又每个汉字的特征是六维的，所有每个标签后有六维特征，具体地：

训练过程如下：将步骤(3)标注好的每个字按其状态把它的特征写入相应的位置，然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重，也就是特征出现的次数。

所述步骤(9)中pro_model是指：与步骤(5)类似，该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征，归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。

所述步骤(11)中score是指：一个字被预测成某一状态的可能性，由两部分组成。

所述12中两部分是指：第一部分是由转移概率矩阵得到的，第二部分是由各个字的特征得到的。

所述步骤(11)中states是指：和步骤(2)中states一样，states＝[B、M、E、S]。

所述步骤(11)中case1是指：如果标注的字是句首的字，则该字的各个状态的得分是该字被预测成各个状态在概率矩阵pro1_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和，最后选出得分最高的状态作为预测结果。

所述步骤(11)中case2是指：如果标注的字是非句首的字，则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和，最后选出得分最高的状态作为预测结果。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于朴素贝叶斯算法的中文分词方法，其特征在于：

(5)对步骤(3)的结果中的second_transfer进行归一化处理，记当前字的状态为cur_state，下一个出现字的状态为sub_state，每个当前字下一个可能出现的状态有四个，归一化处理就是取每一个sub_state出现的次数除以当前状态下可能出现的四个状态出现次数的总和，记作转移概率矩阵pro2_transfer；

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

(10)预测要分词的句子sentence中各个字的状态，其中，每个字的状态是状态集states中的一个，各个字的预测状态是以其各个状态的得分score来确定，标注的时候要区分句首字和非句首字，句首字使用case1来预测其状态，非句首字用case2预测词性，最后选出一个得分最高的状态；

2.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤1中的切分为把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行。

3.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(2)中的states是指：states＝[B、M、E、S]；其中，B表示这个字在词语中位于开始位置，M表示这个字在词语中位于中间位置，E表示这个字在词语中位于末尾位置，S表示这个字可以独立成词。

4.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：

所述步骤(3)中的first_transfer是指：first_transfer表示每个句子中句首字的状态，first_transfer＝{B：freq₀，M：freq₁，E：freq₂，S：freq₃}；

所述步骤(3)中的second_transfer是指：second_transfer＝{B：{B：freq₄，M：freq₅，E：freq₆，S：freq₇}，M：{B：freq₈，M：freq₉，E：freq₁₀，S：freq₁₁}，E：{B：freq₁₂，M：freq₁₃，E：freq₁₄，S：freq₁₅}，S：{B：freq₁₆，M：freq₁₇，E：freq₁₈，S：freq₁₉}}。

5.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(4)中的pro1_transfer是指：pro1_transfer＝{B：freq₀/(freq₀+freq₁+freq₂+freq₃)，M：freq₁/(freq₀+freq₁+freq₂+freq₃)，E：freq₂/(freq₀+freq₁+freq₂+freq₃)，S：freq₃/(freq₀+freq₁+freq₂+freq₃)}。

6.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(5)中的pro2_transfer是指：pro2_transfer＝{B：{B：freq₄/(freq₄+freq₅+freq₆+freq₇)，M：freq₅/(freq₄+freq₅+freq₆+freq₇)，E：freq₆/(freq₄+freq₅+freq₆+freq₇)，S：freq₇/(freq₄+freq₅+freq₆+freq₇)}，M：{B：freq₈/(freq₈+freq₉+freq₁₀+freq₁₁)，M：freq₉/(freq₈+freq₉+freq₁₀+freq₁₁)，E：freq₁₀/(freq₈+freq₉+freq₁₀+freq₁₁)，S：freq₁₁/(freq₈+freq₉+freq₁₀+freq₁₁)}，E：{B：freq₁₂/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，M：freq₁₃/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，E：freq₁₄/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)，S：freq₁₅/(freq₁₂+freq₁₃+freq₁₄+freq₁₅)}，S：{B：freq₁₆/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，M：freq₁₇/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，E：freq₁₈/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)，S：freq₁₉/(freq₁₆+freq₁₇+freq₁₈+freq₁₉)}}。

7.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(6)中feature是指：在为每个字提取特征的时候，为了提高正确率，充分利用上下文关系，考虑其前后多个字，组成一个窗口，具体的，这里考虑其前后共三个字，记[w₀w₁w₂]三个字组成的一个窗口，则w₁的特征feature_w₁＝[w₀，w₁，w₂，w₀w₁，w₁w₂，w₀w₂]，因此每个字都有六维特征。

8.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(7)中model是指：由步骤(2)可知，所有汉字只有四种状态，所以模型文件中有四个状态，分别为：B，M，E，S，又每个汉字的特征是六维的，所有每个标签后有六维特征，训练过程如下：将步骤(3)标注好的每个字按其状态把它的特征写入对应的维度位置，然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重，也就是特征出现的次数。

9.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：所述步骤(8)中pro_model是指：该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征，归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。

10.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法，其特征在于：

所述步骤(10)中case2是指：若标注的字是非句首的字，则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和，最后选出得分最高的状态作为预测结果。