CN109408801A - 一种基于朴素贝叶斯算法的中文分词方法 - Google Patents
一种基于朴素贝叶斯算法的中文分词方法 Download PDFInfo
- Publication number
- CN109408801A CN109408801A CN201810985776.1A CN201810985776A CN109408801A CN 109408801 A CN109408801 A CN 109408801A CN 201810985776 A CN201810985776 A CN 201810985776A CN 109408801 A CN109408801 A CN 109408801A
- Authority
- CN
- China
- Prior art keywords
- freq
- word
- state
- feature
- transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 230000007704 transition Effects 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000013398 bayesian method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于朴素贝叶斯算法的中文分词方法,属于自然语言处理就是领域。本发明首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,不仅为每个字标注出状态,还要标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下个字的属性;然后使用每个汉字的特征文件训练一个模型;接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字;最后,根据不同的汉字状态,将带分词的句子分词。
Description
技术领域
本发明涉及一种基于朴素贝叶斯算法的中文分词方法,属于自然语言处理就是领域。
背景技术
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive BayesianModel,NB M)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
发明内容
本发明要解决的技术问题是提出一种基于朴素贝叶斯算法的中文分词方法,用以解决上述问题。
本发明的技术方案是:一种基于朴素贝叶斯算法的中文分词方法,首先选择合适的文档作为语料库,并把语料库做按句分行处理;然后对语料库进行标注,不仅为每个字标注出状态,还要标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下个字的属性;然后使用每个汉字的特征文件训练一个模型;接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字;最后,根据不同的汉字状态,将带分词的句子分词。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个汉字,将每个字标注为状态集states中的一个;
(3)处理步骤(2)获得的训练集,统计状态集中每个状态的下一个状态出现的次数,记作转移矩阵transfer,transfer包括两部分:first_transfer和second_transfer;
(4)对步骤(3)的结果中的first_transfer进行归一化处理,每一个状态出现的次数除以四个状态出现的总和,记为概率矩阵pro1_transfer;
(5)对步骤(3)的结果中的second_transfer进行归一化处理,记当前字的状态为cur_s tate,下一个出现字的状态为sub_state,每个当前字下一个可能出现的状态有四个,归一化处理就是取每一个sub_state出现的次数除以当前状态下可能出现的四个状态出现次数的总和,记作转移概率矩阵pro2_transfer;
(6)提取每个字的特征feature,为后续步骤预测字的状态提供依据,对步骤(3)的结果进行处理,在为每个字生成特征feature的过程中,为了提高准确性,充分利用上下文的关系,为每个字提取特征的时候考虑其前后多个字,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个字的状态,其中,每个字的状态是状态集state s中的一个,各个字的预测状态是以其各个状态的得分score来确定,标注的时候要区分句首字和非句首字,句首字使用case1来预测其状态,非句首字用case2预测词性,最后选出一个得分最高的状态;
(11)将标注好状态的字进行分词:依次拿到一个字,若这个字的状态是S,则该字就是一个词,若这个字的状态是B,则继续拿下一个字,直到拿到字的状态是E时,把这几个字作为一个词输出;
(12)判断要分词的句子sentence是否完结,如果完结,则分词结束,否则递归重复步骤(11)。
所述步骤1中的切分为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行。
所述步骤(2)中的states是指:states=[B、M、E、S];其中,B表示这个字在词语中位于开始位置,M表示这个字在词语中位于中间位置,E表示这个字在词语中位于末尾位置,S 表示这个字可以独立成词。
所述步骤(3)中的first_transfer是指:first_transfer表示每个句子中句首字的状态, first_transfer={B:freq0,M:freq1,E:freq2,S:freq3};
所述步骤(3)中的second_transfer是指:second_transfer={B:{B:freq4,M:freq5,E: freq6,S:freq7},M:{B:freq8,M:freq9,E:freq10,S:freq11},E:{B:freq12,M:freq13, E:freq14,S:freq15},S:{B:freq16,M:freq17,E:freq18,S:freq19}}。
所述步骤(4)中的pro1_transfer是指:pro1_transfer={B:freq0/(freq0+freq1+freq2+freq3), M:freq1/(freq0+freq1+freq2+freq3),E:freq2/(freq0+freq1+freq2+freq3),S:freq3/(freq0+fre q1+freq2+freq3)}。
所述步骤(5)中的pro2_transfer是指:pro2_transfer={B:{B:freq4/(freq4+freq5+freq6 +freq7),M:freq5/(freq4+freq5+freq6+freq7),E:freq6/(freq4+freq5+freq6+freq7),S:freq7/ (freq4+freq5+freq6+freq7)},M:{B:freq8/(freq8+freq9+freq10+freq11),M:freq9/(freq8+fr eq9+freq10+freq11),E:freq10/(freq8+freq9+freq10+freq11),S:freq11/(freq8+freq9+freq10+freq11)},E:{B:freq12/(freq12+freq13+freq14+freq15),M:freq13/(freq12+freq13+freq14+freq15), E:freq14/(freq12+freq13+freq14+freq15),S:freq15/(freq12+freq13+freq14+freq15)},S:{B: freq16/(freq16+freq17+freq18+freq19),M:freq17/(freq16+freq17+freq18+freq19),E:freq18/(freq 16+freq17+freq18+freq19),S:freq19/(freq16+freq17+freq18+freq19)}};
所述步骤(6)中feature是指:在为每个字提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个字,组成一个窗口,具体的,这里考虑其前后共三个字,记[w 0w1w2]三个字组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2],因此每个字都有六维特征。
所述步骤(7)中model是指:由步骤(2)可知,所有汉字只有四种状态,所以模型文件中有四个状态,分别为:B,M,E,S,又每个汉字的特征是六维的,所有每个标签后有六维特征,训练过程如下:将步骤(3)标注好的每个字按其状态把它的特征写入对应的维度位置,然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征,归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(10)中score是指:一个字被预测成某一状态的可能性,由两部分组成,第一部分是由转移概率矩阵得到的,第二部分是由各个字的特征得到的;
所述步骤(10)中states是指:和步骤(2)中states一样,states=[B、M、E、S];
所述步骤(10)中case1是指:若标注的字是句首的字,则该字的各个状态的得分是该字被预测成各个状态在概率矩阵pro1_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和,最后选出得分最高的状态作为预测结果;
所述步骤(10)中case2是指:若标注的字是非句首的字,则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model 各个状态的得分之和,最后选出得分最高的状态作为预测结果。
本发明的有益效果是:利用朴素贝叶斯法,提高相关度排序,分词正确、准确。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于朴素贝叶斯算法的中文分词方法,首先选择合适的文档作为语料库,并把语料库做按句分行处理;然后对语料库进行标注,不仅为每个字标注出状态,还要标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下个字的属性;然后使用每个汉字的特征文件训练一个模型;接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字;最后,根据不同的汉字状态,将带分词的句子分词。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个汉字,将每个字标注为状态集states中的一个;
(3)处理步骤(2)获得的训练集,统计状态集中每个状态的下一个状态出现的次数,记作转移矩阵transfer,transfer包括两部分:first_transfer和second_transfer;
(4)对步骤(3)的结果中的first_transfer进行归一化处理,每一个状态出现的次数除以四个状态出现的总和,记为概率矩阵pro1_transfer;
(5)对步骤(3)的结果中的second_transfer进行归一化处理,记当前字的状态为cur_s tate,下一个出现字的状态为sub_state,每个当前字下一个可能出现的状态有四个,归一化处理就是取每一个sub_state出现的次数除以当前状态下可能出现的四个状态出现次数的总和,记作转移概率矩阵pro2_transfer;
(6)提取每个字的特征feature,为后续步骤预测字的状态提供依据,对步骤(3)的结果进行处理,在为每个字生成特征feature的过程中,为了提高准确性,充分利用上下文的关系,为每个字提取特征的时候考虑其前后多个字,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个字的状态,其中,每个字的状态是状态集state s中的一个,各个字的预测状态是以其各个状态的得分score来确定,标注的时候要区分句首字和非句首字,句首字使用case1来预测其状态,非句首字用case2预测词性,最后选出一个得分最高的状态;
(11)将标注好状态的字进行分词:依次拿到一个字,若这个字的状态是S,则该字就是一个词,若这个字的状态是B,则继续拿下一个字,直到拿到字的状态是E时,把这几个字作为一个词输出;
(12)判断要分词的句子sentence是否完结,如果完结,则分词结束,否则递归重复步骤(11)。
所述步骤(1)是指:把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行,具体地:
真理的力量在于实践
红海早过了
……
……。
所述步骤(2)中的states是指:states=[B、M、E、S];其中,B表示这个字在词语中位于开始位置,M表示这个字在词语中位于中间位置,E表示这个字在词语中位于末尾位置,S 表示这个字可以独立成词,具体地:
真/B理/E的/S力/B量/E在/B于/E实/B践/E
红/B海/E早/S过/S了/S
……
……。
所述步骤(4)中的first_transfer是指:first_transfer表示每个句子中句首字的状态,first _transfer={B:freq0,M:freq1,E:freq2,S:freq3},具体地:
first_transfer={B:2,M:0,E:0,S:0}。
所述步骤(4)中的second_transfer是指:second_transfer={B:{B:freq4,M:freq5,E: freq6,S:freq7},M:{B:freq8,M:freq9,E:freq10,S:freq11},E:{B:freq12,M:freq13, E:freq14,S:freq15},S:{B:freq16,M:freq17,E:freq18,S:freq19}},具体地:
second_transfer={B:{B:0,M:0,E:5,S:0},M:{B:0,M:0,E:0,S:0},
E:{B:2,M:0,E:0,S:2},S:{B:1,M:0,E:0,S:2}}。
所述步骤(5)中的pro1_transfer是指:pro1_transfer={B:freq0/(freq0+freq1+freq2+freq3), M:freq1/(freq0+freq1+freq2+freq3),E:freq2/(freq0+freq1+freq2+freq3),S:freq3/(freq0+fre q1+freq2+freq3)},具体地:
pro1_transfer={B:1,M:0,E:0,S:0}。
所述步骤(6)中的pro2_transfer是指:pro2_transfer={B:{B:freq4/(freq4+freq5+freq6 +freq7),M:freq5/(freq4+freq5+freq6+freq7),E:freq6/(freq4+freq5+freq6+freq7),S:fre q7/(freq4+freq5+freq6+freq7)},M:{B:freq8/(freq8+freq9+freq10+freq11),M:freq9/(freq 8+freq9+freq10+freq11),E:freq10/(freq8+freq9+freq10+freq11),S:freq11/(freq8+freq9+freq10 +freq11)},E:{B:freq12/(freq12+freq13+freq14+freq15),M:freq13/(freq12+freq13+freq14+fr eq15),E:freq14/(freq12+freq13+freq14+freq15),S:freq15/(freq12+freq13+freq14+freq15)},
S:{B:freq16/(freq16+freq17+freq18+freq19),M:freq17/(freq16+freq17+freq18+freq19),E: freq18/(freq16+freq17+freq18+freq19),S:freq19/(freq16+freq17+freq18+freq19)}},具体地:
pro2_transfer={B:{B:0,M:0,E:1,S:0},M:{B:0,M:0,E:0,S: 0},E:{B:1/2,M:0,E:0,S:1/2},S:{B:1/3,M:0,E:0,S:1/3}}。
所述步骤(7)中feature是指:在为每个字提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个字,组成一个窗口,具体的,这里考虑其前后三个字,记[w0 w1w2]三个字组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2],因此每个字都有六维特征,具体地:
以”真理的”为窗口,则‘理’的特征feature_寒=[真,理,的,真理,理的,真的]。
所述步骤(8)中model是指:由步骤(2)可知,所有汉字只有四种状态,所以模型文件中有四个状态,分别为:B,M,E,S,又每个汉字的特征是六维的,所有每个标签后有六维特征,具体地:
训练过程如下:将步骤(3)标注好的每个字按其状态把它的特征写入相应的位置,然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(9)中pro_model是指:与步骤(5)类似,该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征,归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(11)中score是指:一个字被预测成某一状态的可能性,由两部分组成。
所述12中两部分是指:第一部分是由转移概率矩阵得到的,第二部分是由各个字的特征得到的。
所述步骤(11)中states是指:和步骤(2)中states一样,states=[B、M、E、S]。
所述步骤(11)中case1是指:如果标注的字是句首的字,则该字的各个状态的得分是该字被预测成各个状态在概率矩阵pro1_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和,最后选出得分最高的状态作为预测结果。
所述步骤(11)中case2是指:如果标注的字是非句首的字,则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和,最后选出得分最高的状态作为预测结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种基于朴素贝叶斯算法的中文分词方法,其特征在于:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个汉字,将每个字标注为状态集states中的一个;
(3)处理步骤(2)获得的训练集,统计状态集中每个状态的下一个状态出现的次数,记作转移矩阵transfer,transfer包括两部分:first_transfer和second_transfer;
(4)对步骤(3)的结果中的first_transfer进行归一化处理,每一个状态出现的次数除以四个状态出现的总和,记为概率矩阵pro1_transfer;
(5)对步骤(3)的结果中的second_transfer进行归一化处理,记当前字的状态为cur_state,下一个出现字的状态为sub_state,每个当前字下一个可能出现的状态有四个,归一化处理就是取每一个sub_state出现的次数除以当前状态下可能出现的四个状态出现次数的总和,记作转移概率矩阵pro2_transfer;
(6)提取每个字的特征feature,为后续步骤预测字的状态提供依据,对步骤(3)的结果进行处理,在为每个字生成特征feature的过程中,为了提高准确性,充分利用上下文的关系,为每个字提取特征的时候考虑其前后多个字,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个字的状态,其中,每个字的状态是状态集states中的一个,各个字的预测状态是以其各个状态的得分score来确定,标注的时候要区分句首字和非句首字,句首字使用case1来预测其状态,非句首字用case2预测词性,最后选出一个得分最高的状态;
(11)将标注好状态的字进行分词:依次拿到一个字,若这个字的状态是S,则该字就是一个词,若这个字的状态是B,则继续拿下一个字,直到拿到字的状态是E时,把这几个字作为一个词输出;
(12)判断要分词的句子sentence是否完结,如果完结,则分词结束,否则递归重复步骤(11)。
2.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤1中的切分为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行。
3.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(2)中的states是指:states=[B、M、E、S];其中,B表示这个字在词语中位于开始位置,M表示这个字在词语中位于中间位置,E表示这个字在词语中位于末尾位置,S表示这个字可以独立成词。
4.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:
所述步骤(3)中的first_transfer是指:first_transfer表示每个句子中句首字的状态,first_transfer={B:freq0,M:freq1,E:freq2,S:freq3};
所述步骤(3)中的second_transfer是指:second_transfer={B:{B:freq4,M:freq5,E:freq6,S:freq7},M:{B:freq8,M:freq9,E:freq10,S:freq11},E:{B:freq12,M:freq13,E:freq14,S:freq15},S:{B:freq16,M:freq17,E:freq18,S:freq19}}。
5.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(4)中的pro1_transfer是指:pro1_transfer={B:freq0/(freq0+freq1+freq2+freq3),M:freq1/(freq0+freq1+freq2+freq3),E:freq2/(freq0+freq1+freq2+freq3),S:freq3/(freq0+freq1+freq2+freq3)}。
6.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(5)中的pro2_transfer是指:pro2_transfer={B:{B:freq4/(freq4+freq5+freq6+freq7),M:freq5/(freq4+freq5+freq6+freq7),E:freq6/(freq4+freq5+freq6+freq7),S:freq7/(freq4+freq5+freq6+freq7)},M:{B:freq8/(freq8+freq9+freq10+freq11),M:freq9/(freq8+freq9+freq10+freq11),E:freq10/(freq8+freq9+freq10+freq11),S:freq11/(freq8+freq9+freq10+freq11)},E:{B:freq12/(freq12+freq13+freq14+freq15),M:freq13/(freq12+freq13+freq14+freq15),E:freq14/(freq12+freq13+freq14+freq15),S:freq15/(freq12+freq13+freq14+freq15)},S:{B:freq16/(freq16+freq17+freq18+freq19),M:freq17/(freq16+freq17+freq18+freq19),E:freq18/(freq16+freq17+freq18+freq19),S:freq19/(freq16+freq17+freq18+freq19)}}。
7.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(6)中feature是指:在为每个字提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个字,组成一个窗口,具体的,这里考虑其前后共三个字,记[w0w1w2]三个字组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2],因此每个字都有六维特征。
8.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(7)中model是指:由步骤(2)可知,所有汉字只有四种状态,所以模型文件中有四个状态,分别为:B,M,E,S,又每个汉字的特征是六维的,所有每个标签后有六维特征,训练过程如下:将步骤(3)标注好的每个字按其状态把它的特征写入对应的维度位置,然后通过遍历语料库统计每个状态对应每一维特征中各个特征的权重,也就是特征出现的次数。
9.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每个状态的每维特征中的每个特征,归一化处理就是取每个状态的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
10.根据权利要求1所述的基于朴素贝叶斯算法的中文分词方法,其特征在于:
所述步骤(10)中score是指:一个字被预测成某一状态的可能性,由两部分组成,第一部分是由转移概率矩阵得到的,第二部分是由各个字的特征得到的;
所述步骤(10)中states是指:和步骤(2)中states一样,states=[B、M、E、S];
所述步骤(10)中case1是指:若标注的字是句首的字,则该字的各个状态的得分是该字被预测成各个状态在概率矩阵pro1_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和,最后选出得分最高的状态作为预测结果;
所述步骤(10)中case2是指:若标注的字是非句首的字,则该字的各个状态的得分是该字被预测成各个状态在转移概率矩阵pro2_transfer的得分和该字特征在概率模型pro_model各个状态的得分之和,最后选出得分最高的状态作为预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985776.1A CN109408801A (zh) | 2018-08-28 | 2018-08-28 | 一种基于朴素贝叶斯算法的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985776.1A CN109408801A (zh) | 2018-08-28 | 2018-08-28 | 一种基于朴素贝叶斯算法的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408801A true CN109408801A (zh) | 2019-03-01 |
Family
ID=65464407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810985776.1A Pending CN109408801A (zh) | 2018-08-28 | 2018-08-28 | 一种基于朴素贝叶斯算法的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408801A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN103886020A (zh) * | 2014-02-21 | 2014-06-25 | 杭州电子科技大学 | 一种房地产信息快速搜索方法 |
CN104933023A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
CN107832302A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 分词处理方法、装置、移动终端及计算机可读存储介质 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
-
2018
- 2018-08-28 CN CN201810985776.1A patent/CN109408801A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN103886020A (zh) * | 2014-02-21 | 2014-06-25 | 杭州电子科技大学 | 一种房地产信息快速搜索方法 |
CN104933023A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
CN107832302A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 分词处理方法、装置、移动终端及计算机可读存储介质 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
刘凡平: "利用条件随机场模型进行中文分词", 《博客园》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和*** | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
US9009134B2 (en) | Named entity recognition in query | |
JP6398510B2 (ja) | 実体のリンク付け方法及び実体のリンク付け装置 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN106547737A (zh) | 基于深度学习的自然语言处理中的序列标注方法 | |
CN111428490B (zh) | 一种利用语言模型的指代消解弱监督学习方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN108108347B (zh) | 对话模式分析***及方法 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN104778186A (zh) | 将商品对象挂载到标准产品单元的方法及*** | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN108319583A (zh) | 从中文语料库提取知识的方法与*** | |
CN111985236A (zh) | 基于多维联动的可视化分析方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN109408801A (zh) | 一种基于朴素贝叶斯算法的中文分词方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
Deka et al. | A study of t’nt and crf based approach for pos tagging in assamese language | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
CN113268951B (zh) | 一种基于深度学习的引文推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |