CN107807910A - 一种基于hmm的词性标注方法 - Google Patents
一种基于hmm的词性标注方法 Download PDFInfo
- Publication number
- CN107807910A CN107807910A CN201710933336.7A CN201710933336A CN107807910A CN 107807910 A CN107807910 A CN 107807910A CN 201710933336 A CN201710933336 A CN 201710933336A CN 107807910 A CN107807910 A CN 107807910A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- hmm
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 7
- 206010028916 Neologism Diseases 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011430 maximum method Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 abstract 1
- 230000007812 deficiency Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于HMM的词性标注方法,属于信息处理技术领域。首先将词库中的词语按照unicode码进行排序,以便在分词的时候用二分法快速查找;然后引入HMM,以月标注好的语料库作为训练集和测试集,用以获得HMM的三个参数,从而得到HMM中若干可观测状态;其次进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,将没有查找到的新词引用最大熵模型进行标注;最后用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。本发明与现有技术相比,主要解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。
Description
技术领域
本发明涉及一种基于HMM的词性标注方法,属于信息处理技术领域。
背景技术
现代社会,随着信息技术的快速发展,词性标注成为了自然语言处理中一个具有重要意义的研究方向,它作为自然语言处理的一项基础性工作,是后续语法分析、语音识别、文本分类、机器翻译等任务的必要准备。
一般地,基于HMM的词性标注效果虽然不错,但是对预测信息不足,识别新词能力差,从而使得词性标注的准确率不高;同样地,基于最大熵模型的词性标注虽然能有效地利用上下文信息,有较好的预测作用,但是存在着标注速度慢以及标注偏置等问题。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的词性标注方法,引入了HMM和最大熵模型的结合对词性标注方法进行改进,解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。
本发明的技术方案是:一种基于HMM的词性标注方法,利用HMM和最大熵模型的结合对词性标注方法进行改进,具体步骤为:
①输入待标注的词串,待标注的词串可以为任意词串;
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果;
③以标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态;
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注;
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
所述的快速查找为二分法,在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库;由于词库按照unicode码排序,所以可以采用二分法快速查找词组,查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找,在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
所述的词性的先验概率PI的计算公式为:
其中,N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
所述的词性之间的状态转移矩阵A的计算公式为:
其中,P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
所述的词性到词的混淆矩阵B的计算公式为:
其中,P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
步骤④所述的引入最大熵模型为已经训练好的模型。
步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
本发明的有益效果是:与现有技术相比,通过引入HMM和最大熵模型的结合,主要解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤②步骤流程图;
图3是本发明步骤③步骤流程图;
图4是本发明步骤④步骤流程图;
图5是本发明步骤⑤步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:一种基于HMM的词性标注方法,该方法引入了HMM和最大熵模型的结合对词性标注方法进行改进,具体包括以下5个步骤:
①输入待标注的词串。
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果。
③以***1998年1月标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态。
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注。
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
进一步地,步骤①所述的待标注的词串可以为任意词串。
进一步地,步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
进一步地,所述的快速查找为二分法。在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库。由于词库按照unicode码排序,所以可以采用二分法快速查找词组。查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找。在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
进一步地,步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
进一步地,所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
进一步地,所述的词性的先验概率PI的计算公式为:
其中N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
进一步地,所述的词性之间的状态转移矩阵A的计算公式为:
其中P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
进一步地,所述的词性到词的混淆矩阵B的计算公式为:
其中P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
进一步地,步骤④所述的引入最大熵模型为已经训练好的模型。
进一步地,步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种基于HMM的词性标注方法,其特征在于:利用HMM和最大熵模型的结合对词性标注方法进行改进,具体步骤为:
①输入待标注的词串,待标注的词串可以为任意词串;
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果;
③以标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态;
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注;
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
2.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
3.根据权利要求2所述的基于HMM的词性标注方法,其特征在于:所述的快速查找为二分法,在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库;由于词库按照unicode码排序,所以可以采用二分法快速查找词组,查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找,在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
4.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
5.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
6.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性的先验概率PI的计算公式为:
<mrow>
<mi>P</mi>
<mi>I</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&ap;</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mi>N</mi>
</mfrac>
</mrow>
其中,N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
7.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性之间的状态转移矩阵A的计算公式为:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>&ap;</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
8.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性到词的混淆矩阵B的计算公式为:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>O</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>O</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>&ap;</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>O</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
9.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤④所述的引入最大熵模型为已经训练好的模型。
10.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933336.7A CN107807910A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的词性标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933336.7A CN107807910A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的词性标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107807910A true CN107807910A (zh) | 2018-03-16 |
Family
ID=61592629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710933336.7A Pending CN107807910A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的词性标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107807910A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062887A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种基于平均感知器算法的词性标注方法 |
CN109063046A (zh) * | 2018-07-17 | 2018-12-21 | 广州资宝科技有限公司 | 搜索方法、装置及智能终端 |
CN109325225A (zh) * | 2018-08-28 | 2019-02-12 | 昆明理工大学 | 一种通用的基于关联的词性标注方法 |
CN109388404A (zh) * | 2018-10-10 | 2019-02-26 | 北京智能管家科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109815483A (zh) * | 2018-12-19 | 2019-05-28 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110751234A (zh) * | 2019-10-09 | 2020-02-04 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN111814464A (zh) * | 2020-05-25 | 2020-10-23 | 清华大学 | 一种基于隐马尔可夫模型的词性标注方法 |
-
2017
- 2017-10-10 CN CN201710933336.7A patent/CN107807910A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062887A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种基于平均感知器算法的词性标注方法 |
CN109063046A (zh) * | 2018-07-17 | 2018-12-21 | 广州资宝科技有限公司 | 搜索方法、装置及智能终端 |
CN109325225A (zh) * | 2018-08-28 | 2019-02-12 | 昆明理工大学 | 一种通用的基于关联的词性标注方法 |
CN109325225B (zh) * | 2018-08-28 | 2022-04-12 | 昆明理工大学 | 一种通用的基于关联的词性标注方法 |
CN109388404A (zh) * | 2018-10-10 | 2019-02-26 | 北京智能管家科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN109388404B (zh) * | 2018-10-10 | 2022-10-18 | 北京如布科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN109543151B (zh) * | 2018-10-31 | 2021-05-25 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109815483A (zh) * | 2018-12-19 | 2019-05-28 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN109815483B (zh) * | 2018-12-19 | 2023-08-08 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110489760B (zh) * | 2019-09-17 | 2023-09-22 | 达观数据有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110751234A (zh) * | 2019-10-09 | 2020-02-04 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN110751234B (zh) * | 2019-10-09 | 2024-04-16 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN111814464A (zh) * | 2020-05-25 | 2020-10-23 | 清华大学 | 一种基于隐马尔可夫模型的词性标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107807910A (zh) | 一种基于hmm的词性标注方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN106649597B (zh) | 一种基于图书内容的图书书后索引自动构建方法 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN104933152B (zh) | 命名实体识别方法及装置 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN107885721A (zh) | 一种基于lstm的命名实体识别方法 | |
CN111178074A (zh) | 一种基于深度学习的中文命名实体识别方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和*** | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取*** | |
CN106257441B (zh) | 一种基于词频的skip语言模型的训练方法 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及*** | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
CN106502994A (zh) | 一种文本的关键词提取的方法和装置 | |
CN105718586A (zh) | 分词的方法及装置 | |
CN107180025A (zh) | 一种新词的识别方法及装置 | |
CN103646018A (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN106445917B (zh) | 一种基于模式的自举中文实体抽取方法 | |
CN112818110B (zh) | 文本过滤方法、设备及计算机存储介质 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN106708798A (zh) | 一种字符串切分方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180316 |
|
RJ01 | Rejection of invention patent application after publication |