CN102982020A

CN102982020A - 一种搜索***中的中文分词方法

Info

Publication number: CN102982020A
Application number: CN2012105502927A
Authority: CN
Inventors: 徐统
Original assignee: HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd
Current assignee: HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2013-03-20

Abstract

本发明公开了一种搜索***中的中文分词方法，包括步骤：A.获取需分词中文词组；B.将需分词中文词组与句法语义库中已经收录的句法和语义做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息；C.根据句法语义信息b，分词模块将需分词中文词组切分成词语，得到中间结果c；D.去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义；若有歧义，对中间结果c去歧义处理，得到最终结果D，否则，中间结果c即为分词结果D。本发明中能够解决因涉及汉语语义问题而产生分词结果有歧义的问题，使得分词结果出现歧义的可能性大大降低，最大程度上保证了分词结果的准确性，提高搜索结果的准确率，分词结果的准确性早98%以上。

Description

一种搜索***中的中文分词方法

技术领域

本发明涉及一种中文分词方法，尤其涉及一种搜索***中的中文分词方法。

背景技术

现有的中文搜索***中，需要先针对用户输入的内容进行分词，以确定搜索的关键字。目前的分词方法，一般无法解决因涉及汉语语义问题而产生分词结果有歧义的问题，这会导致在确定关键字时的错误，影响搜索结果的准确率。

发明内容

本发明的目的在于，提供一种搜索***中的中文分词方法。运用该方法进行分词能够解决因涉及汉语语义问题而产生分词结果有歧义的问题，使得分词结果出现歧义的可能性大大降低，提高搜索结果的准确率。

为解决上述技术问题，本发明提供的技术方案如下：一种搜索***中的中文分词方法，其特征在于，包括步骤：

A. 获取需分词中文词组a；

B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息；

C. 根据句法语义信息b，分词模块将需分词中文词组切分成词语，得到中间结果c；

D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义；如果有歧义，对中间结果c去歧义处理，得到最终结果D，如果没有歧义，中间结果c即为分词结果D。

前述的搜索***中的中文分词方法，步骤B中，所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。

前述的搜索***中的中文分词方法，步骤B中，所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息，具体为：

a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词，如果有动词，扫描动词前后位置的词语的词性，然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1，将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中，然后执行步骤b；如果没有动词，执行步骤b；

b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词，如果有助词，扫描助词前后位置的词语的词性，然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1，将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中，然后执行步骤c；如果没有助词，执行步骤c；

c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词，如果有形容词，扫描形容词前后位置的词语的词性，然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1，将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中，然后执行步骤d；如果没有形容词，执行步骤d；

d. 将a2与已经收录的句子的构成方法做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息。

前述的搜索***中的中文分词方法，步骤D中，所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义，具体为，去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。

前述的搜索***中的中文分词方法，步骤D中，所述的对中间结果b去歧义处理具体为，去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。

与现有技术相比，运用本发明得出的分词结果能够避免因涉及汉语语义问题而产生分词结果有歧义的问题，使得分词结果出现歧义的可能性大大降低，最大程度上保证了分词结果的准确性，分词结果的准确性早98%以上，提高搜索结果的准确率。

下面结合实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例。一种搜索***中的中文分词方法，包括步骤：

A. 获取需分词中文词组a；

步骤B中，所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。

步骤B中，所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息，具体为：

步骤D中，所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义，具体为，去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。

步骤D中，所述的对中间结果b去歧义处理具体为，去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。

实施例2.

中文词组为“公安局长喝茶”。

本发明分词过程：

A.获取需分词中文词组“公安局长喝茶”；

B.（a）.根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“公安局长喝茶”中是否有动词，有动词“喝”，扫描动词前后位置的词语的词性，“喝”前的“公安局长”为名词，“喝”后的“茶”为名词，然后根据动词前后位置的词语的词性判断与动词相连短语的类别“主谓宾结构”，将类别“主谓宾结构”及类别“主谓宾结构”在需分词中文词组a中所处位置“整体”存入信息结果“整体为主谓宾结构”中，然后执行步骤（b）；

（b）. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有助词，没有助词，执行步骤（c）；

（c）. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有形容词，没有形容词，执行步骤（d）；

（d）. 将“整体为主谓宾结构”与已经收录的句子的构成方法做对比，找到最接近的句法信息“整体为主谓宾结构”后，将句法信息“整体为主谓宾结构”作为中文词组a“公安局长喝茶”的句法信息；

C.根据句法信息“整体为主谓宾结构”，分词模块将需分词中文词组切分成词语，得到中间结果c“公安局长/喝/茶”；

D.去歧模块根据已经收录的句法和语义判别中间结果c“公安局长/喝/茶”是否具有歧义；没有歧义，中间结果c“公安局长/喝/茶”即为分词结果D。

本发明分词结果为“公安局长/喝/茶”。

其他方法分词结果为“公安/局长/喝茶”或“公安/局长/喝/茶”。

对比分析： “公安局长”分词分成“公安局长”和“公安/局长”都是正确的分词结果，但是结合句法“公安/局长/喝茶”明显不符合“整体为主谓宾结构”的句法，不符合真实的语境；“喝茶”分词分成“喝茶”和“喝/茶”都是正确的分词结果，但是结合句法“公安局长/喝茶”明显不符合“整体为主谓宾结构”的句法，不符合真实的语境。

实施例3.

中文词组为“陈述其中的厉害哩”。

本发明分词过程：

A. 获取需分词中文词组“陈述其中的厉害哩”；

B. （a）根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“陈述其中的厉害哩”中是否有动词，有动词“陈述”，扫描动词前后位置的词语的词性，“陈述”前无词语，“陈述”后“其中”为形容词，然后根据动词前后位置的词语的词性判断与动词相连短语的类别 “动词+形容词结构”，将类别“动词+形容词结构”及类别“动词+形容词结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“首端”存入信息结果a2“首端为动词+形容词结构”中，然后执行步骤（b）；

（b）根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词，有助词“的”，扫描助词前后位置的词语的词性，“的”前的“其中”为形容词，“的”后的“厉害”为名词，然后根据助词前后位置的词语的词性判断与助词相连短语的类别“定语+的+中心语结构”，将类别“定语+的+中心语结构”及类别“定语+的+中心语结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“尾端”存入信息结果a2“首端为动词+形容词结构，尾端为定语+的+中心语结构”中，然后执行步骤（c）；

（c）根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词，有形容词“其中”，扫描形容词前后位置的词语的词性，“其中”前的“陈述”为动词，“其中”后的“的”为助词，然后根据助词前后位置的词语的词性判断与助词相连短语的类别“动词+形容词+的”，将类别“动词+形容词+的”及类别“动词+形容词+的”在需分词中文词组“陈述其中的厉害哩”中所处位置“中间”存入信息结果a2“首端为动词+形容词结构，尾端为定语+的+中心语结构，中间为动词+形容词+的”中，然后执行步骤（d）；

（d）将a2与已经收录的句子的构成方法做对比，找到最接近的句法信息b“动词+形容词+的+名词”后，将句法信息b动词+形容词+的+名词”作为中文词组a的句法信息。

C. 根据句法语义信息b动词+形容词+的+名词”，分词模块将需分词中文词组“陈述其中的厉害哩”切分成词语，得到中间结果c“陈述/其中/的/厉害哩”；

D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义；“厉害哩”词语中包含虚词，有歧义，去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语“厉害/哩”，得到分词结果D“陈述/其中/的/厉害/哩”。

本发明分词结果为“陈述/其中/的/厉害/哩”。

其他方法分词结果为“陈述/其中的/厉害/哩”或“陈述/其/中/的/厉/害/哩”

对比分析： “其中的”分词分成“其中/的”最好，“厉害”分词分成“厉害”最好，这样符合真实的语义，而“其/中/的/厉/害”这样的分词结果颗粒度太小，不符合真实的语境。

Claims

1.一种搜索***中的中文分词方法，其特征在于，包括步骤：

A. 获取需分词中文词组a；

2.根据权利要求1所述的搜索***中的中文分词方法，其特征在于：步骤B中，所述的已经收录的句法和语义包括句子的构成方法、短语的类别以及大量汉字和词语对应的词性。

3.根据权利要求2所述的搜索***中的中文分词方法，其特征在于，步骤B中，所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比，找到最接近的句法信息b后，将句法信息b作为中文词组a的句法信息，具体为：

4.根据权利要求1所述的搜索***中的中文分词方法，其特征在于：步骤D中，所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义，具体为，去歧模块根据句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。

5.根据权利要求1所述的搜索***中的中文分词方法，其特征在于：步骤D中，所述的对中间结果b去歧义处理具体为，去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。