CN102982020A - 一种搜索***中的中文分词方法 - Google Patents
一种搜索***中的中文分词方法 Download PDFInfo
- Publication number
- CN102982020A CN102982020A CN2012105502927A CN201210550292A CN102982020A CN 102982020 A CN102982020 A CN 102982020A CN 2012105502927 A CN2012105502927 A CN 2012105502927A CN 201210550292 A CN201210550292 A CN 201210550292A CN 102982020 A CN102982020 A CN 102982020A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- phrase
- result
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种搜索***中的中文分词方法,包括步骤:A.获取需分词中文词组;B.将需分词中文词组与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;C.根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;D.去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;若有歧义,对中间结果c去歧义处理,得到最终结果D,否则,中间结果c即为分词结果D。本发明中能够解决因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,最大程度上保证了分词结果的准确性,提高搜索结果的准确率,分词结果的准确性早98%以上。
Description
技术领域
本发明涉及一种中文分词方法,尤其涉及一种搜索***中的中文分词方法。
背景技术
现有的中文搜索***中,需要先针对用户输入的内容进行分词,以确定搜索的关键字。目前的分词方法,一般无法解决因涉及汉语语义问题而产生分词结果有歧义的问题,这会导致在确定关键字时的错误,影响搜索结果的准确率。
发明内容
本发明的目的在于,提供一种搜索***中的中文分词方法。运用该方法进行分词能够解决因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,提高搜索结果的准确率。
为解决上述技术问题,本发明提供的技术方案如下:一种搜索***中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
前述的搜索***中的中文分词方法,步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
前述的搜索***中的中文分词方法,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
前述的搜索***中的中文分词方法,步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
前述的搜索***中的中文分词方法,步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
与现有技术相比,运用本发明得出的分词结果能够避免因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,最大程度上保证了分词结果的准确性,分词结果的准确性早98%以上,提高搜索结果的准确率。
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例。一种搜索***中的中文分词方法,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
实施例2.
中文词组为“公安局长喝茶”。
本发明分词过程:
A.获取需分词中文词组“公安局长喝茶”;
B.(a).根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“公安局长喝茶”中是否有动词,有动词“喝”,扫描动词前后位置的词语的词性,“喝”前的“公安局长”为名词,“喝”后的“茶”为名词,然后根据动词前后位置的词语的词性判断与动词相连短语的类别“主谓宾结构”,将类别“主谓宾结构”及类别“主谓宾结构”在需分词中文词组a中所处位置“整体”存入信息结果“整体为主谓宾结构”中,然后执行步骤(b);
(b). 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有助词,没有助词,执行步骤(c);
(c). 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有形容词,没有形容词,执行步骤(d);
(d). 将“整体为主谓宾结构”与已经收录的句子的构成方法做对比,找到最接近的句法信息“整体为主谓宾结构”后,将句法信息“整体为主谓宾结构”作为中文词组a“公安局长喝茶”的句法信息;
C.根据句法信息“整体为主谓宾结构”,分词模块将需分词中文词组切分成词语,得到中间结果c“公安局长/喝/茶”;
D.去歧模块根据已经收录的句法和语义判别中间结果c“公安局长/喝/茶”是否具有歧义;没有歧义,中间结果c“公安局长/喝/茶”即为分词结果D。
本发明分词结果为“公安局长/喝/茶”。
其他方法分词结果为“公安/局长/喝茶”或“公安/局长/喝/茶”。
对比分析: “公安局长”分词分成“公安局长”和“公安/局长”都是正确的分词结果,但是结合句法“公安/局长/喝茶”明显不符合“整体为主谓宾结构”的句法,不符合真实的语境;“喝茶”分词分成“喝茶”和“喝/茶”都是正确的分词结果,但是结合句法“公安局长/喝茶”明显不符合“整体为主谓宾结构”的句法,不符合真实的语境。
实施例3.
中文词组为“陈述其中的厉害哩”。
本发明分词过程:
A. 获取需分词中文词组“陈述其中的厉害哩”;
B. (a)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“陈述其中的厉害哩”中是否有动词,有动词“陈述”,扫描动词前后位置的词语的词性,“陈述”前无词语,“陈述”后“其中”为形容词,然后根据动词前后位置的词语的词性判断与动词相连短语的类别 “动词+形容词结构”,将类别“动词+形容词结构”及类别“动词+形容词结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“首端”存入信息结果a2“首端为动词+形容词结构”中,然后执行步骤(b);
(b)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,有助词“的”,扫描助词前后位置的词语的词性,“的”前的“其中”为形容词,“的”后的“厉害”为名词,然后根据助词前后位置的词语的词性判断与助词相连短语的类别“定语+的+中心语结构”,将类别“定语+的+中心语结构”及类别“定语+的+中心语结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“尾端”存入信息结果a2“首端为动词+形容词结构,尾端为定语+的+中心语结构”中,然后执行步骤(c);
(c)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,有形容词“其中”,扫描形容词前后位置的词语的词性,“其中”前的“陈述”为动词,“其中”后的“的”为助词,然后根据助词前后位置的词语的词性判断与助词相连短语的类别“动词+形容词+的”,将类别“动词+形容词+的”及类别“动词+形容词+的”在需分词中文词组“陈述其中的厉害哩”中所处位置“中间”存入信息结果a2“首端为动词+形容词结构,尾端为定语+的+中心语结构,中间为动词+形容词+的”中,然后执行步骤(d);
(d)将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b“动词+形容词+的+名词”后,将句法信息b动词+形容词+的+名词”作为中文词组a的句法信息。
C. 根据句法语义信息b动词+形容词+的+名词”,分词模块将需分词中文词组“陈述其中的厉害哩”切分成词语,得到中间结果c“陈述/其中/的/厉害哩”;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;“厉害哩”词语中包含虚词,有歧义,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语“厉害/哩”,得到分词结果D“陈述/其中/的/厉害/哩”。
本发明分词结果为“陈述/其中/的/厉害/哩”。
其他方法分词结果为“陈述/其中的/厉害/哩”或“陈述/其/中/的/厉/害/哩”
对比分析: “其中的”分词分成“其中/的”最好,“厉害”分词分成“厉害”最好,这样符合真实的语义,而“其/中/的/厉/害”这样的分词结果颗粒度太小,不符合真实的语境。
Claims (5)
1.一种搜索***中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
2.根据权利要求1所述的搜索***中的中文分词方法,其特征在于:步骤B中,所述的已经收录的句法和语义包括句子的构成方法、短语的类别以及大量汉字和词语对应的词性。
3.根据权利要求2所述的搜索***中的中文分词方法,其特征在于,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
4.根据权利要求1所述的搜索***中的中文分词方法,其特征在于:步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
5.根据权利要求1所述的搜索***中的中文分词方法,其特征在于:步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105502927A CN102982020A (zh) | 2012-12-17 | 2012-12-17 | 一种搜索***中的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105502927A CN102982020A (zh) | 2012-12-17 | 2012-12-17 | 一种搜索***中的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102982020A true CN102982020A (zh) | 2013-03-20 |
Family
ID=47856060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012105502927A Pending CN102982020A (zh) | 2012-12-17 | 2012-12-17 | 一种搜索***中的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982020A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598441A (zh) * | 2014-12-25 | 2015-05-06 | 上海科阅信息技术有限公司 | 一种计算机拆分汉语句子的方法 |
CN105701206A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种基于采样的文献检测方法及*** |
CN106503076A (zh) * | 2016-10-08 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 一种基于语法格式的分词检索方法及*** |
CN110347901A (zh) * | 2018-04-02 | 2019-10-18 | 和硕联合科技股份有限公司 | 一种搜索方法以及一种应用该方法的电子装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499058A (zh) * | 2009-03-05 | 2009-08-05 | 北京理工大学 | 一种基于类型论的汉语分词方法 |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN102087642A (zh) * | 2009-11-04 | 2011-06-08 | 蒋贤春 | Wkr分词方法 |
-
2012
- 2012-12-17 CN CN2012105502927A patent/CN102982020A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN101499058A (zh) * | 2009-03-05 | 2009-08-05 | 北京理工大学 | 一种基于类型论的汉语分词方法 |
CN102087642A (zh) * | 2009-11-04 | 2011-06-08 | 蒋贤春 | Wkr分词方法 |
Non-Patent Citations (1)
Title |
---|
赵伟 等: "一种规则与统计相结合的汉语分词方法", 《计算机应用研究》, no. 03, 28 March 2004 (2004-03-28), pages 23 - 25 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598441A (zh) * | 2014-12-25 | 2015-05-06 | 上海科阅信息技术有限公司 | 一种计算机拆分汉语句子的方法 |
CN104598441B (zh) * | 2014-12-25 | 2019-06-28 | 上海科阅信息技术有限公司 | 一种计算机拆分汉语句子的方法 |
CN105701206A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种基于采样的文献检测方法及*** |
CN105701206B (zh) * | 2016-01-13 | 2018-10-09 | 湖南通远网络科技有限公司 | 一种基于采样的文献检测方法及*** |
CN106503076A (zh) * | 2016-10-08 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 一种基于语法格式的分词检索方法及*** |
CN110347901A (zh) * | 2018-04-02 | 2019-10-18 | 和硕联合科技股份有限公司 | 一种搜索方法以及一种应用该方法的电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675288B (zh) | 智能辅助审判方法、装置、计算机设备及存储介质 | |
Mubarak et al. | Using Twitter to collect a multi-dialectal corpus of Arabic | |
Cabrio et al. | Combining textual entailment and argumentation theory for supporting online debates interactions | |
CN104317846A (zh) | 一种语义分析与标注方法及*** | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN106095778A (zh) | 搜索引擎的中文搜索词自动纠错方法 | |
CN103365925A (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
CN102982020A (zh) | 一种搜索***中的中文分词方法 | |
CN107609103A (zh) | 一种基于推特的事件检测方法 | |
CN103559310A (zh) | 一种从文章中提取关键词的方法 | |
Zayats et al. | Giving attention to the unexpected: Using prosody innovations in disfluency detection | |
CN106294320A (zh) | 一种面向学术论文的术语抽取方法及*** | |
CN102426603A (zh) | 一种文字信息地域识别方法及装置 | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
Huber | Syntactic and variational complexity in British and Ghanaian English | |
CN102446505A (zh) | 联合因子分析方法及联合因子分析声纹认证方法 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN103593338A (zh) | 一种信息处理方法及装置 | |
CN101901212A (zh) | 一种基于认知评价理论的汉语文本情感识别方法 | |
CN104317783A (zh) | 一种语义关系密切度的计算方法 | |
Yao | The present perfect and the preterite in Australian English | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN106354713A (zh) | 自动识别中文姓名的方法 | |
Berlage | Prepositions and postpositions | |
Usevičs | Neologisms in British newspapers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130320 |