CN102314415A - 利用成语知识的判别式分词***及方法 - Google Patents

利用成语知识的判别式分词***及方法 Download PDF

Info

Publication number
CN102314415A
CN102314415A CN2010102216290A CN201010221629A CN102314415A CN 102314415 A CN102314415 A CN 102314415A CN 2010102216290 A CN2010102216290 A CN 2010102216290A CN 201010221629 A CN201010221629 A CN 201010221629A CN 102314415 A CN102314415 A CN 102314415A
Authority
CN
China
Prior art keywords
characteristic
chinese idiom
participle
idiom
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102216290A
Other languages
English (en)
Inventor
毛新年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guoke Electronic Co., Ltd.
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN2010102216290A priority Critical patent/CN102314415A/zh
Publication of CN102314415A publication Critical patent/CN102314415A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种利用成语知识的判别式分词方法,包括如下步骤:第一步,分词知识库的训练,包括:步骤1,对人工分词的文本抽取基本特征;步骤2,对人工分词的文本抽取成语特征;步骤3,对抽取的特征进行训练,得到分词用的知识库;第二步,从待切分的原始文本中获取基本特征;第三步,从待切分的原始文本中获取成语特征;第四步,利用第一步训练得到的分词知识库对待切分的原始文本进行分词。此外,本发明还公开了一种利用成语知识的判别式分词***。本发明在不提高计算复杂性的情况下,可以显著改善长词的分词性能,提高分词算法中对于长词切分的准确率。

Description

利用成语知识的判别式分词***及方法
技术领域
本发明涉及一种汉语分词***,尤其涉及一种判别式分词***,具体涉及一种利用成语知识的判别式分词***;此外,本发明还涉及一种利用成语知识的判别式分词方法。
背景技术
目前汉语分词***中常用的判别式分词***,基于判别式机器学习的分词技术在长词识别上性能不足,这些长词主要是成语和仿词(时间、日期等)。在目前已有的判别式分词***中,对于长词的处理仅仅考虑到带有固定模式的仿词(时间、日期等),没有考虑到成语、惯用语作为一种常见的长词的特殊处理,现有的方法利用若干窗口的字特征进行分词,不能抓住长距离,对于成语这样的长词切分精度往往不高。
现有判别式分词方法主要依靠指定窗口大小的字特征来实现分词,这种方法在长词切分上性能不佳,这种方法要提高长词的切分性能只能通过扩大窗口的范围,但是扩大窗口范围会带来计算量的巨大提高。
因此,需要一种新的方法来改善分词中的长词切分准确率。
发明内容
本发明要解决的技术问题是提供一种利用成语知识的判别式分词***及方法,其在不提高计算复杂性的情况下,可以显著改善长词的分词性能,提高分词算法中对于长词切分的准确率。
为解决上述技术问题,本发明提供一种利用成语知识的判别式分词方法,包括如下步骤:
第一步,分词知识库的训练,包括:
步骤1,对人工分词的文本抽取基本特征;
步骤2,对人工分词的文本抽取成语特征;
步骤3,对抽取的特征进行训练,得到分词用的知识库;
第二步,从待切分的原始文本中获取基本特征;
第三步,从待切分的原始文本中获取成语特征;
第四步,利用第一步训练得到的分词知识库对待切分的原始文本进行分词。
第一步的步骤1中,所述对人工分词的文本抽取基本特征主要是抽取若干窗口的字特征。
第一步的步骤2中,采用从成语词典中抽取成语特征。
第三步中,采用从成语词典中获取成语特征。
所述成语特征通过成语词典与待切分的原始文本进行匹配,如果某些文字被成功匹配,这些文字就被赋以如下特征:
该字是成功匹配的成语的首字:B-Idiom;
该字是成功匹配的成语的中间字:I-Idiom;
该字是成功匹配的成语的尾字:E-Idiom;
其他没有被匹配成功的文字被赋以:Other。
所述成语词典与待切分的原始文本进行匹配采用正向最大匹配或者逆向最大匹配。
此外,本发明还提供一种利用成语知识的判别式分词***,包括分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块;所述分词知识库训练模块包括抽取基本特征模块、抽取成语特征模块和训练模块;
该抽取基本特征模块用于对人工分词的文本抽取基本特征;该抽取成语特征模块用于对人工分词的文本抽取成语特征;该训练模块用于对上述抽取的特征进行训练,得到分词知识库;该获取基本特征模块用于从待切分的原始文本中获取基本特征;该抽取成语特征模块用于从待切分的原始文本中获取成语特征;该分词模块用于利用分词知识库训练模块得到的分词知识库对待切分的原始文本进行分词。
所述抽取成语特征模块和所述获取成语特征模块通过成语词典与待切分的原始文本进行匹配,赋以成语特征。
本发明的有益效果在于:本发明方法利用成语词典作为知识源,将成语词典与待切分的原始文本自动匹配结果作为判别式机器学习算法中的切分特征,利用这些加强的特征来提高分词算法中对于成语切分的准确率。本发明方法利用成语词典知识作为一种增强特征,与原有字特征结合使用,在不提高计算复杂性的情况下,可以显著改善长词的分词性能。
附图说明
图1是本发明方法中模型分词知识库的训练过程示意图;
图2是本发明方法中利用分词知识库进行分词的过程示意图;
图3是本发明***的模块结构示意图。
具体实施方式
本发明方法利用成语词典作为知识源,将成语词典与待切分的原始文本自动匹配结果作为判别式机器学习算法中的切分特征,利用这些加强的特征来提高分词算法中对于成语切分的准确率。
本发明一种利用成语知识的判别式分词方法的具体流程见图1和图2。图1是模型分词知识库的训练过程,图2是利用分词知识库进行分词的过程。
如图1所示,本发明方法中模型分词知识库的训练过程包括如下步骤:
步骤1:对人工分词的文本(人工切分的分词语料)抽取基本特征,主要是抽取若干窗口的字特征,目前已有的分词训练模块也具备这一步骤;
步骤2:对人工分词的文本抽取成语特征,这是目前分析训练模块都没有的步骤;可以通过改变成语特征的获取方式来获取其他形式的成语特征,例如,可以从成语词典中获取成语特征(见图1),也可以通过来源于网络的“成语大全”获取成语特征,等等;
步骤3:对抽取的特征进行训练,得到分词用的知识库。
如图2所示,本发明方法中利用分词知识库对待切分的原始文本进行分词的过程包括如下步骤:
步骤1:从待切分的原始文本中获取基本特征;
步骤2:从待切分的原始文本中获取成语特征;可以通过改变成语特征的获取方式来获取其他形式的成语特征,例如,可以从成语词典中获取成语特征(见图2),也可以通过来源于网络的“成语大全”获取成语特征,等等;
步骤3:利用图1中步骤训练得到的分词知识库对待切分的原始文本进行分词。
上述图1和图2中的成语特征可以按如下方法获得:
成语特征通过一部成语词典与待切分的原始文本进行匹配(正向最大匹配或者逆向最大匹配),如果某些文字被成功匹配,这些文字就被赋以如下特征:
该字是成功匹配的成语的首字:B-Idiom;
该字是成功匹配的成语的中间字:I-Idiom;
该字是成功匹配的成语的尾字:E-Idiom;
其他没有被匹配成功的文字被赋以:Other。
正向(逆向)最大匹配指:设定词典中最长的词的字数N,将句子从左到右(正向)或者从右到左(逆向)以N个字进行匹配,如果匹配不成功,则去掉最后一个字,直到在词典中匹配成功了M个字的词组,前移M,再次取N个字进行匹配,直至句子结束,例如:
假设词典为:
内塔尼亚胡
胡说
的确
确实
实在
在理
并且假定最长词为5个字;
正向匹配“内塔尼亚胡说的确实在理”的匹配结果为“内塔尼亚胡 说的确 实在理”;
逆向匹配“内塔尼亚胡说的确实在理”的匹配结果为“内塔尼亚 胡说 的 确实 在理”。
如图3所示,本发明一种利用成语知识的判别式分词***,包括:分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块;分词知识库训练模块中包括抽取基本特征模块、抽取成语特征模块和训练模块。该抽取基本特征模块用于对人工分词的文本抽取基本特征;该抽取成语特征模块用于对人工分词的文本抽取成语特征;该训练模块用于对上述抽取基本特征模块和抽取成语特征模块抽取的特征进行训练,得到分词知识库;该获取基本特征模块用于从待切分的原始文本中获取基本特征;该抽取成语特征模块用于从待切分的原始文本中获取成语特征;该分词模块用于利用分词知识库训练模块得到的分词知识库对待切分的原始文本进行分词。
该抽取成语特征模块和该获取成语特征模块通过成语词典与待切分的原始文本进行匹配,赋以成语特征。

Claims (8)

1.一种利用成语知识的判别式分词方法,其特征在于,包括如下步骤:
第一步,分词知识库的训练,包括:
步骤1,对人工分词的文本抽取基本特征;
步骤2,对人工分词的文本抽取成语特征;
步骤3,对抽取的特征进行训练,得到分词用的知识库;
第二步,从待切分的原始文本中获取基本特征;
第三步,从待切分的原始文本中获取成语特征;
第四步,利用第一步训练得到的分词知识库对待切分的原始文本进行分词。
2.如权利要求1所述的利用成语知识的判别式分词方法,其特征在于,第一步的步骤1中,所述对人工分词的文本抽取基本特征主要是抽取若干窗口的字特征。
3.如权利要求1所述的利用成语知识的判别式分词方法,其特征在于,第一步的步骤2中,采用从成语词典中抽取成语特征。
4.如权利要求1所述的利用成语知识的判别式分词方法,其特征在于,第三步中,采用从成语词典中获取成语特征。
5.如权利要求3或4所述的利用成语知识的判别式分词方法,其特征在于,所述成语特征通过成语词典与待切分的原始文本进行匹配,如果某些文字被成功匹配,这些文字就被赋以如下特征:
该字是成功匹配的成语的首字:B-Idiom;
该字是成功匹配的成语的中间字:I-Idiom;
该字是成功匹配的成语的尾字:E-Idiom;
其他没有被匹配成功的文字被赋以:Other。
6.如权利要求5所述的利用成语知识的判别式分词方法,其特征在于,所述成语词典与待切分的原始文本进行匹配采用正向最大匹配或者逆向最大匹配。
7.一种利用成语知识的判别式分词***,其特征在于,包括分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块;所述分词知识库训练模块包括抽取基本特征模块、抽取成语特征模块和训练模块;
该抽取基本特征模块用于对人工分词的文本抽取基本特征;该抽取成语特征模块用于对人工分词的文本抽取成语特征;该训练模块用于对上述抽取的特征进行训练,得到分词知识库;该获取基本特征模块用于从待切分的原始文本中获取基本特征;该抽取成语特征模块用于从待切分的原始文本中获取成语特征;该分词模块用于利用分词知识库训练模块得到的分词知识库对待切分的原始文本进行分词。
8.如权利要求7所述的利用成语知识的判别式分词***,其特征在于,所述抽取成语特征模块和所述获取成语特征模块通过成语词典与待切分的原始文本进行匹配,赋以成语特征。
CN2010102216290A 2010-07-08 2010-07-08 利用成语知识的判别式分词***及方法 Pending CN102314415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102216290A CN102314415A (zh) 2010-07-08 2010-07-08 利用成语知识的判别式分词***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102216290A CN102314415A (zh) 2010-07-08 2010-07-08 利用成语知识的判别式分词***及方法

Publications (1)

Publication Number Publication Date
CN102314415A true CN102314415A (zh) 2012-01-11

Family

ID=45427598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102216290A Pending CN102314415A (zh) 2010-07-08 2010-07-08 利用成语知识的判别式分词***及方法

Country Status (1)

Country Link
CN (1) CN102314415A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Similar Documents

Publication Publication Date Title
Pouget-Abadie et al. Overcoming the curse of sentence length for neural machine translation using automatic segmentation
CN109255113B (zh) 智能校对***
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN103971686B (zh) 自动语音识别方法和***
CN106569995B (zh) 基于语料库和格律规则的汉语古诗词自动生成方法
CN103971675B (zh) 自动语音识别方法和***
CN103123618B (zh) 文本相似度获取方法和装置
CN103956162A (zh) 针对儿童的语音识别方法及装置
CN107578769A (zh) 语音数据标注方法和装置
CN104750687A (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN101645269A (zh) 一种语种识别***及方法
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN110377724A (zh) 一种基于数据挖掘的语料库关键词自动抽取算法
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及***
WO2017177809A1 (zh) 语言文本的分词方法和***
CN106033462A (zh) 一种新词发现方法及***
CN108804608A (zh) 一种基于层次attention的微博谣言立场检测方法
CN102708147A (zh) 一种科技术语的新词识别方法
CN105095196A (zh) 文本中新词发现的方法和装置
CN110853629A (zh) 一种基于深度学习的语音识别数字的方法
CN103955450A (zh) 一种新词自动提取方法
CN104156349A (zh) 基于统计词典模型的未登录词发现和分词***及方法
CN103559181A (zh) 一种双语语义关系分类模型的建立方法和***
CN109086266A (zh) 一种文本形近字的检错与校对方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHANGHAI GUOKE ELECTRONIC CO., LTD.

Free format text: FORMER OWNER: SHENGYUE INFORMATION TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140728

Address after: 201203 Pudong New Area Huaxia Road, Lane No. 958, No. 60, Shanghai

Applicant after: Shanghai Guoke Electronic Co., Ltd.

Address before: 201203 Shanghai Guo Shou Jing Road, Pudong New Area Zhangjiang hi tech Park No. 356

Applicant before: Shengle Information Technology (Shanghai) Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 201203 Shanghai Zhang Heng Road, Lane 666, No. 8, building 1, Pudong New Area

Applicant after: SHANGHAI GEAK ELECTRONICS CO., LTD.

Address before: 201203 Pudong New Area Huaxia Road, Lane No. 958, No. 60, Shanghai

Applicant before: Shanghai Guoke Electronic Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120111