CN102682049B - 一种文本的候选关键词的提取方法 - Google Patents

一种文本的候选关键词的提取方法 Download PDF

Info

Publication number
CN102682049B
CN102682049B CN201110337333.XA CN201110337333A CN102682049B CN 102682049 B CN102682049 B CN 102682049B CN 201110337333 A CN201110337333 A CN 201110337333A CN 102682049 B CN102682049 B CN 102682049B
Authority
CN
China
Prior art keywords
text
template
candidate keywords
word
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110337333.XA
Other languages
English (en)
Other versions
CN102682049A (zh
Inventor
韩建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201110337333.XA priority Critical patent/CN102682049B/zh
Publication of CN102682049A publication Critical patent/CN102682049A/zh
Application granted granted Critical
Publication of CN102682049B publication Critical patent/CN102682049B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质量,从而提高文本检索的查准率。

Description

一种文本的候选关键词的提取方法
技术领域
本发明涉及文本检索技术领域,尤其涉及一种文本的候选关键词的提取方法。
背景技术
随着信息社会的发展,人们面对的是海量的信息源,其中一种重要的信息源就是文本信息。如何在浩如烟海的文本信息中,获取自己需要的文本,是人们工作学习的首要问题。
目前多是对每一个文本给出相关的关键词,人们通过关键词的检索来获取自己需要的文本。如何给每个文本给出合适的关键词,是提高文本查全率和查准率的重要环节。
在利用计算机标引文本时,目前都是采用文本自身的词汇作为关键词抽取出来,具体步骤如下:
1、对预处理的文本进行词法分析。例如,预处理文本为“据悉2008年北京***将于8月8日开幕。”
词法分析之后的结果就是:据悉/v 2008年/m 北京/ns ***/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj。
2、提取候选关键词
根据词性和词形等约束,来提取候选关键词,并记录用于计算权重的信息,比如候选关键词出现的位置信息。
如上例,如果存在约束1:词性要求是名词(n)、动词(v)和命名实体(nr,ns,nt,nz);约束2:要求词语不能是停用词。
则根据约束1,可提取“据悉/v、 北京/ns、 ***/n、 开幕/v”等词;
根据约束2,可删除“据悉/v”,(本处假设“据悉”为停用词)。
3、统计候选关键词信息并计算权重。统计第2步处理的结果,根据相关信息进行计算权重。相关信息一般指词性、词形、词位、词长等元素,带入一定的公式中计算。
4、选择关键词。将第3步的处理结果进行降序排列,根据一定的选择策略来选择关键词。比较简单的选择策略为提取排完序的候选关键词序列的前几个词语作为关键词。
以上技术方案存在的问题是:获得的关键词都是含义简单的单词,通用性较强,难以深入地反映文本的真实意义,因此检索出来的文本针对性不够,准确性不高。
发明内容
本发明的目的在于提出一种文本的候选关键词的提取方法,能够提高文本的标引质量,从而提高文本检索的查准率。
为达此目的,本发明采用以下技术方案:
一种文本的候选关键词的提取方法,包括以下步骤:
A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;
B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;
C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;
D、从模板库中按顺序抽取1个候选关键词模板;
E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本全部自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;
F、返回步骤D,直到所有的候选关键词模板完成比对。
所述候选关键词模板还包括模板项序列的权值。
采用了本发明的技术方案,由于采用结构合理的、字数较多的短句作为文本的关键词,因此该关键词能够更专一的标引文本,从而利用该关键词进行文本检索时,能够准确地检索到需要的文本。
附图说明
图1是本发明具体实施方式中文本的候选关键词的提取流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中文本的候选关键词的提取流程图。如图1所示,该候选关键词的提取流程包括以下步骤:
步骤101、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中。
例如“据悉/v 2008年/m 北京/ns ***/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”中,各个自然词后面跟随的字母就代表某个词项,这里的词项可以是词性、词形、命名实体、语义,等等。
步骤102、设置多个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列及其权值,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括多个约束项,每个约束项包括一个自然词字段和一个预定的词项。
例如,模板“(*,m)(*,ns) (***,*) (*,d):0.1”,模板项序列为“(*,m)(*,ns) (***,*) (*,d)”,其中(*,ns) 是词性约束,(***,*)是词形约束,模板权重为“0.1”。
其中模板项序列由关键词的上文约束项、当前文约束项序列和下文约束项组成,还以上面大模板为例,上文约束项为“(*,m)”,它不属于候选关键词内容,下文约束项为“(*,d)”,它也不属于候选关键词内容,当前文约束项序列为“(*,ns) (***,*)”,其内容为候选关键词内容。
步骤103、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项。
例如文本“据悉2008年北京***将于8月8日开幕。”进行词法分析后,结果为“据悉/v 2008年/m 北京/ns ***/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”。
步骤104、从模板库中按顺序抽取1个候选关键词模板。例如候选关键词模板“(*,m)(*,ns)(***,*)(*,d):0.1”。
步骤105、按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为文本的候选关键词。
例如,针对“据悉/v 2008年/m 北京/ns ***/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”这个文本,采用候选关键词模板“(*,m)(*,ns)(***,*)(*,d):0.1”进行比对,首先用约束项“(*,m)”在文本中逐个自然词进行比对,找到“2008年/m”匹配,再将后面的约束项“(*,ns)(***,*)(*,d)”与文本中“2008年/m”后面的连续自然词逐个进行比对,确定“北京/ns ***/n 将/d”与约束项“(*,ns)(***,*)(*,d)”都能够匹配,因此将文本中“2008年/m 北京/ns ***/n 将/d”的上文约束项“2008年/m”和下文约束项“将/d”删除,抽取对应当前文约束项序列“(*,ns)(***,*)”的“北京/ns ***/n”中的“北京***”作为文本的候选关键词。
返回步骤104,按顺序抽取下1个候选关键词模板,直到所有的候选关键词模板完成比对。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种文本的候选关键词的提取方法,其特征在于,包括以下步骤:
A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;
所述词项是自然词的词性、词形、命名实体或语义;
B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;
C、根据自然词数据库对文本进行词法分析,获得文本中每个自然词及其对应的词项;
D、从模板库中按顺序抽取1个候选关键词模板;
E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本中全部的自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;
返回步骤D,直到所有的候选关键词模板完成比对。
2.根据权利要求1所述的一种文本的候选关键词的提取方法,其特征在于,所述候选关键词模板还包括模板项序列的权值。
CN201110337333.XA 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法 Expired - Fee Related CN102682049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110337333.XA CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110337333.XA CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Publications (2)

Publication Number Publication Date
CN102682049A CN102682049A (zh) 2012-09-19
CN102682049B true CN102682049B (zh) 2014-04-23

Family

ID=46813994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110337333.XA Expired - Fee Related CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Country Status (1)

Country Link
CN (1) CN102682049B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎***
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Also Published As

Publication number Publication date
CN102682049A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN103077164B (zh) 文本分析方法及文本分析器
CN103399901B (zh) 一种关键词抽取方法
CN102306144B (zh) 一种基于语义词典的词语消歧方法
CN103123618B (zh) 文本相似度获取方法和装置
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN101566998A (zh) 一种基于神经网络的中文问答***
CN104991943A (zh) 音乐搜索方法及装置
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN102214166A (zh) 基于句法分析和层次模型的机器翻译***和方法
Huang et al. Comparative news summarization using linear programming
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和***
Al-Kabi et al. Benchmarking and assessing the performance of Arabic stemmers
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN105989058A (zh) 一种汉语新闻摘要生成***及方法
CN101763403A (zh) 面向多语言信息检索***的查询翻译方法
CN102682049B (zh) 一种文本的候选关键词的提取方法
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
CN105608136B (zh) 一种基于汉语复句的语义相关度计算方法
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取***及方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Vicente-Díez et al. Uc3m system: Determining the extent, type and value of time expressions in tempeval-2
CN115617965A (zh) 一种语言结构大数据的快速检索方法
CN106202033B (zh) 一种基于依存约束和知识的副词词义消歧方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI TIANMAI JUYUAN CULTURE AND MEDIA CO., LTD

Free format text: FORMER OWNER: TVMINING (BEIJING) MEDIA TECHNOLOGY CO., LTD.

Effective date: 20141226

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100007 DONGCHENG, BEIJING TO: 200436 ZHABEI, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20141226

Address after: 200436, No. 166, No. three, 6 Shanghai Road, Zhabei District, China

Patentee after: SHANGHAI TIANMAI JUYUAN CULTURE MEDIA CO.,LTD.

Address before: 100007 Beijing City, Dongcheng District Andingmen East Street, No. 28, building E, room 808

Patentee before: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150928

Address after: 100007 Beijing City, Dongcheng District Andingmen East Street, No. 28, building E, room 808

Patentee after: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Address before: 200436, No. 166, No. three, 6 Shanghai Road, Zhabei District, China

Patentee before: SHANGHAI TIANMAI JUYUAN CULTURE MEDIA CO.,LTD.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method for extracting candidate keywords of text

Effective date of registration: 20151014

Granted publication date: 20140423

Pledgee: Beijing Guohua financing Company limited by guarantee

Pledgor: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Registration number: 2015990000797

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140423

Termination date: 20211031