CN100492366C - 摘要提取方法以及摘要提取模块 - Google Patents

摘要提取方法以及摘要提取模块 Download PDF

Info

Publication number
CN100492366C
CN100492366C CNB200710109499XA CN200710109499A CN100492366C CN 100492366 C CN100492366 C CN 100492366C CN B200710109499X A CNB200710109499X A CN B200710109499XA CN 200710109499 A CN200710109499 A CN 200710109499A CN 100492366 C CN100492366 C CN 100492366C
Authority
CN
China
Prior art keywords
weight
current window
content
keyword
window content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB200710109499XA
Other languages
English (en)
Other versions
CN101075260A (zh
Inventor
袁哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB200710109499XA priority Critical patent/CN100492366C/zh
Publication of CN101075260A publication Critical patent/CN101075260A/zh
Application granted granted Critical
Publication of CN100492366C publication Critical patent/CN100492366C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种摘要提取方法,该方法包括:在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。本发明还公开了一种摘要提取模块,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元。由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。

Description

摘要提取方法以及摘要提取模块
技术领域
本发明涉及根据关键词从文档中提取摘要的技术领域,特别是摘要提取方法和摘要提取模块。
背景技术
搜索引擎是目前互联网上常见的一种工具。通常,搜索引擎利用爬虫从网络上的站点或者本地计算机上获取数据,并形成多个文档。当用户使用搜索引擎进行搜索时,搜索引擎根据用户提交的关键词匹配到一个或多个文档。接着,搜索引擎中的摘要提取模块根据用户提交的关键词,从所匹配到的文档中提取与关键词相关的内容作为摘要,该摘要应该能够最大限度地包含与关键词相关的信息,然后搜索引擎通过页面将各个文档的摘要显示给用户。
目前,摘要提取模块在文档中通过关键词进行位置匹配,然后将文档中关键词周围的内容作为摘要。例如,当关键词为三个时,这些关键词在文档中出现了10次、12次、18次,现有的摘要提取模块将这30处关键词中的一部分关键词及其附近的内容作为摘要。
但是,当文档中有4个包括全部关键词的句子时,说明这4个句子与关键词非常相关,但是上述现有技术并不能得知这一情况,从而提取出这4个句子作为摘要的一部分。换言之,现有的摘要提取方法提取出的摘要与关键词的关联程度较低,并不能将文档中与关键词高度相关的内容体现出来。
发明内容
有鉴于此,本发明提出了一种摘要提取方法,用以将与关键词高度匹配的内容提取出来作为摘要。本发明还提出了一种摘要提取模块。
本发明提供了一种摘要提取方法,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
所述设定步长为文档内容中的最小单位。
在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
该方法进一步包括:根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:根据权重对对应的窗口内容排序;根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
本发明还提供了一种摘要提取模块,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
该摘要提取模块进一步包括:设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
从上述方案中可以看出,由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。
附图说明
图1为根据本发明实施例的摘要提取方法的流程示意图;
图2为根据本发明实施例的摘要提取***的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下举实施例对本发明进一步详细说明。
图1为根据本发明实施例的摘要提取方法的流程示意图。如图1所示,本发明实施例的摘要提取方法包括以下步骤:
步骤101,预先设定窗口大小以及滑动步长。这里的窗口是指在文档中提取内容的基本单元,通常包括多个字词。一般来说步长要小于等于窗口的大小,否则就不能覆盖到文档的全部内容。
优选地,将步长设为文档中内容的最小单位,例如一个汉字、一个英文单词、一个数字等。
步骤102,以设定的步长向前滑动窗口,并提取当前窗口所对应的内容。在这里将窗口所对应的内容的称为窗口内容,将当前窗口所对应的内容称为当前窗口内容。
步骤103,判断当前窗口中是否包含关键词,如果包含关键词,则执行步骤104及其后续步骤;否则,执行步骤107及其后续步骤。
当然,也可以不进行步骤103的判断而直接执行步骤104及其后续步骤,因为不包含关键词的情况下当前窗口的权重会被计算为零,从而不会被用作摘要。
步骤104,根据关键词计算当前窗口内容的权重。
这里以关键词为多个的情况进行描述。当关键词为单个时,可以看成是多个关键词的简化特例。
简单来说,窗口内容的权重等于对每个关键词的权重求和。简便起见,以两个关键词为例进行描述。假设用户输入的关键词是“摘要提取”两个词,那么,窗口内容的权重就等于“摘要”的权重加上“提取”的权重。而每个关键词的权重与这个关键词在当前窗口内容中出现的次数相关,出现的次数越多,关键词的权重越大。从上面的描述可以看出,窗口内容的权重与其中出现的关键词的个数以及各个关键词出现的次数相关。当关键词为单个时,只需要按照上述方法将关键词的权重作为当前窗口内容的权重即可,并不涉及下面的内容。
进一步,由于每个关键词的重要性是不一样的,可以在求和之前为每个关键词的权重乘以一个系数。例如,在文档中“摘要”出现了784次,而“提取”出现了98次,在文档中出现次数多的关键词的重要性一般小于在文档中出现次数少,所以在求和之前为“摘要”的权重乘以一个较小的系数,而为“提取”的乘以一个较大的系数,从而区分出两者的重要性。
更进一步,在计算窗口内容的权重时,还可以根据窗口内容中多个关键词的相关程度,对窗口内容的权重进行修正,例如加一个系数和/或乘以一个系数。举例来说,当窗口内容中的“摘要”、“提取”出现的次序与用户输入的顺序一致或者越接近时,加上一个较大的系数和/或乘以一个较大的系数;当窗口内容中的“摘要”、“提取”出现的次序与用户输入的顺序不一致或者越不接近时,加上一个较小的系数和/或乘以一个较小的系数;当窗口内容中的“摘要”和“提取”的距离较短时,加上一个较大的系数和/或乘以一个较大的系数;当窗口内容中的“摘要”和“提取”的距离较大时,加上一个较小的系数和/或乘以一个较小的系数。
步骤105,判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,如果是,则执行步骤106及其后续步骤;否则,丢弃当前窗口内容,然后执行步骤107及其后续步骤。
步骤106,保存当前窗口内容以及对应的权重。
另外,也可以不执行步骤105的判断,直接保存当前窗口内容以及对应的权重。
步骤107,判断滑动是否结束,即是否达到文档末尾,如果是,则执行步骤108及其后续步骤;如果不是,则执行步骤102及其后续步骤。
步骤108,对保存的窗口内容按照权重进行排序,不妨假设按照与其对应的权重从大到小排列。
步骤109,根据摘要长度的要求,按照步骤108中的排序,从排列的窗口内容中依照圈中从大到小的次序取出一个或多个窗口内容,从而形成摘要。
另外,在本发明实施例的方法中,也可以不执行步骤108的排序,而是在步骤109中,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
该流程至此结束。
图2是根据本发明实施例的摘要提取模块的结构示意图。参照图2,该摘要提取装置包括存储单元、滑动单元、计算单元以及摘要形成单元。
其中,存储单元用于存储文档、窗口内容及对应的权重。
滑动单元用于在文档中以设定步长滑动窗口,并且在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容,然后将当前窗口内容提供给计算单元。
计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重。计算单元可以通过对每个关键词的权重求和作为当前窗口内容的权重。进一步,计算单元还可以根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大。另外,计算单元还可以为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口中关键词之间的距离越短时越大。
另外,计算单元可以进一步在收到当前窗口内容并且未计算当前窗口的权重时,判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重,如果当前窗口内容中不包含关键词,则不计算当前窗口内容的权重,从滑动单元接收并处理下一个当前窗口内容。
另外,计算单元可以进一步在保存当前窗口内容及对应的权重时,判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重,如果当前窗口内容的权重不大于与当前窗口重叠的窗口内容的权重,则丢弃当前窗口内容。
摘要形成单元用于在滑动结束后从存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
继续参照图2,本发明实施例的摘要提取模块还可以进一步包括设置单元,该设置单元用于为滑动单元设置窗口大小和滑动步长。
本发明实施例的摘要提取模块还可以进一步包括排序单元,该排序单元用于根据权重对存储单元中对应的窗口内容排序,以便摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1、一种摘要提取方法,其特征在于,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
2、根据权利要求1所述的方法,其特征在于,所述设定步长为文档内容中的最小单位。
3、根据权利要求1所述的方法,其特征在于,在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
4、根据权利要求1所述的方法,其特征在于,所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
5、根据权利要求4所述的方法,其特征在于,该方法进一步包括:
根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,
为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
6、根据权利要求1所述的方法,其特征在于,在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
7、根据权利要求1所述的方法,其特征在于,所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:
根据权重对对应的窗口内容排序;
根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
8、一种摘要提取模块,其特征在于,该摘要提取模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
9、根据权利要求8所述的摘要提取模块,其特征在于,该摘要提取模块进一步包括:
设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,
排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
10、根据权利要求8所述的摘要提取模块,其特征在于,所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,
进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
CNB200710109499XA 2007-06-28 2007-06-28 摘要提取方法以及摘要提取模块 Active CN100492366C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710109499XA CN100492366C (zh) 2007-06-28 2007-06-28 摘要提取方法以及摘要提取模块

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200710109499XA CN100492366C (zh) 2007-06-28 2007-06-28 摘要提取方法以及摘要提取模块

Publications (2)

Publication Number Publication Date
CN101075260A CN101075260A (zh) 2007-11-21
CN100492366C true CN100492366C (zh) 2009-05-27

Family

ID=38976311

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710109499XA Active CN100492366C (zh) 2007-06-28 2007-06-28 摘要提取方法以及摘要提取模块

Country Status (1)

Country Link
CN (1) CN100492366C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314448B (zh) * 2010-07-06 2013-12-04 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
CN104091058A (zh) * 2014-06-27 2014-10-08 北京君和信达科技有限公司 一种安检结论提交方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN105808570A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种提供搜索摘要服务的方法和装置
CN105808566A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于搜索词从网页中提取摘要的方法和装置
CN107451302B (zh) * 2017-09-22 2020-08-28 深圳大学 滑动窗口下基于位置top-k关键词查询的建模方法及***
CN108628833B (zh) * 2018-05-11 2021-01-22 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN109522402A (zh) * 2018-10-22 2019-03-26 国家电网有限公司 一种基于电力行业特征关键词的摘要提取方法及存储介质
CN117764459B (zh) * 2024-02-22 2024-04-26 山邮数字科技(山东)有限公司 一种基于数据智能分析处理的企业管理***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
自动文摘的四种主要方法. 刘挺,王开铸.情报学报,第18卷第1期. 1999
自动文摘的四种主要方法. 刘挺,王开铸.情报学报,第18卷第1期. 1999 *

Also Published As

Publication number Publication date
CN101075260A (zh) 2007-11-21

Similar Documents

Publication Publication Date Title
CN100492366C (zh) 摘要提取方法以及摘要提取模块
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
CN105955976B (zh) 一种自动应答***及方法
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
CN109582704B (zh) 招聘信息和求职简历匹配的方法
CN102725759A (zh) 用于搜索结果的语义目录
US20130297827A1 (en) Method and server for intelligent categorization of bookmarks
CN101458708B (zh) 检索结果聚类方法及装置
CN102855252B (zh) 一种基于需求的数据检索方法和装置
EP2798540A1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
CN102138142A (zh) 对部分用户输入的词典建议
CN101334768A (zh) 一种利用计算机对词义进行排歧的方法、***及检索方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN105630940B (zh) 一种基于可读性指标的信息检索方法
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
US20050138079A1 (en) Processing, browsing and classifying an electronic document
CN105183803A (zh) 一种社交网络平台中的个性化搜索方法及其搜索装置
CN106294736A (zh) 基于关键词频率的文本特征提取方法
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与***
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
US8799268B2 (en) Consolidating tags
CN110008312A (zh) 一种文档写作助手实现方法、***及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant