CN101458718A - 一种搜索引擎动态摘要提取方法 - Google Patents

一种搜索引擎动态摘要提取方法 Download PDF

Info

Publication number
CN101458718A
CN101458718A CNA2009100764851A CN200910076485A CN101458718A CN 101458718 A CN101458718 A CN 101458718A CN A2009100764851 A CNA2009100764851 A CN A2009100764851A CN 200910076485 A CN200910076485 A CN 200910076485A CN 101458718 A CN101458718 A CN 101458718A
Authority
CN
China
Prior art keywords
paragraph
candidate
query word
weights
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100764851A
Other languages
English (en)
Other versions
CN101458718B (zh
Inventor
闫宏飞
树柏涵
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2009100764851A priority Critical patent/CN101458718B/zh
Publication of CN101458718A publication Critical patent/CN101458718A/zh
Application granted granted Critical
Publication of CN101458718B publication Critical patent/CN101458718B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索引擎动态摘要提取方法,所述方法包括以下步骤:获取用户输入的查询词;根据所述查询词,截取摘要候选段落;获取所述候选段落的段权值;选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。本发明以用户查询词为中心进行摘要候选段落的截取,并根据段权值选择候选段落,将选择的候选段落合并生成摘要,从而提高了摘要和用户查询相关性与原文档和用户查询相关性之间一致性。

Description

一种搜索引擎动态摘要提取方法
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种搜索引擎动态摘要提取方法。
背景技术
在网络信息极大丰富的今天,为了快速而准确的找到所需的信息,搜索引擎应运而生,成为现代网络的重要工具。虽然现代搜索引擎提供了较准确的结果排序,然而时常会有一些靠前的结果并不是用户所需要的,出现这样的情况一是搜索引擎是基于全文索引技术提供服务的,只要文档中包含查询词就会返回的,所以很大可能存在与用户查询需求不相关的文档,二是因为查询词未必可以完全展现用户的意图。因此,用户会通过阅读摘要来判定链接的价值。那么摘要的好坏直接影响到用户对链接价值判定的准确性,摘要的质量也成为用户选择搜索引擎的标准之一。综上可知摘要对于搜索引擎有着重要的意义,其意义就在于对用户判断链接价值时所起到的指导性作用。好的摘要应当做到不对用户产生误导,这种误导主要有两种情况:
类型一:原本与用户查询较相关的链接,用户阅读摘要后感觉不相关,从而忽略该链接。
类型二:原本与用户查询不相关的链接,用户阅读摘要后感觉相关,从而点击链接阅读原文。
目前在摘要方面已有不少研究。Tombros等人在1998年得出结论以查询为中心的动态摘要相比较以内容为中心的静态摘要,更容易找到相关文档(A.Tombros and M.Sanderson,Advantages of querybiased summaries in information retrieval,in Proceedings of the 21stannual international ACM SIGIR conference on Research anddevelopment in information retrieval.Melbourne,Australia:ACM,1998.)。但是该研究对象是新闻类文档,且没有验证该方法在搜索引擎摘要中的有效性。Das等人在2007年对以往的自动文档摘要研究工作做了综述,对于单文档摘要,多文档摘要的发展给出较全面的概括(D.Das and A.F.T.Martins,A Survey on Automatic TextSummarization,Language Technologies Institute,CMU 2007.),但是没有考虑针对网页形成动态摘要的情况。Ferragina等人在2005年利用搜索引擎动态摘要来做个性化的搜索引擎(P.Ferragina and A.Gulli,Apersonalized search engine based on web-snippet hierarchical clustering,in Special interest tracks and posters of the 14th international conferenceon World Wide Web.Chiba,Japan:ACM,2005.),但是没有涉及到如何构建有效的动态摘要.李晓明等在2005年给出了一种便于理解和实现的简单的动态摘要算法(李晓明,闫宏飞,and王继民,搜索引擎-原理、技术与***:科学出版社,2005.第五章第三节)。蔡建山等人在2007年基于滑动窗口提取动态摘要(蔡建山迟呈英战学刚and王丫,基于滑动窗口的动态摘要算法,计算机工程33卷6期2007),但是窗口的初始位置是从每个查询词的开始位置开始的,忽略了查询词前有意义的文字,且实验部分简陋,实验结果难以重现。
发明内容
本发明提供了一种搜索引擎动态摘要提取方法,目的是为解决现有技术中摘要和用户查询相关性与原文档和用户查询相关性之间一致性不高的问题。
为达到上述目的,本发明实施例的技术方案提供一种搜索引擎动态摘要提取方法,所述方法包括以下步骤:获取用户输入的查询词;根据所述查询词,截取摘要候选段落;获取所述候选段落的段权值;选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。
其中,在所述截取摘要候选段落的步骤中,具体包括:从所述查询词在文中的位置开始向两边延伸;根据向前阈值、终结标点集或上一段的结尾,获取所述候选段落的起始位置;根据所述起始位置和候选段落长度的设定值,获取所述候选段落的初始结束位置;根据所述初始结束位置、向前、向后阈值和终结标点集,获取所述候选段落的结束位置。
其中,所述获取候选段落的起始位置的步骤,具体包括:在所述查询词在文中的位置向前延伸的长度大于所述向前阈值时、或找到所述终结标点集中的终结标点时、或达到上一段的结尾时的位置为所述候选段落的起始位置。
其中,所述初始结束位置为所述起始位置和候选段落长度的设定值之和。
其中,所述获取候选段落的结束位置的步骤,具体包括:在所述查询词在文中的位置向后延伸的长度大于所述向后阈值时、或从所述初始结束位置向前、向后调整找到所述终结标点集中的终结标点时的位置为所述候选段落的结束位置。
其中,在所述获取候选段落的段权值的步骤中,具体包括:根据查询词在候选段落中出现的频率获取查询词权值。根据所述查询词的权值和所述查询词在所述候选段落中出现的次数,获取落在所述候选段落中的查询词的权值之和。
其中,在所述获取查询词的权值的步骤中,具体包括:当所述查询词在候选段落中第一次出现时,其权值为C1,当所述查询词在第一次之后在所述候选段落中出现时,其权值为C2;
为某候选段落计算权值时,所有查询词的权值都初始化为C1。
其中,所述C1为1,所述C2为0.01。
其中,在所述选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要的步骤中,还包括:当选择的候选段落的个数小于所述预先设定个数时,扩展所述选择的候选段落,使所述选择的候选段落的长度达到预先设定个数的候选段落的长度。
其中,在所述选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要的步骤中,还包括:当选择的候选段落的个数为0时,以正文的首段话作摘要。
与现有技术相比,本发明的技术方案具有如下优点:
本发明以用户查询词为中心进行摘要候选段落的截取,并根据段权值选择候选段落,将选择的候选段落合并生成摘要,从而提高了摘要和用户查询相关性与原文档和用户查询相关性之间一致性。
附图说明
图1是本发明的一种搜索引擎动态摘要提取方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的一种搜索引擎动态摘要提取方法的流程如图1所示,包括以下步骤:
步骤s101,获取用户输入的查询词。
步骤s102,根据查询词,截取摘要候选段落。首先从所述查询词在文中的位置开始向两边延伸;然后根据向前阈值、终结标点集或上一段的结尾,获取所述候选段落的起始位置,在所述查询词在文中的位置向前延伸的长度大于所述向前阈值时、或找到所述终结标点集中的终结标点时、或达到上一段的结尾时的位置为所述候选段落的起始位置;再根据所述起始位置和候选段落长度的设定值,获取所述候选段落的初始结束位置,所述初始结束位置为所述起始位置和候选段落长度的设定值之和;最后根据所述初始结束位置、向前、向后阈值和终结标点集,获取所述候选段落的结束位置,在所述查询词在文中的位置向后延伸的长度大于所述向后阈值时、或从所述初始结束位置向前向后调整找到所述终结标点集中的终结标点时的位置为所述候选段落的结束位置。
步骤s103,获取候选段落的段权值。首先,获取查询词权值。在候选段落中第一次出现的查询词权值为1,其后再出现权值为0.01。本实施例中取C1为1、C2为0.01;然后根据所述查询词的权值和所述查询词在所述候选段落中出现的次数,获取落在所述候选段落中的查询词的权值之和,即所述候选段落的段权值。
步骤s104,选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。当选择的候选段落的个数小于所述预先设定个数时,扩展所述选择的候选段落,使所述选择的候选段落的长度达到预先设定个数的候选段落的长度;当选择的候选段落的个数为0时,以正文的首段话作摘要。
本发明从形成摘要的基本需求(对用户判断链接价值时所起到的指导性作用)出发,研究动态摘要,实现摘要算法。下面进行具体说明:
1、摘要提取的原则
摘要的意义在于指导用户判断链接价值,因此关于提取原则,主要有两种观点:1)以链接页面文章的大意为中心;2)以用户查询词为中心。前者即“全文摘要”,目的是为展现原文主题,旨在使用户迅速了解原文叙述的中心问题;后者是指依据用户输入查询词提取摘要,在文章中提取出与查询词最相关的部分,旨在使用户迅速了解到原文与查询的相关性如何。这两种提取原则各有优劣,前者浓缩文章,允许修改原文,以保证语句通顺连贯且无冗余;后者直接重现文章中与查询相关的片段。我们选择第二种观点作为提取摘要的核心原则,理由如下:
1)链接页面往往没有一个统一的主题。
2)文章中与查询相关的信息未必是文章主题,但该信息可能很有价值,这样容易产生类型一的误导。
3)观点一易使得不同的查询对于同一个文章产生相同或相近的结果(可以说观点一是一种静态摘要,观点二则是动态的),如此则忽略了不同查询的需求差异,易产生似是而非的效果,导致两种类型的误导。
4)查询词是用户需求的集中体现,以查询词为中心提取摘要更符合用户的需求。
事实上,Tombros等人在1998年以新闻类文档为研究对象验证了以查询为中心的动态摘要相比较以内容为中心的静态摘要,更容易找到相关文档。这也间接说明选取“以查询为中心”的动态提取原则,作为摘要提取原则的合理性。
2摘要提取算法的形式化规则
依据摘要的两种类型的误导情况和提取摘要的原则,我们给出提取摘要的一些便于算法形式化的规则:
1)从原文中提取几段作为摘要候选段落,即不要对原文进行改动,直接从原文截取。段长大致相等,这是为方便算法的实现,同时保证页面显示的美观。
2)合并成摘要的候选段落中应该满足查询词出现的次数最多,且最为丰富。一个查询中通常包含一到多个查询词,候选段落中包含的不同的查询词越多,我们定义为越丰富。我们以查询为中心原则,将与查询“最相关”解析为查询词出现“最多”、“最丰富”。只以“最多”作为“最相关”的解析是不够的,比如“python urlopen用法”这个查询,在一篇文档中查询词“python”出现的次数很可能比“urlopen”多出很多(比如一篇涉及到urlopen的关于python的文档),那么按照“最多”的规则提出的摘要极可能没有“urlopen””这个查询词,结果有可能导致类型一误导。这种现象可以直观的理解为一个查询词出现较多淹没了另一个查询词。从“淹没”的意义上讲“最丰富”比“最多”更为重要。
3)要求摘要段的语句完整。这是针对两种类型的误导而提出的。若是一段话不完整,则表意就会不明确,同时增加用户的阅读负担,很可能导致两种类型的误导。
4)作为摘要的不同段间不要存在交叉。这是保证摘要尽可能多的向用户提供原文信息。交叉的部分占用了摘要的空间,但未向用户提供更多的有效信息,而且重复的内容令用户不满意。
3 摘要提取算法
3.1算法主体框架
根据算法规则,提取摘要算法主体框架由截取摘要候选段落,以及从候选段落中选取内容合并成最终摘要这两部分组成。
第一步截取摘要候选段落。根据以查询为中心的原则提取摘要,段落的截取也以查询为中心。由查询词在正文中的位置开始向两边延伸形成截取段落。根据算法规则3保证语句完整,我们选取带有终结意味的标点(比如句号,分号等)作为延伸截取段落的结束标志。由于规则1对段长提出了大致相等的要求,因此不可以盲目的只以终结标点作为标志,应当设定向前向后延伸的长度阈值。观察发现,用户对一句话开头的完整性要求高于对结尾的完整性要求,这一点也是可以直观理解的。有了完整的开头,即使结尾部分被截断,语句大意也可以通过之前完整的开头部分推断出来,所以对向前延伸的阈值设定的要高些,尽量保证截取段落开头的完整性。
若对每一个落在正文中的查询词都向两边延伸截取段落,那么截取的段落很可能相交,所以对已经落在某段落中的查询词不再做段落截取,只对在已截取段落之外的查询词做段落截取。
第二步选取候选段落合并生成最终摘要。候选段落的选取应遵守规则2。首先为每个查询词给定一个权值,可以根据词频,或者用户日志给出,本实施例中,查询词权值分配方法如下:若查询词在候选段落中第一次出现,其权值为C1,其后每次在该候选段落中出现其权值都为C2。段落权值为落在段中的查询词权值之和。
段落权值采用查询词权值求和的计算方式是以规则2中的“最多”为基础设计的。查询词权值计算方式设计是以规则2的“最丰富”为核心的。在本实施例中,C1取1,C2取0.01,由此按照求和方式计算的段权值一定是x.y的形式(x代表整数部分,y代表小数部分)。本实施例中认为查询词候选段落中出现次数有限,不会超过100,因此最终计算出的段权值x.y的整数部分x就代表了查询词出现的丰富性,小数部分y则代表了查询词出现的数量。如此就可以保证以“最丰富”为核心,同时兼顾“最多”。
3.2算法描述
本发明的一种动态摘要提取算法的伪代码如下:
Algorithm:Finding snippet
Purpose:根据用户输入的查询词以及网页文字内容,形成摘要Precondition:
qwordsPosition        //存储每个查询词在文中的位置,按位置从
小到大排序
qwordsPositionLen     //qwordsPosition的长度
initParaLen           //截取段的大致长度
frontLen                //向前延伸的阈值
backLen                 //向后延伸的阈值
delimSymbol             //终结标点集
paraNum                 //提取段的数量
snippetSet            //摘要
Return:snippet
1.lastParaEnd=-1         //上一段的结束位置
2.i=0
3.loop(i<qwordsPositionLen)
//通过向前阈值、终结标点集、和上一段的结尾得到一段的起始
//当大于阈值或找到终点标点或达到上一段结尾后停止
3.1
paraStart=computeParaStart(qwordPosition[i],frontLen,deliSymbol,
lastParaEnd)
3.2 initParaEnd=paraStart+initParaLen//计算出段初始结束位置
//从段初始结束位置向前向后调整找到终结标点,找到段真正的结束位置
3.3 paraEnd=computeParaEnd(initParaEnd,paraStart,backLen,delimSymbol)
3.4.paraWeight=0  //段权值
//计算每段的权值,扫描之后的查询词,落在截取段中的查询词的权值累加到段权值上
3.5 while qwordsPosition[i]between paraStart and pareEnd
         3.5.1paraWeight+=getWeight(qwordsPosition)
         3.5.2i=i+1
//若未提出paraNum个段落或提出的paraNum个段落中最小的段权值小于当前
//段得到的paraWeight,则将当前段落加入将要提出作为摘要的段落集合中
3.6 judgeAddSinppetSet(paraStart,paraEnd,paraWeight,snippetSet)
3.7 lastParaEnd=paraEnd
4.end loop
5.return snippetSet
在实际实现中paraNum=2,initParaLen=60。公式(1)中常量C1、C2分别取0.1和10。
在实现算法时要注意截断时编码细节。不同的编码可能导致中英文字符占据的bit位数不同。实际实现的做法是将文档转换成unicode编码再做截断。
实现算法时还要注意中英文区别处理的细节问题。由于英文在页面中占据的空间大约为中文的一半,所以在摘要中出现英文时,摘要显得较短,为保持页面美观在提取段落中出现英文时要适当增长段落长度。
注意未提出足够数量段落的处理。在实际实现中paraNum=2。当仅仅提出一个有效段落时,则扩展该段落,使其长度达到原长度的两倍左右;当未提出有效段落时,提出正文的首段话作摘要。
4 实验与结果分析
4.1实验目的与评判标准
实验目的是测试上文算法提取摘要的质量,以验证摘要提取原则和算法规则的可行性。
基于之前对摘要意义的分析,将不误导作为较高质量摘要的标准。误导是一种感性认识,实际上是摘要展现的原文与查询的相关性和原文与查询实际相关性存在差异,我们将这种差异量化,当差异值越小时,代表摘要的质量就越高。
4.2 实验方法
用户针对摘要和查询的相关性给摘要打分,其摘要和查询的相关性与分值的对应关系如表1所示:
表1
 
3分 查询与摘要很相关,阅读摘要后决定打开链接或在摘要中已经发现查找内容                                      
2分 查询与摘要一定相关,阅读摘要后有打开链接的倾向
1分 查询与摘要不太相关,不倾向打开链接
0分 查询与摘要不相关,不会打开链接
用户再针对链接文档和查询的相关性打分,打分方式与摘要相同。而后对比文档得分和摘要得分,得分越相近说明摘要对查询和文档的相关性反映的就越好,摘要质量越高。计算:
&Sigma; ( M d - M s ) 2 N d - - - ( 2 )
其中,Md为文档得分,Ms为摘要得分,Nd为文档数量。
由公式(2)计算出的数值来说明摘要的质量,显然这个计算数值越小,摘要的质量也就越高。
4.3 实验设计与步骤
对于公式(2),我们并不知道什么样的数值能够说明摘要的质量是可接受的,因此在对本发明算法打分并且计算公式(2)的同时,对商业搜索引擎百度的摘要进行打分和计算公式(2)的值。
用户使用百度进行查询,并选取搜索结果中的3到5个摘要进行打分。
对用户选取的搜索结果用本发明算法针对用户查询重新提取摘要,用户再对新的摘要进行打分。
打开搜索结果的链接文档,对文档打分.
计算公式(2)。
4.4 实验结果和说明
查询数:30
链接文档数:150
有效链接:149
本发明算法公式(2)计算结果:0.973
百度摘要公式(2)计算结果:1.033
实验中的用户群为7位北京大学信息科学技术学院四年级本科生。实验中的用户都是对搜索有经验的,但我们认为这样不会对实验结果造成偏差。比如说对于没有搜索经验的用户,使用的查询词未能充分表达用户意图,那么得到查询结果很可能非用户需求,如此用户便会对文档和查询的相关性打分很低,不过这样并不会对摘要评测造成影响,因为只要摘要的质量高,忠实反映查询和原文的相关度,那么摘要的得分也会相应的低,算出的差值小,一样可以反映摘要质量。简单的说我们认为实验最后计算值是一个相对值,消除了用户本身影响。
我们认为用户群体无法对本发明算法产生偏向性。从实验过程来看,用户给本发明算法打分时是不知道文档得分的,那么,对于本发明的算法就无法产生偏向性。
实验中本发明算法和百度都采用相同的数据集,因此,百度的结果对于本发明算法结果是有参照意义的。
实验中的查询全部来自于实验用户平时使用搜索引擎的真实查询。用户并不是为实验而查询,而是在实际中有需求的情况下的查询,我们认为这样的查询更真实。并且用户在有明确需求下对摘要打分,我们认为这样的打分更合理。
关于查询结果中url的选取,基本原则是选取百度查询结果中的第1、2、5、9、10条,目的是为了链接文档和查询的相关性分布尽量平均。从直观理解,第1、2条结果和查询的相关性较大,第5条结果相关性一般,第9、10条结果相关性较低。对于点不开的链接选取其后与其最近的有效链接。
4.5 结果分析
从(2)式的计算结果来看,本发明的算法结果较好,本发明摘要更能反映查询与原文的相关性,相比百度略优6%。但实际上两者之间并没有太强的可比性。原因如下:
1)摘要基于网页正文,百度的正文是过去提取,很可能网页已经发生变化,而本发明算法所基于的正文是实时提取的。
2)实验中对于有些未能抓取的网页和提取正文不正确的网页,采用手动提正文的方式,提取的正文结果质量较高,摘要结果也自然更好。
3)摘要是基于正文提取的,正文是通过去HTML标签和网页去噪等方法从网页原文中提出的,由于提取正文的方法存在差异,导致正文的质量不同,从而使得基于正文质量的摘要质量不存在很强的可比性。
虽然缺乏一定的可比性,但百度的结果是有指导和参考价值的。实验中百度的结果给出了1.033这个值,而鉴于百度是现在最炙手可热的搜索引擎之一,我们可以假设对于百度的摘要用户是可接受的,那么1.033这个值是用户可忍受的差异值。本发明算法所得到的差异值为0.973,在1.033附近,并且单纯从误差角度感性体会,0.973这个差异值也应是可忍受的。所以,我们断言本发明摘要结果是理想的,摘要原则和算法规则是合理的且可行的。
本发明分析了搜索引擎摘要以查询为中心的动态选取原则和以文章内容为中心的静态选取原则的优劣,选取以查询为中心作为搜索引擎摘要的核心的原则。之后基于这个原则提出了形式化算法规则,其中我们将“以查询为中心”解析为关键词出现“最多,最丰富”,并且我们强调摘要段落完整性,我们认为一段话开头的完整性更为重要,必须从关键词开始向前延伸,以保证开头完整性。最后实现算法,且提出了一种摘要评价方法,得到了较理想的效果。而且本发明动态摘要算法已经应用到北京大学校内搜索引擎上。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1、一种搜索引擎动态摘要提取方法,其特征在于,所述方法包括以下步骤:
获取用户输入的查询词;
根据所述查询词,截取摘要候选段落;
获取所述候选段落的段权值;
选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。
2、如权利要求1所述的搜索引擎动态摘要提取方法,其特征在于,在所述截取摘要候选段落的步骤中,具体包括:
从所述查询词在文中的位置开始向两边延伸;
根据向前阈值、终结标点集或上一段的结尾,获取所述候选段落的起始位置;
根据所述起始位置和候选段落长度的设定值,获取所述候选段落的初始结束位置;
根据所述初始结束位置、向前、向后阈值和终结标点集,获取所述候选段落的结束位置。
3、如权利要求2所述的搜索引擎动态摘要提取方法,其特征在于,所述获取候选段落的起始位置的步骤,具体包括:
在所述查询词在文中的位置向前延伸的长度大于所述向前阈值时、或找到所述终结标点集中的终结标点时、或达到上一段的结尾时的位置为所述候选段落的起始位置。
4、如权利要求2或3所述的搜索引擎动态摘要提取方法,其特征在于,所述初始结束位置为所述起始位置和候选段落长度的设定值之和。
5、如权利要求4所述的搜索引擎动态摘要提取方法,其特征在于,所述获取候选段落的结束位置的步骤,具体包括:
在所述查询词在文中的位置向后延伸的长度大于所述向后阈值时、或从所述初始结束位置向前向后调整找到所述终结标点集中的终结标点时的位置为所述候选段落的结束位置。
6、如权利要求1所述的搜索引擎动态摘要提取方法,其特征在于,在所述获取候选段落的段权值的步骤中,具体包括:
根据所述查询词在候选段落中出现的频率获取查询词权值;
根据所述查询词的权值和所述查询词在所述候选段落中出现的次数,获取落在所述候选段落中的查询词的权值之和。
7、如权利要求6所述的搜索引擎动态摘要提取方法,其特征在于,在所述获取查询词的权值的步骤中,具体包括:
当所述查询词在候选段落中第一次出现时,其权值为C1,当所述查询词在第一次之后在所述候选段落中出现时,其权值为C2;
为某候选段落计算权值时,所有查询词的权值都初始化为C1。
8、如权利要求7所述的搜索引擎动态摘要提取方法,其特征在于,所述C1为1,所述C2为0.01。
9、如权利要求1所述的搜索引擎动态摘要提取方法,其特征在于,在所述选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要的步骤中,还包括:
当选择的候选段落的个数小于所述预先设定个数时,扩展所述选择的候选段落,使所述选择的候选段落的长度达到预先设定个数的候选段落的长度。
10、如权利要求1所述的搜索引擎动态摘要提取方法,其特征在于,在所述选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要的步骤中,还包括:
当选择的候选段落的个数为0时,以正文的首段话作摘要。
CN2009100764851A 2009-01-05 2009-01-05 一种搜索引擎动态摘要提取方法 Expired - Fee Related CN101458718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100764851A CN101458718B (zh) 2009-01-05 2009-01-05 一种搜索引擎动态摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100764851A CN101458718B (zh) 2009-01-05 2009-01-05 一种搜索引擎动态摘要提取方法

Publications (2)

Publication Number Publication Date
CN101458718A true CN101458718A (zh) 2009-06-17
CN101458718B CN101458718B (zh) 2010-12-08

Family

ID=40769574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100764851A Expired - Fee Related CN101458718B (zh) 2009-01-05 2009-01-05 一种搜索引擎动态摘要提取方法

Country Status (1)

Country Link
CN (1) CN101458718B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103885959A (zh) * 2012-12-20 2014-06-25 腾讯科技(深圳)有限公司 一种网页书签的生成方法和装置
WO2014114143A1 (en) * 2013-01-23 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN104281629A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 从网页中提取图片的方法、装置及客户端设备
CN104615654A (zh) * 2014-12-30 2015-05-13 中国联合网络通信有限公司广东省分公司 一种文本摘要获取方法及装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN105808566A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于搜索词从网页中提取摘要的方法和装置
CN105808570A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种提供搜索摘要服务的方法和装置
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN106649560A (zh) * 2016-11-03 2017-05-10 中国电子科技集团公司第二十八研究所 一种网页正文抽取方法及装置
CN109189916A (zh) * 2018-08-17 2019-01-11 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN109241079A (zh) * 2018-08-31 2019-01-18 努比亚技术有限公司 问题精确检索的方法、移动终端及计算机存储介质
CN110489543A (zh) * 2019-08-14 2019-11-22 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及***
CN112182451A (zh) * 2020-09-18 2021-01-05 武汉绿色网络信息服务有限责任公司 网页内容摘要生成方法、设备、存储介质及装置
WO2022156446A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备
CN115630144A (zh) * 2022-12-21 2023-01-20 中信证券股份有限公司 一种文档搜索方法、装置及相关设备
WO2023241332A1 (zh) * 2022-06-16 2023-12-21 抖音视界(北京)有限公司 摘要信息生成与搜索结果展示方法、装置、设备和介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102163229B (zh) * 2011-04-13 2013-04-17 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103885959A (zh) * 2012-12-20 2014-06-25 腾讯科技(深圳)有限公司 一种网页书签的生成方法和装置
WO2014114143A1 (en) * 2013-01-23 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
US9454568B2 (en) 2013-01-23 2016-09-27 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
CN104281629A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 从网页中提取图片的方法、装置及客户端设备
CN104281629B (zh) * 2013-07-12 2018-12-21 珠海豹好玩科技有限公司 从网页中提取图片的方法、装置及客户端设备
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN105808570A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种提供搜索摘要服务的方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置
CN104615654B (zh) * 2014-12-30 2017-09-22 中国联合网络通信有限公司广东省分公司 一种文本摘要获取方法及装置
CN104615654A (zh) * 2014-12-30 2015-05-13 中国联合网络通信有限公司广东省分公司 一种文本摘要获取方法及装置
CN105808566A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于搜索词从网页中提取摘要的方法和装置
CN106649560A (zh) * 2016-11-03 2017-05-10 中国电子科技集团公司第二十八研究所 一种网页正文抽取方法及装置
CN106649560B (zh) * 2016-11-03 2019-09-24 中国电子科技集团公司第二十八研究所 一种网页正文抽取方法及装置
CN109189916B (zh) * 2018-08-17 2022-04-22 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN109189916A (zh) * 2018-08-17 2019-01-11 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN109241079A (zh) * 2018-08-31 2019-01-18 努比亚技术有限公司 问题精确检索的方法、移动终端及计算机存储介质
CN110489543A (zh) * 2019-08-14 2019-11-22 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN112182451A (zh) * 2020-09-18 2021-01-05 武汉绿色网络信息服务有限责任公司 网页内容摘要生成方法、设备、存储介质及装置
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及***
WO2022156446A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备
WO2023241332A1 (zh) * 2022-06-16 2023-12-21 抖音视界(北京)有限公司 摘要信息生成与搜索结果展示方法、装置、设备和介质
CN115630144A (zh) * 2022-12-21 2023-01-20 中信证券股份有限公司 一种文档搜索方法、装置及相关设备

Also Published As

Publication number Publication date
CN101458718B (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
CN101458718B (zh) 一种搜索引擎动态摘要提取方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN101868797B (zh) 跨语言搜索
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
US20130218858A1 (en) Automatic face annotation of images contained in media content
US20120036144A1 (en) Information and recommendation device, method, and program
CN102193936A (zh) 一种数据分类的方法及装置
CN104657410A (zh) 基于问题修复链接的方法和***
KR101523450B1 (ko) 관련어 등록 장치, 관련어 등록 방법, 기록 매체 및, 관련어 등록 시스템
CN102073654B (zh) 生成与维护网页内容抽取模板的方法和设备
CN102651012A (zh) 互联网新闻文本之间的转载关系识别方法
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN104199822A (zh) 一种识别搜索对应的需求分类的方法和***
CN104598607A (zh) 推荐搜索短语的方法及***
CN101719167A (zh) 一种可互动的影视搜索方法
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN105164676A (zh) 查询特征和问题
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN103778122A (zh) 搜索方法和***
KR101050013B1 (ko) 대표자의 신뢰도를 이용한 검색 결과 순위화 장치 및 방법
CN104778157A (zh) 一种多文档摘要句的生成方法
CN106934006B (zh) 基于多叉树模型的页面推荐方法及装置
CN108694325B (zh) 指定类型网站的辨别方法和指定类型网站的辨别装置
US20180210890A1 (en) Apparatus and method for providing content map service using story graph of video content and user structure query
CN105677825A (zh) 客户端浏览操作的分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101208

Termination date: 20140105