CN102737017B - 一种提取页面主题的方法和装置 - Google Patents

一种提取页面主题的方法和装置 Download PDF

Info

Publication number
CN102737017B
CN102737017B CN201110080852.2A CN201110080852A CN102737017B CN 102737017 B CN102737017 B CN 102737017B CN 201110080852 A CN201110080852 A CN 201110080852A CN 102737017 B CN102737017 B CN 102737017B
Authority
CN
China
Prior art keywords
word
paragraph
confidence
page
segmentation processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110080852.2A
Other languages
English (en)
Other versions
CN102737017A (zh
Inventor
刘海浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110080852.2A priority Critical patent/CN102737017B/zh
Publication of CN102737017A publication Critical patent/CN102737017A/zh
Application granted granted Critical
Publication of CN102737017B publication Critical patent/CN102737017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种提取页面主题的方法和装置,其中方法包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。通过本发明能够更加准确地确定页面主题段落,减小提取的页面主题与实际页面主题的偏差。

Description

一种提取页面主题的方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种提取页面主题的方法和装置。
【背景技术】
无论是页面搜索中的排序、页面主题词的确定或者其他方面都会涉及到页面主题的获取,例如,在页面搜索的排序中,会将页面主题与query之间相关度越高的排在越前面,页面主题词通常从页面主题中提取,等等。
目前,通常简单地将页面的整个标题段落(title)作为页面主题。但是页面的title中可能存在多个段落,有些段落是页面主题不相关的内容,会造成页面主题的偏移。应用在页面搜索的排序中可能不能够准确地满足用户需求,应用在页面主题词的确定中可能造成确定的页面主题词不能够准确地体现页面主题。
【发明内容】
本发明提供了一种提取页面主题的方法和装置,以便于减小提取的页面主题与实际页面主题的偏差。
具体技术方案如下:
一种提取页面主题的方法,该方法包括:
A、获取页面中表达页面主题的候选段落;
B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;
C、分别计算步骤B之后得到的各段落的置信度;
D、将置信度满足预设的置信度要求的段落作为页面主题段落。
上述步骤A中获取的所述候选段落包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
具体地,步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以所述预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
其中,所述预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。
另外,所述步骤C具体包括:
C1、对所述步骤B之后得到的各段落进行分词处理;
C2、按照公式Dij=α*Sij+β*Pij,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,α和β为预设的加权系数;
C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。在所述步骤C3中,第i个段落的置信度Di可以为:N为第i个段落分词处理后得到的词语数目。
较优地,在所述步骤C或者所述步骤D之前,还包括:
根据预设的站点词典,将所述各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
具体地,步骤D中所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者,
段落的置信度排在所述各段落中的前N个;或者,
段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
更进一步地,该方法还包括分别对所述页面主题段落执行以下步骤:
E、对所述页面主题段落进行分词处理;
F、对分词处理后得到的各词语进行词性标注;
G、对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
H、将分词处理后得到的各词语执行步骤G之后余下的词语确定为所述页面的主题词。
其中,所述将页面类型属性词从分词处理后得到的各词语中过滤掉包括:
如果所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
一种提取页面主题的装置,该装置包括:段落获取单元、分段处理单元、置信度计算单元和主题段落确定单元;
所述段落获取单元,用于获取页面中表达页面主题的候选段落并提供给所述分段处理单元;
所述分段处理单元,用于将不可再分段的候选段落发送给所述置信度计算单元,对可再分段的候选段落进行分段处理后发送给所述置信度计算单元;
所述置信度计算单元,用于计算所述分段处理单元发送来的各段落的置信度;
所述主题段落确定单元,用于根据所述置信度计算单元的计算结果,将置信度满足预设的置信度要求的段落作为页面主题段落。
其中,所述段落获取单元获取的所述候选段落包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
具体地,所述分段处理单元如果确定存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
其中,所述预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。
具体地,所述置信度计算单元可以包括:第一分词子单元、第一计算子单元和第二计算子单元;
所述第一分词子单元,用于对所述分段处理单元发送来的各段落进行分词处理;
所述第一计算子单元,用于按照公式Dij=α*Sij+β*Pij,计算所述第一分词子单元分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在页面中出现的频次,α和β为预设的加权系数;
所述第二计算子单元,用于利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。
其中,所述第二计算子单元按照计算第i个段落的置信度Di,N为第i个段落分词处理后得到的词语数目。
较优地,该装置还包括:第一过滤单元,用于根据预设的站点词典,将所述分段处理单元发送的各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者,
段落的置信度排在所述各段落中的前N个;或者,
段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
更进一步地,该装置还包括:主题词提取单元;
所述主题词提取单元具体包括:第二分词子单元、词性标注子单元、过滤子单元和主题词确定子单元;
所述第二分词子单元,用于对所述页面主题段落进行分词处理;
所述词性标注子单元,用于对分词处理后得到的各词语进行词性标注后发送给所述过滤子单元;
所述过滤子单元,用于对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
所述主题词确定子单元,用于将所述过滤子单元过滤处理后余下的词语确定为所述页面的主题词。
其中,所述过滤子单元如果确定所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
由以上技术方案可以看出,本发明在获取候选段落后,如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;再依据进一步计算出的各段落的置信度,选择满足置信度要求的段落作为页面主题段落。这种对候选段落进行进一步切分且依据置信度选择页面主题段落的方式,能够更加准确地确定页面主题段落,即减小提取的页面主题与实际页面主题的偏差。当提取的页面主题段落应用在页面搜索排序中时,能够更加准确地满足用户需求;应用在页面主题词的确定中时,能够使得页面主题词更加准确地体现页面主题。
【附图说明】
图1为本发明实施例一提供的提取页面主题的方法流程图;
图2为本发明实施例二提供的计算各段落置信度的方法流程图;
图3为本发明实施例三提供的提取页面主题词的方法流程图;
图4为本发明实施例四提供的提取页面主题的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的提取页面主题的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:获取页面中表达页面主题的候选段落。
本步骤中,页面中表达页面主题的候选段落是指那些可能体现页面主题的段落,具体可以包括但不限于以下段落中的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落、标签为preanchor的前链。
例如,对于http://www.22zw.cn/XH/91H53969KX/的页面,从中获取上述为四个段落分别为:
标签为title的页面标题段落,内容为:斗破苍穹最新章节斗破苍穹快眼看书天蚕土豆22中文网。
标签为realtitle的页面标题行,内容为:斗破苍穹。
标签为mypos的导航段落,此页面中没有对应内容。
标签为preanchor的前链,内容为:斗破苍穹最新章节。
步骤102:对上述获取的候选段落中可再分段的候选段落进行分段处理。
本步骤为可选步骤,如果各获选段落均不可再分段,则不执行该步骤。
在确定候选段落是否可再分段时,可以判断各候选段落中是否包含预设类型的符号,如果包含,则认为候选段落可再分段,否则,认为候选段落不可再分段。相应地,在对候选段落进行分段时,采用的分段策略可以是:以预设类型的符号为分隔符进行分段。
其中预设类型的符号可以包括但不限于:标点符号、空格、下划线、斜线、括号。
例如,对于标签为title的页面标题段落,以预设类型的符号为分隔符对其进行分段处理后,可以得到如下四个段落:
title段落1:斗破苍穹最新章节
title段落2:斗破苍穹快眼看书
title段落3:天蚕土豆
title段落4:22中文网
其他候选段落均不可再分段。
步骤103:计算步骤102之后得到的各段落的置信度。
如果某候选段落进行了分段处理,则计算该候选段落进行分段处理后得到的各段落的置信度;如果某候选段落没有进行分段处理,则计算该候选段落的置信度。
各段落的置信度计算方法将在实施例二中具体描述。
在执行步骤103或者步骤104之前,还可以包括一个过滤步骤,即将与站点相关的段落过滤掉。具体可以通过预设的站点词典实现,该站点词典中包含各种站点名称,如果某段落中出现站点词典中内容所占该段落长度的比例达到预设的比例阈值,则将该段落过滤掉。例如,title段落4的内容“22中文网”就是一个站点名称,该站点名称会预先设置在站点词典中,在执行步骤104之前会将该title段落4过滤掉。
步骤104:将置信度满足预设的置信度要求的段落作为页面主题段落(maintitle)。
其中,预设的置信度要求可以为:段落的置信度达到预设的置信度阈值,或者,段落的置信度排在各段落中的前N个,或者,段落的置信度达到预设的置信度阈值且置信度排在各段落中的前N个。N为预设的正整数。
假设经过过滤处理后,各段落的置信度如下:
title段落1:斗破苍穹最新章节               置信度为0.9
title段落2:斗破苍穹快眼看书               置信度为0.7
title段落3:天蚕土豆                       置信度为0.3
标签为realtitle的页面标题行:斗破苍穹      置信度为1.0
标签为preanchor的前链:斗破苍穹最新章节    置信度为0.9
其中,可以选择置信度最高的段落作为maintitle,即选择“斗破苍穹”作为maintitle。也可以考虑不同描述作为页面主题的补充,可以选择多个段落作为maintitle即提取并列maintitle,例如选择置信度在0.9以上且排在前2个的段落,即选择“斗破苍穹”和“斗破苍穹最新章节”作为maintitle。
实施例二、
图2为本发明实施例二提供的计算各段落置信度的方法流程图,如图2所示,该方法可以包括以下步骤:
步骤201:对各段落进行分词处理。
较优地,还可以基于预设的停用词表,对分词处理后得到的各词语进行过滤。其中,停用词表中包含通常网页中出现频次非常高的词语,可以包括但不限于:副词、虚词、语气词、助词、代词等,这些词语通常表意能力很低。
步骤202:按照公式Dij=α*Sij+β*Pij,计算分词处理后得到各词语的置信度。
其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所有段落中出现的频次,Pij为第i个段落分词处理后得到的第j个词语在页面中出现的频次,α和β为预设的加权系数。
如果α不为零,需要利用实施例一中所述步骤102之后得到的段落进行相互验证来得到Sij,即需要统计各词语在步骤102之后得到的所有段落中出现的频次,出现频次越高,词语的置信度越高。
如果β不为零,需要利用词语在页面中的表意能力来得到Pij,即需要统计词语在页面中的出现频次,出现频次越高的,词语的置信度越高。
步骤203:利用各段落中包含的各词语的置信度,分别得到各段落的置信度。
可以将段落中包含的各词语的置信度取均值后,得到段落的置信度,即第i个段落的置信度Di可以为:N为第i个段落分词处理后得到的词语数目。
仍以实施例一中的实例为例,title段落1进行分词处理后得到词语:斗破苍穹、最新、章节。基于预设的停用词表进行过滤时,由于没有包含停用词表中的词语,因此,过滤后仍得到词语:“斗破苍穹”、“最新”、“章节”。按照步骤202中所示公式计算各词语的置信度,其中由于“斗破苍穹”在各段落中出现频次很高,在网页中出现的频次也很高,因此“斗破苍穹”具有较高的置信度。然后将各词语的置信度相加后取均值得到title段落1的置信度。
至此,实施例二所示流程结束。
在利用实施例一所示流程确定出maintitle后,可以用于页面搜索中的排序,即在建立该页面的索引时,对属于该maintitle的词语在索引中进行标注,在进行搜索后,将query中各词语匹配到的索引中,标注了词语属于maintitle的索引对应的页面提高在搜索结果中的排序权值。
另外,实施例所示流程确定出的maintitle也可以用于提取页面主题词(keyword),下面通过实施例三对该过程进行描述。
实施例三、
图3为本发明实施例三提供的提取页面主题词的方法流程图,如图3所示,该方法可以包括以下步骤:
步骤301:对实施例一确定出的maintitle进行分词处理。
如果确定出的页面的maintitle只有一个,则仅针对该maintitle执行该实施例三所示的流程,如果确定出的页面maintitle有多个,则针对各maintitle分别执行该实施例三所示的流程。
步骤302:对分词处理后得到的各词语进行词性标注。
步骤303:基于预设的停用词表对分词处理后得到的各词语进行过滤。
本步骤就是将停用词表所包含的词语从分词处理后得到的各词语中过滤掉。其中,停用词表中包含网页中出现频次非常高的词语,可以包括但不限于:副词、虚词、语气词、助词、代词。
步骤304:对分词处理后得到的各词语过滤掉非独立表意的词语。
在此,非独立表意的词语可以基于词语上下文与该词语组合构成一个词语的概率值确定,如果某个词语与该词语相邻的一个词语组合构成一个词语的概率超过预设的表意阈值,则确定该词语为非独立表意的词语,其应该与其相邻的词语组合构成一个词语。
如果在步骤301中进行分词处理时,采用的是全粒度的分词方式,则会执行步骤304;如果在步骤301中进行分词处理时,已经考虑了其中非独立表意的词语,直接将非独立表意的词语组合构成一个词语,即分词处理后得到的都是独立表意的词语,则不执行本步骤。
步骤305:对分词处理后得到的各词语进行上下位关系的分析,如果存在互为上下位关系的词语,将过滤掉上位的词语。
在进行上下位关系的分析时,基于预先设定的上下位关系词表,在该上下位关系词表中包含了各种词语之间的上下文关系。
如果分词处理后得到的各词语中存在互为上下位关系的词语,由于上位的词语没有下位的词语的表意能力强,且下位的词语通常已经覆盖上位的词语含义,因此,可以将上位的词语过滤掉。
举个例子,如果一个query进行分词处理后,既包含“广东”又包含“广州”,其中“广东”是“广州”上位的词语,因此,可以将上位的词语“广东”过滤掉,保留词语“广州”。
步骤306:对分词处理后得到的各词语过滤掉页面类型属性词。
如果页面具有预设的页面类型,则将该页面的类型属性词过滤掉,如果页面不具有预设的页面类型,则不执行本步骤的过滤。其中,预设的页面类型可以包括但不限于:视频类型、小说类型、音频类型、游戏类型、论坛类型。
例如,如果页面为视频类型,即该页面提供的内容均为视频,对maintitle进行分词处理后得到的词语中包含“视频”,该词语“视频”并不会对该页面的主题存在意义,因此将该词语过滤掉。如果页面为博客页,则词语“视频”就会对该页面的主题存在意义,就不会将该词语过滤掉。
需要说明的是,上述步骤303、步骤304、步骤305和步骤306可以择一执行,也可以以任意组合的形式执行。如果以组合的形式执行,则可以以任意的先后顺序执行。
步骤307:将对分词处理后得到的各词语进行上述过滤后得到的词语确定为该页面的keyword。
下面针对实施例三所示的流程举一个例子,假设maintitle为:今天看了地产三剑客的视频。
如果针对该maintitle进行全粒度的分词处理,得到以下词语:“今天”、“看”、“了”、“地产”、“三”、“剑客”、“的”、“视频”、“三剑客”。进行词性标注后得到:“今天”是名词、“看”是动词、“了”是助词、“地产”是名词、“三”是数词、“的”是助词、“视频”是名词、“三剑客”是名词。
基于停用词表进行过滤,过滤掉“了”、“的”、“看”、“今天”。
过滤掉非独立表意的词语“三”和“剑客”。
如果该maintitle所属的页面为内容页,不属于预设的页面类型,则对该maintitle不进行页面类型属性词的过滤。
最终得到该页面的keyword为:“地产”、“视频”、“三剑客”。
在利用实例三所述方式提取出keyword后,可以对页面中的keyword进行标注,在对搜索结果中的页面进行排序时,如果query命中了某页面的keyword,则可以提高该页面的排序权值,使得搜索结果的排序能够更加满足用户的需求,提高搜索效果。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例四对本发明所提供的装置进行详细描述。
实施例四、
图4为本发明实施例四提供的提取页面主题的装置结构图,如图4所示,该装置可以包括:段落获取单元400、分段处理单元410、置信度计算单元420和主题段落确定单元430。
段落获取单元400,用于获取页面中表达页面主题的候选段落并提供给分段处理单元410。
分段处理单元410,用于将不可再分段的候选段落发送给置信度计算单元420,对可再分段的候选段落进行分段处理后发送给置信度计算单元420。
置信度计算单元420,用于计算分段处理单元410发送来的各段落的置信度。
主题段落确定单元430,用于根据置信度计算单元420的计算结果,将置信度满足预设的置信度要求的段落作为maintitle。
其中,预设的置信度要求可以包括:段落的置信度达到预设的置信度阈值;或者,段落的置信度排在各段落中的前N个;或者,段落的置信度达到预设的置信度阈值且排在各段落中的前N个;其中N为预设的正整数。
段落获取单元400获取的候选段落可以包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
具体地,分段处理单元410如果确定存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以预设类型的符号为分隔符对可再分段的候选段落进行分段处理。确定不包含预设类型的符号的候选段落为不可再分段的候选段落。
上述预设类型的符号可以包括但不限于:标点符号、空格、下划线、斜线或者括号。
上述的置信度计算单元420可以具体包括:第一分词子单元421、第一计算子单元422和第二计算子单元423。
第一分词子单元421,用于对分段处理单元410发送来的各段落进行分词处理。
第一计算子单元422,用于按照公式Dij=α*Sij+β*Pij,计算第一分词子单元421分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在页面中出现的频次,α和β为预设的加权系数。
第二计算子单元423,用于利用各段落中包含的各词语的置信度,分别得到各段落的置信度。
其中,第二计算子单元423可以按照计算第i个段落的置信度Di,N为第i个段落分词处理后得到的词语数目。
更进一步地,该装置还可以包括:第一过滤单元440,用于根据预设的站点词典,将分段处理单元410发送给置信度计算单元420的各段落中出现站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
在利用上述装置确定出maintitle后,可以用于页面搜索中的排序,即在建立页面的索引时,对属于该maintitle的词语在索引中进行标注,在进行搜索后,将query中各词语匹配到的索引中,标注了词语属于maintitle的索引对应的页面提高在搜索结果中的排序权值。
另外,上述装置确定出的maintitle还可以用于提取keyword,此时,该装置还可以包括:主题词提取单元450。
主题词提取单元450可以具体包括:第二分词子单元451、词性标注子单元452、过滤子单元453和主题词确定子单元454。
第二分词子单元451,用于对主题段落确定单元430确定出的maintitle进行分词处理。
词性标注子单元452,用于对分词处理后得到的各词语进行词性标注后发送给过滤子单元453。
过滤子单元453,用于对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
主题词确定子单元454,用于将过滤子单元453过滤处理后余下的词语确定为页面的keyword。
其中,过滤子单元453如果确定页面是预设的页面类型,则可以将页面的类型属性词从分词处理后得到的各词语中过滤掉;其中预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
在利用图4所示装置提取出keyword后,可以用于对页面中的keyword进行标注,在对搜索结果中的页面进行排序时,如果query命中了某页面的keyword,则可以提高该页面的排序权值,使得搜索结果的排序能够更加满足用户的需求,提高搜索效果。
由以上描述可以看出,本发明所提供的方法和装置具备以下优点:
1)本发明采用对候选段落进行进一步切分且依据置信度选择页面主题段落的方式,能够更加准确地确定页面主题段落,即减小提取的页面主题与实际页面主题的偏差。
2)在提取页面主题段落时,可以灵活设置置信度要求,从而提取出并列maintitle,以不同的描述作为页面主题的补充。
3)将提取的页面主题段落应用于页面搜索的排序时,能够更加准确地满足用户的需求,提升用户体验。
4)将提取的页面主题段落进一步应用于页面主题词的提取时,能够使得页面主题词更加准确地体现页面主题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种提取页面主题的方法,其特征在于,该方法包括:
A、获取页面中表达页面主题的候选段落;
B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;
C、分别计算步骤B之后得到的各段落的置信度;
D、将置信度满足预设的置信度要求的段落作为页面主题段落;其中,
所述步骤C具体包括:
C1、对所述步骤B之后得到的各段落进行分词处理;
C2、按照公式Dij=α*Sij+β*Pij,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,α和β为预设的加权系数;
C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度;其中,第i个段落的置信度Di可以为:N为第i个段落分词处理后得到的词语数目。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中获取的所述候选段落包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
3.根据权利要求1所述的方法,其特征在于,所述步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以所述预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
4.根据权利要求3所述的方法,其特征在于,所述预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。
5.根据权利要求1所述的方法,其特征在于,在所述步骤C或者所述步骤D之前,还包括:
根据预设的站点词典,将所述各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
6.根据权利要求1所述的方法,其特征在于,步骤D中所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者,
段落的置信度排在所述各段落中的前N个;或者,
段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
7.根据权利要求1至6任一权项所述的方法,其特征在于,该方法还包括分别对所述页面主题段落执行以下步骤:
E、对所述页面主题段落进行分词处理;
F、对分词处理后得到的各词语进行词性标注;
G、对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
H、将分词处理后得到的各词语执行步骤G之后余下的词语确定为所述页面的主题词。
8.根据权利要求7所述的方法,其特征在于,所述将页面类型属性词从分词处理后得到的各词语中过滤掉包括:
如果所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
9.一种提取页面主题的装置,其特征在于,该装置包括:段落获取单元、分段处理单元、置信度计算单元和主题段落确定单元;
所述段落获取单元,用于获取页面中表达页面主题的候选段落并提供给所述分段处理单元;
所述分段处理单元,用于将不可再分段的候选段落发送给所述置信度计算单元,对可再分段的候选段落进行分段处理后发送给所述置信度计算单元;
所述置信度计算单元,用于计算所述分段处理单元发送来的各段落的置信度;
所述主题段落确定单元,用于根据所述置信度计算单元的计算结果,将置信度满足预设的置信度要求的段落作为页面主题段落;其中,
所述置信度计算单元具体包括:第一分词子单元、第一计算子单元和第二计算子单元;
所述第一分词子单元,用于对所述分段处理单元发送来的各段落进行分词处理;
所述第一计算子单元,用于按照公式Dij=α*Sij+β*Pij,计算所述第一分词子单元分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在页面中出现的频次,α和β为预设的加权系数;
所述第二计算子单元,用于利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度;其中,所述第二计算子单元按照计算第i个段落的置信度Di,N为第i个段落分词处理后得到的词语数目。
10.根据权利要求9所述的装置,其特征在于,所述段落获取单元获取的所述候选段落包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
11.根据权利要求9所述的装置,其特征在于,所述分段处理单元如果确定存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
12.根据权利要求11所述的装置,其特征在于,所述预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。
13.根据权利要求9所述的装置,其特征在于,该装置还包括:第一过滤单元,用于根据预设的站点词典,将所述分段处理单元发送的各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
14.根据权利要求9所述的装置,其特征在于,所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者,
段落的置信度排在所述各段落中的前N个;或者,
段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
15.根据权利要求9至14任一权项所述的装置,其特征在于,该装置还包括:主题词提取单元;
所述主题词提取单元具体包括:第二分词子单元、词性标注子单元、过滤子单元和主题词确定子单元;
所述第二分词子单元,用于对所述页面主题段落进行分词处理;
所述词性标注子单元,用于对分词处理后得到的各词语进行词性标注后发送给所述过滤子单元;
所述过滤子单元,用于对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
所述主题词确定子单元,用于将所述过滤子单元过滤处理后余下的词语确定为所述页面的主题词。
16.根据权利要求15所述的装置,其特征在于,所述过滤子单元如果确定所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
CN201110080852.2A 2011-03-31 2011-03-31 一种提取页面主题的方法和装置 Active CN102737017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110080852.2A CN102737017B (zh) 2011-03-31 2011-03-31 一种提取页面主题的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110080852.2A CN102737017B (zh) 2011-03-31 2011-03-31 一种提取页面主题的方法和装置

Publications (2)

Publication Number Publication Date
CN102737017A CN102737017A (zh) 2012-10-17
CN102737017B true CN102737017B (zh) 2015-03-11

Family

ID=46992542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110080852.2A Active CN102737017B (zh) 2011-03-31 2011-03-31 一种提取页面主题的方法和装置

Country Status (1)

Country Link
CN (1) CN102737017B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383697B (zh) * 2013-06-26 2017-02-15 百度在线网络技术(北京)有限公司 确定对象标题的对象表征信息的方法与设备
CN104572927B (zh) * 2014-12-29 2016-06-29 北京奇虎科技有限公司 一种从单页面中提取小说名称的方法和装置
CN105320734B (zh) * 2015-07-14 2019-02-22 中国互联网络信息中心 一种网页核心内容提取方法
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和***
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
CN100595753C (zh) * 2007-05-29 2010-03-24 阿里巴巴集团控股有限公司 一种文本主题推荐方法和装置
CN101464898B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种提取文本主题词的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和***
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Also Published As

Publication number Publication date
CN102737017A (zh) 2012-10-17

Similar Documents

Publication Publication Date Title
CN101944109B (zh) 一种基于页面分块的图片摘要提取***及方法
CN102360383B (zh) 一种面向文本的领域术语与术语关系抽取方法
CN104598577B (zh) 一种网页正文的提取方法
Sun et al. Dom based content extraction via text density
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN104881458B (zh) 一种网页主题的标注方法和装置
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN108959383A (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
WO2019136841A1 (zh) 直播间内容标签提取方法、存储介质、电子设备及***
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
US20090276378A1 (en) System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing
CN102135967A (zh) 网页关键词提取方法、装置及***
CN103399901A (zh) 一种关键词抽取方法
CN103198057A (zh) 一种自动给文档添加标签的方法和装置
CN101251855A (zh) 一种互联网网页清洗方法、***及设备
CN102144229A (zh) 用于从具有文本段的文档中提取术语的***
CN106294314A (zh) 主题挖掘方法及装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN102737017B (zh) 一种提取页面主题的方法和装置
CN109634436A (zh) 输入法的联想方法、装置、设备及可读存储介质
CN104360993A (zh) 一种从文本提取所需内容的方法
CN108021667A (zh) 一种文本分类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant