CN104346405B - 一种从网页中抽取信息的方法及装置 - Google Patents

一种从网页中抽取信息的方法及装置 Download PDF

Info

Publication number
CN104346405B
CN104346405B CN201310344292.6A CN201310344292A CN104346405B CN 104346405 B CN104346405 B CN 104346405B CN 201310344292 A CN201310344292 A CN 201310344292A CN 104346405 B CN104346405 B CN 104346405B
Authority
CN
China
Prior art keywords
label
node
region
original point
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310344292.6A
Other languages
English (en)
Other versions
CN104346405A (zh
Inventor
谢宣松
耿小亮
孙健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310344292.6A priority Critical patent/CN104346405B/zh
Publication of CN104346405A publication Critical patent/CN104346405A/zh
Application granted granted Critical
Publication of CN104346405B publication Critical patent/CN104346405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种从网页中抽取信息的方法和装置,包括:对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;选择得分高的一个或多个区域,并输出所选择区域中标签的值。本申请能够提高从网页等树状文本结构中抽取特定信息的准确度。

Description

一种从网页中抽取信息的方法及装置
技术领域
本发明涉及互联网领域,尤其涉及一种从网页中抽取信息的方法及装置。
背景技术
从原始数据来源抽取结构化数据是一种基础性技术。而网页则是最普遍的原始数据来源。在网页中进行结构化数据的抽取与在纯文本信息中进行结构化数据的抽取有比较大的区别。一方面,在网页中进行抽取时,由于网页所使用的不是规范的文本语法,因此规范的文本语法不适用,网页结构千差万别,噪声非常多。另一方面,从网页中进行结构化数据的抽取时的抽取目标也多样化,有单独的节点,有链状的节点串(如导航条),也有成块的区域(如表格)。目前,从网页中进行结构化数据的抽取一般使用基于规则的方法。抽取对象是比较规范的表格、名值对(如属性名和属性值)以及记录列表。抽取方法比较分散独立,或只利用目标节点近范围的信息。
现有的一种从网页中抽取对象属性值信息的方案提供了一种从网页中抽取对象属性值信息的方法,其步骤为:a)对于一个给定网页,得到与该给定网页对应的DOM(文档对象模型)树,并计算DOM树中的每个DOM节点的相关信息;b)根据DOM树和每个DOM节点的相关信息,构造一个带标签节点图,并且计算每个带标签节点的分数;c)基于带标签节点的分数,从得到的带标签节点图选择带标签节点树;d)基于选中的带标签节点树构造属性值树。该现有方案的缺点是:
仅适合于集中的属性值对的抽取;
没有利用不同种类标签来决定区域,从而在区域中提高抽取精度;
对节点本身的特征使用过于单调,强调字面特征;
没有***地通过影响传递效应来得到受上下文影响的结果。
发明内容
本申请要解决的技术问题是如何提高从网页等树状文本结构中抽取特定信息的准确度。
为了解决上述问题,本申请提供了一种从网页中抽取信息的方法,包括:
对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;
分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;
对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;
选择得分高的一个或多个区域,并输出所选择区域中标签的值。
可选地,选择得分高的一个或多个区域的步骤前还包括:
对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树中目标标签总数的比值,得到该区域的共现分;
将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;
分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后进行选择得分高的一个或多个区域的步骤。
可选地,分别根据各节点每个特征的值在各标签中对应的分值,得到各节点上各标签的原始分的步骤包括:
对于各节点分别进行下述操作:
获取该节点每个特征的值;
对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值,将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
可选地,对各节点上各标签的原始分进行衰减的步骤包括:
对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤包括:
在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
可选地,对各节点上各标签的原始分进行衰减的步骤包括:
对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤包括:
将各子树的根节点所收到的不同标签衰减后的原始分分别相加,将结果作为该根节点中相应标签的传递分。
可选地,选择得分高的一个或多个区域,并输出所选择区域中标签的原始分的步骤包括:
将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
如果候选节点是其它候选节点的祖先节点,则只保留作为孩子节点的候选节点;
在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;
选取该候选标签所在的节点作为最终节点;
根据最终节点对应的网页内容,输出候选标签的值。
本申请还提供了一种从网页中抽取信息的装置,包括:
标记单元,用于对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;
原始分计算单元,用于分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;
传递单元,用于对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;
区域分计算单元,用于分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;
输出单元,用于选择得分高的一个或多个区域,并输出所选择区域中标签的值。
可选地,所述的装置还包括:
区域分修正单元,用于从区域分计算单元得到各区域的得分;对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树目标标签总数的比值,得到该区域的共现分;将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后将各区域最终的得分发送给所述输出单元。
可选地,原始分计算单元分别根据各节点每个特征的值在各标签中对应的分值,得到各节点上各标签的原始分是指:
原始分计算单元对于各节点分别进行下述操作:获取该节点每个特征的值;对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值,将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
可选地,传递单元对各节点上各标签的原始分进行衰减是指:
所述传递单元对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分;
区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
可选地,传递单元对各节点上各标签的原始分进行衰减是指:
传递单元对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分;
区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元将各子树的根节点所收到的不同标签衰减后的原始分按分别相加,将结果作为该根节点中相应标签的传递分。
可选地,所述输出单元包括:
区域排序模块,用于将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
筛选模块,用于当候选节点是其它候选节点的祖先节点时,只保留作为孩子节点的候选节点;
标签排序模块,用于在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;
选择模块,用于选取该候选标签所在的节点作为最终节点;
输出模块,用于根据最终节点对应的网页内容,输出候选标签的值。
本申请的至少一个实施例利用标签的多种特征共同决定原始分,能够通过影响传递来反映上下文结果,可得到较为准确的结果,既适合集中的属性值对抽取,又适合相对分散的标签的抽取,还可用于列表项的抽取。本申请的一个优化方案利用多种标签共同选定区域后,再从区域中选择更为精准的结果。本申请的又一个优化方案引入了区域的共现分和结构分,从而能够对区域分进行修正,得到更为精准的结果。当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有优点。
附图说明
图1为实施例一的从网页中抽取信息的方法的流程示意图;
图2为实施例一中一个扩展的抽取树的示意图;
图3为实施例一中带有标签的节点的示意图。
具体实施方式
下面将结合附图及实施例对本申请的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一,一种从网页中抽取信息的方法,如图1所示,包括步骤S101-S105。
S101、对于输入的网页,在该网页对应的DOM树中,分别为每个节点添加预定标签集合中的各标签。
S102、分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分。S103、对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点。
S104、分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分。
S105、选择得分高的一或多个区域,并输出所选择区域中标签的值。
本实施例中会将节点中标签的得分传递到子树的根节点,相加后作为子树所对应的区域的得分以选择区域,因此对于网页中标签的值较为分散的区域,其得分也有可能因为该区域中节点较多而较高,因此本实施例不会只选中标签的值集中的区域,也有可能选中标签的值分散在多个节点上的区域。
本实施例中,在输入单个网页后,步骤S101中会在DOM树的基础上,将每个子树作为一个区域,并为每个节点(Node)添加标签,从而建立扩展的抽取树。所述标签(Label)表示一种有抽取目标意义的标志信息,如产品信息页面中的产品价格、产品标题等。一个节点可以有一个或多个标签。
一个扩展的抽取树的例子如图2所示,根节点为节点200。以节点210作为根节点的子树为区域11,包含根节点210和孩子节点211。以节点220作为根节点的子树为区域12,包含根节点220、孩子节点221、孩子节点222和孩子节点2221。以节点222作为根节点的子树也可以作为一个区域,包括根节点222和孩子节点2221。各区域可看成是网页中的一块。其中,每个节点如图3所示,包括一个或多个标签31-36。
本实施例的一种实施方式中,所述网页为产品信息页面,所述预定标签集合可以但不限于包括用于嵌套或显示以下任一种或任几种信息的标签:标题(Title)、产品价格(Price)、产品图片(Image)、品牌(brand)产品的各项属性对应的属性值对(AttrPairs)等。由于区域的得分为各标签的传递分之和,因此网页中包含多个标签的区域,与只有孤立的一个标签的区域相比,有可能更容易被选中;这样本实施例的选择结果将不仅仅包含“只有一个得分很高的标签的区域”,还有可能包含“具有多个标签的区域”,这样在抽取时不会忽略掉具有多种标签的区域,因此提高了抽取的精度。本实施例的一种实施方式中,节点预定的特征可以但不限于包括以下任一个或任几个:
节点类型(Type):即网页HTML标签类型;
字面特征(Text):即网页中可见字符;
属性特征(Attribute):即网页中HTML标签的属性值列表;
结构特征(Structure):节点与前后左右相关节点构成的局部结构,或者文本特定结构;
视觉特征(Vision):如字符的字体、颜色以及在整个页面布局中的位置;
其它特征(Other):如事件特征等其它用户自定义的特征。
通过增加预定特征的种类,可避免只依赖于字面特征而导致的抽取精度不高的问题。
其中,节点预定的特征的值在各标签中对应的分值可以表示特征的值和该标签的相关程度。所述分值可以由***预先设定,也可以通过统计方式确定特征的值和该标签的相关程度,将所述相关程度作为所述分值。
同一个特征相同的值在不同标签中对应的分值可以是不一样的,也不排除分值相同的情况。比如一个节点字面特征的值是“低价”,与价格标签的相关度较高,在“价格”标签中的分值可为0.8;而与“图片”标签的相关度较低,在“图片”标签中的分值则可为﹣0.5。
同一个特征不同的值在一个标签中对应的分值可以是不一样的,也不排除分值相同的情况。如果一个节点中所有预定的特征的值在一个标签中都没有对应的分值,则从该节点中删除该标签。
本实施例的一种实施方式中,步骤S102具体可以包括:
对于各节点分别进行下述操作:
获取该节点每个预定的特征的值;
对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值,将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
不同标签中特征的权重可以不同,也不排除相同的情况。假设有价格、品牌两个标签,预定的特征包括节点类型和字面特征这两个,且价格标签中节点类型为A时对应于分值5,字面特征为b时对应于分值9;品牌标签中节点类型为A时对应于分值﹣7,字面特征为b时对应于分值﹣1;如果某个节点的节点类型为A,字面特征为b,且价格标签中节点类型权重为R1,字面特征权重为R2,则在该节点中价格标签的原始分为5×R1+9×R2;品牌标签中节点类型权重为R3,字面特征权重为R4,则品牌标签的原始分为﹣7×R3+(﹣1)×R4。
本实施方式的一种备选方案中,将各标签中字面特征和属性特征的权重设置的高于其它特征。
本实施方式的一个备选方案中,为了实现方法的普适性,得到最大的召回结果集,标签中分值与特征的值相对应时尽量采用比较宽松的对应规则,如字面特征的值选择短字/词且语义单元较大的文本,如选择特征的值“价”与分值对应,而不是选择“价格”或“市场价格”与分值对应。为提高对应的效率,与分值相对应的特征的值可尽量少用正则表达式而代以几段文本,如采用“ori”、“price”与分值对应,而不是用“originalprice”与分值对应。
该实施方式的一个备选方案中,各标签中的分值可以使用粗离散值,以避免分值设置的随意化和碎片化,比如可以将分值统一设置为如下6种:
strong-reward:强奖励分,如0.8;
strong-punish:强惩罚分,如﹣0.8;
moderate-reward:中等奖励分,如0.5;
moderate-punish:中等惩罚分,如﹣0.5;
weak-reward:弱奖励分,如0.2;
weak-punish:弱惩罚分,如﹣0.2。
步骤S103中,对各节点上每个标签的原始分进行衰减的基本规则可以是:离传递者越近,影响越大,因此按树的深度从底往上影响衰减,衰减函数可以按实际情况选择。
本实施例的一种实施方式中,步骤S103中,对各节点上各标签的原始分进行衰减的步骤具体可以包括:
对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS);
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分。根节点的深度为0,其它节点的深度为该节点的父节点的深度加1,以此类推。比如当从图2中的节点2221传递衰减后的原始分到节点220时,Dd为节点220的深度:1,Ds为节点2221的深度:3。
该备选方案中,分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤具体可以包括:
在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
该实施方式称为最大值传递,是指祖先节点中一个标签的传递分为所有传递到该祖先节点的该标签衰减后的原始分中的最大值,每种标签的原始分往上传递时采用线性衰减的方式;祖先节点中一个标签的传递分S’=max(SL0,SL1,……,SLn-1),其中SLi(0≤i≤n-1,n为传递到祖先节点的、该标签衰减后的原始分的个数)是指孩子节点按线性衰减传递过来的该标签的原始分。
本实施例的一种实施方式中,步骤S103中,对各节点上各标签的原始分进行衰减的步骤具体可以包括:
对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分。根节点的深度为0,其它节点的深度为该节点的父节点的深度加1;以此类推。
该备选方案中,分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤具体可以包括:
将各子树的根节点所收到的不同标签衰减后的原始分分别相加,将结果作为该根节点中相应标签的传递分。
该实施方式称为可累加传递,是指祖先节点中一个标签的分值为所有传递到该祖先节点的该标签衰减后的原始分之和;一般每种标签往上传递时采用指数衰减的方式,祖先节点中一个标签的传递分S’=sum(SQ0,SQ1,……,SQn-1);其中SQi(0≤i≤n-1,n为传递到祖先节点的、该标签衰减后的原始分的个数)是指孩子节点按指数衰减传递过来的该标签的原始分。
本实施例的一种实施方式中,步骤S105前还可以包括:
对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树中目标标签总数的比值,得到该区域的共现分;
将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;
分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后进行选择得分高的一个或多个区域的步骤。
本实施方式中,计算结构分和最终的得分时各项的权重可根据需要设置。
共现分是用于评测目标标签是否都出现在该区域中的指标,出现的越多,共现分越高。一个区域的共现分CoocScore=Z×Nfound/Ntarget;Z为步骤S104中该区域的得分;Nfound为该区域中存在的目标标签数,Ntarget为目标标签的总数。目标标签可根据需要事先设置,比如当要提取有关价格的信息时,将价格标签设置为目标标签;另外还可以根据不同标签的重要程度自定义缺少某种标签的减分情况。
一般来说,有两大类的区域,一种区域中包含多种标签,每种只有一个最终节点,如关键区域包含价格、标题、主图等;另一种区域中包含单种标签,但有多个节点,如属性区域只包含多个具有属性值对标签的节点。对包含多种标签的区域而言,最大的区域可以得到一个极值分:孩子节点往上传递标签的原始分时衰减,但是标签种类增加会增加该区域的得分,因此当区域刚好包含所有的目标标签时,该区域的得分会达到一个极值点,该区域即所要提取信息的区域。
在计算结构分时,每个节点有一个预先分配的位置值,比如一个网页一共有1000个节点,则依次将位置值赋予每个节点,密度和距离都以这个来计算;比如对于图2中的DOM树,根节点200的位置值为1,节点210、220、230的位置值为2,节点211、221、222的位置值为3,节点2221的位置值为4。所述目标节点可根据需要事先设置。
该实施方式中,还可以当存在孤立点时,对所述最终的得分进行减分;孤立点是指区域内部位置值与上述均值之差大于预定阈值的点;一个区域中可能有也可能没有孤立点。
本实施例的一种实施方式中,步骤S106具体可以包括:
将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
如果候选节点是其它候选节点的祖先节点,则只保留作为孩子节点的候选节点;
在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;不同候选节点作为根节点的子树中,所选出的候选标签可能不同;
选取该候选标签所在的节点作为最终节点;其它实施方式中,也可以根据不同标签的要求,在候选节点本身或孩子节点中选择最终节点;
根据最终节点对应的网页内容,输出候选标签的值。
比如对于一个候选节点上的标签“价格”,在该候选节点对应的网页内容中获取该标签的值“20”并输出。输出的值可能需要归一化,或者需要前后节点的值来丰富。输出值的文本归一化是指依赖预先指定的规则(如移除空格、黑名单关键词、某些指定的符号)等进行归一;也可以根据标签类型和所依附的节点的值来丰富,如某个价格标签,选中的值为10,前一个节点为货币符号,后一个为单位,则可以合并值。
实施例二,一种从网页中抽取信息的装置,包括:
标记单元,用于对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;
原始分计算单元,用于分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;
传递单元,用于对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;
区域分计算单元,用于分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;
输出单元,用于选择得分高的一个或多个区域,并输出所选择区域中标签的值。
本实施例的一种实施方式中,所述装置还可以包括:
区域分修正单元,用于从区域分计算单元得到各区域的得分;对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树目标标签总数的比值,得到该区域的共现分;将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后将各区域最终的得分发送给所述输出单元。
本实施例的一种实施方式中,原始分计算单元分别根据各节点每个特征的值在各标签中对应的分值,得到各节点上各标签的原始分可以是指:
原始分计算单元对于各节点分别进行下述操作:获取该节点每个特征的值;对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值;将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
本实施例的一种实施方式中,传递单元对各节点上各标签的原始分进行衰减可以是指:
所述传递单元对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分;
相应地,区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
本实施例的一种实施方式中,传递单元对各节点上各标签的原始分进行衰减可以是指:
传递单元对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分;
相应地,区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元将各子树的根节点所收到的不同标签衰减后的原始分按分别相加,将结果作为该根节点中相应标签的传递分。
本实施例的一种实施方式中,所述输出单元具体可以包括:
区域排序模块,用于将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
筛选模块,用于当候选节点是其它候选节点的祖先节点时,只保留作为孩子节点的候选节点;
标签排序模块,用于在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;
选择模块,用于选取该候选标签所在的节点作为最终节点;
输出模块,用于根据最终节点对应的网页内容,输出候选标签的值。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
当然,本申请还可有其他多种实施例,在不背离本申请精神及其实质的情况下,熟悉本领域的技术人员当可根据本申请作出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请的权利要求的保护范围。

Claims (12)

1.一种从网页中抽取信息的方法,包括:
对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;
分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;
对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;其中,对各节点上各标签的原始分进行衰减时的规则为:该节点离所在子树的根节点越近,原始分衰减幅度越少;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;
选择得分高的一个或多个区域,并输出所选择区域中标签的值。
2.如权利要求1所述的方法,其特征在于,选择得分高的一个或多个区域的步骤前还包括:
对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树中目标标签总数的比值,得到该区域的共现分;
将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;
分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后进行选择得分高的一个或多个区域的步骤。
3.如权利要求1所述的方法,其特征在于,分别根据各节点每个特征的值在各标签中对应的分值,得到各节点上各标签的原始分的步骤包括:
对于各节点分别进行下述操作:
获取该节点每个特征的值;
对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值,将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
4.如权利要求1所述的方法,其特征在于,对各节点上各标签的原始分进行衰减的步骤包括:
对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤包括:
在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
5.如权利要求1所述的方法,其特征在于,对各节点上各标签的原始分进行衰减的步骤包括:
对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分;
分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分的步骤包括:
将各子树的根节点所收到的不同标签衰减后的原始分分别相加,将结果作为该根节点中相应标签的传递分。
6.如权利要求1所述的方法,其特征在于,选择得分高的一个或多个区域,并输出所选择区域中标签的值的步骤包括:
将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
如果候选节点是其它候选节点的祖先节点,则只保留作为孩子节点的候选节点;
在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;
选取该候选标签所在的节点作为最终节点;
根据最终节点对应的网页内容,输出候选标签的值。
7.一种从网页中抽取信息的装置,其特征在于,包括:
标记单元,用于对于输入的网页,在该网页对应的文档对象模型树中,分别为每个节点添加预定标签集合中的各标签;
原始分计算单元,用于分别根据各节点每个预定的特征的值在各标签中对应的分值,得到各节点上各标签的原始分;
传递单元,用于对各节点上各标签的原始分进行衰减后传递给该节点所在子树的根节点;其中,对各节点上各标签的原始分进行衰减时的规则为:该节点离所在子树的根节点越近,原始分衰减幅度越少;
区域分计算单元,用于分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分,将每个标签的传递分之和作为该子树所表示的区域的得分;
输出单元,用于选择得分高的一个或多个区域,并输出所选择区域中标签的值。
8.如权利要求7所述的装置,其特征在于,还包括:
区域分修正单元,用于从区域分计算单元得到各区域的得分;对于各区域,分别用该区域的得分乘以该区域中存在的目标标签数与文档对象模型树目标标签总数的比值,得到该区域的共现分;将各目标节点的位置值相加再除以网页中总的节点数得到均值;对于各区域,分别将该区域中各个节点的位置值与均值之差绝对值的总和除以该区域中总的节点数,得到该区域的密度;计算该区域所对应的子树的根节点的位置值与文档对象模型树的根节点位置值之差的绝对值,得到该区域的距离,对该区域的密度和距离进行加权求和,得到该区域的结构分;分别根据各区域的共现分和结构分加权求和得到各区域最终的得分;然后将各区域最终的得分发送给所述输出单元。
9.如权利要求7所述的装置,其特征在于,原始分计算单元分别根据各节点每个特征的值在各标签中对应的分值,得到各节点上各标签的原始分是指:
原始分计算单元对于各节点分别进行下述操作:获取该节点每个特征的值;对于该节点上的各标签,分别查询各特征的值在该标签中对应的分值,将查询到的分值分别乘以该标签中相应特征的权重后相加,将相加结果作为该节点上该标签的原始分。
10.如权利要求7所述的装置,其特征在于,传递单元对各节点上各标签的原始分进行衰减是指:
所述传递单元对标签的原始分进行线性衰减,得到衰减结果SL为:
SL=S×((1-k1)+k1Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k1为线性传递衰减指数,取值范围(0,1),S为原始分;
区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元在各子树的根节点所收到的各标签衰减后的原始分中,分别为各标签选出一个最大的衰减后的原始分,作为该根节点中该标签的传递分。
11.如权利要求7所述的装置,其特征在于,传递单元对各节点上各标签的原始分进行衰减是指:
传递单元对标签的原始分进行指数衰减,得到衰减结果SQ为:
SQ=S×((1-k2)+k2Dd/DS)
其中,Dd为传递中目的节点的深度,Ds为传递中源节点的深度;k2为指数传递衰减指数,取值范围(0,1),S为原始分;
区域分计算单元分别根据各子树的根节点所收到的衰减后的原始分,确定该根节点上每个标签的传递分是指:
区域分计算单元将各子树的根节点所收到的不同标签衰减后的原始分按分别相加,将结果作为该根节点中相应标签的传递分。
12.如权利要求7所述的装置,其特征在于,所述输出单元包括:
区域排序模块,用于将所述文档对象模型树中所有的区域根据得分进行排序,按照从高到低的顺序选取前x个区域,将所选取区域对应的子树的根节点作为候选节点;x为预设的正整数;
筛选模块,用于当候选节点是其它候选节点的祖先节点时,只保留作为孩子节点的候选节点;
标签排序模块,用于在各候选节点作为根节点的子树中,分别按照标签的原始分对各标签进行排序,并选择原始分最高的标签作为候选标签;
选择模块,用于选取该候选标签所在的节点作为最终节点;
输出模块,用于根据最终节点对应的网页内容,输出候选标签的值。
CN201310344292.6A 2013-08-08 2013-08-08 一种从网页中抽取信息的方法及装置 Active CN104346405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310344292.6A CN104346405B (zh) 2013-08-08 2013-08-08 一种从网页中抽取信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344292.6A CN104346405B (zh) 2013-08-08 2013-08-08 一种从网页中抽取信息的方法及装置

Publications (2)

Publication Number Publication Date
CN104346405A CN104346405A (zh) 2015-02-11
CN104346405B true CN104346405B (zh) 2018-05-22

Family

ID=52502018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344292.6A Active CN104346405B (zh) 2013-08-08 2013-08-08 一种从网页中抽取信息的方法及装置

Country Status (1)

Country Link
CN (1) CN104346405B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630772B (zh) * 2016-01-26 2018-10-12 广东工业大学 一种网页评论内容的抽取方法
CN106095854B (zh) * 2016-06-02 2022-05-17 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN107741942B (zh) * 2016-12-09 2020-06-02 腾讯科技(深圳)有限公司 一种网页内容提取方法及装置
WO2018103540A1 (zh) 2016-12-09 2018-06-14 腾讯科技(深圳)有限公司 网页内容提取方法、装置、存储介质
CN109635219A (zh) * 2018-12-05 2019-04-16 云孚科技(北京)有限公司 一种网页内容提取方法
CN113626028B (zh) * 2020-05-07 2024-06-14 腾讯科技(深圳)有限公司 一种页面元素的映射方法及装置
CN114528811B (zh) * 2022-01-21 2022-09-02 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及***
CN102591931A (zh) * 2011-12-23 2012-07-18 浙江大学 基于树权值的网页数据记录识别和抽取方法
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552116B2 (en) * 2004-08-06 2009-06-23 The Board Of Trustees Of The University Of Illinois Method and system for extracting web query interfaces
US7814084B2 (en) * 2007-03-21 2010-10-12 Schmap Inc. Contact information capture and link redirection
JP2011003182A (ja) * 2009-05-19 2011-01-06 Studio Ousia Inc キーワード表示方法およびそのシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及***
CN102591931A (zh) * 2011-12-23 2012-07-18 浙江大学 基于树权值的网页数据记录识别和抽取方法
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法

Also Published As

Publication number Publication date
CN104346405A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346405B (zh) 一种从网页中抽取信息的方法及装置
US8244773B2 (en) Keyword output apparatus and method
US20190147010A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
US20060161531A1 (en) Method and system for information extraction
CN105426514A (zh) 个性化的移动应用app推荐方法
CN103020295B (zh) 一种问题标签标注方法及装置
CN104598462B (zh) 提取结构化数据的方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN103617213B (zh) 识别新闻网页属性特征的方法和***
CN108304493B (zh) 一种基于知识图谱的上位词挖掘方法及装置
CN104133868B (zh) 一种用于垂直爬虫数据分类整合的策略
CN111143547B (zh) 一种基于知识图谱的大数据显示方法
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN106610931A (zh) 话题名称的提取方法及装置
CN108021715A (zh) 基于语义结构特征分析的异构标签融合***
CN106815265A (zh) 裁判文书的搜索方法及装置
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN108874934A (zh) 页面正文提取方法和装置
CN105095206A (zh) 信息处理方法以及信息处理装置
US20070005700A1 (en) Method for processing data
CN109710773A (zh) 事件主体的生成方法及其装置
CN103942233B (zh) 目录型网页的介绍页识别方法及装置
CN106649318B (zh) 一种信息展示的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant