CN102768661A - 从多个网页中抽取对象和网页的方法和设备 - Google Patents

从多个网页中抽取对象和网页的方法和设备 Download PDF

Info

Publication number
CN102768661A
CN102768661A CN201110115052XA CN201110115052A CN102768661A CN 102768661 A CN102768661 A CN 102768661A CN 201110115052X A CN201110115052X A CN 201110115052XA CN 201110115052 A CN201110115052 A CN 201110115052A CN 102768661 A CN102768661 A CN 102768661A
Authority
CN
China
Prior art keywords
webpage
mark
candidate attribute
attribute value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110115052XA
Other languages
English (en)
Other versions
CN102768661B (zh
Inventor
孙军
谢宣松
姜珊珊
赵利军
郑继川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201110115052.XA priority Critical patent/CN102768661B/zh
Publication of CN102768661A publication Critical patent/CN102768661A/zh
Application granted granted Critical
Publication of CN102768661B publication Critical patent/CN102768661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种从多个网页中抽取对象和网页的方法和设备,所述方法包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页。

Description

从多个网页中抽取对象和网页的方法和设备
技术领域
本发明总体地涉及信息处理和信息抽取领域,更具体地涉及从多个网页中抽取信息和相关网页。
背景技术
目前,存在大量的电子文档,例如,互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等,正成为业界研究和开发的热点。
对于互联网上的数量众多的含有对象属性值信息的网页、诸如产品参数网页,自动从网页中抽取对象属性值信息可以用来更好地构建此类网页的索引,从而有助于搜索,或者可以利用抽取结果来做评论挖掘和趋势分析。关于这个任务已经存在一些已有工作。
题目为“Hierarchical conditional random fields for web extraction”的美国专利US7720830(B2)提出一种为一个信息页面打上对象信息标签的方法,其在把网页分成块之后,层级条件随机场被用来给对象元素打标签。但是,该方法假设对象类的属性名集合已知而无法同时抽取属性名和属性值,并且它使用的是监督的方法,所以需要训练数据,相当地耗费时间和人力。
另外,在Katharina Probst,Rayid Ghani,Marko Krema,Andrew E.Fano,Yan Liu的“IJCAI2007-Semi-Supervised Learning of Attribute-Value Pairs fromProduct Descriptions”(Proceedings of the 20th International Joint Conference onArtificial Intelligence,2007,PP 2838-2843)中,提出了一种从产品描述中抽取属性值对的方法,其使用半监督学习算法来抽取属性名和属性值,然后通过依赖解析器(dependency parser)和共现的分数来得到属性值对。但是,此方法不使用HTML的tag(标签)信息和视觉信息,但实际上这样的信息可以为数据抽取提供有力的帮助。此外,此方法仍需要训练数据。
可见,已有工作在一些场景下不适用,并且已有的工作一般把网页选择和属性值抽取作为单独的任务,而不能同时抽取对象属性值和相关网页。因而,存在对于一种能够更精确地从网页中提取对象和网页,而无需训练数据的方法和设备。
发明内容
为此,提出本发明。
本发明的方法和设备可以利用对象属性值之间以及对象属性值与网页之间的依赖关系来提升性能。可以自动地去除噪声(无用的属性值)和无用网页。另外,本发明的抽取过程可以很自然地利用网页权威度信息。其次,描述相似对象的网页可以相互增强对方的属性值抽取结果。我们的方法利用了这一点,以达到更好的抽取效果。
本发明的目的是从多个网页中抽取对象属性值信息。这些网页包含某些对象的参数规格数据。本发明提出的方法能够同时进行网页的选择和对象信息的抽取。
根据本发明的一个方面,提供了一种从多个网页中抽取对象和网页的方法,包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页。
其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:基于所述页内属性值图、页间属性值图和网页图,计算每个候选属性值对的分数;以及基于所述网页图和网页内的属性值对,计算每个网页的分数。
其中,页内属性值图具有节点和边,每个节点对应于同一个网页内的一个候选属性值对,并且基于DOM树和式样信息来计算边权重。
其中,页间属性值图具有节点和边,每个节点对应于所述多个网页内的一个候选属性值对,并且基于两个节点的内容信息的相似度来计算边权重。
其中,网页图具有节点和边,每个节点对应于所述多个网页中的一个网页,并且基于网页包含的属性值信息来计算边权重。
其中,以迭代的方式来传播每个候选属性值的分数和每个网页的分数,对于每一节点:基于其邻居节点的分数以及该节点与邻居节点之间的边权重来传播分数;并且当该节点的分数稳定或达到最大迭代次数时终止传播,并且此时的分数为节点的最终分数,其中,在每次分数传播过程中,每个节点的新分数保留部分原有分数。
其中,每个候选属性值对具有初始信度分数,且每个网页具有初始信度分数,在所述识别多个网页的候选属性值对的步骤中计算每个候选属性值对的初始信度分数,且每个网页的初始信度分数为其权威度。
其中,所述选择对象和网页的步骤包括:选择分数最大的预定数目的属性值对和网页作为抽取结果。
其中,每个候选属性值的最终分数至少基于该候选属性值对的初始信度分数、在同一个网页上的相关的候选属性值对、在其他网页上的相关的候选属性值对以及包含此候选属性值对的网页,并且每个网页的最终分数至少基于该网页的初始信度分数、与该网页相关的网页以及该网页所包含的候选属性值对。
根据本发明的另一方面,提供了一种从多个网页中抽取对象和网页的设备,包含:候选属性值识别模块,用于识别多个网页的候选属性值对;页内属性值图构造模块,用于对于每个网页,针对该网页内的候选属性值对构造页内属性值图;页间属性值图构造模块,用于针对其他网页内的候选属性值对构造页间属性值图;网页图构造模块,用于对于多个网页构造网页图;分数计算模块,用于计算每个候选属性值对和每个网页的分数;以及抽取模块,用于选择对象和网页。
本发明提出的方法能够同时进行网页的选择和对象信息的抽取,这种方法一个优点是每个单独任务的结果可以用来协助另一个任务。此外,本发明提出的方法是非监督的方法,不需要耗人力的训练数据,且可以被应用到不同领域的网页。
附图说明
通过以下借助附图的详细描述,将会更容易地理解本发明,其中相同的标号指定相同结构的单元,并且在其中:
图1是示出根据本发明的从多个网页中抽取对象和网页的方法的总体过程的示范性流程图;
图2是示出根据本发明的实施例的网页预处理过程的示范性流程图;
图3是根据本发明的实施例的用于构造页内属性值图的方法的示范性流程图;
图4是根据本发明的实施例的用于构造页间属性值图的方法的示范性流程图;
图5是根据本发明的实施例的用于构造网页图的方法的示范性流程图;
图6示出了根据本发明的实施例的用于跨图分数传播过程的方法的示范性流程图;
图7是示出根据本发明的实施例的用于选择网页和候选属性值对作为抽取结果的示范性流程图;
图8是示出根据本发明的示范性实施例的用于从多个网页中抽取对象和网页的设备800的框图;且
图9是示出根据本发明的实施例的可以实践本发明的示例性计算机***的框图。
具体实施方式
提供参考附图的下面描述以帮助全面理解由权利要求及其等价物限定的本发明的示范性实施例。其包括各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,省略了对公知功能和结构的描述。
在本发明说明书中使用的术语“属性值对”是指对象的属性名及与之对应的属性值。例如,对于美国这个国家(在一个网页中进行描述,比如http://en.wikipedia.org/wiki/United_States)来说,“现任总统”即为属性名,而“奥巴马”即为其属性值,而“现任总统:奥巴马”即为关于美国这个对象的一个“属性值对”)。另外,对于一篇产品参数网页,诸如描述理光AP600L打印机的网页,其4个“属性值对”的例子是:
Figure BDA0000059295380000041
下面,将参考附图来详细描述根据本发明的实施例的从多个网页中抽取对象和网页的方法。
图1是示出根据本发明的从多个网页中抽取对象和网页的方法的总体过程的示范性流程图。
参见图1,在步骤S11中,对多个网页进行预处理,从而识别候选属性值对。
在步骤S12中,对于每个网页,针对该网页内的候选属性值对构造页内属性值图。
在步骤S13中,对于每个网页内的候选属性值对,针对除了该网页内的属性值对之外的其他网页内的属性值对构造页间属性值图。
在步骤S14中,对于多个网页构造网页图。
在步骤S15中,计算每个属性值对和每个网页的分数。
在步骤S16中,选择合适的网页和属性值对(对象),作为结果而输出。
此后,将参照图2-图7,依据上面的顺序来具体描述根据本发明的实施例的从多个网页中抽取对象和网页的方法。
图2是示出根据本发明的实施例的网页预处理过程的示范性流程图。
对于多个网页的集合,根据本发明的实施例的网页预处理过程使用DOM树(Document Object Model,文档对象模型)来对网页进行预处理,DOM是W3C组织推荐的处理可扩展置标语言的标准编程接口。
DOM树将对应的文档呈现为带有元素、属性和文本的树结构(节点树)。此外,DOM树带有一些计算后的式样信息。首先,从互联网上下载网页,网页包含:HTML文件、附带的CSS文件、Javascript文件和图像文件等等。给定这些网页文件,网络浏览器构造DOM树。现有技术中存在一些主流的网络浏览器,比如Mozilla Firefox、Windows Internet Explorer、Google Chrome或者Apple Safari。网络浏览器引擎通过分析语法结构来解析HTML代码,构造含计算后式样信息的DOM树,执行一些动态内容(比如Javascript代码),并在浏览器窗口里渲染网页。然后,用户可以在计算机屏幕上浏览网页。同样地,DOM树和计算后的式样信息可以通过程序接口被其他程序得到。例如Mozilla提供的XULRunner是一个接口。然后得到的DOM树信息可以作为本发明的步骤S11的输入。因此,给定一个网页,含计算后式样信息的DOM树可以通过第三方工具得到。详细的含计算后式样信息的DOM树的构造过程对于本领域技术人员是熟悉和共知的,且可通过任何合适的现有技术得到,对其的过分描述将导致混淆本发明的主题,因此不再赘述。
这里,所述式样信息包含许多内容,诸如网页中内容的字体、粗细、大小、颜色、背景色、位置、边框信息等等,并且可以被包括在CSS文件中。在带计算后式样信息的DOM树构造完毕之后,使用基于带信度分数的规则的方法来抽取候选属性值对。算法的一个示例如下:
(1)对于每个DOM节点或者连续DOM节点序列,计算其初始信度分数;
(2)去除不太可能对的候选属性值对;并且
(3)返回剩余的带初始信度分数的候选属性值对。
每个候选属性值对可以带有一个初始信度分数,并且该初始信度分数可以代表“此候选属性值对确实是当前网页描述的对象的属性值对”的初始信度。大的初始信度表明该候选属性值对很可能是当前网页描述的对象的属性值对。候选属性值对的初始信度分数(ScoreOfCandidat)可以基于候选属性值对(每个DOM节点或连续DOM节点的序列)的一些特征来计算。具体而言,对于产品参数网页,一个简单的示例方法如下所述:
(1)ScoreOfCandidate=0;
(2)如果此候选属性值对仅包含两个DOM节点,即这意味着有可能一个DOM节点代表属性名而另一个DOM节点代表属性值,则ScoreOfCandidate值加上0.2;
(3)如果此候选属性值对对应的DOM节点所对应的DOM子树中仅包含两个文本节点,即这意味有可能一个文本节点代表属性名而另一个文本节点代表属性值,则ScoreOfCandidate值加上0.3;
(4)如果此候选属性值对的属性文本以“:”结尾,即这意味着该“:”后的内容很可能是具体的属性值,则ScoreOfCandidate值加上0.4。
上面用于抽取属性值对的方法仅仅是一个例子,但本发明不限于此。在实际应用时,对于ScoreOfCandidate可以根据需求而采用不同的数值。另外,本领域技术人员可以明白,根据设计需求和具体内容,可以在这里使用任何合适的其他抽取算法。
此外,如果没有初始信度分数,则可以假设所有的候选属性值对拥有相同的初始信度分数。
参照图2,在步骤S21中,从多个网页的集合中选择一个网页来进行处理。可以按照顺序或其他适于操作的次序来选择网页。
在步骤S22中,生成DOM树,该DOM树带有计算后的式样信息。
在步骤S23中,对于每个DOM节点或者连续DOM节点序列,计算其初始信度分数。
在步骤S24中,去除不太可能对的候选属性值对。
最后,在步骤S25中,所得到的剩余的带初始信度分数的候选属性值对即为该网页中所识别的候选属性值对。对于每个网页执行上述过程,在步骤S26中,确定是否存在未处理的网页,如果存在(步骤S26:是),则处理返回到步骤S21,如果不存在(步骤S26:否),则终止该识别候选属性值对的过程。从而,得到所有网页的候选属性值对。
在步骤S24中,可以基于结构信息和视觉信息或使用其他合适的方法来去除不太可能对的候选属性值对。
图3是根据本发明的实施例的用于构造页内属性值图的方法的示范性流程图。
对于每个网页构造一个页内属性值图。页内属性值图包含多个节点和节点两两之间的边。页内属性值图的节点和边可以被定义为:
(1)每个节点对应于当前网页的一个候选属性值对;
(2)每条边对应于两个节点。每条边附带一个边权重。如果边权重太小,例如小于某个预先指定的值,则这条边可以被忽略。也就是说,在两个相关性比较高的候选属性值对之间存在较高的边权重,而在两个相关性较低的候选属性值对之间可以没有边权重(没有边或边权重为0)。
参考图3,在步骤S31中,从网页中选择两个候选属性值对。选择两个候选属性值对的次序可以按照任何合适的次序,而并非限于顺序的次序。
在步骤S32中,基于相关性来计算所选择的这两个候选属性值对(即,其在页内属性值图中各自所对应的节点)之间的边权重。
在步骤S33中,确定是否存在还未计算彼此之间的边权重的两个候选属性值对。如果存在(步骤S33:是),则过程返回到步骤S31,否则(步骤S33:否),则完成该网页的页内属性值图的构造,并终止过程。
在构造页内属性值图时,可以基于以下因素来计算两个节点之间的边权重:DOM树相似度、视觉相似度和邻近度量。
对于第一个因素,即两个候选属性值对之间的DOM树相似度,可以基于HTML tag树来计算,此树中包含tag名和树的层次关系。每个候选属性值对对应于一个或多个DOM树,只取DOM树中每个DOM节点的HTML tag名,可以得到一个或多个tag树。如有多个tag树,则用一个空节点作为根节点,将这多个tag树作为子树,这样可以将这多个tag树合并得到一个tag树。这里可以使用已有的关于tag树的相似度计算方法,诸如树的编辑距离。具体方法,可参照例如在Philip Bille的“A survey on tree edit distance and relatedproblems”(Theoretical Computer Science,Volume 337 Issue 1-3,9 June 2005,PP217-239)中提出的方案。
对于第二个因素,即两个属性值对之间的视觉相似度,可以利用视觉信息(诸如式样)来计算。视觉相似度等于一些部分的线性组合,包含如下部分:
(1)形状和对齐信息的相似度;和
(2)字体大小和粗细的相似度。
每个相似度的计算分为三部分,即属性名、值和整个属性值对。然后三个部分的相似度信息结合在一起形成视觉相似度。
对于第三个因素,即两个属性值对之间的邻近度量,可以通过比较两个属性值对的位置关系计算得到,诸如两个属性值对之间的路径、距离等。
图4是根据本发明的实施例的用于构造页间属性值图的方法的示范性流程图。
对于每个属性值对,针对其他网页内的属性值对来构造页间属性值图。
页间属性值图包含多个节点和节点两两之间的边。其节点是多个网页上的候选属性值对。内容相似的属性值对之间有边相连。相连的节点能够提升对方的分数。页间属性值图的节点和边可以被定义为:
(1)每个节点对应于网页上的一个候选属性值对;和
(2)每条边对应于两个节点。每条边附带一个边权重。如果边权重太小,例如小于某个预先指定的值,那么这条边可以被忽略(没有边或边权重为0)。
参考图4,在步骤S41中,从不同的网页中选择两个候选属性值对来进行。与上述参照图3所描述的类似,本领域技术人员可以明白,选择两个候选属性值对的次序可以按照任何合适的次序,而并非限于顺序的次序。
在步骤S42中,基于内容相似度来计算所选择的两个属性值对(即,其在页间属性值图中各自对应的节点)之间的边权重。
在步骤S43中,确定在不同网页中是否存在还未计算彼此之间的边权重的两个候选属性值对。如果存在(步骤S43:是),则过程返回到步骤S41,否则(步骤S43:否),则完成页间属性值图的构造,并终止过程。
页间属性值图中的每条边的边权重体现了两个属性值对之间的内容相似度。此内容相似度是属性名内容相似度和属性值内容相似度的线性组合。属性名或属性值的内容相似度可以包含以下因素:
(1)字级别的相似度;和
(2)词级别的相似度
对于第一个因素,即两个候选属性名(或值)之间的字级别的相似度,可以通过基于字符串编辑距离或者最长公共子序列的相似度度量来进行计算。
对于第二个因素,即两个候选属性名(或值)之间的词级别的相似度可以如下计算。
例如,假设两个属性名(或值)分别是
Figure BDA0000059295380000091
Figure BDA0000059295380000092
其中,
Figure BDA0000059295380000093
是第j个属性名(或值)的第i个词,它们之间的相似度的计算方法的一个示例如下所示:
similarity ( w 1 ( 1 ) w 2 ( 1 ) · · · w p ( 1 ) , w 1 ( 2 ) w 2 ( 2 ) · · · w q ( 2 ) ) = Σ i = 1 p Σ j = 1 q similarity ( w i ( 1 ) , w j ( 2 ) ) / ( p · q )
其中,
Figure BDA0000059295380000095
Figure BDA0000059295380000096
之间的相似度。两个词之间的相似度可以通过在一个文档集合中的共现统计信息计算得到。共现统计信息可以表示两个词在预定范围内共同出现的概率,例如可以用共现概率来表征,即同时出现在一个预定大小的窗口中的概率。在以上的属性名(或值)的词的表示中,诸如我、除了、并且、是、为什么、在、被之类的停用词(stop words)已经被删除。
图5是根据本发明的实施例的用于构造网页图的方法的示范性流程图。
基于两个网页之间相似度构造以网页为节点的网页图。
根据本发明的示范性实施例,网页图包含多个节点和节点两两之间的边。网页图中的节点和边可以被定义为:
(1)每个节点对应于一个网页;且
(2)每条边对应于两个节点。每条边附带一个边权重。如果边权重太小,例如小于某个预先指定的值,则这条边可以被忽略(没有边或边权重为0)。
此外,与上述抽取候选属性值类似的,每个网页也可以给定一个初始信度分数,此分数可以是此网页的权威度。网页的权威度与网页的域名(注册时间长短)、内容(是否更新)、流量等有关。这里可以使用PageRank,HITS或者其他权威度分数。这是本领域技术人员所公知的现有技术,所以此处不再赘述。
参照图5,在步骤S51中,对每个网页给定初始信度分数,诸如网页权威度。
在步骤S52中,选择两个网页。
在步骤S53中,可以基于网页所包含的属性值信息来计算所选择的网页(即,其在网页图中各自对应的节点)之间的边权重。
在步骤S54中,确定是否存在还未计算彼此之间的边权重的两个网页。如果存在(步骤S54:是),则过程返回到步骤S52,否则(步骤S54:否),则完成网页图的构造,并终止过程
网页图的边权重的计算可以基于网页所包含的属性值信息的相似度。因为没有精确的属性值信息,所以可以利用候选属性值对来计算两个网页之间的相似度。
假设两个网页分别是a11a12…a1p和a21a22…a2q,其中aij是第i个网页中的第j个属性值对,
Figure BDA0000059295380000101
是对应的初始分数。它们之间的相似度的计算方法的一个示例如下所示:
similarity ( a 11 a 12 · · · a 1 p , a 21 a 22 · · · a 2 q ) = Σ i = 1 p Σ j = 1 q s 1 i ( 0 ) s 2 j ( 0 ) · similarity ( a 1 i , a 2 j )
其中,similarity(a1i,a2j)是a1i和a2j之间的相似度。两个属性值对之间的相似度可以用参照图4所述的计算页间属性值对的边权重的方法。
在构造了页内属性值图、页间属性值图和网页图之后,得到了每个候选属性值对和每个网页的初始信度分数,其中每个候选属性值对的初始信度分数代表此候选属性值对是否是当前网页描述的对象的属性值对,而每个网页的初始信度分数代表此网页是否是当前网页描述的对象的权威信息源。但是,此初始信度分数并没有反映不同网页上的候选属性值对之间的关系以及属性值对与网页之间的关系。
因此,根据本发明的实施例,基于所述页内属性值图、页间属性值图和网页图(统称为全图),使用跨图分数传播过程来计算每个候选属性值对和每个网页的最终信度分数,从而可以反映不同网页上的候选属性值对之间的关系以及属性值对与网页之间的关系。
图6示出了根据本发明的实施例的用于跨图分数传播过程的方法的示范性流程图。
跨图分数传播过程可以如下:
(1)在计算每个节点的分数时,基于其邻居节点的分数以及该节点与邻居节点之间的边权重来传播分数(步骤S62和S63);以及
(2)当该节点的分数变得稳定(收敛)或者已经达到最大迭代次数时,终止传播,否则返回(1),进行下一次迭代。
在每次分数传播过程中,每个节点的新分数保留部分原有分数。
参考图6,在步骤S61中,输入带初始信度分数的全图,其中,初始信度分数包括每个候选属性值对的初始信度分数和每个网页的初始信度分数。
在步骤S62中,基于所述页内属性值图、页间属性值图和网页图,计算每个候选属性值对的最终信度分数。
在步骤S63中,基于所述网页图和网页内的属性值对,计算每个网页的最终信度分数。
在步骤S64中,确定每个候选属性值对的分数或每个网页的分数是否变得稳定(收敛)或是否已经达到预定最大迭代次数。如果该分数变得稳定(收敛)或已经达到预定最大迭代次数(步骤S64:是),则过程进行到步骤S65),否则(步骤S64:否),过程返回到步骤S62,开始下一次迭代。
在步骤S65中,输出每个候选属性值对和每个网页的最终信度分数。
下面,将进一步描述在每次迭代中,在步骤S62和S63中计算分数的具体细节。
对于每次迭代,网页上每个候选属性值对的分数至少可以依赖于下面4个因素:
(1)该候选属性值对的初始信度分数;
(2)在同一个网页上的相关的候选属性值对;
(3)在其他网页上的相关的候选属性值对;以及
(4)包含此候选属性值对的网页。
用于计算候选属性值对的最终信度分数的一个示范性分数传播公式如下:
S a ( i ) ( l + 1 ) = α · S a ( i ) ( 0 ) + β · Σ a ( j ) ∈ N _ intra ( i ) w j , i d intra ( j ) S a ( j ) ( l ) + γ · Σ a ( j ) ∈ N _ inter ( i ) w j , i d intet ( j ) S a ( j ) ( l )
+ ( 1 - α - β - γ ) · S p ( a ( i ) ) ( l ) n ( p ( a ( i ) ) )
其中,
Figure BDA0000059295380000123
是属性值对a(i)的初始信度分数;
Figure BDA0000059295380000124
是在第l+1次迭代后候选属性值对a(i)的分数;
Figure BDA0000059295380000125
是在第l次迭代后网页p(a(i))的分数,即包含候选属性值对a(i)的网页的分数;
N_intra(i)是候选属性值对a(i)在页内属性值图上的邻居集合;
wj,i是从候选属性值对a(j)到候选属性值对a(i)的边权重;
dintra(j)是在页内属性值图上从候选属性值对a(j)到其他候选属性值对的边权重之和;
N_inter(i)是候选属性值对a(i)在页间属性值图上的邻居集合;
dinter(j)是在页间属性值图上从候选属性值对a(j)到其他候选属性值对的边权重之和;
p(a(i))是包含候选属性值对a(i)的网页;
n(p(a(i)))是网页p(a(i))上的候选属性值对的个数;
α,β和γ是预先指定的参数,代表以上公式中的各项的相对重要程度。优选地,0≤α≤1、0≤β≤1、0≤γ≤1且0≤α+β+γ≤1。
此外,用于计算候选属性值对的最终信度分数的另一个示范性分数传播公式如下:
S a ( i ) ( l + 1 ) = α · S a ( i ) ( 0 ) + β · Σ a ( j ) ∈ N _ intra ( i ) w j , i d intra ( j ) d intra ( i ) S a ( j ) ( l ) + γ · Σ a ( j ) ∈ N _ inter ( i ) w j , i d inter ( j ) d inter ( i ) S a ( j ) ( l )
+ ( 1 - α - β - γ ) · S p ( a ( i ) ) ( l ) n ( p ( a ( i ) ) )
其中,
是属性值对a(i)的初始信度分数;
Figure BDA0000059295380000129
是在第l+1次迭代后候选属性值对a(i)的分数;
是在第l次迭代后网页p(a(i))的分数,即包含候选属性值对a(i)的网页的分数;
N_intra(i)是候选属性值对a(i)在页内属性值图上的邻居集合;
wj,i是从候选属性值对a(j)到候选属性值对a(i)的边权重;
dintra(j)是在页内属性值图上从候选属性值对a(j)到其他候选属性值对的边权重之和;
N_inter(i)是候选属性值对a(i)在页间属性值图上的邻居集合;
dinter(j)是在页间属性值图上从候选属性值对a(j)到其他候选属性值对的边权重之和;
p(a(i))是包含候选属性值对a(i)的网页;
n(p(a(i)))是网页p(a(i))上的候选属性值对的个数;
α,β和γ是预先指定的参数,代表以上公式中的各项的相对重要程度。优选地,0≤α≤1、0≤β≤1、0≤γ≤1且0≤α+β+γ≤1。
类似地,对于每次迭代,一个网页的分数至少可以依赖于下面3个因素:
(1)该网页的初始信度分数;
(2)与该网页相关的网页;以及
(2)该网页所包含的候选属性值对。
用于计算网页的最终信度分数的一个示范性分数传播公式如下:
S p ( i ) ( l + 1 ) = α · S p ( i ) ( 0 ) + β · Σ j ∈ N ( i ) w j , i d ( j ) S p ( j ) ( l ) + ( 1 - α - β ) · Σ a ( j ) ∈ A ( p ( i ) ) S a ( j ) ( l )
其中,
Figure BDA0000059295380000132
是网页p(i)的初始信度分数;
是在第l+1次迭代后网页p(i)的分数;
N(i)是网页p(i)在网页图中的邻居集合;
wj,i是从网页p(j)到p(i)的边权重;
d(j)是网页图中从网页p(j)到其他网页的边权重之和;
A(p(i))是网页p(i)中的候选属性值对的集合;
α和β是预先指定的参数,代表以上公式中的各项的相对重要程度。优选地,0≤α≤1、0≤β≤1且0≤α+β≤1。如本领域技术人员所可以明白的,在计算每个网页的最终信度分数时所使用的参数α和β可以与在计算每个候选属性值的最终信度分数时所使用的参数α、β和γ不同。
此外,用于计算网页的最终信度分数的另一个示范性分数传播公式如下:
S p ( i ) ( l + 1 ) = α · S p ( i ) ( 0 ) + β · Σ j ∈ N ( i ) w j , i d ( j ) d ( i ) S p ( j ) ( l ) + ( 1 - α - β ) · Σ a ( j ) ∈ A ( p ( i ) ) S a ( j ) ( l )
其中,
Figure BDA0000059295380000141
是网页p(i)的初始信度分数;
Figure BDA0000059295380000142
是在第l+1次迭代后网页p(i)的分数;
N(i)是网页p(i)在网页图中的邻居集合;
wj,i是从网页p(j)到p(i)的边权重;
d(j)是网页图中从网页p(j)到其他网页的边权重之和;
A(p(i))是网页p(i)中的候选属性值对的集合;
α和β是预先指定的参数,代表以上公式中的各项的相对重要程度。优选地,0≤α≤1、0≤β≤1且0≤α+β≤1。上述分数传播公式仅仅是示范性的,但是本发明不限于此,本领域技术人员根据情况还可以构造其他合适的分数传播公式。
基于所计算的每个候选属性值对的最终信度分数和每个网页的最终信度分数,来选择网页和网页上的候选属性值作为抽取结果。
图7是示出根据本发明的实施例的用于选择网页和候选属性值对作为抽取结果的一个示范性流程图。
参照图7,在步骤S71中,从网页图中选择第一网页集合E1,该E1内包含的网页的最终信度分数大于MIN_PAGE_SCORE。
在步骤S72中,从网页图中选择第二网页集合E2,该E2由最终信度分数最高的最多MAX_NUM_PAGES个网页构成。
在步骤S73中,计算第一网页集合E1与第二网页集合E2的交集,得到所选择的最终网页集合Eselect,其中Eselect=E1∩E2
在步骤S74中,从最终网页集合Eselect中选择一个网页,并且对于每个选择的网页,执行如下步骤:
在步骤S75中,从该所选择的网页的页内属性值图中选择第一候选属性值对集合P1,该P1包含的候选属性值对的分数大于MIN_PAIR_SCORE;
在步骤S76中,从该所选择的网页的页内属性值图中选择第二候选属性值对集合P2,该P2由最终信度分数最高的最多MAX_NUM_PAIRS个候选属性值对构成;以及
在步骤S77中,计算第一候选属性值对集合P1与第二候选属性值对集合P2的交集,得到从当前所选择的网页中选择的最终属性值对集合Pselect,其中Pselect=P1∩P2
在以上过程中,MIN_PAGE_SCORE是预先指定的每个所选择的网页的最小最终信度分数,MIN_PAIR_SCORE是预先指定的每个所选择的候选属性值对的最小最终信度分数,MAX_NUM_PAGES是预先指定的所选择的网页的最大数目,且MAX_NUM_PAIRS是预先指定的对于每个网页选择的候选属性值对的最大数目。
最后,在步骤S77中,确定是否还存在未处理的网页,如果存在(步骤S78:是),则过程进行到步骤S74,否则(步骤S78:否),输出最终网页集合和最终属性值对集合。
因此,根据本发明,能够同时进行网页的选择和对象信息的抽取。
图8是示出根据本发明的示范性实施例的用于从多个网页中抽取对象和网页的设备800的框图。
如图8中所示,该设备800包括候选属性值对识别模块810、页内属性值图构造模块820、页间属性值图构造模块830、网页图构造模块840、分数计算模块850和抽取模块860。
具体而言,识别模块810对多个网页进行预处理,从而识别候选属性值对,其中每个候选属性值对具有初始信度分数。
页内属性值图构造模块820对于每个网页,针对该网页内的候选属性值对构造页内属性值图。
页间属性值图构造模块830对于每个网页内的候选属性值对,针对除了该网页内的属性值对之外的其他网页内的属性值对构造页间属性值图。
网页图构造模块840对于多个网页构造网页图。
分数计算模块850基于由页内属性值图构造模块820构造的页内属性值图、由页间属性值图构造模块830构造的页间属性值图和由网页图构造模块840构造的网页图,使用跨图分数传播过程来计算每个候选属性值对和每个网页的最终信度分数。
抽取模块860选择合适的网页和属性值对(对象),作为结果而输出。
根据本发明,提供了一种从含有对象参数数据的网页中抽取对象属性值信息的方法和设备。本领域普通技术人员可以了解到,本发明提出的方法能够同时进行网页的选择和对象信息的抽取。这种方法一个优点是每个单独任务的结果可以用来协助另一个任务。本发明提出的方法的另一个优点是可以有效地利用网页权威度信息。此外,本发明提出的方法可以减轻含很少或者错误属性值信息的网页的影响。另外,本发明提出的方法很自然地结合了页内式样信息和页间内容信息。从而,页内和页间的信息可以被很有效地结合以得到更好的抽取结果。再者,本发明提出的方法是非监督的方法,不需要耗人力的训练数据,且可以被应用到不同领域的网页。
上述实施例针对例如HTML格式的网页进行了描述,但是本领域技术人员应该明白,本发明不限于,并且对于类似格式的、含有产品参数规格数据的任何合适的网页,都可以应用本发明的方法和设备。
最后,将参考图9给出作为进行上述用于从多个网页中抽取对象和网页的设备的硬件配置的例子的描述。图9是示出根据本发明一个实施例的可以实践本发明的示例性计算机***的框图。其中,CPU(中央处理单元)901根据被存储在ROM(只读存储器)902或存储部分908中的程序来进行各种处理。例如,CPU 901执行在上述实施例中描述的跨图分数传播过程的程序。RAM(随机存取存储器)903适当地存储由CPU 901执行的程序、数据等等,例如,可以将诸如以软件形式构造的候选属性值对识别模块、页内属性值图构造模块、页间属性值图构造模块、网页图构造模块、分数计算模块和抽取模块保存在RAM 903中,而由CPU 901来执行这些模块的功能。此外,中间结果和最终结果(包含:DOM树信息、候选属性值对、页内属性值图、页间属性值图、网页图、候选属性值对的分数和网页的分数等)可以被保存在RAM 903上。注意到,在抽取过程完成之后,所得到的最终网页集合和最终属性值对集合可被输出到存储部分908,诸如硬盘。CPU 301、ROM 902和RAM 903通过总线904相互连接。
CPU 901通过总线904连接于输入/输出接口905。包括键盘、鼠标、麦克风等的输入部分906和包括显示器、扬声器等的输出部分连接于输入/输出接口905。CPU 901根据从输入部分906输入的指令来执行各种处理。CPU 901向输出部分907输出处理的结果。
连接于输入/输出接口905的存储部分908包括例如硬盘,并存储由CPU901执行的程序和各种数据。通信部分909通过诸如因特网、局域网等的网络来与外部装置通信。
连接于输入/输出接口905的驱动器910驱动诸如磁盘、光盘、磁光盘或半导体存储器等的可移动介质911,并获得记录在那里的程序、数据等等。所获得的程序和数据在需要时被传输给存储部分908,并被存储在那里。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行,例如,构造页内属性图、构造页间属性图和构造网页图的步骤可以顺序地、并行地或者以任何顺序独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种从多个网页中抽取对象和网页的方法,包含以下步骤:
识别多个网页的候选属性值对;
对于每个网页,针对该网页内的候选属性值对构造页内属性值图;
对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;
对于多个网页构造网页图;
计算每个候选属性值对和每个网页的分数;以及
选择对象和网页。
2.根据权利要求1所述的方法,其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:
基于所述页内属性值图、页间属性值图和网页图,计算每个候选属性值对的分数;以及
基于所述网页图和网页内的属性值对,计算每个网页的分数。
3.根据权利要求1所述的方法,其中,页内属性值图具有节点和边,每个节点对应于同一个网页内的一个候选属性值对,并且基于DOM树和式样信息来计算边权重。
4.根据权利要求1所述的方法,其中,页间属性值图具有节点和边,每个节点对应于所述多个网页内的一个候选属性值对,并且基于两个节点的内容信息的相似度来计算边权重。
5.根据权利要求1所述的方法,其中,网页图具有节点和边,每个节点对应于所述多个网页中的一个网页,并且基于网页包含的属性值信息来计算边权重。
6.根据权利要求2所述的方法,其中,以迭代的方式来传播每个候选属性值的分数和每个网页的分数,对于每一节点:
基于其邻居节点的分数以及该节点与邻居节点之间的边权重来传播分数;并且
当该节点的分数稳定或达到最大迭代次数时终止传播,并且此时的分数为节点的最终分数,
其中,在每次分数传播过程中,每个节点的新分数保留部分原有分数。
7.根据权利要求6所述的方法,其中,每个候选属性值对具有初始信度分数,且每个网页具有初始信度分数,在所述识别多个网页的候选属性值对的步骤中计算每个候选属性值对的初始信度分数,且每个网页的初始信度分数为其权威度。
8.根据权利要求2所述的方法,其中,所述选择对象和网页的步骤包括:选择分数最大的预定数目的属性值对和网页作为抽取结果。
9.根据权利要求7所述的方法,其中,每个候选属性值的最终分数至少基于该候选属性值对的初始信度分数、在同一个网页上的相关的候选属性值对、在其他网页上的相关的候选属性值对以及包含此候选属性值对的网页,并且每个网页的最终分数至少基于该网页的初始信度分数、与该网页相关的网页以及该网页所包含的候选属性值对。
10.一种从多个网页中抽取对象和网页的设备,包含:
候选属性值识别模块,用于识别多个网页的候选属性值对;
页内属性值图构造模块,用于对于每个网页,针对该网页内的候选属性值对构造页内属性值图;
页间属性值图构造模块,用于针对其他网页内的候选属性值对构造页间属性值图;
网页图构造模块,用于对于多个网页构造网页图;
分数计算模块,用于计算每个候选属性值对和每个网页的分数;以及
抽取模块,用于选择对象和网页。
CN201110115052.XA 2011-05-05 2011-05-05 从多个网页中抽取对象和网页的方法和设备 Active CN102768661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110115052.XA CN102768661B (zh) 2011-05-05 2011-05-05 从多个网页中抽取对象和网页的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110115052.XA CN102768661B (zh) 2011-05-05 2011-05-05 从多个网页中抽取对象和网页的方法和设备

Publications (2)

Publication Number Publication Date
CN102768661A true CN102768661A (zh) 2012-11-07
CN102768661B CN102768661B (zh) 2014-12-17

Family

ID=47096065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110115052.XA Active CN102768661B (zh) 2011-05-05 2011-05-05 从多个网页中抽取对象和网页的方法和设备

Country Status (1)

Country Link
CN (1) CN102768661B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247481A (zh) * 2013-05-29 2016-01-13 惠普发展公司,有限责任合伙企业 网页输出选择
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404015A (zh) * 2007-10-05 2009-04-08 富士通株式会社 自动生成词条层次
CN101408887A (zh) * 2007-10-05 2009-04-15 富士通株式会社 推荐词条以指定本体空间

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404015A (zh) * 2007-10-05 2009-04-08 富士通株式会社 自动生成词条层次
CN101408887A (zh) * 2007-10-05 2009-04-15 富士通株式会社 推荐词条以指定本体空间

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247481A (zh) * 2013-05-29 2016-01-13 惠普发展公司,有限责任合伙企业 网页输出选择
CN105247481B (zh) * 2013-05-29 2019-05-07 惠普发展公司,有限责任合伙企业 用于网页输出选择的计算***、方法和机器可读非暂时性存储介质
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN106484696B (zh) * 2015-08-25 2019-05-28 北京中搜云商网络技术有限公司 一种改进搜索引擎质量的方法
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及***

Also Published As

Publication number Publication date
CN102768661B (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
Uzun A novel web scraping approach using the additional information obtained from web pages
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及***
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及***
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN106611055A (zh) 基于层叠式神经网络的中文模糊限制信息范围检测方法
US8370119B2 (en) Website design pattern modeling
Ferrara et al. Automatic wrapper adaptation by tree edit distance matching
CN113168499A (zh) 检索专利文档的方法
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及***
CN107220250A (zh) 一种模板配置方法及***
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
CN102768661A (zh) 从多个网页中抽取对象和网页的方法和设备
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN103092973B (zh) 信息抽取方法和装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN113609246A (zh) 一种网页相似性检测方法及***
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
CN113779190A (zh) 事件因果关系识别方法、装置、电子设备与存储介质
Fernandes et al. Automated disaster news collection classification and geoparsing
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及***
Zhang et al. Boilerplate detection via semantic classification of TextBlocks
You Automatic summarization and keyword extraction from web page or text file
CN111695359B (zh) 生成词向量的方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant