CN102831131B

CN102831131B - 构建标注网页语料库的方法及装置

Info

Publication number: CN102831131B
Application number: CN201110172092.8A
Authority: CN
Inventors: 付雷; 夏迎炬; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-16
Filing date: 2011-06-16
Publication date: 2015-02-11
Anticipated expiration: 2031-06-16
Also published as: CN102831131A

Abstract

本发明实施例公开了一种构建标注网页语料库的方法及装置，所述方法包括：针对预先选取的初始种子网页生成初始种子标注网页语料；按照初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页；按照初始种子网页标注语料对相关种子网页进行标注，得到相关种子标注网页语料；判断相关种子标注网页语料和初始种子标注网页语料是否满足预设条件，如果是，则将相关种子标注网页语料和初始种子标注网页语料组合为标注网页语料库；如果否，则将相关种子标注网页语料作为初始种子标注网页语料，并执行从搜索引擎中获取预设个数的相关种子网页的步骤。通过本发明实施例，能够在给定的少量种子标注语料的情况下，形成大规模的标准标注语料。

Description

构建标注网页语料库的方法及装置

技术领域

本发明一般地涉及互联网数据处理技术领域，尤其是一种构建标注网页语料库的方法及装置。

背景技术

互联网的数据资源极大丰富，为各种数据密集型的应用提供了潜在的数据来源，但互联网上的网页结构复杂，网页的主体内容往往被淹没在广告或导航等噪音信息之中，为此要利用互联网这个庞大的数据源为研究服务，就需要能够将网页中的各类信息分离归类，也就是对网页的内容进行标注。

带有精细化标注信息的网页语料对于很多应用都有着至关重要的影响，例如网页检索、网页分类或网页内容提取等，所说的精细化标注是指对于出现在网页中的文本细致的将其区分为标题、作者、时间、正文、评论、广告、相关链接和其他等八类的标注方式，这种标注后的语料既可以当作训练语料为内容提取或聚类分类等应用服务，也可以作为检索等应用的预处理阶段，从而提高检索精度。

传统的构建标注网页语料库的方法，一般人工直接进行网页标注，即是由特定的技术人员来对某个网页的全部内容进行审阅，从而根据审阅结果对网页的各部分内容进行标注。

但是这种采用人工进行网页标注的方式，因为互联网上的网页数量是无限的，就需要技术人员付出巨大的精力来进行网页标注；进一步的，不同网页的某些部分内容有时也存在相似的情况，所以这就使得技术人员对相同的网页内容进行重复性标注，浪费人力资源的同时，也使语料规模很难做大。

发明内容

有鉴于此，本发明实施例提供了一种构建标注网页语料库的方法及装置，能够在给定的少量种子标注语料的情况下，不断地循环扩大标注语料的规模，形成大规模的标准标注语料。

根据本发明实施例的一个方面，提供一种构建标注网页语料库的方法，包括：针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页；按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页；按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料；以及判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库；如果否，则将所述相关种子标注网页语料作为初始种子标注网页语料，并执行所述从搜索引擎中获取预设个数的相关种子网页的步骤。

根据本发明实施例的另一个方面，提供一种构建标注网页语料库的装置，包括：生成模块，用于针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页；获取模块，用于按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页；标注模块，用于按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料；判断模块，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件；组合模块，用于当所述判断模块的结果为是时，将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库；以及触发模块，用于当所述判断模块的结果为否时，将所述相关种子标注网页语料作为初始种子标注网页语料，并触发所述获取模块。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述构建标注网页语料库的方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述构建标注网页语料库的方法。

根据本发明实施例的上述一种方法，可以在给定的少量种子标注语料的情况下，不断地循环扩大标注语料的规模，形成大规模的标准标注语料，这种构建标注网页语料库的方法无需人工对相同的网页内容进行重复性标注，节省了人力资源和物理成本的同时，也使标注网页语料库可以实现更大的规模。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其他目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的方法实施例1的流程图；

图2是示出作为本发明方法实施例1中S102的流程图；

图3是示出作为本发明方法实施例1中S103的流程图；

图4是示出作为本发明方法实施例1中S301的流程图；

图5是示出作为本发明方法实施例1中S302的流程图；

图6是示出作为本发明实施例提供的方法实施例2的流程图；

图7是示出作为本发明实施例提供的方法实施例3的流程图；

图8是示出作为本发明实施例提供的装置实施例1的示意图；

图9是示出作为本发明装置实施例1中获取模块802的示意图；

图10是示出作为本发明装置实施例1中标注模块803的示意图；

图11是示出作为装置实施例1中第一标注子模块1001的示意图；

图12是示出作为装置实施例1中第二标注子模块1002的示意图；

图13是示出作为本发明实施例提供的装置实施例2的示意图；

图14是示出作为本发明实施例提供的装置实施例3的示意图；

图15是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。

本发明实施例针对现有技术问题，提供了相应的解决方法。具体的，参见图1，本发明实施例提供的构建标注网页语料库的方法实施例1可以包括：

S101：针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页。

本发明实施例在实际应用中，可以预先选取一些不同类型的网页，例如博客(BLOG)、新闻和财经等类型的网页各选取少量的网页样本，各个类型的网页数量不限，例如每种类型各选100个网页等。这里的类型可以根据不同的实际情况有所变化，例如，新浪网站的分类类型和搜狐网站的分类类型就存在差异。但是类型的分类方式不同不影响本发明实施例的实现，因此，本发明实施例并不限定预先选取的初始种子网页的数量和类型。

选取出的网页作为初始种子网页，需要人工进行精细化的标注，至少需要标出标题和正文，并将其他部分标注为其他；进一步的，其他部分可以精细标注出作者、时间、评论、广告和相关链接部分。这些已经标注好的初始种子网页可以形成初始种子标注网页语料。

S102：按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页。

因为初始种子网页只是选取的不同类型中具有代表性的少量网页，所以还需要根据初始种子网页扩充相关的其他种子网页。因为在互联网上，对于初始种子网页上发布的某一篇文章，其被转载的可能性是很大的，如果初始种子标注网页语料中某个初始种子网页的内容被另一个不在所述初始种子网页语料中的其他网页所转载，那么这两个页面的正文内容理论上应该是大致相同的，具有很高的相似度，因此可以便于后续利用初始网页中的标签去对转载的相关页面进行标注。

而本步骤在查找初始种子网页相关的转载页面，具体可以使用搜索引擎作为辅助工具，利用初始种子标注网页语料的关键词进行搜索。

其中，参考图2所示，所述S102在实际应用中具体可以采用如下实现方式：

S201：利用分词工具对所述初始种子网页的标题和正文进行分词，以得到所述初始种子网页的初始关键词。

在本发明实施例中可以利用分词工具(例如：共享软件ICTCLAS)对初始种子网页已经标注出的标题和正文进行分词，得到初始种子网页的初始关键词。

S202：按照所述初始关键词的词性、词频和词位置信息计算各个初始关键词的权重值。

本步骤中再根据初始关键词的词性、词频和词所在位置计算每个初始关键词的权重。具体的计算公式可以如下所示：

Weight(W)＝Position(W)+Freq(W)+Pos(W)。本公式可以理解为：初始关键词W的权重值等于其位置取值、词性取值和词频取值之和。其中，Position(W)为位置取值，例如，初始关键词W同时出现在标题和正文中，则对应的Position(W)可以取值为3；如果W单独出现在标题中，则对应的Position(W)可以取值为2；如果W单独出现在正文中，则对应的Position(W)可以取值为1。Freq(W)为词频取值，即是W出现的次数/文档中所有词出现的次数之和。Pos(W)为词性取值，例如，如果W为名词或名词短语，则Pos(W)可以取值为1，否则为0。

当然，上述具体的数值是为方便本领域技术人员更好的理解本发明实施例而示出的具体例子，本发明实施例的权重值的计算方式在实际应用中可以根据实际情况或用户需求进行适应性调整。

S203：选取权重值大于预设阈值的若干个关键词作为最终关键词。

在得到每个属性关键词的权重值之后，选取出权重最大的前N个作为送入搜索引擎进行检索的最终关键词，其中，N的取值关系着搜索引擎返回的检索结果的数量，一般可以取5～15。

S204：将所述最终关键词通过搜索引擎进行检索以获得检索种子网页。

将所得的最终关键词送入搜索引擎进行检索，其中的搜索引擎可以采用Google、百度或搜狗等，搜索引擎将根据输入的最终关键字返回搜索结果，这里的搜索结果即是与初始种子网页相关的转载页面。其中，搜索引擎的选择也不影响本发明实施例的实现，因此，本发明也不限定搜索引擎的具体实现。

S103：按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料。

在得到相关种子网页之后，可以参考初始种子网页标注语料对相关种子页面进行标注。具体的，对相关种子页面可以只标注正文、标题和其他三个类别，其顺序可以是先标注正文，然后标注标题，最后标注其他。

其中，参考图3所示，所述步骤S103在实际应用中具体可以包括：

S301：按照所述初始种子标注网页语料中标注出的正文的子集，对所述相关种子网页的正文进行标注。

本步骤首先对相关种子网页中的正文进行标注，参考图4所示，所述步骤S301在实际应用中可以采用如下实现方式：

S401：从初始种子标注网页语料中提取正文的子集；所述子集为所述初始种子标注网页的正文的任一个或多个部分的内容。

本步骤中所述的子集是初始种子标注网页的正文的任意一段或者任意一句，也可以是任意多个段落或多个句子的内容。例如，子集可以直接等于初始种子标注网页的正文，也可以为正文的第一段和最后一段，还可以为正文中最长的一段内容等。

以子集为初始种子标注网页的正文为例，在具体实现时，则需要利用正文的边界文本来对相关种子页面的正文部分进行定位。具体的实现过程中，可以从初始种子页面被标注为“正文”的部分中分别找出正文的开始文本和结束文本。假设正文部分的总长度为L，则可以分别取前后L/5长度的文本作为开始文本和结束文本。当然，也可以根据实际情况选取其他长度的文本作为开始文本和结束文本。

S402：依据所述子集的初始起始部分和初始结束部分从所述相关种子网页中查找对应的相关起始部分和相关结束部分。

在得到初始种子标注网页的正文的开始文本和结束文本之后，需要将初始种子网页中的正文的开始文本和结束文本在相关种子页面正文中进行匹配，匹配到的相关种子网页中的相应位置称为相关起始部分和相关结束部分。

S403：按照内容提取工具对所述相关种子网页进行内容提取，得到提取起始部分和提取结束部分。

本步骤再利用内容提取工具从相关种子页面中直接提取出正文部分，直接提取得到的正文的起始文本和结束文本分别称为提取起始部分和提取结束部分。该提取过程，可以采用现有的内容提取方法，本发明实施例中不限定其提取方式。

S404：判断所述相关起始部分和提取起始部分，以及所述相关结束部分与所述提取结束部分是否相同，如果是，则进入步骤S405；如果否，则进入步骤S406。

在本步骤中，判断前述得到的相关起始部分和提取起始部分是否相同，且同时判断相关结束部分和提取结束部分是否相同，如果都相同，说明初始种子网页的正文与相关种子网页的正文内容完全相符，则在后续步骤S405中可以直接将相关起始部分和相关结束部分之间的内容标注为“正文”。如果不是，说明相关种子页面的正文内容大于初始种子页面的正文内容，则在后续步骤S406中将直接提取出的相关种子页面的内容，即是提取起始部分和提取结束部分之间的内容标记为“正文”。

S405：将所述相关起始部分和相关结束部分之间的内容标注为正文。

S406：将所述提取起始部分和提取结束部分之间的内容标注为正文。

需要说明的是，在对正文标注的过程中，如果无法在相关种子页面中同时找到初始种子页面正文的开始文本和结束文本，则可以不对相关种子页面进行任何标注，即抛弃该相关种子页面，尝试下一个相关种子页面。

S302：按照所述初始种子标注网页语料中标注出的标题，对所述相关种子网页的标题进行标注。

在对相关种子网页的标题进行标注时，采用全部匹配的原则。其中，参考图5所示，所述步骤S302在实际应用中具体可以采用如下实现方式：

S501：判断相关种子网页的标题与所述初始种子网页的标题是否一致，如果是，则进入步骤S502；如果否，则进入步骤S503。

S502：对所述相关种子网页的标题进行标注。

S503：结束对所述相关种子网页的标题标注过程。

可以看出，对于相关种子网页的标题的标注采用了整体匹配的方式，如能够在相关种子页面中全部找到标题文本，即是相关种子网页的标题与所述初始种子网页的标题完全一致，进一步的，且该标题文本没有位于已标注的正文内容之中，则将找到的标题文本标注为“标题”，否则结束对所述相关种子网页的标题标注过程。

S303：将所述相关种子网页中未标注的内容标注为其他。

在对正文和标题进行标注之后，由于文章转载时往往不会保留文章的作者和发表时间等信息，通常会保留正文和标题，所以在扩展初始种子语料时，可以只对相关种子页面中的正文和标题部分进行标注，所有剩余的未标注的部分都标注为“其他”。

S104：判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则进入步骤S105，如果否，则执行步骤S106。

本步骤中的预设条件，在实际应用中可以采用以下任意一个：一是如果没有任何种子网页可以进行有效的扩展，即搜索不到不在已标注网页语料库中的其他网页，二是达到用户设定的语料库的规模；例如，达到100M就停止)。

因此，本步骤在执行时具体判断所述相关种子标注网页语料和所述初始种子标注网页语料是否都已经进行了扩充即可，或者，判断所述相关种子标注网页语料和所述初始种子标注网页语料是否达到预先设定的规模。

S105：将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库。

如果满足预设条件，则将得到的相关种子标注网页语料和初始种子标注网页语料组合为标注网页语料库。

S106：将所述相关种子标注网页语料作为初始种子标注网页语料，并返回步骤S102。

如果没有满足预设条件，则将标注好的相关种子标注页面语料再作为初始种子标注网页语料，按照S102～S106的流程对标注好的相关种子标注页面语料再进行扩展，最终使得扩展的所有标注页面语料满足预设条件，从而构建出最终的标注网页语料库。

以上对现有技术中存在的问题及相应的解决方案进行了详细地介绍。采用本发明实施例中的构建标注网页语料库的方法，可以在给定的少量种子标注语料的情况下，不断地循环扩大标注语料的规模，形成大规模的标准标注语料，这种构建标注网页语料库的方法无需人工对相同的网页内容进行重复性标注，节省了人力资源和物理成本的同时，也使标注网页语料库可以实现更大的规模。进一步的，如果采用现有的这种标注网页语料的方法进行应用，例如“检索”应用，也会提高检索精度，从而避免影响到互联网服务器的性能。

具体的，参见图6，本发明实施例提供了另一种构建标注网页语料库的方法实施例2，可以包括：

S601：针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页。

本发明实施例中与实施例1的实现相似之处，可以互相参见，在本实施例中不再详细赘述。

S602：按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页。

S603：采用向量空间模型计算所述初始种子网页和所述检索种子网页的相似度。

本实施例与上一个实施例不同的是，在从搜索引擎直接获取到预设个数的相关种子网页之后，可以采用向量空间模型(也可以采用其他现有的相似度计算方法)，计算初始种子页面和各个检索种子页面的相似度。

S604：将所述相似度的值大于预设阈值的若干个检索种子网页作为所述相关种子网页。

计算得到相似度之后，将相似度大于某个阈值的检索种子网页作为相关种子页面。本实施例之所以不直接将前M个结果页面作为相关种子网页，而需要增加计算相似度的步骤，主要基于以下因素：搜索引擎的搜索结果的排序并不能直接揭示检索种子页面和查询词之间的相似关系，这主要是由搜索引擎的具体排序算法决定的。

现在搜索引擎的返回结果排序算法涉及到大量的因子(例如百度的竞价排名)，而相似度只是其中的一个因子而已。所以，对直接得到的搜索结果，本实施例中再次通过计算网页之间的相似度，以精确的找到初始种子网页的相关种子网页，即是转载网页。具体的，对于相似度的计算，可以利用分词工具分别对相关网页进行分词然后计算他们与种子页面向量的余弦(cos)值得到，也就是向量空间模型。

S605：按照所述初始种子标注网页语料中标注出的正文的子集，对所述相关种子网页的正文进行标注。

S606：按照所述初始种子标注网页语料中标注出的标题，对所述相关种子网页的标题进行标注。

S607：将所述相关种子网页中未标注的内容标注为其他，得到相关种子标注网页语料。

S608：判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则进入步骤S609；如果否，则进入步骤S610。

S609：将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库。

S610将所述相关种子标注网页语料作为初始种子标注网页语料，并执行所述步骤S602。

总之，在本实施例中，不仅能够实现实施例1中建立大规模标注网页语料库的目的，而且因为本实施例中对于搜索引擎的检索结果进行了优化，所以采用本实施例建立的标注网页语料库更为精确和有效，进一步的，也使得后续的应用更为有效和准确。

参见图7，本发明实施例提供了另一种构建标注网页语料库的方法实施例3，可以包括：

S701：针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页。

本发明实施例中与实施例1和实施例2的实现相似之处，可以互相参见，在本实施例中不再详细赘述。

S702：按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页。

S703：按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料。

S704：判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则进入步骤S705；如果否，则进入步骤S706。

S705：将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库，进入步骤707。

S706：将所述相关种子标注网页语料作为初始种子标注网页语料，并返回步骤S702。

S707：依据所述标注网页语料库训练一个用于提取网页内容的提取模型。

在本实施例中，采用前述方式构建了标注网页语料库之后，还能够以构建的标注网页语料库为基础，训练一个用于提取网页内容的提取模型。

S708：按照所述提取模型提取目标网页中的标题和正文内容。

按照训练出的提取模型可以对目标网页中的标题和正文内容进行提取，从而可以精确的获得目标网页中的标题和正文。因此采用本实施例的方法可以提高内容提取的精度和准确度。

当然，在构建了标注网页语料库之后，还可以应用所述标注网页语料库建立索引，即是搜索引擎服务器可以参考构建的标注网页语料库中的标题和正文内容，方便快捷的建立索引。因为后续应用有很多，所以本发明实施例中不再一一列举，本领域技术人员可以结合现有技术中的应用进行实施。

与本发明实施例提供的第一种构建标注网页语料库的方法实施例1相对应，本发明实施例还提供了一种构建标注网页语料库的装置实施例1，参见图8，该装置可以包括：

生成模块801，用于针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页。

获取模块802，用于按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页。

其中，参考图9所示，所述获取模块802具体可以包括：

分词子模块901，用于利用分词工具对所述初始种子网页的标题和正文进行分词，以得到所述初始种子网页的初始关键词。

第一计算子模块902，用于按照所述初始关键词的词性、词频和词位置信息计算各个初始关键词的权重值。

第一选取子模块903，用于选取权重值大于预设阈值的若干个关键词作为最终关键词。

检索子模块904，用于将所述最终关键词通过搜索引擎进行检索以获得检索种子网页。

标注模块803，用于按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料。

其中，参考图10所示，所述标注模块803可以包括：

第一标注子模块1001，用于按照所述初始种子标注网页语料中标注出的正文的子集，对所述相关种子网页的正文进行标注。

其中，参考图11所示，所述第一标注子模块1001可以包括：

子集提取子模块1101，用于从初始种子标注网页语料中提取正文的子集；所述子集为所述初始种子标注网页的正文的任一个或多个部分的内容。

查找子模块1102，用于依据所述子集的初始起始部分和初始结束部分从所述相关种子网页中查找对应的相关起始部分和相关结束部分。

内容提取子模块1103，用于按照内容提取工具对所述相关种子网页进行内容提取，得到提取起始部分和提取结束部分。

第一判断子模块1104，用于判断所述相关起始部分和提取起始部分，以及所述相关结束部分与所述提取结束部分是否相同。

第四标注子模块1105，用于当所述第一判断子模块的结果为是时，将所述相关起始部分和相关结束部分之间的内容标注为正文。

第五标注子模块1106，用于当所述第一判断子模块的结果为否时，将所述提取起始部分和提取结束部分之间的内容标注为正文。

第二标注子模块1002，用于按照所述初始种子标注网页语料中标注出的标题，对所述相关种子网页的标题进行标注。

其中，参考图12所示，所述第二标注子模块1002具体可以包括：

第二判断子模块1201，用于判断相关种子网页的标题与所述初始种子网页的标题是否一致。

第六标注子模块1202，用于当所述第二判断子模块的结果为是时，对所述相关种子网页的标题进行标注。

结束子模块1203，用于当所述第二判断子模块的结果为否时，结束对所述相关种子网页的标题标注过程。

第三标注子模块1003，用于将所述相关种子网页中未标注的内容标注为其他。

判断模块804，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件。

所述判断模块804具体可以包括：用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否都已经进行了扩充；或者，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否达到预先设定的规模。

组合模块805，用于当所述判断模块的结果为是时，将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库。

触发模块806，用于当所述判断模块的结果为否时，将所述相关种子标注网页语料作为初始种子标注网页语料，并触发所述获取模块802。

采用本发明实施例中的构建标注网页语料库的装置，可以在给定的少量种子标注语料的情况下，不断地循环扩大标注语料的规模，形成大规模的准标注语料，这种构建标注网页语料库的方法无需人工对相同的网页内容进行重复性标注，节省了人力资源和物理成本的同时，也使标注网页语料库可以实现更大的规模。

与本发明实施例提供的第一种构建标注网页语料库的方法实施例2相对应，本发明实施例还提供了一种构建标注网页语料库的装置实施例2，参考图13所示，该装置可以包括：

获取模块802，用于按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的检索种子网页。

第二计算子模块1301，应用采用向量空间模型计算所述初始种子网页和所述检索种子网页的相似度。

第二选取子模块1302，用于选取所述相似度的值大于预设阈值的若干个检索种子网页作为所述相关种子网页。

总之，采用本实施例的装置构建标注网页语料库，不仅能够实现建立大规模标注网页语料库的目的，而且因为本实施例中对于搜索引擎的检索结果进行了优化，所以采用本实施例建立的标注网页语料库更为精确和有效，进一步的，也使得后续的应用更为有效和准确。

与本发明实施例提供的第一种构建标注网页语料库的方法实施例3相对应，本发明实施例还提供了一种构建标注网页语料库的装置实施例3，参考图14，该装置可以包括：

触发模块806，用于当所述判断模块的结果为否时，将所述相关种子标注网页语料作为初始种子标注网页语料，并触发所述获取模块902。

训练模块1401，用于依据所述标注网页语料库训练一个用于提取网页内容的提取模型。

提取模块1402，用于按照所述提取模型提取目标网页中的标题和正文内容。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图15所示的通用个人计算机1500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图15中，中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机存取存储器(RAM)1503的程序执行各种处理。在RAM 1503中，也根据需要存储当CPU 1501执行各种处理等等时所需的数据。

CPU 1501、ROM 1502和RAM 1503经由总线1504彼此连接。输入/输出接口1505也连接到总线1504。

下述部件连接到输入/输出接口1505：输入部分1506，包括键盘、鼠标等等；输出部分1507，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分1508，包括硬盘等等；和通信部分1509，包括网络接口卡比如LAN卡、调制解调器等等。通信部分1509经由网络比如因特网执行通信处理。

根据需要，驱动器1510也连接到输入/输出接口1505。可拆卸介质1511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1510上，使得从中读出的计算机程序根据需要被安装到存储部分1508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图15所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1511。可拆卸介质1511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1502、存储部分1508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

附记1.一种构建标注网页语料库的方法，包括：

针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页；

按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页；

按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料；以及

判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库；如果否，则将所述相关种子标注网页语料作为初始种子标注网页语料，并执行所述从搜索引擎中获取预设个数的相关种子网页的步骤。

2、根据附记1所述的方法，其中，所述按照所述初始种子网页标注语料对所述相关种子网页进行标注的步骤，包括：

按照所述初始种子标注网页语料中标注出的正文的子集，对所述相关种子网页的正文进行标注；

按照所述初始种子标注网页语料中标注出的标题，对所述相关种子网页的标题进行标注；以及

将所述相关种子网页中未标注的内容标注为其他。

3、根据附记2所述的方法，其中，所述对所述相关种子网页的正文进行标注的步骤，包括：

从初始种子标注网页语料中提取正文的子集；所述子集为所述初始种子标注网页的正文的任一个或多个部分的内容；

依据所述子集的初始起始部分和初始结束部分从所述相关种子网页中查找对应的相关起始部分和相关结束部分；

按照内容提取工具对所述相关种子网页进行内容提取，得到提取起始部分和提取结束部分；以及

判断所述相关起始部分和提取起始部分，以及所述相关结束部分与所述提取结束部分是否相同，如果是，则将所述相关起始部分和相关结束部分之间的内容标注为正文，如果否，则将所述提取起始部分和提取结束部分之间的内容标注为正文。

4、根据附记2所述的方法，其中，所述对所述相关种子网页的标题进行标注的步骤，包括：

判断相关种子网页的标题与所述初始种子网页的标题是否一致，如果是，则对所述相关种子网页的标题进行标注；如果否，则结束对所述相关种子网页的标题标注过程。

5、根据附记1所述的方法，其中，所述按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页的步骤，包括：

利用分词工具对所述初始种子网页的标题和正文进行分词，以得到所述初始种子网页的初始关键词；

按照所述初始关键词的词性、词频和词位置信息计算各个初始关键词的权重值；

选取权重值大于预设阈值的若干个关键词作为最终关键词；以及

将所述最终关键词通过搜索引擎进行检索以获得检索种子网页。

6、根据附记5所述的方法，其中，所述将所述最终关键词通过搜索引擎进行检索以获得检索种子网页之后，还包括：

采用向量空间模型计算所述初始种子网页和所述检索种子网页的相似度；以及

将所述相似度的值大于预设阈值的若干个检索种子网页作为所述相关种子网页。

7、根据附记1所述的方法，其中，所述判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件的步骤，包括：

判断所述相关种子标注网页语料和所述初始种子标注网页语料是否都已经进行了扩充；或者

判断所述相关种子标注网页语料和所述初始种子标注网页语料是否达到预先设定的规模。

8、根据附记1所述的方法，其中，得到所述标注网页语料库之后，还包括：

依据所述标注网页语料库训练一个用于提取网页内容的提取模型；以及

按照所述提取模型提取目标网页中的标题和正文内容。

9、一种构建标注网页语料库的装置，包括：

生成模块，用于针对预先选取的初始种子网页生成初始种子标注网页语料，所述初始种子网页为不同类型的网页组成的集合，所述初始种子标注网页语料为标注出正文和标题的种子网页；

获取模块，用于按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页；

标注模块，用于按照所述初始种子网页标注语料对所述相关种子网页进行标注，得到相关种子标注网页语料；

判断模块，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件；

组合模块，用于当所述判断模块的结果为是时，将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库；以及

触发模块，用于当所述判断模块的结果为否时，将所述相关种子标注网页语料作为初始种子标注网页语料，并触发所述获取模块。

10、根据附记9所述的装置，其中，所述标注模块包括：

第一标注子模块，用于按照所述初始种子标注网页语料中标注出的正文的子集，对所述相关种子网页的正文进行标注；

第二标注子模块，用于按照所述初始种子标注网页语料中标注出的标题，对所述相关种子网页的标题进行标注；以及

第三标注子模块，用于将所述相关种子网页中未标注的内容标注为其他。

11、根据附记10所述的装置，其中，所述第一标注子模块包括：

子集提取子模块，用于从初始种子标注网页语料中提取正文的子集；所述子集为所述初始种子标注网页的正文的任一个或多个部分的内容；

查找子模块，用于依据所述子集的初始起始部分和初始结束部分从所述相关种子网页中查找对应的相关起始部分和相关结束部分；

内容提取子模块，用于按照内容提取工具对所述相关种子网页进行内容提取，得到提取起始部分和提取结束部分；

第一判断子模块，用于判断所述相关起始部分和提取起始部分，以及所述相关结束部分与所述提取结束部分是否相同；

第四标注子模块，用于当所述第一判断子模块的结果为是时，将所述相关起始部分和相关结束部分之间的内容标注为正文；以及

第五标注子模块，用于当所述第一判断子模块的结果为否时，将所述提取起始部分和提取结束部分之间的内容标注为正文。

12、根据附记10所述的装置，所述第二标注子模块包括：

第二判断子模块，用于判断相关种子网页的标题与所述初始种子网页的标题是否一致；

第六标注子模块，用于当所述第二判断子模块的结果为是时，对所述相关种子网页的标题进行标注；

结束子模块，用于当所述第二判断子模块的结果为否时，结束对所述相关种子网页的标题标注过程。

13、根据附记9所述的装置，所述获取模块包括：

分词子模块，用于利用分词工具对所述初始种子网页的标题和正文进行分词，以得到所述初始种子网页的初始关键词；

第一计算子模块，用于按照所述初始关键词的词性、词频和词位置信息计算各个初始关键词的权重值；

第一选取子模块，用于选取权重值大于预设阈值的若干个关键词作为最终关键词；

检索子模块，用于将所述最终关键词通过搜索引擎进行检索以获得检索种子网页。

14、根据附记13所述的装置，还包括：

第二计算子模块，用于采用向量空间模型计算所述初始种子网页和所述检索种子网页的相似度；以及

第二选取子模块，用于选取所述相似度的值大于预设阈值的若干个检索种子网页作为所述相关种子网页。

15、根据附记9所述的装置，所述判断模块包括：

用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否都已经进行了扩充；或者，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否达到预先设定的规模。

16、根据附记9所述的装置，还包括：

训练模块，用于依据所述标注网页语料库训练一个用于提取网页内容的提取模型；以及

提取模块，用于按照所述提取模型提取目标网页中的标题和正文内容。

Claims

1.一种构建标注网页语料库的方法，所述标注网页语料库用于训练提取模型以按照所述提取模型提取目标网页中的标题和正文，所述方法包括：

判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件，如果是，则将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库；如果否，则将所述相关种子标注网页语料作为初始种子标注网页语料，并执行所述按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页的步骤。

2.根据权利要求1所述的方法，其中，所述按照所述初始种子网页标注语料对所述相关种子网页进行标注的步骤，包括：

将所述相关种子网页中未标注的内容标注为其他。

3.根据权利要求2所述的方法，其中，所述对所述相关种子网页的正文进行标注的步骤，包括：

4.根据权利要求2所述的方法，其中，所述对所述相关种子网页的标题进行标注的步骤，包括：

5.根据权利要求1所述的方法，其中，所述判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件的步骤，包括：

6.一种构建标注网页语料库的装置，所述标注网页语料库用于训练提取模型以按照所述提取模型提取目标网页中的标题和正文，所述装置包括：

7.根据权利要求6所述的装置，其中，所述标注模块包括：

8.根据权利要求7所述的装置，其中，所述第一标注子模块包括：

9.根据权利要求7所述的装置，所述第二标注子模块包括：

第六标注子模块，用于当所述第二判断子模块的结果为是时，对所述相关种子网页的标题进行标注；以及

10.根据权利要求6所述的装置，所述判断模块：用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否都已经进行了扩充；或者，用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否达到预先设定的规模。