CN101118553A

CN101118553A - 一种策略导向的面向领域的互联网信息采集方法

Info

Publication number: CN101118553A
Application number: CNA2007100497090A
Authority: CN
Inventors: 姜边
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-08-09
Filing date: 2007-08-09
Publication date: 2008-02-06
Anticipated expiration: 2027-08-09
Also published as: CN100485690C

Abstract

本发明公开了一种策略导向的面向领域的互联网信息采集方法。该互联网信息采集方法步骤如下：由领域专家人工添加，或采用软件自动分类方法，或利用第二代搜索引擎的分类目录选定指定领域的领域网站集；编写信息采集策略，利用信息采集策略解释器分析编写好的信息采集策略，指导网页采集器在领域网站集中采集目标网页；建立能够代表指定领域特点的名词组成的领域名词库，根据领域名词定义，利用网页信息分析器获取目标网页中的领域相关信息；将领域相关信息放入领域信息数据库。与现有技术相比，本发明具有高适应性，平台无关性，部署灵活，以此作为垂直搜索引擎的核心和基础模块能高效、准确地为垂直搜索引擎的信息分析单元提供原始数据。

Description

一种策略导向的面向领域的互联网信息采集方法

技术领域

本发明涉及一种用于垂直搜索引擎的互联网信息采集方法。

背景技术

搜索引擎技术发展至今，已经经过了两代的技术更新。1998年，以Google和DirectHit为代表的第二代搜索引擎出现在互联网上。它们基于链接分析和分词技术，对互联网上的信息进行无差别地搜索，其优势是可以用一种统一的数学模型处理互联网上各种各样的数据而不需要对数据本身的含义加以区分。然而，第二代搜索引擎技术对信息的处理方式也成为了它的弊端。在处理海量数据的过程中，由于采用统一的数学模型和处理方式，第二代搜索引擎将信息作为无差别的数据单元进行处理。这种处理方式使得第二代搜索引擎无法区分数据之间的区别，特别是具有同样关键字的数据在不同领域所具有的特殊含义。

随着越来越多互联网应用的出现，人们不再仅仅关注从互联网获得信息的数量，而越来越关心信息的质量。用户对信息的新需求导致了以垂直搜索引擎技术为主体和核心的第三代搜索引擎的诞生。垂直搜索引擎分析网页的方法与方向与第二代搜索引擎不同。第二代搜索引擎进行网页分析时，主要以关键词提取为目标，而不关心网页内容本身的含义；垂直搜索引擎的信息采集目标是领域相关信息，因此，它在分析网页时，不仅仅需要关注网页中的关键词，还应该能够“理解”网页内容在特定领域下的含义。要求垂直搜索引擎能够具备识别和处理领域相关信息的能力。识别和处理领域相关信息，这是目前垂直搜索引擎面临的难题。

由于不同领域的信息内容与数据结构有可能很不相同，甚至互相不兼容，故垂直搜索引擎不能继续使用第二代搜索引擎的数据采集方式。对于不同领域的信息，垂直搜索引擎的数据采集方式应该有针对性，这样才能更好地适应各领域的特点。因此，垂直搜索引擎的数据采集机构应该被重新设计。

发明内容

本发明的目的就是针对现有技术的不足，提供一种策略导向的面向领域的互联网信息采集方法，该互联网信息采集方法不仅可针对不同领域的特点，进行灵活地配置，从而根据领域特点定制垂直搜索引擎的信息采集的行为，而且具有高适应性，平台无关性，部署灵活，以此作为垂直搜索引擎的核心和基础模块能高效、准确地为垂直搜索引擎的信息分析单元提供原始数据。

为实现上述目的，本发明的技术方案如下：

本发明提出的策略导向的面向领域的互联网信息采集方法步骤如下：

(1)由领域专家人工添加，或采用软件自动分类方法，或利用第二代搜索引擎的分类目录选定指定领域的领域网站集；网站集是面向领域信息采集的初始范围，也是进行面向领域信息采集的第一步。

(2)编写信息采集策略，利用信息采集策略解释器分析编写好的信息采集策略，指导网页采集器在领域网站集中采集目标网页。

(3)建立能够代表指定领域特点的名词组成的领域名词库，根据领域名词定义，利用网页信息分析器获取目标网页中的领域相关信息。

(4)将领域相关信息放入领域信息数据库。

所述信息采集策略采用XML语言编写。该XML Schema的根结点是一个site标签，定义所述领域网站集中一个领域网站的信息采集策略，根结点的属性包括该网站的名称、URL和登录器。根结点下有startPages子结点，定义对该网站进行信息采集的起始页集合，startPages子结点下包含startPage元素结点；startPage元素结点的属性包括该startPage元素结点对应的起始页的地址和扩展信息。根结点下有pageTypes子结点，定义该网站中的相似网页集，pageTypes子结点下包含pageType元素结点；pageType元素结点的属性包括该相似网页集的名称、判别标准、扩展信息分析器，及网页处理器。pageType元素结点下有expectedValues元素，定义网页采集器需要在该expectedValues元素所在的pageType元素结点对应的相似网页集中提取的公共变量集合；expectedValues元素下有expectedValue子元素，定义一个公共变量；所述公共变量来源于expectedValues元素所在的pageType元素结点对应的相似网页集的扩展信息和网页采集器当前采集页面的内容。pageType元素结点下有expectedUrls元素，定义该expectedUrls元素所在pageType元素结点对应的相似网页集在信息采集路径上的下一个pageType元素结点；expectedUrls元素下有expectedUrl子元素，定义一个新的相似网页集。

所述信息采集策略代码如下：

<？xml version＝″1.0″encoding＝″utf-8″？>

<site xmlns:xsi＝″http://www.w3.org/2001/XMLSchema-instance″

xsi:noNamespaceSchemaLocation＝″SiteXml.xsd″name＝″smt″

siteUrl＝″http://www.scsme.gov.cn/smt″>

<startPage url＝″http://www.scsme.gov.cn/smt/yp_add_vlist.asp？id＝40″

extInfo＝″homepage`yp_add_vlist.asp？id＝40″/>

</startPages>

</expectedValues>

<expectedUrl urlPattern＝″yp_add_list\.asp\？id＝[0-9]{3}$″

extInfo＝″corpList`${url}`${province}″/>

</expectedUrls>

</pageType>

<pageType name＝″corpList″

expectedExtInfoPattern＝″^corpList`(？&lt；url&gt；[^`]+)`(？&lt；province&gt；[^`]+)$″>

</expectedValues>

<expectedUrl

generatedUrlPattem＝″http://www.scsme.gov.cn/smt/co/co8/contact.asp？id＝${url.id}″

urlPattem＝″http://www\.scsme\.gov\.cn/smt/co\.asp\？id＝(？&lt；id&gt；[0-9]+)″

extInfo＝″corpInfo`${extInfo.proyince}`${city}″/>

</expectedUrls>

</pageType>

<pageType userDefinedHandler＝″SmartSearcherConsole.SmtPageHandler″name＝″corpInfo″

expectedExtInfoPattern＝″^corpInfo`(？&lt；province&gt；[^`]+)`(？&lt；city&gt；[^`]+)$″>

</expectedValues>

</pageType>

</pageTypes>

</site>

所述信息采集策略解释器是整个互联网信息采集方法的推动单元，其作用是分析给定的信息采集策略代码，并制导网页采集器的行为。信息采集策略解释器的工作包括：读入并分析信息采集策略代码，验证其合法性，并将其转化为可执行的结构；按照pageType元素结点的定义进行相似网页集的划分和处理；按照pageType元素结点中expectedUrl子元素的定义，产生当前pageType元素结点对应的相似网页集的所有后继相似网页集；在需要覆盖信息采集策略解释器默认行为的地方，动态地创建分析器或处理器。所述信息采集策略解释器的工作流程如下：

(1)读入信息采集策略代码并将其转化为内存可执行形式；

(2)将信息采集策略代码中startPages子结点中的起始页URL添加到网页库中，并将它们的状态标注为“待采集”；

(3)启动网页采集器从网页库中取出状态为“待采集”的URL进行网页采集；

(4)对于每一个待采集的网页，根据信息采集策略代码中pageTypes子结点的定义，将当前网页匹配至每一个pageType元素结点定义，直到找到第一个可以匹配的pageType元素结点为止；对于成功匹配的网页，根据成功匹配的pageType元素结点定义，生成对应的expectedValue和expectedUrl，并将产生的URL添加到网页库中；如果找不到成功匹配的pageType元素结点定义，则忽略该网页；

(5)重复第(4)个步骤直到网页库中不存在状态为“待采集”的URL为止。

所述网页采集器是本发明即一种策略导向的面向领域的互联网信息采集方法与互联网交互的部分，其作用是在信息采集策略的指导下，不断地从互联网上抓取目标网页。网页采集器的本质是一个简化的浏览器，模拟一般浏览器进行互联网访问的全过程，但裁剪掉了显示HTML和执行JavaScript、VBScript等客户端脚本功能。

领域名词对领域的特征有很强的表现力，一般而言，各领域都有其最具代表性或最典型的领域名词。所述领域名词定义及其取值和类型均采用XML语言定义；该XML Schema的根结点是一个dv标签，定义一条领域名词，根结点的属性包括该领域名词的名称和类型，其中类型属性的取值为布尔型或单值型或多值型或结构型；根结点下有零个或多个synonym子结点，定义该领域名词的一个同义词，synonym子结点的属性包括该领域名词同义词的名称；当根结点的类型属性的取值为单值型或多值型或结构型时，根结点下有value子结点，定义该领域名词的一个取值，value子结点的属性包括该领域名词取值的内容。

所述网页信息分析器的作用是分析由网页采集器采集的网页，尝试提取其中的领域相关信息，主要以提取领域名词及其取值为工作方向，将网页中非结构化的信息转化为结构化的信息，为垂直搜索引擎的用户交互部分提供领域信息库。所述网页信息分析器的工作流程如下：

(1)将目标网页的HTML代码转化为XHTML代码；

(2)将XHTML代码转化为DOM树；

(3)计算DOM树中各结点的领域覆盖度和领域信息比，并按给定的阈值将内容结点筛选出来；

(4)对于DOM树中的每个内容结点，根据领域名词库中的领域名词类型，分别采取提取领域名词取值信息；

(5)重复第(4)个步骤直到所有的内容结点都被处理。

所述网页库用于存放网页采集器从互联网上采集的网页。网页库中的每个网页除了具有URL、采集时间、内容长度这些第二代搜索引擎的网页库具备的基本属性外，还有一个与信息采集策略有很大关系的属性，即扩展信息。扩展信息属性是网页的“描述符”，是非自描述的，不独立表义，网页扩展信息的意义由信息采集策略的相关部分确定。在默认情况下，信息采集策略解释器按照正则表达式的语法对网页扩展信息进行分析，但信息采集策略的制定者(开发人员或程序)可根据具体情况覆盖信息采集策略解释器对网页扩展信息的处理方式。

与现有技术相比，本发明的有益效果是：具有高适应性，可根据信息采集目标领域的特点定制恰当的信息采集方案；具有平台无关性，部署灵活，以此作为垂直搜索引擎的核心和基础模块能高效、准确地为垂直搜索引擎的信息分析单元提供原始数据。

附图说明

图1是策略导向的面向领域的互联网信息采集方法流程图。

图2是网页信息分析器的工作流程图。

图3是信息采集策略解释器的工作流程图。

具体实施方式

下面结合附图，对本发明的优选实施例作进一步的描述。

实施例一

如图1、图2、图3所示。使用策略导向的面向领域的互联网信息采集方法，实现手机领域相关信息的采集，采集目标为手机的相关参数和手机的当前价格，并根据信息采集的效果对所述互联网信息采集方法的性能进行评测。

第一步，由人工添加选定指定领域的领域网站集。使用以下手机网上商城作为领域网站集：

18900手机网：http://www.18900.com/

52手机商城：http://www.52mobiles.com/

鸿信通手机网：http://www.529buy.com/

友人手机网：http://www.younet.com/

中关村手机频道：http://mobile.zol.com.cn/

手机之家：http://www.imobile.com.cn/

北斗手机网：http://www.139shop.com/

第二步，编写信息采集策略，利用信息采集策略解释器分析编写好的信息采集策略，指导网页采集器在领域网站集中采集目标网页。

所述信息采集策略采用XML语言编写；该XML Schema的根结点是一个site标签，定义所述领域网站集中一个领域网站的信息采集策略，根结点的属性包括该网站的名称、URL和登录器。根结点下有startPages子结点，定义对该网站进行信息采集的起始页集合，startPages子结点下包含startPage元素结点；startPage元素结点的属性包括该startPage元素结点对应的起始页的地址和扩展信息。根结点下有pageTypes子结点，定义该网站中的相似网页集，pageTypes子结点下包含pageType元素结点；pageType元素结点的属性包括该相似网页集的名称、判别标准、扩展信息分析器，及网页处理器。pageType元素结点下有expectedValues元素，定义网页采集器需要在该expectedValues元素所在的pageType元素结点对应的相似网页集中提取的公共变量集合；expectedValues元素下有expectedValue子元素，定义一个公共变量；所述公共变量来源于expectedValues元素所在的pageType元素结点对应的相似网页集的扩展信息和网页采集器当前采集页面的内容。pageType元素结点下有expectedUrls元素，定义该expectedUrls元素所在pageType元素结点对应的相似网页集在信息采集路径上的下一个pageType元素结点；expectedUrls元素下有expectedUrl子元素，定义一个新的相似网页集。

领域网站集中18900手机网的信息采集策略代码如下：

<？xml version＝″1.0″encoding＝″utf-8″？>

<site xmlns:xsi＝″http://www.w3.org/2001/XMLSchema-instance″

xsi:noNamespaceSchemaLocation＝″../SiteXml.xsd″name＝″18900″

siteUrl＝″http://www.18900.com″>

</startPages>

<expectedUrl urlPattern＝″^/list\.php\？goods_type＝5|6&amp；goods_corp＝[0-9]+$″

extInfo＝″manu`${url.text}″/>

</expectedUrls>

</pageType>

<expectedUrl extInfo＝″product`${url.text}manu`${extInfo.name}″

urlPattern＝″^/goods/[^\.]+\.html$″/>

</expectedUrls>

</pageType>

<pageType name＝″product″expectedExtInfoPattern＝″^product`(？&lt；product&gt；[^`]+)

manu`(？&lt；manu&gt；[^`]+)″

userDefinedHandler＝″SmartSearcherEngine.Test.Cellphone.CellphoneInformationCollector″/>

</pageTypes>

</site>

所述信息采集策略解释器的工作流程如下：

(1)读入信息采集策略代码并将其转化为内存可执行形式；

所述网页采集器是一个简化的浏览器，模拟一般浏览器进行互联网访问的全过程，但裁剪掉了客户端脚本功能。

第三步，建立能够代表指定领域特点的名词组成的领域名词库，根据领域名词定义，利用网页信息分析器获取目标网页中的领域相关信息。

所述领域名词定义及其取值和类型均采用XML语言定义；该XML Schema的根结点是一个dv标签，定义一条领域名词，根结点的属性包括该领域名词的名称和类型，其中类型属性的取值为布尔型或单值型或多值型或结构型；根结点下有零个或多个synonym子结点，定义该领域名词的一个同义词，synonym子结点的属性包括该领域名词同义词的名称；当根结点的类型属性的取值为单值型或多值型时，根结点下有value子结点，定义该领域名词的一个取值，value子结点的属性包括该领域名词取值的内容。

领域名词库定义代码部分如下：

<？xml version＝″1.0″encoding＝″utf-8″？>

<dvs>

</dv>

</dv>

</dv>

</dv>

</dvs>

所述网页信息分析器的工作流程如下：

(1)将目标网页的HTML代码转化为XHTML代码；

(2)将XHTML代码转化为DOM树；

(3)计算DOM树中各结点的领域覆盖度和领域信息比，并按给定的阈值(本次测试中取60％)将内容结点筛选出来；

(5)重复第(4)个步骤直到所有的内容结点都被处理。

第四步，将领域相关信息放入领域信息数据库。

实验结果包含以下参数：

总网页数N_atotal：策略导向的面向领域的互联网信息采集方法在对应的网站上采集的网页总数。

过程网页数N_intermediate：策略导向的面向领域的互联网信息采集方法在对应的网站上采集的过程网页的数量。

目标网页数N_domain：策略导向的面向领域的互联网信息采集方法在对应的网站上采集的包含领域相关信息的网页数量。

领域信息率R_domain：目标网页数与总网页数的比值，计算公式为

R_{domain} = \frac{N_{domain}}{N_{total}}

平均网页处理时间T_average：策略导向的面向领域的互联网信息采集方法在对应的网站上分析每个网页平均耗费的平均时间(单位为毫秒)。此时间不包含下载网页所需的网络传输时间。

网站	N_total	N_intermediate	N_domain	R_domain(％)	T_average(ms)
网站	N_total	N_intermediate	N_domain	R_domain(％)	T_average(ms)	18900手机网	626	38	588	93.93	64.82
52手机商城	398	26	372	93.47	91.98	18900手机网	626	38	588	93.93	64.82
52手机商城	398	26	372	93.47	91.98	鸿信通手机网	1151	90	1061	92.18	98.81
友人手机网	4717	98	4619	97.92	28.57	鸿信通手机网	1151	90	1061	92.18	98.81
友人手机网	4717	98	4619	97.92	28.57	中关村手机频道	492	20	472	95.93	1648.37
手机之家	3307	68	3239	97.94	45.80	中关村手机频道	492	20	472	95.93	1648.37
手机之家	3307	68	3239	97.94	45.80	北斗手机网	4768	123	4645	97.42	64.10

从以上实验结果可以看出，策略导向的面向领域的互联网信息采集方法在进行信息采集的时候，通过信息采集策略的指导和领域名词定义的约束，可进行高效的领域相关信息采集，既可获得较高领域信息率，又具有较高执行效率。

实施例二

如图1、图2、图3所示。与实施例一相同的地方不再重复叙述，不同之处在于：采用软件自动分类方法选定指定领域的领域网站集。

定义一段典型的信息采集策略代码。

<？xml version＝″1.0″encoding＝″utf-8″？>

<site xmlns:xsi＝″http://www.w3.org/2001/XMLSchema-instance″

xsi:noNamespaceSchemaLocaion＝″SiteXml.xsd″name＝″smt″

siteUrl＝″http://www.scsme.gov.cn/smt/″>

<startPage url＝″http://www.scsme.gov.cn/smt/yp_add_vlist.asp？id＝40″

extInfo＝″homepage`yp_add_vlist.asp？id＝40″/>

</startPages>

</expectedValues>

<expectedUrl urlPattern＝″yp_add_list\.asp\？id＝[0-9]{3}$″

extInfo＝″corpList`${url}`${province}″/>

</expectedUrls>

</pageType>

<pageType name＝″corpList″

</expectedValues>

<expectedUrl

generatedUrlPattern＝″http://www.scsme.gov.cn/smt/co/co8/contact.asp？id＝${url.id}″

urlPattern＝″http://www\.scsme\.gov\.cn/smt/co\.asp\？id＝(？&lt；id&gt；[0-9]+)″

extInfo＝″corpInfo`${extInfo.province}`${city}″/>

</expectedUrls>

</pageType>

</expectedValues>

</pageType>

</pageTypes>

</site>

其中，所述信息采集策略中pageType元素结点的扩展信息分析器属性采用C#定义，具体代码如下：

public interface IPageHandler

{

void Handle(string url，string html，PageTypeParsingResult pageTypeParseResult)；

}

其中url为当前正在分析的网页地址，html为该网页的HTML代码，pageTypeParseResult的定义如下(C#定义，只列出数据成员)：

public class PageTypeParsingResult

{

SiteCrawlingStrategy m_scs；

List<PendingURL>m_urls；

SortedList<string，List<string>>m_values；

}

其中m_scs为网页采集器策略对象，m_urls为网页采集器在当前网页中新发现的，需要加到URL队列中的URL列表，m_values为网页采集器根据expectedValues元素的值从当前网页中取得的值。扩展信息的作用是采用一定策略填充m_urls的内容。

实施例三

如图1、图2、图3所示。与实施例一相同的地方不再重复叙述，不同之处在于：利用第二代搜索引擎的分类目录选定指定领域的领域网站集。

Claims

1.一种策略导向的面向领域的互联网信息采集方法，其特征在于：所述互联网信息采集方法步骤如下：

(1)由领域专家人工添加，或采用软件自动分类方法，或利用第二代搜索引擎的分类目录选定指定领域的领域网站集；

(2)编写信息采集策略，利用信息采集策略解释器分析编写好的信息采集策略，指导网页采集器在领域网站集中采集目标网页；

(3)建立能够代表指定领域特点的名词组成的领域名词库，根据领域名词定义，利用网页信息分析器获取目标网页中的领域相关信息；

(4)将领域相关信息放入领域信息数据库。

2.根据权利要求1所述的互联网信息采集方法，其特征在于：

所述信息采集策略采用XML语言编写；该XML Schema的根结点是一个site标签，定义所述领域网站集中一个领域网站的信息采集策略，根结点的属性包括该网站的名称、URL和登录器；

根结点下有startPages子结点，定义对该网站进行信息采集的起始页集合，startPages子结点下包含startPage元素结点；startPage元素结点的属性包括该startPage元素结点对应的起始页的地址和扩展信息；

根结点下有pageTypes子结点，定义该网站中的相似网页集，pageTypes子结点下包含pageType元素结点；pageType元素结点的属性包括该相似网页集的名称、判别标准、扩展信息分析器，及网页处理器；

pageType元素结点下有expectedValues元素，定义网页采集器需要在该expectedValues元素所在的pageType元素结点对应的相似网页集中提取的公共变量集合；expectedValues元素下有expectedValue子元素，定义一个公共变量；所述公共变量来源于expectedValues元素所在的pageType元素结点对应的相似网页集的扩展信息和网页采集器当前采集页面的内容；

pageType元素结点下有expectedUrls元素，定义该expectedUrls元素所在pageType元素结点对应的相似网页集在信息采集路径上的下一个pageType元素结点；expectedUrls元素下有expectedUrl子元素，定义一个新的相似网页集。

3.根据权利要求2所述的互联网信息采集方法，其特征在于：所述信息采集策略解释器的工作流程如下：

(1)读入信息采集策略代码并将其转化为内存可执行形式；

4.根据权利要求1至3任一所述的互联网信息采集方法，其特征在于：所述网页采集器是一个简化的浏览器，模拟一般浏览器进行互联网访问的全过程，但裁剪掉了客户端脚本功能。

5.根据权利要求1至3任一所述的互联网信息采集方法，其特征在于：所述领域名词定义及其取值和类型均采用XML语言定义；该XML Schema的根结点是一个dv标签，定义一条领域名词，根结点的属性包括该领域名词的名称和类型，其中类型属性的取值为布尔型或单值型或多值型或结构型；根结点下有零个或多个synonym子结点，定义该领域名词的一个同义词，synonym子结点的属性包括该领域名词同义词的名称；当根结点的类型属性的取值为单值型或多值型时，根结点下有value子结点，定义该领域名词的一个取值，value子结点的属性包括该领域名词取值的内容。

6.根据权利要求5所述的互联网信息采集方法，其特征在于：所述网页信息分析器的工作流程如下：

(1)将目标网页的HTML代码转化为XHTML代码；

(2)将XHTML代码转化为DOM树；

(5)重复第(4)个步骤直到所有的内容结点都被处理。