CN105095386A

CN105095386A - 确定网页质量的装置及方法

Info

Publication number: CN105095386A
Application number: CN201510377033.2A
Authority: CN
Inventors: 王智广
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-11-25

Abstract

本发明涉及网络数据通信技术领域，公开了确定网页质量的装置及方法。所述装置包括：获取模块，适于获取待确定网页URL和URL对应的锚文字；分类模块，适于根据所述URL所属的网址模式，将所述URL划分为各个类别；查找模块，适于在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；确定模块，适于对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。本发明能够解决确定网页质量的操作的效率较低的问题，取得了提高确定网页质量操作的效率的有益效果，并且之后可以根据网页质量进行抓取，进而能够节省抓取的流量，提升搜索引擎收录的覆盖率和时效性。

Description

确定网页质量的装置及方法

技术领域

本发明涉及网络数据通信技术领域，具体涉及确定网页质量的装置及方法。

背景技术

搜索引擎的蜘蛛程序每天能够发现大量的互联网中新产生的URL。因为搜索引擎每天能够实际抓取的URL数量有限，所以蜘蛛程序在进行抓取之前，需要对发现的URL进行选择，从中选择高质量的URL进行抓取。在现有技术中，对URL进行质量确定的方法包括如下两种。一种是根据网页内容确定URL对应的网页的质量。另一种是和该网页内容类似的网页的抓取量来确定URL对应的网页的质量。例如，如果和该网页内容类似的网页的抓取量较大时，降低URL对应的网页的抓取概率。

但是，通过网页内容或相关网页的抓取量来确定网页质量，需要获得较多的信息，并且对信息的处理复杂，导致确定网页质量的操作的效率较低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定网页质量的装置及方法。

依据本发明的一个方面，提供了一种确定网页质量的装置，该装置包括：

获取模块，适于获取待确定网页URL和URL对应的锚文字；

分类模块，适于根据所述URL所属的网址模式，将所述URL划分为各个类别；

查找模块，适于在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；

确定模块，适于对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。

可选地，所述查找模块，进一步包括：

计算子模块，适于根据URL对应的锚文字计算类别中各个URL间的相似度；

查找子模块，适于根据URL间相似度查找出类别中具有相似内容的多个URL。

可选地，所述确定模块，进一步适于根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取。

可选地，所述分类模块，进一步适于将属于同一网站的具有同一网址模式的URL划分到同一类别。

可选地，所述确定模块，进一步适于按URL的关注度对所述具有相似内容的多个URL进行排序；选择排序中的前N个URL进行网页抓取，其中，N为预设正整数。

可选地，所述计算子模块，进一步适于将同一类别中URL对应的锚文字分别进行分词，从分词所得词条中确定关键词；根据锚文字中关键词计算URL间相似度。

可选地，所述查找模块还包括：

去除子模块，适于在将同一类别中URL对应的锚文字分别进行分词之后，利用预设词表从对锚文字分词所得词条中，去除掉与锚文字的特征无关词条。

可选地，所述计算子模块，进一步适于根据词条所对应的频率，从分词所得词条中确定关键词。

根据本发明的另一方面，提供了一种确定网页质量的方法，该方法包括：

获取待确定网页URL和URL对应的锚文字；

根据所述URL所属的网址模式，将所述URL划分为各个类别；

在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；

对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。

可选地，所述根据URL对应的锚文件查找出具有相似内容的多个URL，进一步包括：

根据URL对应的锚文字计算类别中各个URL间的相似度；

根据URL间相似度查找出类别中具有相似内容的多个URL。

可选地，所述根据URL的预设特征确定URL对应的网页的质量，进一步包括：

根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取。

可选地，所述根据所述URL所属的网址模式，将所述URL划分为各个类别，进一步包括：

将属于同一网站的具有同一网址模式的URL划分到同一类别。

可选地，所述根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取进一步包括：

按URL的关注度对所述具有相似内容的多个URL进行排序；

选择排序中的前N个URL进行网页抓取，其中，N为预设正整数。

可选地，所述根据URL对应的锚文字计算类别中各个URL间的相似度，进一步包括：

将同一类别中URL对应的锚文字分别进行分词，从分词所得词条中确定关键词；

根据锚文字中关键词计算URL间相似度。

可选地，所述方法还包括：

在将同一类别中URL对应的锚文字分别进行分词之后，利用预设词表从对锚文字分词所得词条中，去除掉与锚文字的特征无关词条。

可选地，所述从分词所得词条中确定关键词，进一步包括：

根据词条所对应的频率，从分词所得词条中确定关键词。

根据本发明的技术方案可以获取待确定网页URL和URL对应的锚文字；根据URL所属的网址模式，将URL划分为各个类别；在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。由此解决了通过网页内容或相关网页的抓取量来确定网页质量，需要获得较多的信息，并且对信息的处理复杂，导致确定网页质量的操作的效率较低的问题，取得了提高确定网页质量操作的效率的有益效果，并且之后可以根据网页质量进行抓取，进而能够节省抓取的流量，提升搜索引擎收录的覆盖率和时效性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的确定网页质量的方法的流程图；

图2示出了根据本发明一个实施例的查找具有相似内容的URL的操作的流程图；

图3示出了根据本发明一个实施例的选择URL进行抓取的操作的流程图；

图4示出了根据本发明一个实施例的确定网页质量的方法的流程图；

图5示出了根据本发明一个实施例的确定网页质量的装置的结构图；以及

图6示出了根据本发明一个实施例的确定网页质量的装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的确定网页质量的方法的流程图。该方法适于各种与搜索引擎相关的服务器，如图1所示，该方法包括如下步骤。

在步骤S110中，获取待确定网页URL和URL对应的锚文字。

其中，锚文件(anchor)为连接源头文字，为网页对应的一段文字，用于对网页进行说明。

举例而言，在蜘蛛程序从网络中发现新的URL，该新的URL为待确定网页URL，在蜘蛛程序进行抓取之前，获得待确定网页的URL和URL对应的锚文字。之后，通过对URL和URL对应的锚文字的分析，确定待确定网页的质量。

在步骤S120中，根据URL所属的网址模式，将URL划分为各个类别。

在一实施例中，所述根据所述URL所属的网址模式，将所述URL划分为各个类别，进一步包括：将属于同一网站的具有同一网址模式的URL划分到同一类别。

举例而言，对于问答类的网站(比如zhidao.***.com)，用户每天可能产生大量的问题，这些问题有的会被其他用户解答，有的不会被解答。在这些问题中，搜索引擎对同一个问题可以只收录有回答并且答案较满意的部分网页即可。

对于zhidao.***.com网站中的如下的网页，它们具有同一网址模式，因此被划分到同一类别。

http://zhidao.***.com/question/433737807751460604.html

http://zhidao.***.com/question/1605209362191413347.html

http://zhidao.***.com/question/618238863630856372.html

http://zhidao.***.com/question/625161396233610844.html

http://zhidao.***.com/question/1367620128259860259.html

http://zhidao.***.com/question/2139209187911446788.html

http://zhidao.***.com/question/584108667629594845.html

确定出上述URL的第一级网址相同，判定上述URL属于同一网站；从前到后，当URL各级网址中具有相同网址的级数超过预设阈值，或网址级数相同并只有最后一级网址不同时，判定URL具有同一网址模式。将属于同一网站，并且具有同一网址模式的URL划分到同一类别。

在步骤S130中，在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL。

在一实施例中，如图2所示，所述根据URL对应的锚文件查找出具有相似内容的多个URL，包括如下步骤S210和步骤S220。

在步骤S210中，根据URL对应的锚文字计算类别中各个URL间的相似度。

进一步地，所述根据URL对应的锚文字计算类别中各个URL间的相似度，可包括：将同一类别中URL对应的锚文字分别进行分词，从分词所得词条中确定关键词；根据锚文字中关键词计算URL间相似度。

其中，所述从分词所得词条中确定关键词，可包括：根据词条所对应的频率，从分词所得词条中确定关键词。

此外，为避免无关词条干扰，可以对分词所得词条进行过滤。所述方法还可包括：在将同一类别中URL对应的锚文字分别进行分词之后，利用预设词表从对锚文字分词所得词条中，去除掉与锚文字的特征无关词条。

在步骤S220中，根据URL间相似度查找出类别中具有相似内容的多个URL。

例如，在同一类别中查找与同一URL的相似度大于预设相似度阈值的URL，将查找到的URL与该同一URL组成具有相似内容的多个URL。

举例而言，获取新发现URL以及对应的锚文字如下表所示。其中，URL属于同一网站，并具有同一网址模式(网址模式为http://zhidao.***.com/question/*.html)，被划分到同一类别。

计算URL对应的锚文字的相似度，将锚文字相似度作为URL的相似度。锚文字相似度的计算可采用多种方式，例如采用文档http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html中的如下方式计算URL的锚文字相似度。

第一步，两个文本字符串A和B，即两个锚文字A和B，对A和B分别做分词处理，按照预设词表中的词语将A和B中对文本内容识别意义不大但出现频率较高的词、符号、标点及乱码等去掉。如“这，的，和，会，为”等词几乎出现在任何一篇中文文本中，但是它们对这个文本所表达的意思几乎没有任何贡献的词，配置到预设词表中，将A和B中包含的这类词去除掉。

第二步，完成分词所得词条过滤后，根据剩下词的频度确定若干关键词。频度计算参照TF(termfrequency，条目频率)公式。加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制，权值计算参照IDF(inversedocumentfrequency，倒转文档频率)公式。

第三步，把锚文字字符串化为以关键词的权重为分量的N维向量表示。比如A＝(a1,a2,a3…an),B＝(b1,b2,b3….bn)，然后计算向量(a1,a2,a3…an)和(b1,b2,b3....bn)之间夹角的余弦值作为A和B的相似度。夹角的余弦值按如下公式一进行计算：

公式一(a1×b1+a2×b2+…+an×bn)/(sqrt(a1×a1+a2×a2+…+an×an)×sqrt(b1×b1+b2×b2+…+bn×bn)),其中函数sqrt()表示开根号

在步骤S140中，对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。

在一实施例中，所述根据URL的预设特征确定URL对应的网页的质量，可包括：根据URL的关注度从具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取。

进一步地，如图3所示，所述根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取可包括：

步骤S310，按URL的关注度对具有相似内容的多个URL进行排序。

步骤S320，选择排序中的前N个URL进行网页抓取。其中，N为预设正整数。

本实施例解决了通过网页内容或相关网页的抓取量来确定网页质量，需要获得较多的信息，并且对信息的处理复杂，导致确定网页质量的操作的效率较低的问题，取得了提高确定网页质量操作的效率的有益效果，并且之后可以根据网页质量进行抓取，进而能够节省抓取的流量，提升搜索引擎收录的覆盖率和时效性。

图4示出了根据本发明一个实施例的确定网页质量的方法的流程图；该方法适于各种与搜索引擎相关的服务器，如图4所示，该方法包括如下步骤。

在步骤S402中，获取待确定网页URL和URL对应的锚文字。

在步骤S404中，将属于同一网站的具有同一网址模式的URL划分到同一类别。

在步骤S406中，将同一类别中URL对应的锚文字分别进行分词。

在步骤S408中，利用预设词表从对锚文字分词所得词条中，去除掉与锚文字的特征无关词条。

在步骤S410中，从剩余词条中确定关键词，根据锚文字中关键词计算URL间相似度。

在步骤S412中，根据URL间相似度查找出类别中具有相似内容的多个URL。

在步骤S414中，对于具有相似内容的多个URL，按URL的关注度对具有相似内容的多个URL进行排序。

在步骤S416中，选择排序中的前N个URL进行网页抓取。

其中，N为预设正整数。

上述仅为本发明的利用分词程序识别机构名称的方法的实例性说明，本发明不限于此。凡在本发明的精神或原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

图5示出了根据本发明一个实施例的确定网页质量的装置的结构图。该装置适于各种与搜索引擎相关的服务器，如图5所示，该装置包括如下模块。

获取模块510，适于获取待确定网页URL和URL对应的锚文字；

分类模块520，适于根据所述URL所属的网址模式，将所述URL划分为各个类别；

查找模块530，适于在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；

确定模块540，适于对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。

举例而言，在蜘蛛程序从网络中发现新的URL，该新的URL为待确定网页URL，在蜘蛛程序进行抓取之前，获取模块510获得待确定网页的URL和URL对应的锚文字。之后，分类模块520根据所述URL所属的网址模式，将所述URL划分为各个类别；查找模块530在各个类别中，根据URL对应的锚文件查找出具有相似内容的多个URL；确定模块540对于具有相似内容的多个URL，根据URL的预设特征确定URL对应的网页的质量。

在一实施例中，分类模块520，具体适于将属于同一网站的具有同一网址模式的URL划分到同一类别。

http://zhidao.***.com/question/433737807751460604.html

http://zhidao.***.com/question/1605209362191413347.html

http://zhidao.***.com/question/618238863630856372.html

http://zhidao.***.com/question/625161396233610844.html

http://zhidao.***.com/question/1367620128259860259.html

http://zhidao.***.com/question/2139209187911446788.html

http://zhidao.***.com/question/584108667629594845.html

分类模块520确定出上述URL的第一级网址相同，判定上述URL属于同一网站；从前到后，当URL各级网址中具有相同网址的级数超过预设阈值，或网址级数相同并只有最后一级网址不同时，判定URL具有同一网址模式。分类模块520将属于同一网站，并且具有同一网址模式的URL划分到同一类别。

在一实施例中，如图6所示，查找模块530，可包括：

计算子模块532，适于根据URL对应的锚文字计算类别中各个URL间的相似度；

查找子模块534，适于根据URL间相似度查找出类别中具有相似内容的多个URL。

进一步地，计算子模块532，具体适于将同一类别中URL对应的锚文字分别进行分词，从分词所得词条中确定关键词；根据锚文字中关键词计算URL间相似度。

其中，计算子模块532，进一步适于根据词条所对应的频率，从分词所得词条中确定关键词。

进一步地，如图6所示查找模块530还包括：去除子模块536，适于在将同一类别中URL对应的锚文字分别进行分词之后，利用预设词表从对锚文字分词所得词条中，去除掉与锚文字的特征无关词条。

举例而言，获取新发现URL以及对应的锚文字如下表所示。其中，URL属于同一网站，并具有同一网址模式(网址模式为http://zhidao.***.com/question/*.html)，分类模块520将这些URL划分到同一类别。

计算子模块532计算URL对应的锚文字的相似度，将锚文字相似度作为URL的相似度。锚文字相似度的计算可采用多种方式，例如采用文档http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html中的如下方式计算URL的锚文字相似度。

两个文本字符串A和B，即两个锚文字A和B，计算子模块532对A和B分别做分词处理，去除子模块536按照预设词表中的词语将A和B中对文本内容识别意义不大但出现频率较高的词、符号、标点及乱码等去掉。如“这，的，和，会，为”等词几乎出现在任何一篇中文文本中，但是它们对这个文本所表达的意思几乎没有任何贡献的词，配置到预设词表中，将A和B中包含的这类词去除掉。

去除子模块536完成分词所得词条过滤后，计算子模块532根据剩下词的频度确定若干关键词。频度计算参照TF(termfrequency，条目频率)公式。加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制，权值计算参照IDF(inversedocumentfrequency，倒转文档频率)公式。

计算子模块532把锚文字字符串化为以关键词的权重为分量的N维向量表示。比如A＝(a1,a2,a3…an),B＝(b1,b2,b3....bn)，然后计算向量(a1,a2,a3…an)和(b1,b2,b3….bn)之间夹角的余弦值作为A和B的相似度。夹角的余弦值的按如下公式一进行计算：

查找子模块534在同一类别中查找与同一URL的相似度大于预设相似度阈值的URL，将查找到的URL与该同一URL组成具有相似内容的多个URL。

在一实施例中，确定模块540，具体适于根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取。

进一步地，确定模块540，具体适于按URL的关注度对所述具有相似内容的多个URL进行排序；选择排序中的前N个URL进行网页抓取，其中，N为预设正整数。

上述装置的示例性说明参见上述方法中对应部分的详细说明，在此不再赘述。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定网页质量的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种确定网页质量的装置，该装置包括：

获取模块，适于获取待确定网页URL和URL对应的锚文字；

2.根据权利要求1所述的装置，其中，所述查找模块，进一步包括：

3.根据权利要求1或2所述的装置，其中，所述确定模块，进一步适于根据URL的关注度从所述具有相似内容的多个URL中选择URL，对选择的URL进行网页抓取。

4.根据权利要求1至3任一所述的装置，其中，所述分类模块，进一步适于将属于同一网站的具有同一网址模式的URL划分到同一类别。

5.根据权利要求1-4任一项所述的装置，其中，所述确定模块，进一步适于按URL的关注度对所述具有相似内容的多个URL进行排序；选择排序中的前N个URL进行网页抓取，其中，N为预设正整数。

6.根据权利要求1-5任一项所述的装置，其中，所述计算子模块，进一步适于将同一类别中URL对应的锚文字分别进行分词，从分词所得词条中确定关键词；根据锚文字中关键词计算URL间相似度。

7.根据权利要求1-6任一项所述的装置，其中，所述查找模块还包括：

8.根据权利要求1-7任一项所述的装置，其中，所述计算子模块，进一步适于根据词条所对应的频率，从分词所得词条中确定关键词。

9.一种确定网页质量的方法，该方法包括：

获取待确定网页URL和URL对应的锚文字；

根据所述URL所属的网址模式，将所述URL划分为各个类别；

10.根据权利要求9所述的方法，其中，所述根据URL对应的锚文件查找出具有相似内容的多个URL，进一步包括：

根据URL对应的锚文字计算类别中各个URL间的相似度；

根据URL间相似度查找出类别中具有相似内容的多个URL。