CN101777081A

CN101777081A - 一种提高网页访问速度的方法及装置

Info

Publication number: CN101777081A
Application number: CN201010128121A
Authority: CN
Inventors: 阚光远
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2010-03-08
Filing date: 2010-03-08
Publication date: 2010-07-14
Also published as: WO2011109957A1

Abstract

本发明公开了一种提高网页访问速度的方法及装置，包括：读取所保存的历史网页数据，得到页面集合，从该页面集合的页面中抽取词干，将词干切分为词条，得到与页面对应的词条集合；从页面集合的页面中提取该页面中的链接点，得到与页面对应的链接点集合，并提取链接点的链接词干，进行词干切分，得到与链接点对应的链接词条集合；生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则，或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则；根据用户当前访问的页面和兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点，下载并缓存该链接点的网页数据。

Description

一种提高网页访问速度的方法及装置

技术领域

本发明涉及移动通讯技术领域，尤其涉及一种提高网页访问速度的方法及装置。

背景技术

随着3G(第三代移动通讯技术)时代的到来，手机互联网用户的数量逐渐增加，用户对手机浏览器的速度要求也越来越高，但是由于手机浏览器受到手机信号和实时带宽限制等条件的制约，用户在使用手机浏览器时服务质量得不到保证。

现在的手机浏览器一般都使用缓冲机制，它利用网页浏览的时间局部性，将曾经访问过的文档保存在手机浏览器缓存中，从而避免向远程服务器发送请求，或者避免由远程服务器发送完整的响应。

单纯的Cache(高速缓冲存储器)技术只是利用了网页浏览模式的时间局部性，对于未曾访问过的内容无法缓冲，响应性能依然得不到改善，这一点在用户发现一个新的热点服务器或服务器的页面经常更新时，感觉尤其明显。

另外，由于手机浏览器用于网页内容缓冲的空间不大，曾经访问过的内容被覆盖，单纯的Cache机制也不会产生好的响应性能，如何有效的提高手机浏览器访问速度已经成为各种浏览器厂家目前最为关注的问题。

发明内容

本发明要解决的问题在于提供一种提高网页访问速度的方法及装置，实现提高浏览网页的速度，以进一步提高用户体验。

为了解决上述技术问题，本发明的一种提高网页访问速度的方法，包括：

读取所保存的历史网页数据，得到页面集合，从该页面集合的页面中抽取词干，将词干切分为词条，得到与页面对应的词条集合；

从页面集合的页面中提取该页面中的链接点，得到与页面对应的链接点集合，并提取链接点的链接词干，进行词干切分，得到与链接点对应的链接词条集合；

生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则，或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则，兴趣关联规则的组合构成兴趣关联规则数据库；

根据用户当前访问的页面和兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点，下载并缓存该链接点的网页数据。

进一步地，词条采用二元组的方式表示，在二元组中记录词条及该词条的权重，该权重等于词条的新鲜度乘以该词条出现的频度。

进一步地，生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括：

遍历页面集合，对任一已存页面遍历该页面的链接点集合，逐一判断各链接点的目标页面是否属于页面集合，如果属于，则遍历已存页面和目标页面的词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，关联支持度等于两个词条的权重之和，当词条在多个页面中重复出现时，则相应地在关联支持度中累加两个词条的权重。

进一步地，生成页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则的方法包括：

如果目标页面不属于页面集合，则遍历已存页面的词条集合及链接词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，关联支持度等于已存页面中词条的权重，当链接词条在多个链接词条集合中出现时，则在关联支持度中相应地累加已存页面中词条的权重。

进一步地，根据用户当前访问的页面和兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括：

在兴趣关联规则数据库中查找用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则，计算转移度，该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度，完成转移度的计算后，对所得到的全部的转移度进行排序，转移度最大的链接点为该用户下一步进入的链接点。

进一步地，兴趣关联规则采用三元组的方式表示，在该三元组中记录两个词条及该两个词条的关联支持度。

进一步地，一种提高网页访问速度的装置，包括：依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块，其中：

数据保存模块，用于保存历史网页数据；

数据挖掘模块，用于从数据保存模块读取历史网页数据，得到页面集合，从该页面集合的页面中抽取词干，将词干切分为词条，得到与页面对应的词条集合，还生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则，或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则，兴趣关联规则的组合构成兴趣关联规则数据库；

网页预测模块，用于根据用户当前访问的页面和从数据挖掘模块读取的兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点，将该链接点发送给网页下载模块；

网页下载模块，用于根据接收到的用户下一步进入的链接点，下载并缓存该链接点的网页数据。

进一步地，数据挖掘模块生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括：

遍历页面集合，对任一已存页面遍历该页面的链接点集合，逐一判断各链接点的目标页面是否属于页面集合，如果属于，则遍历已存页面和目标页面的词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，关联支持度等于两个词条的权重之和，当词条在多个页面中重复出现时，则相应地在关联支持度中累加两个词条的权重；

进一步地，网页预测模块根据用户当前访问的页面和兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括：

综上所述，本发明通过预测出用户下一步可能访问的网页，并提前下载该网页的数据，可以提高用户浏览网页的速度，减少用户的等待时间，提高用户的体验。

附图说明

图1为本发明提高网页访问速度的方法的流程图；

图2为本发明提高网页访问速度的装置的架构图。

具体实施方式

本实施方式的目的在于提升访问网页的速度，提高用户使用浏览器的服务质量，本实施方式获取浏览器缓存中保存的历史网页数据，由于在这些数据中隐含着用户的兴趣爱好和访问习惯，可以通过对这些数据进行挖掘，得到反映用户兴趣和习惯的兴趣关联规则，根据兴趣关联规则和用户当前访问网页，预测用户可能发出的访问请求，在用户浏览当前网页时就将预测的内容下载到浏览器的缓存中，是一种主动的Cache服务，在用户真正要访问这些页面时只需从手机浏览器缓存下载，从而在很大程度上减小用户的访问延迟。

本实施方式通过兴趣关联规则挖掘技术预取网页到手机缓存的实现方法基本分为三个阶段：保存终端浏览器缓存中的历史网页数据、对保存的历史网页数据进行兴趣关联规则数据挖掘和通过数据挖掘给出的结果和当前用户访问的网页，将预测内容下载到手机缓存中。

下面结合附图对本发明的具体实施方式进行说明。

图1为本实施例的提高网页访问速度的方法，包括：

101：保存并读取浏览器缓存中的历史网页数据，得到页面集合C＝{Y₁，Y₂，...，Y_k，...，Y_n}，其中，1≤k≤n；

102：对所保存的历史网页数据进行兴趣关联规则的数据挖掘；

数据挖掘具体包括如下步骤：

(1)将词条定义为节点，节点以二元组(t，weight)表示，简记为Node(t)，其中，weight为词条t的权重；

weight＝新鲜度×出现的频度(f_i)。

新鲜度反映词条存在时间的长短，最近访问页面中的词条的新鲜度相对较高，在预测过程中，越是最近访问的页面中的词条对预测起的作用越大。新鲜度等于词条所在页面在页面集合中的序号，也可以等于序号的平方等，越是在后访问的页面在页面集合中的序号越大。

f_i为词条在页面中出现的频度，例如，某个词条在一个页面中出现了8次，该页面中总的词条数为100(包括重复)，则fi＝8/100。

兴趣词条可以是娱乐、体育、新闻、天气、咨询和财经等。

(2)定义节点之间的联系为兴趣关联规则，用三元组[Node(t_i)，support，Node(t_j)]表示，简记为Rule[Node(t_i)，Node(t_j)]，其中，support称为关联支持度，表示由节点Node(t_i)转到节点Node(t_j)的可能性；

(3)数据预处理，对页面集合C中的各页面抽取词干，并进行词干切分，对应地得到页面Y_k的词条集合K(Y_k)＝{(t_i′，weight)|t_i′∈T(汉语词汇)，i∈N(自然数)}；

K(Y_k)表示在Y_k页面中出现的所有的词条的集合，t_i′为其中一个词条。

Cache中的历史网页数据通常采用WWW数据模型表示，根据具体实现还可能对WWW数据模型的历史网页数据进行数据格式转换，转换为所需要的数据格式。

词干的抽取和切分可以参考IEEE(美国电气和电子工程师协会)的数据挖掘在网页预取中的应用(application of data mining in Web pre-fetching)。

(4)从页面集合C中的各页面Y_k中提取该页面的链接点，得到页面的链接点集合L(Y_k)＝{l_k，i|l_k，i为页面Y_k中的链接点}；

链接点集合表示Y_k页面中所有的可以点击进入的页面的地址的集合，通过点击Y_k页面里的链接点就可以进入下一个页面。

(5)提取页面的链接点的同时，获取链接点的链接词干，对链接词干进行切分，得到页面中链接点l_k，i的链接词条集合Q(l_{k，i·string})＝{t_j″|t_j″在l_{k，i·string}中，j∈N}；

Q(l_{k，i·string})表示对Y_k中的某个链接l_k，i对其链接词干进行切分后得到的词条的集合。

通过以上的数据处理得到了四种集合，分别为：页面集合、页面的词条集合、页面的链接点集合以及页面中链接点的链接词条集合。得到四种集合是为了下面计算兴趣关联规则[Node(t_i)，support，Node(t_j)]，即从一个词条转移到另一个词条的可能性，进而再计算出从一个页面转移到其中某个链接的可能性。

(6)生成兴趣关联规则，兴趣关联规则的集合构成兴趣关联数据库；

生成兴趣关联规则的具体过程包括：

遍历页面集合C，对于已存页面Y_k遍历该页面中的链接点集合L(Y_k)，逐一判断其中的链接点的目标页面(链接点链接到的页面)Y_j是否属于页面集合C，如果属于，则遍历页面Y_k和Y_j的词条集合，将Y_k与Y_j中的词条进行组合，计算词条组合中从一个词条转移到另一个词条的关联支持度，该关联支持度等于两个词条权重之和，当词条在多个页面中重复出现时，则相应地在关联支持度中累加两个词条的权重；

如果链接点的目标页面Y_j不属于页面集合C，则遍历页面Y_k和链接点的链接词条集合，将Y_k与链接点的链接词条集合中的词条进行组合，计算词条组合中从一个词条转移到另一个词条的关联支持度，该关联支持度等于页面Y_k中词条的权重，当链接词条在多个链接点的链接词条集合中出现时，则在关联支持度中累加页面Y_k中词条的权重。

生成兴趣关联规则的伪代码如下：

for保存的页面集合C中的每个页面Y_k

{

for链接集合L(Y_k)中的每个链接l_k，r

{

设l_k，r的目标页面为Y_j；

if Y_j∈C then

{

for页面Y_k中的词条集K(Y_k)中的每个词条(t_p′，weight_p)

{

for页面Y_j中的词条集K(Y_j)中的每个词条(t_q′，weight_q)

{

Rule[Node(t_p′)，Node(t_q′)]的支持度+＝g(weight_p，

weight_q)；(t_p′，weight_p)∈K(Y_k)，(t_q′，weight_q)∈K

(Y_j)

}

else

{

for页面Y_k中的词条集合K(Y_k)中的每个词条(t_p′，weight_p)

{

for Q(l_{k，r·string})中的每个词条t_q′

{

Rule[Node(t_p′)，Node(t_q′)]的支持度+＝weight_p；

(t_p′，weight_p)∈Y_i，t_q′∈Q(l_{k，r·string})

}

其中，g(weight_p，weight_q)为函数，令其为(weight_p+weight_q)，表示缓存中的页面的链接点及链接点所指向的页面对兴趣关联数据库中的兴趣关联规则的影响。使用上面的关联规则挖掘算法计算Rule[Node(t_i)，Node(t_j)]的支持度反映了当前浏览器用户访问网页兴趣和习惯，作为下一步预测的依据。

103：根据用户当前的访问网页和兴趣关联规则数据库，预测用户下一步访问的链接点，并将所预测的链接点的网页数据下载并缓存到手机浏览器中，达到主动Cache和服务的目的，提高浏览器浏览网页速度。

预测的方法为：在兴趣关联规则数据库中查找当前访问页面中的词条与链接词条的兴趣关联规则，计算转移度，该转移度等于当前访问页面中词条的权重×该查找到的兴趣关联规则中的关联支持度，完成转移度的计算后，对得到的全部转移度进行排序，转移度最大的链接点就是所预测的用户下一步访问的网页。

图2所示为本发明实施方式提高网页访问速度的装置，包括：依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块，

数据保存模块，用于保存浏览器中的历史网页数据；

数据挖掘模块，用于从数据保存模块读取历史网页数据，得到页面集合C＝{Y₁，Y₂，...，Y_k，...，Y_n}，其中，1≤k≤n，对所保存的历史网页数据进行兴趣关联规则的数据挖掘；

数据挖掘具体包括如下步骤：

weight＝新鲜度×出现的频度(f_i)。

新鲜度反映词条存在时间的长短，最近访问页面中的词条的新鲜度相对较高，在预测过程中，越是最近访问的页面中的词条对预测起的作用越大。新鲜度等于词条所在页面在页面集合中的序号，也可以等于序号的平方等，越是后访问的页面在页面集合中的序号越大。

fi为词条在页面中出现的频度，例如，某个词条在一个页面中出现了8次，该页面中总的词条数为100(包括重复)，则fi＝8/100。

兴趣词条可以是娱乐、体育、新闻、天气、咨询和财经等。

(4)从页面集合C中的各页面Y_k中提取该页面的链接点，得到页面的链接点集合L(Y_k)＝{l_k，i |l_k，i为页面Y_k中的链接点}；

(5)提取页面的链接点的同时，获取链接点的链接词干，对链接词干进行切分，得到页面中链接点l _k，i的链接词条集合Q(l_{k，i·string})＝{t_j″|t_j″在l_{k，i·string}中，j∈N}；

通过以上的数据处理得到了四种集合，分别为：页面集合、页面的词条集合、页面的链接点集合以及页面中链接点的链接词条集合。得到四种集合是为了下面计算兴趣关联规则[Node(t_i)，support，Node(t_j)]，即从一个词条转移到另一个词条的可能性，进而在计算出从一个页面转移到其中某个链接的可能性。

生成兴趣关联规则的具体过程包括：

网页预测模块，用于根据用户当前的访问网页和从数据挖掘模块读取的兴趣关联规则，预测用户下一步访问的链接点，并将该用户下一步访问的链接点发送给网页下载模块；

网页下载模块，用于下载并缓存所接收到的用户下一步访问的链接点对应的网页数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高网页访问速度的方法，包括：

从所述页面集合的页面中提取该页面中的链接点，得到与页面对应的链接点集合，并提取所述链接点的链接词干，进行词干切分，得到与链接点对应的链接词条集合；

生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则，或所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则，兴趣关联规则的组合构成兴趣关联规则数据库；

根据用户当前访问的页面和所述兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点，下载并缓存该链接点的网页数据。

2.如权利要求1所述的方法，其特征在于：

所述词条采用二元组的方式表示，在所述二元组中记录词条及该词条的权重，该权重等于词条的新鲜度乘以该词条出现的频度。

3.如权利要求2所述的方法，其特征在于，所述生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括：

遍历所述页面集合，对任一已存页面遍历该页面的链接点集合，逐一判断各链接点的目标页面是否属于所述页面集合，如果属于，则遍历所述已存页面和目标页面的词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，所述关联支持度等于两个词条的权重之和，当所述词条在多个页面中重复出现时，则相应地在关联支持度中累加两个词条的权重。

4.如权利要求3所述的方法，其特征在于，所述生成所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则的方法包括：

如果所述目标页面不属于所述页面集合，则遍历已存页面的词条集合及链接词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，所述关联支持度等于所述已存页面中词条的权重，当链接词条在多个链接词条集合中出现时，则在所述关联支持度中相应地累加所述已存页面中词条的权重。

5.如权利要求2所述的方法，其特征在于：所述根据用户当前访问的页面和所述兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括：

在所述兴趣关联规则数据库中查找所述用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则，计算转移度，该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度，完成转移度的计算后，对所得到的全部的转移度进行排序，转移度最大的链接点为该用户下一步进入的链接点。

6.如权利要求1至5任一项所述的方法，其特征在于：

所述兴趣关联规则采用三元组的方式表示，在该三元组中记录两个词条及该两个词条的关联支持度。

7.一种提高网页访问速度的装置，包括：依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块，其中：

所述数据保存模块，用于保存历史网页数据；

所述数据挖掘模块，用于从所述数据保存模块读取历史网页数据，得到页面集合，从该页面集合的页面中抽取词干，将词干切分为词条，得到与页面对应的词条集合，还生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则，或所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则，兴趣关联规则的组合构成兴趣关联规则数据库；

所述网页预测模块，用于根据用户当前访问的页面和从所述数据挖掘模块读取的所述兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点，将该链接点发送给所述网页下载模块；

所述网页下载模块，用于根据接收到的所述用户下一步进入的链接点，下载并缓存该链接点的网页数据。

8.如权利要求7所述的装置，其特征在于：

9.如权利要求8所述的装置，其特征在于，所述数据挖掘模块生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括：

遍历所述页面集合，对任一已存页面遍历该页面的链接点集合，逐一判断各链接点的目标页面是否属于所述页面集合，如果属于，则遍历所述已存页面和目标页面的词条集合，进行词条组合，计算两个词条的关联支持度，得到词条之间的兴趣关联规则，所述关联支持度等于两个词条的权重之和，当所述词条在多个页面中重复出现时，则相应地在关联支持度中累加两个词条的权重；

10.如权利要求8所述的装置，其特征在于，所述网页预测模块根据用户当前访问的页面和所述兴趣关联规则，从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括：

11.如权利要求7至10任一项所述的装置，其特征在于：