CN101777081A - 一种提高网页访问速度的方法及装置 - Google Patents

一种提高网页访问速度的方法及装置 Download PDF

Info

Publication number
CN101777081A
CN101777081A CN201010128121A CN201010128121A CN101777081A CN 101777081 A CN101777081 A CN 101777081A CN 201010128121 A CN201010128121 A CN 201010128121A CN 201010128121 A CN201010128121 A CN 201010128121A CN 101777081 A CN101777081 A CN 101777081A
Authority
CN
China
Prior art keywords
entry
page
linking point
user
correlation rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010128121A
Other languages
English (en)
Inventor
阚光远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010128121A priority Critical patent/CN101777081A/zh
Priority to PCT/CN2010/073143 priority patent/WO2011109957A1/zh
Publication of CN101777081A publication Critical patent/CN101777081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提高网页访问速度的方法及装置,包括:读取所保存的历史网页数据,得到页面集合,从该页面集合的页面中抽取词干,将词干切分为词条,得到与页面对应的词条集合;从页面集合的页面中提取该页面中的链接点,得到与页面对应的链接点集合,并提取链接点的链接词干,进行词干切分,得到与链接点对应的链接词条集合;生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则,或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则;根据用户当前访问的页面和兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点,下载并缓存该链接点的网页数据。

Description

一种提高网页访问速度的方法及装置
技术领域
本发明涉及移动通讯技术领域,尤其涉及一种提高网页访问速度的方法及装置。
背景技术
随着3G(第三代移动通讯技术)时代的到来,手机互联网用户的数量逐渐增加,用户对手机浏览器的速度要求也越来越高,但是由于手机浏览器受到手机信号和实时带宽限制等条件的制约,用户在使用手机浏览器时服务质量得不到保证。
现在的手机浏览器一般都使用缓冲机制,它利用网页浏览的时间局部性,将曾经访问过的文档保存在手机浏览器缓存中,从而避免向远程服务器发送请求,或者避免由远程服务器发送完整的响应。
单纯的Cache(高速缓冲存储器)技术只是利用了网页浏览模式的时间局部性,对于未曾访问过的内容无法缓冲,响应性能依然得不到改善,这一点在用户发现一个新的热点服务器或服务器的页面经常更新时,感觉尤其明显。
另外,由于手机浏览器用于网页内容缓冲的空间不大,曾经访问过的内容被覆盖,单纯的Cache机制也不会产生好的响应性能,如何有效的提高手机浏览器访问速度已经成为各种浏览器厂家目前最为关注的问题。
发明内容
本发明要解决的问题在于提供一种提高网页访问速度的方法及装置,实现提高浏览网页的速度,以进一步提高用户体验。
为了解决上述技术问题,本发明的一种提高网页访问速度的方法,包括:
读取所保存的历史网页数据,得到页面集合,从该页面集合的页面中抽取词干,将词干切分为词条,得到与页面对应的词条集合;
从页面集合的页面中提取该页面中的链接点,得到与页面对应的链接点集合,并提取链接点的链接词干,进行词干切分,得到与链接点对应的链接词条集合;
生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则,或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则,兴趣关联规则的组合构成兴趣关联规则数据库;
根据用户当前访问的页面和兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点,下载并缓存该链接点的网页数据。
进一步地,词条采用二元组的方式表示,在二元组中记录词条及该词条的权重,该权重等于词条的新鲜度乘以该词条出现的频度。
进一步地,生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括:
遍历页面集合,对任一已存页面遍历该页面的链接点集合,逐一判断各链接点的目标页面是否属于页面集合,如果属于,则遍历已存页面和目标页面的词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,关联支持度等于两个词条的权重之和,当词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重。
进一步地,生成页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则的方法包括:
如果目标页面不属于页面集合,则遍历已存页面的词条集合及链接词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,关联支持度等于已存页面中词条的权重,当链接词条在多个链接词条集合中出现时,则在关联支持度中相应地累加已存页面中词条的权重。
进一步地,根据用户当前访问的页面和兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括:
在兴趣关联规则数据库中查找用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则,计算转移度,该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度,完成转移度的计算后,对所得到的全部的转移度进行排序,转移度最大的链接点为该用户下一步进入的链接点。
进一步地,兴趣关联规则采用三元组的方式表示,在该三元组中记录两个词条及该两个词条的关联支持度。
进一步地,一种提高网页访问速度的装置,包括:依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块,其中:
数据保存模块,用于保存历史网页数据;
数据挖掘模块,用于从数据保存模块读取历史网页数据,得到页面集合,从该页面集合的页面中抽取词干,将词干切分为词条,得到与页面对应的词条集合,还生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则,或页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则,兴趣关联规则的组合构成兴趣关联规则数据库;
网页预测模块,用于根据用户当前访问的页面和从数据挖掘模块读取的兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点,将该链接点发送给网页下载模块;
网页下载模块,用于根据接收到的用户下一步进入的链接点,下载并缓存该链接点的网页数据。
进一步地,词条采用二元组的方式表示,在二元组中记录词条及该词条的权重,该权重等于词条的新鲜度乘以该词条出现的频度。
进一步地,数据挖掘模块生成页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括:
遍历页面集合,对任一已存页面遍历该页面的链接点集合,逐一判断各链接点的目标页面是否属于页面集合,如果属于,则遍历已存页面和目标页面的词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,关联支持度等于两个词条的权重之和,当词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重;
如果目标页面不属于页面集合,则遍历已存页面的词条集合及链接词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,关联支持度等于已存页面中词条的权重,当链接词条在多个链接词条集合中出现时,则在关联支持度中相应地累加已存页面中词条的权重。
进一步地,网页预测模块根据用户当前访问的页面和兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括:
在兴趣关联规则数据库中查找用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则,计算转移度,该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度,完成转移度的计算后,对所得到的全部的转移度进行排序,转移度最大的链接点为该用户下一步进入的链接点。
进一步地,兴趣关联规则采用三元组的方式表示,在该三元组中记录两个词条及该两个词条的关联支持度。
综上所述,本发明通过预测出用户下一步可能访问的网页,并提前下载该网页的数据,可以提高用户浏览网页的速度,减少用户的等待时间,提高用户的体验。
附图说明
图1为本发明提高网页访问速度的方法的流程图;
图2为本发明提高网页访问速度的装置的架构图。
具体实施方式
本实施方式的目的在于提升访问网页的速度,提高用户使用浏览器的服务质量,本实施方式获取浏览器缓存中保存的历史网页数据,由于在这些数据中隐含着用户的兴趣爱好和访问习惯,可以通过对这些数据进行挖掘,得到反映用户兴趣和习惯的兴趣关联规则,根据兴趣关联规则和用户当前访问网页,预测用户可能发出的访问请求,在用户浏览当前网页时就将预测的内容下载到浏览器的缓存中,是一种主动的Cache服务,在用户真正要访问这些页面时只需从手机浏览器缓存下载,从而在很大程度上减小用户的访问延迟。
本实施方式通过兴趣关联规则挖掘技术预取网页到手机缓存的实现方法基本分为三个阶段:保存终端浏览器缓存中的历史网页数据、对保存的历史网页数据进行兴趣关联规则数据挖掘和通过数据挖掘给出的结果和当前用户访问的网页,将预测内容下载到手机缓存中。
下面结合附图对本发明的具体实施方式进行说明。
图1为本实施例的提高网页访问速度的方法,包括:
101:保存并读取浏览器缓存中的历史网页数据,得到页面集合C={Y1,Y2,...,Yk,...,Yn},其中,1≤k≤n;
102:对所保存的历史网页数据进行兴趣关联规则的数据挖掘;
数据挖掘具体包括如下步骤:
(1)将词条定义为节点,节点以二元组(t,weight)表示,简记为Node(t),其中,weight为词条t的权重;
weight=新鲜度×出现的频度(fi)。
新鲜度反映词条存在时间的长短,最近访问页面中的词条的新鲜度相对较高,在预测过程中,越是最近访问的页面中的词条对预测起的作用越大。新鲜度等于词条所在页面在页面集合中的序号,也可以等于序号的平方等,越是在后访问的页面在页面集合中的序号越大。
fi为词条在页面中出现的频度,例如,某个词条在一个页面中出现了8次,该页面中总的词条数为100(包括重复),则fi=8/100。
兴趣词条可以是娱乐、体育、新闻、天气、咨询和财经等。
(2)定义节点之间的联系为兴趣关联规则,用三元组[Node(ti),support,Node(tj)]表示,简记为Rule[Node(ti),Node(tj)],其中,support称为关联支持度,表示由节点Node(ti)转到节点Node(tj)的可能性;
(3)数据预处理,对页面集合C中的各页面抽取词干,并进行词干切分,对应地得到页面Yk的词条集合K(Yk)={(ti′,weight)|ti′∈T(汉语词汇),i∈N(自然数)};
K(Yk)表示在Yk页面中出现的所有的词条的集合,ti′为其中一个词条。
Cache中的历史网页数据通常采用WWW数据模型表示,根据具体实现还可能对WWW数据模型的历史网页数据进行数据格式转换,转换为所需要的数据格式。
词干的抽取和切分可以参考IEEE(美国电气和电子工程师协会)的数据挖掘在网页预取中的应用(application of data mining in Web pre-fetching)。
(4)从页面集合C中的各页面Yk中提取该页面的链接点,得到页面的链接点集合L(Yk)={lk,i|lk,i为页面Yk中的链接点};
链接点集合表示Yk页面中所有的可以点击进入的页面的地址的集合,通过点击Yk页面里的链接点就可以进入下一个页面。
(5)提取页面的链接点的同时,获取链接点的链接词干,对链接词干进行切分,得到页面中链接点lk,i的链接词条集合Q(lk,i·string)={tj″|tj″在lk,i·string中,j∈N};
Q(lk,i·string)表示对Yk中的某个链接lk,i对其链接词干进行切分后得到的词条的集合。
通过以上的数据处理得到了四种集合,分别为:页面集合、页面的词条集合、页面的链接点集合以及页面中链接点的链接词条集合。得到四种集合是为了下面计算兴趣关联规则[Node(ti),support,Node(tj)],即从一个词条转移到另一个词条的可能性,进而再计算出从一个页面转移到其中某个链接的可能性。
(6)生成兴趣关联规则,兴趣关联规则的集合构成兴趣关联数据库;
生成兴趣关联规则的具体过程包括:
遍历页面集合C,对于已存页面Yk遍历该页面中的链接点集合L(Yk),逐一判断其中的链接点的目标页面(链接点链接到的页面)Yj是否属于页面集合C,如果属于,则遍历页面Yk和Yj的词条集合,将Yk与Yj中的词条进行组合,计算词条组合中从一个词条转移到另一个词条的关联支持度,该关联支持度等于两个词条权重之和,当词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重;
如果链接点的目标页面Yj不属于页面集合C,则遍历页面Yk和链接点的链接词条集合,将Yk与链接点的链接词条集合中的词条进行组合,计算词条组合中从一个词条转移到另一个词条的关联支持度,该关联支持度等于页面Yk中词条的权重,当链接词条在多个链接点的链接词条集合中出现时,则在关联支持度中累加页面Yk中词条的权重。
生成兴趣关联规则的伪代码如下:
for保存的页面集合C中的每个页面Yk
{
   for链接集合L(Yk)中的每个链接lk,r
  {
      设lk,r的目标页面为Yj
      if Yj∈C then
      {
         for页面Yk中的词条集K(Yk)中的每个词条(tp′,weightp)
          {
             for页面Yj中的词条集K(Yj)中的每个词条(tq′,weightq)
              {
                Rule[Node(tp′),Node(tq′)]的支持度+=g(weightp
          weightq);(tp′,weightp)∈K(Yk),(tq′,weightq)∈K
           (Yj)
             }
            }
      }
      else
      {
           for页面Yk中的词条集合K(Yk)中的每个词条(tp′,weightp)
           {
        for Q(lk,r·string)中的每个词条tq
        {
          Rule[Node(tp′),Node(tq′)]的支持度+=weightp
           (tp′,weightp)∈Yi,tq′∈Q(lk,r·string)
        }
      }
    }
  }
}
其中,g(weightp,weightq)为函数,令其为(weightp+weightq),表示缓存中的页面的链接点及链接点所指向的页面对兴趣关联数据库中的兴趣关联规则的影响。使用上面的关联规则挖掘算法计算Rule[Node(ti),Node(tj)]的支持度反映了当前浏览器用户访问网页兴趣和习惯,作为下一步预测的依据。
103:根据用户当前的访问网页和兴趣关联规则数据库,预测用户下一步访问的链接点,并将所预测的链接点的网页数据下载并缓存到手机浏览器中,达到主动Cache和服务的目的,提高浏览器浏览网页速度。
预测的方法为:在兴趣关联规则数据库中查找当前访问页面中的词条与链接词条的兴趣关联规则,计算转移度,该转移度等于当前访问页面中词条的权重×该查找到的兴趣关联规则中的关联支持度,完成转移度的计算后,对得到的全部转移度进行排序,转移度最大的链接点就是所预测的用户下一步访问的网页。
图2所示为本发明实施方式提高网页访问速度的装置,包括:依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块,
数据保存模块,用于保存浏览器中的历史网页数据;
数据挖掘模块,用于从数据保存模块读取历史网页数据,得到页面集合C={Y1,Y2,...,Yk,...,Yn},其中,1≤k≤n,对所保存的历史网页数据进行兴趣关联规则的数据挖掘;
数据挖掘具体包括如下步骤:
(1)将词条定义为节点,节点以二元组(t,weight)表示,简记为Node(t),其中,weight为词条t的权重;
weight=新鲜度×出现的频度(fi)。
新鲜度反映词条存在时间的长短,最近访问页面中的词条的新鲜度相对较高,在预测过程中,越是最近访问的页面中的词条对预测起的作用越大。新鲜度等于词条所在页面在页面集合中的序号,也可以等于序号的平方等,越是后访问的页面在页面集合中的序号越大。
fi为词条在页面中出现的频度,例如,某个词条在一个页面中出现了8次,该页面中总的词条数为100(包括重复),则fi=8/100。
兴趣词条可以是娱乐、体育、新闻、天气、咨询和财经等。
(2)定义节点之间的联系为兴趣关联规则,用三元组[Node(ti),support,Node(tj)]表示,简记为Rule[Node(ti),Node(tj)],其中,support称为关联支持度,表示由节点Node(ti)转到节点Node(tj)的可能性;
(3)数据预处理,对页面集合C中的各页面抽取词干,并进行词干切分,对应地得到页面Yk的词条集合K(Yk)={(ti′,weight)|ti′∈T(汉语词汇),i∈N(自然数)};
K(Yk)表示在Yk页面中出现的所有的词条的集合,ti′为其中一个词条。
Cache中的历史网页数据通常采用WWW数据模型表示,根据具体实现还可能对WWW数据模型的历史网页数据进行数据格式转换,转换为所需要的数据格式。
词干的抽取和切分可以参考IEEE(美国电气和电子工程师协会)的数据挖掘在网页预取中的应用(application of data mining in Web pre-fetching)。
(4)从页面集合C中的各页面Yk中提取该页面的链接点,得到页面的链接点集合L(Yk)={lk,i |lk,i为页面Yk中的链接点};
链接点集合表示Yk页面中所有的可以点击进入的页面的地址的集合,通过点击Yk页面里的链接点就可以进入下一个页面。
(5)提取页面的链接点的同时,获取链接点的链接词干,对链接词干进行切分,得到页面中链接点l k,i的链接词条集合Q(lk,i·string)={tj″|tj″在lk,i·string中,j∈N};
Q(lk,i·string)表示对Yk中的某个链接lk,i对其链接词干进行切分后得到的词条的集合。
通过以上的数据处理得到了四种集合,分别为:页面集合、页面的词条集合、页面的链接点集合以及页面中链接点的链接词条集合。得到四种集合是为了下面计算兴趣关联规则[Node(ti),support,Node(tj)],即从一个词条转移到另一个词条的可能性,进而在计算出从一个页面转移到其中某个链接的可能性。
(6)生成兴趣关联规则,兴趣关联规则的集合构成兴趣关联数据库;
生成兴趣关联规则的具体过程包括:
遍历页面集合C,对于已存页面Yk遍历该页面中的链接点集合L(Yk),逐一判断其中的链接点的目标页面(链接点链接到的页面)Yj是否属于页面集合C,如果属于,则遍历页面Yk和Yj的词条集合,将Yk与Yj中的词条进行组合,计算词条组合中从一个词条转移到另一个词条的关联支持度,该关联支持度等于两个词条权重之和,当词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重;
如果链接点的目标页面Yj不属于页面集合C,则遍历页面Yk和链接点的链接词条集合,将Yk与链接点的链接词条集合中的词条进行组合,计算词条组合中从一个词条转移到另一个词条的关联支持度,该关联支持度等于页面Yk中词条的权重,当链接词条在多个链接点的链接词条集合中出现时,则在关联支持度中累加页面Yk中词条的权重。
网页预测模块,用于根据用户当前的访问网页和从数据挖掘模块读取的兴趣关联规则,预测用户下一步访问的链接点,并将该用户下一步访问的链接点发送给网页下载模块;
网页下载模块,用于下载并缓存所接收到的用户下一步访问的链接点对应的网页数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种提高网页访问速度的方法,包括:
读取所保存的历史网页数据,得到页面集合,从该页面集合的页面中抽取词干,将词干切分为词条,得到与页面对应的词条集合;
从所述页面集合的页面中提取该页面中的链接点,得到与页面对应的链接点集合,并提取所述链接点的链接词干,进行词干切分,得到与链接点对应的链接词条集合;
生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则,或所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则,兴趣关联规则的组合构成兴趣关联规则数据库;
根据用户当前访问的页面和所述兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点,下载并缓存该链接点的网页数据。
2.如权利要求1所述的方法,其特征在于:
所述词条采用二元组的方式表示,在所述二元组中记录词条及该词条的权重,该权重等于词条的新鲜度乘以该词条出现的频度。
3.如权利要求2所述的方法,其特征在于,所述生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括:
遍历所述页面集合,对任一已存页面遍历该页面的链接点集合,逐一判断各链接点的目标页面是否属于所述页面集合,如果属于,则遍历所述已存页面和目标页面的词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,所述关联支持度等于两个词条的权重之和,当所述词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重。
4.如权利要求3所述的方法,其特征在于,所述生成所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则的方法包括:
如果所述目标页面不属于所述页面集合,则遍历已存页面的词条集合及链接词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,所述关联支持度等于所述已存页面中词条的权重,当链接词条在多个链接词条集合中出现时,则在所述关联支持度中相应地累加所述已存页面中词条的权重。
5.如权利要求2所述的方法,其特征在于:所述根据用户当前访问的页面和所述兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括:
在所述兴趣关联规则数据库中查找所述用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则,计算转移度,该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度,完成转移度的计算后,对所得到的全部的转移度进行排序,转移度最大的链接点为该用户下一步进入的链接点。
6.如权利要求1至5任一项所述的方法,其特征在于:
所述兴趣关联规则采用三元组的方式表示,在该三元组中记录两个词条及该两个词条的关联支持度。
7.一种提高网页访问速度的装置,包括:依次连接的数据保存模块、数据挖掘模块、网页预测模块和网页下载模块,其中:
所述数据保存模块,用于保存历史网页数据;
所述数据挖掘模块,用于从所述数据保存模块读取历史网页数据,得到页面集合,从该页面集合的页面中抽取词干,将词干切分为词条,得到与页面对应的词条集合,还生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则,或所述页面集合中页面对应的词条集合与链接词条集合中词条之间的兴趣关联规则,兴趣关联规则的组合构成兴趣关联规则数据库;
所述网页预测模块,用于根据用户当前访问的页面和从所述数据挖掘模块读取的所述兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点,将该链接点发送给所述网页下载模块;
所述网页下载模块,用于根据接收到的所述用户下一步进入的链接点,下载并缓存该链接点的网页数据。
8.如权利要求7所述的装置,其特征在于:
所述词条采用二元组的方式表示,在所述二元组中记录词条及该词条的权重,该权重等于词条的新鲜度乘以该词条出现的频度。
9.如权利要求8所述的装置,其特征在于,所述数据挖掘模块生成所述页面集合中页面对应的词条集合中词条之间的兴趣关联规则的方法包括:
遍历所述页面集合,对任一已存页面遍历该页面的链接点集合,逐一判断各链接点的目标页面是否属于所述页面集合,如果属于,则遍历所述已存页面和目标页面的词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,所述关联支持度等于两个词条的权重之和,当所述词条在多个页面中重复出现时,则相应地在关联支持度中累加两个词条的权重;
如果所述目标页面不属于所述页面集合,则遍历已存页面的词条集合及链接词条集合,进行词条组合,计算两个词条的关联支持度,得到词条之间的兴趣关联规则,所述关联支持度等于所述已存页面中词条的权重,当链接词条在多个链接词条集合中出现时,则在所述关联支持度中相应地累加所述已存页面中词条的权重。
10.如权利要求8所述的装置,其特征在于,所述网页预测模块根据用户当前访问的页面和所述兴趣关联规则,从该用户当前访问的页面对应的链接点集合中预测出该用户下一步进入的链接点的方法包括:
在所述兴趣关联规则数据库中查找所述用户当前访问的页面对应的词条集合与链接词条集合中的词条之间的兴趣关联规则,计算转移度,该转移度等于该用户当前访问的页面对应的词条集合中的词条的权重×所查找到的兴趣关联规则中的关联支持度,完成转移度的计算后,对所得到的全部的转移度进行排序,转移度最大的链接点为该用户下一步进入的链接点。
11.如权利要求7至10任一项所述的装置,其特征在于:
所述兴趣关联规则采用三元组的方式表示,在该三元组中记录两个词条及该两个词条的关联支持度。
CN201010128121A 2010-03-08 2010-03-08 一种提高网页访问速度的方法及装置 Pending CN101777081A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010128121A CN101777081A (zh) 2010-03-08 2010-03-08 一种提高网页访问速度的方法及装置
PCT/CN2010/073143 WO2011109957A1 (zh) 2010-03-08 2010-05-24 一种提高网页访问速度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010128121A CN101777081A (zh) 2010-03-08 2010-03-08 一种提高网页访问速度的方法及装置

Publications (1)

Publication Number Publication Date
CN101777081A true CN101777081A (zh) 2010-07-14

Family

ID=42513542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010128121A Pending CN101777081A (zh) 2010-03-08 2010-03-08 一种提高网页访问速度的方法及装置

Country Status (2)

Country Link
CN (1) CN101777081A (zh)
WO (1) WO2011109957A1 (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930475A (zh) * 2010-09-14 2010-12-29 中兴通讯股份有限公司 网页显示方法及浏览器
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和***
WO2012119496A1 (zh) * 2011-03-07 2012-09-13 腾讯科技(深圳)有限公司 预读方法和装置
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN102902805A (zh) * 2012-10-15 2013-01-30 东软集团股份有限公司 一种页面访问方法和装置
CN102957712A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 网站资源加载方法和***
CN103077225A (zh) * 2012-12-31 2013-05-01 华为技术有限公司 数据读取方法、装置及***
CN103460205A (zh) * 2011-08-01 2013-12-18 华为技术有限公司 网页预取的方法及装置
CN103530295A (zh) * 2012-07-05 2014-01-22 腾讯科技(深圳)有限公司 网页预读方法和装置
CN103886038A (zh) * 2014-03-10 2014-06-25 中标软件有限公司 数据缓存方法及装置
CN104221046A (zh) * 2011-12-08 2014-12-17 谷歌公司 用于预取地方页面数据以随后在移动计算装置上进行显示的方法和设备
CN104272306A (zh) * 2012-05-11 2015-01-07 微软公司 向前翻
CN104462567A (zh) * 2014-12-26 2015-03-25 北京奇虎科技有限公司 web页面的切换方法和装置及综合页面提供装置
CN104980311A (zh) * 2014-04-14 2015-10-14 腾讯科技(深圳)有限公司 预测网络访问的方法、装置及***
CN105868207A (zh) * 2015-01-21 2016-08-17 方正宽带网络服务有限公司 一种网络资源推送方法及装置
CN106777116A (zh) * 2016-12-15 2017-05-31 腾讯科技(深圳)有限公司 一种内容获取方法、用户客户端、服务器及***
CN107609037A (zh) * 2017-08-11 2018-01-19 中电科新型智慧城市研究院有限公司 一种基于块数据的智能共享方法和***
CN108062352A (zh) * 2014-12-31 2018-05-22 广东欧珀移动通信有限公司 网页页面缓存处理方法和移动终端设备和介质产品
CN108763453A (zh) * 2018-05-28 2018-11-06 浙江口碑网络技术有限公司 基于行为预测的页面数据处理方法及装置
EP3457289A1 (en) 2017-09-15 2019-03-20 ProphetStor Data Services, Inc. Method for determining data in cache memory of cloud storage architecture and cloud storage system using the same
US10498582B2 (en) 2013-06-14 2019-12-03 Microsoft Technology Licensing, Llc Related content display associated with browsing
CN111046252A (zh) * 2019-11-20 2020-04-21 北京字节跳动网络技术有限公司 一种信息处理的方法、装置、介质、电子设备和***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647481B (zh) * 2012-03-31 2016-04-06 北京奇虎科技有限公司 一种访问预设网络地址的装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1522418A (zh) * 2001-03-08 2004-08-18 �Ҵ���˾ 网页的预测性高速缓存和突出显示
WO2009085664A2 (en) * 2007-12-27 2009-07-09 Microsoft Corporation Relevancy sorting of users browser history
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐***与方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6871218B2 (en) * 2001-11-07 2005-03-22 Oracle International Corporation Methods and systems for preemptive and predictive page caching for improved site navigation
CN101369280A (zh) * 2008-10-10 2009-02-18 深圳市茁壮网络技术有限公司 一种数字电视终端网页浏览的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1522418A (zh) * 2001-03-08 2004-08-18 �Ҵ���˾ 网页的预测性高速缓存和突出显示
WO2009085664A2 (en) * 2007-12-27 2009-07-09 Microsoft Corporation Relevancy sorting of users browser history
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐***与方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930475A (zh) * 2010-09-14 2010-12-29 中兴通讯股份有限公司 网页显示方法及浏览器
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和***
CN102123168B (zh) * 2011-01-14 2012-07-18 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和***
WO2012119496A1 (zh) * 2011-03-07 2012-09-13 腾讯科技(深圳)有限公司 预读方法和装置
CN102681996A (zh) * 2011-03-07 2012-09-19 腾讯科技(深圳)有限公司 预读方法和装置
CN102681996B (zh) * 2011-03-07 2015-12-16 腾讯科技(深圳)有限公司 预读方法和装置
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN103460205B (zh) * 2011-08-01 2016-11-02 华为技术有限公司 网页预取的方法及装置
CN103460205A (zh) * 2011-08-01 2013-12-18 华为技术有限公司 网页预取的方法及装置
CN102957712A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 网站资源加载方法和***
CN102957712B (zh) * 2011-08-17 2016-04-20 阿里巴巴集团控股有限公司 网站资源加载方法和***
CN104221046A (zh) * 2011-12-08 2014-12-17 谷歌公司 用于预取地方页面数据以随后在移动计算装置上进行显示的方法和设备
CN104272306B (zh) * 2012-05-11 2018-04-27 微软技术许可有限责任公司 向前翻
CN104272306A (zh) * 2012-05-11 2015-01-07 微软公司 向前翻
CN103530295B (zh) * 2012-07-05 2018-12-07 腾讯科技(深圳)有限公司 网页预读方法和装置
CN103530295A (zh) * 2012-07-05 2014-01-22 腾讯科技(深圳)有限公司 网页预读方法和装置
CN102902805A (zh) * 2012-10-15 2013-01-30 东软集团股份有限公司 一种页面访问方法和装置
CN103077225A (zh) * 2012-12-31 2013-05-01 华为技术有限公司 数据读取方法、装置及***
US10498582B2 (en) 2013-06-14 2019-12-03 Microsoft Technology Licensing, Llc Related content display associated with browsing
CN103886038B (zh) * 2014-03-10 2017-11-03 中标软件有限公司 数据缓存方法及装置
CN103886038A (zh) * 2014-03-10 2014-06-25 中标软件有限公司 数据缓存方法及装置
CN104980311B (zh) * 2014-04-14 2019-10-22 腾讯科技(深圳)有限公司 预测网络访问的方法、装置及***
CN104980311A (zh) * 2014-04-14 2015-10-14 腾讯科技(深圳)有限公司 预测网络访问的方法、装置及***
CN104462567B (zh) * 2014-12-26 2018-01-09 北京奇虎科技有限公司 web页面的切换方法和装置及综合页面提供装置
CN104462567A (zh) * 2014-12-26 2015-03-25 北京奇虎科技有限公司 web页面的切换方法和装置及综合页面提供装置
CN108062352A (zh) * 2014-12-31 2018-05-22 广东欧珀移动通信有限公司 网页页面缓存处理方法和移动终端设备和介质产品
CN105868207A (zh) * 2015-01-21 2016-08-17 方正宽带网络服务有限公司 一种网络资源推送方法及装置
CN105868207B (zh) * 2015-01-21 2019-10-15 方正宽带网络服务有限公司 一种网络资源推送方法及装置
CN106777116A (zh) * 2016-12-15 2017-05-31 腾讯科技(深圳)有限公司 一种内容获取方法、用户客户端、服务器及***
CN106777116B (zh) * 2016-12-15 2021-10-15 腾讯科技(深圳)有限公司 一种内容获取方法、用户客户端、服务器及***
CN107609037A (zh) * 2017-08-11 2018-01-19 中电科新型智慧城市研究院有限公司 一种基于块数据的智能共享方法和***
CN107609037B (zh) * 2017-08-11 2020-12-29 中电科新型智慧城市研究院有限公司 一种基于块数据的智能共享方法和***
EP3457289A1 (en) 2017-09-15 2019-03-20 ProphetStor Data Services, Inc. Method for determining data in cache memory of cloud storage architecture and cloud storage system using the same
CN108763453A (zh) * 2018-05-28 2018-11-06 浙江口碑网络技术有限公司 基于行为预测的页面数据处理方法及装置
CN111046252A (zh) * 2019-11-20 2020-04-21 北京字节跳动网络技术有限公司 一种信息处理的方法、装置、介质、电子设备和***

Also Published As

Publication number Publication date
WO2011109957A1 (zh) 2011-09-15

Similar Documents

Publication Publication Date Title
CN101777081A (zh) 一种提高网页访问速度的方法及装置
CN105610909B (zh) 一种基于云-端协同的移动浏览器资源加载优化方法
JP5722783B2 (ja) 傾向の識別に基づくユーザへのカスタマイズ情報の提供
CN101446983B (zh) 一种实现移动终端获取网页的方法、***和设备
US9009103B2 (en) Fingerprint-based, intelligent, content pre-fetching
US10747951B2 (en) Webpage template generating method and server
CN101777068B (zh) 一种用于移动通讯设备终端的网页页面预读及整合浏览***及其应用方法
CN102096712A (zh) 一种移动终端缓存控制的方法和装置
CN104618506A (zh) 一种众包的内容分发网络***、方法与装置
CN103905439A (zh) 一种基于家庭网关的加速网页浏览方法
CN103123630A (zh) 一种获取网页内容的方法、***以及移动终端和服务器
CN106599239A (zh) 网页内容数据获取方法及服务器
CN101930475A (zh) 网页显示方法及浏览器
CN104216889B (zh) 基于云服务的数据传播性分析预测方法及***
WO2012006828A1 (zh) 网页呈现方法和装置
CN103955842A (zh) 一种面向大规模媒体数据的在线广告推荐***及方法
CN108984553A (zh) 缓存方法和装置
CN103581224A (zh) 推送信息的方法和装置
CN103745383A (zh) 基于运营商数据实现重定向服务的方法和***
CN105653724A (zh) 一种页面曝光量的监控方法和装置
CN101751408A (zh) 一种互联网文内广告的***与方法
CN109857934A (zh) 基于用户行为分析的软件模块缓存预取方法、装置及介质
CN103825922B (zh) 一种数据更新方法及web服务器
CN103092945A (zh) 一种基于界面返回的搜索方法和装置
CN102279860B (zh) 手机网络资讯导航***及其实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100714