CN105989002A - 网页数据查询、建立网页跳转路径数据库的方法及装置 - Google Patents

网页数据查询、建立网页跳转路径数据库的方法及装置 Download PDF

Info

Publication number
CN105989002A
CN105989002A CN201510041278.8A CN201510041278A CN105989002A CN 105989002 A CN105989002 A CN 105989002A CN 201510041278 A CN201510041278 A CN 201510041278A CN 105989002 A CN105989002 A CN 105989002A
Authority
CN
China
Prior art keywords
webpage
node
path
information
redirects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510041278.8A
Other languages
English (en)
Inventor
陈东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510041278.8A priority Critical patent/CN105989002A/zh
Publication of CN105989002A publication Critical patent/CN105989002A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了网页数据查询、建立网页跳转路径数据库的方法及装置,其中一网页数据查询方法包括:提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;接收与流量来源类型相关的查询请求;根据所述第一数据库中保存的信息,提供查询结果。通过本申请实施例,能够为网页运营人员从整体上掌握网页的流量情况提供依据,提高资源的投放效率。

Description

网页数据查询、建立网页跳转路径数据库的方法及装置
技术领域
本申请涉及网页流量信息处理技术领域,特别是涉及网页数据查询、建立网页跳转路径数据库的方法及装置。
背景技术
随着计算机网络的日益普及以及相关技术的飞速发展,网站以及网页数量都已经非常巨大,对于网页提供者而言,获得尽可能多的用户访问流量,是其追求的目标。为此,在各种网页中,网页超链接技术几乎无处不在,并且,按照链接路径的不同,网页中的超链接一般可以分为内部链接、外部链接等等,总之,超链接技术可以使得网页与网页之间可以建立起错综复杂的连接关系,对于同一目标网页,用户一般可以通过多种途径进行访问。
例如,最基本的途径可以是直接在浏览器的地址栏输入网页的网址。或者,网页提供者可以通过内部链接的形式,在内部网站的首页等位置添加具体网页的链接,这样,用户可以通过这种内部链接进行访问。例如,在电子商务平台网站的首页可以添加各种店铺页面的链接,或者各具体业务对象页面的链接等等。再或者,网页提供者还可以通过外部链接的,将网页地址添加到其他外部网站的页面中,例如,对于某电子商务平台中某店铺页面,可以在一些门户类的网页(例如,新闻门户网站的网页等)中投放其链接,用户在访问门户类网页的过程中,就可以通过点击该链接的方式,进入到该店铺页面,或者,还可以在一些导航类的网页中投放其链接,用户在打开该导航类网页之后,通过点击对应的链接,同样可以进入到该店铺页面,等等。
总之,多种访问途径使得一个网页可以通过多种方式来获得用户的访问流量,但是,对于网页提供者而言,往往还需要对网页流量进行分析,以便对网页链接的投放方式等进行调整,以进一步优化其网页的用户访问流量,提高资源的投放效率。然而,实际应用中的网页链接情况错综复杂,因此,如何提供网页的流量信息,使得网页提供方能够快速了解网页的流量情况,进而对其链接投放方向等进行有效的调整,成为迫切需要本领域技术人员解决的技术问题。
发明内容
本申请提供了提供网页流量统计信息的方法及装置,能够为网页运营人员从整体上掌握网页的流量情况提供依据,进而可以据此对其链接投放方向等进行有效的调整,以提高资源的投放效率。
本申请提供了如下方案:
一种网页数据查询方法,包括:
提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
接收与流量来源类型相关的查询请求;
根据所述第一数据库中保存的信息,提供查询结果。
一种建立网页跳转路径数据库的方法,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
一种网页数据查询方法,包括:
提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
一种建立网页跳转路径数据库的方法,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
根据各条网页跳转路径及其出现次数,生成第二数据库。
一种网页数据查询方法,包括:
提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
接收与节点特性相关的查询请求;
根据所述第三数据库中保存的信息,提供查询结果。
一种建立网页跳转路径数据库的方法,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库。
一种网页数据查询装置,包括:
第一数据库提供单元,用于提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
类型查询请求接收单元,用于接收与流量来源类型相关的查询请求;
类型查询结果提供单元,用于根据所述第一数据库中保存的信息,提供查询结果。
一种建立网页跳转路径数据库的装置,包括:
第一收集单元,用于收集与预置站点的网页访问相关的信息;
第一统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
第一生成单元,用于根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
一种网页数据查询装置,包括:
第二数据库提供单元,用于提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
来源去向查询请求接收单元,用于接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
数据库查询单元,用于查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
跳转关系确定单元,用于根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
返回单元,用于根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
一种建立网页跳转路径数据库的装置,包括:
第二收集单元,用于收集与预置站点的网页访问相关的信息;
第二统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
第二生成单元,用于根据各条网页跳转路径及其出现次数,生成第二数据库。
一种网页数据查询装置,包括:
第三数据库提供单元,用于提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
特性查询请求接收单元,用于接收与节点特性相关的查询请求;
特性查询结果提供单元,用于根据所述第三数据库中保存的信息,提供查询结果。
一种建立网页跳转路径数据库的装置,包括:
第三收集单元,用于收集与预置站点的网页访问相关的信息;
第三统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
第三生成单元,用于根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,能够根据用户访问网页过程中产生的日志,建立网页跳转路径信息数据库,并对各条路径和/或节点上的数据进行统计及实时更新,在此过程中,就可以接收查询流量统计信息的请求,并根据数据库中记录的数据,提供具体的流量统计信息结果。这样,可以从整体上提供某指定网页的流量统计等信息,从而为网页运营人员从整体上掌握网页的流量情况提供了依据,进而可以据此对其链接投放方向等进行有效的调整,以便于更有效的利用网络资源,避免资源浪费或者利用不足。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的第一方法的流程图;
图2是本申请实施例提供的第二方法的流程图;
图3-1是本申请实施例提供的第一视图的示意图;
图3-2是本申请实施例提供的第二视图的示意图;
图4是本申请实施例提供的第三方法的流程图;
图5是本申请实施例提供的第四方法的流程图;
图6-1是本申请实施例提供的第三视图的示意图;
图6-2是本申请实施例提供的第四视图的示意图;
图7是本申请实施例提供的第五方法的流程图;
图8是本申请实施例提供的第六方法的流程图;
图9是本申请实施例提供的第五视图的示意图;
图10是本申请实施例提供的第一装置的示意图;
图11是本申请实施例提供的第二装置的示意图;
图12是本申请实施例提供的第三装置的示意图;
图13是本申请实施例提供的第四装置的示意图;
图14是本申请实施例提供的第五装置的示意图;
图15是本申请实施例提供的第六装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,为了便于查询网页访问相关的数据,可以首先对各个用户的网页访问日志进行收集,通过对这种日志信息,生成网页跳转路径信息数据库,该数据库中记录有各种基于用户的操作生成的网页跳转路径,以及各条路径以及节点上的统计数据,进而可以依据该数据库,提供全面的流量统计信息。下面对具体的实现方式进行详细介绍。
实施例一
在该实施例一中,可以查询与流量来源类型相关的信息,这种流量来源类型相关的信息可以是从整体上对一个网页的各种来源的流量情况进行统计,或者,还可以统计某个类型的流量来源向各个网页的流向情况。例如,某网页共有A、B、C三个来源,则可以分别统计出这三个来源分别的流量是多少,进而,网页运营人员等可以以此作为参考,调整网页链接的投放策略等等。
为此,参见图1,本申请实施例一首先提供了一种建立网页跳转路径数据库的方法,该方法可以包括以下步骤:
S101:收集与预置站点的网页访问相关的信息;
为了建立网页跳转路径信息数据库,可以对广大用户的网页访问信息进行收集。当然,在本申请实施例中,可以仅收集与预置站点的网页相关的访问信息,例如,假设预置站点为“淘宝”的页面以及“天猫”的页面,则可以仅收集与“淘宝”以及“天猫”这两个站点相关的页面的访问信息。例如,假设某用户打开浏览器之后,首先通过浏览器打开某导航页面,在导航页面内点击某门户网站(例如,新浪、搜狐等)的链接,在该门户网站的首页上点击相关的链接进入了淘宝网站的某一网页,之后将该淘宝的网页关闭,则在收集用户的访问信息时,可以仅收集用户从该门户网站的首页进入了该淘宝页面这一信息,而关于从导航页面进入门户网站页面的信息可不再进行记录。
具体进行收集时,可以由服务器查询各个用户的历史访问日志,从中进行网页访问信息的提取及收集。或者,也可以由客户端主动进行提交。例如,客户端可以对用户的网页访问情况进行监控,当监控到访问了预置站点的网页时,则将相关的访问信息上传到服务器,这样,服务器可以更加实时的收集到相关的网页访问信息。
S102:将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
具体在收集到用户的访问信息之后,可以生成多条网页跳转路径,每条路径上可以由多个节点组成,每个节点对应一个具体的网页,并且,可以根据被访问网页网址中包含的来源信息,将各个相关的节点串联起来,从而生成跳转路径,并且还可以统计出每条跳转路径的出现次数等信息。需要说明的是,在本申请实施例中,用户的访问信息可以是动态收集的,随着收集到的用户访问信息的增多,该数据库中保存的信息也在实时更新。另外,在生成各条网页跳转路径的过程中,还可以对各条路径和/或节点上的统计数据进行记录及更新。需要说明的是,关于统计信息,可以是在一定的时间段内进行统计,例如,可以每天进行统计,从每天的0点等起始时间开始进行网页跳转路径的生成以及各种信息的统计,并且可以实时更新。24小时之后,对统计的数据进行清零,重新利用新收集到的数据生成路径并统计各种数据,以此类推。当然,对于过去统计周期中的统计结果也可以保存,以便进行数据的比较等。
其中,具体在生成各条网页跳转路径时,可以根据被访问网页的网址等包含的信息进行。例如,如果某网页A是通过点击了在另一网页B中的链接之后打开的,则在该网页A的URL等网址的refer字段,一般会携带有关于网页B的URL。这样,如果某条访问信息是某网页A被访问,则通过分析该网页A的URL,则可以获知该网页的上一条来自于网页B,这样,在生成网页跳转路径时,就可以将网页A与网页B分别作为一个节点,并在这两个节点之间建立其串联关系,组成一条网页B至网页A的路径。之后,再根据其他的访问信息,还可以对该路径的上下游进行延伸,总之,通过这种方式,就可以建立多个节点之间的上下游串联关系,并且可以据此建立一棵或者多棵路径树。
关于各条路径的统计数据,主要可以包括各条路径出现的次数等。例如,在生成网页跳转路径的过程中,如果某条路径在数据库中已经存在,则可以对该路径的出现次数进行加一处理。
另外,如前文所述,http请求中的refer字段一般还携带有流量来源信息,因此,在生成各条跳转路径之后,还可以确定出每条路径的起始节点,并且根据起始节点的URL中包含的域名等信息,可以确定出起始节点所属的流量来源的类型信息。例如,这种类型信息可以包括搜索引擎、网站推广(还可以分为站内推广或者站外推广)、内部链接等等。例如,对于从外部网站引导来的流量,这种流量的访问http请求中,http header会有一个字段refer指明了来源网站地址;如果是非其他网站引导来的流量,这种流量的访问http请求中http header为空,因此,可以区分出来源的类型。
例如,某路径为A—>B—>C,其中,A为该路径的起始节点,则此时,可以对网页B的http请求进行分析,假设B网页的http请求中,http header的refer字段包含的URL为:www.bing.com,此时,可以证明该路径的流量来自于站外,并且根据网页A的域名可知,该域名包含在预置的搜索引擎域名列表中,因此,可以确定出该路径的流量来源类型为搜索引擎。
S103:根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
在确定出各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息之后,就可以将其保存到第一数据库中。也即,第一数据库中的每个数据条目可以包括以下信息:网页跳转路径包括的各个节点、网页跳转路径出现的次数、起始节点标识以及起始节点作为流量来源时所属的流量来源类型。例如,在具体实现时,第一数据库的结构可以如以下表1所示:
表1
网页跳转路径 出现次数 起始节点 流量来源类型
A—>B—>C n1 A 搜索引擎
C—>B—>D n2 C 站内引导
D—>E—>F n3 D 站外推广
在生成了上述第一数据库之后,就可以为用户提供与流量来源类型相关的查询服务。此时,参见图2,本申请实施例一还提供了一种网页数据查询方法,该方法具体可以包括以下步骤:
S201:提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
建立第一数据库的过程在前文中已经介绍,这里不再赘述。
S202:接收与流量来源类型相关的查询请求;
其中,与流量来源类型相关的查询请求可以有多种,例如,其中一种可以是第一查询请求,该第一查询请求用于查询指定网页的流量来源类型信息。此时,具体在提供指定网页的流量来源类型信息时,可以首先查询第一数据库,确定出包含指定网页的各条第一目标网页跳转路径,然后确定各条第一目标网页跳转路径中起始节点的流量来源类型,以及各条第一目标网页跳转路径的出现次数,并基于这种类型,对各个来源网页进行归类,对相同流量来源类型下的第一目标网页跳转路径的出现次数进行汇总,确定各流量来源类型分别对应的第一目标网页跳转路径的总出现次数,进而可以将各个流量来源类型以及对应的总出现次数,作为流量来源信息返回。这样,网页运营人员就可以获知其指定的网页有多少流量来自于搜索引擎,有多少流量来自于网站推广,等等。
查询请求的发出者可以是某网站的运营人员等,一个站点中可能包含多个网页,其可以选择其需要关注的网页,来发出具体的与流量来源类型相关的查询请求。为了便于用户选择,可以在用户界面中提供下拉列表等,供用户选择可以查看的网页,或者也可以允许用户通过在指定的输入框输入网页的网址等方式来搜索其需要查看流量信息的网页。
例如,假设某网页A为用户指定的网页,则为了提供关于该网页A的流量来源类型信息,可以首先从数据库中取出包含有该网页A的所有路径,例如其中一共有100条,每条路径都可以对应有出现次数等统计数据;假设其中有20条路径,是以该网页A作为起始节点的,则可以来源为直接输入地址访问的流量确定为20;剩余80条路径中,其中有40条路径的起始节点都属于站内推广,有30条属于搜索引擎类,另外10条为站外推广。则最终可以确定该网页A在上述四种来源类型下分别对应的流量,进而可以将具体的信息提供给请求方。
另外,与流量来源类型相关的请求还可以是第二请求,该第二请求可以用于查询指定类型的流量来源到指定站点中各节点的流量去向信息。例如,在指定具体站点(例如“天猫”)的情况下,可以查询某类型的流量来源(例如,站外推广)到该站点内各个网页的流向情况。具体实现时,可以首先查询第一数据库,确定以所述指定类型作为起始节点的各条第二目标网页跳转路径,然后将包含有所述指定站点下相同节点的第二目标网页跳转路径的出现次数进行汇总,确定所述指定类型的流量来源到所述指定站点下各节点的流向次数,最后根据指定类型的流量来源到指定站点下各节点的流向次数,返回查询结果。
S203:根据所述第一数据库中保存的信息,提供查询结果。
具体在返回查询结果时,具体的形式可以有多种,例如,可以直接以文字的形式进行展示,或者,为了使得提供的结果更加直观,还可以根据目标网页对应的各种类型来源的流量信息,生成整体流量来源视图,以视图的方式展示流量来源信息,如图3-1。或者根据目标类型的流量来源到站内各网页的流向信息,生成各类型流量的流向试图,然后对该视图进行展示,同样以视图的方式展示流向信息,如图3-2所示。其中n1至n5分别代表流向的次数,也即流量。
实施例二
在实施例二中,还可以提供某目标网页的详细的来源及去向信息,也即,其流量分别来自于哪些节点(称为来源节点),流经本节点之后,又流向了哪些节点(称为去向节点),等等。其中,无论是来源节点还是去向节点,都可以是多跳。具体实现时,该实施例二首先提供了一种建立网页跳转路径数据库的方法,参见图4,该方法可以包括以下步骤:
S401:收集与预置站点的网页访问相关的信息;
S402:将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
S403:根据各条网页跳转路径及其出现次数,生成第二数据库。
该实施例二中生成的第二数据库与实施例一中生成的第一数据库相比,不同之处在于,只需要在第二数据库中保存各条网页跳转路径以及各自出现的次数,因此,第二数据库的结构可以如以下表2所示:
表2
网页跳转路径 出现次数
A—>B—>C n1
C—>B—>D n2
D—>E—>F n3
关于访问信息的收集以及网页跳转路径的生成、出现次数统计等,可以参见实施例一中的介绍,这里不再赘述。
生成该第二数据库之后,可以用于查询某网页的详细来源去向信息。具体的,该实施例二还提供了一种网页数据查询方法,参见图5,该方法可以包括以下步骤:
S501:提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
S502:接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
S503:查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
具体实现时,在接收到具体的第三查询请求之后,可以首先根据指定网页所在的各个第三目标网页跳转路径,后续的具体来源去向信息就可以依据这些第三目标网页跳转路径来获得。
S504:根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
由于每条网页跳转路径上都包括多个节点,各个节点根据跳转关系进行串联,因此,在确定出各个第三目标网页跳转路径之后,就可以根据指定网页在各条目标路径中所处的位置,确定出指定网页的一跳或多条来源节点,以及一跳或多跳去向节点,然后根据所述一跳或多条来源节点,以及一跳或多跳去向节点,返回该指定网页的来源去向详细信息。例如,假设某条第三目标网页跳转路径为:A—>B—>C—>D,待查询的指定网页是C,则B是C的一跳来源节点,A是C的二跳来源节点,D是C的一跳去向节点,以此类推。
S505:根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
由于同一个网页可能出现在多条网页跳转路径中,因此,可以将包含该网页的跳转路径取出,然后进行汇总,获知该网页的具体来源去向情况,如图6-1所示。例如,某指定网页对应的节点是节点D,该节点所在的路径包括以下四条:
A—>C—>D—>F
A—>D
B—>D
B—>D—>E—>G
则该节点D的一跳来源节点包括节点C、A、B,二跳来源节点包括节点A,一跳去向节点包括节点E、F,二跳去向节点包括节点G
具体实现时,为了使得用户获得更直观的信息,还可以以指定网页对应的节点为中心,根据获得的一跳或多跳来源节点,以及一跳或多跳去向节点,生成该指定网页的来源去向视图并返回。例如,对于前述例子,对应生成的视图可以如图6-2所示。
当然,在实际应用中,这种节点来源与去向不限于图3所示的两跳,而是可以展开,即可展开一跳、二跳、三跳乃至到结束为止。
实施例三
在实际应用中,还有些网页,由于具有某种特性(例如,行业类目页面、店铺页面、品牌页面、业务对象详情页面、实验页面等等),可能需要获得指定网页节点在某特性下的流量情况,以便基于该特性来了解该指定网页节点的流量情况。或者,还可能需要了解某特性的网页的流向情况,等等。为此,在本申请实施例三中,还提供了另一种建立网页跳转路径数据库的方法,参见图7,该方法可以包括以下步骤:
S701:收集与预置站点的网页访问相关的信息;
S702:将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
其中,关于各条网页跳转路径的生成方式已经出现次数的统计方式,可以如实施例一所述。而关于节点的特性信息,由于一般在网页的URL等信息中可以携带具体的特性信息,因此,可以通过分析网页的URL,确定各节点是否具有某种特征,如果具有,则可以将节点对应的具体特性信息记录到第三数据库中。
S703:根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库。
也就是说,第三数据库中除了包括网页跳转路径及其出现次数信息之外,还可以保存各节点所具有的特性信息,当然,可能并不是每个节点都具有特性,因此,所谓的“节点所具有的特性信息”可以包括两层含义,第一,是否具有特性,第二,如果有,那么具有具体的何种特性。例如,具体实现时,第三数据库的结构可以如以下表3所示:
表3
其中,上述表3中的第三条网页跳转路径中,没有记录与节点F相关的特性信息,则意味着该节点F不具有特定的特性。
总之,基于上述第三数据库,可以查询与节点特性相关的流量统计信息。具体的,参见图8,该实施例三还提供了一种网页数据查询方法,该方法具体可以包括以下步骤:
S801:提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
S802:接收与节点特性相关的查询请求;
S803:根据所述第三数据库中保存的信息,提供查询结果。
其中,具体与节点特性相关的查询请求可以包括多个方面,例如,在其中一种情况下,该查询请求可以是第四查询请求,该第四查询请求用于查看各节点流向指定特性节点的流量信息。例如,对于天猫站点下的各个网页,可以查询从这些网页到具有实验特性的网页的流向信息。
具体的,就可以首先查询第三数据库,确定包含有指定特性节点的各条第四目标网页跳转路径,然后根据各条第四目标网页跳转路径,确定流向所述指定特性节点的来源节点以及各来源节点的出现次数,最后根据来源节点以及各来源节点的出现次数,返回查询结果。例如,假设需要查看某网站内的节点流向品牌页的流量,则可以从数据库中提取出带有品牌页特性节点的各条路径,例如,假设共有100条,每条路径中都可以对应确定出这种带有品牌页特性的节点的来源节点,例如,有节点B、C、D等,进而可以根据各条路径的出现次数,对各个来源节点以及对应的出现次数进行汇总,确定出各个来源节点流向品牌页的流量,也即,节点B、C、D等分别流向品牌页的流量。
另外,与节点特性相关的查询请求还可以是第五查询请求,该第五查询请求用于查看指定特性节点到指定站点内各节点的流量信息,此时,可以首先查询第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;然后,根据各条第四目标网页跳转路径,确定指定特性节点流向的去向节点以及各去向节点的出现次数,之后就可以根据所述去向节点以及各去向节点的出现次数,返回查询结果。
对于实施例三中的查询结果,同样可以采用视图的方式来提供具体的流量统计信息,以提高信息的可读性。例如,对于某网站内的节点流向品牌页的流量信息,可以如图9所示。
总之,通过本申请实施例,能够根据用户访问网页过程中产生的日志,建立网页跳转路径信息数据库,并对各条路径和/或节点上的数据进行统计及实时更新,在此过程中,就可以接收查询流量统计信息的请求,并根据数据库中记录的数据,提供具体的流量统计信息结果。这样,可以从整体上提供某指定网页的流量统计等信息,从而为网页运营人员从整体上掌握网页的流量情况提供了依据,进而可以据此对其链接投放方向等进行有效的调整,以便于更有效的利用网络资源,避免资源浪费或者利用不足。
与本申请实施例一提供的网页数据查询方法相对应,本申请实施例还提供了一种网页数据查询装置,参见图10,该装置具体可以包括:
第一数据库提供单元1001,用于提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
类型查询请求接收单元1002,用于接收与流量来源类型相关的查询请求;
类型查询结果提供单元1003,用于根据所述第一数据库中保存的信息,提供查询结果。
其中,所述类型查询请求接收单元1002具体可以包括:
第一查询请求接收子单元,用于接收第一查询请求,所述第一查询请求用于查询指定网页的流量来源类型信息;
相应的,所述类型查询结果提供单元1003可以包括:
第一查询子单元,用于查询所述第一数据库,确定包含所述指定网页的各条第一目标网页跳转路径;
类型确定子单元,用于确定各条第一目标网页跳转路径中起始节点对应的类型,以及各条第一目标网页跳转路径的出现次数;
第一汇总子单元,用于对具有相同类型起始节点的第一目标网页跳转路径的出现次数进行汇总,确定各类型分别对应的第一目标网页跳转路径的总出现次数;
第一返回子单元,用于根据所述各个类型以及对应的所述总出现次数,确定所述流量来源信息并返回。
或者,所述类型查询请求接收单元1002包括:
第二查询请求接收子单元,用于接收第二查询请求,所述第二查询请求用于查询指定类型的流量来源到指定站点中各节点的流量去向信息;
相应的,所述类型查询结果提供单元1003可以包括:
第二查询子单元,用于查询所述第一数据库,确定以所述指定类型作为起始节点的各条第二目标网页跳转路径;
第二汇总子单元,用于将包含有所述指定站点下相同节点的第二目标网页跳转路径的出现次数进行汇总,确定所述指定类型的流量来源到所述指定站点下各节点的流向次数;
第二返回子单元,用于根据所述指定类型的流量来源到所述指定站点下各节点的流向次数,返回查询结果。
与本申请实施例一提供的建立网页跳转路径数据库的方法相对应,本申请实施例还提供了一种建立网页跳转路径数据库的装置,参见图11,该装置具体可以包括:
第一收集单元1101,用于收集与预置站点的网页访问相关的信息;
第一统计单元1102,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
第一生成单元1103,用于根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
与本申请实施例二提供的网页数据查询方法相对应,本申请实施例还提供了一种网页数据查询装置,参见图12,该装置具体可以包括:
第二数据库提供单元1201,用于提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
来源去向查询请求接收单元1202,用于接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
数据库查询单元1203,用于查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
跳转关系确定单元1204,用于根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
返回单元1205,用于根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
其中,所述返回单元1205具体可以用于:
以所述指定网页对应的节点为中心,根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,生成该指定网页的来源去向关系视图并返回。
与本申请实施例二提供的建立网页跳转路径数据库的方法相对应,本申请实施例还提供了一种建立网页跳转路径数据库的装置,参见图13,该装置具体可以包括:
第二收集单元1301,用于收集与预置站点的网页访问相关的信息;
第二统计单元1302,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
第二生成单元1303,用于根据各条网页跳转路径及其出现次数,生成第二数据库。
与本申请实施例三提供的网页数据查询方法相对应,本申请实施例还提供了一种网页数据查询装置,参见图14,该装置具体可以包括:
第三数据库提供单元1401,用于提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
特性查询请求接收单元1402,用于接收与节点特性相关的查询请求;
特性查询结果提供单元1403,用于根据所述第三数据库中保存的信息,提供查询结果。
其中,所述特性查询请求接收单元1402具体可以包括:
第四查询请求接收子单元,用于接收第四查询请求,所述第四查询请求用于查看各节点流向指定特性节点的流量信息;
相应的,所述特性查询结果提供单元1403可以包括:
第三查询子单元,用于查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
第三汇总子单元,用于根据各条第四目标网页跳转路径,确定流向所述指定特性节点的来源节点以及各来源节点的出现次数;
第三返回子单元,用于根据所述来源节点以及各来源节点的出现次数,返回查询结果。
或者,所述特性查询请求接收单元1402包括:
第五查询请求接收子单元,用于接收第五查询请求,所述第五查询请求用于查看指定特性节点到指定站点内各节点的流量信息;
所述特性查询结果提供单元1403可以包括:
第四查询子单元,用于查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
第四汇总子单元,用于根据各条第四目标网页跳转路径,确定所述指定特性节点流向的去向节点以及各去向节点的出现次数;
第四返回子单元,用于根据所述去向节点以及各去向节点的出现次数,返回查询结果。
与本申请实施例二提供的建立网页跳转路径数据库的方法相对应,本申请实施例还提供了一种建立网页跳转路径数据库的装置,参见图15,该装置具体可以包括:
第三收集单元1501,用于收集与预置站点的网页访问相关的信息;
第三统计单元1502,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
第三生成单元1503,用于根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库。
通过本申请实施例,能够根据用户访问网页过程中产生的日志,建立网页跳转路径信息数据库,并对各条路径和/或节点上的数据进行统计及实时更新,在此过程中,就可以接收查询流量统计信息的请求,并根据数据库中记录的数据,提供具体的流量统计信息结果。这样,可以从整体上提供某指定网页的流量统计等信息,从而为网页运营人员从整体上掌握网页的流量情况提供了依据,进而可以据此对其链接投放方向等进行有效的调整,以便于更有效的利用网络资源,避免资源浪费或者利用不足。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的网页数据查询、建立网页跳转路径数据库的方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种网页数据查询方法,其特征在于,包括:
提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
接收与流量来源类型相关的查询请求;
根据所述第一数据库中保存的信息,提供查询结果。
2.根据权利要求1所述的方法,其特征在于,所述接收与流量来源类型相关的查询请求,包括:
接收第一查询请求,所述第一查询请求用于查询指定网页的流量来源类型信息;
所述根据所述第一数据库中保存的信息,提供查询结果,包括:
查询所述第一数据库,确定包含所述指定网页的各条第一目标网页跳转路径;
确定各条第一目标网页跳转路径中起始节点对应的类型,以及各条第一目标网页跳转路径的出现次数;
对具有相同类型起始节点的第一目标网页跳转路径的出现次数进行汇总,确定各类型分别对应的第一目标网页跳转路径的总出现次数;
根据所述各个类型以及对应的所述总出现次数,确定所述流量来源信息并返回。
3.根据权利要求1所述的方法,其特征在于,接收与流量来源类型相关的查询请求,包括:
接收第二查询请求,所述第二查询请求用于查询指定类型的流量来源到指定站点中各节点的流量去向信息;
所述根据所述第一数据库中保存的信息,提供查询结果,包括:
查询所述第一数据库,确定以所述指定类型作为起始节点的各条第二目标网页跳转路径;
将包含有所述指定站点下相同节点的第二目标网页跳转路径的出现次数进行汇总,确定所述指定类型的流量来源到所述指定站点下各节点的流向次数;
根据所述指定类型的流量来源到所述指定站点下各节点的流向次数,返回查询结果。
4.一种建立网页跳转路径数据库的方法,其特征在于,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
5.一种网页数据查询方法,其特征在于,包括:
提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息,包括:
以所述指定网页对应的节点为中心,根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,生成该指定网页的来源去向关系视图并返回。
7.一种建立网页跳转路径数据库的方法,其特征在于,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
根据各条网页跳转路径及其出现次数,生成第二数据库。
8.一种网页数据查询方法,其特征在于,包括:
提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
接收与节点特性相关的查询请求;
根据所述第三数据库中保存的信息,提供查询结果。
9.根据权利要求8所述的方法,其特征在于,所述接收与节点特性相关的查询请求,包括:
接收第四查询请求,所述第四查询请求用于查看各节点流向指定特性节点的流量信息;
所述根据所述第三数据库中保存的信息,提供查询结果,包括:
查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
根据各条第四目标网页跳转路径,确定流向所述指定特性节点的来源节点以及各来源节点的出现次数;
根据所述来源节点以及各来源节点的出现次数,返回查询结果。
10.根据权利要求8所述的方法,其特征在于,所述接收与节点特性相关的查询请求,包括:
接收第五查询请求,所述第五查询请求用于查看指定特性节点到指定站点内各节点的流量信息;
所述根据所述第三数据库中保存的信息,提供查询结果,包括:
查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
根据各条第四目标网页跳转路径,确定所述指定特性节点流向的去向节点以及各去向节点的出现次数;
根据所述去向节点以及各去向节点的出现次数,返回查询结果。
11.一种建立网页跳转路径数据库的方法,其特征在于,包括:
收集与预置站点的网页访问相关的信息;
将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库。
12.一种网页数据查询装置,其特征在于,包括:
第一数据库提供单元,用于提供第一数据库,所述第一数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计数据包括各条网页跳转路径的出现次数、各网页跳转路径的起始节点以及所述起始节点在作为流量来源时所属的类型;
类型查询请求接收单元,用于接收与流量来源类型相关的查询请求;
类型查询结果提供单元,用于根据所述第一数据库中保存的信息,提供查询结果。
13.根据权利要求12所述的装置,其特征在于,所述类型查询请求接收单元包括:
第一查询请求接收子单元,用于接收第一查询请求,所述第一查询请求用于查询指定网页的流量来源类型信息;
所述类型查询结果提供单元包括:
第一查询子单元,用于查询所述第一数据库,确定包含所述指定网页的各条第一目标网页跳转路径;
类型确定子单元,用于确定各条第一目标网页跳转路径中起始节点对应的类型,以及各条第一目标网页跳转路径的出现次数;
第一汇总子单元,用于对具有相同类型起始节点的第一目标网页跳转路径的出现次数进行汇总,确定各类型分别对应的第一目标网页跳转路径的总出现次数;
第一返回子单元,用于根据所述各个类型以及对应的所述总出现次数,确定所述流量来源信息并返回。
14.根据权利要求12所述的装置,其特征在于,所述类型查询请求接收单元包括:
第二查询请求接收子单元,用于接收第二查询请求,所述第二查询请求用于查询指定类型的流量来源到指定站点中各节点的流量去向信息;
所述类型查询结果提供单元包括:
第二查询子单元,用于查询所述第一数据库,确定以所述指定类型作为起始节点的各条第二目标网页跳转路径;
第二汇总子单元,用于将包含有所述指定站点下相同节点的第二目标网页跳转路径的出现次数进行汇总,确定所述指定类型的流量来源到所述指定站点下各节点的流向次数;
第二返回子单元,用于根据所述指定类型的流量来源到所述指定站点下各节点的流向次数,返回查询结果。
15.一种建立网页跳转路径数据库的装置,其特征在于,包括:
第一收集单元,用于收集与预置站点的网页访问相关的信息;
第一统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径的起始节点,根据起始节点的网址中包含的域名信息,确定所述起始节点在作为流量来源时所属的类型;
第一生成单元,用于根据各条网页跳转路径及其出现次数,以及各个起始节点的流量来源类型信息,生成第一数据库。
16.一种网页数据查询装置,其特征在于,包括:
第二数据库提供单元,用于提供第二数据库,所述第二数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;
来源去向查询请求接收单元,用于接收第三查询请求,所述第三查询请求用于查看指定网页的来源以及去向详细信息;
数据库查询单元,用于查询所述第二数据库,确定包含所述指定网页的各条第三目标网页跳转路径;
跳转关系确定单元,用于根据所述指定网页在各条第三目标网页跳转路径中所处的位置,确定所述指定网页的一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系;
返回单元,用于根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,返回所述来源以及去向详细信息。
17.根据权利要求16所述的装置,其特征在于,所述返回单元具体用于:
以所述指定网页对应的节点为中心,根据所述一跳或多跳来源节点、一跳或多跳去向节点以及各跳节点之间的跳转关系,生成该指定网页的来源去向关系视图并返回。
18.一种建立网页跳转路径数据库的装置,其特征在于,包括:
第二收集单元,用于收集与预置站点的网页访问相关的信息;
第二统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;
第二生成单元,用于根据各条网页跳转路径及其出现次数,生成第二数据库。
19.一种网页数据查询装置,其特征在于,包括:
第三数据库提供单元,用于提供第三数据库,所述第三数据库中保存有预先收集到的网页跳转路径的统计信息;其中,所述网页跳转路径以被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联;所述网页跳转路径的统计信息包括:各节点所具有的预置特性;
特性查询请求接收单元,用于接收与节点特性相关的查询请求;
特性查询结果提供单元,用于根据所述第三数据库中保存的信息,提供查询结果。
20.根据权利要求19所述的装置,其特征在于,所述特性查询请求接收单元包括:
第四查询请求接收子单元,用于接收第四查询请求,所述第四查询请求用于查看各节点流向指定特性节点的流量信息;
所述特性查询结果提供单元包括:
第三查询子单元,用于查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
第三汇总子单元,用于根据各条第四目标网页跳转路径,确定流向所述指定特性节点的来源节点以及各来源节点的出现次数;
第三返回子单元,用于根据所述来源节点以及各来源节点的出现次数,返回查询结果。
21.根据权利要求19所述的装置,其特征在于,所述特性查询请求接收单元包括:
第五查询请求接收子单元,用于接收第五查询请求,所述第五查询请求用于查看指定特性节点到指定站点内各节点的流量信息;
所述特性查询结果提供单元包括:
第四查询子单元,用于查询所述第三数据库,确定包含有所述指定特性节点的各条第四目标网页跳转路径;
第四汇总子单元,用于根据各条第四目标网页跳转路径,确定所述指定特性节点流向的去向节点以及各去向节点的出现次数;
第四返回子单元,用于根据所述去向节点以及各去向节点的出现次数,返回查询结果。
22.一种建立网页跳转路径数据库的装置,其特征在于,包括:
第三收集单元,用于收集与预置站点的网页访问相关的信息;
第三统计单元,用于将被访问网页作为节点,并根据被访问网页网址中包含的来源信息,将相关的节点进行串联,生成多条网页跳转路径,并统计各条网页跳转路径的出现次数;其中,关于各网页跳转路径上的各节点,根据网址中包含的属性信息,确定各节点所具有的预置特性;
第三生成单元,用于根据各条网页跳转路径及其出现次数,以及各个节点所具有的特性信息,生成第三数据库。
CN201510041278.8A 2015-01-27 2015-01-27 网页数据查询、建立网页跳转路径数据库的方法及装置 Pending CN105989002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510041278.8A CN105989002A (zh) 2015-01-27 2015-01-27 网页数据查询、建立网页跳转路径数据库的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510041278.8A CN105989002A (zh) 2015-01-27 2015-01-27 网页数据查询、建立网页跳转路径数据库的方法及装置

Publications (1)

Publication Number Publication Date
CN105989002A true CN105989002A (zh) 2016-10-05

Family

ID=57034767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510041278.8A Pending CN105989002A (zh) 2015-01-27 2015-01-27 网页数据查询、建立网页跳转路径数据库的方法及装置

Country Status (1)

Country Link
CN (1) CN105989002A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239970A (zh) * 2017-05-12 2017-10-10 百川通联(北京)网络技术有限公司 一种基于行为日志确定广告点击率的方法及***
CN110020364A (zh) * 2017-11-27 2019-07-16 北京京东尚科信息技术有限公司 确定页面访问的流量来源的方法和装置
CN113434556A (zh) * 2021-07-22 2021-09-24 支付宝(杭州)信息技术有限公司 一种数据处理方法和***
CN114491371A (zh) * 2022-01-27 2022-05-13 佛山众陶联供应链服务有限公司 一种web***前端多***跳转方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949259A (zh) * 2006-01-28 2007-04-18 商助科技(北京)有限公司 通过在网页中嵌入代码来采集网页的点击信息的方法
CN101072122A (zh) * 2007-03-30 2007-11-14 腾讯科技(深圳)有限公司 获取访问量统计数据的方法、***和用户端设备
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置
CN104252348A (zh) * 2013-06-27 2014-12-31 腾讯科技(深圳)有限公司 一种基于浏览器的网页访问统计方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949259A (zh) * 2006-01-28 2007-04-18 商助科技(北京)有限公司 通过在网页中嵌入代码来采集网页的点击信息的方法
CN101072122A (zh) * 2007-03-30 2007-11-14 腾讯科技(深圳)有限公司 获取访问量统计数据的方法、***和用户端设备
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置
CN104252348A (zh) * 2013-06-27 2014-12-31 腾讯科技(深圳)有限公司 一种基于浏览器的网页访问统计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白凯 等: "旅游信息来源类型对消费者行为意图的影响", 《人文地理》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239970A (zh) * 2017-05-12 2017-10-10 百川通联(北京)网络技术有限公司 一种基于行为日志确定广告点击率的方法及***
CN110020364A (zh) * 2017-11-27 2019-07-16 北京京东尚科信息技术有限公司 确定页面访问的流量来源的方法和装置
CN110020364B (zh) * 2017-11-27 2021-11-30 北京京东尚科信息技术有限公司 确定页面访问的流量来源的方法和装置
CN113434556A (zh) * 2021-07-22 2021-09-24 支付宝(杭州)信息技术有限公司 一种数据处理方法和***
CN115080622A (zh) * 2021-07-22 2022-09-20 支付宝(杭州)信息技术有限公司 一种数据处理方法和***
CN114491371A (zh) * 2022-01-27 2022-05-13 佛山众陶联供应链服务有限公司 一种web***前端多***跳转方法及***
CN114491371B (zh) * 2022-01-27 2022-09-16 佛山众陶联供应链服务有限公司 一种web***前端多***跳转方法及***

Similar Documents

Publication Publication Date Title
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
CN103389983B (zh) 一种用于网络爬虫***的网页内容抓取方法及装置
KR101130108B1 (ko) 만년력 형태의 웹문서 트랩 검출 및 이를 이용한 검색 데이터베이스 구축 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN102054004B (zh) 一种网页推荐方法和装置
US20080104113A1 (en) Uniform resource locator scoring for targeted web crawling
CN102142033B (zh) 一种在搜索结果中提供相关子链接信息的方法和设备
CN102663048B (zh) 一种搜索结果提供方法及装置
CN103744856B (zh) 联动性扩展搜索方法及装置、***
Jain et al. Page ranking algorithms in web mining, limitations of existing methods and a new method for indexing web pages
CN102693271A (zh) 一种网络信息推荐方法及***
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN102708132A (zh) 一种网页推荐方法及***
CN105989002A (zh) 网页数据查询、建立网页跳转路径数据库的方法及装置
CN102663054A (zh) 一种确定网站权重的方法及装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN104202418B (zh) 为内容提供商推荐商业的内容分发网络的方法和***
CN104252348A (zh) 一种基于浏览器的网页访问统计方法及装置
Sethi et al. A novel page ranking mechanism based on user browsing patterns
Aggarwal An efficient focused web crawling approach
CN105224555A (zh) 一种搜索的方法、装置和***
US9973950B2 (en) Technique for data traffic analysis
CN106815248A (zh) 网站分析方法及装置
CN105930385A (zh) 一种数据爬取方法及***
CN103631793A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161005