CN104504077B - 网页访问数据的统计方法和装置 - Google Patents

网页访问数据的统计方法和装置 Download PDF

Info

Publication number
CN104504077B
CN104504077B CN201410812114.6A CN201410812114A CN104504077B CN 104504077 B CN104504077 B CN 104504077B CN 201410812114 A CN201410812114 A CN 201410812114A CN 104504077 B CN104504077 B CN 104504077B
Authority
CN
China
Prior art keywords
access
visitor
array
web object
guest identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410812114.6A
Other languages
English (en)
Other versions
CN104504077A (zh
Inventor
池雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410812114.6A priority Critical patent/CN104504077B/zh
Publication of CN104504077A publication Critical patent/CN104504077A/zh
Application granted granted Critical
Publication of CN104504077B publication Critical patent/CN104504077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页访问数据的统计方法和装置。其中,该统计方法包括:获取统计访问网页对象的统计请求,其中,统计请求中携带有统计时间和网页对象的标识;从数据库中提取网页对象的标识对应统计时间的一个或多个访问数组,其中,每个访问数组中的一个元素用于记录一个访客访问网页对象的访问次数;统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量。采用本发明,解决了现有技术中对访问网页对象的统计请求进行处理时效率低的问题,达到了对访问网页对象的统计请求进行快速高效处理的效果。

Description

网页访问数据的统计方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页访问数据的统计方法和装置。
背景技术
目前,在广告监测大数据统计中,经常需要根据访客标识统计广告独立用户数量、媒体用户交叉度、项目阶段性独立用户访问数量等数字指标。而在统计过程中,往往为了统计某一数字指标,需要对***内超过10亿以上的独立访客数据进行运算,有时对于一条广告,每天可能超过几亿次的访问量,这其中一个用户可能多次访问该广告,所以对于统计该数字指标需要做大量的运算。
当前,统计某一数字指标中最普遍的处理手段为:遍历广告特定时间段内的所有访问,然后记录访客的标识,如果访客在之前没有访问过该广告则计数器加一,这一过程基本是在数据库***中完成,在计算过程中需要读取所有数据,并做去除重复处理。为了加快查询和统计的速度,一些分布式方案将相同访客信息存储在同一个位置,然后分别统计,最后将各个服务器上的计数器相加。但是即使采用分布式方案,统计某一数字指标仍然需要较长时间。
现有技术中,采用数据计数的方式每个访问将被读取一次,IO操作复杂度为O(n),计数操作为n,判断用户是否已计数操作的复杂度为m*n,存储空间开销为独立用户数,在对一个数据指标以计数的方式进行统计时,考虑到要对每个访问数据读取一次,还要判断用户是否是第一次访问,存储空间开销也会很大,在一台测试配置的服务器上通过数据库运算查找一条广告一天4亿访问数据的独立用户数量耗时为6-9分钟;再假设***一共为100个客户服务,一个客户有10个项目,每个项目有10条广告,那么统计一天所有客户的独立访问数量,一共至少需要6分钟*10条广告*10个项目*100个客户=1000小时=41天,即使计算通过40台服务器进行计算,那么还是需要1天以上才能统计出1天内客户独立访问的总数。
针对现有技术中对访问网页对象的统计请求进行处理时效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页访问数据的统计方法和装置,以解决现有技术中对访问网页对象的统计请求进行处理时效率低的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种网页访问数据的统计方法。
根据本发明的网页访问数据的统计方法包括:获取统计访问网页对象的统计请求,其中,统计请求中携带有统计时间和网页对象的标识;从数据库中提取网页对象的标识对应统计时间的一个或多个访问数组,其中,每个访问数组中的一个元素用于记录一个访客访问网页对象的访问次数;统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量。
进一步地,在获取统计访问网页对象的统计请求之前,统计方法还包括:获取访客访问网页对象的访问数据;统计各个访客在预设的记录时间内访问网页对象的访问次数;将各个访问次数作为元素,得到访问数组。
进一步地,将各个访问次数作为元素,得到访问数组包括:记录发生访问次数的访客的访客标识;将访客标识作为访问次数的元素的下脚标。
进一步地,获取访客访问网页对象的访问数据包括:获取访客访问网页对象的访问数据包括:从各个访客的访问数据中提取访问标识;设置访问标识的访客标识;将访客的访问数据存储至访客标识所指示的存储区域,其中,访问标识与访客标识一一对应,访问标识为访客在访问网页对象时生成的标识,访客标识为连续的自然数,每个访客标识对应一个存储区域;统计各个访客在预设的记录时间内访问网页对象的访问次数包括:按照访客标识依序从存储区域读取在预设的记录时间内的访问数据,统计各个存储区域的访问数据的数量得到访问次数。
进一步地,在统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量之后,统计方法还包括:读取不为零的元素的访客标识;从访客标识的存储区域获取访客的访问信息,其中,访问信息包括访客的属性信息和访问数据。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种网页访问数据的统计装置。根据本发明的网页访问数据的统计装置包括:第一获取模块,用于获取统计访问网页对象的统计请求,其中,统计请求中携带有统计时间和网页对象的标识;提取模块,用于从数据库中提取网页对象的标识对应统计时间的一个或多个访问数组,其中,每个访问数组中的一个元素用于记录一个访客访问网页对象的访问次数;第一统计模块,用于统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量。
进一步地,统计装置还包括:第二获取模块,用于在获取统计访问网页对象的统计请求之前,获取访客访问网页对象的访问数据;第二统计模块,用于统计各个访客在预设的记录时间内访问网页对象的访问次数;数组模块,用于将各个访问次数作为元素,得到访问数组。
进一步地,数组模块包括:记录模块,用于记录发生访问次数的访客的访客标识;转换模块,用于将访客标识作为访问次数的元素的下脚标。
进一步地,第二获取模块包括:提取子模块,用于从各个访客的访问数据中提取访问标识;设置模块,用于设置访问标识的访客标识;存储模块,用于将访客的访问数据存储至访客标识所指示的存储区域,其中,访问标识与访客标识一一对应,访问标识为访客在访问网页对象时生成的标识,访客标识为连续的自然数,每个访客标识对应一个存储区域;第二统计模块包括:用于按照访客标识依序从存储区域读取在预设的记录时间内的访问数据,统计各个存储区域的访问数据的数量得到访问次数。
进一步地,统计装置还包括:读取模块,用于在统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量之后,读取不为零的元素的访客标识;第三获取模块,用于从访客标识的存储区域获取访客的访问信息,其中,访问信息包括访客的属性信息和访问数据。
采用本发明,通过提取访客访问网页对象的访问数据中的访客标识,并将访客的访客标识作为数组下角标的数值、将访客对该网页对象的访问次数值作为数组元素值,然后根据不同的网页对象和预设的记录时间段将数组元素按照访客标识的顺序存储在数组中,这样当用户发起对访问网页对象的数据的统计请求时,只需要对数组中的元素进行简单计算即可得到该统计请求所要求的数据。采用本发明,解决了现有技术中对访问网页对象的统计请求进行处理时效率低的问题,达到了对访问网页对象的统计请求进行快速高效处理的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页访问数据的统计方法的流程图;以及
图2是根据本发明实施例的网页访问数据的统计装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种网页访问数据的统计方法。
图1是根据本发明实施例的网页访问数据的统计方法的流程图。如图1所示,该方法包括步骤如下:
步骤S102,获取统计访问网页对象的统计请求,其中,统计请求中携带有统计时间和网页对象的标识。
步骤S104,从数据库中提取网页对象的标识对应统计时间的一个或多个访问数组,其中,每个访问数组中的一个元素用于记录一个访客访问网页对象的访问次数。
步骤S106,统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量。
采用本发明的上述实施例,提取访客访问网页对象的访问数据中的访客标识,并将访客的访客标识作为数组下角标的数值、将访客对该网页对象的访问次数值作为数组元素值,然后根据不同的网页对象和预设的记录时间段将数组元素按照访客标识的顺序存储在数组中,这样当用户发起对访问网页对象的数据的统计请求时,只需要对数组中的元素进行简单计算即可得到该统计请求所要求的数据。采用本发明,解决了现有技术中对访问网页对象的统计请求进行处理时效率低的问题,达到了对访问网页对象的统计请求进行快速高效处理的效果。
根据本发明的上述实施例,统计方法还包括:在获取统计访问网页对象的统计请求之前,获取访客访问网页对象的访问数据;统计各个访客在预设的记录时间内访问网页对象的访问次数;将各个访问次数作为元素,得到访问数组。
下面结合表1、表2以及表3详述本发明的上述实施例,表1是现行的对网络访问数据进行存储的数据表,表2是预存的访问标识与访客标识的转换数据表,表3是本发明的对网络访问数据进行存储的数据表。如表1所示,从表1可得知访问标识为“d44bff32316243a88a7b”的用户在预设的记录时间内对网页对象“1”进行了两次访问,在表2中示出的访问标识可以为cookie值,如表2中访问标识为“d44bff32316243a88a7b”的用户可以用访客标识“1”表示,而访客标识“1”的数值可以是表3中网页对象“1”所对应的数组a的下角标的数值,而a1对应的元素值即为该用户对该网页对象访问的次数。
在上述实施例中,cookie值为用户客户端浏览器访问网页对象时生成的对应该用户客户端浏览器的唯一标识;上述的网页对象可以是网站提供的可供用户访问的对象,如,广告。
在本发明的上述实施例中,通过将用户的访客标识转换为数组下角标,***在统计预设网页对象的访问量时,不再需要查询该用户是否在之前对该网页对象进行过访问,从而大大提高了***的统计效率,从达到了对访问网页对象的统计请求进行快速高效处理的效果。
在本发明的上述实施例中,将各个访问次数作为元素,得到访问数组可以包括:记录发生访问次数的访客的访客标识;将访客标识作为访问次数的元素的下脚标。
进一步地,获取访客访问网页对象的访问数据可以包括:从各个访客的访问数据中提取访问标识;设置访问标识的访客标识,其中,访问标识为访客在访问网页对象时生成的标识,网页的访客的访客标识为连续的自然数,每个访客标识对应一个存储区域;将访客的访问数据存储至访客标识所指示的存储区域。其中,访问标识与访客标识一一对应,访问标识为访客在访问网页对象时生成的标识,访客标识为连续的自然数,每个访客标识对应一个存储区域。
需要进一步说明的是,在上述实施例中,可以将访客标识作为访问数组的下角标,将每个下角标所对应的访客访问次数作为该下角标所对应的数组元素值存储在数组中。进一步地,可以根据需要以固定时间段(如一个小时)为单位将该时间段内发生的访问数据(访问数组)存储在访客标识所指示的存储区域,同时保存该访问数据与时间的对应关系,上述存储区域可以是本地存储器(如硬盘、服务器、数据库等)。
下面结合表1、表2以及表3详述上述实施例,根据访问数据表(可以是表1)得到在预设的记录时间内访问网页对象(可以是广告)的用户的访客标识,再根据用户的访问时间的顺序将访问标识转换为访客标识。如表2中,用户访问标识可以用对应的访客标识来表示,而用户的访客标识可以是连续的自然数。在表3中的数组中,上述访客标识的数值即为数组的下角标的数值。如表3中网页对象“1”在时间2014-01-0110:00对应的数组[2,0,…0…,x](即数组a)中,访客标识“1”的数值可以为a1中的下角标“1”的数值。
在上述实施例中,通过将用户的访客标识的数值转换为数组的下脚标的数值,使得***能够快速访问访问数据(即数组),且能够快速统计预设的记录时间内对特定网页对象的访问量,从而达到了对访问网页对象的统计请求进行快速高效处理的效果。
表1
访问 网页对象 访问时间 访问标识(Cookie)
1 1 2014-01-0110:00:01.321 d44bff32316243a88a7b
2 1 2014-01-0110:00:07.314 d44bff32316243a88a7b
3 2 2014-01-0110:00:08.294 a6111e2390874b169bbe
100000000 2014-01-0110:59:59.274 ae58f93146a545a0b19a
如表1所示,预设的记录时间内第一个访问用户,其访问标识为“d44bff32316243a88a7b”,在时间点“2014-01-0110:00:01.321”对网页对象“1”进行了访问且该用户在预设时间段内对网页对象只进行了两次访问。访问标识为“a6111e2390874b169bbe”在预设的记录时间段内只对网页对象“2”进行了一次访问。其中,访问的网页对象可以是广告。
表2
访客标识 访问标识(Cookie)
1 d44bff32316243a88a7b
2 a6111e2390874b169bbe
M ae58f93146a545a0b19a
N
表2中M和N没有实际含义,用于代替省略的访客标识。表2是访问标识与访客标识的对应关系列表。
表3
网页对象 时间 数组
1 2014-01-0110:00 [2,0,…0…,x]
2 2014-01-0110:00 [0,1,…0…,y]
[...............]
其中,数组[2,0,…0…,x]即为数组a,数组[0,1,…0…,y]即为数组b。
根据本发明的上述实施例,统计各个访客在预设的记录时间内访问网页对象的访问次数可以包括:按照访客标识依序从存储区域读取在预设的记录时间内的访问数据,统计各个存储区域的访问数据的数量得到访问次数。
具体地,获取访客访问网页对象的访问数据,按照访客标识依序从存储区域读取在预设的记录时间内的访问数据,统计各个存储区域的访问数据的数量得到访问次数,将各个访问次数作为元素,得到访问数组。其中,在统计各个存储区域的访问数据的数量得到访问次数时,需要根据访客标识从存储区域读取预设的时间内的访问数据,并统计各个存储区域的访问数据的数量得到该访客标识所对应的用户的访问次数,将该访问次数作为该访客标识(即访问数组中元素的下角标)所对应的访问数组的元素值(即上述实施例中的访问次数)存储在该访问数组之中。通过上述实施例,在存储访问数据时建立访问数据,在需要查询访客对特定网页对象的独立访问数量时,单独查询该网页对象所对应的每个访问数组即可获取独立访问数量,提高了查询效率。
上述实施例中的访问数据包括访问标识、访问时间以及访问对象等信息。
需要进一步说明的是,同一个访客标识所对应的访问次数均存储在同一个存储区域(如同一个服务器),那么在统计同一访客标识的访问次数时就不需要读取该存储区域以外的数据。如果是在分布式***中,由于不同的访客标识所对应的访问数据可能存储在不同的存储区域,则在统计一个网页对象在记录时间内的访问次数(如独立访问次数)时,需要对各个存储区域的访客的访问数据进行分别统计,然后将各个存储区域的统计结果作进一步处理得到总的访问次数。
具体地,在用户对网页对象进行访问时,会留下访问数据,这其中包含用户访客标识,如在预设的记录时间内的第一个访问用户的访问标识为“d44bff32316243a88a7b”,由于存在一个用户在某一时间段内对同一网页对象进行了多次的可能性,而这样会增加***处理统计请求的效率,所以上述实施例中将用户的访问标识(即cookie值)转换为访客标识(如上述的1、2和3),而访客标识的数值又和数组的下角标的数值相对应,这样***处理统计请求时就不用再考虑该用户的此次访问是否为重复访问,只需要遍历下角标值所对应的元素值,从而提高了***统计访问数据的效率。
在本发明的上述实施例中,在统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量之后,统计方法还可以包括:读取不为零的元素的访客标识;从访客标识的存储区域获取访客的访问信息,其中,访问信息包括访客的属性信息和访问数据。
如表3所示,对网页对象“1”在预设的记录时间2014-01-0110:00的访问数据发起统计请求,只需遍历数组a的下角标,对数组下角标所对应的元素的值做计数操作,具体地,若元素值不为零则对统计数据加一,即可得出统计请求所请求的数据,通过上述方法能够大大提高处理统计请求的效率。
在本发明的上述实施例中,可以为每一个独立访客分配一个访客标识,该访客标识与用户访问网页对象时生成的标识对应,且该访客标识还与每个访客的访问信息的存储位置是一致的,这样,根据时间(即上述的预设的记录时间,如十点至十一点的时间段)、维度(即上述的网页对象,如广告)和指标(即上述的访问次数)建立访问数组,访问数组的元素的下角标为访客标识,访问数组的长度为独立用户数量(即***中存储的访客的数量),访问数组中的每个元素用于表示一个独立访客访问该网页对象的访问次数。
在统计访问数据时,将符合时间和维度筛选的访问数组取出,遍历访问数组的下角标,对每一个访问数组的元素进行计数操作,遍历完成得出统计信息。
如,查询2014-01-01广告1,十点到十一点之间的独立访客的数量:可以从表3中读取广告1在2014-01-0110:00的访问数组,遍历访问数组中每个元素内容,如果内容不为0则计数器加一,返回计数器结果,得到访问网页对象的访客数量。
通过上述实施例,由于独立访客数量总数保持相对稳定,对于10亿位的访问数组的访客数量的遍历在个人电脑上仅需要2秒,读取一个数组的IO操作时间在6秒左右,所以统计一个时间内的一条广告的独立访客数量将不会超过10秒。
假设访问数组的时间边界(即上述的预设的记录时间)为每天,则查询所需要的时间为(2秒+6秒)*3天*10个广告*10项目*100个客户=66小时=2.8天,在40台服务器并行的情况下,仅需要1.68小时。假设,为每个项目做同样的存储方式,那么时间将缩短为10分钟;如果为每个客户以本专利方式处理,仅需要1分钟。
通过上述实施例,在广告(即上述的网页对象)之间的用户重合度分析,独占用户分析的处理速度远远优于传统的分布式查询。具体地,存储格式决定了查询效率,本申请在Cookie值相对稳定的情况下,以Cookie值为主体,通过访客标识与物理存储位置直接对应的方式进行存储,大大加快了查询的效率。
图2是根据本发明实施例的网页访问数据的统计装置的示意图,该统计装置可以包括:第一获取模块10、提取模块20以及第一统计模块30。
其中,第一获取模块10,用于获取统计访问网页对象的统计请求,其中,统计请求中携带有统计时间和网页对象的标识;提取模块20,用于从数据库中提取网页对象的标识对应统计时间的一个或多个访问数组,其中,每个访问数组中的一个元素用于记录一个访客访问网页对象的访问次数;第一统计模块30,用于统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量。
采用本发明的上述实施例,第一获取模块提取访客访问网页对象的访问数据中的访客标识,然后提取模块将访客的访客标识作为数组下角标的数值、将访客对该网页对象的访问次数值作为数组元素值,并根据不同的网页对象和预设的记录时间段将数组元素按照访客标识的顺序存储在数组中,这样当用户发起对访问网页对象的数据的统计请求时,第一统计模块只需要对数组之中的元素进行简单计算即可得到该统计请求所要求的数据。采用本发明,解决了现有技术中对访问网页对象的统计请求进行处理时效率低的问题,达到了对访问网页对象的统计请求进行快速高效处理的效果。
根据本发明的上述实施例,统计装置还可以包括:第二获取模块,用于在获取统计访问网页对象的统计请求之前,获取访客访问网页对象的访问数据;第二统计模块,用于统计各个访客在预设的记录时间内访问网页对象的访问次数;数组模块,用于将各个访问次数作为元素,得到访问数组。
在本发明的上述实施例中,通过第二获取模块获取访问网页对象的访问数据之后,第二统计模块统计同一用户对该网页对象的访问次数,然后数组模块将各个访问的次数存储在对应的位置。在这个过程中,将用户的访客标识转换为数组下角标,***在统计预设网页对象的访问量时,不再需要查询该用户是否在之前对该网页对象进行过访问,从而大大提高了***的统计效率,从达到了对访问网页对象的统计请求进行快速高效处理的效果。
在本发明的上述实施例中,数组模块可以包括:记录模块,用于记录发生访问次数的访客的访客标识;转换模块,用于将访客标识作为访问次数的元素的下脚标。
在上述实施例中,通过将用户的访客标识的数值转换为数组的下脚标的数值,使得***能够快速访问访问即数组,且能够快速统计特定时间段内对特定网页对象的访问量,从而达到了对访问网页对象的统计请求进行快速高效处理的效果。
根据本发明的上述实施例,第二获取模块可以包括:提取子模块,用于从各个访客的访问数据中提取访问标识;设置模块,用于设置访问标识的访客标识;存储模块,用于将访客的访问数据存储至访客标识所指示的存储区域。第二统计模块可以包括:用于按照访客标识依序从存储区域读取在预设的记录时间内的访问数据,统计各个存储区域的访问数据的数量得到访问次数。
其中,访问标识与访客标识一一对应,访问标识为访客在访问网页对象时生成的标识,访客标识为连续的自然数,每个访客标识对应一个存储区域。
如表3所示,对网页对象“1”在2014-01-0110:00的访问数据发起统计请求,只需遍历数组a的下角标,针对下角标所对应的元素的值做计数操作,具体地,若元素值不为零则对统计数据加一,即可得出统计请求所请求的数据,通过上述方法能够大大提高处理统计请求的效率。
进一步地,统计装置还可以包括:读取模块,用于在统计访问数组中不为零的元素的个数,得到访问网页对象的访客数量之后,读取不为零的元素的访客标识;第三获取模块,用于从访客标识的存储区域获取访客的访问信息,其中,访问信息包括访客的属性信息和访问数据。
在本发明的上述实施例中,可以为每一个独立访客分配一个访客标识,该访客标识与用户访问网页对象时生成的标识对应,且该访客标识还与每个访客的访问信息的存储位置是一致的,这样,根据时间(即上述的预设的记录时间,如十点至十一点的时间段)、维度(即上述的网页对象,如广告)和指标(即上述的访问次数)建立访问数组,访问数组的元素的下角标为访客标识,访问数组的长度为独立用户数量(即***中存储的访客的数量),访问数组中的每个元素用于表示一个独立访客访问该网页对象的访问次数。
在统计访问数据时,将符合时间和维度筛选的访问数组取出,遍历访问数组的下角标,对每一个访问数组的元素进行计数操作,遍历完成得出统计信息。
通过上述实施例,在广告(即上述的网页对象)之间的用户重合度分析,独占用户分析的处理速度远远优于传统的分布式查询。具体地,存储格式决定了查询效率,本申请在Cookie值相对稳定的情况下,以Cookie值为主体,通过访客标识与物理存储位置直接对应的方式进行存储,大大加快了查询的效率。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明的上述实施例,提取访客访问网页对象的访问数据中的访客标识,并将访客的访客标识作为数组下角标的数值、将访客对该网页对象的访问次数值作为数组元素值,然后根据不同的网页对象和预设的记录时间段将数组元素按照访客标识的顺序存储在数组中,这样当用户发起对访问网页对象的数据的统计请求时,只需要对数组之中的元素进行简单计算即可得到该统计请求所要求的数据。采用本发明,解决了现有技术中对访问网页对象的统计请求进行处理时效率低的问题,达到了对访问网页对象的统计请求进行快速高效处理的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页访问数据的统计方法,其特征在于,包括:
获取统计访问网页对象的统计请求,其中,所述统计请求中携带有统计时间和所述网页对象的标识;
从数据库中提取所述网页对象的标识对应所述统计时间的一个或多个访问数组,其中,每个所述访问数组中的一个元素用于记录一个访客访问所述网页对象的访问次数;
统计所述访问数组中不为零的元素的个数,得到访问所述网页对象的访客数量;
其中,根据不同的所述网页对象和预设的记录时间段,将所述访问数组的元素按照所述访客的访客标识的顺序存储在所述访问数组中。
2.根据权利要求1所述的统计方法,其特征在于,在获取统计访问网页对象的统计请求之前,所述统计方法还包括:
获取访客访问所述网页对象的访问数据;
统计各个所述访客在预设的记录时间内访问所述网页对象的访问次数;
将各个所述访问次数作为元素,得到所述访问数组。
3.根据权利要求2所述的统计方法,其特征在于,将各个所述访问次数作为元素,得到所述访问数组包括:
记录发生所述访问次数的所述访客的访客标识;
将所述访客标识作为所述访问次数的元素的下脚标。
4.根据权利要求2或3所述的统计方法,其特征在于,
获取访客访问所述网页对象的访问数据包括:从各个所述访客的所述访问数据中提取访问标识;设置所述访问标识的访客标识;将所述访客的访问数据存储至所述访客标识所指示的存储区域,其中,所述访问标识与所述访客标识一一对应,所述访问标识为所述访客在访问所述网页对象时生成的标识,所述访客标识为连续的自然数,每个所述访客标识对应一个所述存储区域;
统计各个所述访客在预设的记录时间内访问所述网页对象的访问次数包括:按照所述访客标识依序从所述存储区域读取在所述预设的记录时间内的所述访问数据,统计各个所述存储区域的所述访问数据的数量得到所述访问次数。
5.根据权利要求4所述的统计方法,其特征在于,在统计所述访问数组中不为零的元素的个数,得到访问所述网页对象的访客数量之后,所述统计方法还包括:
读取所述不为零的元素的访客标识;
从所述访客标识的所述存储区域获取所述访客的访问信息,其中,所述访问信息包括访客的属性信息和所述访问数据。
6.一种网页访问数据的统计装置,其特征在于,包括:
第一获取模块,用于获取统计访问网页对象的统计请求,其中,所述统计请求中携带有统计时间和所述网页对象的标识;
提取模块,用于从数据库中提取所述网页对象的标识对应所述统计时间的一个或多个访问数组,其中,每个所述访问数组中的一个元素用于记录一个访客访问所述网页对象的访问次数;
第一统计模块,用于统计所述访问数组中不为零的元素的个数,得到访问所述网页对象的访客数量;
其中,根据不同的所述网页对象和预设的记录时间段,将所述访问数组的元素按照所述访客的访客标识的顺序存储在所述访问数组中。
7.根据权利要求6所述的统计装置,其特征在于,所述统计装置还包括:
第二获取模块,用于在获取统计访问网页对象的统计请求之前,获取访客访问所述网页对象的访问数据;
第二统计模块,用于统计各个所述访客在预设的记录时间内访问所述网页对象的访问次数;
数组模块,用于将各个所述访问次数作为元素,得到所述访问数组。
8.根据权利要求7所述的统计装置,其特征在于,所述数组模块包括:
记录模块,用于记录发生所述访问次数的所述访客的访客标识;
转换模块,用于将所述访客标识作为所述访问次数的元素的下脚标。
9.根据权利要求7或8所述的统计装置,其特征在于,
所述第二获取模块包括:提取子模块,用于从各个所述访客的所述访问数据中提取访问标识;设置模块,用于设置所述访问标识的访客标识;存储模块,用于将所述访客的访问数据存储至所述访客标识所指示的存储区域,其中,所述访问标识与所述访客标识一一对应,所述访问标识为所述访客在访问所述网页对象时生成的标识,所述访客标识为连续的自然数,每个所述访客标识对应一个所述存储区域;
所述第二统计模块包括:用于按照所述访客标识依序从所述存储区域读取在所述预设的记录时间内的所述访问数据,统计各个所述存储区域的所述访问数据的数量得到所述访问次数。
10.根据权利要求9所述的统计装置,其特征在于,所述统计装置还包括:
读取模块,用于在统计所述访问数组中不为零的元素的个数,得到访问所述网页对象的访客数量之后,读取所述不为零的元素的访客标识;
第三获取模块,用于从所述访客标识的所述存储区域获取所述访客的访问信息,其中,所述访问信息包括访客的属性信息和所述访问数据。
CN201410812114.6A 2014-12-22 2014-12-22 网页访问数据的统计方法和装置 Active CN104504077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410812114.6A CN104504077B (zh) 2014-12-22 2014-12-22 网页访问数据的统计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410812114.6A CN104504077B (zh) 2014-12-22 2014-12-22 网页访问数据的统计方法和装置

Publications (2)

Publication Number Publication Date
CN104504077A CN104504077A (zh) 2015-04-08
CN104504077B true CN104504077B (zh) 2018-04-03

Family

ID=52945475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410812114.6A Active CN104504077B (zh) 2014-12-22 2014-12-22 网页访问数据的统计方法和装置

Country Status (1)

Country Link
CN (1) CN104504077B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294427A (zh) * 2015-05-26 2017-01-04 北大方正集团有限公司 稿件统计方法和稿件统计***
CN106611342B (zh) * 2015-10-21 2020-05-01 北京国双科技有限公司 信息处理方法和装置
CN105468701B (zh) * 2015-11-18 2018-09-14 车智互联(北京)科技有限公司 一种计算外部来源对网站流量波动的影响度的方法和装置
CN107193825B (zh) * 2016-03-14 2021-03-19 百度在线网络技术(北京)有限公司 页面统计方法和装置
CN106294090A (zh) * 2016-08-03 2017-01-04 五八同城信息技术有限公司 一种数据统计方法和装置
CN108090089B (zh) * 2016-11-23 2021-01-22 北京国双科技有限公司 探测网站中热点数据的方法、装置和***
CN106649679A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种基于HBase的网页日访问次数获得方法及装置
CN107438100B (zh) * 2017-07-25 2020-01-31 中国联合网络通信集团有限公司 网页访问方法及浏览器
CN110019388B (zh) * 2017-09-30 2021-02-26 北京国双科技有限公司 账号数量统计方法及装置
CN111523072B (zh) * 2020-04-20 2023-08-15 咪咕文化科技有限公司 页面访问数据统计方法、装置、电子设备及存储介质
CN111581512B (zh) * 2020-05-08 2023-06-02 孙颐 一种网页访客数量统计方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207882A (zh) * 2012-01-13 2013-07-17 阿里巴巴集团控股有限公司 店铺访问数据处理方法及***
CN103500177A (zh) * 2013-09-06 2014-01-08 乐视致新电子科技(天津)有限公司 一种用户激活数的统计方法及装置
CN103593304A (zh) * 2012-08-14 2014-02-19 吉林师范大学 基于并行设备模型的高效使用缓存的量化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207882A (zh) * 2012-01-13 2013-07-17 阿里巴巴集团控股有限公司 店铺访问数据处理方法及***
CN103593304A (zh) * 2012-08-14 2014-02-19 吉林师范大学 基于并行设备模型的高效使用缓存的量化方法
CN103500177A (zh) * 2013-09-06 2014-01-08 乐视致新电子科技(天津)有限公司 一种用户激活数的统计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网站流量统计分析技术研究;单哲;《中国优秀硕士学位论文全文数据库信息科技辑》;20130215(第2期);第I139-54页 *

Also Published As

Publication number Publication date
CN104504077A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104504077B (zh) 网页访问数据的统计方法和装置
US10789311B2 (en) Method and device for selecting data content to be pushed to terminal, and non-transitory computer storage medium
CN104394118B (zh) 一种用户身份识别方法及***
CN105335409B (zh) 一种目标用户的确定方法、设备和网络服务器
CN107888716A (zh) 一种域名解析服务器的排序方法、终端设备及存储介质
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与***
CN104462430B (zh) 关系型数据库的数据处理方法及装置
CN106874522A (zh) 信息推荐方法、装置、存储介质及处理器
CN103631957B (zh) 访客行为数据统计方法及装置
CN104243598B (zh) 一种信息推荐方法及装置
CN105630972A (zh) 数据处理方法及装置
CN104270654B (zh) 互联网视频播放监测方法和装置
CN107103062A (zh) 一种网页推荐方法及***
CN104484405A (zh) 执行爬取任务的方法和装置
CN105468764A (zh) 一种数据处理方法、装置及集群服务***
CN102739812B (zh) 一种推荐好友的方法及装置
CN107977678A (zh) 用于输出信息的方法和装置
CN104199945A (zh) 数据存储方法和装置
CN104090980A (zh) 一种资讯推送方法及***
CN106933897A (zh) 数据查询方法和装置
CN106909567A (zh) 数据处理方法及装置
CN108416645B (zh) 一种针对用户的推荐方法、装置、存储介质和设备
CN110347943A (zh) 渠道信息处理方法、装置、存储介质及计算机设备
CN104991935B (zh) 一种网站关注度的处理方法和装置
CN110008211A (zh) 数据查询方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web access data statistical method and the device

Effective date of registration: 20190531

Granted publication date: 20180403

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180403