CN103746851A - 一种实现独立用户数统计的方法及装置 - Google Patents

一种实现独立用户数统计的方法及装置 Download PDF

Info

Publication number
CN103746851A
CN103746851A CN201410022790.3A CN201410022790A CN103746851A CN 103746851 A CN103746851 A CN 103746851A CN 201410022790 A CN201410022790 A CN 201410022790A CN 103746851 A CN103746851 A CN 103746851A
Authority
CN
China
Prior art keywords
information
grouping
isolated user
counting
subscriber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410022790.3A
Other languages
English (en)
Inventor
贾卷群
吴晓亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201410022790.3A priority Critical patent/CN103746851A/zh
Publication of CN103746851A publication Critical patent/CN103746851A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种实现独立用户数统计的方法及装置,包括:将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;扫描字节数组,将每一分组的位映射信息的每一比特中字节是1的位进行计数,以获得每一分组的独立用户数的计数信息;累加所有分组的计数信息,以获得全部记录的独立用户数信息。通过本发明对用户号码的拆分实现统计速度的可控,通过将分组中的编号信息进行位映射,实现独立用户数统计无需排序,用对数组中的字节位为1进行计数取代排序变化进行统计,节省了排序数据的存储空间消耗。

Description

一种实现独立用户数统计的方法及装置
技术领域
本发明涉及数据分析领域,尤指一种实现独立用户数统计的方法及装置。
背景技术
随着网络通信的覆盖和发展,对网络访问或者在流量分析时对独立用户数(独立用户数(UniqueVisitor简称UV)是指:在一个统计周期内,访问被统计对象的不重复用户数。)的统计,可以帮助企业分析一定的周期内业务的成长及推广效果。因此,对独立用户数的有效统计,可以及时获得流量和用户增长等信息,为企业提供重要的参考依据。
目前,独立用户数的统计方法,主要是通过从服务器获得用户上网记录的日志,从日志中获得需要进行统计的所有用户号码;将所有用户号码进行排序,通过扫描排序数据信息,在排序数据信息发生变化时进行计数,从而实现独立用户数的数据统计。
然而,随着通信应用的增多,进行网络访问的群体也在不断加大,且用户访问网络的次数出现急剧的增长,按照目前的独立用户数统计方法,已经无法适应目前的数据统计。以移动运营商为例,按照运营商统计结果,一个省每天产生的需要进行统计的独立用户数约为800亿条信息,如果按照更长的周期进行数据分析,则过大的数据无法保证及时的对独立用户数进行数据统计,并且,对原始数据的获取及排序数据的保存,对存储空间带来大量的消耗。另外,随着大数据业务的兴起,分布式文件***将用户上网的记录信息按照分布式存储方式存储在不同的空间中,无法支持将所有用户号码进行统一的排序,更无法实现扫描以确定独立用户数的统计。
综上所述,目前采用的独立用户数统计的方法,在大数据量的统计过程中,存在统计速度难以控制和存储空间大量消耗的问题,并且无法支持分布式计算。
发明内容
为了解决上述技术问题,本发明公开了一种实现独立用户数统计的方法及装置。能够对获取的数据进行独立用户数统计时,控制统计速度;能够实现与分布式文件***兼容,并节省数据对存储空间的消耗。
为了达到本申请的目的,本发明提供一种实现独立用户数统计的方法,包括:
将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;
按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;
扫描字节数组,将每一分组的位映射信息的每一比特中字节是1的位进行计数,以获得每一分组的独立用户数的计数信息;
累加所有分组的计数信息,以获得全部记录的独立用户数信息。
进一步地,用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
进一步地,拆分策略包括:
按照独立用户数的数据容量大小及统计速度要求,确定分组数量;
通过分组数量确定分组信息所占的位置及位数;
通过用户号码及分组信息确定编号信息的位置及位数。
另一方面,本发明还提供一种实现独立用户数统计的装置,包括:
拆分单元,用于将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;
位映射单元,用于按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;
计数单元,用于扫描字节数组,计算每一分组位映射信息的每一比特中字节是1的位的个数,以获得每一分组的独立用户数的计数信息;
累加单元,用于将所有分组的计数信息累加,获得全部记录的独立用户数信息。
进一步地,用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
进一步地,该装置还包括拆分策略单元,用于按照独立用户数的数据容量大小及统计速度要求,设置分组数量;通过分组数量设置分组信息所占的位置及位数;通过用户号码及分组信息设定编号信息的位置及位数以确定拆分策略。
本申请技术方案包括:将获取日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;扫描字节数组,将每一分组的位映射信息的每一比特中字节是1的位进行计数,以获得每一分组的独立用户数的计数信息;累加所有分组的计数信息,以获得全部记录的独立用户数信息。通过本发明对用户号码的拆分实现了统计速度的可控,通过将分组中的编号信息进行位映射,实现了独立用户数统计无需排序,用对数组中的字节位为1进行计数取代排序变化进行统计,节省了排序数据的存储空间消耗。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实现独立用户数统计的方法的流程图;
图2为本发明实现独立用户数统计的装置的结构框图。
具体实施方式
图1为本发明实现独立用户数统计的方法的流程图,如图1所示,包括:
步骤100、将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息。
本步骤中,用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
需要说明的是,其他符合分组要求的用户号码比较常见的还有SIM卡***,移动终端的终端编号等,这些用户号码和手机号、宽带号等相似具有不重复的特点,且在用户访问网络时,在日志中也存有这些数据,因此也可以作为独立用户数统计的用户号码。
进一步地,拆分策略包括:按照独立用户数的数据容量大小及统计速度要求,确定分组数量;
通过分组数量确定分组信息所占的位置及位数;
通过用户号码及分组信息确定编号信息的位置及位数。
需要说明的是,从日志中获取用户号码是本领域技术人员常用技术手段,为了清楚说明按照独立用户数数据容量大小及统计速度要求,确定分组数量。以获取的用户号码是手机号码为例进行说明,手机号码的前三位为区分运营商所属的部分,且不同运营商的前3位也有相应的变化。假设以某运营商的独立用户数统计为统计对象,按照现有技术的统计方法,则需要对所有数据进行排序、扫描及计数统计。如果采用本发明方法进行分组策略,则如果需要提高十倍左右的速度,则只需要按照前3位,后8为的拆分策略拆分为分组信息和编号信息即可,分组后,数据统计就是按照分组独立进行,因此按照现有运营商号码分段现状,一般的前3位可以分为10组以上,因此可以实现提高10倍统计速度的目的。按照这种策略,如果需要提高速度,还可以按照前4位或前5位等方法进行拆分,具体情况根据不同省市号码中间段的区间设置进行策略设置。
步骤101、按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息。
通过本发明将编号信息进行字节数组的位映射,以分组信息为前三位,则编码信息为手机号码的后八位为例,即手机号码后8位为00000000~99999999,则设置100000000/8=12500000个字节即可,12500000个字节,每个字节8个位信息,则12500000个字节的每个位信息代表编号信息中每个不同的号码。因此不同的独立用户数,都会生成自己独立的位映射信息,当出现相同的独立用户数时,重复映射并不会对位映射信息造成影响,例如,手机号码18600000000在获得的日志中获得的用户号码中,由于在多次登录使用,使日志中存在多份记录,按照位映射的方法,12500000个字节中的最后一个字节中8个位信息的最后一位位信息,在第一次对编号信息为00000000进行位映射后,最后一个字节中8个位信息的最后一位位信息发生映射变为1,在分组信息为186下,对接收到的编号信息为00000000的位信息将不会发生改变,也就是18600000000代表的用户,通过位映射避免了重复,实现了统计。相应的出现在186分组信息下的,如编号信息为00000002、00000010则应该在12500000个字节中最后一个字节的倒数第二位和倒数第二个字节的倒数第三位生成相应的位映射信息。因此采用位映射的方法,与现有技术需要进行排序,根据排序变化进行统计相比,本发明节省了排序的过程。与现有技术相比,本发明方法不需要保存排序的编号信息,因此还节省了大量的存储空间。
另一方面,因为采用分组策略,因此从日志中获得的信息,可以对每一分组进行处理,也不存在排序问题。现有技术的独立用户数统计需要对所有数据进行排序,并进行统一的扫描才能获取独立用户数,因此无法支持将用户号码存储在不同存储空间的分布式文件***。本发明可以支持分布式文件***,对数据进行分组后,按照编号信息进行位映射即可,不需要进行对用户号码排序和对所有数据的统一扫描。
步骤102、将每一分组的位映射信息的每一比特中字节是1的位进行计数,以获得每一分组的独立用户数的计数信息。
需要说明的是,对于位映射进行统计,只需要统计位映射信息中的字节位是1的个数即可,与现有技术根据排序后,扫描变化进行计数相比,本发明统计过程更加简洁简单。当然,如果设置初始数组的各个字节位是1,通过统计位映射设信息中位是0的个数也可以实现本发明的目的。
步骤103、累加所有分组的计数信息,以获得全部记录的独立用户数信息。
需要说明的是,通过拆分策略拆分后,进行每一分组的独立用户数计数,以此减少了将所有数据一起处理的庞大工作量,通过分组信息的计数,再进行简单的累加。因此,可以实现了独立用户数统计的高效的处理。
图2为本发明实现独立用户数统计的装置的结构框图,如图2所示,包括:拆分单元、位映射单元、计数单元及累加单元,其中
拆分单元,用于将获取日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息。
用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
位映射单元,用于按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息。
计数单元,用于扫描字节数组,计算每一分组位映射信息的每一比特中字节是1的位的个数,以获得每一分组的独立用户数的计数信息;
累加单元,用于将所有分组的计数信息累加,获得全部记录的独立用户数信息。
本发明装置还包括拆分策略单元,用于按照独立用户数的数据容量大小及统计速度要求,设置分组数量;通过分组数量设置分组信息所占的位置及位数;通过用户号码及分组信息设定编号信息的位置及位数以确定拆分策略。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。。

Claims (6)

1.一种实现独立用户数统计的方法,其特征在于,包括:
将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;
按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;
扫描字节数组,将每一分组的位映射信息的每一比特中字节是1的位进行计数,以获得每一分组的独立用户数的计数信息;
累加所有分组的计数信息,以获得全部记录的独立用户数信息。
2.根据权利要求1所述的方法,其特征在于,所述用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
3.根据权利要求1所述的方法,其特征在于,所述拆分策略包括:
按照独立用户数的数据容量大小及统计速度要求,确定分组数量;
通过分组数量确定分组信息所占的位置及位数;
通过用户号码及分组信息确定编号信息的位置及位数。
4.一种实现独立用户数统计的装置,其特征在于,包括:
拆分单元,用于将日志信息中的用户号码按照拆分策略拆分为分组信息和编号信息;
位映射单元,用于按照分组信息进行分组,对每一分组内的编号信息设置相应的字节数组,以生成每一分组内所有编号信息的位映射信息;
计数单元,用于扫描字节数组,计算每一分组位映射信息的每一比特中字节是1的位的个数,以获得每一分组的独立用户数的计数信息;
累加单元,用于将所有分组的计数信息累加,获得全部记录的独立用户数信息。
5.根据权利要求4所述的装置,其特征在于,所述用户号码包括:手机号、或,宽带号、或,固网电话号、或,其他符合分组要求的用户号码。
6.根据权利要求4所述的装置,其特征在于,该装置还包括拆分策略单元,用于按照独立用户数的数据容量大小及统计速度要求,设置分组数量;通过分组数量设置分组信息所占的位置及位数;通过用户号码及分组信息设定编号信息的位置及位数以确定拆分策略。
CN201410022790.3A 2014-01-17 2014-01-17 一种实现独立用户数统计的方法及装置 Pending CN103746851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410022790.3A CN103746851A (zh) 2014-01-17 2014-01-17 一种实现独立用户数统计的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410022790.3A CN103746851A (zh) 2014-01-17 2014-01-17 一种实现独立用户数统计的方法及装置

Publications (1)

Publication Number Publication Date
CN103746851A true CN103746851A (zh) 2014-04-23

Family

ID=50503842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410022790.3A Pending CN103746851A (zh) 2014-01-17 2014-01-17 一种实现独立用户数统计的方法及装置

Country Status (1)

Country Link
CN (1) CN103746851A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227386A (zh) * 2014-06-13 2016-01-06 阿里巴巴集团控股有限公司 用于分群体统计在线用户数的方法、装置及***
CN105630972A (zh) * 2015-12-24 2016-06-01 网易(杭州)网络有限公司 数据处理方法及装置
CN106487833A (zh) * 2015-08-26 2017-03-08 北京国双科技有限公司 网络监测中独立用户数的统计方法及装置
WO2018166145A1 (zh) * 2017-03-14 2018-09-20 平安科技(深圳)有限公司 还款数据分批报盘方法和装置
CN110348878A (zh) * 2019-06-13 2019-10-18 北京华峰创业科技有限公司 一种对用户进行分组的方法和装置
WO2019214303A1 (zh) * 2018-05-07 2019-11-14 华为技术有限公司 数据批量选择的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245493A1 (en) * 2008-03-28 2009-10-01 Avaya Inc. System and Method for Displaying Call Flows and Call Statistics
CN101707727A (zh) * 2009-10-12 2010-05-12 南京联创科技集团股份有限公司 基于历史号码表的号码级别的排重方法
CN101799803A (zh) * 2009-02-06 2010-08-11 华为软件技术有限公司 信息处理方法、模块及***
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及***
CN102984396A (zh) * 2012-12-25 2013-03-20 广州从兴电子开发有限公司 活跃用户数统计方法及装置
CN102999506A (zh) * 2011-09-13 2013-03-27 阿里巴巴集团控股有限公司 一种获取用户独立访问数的方法与装置
CN103209249A (zh) * 2012-02-21 2013-07-17 广州三星通信技术研究有限公司 在移动通信终端中提供通信记录的方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245493A1 (en) * 2008-03-28 2009-10-01 Avaya Inc. System and Method for Displaying Call Flows and Call Statistics
CN101799803A (zh) * 2009-02-06 2010-08-11 华为软件技术有限公司 信息处理方法、模块及***
CN101707727A (zh) * 2009-10-12 2010-05-12 南京联创科技集团股份有限公司 基于历史号码表的号码级别的排重方法
CN102999506A (zh) * 2011-09-13 2013-03-27 阿里巴巴集团控股有限公司 一种获取用户独立访问数的方法与装置
CN103209249A (zh) * 2012-02-21 2013-07-17 广州三星通信技术研究有限公司 在移动通信终端中提供通信记录的方法及***
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及***
CN102984396A (zh) * 2012-12-25 2013-03-20 广州从兴电子开发有限公司 活跃用户数统计方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227386A (zh) * 2014-06-13 2016-01-06 阿里巴巴集团控股有限公司 用于分群体统计在线用户数的方法、装置及***
CN105227386B (zh) * 2014-06-13 2019-03-15 阿里巴巴集团控股有限公司 用于分群体统计在线用户数的方法、装置及***
CN106487833A (zh) * 2015-08-26 2017-03-08 北京国双科技有限公司 网络监测中独立用户数的统计方法及装置
CN106487833B (zh) * 2015-08-26 2019-07-19 北京国双科技有限公司 网络监测中独立用户数的统计方法及装置
CN105630972A (zh) * 2015-12-24 2016-06-01 网易(杭州)网络有限公司 数据处理方法及装置
WO2018166145A1 (zh) * 2017-03-14 2018-09-20 平安科技(深圳)有限公司 还款数据分批报盘方法和装置
WO2019214303A1 (zh) * 2018-05-07 2019-11-14 华为技术有限公司 数据批量选择的方法和装置
CN110457649A (zh) * 2018-05-07 2019-11-15 华为技术有限公司 数据批量选择的方法和装置
CN110457649B (zh) * 2018-05-07 2021-05-04 华为技术有限公司 数据批量选择的方法、装置和计算机存储介质
CN110348878A (zh) * 2019-06-13 2019-10-18 北京华峰创业科技有限公司 一种对用户进行分组的方法和装置

Similar Documents

Publication Publication Date Title
CN103746851A (zh) 一种实现独立用户数统计的方法及装置
CN108600414B (zh) 设备指纹的构建方法、装置、存储介质及终端
CN104462141B (zh) 一种数据存储与查询的方法、***及存储引擎装置
CN101442731B (zh) 一种话单剔重方法和装置
CN106570014B (zh) 用于确定用户的家庭属性信息的方法与设备
CN103618733B (zh) 一种应用于移动互联网的数据过滤***及方法
CN109783023B (zh) 一种数据下刷的方法和相关装置
CN106301980B (zh) 一种刷量工具检测方法和装置
CN104486777B (zh) 一种实现数据处理的方法及装置
CN108038130A (zh) 虚假用户的自动清理方法、装置、设备及存储介质
CN104504077A (zh) 网页访问数据的统计方法和装置
CN109801693B (zh) 病案分组方法及装置、终端和计算机可读存储介质
CN108876644B (zh) 一种基于社交网络的相似账号计算方法及装置
CN107229660A (zh) 一种数据去重的方法和设备
CN105763886A (zh) 一种分布式转码方法和装置
CN105005585A (zh) 一种日志数据的处理方法和装置
CN106603653A (zh) 一种新闻推送方法及装置
CN105204782B (zh) 一种实现数据存储的方法及装置
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN105407005A (zh) 内容分发方法及装置
CN112162951A (zh) 一种信息检索方法、服务器及存储介质
CN106484702B (zh) 目标网页访问量的展示方法和装置
CN111131512A (zh) 设备信息的处理方法、装置、存储介质及处理器
CN109428774B (zh) 一种dpi设备的数据处理方法及相关的dpi设备
CN105704173B (zh) 一种集群***数据分布方法及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140423