CN106549914B - 一种独立访问者的识别方法及装置 - Google Patents

一种独立访问者的识别方法及装置 Download PDF

Info

Publication number
CN106549914B
CN106549914B CN201510599799.5A CN201510599799A CN106549914B CN 106549914 B CN106549914 B CN 106549914B CN 201510599799 A CN201510599799 A CN 201510599799A CN 106549914 B CN106549914 B CN 106549914B
Authority
CN
China
Prior art keywords
cookie
same
scene
ids
independent visitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510599799.5A
Other languages
English (en)
Other versions
CN106549914A (zh
Inventor
欧阳佑
马赫迪
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaozhen Information Consultant Co Ltd
Original Assignee
Beijing Miaozhen Information Consultant Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaozhen Information Consultant Co Ltd filed Critical Beijing Miaozhen Information Consultant Co Ltd
Priority to CN201510599799.5A priority Critical patent/CN106549914B/zh
Publication of CN106549914A publication Critical patent/CN106549914A/zh
Application granted granted Critical
Publication of CN106549914B publication Critical patent/CN106549914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种独立访问者的识别方法及装置,包括:将采集的数据按照Cookie ID进行整理;按照场景识别策略识别Cookie ID所属的场景;针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。本发明公开的独立访问者的识别方法及装置,用来解决现有技术识别独立访问者准确性不高的问题。

Description

一种独立访问者的识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种独立访问者的识别方法及装置。
背景技术
互联网环境下,独立访问者(UV,Unique Visitor)指访问互联网的用户群体中独立于其他个体的自然人。独立访问者的总数反映了访问互联网的真实人群规模,如访问某网站的用户总数、某广告活动的总观看人数等。由于互联网具有匿名性,网络服务提供商一般采用在用户客户端植入Cookie来辨别用户身份。然而,由于Cookie可被用户删除及一个人使用多台计算机等情况的存在,Cookie中的用户标识和独立访问者之间的关系并不是一一对应的,所以基于Cookie计算统计的独立访问者数量与实际存在的独立访问者数量是存在偏差的。很多互联网服务的使用者,例如投放广告的广告主,实际更关心看过广告的独立访问者的总数,而不是Cookie的总数。因此,将Cookie数据准确转换到独立访问者数目,具有重大的现实意义。
现有技术采用以下方法实现Cookie数据到独立访问者数目的转换:
(一)指纹法:基于用户上网时的相关信息直接定义用户的指纹特征,并作为独立访问者的标识,举例而言,将终端的网络协议(IP)地址、浏览器类型、操作***类型等网络信息映射为指纹特征,并认为指纹相同的Cookie属于一个独立访问者;
(二)聚类法:基于用户的上网历史行为,对所有的Cookie进行自动聚类,最后将一个类别里的Cookie作为同一个独立访问者,举例而言,采用基于贝叶斯相似度的聚类方法对移动设备进行聚类,聚类时采用Cookie数据信息、时间、操作***、浏览器、IP、访问网站等数据;
(三)帐号(ID)识别:社交网络服务网站Facebook采用用户的Facebook帐户ID来作为独立访问者的标识,其他网站或软件的登录账户,包括博客账号、社交网络账号、即时通讯工具账号、电子商务账号等,也具有类似的功能,即一个社交ID对应一个独立访问者。
然而,现有技术存在以下缺点:在实际网民上网环境中,具备相同的IP、操作***、浏览器信息的不同用户并不在少数,例如同一个公司统一部署的多台桌面工作站,员工A和员工B都在win7***上使用360浏览器上网,同时因为他们使用同一个公司局域网,故外网IP是相同的,这种情况下,现有技术中的指纹法和聚类法会将员工A和员工B看作为同一用户;其次,若同一个人拥有两台电脑,两台电脑上具备不同的操作***和浏览器,或者,同一个人拥有一台电脑,但该电脑中存在两个不同的浏览器,在上述两种上网场景下若通过现有技术的指纹法和聚类法来判断独立访问者,则会将上述两种场景中的唯一上网用户判定为多个用户,造成独立访问者的识别结果不准确;此外,一般情况下,通过社交网络账户信息获取的数据很难覆盖所有网络用户,而且,在实际上网活动领域,同一个用户拥有多个不同种类的账户ID也是非常常见的情况,例如同一个人拥有两个QQ账号,或两个微博帐号,如此,利用帐号ID来识别独立访问者时,会将上述用户判定为不同用户,也会造成独立访问者的识别结果不准确。
发明内容
为了解决上述技术问题,本发明提供一种独立访问者的识别方法及装置,用来解决现有技术识别独立访问者的准确性不高的问题。
为了达到上述技术目的,本发明提供一种独立访问者的识别方法,包括:将采集的数据按照Cookie标号(ID)进行整理;按照场景识别策略识别Cookie ID所属的场景;针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。
本发明还提供一种独立访问者的识别装置,包括:数据整理模块,用于将采集的数据按照Cookie ID进行整理;第一识别模块,用于按照场景识别策略识别Cookie ID所属的场景;第二识别模块,用于针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。
在本发明中,将采集的数据按照Cookie ID进行整理;按照场景识别策略识别Cookie ID所属的场景;针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。本发明将采集的数据按照Cookie ID进行整理后归类至不同场景,通过在不同的场景下使用不同的数据信息集合及独立访问者识别策略来进行独立访问者的识别,从而提高了独立访问者识别的准确性。
附图说明
图1为本发明实施例提供的独立访问者的识别方法的流程图;
图2为本发明一实施例提供的独立访问者的识别方法的流程图;
图3为本发明一实施例提供的独立访问者的识别装置的示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例提供的独立访问者的识别方法的流程图。如图1所示,本实施例提供的独立访问者的识别方法包括以下步骤:
步骤11:将采集的数据按照Cookie ID进行整理。
于步骤11之前,该方法还包括:采集数据。
于此,采集的数据至少包括:用户使用的网络协议(IP)地址、Cookie ID、社交网络账号、用户上网使用的浏览器类型、用户的历史行为日志。其中,从同一个Cookie采集的数据彼此关联。用户的历史行为日志至少包括各次行为的时间以及各次行为时间与使用的IP地址的对应关系。
举例而言,采集的数据包括用户使用的IP地址、Cookie ID、社交网络(SNS,SocialNetwork Site)账号(ID)、网站登录信息、用户代理信息(UA,User Agent)及用户的历史行为日志。其中,用户代理信息包括用户上网使用的浏览器类型、终端型号及操作***型号。用户的历史行为日志包括用户的上网时间、上网时间与使用IP地址的对应关系以及浏览过的网站信息。该些采集的数据例如以日志形式储存在网络服务器。
在实际应用中,采集不同类型数据的难易程度各不相同,不同类型数据对用户身份识别的作用也是不相同的,识别的可靠程度也有区别,例如社交网络账号、网站登录信息等数据具备较强的独立访问者的判断属性,虽然该些信息存在一个人使用多个账号和多个人共用账号的情况,但是这种情况还是比较少见的。识别能力较弱的信息指的是不能直接代表独立访问者,但是对于独立访问者识别具有一定价值的数据,例如上网时使用的IP地址、UA等网络信息。其中,UA包含的多种信息并不是唯一的,软硬件配置一样的两个终端可能具有相同的UA。IP地址是用户上网时的地址标识,在一段连续的上网时间内,一个机器使用的IP地址通常不会变化,但是一台计算机在不同的时间接入互联网时,可能会被网络运营商分配不同的IP地址。一个IP地址在不同时间可能分配给不同的用户使用。因此,IP地址和UA这类信息对于识别独立访问者来说能力是较弱的。
于此,步骤11包括:将采集的数据按照统一的Cookie ID进行组织,将同一个Cookie ID关联的数据汇总,并以日志形式存储。
步骤12:按照场景识别策略识别Cookie ID所属的场景。
于此,场景识别策略包括:
关联相同社交网络账号(SNS ID)的Cookie ID属于第一场景;
关联相同IP地址及浏览器类型的Cookie ID属于第二场景;
关联相同IP地址的Cookie ID属于第三场景。
其中,一个Cookie ID可能属于一个或多个场景,也有可能不属于任一个场景。
具体而言,从整理得到的Cookie ID中筛选关联相同SNS ID的Cookie ID,并将所述Cookie ID归类为第一场景,其中,第一场景表示一个独立访问者在多台计算机上网,导致此独立访问者使用了多个Cookie;
从不属于第一场景的Cookie ID中筛选关联相同IP及浏览器类型的Cookie ID,并将所述Cookie ID归类为第二场景,其中,第二场景表示一个独立访问者在单台计算机上使用同一浏览器上网,由于清除终端存储的Cookie文件导致此独立访问者拥有了多个Cookie;
从不属于第一场景和第二场景的Cookie ID中筛选关联相同IP地址的Cookie ID,并将所述Cookie ID归类为第三场景,其中,第三场景表示一个独立访问者在单台计算机上使用多个浏览器上网,导致此独立访问者使用了多个Cookie。
步骤13:针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。
于此,第一场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID至少关联两个相同的社交网络账号;
两个Cookie ID至少关联一个相同的社交网络账号,且该社交网络账号除了与所述两个Cookie ID关联外不与其它Cookie ID关联。
于此,第二场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同。
于此,第三场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID关联的历史行为至少在两个不同的日期,第一个Cookie ID关联的最后一次使用的IP地址跟第二个Cookie ID关联的第一次使用的IP地址相同,且两者的使用时间差不超过30分钟;
两个Cookie ID关联的曾经使用过的IP地址中有超过50%的IP地址是相同的,且相同的IP地址的数目大于或等于3。
于此,各场景的独立访问者识别策略还包括:当三个或三个以上的Cookie ID中有两个Cookie ID不满足该场景下对应于同一独立访问者的条件,但所述两个Cookie ID分别与第三个Cookie ID满足该场景下对应于同一独立访问者的条件,则所述三个Cookie ID对应于同一独立访问者。
于此,各场景的独立访问者识别策略还包括:某一Cookie ID与所属场景中的其它Cookie ID均未满足该场景下对应于同一独立访问者的条件时,该Cookie ID单独对应一个独立访问者。
于步骤13之后,该方法还包括:合并各场景中识别的对应于同一独立访问者的至少两个Cookie ID及其关联的数据。
具体而言,将各场景中对应于同一独立访问者的至少两个Cookie ID关联的数据合并,以日志的形式存储在服务器中,并将每个Cookie的信息以表格的形式展示。
图2为本发明一实施例提供的独立访问者的识别方法的流程图。如图2所示,本实施例提供的独立访问者的识别方法具体说明如下:
首先,进行数据采集和数据整理,例如得到表1和表2所示的数据。
表1
Cookie ID 浏览器类型 微博账号 人人账号 QQ账号
C1 Eric 王冰
C2 Google
C3 Sara
C4 360 Kate
C5 Eric 12345
C6 Google
C7 360 Kitch
C8 Sara
C9 Eric 王冰 12345
C10 FireFox Ouyang
C11
C12 FireFox Jiayao
C13
C14
C15
表2
之后,基于整理后的数据进行场景识别,具体而言,从表1和表2中筛选出关联相同SNS ID的Cookie ID归类为第一场景,并存储至第一场景数据库,于此,属于第一场景的Cookie ID如下:
C1、C5、C9–相同微博账号Eric;
C3、C8–相同微博账号Sara;
C1、C9–相同人人账号王冰。
在第一场景下,将均关联微博帐号Eric的三个Cookie ID根据第一场景的独立访问者识别策略进行两两比对,由于C1、C9关联两个相同的SNS ID,即微博账号Eric和人人账号王冰,则识别C1、C9对应于同一独立访问者;
虽然C1、C5关联同一微博帐号Eric,但是Eric同时还与C9关联,则判断C1及C5匹配不成功;
C5、C9关联两个相同的SNS ID,即微博帐号Eric和QQ账号12345,则识别C5、C9对应于同一独立访问者;
虽然C1与C5不满足第一场景下对应于同一独立访问者的条件,但是,C1与C5分别与C9满足第一场景下对应于同一独立访问者的条件,因此,识别C1、C9、C5对应于同一独立访问者。
在第一场景下,将均关联微博帐号Sara的两个Cookie ID根据第一场景的独立访问者识别策略进行比对,由于C3、C8关联至少一个相同的SNS ID,且该SNS ID并未与其它Cookie ID关联,则识别C3与C8对应于同一独立访问者。
从不属于第一场景的Cookie ID中筛选关联相同IP地址和浏览器类型的CookieID归类为第二场景,并存储至第二场景数据库,于此,属于第二场景的Cookie ID如下:
C2、C6–Google浏览器,相同IP地址:119.161.230.131;
C4、C7–360浏览器,相同IP地址:119.185.240.890、119.128.447.185;
C10、C12–Firefox浏览器,相同IP地址:120.187.245.893。
在第二场景下,根据第二场景的独立访问者识别策略对上述Cookie ID进行识别。
具体而言,C2的最后一次IP地址记录为119.161.230.131,等同于C6的首次使用的IP地址,同时,C2的末次行为时间记录为10:10,早于C6的首次行为时间11:40,据此识别C2与C6对应于同一独立访问者;
C4的末次行为时间记录为12:05,早于C7的首次行为时间12:20,同时,C4与C7同时关联两个相同IP地址,据此识别C4与C7对应于同一独立访问者;
C12的最后一次行为时间记录为12:10分,早于C10首次行为时间12:20,C12的最后一次IP地址记录为124.184.244.894,不同于C10首次使用的IP地址120.187.245.893,由于不满足第二场景的独立访问者识别策略中对应于同一独立访问者的条件,据此识别C10与C12不对应于同一独立访问者,并将C10与C12识别为两个不同的独立访问者。
从不属于第一场景和第二场景的Cookie ID中筛选关联相同IP地址的Cookie ID归类为第三场景,并存储在第三场景数据库,于此,属于第三场景的Cookie ID如下:
C11、C13–相同IP地址:123.129.225.103;
C14、C15–相同IP地址:131.102.233.899、121.121.243.529、119.128.443.184。
在第三场景下,根据第三场景的独立访问者识别策略对上述Cookie ID进行识别。
具体而言,C11的最后一次使用的IP地址记录为123.129.225.103,与C13首次使用的IP地址相同,同时,C11与C13的行为日期不同,其中,C11最后一次的行为时间记录为21:50pm,C13首次行为时间记录为21:30pm,其时间差小于30分钟,据此,识别C11与C13对应于同一独立访问者;
遍历C14及C15关联的所有IP地址个数,每个Cookie ID关联有4个IP地址,其中,相同IP地址的数量为3个,相似度比例为3/4=75%,据此,识别C14与C15对应于同一独立访问者。
最后,将所有独立访问者数据存储至服务器,并归类,以列表的形式展示如表3所示。
表3
独立访问者 对应的Cookie ID
UV1 C1、C9、C5
UV2 C3、C8
UV3 C2、C6
UV4 C4、C7
UV5 C10
UV6 C12
UV7 C11、C13
UV8 C14、C15
此外,本发明实施例还提供一种独立访问者的识别装置,包括:数据整理模块,用于将采集的数据按照Cookie ID进行整理;第一识别模块,用于按照场景识别策略识别Cookie ID所属的场景;第二识别模块,用于针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系。于实际应用中,数据整理模块、第一识别模块以及第二识别模块例如为处理器等具有数据处理能力的电子器件。然而,本发明对此并不限定,上述模块的功能还可以通过处理器执行存储在存储器中的程序/指令实现。
其中,采集的数据至少包括:用户使用的IP地址、Cookie ID、社交网络账号、用户上网使用的浏览器类型、用户的历史行为日志,其中,从同一个Cookie采集的数据彼此关联,所述历史行为日志至少包括各次行为的时间以及各次行为时间与使用的IP地址的对应关系。
于一实施例中,场景识别策略包括:
关联相同社交网络账号的Cookie ID属于第一场景;
关联相同IP地址及浏览器类型的Cookie ID属于第二场景;
关联相同IP地址的Cookie ID属于第三场景。
于一实施例中,第一场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID至少关联两个相同的社交网络账号;
两个Cookie ID至少关联一个相同的社交网络账号,且该社交网络账号除了与所述两个Cookie ID关联外不与其它Cookie ID关联。
于一实施例中,第二场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同。
于一实施例中,第三场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID关联的历史行为至少在两个不同的日期,第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同,且两者的使用时间差不超过30分钟;
两个Cookie ID关联的曾经使用过的IP地址中有超过50%的IP地址是相同的,且相同的IP地址的数目大于或等于3。
于一实施例中,各场景的独立访问者识别策略还包括:当三个或三个以上的Cookie ID中有两个Cookie ID不满足该场景下对应于同一独立访问者的条件,但所述两个Cookie ID分别与第三个Cookie ID满足该场景下对应于同一独立访问者的条件,则所述三个Cookie ID对应于同一独立访问者。
于一实施例中,各场景的独立访问者识别策略还包括:某一Cookie ID与所属场景中的其它Cookie ID均未满足该场景下对应于同一独立访问者的条件时,该Cookie ID单独对应一个独立访问者。
于一实施例中,该装置还包括:汇总模块,用于合并各场景中识别的对应于同一独立访问者的至少两个Cookie ID及其关联的数据。
于一实施例中,所述数据整理模块,具体用于:将采集的数据按照统一的CookieID进行组织,将同一个Cookie ID关联的数据汇总,并以日志形式存储,其中,从同一个Cookie采集的数据彼此关联。
图3为本发明一实施例提供的独立访问者的识别装置的示意图。如图3所示,本实施例提供的独立访问者的识别装置包括数据采集模块、数据整理模块、第一场景第一识别模块、第一场景数据库、第一场景第二识别模块、第一场景存储模块、第二场景第一识别模块、第二场景数据库、第二场景第二识别模块、第二场景存储模块、第三场景第一识别模块、第三场景数据库、第三场景第二识别模块、第三场景存储模块以及汇总模块。
具体而言,数据采集模块用于采集数据;数据整理模块用于按照Cookie ID整理采集的数据;第一场景第一识别模块用于根据场景识别策略识别属于第一场景的Cookie ID,第一场景数据库用于存储识别出的属于第一场景的Cookie ID,第一场景第二识别模块用于根据第一场景的独立访问者识别策略识别Cookie ID与独立访问者的对应关系,第一场景存储模块用于将识别出的Cookie ID与独立访问者的对应关系进行存储;第二场景第一识别模块用于根据场景识别策略识别属于第二场景的Cookie ID,第二场景数据库用于存储识别出的属于第二场景的Cookie ID,第二场景第二识别模块用于根据第二场景的独立访问者识别策略识别Cookie ID与独立访问者的对应关系,第二场景存储模块用于将识别出的Cookie ID与独立访问者的对应关系进行存储;第三场景第一识别模块用于根据场景识别策略识别属于第三场景的Cookie ID,第三场景数据库用于存储识别出的属于第三场景的Cookie ID,第三场景第二识别模块用于根据第三场景的独立访问者识别策略识别Cookie ID与独立访问者的对应关系,第三场景存储模块用于将识别出的Cookie ID与独立访问者的对应关系进行存储;汇总模块,用于汇总所有识别出的Cookie ID与独立访问者的对应关系。
于实际应用中,数据采集模块例如为采集器等具有数据采集功能的器件,数据整理模块、第一场景第一识别模块、第二场景第一识别模块、第三场景第一识别模块、第一场景第二识别模块、第二场景第二识别模块、第三场景第二识别模块以及汇总模块例如为处理器等具有数据处理能力的器件,第一场景数据库、第二场景数据库、第三场景数据库、第一场景存储模块、第二场景存储模块以及第三场景存储模块例如为存储器等具有数据存储功能的器件。或者,上述模块的功能还可以通过处理器执行存储在存储器中的程序/指令实现。本发明对此并不限定。
此外,关于上述装置的具体处理流程同上述方法所述,故于此不再赘述。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (10)

1.一种独立访问者的识别方法,其特征在于,包括:
将采集的数据按照Cookie标号ID进行整理;
按照场景识别策略识别Cookie ID所属的场景;
针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系,
所述采集的数据至少包括:用户使用的网络协议IP地址、Cookie ID、社交网络账号、用户上网使用的浏览器类型、用户的历史行为日志,其中,从同一个Cookie采集的数据彼此关联,所述历史行为日志至少包括各次行为的时间以及各次行为时间与使用的IP地址的对应关系,
所述场景识别策略包括:
关联相同社交网络账号的Cookie ID属于第一场景;
关联相同IP地址及浏览器类型的Cookie ID属于第二场景;
关联相同IP地址的Cookie ID属于第三场景,
所述第一场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID至少关联两个相同的社交网络账号;
两个Cookie ID至少关联一个相同的社交网络账号,且该社交网络账号除了与所述两个Cookie ID关联外不与其它Cookie ID关联,
所述第二场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同,
所述第三场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID关联的历史行为至少在两个不同的日期,第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同,且两者的使用时间差不超过30分钟;
两个Cookie ID关联的曾经使用过的IP地址中有超过50%的IP地址是相同的,且相同的IP地址的数目大于或等于3。
2.如权利要求1所述的方法,其特征在于,各场景的所述独立访问者识别策略还包括:当三个或三个以上的Cookie ID中有两个Cookie ID不满足该场景下对应于同一独立访问者的条件,但所述两个Cookie ID分别与第三个Cookie ID满足该场景下对应于同一独立访问者的条件,则所述三个Cookie ID对应于同一独立访问者。
3.如权利要求1所述的方法,其特征在于,各场景的所述独立访问者识别策略还包括:某一Cookie ID与所属场景中的其它Cookie ID均未满足该场景下对应于同一独立访问者的条件时,该Cookie ID单独对应一个独立访问者。
4.如权利要求1所述的方法,其特征在于,所述针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系之后,还包括:合并各场景中识别的对应于同一独立访问者的至少两个Cookie ID及其关联的数据。
5.如权利要求1所述的方法,其特征在于,所述将采集的数据按照Cookie ID进行整理包括:将采集的数据按照统一的Cookie ID进行组织,将同一个Cookie ID关联的数据汇总,并以日志形式存储,其中,从同一个Cookie采集的数据彼此关联。
6.一种独立访问者的识别装置,其特征在于,包括:
数据整理模块,用于将采集的数据按照Cookie标号ID进行整理;
第一识别模块,用于按照场景识别策略识别Cookie ID所属的场景;
第二识别模块,用于针对每个场景中的Cookie ID,根据该场景的独立访问者识别策略,识别Cookie ID与独立访问者的对应关系,
所述采集的数据至少包括:用户使用的网络协议IP地址、Cookie ID、社交网络账号、用户上网使用的浏览器类型、用户的历史行为日志,其中,从同一个Cookie采集的数据彼此关联,所述历史行为日志至少包括各次行为的时间以及各次行为时间与使用的IP地址的对应关系,
所述场景识别策略包括:
关联相同社交网络账号的Cookie ID属于第一场景;
关联相同IP地址及浏览器类型的Cookie ID属于第二场景;
关联相同IP地址的Cookie ID属于第三场景,
所述第一场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID至少关联两个相同的社交网络账号;
两个Cookie ID至少关联一个相同的社交网络账号,且该社交网络账号除了与所述两个Cookie ID关联外不与其它Cookie ID关联,
所述第二场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID关联的第一次行为时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同;
第一个Cookie ID关联的最后一次行为时间早于第二个Cookie ID对应的Cookie生成时间,且两个Cookie ID关联的曾经使用过的所有IP地址中至少有两个IP地址相同,
所述第三场景的独立访问者识别策略包括:满足以下任一条件的两个Cookie ID对应于同一独立访问者:
两个Cookie ID关联的历史行为至少在两个不同的日期,第一个Cookie ID关联的最后一次使用的IP地址与第二个Cookie ID关联的第一次使用的IP地址相同,且两者的使用时间差不超过30分钟;
两个Cookie ID关联的曾经使用过的IP地址中有超过50%的IP地址是相同的,且相同的IP地址的数目大于或等于3。
7.如权利要求6所述的装置,其特征在于,各场景的所述独立访问者识别策略还包括:当三个或三个以上的Cookie ID中有两个Cookie ID不满足该场景下对应于同一独立访问者的条件,但所述两个Cookie ID分别与第三个Cookie ID满足该场景下对应于同一独立访问者的条件,则所述三个Cookie ID对应于同一独立访问者。
8.如权利要求6所述的装置,其特征在于,各场景的所述独立访问者识别策略还包括:某一Cookie ID与所属场景中的其它Cookie ID均未满足该场景下对应于同一独立访问者的条件时,该Cookie ID单独对应一个独立访问者。
9.如权利要求6所述的装置,其特征在于,还包括:汇总模块,用于合并各场景中识别的对应于同一独立访问者的至少两个Cookie ID及其关联的数据。
10.如权利要求6所述的装置,其特征在于,所述数据整理模块,具体用于:将采集的数据按照统一的Cookie ID进行组织,将同一个Cookie ID关联的数据汇总,并以日志形式存储,其中,从同一个Cookie采集的数据彼此关联。
CN201510599799.5A 2015-09-18 2015-09-18 一种独立访问者的识别方法及装置 Active CN106549914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510599799.5A CN106549914B (zh) 2015-09-18 2015-09-18 一种独立访问者的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510599799.5A CN106549914B (zh) 2015-09-18 2015-09-18 一种独立访问者的识别方法及装置

Publications (2)

Publication Number Publication Date
CN106549914A CN106549914A (zh) 2017-03-29
CN106549914B true CN106549914B (zh) 2019-12-06

Family

ID=58362025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510599799.5A Active CN106549914B (zh) 2015-09-18 2015-09-18 一种独立访问者的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106549914B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107579834A (zh) * 2017-08-02 2018-01-12 百川通联(北京)网络技术有限公司 一种家庭账号识别方法及装置
CN110866286B (zh) * 2019-10-29 2021-12-14 武汉极意网络科技有限公司 设备指纹生成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030208594A1 (en) * 2002-05-06 2003-11-06 Urchin Software Corporation. System and method for tracking unique visitors to a website
CN102831114B (zh) * 2011-06-14 2015-09-16 北京思博途信息技术有限公司 实现互联网用户访问情况统计分析的方法及装置
CN103905379A (zh) * 2012-12-25 2014-07-02 腾讯科技(深圳)有限公司 一种标识互联网用户的方法,及装置
CN103970752B (zh) * 2013-01-25 2017-12-05 秒针信息技术有限公司 独立访问者数量估算方法和***
CN104394118B (zh) * 2014-07-29 2016-12-14 焦点科技股份有限公司 一种用户身份识别方法及***

Also Published As

Publication number Publication date
CN106549914A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN104394118B (zh) 一种用户身份识别方法及***
Bruns et al. Quantitative approaches to comparing communication patterns on Twitter
US9424319B2 (en) Social media based content selection system
CN103218431B (zh) 一种能识别网页信息自动采集的***
CN110033302B (zh) 恶意账户识别方法及装置
CN103051637A (zh) 用户识别方法与装置
US20180322170A1 (en) Event processing system
KR101559719B1 (ko) 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
CN107896153B (zh) 一种基于移动用户上网行为的流量套餐推荐方法及装置
CN113412607B (zh) 内容推送方法、装置、移动终端及存储介质
CN107977678A (zh) 用于输出信息的方法和装置
JP2021525425A (ja) 情報処理方法及び装置、電子機器並びに記憶媒体
CN103745014A (zh) 一种社交网络用户虚实映射方法和***
CN108648017B (zh) 易于扩展的用户需求匹配方法、装置、设备及存储介质
CN106713950A (zh) 一种基于用户行为预测分析的视频服务***
CN111723083B (zh) 用户身份识别方法、装置、电子设备及存储介质
CN110019786B (zh) 网络社区的话题发送方法、话题列表排序方法及装置
Pasricha et al. Detecting bot behaviour in social media using digital DNA compression
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN107025567A (zh) 一种数据处理方法和装置
CN104376021A (zh) 文件推荐***及方法
CN113205129A (zh) 一种作弊团伙识别方法、装置、电子设备及存储介质
CN106156258A (zh) 一种在分布式存储***中统计数据的方法、装置及***
CN109255024A (zh) 一种异常用户同党的搜索方法,装置,及***
CN107992493A (zh) 基于两人或多人寻找聊天话题的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant