CN104394118A - 一种用户身份识别方法及*** - Google Patents

一种用户身份识别方法及*** Download PDF

Info

Publication number
CN104394118A
CN104394118A CN201410367353.5A CN201410367353A CN104394118A CN 104394118 A CN104394118 A CN 104394118A CN 201410367353 A CN201410367353 A CN 201410367353A CN 104394118 A CN104394118 A CN 104394118A
Authority
CN
China
Prior art keywords
identity
information
user
website
relation storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410367353.5A
Other languages
English (en)
Other versions
CN104394118B (zh
Inventor
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201410367353.5A priority Critical patent/CN104394118B/zh
Publication of CN104394118A publication Critical patent/CN104394118A/zh
Application granted granted Critical
Publication of CN104394118B publication Critical patent/CN104394118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/30Types of network names
    • H04L2101/33Types of network names containing protocol addresses or telephone numbers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种用户身份识别方法和***,通过用户注册形成的基本信息,包括用户ID,用户名、Email、电话、计算机IP等,以及对网站用户行为数据进行提取,综合行为数据中涉及的用户ID、用户名、Email、电话号码、Cookie、计算机IP等信息,建立两者的用户信息关联关系并赋予唯一标识身份,能够对目前B2B网站中的用户做统一身份识别,建立身份特征关系,分辨新老用户,有效的跟踪用户行为,从而能够针对用户建立一系列应用,提高用户体验。

Description

一种用户身份识别方法及***
技术领域
本发明涉及电子商务B2B领域,特别是一种用户身份识别方法及***。 
背景技术
作为电子商务网站,为了更好的把握用户需求,提高用户体验,用户分析是网站分析中一个重要组成部分。用户分析,需要了解网站的用户规模,跟踪网站的用户行为,发现用户的行为特征、兴趣爱好及习惯等。通过用户分析,可以让网站清楚的了解用户的来源、去向及用户的信息,分析用户对网站的满意度,找出网站、推广渠道等方面存在的问题,有助于提高网站用户转化率;通过用户访问网站行为分析,对网站的用户的访问路径进行优化,对各个页面的用户停留及退出情况进行分析,找出各页面存在的问题,提高页面及网站的合理布局;通过用户行为分析,了解用户的行为习惯及兴趣偏好,为用户提供个性化定制服务,有助于提高网站的用户忠诚度及用户粘性,留住网站用户;通过用户身份识别,为用户提供个性化服务,可以帮助用户更快更好的找到优质满意的产品,为用户节约效率,提高满意度。而在这之前必须首先能够识别每个用户,分辨他们是新用户还是老用户,分辨他们是谁(用户名,邮箱,联系电话等)。 
作为B2B网站,针对用户提供的最主要服务:查询产品、查询商家、以及询盘并不要求用户强制登录、注册等等。很多用户以游客身份接受网站提供的服务,使得用户识别显得较为困难。要想能够准确的跟踪用户的行为,这就要求对任何一个来到网站的用户进行身份识别及定位。 
在专利“基于特定信息的用户身份识别方法和***”(申请号:CN 201210019678.5)中,其提出的方法:通过将用户访问互联网情况的特定信息映射为用户临时唯一标识,并从通讯网络侧获取该用户临时唯一标识和用户身份信息,基于用户临时唯一标识将特定信息和用户身份信息关联起来。但此专利提出的方法主要根据“计算机IP地址”或“计算机IP地址+端口号”作为用户临时唯一标识,这种方法数据来源较单一,受到计算机IP变动影响大,唯一标识不够明确。本专利采用用户ID、用户名、邮箱、电话号码、Cookie、计算机IP等确立用户身份ID,并建立关联关系,提高了身份识别的准确性。 
发明内容
针对现有技术中存在的不足,本发明实施例提供一种用户身份识别方法及***,解决目前电子商务B2B网站中为用户做统一身份识别的问题。 
本发明的技术方案如下,一种用户身份识别方法,包括: 
步骤一:从电子商务网站平台数据源***中采集基础数据,对采集的基础数据进行分类,形成两类数据,并存储于后台服务器中。这两类数据包括: 
(1)有关用户注册形成的用户基本信息,包括用户ID、用户名、Email、电话、计算机IP等; 
(2)用户注册、登录、询盘、访问、搜索等网站行为的数据。 
步骤二:基于用户的注册、登录、询盘、访问、搜索等网站行为,提取最近1年时间段内网站行为的记录,每种网站行为记录中包含了有关用户的身份信息,包括用户ID、用户名、Email、电话号码、Cookie、计算机IP。结合用户注册的用户基本信息:用户ID,用户名、Email、电话号码、计算机IP信息,将这些信息汇总到一起,并去掉完全重复的记录。 
其中,因每种行为记录的相关用户身份信息不完整,因此有的值可能为空;询盘分用户登录发询盘情况和用户未登录发询盘情况,两种情况记录的用户信息不同。如下表所示。 
用户行为 用户ID 用户名 Email 电话号码 Cookie 计算机IP
登录
登录发询盘
未登录发询盘    
访问        
搜索        
注册信息  
步骤三:根据用户ID、用户名、Email、电话号码、Cookie、计算机IP之间的关系,通过预先设定的对应方法,对以上用户身份信息进行去重、身份归一化、最终得到用户身份关联关系以及对应的身份信息,并对用户赋予唯一身份ID。 
对应方法的子步骤具体如下: 
1、首先对“登录”、“登录发询盘”的这两种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并。因为同一用户ID被认为是同一个人,即不同的用户ID为不同的人。在这三种网站行为的记录的身份信息中,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP。 
因为在B2B网站中,一个用户ID将分别对应多个用户名、多个Email、多个电话号码、多个Cookie、多个计算机IP。对该用户ID赋予唯一身份ID,形成的关联关系如图4所示。 
通过关联处理后,形成身份ID关系库。 
其中,一个身份ID对应一个用户ID,只要不同的用户ID,即赋予不同的身份ID;对 于不同身份ID存在相同的用户名、电话号码、Cookie、计算机IP的情况,在合并身份信息的同时,需记录下该条信息在用户行为数据,以及用户基本信息中产生的最近时间,用以辅助判断新的用户的归属。 
2、提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新。 
首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。 
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
因计算机IP经常变动问题,在此不作身份判断。 
若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为 记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
3、提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新。 
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
步骤四:对身份ID关系库按天进行更新。对于网站用户新发生的行为,其涉及的用户身份信息和新注册用户的基本信息,与身份ID关系库的信息进行比较归并,并且补充更新身份Id关系库。 
具体子步骤如下: 
1、对新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。 
首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去 重,补充到身份ID关系库中。 
例如:身份ID关系库有一条身份ID记录为: 
身份ID 用户ID 用户名 Email 电话 Cookie 计算机IP
10 001 cancy cancy163.com 55556666 asdfghj 192.168.1.1
通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为: 
用户ID 用户名 Email 电话 Cookie 计算机IP
001 judy judyqq.com 55556666 zxcvbnj 192.168.1.1
经过匹配,信息合并去重后身份特征关系为 
若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID中。 
例如:身份ID关系库中无“用户ID”的身份ID信息 
身份ID Email 电话 Cookie 计算机IP
50 123163.com 33333333 AAAA 1.1.1.1
通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为: 
用户ID 用户名 Email 电话 Cookie 计算机IP
105 coco 123163.com 33333333 BBBB 2.2.1.1
经过比较,两者的Email相同,对信息合并去重后,身份ID信息为 
最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中。 
2、提取新一天产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身 份ID中。 
首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。 
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
3、提取新一天产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID 关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。 
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
步骤五:身份ID及相关身份特征关系生成后,将身份特征关系应用于后续的用户行为中。根据用户的每一条历史行为记录中的身份信息关联身份识别结果得到身份ID,即每个用户都有网站的唯一身份ID,可用于分析用户行为等应用。 
本发明同时公开了一种用户身份识别***,包括: 
数据信息采集与存储模块、数据整理/转换/集成模块、身份识别处理模块、身份更新维护模块、身份信息应用模块。 
所述数据信息采集与存储模块,用于从网站平台的数据源***中提取记录用户各种行为的日志数据,包括访问、搜索、询盘、登录、注册等行为;以及提取用户基本信息,包括用户名、地区、电话等基本信息的数据,并存储于后台服务器中; 
所述数据整理/转换/集成模块,用于读取数据存储模块中的日志数据,对日志记录进行解析,形成有关用户各种行为的中间层数据,并把包含用户注册填写基本信息,并存储于后台服务器中; 
所述身份识别处理模块,用于赋予每个用户身份ID,建立身份ID与用户ID、用户名、 Email、电话号码、Cookie、计算机IP等的关联关系。 
所述身份更新维护模块,用于将新产生的用户行为中包含的身份信息,进行合并、修正、补充和维护,形成新的身份ID及对应身份信息,补充更新到身份ID关系库中。 
所述身份信息应用模块,用于将身份ID关系库中的身份应用于网站平台的用户行为中,识别用户,对用户行为进行跟踪和分析。 
本发明具有以下优点: 
本发明提出一种用户身份识别方法和***,通过用户注册形成的基本信息,包括用户ID,用户名、Email、电话、计算机IP等,以及对网站用户行为数据进行提取,综合行为数据中涉及的用户ID、用户名、Email、电话号码、Cookie、计算机IP等信息,建立两者的用户信息关联关系并赋予唯一标识身份,能够对目前B2B网站中的用户做统一身份识别,建立身份特征关系,分辨新老用户,有效的跟踪用户行为,从而能够针对用户建立一系列应用,提高用户体验。 
附图说明
图1为本发明实施例用户身份识别方法流程示意图。 
图2为本发明的身份关系ID关系库形成示意图。 
图3为本发明实施例用户身份识别***的结构示意图。 
图4为本发明的用户ID关联关系示意图。 
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面对本发明的用户身份识别***中涉及的一些术语做简单解释。 
身份ID:网站上用户的唯一标识。只要访问网站,不管该用户是否注册成为会员,都会通过身份识别分配唯一的标识。 
用户身份特征关系:根据用户与网站交互行为留下的用户ID,用户名、Email、电话、Cookie,计算机IP等多个特征位构建的用户身份特征之间的关系,并以此实现特征追踪。 
Cookie族、计算机IP族、Email族、电话号码族:同一个用户相关的同一特征位的具体多个值组成的关系。比如某用户使用某Cookie后重装了***后生成新Cookie,那么***会将这两个Cookie作为这个用户的Cookie族来看待。 
一个用户ID对应多个用户名:供应商在B2B网站上注册、发布产品以及与买家进行沟通交互时,其可以设置一个主用户名及多个子用户名,主用户名分配不同的产品管理权限及其他信息管理权限给子用户名,分别进行信息管理,在这种情况下,主用户及多个子 用户共用一个用户ID。 
结合图1,本发明实施例的识别方法流程,具体包括以下步骤: 
步骤11,从网站平台数据源***中采集相关数据,其中数据源***中包括与网站业务相关的网站日志信息、后台服务器中储存的用户基本信息等;分别从***中提取数据并存储。 
步骤12,对采集的数据进行分类形成有关用户行为记录信息、用户基本信息的中间层数据,并存储于后台服务器中。在本发明的实施例中,基于历史数据分析,确定了基于用户注册、登录、询盘、访问、搜索等行为,其中包含的用户身份信息有:用户ID,用户名、Email、电话、Cookie,计算机IP等作为身份识别的信息,但不限于此,其他反映身份特征的指标均可以作为身份识别及认定的指标信息。 
步骤13,基于用户的行为记录包含的用户身份信息,以及注册信息中的用户基本信息,形成用户身份关系,并赋予唯一身份ID。具体实施方式为:通过对用户登录、询盘、访问、搜索等行为中包含身份信息,将行为记录之间的用户ID,用户名、Email、电话、Cookie,计算机IP,以及以及注册信息中的用户基本信息:用户ID,用户名、Email、电话、计算机IP等,建立关联关系,将这些身份标识,最终全部统一到身份ID上来。 
在本发明的实施例中,B2B网站很多用户以匿名身份存在,且一个用户ID可能有多个用户名、Email、电话、Cookie,计算机IP等,因此,需要唯一定义用户身份标识。 
以中国制造网为例,详细关联结构如图2: 
(1)首先对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP,不同的用户ID赋予不同的身份ID。一个用户ID可以分别对应多个用户名、多个Email、多个电话号码、多个Cookie、多个计算机IP。形成身份ID关系库1。 
(2)提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库1做比对,进行身份合并及更新。 
首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到 身份ID关系库的对应身份ID中。 
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID。 
对于所有新的身份ID,形成身份ID关系库2。 
(3)提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库1、身份ID关系库2做比对,进行身份合并及更新。 
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库1、身份ID关系库2中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加 到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID。 
对于所有新的身份ID,形成身份ID关系库3。 
最终,实现用户ID、用户名、Email、电话号码、Cookie、计算机IP关联关系,把身份ID关系库1、身份ID关系库2、身份ID关系库3合并,形成身份ID关系库。 
步骤14,根据当前新发生的每一个用户行为身份信息,对历史已形成身份ID关系库中的身份ID及身份关系进行更新和维护。 
以中国制造网为例,详细步骤如下: 
1、对新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。 
首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去重,补充到身份ID关系库中。 
例如:身份ID关系库有一条身份ID记录为: 
身份ID 用户ID 用户名 Email 电话 Cookie 计算机IP
10 001 cancy cancy163.com 55556666 asdfghj 192.168.1.1
通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为: 
用户ID 用户名 Email 电话 Cookie 计算机IP
001 judy judyqq.com 55556666 zxcvbnj 192.168.1.1
经过匹配,信息合并去重后身份特征关系为 
若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID中。 
例如:身份ID关系库中无“用户ID”的身份ID信息 
身份ID Email 电话 Cookie 计算机IP
50 123163.com 33333333 AAAA 1.1.1.1
通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为: 
用户ID 用户名 Email 电话 Cookie 计算机IP
105 coco 123163.com 33333333 BBBB 2.2.1.1
经过比较,两者的Email相同,对信息合并去重后,身份ID信息为 
最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中。 
2、提取新一天产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。 
首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。 
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份 ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
3、提取新一天产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。 
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。 
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。 
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。 
步骤15,将当前更新的身份ID及身份信息更新于用户行为,对每一个用户行为记录赋值身份ID,并完成自适应过程。 
步骤16,将最终身份ID及对应信息关系,应用于用户行为跟踪及分析等网站分析。 
结合图3,本发明实施例识别***结构,包括: 
数据信息采集存储模块,数据整理/转换/集成模块,身份识别处理模块和身份更新维护模块,身份信息应用模块。 
所述数据信息采集存储模块,用于从网站平台的数据源***中提取记录用户行为的网站日志数据以及用户注册的基本信息数据,并存储于后台服务器中。 
数据信息采集存储模块包括日志***、后台数据库***和数据存储单元。日志***用于从网站抽取存储与网站交互的用户行为信息,记录用户在网站上的各类行为,包括登录、询盘、注册、访问、搜索等信息;后台数据库***用于存储后台运营的基础信息,包括用户注册的基本信息;数据存储单元用于依据数据仓库数据提取规则按天分别从日志***和后台数据库***中提取数据并存储,以备数据整理/转换/集成模块进行进一步的数据处理。 
所述数据整理/转换/集成模块,用于读取数据存储模块中的各类日志数据,对采集的数据进行分类形成有关用户行为、用户基本信息的中间层数据,并存储于数据仓库中。 
数据整理/转换/集成模块包括ETL子模块和数据仓库子模块。ETL子模块用于读取数据存储单元中的各类数据,进行进一步的信息识别、清洗、加工和整理,并输出到数据仓库子模块中;数据仓储子模块用于分类汇总信息形成中间层数据,并存储于数据仓库中,其中存储信息主要划分为用户行为信息、用户基本信息等。本发明实施例中最终识别生成的用户身份ID信息也存储在数据仓库子模块中。 
所述身份识别处理模块,用于对用户行为记录中身份信息、以及用户基本信息进行汇总比较,最终赋予每个用户身份ID,以及建立身份ID与用户ID,用户名,Email、电话号 码、Cookie、计算机IP等的关联关系,最终得到用户身份关系。包括身份信息知识单元、信息关联处理器1、身份特征信息关联子模块1、信息判断处理器1、信息关联处理器2、身份特征信息关联子模块2、信息判断处理器2、信息关联处理器3、身份特征信息关联模块。 
身份信息知识单元用于从数据仓库子模块中的用户登录、询盘、访问、搜索等行为记录中,以及用户注册的基本信息中提取身份特征信息,包括用户ID,用户名,Email、电话号码、Cookie、计算机IP信息记录;将这些信息保存汇总到一起,去掉完全重复的记录。 
信息关联处理器1用于对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份关联合并,对同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP进行信息合并; 
身份特征信息关联子模块1用于存储经信息关联处理器1合并去重的用户ID、用户名、Email、电话号码、Cookie、计算机IP的对应关系,并对不同的用户ID赋予不同的身份ID,形成身份ID信息记录; 
信息判断处理器1用于将身份信息知识单元中的“未登录发询盘”行为记录中身份信息与身份特征信息关联子模块1中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个人,则将新身份信息合并到身份特征信息关联子模块1中;若信息比较不相同,则进入信息关联处理器2; 
信息关联处理器2用于处理信息判断处理器1中还没有归并到身份ID的Email、电话号码、Cookie、计算机IP信息,其中Email、电话号码、Cookie任一相同,则认为是同一个人,赋予同一身份ID; 
身份特征信息关联子模块2用于存储经信息关联处理器2关联合并的Email、电话号码、Cookie、计算机IP与身份ID的关联关系,同时合并身份特征信息关联子模块1中存储的身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP的关联关系; 
信息判断处理器2用于将身份信息知识单元中的“访问”、“搜索”行为中的用户身份信息与身份特征信息关联子模块2中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个人,则将新身份信息合并到身份特征信息关联子模块2中;若信息比较结果不相同,则进入信息关联处理器3; 
信息关联处理器3用于处理信息判断处理器1中还没有归并到身份ID的网站行为记录,如果他们之间的Cookie、计算机IP信息,如果Cookie相同,则认为是同一个人,赋予同一身份ID; 
身份特征信息关联模块用于存储经信息关联处理器3关联合并的Cookie与身份ID关联关系后形成的身份ID信息记录,同时合并特征信息关联子模块2中存储的身份ID信息记录。 
所述身份更新维护模块,用于对身份识别处理模块中的用户身份关系信息进行更新,基于特定的更新算法,按照增量更新方式,对于纳入模型中的每一个新产生的身份特征信息数据,与已有的身份特征关系及身份ID作对比,进行更新维护,形成新的身份ID关系库。 
身份更新维护模块包括新身份信息知识单元、信息判断处理器3、信息关联处理器4、身份更新处理器、身份ID特征关系结果单元。 
新身份信息知识单元用于存储按天更新的网站用户新发生的行为中的用户身份信息和新注册用户的基本信息,并进行去重; 
信息判断处理器3用于将新身份信息知识单元中的行为记录中身份信息,与身份特征信息关联模块中的身份ID信息进行比较,若相同,进入身份更新处理器; 
更新处理器用于将新的行为中的用户身份信息与身份特征信息关联模块身份ID信息进行合并去重,更新现有身份ID的身份特征关系; 
信息关联处理器4,用于处理剩下的、还没有归并到身份ID关系库的网站行为记录,在其中用户身份信息之间,进行信息关联,形成新的的身份ID信息记录; 
身份ID特征关系结果单元用于存储更新生成的身份ID信息记录,并且持续按天进行更新。 
所述身份信息应用模块用于将已形成并不断更新自适应的身份ID信息应用于用户行为中,对用户历史行为及当前行为建立身份关系,识别哪些行为是同一用户所为,以此对用户行为进行跟踪和分析。 
以上所公开的仅为本发明的一种具体实施例而已,当然不能以此来限定本发明的保护范围,依照本发明权利要求的技术实质所做的改变或等同变化,仍落入本发明权利要求书所涵盖的范围。 

Claims (9)

1.一种用户身份识别方法,包括:
步骤一:从电子商务网站平台数据源***中采集基础数据,对采集的基础数据进行分类,形成两类数据,并存储于后台服务器中;
步骤二:基于用户的注册、登录、询盘、访问、搜索网站行为,提取最近时间段内网站行为的记录,每种网站行为记录中包含了有关用户的身份信息,包括用户ID、用户名、Email、电话号码、Cookie、计算机IP;结合用户注册的用户基本信息:用户ID,用户名、Email、电话号码、计算机IP信息,将这些信息汇总到一起,并去掉完全重复的记录;
步骤三:根据用户ID、用户名、Email、电话号码、Cookie、计算机IP之间的关系,通过预先设定的对应方法,对用户身份信息进行去重、身份归一化,最终得到用户身份关联关系以及对应的身份信息,并对用户赋予唯一身份ID;
步骤四:对身份ID关系库定时进行更新,对于网站用户新发生的行为,其涉及的用户身份信息和新注册用户的基本信息,与身份ID关系库的信息进行比较归并,并且补充更新身份ID关系库;
步骤五:身份ID及相关身份特征关系生成后,将身份特征关系应用于后续的用户行为中;根据用户的每一条历史行为记录中的身份信息关联身份识别结果得到身份ID,即每个用户都有网站的唯一身份ID,用于分析用户行为应用。
2.根据权利要求1所述的方法,其特征在于:步骤一中的两类数据包括:
(1)有关用户注册形成的用户基本信息,包括用户ID、用户名、Email、电话、计算机IP;
(2)用户注册、登录、询盘、访问、搜索网站行为的数据。
3.根据权利要求1所述的方法,其特征在于,步骤三中对应方法的子步骤具体为:
步骤3-1、首先对“登录”、“登录发询盘”的这两种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP;通过关联处理后,形成身份ID关系库;
步骤3-2、提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新;
步骤3-3、提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新。
4.根据权利要求3所述的方法,其特征在于:
步骤3-2具体为:
首先对Email进行比对,“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中;其他信息的电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
对于剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中;
步骤3-3具体为:
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息的Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID;
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
5.根据权利要求1所述的方法,其特征在于,步骤四的具体子步骤为:
步骤4-1、对新时间段产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中;
步骤4-2、提取新时间段产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中;
步骤4-3、提取新时间段产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
6.根据权利要求5所述的方法,其特征在于:
步骤4-1具体为:
首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去重,补充到身份ID关系库中;
若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID中;
最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中;
步骤4-2具体为:
首先对Email进行比对,“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;
若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中;
步骤4-3具体为:
根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;
若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息的Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID;
对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
7.一种用户身份识别***,其特征在于,包括:数据信息采集与存储模块、数据整理/转换/集成模块、身份识别处理模块、身份更新维护模块、身份信息应用模块;
所述数据信息采集与存储模块,用于从网站平台的数据源***中提取记录用户各种行为的日志数据,包括访问、搜索、询盘、登录、注册行为;以及提取用户基本信息,包括用户名、地区、电话基本信息的数据,并存储于后台服务器中;
所述数据整理/转换/集成模块,用于读取数据存储模块中的日志数据,对日志记录进行解析,形成有关用户各种行为的中间层数据,并把包含用户注册填写基本信息,并存储于后台服务器中;
所述身份更新维护模块,用于将新产生的用户行为中包含的身份信息,进行合并、修正、补充和维护,形成新的身份ID及对应身份信息,补充更新到身份ID关系库中;
所述身份信息应用模块,用于将身份ID关系库中的身份应用于网站平台的用户行为中,识别用户,对用户行为进行跟踪和分析。
8.根据权利要求7所述的***,其特征在于:
身份识别处理模块,包括身份信息知识单元、信息关联处理器1、身份特征信息关联子模块1、信息判断处理器1、信息关联处理器2、身份特征信息关联子模块2、信息判断处理器2、信息关联处理器3、身份特征信息关联模块组成;
身份信息知识单元用于从数据仓库子模块中的用户登录、询盘、访问、搜索等行为记录中,以及用户注册的基本信息中提取身份特征信息,包括用户ID,用户名,Email、电话号码、Cookie、计算机IP信息记录;将这些信息保存汇总到一起,去掉完全重复的记录;
信息关联处理器1用于对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份关联合并,对同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP进行信息合并;
身份特征信息关联子模块1用于存储经信息关联处理器1合并去重的用户ID、用户名、Email、电话号码、Cookie、计算机IP的对应关系,并对不同的用户ID赋予不同的身份ID,形成身份ID信息记录;
信息判断处理器1用于将身份信息知识单元中的“未登录发询盘”行为记录中身份信息与身份特征信息关联子模块1中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个用户,则将新身份信息合并到身份特征信息关联子模块1中;若信息比较不相同,则进入信息关联处理器2;
信息关联处理器2用于处理信息判断处理器1中还没有归并到身份ID的Email、电话号码、Cookie、计算机IP信息,其中Email、电话号码、Cookie任一相同,则认为是同一个用户,赋予同一身份ID;
身份特征信息关联子模块2用于存储经信息关联处理器2关联合并的Email、电话号码、Cookie、计算机IP与身份ID的关联关系,同时合并身份特征信息关联子模块1中存储的身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP的关联关系;
信息判断处理器2用于将身份信息知识单元中的“访问”、“搜索”行为中的用户身份信息与身份特征信息关联子模块2中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个用户,则将新身份信息合并到身份特征信息关联子模块2中;若信息比较结果不相同,则进入信息关联处理器3;
信息关联处理器3用于处理信息判断处理器1中还没有归并到身份ID的网站行为记录,如果他们之间的Cookie、计算机IP信息,如果Cookie相同,则认为是同一个用户,赋予同一身份ID;
身份特征信息关联模块用于存储经信息关联处理器3关联合并的Cookie与身份ID关联关系后形成的身份ID信息记录,同时合并特征信息关联子模块2中存储的身份ID信息记录。
9.根据权利要求7所述的***,其特征在于:
身份更新维护模块包括新身份信息知识单元、信息判断处理器3、信息关联处理器4、身份更新处理器、身份ID特征关系结果单元;
新身份信息知识单元用于存储定时更新的网站用户新发生的行为中的用户身份信息和新注册用户的基本信息,并进行去重;
信息判断处理器3用于将新身份信息知识单元中的行为记录中身份信息,与身份特征信息关联模块中的身份ID信息进行比较,若相同,进入身份更新处理器;
身份更新处理器用于将新的行为中的用户身份信息与身份特征信息关联模块身份ID信息进行合并去重,更新现有身份ID的身份特征关系;
信息关联处理器4,用于处理剩下的、还没有归并到身份ID关系库的网站行为记录,在其中用户身份信息之间,进行信息关联,形成新的的身份ID信息记录;
身份ID特征关系结果单元用于存储更新生成的身份ID信息记录,并且持续定时进行更新。
CN201410367353.5A 2014-07-29 2014-07-29 一种用户身份识别方法及*** Active CN104394118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410367353.5A CN104394118B (zh) 2014-07-29 2014-07-29 一种用户身份识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410367353.5A CN104394118B (zh) 2014-07-29 2014-07-29 一种用户身份识别方法及***

Publications (2)

Publication Number Publication Date
CN104394118A true CN104394118A (zh) 2015-03-04
CN104394118B CN104394118B (zh) 2016-12-14

Family

ID=52611954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410367353.5A Active CN104394118B (zh) 2014-07-29 2014-07-29 一种用户身份识别方法及***

Country Status (1)

Country Link
CN (1) CN104394118B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809156A (zh) * 2015-03-24 2015-07-29 北京锐安科技有限公司 记录证据信息的方法和装置
CN105550916A (zh) * 2015-11-30 2016-05-04 成都反思科技有限公司 一种基于多维标识的数据采集方法
CN105912663A (zh) * 2016-04-12 2016-08-31 宁波极动精准广告传媒有限公司 一种基于大数据的用户标签合并方法
CN106202099A (zh) * 2015-05-05 2016-12-07 北京国双科技有限公司 网站日志中访客信息的识别方法及装置
CN106230829A (zh) * 2016-08-03 2016-12-14 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN106302797A (zh) * 2016-08-31 2017-01-04 北京锐安科技有限公司 一种cookie访问去重方法和装置
CN106549914A (zh) * 2015-09-18 2017-03-29 北京秒针信息咨询有限公司 一种独立访问者的识别方法及装置
CN106682025A (zh) * 2015-11-09 2017-05-17 阿里巴巴集团控股有限公司 手机号用户的识别方法及装置
CN107025563A (zh) * 2016-01-29 2017-08-08 福建天晴数码有限公司 追踪投放广告的方法及***
CN107066539A (zh) * 2017-03-09 2017-08-18 北京网康科技有限公司 一种信息处理方法和装置
CN107665438A (zh) * 2017-08-10 2018-02-06 深圳市买买提乐购金融服务有限公司 一种数据处理方法和装置
CN107895280A (zh) * 2017-10-27 2018-04-10 深圳索信达数据技术股份有限公司 一种营销方案推送方法、***、终端及存储介质
CN108171547A (zh) * 2017-12-27 2018-06-15 平安普惠企业管理有限公司 用户行为追踪方法、装置、设备及存储介质
CN108241795A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种用户身份识别方法及装置
CN108444584A (zh) * 2018-04-13 2018-08-24 山东华宇工学院 一种智能身高体重测量***及方法
CN108664375A (zh) * 2017-03-28 2018-10-16 瀚思安信(北京)软件技术有限公司 用于检测计算机网络***用户的异常行为的方法
CN109086452A (zh) * 2018-08-24 2018-12-25 北京奇虎科技有限公司 Id数据网剪枝预处理方法、装置及计算设备
CN109344722A (zh) * 2018-09-04 2019-02-15 阿里巴巴集团控股有限公司 一种用户身份确定方法、装置及电子设备
CN109598529A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种用户标识的识别方法及装置
CN110109814A (zh) * 2019-05-15 2019-08-09 恒生电子股份有限公司 用户行为数据修正方法及装置
CN110727885A (zh) * 2018-06-28 2020-01-24 上海传漾广告有限公司 一种互联网全局统一标识符生成***及其生成方法
CN111147511A (zh) * 2019-12-31 2020-05-12 杭州涂鸦信息技术有限公司 一种用户的身份串并方法及***
CN111797077A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清洗方法、装置、存储介质及电子设备
CN112734476A (zh) * 2021-01-13 2021-04-30 上海群之脉信息科技有限公司 一种客户数据智能检测***
CN112734485A (zh) * 2021-01-13 2021-04-30 上海群之脉信息科技有限公司 一种用户智能运营***
CN114116863A (zh) * 2021-10-28 2022-03-01 上海欣兆阳信息科技有限公司 一种实时融合跨渠道消费者身份的方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及***
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与***
CN103942708A (zh) * 2013-09-30 2014-07-23 上海本家空调***有限公司 一种对区域客户进行评价的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及***
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法
CN103942708A (zh) * 2013-09-30 2014-07-23 上海本家空调***有限公司 一种对区域客户进行评价的方法及***
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与***

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809156B (zh) * 2015-03-24 2019-02-01 北京锐安科技有限公司 记录证据信息的方法和装置
CN104809156A (zh) * 2015-03-24 2015-07-29 北京锐安科技有限公司 记录证据信息的方法和装置
CN106202099B (zh) * 2015-05-05 2019-11-12 北京国双科技有限公司 网站日志中访客信息的识别方法及装置
CN106202099A (zh) * 2015-05-05 2016-12-07 北京国双科技有限公司 网站日志中访客信息的识别方法及装置
CN106549914A (zh) * 2015-09-18 2017-03-29 北京秒针信息咨询有限公司 一种独立访问者的识别方法及装置
CN106682025A (zh) * 2015-11-09 2017-05-17 阿里巴巴集团控股有限公司 手机号用户的识别方法及装置
CN105550916A (zh) * 2015-11-30 2016-05-04 成都反思科技有限公司 一种基于多维标识的数据采集方法
CN107025563A (zh) * 2016-01-29 2017-08-08 福建天晴数码有限公司 追踪投放广告的方法及***
CN105912663A (zh) * 2016-04-12 2016-08-31 宁波极动精准广告传媒有限公司 一种基于大数据的用户标签合并方法
CN106230829A (zh) * 2016-08-03 2016-12-14 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN106230829B (zh) * 2016-08-03 2019-06-11 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN106302797A (zh) * 2016-08-31 2017-01-04 北京锐安科技有限公司 一种cookie访问去重方法和装置
CN108241795A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种用户身份识别方法及装置
CN107066539A (zh) * 2017-03-09 2017-08-18 北京网康科技有限公司 一种信息处理方法和装置
CN108664375A (zh) * 2017-03-28 2018-10-16 瀚思安信(北京)软件技术有限公司 用于检测计算机网络***用户的异常行为的方法
CN108664375B (zh) * 2017-03-28 2021-05-18 瀚思安信(北京)软件技术有限公司 用于检测计算机网络***用户的异常行为的方法
CN107665438B (zh) * 2017-08-10 2019-04-26 深圳市买买提信息科技有限公司 一种数据处理方法和装置
CN107665438A (zh) * 2017-08-10 2018-02-06 深圳市买买提乐购金融服务有限公司 一种数据处理方法和装置
CN109598529A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种用户标识的识别方法及装置
CN107895280A (zh) * 2017-10-27 2018-04-10 深圳索信达数据技术股份有限公司 一种营销方案推送方法、***、终端及存储介质
CN108171547A (zh) * 2017-12-27 2018-06-15 平安普惠企业管理有限公司 用户行为追踪方法、装置、设备及存储介质
CN108444584A (zh) * 2018-04-13 2018-08-24 山东华宇工学院 一种智能身高体重测量***及方法
CN110727885A (zh) * 2018-06-28 2020-01-24 上海传漾广告有限公司 一种互联网全局统一标识符生成***及其生成方法
CN109086452A (zh) * 2018-08-24 2018-12-25 北京奇虎科技有限公司 Id数据网剪枝预处理方法、装置及计算设备
CN109344722A (zh) * 2018-09-04 2019-02-15 阿里巴巴集团控股有限公司 一种用户身份确定方法、装置及电子设备
US10997460B2 (en) 2018-09-04 2021-05-04 Advanced New Technologies Co., Ltd. User identity determining method, apparatus, and device
TWI738011B (zh) * 2018-09-04 2021-09-01 開曼群島商創新先進技術有限公司 用戶身分確定方法、裝置及電子設備
US11244199B2 (en) 2018-09-04 2022-02-08 Advanced New Technologies Co., Ltd. User identity determining method, apparatus, and device
CN111797077A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清洗方法、装置、存储介质及电子设备
CN110109814A (zh) * 2019-05-15 2019-08-09 恒生电子股份有限公司 用户行为数据修正方法及装置
CN111147511A (zh) * 2019-12-31 2020-05-12 杭州涂鸦信息技术有限公司 一种用户的身份串并方法及***
CN112734476A (zh) * 2021-01-13 2021-04-30 上海群之脉信息科技有限公司 一种客户数据智能检测***
CN112734485A (zh) * 2021-01-13 2021-04-30 上海群之脉信息科技有限公司 一种用户智能运营***
CN114116863A (zh) * 2021-10-28 2022-03-01 上海欣兆阳信息科技有限公司 一种实时融合跨渠道消费者身份的方法和***
CN114116863B (zh) * 2021-10-28 2023-07-25 上海欣兆阳信息科技有限公司 一种实时融合跨渠道消费者身份的方法和***

Also Published As

Publication number Publication date
CN104394118B (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
CN104394118A (zh) 一种用户身份识别方法及***
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
US10546006B2 (en) Method and system for hybrid information query
CN106528693B (zh) 面向个性化学习的教育资源推荐方法及***
US9367603B2 (en) Systems and methods for behavioral segmentation of users in a social data network
CN101572629B (zh) 一种ip数据的处理方法及装置
CN105069654A (zh) 一种基于用户识别的网站实时/非实时营销投放方法及***
US11275748B2 (en) Influence score of a social media domain
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及***
CN105741134A (zh) 跨数据源的营销人群在市场营销中应用的方法及装置
CN103295145A (zh) 一种基于用户消费特征向量的手机广告投放方法
JP7055153B2 (ja) デジタル通信ネットワーク上の複数のデバイスにわたるデジタルタッチポイントを確立するための分散ノードクラスタ
CN103106285A (zh) 一种基于信息安全专业社交网络平台的推荐算法
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与***
CN104516910A (zh) 在客户端服务器环境中推荐内容
CN104182506A (zh) 日志管理方法
CN115062087A (zh) 一种用户画像构建方法、装置、设备和介质
CN108416645B (zh) 一种针对用户的推荐方法、装置、存储介质和设备
CN105389714A (zh) 一种从行为数据识别用户特性的方法
US20170004402A1 (en) Predictive recommendation engine
CN106549914B (zh) 一种独立访问者的识别方法及装置
Lu et al. Genderpredictor: a method to predict gender of customers from e-commerce website
CN115129356A (zh) 目标事件看板生成方法、存储介质及电子装置
CN103870517A (zh) 一种获取用户个性化特征的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant