CN109598529A - 一种用户标识的识别方法及装置 - Google Patents
一种用户标识的识别方法及装置 Download PDFInfo
- Publication number
- CN109598529A CN109598529A CN201710922901.XA CN201710922901A CN109598529A CN 109598529 A CN109598529 A CN 109598529A CN 201710922901 A CN201710922901 A CN 201710922901A CN 109598529 A CN109598529 A CN 109598529A
- Authority
- CN
- China
- Prior art keywords
- user
- user identifier
- identification field
- identifier
- unique subscriber
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种用户标识的识别方法,包括:获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。基于本发明可以准确识别唯一用户,使企业主可以根据标识图谱进行精准营销。
Description
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种用户标识的识别方法及装置。
背景技术
在大数据时代,识别唯一用户是数据处理中的关键环节,识别唯一用户可以将单一用户的各类信息整合在一起,形成完整的用户画像,企业主则可以利用用户画像做人群分析和精准营销。而识别唯一用户的关键在于用户标识的识别。
现有的用户标识识别方法,将用户ID作为用户标识。先提取用户群体的ID集合,其中可能包括了多种用户ID,当某两个用户群体的其中某一个用户ID具有相同的值时,即将这两个用户合并,认为其实际上是同一个用户。如图1所示,因为A与B具有相同的ID1的值,而A与C又具有相同的ID2的值,因此将A、B和C三个访客识别为同一个人。
然而,现有的用户标识识别方法的识别错误率较高。例如:若某一汽车4S店的电脑,用于给线下到访的顾客来录入信息。当客户A利用该电脑登录之后进行了注册,留下了cookie,客户B同样利用该电脑登陆之后进行了注册,留下了与A相同的cookie,若按照现有的用户标识识别方法将两人识别为同一个人,但真实情况却是两个不同的客户。而这种情况在现实生活中是非常常见的。
同时,现有的用户标识识别方法中用户ID的值记录较为混乱。当两个用户(分别具有ID1和ID2)因为ID1被识别为同一人而被合并时,ID2的值往往不同。这时***往往不知道该如何记录合并过后的人的ID2的值,若都记录下来则会给人造成误解,若只记录其中一个则无法做到精确。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用户标识的识别方法及装置。
本发明提供的具体技术方案如下:
一种用户标识的识别方法,包括:
获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
优选的,所述根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识,包括:
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识;
确定各个所述预设标识字段中的唯一用户标识字段,并将其他所述预设标识字段确定为从用户标识字段;
根据所述唯一用户标识字段和每个所述从用户标识字段,确定每个所述用户的唯一用户标识和从用户标识。
优选的,所述待处理数据中每个标识对应一个标识注册时间。
可选的,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
将所述待处理从用户标识字段对应的两个或两个以上从用户标识中标识注册时间与当前时间最为接近的从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
优选的,每个所述用户数据中每个从用户标识字段对应1个或1个以上从用户标识,且每个所述用户数据中每个从用户标识字段对应的从用户标识的数量不超过预设值。
可选的,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
判断所述待处理从用户标识字段对应的不同从用户标识的数量是否超过所述预设值;
若是,根据标识注册时间对所述待处理从用户标识字段对应的不同从用户标识进行排序,将标识注册时间与当前时间最为接近的所述预设值个从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识;
若否,将合并后用户的所述待处理从用户标识字段对应的不同从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
优选的,所述所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱,包括:
将所有唯一用户标识不同的用户的每个从用户标识字段对应的从用户标识进行检测;
当检测到同一从用户标识字段对应的不同用户的从用户标识的值相同时,将值相同的各个从用户标识判定为非法从用户标识;
删除各个所述非法从用户标识,得到标识图谱。
一种用户标识的识别装置,包括:
获取单元,用于获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
提取单元,用于根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
合并单元,用于将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
验证单元,用于对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的用户标识的识别方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的用户标识的识别方法。
借由上述技术方案,本发明提供的用户标识的识别方法及装置,通过设置唯一用户标识字段识别唯一用户标识,将唯一用户标识相同的两个或两个以上用户合并为同一用户,提高识别准确度。对合并后用户的从用户标识进行一致化处理,对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,对每个从用户标识字段对应的从用户标识进行准确记录,舍弃用户的异常标识,避免用户其他标识的混乱记录。将每个用户的唯一用户标识和从用户标识记录到标识图谱,使企业主可以根据该标识图谱进行精准营销。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了背景技术中现有的用户标识识别方法示意图;
图2示出了本发明实施例中公开的一种用户标识的识别方法流程图;
图3示出了本发明实施例中公开的另一种用户标识的识别方法流程图;
图4示出了本发明实施例中公开的又一种用户标识的识别方法流程图;
图5示出了本发明实施例中公开的又一种用户标识的识别方法流程图;
图6示出了本发明实施例中公开的标识图谱示意图;
图7示出了本发明实施例中公开的一种用户标识的识别装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图2,本实施例公开的一种用户标识的识别方法,具体包括以下步骤:
S101:获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
所述待处理数据为企业主采集的包括用户标识数据的数据,通过对所述待处理数据进行处理,可以识别用户标识。
需要说明的是,预先设置标识字段,每个预设标识字段表征用户不同类型的用户标识,例如:身份证号、手机号、邮箱等等。
在所述待处理数据中,每个用户数据可以包括全部预设标识字段,也可以包括一个或一个以上预设标识字段。
S102:根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
用户标识相当于互联网访客的“身份证”。本实施例中将用户标识分为唯一用户标识和从用户标识。唯一用户标识是每个用户拥有的、区别与其他用户的标识,每个用户只有唯一一个唯一用户标识,且每个用户的唯一用户标识不同。每个用户可以对从用户标识重复注册,即,每个用户可能有多个相同类型的从用户标识。例如:现实世界中,唯一用户标识指每个人的身份证号,而从用户标识包括手机号、邮箱地址等。
需要说明的是,所述待处理数据中也可以包括cookie,但是cookie只能作为从用户标识,并不能作为唯一用户标识。
优选的,请参阅图3,S102的一种具体实现方法如下:
S201:根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识;
S202:确定各个所述预设标识字段中的唯一用户标识字段,并将其他所述预设标识字段确定为从用户标识字段;
S203:根据所述唯一用户标识字段和每个所述从用户标识字段,确定每个所述用户的唯一用户标识和从用户标识。
每个用户数据中与所述唯一用户标识字段相对应的标识为唯一用户标识,每个用户只有一个唯一用户标识。每个用户数据中分别与每个从用户标识相对应的标识为从用户标识。
S103:将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
优选的,所述待处理数据中每个标识对应一个标识注册时间。在此基础上,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
将所述待处理从用户标识字段对应的两个或两个以上从用户标识中标识注册时间与当前时间最为接近的从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同有两种不同的情况:
一、需要合并的用户的同一从用户标识字段对应的从用户标识的值不同,且需要合并的用户的同一从用户标识字段对应的从用户标识都不为空。
举例说明:请参阅表1,假设表1中Gid为唯一用户标识字段,Pid、Eid和Cid为从用户标识字段。用户A和用户B的Gid相同,用户A和用户B为需要合并的用户,但是用户A的Pid为Pid1,用户B的Pid为Pid2,且Pid1的标识注册时间比Pid2的标识注册时间更为接近当前时间,因此,将用户A和用户B合并后同一用户后,将Pid1作为Pid的最终从用户标识。
表1
Gid | Pid | Eid | Cid | |
A | Gid1 | Pid1 | Cid1 | |
B | Gid1 | Pid2 | Eid1 | |
C | Gid2 | Pid2 | Eid2 | |
D | Gid3 | Eid2 | Cid2 | |
E | Gid4 | Pid3 | Eid2 | Cid3 |
二、需要合并的用户的同一从用户标识字段对应的从用户标识的值不同,且需要合并的用户中只有一个用户的该从用户标识字段不为空,其他用户的该从用户标识字段都为空。
举例说明:请参阅表2,用户A和用户B为需要合并的用户,但是用户A的Pid为Pid1,用户B的Pid为空。显然,用户B的Pid字段没有注册时间,Pid1的标识注册时间更为接近当前时间。因此,将用户A和用户B合并后同一用户后,将Pid1作为Pid的最终从用户标识。
表2
Gid | Pid | Eid | Cid | |
A | Gid1 | Pid1 | Cid1 | |
B | Gid1 | Eid1 | ||
C | Gid2 | Pid2 | Eid2 | |
D | Gid3 | Eid2 | Cid2 | |
E | Gid4 | Pid3 | Eid2 | Cid3 |
优选的,每个所述用户数据中每个从用户标识字段对应1个或1个以上从用户标识,且每个所述用户数据中每个从用户标识字段对应的从用户标识的数量不超过预设值。在此基础上,请参阅图4,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
S301:将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
S302:判断所述待处理从用户标识字段对应的不同从用户标识的数量是否超过所述预设值,若是,执行S303,若否,执行S304;
S303:根据标识注册时间对所述待处理从用户标识字段对应的不同从用户标识进行排序,将标识注册时间与当前时间最为接近的所述预设值个从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识;
S304:将合并后用户的所述待处理从用户标识字段对应的不同从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
举例说明,所述预设值为5,若用户A和用户B的唯一用户标识字段Gid相同,用户A和用户B为需要合并的用户。用户A的从用户标识字段Pid对应Pid1和Pid2,用户B的从用户标识字段Pid对应Pid3、Pid4、Pid5和Pid6。Pid为待处理从用户标识字段,Pid对应的不同从用户标识的数量超过所述预设值,根据标识注册时间对Pid1、Pid2、Pid3、Pid4、Pid5和Pid6进行排序,若Pid2、Pid3、Pid4、Pid5和Pid6的标识注册时间为与当前时间最为接近的5个从用户标识,将Pid2、Pid3、Pid4、Pid5和Pid6确定为Pid的最终从用户标识。当用户B的从用户标识字段Pid只对应Pid3,则将Pid1、Pid2和Pid3确定为Pid的最终从用户标识。
S104:对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
优选的,请参阅图5,S104的具体执行过程如下:
S401:将所有唯一用户标识不同的用户的每个从用户标识字段对应的从用户标识进行检测;
S402:当检测到同一从用户标识字段对应的不同用户的从用户标识的值相同时,将值相同的各个从用户标识判定为非法从用户标识;
S403:删除各个所述非法从用户标识,得到标识图谱。
举例说明:请参阅表2,用户C、用户D和用户E的Gid不同,用户C、用户D和用户E为不同用户,但用户C、用户D和用户E的Eid都为Eid2。显然,用户C、用户D和用户E的Eid是不正常的,需要将用户C、用户D和用户E的Eid的标识值Eid2都删除。
对表1中待处理数据中每个用户的标识进行一致化处理和合法性验证处理后,得到如图6所示的标识图谱。
本发明提供的用户标识的识别方法及装置,通过设置唯一用户标识字段识别唯一用户标识,将唯一用户标识相同的两个或两个以上用户合并为同一用户,提高识别准确度。对合并后用户的从用户标识进行一致化处理,对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,对每个从用户标识字段对应的从用户标识进行准确记录,舍弃用户的异常标识,避免用户其他标识的混乱记录。将每个用户的唯一用户标识和从用户标识记录到标识图谱,使企业主可以根据该标识图谱进行精准营销。
基于上述实施例公开的用户标识的识别方法,请参阅图7,本实施例对应公开了一种用户标识的识别装置,包括:
获取单元101,用于获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
提取单元102,用于根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
合并单元103,用于将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
优选的,所述待处理数据中每个标识对应一个标识注册时间。
验证单元104,用于对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
本实施例提供的用户标识的识别装置,通过设置唯一用户标识字段识别唯一用户标识,将唯一用户标识相同的两个或两个以上用户合并为同一用户,提高识别准确度。对合并后用户的从用户标识进行一致化处理,对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,对每个从用户标识字段对应的从用户标识进行准确记录,舍弃用户的异常标识,避免用户其他标识的混乱记录。将每个用户的唯一用户标识和从用户标识记录到标识图谱,使企业主可以根据该标识图谱进行精准营销。
所述用户标识的识别装置包括处理器和存储器,上述获取单元101、提取单元102、合并单元103和验证单元104等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来准确识别用户的唯一用户标识和处理用户的从用户标识。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述用户标识的识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述用户标识的识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种用户标识的识别方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
2.根据权利要去1所述的方法,其特征在于,所述根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识,包括:
根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识;
确定各个所述预设标识字段中的唯一用户标识字段,并将其他所述预设标识字段确定为从用户标识字段;
根据所述唯一用户标识字段和每个所述从用户标识字段,确定每个所述用户的唯一用户标识和从用户标识。
3.根据权利要求1所述的识别方法,其特征在于,所述待处理数据中每个标识对应一个标识注册时间。
4.根据权利要求3所述的识别方法,其特征在于,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
将所述待处理从用户标识字段对应的两个或两个以上从用户标识中标识注册时间与当前时间最为接近的从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
5.根据权利要求1所述的识别方法,其特征在于,每个所述用户数据中每个从用户标识字段对应1个或1个以上从用户标识,且每个所述用户数据中每个从用户标识字段对应的从用户标识的数量不超过预设值。
6.根据权利要求3和5所述的识别方法,其特征在于,当唯一用户标识相同的两个或两个以上用户的同一从用户标识字段对应的从用户标识的值不同时,所述对合并后用户的从用户标识进行一致化处理,包括:
将从用户标识的值不同的从用户标识字段确定为待处理从用户标识字段;
判断所述待处理从用户标识字段对应的不同从用户标识的数量是否超过所述预设值;
若是,根据标识注册时间对所述待处理从用户标识字段对应的不同从用户标识进行排序,将标识注册时间与当前时间最为接近的所述预设值个从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识;
若否,将合并后用户的所述待处理从用户标识字段对应的不同从用户标识确定为合并后用户的所述待处理从用户标识字段的最终从用户标识。
7.根据权利要求1所述的识别方法,其特征在于,所述所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱,包括:
将所有唯一用户标识不同的用户的每个从用户标识字段对应的从用户标识进行检测;
当检测到同一从用户标识字段对应的不同用户的从用户标识的值相同时,将值相同的各个从用户标识判定为非法从用户标识;
删除各个所述非法从用户标识,得到标识图谱。
8.一种用户标识的识别装置,其特征在于,包括:
获取单元,用于获取待处理数据,所述待处理数据包括多个用户数据,每个用户数据包括一个或一个以上预设标识字段;
提取单元,用于根据每个所述预设标识字段,提取每个所述用户数据中与每个所述预设标识字段相对应的标识,并确定每个所述用户的唯一用户标识和从用户标识;
合并单元,用于将唯一用户标识相同的两个或两个以上用户合并为同一用户,并对合并后用户的从用户标识进行一致化处理;
验证单元,用于对所有唯一用户标识不同的用户的从用户标识进行合法性验证,并删除非法从用户标识,得到标识图谱。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,
其中,所述程序执行权利要求1至7中任意一项所述的用户标识的识别方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,
其中,所述程序运行时执行权利要求1至7中任意一项所述的用户标识的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922901.XA CN109598529A (zh) | 2017-09-30 | 2017-09-30 | 一种用户标识的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922901.XA CN109598529A (zh) | 2017-09-30 | 2017-09-30 | 一种用户标识的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109598529A true CN109598529A (zh) | 2019-04-09 |
Family
ID=65956716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710922901.XA Pending CN109598529A (zh) | 2017-09-30 | 2017-09-30 | 一种用户标识的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598529A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104394118A (zh) * | 2014-07-29 | 2015-03-04 | 焦点科技股份有限公司 | 一种用户身份识别方法及*** |
CN105678625A (zh) * | 2015-12-29 | 2016-06-15 | 联动优势科技有限公司 | 一种确定用户身份信息的方法及设备 |
CN106230829A (zh) * | 2016-08-03 | 2016-12-14 | 浪潮通用软件有限公司 | 面向网络威胁发现的虚拟身份知识图谱的构建方法 |
US20170249132A1 (en) * | 2016-02-26 | 2017-08-31 | Dell Products L.P. | Managed Software as a Service Deployment Utilizing a Client Key to Generate a One-Time Use Reference for Delivery |
CN107169094A (zh) * | 2017-05-12 | 2017-09-15 | 北京小米移动软件有限公司 | 信息聚合方法及装置 |
US10231108B2 (en) * | 2015-12-11 | 2019-03-12 | Google Llc | Virtual addressing for mesh networks |
-
2017
- 2017-09-30 CN CN201710922901.XA patent/CN109598529A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104394118A (zh) * | 2014-07-29 | 2015-03-04 | 焦点科技股份有限公司 | 一种用户身份识别方法及*** |
US10231108B2 (en) * | 2015-12-11 | 2019-03-12 | Google Llc | Virtual addressing for mesh networks |
CN105678625A (zh) * | 2015-12-29 | 2016-06-15 | 联动优势科技有限公司 | 一种确定用户身份信息的方法及设备 |
US20170249132A1 (en) * | 2016-02-26 | 2017-08-31 | Dell Products L.P. | Managed Software as a Service Deployment Utilizing a Client Key to Generate a One-Time Use Reference for Delivery |
CN106230829A (zh) * | 2016-08-03 | 2016-12-14 | 浪潮通用软件有限公司 | 面向网络威胁发现的虚拟身份知识图谱的构建方法 |
CN107169094A (zh) * | 2017-05-12 | 2017-09-15 | 北京小米移动软件有限公司 | 信息聚合方法及装置 |
Non-Patent Citations (2)
Title |
---|
张承江: "《医学数据仓库与数据挖掘》", 31 October 2008 * |
蔡立志,武星,刘振宇主编: "《大数据测评》", 31 January 2015 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109347787B (zh) | 一种身份信息的识别方法及装置 | |
US10417060B2 (en) | Automated API publication for Internet of Things platform | |
EP3971798A1 (en) | Data processing method and apparatus, and computer readable storage medium | |
CN108255722B (zh) | 脚本生成方法、脚本生成装置及服务器 | |
CN104620284A (zh) | 用于确定图像相似性的方法和*** | |
CN104731816A (zh) | 一种处理异常业务数据的方法和装置 | |
KR102111192B1 (ko) | 신분 정보 검증을 위한 방법 및 장치 | |
CN105550175A (zh) | 恶意账户识别方法及装置 | |
EP4004760A1 (en) | Staged information exchange facilitated by content-addressable records indexed to pseudonymous identifiers by a tamper-evident data structure | |
CN108601023A (zh) | 家庭网络连接认证方法、装置、电子设备及存储介质 | |
CN110209562A (zh) | 一种日志分析方法及分析服务器 | |
CN106997350A (zh) | 一种数据处理的方法及装置 | |
CN102866885A (zh) | 网页中点击位置的确定方法及装置 | |
CN112749173A (zh) | 更新对象的方法和装置 | |
CN110069488A (zh) | 一种数据存储方法、数据读取方法及其装置 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN106102059A (zh) | 用于确定无线热点的所有者的方法与设备 | |
CN108449778A (zh) | 一种无线接入点展示方法及装置、以及终端设备 | |
CN109598529A (zh) | 一种用户标识的识别方法及装置 | |
CN106294700A (zh) | 一种日志的存储与读取方法及装置 | |
CN109558432A (zh) | 数据处理方法及装置 | |
CN101950385A (zh) | 仓储物流管理*** | |
CN107040603A (zh) | 用于确定应用程序App活跃场景的方法和装置 | |
CN110069529A (zh) | 集合处理方法及装置 | |
CN106897331B (zh) | 用户关键位置数据获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |
|
RJ01 | Rejection of invention patent application after publication |