CN110019193A - 相似帐号识别方法、装置、设备、***及可读介质 - Google Patents
相似帐号识别方法、装置、设备、***及可读介质 Download PDFInfo
- Publication number
- CN110019193A CN110019193A CN201710875014.1A CN201710875014A CN110019193A CN 110019193 A CN110019193 A CN 110019193A CN 201710875014 A CN201710875014 A CN 201710875014A CN 110019193 A CN110019193 A CN 110019193A
- Authority
- CN
- China
- Prior art keywords
- account number
- signature section
- similar
- sequence
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请公开了一种相似帐号识别方法、装置、设备、***及可读介质,属于计算机数据处理技术领域。所述方法包括:根据每个帐号的使用信息生成每个帐号的特征序列,特征序列包括按序排列的M个帐号签名段;获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,N<M;若存在具有相同特征类型的第一帐号签名段和第二帐号签名段的第一差异值小于第一阈值,确定第二帐号是第一帐号的候选相似帐号;计算第一帐号的第一特征序列与候选相似帐号的第二特征序列的第二差异值;将第二差异值小于第二阈值的候选相似帐号确定为第一帐号的相似帐号。本申请通过先筛选出候选相似帐号,再在候选相似帐号中获取相似帐号,从而提高了帐号识别效率。
Description
技术领域
本申请涉及计算机数据处理技术领域,特别涉及一种相似帐号识别方法、装置、设备、***及可读介质。
背景技术
通常一个用户在不同的网络平台、设备、***上具有不同的帐号,同时,该用户使用各个帐号会在不同的数据源上产生碎片化的信息。相似帐号识别(ID Mapping)技术就是将一个用户分散在不同数据源上的碎片化的信息串联在一起,将同一用户的不同的帐号识别为相似的帐号,并将相似的帐号及对应的信息串联在一起的技术。
相关技术中,相似帐号的识别方法为:收集用户在各个数据源上的帐号的使用信息;根据帐号的使用信息生成特征信息;建立帐号和特征信息之间的对应关系;将任意两个帐号的特征信息进行逐一比对,获得比对结果;将比对结果中相似的帐号确定为相似帐号。
由于同一个帐号的特征信息的信息内容很多,相关技术中将任意两个帐号的特征信息逐一比对时的效率较低,在面对数十亿、数百亿的帐号数据时,处理时间较长。
发明内容
本申请实施例提供了一种相似帐号识别方法、装置、设备、***及可读介质以解决相关技术的问题。所述技术方案如下:
第一方面,提供了一种相似帐号识别方法,所述方法包括:
根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;
获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;
计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;
计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号。
第二方面,提供了一种相似帐号识别装置,所述装置包括:
特征序列生成模块,用于根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;
获取模块,用于获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;
第一分析模块,用于计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;
第二分析模块,用于计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号。
在第二方面的第一种可能的实施方式中,所述第一分析模块还用于:
将具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段从二进制转化为十进制;
将十进制的所述第一帐号签名段与十进制的所述第二帐号签名段相减,得到所述第一差异值。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,所述第一帐号签名段和所述第二帐号签名段均包括S个比特串,每个比特串对应一种特征子类型;
所述第一分析模块还用于:
对于所述第一帐号签名段和所述第二帐号签名段,根据预设对应关系获取所述S个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述S个比特串进行排序。
在第二方面的第三种可能的实施方式中,所述第二分析模块还用于:
将所述第一帐号的第一特征序列和所述候选相似帐号的第二特征序列从二进制转化为十进制;
将十进制的所述第一特征序列与十进制的所述第二特征序列相减,得到所述第二差异值。
结合第二方面第三种可能的实施方式,在第二方面的第四种可能的实施方式中,所述第一特征序列和所述第二特征序列中的第i个帐号签名段中包括Ki个比特串,每个比特串对应一种特征子类型;
所述第二分析模块还用于:
对于所述第一特征序列和所述第二特征序列中的第i个帐号签名段,根据预设对应关系获取所述Ki个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述Ki个比特串进行排序。
结合第二方面、第二方面第一种可能的实施方式、第二方面第二种可能的实施方式、第二方面的第三种可能的实施方式、第二方面的第四种可能的实施方式,在第二方面的第五种可能的实施方式中,所述特征序列生成模块还用于:
收集所述帐号的M种使用信息;
根据所述帐号的每一种使用信息生成对应的所述帐号签名段,得到M种帐号签名段;
将M种所述帐号签名段按照预设的第一顺序,排序得到所述帐号的特征序列。
结合第二方面的第五种可能的实施方式,在第二方面的第六种可能的实施方式中,所述特征序列生成模块还用于:
对于所述帐号的任意一种使用信息,若所述使用信息包括K个子使用信息,则根据所述K个子使用信息生成K个比特串,将所述K个比特串按照预设的第二顺序,排序得到所述使用信息对应的所述帐号签名段。
第三方面,提供了一种相似帐号识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的相似帐号识别方法。
第四方面,提供了一种相似帐号识别***,所述***包括数据源,相似帐号识别设备以及数据消费设备;
所述数据源,用于存储所述帐号的至少一个使用信息,并将所述使用信息传输至所述相似帐号识别设备;
所述相似帐号识别设备,用于根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号;将确定为相似帐号的所述帐号传输至所述数据消费设备;
所述数据消费设备,用于接收并存储所述相似帐号识别设备传输的所述确定为相似帐号的所述帐号。
第五方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如第一方面所述的相似帐号识别方法。
通过在识别相似帐号之前,先将每个帐号中特征类型相同的部分帐号签名段进行比对,将比对结果中具有至少一个相似帐号签名段的帐号作为一组候选相似帐号,进而获得所有帐号的候选相似帐号,然后将候选相似帐号的特征序列进行比对,得到最终的相似帐号集合。由于在识别相似帐号之前对所有帐号进行筛选得到候选相似帐号,不需要将所有帐号的特征序列逐一比对,简化了初步筛选时的计算量,提高了帐号识别效率,在面对数十亿、数百亿的帐号数据时,处理时间较短。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的相似帐号识别方法所涉及的实施环境的示意图;
图2是本申请一个实施例提供的相似帐号识别方法的方法流程图;
图3是本申请一个实施例提供的帐号的使用信息的聚合方法的示意图;
图4是本申请另一个实施例提供的帐号的使用信息的聚合方法的示意图;
图5是本申请另一个实施例提供的相似帐号识别方法的方法流程图;
图6是本申请另一个实施例提供的相似帐号识别方法的方法流程图;
图7是本申请一个实施例提供的相似帐号识别装置的结构框图;
图8是本申请一个实施例提供的相似帐号识别设备的结构框图;
图9是本申请一个实施例提供的输出用户画像的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请所涉及的若干个名词进行介绍:
帐号(Account):是用户在不同的网络平台或客户端所代表自己的字符,用户通过在网络平台或客户端登录帐号可以实现建立个人社区、信息分享、信息交流、信息搜索等功能。
流式数据:是随着时间变化而实时产生的数据流。比如,用户使用帐号在服务器上生成的使用信息,该使用信息即为一种流式数据。
分布式处理***:用于对流式数据进行数据处理的计算***,是指由多台分散的计算机,经互连网络的联接而形成的***,***的处理和控制功能分布在各个计算机上。
数据源:用于产生流式数据或静态数据集的数据来源。数据源可以是各个帐号所在的网络平台的服务器。
映射/规约(Map/Reduce):是一种应用于大规模数据集(Big Data)的并行处理的计算模型。
分布式应用:用于对流式数据进行数据处理的应用程序。流式处理应用通常为分布式的计算应用程序。流式处理应用通常运行在流式处理***中。典型的流式处理***包括:Spark streaming(火花流式)计算***、Storm streaming(风暴流式)计算***。
请参考图1,其示出了本申请一个实施例提供的相似帐号识别方法所涉及的实施环境的示意图,如图1所示,该实施环境可以包括数据源110、分布式处理***120以及数据消费设备130。
数据源110,用于产生和存储流式数据或静态数据集。数据源110可以是存储有帐号使用信息的至少一个数据库。其中,帐号的使用信息可以是流式数据和/或静态数据。
分布式处理***120,用于将来自外部的数据源110的流式数据进行数据处理,得到结果数据;然后将结果数据输出给数据消费设备130进行持久化存储或利用,其包括管理节点122和至少一个计算节点124。
可选地,分布式处理***120用于将至少一个数据源110的使用信息处理为相似帐号的集合,并将相似帐号的集合输出至数据消费设备130。
可选地,管理节点122用于对各个计算节点124进行资源管理、主备管理、应用管理和任务管理中的至少一种。资源管理是指对各个计算节点124中的计算资源进行管理;主备管理是指对各个计算节点124在发生故障时,实现主备切换管理;应用管理是指对运行在分布式处理***上的至少一个分布式处理应用进行管理;任务管理是指对于一个分布式处理应用对应的若干个任务进行管理。在不同的流式计算***中,管理节点122可能具有不同的名称,比如,主控节点(Master node)。
管理节点122通过有线网络、无线网络或专用硬件接口与计算节点124相连。
计算节点124负责处理对流式数据的计算任务。当存在多个计算节点124时,多个计算节点124之间通过有线网络、无线网络或专用硬件接口相连。
可以理解的是,在虚拟化场景下,流计算***的管理节点122和计算节点124也可以由运行在通用硬件上的虚拟机来实现。本申请实施例不限定管理节点122是物理实体还是逻辑实体,也不限定计算节点124是物理实体还是逻辑实体。
数据消费设备130,用于对分布式处理***120输出的结果数据进行持久化存储或实时利用的设备。数据消费设备130可以采用数据库作为存储形式。
可选的,数据消费设备130获取分布式处理***输出的相似帐号数据,或,根据相似账号数据生成的用户的用户画像数据,将相似账号或用户画像存储为用户画像数据库。
请参考图2,其示出了本申请一个实施例提供的相似帐号识别方法的方法流程图。本实施例以该相似帐号识别方法应用于相似帐号识别设备中为例,该设备可以是如图1所示的分布式处理***120,该方法包括:
在步骤201中,相似帐号识别设备根据每个帐号的使用信息生成每个帐号的特征序列,特征序列包括按序排列的M个帐号签名段,每个帐号签名段对应各自的特征类型。
相似帐号识别设备通过至少一个数据源采集到每个帐号,以及每个帐号对应的使用信息,根据每个帐号的使用信息获得每个帐号的特征,将特征二值化编码后按照特征类型聚合得到M个帐号签名段,将M个帐号签名段按照顺序排列得到每个帐号的特征序列。
例如,如表一所示,帐号1的使用信息包括帐号使用的网络信息、设备厂商信息、操作***信息、上网时段信息、上网行为信息等,相似帐号识别设备将使用信息中不能作为特征的(例如没有显示具体歌曲内容和视频内容的无用信息)、有明显域值错误的(例如上网时段为-20的信息)等信息去除,得到帐号对应的使用信息为:上网时段:200、网络:***、操作***:Android、设备厂商:西瓜。相似帐号识别设备获得特征后,将特征二值化编码后,得到每个特征对应的帐号签名段,分别为特征类型为上网时段的帐号签名段(00010)、特征类型为网络的帐号签名段(1000)、特征类型为操作***的帐号签名段(100)、特征类型为设备厂商的帐号签名段(0100000)。将上述帐号签名段按照顺序排列即可得帐号1的特征序列,为0001010001000100000,其中,表一中以帐号签名段的个数M为4来举例说明。
表一
在步骤202中,相似帐号识别设备获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,N个第一帐号签名段的特征类型和N个第二帐号签名段的特征类型存在一一对应关系,N<M。
相似帐号识别设备从第一帐号的特征序列中获取任意N个第一帐号签名段,从第二帐号的特征序列中获取相对应的N个第二帐号签名段,其中,第一帐号签名段所包含的特征类型与第二签名段所包含的特征类型存在一一对应的关系。
例如,第一帐号的特征序列中具有四个帐号签名段,相似帐号识别设备从第一帐号的特征序列中获取任意三个帐号签名段,该三个帐号签名段对应的特征类型是上网时段、网络以及操作***,对应的,从第二帐号的特征序列中获取三个帐号签名段,该三个帐号签名段对应的特征类型也是上网时段、网络以及操作***。
在步骤203中,相似帐号识别设备计算具有相同特征类型的第一帐号签名段和第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定第二帐号是第一帐号的候选相似帐号。
相似帐号识别设备确认第二帐号是否为第一帐号的候选相似帐号的判断标准是:第一帐号与第二帐号对应的不相似的帐号签名段的个数P是否低于第三阈值Q,若P低于第三阈值Q,则确定第二帐号为第一帐号的候选相似帐号。
例如,若第三阈值为3,若第一帐号和第二帐号不相似的帐号签名段个数为2,即,第一帐号和第二帐号具有两个相似帐号签名段,则确定第二帐号为第一帐号的候选相似帐号。
根据抽屉原则,若第一帐号和第二帐号对应的不相似的帐号签名段的个数低于Q,则从第一帐号中任取Q个第一帐号签名段,根据第一帐号的Q个帐号签名段获取第二帐号中具有相同特征类型的Q个第二帐号签名段,Q个第一帐号签名段和Q个第二帐号签名段中必然有一组特征相同的签名段相似。
例如,若第三阈值为3,若第一帐号和第二帐号满足具有两个相似帐号签名段,则从第一帐号和第二帐号中任意取三个相同类型的帐号签名段比对,只要具有一组相似的帐号签名段,则确定第一帐号和第二帐号相似。
判断每个相同类型的帐号签名段是否相似的依据是:判断每个相同类型的帐号签名段的差异值是否低于第一阈值,若是,则确定该差异值对应的一组相同类型的帐号签名段相似。
综上所述,相似帐号识别设备计算具有相同特征类型的第一帐号签名段和第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定第二帐号是第一帐号的候选相似帐号。
在一个可选的实施例中,相似帐号识别设备首先将第一帐号签名段和第二帐号签名段转化为十进制,再计算具有相同特征类型的十进制的第一帐号签名段和第二帐号签名段的差值,该差值即为第一差异值。
例如,第一帐号签名段中的上网时段对应的帐号签名段为(00010),第二帐号签名段中的上网时段对应的帐号签名段为(00001),第一帐号签名段中的网络对应的帐号签名段为(1000),第二帐号签名段中的网络对应的帐号签名段为(0100),第一帐号签名段中操作***对应的帐号签名段为(100),第二帐号签名段中操作***对应的帐号签名段为(100)。
转化为十进制后,第一帐号签名段中的上网时段对应的帐号签名段为2,第二帐号签名段中的上网时段对应的帐号签名段为1,第一帐号签名段中的网络对应的帐号签名段为8,第二帐号签名段中的网络对应的帐号签名段为12,第一帐号签名段中操作***对应的帐号签名段为4,第二帐号签名段中操作***对应的帐号签名段为4。
将上述转化为十进制后的第一帐号签名段和第二帐号签名段中具有相同特征类型的相减,具体来说,将第一帐号签名段中的上网时段对应的帐号签名段2与第二帐号签名段中的上网时段对应的帐号签名段1相减,得到第一个第一差异值1;将第一帐号签名段中的网络对应的帐号签名段8与第二帐号签名段中的网络对应的帐号签名段12相减,得到第二个第一差异值4;将第一帐号签名段中操作***对应的帐号签名段4与第二帐号签名段中操作***对应的帐号签名段4相减,得到第三个第一差异值0。
若第一阈值为1,则在三个第一差异值中,存在第三个第一差异值0小于第一阈值,因此确定第二帐号为第一帐号的候选相似帐号。
在步骤204中,相似帐号识别设备计算第一帐号的第一特征序列与候选相似帐号的第二特征序列的第二差异值;将第二差异值小于第二阈值的候选相似帐号确定为第一帐号的相似帐号。
通过步骤203获得了第一帐号的候选相似帐号后,计算第一帐号的第一特征序列与候选相似帐号的第二特征序列的多个第二差异值,将第二差异值小于第二阈值的候选相似帐号确定为第一帐号的相似帐号。
在一个可选的实施例中,相似帐号识别设备首先将第一特征序列和第二帐号的第二特征序列转化为十进制,再计算十进制的第一特征序列和十进制的第二特征序列的差值,该差值即为第二差异值。
综上所述,本申请实施例中,通过在识别相似帐号之前,先将每个帐号特征类型相同的部分帐号签名段进行比对,将比对结果中具有至少一个相似帐号签名段的帐号作为一组候选相似帐号,进而获得所有帐号的候选相似帐号,然后将候选相似帐号的特征序列进行比对,得到最终的相似帐号集合。由于在识别相似帐号之前对所有帐号进行筛选得到候选相似帐号,不需要将所有帐号逐一比对特征序列,提高了帐号识别效率,在面对数十亿、数百亿的帐号数据时,处理时间较短。
帐号的特征序列可以建立具有一层子序列的索引,也可以建立具有两层甚至多层子序列的索引。
若特征序列为包含一层子序列,该子序列可以是帐号签名段,每个帐号签名段对应特征类型相同的特征,该子序列也可以是比特串,每个比特串对应一个特征,每个比特串具有一个特征子类型。
若特征序列包含两层子序列,其中第一层子序列可以是帐号签名段,第二层子序列可以是比特串,其中,每个帐号签名段包含至少一个比特串,每个比特串对应一个特征,且每个比特串具有一个特征子类型,每个帐号签名段可以包含多个特征子类型不同,但是特征类型相同的比特串。
帐号的使用信息分散在不同的数据源中,使用信息可以分为静态信息和动态信息这两大类,其中静态信息指的是相对固定的设备相关信息,例如设备厂商、设备标识号、屏幕尺寸、屏幕色彩位数、***安装字体、时区、浏览器版本、MAC地址、CPU型号、显卡型号、硬盘型号等,动态信息指的是和用户的上网行为相关的信息,包括上网时间、IP地址、地理位置等。不同的设备端获取的使用信息也不同,例如移动终端、个人计算机、HTML第五代标准(H5)其可以获取的使用信息如表二所示,其中,“√”表示该设备包含该使用信息。
表二
为了将同一个用户的所有使用信息串联起来,需要以帐号为主关键字(Key)将每一个帐号下的所有使用信息聚合起来。
在一个可选的实施例中,相似帐号识别设备通过以下方法中的任意一种获得每个帐号对应的使用信息:
方法一,如图3所示,相似帐号识别设备从不同的数据源中获取多个帐号的多个使用信息,将多个使用信息聚合后,以帐号为主关键字,将属于不同帐号的使用信息聚合在一起,得到每个帐号对应的使用信息,在Map/Reduce计算体系中,可通过一轮Reduce实现。
方法二,如图4所示,相似帐号识别设备从不同的数据源中获取多个帐号的多个使用信息,将多个使用信息聚合后,再将属于同一帐号类型的使用信息聚合在一起,然后以帐号为主关键字,从同一帐号类型的使用信息中将属于不同帐号的使用信息聚合在一起,得到每个帐号对应的使用信息,在Map/Reduce计算体系中,可通过一轮Reduce实现。
请参考图5,其示出了本申请一个实施例提供的相似帐号识别方法的方法流程图。本实施例以该相似帐号识别方法应用于相似帐号识别设备中为例,该设备可以是如图1所示的分布式处理***120,该方法包括:
在步骤501中,相似帐号识别设备根据每个帐号的使用信息生成每个帐号的特征序列,特征序列包括按序排列的M个帐号签名段,每个帐号签名段对应各自的特征类型。
相似帐号识别设备通过至少一个数据源采集到每个帐号,以及每个帐号对应的使用信息,根据每个帐号的使用信息获得每个帐号的特征,将特征二值化编码后按照特征类型聚合得到M个帐号签名段,将M个帐号签名段按照顺序排列得到每个帐号的特征序列。
在步骤502中,相似帐号识别设备获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,N个第一帐号签名段的特征类型和N个第二帐号签名段的特征类型存在一一对应关系。
相似帐号识别设备从第一帐号的特征序列中获取任意N个第一帐号签名段,从第二帐号的特征序列中获取相对应的N个第二帐号签名段,其中,第一帐号签名段所包含的特征类型与第二签名段所包含的特征类型存在一一对应的关系。
例如,第一帐号的特征序列中具有四个帐号签名段,相似帐号识别设备从第一帐号的特征序列中获取任意三个帐号签名段,该三个帐号签名段对应的特征类型是上网时段、网络以及操作***,对应的,从第二帐号的特征序列中获取三个帐号签名段,该三个帐号签名段对应的特征类型也是上网时段、网络以及操作***。
在步骤503中,相似帐号识别设备对于第一帐号签名段和第二帐号签名段,根据预设对应关系获取S个比特串中每个比特串的权重值。
第一帐号签名段和第二帐号签名段均包括S个比特串,每个比特串对应一种特征子类型,预设对应关系包括特征子类型与权重值之间的对应关系,根据该预设对应关系获取S个比特串中每个比特串的权重值。
例如,四个特征子类型为次频繁上网时段、最频繁上网网络、次频繁上网网络、最频繁上网时段的权重值分别为3、2、1、4,则次频繁上网时段的比特串的权重值为3、最频繁上网网络的比特串的权重值为2、次频繁上网网络的比特串的权重值为1、最频繁上网时段的比特串的权重值为1。
在步骤504中,相似帐号识别设备根据每个比特串的权重值的大小对S个比特串进行排序。
相似帐号识别设备根据权重值从大到小的顺序,将S个比特串按照顺序排列。
例如,四个特征子类型为次频繁上网时段、最频繁上网网络、次频繁上网网络、最频繁上网时段的权重值分别为3、2、1、4,则次频繁上网时段的比特串的权重值为3、最频繁上网网络的比特串的权重值为2、次频繁上网网络的比特串的权重值为1、最频繁上网时段的比特串的权重值为1,按照权重值从大到小的顺序,四个特征子类型对应的比特串的排列顺序为:最频繁上网时段的比特串、次频繁上网时段的比特串、最频繁上网网络的比特串、次频繁上网网络的比特串。
在步骤505中,相似帐号识别设备将具有相同特征类型的第一帐号签名段和第二帐号签名段从二进制转化为十进制。
在一个可选的实施例中,相似帐号识别设备首先将第一帐号签名段和第二帐号签名段转化为十进制,再计算具有相同特征类型的十进制的第一帐号签名段和第二帐号签名段的差值,该差值即为第一差异值。
例如,第一签名段中的上网时段对应的帐号签名段为(00010),第二签名段中的上网时段对应的帐号签名段为(00001),第一签名段中的网络对应的帐号签名段为(1000),第二签名段中的网络对应的帐号签名段为(0100),第一签名段中操作***对应的帐号签名段为(100),第二签名段中操作***对应的帐号签名段为(100)。
转化为十进制后,第一签名段中的上网时段对应的帐号签名段为2,第二签名段中的上网时段对应的帐号签名段为1,第一签名段中的网络对应的帐号签名段为8,第二签名段中的网络对应的帐号签名段为12,第一签名段中操作***对应的帐号签名段为4,第二签名段中操作***对应的帐号签名段为4。
在步骤506中,相似帐号识别设备将十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减,得到第一差异值。
相似帐号识别设备将上述转化为十进制后的第一帐号签名段和第二帐号签名段中具有相同特征类型的相减,具体来说,将第一签名段中的上网时段对应的帐号签名段2与第二签名段中的上网时段对应的帐号签名段1相减,得到第一个第一差异值1;将第一签名段中的网络对应的帐号签名段8与第二签名段中的网络对应的帐号签名段12相减,得到第二个第一差异值4;将第一签名段中操作***对应的帐号签名段4与第二签名段中操作***对应的帐号签名段4相减,得到第三个第一差异值0。
在步骤507中,相似帐号识别设备判断是否存在至少一个第一差异值小于第一阈值。
相似帐号识别设备获得十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减的多个第一差异值后,判断是否存在一个第一差异值小于第一阈值,若存在,则进入步骤508a,若不存在,则进入步骤508b。
在步骤508a中,相似帐号识别设备确定第二帐号是第一帐号的候选相似帐号。
相似帐号识别设备获得十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减的多个第一差异值后,若存在一个差异值小于第一阈值,则确定第二帐号是第一帐号的候选相似帐号。其中,候选相似帐号又被称为ID-Pair。
例如,上述示例中,若第一阈值为1,则在三个第一差异值中,存在第三个第一差异值0小于第一阈值,因此确定第二帐号为第一帐号的候选相似帐号。
若第一阈值为1,则在三个第一差异值中,存在第三个第一差异值0小于第一阈值,因此确定第二帐号为第一帐号的候选相似帐号。
在步骤508b中,相似帐号识别设备确定第二帐号不是第一帐号的候选相似帐号。
相似帐号识别设备获得十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减的多个第一差异值后,若多个差异值中不存在一个差异值小于第一阈值,则确定第二帐号是第一帐号的候选相似帐号。
在步骤509中,相似帐号识别设备将第一帐号的第一特征序列和候选相似帐号的第二特征序列从二进制转化为十进制。
通过步骤508a,相似帐号识别设备获得了第一帐号的候选相似帐号后,将第一帐号的第一特征序列与候选相似帐号的第二特征序列从二进制转化为十进制。
例如,第一特征序列为(11000101001),第二特征序列为(10011000100),将第一特征序列转化为十进制为1578,第二特征序列转化为十进制为1156。
在步骤510中,相似帐号识别设备将十进制的第一特征序列与十进制的第二特征序列相减,得到第二差异值。
相似帐号识别设备将十进制的第一特征序列与至少一个十进制的第二特征序列相减,得到的结果即为至少一个第二差异值。
例如,上述示例中,十进制的第一特征序列为1578,十进制的第二特征序列为1156,其第二差异值为:422。
在步骤511中,相似帐号识别设备判断第二差异值是否小于第二阈值。
相似帐号识别设备获得至少一个第二差异值后,判断第二差异值是否小于第二阈值,若是,则进入步骤512a,若否,则进入步骤512b。
在步骤512a中,相似帐号识别设备确定该候选相似帐号为第一帐号的相似帐号。
相似帐号识别设备获得至少一个第二差异值后,将至少一个第二差异值中小于第二阈值所对应的候选相似帐号确定为第一帐号的相似帐号。
例如,上述实施例中,十进制的第一特征序列与十进制的第二特征序列的第二差异值为422,若第二阈值为512,则确定该候选相似帐号为第一帐号的相似帐号。
在步骤512b中,相似帐号识别设备确定该候选相似帐号不是第一帐号的相似帐号。
若第二差异值不小于第二阈值,相似帐号识别设备确定该第二差异值对应的候选相似帐号不是第一帐号的相似帐号。
综上所述,本申请实施例中,通过在识别相似帐号之前,先将每个帐号特征类型相同的部分帐号签名段进行比对,将比对结果中具有至少一个相似帐号签名段的帐号作为一组候选相似帐号,进而获得所有帐号的候选相似帐号,然后将候选相似帐号的特征序列进行比对,得到最终的相似帐号集合。由于在识别相似帐号之前对所有帐号进行筛选得到候选相似帐号,不需要将所有帐号逐一比对特征序列,提高了相似帐号识别效率,在面对数十亿、数百亿的帐号数据时,处理时间较短。
进一步的,本申请实施例中,通过将每个帐号签名段中的比特串按照其对应的权重值从大到小排列,将帐号签名段从二进制转化为十进制后,将第一帐号签名段和第二帐号签名段相减得到第一差异值,能够通过第二差异值更加准确反映第一帐号签名段和第二帐号签名段的相似度,从而提高了判断候选相似帐号的准确性,提高了相似帐号识别的精度。
请参考图6,其示出了本申请一个实施例提供的相似帐号识别方法的方法流程图。本实施例以该相似帐号识别方法应用于相似帐号识别设备中为例,该设备可以是如图1所示的分布式处理***120,该方法包括:
在步骤601中,相似帐号识别设备收集帐号的M种使用信息。
如上述,相似帐号识别设备通过上述两种方法任意一种收集不同数据源上每个帐号的使用信息,通过聚合后得到帐号的M种使用信息,每种使用信息对应一种特征类型,例如,使用信息包括上网时段、网络、操作***、设备厂商四种特征类型。
在步骤602中,相似帐号识别设备根据帐号的每一种使用信息生成对应的帐号签名段,得到M种帐号签名段。
相似帐号识别设备可通过特征工程将从每种使用信息中生成对应的特征。
在一个可选的实施例中,特征工程包括但不限于:数据清洗、归一化、缺省值处理。数据清洗,是指将使用信息中冗余的,重复的,无效的等无用的数据去除过程;归一化,是指将需要处理的数据经过处理后(通过某种算法)限制在需要的一定范围内;缺省值处理,是指将使用信息中的缺失值去除的步骤。
相似帐号识别设备获得帐号对应的M种使用信息后,首先通过数据清洗,将每种使用信息中冗余的,重复的,无效的(例如不能作为特征的使用信息或超过值域的使用信息等)使用信息去除,得到清洗后的M种使用信息。
获得清洗后的M种使用信息后,将每种清洗后的使用信息进行归一化处理,得到归一化后的M种使用信息。
最后,将归一化后的使用信息中的缺失值去除,获得每种使用信息对应的特征,进而获得M种使用信息对应的特征。
在获得M种使用信息的对应的特征后,需要对特征进行二值化,二值化的特征构成一个帐号签名段,从而获得M种帐号签名段。
在一种可选的实施例中,当特征为连续特征时,需要将连续特征离散化,就是把连续特征的值进行分段。离散化方法包括但不仅限于等频离散、等距离散、树模型离散等。离散化后的特征被二值化为取值为0或1的向量。特征所对应的值在某个段里,向量中该段对应的比特位的值为1,否则为0。
例如,对特征类型为上网时段的特征进行离散化,可以将上网时段进行分为5段,分段的标准可以为:(0,60)、(60,300)、(300,600)、(600,3600)、(3600,7200),因此,上网时段特征包含五个比特位,若帐号对应的上网时段为800,则特征类型为上网时段的特征为(00010)。
当特征为离散特征时,将离散特征二值化为取值为0或1的向量,特征所对应的值在属于向量中某个段对应的值,向量中此段对应的值为1,否则为0。
例如,帐号对应的操作***有三种:Andorid、IOS、Windows,则可以用一个包含三个比特位的向量来表示操作***特征,每个比特位分别对应Andorid、IOS、Windows,例如,向量(100)表示Android,向量(010)表示IOS,向量(001)表示Windows。
在步骤603中,相似帐号识别设备对于帐号的任意一种使用信息,若使用信息包括K个子使用信息,则根据K个子使用信息生成K个比特串,K个比特串按照预设的第二顺序,排序得到使用信息对应的帐号签名段。
对于帐号的任意一种使用信息,若使用信息包括K个子使用信息,相似帐号识别设备通过上述方法得到K个子使用信息的特征向量,将每个子使用信息的特征向量按照预设的第二顺序,排序得到每个使用信息对应的帐号签名段。其中,每个子使用信息的特征向量被称为比特串,每个比特串对应一个特征子类型。
预设的第二顺序是按照预设的特征子类型与权重值之间的对应关系获取K个比特串中每个比特串的权重值,按照权重值从大到小的顺序,对每个比特串进行排序。
例如,如表三所示,特征类型为上网时段的帐号签名段包含最频繁上网时段、次频繁上网时段、工作日上网时段、周末上网时段四个特征子类型,若这四个子特征类型对应的权重值分别为4、3、2、1,则这四个特征子类型对应的比特串按照权重从大到小排序得到特征类型为上网时段的帐号签名段。
表三
在步骤604中,相似帐号识别设备将M种帐号签名段按照预设的第一顺序,排序得到帐号的特征序列。
帐号识别设备获得了M种帐号签名段后,将M种帐号签名段按照预设的第一顺序,排列得到帐号的特征序列。
在一种可选的实施例中,预设的第一顺序是按照预设的特征类型与权重值之间的对应关系获取M个帐号签名段中每个帐号签名段的权重值,按照权重值从大到小的顺序,对每个帐号签名段进行排序。
例如,帐号具有四个帐号签名段,特征类型为上网时段、网络、操作***、设备厂商,若这四个特征类型对应的权重值分别为4、3、2、1,则这四个特征类型对应的帐号签名段按照权重值从大到小排序得到帐号的特征序列。
在步骤605中,相似帐号识别设备获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,N个第一帐号签名段的特征类型和N个第二帐号签名段的特征类型存在一一对应关系。
相似帐号识别设备从第一帐号的特征序列中获取任意N个第一帐号签名段,从第二帐号的特征序列中获取相对应的N个第二帐号签名段,其中,第一帐号签名段所包含的特征类型与第二帐号签名段所包含的特征类型存在一一对应的关系。
例如,第一帐号的特征序列中具有四个帐号签名段,相似帐号识别设备从第一帐号的特征序列中获取任意三个帐号签名段,该三个帐号签名段对应的特征类型是上网时段、网络以及操作***,对应的,从第二帐号的特征序列中获取三个帐号签名段,该三个帐号签名段对应的特征类型也是上网时段、网络以及操作***。
在步骤606中,相似帐号识别设备将具有相同特征类型的第一帐号签名段和第二帐号签名段从二进制转化为十进制。
根据上述步骤503,每个帐号签名段中,每个比特串按照预设的第二顺序排列好,相似帐号识别设备将第一帐号签名段和第二帐号签名段从二进制转化为十进制。
在步骤607中,相似帐号识别设备将十进制的第一帐号签名段与十进制的第二帐号签名段相减,得到第一差异值。
相似帐号识别设备通过步骤506得到十进制的第一帐号签名段和十进制的第二帐号签名段后,将十进制的第一帐号签名段与十进制的第二帐号签名段相减,得到的差值即为第一差异值。
例如,第一帐号签名段中的上网时段对应的帐号签名段为(00010),第二帐号签名段中的上网时段对应的帐号签名段为(00001),第一帐号签名段中的网络对应的帐号签名段为(1000),第二帐号签名段中的网络对应的帐号签名段为(0100),第一帐号签名段中操作***对应的帐号签名段为(100),第二帐号签名段中操作***对应的帐号签名段为(100)。
转化为十进制后,第一帐号签名段中的上网时段对应的帐号签名段为2,第二帐号签名段中的上网时段对应的帐号签名段为1,第一帐号签名段中的网络对应的帐号签名段为8,第二帐号签名段中的网络对应的帐号签名段为12,第一帐号签名段中操作***对应的帐号签名段为4,第二帐号签名段中操作***对应的帐号签名段为4。
将上述转化为十进制后的第一帐号签名段和第二帐号签名段中具有相同特征类型的相减,具体来说,将第一帐号签名段中的上网时段对应的帐号签名段2与第二帐号签名段中的上网时段对应的帐号签名段1相减,得到第一个第一差异值1;将第一帐号签名段中的网络对应的帐号签名段8与第二帐号签名段中的网络对应的帐号签名段12相减,得到第二个第一差异值4;将第一帐号签名段中操作***对应的帐号签名段4与第二帐号签名段中操作***对应的帐号签名段4相减,得到第三个第一差异值0。
在步骤608中,相似帐号识别设备判断是否存在至少一个第一差异值小于第一阈值。
相似帐号识别设备获得十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减的多个第一差异值后,判断是否存在一个第一差异值小于第一阈值,若存在,则进入步骤609a,若不存在,则进入步骤609b。
在步骤609a中,相似帐号识别设备确定第二帐号是第一帐号的候选相似帐号。
相似帐号识别设备得到多个第一差异值后,若存在至少一个第一差异值小于第一阈值,则确定第二帐号是第一帐号的候选相似帐号。
例如,若第一阈值为1,则上述示例的三个第一差异值中,存在第三个第一差异值0小于第一阈值,因此确定第二帐号为第一帐号的候选相似帐号。
在步骤609b中,相似帐号识别设备确定第二帐号不是第一帐号的候选相似帐号。
相似帐号识别设备获得十进制的第一帐号签名段与十进制的第二帐号签名段中具有相同特征类型的相减的多个第一差异值后,若多个差异值中不存在一个差异值小于第一阈值,则确定第二帐号是第一帐号的候选相似帐号。
在步骤610中,相似帐号识别设备将第一帐号的第一特征序列和候选相似帐号的第二特征序列从二进制转化为十进制。
根据上述步骤604,帐号的M种帐号签名段按照预定的第一顺序排列好得到帐号的特征序列,获得了第一帐号的候选相似帐号后,相似帐号识别设备将第一帐号的第一特征序列从二进制转化为十进制,得到十进制的第一帐号的第一特征序列,以及十进制的第二帐号的第二特征序列。
在步骤611中,相似帐号识别设备将十进制的第一特征序列与十进制的第二特征序列相减,得到第二差异值。
相似帐号识别设备将步骤610中获得的十进制的第一特征序列与十进制的第二特征序列相减,得到第二差异值。
在步骤612中,相似帐号识别设备判断第二差异值是否小于第二阈值。
相似帐号识别设备获得至少一个第二差异值后,判断第二差异值是否小于第二阈值,若是,则进入步骤613a,若否,则进入步骤613b。
在步骤613a中,相似帐号识别设备确定该候选相似帐号为第一帐号的相似帐号。
若第二差异值小于第二阈值,相似帐号识别设备则确定该第二差异值对应的候选帐号为第一帐号的相似帐号。
在步骤613b中,相似帐号识别设备确定该候选相似帐号不是第一帐号的相似帐号。
若第二差异值不小于第二阈值,相似帐号识别设备确定该第二差异值对应的候选相似帐号不是第一帐号的相似帐号。
综上所述,本申请实施例中,通过在识别相似帐号之前,先将每个帐号特征类型相同的部分帐号签名段进行比对,将比对结果中具有至少一个相似帐号签名段的帐号作为一组候选相似帐号,进而获得所有帐号的候选相似帐号,然后将候选相似帐号的特征序列进行比对,得到最终的相似帐号集合。由于在识别相似帐号之前对所有帐号进行筛选得到候选相似帐号,不需要将所有帐号逐一比对特征序列,提高了帐号识别效率,在面对数十亿、数百亿的帐号数据时,处理时间较短。
进一步的,本申请实施例中,通过将每个帐号签名段中的比特串按照其对应的权重值从大到小排列,将帐号签名段从二进制转化为十进制后,将第一帐号签名段和第二帐号签名段相减得到第一差异值,使得第一差异值更加准确反映第一帐号签名段和第二帐号签名段的相似度,从而提高了判断候选相似帐号的准确性,提高了相似帐号识别的精度。
进一步的,本申请实施例中,通过将每个特征序列中的帐号签名段按照其对应的权重值从大到小排列,将特征序列从二进制转化为十进制后,将第一特征序列和第二特征序列相减得到第二差异值,使得第二差异值更加准确反映第一特征序列和第二特征序列的相似度,从而提高了判断相似帐号的准确性,进一步提高了相似帐号识别的精度。
请参见图7,其示出了本发明一个实施例提供的相似帐号识别装置的结构框图。本实施例以该相似帐号识别装置用于相似帐号识别设备中为例,该设备可以是如图1所示的分布式处理***120,该装置包括:特征序列生成模块701、获取模块702、第一分析模块703以及第二分析模块704。
特征序列生成模块701,用于根据每个帐号的使用信息生成每个帐号的特征序列,特征序列包括按序排列的M个帐号签名段,每个帐号签名段对应各自的特征类型;
获取模块702,用于获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,N个第一帐号签名段的特征类型和N个第二帐号签名段的特征类型存在一一对应关系,N<M;
第一分析模块703,用于计算具有相同特征类型的第一帐号签名段和第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定第二帐号是第一帐号的候选相似帐号;
第二分析模块704,用于计算第一帐号的第一特征序列与候选相似帐号的第二特征序列的第二差异值;将第二差异值小于第二阈值的候选相似帐号确定为第一帐号的相似帐号。
在一个可选的实施例中,第一分析模块703还用于:
将具有相同特征类型的第一帐号签名段和第二帐号签名段从二进制转化为十进制;
将十进制的第一帐号签名段与十进制的第二帐号签名段相减,得到第一差异值。
在一个可选的实施例中,第一帐号签名段和第二帐号签名段均包括S个比特串,每个比特串对应一种特征子类型;
第一分析模块703还用于:
对于第一帐号签名段和第二帐号签名段,根据预设对应关系获取S个比特串中每个比特串的权重值,预设对应关系包括特征子类型与权重值之间的对应关系;
根据每个比特串的权重值的大小对S个比特串进行排序。
在一个可选的实施例中,第二分析模块704还用于:
将第一帐号的第一特征序列和候选相似帐号的第二特征序列从二进制转化为十进制;
将十进制的第一特征序列与十进制的第二特征序列相减,得到第二差异值。
在一个可选的实施例中,第一特征序列和第二特征序列中的第i个帐号签名段中包括Ki个比特串,每个比特串对应一种特征子类型;
第二分析模块704还用于:
对于第一特征序列和第二特征序列中的第i个帐号签名段,根据预设对应关系获取Ki个比特串中每个比特串的权重值,预设对应关系包括特征子类型与权重值之间的对应关系;
根据每个比特串的权重值的大小对Ki个比特串进行排序。
在一个可选的实施例中,特征序列生成模块701还用于:
收集帐号的M种使用信息;
根据帐号的每一种使用信息生成对应的帐号签名段,得到M种帐号签名段;
将M种帐号签名段按照预设的第一顺序,排序得到帐号的特征序列。
在一个可选的实施例中,特征序列生成模块701还用于:
对于帐号的任意一种使用信息,若使用信息包括K个子使用信息,则根据K个子使用信息生成K个比特串,将K个比特串按照预设的第二顺序,排序得到使用信息对应的帐号签名段。
在一个示例性的例子中,如图9所示,其示出了本申请一个实施例通过相似帐号识别输出用户画像的流程图。如图所示,该流程图中以一个用户A为例,用户A在不同的时段使用不同的设备在不同的网络平台上具有不同的帐号,早晨7:00时段,用户A通过移动电话登录网络平台1的帐号生成使用信息,例如,登录腾讯公司的微信微信帐号在微信客户端上浏览微信好友信息;上午9:00时段,用户A在工作单位通过台式计算机登录网络平台2的帐号生成使用信息,例如,登录腾讯公司的QQ帐号在腾讯新闻网页上浏览新闻;下午4:00时段,用户A外勤,通过便携式计算机登录网络平台3的帐号生成使用信息,例如,登录腾讯公司的TIM帐号和客户沟通;傍晚6:00时段,用户A在下班时间通过移动电话登录网络平台4的帐号生成使用信息,例如,登录腾讯公司的微博帐号在微博客户端上浏览微博关注信息;晚上9:00时段,用户A通过平板电脑登录网络平台5的帐号生成使用信息,例如,登录腾讯公司的QQ网购帐号浏览商品。
相似帐号识别设备在不同的数据源上采集到用户A在上述不同的网络平台,不同的设备在不同的时间段使用不同的帐号的使用信息,将使用信息聚合后提取帐号ID特征,同时,每隔一个时间段会将新的ID特征聚合,在获得ID特征后,首先生成候选相似帐号组ID-Pair,然后将候选ID-Pair进一步对比,构建相似帐号组,即,ID-Pair。
可选的,数据消费设备需要帐号识别设备输出完整的用户画像,因此,相似帐号识别设备首选对构建的ID-Pair进行正负样本标记,定义样本的正负,然后通过ID-Pair IP黑名单过滤将ID-Pair中的脏数据清洗,其中,脏数据是ID-Pair中明显异常的数据,例如数据量巨大或明显超过值域的,完成上述步骤的ID-Pair即可作为XGBoost的训练数据,其中,XGBoost是一种机器学习算法模型,其运行于帐号识别设备中。XGBoost获得训练数据后,通过训练和预测,生成用户A的用户画像,并将用户画像输出。例如,如图9所示,最终输出的用户A的用户画像包括但不仅限于用户A的年龄、上网习惯、职业、用户标签等。
综上所述,本申请实施例中,相似帐号识别装置通过在识别相似帐号之前,先将每个帐号特征类型相同的部分帐号签名段进行比对,将比对结果中具有至少一个相似帐号签名段的帐号作为一组候选相似帐号,进而获得所有帐号的候选相似帐号,然后将候选相似帐号的特征序列进行比对,得到最终的相似帐号集合。由于在识别相似帐号之前对所有帐号进行筛选得到候选相似帐号,不需要将所有帐号逐一比对特征序列,提高了帐号识别效率,在面对数十亿、数百亿的帐号数据时,处理时间较短。
进一步的,本申请实施例中,相似帐号识别装置通过将每个帐号签名段中的比特串按照其对应的权重值从大到小排列,将帐号签名段从二进制转化为十进制后,将第一帐号签名段和第二帐号签名段相减得到第一差异值,使得第一差异值更加准确反映第一帐号签名段和第二帐号签名段的相似度,从而提高了判断候选相似帐号的准确性,提高了相似帐号识别的精度。
进一步的,本申请实施例中,相似帐号识别装置通过将每个特征序列中的帐号签名段按照其对应的权重值从大到小排列,将特征序列从二进制转化为十进制后,将第一特征序列和第二特征序列相减得到第二差异值,使得第二差异值更加准确反映第一特征序列和第二特征序列的相似度,从而提高了判断相似帐号的准确性,进一步提高了相似帐号识别的精度。
请参见图8,其示出了本发明一个实施例提供的相似帐号识别设备的结构框图。该相似帐号识别设备包括:处理器801、存储器802以及网络接口803。
网络接口803通过总线或其它方式与处理器801相连,用于接收至少一个数据源传输的帐号及帐号对应的使用信息。
处理器801可以是中央处理器(英文:central processing unit,CPU),网络处理器(英文:network processor,NP)或者CPU和NP的组合。处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integratedcircuit,ASIC),可编程逻辑器件(英文:programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。
存储器802通过总线或其它方式与处理器801相连,存储器802中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、至少一段程序、代码集或指令集由处理器801加载并执行以实现如图2、图5或图6的相似帐号识别方法。存储器802可以为易失性存储器(英文:volatile memory),非易失性存储器(英文:non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文:random-access memory,RAM),例如静态随机存取存储器(英文:static random access memory,SRAM),动态随机存取存储器(英文:dynamic random access memory,DRAM)。非易失性存储器可以为只读存储器(英文:read only memory image,ROM),例如可编程只读存储器(英文:programmable readonly memory,PROM),可擦除可编程只读存储器(英文:erasable programmable read onlymemory,EPROM),电可擦除可编程只读存储器(英文:electrically erasableprogrammable read-only memory,EEPROM)。非易失性存储器也可以为快闪存储器(英文:flash memory),磁存储器,例如磁带(英文:magnetic tape),软盘(英文:floppy disk),硬盘。非易失性存储器也可以为光盘。
本申请实施例还提供了一种计算机可读存储介质,该存储介质中一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图5或图6所示的相似帐号识别方法,可选地,该计算机可读存储介质包括高速存取存储器、非易失性存储器。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种相似帐号识别方法,其特征在于,所述方法包括:
根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;
获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;
计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;
计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号。
2.根据权利要求1所述的方法,其特征在于,所述计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值,包括:
将具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段从二进制转化为十进制;
将十进制的所述第一帐号签名段与十进制的所述第二帐号签名段相减,得到所述第一差异值。
3.根据权利要求2所述的方法,其特征在于,所述第一帐号签名段和所述第二帐号签名段均包括S个比特串,每个比特串对应一种特征子类型,S为正整数;
所述将具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段从二进制转化为十进制之前,还包括:
对于所述第一帐号签名段和所述第二帐号签名段,根据预设对应关系获取所述S个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述S个比特串进行排序。
4.根据权利要求1所述的方法,其特征在于,所述计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值,包括:
将所述第一帐号的第一特征序列和所述候选相似帐号的第二特征序列从二进制转化为十进制;
将十进制的所述第一特征序列与十进制的所述第二特征序列相减,得到所述第二差异值。
5.根据权利要求4所述的方法,其特征在于,所述第一特征序列和所述第二特征序列中的第i个帐号签名段中包括Ki个比特串,每个比特串对应一种特征子类型,i和K为正整数;
所述将所述第一帐号的第一特征序列和所述候选相似帐号的第二特征序列从二进制转化为十进制之前,还包括:
对于所述第一特征序列和所述第二特征序列中的第i个帐号签名段,根据预设对应关系获取所述Ki个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述Ki个比特串进行排序。
6.根据权利要求1至5任一所述的方法,其特征在于,所述根据帐号的使用信息生成所述帐号的特征序列,包括:
收集所述帐号的M种使用信息;
根据所述帐号的每一种使用信息生成对应的所述帐号签名段,得到M种帐号签名段;
将M种所述帐号签名段按照预设的第一顺序,排序得到所述帐号的特征序列。
7.根据权利要求6所述的方法,其特征在于,所述根据所述帐号的每一种使用信息生成对应的所述帐号签名段,得到M种帐号签名段,包括:
对于所述帐号的任意一种使用信息,若所述使用信息包括K个子使用信息,则根据所述K个子使用信息生成K个比特串,将所述K个比特串按照预设的第二顺序,排序得到所述使用信息对应的所述帐号签名段。
8.一种相似帐号识别装置,其特征在于,所述装置包括:
特征序列生成模块,用于根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;
获取模块,用于获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;
第一分析模块,用于计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;
第二分析模块,用于计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号。
9.根据权利要求8所述的装置,其特征在于,所述第一分析模块还用于:
将具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段从二进制转化为十进制;
将十进制的所述第一帐号签名段与十进制的所述第二帐号签名段相减,得到所述第一差异值。
10.根据权利要求9所述的装置,其特征在于,所述第一帐号签名段和所述第二帐号签名段均包括S个比特串,每个比特串对应一种特征子类型;
所述第一分析模块还用于:
对于所述第一帐号签名段和所述第二帐号签名段,根据预设对应关系获取所述S个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述S个比特串进行排序。
11.根据权利要求8所述的装置,其特征在于,所述第二分析模块还用于:
将所述第一帐号的第一特征序列和所述候选相似帐号的第二特征序列从二进制转化为十进制;
将十进制的所述第一特征序列与十进制的所述第二特征序列相减,得到所述第二差异值。
12.根据权利要求11所述的装置,其特征在于,所述第一特征序列和所述第二特征序列中的第i个帐号签名段中包括Ki个比特串,每个比特串对应一种特征子类型;
所述第二分析模块还用于:
对于所述第一特征序列和所述第二特征序列中的第i个帐号签名段,根据预设对应关系获取所述Ki个比特串中每个比特串的权重值,所述预设对应关系包括所述特征子类型与所述权重值之间的对应关系;
根据所述每个比特串的权重值的大小对所述Ki个比特串进行排序。
13.一种相似帐号识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的相似帐号识别方法。
14.一种相似帐号识别***,其特征在于,所述***包括数据源,相似帐号识别设备以及数据消费设备;
所述数据源,用于存储帐号的至少一个使用信息,并将所述使用信息传输至所述相似帐号识别设备;
所述相似帐号识别设备,用于根据每个帐号的使用信息生成每个所述帐号的特征序列,所述特征序列包括按序排列的M个帐号签名段,每个所述帐号签名段对应各自的特征类型;获取第一帐号的N个第一帐号签名段和第二帐号的N个第二帐号签名段,所述N个第一帐号签名段的特征类型和所述N个第二帐号签名段的特征类型存在一一对应关系,N<M;计算具有相同特征类型的所述第一帐号签名段和所述第二帐号签名段的第一差异值;当存在至少一个第一差异值小于第一阈值时,确定所述第二帐号是所述第一帐号的候选相似帐号;计算所述第一帐号的第一特征序列与所述候选相似帐号的第二特征序列的第二差异值;将所述第二差异值小于第二阈值的候选相似帐号确定为所述第一帐号的相似帐号;将确定为相似帐号的所述帐号传输至所述数据消费设备;
所述数据消费设备,用于接收并存储所述相似帐号识别设备传输的所述确定为相似帐号的所述帐号。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至7任一所述的相似帐号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710875014.1A CN110019193B (zh) | 2017-09-25 | 2017-09-25 | 相似帐号识别方法、装置、设备、***及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710875014.1A CN110019193B (zh) | 2017-09-25 | 2017-09-25 | 相似帐号识别方法、装置、设备、***及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019193A true CN110019193A (zh) | 2019-07-16 |
CN110019193B CN110019193B (zh) | 2022-10-14 |
Family
ID=67186366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710875014.1A Active CN110019193B (zh) | 2017-09-25 | 2017-09-25 | 相似帐号识别方法、装置、设备、***及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019193B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159493A (zh) * | 2019-12-25 | 2020-05-15 | 乐山师范学院 | 一种基于特征权重的网络数据相似度计算方法与*** |
CN112016081A (zh) * | 2020-08-31 | 2020-12-01 | 贝壳技术有限公司 | 标识映射的实现方法、装置、介质和电子设备 |
CN113536252A (zh) * | 2021-07-21 | 2021-10-22 | 北京房江湖科技有限公司 | 账号识别方法和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
US8971213B1 (en) * | 2011-10-20 | 2015-03-03 | Cisco Technology, Inc. | Partial association identifier computation in wireless networks |
CN105100164A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机***有限公司 | 网络服务推荐方法和装置 |
CN105117733A (zh) * | 2015-07-27 | 2015-12-02 | 中国联合网络通信集团有限公司 | 一种确定聚类样本差异的方法及装置 |
CN105187237A (zh) * | 2015-08-12 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 查找相关联的用户标识的方法和装置 |
CN106095813A (zh) * | 2016-05-31 | 2016-11-09 | 北京奇艺世纪科技有限公司 | 一种用户标识识别方法和装置 |
CN106709800A (zh) * | 2016-12-06 | 2017-05-24 | ***股份有限公司 | 一种基于特征匹配网络的社团划分方法和装置 |
-
2017
- 2017-09-25 CN CN201710875014.1A patent/CN110019193B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
US8971213B1 (en) * | 2011-10-20 | 2015-03-03 | Cisco Technology, Inc. | Partial association identifier computation in wireless networks |
CN105100164A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机***有限公司 | 网络服务推荐方法和装置 |
CN105117733A (zh) * | 2015-07-27 | 2015-12-02 | 中国联合网络通信集团有限公司 | 一种确定聚类样本差异的方法及装置 |
CN105187237A (zh) * | 2015-08-12 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 查找相关联的用户标识的方法和装置 |
CN106095813A (zh) * | 2016-05-31 | 2016-11-09 | 北京奇艺世纪科技有限公司 | 一种用户标识识别方法和装置 |
CN106709800A (zh) * | 2016-12-06 | 2017-05-24 | ***股份有限公司 | 一种基于特征匹配网络的社团划分方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159493A (zh) * | 2019-12-25 | 2020-05-15 | 乐山师范学院 | 一种基于特征权重的网络数据相似度计算方法与*** |
CN112016081A (zh) * | 2020-08-31 | 2020-12-01 | 贝壳技术有限公司 | 标识映射的实现方法、装置、介质和电子设备 |
CN112016081B (zh) * | 2020-08-31 | 2021-09-21 | 贝壳找房(北京)科技有限公司 | 标识映射的实现方法、装置、介质和电子设备 |
CN113536252A (zh) * | 2021-07-21 | 2021-10-22 | 北京房江湖科技有限公司 | 账号识别方法和计算机可读存储介质 |
CN113536252B (zh) * | 2021-07-21 | 2022-08-09 | 贝壳找房(北京)科技有限公司 | 账号识别方法和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110019193B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serafino et al. | True scale-free networks hidden by finite size effects | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
Asim et al. | Significance of machine learning algorithms in professional blogger's classification | |
CN110807129B (zh) | 多层用户关系图集合的生成方法、装置及电子设备 | |
CN116541883B (zh) | 基于信任的差分隐私保护方法、装置、设备及存储介质 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN110019193A (zh) | 相似帐号识别方法、装置、设备、***及可读介质 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN113656690A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN113591881A (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN113505273A (zh) | 基于重复数据筛选的数据排序方法、装置、设备及介质 | |
CN116737947A (zh) | 实体关系图构建方法、装置、设备及存储介质 | |
CN115169489B (zh) | 数据检索方法、装置、设备以及存储介质 | |
CN116150185A (zh) | 基于人工智能的数据标准提取方法、装置、设备及介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN115051863A (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 | |
Ding et al. | Improved density peaks clustering based on natural neighbor expanded group | |
CN114881001A (zh) | 基于人工智能的报表生成方法及相关设备 | |
CN115186188A (zh) | 基于行为分析的产品推荐方法、装置、设备及存储介质 | |
CN117009832A (zh) | 异常命令的检测方法、装置、电子设备及存储介质 | |
CN114818686A (zh) | 基于人工智能的文本推荐方法及相关设备 | |
CN114490667A (zh) | 多维度的数据分析方法、装置、电子设备及介质 | |
CN114301671A (zh) | 网络入侵检测方法、***、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |