CN110874387B - 移动设备识别符共现关系稀疏图的构建方法及装置 - Google Patents

移动设备识别符共现关系稀疏图的构建方法及装置 Download PDF

Info

Publication number
CN110874387B
CN110874387B CN201811011882.6A CN201811011882A CN110874387B CN 110874387 B CN110874387 B CN 110874387B CN 201811011882 A CN201811011882 A CN 201811011882A CN 110874387 B CN110874387 B CN 110874387B
Authority
CN
China
Prior art keywords
identifier
mobile equipment
mobile
occurrence
identifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811011882.6A
Other languages
English (en)
Other versions
CN110874387A (zh
Inventor
王灿
沈鑫
冼伟钊
杨红霞
王中要
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811011882.6A priority Critical patent/CN110874387B/zh
Publication of CN110874387A publication Critical patent/CN110874387A/zh
Application granted granted Critical
Publication of CN110874387B publication Critical patent/CN110874387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/22Processing or transfer of terminal data, e.g. status or physical capabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开一种移动设备识别符的共现关系稀疏图构建方法和装置,以及一种移动设备识别方法。其中移动设备识别符的共现关系稀疏图构建方法包括:获取移动设备的识别符信息的集合,将移动设备的识别符信息的集合作为共现关系稀疏图的节点,获取包含第一识别符的节点,连接包含第一识别符的节点,当包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。保证了图的稀疏性,降低了利用该图进行移动设备识别的算法的复杂度,从而便于对大规模数据进行并行化处理。

Description

移动设备识别符共现关系稀疏图的构建方法及装置
技术领域
本申请涉及移动设备实体识别领域,具体涉及一种移动设备识别符的共现关系稀疏图构建方法、装置、电子设备及存储设备。本申请同时涉及一种移动设备识别方法、装置、电子设备及存储设备。
背景技术
在移动设备的使用过程中,我们经常会遇到重装***、更换移动设备、山寨机或者模拟攻击等问题,这些问题的存在往往会导致移动设备部分数据信息丢失,并且常用的基于移动设备识别符的移动设备实体识别算法计算比较繁琐。
为了解决上述问题,本领域中的传统的方案,通常是利用APP安装时根据硬件与***信息随机生成唯一标识符或者利用安卓***唯一设备识别符Android ID或者利用苹果***的IDFA唯一标识符进行移动设备实体识别,找到识别符唯一对应所述移动设备,从而召回该移动设备丢失的所有相关数据信息。但是上述常用的技术方案只能消除部分异常原因导致的移动设备数据信息丢失的问题,并且基于上述移动设备标识符识别移动设备的算法的运算过程仍然比较复杂,从而无法处理大规模数据。
发明内容
本申请提供一种移动设备识别符的共现关系稀疏图构建方法、装置、电子设备及存储设备,以解决现有技术存在的上述移动设备实体识别算法复杂度过高,不利于并行计算且无法处理大规模数据的问题。本申请另外提供一种移动设备识别方法、装置、电子设备及存储设备。
本申请提供的移动设备识别符的共现关系稀疏图构建方法,包括:
获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;
当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
可选的,所述移动设备的识别符信息的集合包含所述移动设备对应的软件和硬件识别符信息。
可选的,所述移动设备对应的软件和硬件识别符信息,具体包括以下至少一种识别符信息:
用于唯一识别所述移动设备的设备识别码IMEI;
用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述移动设备操作信息的广告标示符IDFA;
用于唯一标识所述移动设备的软件标识符UTDID。
可选的,所述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
可选的,所述第一识别符包括以下至少一种:
用于唯一识别第一移动设备的设备识别码IMEI;
用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述第一移动设备操作信息的广告标示符IDFA;
用于唯一标识所述第一移动设备的软件标识符UTDID。
相应的,本申请还提供一种移动设备识别方法,包括:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
可选的,所述根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征,包括:
建立无监督学习算法的目标函数;
将所述共现关系稀疏图中边的数量作为参数输入到无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
可选的,所述无监督学习算法的目标函数的表达式如下:
Figure BDA0001785301120000031
其中,xi是每个识别符集合的特征,ci是识别符所属移动设备中心的特征,g是距离函数,i和j是所述共现关系稀疏图的任意两个节点的标识,V表示所述共现关系稀疏图任意节点的取值范围,E表示所述共现关系稀疏图的任意两个节点的取值范围。
相应的,本申请还提供一种移动设备识别符的共现关系稀疏图构建装置,包括:
第一获取单元,用于获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点;
第二获取单元,用于获取包含第一识别符的节点;
连接单元,用于连接所述包含第一识别符的节点;
删除单元,用于当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
相应的,本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储移动设备识别符的共现关系稀疏图构建方法的程序,该设备通电并通过所述处理器运行该移动设备识别符的共现关系稀疏图构建方法的程序后,执行下述步骤:
获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;
当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
相应的,本申请还提供一种存储设备,存储有移动设备识别符的共现关系稀疏图构建方法的程序,该程序被处理器运行,执行下述步骤:
获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;
当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
相应的,一种移动设备识别装置,包括:
第一获得单元,获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的;
第二获得单元,根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
第二确定单元,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
相应的,本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储移动设备识别方法的程序,该设备通电并通过所述处理器运行该移动设备识别方法的程序后,执行下述步骤:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
相应的,本申请还提供一种存储设备,存储有移动设备识别方法的程序,该程序被处理器运行,执行下述步骤:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
相应的,本申请还提供一种移动设备识别***,包括:上述权利要求11-16任意一项所述的移动设备识别符的共现关系稀疏图构建装置,以及权利要求19-22所述的移动设备识别装置。
与现有技术相比,本申请具有以下优点:
本申请提供一种移动设备识别符的共现关系稀疏图构建方法,通过获取移动设备的识别符信息的集合,将移动设备的识别符信息的集合作为共现关系稀疏图的节点,获取包含第一识别符的节点,连接包含第一识别符的节点,当包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。保证了移动设备识别符的共现关系稀疏图的稀疏性,降低了利用该图进行移动设备识别的算法的复杂度,从而便于对大规模数据进行并行化处理。
另外,本申请还提供一种移动设备识别方法,通过获得上述共现关系稀疏图中边的数量,根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征,如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。通过利用上述构建的共现关系稀疏图和无监督学习算法对移动设备进行实体识别,无需有标记的数据作为输入,从而降低了移动设备实体识别的复杂度,并大幅度提高了移动设备实体识别的精度。
附图说明
图1为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建方法流程图;
图2为本申请实施例提供的一种移动设备识别方法流程图;
图3为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建装置示意图;
图4为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建电子设备示意图;
图5为本申请实施例提供的一种移动设备识别装置示意图;
图6为本申请实施例提供的一种移动设备识别电子设备示意图;
图7为本申请实施例提供的一种移动设备识别***的工作流程图;
图8为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建方法构建的结构图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
为了使本领域的技术人员更好的理解本申请方案,下面基于本申请的移动设备识别符的共现关系稀疏图构建方法,对其实施例进行详细描述。此外,在下面的描述中,将分别针对本方法的各个步骤进行详细的说明。请参考图1所示,其为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建方法流程图。
步骤S101,获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点。
在本实施例中,若要构建移动设备识别符的共现关系稀疏图,需要从所有的移动设备访问日志中,提取出所有的软件和硬件移动设备识别符,每个访问日志中记录的移动设备识别符信息的集合都作为图中的节点。所述的移动设备识别符信息的集合是用于唯一表示一台物理移动设备的识别符集合,包含硬件标识符和软件标识符,具体地,该移动设备识别符信息的集合包括用于唯一识别一台移动设备的设备识别码IMEI、用于唯一识别对应于一台移动设备的移动用户信息的用户识别码IMSI、用于追踪一台移动设备操作信息的广告标示符IDFA和用于唯一标识一台移动设备的软件标识符UTDID中的至少一个识别符。将移动设备的识别符信息的集合作为移动设备识别符的共现关系稀疏图的节点,即所述的移动设备识别符共现关系稀疏图中每一个节点都表示一个移动设备识别符信息的集合。
步骤S102,获取包含第一识别符的节点。
在本实施例中,所述的第一识别符具体包括:用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符。
步骤S103,连接所述包含第一识别符的节点。
在本实施例中,针对每个识别符我们遍历所有的移动设备识别符信息的集合(即图中的节点),找出所有包含这个识别符的节点进行连接。需要说明的是,本申请实施例主要是提取IMEI、IMSI、IDFA、UTDID四种识别符,如果其中某一标识符出现在两个不同节点中,那么将这两个节点连成一条边,将上述找出的节点依次两两连边,进行构图。当其中一个识别符在大量的节点中都出现了,即关联了过多的节点,这种情况下都不连边,并且删除过大的连通节点,保证图的稀疏性,从而降低了时间的复杂度。其中,IMEI是指移动设备识别码,IMEI是区别移动用户的标志,存储在SIM卡中,可用于区别用户的有效信息。
步骤S104,当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
在本实施例中,所述的预设的节点数量阈值为1000,为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,即如果一个识别符在超过一千个节点中都出现了,那么上述包含任意识别符的节点之间在本次子循环中都不连边,并且删除包含相同识别符的节点之间的连接关系,获得构建的移动设备的共现关系稀疏图,请参考图8所示,其为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建方法构建的结构图。
本申请提供一种移动设备识别符的共现关系稀疏图构建方法,通过获取移动设备的识别符信息的集合,将移动设备的识别符信息的集合作为共现关系稀疏图的节点,获取包含第一识别符的节点,连接包含第一识别符的节点,当包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。保证了移动设备识别符的共现关系稀疏图的稀疏性,降低了利用该图进行移动设备识别的算法的复杂度,便于对大数据进行并行化处理。
与上述提供的一种移动设备识别符的共现关系稀疏图构建方法相对应,本申请实施例还提供一种移动设备识别方法,请参考图2所示,其为本申请实施例提供的一种移动设备识别方法流程图。
步骤S201:获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
在本实施例中,通过构建移动设备标识符共现关系稀疏图,利用一种全新的无监督学习算法,综合该共现关系稀疏图的结构特点和节点的属性特征,进行移动设备实体识别。其中,由于图的稀疏性,所述的移动设备识别符共现关系稀疏图中边的数量近似于点的数量,无监督学习算法的每次迭代只需在图的边上进行,从而保证了较低的时间复杂度。
步骤S202:根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
在本实施例中,所述的根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征具体包括,建立无监督学习算法的目标函数,将上述构建的共现关系稀疏图中边的数量作为参数输入到无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
需要说明的是,上述无监督学习算法的目标函数指的是建模过程中,不需要有标记的数据作为输入,直接进行学习的算法函数,常用于人工标注类别或进行人工标注成本太高的情况。本申请无监督学习算提供了一种全新的算法目标函数,所述的算法目标函数的公式为:
Figure BDA0001785301120000091
其中,xi是每个识别符集合的特征,ci是识别符所属移动设备中心的特征,g是距离函数,i和j是所述共现关系稀疏图的任意两个节点的标识,V表示所述共现关系稀疏图任意节点的取值范围,E表示所述共现关系稀疏图的任意两个节点连接成的边的取值范围。其中,上述目标函数公式的第一项约束了每个识别符信息的集合(共现关系稀疏图中的节点)与其对应的移动设备中心点应尽可能相似,第二项约束了有边相连的节点应该尽可能相似,第三项约束了移动设备中心节点的特征范围。
在本实施例中,该算法目标函数能够实现并行化的迭代优化算法,快速识别每一个识别符所属的设备的中心特征。根据求解出的各个识别符所属设备的中心特征,进行移动设备实体识别,即,若两个识别符所属设备的中心的特征一致,那么这两个识别符也属于同一个设备。
其中,上述求解算法主要采用交替方向乘子法,我们将原始的ADMM进行变形改进,将图(V,E)和每个节点的属性特征xi输入至上述求解算法中,优化求解每个移动设备的中心特征ci
具体地,在本实施例中,将共现关系稀疏图中与节点相对应的边的数量作为参数输入无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征,具体包括:
设欧几里得距离函数为距离函数,并引入对偶变量z,将所述无监督学习算法的目标函数的表达式改写为如下形式:
Figure BDA0001785301120000101
s.t.ci-zij=0
其中xi是每个识别符集合的特征,ci是每个设备的中心特征,sij是所述共现关系稀疏图的任意两个节点xi与xj的相似度,V表示所述共现关系稀疏图任意节点的取值范围,E表示所述共现关系稀疏图的任意两个节点连接成的边的取值范围,L(c,z)是引入对偶变量z的目标函数,L(c,z)用于约束ci*zji=0。
对所述的改写的无监督学习算法的目标函数的表达式进行拉格朗日变换,获得无约束增广拉格朗日形式的函数公式:
Figure BDA0001785301120000102
其中z为对偶变量,y和ρ是拉格朗日变换中引进的惩罚参数。
根据所述无约束增广拉格朗日形式的无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征。
步骤S203:如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
步骤S204:根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
移动设备实体识别,将一条访问日志中的多个移动设备识别符对应到一台唯一真实的移动设备上。在本实施例中,根据上述无约束增广拉格朗日形式的函数,令u=y/ρ,获得以下公式:
Figure BDA0001785301120000111
并行迭代更新c、z、u,得到目标函数的结果。其中λ表示惩罚参数,ci是识别符所属移动设备中心的特征,z是引入的对偶变量,u是拉格朗日放缩变换后的惩罚参数。
Figure BDA0001785301120000112
上述公式中,c、z存在解析解,即:
Figure BDA0001785301120000121
其中ci是识别符所属移动设备中心的特征,z是引入的对偶变量,u是拉格朗日放缩变换后的惩罚参数,c*、z*是最后求到的解析解,θ是中间计算的临时变量。
根据上述无约束增广拉格朗日形式的无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得解析解,该解析解即为本次迭代中所求得的各个移动设备中心的特征,求出每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征,我们将每个节点中包含的识别符对应到特征相似度最近的移动设备中,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
本实施例能够在一定程度上,消除多种移动设备识别符异常问题所导致的影响,大幅度提高移动设备的识别的精度。其中,可以解决的异常问题包括但不限于:双卡双待问题、重装***问题、更换手机问题、山寨机问题、模拟器攻击问题等。其中双卡双待问题,IMEI、IMSI的四种组合会在图中形成强的关联关系;重装***后,可以通过IMEI、IMSI等硬件识别符召回所有与IMEI、IMSI标识符相对应的移动设备相关的软件识别符;更换手机后,可以利用IMSI以及访问属性召回所有与IMSI对应的移动设备的备份数据;山寨机问题和模拟器问题所导致的巨大联通关系和在构图的时候就会部分解决。同时本申请实施例提供的无监督学习算法支持并行化处理数据,可以适用于大规模数据处理。如果不利用我们的构建的移动设备标识符共现关系稀疏图,会导致用于移动设备实体识别的算法复杂度过高,不利于并行计算且无法处理大规模的数据。
本申请提供的一种移动设备识别方法,通过获得上述共现关系稀疏图中边的数量,根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征,如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。通过利用上述构建的共现关系稀疏图结构属性和无监督学习算法对移动设备进行实体识别,无需有标记的数据作为输入,从而降低了移动设备实体识别的复杂度,并大幅度提高了移动设备实体识别的精度。
与上述的移动设备识别符的共现关系稀疏图构建方法相对应,本申请还提供一种移动设备识别符的共现关系稀疏图构建装置,上述移动设备识别符的共现关系稀疏图构建方法可以应用于该装置。由于本装置实施例相似于方法实施例,所以描述的比较简单,相关之处请参见方法实施例部分说明即可,下面描述装置实施例仅是示意性的。请参见图3,其为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建装置示意图。
移动设备识别符的共现关系稀疏图构建装置包括如下部分:
第一获取单元301,用于获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点。
在本实施例中,所述的移动设备的识别符信息的集合包含与移动设备对应的软件和硬件识别符信息。其中与移动设备对应的软件和硬件识别符信息具体包括:用于唯一识别所述移动设备的设备识别码IMEI、用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI、用于追踪所述移动设备操作信息的广告标示符IDFA和用于唯一标识所述移动设备的软件标识符UTDID中的至少一种识别符。需要说明的是,上述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
第二获取单元302,用于获取包含第一识别符的节点。
在本实施例中,所述的第一识别符包括用于唯一识别第一移动设备的设备识别码IMEI、用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI、用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种。
连接单元303,用于连接所述包含第一识别符的节点。
在本实施例中,针对每个识别符我们遍历所有的移动设备识别符信息的集合(即图中的节点),找出所有包含这个识别符的节点进行连接。需要说明的是,本申请实施例主要是提取IMEI、IMSI、IDFA、UTDID四种识别符,如果其中某一标识符出现在两个不同节点中,那么将这两个节点连成一条边,将上述找出的节点依次两两连边,进行构图。当其中一个识别符在大量的节点中都出现了,即关联了过多的节点,这种情况下都不连边,并且删除过大的连通节点,保证图的稀疏性,从而降低了时间的复杂度。
删除单元304,用于当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
在本实施例中,所述的预设的节点数量阈值为1000,为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,即如果一个识别符在超过一千个节点中都出现了,那么上述包含任意识别符的节点之间在本次子循环中都不连边,并且删除包含相同识别符的节点之间的连接关系,获得构建的移动设备的共现关系稀疏图。
与上述提供的一种移动设备识别符的共现关系稀疏图构建方法相对应的,本申请实施例还提供一种电子设备,请参见图4,其为本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建的电子设备示意图。
本申请实施例所述的移动设备识别符的共现关系稀疏图构建的电子设备包括如下部分:
处理器401;以及
存储器402,用于存储移动设备识别符的共现关系稀疏图构建方法的程序,该设备通电并通过所述处理器运行该移动设备识别符的共现关系稀疏图构建方法的程序后,执行下述步骤:
获取移动设备的识别符信息的集合,将所述移动设备的识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;
当所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种移动设备识别符的共现关系稀疏图构建方法的相关描述,这里不再赘述。
与上述的移动设备识别方法相对应,本申请还提供一种移动设备识别装置,上述移动设备识别方法可以应用于该装置。由于本装置实施例相似于方法实施例,所以描述的比较简单,相关之处请参见方法实施例部分说明即可,下面描述装置实施例仅是示意性的。请参见图5,其为本申请实施例提供的一种移动设备识别装置示意图。
本申请实施例所述的移动设备识别装置包括如下部分:
第一获得单元501,获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
在本实施例中,所述的根据共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征具体包括:建立无监督学习算法的目标函数,将共现关系稀疏图中边的数量作为参数输入到无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
第二获得单元502,根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
在本实施例中,所述的根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征具体包括,建立无监督学习算法的目标函数,将上述构建的共现关系稀疏图中边的数量作为参数输入到无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
第一确定单元503,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
第二确定单元504,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
在本实施例中,根据无约束增广拉格朗日形式的无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得解析解,该解析解即为本次迭代中,所求得的各个移动设备中心的特征,求出每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征,我们将每个节点中包含的识别符对应到特征相似度最近的唯一的移动设备中,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
与上述提供的一种移动设备识别方法相对应的,本申请实施例还提供一种电子设备,请参见图6,其为本申请实施例提供的一种移动设备识别的电子设备示意图。
本申请实施例所述的移动设备识别的电子设备包括如下部分:
处理器601;以及
存储器602,用于存储移动设备识别方法的程序,该设备通电并通过所述处理器运行该移动设备识别方法的程序后,执行下述步骤:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种移动设备识别方法的相关描述,这里不再赘述。
与上述提供的一种移动设备识别方法和装置相对应的,本申请实施例还提供一种移动设备识别***,请参见图7,其为本申请实施例提供的一种移动设备识别***的工作流程图。
在本实施例中,所述的移动设备识别***包括:上述实施例提到的任意一项移动设备识别符的共现关系稀疏图构建装置,以及权移动设备识别装置。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (14)

1.一种移动设备识别符的共现关系稀疏图构建方法,其特征在于,包括:
获取移动设备识别符信息的集合,将所述移动设备识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;其中,所述第一识别符包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
当连接的所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
2.根据权利要求1所述的移动设备识别符的共现关系稀疏图构建方法,其特征在于,所述移动设备识别符信息的集合包含所述移动设备对应的软件和硬件识别符信息。
3.根据权利要求2所述的移动设备识别符的共现关系稀疏图构建方法,其特征在于,所述移动设备对应的软件和硬件识别符信息具体包括以下至少一种识别符信息:
用于唯一识别所述移动设备的设备识别码IMEI;
用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述移动设备操作信息的广告标示符IDFA;
用于唯一标识所述移动设备的软件标识符UTDID。
4.根据权利要求1所述的移动设备识别符的共现关系稀疏图构建方法,其特征在于,所述移动设备识别符信息的集合唯一表示一台真实物理移动设备。
5.一种移动设备识别方法,其特征在于,包括:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得;其中,所述节点包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
6.根据权利要求5所述的移动设备识别方法,其特征在于,所述根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征,包括:
建立无监督学习算法的目标函数;
将所述共现关系稀疏图中边的数量作为参数输入到无监督学习算法的目标函数进行并行化的迭代优化算法训练,获得识别符所属移动设备中心的特征和每个移动设备中心的特征。
7.根据权利要求6所述的移动设备识别方法,其特征在于,所述无监督学习算法的目标函数的表达式如下:
Figure FDA0003325477630000021
其中,xi是每个识别符集合的特征,ci是识别符所属移动设备中心的特征,g是距离函数,i和j是所述共现关系稀疏图的任意两个节点的标识,V表示所述共现关系稀疏图任意节点的取值范围,E表示所述共现关系稀疏图的任意两个节点的取值范围。
8.一种移动设备识别符的共现关系稀疏图构建装置,其特征在于,包括:
第一获取单元,用于获取移动设备识别符信息的集合,将所述移动设备识别符信息的集合作为所述共现关系稀疏图的节点;
第二获取单元,用于获取包含第一识别符的节点;
连接单元,用于连接所述包含第一识别符的节点;其中,所述第一识别符包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
删除单元,用于当连接的所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储移动设备识别符的共现关系稀疏图构建方法的程序,该设备通电并通过所述处理器运行该移动设备识别符的共现关系稀疏图构建方法的程序后,执行下述步骤:
获取移动设备识别符信息的集合,将所述移动设备识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;其中,所述第一识别符包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
当连接的所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
10.一种存储设备,其特征在于,
存储有移动设备识别符的共现关系稀疏图构建方法的程序,该程序被处理器运行,执行下述步骤:
获取移动设备识别符信息的集合,将所述移动设备识别符信息的集合作为所述共现关系稀疏图的节点;
获取包含第一识别符的节点;
连接所述包含第一识别符的节点;其中,所述第一识别符包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
当连接的所述包含第一识别符的节点的数量达到或者超过预设的节点数量阈值时,删除所述包含第一识别符的节点之间的连接关系,获得所述共现关系稀疏图。
11.一种移动设备识别装置,其特征在于,包括:
第一获得单元,获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得;其中,所述节点包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
第二获得单元,根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
第二确定单元,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储移动设备识别方法的程序,该设备通电并通过所述处理器运行该移动设备识别方法的程序后,执行下述步骤:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得;其中,所述节点包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
13.一种存储设备,其特征在于,存储有移动设备识别方法的程序,该程序被处理器运行,执行下述步骤:
获得共现关系稀疏图中边的数量,所述共现关系稀疏图是将所述移动设备识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得;其中,所述节点包括用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符;
根据所述共现关系稀疏图中边的数量,获得识别符所属移动设备中心的特征和每个移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
14.一种移动设备识别***,其特征在于,包括:上述权利要求8所述的移动设备识别符的共现关系稀疏图构建装置,以及权利要求11所述的移动设备识别装置。
CN201811011882.6A 2018-08-31 2018-08-31 移动设备识别符共现关系稀疏图的构建方法及装置 Active CN110874387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811011882.6A CN110874387B (zh) 2018-08-31 2018-08-31 移动设备识别符共现关系稀疏图的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811011882.6A CN110874387B (zh) 2018-08-31 2018-08-31 移动设备识别符共现关系稀疏图的构建方法及装置

Publications (2)

Publication Number Publication Date
CN110874387A CN110874387A (zh) 2020-03-10
CN110874387B true CN110874387B (zh) 2022-01-14

Family

ID=69715903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811011882.6A Active CN110874387B (zh) 2018-08-31 2018-08-31 移动设备识别符共现关系稀疏图的构建方法及装置

Country Status (1)

Country Link
CN (1) CN110874387B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112601215A (zh) * 2020-12-01 2021-04-02 深圳市和讯华谷信息技术有限公司 一种设备标识统一的方法及装置
CN113254318B (zh) * 2021-07-06 2021-10-22 北京达佳互联信息技术有限公司 设备标识信息确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106951920A (zh) * 2017-03-06 2017-07-14 江南大学 一种基于半监督的稀疏子空间聚类算法
CN107276938A (zh) * 2017-06-28 2017-10-20 北京邮电大学 一种数字信号调制方式识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930812A (zh) * 2016-04-27 2016-09-07 东南大学 一种基于融合特征稀疏编码模型的车辆品牌类型识别方法
CN107808664B (zh) * 2016-08-30 2021-07-30 富士通株式会社 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备
CN107561576B (zh) * 2017-08-31 2023-10-20 中油奥博(成都)科技有限公司 基于字典学习正则化稀疏表示的地震信号恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106951920A (zh) * 2017-03-06 2017-07-14 江南大学 一种基于半监督的稀疏子空间聚类算法
CN107276938A (zh) * 2017-06-28 2017-10-20 北京邮电大学 一种数字信号调制方式识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mobile Access Record Resolution on Large-Scale Identifier-Linkage Graphs;SHEN Xin;《KDD 2018》;20180719;论文第1-5节 *

Also Published As

Publication number Publication date
CN110874387A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN109783604B (zh) 基于少量样本的信息提取方法、装置和计算机设备
CN105069457B (zh) 图像识别方法和装置
CN111612043B (zh) 道路场景匹配方法、装置及存储介质
CN109685805B (zh) 一种图像分割方法及装置
CN109002784B (zh) 街景识别方法和***
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
CN110874387B (zh) 移动设备识别符共现关系稀疏图的构建方法及装置
CN110807472A (zh) 图像识别方法、装置、电子设备及存储介质
CN110457704B (zh) 目标字段的确定方法、装置、存储介质及电子装置
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN106572486B (zh) 一种基于机器学习的手持终端流量识别方法和***
WO2019061667A1 (zh) 电子装置、数据处理方法、***及计算机可读存储介质
CN111368860B (zh) 重定位方法及终端设备
CN114049463A (zh) 一种二叉树的数据网格化、网格点数据的获取方法及装置
CN115542944B (zh) 一种基于配电网环境的多无人机路径规划方法及相关装置
CN105302715A (zh) 应用程序用户界面的获取方法和装置
CN110874465B (zh) 基于半监督学习算法的移动设备实体识别方法及装置
CN113409347B (zh) 点云边界的提取方法及装置、存储介质、电子设备
CN114781517A (zh) 风险识别的方法、装置及终端设备
CN115830618A (zh) 一种文本识别方法、装置、计算机设备及存储介质
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN107329946B (zh) 相似度的计算方法和装置
CN113159211B (zh) 用于相似图像检索的方法、计算设备和计算机存储介质
CN114528973A (zh) 业务处理模型的生成方法、业务处理方法和装置
CN112148724A (zh) 一种设备标识处理方法、***、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Can

Inventor after: Shen Xin

Inventor after: Wei Zhao Xian

Inventor after: Yang Hongxia

Inventor after: Wang Zhongyao

Inventor before: Shen Xin

Inventor before: Wei Zhao Xian

Inventor before: Yang Hongxia

Inventor before: Wang Zhongyao

GR01 Patent grant
GR01 Patent grant