CN110874465A - 基于半监督学习算法的移动设备实体识别方法及装置 - Google Patents
基于半监督学习算法的移动设备实体识别方法及装置 Download PDFInfo
- Publication number
- CN110874465A CN110874465A CN201811011479.3A CN201811011479A CN110874465A CN 110874465 A CN110874465 A CN 110874465A CN 201811011479 A CN201811011479 A CN 201811011479A CN 110874465 A CN110874465 A CN 110874465A
- Authority
- CN
- China
- Prior art keywords
- mobile device
- identifiers
- mobile equipment
- semi
- mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/44—Program or device authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请公开一种基于半监督学习算法的移动设备实体识别方法和装置。其中,基于半监督学习算法的移动设备实体识别方法包括:根据确定的移动设备的识别符的共现关系稀疏图中节点的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行迭代运算,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。通过利用少量有标记数据结合半监督学习算法损失函数,进行移动设备实体识别,提高了移动设备实体识别的准确度。
Description
技术领域
本申请涉及移动设备实体识别领域,具体涉及一种基于半监督学习算法的移动设备实体识别的方法、装置、电子设备及存储设备。
背景技术
随着人工智能的发展,机器学习已经逐渐成为一种基础性的支持与服务技术,不同领域对机器学习的需求也不相同。机器学习是用来描述利用算法进行数据分析的过程,建立可以从中学习的模型,并最终使用这些数据建立的模型进行预测分析。在移动设备识别领域中,我们经常会遇到重装***、更换移动设备、山寨机或者模拟攻击等问题,这些问题的存在往往会导致移动设备部分数据信息丢失,若要召回丢失的数据,首先需要对该移动设备进行识别,但是,常用的基于移动设备识别符的移动设备实体识别算法计算往往比较繁琐。另外,随着移动互联网的普及,数据呈几何态势增长,这些海量的数据不仅结构多样而且体现出动态性极强的特征,因此通过获取大量有标记数据进行移动设备实体识别算法的迭代训练将耗费更多的人力和时间,以往将大量有标记的数据输入到移动设备实体识别算法中进行训练从而实现移动设备实体识别的方式已经不再适用。
为了解决上述问题,本领域中的传统的方案,通常是根据APP安装时根据硬件与***信息随机生成唯一标识符进行无任何有标记数据的无监督学习训练,从而实现移动设备实体识别,该方法虽然不需要带标记数据,但是所获得的用于移动设备实体识别结果却不够精确。
发明内容
本申请提供一种基于半监督学习算法的移动设备实体识别方法及装置,以解决现有技术存在的上述移动设备实体识别过程繁琐且精确度较低的问题。本申请另外提供一种基于半监督学习算法的移动设备实体识别的电子设备及存储设备。
本申请提供的一种基于半监督学习算法的移动设备实体识别方法,包括:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
可选的,所述移动设备的识别符的共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
可选的,所述根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,包括:
建立半监督学习算法的损失函数;
将所述共现关系稀疏图中节点的属性特征和所述有标记的数据作为所述半监督学习算法的损失函数的参数进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征。
可选的,所述移动设备的识别符信息的集合包含所述移动设备对应的软件和硬件识别符信息。
可选的,所述移动设备对应的软件和硬件识别符信息,具体包括以下至少一种识别符信息:
用于唯一识别所述移动设备的设备识别码IMEI;
用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述移动设备操作信息的广告标示符IDFA;
用于唯一标识所述移动设备的软件标识符UTDID。
可选的,所述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
可选的,所述共现关系稀疏图的中节点的属性特征为移动设备的识别符信息的集合的特征。
可选的,所述如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,具体包括:
确定所述共现关系稀疏图的任意两个节点的属性特征的相似度;
根据所述相似度满足预设的相似度阈值,确定所述两个节点分别对应的两个识别符集合属于同一个移动设备;
根据所述两个节点分别对应的两个识别符集合属于同一个移动设备,确定所述识别符集合包含的多个识别符为同一个移动设备的多个识别符。
相应的,本申请还提供一种基于半监督学习算法的移动设备实体识别装置,包括:
第一获得单元:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
第二获得单元,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值;
计算单元:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
第二确定单元,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
相应的,本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
相应的,本申请提供一种存储设备,存储有基于半监督学习算法的移动设备实体识别方法的程序,该程序被处理器运行,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
与现有技术相比,本申请具有以下优点:
本申请提供一种基于半监督学习算法的移动设备实体识别方法,根据确定的移动设备的识别符的共现关系稀疏图中节点的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行迭代运算,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。因此,我们利用少量有标记数据结合半监督学习算法损失函数,建立数据模型来进行移动设备实体识别,其优点就在于能利用少量的有标记数据来改善分类器的泛化性能,提高移动设备实体识别的准确度。
附图说明
图1为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的流程图;
图2为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别装置的示意图;
图3为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别的电子设备的示意图;
图4为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的识别流程图;
图5为本申请实施例提供的共现关系稀疏图的结构图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
为了使本领域的技术人员更好的理解本申请方案,下面基于本申请提供的一种基于半监督学习算法的移动设备实体识别方法,对其实施例进行详细描述。此外,在下面的描述中,将分别针对本方法的各个步骤进行详细的说明。请参考图1所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的流程图。
步骤S101,确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征。
在本实施例中,所述的共现关系稀疏图是将移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点进行构图,并删除数量达到或者超过预设的节点数量阈值的包含相同识别符的节点之间的连接关系获得的。其中,预设的节点数量阈值为1000。为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,即如果一个识别符在超过1000个节点中都出现了,那么上述包含该识别符的节点之间在本次子循环中都不连边,并且删除已连接的包含相同识别符的节点之间的连接关系,获得构建的移动设备识别符的共现关系稀疏图。当然,本申请所述的预设的节点数量阈值不仅仅限于上述公开的数值,其可以根据具体情况进行提前设定。
在本实施例中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。若要构建移动设备识别符的共现关系稀疏图,需要从所有的移动设备访问日志中,提取出所有的软件和硬件移动设备识别符,每个访问日志中记录的移动设备识别符信息的集合都作为图中的节点。所述的移动设备识别符信息的集合是用于唯一表示一台物理移动设备的识别符集合,包含硬件标识符和软件标识符,具体地,该移动设备识别符信息的集合包括用于唯一识别一台移动设备的设备识别码IMEI、用于唯一识别对应于一台移动设备的移动用户信息的用户识别码IMSI、用于追踪一台移动设备操作信息的广告标示符IDFA和用于唯一标识一台移动设备的软件标识符UTDID中的至少一个识别符。将移动设备的识别符信息的集合作为移动设备识别符的共现关系稀疏图的节点,即所述的移动设备识别符共现关系稀疏图中每一个节点都表示一个移动设备识别符信息的集合。
需要说明的是,上述所述的相同识别符可以是用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符。
在本实施例中,针对每个识别符我们遍历所有的移动设备识别符信息的集合(即图中的节点),找出所有包含这个识别符的节点进行连接。需要说明的是,本申请实施例主要是提取IMEI、IMSI、IDFA、UTDID四种识别符,如果其中某一标识符出现在两个不同节点中,那么将这两个节点连成一条边,将上述找出的节点依次两两连边,进行构图。请参考图5所示,其为本申请实施例提供的共现关系稀疏图的结构图。当其中一个识别符在大量的节点中都出现了,即关联了过多的节点,这种情况下都不连边,并且删除过大的连通节点,保证图的稀疏性,从而降低了时间的复杂度。其中,IMEI是指移动设备识别码,IMEI是区别移动用户的标志,存储在SIM卡中,可用于区别用户的有效信息。
步骤S102,确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值。
在机器学习过程中,无标记数据很容易获取,而有标记数据则很难获取,因为给数据做标记通常耗费较多的人力和时间。无监督学习算法则属于无需任何有标记数据的聚类学习算法,虽然不需要带标记数据,但是所获得的模型在移动设备识别过程中却不够精确,因此,本申请实施例利用少量有标记数据和大量无标记数据结合的半监督学习算法建立数据模型来进行移动设备实体识别,其优点就在于利用少量的有标记数据来改善分类器的泛化性能,从而无需耗费较多的时间和精力去标记数据。在移动设备的使用过程中,我们将一个访问记录中的移动设备标识符集合对应到一个唯一真实的物理设备上,在识别过程中必须有部分有标记的数据,作为半监督学习算法的依据。所述的第一数量阈值为能够满足移动设备实体识别准确率要求的有标记数据的数量。所述有标记数据是指我们从现有的数据中,通过企业内部的一些技术手段找到一些数据的真实值,作为数据的标记,即我们给出一小部分的识别符集合对,获得它们是否属于同一设备的结论。
步骤S103,根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征。
在本实施例中,通过构建移动设备标识符共现关系稀疏图,利用少量有标记的数据输入至全新的半监督学习算法的损失函数,综合该共现关系稀疏图的结构特点和节点的属性特征,进行移动设备实体识别。其中,由于图的稀疏性,所述的移动设备识别符共现关系稀疏图中边的数量近似于点的数量,半监督学习算法每次都根据共现关系稀疏图边的数量的进行迭代,从而保证了较低的时间复杂度。
因此,在本实施例中,若要获得识别符所属移动设备中心的特征和所述移动设备中心的特征,首先需要建立半监督学习算法的损失函数,将共现关系稀疏图中节点的属性特征和少量有标记的数据作为参数输入半监督学习算法的损失函数中进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和移动设备中心的特征。其中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。所述的半监督学习算法的损失函数的表达式如下:
其中,λ表示惩罚参数,xi是每个移动设备的识别符集合的特征,Csi是每个识别符所属移动设备中心的特征,是有标记的数据,i和j是所述共现关系稀疏图的任意两个节点的标识,wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,L是算法优化的损失函数。
在本实施例中,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征的过程具体包括:根据共现关系稀疏图的任意两个节点的属性特征的相似度,利用迭代公式确定每条边对应的yij的值,其中yij取值为1或0分别表示两个识别符集合是或否属于同一个设备。将共现关系稀疏图中节点的属性特征和有标记的数据作为参数输入到半监督学习算法的损失函数的求导公式中进行迭代优化算法训练,获得用于表示每个识别符所属移动设备中心的特征的和用于表示移动设备中心的特征。其中,所述的迭代公式的表达式具体如下:
其中wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,yij取值为1或0表示两个识别符集合是否属于同一个设备,δ为设定的阈值,用于判断两个设备是否相等。
所述的求导公式的表达式具体如下:
其中,xi是每个移动设备的识别符集合的特征,Csi是每个识别符所属移动设备中心的特征,i和j是所述共现关系稀疏图的任意两个节点的标识,wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,L是算法优化的损失函数,λ表示惩罚参数。
步骤S104,如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
步骤S105,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
根据上述提供的全新的半监督学习算法的损失函数进行并行化的迭代优化算法训练,求解得到各个移动设备中心的特征,获得每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征进行对比分析,将每个节点中包含的识别符对应到特征相似度最近的唯一一台移动设备上,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
请参考图4所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的识别流程图
本实施例通过构建移动设备共现关系稀疏图,采用一种全新的无监督学习算法,综合移动设备共现关系稀疏图的结构和节点的属性特征,进行移动设备实体识别,进而获得移动设备实体识别结果。该方案能够在一定程度上消除多种移动设备识别符异常问题所导致的影响,大幅度提高移动设备的识别的精度。其中,本申请实施例可以解决的异常问题包括但不限于:双卡双待问题、重装***问题、更换手机问题、山寨机问题、模拟器攻击问题等导致的移动设备数据丢失的情况。在双卡双待问题中,IMEI、IMSI的四种组合会在该移动设备标识符的共现关系稀疏图中形成强的关联关系;重装***后,可以通过IMEI、IMSI等硬件识别符召回所有与IMEI、IMSI标识符相对应的该移动设备相关的软件识别符;更换手机后,可以利用IMSI以及访问属性召回所有与IMSI对应的该移动设备的备份数据;山寨机问题和模拟器问题所导致的巨大连通关系在构建该移动设备标识符的共现关系稀疏图的时候也可以得到解决。同时本申请实施例提供的半监督学习算法支持并行化处理数据,从而便于进行大规模数据处理。如果不利用我们的构建的移动设备标识符共现关系稀疏图,会导致用于移动设备实体识别的算法复杂度过高,不利于并行计算且无法处理大规模的数据。
本申请提供一种基于半监督学习算法的移动设备实体识别方法,根据获得的移动设备的识别符的共现关系稀疏图中节点的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行迭代运算,获得识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。通过利用共现关系稀疏图的结构和节点的特性降低了算法的时间复杂度,从而优化了半监督学习算法的迭代优化过程,进一步的在上述半监督学习算法中添加少量的有标记数据,提高针对移动设备识别的精度。
与上述提供的一种基于半监督学习算法的移动设备实体识别方法相对应,本申请实施例还提供一种基于半监督学习算法的移动设备实体识别装置,请参考图2所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别装置的示意图。
第一获得单元201:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征。
在本实施例中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。所述的共现关系稀疏图是将移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点进行构图,并删除数量达到或者超过预设的节点数量阈值的包含相同识别符的节点之间的连接关系获得的。其中,预设的节点数量阈值为1000。为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,则包含该识别符的节点之间在本次子循环中都不连边,并且删除已连接的包含相同识别符的节点之间的连接关系,获得构建的移动设备识别符的共现关系稀疏图。当然,本申请所述的预设的节点数量阈值不仅仅限于上述公开的数值,其可以根据具体情况进行提前设定。
第二获得单元202,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值。
在机器学习过程中,无标记数据很容易获取,而有标记数据则很难获取,因为给数据做标记通常耗费较多的人力和时间。无监督学习算法则属于无需任何有标记数据的聚类学习算法,虽然不需要带标记数据,但是所获得的模型在移动设备识别过程中却不够精确,因此,本申请实施例利用少量有标记数据和大量无标记数据结合的半监督学习算法建立数据模型来进行移动设备实体识别,其优点就在于利用少量的有标记数据来改善分类器的泛化性能,从而无需耗费较多的时间和精力去标记数据。在移动设备的使用过程中,我们将一个访问记录中的移动设备标识符集合对应到唯一一台移动设备上,在识别过程中必须有部分有标记的数据,作为半监督学习算法的依据。所述的第一数量阈值为能够满足移动设备实体识别准确率要求的有标记数据的数量。
计算单元203:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征。
在本实施例中,通过构建移动设备标识符共现关系稀疏图,利用少量有标记的数据输入至全新的半监督学习算法的损失函数,综合该共现关系稀疏图的结构特点和节点的属性特征,进行移动设备实体识别。其中,由于图的稀疏性,所述的移动设备识别符共现关系稀疏图中边的数量近似于点的数量,半监督学习算法每次都根据共现关系稀疏图边的数量的进行迭代,从而保证了较低的时间复杂度。
因此,在本实施例中,若要获得识别符所属移动设备中心的特征和所述移动设备中心的特征,首先需要建立半监督学习算法的损失函数,将共现关系稀疏图中节点的属性特征和少量有标记的数据作为参数输入半监督学习算法的损失函数中进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和移动设备中心的特征。
第一确定单元204,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
第二确定单元205,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
在本实施例中,根据上述提供的全新的半监督学习算法的损失函数进行并行化的迭代优化算法训练,求解得到各个移动设备中心的特征,获得每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征进行对比分析,将每个节点中包含的识别符对应到特征相似度最近的唯一一台移动设备上,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
与上述提供的一种基于半监督学习算法的移动设备实体识别方法相对应的,本申请实施例还提供一种电子设备,请参见图3,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别的电子设备示意图。
本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的电子设备包括如下部分:
处理器;以及
存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的相关描述,这里不再赘述。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (11)
1.一种基于半监督学习算法的移动设备实体识别方法,其特征在于,包括:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
2.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符的共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
3.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,包括:
建立半监督学习算法的损失函数;
将所述共现关系稀疏图中节点的属性特征和所述有标记的数据作为所述半监督学习算法的损失函数的参数进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征。
4.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符信息的集合包含所述移动设备对应的软件和硬件识别符信息。
5.根据权利要求4所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备对应的软件和硬件识别符信息,具体包括以下至少一种识别符信息:
用于唯一识别所述移动设备的设备识别码IMEI;
用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述移动设备操作信息的广告标示符IDFA;
用于唯一标识所述移动设备的软件标识符UTDID。
6.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
7.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述共现关系稀疏图的中节点的属性特征为移动设备的识别符信息的集合的特征。
8.根据权利要求3所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,具体包括:
确定所述共现关系稀疏图的任意两个节点的属性特征的相似度;
根据所述相似度满足预设的相似度阈值,确定所述两个节点分别对应的两个识别符集合属于同一个移动设备;
根据所述两个节点分别对应的两个识别符集合属于同一个移动设备,确定所述识别符集合包含的多个识别符为同一个移动设备的多个识别符。
9.一种基于半监督学习算法的移动设备实体识别装置,其特征在于,包括:
第一获得单元:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
第二获得单元,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值;
计算单元:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
第二确定单元,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
11.一种存储设备,其特征在于,存储有基于半监督学习算法的移动设备实体识别方法的程序,该程序被处理器运行,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011479.3A CN110874465B (zh) | 2018-08-31 | 2018-08-31 | 基于半监督学习算法的移动设备实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011479.3A CN110874465B (zh) | 2018-08-31 | 2018-08-31 | 基于半监督学习算法的移动设备实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874465A true CN110874465A (zh) | 2020-03-10 |
CN110874465B CN110874465B (zh) | 2022-01-28 |
Family
ID=69715791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811011479.3A Active CN110874465B (zh) | 2018-08-31 | 2018-08-31 | 基于半监督学习算法的移动设备实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874465B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254318A (zh) * | 2021-07-06 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196933A (zh) * | 2008-01-09 | 2008-06-11 | 王珊 | 利用连接表压缩数据图的方法和设备 |
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
CN103164428A (zh) * | 2011-12-13 | 2013-06-19 | 富士通株式会社 | 确定微博与给定实体的相关性的方法和装置 |
US20140136557A1 (en) * | 2012-10-11 | 2014-05-15 | Scott E. Lilienthal | Multivariate data analysis method |
US20140172754A1 (en) * | 2012-12-14 | 2014-06-19 | International Business Machines Corporation | Semi-supervised data integration model for named entity classification |
CN105160351A (zh) * | 2015-08-12 | 2015-12-16 | 西安电子科技大学 | 基于锚点稀疏图的半监督高光谱分类方法 |
CN105303198A (zh) * | 2015-11-17 | 2016-02-03 | 福州大学 | 一种自定步长学习的遥感影像半监督分类方法 |
CN105574848A (zh) * | 2014-11-04 | 2016-05-11 | 诺基亚技术有限公司 | 用于对象的自动分割的方法和装置 |
CN107168946A (zh) * | 2017-04-14 | 2017-09-15 | 北京化工大学 | 一种医疗文本数据的命名实体识别方法 |
CN108460326A (zh) * | 2018-01-10 | 2018-08-28 | 华中科技大学 | 一种基于稀疏表达图的高光谱图像半监督分类方法 |
-
2018
- 2018-08-31 CN CN201811011479.3A patent/CN110874465B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196933A (zh) * | 2008-01-09 | 2008-06-11 | 王珊 | 利用连接表压缩数据图的方法和设备 |
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
CN103164428A (zh) * | 2011-12-13 | 2013-06-19 | 富士通株式会社 | 确定微博与给定实体的相关性的方法和装置 |
US20140136557A1 (en) * | 2012-10-11 | 2014-05-15 | Scott E. Lilienthal | Multivariate data analysis method |
US20140172754A1 (en) * | 2012-12-14 | 2014-06-19 | International Business Machines Corporation | Semi-supervised data integration model for named entity classification |
CN105574848A (zh) * | 2014-11-04 | 2016-05-11 | 诺基亚技术有限公司 | 用于对象的自动分割的方法和装置 |
CN105160351A (zh) * | 2015-08-12 | 2015-12-16 | 西安电子科技大学 | 基于锚点稀疏图的半监督高光谱分类方法 |
CN105303198A (zh) * | 2015-11-17 | 2016-02-03 | 福州大学 | 一种自定步长学习的遥感影像半监督分类方法 |
CN107168946A (zh) * | 2017-04-14 | 2017-09-15 | 北京化工大学 | 一种医疗文本数据的命名实体识别方法 |
CN108460326A (zh) * | 2018-01-10 | 2018-08-28 | 华中科技大学 | 一种基于稀疏表达图的高光谱图像半监督分类方法 |
Non-Patent Citations (4)
Title |
---|
HONGYING LIU 等: "FAST SEMI–SUPERVISED CLASSIFICATION BASED ON PARALLEL AUCTION GRAPH FOR POLARIMETRIC SAR DATA", 《2016 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》 * |
RENBO LUO 等: "Feature Extraction of Hyperspectral Images With Semi-supervised Sparse Graph Learning", 《2018 FIFTH INTERNATIONAL WORKSHOP ON EARTH OBSERVATION AND REMOTE SENSING APPLICATIONS》 * |
SHEN XIN 等: "Mobile Access Record Resolution on Large-Scale Identifier-Linkage Graphs", 《KDD 2018》 * |
王秀秀: "基于稀疏图的半监督学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254318A (zh) * | 2021-07-06 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
CN113254318B (zh) * | 2021-07-06 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110874465B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083639A (zh) | 一种基于聚类分析的数据血缘智能溯源的方法及装置 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN111259952B (zh) | 异常用户识别方法、装置、计算机设备及存储介质 | |
CN109783805B (zh) | 一种网络社区用户识别方法、装置和可读存储介质 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN110851817A (zh) | 一种终端类型识别方法及装置 | |
CN110457704B (zh) | 目标字段的确定方法、装置、存储介质及电子装置 | |
CN115098679A (zh) | 文本分类标注样本的异常检测方法、装置、设备及介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN110874465B (zh) | 基于半监督学习算法的移动设备实体识别方法及装置 | |
CN113705650B (zh) | 一种人脸图片集的处理方法、装置、介质和计算设备 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN110874387B (zh) | 移动设备识别符共现关系稀疏图的构建方法及装置 | |
CN112199376B (zh) | 一种基于聚类分析的标准知识库管理方法及*** | |
CN113392867A (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN113627464B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN114781517A (zh) | 风险识别的方法、装置及终端设备 | |
CN114528973A (zh) | 业务处理模型的生成方法、业务处理方法和装置 | |
CN113342518A (zh) | 任务处理方法和装置 | |
CN112445939A (zh) | 一种社交网络群体发现***、方法及存储介质 | |
CN112148724A (zh) | 一种设备标识处理方法、***、计算机设备及可读存储介质 | |
CN111553379B (zh) | 基于异步训练的图像数据处理方法和*** | |
CN114648527B (zh) | 尿路上皮细胞玻片图像分类方法、装置、设备和介质 | |
CN111752984B (zh) | 一种信息处理方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Can Inventor after: Shen Xin Inventor after: Wei Zhao Xian Inventor after: Yang Hongxia Inventor after: Wang Zhongyao Inventor before: Shen Xin Inventor before: Wei Zhao Xian Inventor before: Yang Hongxia Inventor before: Wang Zhongyao |
|
GR01 | Patent grant | ||
GR01 | Patent grant |