CN111090807B - 一种基于知识图谱的用户识别方法及装置 - Google Patents
一种基于知识图谱的用户识别方法及装置 Download PDFInfo
- Publication number
- CN111090807B CN111090807B CN201911292543.4A CN201911292543A CN111090807B CN 111090807 B CN111090807 B CN 111090807B CN 201911292543 A CN201911292543 A CN 201911292543A CN 111090807 B CN111090807 B CN 111090807B
- Authority
- CN
- China
- Prior art keywords
- equipment
- similarity
- devices
- pairs
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种基于知识图谱的用户识别方法及装置,包括:获取待识别的设备集合以及设备集合中的每一个设备的访问日志;对待识别的设备集合进行预处理,确定设备子集,设备子集中包括至少一个设备对;基于设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定设备子集中的每一个设备对的相似度向量;将设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到设备子集中的候选设备对、以及候选设备对之间的相似度;基于候选设备对之间的相似度,构建相似度图,并基于相似度图确定属于同一用户的目标设备对,目标设备对属于同一用户。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种基于知识图谱的用户识别方法及装置。
背景技术
随着互联网技术的发展,电脑、智能手机、Pad、智能电视以及移动可穿戴设备等多种电子设备的出现,用户访问的社交平台越来越多,各个社交平台之间的信息互不相同,这就导致无法识别哪些设备的用户为同一用户,从而在资源分配或信息投放时,为同一用户的多个设备重复分配资源或者投放信息,从而导致资源信息的浪费。
发明内容
有鉴于此,本申请的目的在于提供一种基于知识图谱的用户识别方法及装置。
第一方面,本申请实施例提供了一种基于知识图谱的用户识别方法,包括:
获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。
一种可能的实施方式中,所述访问日志中还携带有设备访问的网络互连协议IP地址;
对所述待识别的设备集合进行预处理,确定设备子集,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
一种可能的实施方式中,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
一种可能的实施方式中,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
一种可能的实施方式中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。
一种可能的实施方式中,所述基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,包括:
将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。
一种可能的实施方式中,所述相似度图中的节点为所述候选设备;
所述基于所述相似度图确定属于同一用户的目标设备对,包括:
基于图聚类算法对所述相似度图中的节点进行聚类;
将属于同一类的所述候选设备确定为所述目标设备对。
一种可能的实施方式中,按照以下方法训练得到所述神经网络模型:
获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;
对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;
确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;
基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;
将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;
基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;
基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
第二方面,本申请实施例还提供一种基于知识图谱的用户识别装置,包括:
获取模块,用于获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
预处理模块,用于对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
确定模块,用于基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
预测模块,用于将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
识别模块,用于基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。
一种可能的实施方式中,所述访问日志中还携带有设备访问的网络互连协议IP地址;
所述预处理模块,在对所述待识别的设备集合进行预处理,确定设备子集时,用于:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
一种可能的实施方式中,所述预处理模块,在基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数时,用于:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
一种可能的实施方式中,所述预处理模块,在基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度时,用于:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
一种可能的实施方式中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。
一种可能的实施方式中,所述确定模块,在基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量时,用于:
将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。
一种可能的实施方式中,所述相似度图中的节点为所述候选设备;
所述识别模块,在基于所述相似度图确定属于同一用户的目标设备对时,用于:
基于图聚类算法对所述相似度图中的节点进行聚类;
将属于同一类的所述候选设备确定为所述目标设备对。
一种可能的实施方式中,所述装置还包括:训练模块,所述训练模块用于按照以下方法训练得到所述神经网络模型:
获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;
对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;
确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;
基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;
将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;
基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;
基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中的步骤。
本申请实施例提供的基于知识图谱的用户识别方法及装置,首先对获取的待识别的设备集合进行预处理,确定设备子集,然后从设备子集中筛选目标设备对,提高了用户识别的效率;在从设备子集中筛选目标设备对时,基于设备子集中的设备对的属性特征构建知识图谱,并基于知识图谱确定每一个设备对的相似度向量,再基于设备对的相似度向量和预先训练好的神经网络模型预测候选设备对,以及候选设备对之间的相似度,最终基于候选设备对之间的相似度,构建相似度图,并基于相似度图确定目标设备对,通过这种方法可以提高用户识别的精度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种基于知识图谱的用户识别方法的流程示意图;
图2示出了本申请实施例所提供的一种设备子集确定方法的流程示意图;
图3示出了本申请实施例所提供的一种神经网络模型训练方法的流程示意图;
图4示出了本申请实施例所提供的一种基于知识图谱的用户识别装置的架构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种基于知识图谱的用户识别方法进行详细介绍。
参见图1所示,为本申请实施例所提供的一种基于知识图谱的用户识别方法的流程示意图,包括以下步骤:
步骤101、获取待识别的设备集合以及设备集合中的每一个设备的访问日志,访问日志中携带有设备的标识信息,设备为第一设备或第二设备。
其中,第一设备和第二设备的设备类型不同,第一设备和第二设备例如可以为以下设备类型中的一种:
个人计算机(Personal computer,PC),移动设备。
步骤102、对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系。
在一种可能的实施方式中,访问日志中还携带有设备访问的网络互连协议IP地址,还可以携带有设备访问每一个IP地址的时间信息。
步骤103、基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系。
步骤104、将设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到设备子集中的候选设备对、以及候选设备对之间的相似度;候选设备对之间的相似度满足第一预设相似度条件。
步骤105、基于候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于相似度图确定属于同一用户的目标设备对,目标设备对属于同一用户。
以下是对上述步骤101~步骤105的详细说明。
针对步骤101:
待识别的设备集合中包括至少一个第一设备和第二设备,本方案的目的在于识别待识别的设备集合中属于同一用户的目标设备对。
针对步骤102:
在对待识别的设备集合进行预处理,确定设备子集时,可以参照如图2所示的方法,包括以下几个步骤:
步骤201、基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合。
具体的,设备集合中每一个设备的访问日志中记录有设备访问的IP地址,因此可以基于设备集合中每一个日志的访问日志,确定该设备集合中所有设备访问的所有的IP地址,然后确定每一个IP地址对应的私密度参数。
在一种可能的实施方式中,针对每一个IP地址,在计算其对应的私密度参数时,可以先基于设备集合中每一个设备的访问记录,确定该IP地址被每个设备访问的访问次数、以及该IP地址被不同设备访问的总次数;然后将不同设备访问该IP地址的访问次数由大到小进行排序,并将前N个访问次数对应的设备确定为选定设备,将选定设备对应的IP地址的访问次数进行求和运算,并将求和结果与总次数之间的比值确定为IP地址对应的私密度参数。
具体的,可以参照以下公式进行计算:
其中,P表示IP地址的私密度参数,M表示访问该IP地址的设备的数量,N为预设参数值,Ai表示将访问该IP地址的设备的访问次数由大到小进行排序之后,排在第i位的设备的访问次数。
步骤202、基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度。
具体实施中,在基于IP地址对应的私密度信息,确定设备集合中任意两个设备对应的IP集合之间的相似度时,考虑到不同类型的IP地址的访问的总次数可能不同,为了在同一纬度上对IP地址进行分析,因此可以先利用每隔IP地址的私密度参数,对每个IP地址被每个设备访问的访问次数进行归一化处理。
具体的,可以按照以下公式进行归一化处理:
其中,t’表示进行归一化处理后的访问次数,P表示IP地址的私密度参数,T表示访问该IP地址的设备的访问次数的最大值。
在对每个IP地址被每个设备访问的访问次数进行归一化处理之后,可以基于归一化处理后的访问次数、设备的标识、以及设备对应的IP集合中包含的IP地址,构建设备对应的IP集合的特征向量,然后基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
在一种可能的实施方式中,在基于任意两个IP集合的特征向量,计算IP集合之间的相似度时,可以计算两个IP集合的特征向量之间的余弦距离、欧式距离等。
步骤203、将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
本申请一示例中,可以将相似度超过相似度阈值的两个设备划分至设备子集中。需要说明的时,本申请中所述设备子集中包括至少一个第一设备和至少一个第二设备,对于设备子集中的任意一个设备A,都存在另外一个设备B,设备A对应的IP集合的特征向量与设备B之间的特征向量的相似度满足第二预设相似度条件。
针对步骤103:
在基于设备子集中的设备对之间的属性特征,构建知识图谱时,可以将设备子集中的第一设备和设备子集中的第二设备作为知识图谱的节点,将第一设备的属性特征和第二设备的属性特征作为知识图谱的边。
其中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。
在基于构建的知识图谱确定设备子集中的每一个设备对的相似度向量是,可以是先基于构建的知识图谱确定设备子集中每一个设备对的属性特征的特征值,然后将每一个设备对的属性特征的特征值确定为该设备对对应的相似度向量的元素值。其中,相似度向量用于描述该设备对中两个设备之间的关联关系。
针对步骤104:
在将设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中之后,可以输出得到设备子集中的候选设备对、以及候选设备对之间的相似度,候选设备对为神经网络模型预测的可能为同一用户的设备,候选设备对之间的相似度满足第一预设相似度条件,例如,候选设备对之间的相似度在预设相似度阈值范围内。
针对步骤105:
在基于候选设备对之间的相似度构建相似度图时,可以将候选设备对中候选设备作为相似度图中的节点,然后属于同一候选设备对的两个候选设备连接,从而构成相似度图。
在基于相似度图确定属于同一用户的目标设备对时,可以基于候选设备对之间的相似度,对相似度图中的各个节点进行图聚类,并将属于同一类的候选设备确定为目标设备对,所述目标设备对属于同一用户。
在一种可能的实施方式中,本申请实施例还提供了一种神经网络模型的训练方法,参见图3所示,为本申请实施例所提供的一种神经网络模型训练方法的流程示意图,包括以下几个步骤:
步骤301、获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签。
步骤302、对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系。
步骤303、确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱。
步骤304、基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系。
步骤305、将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度。
步骤306、基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对。
步骤307、基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
具体实施中,对于样本设备集合中不知属于何种用户的样本设备P,可以按照图1所示的方法,计算该样本设备P的私密度参数,然后基于样本设备集合中的设备的访问日志,确定样本设备集合中任意一个设备访问的IP集合,再计算样本设备P的IP集合与所有带有用户标签的样本设备的IP集合之间的相似度,当相似度超过预设阈值时,将样本设备P添加相同的用户标签,当相似度不超过预设阈值时,为样本设备P添加新的用户标签,所述新的用户标签与样本设备集合中其他的用户标签不同。
需要说明的时,当为样本设备P添加相同的用户标签时,需要重新更新下该样本设备访问的IP地址的私密度参数。
在一种可能的实施方式中,对于样本设备集合中存在有必然不能与其他设备构成目标设备对的设备,针对此类设备,为了提高用户识别效率,可以提前对这类设备排除。
具体的,可以先基于样本设备集合中所有设备访问的IP地址,可以将IP地址的私密度参数大于预设私密度参数的IP地址作为备选IP地址,然后将访问的IP地址集合与备选IP地址构成的备选IP地址集合有交集的设备添加至样本设备子集合,将带有同一用户标签的设备的访问的IP地址集合与备选IP地址集合有交集的设备添加至样本设备子集合,针对样本设备子集合再执行步骤302-步骤307的步骤。
本申请实施例提供的基于知识图谱的用户识别方法,首先对获取的待识别的设备集合进行预处理,确定设备子集,然后从设备子集中筛选目标设备对,提高了用户识别的效率;在从设备子集中筛选目标设备对时,基于设备子集中的设备对的属性特征构建知识图谱,并基于知识图谱确定每一个设备对的相似度向量,再基于设备对的相似度向量和预先训练好的神经网络模型预测候选设备对,以及候选设备对之间的相似度,最终基于候选设备对之间的相似度,构建相似度图,并基于相似度图确定目标设备对,通过这种方法可以提高用户识别的精度。
基于相同的构思,本申请实施例还提供了一种基于知识图谱的用户识别装置,参见图4所示,为本申请实施例所提供的一种基于知识图谱的用户识别装置的架构示意图,包括获取模块401、预处理模块402、确定模块403、预测模块404、识别模块405、以及训练模块406,具体的:
获取模块401,用于获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
预处理模块402,用于对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
确定模块403,用于基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
预测模块404,用于将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
识别模块405,用于基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。
一种可能的实施方式中,所述访问日志中还携带有设备访问的网络互连协议IP地址;
所述预处理模块402,在对所述待识别的设备集合进行预处理,确定设备子集时,用于:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
一种可能的实施方式中,所述预处理模块402,在基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数时,用于:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
一种可能的实施方式中,所述预处理模块402,在基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度时,用于:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
一种可能的实施方式中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。
一种可能的实施方式中,所述确定模块403,在基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量时,用于:
将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。
一种可能的实施方式中,所述相似度图中的节点为所述候选设备;
所述识别模块405,在基于所述相似度图确定属于同一用户的目标设备对时,用于:
基于图聚类算法对所述相似度图中的节点进行聚类;
将属于同一类的所述候选设备确定为所述目标设备对。
一种可能的实施方式中,所述装置还包括:训练模块406,所述训练模块406用于按照以下方法训练得到所述神经网络模型:
获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;
对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;
确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;
基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;
将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;
基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;
基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
基于同一技术构思,本申请实施例还提供了一种电子设备。参照图5所示,为本申请实施例提供的电子设备500的结构示意图,包括处理器501、存储器502、和总线503。其中,存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当电子设备500运行时,处理器501与存储器502之间通过总线503通信,使得处理器501在执行以下指令:
获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。
一种可能的实施方式中,处理器501执行的指令中,所述访问日志中还携带有设备访问的网络互连协议IP地址;
对所述待识别的设备集合进行预处理,确定设备子集,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
一种可能的实施方式中,处理器501执行的指令中,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
一种可能的实施方式中,处理器501执行的指令中,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
一种可能的实施方式中,处理器501执行的指令中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。
一种可能的实施方式中,处理器501执行的指令中,所述基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,包括:
将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。
一种可能的实施方式中,处理器501执行的指令中,所述相似度图中的节点为所述候选设备;
所述基于所述相似度图确定属于同一用户的目标设备对,包括:
基于图聚类算法对所述相似度图中的节点进行聚类;
将属于同一类的所述候选设备确定为所述目标设备对。
一种可能的实施方式中,处理器501执行的指令中,按照以下方法训练得到所述神经网络模型:
获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;
对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;
确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;
基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;
将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;
基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;
基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例中所述的基于知识图谱的用户识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述基于知识图谱的用户识别方法的步骤。
本申请实施例所提供的进行基于知识图谱的用户识别方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于知识图谱的用户识别方法,其特征在于,包括:
获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;其中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数;
将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户;
所述访问日志中还携带有设备访问的网络互连协议IP地址;
对所述待识别的设备集合进行预处理,确定设备子集,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;其中,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
2.根据权利要求1所述的方法,其特征在于,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,包括:
将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。
6.根据权利要求1所述的方法,其特征在于,所述相似度图中的节点为所述候选设备;
所述基于所述相似度图确定属于同一用户的目标设备对,包括:
基于图聚类算法对所述相似度图中的节点进行聚类;
将属于同一类的所述候选设备确定为所述目标设备对。
7.根据权利要求1所述的方法,其特征在于,按照以下方法训练得到所述神经网络模型:
获取样本设备集合,所述样本设备集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;
对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;
确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;
基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;
将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;
基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;
基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。
8.一种基于知识图谱的用户识别装置,其特征在于,包括:
获取模块,用于获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
预处理模块,用于对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
确定模块,用于基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;其中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数;
预测模块,用于将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
识别模块,用于基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户;
所述访问日志中还携带有设备访问的网络互连协议IP地址;
所述预处理模块,在对所述待识别的设备集合进行预处理,确定设备子集时,用于:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;其中,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的基于知识图谱的用户识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的基于知识图谱的用户识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292543.4A CN111090807B (zh) | 2019-12-16 | 2019-12-16 | 一种基于知识图谱的用户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292543.4A CN111090807B (zh) | 2019-12-16 | 2019-12-16 | 一种基于知识图谱的用户识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090807A CN111090807A (zh) | 2020-05-01 |
CN111090807B true CN111090807B (zh) | 2023-08-25 |
Family
ID=70395063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911292543.4A Active CN111090807B (zh) | 2019-12-16 | 2019-12-16 | 一种基于知识图谱的用户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090807B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113784227A (zh) * | 2020-06-10 | 2021-12-10 | 北京金山云网络技术有限公司 | 一种视频切片方法、装置、电子设备及存储介质 |
CN112559872A (zh) * | 2020-12-21 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 设备间用户识别方法、***、计算机设备及存储介质 |
CN113486211A (zh) * | 2021-06-30 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 帐号识别方法、装置、电子设备、存储介质及程序产品 |
CN114820001A (zh) * | 2022-05-27 | 2022-07-29 | 中国建设银行股份有限公司 | 一种目标客户筛选方法、装置、设备及介质 |
CN117271700B (zh) * | 2023-11-23 | 2024-02-06 | 武汉蓝海科创技术有限公司 | 集成智能学习功能的设备使用与维修知识库的构建*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943943A (zh) * | 2017-11-23 | 2018-04-20 | 北京小度信息科技有限公司 | 用户相似度的确定方法、装置、电子设备及存储介质 |
CN108197190A (zh) * | 2017-12-26 | 2018-06-22 | 北京秒针信息咨询有限公司 | 一种用户识别的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160182657A1 (en) * | 2014-12-17 | 2016-06-23 | Sharethis, Inc. | Apparatus and method of user identification across multiple devices |
US11184449B2 (en) * | 2016-07-19 | 2021-11-23 | Adobe Inc. | Network-based probabilistic device linking |
-
2019
- 2019-12-16 CN CN201911292543.4A patent/CN111090807B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943943A (zh) * | 2017-11-23 | 2018-04-20 | 北京小度信息科技有限公司 | 用户相似度的确定方法、装置、电子设备及存储介质 |
CN108197190A (zh) * | 2017-12-26 | 2018-06-22 | 北京秒针信息咨询有限公司 | 一种用户识别的方法和装置 |
Non-Patent Citations (1)
Title |
---|
跨设备用户识别;宋荣伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215;I140-226 * |
Also Published As
Publication number | Publication date |
---|---|
CN111090807A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090807B (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN108009915B (zh) | 一种欺诈用户社区的标记方法及相关装置 | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN110415107B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112435137B (zh) | 一种基于社团挖掘的欺诈信息检测方法及*** | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN112839014B (zh) | 建立识别异常访问者模型的方法、***、设备及介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN114244611B (zh) | 异常攻击检测方法、装置、设备及存储介质 | |
CN111260220A (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN112800197A (zh) | 一种目标故障信息的确定方法和装置 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
CN112632609A (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN114223012A (zh) | 推送对象确定方法、装置、终端设备及存储介质 | |
CN112668632A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
CN111651755A (zh) | 入侵检测方法和装置 | |
CN111491300A (zh) | 风险检测方法、装置、设备及存储介质 | |
CN109784403B (zh) | 一种识别风险设备的方法以及相关设备 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN112287339A (zh) | Apt入侵检测方法、装置以及计算机设备 | |
CN108076032A (zh) | 一种异常行为用户识别方法及装置 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
CN111767419B (zh) | 图片搜索方法、装置、设备及计算机可读存储介质 | |
CN110781410A (zh) | 一种社群检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |