CN110533085A - 同人识别方法及装置、存储介质、计算机设备 - Google Patents

同人识别方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN110533085A
CN110533085A CN201910740557.1A CN201910740557A CN110533085A CN 110533085 A CN110533085 A CN 110533085A CN 201910740557 A CN201910740557 A CN 201910740557A CN 110533085 A CN110533085 A CN 110533085A
Authority
CN
China
Prior art keywords
user
sample
cluster
users
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910740557.1A
Other languages
English (en)
Other versions
CN110533085B (zh
Inventor
刘逸哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhu (hangzhou) Technology Co Ltd
Original Assignee
Dazhu (hangzhou) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhu (hangzhou) Technology Co Ltd filed Critical Dazhu (hangzhou) Technology Co Ltd
Priority to CN201910740557.1A priority Critical patent/CN110533085B/zh
Publication of CN110533085A publication Critical patent/CN110533085A/zh
Application granted granted Critical
Publication of CN110533085B publication Critical patent/CN110533085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种同人识别方法及装置、存储介质、计算机设备,该方法包括:基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇;分别从每个所述样本用户簇中提取至少一组训练样本用户,并获取所述训练样本用户的同人标注信息;利用所述训练样本用户以及相应的所述同人标注信息,训练同人识别模型;根据训练后的所述同人识别模型对待识别用户进行同人识别。本申请通过对样本用户的聚类,减少同人识别模型的训练量,实现了训练的优化,提升训练效率。

Description

同人识别方法及装置、存储介质、计算机设备
技术领域
本申请涉及数据分析技术领域,尤其是涉及到一种同人识别方法及装置、存储介质、计算机设备。
背景技术
当前互联网蓬勃发展,催生出一批电商及网络金融服务公司,由于电商公司会有各种新人补贴,金融服务公司会直接借款给用户,都导致很多用户更换手机号,重新注册等手段获取利益,因此,如何确定网站注册用户,或者服务对象是同一个人,成为电商及互联网金融服务公司降低运营成本和风险的关键。
在同人识别领域中,训练样本的构建对训练同人识别模型至关重要。如何从大量的样本用户中快速确定哪两个用户属于同一个用户,进而构建训练样本集是该领域中的重要问题。
发明内容
有鉴于此,本申请提供了一种同人识别方法及装置、存储介质、计算机设备,通过对样本用户的聚类,减少同人识别模型的训练量,实现了训练的优化,提升训练效率。
根据本申请的一个方面,提供了一种同人识别方法,包括:
基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇;
分别从每个所述样本用户簇中提取至少一组训练样本用户,并获取所述训练样本用户的同人标注信息;
利用所述训练样本用户以及相应的所述同人标注信息,训练同人识别模型;
根据训练后的所述同人识别模型对待识别用户进行同人识别。
具体地,所述基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇之前,所述方法还包括:
获取样本用户的基础数据;
基于所述样本用户的基础数据,按照预设特征类别统计所述样本用户的特征信息。
具体地,所述基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇,具体包括:
根据所述样本用户的数量确定聚类数量,并生成相应聚类数量的初始聚类中心;
按照所述初始聚类中心,对所述样本用户的特征信息进行K均值聚类,得到相应聚类数量的所述样本用户簇以及与每个所述样本用户簇对应的聚类中心。
具体地,任意一组所述训练样本用户包括任一所述样本用户簇中聚类中心对应的所述样本用户以及同一所述样本簇中其他任一所述样本用户,所述同人标注信息包括同人标注或非同人标注。
具体地,所述根据训练后的所述同人识别模型对待识别用户进行同人识别,具体包括:
根据所述待识别用户的基础数据,按照所述预设特征类别统计所述待识别用户的特征信息;
基于所述待识别用户的特征信息对所述待识别用户进行聚类,得到至少一个待识别用户簇以及与所述待识别用户簇对应的聚类中心;
获取任一所述待识别用户簇对应的中心用户以及比对用户,其中,所述中心用户为所述待识别用户簇的聚类中心对应的所述待识别用户,所述比对用户为所述待识别用户簇中除聚类中心外的全部所述待识别用户;
将任一所述待识别用户簇中的所述中心用户对应的特征信息以及任一所述比对用户对应的特征信息输入至训练后的所述同人识别模型中,得到所述中心用户与任一所述比对用户是否为同一用户的结果。
具体地,所述方法还包括:
若所述中心用户与任一所述比对用户为同一用户,则根据任一所述比对用户建立与所述中心用户相应的同人集合。
具体地,所述基础特征数据包括但不限于所述样本用户的通信数据、运营商服务数据以及电商运营数据中的至少一种或其组合。
根据本申请的另一方面,提供了一种同人识别装置,包括:
样本聚类模块,用于基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇;
训练样本获取模块,用于分别从每个所述样本用户簇中提取至少一组训练样本用户,并获取所述训练样本用户的同人标注信息;
训练模块,用于利用所述训练样本用户以及相应的所述同人标注信息,训练同人识别模型;
识别模块,用于根据训练后的所述同人识别模型对待识别用户进行同人识别。
具体地,所述装置还包括:
基础数据获取模块,用于基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇之前,获取样本用户的基础数据;
特征信息统计模块,用于基于所述样本用户的基础数据,按照预设特征类别统计所述样本用户的特征信息。
具体地,所述样本聚类模块,具体包括:
聚类中心生成单元,用于根据所述样本用户的数量确定聚类数量,并生成相应聚类数量的初始聚类中心;
聚类单元,用于按照所述初始聚类中心,对所述样本用户的特征信息进行K均值聚类,得到相应聚类数量的所述样本用户簇以及与每个所述样本用户簇对应的聚类中心。
具体地,任意一组所述训练样本用户包括任一所述样本用户簇中聚类中心对应的所述样本用户以及同一所述样本簇中其他任一所述样本用户,所述同人标注信息包括同人标注或非同人标注。
具体地,所述识别模块,具体包括:
特征信息统计单元,用于根据所述待识别用户的基础数据,按照所述预设特征类别统计所述待识别用户的特征信息;
聚类单元,用于基于所述待识别用户的特征信息对所述待识别用户进行聚类,得到至少一个待识别用户簇以及与所述待识别用户簇对应的聚类中心;
识别用户获取单元,用于获取任一所述待识别用户簇对应的中心用户以及比对用户,其中,所述中心用户为所述待识别用户簇的聚类中心对应的所述待识别用户,所述比对用户为所述待识别用户簇中除聚类中心外的全部所述待识别用户;
识别单元,用于将任一所述待识别用户簇中的所述中心用户对应的特征信息以及任一所述比对用户对应的特征信息输入至训练后的所述同人识别模型中,得到所述中心用户与任一所述比对用户是否为同一用户的结果。
具体地,所述装置还包括:
结果输出模块,用于若所述中心用户与任一所述比对用户为同一用户,则根据任一所述比对用户建立与所述中心用户相应的同人集合。
具体地,所述基础特征数据包括但不限于所述样本用户的通信数据、运营商服务数据以及电商运营数据中的至少一种或其组合。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述同人识别方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述同人识别方法。
借由上述技术方案,本申请提供的一种同人识别方法及装置、存储介质、计算机设备,先利用样本用户的特征信息对样本用户进行聚类,将属于同一个人可能性较高的样本用户放入同一个簇中,然后在每个簇中选取训练样本用户,并对训练样本用户进行同人信息标注后,利用训练样本用户对应的特征信息以及同人信息标注训练同人识别模型,最后利用同人识别模型对待识别用户进行同人识别。本申请通过对样本用户的聚类,减少同人识别模型的训练量,实现了训练的优化,提升训练效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种同人识别方法的流程示意图;
图2示出了本申请实施例提供的另一种同人识别方法的流程示意图;
图3示出了本申请实施例提供的一种同人识别装置的结构示意图;
图4示出了本申请实施例提供的另一种同人识别装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种同人识别方法,如图1所示,该方法包括:
步骤101,基于样本用户的特征信息对样本用户进行聚类,得到至少一个样本用户簇。
在本申请实施例中,在进行同人识别之前,应先训练同人识别模型,一般来说,需要通过人工筛选的方式从样本数据中选取训练所需的样本,即属于同一个用户的样本,然而从大量的样本数据中选取出属于同一个用户的样本数据工作量非常大,因此,本申请实施例通过对样本用户进行聚类的方式,先将有可能属于相同身份的样本用户划分到一个簇中,从而可以大大减少标注工作量。
需要说明的是,本申请实施例中基于样本用户的特征信息对样本用户进行聚类,样本用户的特征信息可以包括样本用户的通信数据、运营商服务数据、电商运营数据等,通信数据可以包括呼入电话号码、呼出电话号码等,运营商服务数据可以包括各种运营机构发入的短信,例如银行发送的***刷卡信息等等,电商运营数据可以包括样本用户在电商平台的购买、收藏、流量数据等等。
步骤102,分别从每个样本用户簇中提取至少一组训练样本用户,并获取训练样本用户的同人标注信息。
将样本用户划分为一个或多个样本用户簇后,即将属于同一人可能性较高的样本用户划分到一个簇中之后,将样本用户簇中的样本用户划分为多组训练样本用户,其中,每组训练样本用户包括两个样本用户,将每个样本用户簇划分为相应的训练样本用户后,可以通过人工标注或其他的方式判断每组训练样本用户是否为同一用户并进行标注。
步骤103,利用训练样本用户以及相应的同人标注信息,训练同人识别模型。
对训练样本用户标注后,可以依据训练样本的特征信息以及相应的同人标注信息,训练同人识别模型,其中,同人识别模型是二分类模型。另外,本申请实施例对于同人识别模型以及训练方法不做限定,例如,采用基本的逻辑回归模型,设定损失函数,使用随机梯度下降方法,训练模型的参数,得出最终的同人识别模型。从而利用训练得出的同人识别模型对待识别用户进行同人识别。
步骤104,根据训练后的同人识别模型对待识别用户进行同人识别。
在利用同人识别模型对待识别用户进行同人识别的过程中,也可以按照对样本用户的聚类方法,先将待识别用户进行聚类划分成若干个簇之后,再将同一个簇中的两两用户特征信息输入至同人识别模型中进行同人识别,避免将全部的待识别用户进行两两组合进行同人识别,浪费识别时间,从而提高识别效率。
当然,为了提高识别准确率,也可以将全部的待识别用户进行两两组合输入至同人识别模型中实现同人识别。
通过应用本实施例的技术方案,先利用样本用户的特征信息对样本用户进行聚类,将属于同一个人可能性较高的样本用户放入同一个簇中,然后在每个簇中选取训练样本用户,并对训练样本用户进行同人信息标注后,利用训练样本用户对应的特征信息以及同人信息标注训练同人识别模型,最后利用同人识别模型对待识别用户进行同人识别。本申请通过对样本用户的聚类,减少同人识别模型的训练量,实现了训练的优化,提升训练效率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种同人识别方法,如图2所示,该方法包括:
步骤201,获取样本用户的基础数据。
其中,基础特征数据包括但不限于所述样本用户的通信数据、运营商服务数据以及电商运营数据中的至少一种或其组合。
步骤202,基于样本用户的基础数据,按照预设特征类别统计样本用户的特征信息。
按照预设特征类别,将样本用户的基础数据归纳为样本用户的特征信息,例如,预设特征类别包括呼入电话号码,假设样本用户的基础数据中的呼入电话号码包括A、B、D三个,全部的电话号码数据库中包括A、B、C、D、E五个电话号码,那么提取样本用户的呼入电话号码特征信息为(1,1,0,1,0),其他特征信息不做举例说明。
步骤203,根据样本用户的数量确定聚类数量,并生成相应聚类数量的初始聚类中心。
步骤204,按照初始聚类中心,对样本用户的特征信息进行K均值聚类,得到相应聚类数量的样本用户簇以及与每个样本用户簇对应的聚类中心。
在步骤203和步骤204中,提取样本用户的特征信息后,利用样本用户特征信息进行聚类分析,将样本用户划分为样本用户簇,具体可以采用K均值聚类的方式。当然,也可以采用其他的聚类方式,本申请实施例对K均值聚类的方式进行解释说明,首先,根据样本用户的数量确定聚类数量K,例如每100个样本用户对应一个聚类,然后,随机生成K个初始聚类中心,或者按照其他约定的方式生成K个初始聚类中心,最后,按照K个初始聚类中心,计算每个样本与各个聚类中心之间的距离,把每个样本分配给距离它最近的聚类中心,最终得到K个样本用户簇以及K个聚类中心。
步骤205,分别从每个样本用户簇中提取至少一组训练样本用户,并获取训练样本用户的同人标注信息。
具体地,任意一组训练样本用户包括任一样本用户簇中聚类中心对应的样本用户以及同一样本簇中其他任一样本用户,同人标注信息包括同人标注或非同人标注。
在上述实施例中,提取训练样本用户时,为了减少训练样本量,由于在进行聚类时,是依据聚类中心样本与其他样本之间的距离进行聚类,因此每个簇的聚类中心样本与其他样本是同一个人的可能性较高,可以将每个簇中的聚类中心样本与其他样本进行两两组合得出训练样本,从而通过人工标注等方式对每组训练样本用户进行同人信息的标注,具体标注每组训练样本用户是否属于同一个人。
步骤206,利用训练样本用户以及相应的同人标注信息,训练同人识别模型。
训练同人识别模型的方式可以参见对上述步骤103的说明,在此不再赘述。
步骤207,根据待识别用户的基础数据,按照预设特征类别统计待识别用户的特征信息。
步骤208,基于待识别用户的特征信息对待识别用户进行聚类,得到至少一个待识别用户簇以及与待识别用户簇对应的聚类中心。
步骤209,获取任一待识别用户簇对应的中心用户以及比对用户,其中,中心用户为待识别用户簇的聚类中心对应的待识别用户,比对用户为待识别用户簇中除聚类中心外的全部待识别用户。
步骤210,将任一待识别用户簇中的中心用户对应的特征信息以及任一比对用户对应的特征信息输入至训练后的同人识别模型中,得到中心用户与任一比对用户是否为同一用户的结果。
在上述步骤207至步骤210中,在对待识别用户进行同人识别的过程中,为了提高识别效率,可以先对待识别用户进行聚类得到待识别用户簇,进而利用步骤206中训练得出的同人识别模型分别识别每个待识别用户簇中的聚类中心用户与其他用户是否为同一用户。具体的聚类方法可以与样本用户的聚类方法相同,为了提高识别效率,由于在进行聚类时,是依据聚类中心样本与其他样本之间的距离进行聚类,因此每个簇的聚类中心样本与其他样本是同一个人的可能性较高,因此在识别时,将同一个簇中的聚类中心对应的中心用户与其他的用户的特征信息输入至同人识别模型中进行识别。
步骤211,若中心用户与任一比对用户为同一用户,则根据任一比对用户建立与中心用户相应的同人集合。
得出任一待识别用户簇的每个比对用户是否与中心用户属于同一用户的结论后,将与中心用户属于同一用户的比对用户建立一个同人集合,则该集合中的用户与该中心用户都属于同一个人。
通过应用本实施例的技术方案,第一,融合用户通联关系、运营商服务数据、电商运营数据等多元数据归纳用户特征信息,相比于现有技术通过简单规则匹配判断用户是否为同一个人来说,对于同人信息的判断结果更准确;第二,对用户的聚类分析作为同人识别模型的前值操作,减少数据量,对计算性能的优化方法;第三,同人识别模型作为聚类分析的后置操作,提升同人识别模型的判别准确度。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种同人识别装置,如图3所示,该装置包括:样本聚类模块31、训练样本获取模块32、训练模块33、识别模块34。
样本聚类模块31,用于基于样本用户的特征信息对样本用户进行聚类,得到至少一个样本用户簇;
训练样本获取模块32,用于分别从每个样本用户簇中提取至少一组训练样本用户,并获取训练样本用户的同人标注信息;
训练模块33,用于利用训练样本用户以及相应的同人标注信息,训练同人识别模型;
识别模块34,用于根据训练后的同人识别模型对待识别用户进行同人识别。
在具体的应用场景中,该装置还包括:基础数据获取模块35、特征信息统计模块36。
基础数据获取模块35,用于基于样本用户的特征信息对样本用户进行聚类,得到至少一个样本用户簇之前,获取样本用户的基础数据;
特征信息统计模块36,用于基于样本用户的基础数据,按照预设特征类别统计样本用户的特征信息。
在具体的应用场景中,样本聚类模块31,具体包括:聚类中心生成单元311、聚类单元312。
聚类中心生成单元311,用于根据样本用户的数量确定聚类数量,并生成相应聚类数量的初始聚类中心;
聚类单元312,用于按照初始聚类中心,对样本用户的特征信息进行K均值聚类,得到相应聚类数量的样本用户簇以及与每个样本用户簇对应的聚类中心。
在具体的应用场景中,任意一组训练样本用户包括任一样本用户簇中聚类中心对应的样本用户以及同一样本簇中其他任一样本用户,同人标注信息包括同人标注或非同人标注。
在具体的应用场景中,识别模块34,具体包括:特征信息统计单元341、聚类单元342、识别用户获取单元343、识别单元344。
特征信息统计单元341,用于根据待识别用户的基础数据,按照预设特征类别统计待识别用户的特征信息;
聚类单元342,用于基于待识别用户的特征信息对待识别用户进行聚类,得到至少一个待识别用户簇以及与待识别用户簇对应的聚类中心;
识别用户获取单元343,用于获取任一待识别用户簇对应的中心用户以及比对用户,其中,中心用户为待识别用户簇的聚类中心对应的待识别用户,比对用户为待识别用户簇中除聚类中心外的全部待识别用户;
识别单元344,用于将任一待识别用户簇中的中心用户对应的特征信息以及任一比对用户对应的特征信息输入至训练后的同人识别模型中,得到中心用户与任一比对用户是否为同一用户的结果。
在具体的应用场景中,该装置还包括:结果输出模块37。
结果输出模块37,用于若中心用户与任一比对用户为同一用户,则根据任一比对用户建立与中心用户相应的同人集合。
具体地,基础特征数据包括但不限于样本用户的通信数据、运营商服务数据以及电商运营数据中的至少一种或其组合。
需要说明的是,本申请实施例提供的一种同人识别装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的同人识别方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的同人识别方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作***、网络通信模块。操作***是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现先利用样本用户的特征信息对样本用户进行聚类,将属于同一个人可能性较高的样本用户放入同一个簇中,然后在每个簇中选取训练样本用户,并对训练样本用户进行同人信息标注后,利用训练样本用户对应的特征信息以及同人信息标注训练同人识别模型,最后利用同人识别模型对待识别用户进行同人识别。本申请通过对样本用户的聚类,减少同人识别模型的训练量,实现了训练的优化,提升训练效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种同人识别方法,其特征在于,包括:
基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇;
分别从每个所述样本用户簇中提取至少一组训练样本用户,并获取所述训练样本用户的同人标注信息;
利用所述训练样本用户以及相应的所述同人标注信息,训练同人识别模型;
根据训练后的所述同人识别模型对待识别用户进行同人识别。
2.根据权利要求1所述的方法,其特征在于,所述基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇之前,所述方法还包括:
获取样本用户的基础数据;
基于所述样本用户的基础数据,按照预设特征类别统计所述样本用户的特征信息。
3.根据权利要求2所述的方法,其特征在于,所述基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇,具体包括:
根据所述样本用户的数量确定聚类数量,并生成相应聚类数量的初始聚类中心;
按照所述初始聚类中心,对所述样本用户的特征信息进行K均值聚类,得到相应聚类数量的所述样本用户簇以及与每个所述样本用户簇对应的聚类中心。
4.根据权利要求3所述的方法,其特征在于,任意一组所述训练样本用户包括任一所述样本用户簇中聚类中心对应的所述样本用户以及同一所述样本簇中其他任一所述样本用户,所述同人标注信息包括同人标注或非同人标注。
5.根据权利要求4所述的方法,其特征在于,所述根据训练后的所述同人识别模型对待识别用户进行同人识别,具体包括:
根据所述待识别用户的基础数据,按照所述预设特征类别统计所述待识别用户的特征信息;
基于所述待识别用户的特征信息对所述待识别用户进行聚类,得到至少一个待识别用户簇以及与所述待识别用户簇对应的聚类中心;
获取任一所述待识别用户簇对应的中心用户以及比对用户,其中,所述中心用户为所述待识别用户簇的聚类中心对应的所述待识别用户,所述比对用户为所述待识别用户簇中除聚类中心外的全部所述待识别用户;
将任一所述待识别用户簇中的所述中心用户对应的特征信息以及任一所述比对用户对应的特征信息输入至训练后的所述同人识别模型中,得到所述中心用户与任一所述比对用户是否为同一用户的结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述中心用户与任一所述比对用户为同一用户,则根据任一所述比对用户建立与所述中心用户相应的同人集合。
7.根据权利要求2至6中任一项所述的方法,其特征在于,所述基础特征数据包括但不限于所述样本用户的通信数据、运营商服务数据以及电商运营数据中的至少一种或其组合。
8.一种同人识别装置,其特征在于,包括:
样本聚类模块,用于基于样本用户的特征信息对所述样本用户进行聚类,得到至少一个样本用户簇;
训练样本获取模块,用于分别从每个所述样本用户簇中提取至少一组训练样本用户,并获取所述训练样本用户的同人标注信息;
训练模块,用于利用所述训练样本用户以及相应的所述同人标注信息,训练同人识别模型;
识别模块,用于根据训练后的所述同人识别模型对待识别用户进行同人识别。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的同人识别方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的同人识别方法。
CN201910740557.1A 2019-08-12 2019-08-12 同人识别方法及装置、存储介质、计算机设备 Active CN110533085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910740557.1A CN110533085B (zh) 2019-08-12 2019-08-12 同人识别方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910740557.1A CN110533085B (zh) 2019-08-12 2019-08-12 同人识别方法及装置、存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN110533085A true CN110533085A (zh) 2019-12-03
CN110533085B CN110533085B (zh) 2022-04-01

Family

ID=68663021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910740557.1A Active CN110533085B (zh) 2019-08-12 2019-08-12 同人识别方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN110533085B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159243A (zh) * 2019-12-30 2020-05-15 ***通信集团江苏有限公司 用户类型识别方法、装置、设备及存储介质
CN111598360A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 服务策略确定方法、装置及电子设备
CN111625817A (zh) * 2020-05-12 2020-09-04 咪咕文化科技有限公司 异常用户识别方法、装置、电子设备及存储介质
CN112085114A (zh) * 2020-09-14 2020-12-15 杭州中奥科技有限公司 线上线下身份匹配方法、装置、设备及存储介质
CN112148981A (zh) * 2020-09-29 2020-12-29 广州小鹏自动驾驶科技有限公司 同人识别方法、装置、设备和存储介质
CN112819106A (zh) * 2021-04-16 2021-05-18 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN113139005A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 基于同人识别模型的同人识别方法及相关设备
CN113361603A (zh) * 2021-06-04 2021-09-07 北京百度网讯科技有限公司 训练方法、类别识别方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130142423A1 (en) * 2010-06-01 2013-06-06 Tong Zhang Image clustering using a personal clothing model
CN106355170A (zh) * 2016-11-22 2017-01-25 Tcl集团股份有限公司 照片分类方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及***
US20180137395A1 (en) * 2016-11-17 2018-05-17 Samsung Electronics Co., Ltd. Recognition and training method and apparatus
CN108229321A (zh) * 2017-11-30 2018-06-29 北京市商汤科技开发有限公司 人脸识别模型及其训练方法和装置、设备、程序和介质
CN109816043A (zh) * 2019-02-02 2019-05-28 拉扎斯网络科技(上海)有限公司 用户识别模型的确定方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130142423A1 (en) * 2010-06-01 2013-06-06 Tong Zhang Image clustering using a personal clothing model
US20180137395A1 (en) * 2016-11-17 2018-05-17 Samsung Electronics Co., Ltd. Recognition and training method and apparatus
CN106355170A (zh) * 2016-11-22 2017-01-25 Tcl集团股份有限公司 照片分类方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及***
CN108229321A (zh) * 2017-11-30 2018-06-29 北京市商汤科技开发有限公司 人脸识别模型及其训练方法和装置、设备、程序和介质
CN109816043A (zh) * 2019-02-02 2019-05-28 拉扎斯网络科技(上海)有限公司 用户识别模型的确定方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN LU 等: ""Centralized and Clustered Features for Person Re-Identification"", 《 IEEE SIGNAL PROCESSING LETTERS》 *
胡易: ""视频中的人脸聚类***的设计与实现"", 《中国优秀博硕士学位论文全文数据库(硕士)-信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159243A (zh) * 2019-12-30 2020-05-15 ***通信集团江苏有限公司 用户类型识别方法、装置、设备及存储介质
CN111159243B (zh) * 2019-12-30 2023-08-04 ***通信集团江苏有限公司 用户类型识别方法、装置、设备及存储介质
CN111625817A (zh) * 2020-05-12 2020-09-04 咪咕文化科技有限公司 异常用户识别方法、装置、电子设备及存储介质
CN111625817B (zh) * 2020-05-12 2023-05-02 咪咕文化科技有限公司 异常用户识别方法、装置、电子设备及存储介质
CN111598360A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 服务策略确定方法、装置及电子设备
CN112085114A (zh) * 2020-09-14 2020-12-15 杭州中奥科技有限公司 线上线下身份匹配方法、装置、设备及存储介质
CN112148981A (zh) * 2020-09-29 2020-12-29 广州小鹏自动驾驶科技有限公司 同人识别方法、装置、设备和存储介质
CN112819106A (zh) * 2021-04-16 2021-05-18 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN112819106B (zh) * 2021-04-16 2021-07-13 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN113139005A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 基于同人识别模型的同人识别方法及相关设备
CN113361603A (zh) * 2021-06-04 2021-09-07 北京百度网讯科技有限公司 训练方法、类别识别方法、装置、电子设备以及存储介质
CN113361603B (zh) * 2021-06-04 2024-05-10 北京百度网讯科技有限公司 训练方法、类别识别方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN110533085B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN110533085A (zh) 同人识别方法及装置、存储介质、计算机设备
CN105468742B (zh) 恶意订单识别方法及装置
CN110166438B (zh) 账户信息的登录方法、装置、计算机设备及计算机存储介质
CN109634996A (zh) 客户信息表生成方法、装置、设备及计算机可读存储介质
CN110401779A (zh) 一种识别电话号码的方法、装置和计算机可读存储介质
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN107679737A (zh) 项目推荐的方法及装置
CN111815169A (zh) 业务审批参数配置方法及装置
CN113206909A (zh) 骚扰电话拦截方法及装置
CN107346344A (zh) 文本匹配的方法和装置
CN103390021A (zh) 从呼叫时间数据来提取社会关系的方法和装置
CN111242314A (zh) 深度学习加速器基准测试方法和装置
CN113609409A (zh) 一种推荐浏览信息的方法及其***、电子设备、存储介质
CN111401478B (zh) 数据异常识别方法以及装置
CN113221005A (zh) 客服推送方法、服务器及相关产品
CN110046233A (zh) 问题派发方法及装置
CN110232148A (zh) 项目推荐***、方法以及装置
CN109992614A (zh) 数据获取方法、装置和服务器
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN110210205B (zh) 登录状态的确定方法、装置、计算机设备及计算机存储介质
CN111163237B (zh) 呼叫业务流程控制方法和相关装置
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN110245775B (zh) 用户收支数据的分析方法、装置及计算机设备
CN107172311A (zh) 业务评估方法及终端设备
CN110163761B (zh) 基于图像处理的可疑项目成员识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant