CN111753154A - 用户数据处理方法、装置、服务器及计算机可读存储介质 - Google Patents

用户数据处理方法、装置、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN111753154A
CN111753154A CN202010574802.9A CN202010574802A CN111753154A CN 111753154 A CN111753154 A CN 111753154A CN 202010574802 A CN202010574802 A CN 202010574802A CN 111753154 A CN111753154 A CN 111753154A
Authority
CN
China
Prior art keywords
identified
cluster
clusters
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010574802.9A
Other languages
English (en)
Other versions
CN111753154B (zh
Inventor
陈振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010574802.9A priority Critical patent/CN111753154B/zh
Publication of CN111753154A publication Critical patent/CN111753154A/zh
Application granted granted Critical
Publication of CN111753154B publication Critical patent/CN111753154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户数据处理方法、装置、服务器及计算机可读存储介质,属于互联网技术领域。该方法通过获取至少一个待识别对象的特征数据,特征数据包括待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;对至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合;根据m个特征组合对应的特征数据,得到m个待识别集群,m个待识别集群对应于m个特征组合;对m个待识别集群进行聚类,筛选符合预设条件的目标集群。上述方法在筛选符合预设条件的目标集群时,考虑到待识别集群中的待识别对象的特征数据,使得目标集群的确定更加准确,从而提高用户数据处理的准确性及可靠性。

Description

用户数据处理方法、装置、服务器及计算机可读存储介质
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种用户数据处理方法、装置、服务器及计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,电子商务、第三方支付等线上业务也发生着爆发式的增长,互联网欺诈犯罪行为也变得越来越嚣张,因此,亟需一种用户数据处理方法,以识别互联网中的目标集群,例如互联网中的欺诈集群。
相关技术中,基于已确定的目标对象,挖掘与该已确定的目标对象相关的待识别对象;基于该待识别对象和目标对象构建关系网络,对该关系网络进行聚类发现,得到该关系网络中包括的至少一个集群,每个集群中包括多个待识别对象和目标对象;根据该集群中的待识别对象和该集群之间的相关度,确定该集群中相关度不满足参考相关度的待识别对象,将该不满足参考相关度的待识别对象去除,得到目标集群。
然而,上述用户数据处理方法是基于已确定的目标对象进行集群的识别,使得目标集群的识别受到一定的局限性,当服务器中不存在已确定的目标对象时,会降低目标集群的识别的准确度和可靠性。
发明内容
本申请实施例提供了一种用户数据处理方法、装置、服务器及计算机可读存储介质,可用于解决相关技术中的问题。该技术方案如下:
第一方面,本申请实施例提供了一种用户数据处理方法,该方法包括:
获取至少一个待识别对象的特征数据,该特征数据包括该待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;
对该至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,该m为大于等于1的整数;
根据该m个特征组合对应的特征数据,得到m个待识别集群,该m个待识别集群对应于该m个特征组合;
对该m个待识别集群进行聚类,筛选符合预设条件的目标集群。
在一种可能的实现方式中,该对该至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,包括:
对该至少一个待识别对象的特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据,该n为大于m的整数,该k为大于等于1的整数;
基于该n个特征组合中包括的特征数据的特征分值,计算该n个特征组合的评分;
根据该n个特征组合的评分进行排序,得到排序后的n个特征组合;
在该排序后的n个特征组合中,确定满足参考条件的m个特征组合。
在一种可能的实现方式中,该对该m个待识别集群进行聚类,筛选符合预设条件的目标集群,包括:
为该m个待识别集群分别匹配一个标签,该标签用于标识该待识别集群;
根据与该待识别集群相邻的邻居集群的标签,更新该待识别集群的标签,得到该待识别集群更新之后的标签;
将该待识别集群更新之后的标签中标签相同的待识别集群进行聚类,得到候选集群,该候选集群中包括多个待识别集群;
在该候选集群中筛选符合预设条件的目标集群。
在一种可能的实现方式中,该根据与该待识别集群相邻的邻居集群的标签,更新该待识别集群的标签,得到该待识别集群更新之后的标签,包括:
根据与该待识别集群相邻的邻居集群的标签,按照下述公式更新该待识别集群的标签,得到该待识别集群更新之后的标签:
Figure BDA0002550930250000021
其中,该argmax为最大值自变量函数,该i代表第i个待识别集群,该j代表与第i个待识别集群相邻的邻居集群j,该Wi,j为该第i个待识别集群和该邻居集群j之间的权重,该权重为该待识别集群和该邻居集群中包括的共同的待识别对象的数目,该N为邻居集群的数目,AN为第N个邻居集群。
在一种可能的实现方式中,该在该候选集群中筛选符合预设条件的目标集群,包括:
基于该候选集群的标签,确定该候选集群对应的风险分值;
响应于该候选集群的风险分值符合预设条件,将该候选集群确定为目标集群。
在一种可能的实现方式中,该在该候选集群中筛选符合预设条件的目标集群,包括:
计算该候选集群的相对熵,该相对熵包括离散型相对熵和连续型相对熵,该离散型相对熵用于表示该候选集群的外部差异性,该连续型相对熵用于表示该候选集群的内部聚集性;
响应于该离散型相对熵满足第一参考相对熵,且该连续型相对熵满足第二参考相对熵,将该候选集群确定为目标集群。
在一种可能的实现方式中,该基于该候选集群的标签,确定该候选集群对应的风险分值,包括:
将该候选集群的标签输入目标风险计算模型,通过该目标风险计算模型计算该候选集群的风险分值,得到该候选集群的风险分值。
在一种可能的实现方式中,该将该候选集群的标签输入目标风险计算模型之前,该方法还包括:
获取至少一个历史集群的标签;
根据该至少一个历史集群的标签,对初始风险计算模型进行训练,得到目标风险计算模型。
在一种可能的实现方式中,该环境数据包括该待识别对象所处的IP地址和地理位置数据中的至少一种;该注册数据包括该待识别对象在注册时填写的个人信息;该设备数据包括该待识别对象使用的设备类型,该历史行为数据包括该待识别对象的历史浏览、购买、评论等行为。
第二方面,本申请实施例提供了一种用户数据处理装置,该方法包括:
获取模块,用于获取至少一个待识别对象的特征数据,该特征数据包括该待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;
组合模块,用于对该至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,该m为大于等于1的整数;
确定模块,用于根据该m个特征组合对应的特征数据,得到m个待识别集群,该m个待识别集群对应于该m个特征组合;
筛选模块,用于对该m个待识别集群进行聚类,筛选符合预设条件的目标集群。
在一种可能的实现方式中,该组合模块,用于对该至少一个待识别对象的特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据,该n为大于m的整数,该k为大于等于1的整数;
基于该n个特征组合中包括的特征数据的特征分值,计算该n个特征组合的评分;
根据该n个特征组合的评分进行排序,得到排序后的n个特征组合;
在该排序后的n个特征组合中,确定满足参考条件的m个特征组合。
在一种可能的实现方式中,该筛选模块,用于为该m个待识别集群分别匹配一个标签,该标签用于标识该待识别集群;
根据与该待识别集群相邻的邻居集群的标签,更新该待识别集群的标签,得到该待识别集群更新之后的标签;
将该待识别集群更新之后的标签中标签相同的待识别集群进行聚类,得到候选集群,该候选集群中包括多个待识别集群;
在该候选集群中筛选符合预设条件的目标集群。
在一种可能的实现方式中,该筛选模块,用于根据与该待识别集群相邻的邻居集群的标签,按照下述公式更新该待识别集群的标签,得到该待识别集群更新之后的标签:
Figure BDA0002550930250000041
其中,该argmax为最大值自变量函数,该i代表第i个待识别集群,该j代表与第i个待识别集群相邻的邻居集群j,该Wi,j为该第i个待识别集群和该邻居集群j之间的权重,该权重为该待识别集群和该邻居集群中包括的共同的待识别对象的数目,该N为邻居集群的数目,AN为第N个邻居集群。
在一种可能的实现方式中,该筛选模块,用于基于该候选集群的标签,确定该候选集群对应的风险分值;
响应于该候选集群的风险分值符合预设条件,将该候选集群确定为目标集群。
在一种可能的实现方式中,该筛选模块,用于计算该候选集群的相对熵,该相对熵包括离散型相对熵和连续型相对熵,该离散型相对熵用于表示该候选集群的外部差异性,该连续型相对熵用于表示该候选集群的内部聚集性;
响应于该离散型相对熵满足第一参考相对熵,且该连续型相对熵满足第二参考相对熵,将该候选集群确定为目标集群。
在一种可能的实现方式中,该筛选模块,用于将该候选集群的标签输入目标风险计算模型,通过该目标风险计算模型计算该候选集群的风险分值,得到该候选集群的风险分值。
在一种可能的实现方式中,该获取模块,还用于获取至少一个历史集群的标签;
该装置还包括:
训练模块,用于根据该至少一个历史集群的标签,对初始风险计算模型进行训练,得到目标风险计算模型。
在一种可能的实现方式中,该环境数据包括该待识别对象所处的IP地址和地理位置数据中的至少一种;该注册数据包括该待识别对象在注册时填写的个人信息;该设备数据包括该待识别对象使用的设备类型,该历史行为数据包括该待识别对象的历史浏览、购买、评论等行为。
第三方面,本申请实施例提供了一种服务器,该服务器包括处理器和存储器,该存储器中存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行,以实现上述任一用户数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述任一用户数据处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的方法在进行用户数据处理时,考虑到待识别对象的特征数据,基于待识别对象的特征数据确定特征组合,基于特征组合,得到待识别集群,使得待识别集群的确定更加准确。对待识别集群进行聚类,筛选符合预设条件的目标集群,使得目标集群的确定更加准确,从而可以提高用户数据处理的准确性及可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用户数据处理方法的实施环境示意图;
图2是本申请实施例提供的一种用户数据处理方法的流程图;
图3是本申请实施例提供的一种候选集群的示意图;
图4是本申请实施例提供的一种用户数据处理方法的流程图;
图5是本申请实施例提供的一种用户数据处理装置的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种用户数据处理方法的实施环境示意图,如图1所示,该实施环境包括:服务器101和电子设备102。
服务器101可以是一台服务器,也可以是多台服务器组成的服务器集群。服务器101可以是云计算平台和虚拟化中心中的至少一种,本申请实施例对此不做限定。服务器101用于获取待识别对象的特征数据,根据待识别对象的特征数据确定特征组合。根据特征组合确定待识别集群,对待识别集群进行聚类,筛选符合预设条件的目标集群。当然,该服务器101还可以包括其他功能服务器,以便提供更加全面且多样化的服务。
电子设备102可以是智能手机、游戏主机、台式计算机、平板电脑、MP3(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。电子设备102通过有线网络或无线网络与服务器101相连,电子设备102中安装和运行有用户数据处理的应用程序。电子设备102还可以向服务器101发送待识别对象的标识,以使得服务器101可以基于待识别对象的标识获取待识别对象的特征数据。
基于上述实施环境,本申请实施例提供了一种用户数据处理方法,以图2所示的本申请实施例提供的一种用户数据处理方法的流程图为例,该方法可由图1中的服务器101执行。如图2所示,该方法包括下述步骤:
在步骤201中,获取至少一个待识别对象的特征数据,特征数据包括待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种。
在本申请实施例中,服务器和电子设备通过有线网络或无线网络进行通信连接,电子设备可以向服务器发送待识别对象的识别请求,该识别请求中携带待识别对象的对象标识,该对象标识可以是编号,也可以是待识别对象的账号,只要对象标识可以对应一个待识别对象即可,本申请实施例对该对象标识不加以限定。
在一种可能的实现方式中,服务器的存储空间中存储有所有待识别对象的对象标识及其对应的用户数据,当服务器接收到电子设备发送的识别请求后,服务器对该识别请求进行解析,得到该识别请求中携带的待识别对象的对象标识。基于该待识别对象的对象标识,在该服务器的存储空间中获取该待识别对象的用户数据。
在一种可能的实现方式中,服务器的存储空间可以有下述方式存储待识别对象的用户数据,服务器将其存储空间分为目标个数个第一存储空间,每个第一存储空间用于存储一个待识别对象的用户数据。例如,服务器将其存储空间分为五个第一存储空间,第一个第一存储空间用于存储待识别对象一对应的用户数据,第二个第一存储空间用于存储待识别对象二对应的用户数据,第三个第一存储空间用于存储待识别对象三对应的用户数据,第四个第一存储空间用于存储待识别对象四对应的用户数据,第五个第一存储空间用于存储待识别对象五对应的用户数据。
在一种可能的实现方式中,服务器获取到待识别对象的用户数据后,从该待识别对象的用户数据中提取出待识别对象的特征数据。待识别对象的特征数据包括待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种。其中,环境数据包括待识别对象所处的IP地址和地理位置数据中的至少一种,注册数据包括待识别对象在注册时填写的个人信息,个人信息包括但不限于待识别对象的姓名、电话号码、身份证号码等信息。设备数据包括待识别对象使用的设备类型。历史行为数据包括待识别对象的历史浏览、购买、评论等行为。
示例性地,服务器接收到电子设备发送的待识别对象一的识别请求,该识别请求中携带待识别对象一的对象标识0001。对该识别请求进行解析,得到其中携带的对象标识0001,在其存储空间中确定该对象标识0001对应的第一存储空间,也即是第一个第一存储空间,获取第一个第一存储空间中存储的用户数据,从该第一个第一存储空间中存储的用户数据中提取待识别对象一的特征数据,也即是服务器获取到待识别对象一的特征数据。
需要说明的是,服务器获取每个待识别对象的特征数据的过程均与上述待识别对象一的特征数据的获取过程一致,在此不再赘述。
在步骤202中,对至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,m为大于等于1的整数。
在本申请实施例中,基于上述步骤201获取到的至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合的过程包括下述步骤2021至步骤2024。
步骤2021、对至少一个待识别对象的特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据。
在一种可能的实现方式中,基于上述步骤201获取到的至少一个待识别对象的特征数据,对该特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据,其中n为大于m的整数,k为大于等于1的整数。
示例性地,上述步骤201获取到待识别对象一的特征数据、待识别对象二的特征数据、待识别对象三、待识别对象四和待识别对象五的特征数据。基于这五个待识别对象的特征数据进行自由组合,以每个特征组合中包括的特征数据的个数k为3为例,得到五个特征组合,分别是特征组合一、特征组合二、特征组合三、特征组合四和特征组合五。例如,特征组合一中包括的特征数据为姓名、身份证号、电话号码;特征组合二中包括的特征数据为姓名、电话号码,地理位置数据;特征组合三中包括的特征数据为电话号码、地理位置数据、设备类型;特征组合四中包括的特征数据为姓名、地理位置数据、设备类型;特征组合五中包括的特征数据为姓名、IP地址、设备类型。
基于这五个待识别对象对应的特征数据,将这五个待识别对象分别加入对应的特征组合中,得到包括待识别对象的特征组合。其中,特征组合一中包括待识别对象一、待识别对象二;特征组合二中包括待识别对象一、待识别对象三,待识别对象五;特征组合三中包括待识别对象二、待识别对象三、待识别对象四;特征组合四中包括待识别对象一和待识别对象五;特征组合五中包括待识别对象二、待识别对象四、待识别对象五。
需要说明的是,上述仅以待识别对象的数量为5,特征组合中包括的特征数据的数量为3,特征组合的数量为5为例进行说明,并不用来限制本申请。待识别对象的数量可更多或更少,特征组合中包括的特征数据的个数k可以更多或更少,特征组合的数量可以更多或更少,本申请实施例对此不做限定。
在一种可能的实现方式中,还可以将特征组合不满足要求的特征组合删除。示例性地,确定每个特征组合中的包括的待识别对象的个数,如果特征组合中包括的待识别对象的个数小于目标个数,则将对应的特征组合删除。例如,以目标个数为2为例,由于特征组合中包括的待识别对象的个数均大于等于2,则没有特征组合被删除。以目标个数为3为例,由于特征组合二和特征组合四中包括的待识别对象的个数为2,因此可以将特征组合二和特征组合四删除。
步骤2022、基于n个特征组合中包括的特征数据的特征分值,计算n个特征组合的评分。
在一种可能的实现方式中,待识别对象的每个特征数据有与其对应的特征分值,特征分值可以用0和1表示,也可以用其他数字进行表示,本申请实施例对该特征分值的表示形式不加以限定。
在一种可能的实现方式中,基于上述步骤2021得到的n个特征组合,确定每个特征组合中包括的待识别对象的特征数据的特征分值,根据每个特征组合中包括的待识别对象的特征数据的特征分值计算对应特征组合的评分。示例性地,可以将特征组合中包括的待识别对象的特征数据的特征分值相加,从而得到特征组合的评分。
例如,特征组合一中包括待识别对象一、待识别对象二,待识别对象一的特征数据对应的特征分值如下表一所示,待识别对象二的特征数据对应的特征分值如下表二所示。
表一
特征数据 姓名 电话号码 身份证号 地理位置数据 IP地址 设备类型
特征分值 1 0 1 1 0 1
表二
特征数据 姓名 电话号码 身份证号 地理位置数据 IP地址 设备类型
特征分值 0 1 1 0 0 1
基于上述表一和表二中的特征数据对应的特征分值,计算待识别对象一对应特征总值为1+0+1+1+0+1=4,计算待识别对象二对应的特征总值为0+1+1+0+0+1=3。根据待识别对象一对应特征总值和待识别对象二对应的特征总值,计算特征组合一对应的评分为4+3=7,从而可以得到特征组合一的评分。
需要说明的是,本申请实施例仅以特征对象的特征分值相加的方法为例计算特征组合的评分,也可以用其他方式计算特征组合的评分,本申请实施例对此不加以限定。
还需要说明的是,上述仅以特征组合一为例说明特征组合的评分的计算过程,其他特征组合的评分的计算过程与该特征组合一的评分的计算过程一致,在此不再赘述。
在一种可能的实现方式中,如果待识别对象的某个特征数据没有对应的特征分值,则通过随机数生成器,为该特征数据生成一个对应的特征分值,以防止该特征数据影响其所在的特征组合的评分。
在一种可能的实现方式中,如果特征组合包括的待识别对象中包含嫌疑待识别对象,则可以先将该特征组合确定为嫌疑特征组合,计算该特征组合的嫌疑分值,在进行特征组合的特征分值的计算时,将该嫌疑分值考虑进去。其中,嫌疑分值的计算过程可以如下述公式(1)所示:
Figure BDA0002550930250000101
示例性地,特征组合一中的待识别对象一为嫌疑待识别对象,
Figure BDA0002550930250000111
Figure BDA0002550930250000112
在计算该特征组合一的特征分值时,将该特征组合一的嫌疑分值考虑进去,也即是,特征组合一的特征分值为待识别对象一的特征总值+待识别对象二的特征总值+待识别对象一的嫌疑分值=4+3+0.5=7.5。
步骤2023、根据n个特征组合的评分进行排序,得到排序后的n个特征组合。
在一种可能的实现方式中,基于上述步骤2022得到的n个特征组合的评分进行排序,该排序方式可以是评分由高到低,也可以是评分由低到高,本申请实施例对此不加以限定。
例如,特征组合一的评分为7,特征组合二的评分为9,特征组合三的评分为5,特征组合四的评分为8,特征组合五的评分为10,基于特征组合的评分按照由高到低的顺序进行排序,得到排序后的特征组合为特征组合五、特征组合二、特征组合四、特征组合一、特征组合三。
步骤2024、在排序后的n个特征组合中,确定满足参考条件的m个特征组合。
在一种可能的实现方式中,基于排序后的n个特征组合,在该n个特征组合中确定满足参考条件的m个特征组合。其中,满足参考条件的m个特征组合可以是评分大于参考评分的m个特征组合,也可以是按照评分排序排在前m名的特征组合,本申请实施例对该参考条件不加以限定。
例如,基于该n个特征组合的评分,确定评分排在前3的特征组合,也即是特征组合五、特征组合二、特征组合四为满足参考条件的特征组合。
在步骤203中,根据m个特征组合对应的特征数据,得到m个待识别集群,m个待识别集群对应于m个特征组合。
在本申请实施例中,根据上述步骤202确定的m个特征组合对应的特征数据,将每个特征组合中包括的待识别对象组成一个待识别集群,从而可以得到m个待识别集群,每个待识别集群对应于一个特征组合。例如,待识别集群一中包括待识别对象一、待识别对象二;待识别集群二中包括待识别对象一、待识别对象三,待识别对象五;待识别集群三中包括待识别对象二、待识别对象三、待识别对象四;待识别集群四中包括待识别对象一和待识别对象五;待识别集群五中包括待识别对象二、待识别对象四、待识别对象五。
在一种可能的实现方式中,为了使待识别集群中包括的待识别对象更加广泛,可以基于特征组合中包括的特征数据,确定与该特征数据一致的待识别对象,将该特征组合中包括的待识别对象和与该特征数据一致的待识别对象共同组成该特征组合对应的待识别集群,以使得待识别集群中包括的待识别对象的数量更多,从而使得待识别集群包括的待识别对象更加广泛。
在步骤204中,对m个待识别集群进行聚类,筛选符合预设条件的目标集群。
在本申请实施例中,对m个待识别集群进行聚类,筛选符合预设条件的目标集群包括下述步骤2041至步骤2044。
步骤2041、为m个待识别集群分别匹配一个标签,标签用于标识待识别集群。
在一种可能的实现方式中,在上述步骤203得到的m个待识别集群,均为其分配一个标签,每个标签标识对应的待识别集群,该标签可以用数字的方式进行表示,也可以用字母的方式进行表示,本申请实施例对该标签的表示方式不加以限定。
步骤2042、根据与待识别集群相邻的邻居集群的标签,更新待识别集群的标签,得到待识别集群更新之后的标签。
在一种可能的实现方式中,根据与待识别集群相邻的邻居集群的标签,按照下述公式(2)更新待识别集群的标签,从而得到待识别集群更新之后的标签。
Figure BDA0002550930250000121
上述公式(2)中,argmax为最大值自变量函数,i代表第i个待识别集群,j代表与第i个待识别集群相邻的邻居集群j,Wi,j为第i个待识别集群和邻居集群j之间的权重,权重为待识别集群和邻居集群中包括的共同的待识别对象的数目,N为邻居集群的数目,AN为第N个邻居集群。
示例性地,以待识别集群的标签为字母为例,例如,待识别集群1的标签为A,与待识别集群1相邻的集群有邻居集群1、邻居集群2、邻居集群3、邻居集群4。邻居集群1的标签为B,邻居集群2的标签为C,邻居集群3的标签为D,邻居集群4的标签为B。由于与该待识别集群1相邻的集群中,标签B出现的次数最多,因此将待识别集群1的标签更新,得到待识别集群1更新之后的标签为B。
需要说明的是,其他待识别集群的标签的更新过程与上述待识别集群1的标签的更新过程一致,在此不再赘述。
步骤2043、将待识别集群更新之后的标签中标签相同的待识别集群进行聚类,得到候选集群,候选集群中包括多个待识别集群。
在本申请实施例中,基于待识别集群更新之后的标签,将标签一致的待识别集群进行聚类,得到候选集群,候选集群中包括多个标签一致的待识别集群。
在一种可能的实现方式中,对于从属于多个待识别集群的待识别对象,将其归为包含的待识别对象的数目最多的集群中。还可以确定每个待识别集群中包括的待识别对象的数目,若待识别集群中包括的待识别对象的数目小于参考数目,则可以将该待识别集群删除,也即是过滤掉数目不满足参考数目的待识别集群。将剩下的待识别集群进行聚类,从而得到候选集群。这种方式可以使得得到的候选集群更加准确。如图3所示为本申请实施例提供的一种候选集群的示意图,在该图3中,黑色圆圈表示待识别集群,白色圆圈表示与待识别集群相邻的邻居集群,虚线框住的集群为候选集群。
步骤2044、在候选集群中筛选符合预设条件的目标集群。
在本申请实施例中,在候选集群中筛选符合预设条件的目标集群可以有下述两种实现方式。
实现方式一、基于候选集群对应的风险分值,将风险分值符合预设条件的候选集群确定为目标集群。
在一种可能的实现方式中,获取至少一个历史集群的标签,根据至少一个历史集群的标签,对初始风险计算模型进行训练,从而得到目标风险计算模型。
在一种可能的实现方式中,将候选集群的标签输入目标风险计算模型,通过目标风险计算模型计算候选集群的风险分值,得到候选集群的风险分值。响应于候选集群的风险分值符合预设条件,将候选集群确定为目标集群;响应于候选集群的风险分值不符合预设条件,将候选集群确定为普通集群。预设条件可基于经验设置,也可基于不同应用场景进行调整,本申请实施例不对预设条件的内容及设置时机进行限定。
例如,预设条件对应的风险分值为0.80,候选集群的风险分值为0.85,则将候选集群确定为目标集群,若候选集群的风险分值为0.75,则将候选集群确定为普通集群。
实现方式二、基于候选集群的相对熵确定候选集群是否为目标集群。
在一种可能的实现方式中,相对熵包括离散型相对熵和连续型相对熵,离散型相对熵用于表示候选集群的外部差异性,连续型相对熵用于表示候选集群的内部聚集性,普通集群会有高内部聚集性和低外部差异性。当候选集群的离散型相对熵满足第一参考相对熵,而且连续型相对熵满足第二参考相对熵时,将候选集群确定为目标集群。
在一种可能的实现方式中,在将候选集群确定为目标集群后,还可以根据候选集群中包括的待识别对象的特征数据之间的相似度,为该候选集群为目标集群做出合理的解释。例如,候选集群中100%的待识别对象的IP地址为“222.32.60.147”,100%的待识别对象的设备类型为“43”,100%的待识别对象的姓名为“**”,从而可以体现出候选集群中所有待识别对象的高一致性和强关联性,从而可以为该候选集群为目标集群做出合理的解释。
如图4所示为本申请实施例提供的一种用户数据处理方法的流程图,在该图4中包括特征数据模块、一层聚类模块、二层聚类模块、筛选模块和决策解释模块。基于待识别对象的特征数据进行一层聚类,从而得到至少一个待识别集群,基于至少一个待识别集群进行二层聚类,二层聚类包括加权标签传播聚类和小集群过滤,得到候选集群,基于候选集群进行筛选,可以基于KL(Kullback-Leibler)散度确定候选集群的集群特征,也即是候选集群的离散型相对熵和连续型相对熵,基于离散型相对熵和连续型相对熵,筛选候选集群中的目标集群。也可以基于有监督学习模型计算候选集群的风险分值,从而可以确定候选集群中包括的目标集群,例如,针对欺诈集群识别,将候选集群中包括的目标集群作为是识别出的欺诈集群。
上述方法在进行用户数据处理时,考虑到待识别对象的特征数据,基于待识别对象的特征数据确定特征组合,基于特征组合,得到待识别集群,使得待识别集群的确定更加准确。对待识别集群进行聚类,筛选符合预设条件的目标集群,使得目标集群的确定更加准确,从而可以提高用户数据处理的准确性及可靠性。
图5所示为本申请实施例提供的一种用户数据处理装置的结构示意图,如图5所示,该装置包括:
获取模块501,用于获取至少一个待识别对象的特征数据,该特征数据包括该待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;
组合模块502,用于对该至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,该m为大于等于1的整数;
确定模块503,用于根据该m个特征组合对应的特征数据,得到m个待识别集群,该m个待识别集群对应于该m个特征组合;
筛选模块504,用于对该m个待识别集群进行聚类,筛选符合预设条件的目标集群。
在一种可能的实现方式中,该组合模块502,用于对该至少一个待识别对象的特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据,该n为大于m的整数,该k为大于等于1的整数;
基于该n个特征组合中包括的特征数据的特征分值,计算该n个特征组合的评分;
根据该n个特征组合的评分进行排序,得到排序后的n个特征组合;
在该排序后的n个特征组合中,确定满足参考条件的m个特征组合。
在一种可能的实现方式中,该筛选模块504,用于为该m个待识别集群分别匹配一个标签,该标签用于标识该待识别集群;
根据与该待识别集群相邻的邻居集群的标签,更新该待识别集群的标签,得到该待识别集群更新之后的标签;
将该待识别集群更新之后的标签中标签相同的待识别集群进行聚类,得到候选集群,该候选集群中包括多个待识别集群;
在该候选集群中筛选符合预设条件的目标集群。
在一种可能的实现方式中,该筛选模块504,用于根据与该待识别集群相邻的邻居集群的标签,按照下述公式更新该待识别集群的标签,得到该待识别集群更新之后的标签:
Figure BDA0002550930250000151
其中,该argmax为最大值自变量函数,该i代表第i个待识别集群,该j代表与第i个待识别集群相邻的邻居集群j,该Wi,j为该第i个待识别集群和该邻居集群j之间的权重,该权重为该待识别集群和该邻居集群中包括的共同的待识别对象的数目,该N为邻居集群的数目,AN为第N个邻居集群。
在一种可能的实现方式中,该筛选模块504,用于基于该候选集群的标签,确定该候选集群对应的风险分值;
响应于该候选集群的风险分值符合预设条件,将该候选集群确定为目标集群。
在一种可能的实现方式中,该筛选模块504,用于计算该候选集群的相对熵,该相对熵包括离散型相对熵和连续型相对熵,该离散型相对熵用于表示该候选集群的外部差异性,该连续型相对熵用于表示该候选集群的内部聚集性;
响应于该离散型相对熵满足第一参考相对熵,且该连续型相对熵满足第二参考相对熵,将该候选集群确定为目标集群。
在一种可能的实现方式中,该筛选模块504,用于将该候选集群的标签输入目标风险计算模型,通过该目标风险计算模型计算该候选集群的风险分值,得到该候选集群的风险分值。
在一种可能的实现方式中,该获取模块501,还用于获取至少一个历史集群的标签;
该装置还包括:
训练模块,用于根据该至少一个历史集群的标签,对初始风险计算模型进行训练,得到目标风险计算模型。
在一种可能的实现方式中,该环境数据包括该待识别对象所处的IP地址和地理位置数据中的至少一种;该注册数据包括该待识别对象在注册时填写的个人信息;该设备数据包括该待识别对象使用的设备类型,该历史行为数据包括该待识别对象的历史浏览、购买、评论等行为。
上述装置在进行用户数据处理时,考虑到待识别对象的特征数据,基于待识别对象的特征数据确定特征组合,基于特征组合,得到待识别集群,使得待识别集群的确定更加准确。对待识别集群进行聚类,筛选符合预设条件的目标集群,使得目标集群的确定更加准确,从而可以提高用户数据处理的准确性及可靠性。
需要说明的是:上述实施例提供的用户数据处理装置在进行用户数据处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将用户数据处理装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户数据处理装置与用户数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6所示为本申请实施例提供的一种服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central ProcessingUnits,CPU)601和一个或多个存储器602,其中,该一个或多个存储器602中存储有至少一条指令,该至少一条指令由该一个或多个处理器601加载并执行以实现上述方法实施例提供的用户数据处理方法。当然,该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器600还可以包括其他用于实现设备功能的部件,在此不做赘述。
图7是本申请实施例提供的一种电子设备的结构示意图。该电子设备700可以是:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。
通常,电子设备700包括有:一个或多个处理器701和一个或多个存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的用户数据处理方法。
在一些实施例中,电子设备700还可选包括有:***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地,***设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
***设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置电子设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在电子设备700的不同表面或呈折叠设计;在一些实施例中,显示屏705可以是柔性显示屏,设置在电子设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位电子设备700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备700还包括有一个或多个传感器170。该一个或多个传感器170包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器711、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以电子设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测电子设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对电子设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器711可以设置在电子设备700的侧边框和/或显示屏705的下层。当压力传感器711设置在电子设备700的侧边框时,可以检测用户对电子设备700的握持信号,由处理器701根据压力传感器711采集的握持信号进行左右手识别或快捷操作。当压力传感器711设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对电子设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述任一种用户数据处理方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种用户数据处理方法,其特征在于,所述方法包括:
获取至少一个待识别对象的特征数据,所述特征数据包括所述待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;
对所述至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,所述m为大于等于1的整数;
根据所述m个特征组合对应的特征数据,得到m个待识别集群,所述m个待识别集群对应于所述m个特征组合;
对所述m个待识别集群进行聚类,筛选符合预设条件的目标集群。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,包括:
对所述至少一个待识别对象的特征数据进行自由组合,得到n个特征组合,每个特征组合中包括k个特征数据,所述n为大于m的整数,所述k为大于等于1的整数;
基于所述n个特征组合中包括的特征数据的特征分值,计算所述n个特征组合的评分;
根据所述n个特征组合的评分进行排序,得到排序后的n个特征组合;
在所述排序后的n个特征组合中,确定满足参考条件的m个特征组合。
3.根据权利要求1所述的方法,其特征在于,所述对所述m个待识别集群进行聚类,筛选符合预设条件的目标集群,包括:
为所述m个待识别集群分别匹配一个标签,所述标签用于标识所述待识别集群;
根据与所述待识别集群相邻的邻居集群的标签,更新所述待识别集群的标签,得到所述待识别集群更新之后的标签;
将所述待识别集群更新之后的标签中标签相同的待识别集群进行聚类,得到候选集群,所述候选集群中包括多个待识别集群;
在所述候选集群中筛选符合预设条件的目标集群。
4.根据权利要求3所述的方法,其特征在于,所述根据与所述待识别集群相邻的邻居集群的标签,更新所述待识别集群的标签,得到所述待识别集群更新之后的标签,包括:
根据与所述待识别集群相邻的邻居集群的标签,按照下述公式更新所述待识别集群的标签,得到所述待识别集群更新之后的标签:
Figure FDA0002550930240000021
其中,所述argmax为最大值自变量函数,所述i代表第i个待识别集群,所述j代表与第i个待识别集群相邻的邻居集群j,所述Wi,j为所述第i个待识别集群和所述邻居集群j之间的权重,所述权重为所述待识别集群和所述邻居集群中包括的共同的待识别对象的数目,所述N为邻居集群的数目,所述AN为第N个邻居集群。
5.根据权利要求3所述的方法,其特征在于,所述在所述候选集群中筛选符合预设条件的目标集群,包括:
基于所述候选集群的标签,确定所述候选集群对应的风险分值;
响应于所述候选集群的风险分值符合预设条件,将所述候选集群确定为目标集群。
6.根据权利要求3所述的方法,其特征在于,所述在所述候选集群中筛选符合预设条件的目标集群,包括:
计算所述候选集群的相对熵,所述相对熵包括离散型相对熵和连续型相对熵,所述离散型相对熵用于表示所述候选集群的外部差异性,所述连续型相对熵用于表示所述候选集群的内部聚集性;
响应于所述离散型相对熵满足第一参考相对熵,且所述连续型相对熵满足第二参考相对熵,将所述候选集群确定为目标集群。
7.根据权利要求5所述的方法,其特征在于,所述基于所述候选集群的标签,确定所述候选集群对应的风险分值,包括:
将所述候选集群的标签输入目标风险计算模型,通过所述目标风险计算模型计算所述候选集群的风险分值,得到所述候选集群的风险分值。
8.根据权利要求7所述的方法,其特征在于,所述将所述候选集群的标签输入目标风险计算模型之前,所述方法还包括:
获取至少一个历史集群的标签;
根据所述至少一个历史集群的标签,对初始风险计算模型进行训练,得到目标风险计算模型。
9.根据权利要求1-8任一所述的方法,其特征在于,所述环境数据包括所述待识别对象所处的IP地址和地理位置数据中的至少一种;所述注册数据包括所述待识别对象在注册时填写的个人信息;所述设备数据包括所述待识别对象使用的设备类型,所述历史行为数据包括所述待识别对象的历史浏览、购买、评论等行为。
10.一种用户数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取至少一个待识别对象的特征数据,所述特征数据包括所述待识别对象的环境数据、注册数据、设备数据和历史行为数据中的至少一种;
组合模块,用于对所述至少一个待识别对象的特征数据进行组合,得到满足参考条件的m个特征组合,所述m为大于等于1的整数;
确定模块,用于根据所述m个特征组合对应的特征数据,得到m个待识别集群,所述m个待识别集群对应于所述m个特征组合;
筛选模块,用于对所述m个待识别集群进行聚类,筛选符合预设条件的目标集群。
11.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至9任一所述的用户数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至9任一所述的用户数据处理方法。
CN202010574802.9A 2020-06-22 2020-06-22 用户数据处理方法、装置、服务器及计算机可读存储介质 Active CN111753154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010574802.9A CN111753154B (zh) 2020-06-22 2020-06-22 用户数据处理方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010574802.9A CN111753154B (zh) 2020-06-22 2020-06-22 用户数据处理方法、装置、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111753154A true CN111753154A (zh) 2020-10-09
CN111753154B CN111753154B (zh) 2024-03-19

Family

ID=72675580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010574802.9A Active CN111753154B (zh) 2020-06-22 2020-06-22 用户数据处理方法、装置、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111753154B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107529656A (zh) * 2016-06-22 2018-01-02 腾讯科技(深圳)有限公司 一种社交网络社区的划分方法及服务器
CN109919781A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN110083791A (zh) * 2019-05-05 2019-08-02 北京三快在线科技有限公司 目标群组检测方法、装置、计算机设备及存储介质
CN110503565A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 行为风险识别方法、***、设备及可读存储介质
CN110648195A (zh) * 2019-08-28 2020-01-03 苏宁云计算有限公司 一种用户识别方法、装置、计算机设备
CN110738577A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 社区发现方法、装置、计算机设备和存储介质
US10552735B1 (en) * 2015-10-14 2020-02-04 Trading Technologies International, Inc. Applied artificial intelligence technology for processing trade data to detect patterns indicative of potential trade spoofing
CN111245815A (zh) * 2020-01-07 2020-06-05 同盾控股有限公司 数据处理方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552735B1 (en) * 2015-10-14 2020-02-04 Trading Technologies International, Inc. Applied artificial intelligence technology for processing trade data to detect patterns indicative of potential trade spoofing
CN107529656A (zh) * 2016-06-22 2018-01-02 腾讯科技(深圳)有限公司 一种社交网络社区的划分方法及服务器
CN109919781A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN110083791A (zh) * 2019-05-05 2019-08-02 北京三快在线科技有限公司 目标群组检测方法、装置、计算机设备及存储介质
CN110503565A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 行为风险识别方法、***、设备及可读存储介质
CN110648195A (zh) * 2019-08-28 2020-01-03 苏宁云计算有限公司 一种用户识别方法、装置、计算机设备
CN110738577A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 社区发现方法、装置、计算机设备和存储介质
CN111245815A (zh) * 2020-01-07 2020-06-05 同盾控股有限公司 数据处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111753154B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110222789B (zh) 图像识别方法及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111462742B (zh) 基于语音的文本显示方法、装置、电子设备及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN111078521A (zh) 异常事件的分析方法、装置、设备、***及存储介质
CN112084811A (zh) 身份信息的确定方法、装置及存储介质
CN110890969B (zh) 群发消息的方法、装置、电子设备及存储介质
CN111782950B (zh) 样本数据集获取方法、装置、设备及存储介质
CN111159551B (zh) 用户生成内容的显示方法、装置及计算机设备
CN112989198A (zh) 推送内容的确定方法、装置、设备及计算机可读存储介质
CN111563201A (zh) 内容推送方法、装置、服务器及存储介质
CN114143280B (zh) 会话显示方法、装置、电子设备及存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN111753154B (zh) 用户数据处理方法、装置、服务器及计算机可读存储介质
CN111858983A (zh) 图片类别的确定方法、装置、电子设备及存储介质
CN111523876A (zh) 支付方式的显示方法、装置、***及存储介质
CN111259252A (zh) 用户标识识别方法、装置、计算机设备及存储介质
CN111159168A (zh) 数据处理方法和装置
CN112132472A (zh) 资源管理方法、装置、电子设备及计算机可读存储介质
CN111429106A (zh) 资源转移凭证的处理方法、服务器、电子设备及存储介质
CN112990424A (zh) 神经网络模型训练的方法和装置
CN112116480A (zh) 虚拟资源确定方法、装置、计算机设备及存储介质
CN111984738A (zh) 数据关联方法、装置、设备及存储介质
CN111581481B (zh) 搜索词推荐方法、装置、电子设备以及存储介质
CN115296978B (zh) 根因定位方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant