CN113763057A - 用户身份画像的数据处理方法和装置 - Google Patents

用户身份画像的数据处理方法和装置 Download PDF

Info

Publication number
CN113763057A
CN113763057A CN202010471950.8A CN202010471950A CN113763057A CN 113763057 A CN113763057 A CN 113763057A CN 202010471950 A CN202010471950 A CN 202010471950A CN 113763057 A CN113763057 A CN 113763057A
Authority
CN
China
Prior art keywords
risk
target
label
labels
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010471950.8A
Other languages
English (en)
Other versions
CN113763057B (zh
Inventor
王琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010471950.8A priority Critical patent/CN113763057B/zh
Publication of CN113763057A publication Critical patent/CN113763057A/zh
Application granted granted Critical
Publication of CN113763057B publication Critical patent/CN113763057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用户身份画像的数据处理方法和装置,涉及网络安全,包括:获取多个初始风险用户信息,初始风险用户信息包括手机号以及手机号对应的多个初始风险标签;基于目标行业的特征以及多个初始风险标签,确定多个目标风险标签;根据多个初始风险标签,通过聚类分析对目标风险标签进行更新;基于更新后的目标风险标签以及多个初始风险标签,确定每个手机号对应的目标风险标签,得到目标行业的用户身份画像,通过对标签的不断聚类更新,使得画像对应的风险标签模板能够适用于各种场景,命中率较高,可有效规避黑产攻击风险。

Description

用户身份画像的数据处理方法和装置
技术领域
本发明涉及网络安全技术领域,尤其是涉及一种用户身份画像的数据处理方法和装置。
背景技术
随着互联网的迅猛发展,各类网上电商等交易平台也迎来了爆发的机遇,潜藏在网络背后的“黑灰产”、“薅羊毛”等现象越来越常见。地下黑灰产产业链利用互联网的漏洞,大量攫取不良的利益;“黑灰产薅羊毛”现象不只存在于电商平台,通常情况下,在涉及卡券优惠、优惠码、现金红包类等情况时,都可能会产生“薅羊毛”现象,其中电商外贸、直播游戏打赏、互联网金融等行业更是重灾区。此前媒体就曾报道,有些黑灰产把“薅羊毛”变成一门生意,慢慢发展为价值千亿的地下黑色产业链,以搜集漏洞、批量注册等不正当手段套取高额利益,对商家的平台稳定运行产生重大影响。
一般来说,黑灰产要通过注册大量的注册“僵尸用户”,利用各种应用平台的漏洞来“薅羊毛”。当前各个平台对进行异常身份识别的参数值模板相对固定,用户身份对应的参数值标签较为单一,只可满足当前场景的常规需求,无法满足各个行业的需求场景。即在行业的细分场景下:因为目前在电商客户、视频直播大流量客户、互联网金融等客户之间的风险标签需求均不尽相同,常规通用方案的参数值模板相对固定,参数值标签较为单一,当前用户身份识别的参数模板无法兼顾多个场景,如,电商平台的参数模板可能对视频直播平台用户识别的参数风险标签命中率较低,不能满足各个行业的特殊需求场景,无法有效的规避黑产攻击风险。
发明内容
本发明的目的在于提供一种用户身份画像的数据处理方法和装置,通过对标签的不断聚类更新,使得画像对应的风险标签模板能够适用于各种场景,命中率较高,可有效规避黑产攻击风险。
第一方面,实施例提供一种用户身份画像的数据处理方法,包括:
获取多个初始风险用户信息,其中,每个所述初始风险用户信息包括用户的手机号以及与所述手机号对应的多个初始风险标签;
基于目标行业的特征以及所述多个初始风险标签,确定多个目标风险标签;
根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新;
基于更新后的所述目标风险标签以及所述多个初始风险标签,确定每个所述手机号对应的目标风险标签,得到所述目标行业的用户身份画像。
在可选的实施方式中,获取多个初始风险用户信息的步骤,包括:
获取多个用户信息;
将所述多个用户信息加密后发送到云端数据库;
获取多个初始风险用户对应的初始风险用户信息,所述多个初始风险用户为所述云端数据库对所述多个用户信息验证后得到的。
在可选的实施方式中,根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新的步骤,包括:
根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合;
根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新。
在可选的实施方式中,根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合的步骤,包括:
根据每个所述初始风险标签的坐标位置与所述多个目标风险标签的坐标位置之间的距离,确定所述多个目标风险标签的聚类集合,其中,所述初始风险标签属于距离最近的所述目标风险标签的聚类集合。
在可选的实施方式中,根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新的步骤,包括:
根据所述目标风险标签的聚类集合中每个风险标签的坐标位置计算质心坐标位置;
在所述质心坐标位置与所述目标风险标签的坐标位置的距离小于距离阈值的情况下,将所述目标风险标签不进行更新。
在可选的实施方式中,根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新的步骤,还包括:
在所述质心坐标位置与所述目标风险标签的坐标位置的距离大于距离阈值的情况下,将所述质心坐标位置对应的风险标签作为所述新生目标风险标签,并通过所述新生目标风险标签对所述目标风险标签进行更新。
在可选的实施方式中,所述初始风险用户信息还包括有所述风险标签对应的风险值,所述方法还包括:
在所述初始风险用户信息中查找与所述更新后的所述目标风险标签相同的风险标签;
根据与所述更新后的所述目标风险标签相同的风险标签对应的风险值,对所述初始风险用户进行风险验证。
第二方面,实施例提供一种用户身份画像的数据处理装置,包括:
获取模块,用于获取多个初始风险用户信息,其中,每个所述初始风险用户信息包括用户的手机号以及与所述手机号对应的多个初始风险标签;
第一确定模块,用于基于目标行业的特征以及所述多个初始风险标签,确定多个目标风险标签;
聚类模块,用于根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新;
第二确定模块,用于基于更新后的所述目标风险标签以及所述多个初始风险标签,确定每个所述手机号对应的目标风险标签,得到所述目标行业的用户身份画像。
第三方面,实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序,所述处理器执行所述程序时实现如前述实施方式中任一项所述的用户身份画像的数据处理方法。
第四方面,实施例提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任意一项所述的用户身份画像的数据处理方法。
本发明实施例提供一种用户身份画像的数据处理方法和装置,基于目标行业的特征和初始风险用户信息的初始风险标签确定多个目标风险标签,根据目标风险标签对每个初始风险标签进行聚类,并对目标风险标签进行更新,通过更新后的目标风险标签形成目标行业的用户身份画像,通过对标签的不断聚类更新,使得画像对应的风险标签模板能够适用于各种场景,命中率较高,可有效规避黑产攻击风险。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户身份画像的数据处理方法流程图;
图2为本发明实施例提供的一种用户身份画像的数据处理方法应用示意图;
图3为本发明实施例提供的一种用户身份画像的数据处理装置的功能模块示意图;
图4为本发明实施例提供的电子设备的硬件架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,黑灰产要利用漏洞“薅羊毛”,自然需要大量的注册“僵尸用户”,其中手机号码的普及就为了大量用户注册提供了很好的便利;用户登录平台后选择手机号码注册,过程简单直接、方便快捷,而且后续方便直接与客户沟通,已经成为当前最主流的账号注册方式,许多业务的账号安全体系也是依赖手机号建立的。但是一些大流量的平台可能每天都有数十万的注册用户,平台方根本无法准确判定哪些是正常用户,哪些是网络黑灰产用来薅羊毛的“僵尸”用户。因此,身份验证成为当前互联网业务中非常重要的一环,也是黑灰产用来欺骗平台的重要手段。黑灰产所使用的手机卡即“黑卡”,多数是一些物联网卡,回收卡、猫池号码卡、虚拟小号等;地下手机黑卡行业已经形成一条完整的产业链,对平台方的业务安全造成了巨大的威胁;因此,手机号码的身份验证识别,可以有效的帮助平台方减少财产损失,降低安全风险。
这里,猫池指一个大的号码卡插槽,可以在不拆卡的情况下,将整张卡插到“猫池”里面,连接电脑正常使用,并且还可收取短信验证码。
相关技术一的实现原理如下:
用户在平台注册手机号之后,平台方通过调用API将该手机号和黑产手机号数据库做对比,然后返回相应风险参数;即用户发送的每次接口调用请求,无论成功与否,***都会返回一个唯一识别码RequestId给用户。然后用户可以根据该手机号查询后返回的风险参数标签做进一步的风险控制处理;其返回不同的参数具有不同的业务含义:
其中,还具备个性化返回参数的功能,除公共返回参数外,注册风险识别服务返回参数Data字段中,score字段值的业务含义根据云风控团队经验进行参考(实际使用可根据自身业务运营灵活选择)。注册风险识别服务返回的Data参数中的score值,值区间在0~100之间,值越大代表行为的风险程度越大。
在实际应用的过程中,作为另一种通过手机号身份识别验证的实施例,其技术方案的技术原理如下:
主要是通过简单的API接入,上传用户所注册的手机号码,后台数据库会对其风险进行精确评估,实时返回所查手机号的相关风险值(0-100),分值越大代表相关号码潜在欺诈风险越高,同时还会反馈高风险号码标签,说明号码欺诈属性,辅助平台方更好地进行风险判断;客户可根据风险值结合自身风控***对相关号码的业务请求做出风险判别,及时感知风险并及时做出应对止损。也可利用手机号画像查询服务搭建或完善自身的风控体系,补充自身风险情报数据,提升对风险的感知、应对能力。
上述实施例中的两种方案比较类似,都是用户在提交手机号注册账户时,后台通过API调用方式查询后台黑产手机号码数据库,通过分析比对计算,最终形成一套风险参数值(且参数均已固定设置,不可更改),可通过参考返回参数值的风险标签加强自身的风控***安全,提高黑灰产的攻击成本,从而降低财产损失。
但由于目前在电商客户、视频直播大流量客户、互联网金融等客户之间的风险标签需求均不尽相同,上述通用方案的参数值模板相对固定,参数值标签较为单一,当前用户身份识别的参数模板无法兼顾多个场景,如,将电商平台的参数模板可能对视频直播平台用户识别的参数风险标签命中率较低,久而久之会形成大量的灰色潜伏“僵尸手机号”。无法个性化的满足每一个行业客户、细分领域产品平台在反黑灰产过程中的迫切真实需求和高命中率要求。
基于此,本发明实施例提供的一种用户身份画像的数据处理方法和装置,通过对标签的不断聚类更新,使得画像对应的风险标签模板能够适用于各种场景,命中率较高,可有效规避黑产攻击风险。
本实施例可应用于服务器,为便于对本实施例进行理解,首先对本发明实施例所公开的一种用户身份画像的数据处理方法进行详细介绍。
图1为本发明实施例提供的一种用户身份画像的数据处理方法流程图。
参照图1,实施例提供的一种用户身份画像的数据处理方法,包括以下步骤:
步骤S102,获取多个初始风险用户信息,每个初始风险用户信息包括用户的手机号以及与手机号对应的多个初始风险标签;步骤S104,基于目标行业的特征以及多个初始风险标签,确定多个目标风险标签;
步骤S106,根据多个初始风险标签,通过聚类分析对目标风险标签进行更新;
步骤S108,基于更新后的目标风险标签以及多个初始风险标签,确定每个手机号对应的目标风险标签,得到目标行业的用户身份画像。
在实际应用的优选实施例中,基于目标行业的特征和初始风险用户信息的初始风险标签确定多个目标风险标签,根据目标风险标签对每个初始风险标签进行聚类,并对目标风险标签进行更新,通过更新后的目标风险标签形成目标行业的用户身份画像,通过对标签的不断聚类更新,使得画像对应的风险标签模板能够适用于各种场景,命中率较高,可有效规避黑产攻击风险。
其中,初始风险用户信息是通过前期的大量数据查询训练之后(假设数量≥100万次),根据云端数据库中的初期模板形成的,以使本地即拥有足够数量的可供分析数据;然后初始风险用户信息统一经过自学习引擎,通过数据建模,数据分析(聚类算法K-Means)后输出建模结果—初始风险用户手机号对应的目标风险标签;通过人工干预选择后形成手机号码风险画像,可人工通过审核、干预自定义个性化风险标签和风险值调节,最终形成命令下发,更新初期风险值和风险标签。
其中,作为一种可选的实施例,在通过自学习模型得出各个用户手机号对应的目标风险标签之后,根据每个用户手机号对应的各个目标风险标签以及风险值,确定当前目标行业主要涉及的风险标签以及风险比重阈值,并进行人工干预,进而确定出针对当前目标行业手机号的用户身份画像。如,经自学习模型结果输出后,可知当前手机号包括目标风险标签A、目标风险标签B和目标风险标签C,当前目标行业对于A类风险较为看重,B、C类风险一般看重,且通过前期大量数据经过自学习模型训练,可知A、B类目标风险标签对应的风险值较高,进而用户可人工设置目标风险标签A对应比重阈值50%、目标风险标签B对应比重阈值50%和目标风险标签C对应比重阈值50%,进而形成用户身份画像。
这里,K-means聚类算法:也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
可以理解的是,可以根据自身需求来制定风险标签和标签值,并且可以根据实际需求情况随时更改;例如,可预先设置风险标签为最近活跃次数,标签值为三次,即最近活跃次数超过三次的手机号对应用户即为风险用户。
作为一种可选的实施例,还可以查看近期的用户信息画像趋势,为业务安全风控提供有效信息,如,当前可能处于电商打折促销阶段,根据近期的手机号风险画像可知,最近验证结果为虚假手机号的活跃次数较为频繁,可相应对用户信息画像中为活跃次数的风险标签的比重阈值进行上调,以能够更加准确地满足当前目标行业的需求。
在可选的实施方式中,为了保证自学习模型的训练准确性,前期需要获取大量初始风险用户信息,步骤S102还包括:
步骤1.1),获取多个用户信息;
步骤1.2),将所述多个用户信息加密后发送到云端数据库;
步骤1.3),获取多个初始风险用户对应的初始风险用户信息,所述多个初始风险用户为所述云端数据库对所述多个用户信息验证后得到的。
其中,经过云端数据库验证后的初始风险用户至少包括两个,即步骤S102中至少获取得到两个初始风险用户信息,以便能够实现后续的自学习模型的训练操作。
这里,云端数据库包括手机号码黑产库,即指云端的手机号码黑产库,里面的黑产手机号主要来自第三方的蜜罐网络流量监测及行业数据共享,每日新增数万恶意手机号码,并同步给企业用于业务场景下的风险审计。
作为一种可选的实施例,可将手机号黑产库部署在云端,获取前端(客户端)的手机号,以HTTP协议,调用URL地址,查询RESTFUL接口、采用POST请求方式,将前端查询的手机号码与秘钥进行加密后,发送到云端数据库,并请求云端数据库返回数据;经黑产库进行匹配筛选后确定初始风险用户的风险值和风险标签,将初始风险用户信息返回至查询端,交于风控***处理。
其中,通过云端数据库从客户端上传的用户手机号中初步筛选出具有可能存在风险的用户信息,再通过自学习模型进行针对当前目标行业的进一步风险判别。
需要说明的是,当前的云端数据库可能包括各个行业中认为具有风险的用户信息,如电商行业、游戏行业等等。对于手机号m来说,可能存在虚假注册电商平台的行为,但该用户手机号对于游戏行业却没出现过异常行为,对于现有技术来说,可能就根据云端数据库的筛选,导致手机号m对应的用户无法登录电商平台的同时也无法使用游戏平台应用,对游戏平台和用户本身都造成不良影响。进而本发明实施例基于初始风险用户信息,还针对当前的目标行业通过自学***台。
在一些实施例中,步骤S104可具体为,基于目标行业的特征和多个从云端数据库返回的初始风险标签,筛选出符合目标行业特征的若干个目标风险标签。其中,目标行业特征包括目标行业风险关注点,目标风险标签的筛选方式包括多种,例如,对于一些明显不属于目标行业风险关注点的初始风险标签,就可以去除,进而挑选出符合目标行业特征的若干个目标风险标签。
在可选的实施方式中,通过多个初始风险标签的聚类情况,更新初期确定的多个目标风险标签,进而获得对目标行业风险用户识别更加准确的用户画像,步骤S106,包括以下步骤:
步骤2.1),根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合;
步骤2.2),根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新。
其中,聚类集合指与目标风险标签相似的若干个目标风险标签的集合。
在可选的实施方式中,步骤2.1)还可用以下步骤进行实现,包括:
步骤2.1.1),根据每个所述初始风险标签的坐标位置与所述多个目标风险标签的坐标位置之间的距离,确定所述多个目标风险标签的聚类集合,其中,所述初始风险标签属于距离最近的所述目标风险标签的聚类集合。
作为一种可选的实施例,一个手机号码可能有多个风险标签。
这里,首先,根据目标行业的特征和云端数据库输出的众多风险标签定义出k个目标风险标签;即k个目标风险标签即为自学习模型聚类算法中的k个质心A(A类质心):μ1,μ2...,μkA。
其次,定义数据集x(1),x(2)...,x(m),1≤m≤100万;这里,数据集x(m)为第m个手机号码的标签集合;数据集x(m,k)为第m个手机号码的标签集合中第k个标签。
再次,对于云端数据库输出的每个手机号码的所有风险标签,计算其与每一个质心A(目标风险标签)的距离,即按照此目标风险标签进行聚类,将相同或相近属性的标签划分到那个质心A所属的集合,如下式:
c(k)=min k||x(m,k)-μkA||2
其中,k取值1-k,c(k)表示从1到k的所有聚类中心索引中(质心A中)最接近于x(m,k)的索引集合,即标签属性类似的手机号码集合,分别为c(1)、c(2)……c(k)。
在可选的实施方式中,步骤2.2)还包括:
步骤2.2.1),根据所述目标风险标签的聚类集合中每个风险标签的坐标位置计算质心坐标位置;
然后重新计算每个集合c(i)的质心,定义该质心为质心B;
For k=1:k
这里,μkB为对于接近于聚类k点处平均值,即:μkB=1/n*∑[c(k)-μkA],根据此公式得到质心B,其中,n表示第c(i)个集合中有n个数值。
步骤2.2.2),在所述质心坐标位置与所述目标风险标签的坐标位置的距离小于距离阈值的情况下,将所述目标风险标签不进行更新。此时,质心坐标位置对应的风险标签属性与目标风险标签属性相同。
即,若If|μkA-μkB|<theta,即表示质心B和质心A之间的位置变化不大,趋于稳定,或者说收敛;
这里,如果新计算出来的质心B和原来的质心A之间的标签属性相同(即重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,即该标签有效,可继续使用;
在可选的实施方式中,该方法还包括:
步骤3.1),在所述质心坐标位置与所述目标风险标签的坐标位置的距离大于距离阈值的情况下,将所述质心坐标位置对应的风险标签作为所述新生目标风险标签,并通过所述新生目标风险标签对所述目标风险标签进行更新。
即,此时为If|μkA-μkB|>theta,表示质心B和质心A之间的位置变化较大,不稳定,或者说不收敛;
可以理解的是,此处theta为浮动阈值,可依据实际情况调节数值。
在可选的实施方式中,若质心坐标位置对应的风险标签属性与原始的目标风险标签属性不同,则当质心坐标位置与目标风险标签的坐标位置的距离大于距离阈值的情况下,可将新属性的质心坐标位置对应风险标签更新为新的目标风险标签,或者,保留原属性的目标风险标签的同时,将新属性的质心坐标位置对应风险标签也作为目标风险标签,即此时的目标风险标签的总数增加1个。
这里,如果新计算出来的质心B和原质心A属性完全不同,则取质心B为新固定标签,即新k=k+1;
在可选的实施方式中,所述初始风险用户信息还包括有所述风险标签对应的风险值,所述方法还包括:
步骤4.1),在所述初始风险用户信息中查找与所述更新后的所述目标风险标签相同的风险标签;
步骤4.2),根据与所述更新后的所述目标风险标签相同的风险标签对应的风险值,对所述初始风险用户进行风险验证。
上述k-means算法中输出的值可进行人工审核,并且赋予新的标签定义,形成新的手机号码风险画像、个性化标签;并且可以制定相关策略,根据实际情况做风险值调节;该流程可循环往复,不断优化风控策略,实时调节,可预测新出现的风险场景,保证高命中率。
作为一种可选的实施例,可通过将根据自学习模型输出的结果得到的用户身份画像,反馈至初期数据查询阶段,即云端数据库,此时经过用户身份画像干预的云端数据库可对来自客户端的用户手机号进行更为精准的判别,更加符合目标行业的风险判别要求;
该方案后期还会有一些其他机器学习算法适用,如:决策树算法、线性回归算法、卷积神经网络算法、SVM算法等;不同的算法可能逻辑过程不尽相同,但是最终达成的结果即为通过数据建模方式输出的手机号码画像的标签值。
如图2所示,用户访问前端企业业务***,输入手机号,进行注册、登录、评论等活动参与情况,企业业务***通过API请求调用,通过业务风险情报***将手机号加密后发送到手机号码黑产库,以使云端黑产库进行精确比对,筛选出疑似风险的手机号,并返回风险值和风险标签;基于大量数据的风险值、风险标签对自学习引擎进行模型训练,得到个性化手机号画像,将手机号画像返回企业风控***,以便企业业务***对手机号进行风险处理,验证手机号是否属于薅羊毛、欺诈、刷单、批量注册、恶意、虚假账号的情况。
具体地,作为一种可选的实施例,本发明实施例还包括定义初期风险值和风险标签;
其中,风险值(风险值越大,风险程度越高)定义如下表1:
表1
Figure BDA0002514312000000141
Figure BDA0002514312000000151
这里,风险标签定义如下表2:
表2
Figure BDA0002514312000000152
Figure BDA0002514312000000161
本发明实施例关键点在于自学习引擎,先是由前期训练,得到大量的初始风险用户信息,积累足够的数据基础,然后通过建模计算后可以输出可进行个性化设置干预的目标风险标签和风险值,形成用户画像,然后将用户画像更新到初期的数据查询阶段可以有效的提高查询命中率,很好的契合不断变化的风险行为优化企业风控策略,有效预防未知风险。
如图3所示,实施例提供一种用户身份画像的数据处理装置,包括:
获取模块,用于获取多个初始风险用户信息,其中,每个所述初始风险用户信息包括用户的手机号以及与所述手机号对应的多个初始风险标签;
第一确定模块,用于基于目标行业的特征以及所述多个初始风险标签,确定多个目标风险标签;
聚类模块,用于根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新;
第二确定模块,用于基于更新后的所述目标风险标签以及所述多个初始风险标签,确定每个所述手机号对应的目标风险标签,得到所述目标行业的用户身份画像。
在可选的实施方式中,获取模块还用于获取多个用户信息;将所述多个用户信息加密后发送到云端数据库;获取多个初始风险用户对应的初始风险用户信息,所述多个初始风险用户为所述云端数据库对所述多个用户信息验证后得到的。
在可选的实施方式中,聚类模块还用于根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合;根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新。
在可选的实施方式中,聚类模块还用于根据每个所述初始风险标签的坐标位置与所述多个目标风险标签的坐标位置之间的距离,确定所述多个目标风险标签的聚类集合,其中,所述初始风险标签属于距离最近的所述目标风险标签的聚类集合。
在可选的实施方式中,聚类模块还用于根据所述目标风险标签的聚类集合中每个风险标签的坐标位置计算质心坐标位置;在所述质心坐标位置与所述目标风险标签的坐标位置的距离小于距离阈值的情况下,将所述目标风险标签不进行更新。
在可选的实施方式中,聚类模块还用于在所述质心坐标位置与所述目标风险标签的坐标位置的距离大于距离阈值的情况下,将所述目标风险标签更新为所述质心坐标位置对应的风险标签。
在可选的实施方式中,所述初始风险用户信息还包括有所述风险标签对应的风险值,还包括验证模块,用于在所述初始风险用户信息中查找与所述更新后的所述目标风险标签相同的风险标签;根据与所述更新后的所述目标风险标签相同的风险标签对应的风险值,对所述初始风险用户进行风险验证。
进一步地,如图4所示,是本发明实施例提供的用于实现所述用户身份画像的数据处理方法的电子设备400的示意图。本实施例中,所述电子设备400可以是,但不限于,个人电脑(Personal Computer,PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。作为一种可选的实施例,电子设备400可为用户身份画像的数据处理方法。
图4为本发明实施例提供的电子设备400的硬件架构示意图。如图4所示,电子设备400包括存储器401、处理器402,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图4,电子设备还包括:总线403和通信接口404,处理器402、通信接口404和存储器401通过总线403连接;处理器402用于执行存储器401中存储的可执行模块,例如计算机程序。
其中,存储器401可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口404(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线403可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器401用于存储程序,所述处理器402在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器402中,或者由处理器402实现。
处理器402可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成上述方法的步骤。
对应于上述跨区块链通信方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述用户身份画像的数据处理方法的步骤。
本申请实施例所提供的用户身份画像自学习装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述跨区块链通信方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种用户身份画像的数据处理方法,其特征在于,包括:
获取多个初始风险用户信息,其中,每个所述初始风险用户信息包括用户的手机号以及与所述手机号对应的多个初始风险标签;
基于目标行业的特征以及所述多个初始风险标签,确定多个目标风险标签;
根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新;
基于更新后的所述目标风险标签以及所述多个初始风险标签,确定每个所述手机号对应的目标风险标签,得到所述目标行业的用户身份画像。
2.根据权利要求1所述的方法,其特征在于,获取多个初始风险用户信息的步骤,包括:
获取多个用户信息;
将所述多个用户信息加密后发送到云端数据库;
获取多个初始风险用户对应的初始风险用户信息,所述多个初始风险用户为所述云端数据库对所述多个用户信息验证后得到的。
3.根据权利要求1所述的方法,其特征在于,根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新的步骤,包括:
根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合;
根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新。
4.根据权利要求3所述的方法,其特征在于,根据所述多个初始风险标签和所述多个目标风险标签,确定每个所述目标风险标签的聚类集合的步骤,包括:
根据每个所述初始风险标签的坐标位置与所述多个目标风险标签的坐标位置之间的距离,确定所述多个目标风险标签的聚类集合,其中,所述初始风险标签属于距离最近的所述目标风险标签的聚类集合。
5.根据权利要求3所述的方法,其特征在于,根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新的步骤,包括:
根据所述目标风险标签的聚类集合中每个风险标签的坐标位置计算质心坐标位置;
在所述质心坐标位置与所述目标风险标签的坐标位置的距离小于距离阈值的情况下,将所述目标风险标签不进行更新。
6.根据权利要求5所述的方法,其特征在于,根据所述聚类集合对应的初始风险标签,确定新生目标风险标签,通过所述新生目标风险标签对所述目标风险标签进行更新的步骤,还包括:
在所述质心坐标位置与所述目标风险标签的坐标位置的距离大于距离阈值的情况下,将所述质心坐标位置对应的风险标签作为所述新生目标风险标签,并通过所述新生目标风险标签对所述目标风险标签进行更新。
7.根据权利要求1所述的方法,其特征在于,所述初始风险用户信息还包括有所述风险标签对应的风险值,所述方法还包括:
在所述初始风险用户信息中查找与所述更新后的所述目标风险标签相同的风险标签;
根据与所述更新后的所述目标风险标签相同的风险标签对应的风险值,对所述初始风险用户进行风险验证。
8.一种用户身份画像的数据处理装置,其特征在于,包括:
获取模块,用于获取多个初始风险用户信息,其中,每个所述初始风险用户信息包括用户的手机号以及与所述手机号对应的多个初始风险标签;
第一确定模块,用于基于目标行业的特征以及所述多个初始风险标签,确定多个目标风险标签;
聚类模块,用于根据所述多个初始风险标签,通过聚类分析对所述目标风险标签进行更新;
第二确定模块,用于基于更新后的所述目标风险标签以及所述多个初始风险标签,确定每个所述手机号对应的目标风险标签,得到所述目标行业的用户身份画像。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的用户身份画像的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任意一项所述的用户身份画像的数据处理方法。
CN202010471950.8A 2020-05-28 2020-05-28 用户身份画像的数据处理方法和装置 Active CN113763057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010471950.8A CN113763057B (zh) 2020-05-28 2020-05-28 用户身份画像的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010471950.8A CN113763057B (zh) 2020-05-28 2020-05-28 用户身份画像的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN113763057A true CN113763057A (zh) 2021-12-07
CN113763057B CN113763057B (zh) 2024-05-14

Family

ID=78782302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010471950.8A Active CN113763057B (zh) 2020-05-28 2020-05-28 用户身份画像的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113763057B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338171A (zh) * 2021-12-29 2022-04-12 中国建设银行股份有限公司 一种黑产攻击检测方法和装置
CN114817377A (zh) * 2022-06-29 2022-07-29 深圳红途科技有限公司 基于用户画像的数据风险检测方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086975A (zh) * 2018-07-10 2018-12-25 阿里巴巴集团控股有限公司 一种交易风险的识别方法和装置
CN109086961A (zh) * 2018-06-26 2018-12-25 阿里巴巴集团控股有限公司 一种信息风险监测方法及装置
CN109213771A (zh) * 2018-06-28 2019-01-15 深圳市彬讯科技有限公司 更新画像标签的方法和装置
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN109684330A (zh) * 2018-12-17 2019-04-26 深圳市华云中盛科技有限公司 用户画像库构建方法、装置、计算机设备及存储介质
CN109784403A (zh) * 2019-01-16 2019-05-21 武汉斗鱼鱼乐网络科技有限公司 一种识别风险设备的方法以及相关设备
CN110276519A (zh) * 2019-05-14 2019-09-24 平安科技(深圳)有限公司 风险画像建立方法、装置、计算机设备及存储介质
CN110399925A (zh) * 2019-07-26 2019-11-01 腾讯科技(武汉)有限公司 账号的风险识别方法、装置及存储介质
CN110544109A (zh) * 2019-07-25 2019-12-06 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质
WO2020007153A1 (zh) * 2018-07-03 2020-01-09 阿里巴巴集团控股有限公司 识别二次放号账户盗用的风控模型训练、风控方法、装置以及设备
CN110781379A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 信息推荐方法、装置、计算机设备和存储介质
CN111062642A (zh) * 2019-12-27 2020-04-24 南京三百云信息科技有限公司 对象的行业风险程度识别方法、装置以及电子设备
CN111062619A (zh) * 2019-12-18 2020-04-24 支付宝(杭州)信息技术有限公司 商户识别方法、装置、电子设备及存储介质
CN111091351A (zh) * 2019-12-16 2020-05-01 北京政信1890智能科技有限公司 用户画像构建方法、装置、电子设备和可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086961A (zh) * 2018-06-26 2018-12-25 阿里巴巴集团控股有限公司 一种信息风险监测方法及装置
CN109213771A (zh) * 2018-06-28 2019-01-15 深圳市彬讯科技有限公司 更新画像标签的方法和装置
WO2020007153A1 (zh) * 2018-07-03 2020-01-09 阿里巴巴集团控股有限公司 识别二次放号账户盗用的风控模型训练、风控方法、装置以及设备
CN109086975A (zh) * 2018-07-10 2018-12-25 阿里巴巴集团控股有限公司 一种交易风险的识别方法和装置
CN109684330A (zh) * 2018-12-17 2019-04-26 深圳市华云中盛科技有限公司 用户画像库构建方法、装置、计算机设备及存储介质
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN109784403A (zh) * 2019-01-16 2019-05-21 武汉斗鱼鱼乐网络科技有限公司 一种识别风险设备的方法以及相关设备
CN110276519A (zh) * 2019-05-14 2019-09-24 平安科技(深圳)有限公司 风险画像建立方法、装置、计算机设备及存储介质
CN110544109A (zh) * 2019-07-25 2019-12-06 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN110399925A (zh) * 2019-07-26 2019-11-01 腾讯科技(武汉)有限公司 账号的风险识别方法、装置及存储介质
CN110781379A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 信息推荐方法、装置、计算机设备和存储介质
CN111091351A (zh) * 2019-12-16 2020-05-01 北京政信1890智能科技有限公司 用户画像构建方法、装置、电子设备和可读存储介质
CN111062619A (zh) * 2019-12-18 2020-04-24 支付宝(杭州)信息技术有限公司 商户识别方法、装置、电子设备及存储介质
CN111062642A (zh) * 2019-12-27 2020-04-24 南京三百云信息科技有限公司 对象的行业风险程度识别方法、装置以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338171A (zh) * 2021-12-29 2022-04-12 中国建设银行股份有限公司 一种黑产攻击检测方法和装置
CN114817377A (zh) * 2022-06-29 2022-07-29 深圳红途科技有限公司 基于用户画像的数据风险检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113763057B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN109087079B (zh) 数字货币交易信息分析方法
CN105590055B (zh) 用于在网络交互***中识别用户可信行为的方法及装置
CN111681091B (zh) 基于时间域信息的金融风险预测方法、装置及存储介质
CN112669138B (zh) 数据处理方法及相关设备
CN104866969A (zh) 个人信用数据处理方法和装置
CN111367965B (zh) 目标对象确定方法、装置、电子设备及存储介质
CN113468520A (zh) 应用于区块链业务的数据入侵检测方法及大数据服务器
CN110619530A (zh) 农产品溯源方法、电子设备及计算机可读存储介质
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN113763057A (zh) 用户身份画像的数据处理方法和装置
CN113961764A (zh) 诈骗电话的识别方法、装置、设备及存储介质
CN111798047A (zh) 风控预测方法、装置、电子设备及存储介质
CN112749973A (zh) 一种权限管理方法、装置和计算机可读存储介质
CN107077455A (zh) 釆用基于事件的流量评分确定流量质量
CN110572302B (zh) 无盘局域网场景识别方法、装置及终端
CN111612085A (zh) 一种对等组中异常点的检测方法及装置
CN109478219A (zh) 用于显示网络分析的用户界面
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
US20220083910A1 (en) Learning model applying system, a learning model applying method, and a program
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
JP6706397B1 (ja) 学習システム、学習方法、及びプログラム
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN115037790A (zh) 异常注册识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant