CN114782161A - 识别风险用户的方法、装置、存储介质及电子装置 - Google Patents

识别风险用户的方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN114782161A
CN114782161A CN202210336071.3A CN202210336071A CN114782161A CN 114782161 A CN114782161 A CN 114782161A CN 202210336071 A CN202210336071 A CN 202210336071A CN 114782161 A CN114782161 A CN 114782161A
Authority
CN
China
Prior art keywords
user
target
feature
data
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210336071.3A
Other languages
English (en)
Inventor
李寒
许贤铭
严澄
杨青
单黎平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202210336071.3A priority Critical patent/CN114782161A/zh
Publication of CN114782161A publication Critical patent/CN114782161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种识别风险用户的方法、装置、存储介质及电子装置。其中,该方法包括:获取目标数据;对目标数据进行预处理,得到预处理结果;基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征;利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。本发明解决了现有技术中识别风险用户的方法其规则制定成本高、可解释性较差的技术问题。

Description

识别风险用户的方法、装置、存储介质及电子装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种识别风险用户的方法、装置、存储介质及电子装置。
背景技术
信贷即信用贷款,它是我国银行长期以来的主要放款方式。在信贷业务中,主要有两种风险(即:欺诈风险和信用风险)。欺诈风险是指借款人或借贷人存在诈骗、赖账的可能性。信用风险是借款人因各种原因未能及时、足额偿还银行贷款而违约的可能性。信贷反欺诈和信用风险预测的方法主要有以下两种
现有技术中,可以使用传统专家反欺诈方法或者建立反欺诈和信用风险模型的方法进行信贷反欺诈和信用风险预测,从而识别出风险用户。但是,使用传统专家反欺诈方法进行信贷反欺诈预测时规则制定成本高,使用建立反欺诈和信用风险模型的方法进行信贷反欺诈和信用风险预测时则具有一定的滞后性、可解释性较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种识别风险用户的方法、装置、存储介质及电子装置,以至少解决现有技术中识别风险用户的方法其规则制定成本高、可解释性较差的技术问题。
根据本发明实施例的一方面,提供了一种识别风险用户的方法,包括:获取目标数据;对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息;基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征;利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
根据本发明实施例的另一方面,还提供了一种识别风险用户的装置,包括:获取模块,用于获取目标数据;第一处理模块,用于对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息;构建模块,用于基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;第二处理模块,用于根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征;第三处理模块,用于利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,其特征在于,存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行本发明提出的识别风险用户的方法。
根据本发明实施例的另一方面,还提供了一种处理器,其特征在于,处理器用于运行程序,其中,程序被设置为运行时执行本发明提出的识别风险用户的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行本发明提出的识别风险用户的方法。
在本发明实施例中,首先对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息,然后基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系,其次根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征,最后利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,从而可以根据风险识别结果制定目标风险策略,由此达到了充分利用目标用户以及其关联用户的信息进行风险识别的目的,从而实现了降低识别风险用户方法的规则制定成本、提高识别风险用户方法的可解释性的技术效果,进而解决了现有技术中识别风险用户的方法其规则制定成本高、可解释性较差的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种识别风险用户的方法的流程图;
图2是根据本发明实施例提供的一种可选的多因子关联的异构网络结构图;
图3是根据本发明实施例提供的一种可选的转录因子相关性网络计算框架的示意图;
图4是根据本发明实施例提供的一种识别风险用户方法的数据流向的示意图;
图5是根据本发明实施例提供的一种识别风险用户装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种识别风险用户的方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例提供的一种识别风险用户的方法的流程图。如图1所示,该方法可以包括如下步骤:
步骤S11,获取目标数据。
上述目标数据既可以是用户授权用于信贷审批的个人信息、紧急联系人信息、征信等历史信贷记录以及在借贷应用软件上留下的行为信息、互联网行为等信息,也可以是信贷平台对用户的催收行为记录、欺诈名单、风险名单、交易数据等信息。另外,上述目标数据需要按照合规和国家相关部门的要求进行数据脱敏后再应用,其中,数据脱敏可以是一种为用户提供虚假数据而非真实数据,防止敏感数据滥用的技术。
步骤S12,对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息。
上述预处理是指在主要的处理之前对数据进行的一些处理,可以包括数据清洗、数据集成、数据变换和数据规约等,其中数据清洗可以是对数据缺失值的处理。上述实体信息可以是用户的手机号、计算机终端设备信息、网络连接状态(如:无线局域网络)等。上述属性信息可以是用户申请借贷的次数、借贷金额、历史申请记录、用户年龄等信息。上述关联用户可以是目标用户的亲戚、朋友、邻居等和目标用户有联系的用户。
例如,某借贷***对本年度申请借款的用户信息进行统计汇总并整理成表格,其中,用户信息可以包括用户的性别、年龄、手机号、借款金额、发起借款申请的时间等,表格内容除了包括用户信息以外,还可以包括用户的平均年龄,本年度男性用户借款金额的平均值、本年度女性用户借款金额的平均值等。该借贷***可以通过相应程序自动生成表格,当发现表格中缺少部分用户的借款金额数据时,可以通过相似插补的方法对缺失数据进行处理,即可以分别计算本年度男性用户借款金额的平均值和本年度女性用户借款金额的平均值,然后将本年度男性用户借款金额的平均值替换缺失的男性用户的借款金额数据,将本年度女性用户借款金额的平均值替换缺失的女性用户的借款金额数据,以此完成对数据缺失值的处理。
步骤S13,基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系。
上述关联网络可以使用分布式图处理框架(如:Spark GraphX)构建的多因子关联的异构网络,其中,Spark是一种开源集群计算环境,GraphX是一个计算引擎,提供了强大的计算接口,可以很方便的处理复杂的业务逻辑。另外,GraphX是Spark中用于图和图计算的组件。
步骤S14,根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征。
上述特征提取是指将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便后续使用的方法及过程。
步骤S15,利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
上述风险识别可以是用判断、归类的方式对现实的和潜在的风险性质进行鉴别的过程。
根据本发明上述步骤S11至步骤S15,首先对目标数据进行预处理,得到预处理结果,然后基于预处理结果构建关联网络,其次根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,以便利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,由此达到了充分利用目标用户以及其关联用户的信息进行风险识别的目的,从而实现了降低识别风险用户方法的规则制定成本、提高识别风险用户方法的可解释性的技术效果,进而解决了现有技术中识别风险用户的方法其规则制定成本高、可解释性较差的技术问题。
下面对该实施例的上述方法进行进一步介绍。
作为一种可选的实施方式,在步骤S14中,根据关联网络进行特征提取处理,得到第一用户特征可以包括以下方法步骤:
步骤S141,采用目标算法对关联网络进行识别处理,得到群体识别结果,其中,群体识别结果包括与目标用户相关联的群体;
步骤S142,对群体识别结果进行统计特征提取处理,得到第一用户特征。
图2是根据本发明实施例提供的一种可选的多因子关联的异构网络结构图。如图2所示,图中的顶点可以表示实体,其中,实体可以是不同用户的手机号、银行卡、身份证号、设备等。图中的边可以表示顶点之间的关系,如:手机号1所使用的设备1,手机号1申请和身份证号1关联,使用手机号1的用户和使用手机号2的用户是联系人等,由此,基于上述预处理结果构建多因子关联的异构网络。
上述第一用户特征用于确定目标用户对应的群体借款申请数据,其中,群体借款申请数据可以是群体节点数、借贷次数等群体数据。上述目标算法可以是louvian社区发现算法。
louvian社区发现算法是一种基于模块度的图算法。具体地,该算法首先将图中每个顶点当作一个独立的社区,社区个数与顶点个数相同,然后依次将每个顶点与之相邻顶点合并在一起,计算它们的模块度增益是否大于0,如果大于0,将该顶点放入该相邻顶点所在社区,一直迭代直至所有顶点所属社区不再变化,最后将各个社区所有顶点压缩成一个结点,社区内顶点的权重转化为新结点外的权重,社区间权重转化为新结点边的权重,直至算法稳定。另外,模块度可以用来定量的衡量网络社区的划分质量,模块度值越接近于1,表示网络社区的划分质量越好。另外,图是由顶点集合及顶点间的关系集合组成的一种数据结构。
在对多因子关联的异构网络进行特征提取的过程中,可以首先采用louvian社区发现算法对多因子关联的异构网络进行识别处理,得到与目标用户相关联的群体识别结果,然后对群体识别结果进行特征提取,由此得到目标用户对应的群体节点数、借贷次数等群体数据。
作为一种可选的实施方式,在步骤S14中,根据关联网络进行特征提取处理,得到第二用户特征可以包括以下方法步骤:
步骤S143,利用统计算法对关联网络进行特征提取处理,得到第二用户特征。
上述第二用户特征用于确定关联用户对应的逾期借款申请数据,其中,关联用户对应的逾期借款申请数据可以是一度邻居有逾期历史的个数、比例等数据。上述统计算法可以是K近邻算法。
K近邻算法是根据不同特征值之间的距离来进行分类的一种机器学习方法。具体地,该算法首先需要收集数据,组成训练样本集,并且样本集中每个数据都存在标签(即:样本集中的每个数据都有其所属的分类),然后输入没有标签的新数据,将该新数据的每个特征与样本集中数据对应的特征进行比较,其次,提取样本集中与输入的新数据特征最相似的数据的分类标签,最后在训练样本集中选择K个与输入新数据最相似的数据,根据这K个数据出现最多的分类结果作为输入的新数据的分类。另外,K值通常小于20。
在对多因子关联的异构网络进行特征提取的过程中,可以采用K近邻算法对多因子关联的异构网络进行特征提取,由此得到关联用户对应的一度邻居有逾期历史的个数、比例等数据。
作为一种可选的实施方式,在步骤S14中,根据关联网络进行特征提取处理,得到第三用户特征可以包括以下方法步骤:
步骤S144,获取目标用户的第一格式数据,其中,第一格式数据包括目标用户的节点特征和关联用户的节点特征;
步骤S145,利用第二模型对第一格式数据进行特征提取处理,得到第三用户特征,其中,第二模型可以利用多组数据通过机器学习训练得到,多组数据中的每组数据均包括:样本用户的节点特征和样本关联用户的节点特征。
上述第三用户特征用于确定关联用户对应的深度学习特征。上述第一格式数据可以是借贷人的标准格式数据。上述第二模型可以是图卷积神经网络(Graph ConvolutionalNetwork,简称GCN)模型、图注意力神经网络(Graph Attention Network,简称GAT)模型、Node2Vector模型等深度学习方法模型。
例如,在对多因子关联的异构网络进行特征提取的过程中,可以使用GCN模型挖掘邻居的深度学习特征。具体地,首先获取目标用户的节点特征和关联用户的节点特征,然后使用GCN模型对目标用户的节点特征和关联用户的节点特征进行特征提取,由此得到关联用户对应的深度学习特征。另外,GCN是一个多层的图卷积神经网络,卷积神经网络由一个或多个卷积层和顶端的全连接层组成,同时也包括关联权重和池化层。GCN中的每一个卷积层处理的是一阶邻域信息,然后通过叠加若干卷积层实现多阶邻域的信息传递。
作为一种可选的实施方式,在步骤S15中,利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果可以包括以下方法步骤:
步骤S151,对关联用户进行采样处理,得到采样结果;
步骤S152,基于目标推导算法对第一用户特征、第二用户特征和第三用户特征进行特征聚合处理,得到聚合结果;
步骤S153,对采样结果和聚合结果进行合并处理,得到第二格式数据;
步骤S154,利用第一模型对第二格式数据进行风险识别处理,得到目标用户对应的风险识别结果。
上述采样可以是从总体中抽取个体或样品的过程。上述目标推导算法可以是GraphSage归纳学习算法。上述第二格式数据可以是将用户节点特征数据和邻居节点数据合并后形成的模型标准输入格式数据。上述第一模型可以是传统逻辑回归模型或者极端梯度增强算法(Extreme Gradient Boosting,简称XGBoost)等集成树模型。
例如,通过GraphSage归纳学习算法对邻居统计特征、分群特征、邻居深度学习特征进行特征聚合处理。可以首先对关联用户节点进行采样,得到采样结果,然后基于采样结果,对关联用户的邻居节点的特征进行聚合处理,一直迭代更新,直到每个邻居节点的聚合的信息几乎都是全局信息时终止迭代,得到聚合信息,最后根据聚合信息对邻居节点进行学习,得到聚合结果。另外,GraphSage归纳学习算法可以是GCN从空间域上的一种实现。
基于上述步骤S151至步骤S154,首先对关联用户特征进行采样处理,得到采样结果,然后通过GraphSage归纳学习算法对邻居统计特征、分群特征、邻居深度学习特征进行特征聚合处理,得到聚合结果,其次将目标用户的个人信息加工的特征、邻居统计特征、分群特征以及邻居深度学习特征进行合并,得到目标用户节点特征数据和邻居节点特征数据,最后利用XGBoost模型对目标用户节点特征数据和邻居节点特征数据进行风险识别,由此得到目标用户对应的风险识别结果。
作为一种可选的实施方式,识别风险用户的方法还包括以下方法步骤:
步骤S16,获取目标群体标签;
步骤S17,根据所目标群体标签从关联网络获取目标名单,其中,目标名单用于制定目标风险策略。
上述目标群体标签可以是黑产、恶意、欺诈等,其中,黑产是指以互联网为媒介,以网络技术为主要手段,为计算机信息***安全和网络空间管理秩序带来潜在威胁的非法行为。上述目标名单可以是黑产人员名单、恶意投诉代理名单、欺诈团伙名单等。上述目标风险策略可以是反欺诈策略。
在制定反欺诈策略的过程中,可以首先获取诸如黑产、恶意、欺诈等的群体标签,然后根据这些群体标签从多因子关联的异构网络中获取相对应的黑产人员名单、恶意投诉代理名单、欺诈团伙名单等,由此满足反欺诈场景的需求。
图3是根据本发明实施例提供的一种可选的转录因子相关性网络计算框架的示意图。如图3所示,该计算框架可以包括线下建模和线上服务两部分,其中,线下建模部分需要***每个节点并进行更新,然后生成相应的节点特征,最后根据任务需求进行调用,而线上服务部分只需对目标用户构建子图,然后将目标用户的个人信息加工的特征、邻居统计特征、分群特征以及邻居深度学习特征进行合并,得到目标用户节点特征数据和邻居节点特征数据,最后利用XGBoost模型对目标用户节点特征数据和邻居节点特征数据进行风险识别,由此对用户可能存在的欺诈、信用风险进行预测。
具体地,线下建模部分可以首先从底层图数据库中通过Spark计算环境获取目标用户的标准格式数据,其中,数据包括目标用户节点特征以及随机采样的1度和2度邻居节点特征,然后目标用户的标准格式数据通过转录因子相关性网络计算框架进行训练,从而输出相应的模型以根据任务需求进行调用。另外,转录因子相关性网络计算框架中嵌入了用于深度学习特征加工的GCN、GAT、N2V等模型模块。
图4是根据本发明实施例提供的一种识别风险用户方法的数据流向的示意图。如图4所示,数据的流向可以是首先从目标用户的个人信息、金融数据以及非金融数据等源数据开始,然后源数据经过数据预处理,得到实体数据、属性数据以及关系数据等底层数据,其次基于底层数据构建关系网络以及对底层数据进行存储,最后通过挖掘出用户的风险特征,建立信用风险模型和反欺诈模型,以此将反欺诈模型应用于反欺诈策略的制定,将信用风险模型应用于授信策略的制定,由此满足反欺诈场景和信用场景的需求。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本发明中还提供了一种识别风险用户装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本公开实施例的提供的一种识别风险用户装置的结构框图,如图5所示,别风险用户装置500包括:获取模块501、第一处理模块502、构建模块503、第二处理模块504、第三处理模块505。
获取模块501,用于获取目标数据;第一处理模块502,用于对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息;构建模块503,用于基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;第二处理模块504,用于根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征;第三处理模块505,用于利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
可选地,第二处理模块504,还用于采用目标算法对关联网络进行识别处理,得到群体识别结果,其中,群体识别结果包括与目标用户相关联的群体;对群体识别结果进行统计特征提取处理,得到第一用户特征。
可选地,第二处理模块504,还用于利用统计算法对关联网络进行特征提取处理,得到第二用户特征。
可选地,第二处理模块504,还用于获取目标用户的第一格式数据,其中,第一格式数据包括目标用户的节点特征和关联用户的节点特征;利用第二模型对第一格式数据进行特征提取处理,得到第三用户特征,其中,第二模型可以利用多组数据通过机器学习训练得到,多组数据中的每组数据均包括:样本用户的节点特征和样本关联用户的节点特征。
可选地,第三处理模块505,还用于对关联用户进行采样处理,得到采样结果;基于目标推导算法对第一用户特征、第二用户特征和第三用户特征进行特征聚合处理,得到聚合结果;对采样结果和聚合结果进行合并处理,得到第二格式数据;利用第一模型对第二格式数据进行风险识别处理,得到目标用户对应的风险识别结果。
可选地,获取模块501,还用于获取目标群体标签;根据目标群体标签从关联网络获取目标名单,其中,目标名单用于制定目标风险策略。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本发明的实施例,本发明还提供了一种存储有计算机程序的非易失性存储介质,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序:
步骤S1,获取目标数据;
步骤S2,对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息;
步骤S3,基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;
步骤S4,根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征;
步骤S5,利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
可选地,在本实施例中,上述非易失性存储介质可以包括但不限于:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
根据本公开的实施例,本公开还提供了一种电子装置,包括存储器和至少一个处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S1,获取目标数据;
步骤S2,对目标数据进行预处理,得到预处理结果,其中,预处理结果包括目标用户的实体信息、属性信息,目标用户与关联用户之间的关系信息;
步骤S3,基于预处理结果构建关联网络,其中,关联网络的顶点为与目标用户相关联的目标实体,关联网络的边为目标实体之间的关系;
步骤S4,根据关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,第一用户特征用于确定目标用户对应的群体借款申请数据,第二用户特征用于确定关联用户对应的逾期借款数据,第三用户特征用于确定关联用户对应的深度学习特征;
步骤S5,利用第一模型对第一用户特征、第二用户特征和第三用户特征进行风险识别处理,得到目标用户对应的风险识别结果,其中,风险识别结果用于制定目标风险策略。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种识别风险用户的方法,其特征在于,包括:
获取目标数据;
对所述目标数据进行预处理,得到预处理结果,其中,所述预处理结果包括目标用户的实体信息、属性信息,所述目标用户与关联用户之间的关系信息;
基于所述预处理结果构建关联网络,其中,所述关联网络的顶点为与所述目标用户相关联的目标实体,所述关联网络的边为所述目标实体之间的关系;
根据所述关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,所述第一用户特征用于确定所述目标用户对应的群体借款申请数据,所述第二用户特征用于确定所述关联用户对应的逾期借款数据,所述第三用户特征用于确定所述关联用户对应的深度学习特征;
利用第一模型对所述第一用户特征、所述第二用户特征和所述第三用户特征进行风险识别处理,得到所述目标用户对应的风险识别结果,其中,所述风险识别结果用于制定目标风险策略。
2.根据权利要求1所述的识别风险用户的方法,其特征在于,根据所述关联网络进行特征提取处理,得到所述第一用户特征包括:
采用目标算法对所述关联网络进行识别处理,得到群体识别结果,其中,所述群体识别结果包括与所述目标用户相关联的群体;
对所述群体识别结果进行统计特征提取处理,得到所述第一用户特征。
3.根据权利要求1所述的识别风险用户的方法,其特征在于,根据所述关联网络进行特征提取处理,得到所述第二用户特征包括:
利用统计算法对所述关联网络进行特征提取处理,得到所述第二用户特征。
4.根据权利要求1所述的识别风险用户的方法,其特征在于,根据所述关联网络进行特征提取处理,得到所述第三用户特征包括:
获取所述目标用户的第一格式数据,其中,所述第一格式数据包括所述目标用户的节点特征和所述关联用户的节点特征;
利用第二模型对所述第一格式数据进行特征提取处理,得到所述第三用户特征,其中,所述第二模型可以利用多组数据通过机器学习训练得到,所述多组数据中的每组数据均包括:样本用户的节点特征和样本关联用户的节点特征。
5.根据权利要求1所述的识别风险用户的方法,其特征在于,利用所述第一模型对所述第一用户特征、所述第二用户特征和所述第三用户特征进行处理,得到所述目标用户对应的风险识别结果包括:
对所述关联用户进行采样处理,得到采样结果;
基于目标推导算法对所述第一用户特征、所述第二用户特征和所述第三用户特征进行特征聚合处理,得到聚合结果;
对所述采样结果和所述聚合结果进行合并处理,得到第二格式数据;
利用所述第一模型对所述第二格式数据进行风险识别处理,得到所述目标用户对应的风险识别结果。
6.根据权利要求1所述的识别风险用户的方法,其特征在于,所述方法还包括:
获取目标群体标签;
根据所述目标群体标签从所述关联网络获取目标名单,其中,所述目标名单用于制定所述目标风险策略。
7.一种识别风险用户的装置,其特征在于,包括:
获取模块,用于获取目标数据;
第一处理模块,用于对所述目标数据进行预处理,得到预处理结果,其中,所述预处理结果包括目标用户的实体信息、属性信息,所述目标用户与关联用户之间的关系信息;
构建模块,用于基于所述预处理结果构建关联网络,其中,所述关联网络的顶点为与所述目标用户相关联的目标实体,所述关联网络的边为所述目标实体之间的关系;
第二处理模块,用于根据所述关联网络进行特征提取处理,得到第一用户特征、第二用户特征和第三用户特征,其中,所述第一用户特征用于确定所述目标用户对应的群体借款申请数据,所述第二用户特征用于确定所述关联用户对应的逾期借款数据,所述第三用户特征用于确定所述关联用户对应的深度学习特征;
第三处理模块,用于利用第一模型对所述第一用户特征、所述第二用户特征和所述第三用户特征进行风险识别处理,得到所述目标用户对应的风险识别结果,其中,所述风险识别结果用于制定目标风险策略。
8.一种非易失性存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的识别风险用户的方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至6任一项中所述的识别风险用户的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的识别风险用户的方法。
CN202210336071.3A 2022-03-31 2022-03-31 识别风险用户的方法、装置、存储介质及电子装置 Pending CN114782161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210336071.3A CN114782161A (zh) 2022-03-31 2022-03-31 识别风险用户的方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336071.3A CN114782161A (zh) 2022-03-31 2022-03-31 识别风险用户的方法、装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN114782161A true CN114782161A (zh) 2022-07-22

Family

ID=82427120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336071.3A Pending CN114782161A (zh) 2022-03-31 2022-03-31 识别风险用户的方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN114782161A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203487A (zh) * 2022-09-15 2022-10-18 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
CN115423542A (zh) * 2022-11-07 2022-12-02 中邮消费金融有限公司 一种老带新活动反欺诈识别方法及***
CN116205664A (zh) * 2023-04-28 2023-06-02 成都新希望金融信息有限公司 一种中介欺诈识别方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203487A (zh) * 2022-09-15 2022-10-18 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
CN115203487B (zh) * 2022-09-15 2022-12-20 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
CN115423542A (zh) * 2022-11-07 2022-12-02 中邮消费金融有限公司 一种老带新活动反欺诈识别方法及***
CN116205664A (zh) * 2023-04-28 2023-06-02 成都新希望金融信息有限公司 一种中介欺诈识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
US11507957B2 (en) Smart retail analytics and commercial messaging
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
CN114782161A (zh) 识别风险用户的方法、装置、存储介质及电子装置
CN110717816A (zh) 一种基于人工智能技术的全域金融风险知识图谱构建方法
CN110827138B (zh) 一种推送信息确定方法及装置
CN112989059A (zh) 潜在客户识别方法及装置、设备及可读计算机存储介质
CN112580952A (zh) 用户行为风险预测方法、装置、电子设备及存储介质
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、***、介质及设备
CN112669143A (zh) 基于关联网络的风险评估方法、装置、设备以及存储介质
CN111428217A (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN112200684A (zh) 一种检测医保欺诈的方法、***及存储介质
Zhao et al. Network-based feature extraction method for fraud detection via label propagation
CN115358878A (zh) 理财用户风险偏好等级分析方法及装置
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN113902576A (zh) 基于深度学习的信息推送方法、装置、电子设备及介质
WO2022066587A1 (en) Graph learning-based system with updated vectors
CN112116358A (zh) 一种交易欺诈行为的预测方法、装置及电子设备
Yang et al. Automatic Feature Engineering‐Based Optimization Method for Car Loan Fraud Detection
CN116484026B (zh) 基于知识图谱的人物关系推理方法、装置及电子设备
CN111738834B (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination