CN117609919A - 涉诈贩卡客户识别方法、装置、电子设备和存储介质 - Google Patents
涉诈贩卡客户识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117609919A CN117609919A CN202311630779.0A CN202311630779A CN117609919A CN 117609919 A CN117609919 A CN 117609919A CN 202311630779 A CN202311630779 A CN 202311630779A CN 117609919 A CN117609919 A CN 117609919A
- Authority
- CN
- China
- Prior art keywords
- client
- target
- sample
- sub
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 73
- 238000012216 screening Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种涉诈贩卡客户识别方法、装置、电子设备和存储介质,属于金融安全技术领域,其中方法包括:获取各目标客户的客户信息;对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数;其中,所述目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签训练得到的。本发明提高了涉诈贩卡客户识别的准确性。
Description
技术领域
本发明涉及金融安全技术领域,尤其涉及一种涉诈贩卡客户识别方法、装置、电子设备和存储介质。
背景技术
诈骗和贩***等活动破坏金融体系的稳定性,导致社会的不安定。银行总体客户量处于千万量级,但异常客户体量很小,现有技术在使用机器学***衡而得到一个识别能力和稳定性较差的模型。如何准确地识别出容易涉诈贩卡的客户,是银行亟待解决的问题。
发明内容
本发明提供一种涉诈贩卡客户识别方法、装置、电子设备和存储介质,用以解决现有技术中涉诈贩卡客户识别的准确率较低的缺陷,实现提高涉诈贩卡客户识别的准确率。
第一方面,本发明提供一种涉诈贩卡客户识别方法,包括:
获取各目标客户的客户信息;
对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;
将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数;
其中,所述目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签训练得到的。
在一些实施例中,所述将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数之后,还包括:
基于所述每一目标客户的异常分数,确定所述每一目标客户的预测涉诈贩卡概率;
基于所述每一目标客户的预测涉诈贩卡概率,生成预警名单。
在一些实施例中,所述目标识别模型的确定过程包括:
计算所述多个子识别模型的相关系数矩阵;
在确定所述相关系数矩阵中的各相关系数均超过第一预设阈值的情况下,对所述多个子识别模型进行筛选,从所述多个子识别模型中确定所述目标识别模型;
在确定所述相关系数矩阵中存在相关系数不超过第一预设阈值的情况下,将所述多个子识别模型融合,得到所述目标识别模型。
在一些实施例中,所述每一子识别模型的确定过程包括:
对总样本客户进行分群和筛选,得到多个类型的样本客群;
获取每一类型的样本客群中每一目标样本客户的客户信息;
对所述每一目标样本客户的客户信息进行特征处理,得到所述每一目标样本客户的特征数据;
确定所述每一目标样本客户的异常分数标签;
基于所述每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签,训练每一初始子识别模型;
在所述每一初始子识别模型训练完成后,得到所述每一子识别模型。
在一些实施例中,所述对总样本客户进行分群和筛选,得到多个类型的样本客群,包括:
获取总样本客户中异常客户的客户信息;
对所述异常客户的客户信息进行数据清洗,得到清洗后的数据,基于所述清洗后的数据,得到异常客户的客户画像;
基于所述异常客户的客户画像,得到异常客户特征;
基于所述异常客户特征,对所述总样本客户进行分群和筛选,得到异常客户占比超过第二预设阈值的样本客群。
在一些实施例中,所述获取每一类型的样本客群中每一目标样本客户的客户信息,包括:
根据所述每一类型的样本客群中每月异常客户数量,确定所述每一类型的样本客群的权重;
根据所述每一类型的样本客群的权重,对所述每一类型的样本客群进行加权抽样,从所述每一类型的样本客群中确定多个目标样本客户;
获取所述每一类型的样本客群中每一目标样本客户的客户信息。
在一些实施例中,所述对所述每一目标样本客户的客户信息进行特征处理,得到所述每一目标样本客户的特征数据,包括:
对所述每一目标样本客户的客户信息进行预处理、特征处理和特征构造,建立特征宽表;
基于所述特征宽表,按照特征重要性进行特征筛选,得到所述每一目标样本客户的特征数据。
第二方面,本发明还提供一种涉诈贩卡客户识别装置,包括:
获取单元,用于获取各目标客户的客户信息;
处理单元,用于对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;
识别单元,用于将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数;
其中,所述目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签训练得到的。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述涉诈贩卡客户识别方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述涉诈贩卡客户识别方法。
本发明提供的一种涉诈贩卡客户识别方法、装置、电子设备和存储介质,通过获取各目标客户的客户信息,对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据,将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数;其中,目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签训练得到的,本发明提高了涉诈贩卡客户识别的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的涉诈贩卡客户识别方法的流程示意图;
图2是本发明实施例提供的每一子识别模型的确定过程的流程示意图;
图3是本发明实施例提供的目标识别模型的确定过程的流程示意图;
图4是本发明实施例提供的涉诈贩卡客户识别装置的结构示意图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的涉诈贩卡客户识别方法的流程示意图。如图1所示,提供了一种涉诈贩卡客户识别方法,包括以下步骤:
步骤110、步骤120、步骤130。该方法流程步骤仅仅作为本发明一个可能的实现方式。
步骤110、获取各目标客户的客户信息。
其中,客户信息至少包括:客户的个人基本信息数据(如年龄、性别、身份证号等)、日常交易类数据(如交易频率、交易金额、交易方式等)、资产类数据(如存款、贷款、投资等)、手机银行类行为数据(如登录频率、操作行为等)。
可选地,可以从开户申请表、征信报告、交易记录等文件中获取各目标客户的客户信息。
步骤120、对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据。
其中,特征数据包括年龄、教育水平、交易金额、交易频率、存款余额、手机银行登录频率等特征。
可选地,在对每一目标客户的客户信息进行特征处理之前,对每一目标客户的客户信息进行数据清洗。
可选地,可以对每一目标客户的客户信息进行特征转换、特征编码、特征降维、特征选择、特征构造等特征处理。
例如,可以通过方差选择法、相关系数法或递归特征消除法等方法选择最相关或最重要的特征。
例如,可以通过将两个特征相乘或相除的方式来构造新的特征,或者通过提取时间序列特征的方式进行特征构造。
步骤130、将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数。
其中,目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签训练得到的。
其中,目标客户的异常分数表示目标客户被预测为涉诈贩卡客户的可能性,异常分数越高,表示目标客户被预测为涉诈贩卡客户的可能性越大。
可选地,可以使用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、逻辑回归、支持向量机等算法构建多个子识别模型。
可以理解的是,针对不同类型的样本客群,构建对应的子识别模型,使用多个子识别模型进行筛选或融合,得到目标识别模型,可以更好地适应不同特征和行为模式的客户群体,提高了目标识别模型的准确性、鲁棒性和适应性。
在本发明实施例中,通过获取各目标客户的客户信息,对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据,将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数,提高了涉诈贩卡客户识别的准确性。
需要说明的是,本发明每一个实施方式可以自由组合、调换顺序或者单独执行,并不需要依靠或依赖固定的执行顺序。
在一些实施例中,将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数之后,还包括:
基于每一目标客户的异常分数,确定每一目标客户的预测涉诈贩卡概率;
基于每一目标客户的预测涉诈贩卡概率,生成预警名单。
可选地,可以使用逻辑函数(如sigmoid函数)将异常分数映射到[0,1]的预测涉诈贩卡概率范围内。
可选地,可以设定概率阈值,若目标客户的预测涉诈贩卡概率超过概率阈值,则将该目标客户加入预警名单。
可选地,可以对预警名单中的目标客户设定管控级别,可以将预警名单传输至业务前端***,以便业务前端***对预警名单中的目标客户进行分级管控。
可以理解的是,基于每一目标客户的异常分数,确定每一目标客户的预测涉诈贩卡概率,基于每一目标客户的预测涉诈贩卡概率,生成预警名单,可以及早发现潜在的涉诈贩卡客户,从而能够采取相应的措施来干预和预防,减少潜在的损失和影响。
在一些实施例中,目标识别模型的确定过程包括:
计算多个子识别模型的相关系数矩阵;
在确定相关系数矩阵中的各相关系数均超过第一预设阈值的情况下,对多个子识别模型进行筛选,从多个子识别模型中确定目标识别模型;
在确定相关系数矩阵中存在相关系数不超过第一预设阈值的情况下,将多个子识别模型融合,得到目标识别模型。
可选地,可以通过皮尔逊相关系数或者斯皮尔曼相关系数计算多个子识别模型的相关系数矩阵。
可选地,在确定多个子识别模型两两之间的相关系数超过第一预设阈值的情况下,可以根据准确率、召回率等指标对多个子识别模型进行评估和筛选,从多个子识别模型中确定目标识别模型。
可选地,可以通过加权平均或堆叠的方法将多个子识别模型融合。
例如,三个子识别模型(Model 1,Model 2和Model 3)的相关系数矩阵如下所示:
设定第一预设阈值为0.75,Model 1,Model 2和Model 3两两之间的相关系数均超过第一预设阈值(0.75),则从Model 1,Model 2和Model 3中选择一个作为目标识别模型。
设定第一预设阈值为0.9,Model 1和Model 2的相关系数(0.85)、Model 2和Model3的相关系数(0.78)小于第一预设阈值(0.9),则将Model 1,Model 2和Model 3融合,得到目标识别模型。
可以理解的是,通过计算多个子识别模型的相关系数矩阵,在确定相关系数矩阵中的各相关系数均超过第一预设阈值的情况下,对多个子识别模型进行筛选,从多个子识别模型中确定目标识别模型,在确定相关系数矩阵中存在相关系数不超过第一预设阈值的情况下,将多个子识别模型融合,得到目标识别模型,可以提高目标识别模型的准确性、鲁棒性和稳定性。
图2为本发明实施例提供的每一子识别模型的确定过程的流程示意图。如图2所示,在一些实施例中,每一子识别模型的确定过程包括以下步骤:
步骤210、对总样本客户进行分群和筛选,得到多个类型的样本客群。
可以理解的是,通过对总样本客户进行分群和筛选,进而可以得到多个类型的样本客群,从而便于根据不同的样本客群构建不同的子识别模型。
在一些实施例中,对总样本客户进行分群和筛选,得到多个类型的样本客群,包括:
获取总样本客户中异常客户的客户信息;
对异常客户的客户信息进行数据清洗,得到清洗后的数据,基于清洗后的数据,得到异常客户的客户画像;
基于异常客户的客户画像,得到异常客户特征;
基于异常客户特征,对总样本客户进行分群和筛选,得到异常客户占比超过第二预设阈值的样本客群。
其中,异常客户是指涉诈贩卡客户,异常客户的客户信息至少包括涉诈贩卡客户的个人基本信息(如年龄、身份证号、银行***等)、交易信息(如交易金额、交易频率、交易方式等)和资产信息(如存款、投资、贷款等)。
可选地,对异常客户的客户信息进行数据清洗,消除异常客户的客户信息中存在的缺失、异常、格式不一致等问题。
可选地,基于清洗后的数据,从不同的维度探索异常客户特征,对探索的数据进行分类、整理、汇总、统计和分析,最终得到异常客户的客户画像。
其中,异常客户特征包括异常客户的个人信息、交易偏好、不良信用记录等特征。
可选地,可以采用聚类算法对总样本客户进行分群,得到多个不交叉的样本客户群体,计算每个群体中异常客户的占比,并筛选出异常客户占比超过第二预设阈值的样本客群。
步骤220、获取每一类型的样本客群中每一目标样本客户的客户信息。
可选地,可以采用加权抽样的方式从每一类型的样本客群中抽取多个目标样本客户,获取该类型样本客群中每一目标样本客户的客户信息。
在一些实施例中,获取每一类型的样本客群中每一目标样本客户的客户信息,包括:
根据每一类型的样本客群中每月异常客户数量,确定每一类型的样本客群的权重;
根据每一类型的样本客群的权重,对每一类型的样本客群进行加权抽样,从每一类型的样本客群中确定多个目标样本客户;
获取每一类型的样本客群中每一目标样本客户的客户信息。
可选地,可以根据业务需求和样本规模,确定每一类型的样本客群的抽样比例,根据每一类型的样本客群的抽样比例、每一类型的样本客群的权重和每一类型的样本客群的样本客户总量,计算每一类型的样本客群中需要抽取的目标样本客户的数量。
可以理解的是,根据每一类型的样本客群中每月异常客户数量确定权重、进行加权抽样以获取目标样本客户的客户信息,可以在保证信息不损失的前提下降低样本数据中正常客户与异常客户的比例,有助于更好地识别和预测异常客户,从而提高子识别模型的准确性、可靠性和稳定性。
步骤230、对每一目标样本客户的客户信息进行特征处理,得到每一目标样本客户的特征数据。
在一些实施例中,对每一目标样本客户的客户信息进行特征处理,得到每一目标样本客户的特征数据,包括:
对每一目标样本客户的客户信息进行预处理、特征处理和特征构造,建立特征宽表;
基于特征宽表,按照特征重要性进行特征筛选,得到每一目标样本客户的特征数据。
可选地,对每一目标样本客户的客户信息进行预处理包括处理缺失值、异常值和重复值等,有助于确保数据的质量和完整性。
可选地,针对不同类型的特征,采取相应的特征处理方式。
例如,对于数值型特征,可以进行归一化、标准化或离散化等处理;对于分类特征,可以进行目标编码、独热编码或特征哈希等处理;对于时间序列特征,可以提取出年份、月份、季度等相关信息。
其中,特征宽表是一个行表示目标样本客户,列表示目标样本客户特征的矩阵或数据框,每一行对应一个目标样本客户,每一列对应一个特征。
可选地,可以选择对目标样本客户的涉诈贩卡预测有较大影响的特征。
步骤240、确定每一目标样本客户的异常分数标签。
步骤250、基于每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签,训练每一初始子识别模型。
步骤260、在每一初始子识别模型训练完成后,得到每一子识别模型。
可选地,可以采用类别增强(Categorical Boosting,CatBoost)算法构建每一初始子识别模型。
可选地,对每一初始子识别模型进行训练和参数优化迭代,得到每一子识别模型。
在本发明实施例中,通过对总样本客户进行分群和筛选,得到多个类型的样本客群,获取每一类型的样本客群中每一目标样本客户的客户信息,对每一目标样本客户的客户信息进行特征处理,得到每一目标样本客户的特征数据,确定每一目标样本客户的异常分数标签,基于每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签,训练每一初始子识别模型,得到每一子识别模型,提高了子识别模型的适应性和识别的准确性。
图3为本发明实施例提供的目标识别模型的确定过程的流程示意图。如图3所示,目标识别模型的确定过程包括以下步骤:
S301、开始;
S302、数据采集;
可选地,采集多个样本客户的客户信息。
其中,客户信息包括个人信息、交易信息、资产信息等。
S303、数据探索;
可选地,对多个样本客户中的异常客户进行数据探索,得到异常客户的客户画像。
其中,异常客户是指涉诈贩卡客户。
S304、分群筛选;
可选地,基于异常客户的客户画像对多个样本客户进行分群和筛选,得到A样本客群和B样本客群。
S305、加权抽样;
可选地,对A样本客群和B样本客群进行加权抽样,获取A样本客群中每一目标样本客户的客户信息和B样本客群中每一目标样本客户的客户信息。
S306、特征工程;
可选地,对A样本客群中每一目标样本客户的客户信息进行特征工程处理,得到A样本客群中每一目标样本客户的特征数据;对对B样本客群中每一目标样本客户的客户信息进行特征工程处理,得到B样本客群中每一目标样本客户的特征数据。
S307、A客群模型训练;
可选地,基于A样本客群中每一目标样本客户的特征数据,以及A样本客群中每一目标样本客户的异常分数标签,对初始A客群模型进行训练。
S308、B客群模型训练;
可选地,基于B样本客群中每一目标样本客户的特征数据,以及B样本客群中每一目标样本客户的异常分数标签,对初始B客群模型进行训练。
S309、模型评估;
可选地,在初始A客群模型训练完成后,进行模型评估和参数优化迭代,得到A识别模型。
可选地,在初始B客群模型训练完成后,进行模型评估和参数优化迭代,得到B识别模型。
S310、模型相关性计算;
可选地,计算A识别模型和B识别模型的相关系数,若该相关系数超过第一预设阈值,则从A识别模型和B识别模型选择识别效果较好的一个作为目标识别模型,若该相关系数不超过第一预设阈值,则执行步骤S311。
S311、模型融合;
可选地,将A识别模型和B识别模型融合,得到目标识别模型。
S312、模型部署;
可选地,对目标识别模型进行部署。
S313、结束。
可以理解的是,通过数据采集、数据探索和分群筛选,得到两个样本客群,分别基于两个样本客群进行加权抽样和特征工程处理,得到两个客群对应的特征数据,分别根据不同客群对应的特征数据进行模型训练,得到两个识别模型,计算模型相关系数,根据相关系数进行模型筛选或融合,得到目标识别模型,可以提高目标识别模型对异常客户识别的准确性。
下面对本发明实施例提供的涉诈贩卡客户识别装置进行描述,下文描述的涉诈贩卡客户识别装置与上文描述的涉诈贩卡客户识别方法可相互对应参照。
图4为本发明提供的涉诈贩卡客户识别装置的结构示意图,如图4所示,该装置400包括:
获取单元410,用于获取各目标客户的客户信息;
处理单元420,用于对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;
识别单元430,用于将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数;
其中,目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签训练得到的。
可选地,涉诈贩卡客户识别装置还包括:
确定单元,用于基于每一目标客户的异常分数,确定每一目标客户的预测涉诈贩卡概率;
预警单元,用于基于每一目标客户的预测涉诈贩卡概率,生成预警名单。
可选地,目标识别模型的确定过程包括:
计算多个子识别模型的相关系数矩阵;
在确定相关系数矩阵中的各相关系数均超过第一预设阈值的情况下,对多个子识别模型进行筛选,从多个子识别模型中确定目标识别模型;
在确定相关系数矩阵中存在相关系数不超过第一预设阈值的情况下,将多个子识别模型融合,得到目标识别模型。
可选地,每一子识别模型的确定过程包括:
对总样本客户进行分群和筛选,得到多个类型的样本客群;
获取每一类型的样本客群中每一目标样本客户的客户信息;
对每一目标样本客户的客户信息进行特征处理,得到每一目标样本客户的特征数据;
确定每一目标样本客户的异常分数标签;
基于每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签,训练每一初始子识别模型;
在每一初始子识别模型训练完成后,得到每一子识别模型。
可选地,对总样本客户进行分群和筛选,得到多个类型的样本客群,包括:
获取总样本客户中异常客户的客户信息;
对异常客户的客户信息进行数据清洗,得到清洗后的数据,基于清洗后的数据,得到异常客户的客户画像;
基于异常客户的客户画像,得到异常客户特征;
基于异常客户特征,对总样本客户进行分群和筛选,得到异常客户占比超过第二预设阈值的样本客群。
可选地,获取每一类型的样本客群中每一目标样本客户的客户信息,包括:
根据每一类型的样本客群中每月异常客户数量,确定每一类型的样本客群的权重;
根据每一类型的样本客群的权重,对每一类型的样本客群进行加权抽样,从每一类型的样本客群中确定多个目标样本客户;
获取每一类型的样本客群中每一目标样本客户的客户信息。
可选地,对每一目标样本客户的客户信息进行特征处理,得到每一目标样本客户的特征数据,包括:
对每一目标样本客户的客户信息进行预处理、特征处理和特征构造,建立特征宽表;
基于特征宽表,按照特征重要性进行特征筛选,得到每一目标样本客户的特征数据。
在此需要说明的是,本发明实施例提供的涉诈贩卡客户识别装置,能够实现上述涉诈贩卡客户识别方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行涉诈贩卡客户识别方法,该方法包括:获取各目标客户的客户信息;对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数;其中,目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的涉诈贩卡客户识别方法,该方法包括:获取各目标客户的客户信息;对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;将每一目标客户的特征数据输入至预先构建的目标识别模型,得到目标识别模型输出的每一目标客户的异常分数;其中,目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及每一目标样本客户的异常分数标签训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种涉诈贩卡客户识别方法,其特征在于,包括:
获取各目标客户的客户信息;
对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;
将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数;
其中,所述目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签训练得到的。
2.根据权利要求1所述的涉诈贩卡客户识别方法,其特征在于,所述将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数之后,还包括:
基于所述每一目标客户的异常分数,确定所述每一目标客户的预测涉诈贩卡概率;
基于所述每一目标客户的预测涉诈贩卡概率,生成预警名单。
3.根据权利要求1所述的涉诈贩卡客户识别方法,其特征在于,所述目标识别模型的确定过程包括:
计算所述多个子识别模型的相关系数矩阵;
在确定所述相关系数矩阵中的各相关系数均超过第一预设阈值的情况下,对所述多个子识别模型进行筛选,从所述多个子识别模型中确定所述目标识别模型;
在确定所述相关系数矩阵中存在相关系数不超过第一预设阈值的情况下,将所述多个子识别模型融合,得到所述目标识别模型。
4.根据权利要求1所述的涉诈贩卡客户识别方法,其特征在于,所述每一子识别模型的确定过程包括:
对总样本客户进行分群和筛选,得到多个类型的样本客群;
获取每一类型的样本客群中每一目标样本客户的客户信息;
对所述每一目标样本客户的客户信息进行特征处理,得到所述每一目标样本客户的特征数据;
确定所述每一目标样本客户的异常分数标签;
基于所述每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签,训练每一初始子识别模型;
在所述每一初始子识别模型训练完成后,得到所述每一子识别模型。
5.根据权利要求4所述的涉诈贩卡客户识别方法,其特征在于,所述对总样本客户进行分群和筛选,得到多个类型的样本客群,包括:
获取总样本客户中异常客户的客户信息;
对所述异常客户的客户信息进行数据清洗,得到清洗后的数据,基于所述清洗后的数据,得到异常客户的客户画像;
基于所述异常客户的客户画像,得到异常客户特征;
基于所述异常客户特征,对所述总样本客户进行分群和筛选,得到异常客户占比超过第二预设阈值的样本客群。
6.根据权利要求4所述的涉诈贩卡客户识别方法,其特征在于,所述获取每一类型的样本客群中每一目标样本客户的客户信息,包括:
根据所述每一类型的样本客群中每月异常客户数量,确定所述每一类型的样本客群的权重;
根据所述每一类型的样本客群的权重,对所述每一类型的样本客群进行加权抽样,从所述每一类型的样本客群中确定多个目标样本客户;
获取所述每一类型的样本客群中每一目标样本客户的客户信息。
7.根据权利要求4-6任一项所述的涉诈贩卡客户识别方法,其特征在于,所述对所述每一目标样本客户的客户信息进行特征处理,得到所述每一目标样本客户的特征数据,包括:
对所述每一目标样本客户的客户信息进行预处理、特征处理和特征构造,建立特征宽表;
基于所述特征宽表,按照特征重要性进行特征筛选,得到所述每一目标样本客户的特征数据。
8.一种涉诈贩卡客户识别装置,其特征在于,包括:
获取单元,用于获取各目标客户的客户信息;
处理单元,用于对每一目标客户的客户信息进行特征处理,得到每一目标客户的特征数据;
识别单元,用于将所述每一目标客户的特征数据输入至预先构建的目标识别模型,得到所述目标识别模型输出的所述每一目标客户的异常分数;
其中,所述目标识别模型是基于多个子识别模型进行筛选或融合得到的,每一子识别模型是基于一个类型的样本客群中每一目标样本客户的特征数据,以及所述每一目标样本客户的异常分数标签训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述涉诈贩卡客户识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述涉诈贩卡客户识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311630779.0A CN117609919A (zh) | 2023-11-30 | 2023-11-30 | 涉诈贩卡客户识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311630779.0A CN117609919A (zh) | 2023-11-30 | 2023-11-30 | 涉诈贩卡客户识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609919A true CN117609919A (zh) | 2024-02-27 |
Family
ID=89949562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311630779.0A Pending CN117609919A (zh) | 2023-11-30 | 2023-11-30 | 涉诈贩卡客户识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609919A (zh) |
-
2023
- 2023-11-30 CN CN202311630779.0A patent/CN117609919A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960833B (zh) | 一种基于异构金融特征的异常交易识别方法,设备及存储介质 | |
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN107103171B (zh) | 机器学习模型的建模方法及装置 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及*** | |
CN112102073A (zh) | 信贷风险控制方法及***、电子设备及可读存储介质 | |
CN113095927A (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及*** | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114841705A (zh) | 一种基于场景识别的反欺诈监测方法 | |
CN112330328A (zh) | 一种基于特征提取的***欺诈检测方法 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN113065892B (zh) | 一种信息推送方法、装置、设备及存储介质 | |
CN117609919A (zh) | 涉诈贩卡客户识别方法、装置、电子设备和存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN113344581A (zh) | 业务数据处理方法及装置 | |
CN112116358A (zh) | 一种交易欺诈行为的预测方法、装置及电子设备 | |
CN110570301A (zh) | 风险识别方法、装置、设备及介质 | |
CN113064944A (zh) | 数据的处理方法和装置 | |
CN116258579B (zh) | 用户信用评分模型的训练方法及用户信用评分方法 | |
CN110782342B (zh) | 基于二分类模型验证新渠道特征工程正确性的方法及装置 | |
CN117094808A (zh) | 违约预测方法、装置、设备、存储介质及产品 | |
CN117557354A (zh) | 异常交易行为识别方法、装置、电子设备和存储介质 | |
CN117670350A (zh) | 一种基于多模型集成的交易反欺诈预警方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |