CN115438747A - 异常账户识别模型训练方法、装置、设备及介质 - Google Patents

异常账户识别模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN115438747A
CN115438747A CN202211202721.1A CN202211202721A CN115438747A CN 115438747 A CN115438747 A CN 115438747A CN 202211202721 A CN202211202721 A CN 202211202721A CN 115438747 A CN115438747 A CN 115438747A
Authority
CN
China
Prior art keywords
target
abnormal
abnormal account
account identification
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211202721.1A
Other languages
English (en)
Inventor
李玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211202721.1A priority Critical patent/CN115438747A/zh
Publication of CN115438747A publication Critical patent/CN115438747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供一种异常账户识别模型训练方法、装置、设备及介质。该方法包括:获取目标业务场景的训练样本及类别标签;将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型;初始化参数后的异常账户识别模型为采用MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。MAML算法利用了不同业务场景下的违法行为交易共通的典型特征确定初始化参数后的异常账户识别模型,因此仅需要少量训练样本及类别标签、以及很少的迭代次数对初始化参数后的异常账户识别模型进行训练就可以得到目标异常账户识别模型。

Description

异常账户识别模型训练方法、装置、设备及介质
技术领域
本申请涉及人工智能领域,尤其涉及一种异常账户识别模型训练方法、装置、设备及介质。
背景技术
随着移动互联网的发展,各种银行客户端不断出现,也为银行账户的安全带来隐患。如利用银行账户进行违法的行为层出不穷。因此需要对可能涉及违法行为的交易账户予以识别。
目前通常结合业务场景制定违法行为模型规则,再依托大数据平台进行批量交易数据监控,检查交易的相关字段,根据交易的相关字段及违法行为模型规则筛选出涉嫌违法行为的可疑交易。
但是,针对每个业务场景都需要完全重新设计违法行为模型规则,无法利用不同业务场景下的违法行为交易共通的典型特征;并且由于检测依赖模型规则的设计,而人工设计的规则有限且可能存在漏洞,导致可疑交易检测的准确率较低。
发明内容
本申请提供一种异常账户识别模型训练方法、装置、设备及介质,用以解决现有模型规则无法利用不同业务场景下的违法行为交易共通的典型特征,并且可疑交易检测的准确率较低的问题。
第一方面,本申请提供一种异常账户识别模型训练方法,包括:
获取目标业务场景的训练样本及类别标签;所述训练样本包括目标业务场景下历史账户的历史特征数据;所述历史特征数据包括:属性特征值及历史行为特征值;
将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,所述目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;所述初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
第二方面,本申请提供一种异常账户识别方法,包括:
获取目标账户在目标业务场景下的当前特征数据;所述当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;
将当前特征数据输入目标异常账户识别模型中对所述当前特征数据进行分类,以识别目标账户的交易行为是否异常;所述目标异常账户识别模型是采用第一方面所述的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
第三方面,本申请提供一种异常账户识别模型训练装置,包括:
获取模块,用于获取目标业务场景的训练样本及类别标签;所述训练样本包括目标业务场景下历史账户的历史特征数据;所述历史特征数据包括:属性特征值及历史行为特征值;
训练模块,用于将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,所述目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;所述初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
第四方面,本申请提供一种异常账户识别装置,包括:
获取模块,用于获取目标账户在目标业务场景下的当前特征数据;所述当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;
分类模块,用于将当前特征数据输入目标异常账户识别模型中对所述当前特征数据进行分类,以识别目标账户的交易行为是否异常;所述目标异常账户识别模型是采用如第一方面所述的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
第五方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述处理器及所述存储器之间电路互连;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述第一方面所述的异常账户识别模型训练方法或第二方面所述的异常账户识别方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述第一方面所述的异常账户识别模型训练方法或第二方面所述的异常账户识别方法。
本申请提供的异常账户识别模型训练方法、装置、设备及介质,获取目标业务场景的训练样本及类别标签;所述训练样本包括目标业务场景下历史账户的历史特征数据;所述历史特征数据包括:属性特征值及历史行为特征值;将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,所述目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;所述初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。由于采用模型无关元学习MAML算法利用了不同业务场景下的违法行为交易共通的典型特征,使初始化参数后的异常账户识别模型中的参数具有足够强的适应能力。因此仅需要少量目标业务场景的训练样本及类别标签、以及非常少的迭代次数对初始化参数后的异常账户识别模型中的参数稍加矫正就可以得到目标异常账户识别模型。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例一提供的异常账户识别模型训练方法流程图;
图2为本申请实施例二提供的异常账户识别模型训练方法流程图;
图3为本申请实施例提供的历史数据集分配示意图;
图4为本申请实施例提供的异常账户识别模型训练方法示意图;
图5为本申请实施例三提供的异常账户识别方法流程图;
图6为本申请实施例四提供的异常账户识别模型训练装置的结构示意图;
图7为本申请实施例四提供的异常账户识别装置的结构示意图;
图8为本申请实施例五提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面对本发明所涉及的现有技术进行详细说明及分析。
目前通常结合业务场景制定违法行为模型规则,再依托大数据平台进行批量交易数据监控,检查交易的相关字段,根据交易的相关字段及违法行为模型规则筛选出涉嫌违法行为的可疑交易。
但是,针对每个业务场景都需要完全重新设计违法行为模型规则,无法利用不同业务场景下的违法行为交易共通的典型特征;并且由于检测依赖模型规则的设计,而人工设计的规则有限且可能存在漏洞,导致可疑交易检测的准确率较低。
发明人在研究中发现,将筛选出涉嫌违法行为的可疑交易的任务锁定视为二分类问题,采用目标异常账户识别模型对目标账户进行分类,根据目标账户是否异常确定是否存在可疑交易,可以提高可疑交易检测的准确率。并且在针对某业务场景训练异常账户识别模型之前,预先令初始化参数后的异常账户识别模型学习到各业务场景下的违法行为交易共通的典型特征,就可以提升训练初始化参数后的异常账户识别模型的速度。而采用模型无关元学习MAML算法可以使初始化参数后的异常账户识别模型中的参数具有足够强的适应能力。在此基础上,仅需要少量目标业务场景的训练样本及类别标签,以及非常少的迭代次数,对参数稍加矫正就可以得到目标异常账户识别模型。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
图1为本申请实施例一提供的异常账户识别模型训练方法流程图,本申请实施例针对现有模型规则无法利用不同业务场景下的违法行为交易共通的典型特征,并且可疑交易检测的准确率较低的问题,提供了异常账户识别模型训练方法。本实施例中的方法应用于异常账户识别模型训练装置,异常账户识别模型训练装置可以位于电子设备中。其中,电子设备可以为表示各种形式的数字计算机。诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。
如图1所示,该方法具体步骤如下:
步骤S101、获取目标业务场景的训练样本及类别标签。
其中,训练样本包括目标业务场景下历史账户的历史特征数据;历史特征数据包括:属性特征值及历史行为特征值。
本申请实施例中,类别标签可以为异常或正常,类别标签还可以为表示训练样本对应账户异常的标识或表示训练样本对应账户正常的标识5,本申请实施例对此不做限定。示例性地,获取的类别标签可以为0或1,类别标签为0则表示训练样本对应账户正常,类别标签为1则表示训练样本对应账户异常。
本申请实施例中,一组训练样本及类别标签对应目标业务场景中的一个历史账户。训练样本及类别标签可以根据历史账户的历史交易流水数据及其属性获得。
步骤S102、将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型。
其中,目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
应理解的是,采用模型无关元学习MAML算法确定的初始化参数后的异常账户识别模型,已学习了各业务场景的异常交易账户及正常交易账户的共通典型特征,其初始化参数并非随机确定的。由于初始化参数后的异常账户识别模型学习了各业务场景的异常交易账户及正常交易账户的共通典型特征,因此多个业务场景对应的初始化参数后的异常账户识别模型是一致的,目标业务场景任一业务场景时均对该初始化参数后的异常账户识别模型进行训练,以获取适用于目标业务场景的得目标异常账户识别模型。
本申请实施中,由于采用模型无关元学习MAML算法确定初始化参数后的异常账户识别模型,初始化参数后的异常账户识别模型中的初始化后的参数为优选地初始化参数,在优选地初始化参数的基础上通过模型训练进行异常账户识别模型的参数微调,仅需少量训练样本及类别标签就可以快速达到收敛条件,完成对初始化参数后的异常账户识别模型的训练获得目标异常账户识别模型。
本申请实施例提供的异常账户识别模型训练方法,获取目标业务场景的训练样本及类别标签;训练样本包括目标业务场景下历史账户的历史特征数据;历史特征数据包括:属性特征值及历史行为特征值;将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。由于采用模型无关元学习MAML算法利用了不同业务场景下的违法行为交易共通的典型特征,使初始化参数后的异常账户识别模型中的参数具有足够强的适应能力。因此仅需要少量目标业务场景的训练样本及类别标签、以及非常少的迭代次数对初始化参数后的异常账户识别模型中的参数稍加矫正就可以得到目标异常账户识别模型。
在一种可选地实施方式中,执行步骤S101获取目标业务场景的训练样本及类别标签的具体方式包括:
步骤S1011、从目标业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签。其中,多个账户中包括类别标签为异常的账户。
本申请实施例中,交易数据可以包括预设天数内的交易流水信息,对应的账户特征可以包括账户所属行等,对应的类别标签可以为异常或非异常。示例性地,交易数据可以包括确定异常账户产生异常交易行为前预设天数内的交易流水信息,含产生异常交易行为当天。
具体地,在确定某交易流水信息异常、或确定某账户存在异常交易行为后,可以将对应账户的对应类别标签确定为异常,并将该账户在预设天数内的交易数据、对应的账户特征及类别标签存储在对应业务场景对应的数据库中。在确定目标业务场景后,可以从目标业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签。
本申请实施例中,仅需少量类别标签为异常的账户的交易数据、对应的账户特征及标签,就可以完成对初始化参数后的异常账户识别模型的训练。
步骤S1012、提取各历史账户对应交易数据的数据特征,以获取目标业务场景下多个历史账户的历史行为特征值。
示例性地,提取的各历史账户对应交易数据的数据特征可以包括:在预设天数内的交易笔数、在预设天数内的交易金额、在预设天数内不同交易对手数量等、在某预设时间段之间的交易笔数。例如,在某预设时间段之间的交易笔数可以为在5天内20点到24点的交易笔数。
应理解的是,也可以对历史账户对应的交易数据进行定量化处理,例如,对交易数据中包括的交易对手账户所属行进行定量化处理,并将定量化处理后的交易对手账户所属行确定为历史账户的历史行为特征值。
步骤S1013、对各历史账户对应的账户特征进行定量化处理,以获取目标业务场景下多个历史账户的属性特征值。
应理解的是,账户对应的账户特征可以包括账户所属行,还可以包括其余特征,例如,账户标识、账户开户人的相关信息、账户开户时长等,本申请实施例对此不做限定。
示例性地,账户对应的账户特征可以包括账户所属行,可以将各账户所属行与其对应的唯一标识关联存储于某一存储空间中,在对各历史账户对应的账户特征进行定量化处理时,可以从该存储空间中获取账户所属行对应的唯一标识,将账户所属行对应的唯一标识确定为该账户的属性特征值,以进行对账户所属行的定量化处理。其中,对应的唯一标识为一具体数值。
步骤S1014、将各历史账户对应的历史行为特征值及属性特征值确定为各训练样本,并将各历史账户对应的类别标签确定为对应训练样本的类别标签。
本申请实施例提供的异常账户识别模型训练方法,从目标业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签;多个账户中包括类别标签为异常的账户;提取各历史账户对应交易数据的数据特征,以获取目标业务场景下多个历史账户的历史行为特征值;对各历史账户对应的账户特征进行定量化处理,以获取目标业务场景下多个历史账户的属性特征值;将各历史账户对应的历史行为特征值及属性特征值确定为各训练样本,并将各历史账户对应的类别标签确定为对应训练样本的类别标签。可以实现目标业务场景的训练样本及类别标签的快速获取,且可以过滤交易数据及账户特征中与异常交易行为无关的特征属性,保证异常账户识别的高效。
在一种可选地实施方式中,执行步骤S102将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型的具体方式包括:
将目标业务场景的训练样本及类别标签输入初始化参数后的深度神经网络DNN模型中;采用目标业务场景的训练样本及类别标签对初始化参数后的深度神经网络DNN模型进行训练;判断训练后的DNN模型中的损失函数是否达到预设阈值;若确定损失函数达到预设阈值,则将损失函数达到最小的DNN模型确定为目标异常账户识别模型。
本申请实施例不限制对初始化参数后的深度神经网络DNN模型进行训练的方式,示例性地,可以采用梯度下降算法训练DNN模型。
本申请实施例中,在对初始化参数后的异常账户识别模型进行训练之前,还包括构建异常账户识别模型。异常账户识别模型为深度神经网络DNN模型,的输入节点数与历史特征数据的中特征数量相同,输出节点数为2,表示分类结果为异常或正常。DNN模型采用全连接层来拟合分类器。具体地,输入层用来接收各训练样本的历史特征数据,中间每一个隐藏层都经过激活函数的非线性变换,其中每一层l的网络参数
Figure BDA0003873074330000081
包含连接权重W(l)和偏置项b(l)。最终输出层所给出的分类结果有以下两种可能:该账户的交易行为异常,或该账户的交易行为正常。
可选地,DNN模型中还可以包括Softmax层,可以输出获取账户的交易行为异常的概率及账户的交易行为正常的概率。
可选地,还可以获取目标业务场景的测试样本及类别标签,将目标业务场景的测试样本输入目标异常账户识别模型中,以确定目标异常账户识别模型对目标账户的分类准确率是否达到预设准确率阈值。若未达到预设准确率阈值,则需重新对目标异常账户识别模型进行训练,以更新目标异常账户识别模型中的参数,提高定目标异常账户识别模型对目标账户的分类准确率;若达到预设准确率阈值,则可以采用该目标异常账户识别模型对目标账户进行分类。其中,获取目标业务场景的测试样本及类别标签的方式与获取目标业务场景的训练样本及类别标签的方式类似,在此不再一一赘述。
本申请实施例提供的异常账户识别模型训练方法,初始化参数后的异常账户识别模型为初始化参数后的深度神经网络DNN模型,将目标业务场景的训练样本及类别标签输入初始化参数后的深度神经网络DNN模型中;采用目标业务场景的训练样本及类别标签对初始化参数后的深度神经网络DNN模型进行训练;判断训练后的DNN模型中的损失函数是否达到预设阈值;若确定损失函数达到预设阈值,则将损失函数达到最小的DNN模型确定为目标异常账户识别模型。由于DNN模型的隐藏层层数多,中间节点较多,能够保存较多的学习规则,因此学习深度相对较深,所以可以进一步地提高对账户进行分类的准确性。
实施例二
图2为本申请实施例二提供的异常账户识别模型训练方法流程图,在上述实施例一的基础上,本实施例涉及的是对采用模型无关元学习MAML算法确定初始化参数后的异常账户识别模型的具体过程。
如图2所示,该方法具体步骤如下:
步骤S201、获取多个业务场景下的历史交易数据集。
其中,历史交易数据集中包括多个业务场景对应的交易数据样本及类别标签;交易数据样本包括对应业务场景下账户的历史特征数据。
本申请实施例中,获取多个业务场景下的历史交易数据集的方式与获取目标业务场景的训练样本及类别标签的方式类似,通过从各业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签获取多个业务场景下的历史交易数据集。
步骤S202、采用模型无关元学习MAML算法根据历史交易数据集初始化异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型。
具体地,采用MAML算法根据历史交易数据集确定多个业务场景下优选的异常账户识别模型的参数,即共享初始化参数,并采用共享初始化参数初始化异常账户识别模型以获取初始化参数后的异常账户识别模型。
本申请实施例提供的异常账户识别模型训练方法,获取多个业务场景下的历史交易数据集;历史交易数据集中包括多个业务场景对应的交易数据样本及类别标签;交易数据样本包括对应业务场景下账户的历史特征数据;采用模型无关元学习MAML算法根据历史交易数据集初始化异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型。由于采用模型无关元学习MAML算法根据历史交易数据集初始化异常账户识别模型中的参数,因此利用了不同业务场景下的违法行为交易共通的典型特征,可以使初始化参数后的异常账户识别模型中的参数具有足够强的适应能力。仅需要少量目标业务场景的训练样本及类别标签,以及非常少的迭代次数,对初始化参数后的异常账户识别模型中的参数稍加矫正就可以得到目标异常账户识别模型。
可选地,一种采用模型无关元学习MAML算法根据历史交易数据集初始化异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型的实施方式包括:
步骤S2021、将历史交易数据集分为训练数据集及测试数据集。
本申请实施例对训练数据集及测试数据集中包括的数据数量不做限定。
示例性地,获取的历史交易数据集为D={Di}i=1...n,其中,n为多个业务场景的数量。若账户的特征数据包括4个特征,则将历史交易数据集分为用于内循环适应性训练的训练数据集
Figure BDA0003873074330000091
以及用于外循环寻找共享初始化参数的测试数据集
Figure BDA0003873074330000092
其中,Ntr为训练数据集的长度,Nte为测试数据集的长度,v1,...,v4表示要输入的特征数据,L表示类别标签。
步骤S2022、采用MAML算法的内循环部分根据训练数据集获取多个业务场景对应的适应性参数。
具体地,针对各业务场景计算训练数据集对应的交易账户检测模型的分场景损失函数值;采用梯度下降算法根据分场景损失函数值获取该业务场景对应的适应性参数。
MAML算法的内循环部分对应的公式为:
Figure BDA0003873074330000101
其中,η为内循环更新步长,
Figure BDA0003873074330000102
为根据训练数据集
Figure BDA0003873074330000103
确定的业务场景i对应的分场景损失函数值,m为梯度下降的次数,i为第i个业务场景,
Figure BDA0003873074330000104
表示第m次梯度下降确定的业务场景i对应的适应性参数,
Figure BDA0003873074330000105
为对Φ求导数,表示损失函数的一次梯度下降。
步骤S2023、采用MAML算法的外循环部分根据测试数据集及多个业务场景对应的适应性参数确定异常账户识别模型的共享初始化参数。
具体地,根据测试数据集及多个业务场景对应的适应性参数
Figure BDA0003873074330000106
计算总损失函数值,并采用梯度下降算法获取交易账户检测模型的共享初始化参数。其中,总损失函数值为
Figure BDA0003873074330000107
为内循环结果中根据测试数据集
Figure BDA0003873074330000108
确定的业务场景i对应的分场景以内循环更新结果
Figure BDA0003873074330000109
为网络参数进行分类的损失函数值。
MAML算法的外循环部分对应的公式为:
Figure BDA00038730743300001010
其中,θ为外循环过程中的共享初始化参数,k为外循环步长,U为内循环上为得到适应性参数最终所执行的梯度下降的次数,N为多个业务场景的数量。
步骤S2024、将异常账户识别模型中的参数初始化为共享初始化参数。
具体地,将确定的共享初始化参数代入异常账户识别模型中,以获取初始化参数后的异常账户识别模型。
本申请实施例中,在确定初始化参数后的异常账户识别模型后,采用少量目标业务场景的训练样本及类别标签,少量轮数的更新训练,可以快速收敛得到目标异常账户识别模型的参数,获得目标异常账户识别模型。具体公式为:
Figure BDA00038730743300001011
其中,
Figure BDA00038730743300001012
为目标异常账户识别模型的参数,θ*为确定的共享初始化参数,γ为测试过程更新的步长。
图3为本申请实施例提供的历史数据集分配示意图,如图3所示,历史数据集中包括目标业务场景对应的目标数据集,以及多个业务场景下的历史交易数据集;历史交易数据集中包括业务场景1到业务场景n的历史交易数据;将各业务场景的历史交易数据分为训练数据集
Figure BDA0003873074330000111
以及测试数据集
Figure BDA0003873074330000112
目标数据集分为训练样本及类别标签、以及测试样本及类别标签。
图4为本申请实施例提供的异常账户识别模型训练方法示意图,如4图所示,采用MAML算法确定共享初始化参数为元训练网络过程,对初始化参数后的异常账户识别模型进行训练获得目标异常账户识别模型为测试网络过程。具体地,采用MAML算法的内循环部分根据训练数据集
Figure BDA0003873074330000113
获取多个业务场景对应的适应性参数
Figure BDA0003873074330000114
采用MAML算法的外循环部分根据测试数据集Dte及多个业务场景对应的适应性参数确定异常账户识别模型的共享初始化参数θ*。在确定共享初始化参数θ*后,采用训练样本及类别标签DT对初始化参数后的异常账户识别模型进行训练,获取目标异常账户识别模型的适应性参数
Figure BDA0003873074330000115
根据目标异常账户识别模型中的分类函数可以对目标账户进行分类,并获取分类结果。
本申请实施例提供的异常账户识别模型训练方法,与元训练网络过程相比,测试网络过程面向的仅是一个特定的目标业务场景,此时的模型初始化参数不再是随机选取的,而是采用了元训练网络过程的成果。即测试网络过程还未更新参数,就选取了一个在众多业务场景上具有普适性的参数作初始化。因此仅需要少量目标业务场景的训练样本及类别标签,以及非常少的迭代次数,对初始化参数后的异常账户识别模型中的参数稍加矫正就可以得到目标异常账户识别模型。MAML算法并不是完全不需要大数据集更新参数,而是将耗时较长、耗资源较大的过程放在了前期的元训练网络过程上。采用MAML提升了在目标业务场景上的目标异常账户识别模型的学习效率。
实施例三
图5为本申请实施例三提供的异常账户识别方法流程图,本申请实施例针对现有模型规则无法利用不同业务场景下的违法行为交易共通的典型特征,并且可疑交易检测的准确率较低的问题,提供了异常账户识别方法。本实施例中的方法应用于异常账户识别装置,异常账户识别装置可以位于电子设备中。其中,电子设备可以为表示各种形式的数字计算机。诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。
如图5所示,该方法具体步骤如下:
步骤S301、获取目标账户在目标业务场景下的当前特征数据。
其中,当前特征数据包括:目标账户的当前属性特征值及当前行为特征值。
步骤S302、将当前特征数据输入目标异常账户识别模型中对当前特征数据进行分类,以识别目标账户的交易行为是否异常。
其中,目标异常账户识别模型是采用如实施例一或二提供的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
本申请实施例中,获取目标账户在目标业务场景下的当前特征数据的方式与获取目标业务场景的训练样本的方式类似。示例性地,可以获取目标账户在当天及当天之前预设天数内的交易数据、对应的账户特征,通过对交易数据、对应的账户特征的预处理获取目标账户的当前特征数据。
本申请实施例中,将当前特征数据输入目标异常账户识别模型中对当前特征数据进行分类后,可以获取对目标账户的分类结果。若分类结果为异常,则可以确定目标账户存在异常交易行为;若分类结果为正常,则可以确定目标账户不存在异常交易行为。
可选地,若确定目标账户存在异常交易行为,则可以执行对应的异常账户控制策略,例如,可以冻结该异常账户,具体可以根据需求确定,本申请实施例对此不做限定。
本申请实施例提供的异常账户识别方法,获取目标账户在目标业务场景下的当前特征数据;当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;将当前特征数据输入目标异常账户识别模型中对当前特征数据进行分类,以识别目标账户的交易行为是否异常。可以快速确定目标账户是否异常,可以提高对目标账户进行分类的速度及准确率。
本申请实施例提供的异常账户识别方法,获取目标账户在目标业务场景下的当前特征数据;当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;将当前特征数据输入目标异常账户识别模型中对当前特征数据进行分类,以识别目标账户的交易行为是否异常。由于采用目标异常账户识别模型对目标账户进行分类,根据目标账户是否异常确定是否存在可疑交易,因此可以提高可疑交易检测的准确率。
实施例四
图6为本申请实施例四提供的异常账户识别模型训练装置的结构示意图。本申请实施例提供的异常账户识别模型训练装置可以执行异常账户识别模型训练方法实施例提供的处理流程。如图6所示,该异常账户识别模型训练装置40包括:获取模块401,训练模块402。
具体地,获取模块401,用于获取目标业务场景的训练样本及类别标签;训练样本包括目标业务场景下历史账户的历史特征数据;历史特征数据包括:属性特征值及历史行为特征值;
训练模块402,用于将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
本申请实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
可选地,异常账户识别模型训练装置40还包括:初始参数确定模块;初始参数确定模块用于:获取多个业务场景下的历史交易数据集;历史交易数据集中包括多个业务场景对应的交易数据样本及类别标签;交易数据样本包括对应业务场景下账户的历史特征数据;采用模型无关元学习MAML算法根据历史交易数据集初始化异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型。
可选地,初始参数确定模块具体用于:将历史交易数据集分为训练数据集及测试数据集;采用MAML算法的内循环部分根据训练数据集获取多个业务场景对应的适应性参数;采用MAML算法的外循环部分根据测试数据集及多个业务场景对应的适应性参数确定异常账户识别模型的共享初始化参数;将异常账户识别模型中的参数初始化为共享初始化参数。
可选地,获取模块401,具体用于从目标业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签;多个账户中包括类别标签为异常的账户;提取各历史账户对应交易数据的数据特征,以获取目标业务场景下多个历史账户的历史行为特征值;对各历史账户对应的账户特征进行定量化处理,以获取目标业务场景下多个历史账户的属性特征值;将各历史账户对应的历史行为特征值及属性特征值确定为各训练样本,并将各历史账户对应的类别标签确定为对应训练样本的类别标签。
可选地,初始化参数后的异常账户识别模型为初始化参数后的深度神经网络DNN模型;训练模块402,具体用于将目标业务场景的训练样本及类别标签输入初始化参数后的深度神经网络DNN模型中;采用目标业务场景的训练样本及类别标签对初始化参数后的深度神经网络DNN模型进行训练;判断训练后的DNN模型中的损失函数是否达到预设阈值;若确定损失函数达到预设阈值,则将损失函数达到最小的DNN模型确定为目标异常账户识别模型。
本申请实施例提供的装置可以具体用于执行上述方法实施例一或实施例二,具体功能此处不再赘述。
图7为本申请实施例四提供的异常账户识别装置的结构示意图。本申请实施例提供的异常账户识别装置可以执行异常账户识别方法实施例提供的处理流程。如图7所示,该异常账户识别装置50包括:获取模块501,分类模块502。
具体地,获取模块501,用于获取目标账户在目标业务场景下的当前特征数据;当前特征数据包括:目标账户的当前属性特征值及当前行为特征值。
分类模块,502用于将当前特征数据输入目标异常账户识别模型中对当前特征数据进行分类,以识别目标账户的交易行为是否异常;目标异常账户识别模型是采用如实施例三提供的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
本申请实施例提供的装置可以具体用于执行上述实施例三所提供的方法实施例,具体功能此处不再赘述。
实施例五
图8为本申请实施例五提供的电子设备的结构示意图,如图8所示,本申请还提供了一种电子设备60,包括:存储器601、处理器602。
其中,存储器601用于存储计算机执行指令,与处理器602通信连接。具体地,程序可以包括程序代码,程序代码包括计算机执行指令。存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器602,用于执行存储器601存储的计算机执行指令。
其中,计算机执行指令存储在存储器601中,并被配置为由处理器602执行以实现本申请任意一个实施例提供的方法。相关说明可以对应参见附图中的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
其中,本申请实施例中,存储器601和处理器602通过总线连接。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component Interconnect,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行以实现本申请任意一个实施例提供的方法。
本申请实施例还提供一种计算机程序产品,包括计算机执行指令,计算机执行指令被处理器执行时实现本申请任意一个实施例提供的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程全路径轨迹融合装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种异常账户识别模型训练方法,其特征在于,包括:
获取目标业务场景的训练样本及类别标签;所述训练样本包括目标业务场景下历史账户的历史特征数据;所述历史特征数据包括:属性特征值及历史行为特征值;
将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,所述目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;所述初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
2.根据权利要求1所述的方法,其特征在于,采用模型无关元学习MAML算法确定初始化参数后的异常账户识别模型,包括:
获取多个业务场景下的历史交易数据集;所述历史交易数据集中包括多个业务场景对应的交易数据样本及类别标签;所述交易数据样本包括对应业务场景下账户的历史特征数据;
采用模型无关元学习MAML算法根据所述历史交易数据集初始化所述异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型。
3.根据权利要求2所述的方法,其特征在于,所述采用模型无关元学习MAML算法根据所述历史交易数据集初始化所述异常账户识别模型中的参数,以获取初始化参数后的异常账户识别模型,包括:
将所述历史交易数据集分为训练数据集及测试数据集;
采用MAML算法的内循环部分根据所述训练数据集获取多个业务场景对应的适应性参数;
采用MAML算法的外循环部分根据所述测试数据集及所述多个业务场景对应的适应性参数确定异常账户识别模型的共享初始化参数;
将所述异常账户识别模型中的参数初始化为共享初始化参数。
4.根据权利要求1所述的方法,其特征在于,所述获取目标业务场景的训练样本及类别标签,包括:
从目标业务场景对应的数据库中获取多个历史账户在预设天数内的交易数据、对应的账户特征及类别标签;所述多个账户中包括类别标签为异常的账户;
提取各历史账户对应交易数据的数据特征,以获取目标业务场景下多个历史账户的历史行为特征值;
对各历史账户对应的账户特征进行定量化处理,以获取目标业务场景下多个历史账户的属性特征值;
将各历史账户对应的历史行为特征值及属性特征值确定为各训练样本,并将各历史账户对应的类别标签确定为对应训练样本的类别标签。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述初始化参数后的异常账户识别模型为初始化参数后的深度神经网络DNN模型;
所述将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,包括:
将目标业务场景的训练样本及类别标签输入所述初始化参数后的深度神经网络DNN模型中;
采用目标业务场景的训练样本及类别标签对所述初始化参数后的深度神经网络DNN模型进行训练;
判断训练后的DNN模型中的损失函数是否达到预设阈值;
若确定损失函数达到预设阈值,则将损失函数达到最小的DNN模型确定为目标异常账户识别模型。
6.一种异常账户识别方法,其特征在于,包括:
获取目标账户在目标业务场景下的当前特征数据;所述当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;
将当前特征数据输入目标异常账户识别模型中对所述当前特征数据进行分类,以识别目标账户的交易行为是否异常;所述目标异常账户识别模型是采用如权利要求1-5任一项所述的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
7.一种异常账户识别模型训练装置,其特征在于,包括:
获取模块,用于获取目标业务场景的训练样本及类别标签;所述训练样本包括目标业务场景下历史账户的历史特征数据;所述历史特征数据包括:属性特征值及历史行为特征值;
训练模块,用于将目标业务场景的训练样本及类别标签输入初始化参数后的异常账户识别模型中,以对初始化参数后的异常账户识别模型进行训练,并获得目标异常账户识别模型,所述目标异常账户识别模型用于目标业务场景中对目标账户进行是否异常的识别;所述初始化参数后的异常账户识别模型为采用模型无关元学习MAML算法确定的,多个业务场景对应的初始化参数后的异常账户识别模型是一致的。
8.一种异常账户识别装置,其特征在于,包括:
获取模块,用于获取目标账户在目标业务场景下的当前特征数据;所述当前特征数据包括:目标账户的当前属性特征值及当前行为特征值;
分类模块,用于将当前特征数据输入目标异常账户识别模型中对所述当前特征数据进行分类,以识别目标账户的交易行为是否异常;所述目标异常账户识别模型是采用如权利要求1-5任一项所述的异常账户识别模型训练方法对初始化参数后的异常账户识别模型进行训练获得的。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-5中任一项或权利要求6所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-5中任一项或权利要求6所述的方法。
CN202211202721.1A 2022-09-29 2022-09-29 异常账户识别模型训练方法、装置、设备及介质 Pending CN115438747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211202721.1A CN115438747A (zh) 2022-09-29 2022-09-29 异常账户识别模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211202721.1A CN115438747A (zh) 2022-09-29 2022-09-29 异常账户识别模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115438747A true CN115438747A (zh) 2022-12-06

Family

ID=84250694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211202721.1A Pending CN115438747A (zh) 2022-09-29 2022-09-29 异常账户识别模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115438747A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170829A (zh) * 2023-04-26 2023-05-26 浙江省公众信息产业有限公司 一种独立专网业务的运维场景识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170829A (zh) * 2023-04-26 2023-05-26 浙江省公众信息产业有限公司 一种独立专网业务的运维场景识别方法及装置

Similar Documents

Publication Publication Date Title
US10943186B2 (en) Machine learning model training method and device, and electronic device
CN111898758B (zh) 一种用户异常行为识别方法、装置及计算机可读存储介质
CN107391569B (zh) 数据类型的识别、模型训练、风险识别方法、装置及设备
WO2021174966A1 (zh) 训练风险识别模型的方法及装置
CN111310814A (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN109816200B (zh) 任务推送方法、装置、计算机设备和存储介质
KR102168198B1 (ko) 기업 부도 예측 시스템 및 이의 동작 방법
CN103339635A (zh) 确定计算机软件应用对于特权升级攻击的脆弱性
CN113408558B (zh) 用于模型验证的方法、装置、设备和介质
CN113468520A (zh) 应用于区块链业务的数据入侵检测方法及大数据服务器
CN113657896A (zh) 一种基于图神经网络的区块链交易拓扑图分析方法和装置
CN112330355A (zh) 消费券交易数据处理方法、装置、设备及存储介质
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN114140670B (zh) 基于外源特征进行模型所有权验证的方法和装置
CN115438747A (zh) 异常账户识别模型训练方法、装置、设备及介质
CN111145026A (zh) 一种反洗钱模型的训练方法及装置
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN115935265B (zh) 训练风险识别模型的方法、风险识别方法及对应装置
Kshatri et al. Analytical study of some selected classification algorithms and crime prediction
CN111582647A (zh) 用户数据处理方法、装置及电子设备
CN115907954A (zh) 账户的识别方法、装置、计算机设备和存储介质
CN112742026B (zh) 游戏控制方法、装置、存储介质和电子设备
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN116028880B (zh) 训练行为意图识别模型的方法、行为意图识别方法及装置
Martens et al. A neural network approach to the validation of simulation models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination