CN113159947A - 一种基于生成对抗网络的困难异常样本检测框架 - Google Patents

一种基于生成对抗网络的困难异常样本检测框架 Download PDF

Info

Publication number
CN113159947A
CN113159947A CN202110285596.4A CN202110285596A CN113159947A CN 113159947 A CN113159947 A CN 113159947A CN 202110285596 A CN202110285596 A CN 202110285596A CN 113159947 A CN113159947 A CN 113159947A
Authority
CN
China
Prior art keywords
model
data
abnormal
generated
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110285596.4A
Other languages
English (en)
Inventor
王成
胡腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110285596.4A priority Critical patent/CN113159947A/zh
Publication of CN113159947A publication Critical patent/CN113159947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于生成对抗网络的困难异常样本检测框架,解决了针对困难异常样本难以建立有效模型进行预测的问题,其技术方案要点是通过预处理数据,使用生成对抗网络,针对极度稀少的异常样本,学习到异常样本的分布,同时生成大量的异常和正常样本,利用这些生成的样本预训练一个分类模型,结合迁移学习的方法,使用真实数据对模型进行微调,最终得到所需分类模型以为困难异常样本检测提供支持,本发明的一种基于生成对抗网络的困难异常样本检测框架,可利用少量真实数据建立和训练异常检测模型,能进行微调后训练出工业可用的模型。

Description

一种基于生成对抗网络的困难异常样本检测框架
技术领域
本发明涉及困难异常样本检测,特别涉及一种基于生成对抗网络的困难异常样本检测框架。
背景技术
移动互联网是一柄双刃剑,在给人们生活带来便利的同时随之也带来了种种隐患,例如线上交易的支付平台可以让人足不出户的甚至随时随地的就可以进行购物以及支付,但是在线上交易也为欺诈者们提供了一定的庇护所,因为只需要远程操作就可以实施欺诈;并且在工业互联网的机械设备故障中,技术人员通常很难定位到具体的设备元器件,因此即使发生了故障,维修人员也需要经过多方排查才能真正定位到具体的元器件上。
在工业互联网的设备运行中,设备大部分都是出于正常运行状态的,异常出现的次数极少,但是一旦出现且没有及时处理就可能造成无法估量的损失,并且这种异常与正常的数据分布之间没有明显的界限,因此我们称这种异常检测为困难异常样本检测。在正样本与负样本数据极度不均衡的这种情况下,难以有效训练出一个可以针对困难异常样本检测的模型的问题亟需解决。
发明内容
本发明的目的是提供一种基于生成对抗网络的困难异常样本检测框架,可利用少量真实数据建立和训练异常检测模型,能进行微调后训练出工业可用的模型。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于生成对抗网络的困难异常样本检测框架,包括有以下步骤:
对原始数据进行预处理以转化进行模型计算;
建立生成对抗网络,建立有用于生成数据的生成模型、对真实数据和生成数据进行判别的第一判别模型、对生成数据中正常样本数据与异常样本数据进行判别的第二判别模型,并进行训练直至模型收敛;
预训练一个能学习到生成的数据中异常样本数据和正常样本数据分布的基模型,通过学习迁移法使用真实数据对基模型进行微调获得异常检测模型;
通过异常检测模型进行测试集数据预测并进行模型评估,通过异常检测模型进行真实数据的困难异常样本的检测分类。
综上所述,本发明具有以下有益效果:
在互联网金融和工业互联网的设备数据中,由于欺诈交易(异常)的少量特性,基于本方法可以利用这些少量的珍贵的欺诈样本作为“种子数据”,通过生成对抗网络来生成更多的欺诈数据,通过生成的数据建立和训练异常检测模型,然后通过迁移学习的方法,利用真实数据对模型进行微调,从而得到最终的异常检测模型,为后续的困难异常样本检测提供了新的研究思路。
附图说明
图1为本发明流程示意图;
图2为困难异常样本检测框架中数据生成流程示意图;
图3为基模型训练及异常检测模型获取的流程示意框图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
根据一个或多个实施例,公开了一种基于生成对抗网络的困难异常样本检测框架,如图1所示,包括有以下步骤。
S1、对原始数据进行预处理,转化以进行模型计算。
S2、建立生成对抗网络。建立的生成对抗网络包括有用于生成数据的生成模型G、对真实数据和生成数据进行判别的第一判别模型D1、对生成数据中正常样本数据与异常样本数据进行判别的第二判别模型D2,并对三个模型进行训练直至模型收敛。
S3、预训练一个能学习到生成的数据中异常样本数据和正常样本数据分布的基模型,通过学习迁移法使用真实数据对基模型进行微调获得异常检测模型。
S4、通过异常检测模型进行测试集数据预测并进行模型评估;
S5、通过异常检测模型进行真实数据的困难异常样本的检测,获得预测分类结果。
其中原始数据的预处理为:进行数据类型的转化,将原始字段类型转化为整型数据,并对缺失值进行填充,还需将连续型浮点数转换成可计算的离散型变量,如下表1所示,可用的原始字段大部分为字符串类型,而作为概率图模型本身则只能对离散型的变量做处理,因此预处理不仅包含数据清理和数据集成,并且在数据变换过程中,还将连续型浮点数转换成概率图模型可计算的离散型变量。
字段名 数据类型 字段描述 预处理后类型
Transaction_Time 字符串 交易发生的时间,精确到秒级 整型
Check 字符串 交易的验签方式 整型
Transaction_Type 字符串 交易的类型 整型
Transaction_Amount 浮点型 交易金额,单位人民币 整型
Merchant_Code 字符串 交易的商户编号 整型
IP 字符串 交易是否常用IP 整型
Sign 字符串 交易的标签 整型
表1
生成对抗网络的建立具体为:
采用双层LSTM模型分别建立生成模型、第一判别模型及第二判别模型;
建模算法环境为:Python,numpy,Keras
输入:
1.m是一个超参数,表示的是模型的抽样数量,一般不会事先给出,根据特定的实验环境而定,一般机器配置较好的情况下可以适当的将该数值给大一些。
2.k也是一个超参数,通常是来控制判别模型的训练次数,在这里我们给定k=1。
输出:
1.生成模型G
2.判别模型D
从生成模型生成的数据中抽取M个样本,并从真实数据中抽取M个样本,计算下式用随机梯度提成更新第一判别模型:
Figure BDA0002980322280000041
并计算下式用随机梯度下降更新生成模型:
Figure BDA0002980322280000042
从生成模型生成的数据中抽取M个异常样本和正常样本,计算下式用随机梯度提升更新第二判别模型:
Figure BDA0002980322280000043
通过计算下式再用随机梯度下降更新生成模型:
Figure BDA0002980322280000051
设定收敛阈值,未收敛时增加样本数量并重复上述步骤再次更新模型,直至模型收敛。
算法伪代码如下:
1)while模型未收敛do:
2)m=m+1;
3)for k steps do:
4)从生成模型生成的数据中抽出m个样本{z(1),…,z(m)}。
5)从真实的欺诈数据中抽出m个样本{x(1),…,x(m)}。
6)计算下面的公式用随机梯度提升来更新第一判别模型D1
Figure BDA0002980322280000052
7)计算下面的公式用随机梯度下降来更新生成模型G:
Figure BDA0002980322280000053
8)从生成模型生成的数据中分别抽出m个异常样本和正常样本{z(1),…,z(2m)}。
9)计算下面的公式用随机梯度提升来更新第二判别模型D2
Figure BDA0002980322280000054
10)计算下面的公式用随机梯度下降来更新生成模型G:
Figure BDA0002980322280000055
11)end do
上述算法的6)步中主要是来更新第一判别模型D1的参数,第一判别模型的目标是要尽量的将真实数据和生成模型生成的数据区分开来,因此第一判别模型更新参数的状态是要尽量朝着犯错的反方向来更新参数,即梯度提升的方向;而第一判别模型犯错的方式有两种情况1.无法区分真实样本;2.无法区分生成模型生成的样本,因此公式(1)中即是两种错误的损失函数之和。算法的7)步主要是来更新生成模型的参数,而生成模型要做的就是尽量要让第一判别模型犯错,即如果生成模型生成的数据越来越接近真实数据的分布,那么第一判别模型犯错的可能性就会越大,所以生成模型更新参数的方向是沿着第一判别模型犯错的梯度下来更新的,因此生成模型需要沿着公式(2)中计算的梯度下来更新参数。
上述算法的第9)步主要是来更新第二判别模型D2的参数,第二判别模型的目标是要尽量的将异常数据和正常数据区分开来,因此第二判别模型更新参数的状态是要尽量朝着犯错的反方向来更新参数,即梯度提升的方向;而第二判别模型犯错的方式有两种情况1.无法区分异常样本;2.无法区分正常样本,因此公式(3)中即是两种错误的损失函数之和。算法的10)步主要是来更新生成模型的参数,而生成模型要做的就是尽量要让第二判别模型犯错,即如果生成模型生成的异常数据越来越接近正常数据的分布,那么第二判别模型犯错的可能性就会越大,所以生成模型更新参数的方向是沿着第二判别模型犯错的梯度下来更新的,因此判别模型需要沿着公式(4)中计算的梯度下来更新参数。
训练的过程主要是控制模型的收敛,而纳什均衡所达到的均衡状态通常是理想状态下的,即第一判别模型已经无法分辨真实数据和生成模型生成的数据、第二判别模型已经无法分辨异常样本数据和正常样本数据,即判别模型犯错的概率为50%,但是实际上这种状态达成的难度高,因此训练过程可以进行人为的干预,譬如在此次实验中我们设定的阈值为30%,即当判别模型犯错的概率达到30%即可认为模型收敛了。
如图2及图3所示,异常检测模型的获取具体为:
采用双层LSTM模型作为进行预测分类的基模型,控制生成模型生成的异常样本数据和正常样本数据的比例,通过生成模型生成的数据对基模型进行训练直至基模型收敛;为了模型具有更好的泛化能力可以用于真实数据的异常检测,需要对该基模型进行微调。
基模型包括有特征提取层和softmax层,微调的方法即采用迁移学习的方法,保持基模型中特征提取层参数不变,即保留预训练中学习的异常样本数据和正常样本数据分布知识;将真实数据作为输入对基模型的softmax层进行重新训练,以将预训练学习到的知识迁移到困难异常样本的检测模型中,进而完成微调获得异常检测模型。
异常检测模型的模型评估具体为:
通过获得的异常检测模型对测试集中的正常样本数据和异常样本数据进行预测分类,获得预测分类结果;
对全部样本的分类预测结果通过设定的指标进行模型评估,包括有
准确率:
Figure BDA0002980322280000071
召回率:
Figure BDA0002980322280000072
误判率:
Figure BDA0002980322280000073
其中,TP:模型将异常样本判定为异常的数量;FP:模型将正常样本判定为异常的数量;FN:模型将异常样本判定为正常的数量;TN:模型将正常样本判定为正常的数量。
模型评估,现有一实例其过程如下:
模型环境:Python,Keras,Pandas,Numpy
输入:
测试集:其中正常数据数据1003539条记录,异常数据24898输出:
测试集中每条记录的标签,以及一系列的度量指标。
1)在上一步中得到的收敛的GAN中的第二判别模型D2,用D2作为基模型,通过基模型进行预测分类。
2)针对预测的评估结果引入了以下的三个指标:准确率precision,召回率recall,以及误判率FalsePositiveRate(fpr)。同时还将引入以下的几个概念TP:模型将正类判定为正类的数量;FP:模型将负类判定为正类的数量;FN:模型将正类判定为负类的数量;TN:模型将负类判定为负类的数量。
精确率的定义如下:
Figure BDA0002980322280000081
召回率的定义如下:
Figure BDA0002980322280000082
打扰率的定义如下:
Figure BDA0002980322280000083
当对所有的测试集预测完之后,分别根据公式(5),(6)和(7)统计输出精确率,召回率以及误判率。
由于在互联网金融的交易数据和工业互联网的设备运行数据中,大部分的都是正常交易和正常运行的数据,即大量的负样本,只有少量的欺诈数据或者设备异常数据,即少量的正样本。并且正样本和负样本没有明确的分布边界从而导致传统的机器学习方法对于这种困难异常样本难以建模,而本方法在保证没有信息量丢失的情况下,结合生成对抗网络和迁移学习的方法,可以训练出对工业界可用的模型,即以落地实施在现实的异常检测项目中。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (4)

1.一种基于生成对抗网络的困难异常样本检测框架,其特征是,包括有以下步骤:
对原始数据进行预处理以转化进行模型计算;
建立生成对抗网络,建立有用于生成数据的生成模型、对真实数据和生成数据进行判别的第一判别模型、对生成数据中正常样本数据与异常样本数据进行判别的第二判别模型,并进行训练直至模型收敛;
预训练一个能学习到生成的数据中异常样本数据和正常样本数据分布的基模型,通过学习迁移法使用真实数据对基模型进行微调获得异常检测模型;
通过异常检测模型进行测试集数据预测并进行模型评估,通过异常检测模型进行真实数据的困难异常样本的检测分类。
2.根据权利要求1所述的基于生成对抗网络的困难异常样本检测框架,其特征是,生成对抗网络的建立具体为:
采用双层LSTM模型分别建立生成模型、第一判别模型及第二判别模型;
从生成模型生成的数据中抽取M个样本,并从真实数据中抽取M个样本,计算下式用随机梯度提成更新第一判别模型:
Figure FDA0002980322270000011
并计算下式用随机梯度下降更新生成模型:
Figure FDA0002980322270000012
从生成模型生成的数据中抽取M个异常样本和正常样本,计算下式用随机梯度提升更新第二判别模型:
Figure FDA0002980322270000013
通过计算下式再用随机梯度下降更新生成模型:
Figure FDA0002980322270000021
设定收敛阈值,未收敛时增加样本数量并重复上述步骤再次更新模型,直至模型收敛。
3.根据权利要求2所述的基于生成对抗网络的困难异常样本检测框架,其特征是,异常检测模型的获取具体为:
采用双层LSTM模型作为进行分类的基模型,控制生成模型生成的异常样本数据和正常样本数据的比例,通过生成模型生成的数据对基模型进行训练直至基模型收敛;
基模型包括有特征提取层和softmax层,保持基模型中特征提取层参数不变,保留预训练中学习的异常样本数据和正常样本数据分布知识;将真实数据作为输入对基模型的softmax层进行重新训练,以将预训练学习到的知识迁移到困难异常样本的检测模型中,获得异常检测模型。
4.根据权利要求3所述的基于生成对抗网络的困难异常样本检测框架,其特征是,异常检测模型的模型评估具体为:
通过获得的异常检测模型对测试集中的正常样本数据和异常样本数据进行预测分类,获得预测分类结果;
对全部样本的分类预测结果通过设定的指标进行模型评估,包括有
准确率:
Figure FDA0002980322270000022
召回率:
Figure FDA0002980322270000023
误判率:
Figure FDA0002980322270000024
其中,TP:模型将异常样本判定为异常的数量;FP:模型将正常样本判定为异常的数量;FN:模型将异常样本判定为正常的数量;TN:模型将正常样本判定为正常的数量。
CN202110285596.4A 2021-03-17 2021-03-17 一种基于生成对抗网络的困难异常样本检测框架 Pending CN113159947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285596.4A CN113159947A (zh) 2021-03-17 2021-03-17 一种基于生成对抗网络的困难异常样本检测框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285596.4A CN113159947A (zh) 2021-03-17 2021-03-17 一种基于生成对抗网络的困难异常样本检测框架

Publications (1)

Publication Number Publication Date
CN113159947A true CN113159947A (zh) 2021-07-23

Family

ID=76887419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285596.4A Pending CN113159947A (zh) 2021-03-17 2021-03-17 一种基于生成对抗网络的困难异常样本检测框架

Country Status (1)

Country Link
CN (1) CN113159947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006752A (zh) * 2021-10-29 2022-02-01 中电福富信息科技有限公司 基于gan压缩算法的dga域名威胁检测***及其训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563355A (zh) * 2017-09-28 2018-01-09 哈尔滨工程大学 基于生成对抗网络的高光谱异常检测方法
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法
CN109978550A (zh) * 2019-03-12 2019-07-05 同济大学 一种基于生成对抗网络的可信电子交易放行机制
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN110544168A (zh) * 2019-08-19 2019-12-06 同济大学 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
CN111414973A (zh) * 2020-03-30 2020-07-14 同济大学 基于生成对抗网络的极度不均衡数据的分类框架

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563355A (zh) * 2017-09-28 2018-01-09 哈尔滨工程大学 基于生成对抗网络的高光谱异常检测方法
CN109978550A (zh) * 2019-03-12 2019-07-05 同济大学 一种基于生成对抗网络的可信电子交易放行机制
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN110544168A (zh) * 2019-08-19 2019-12-06 同济大学 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
CN111414973A (zh) * 2020-03-30 2020-07-14 同济大学 基于生成对抗网络的极度不均衡数据的分类框架

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006752A (zh) * 2021-10-29 2022-02-01 中电福富信息科技有限公司 基于gan压缩算法的dga域名威胁检测***及其训练方法

Similar Documents

Publication Publication Date Title
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN108255656A (zh) 一种应用于间歇过程的故障检测方法
CN112508105B (zh) 一种采油机故障检测与检索方法
CN110414780B (zh) 一种基于生成对抗网络的金融交易数据的欺诈检测方法
CN109063734B (zh) 结合多级局部密度聚类的油浸式变压器故障状态评估方法
CN116757534A (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN110544168A (zh) 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
CN114444620B (zh) 一种基于生成式对抗神经网络的示功图故障诊断方法
WO2023273249A1 (zh) 基于tsvm模型的智能电能表自动化检定***异常检测方法
CN115563563A (zh) 基于变压器油色谱分析的故障诊断方法及装置
CN108108765A (zh) 一种基于概率密度比的数据融合的设备故障诊断方法
CN108266219A (zh) 基于风量特征的矿井通风***阻变型单故障源诊断方法
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN113205125A (zh) 一种基于XGBoost的特高压换流阀运行状态评估方法
CN109594967A (zh) 一种基于录井大数据的卡钻事故检测预警方法
CN113159947A (zh) 一种基于生成对抗网络的困难异常样本检测框架
CN110059126B (zh) 基于lkj异常值数据的复杂关联网络分析方法及***
CN107918381A (zh) 一种基于组合核函数的类均值核主元故障诊断方法
CN114580940A (zh) 基于灰色关联度分析法的注浆效果模糊综合评价方法
CN112651444B (zh) 一种基于自学***稳过程异常检测方法
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
CN115407753B (zh) 一种多变量加权集成学习的工业故障诊断方法
CN114547796B (zh) 一种基于优化bn网络的球磨机特征融合故障诊断方法
CN116048036A (zh) 基于动态非平稳投影结构的故障检测方法
CN115034443A (zh) 一种基于工况划分与神经网络的锅炉性能预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication