CN110458684A - 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 - Google Patents
一种基于双向长短期记忆神经网络的金融反欺诈检测方法 Download PDFInfo
- Publication number
- CN110458684A CN110458684A CN201910556616.XA CN201910556616A CN110458684A CN 110458684 A CN110458684 A CN 110458684A CN 201910556616 A CN201910556616 A CN 201910556616A CN 110458684 A CN110458684 A CN 110458684A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- finance
- long term
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 16
- 230000007787 long-term memory Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012098 association analyses Methods 0.000 claims abstract description 5
- 238000007619 statistical method Methods 0.000 claims abstract description 5
- 238000012952 Resampling Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000209202 Bromus secalinus Species 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于双向长短期记忆神经网络的金融反欺诈检测方法,包括下述步骤:步骤一,由于原始数据中可能存在缺失值、重复值或者异常值,则需要对原始数据进行预处理;由于不同数据维度所包含的信息可能存在交叉冗余,则需要对原始数据维度进行统计分析处理和关联性分析处理,然后获得能够用于建模的数据;本发明在保证数据完整性的情况下,更好的利用数据本身的特性,检测出数据中的异常数据,且神经网络算法的性能更加的高效,最终实现金融欺诈识别,得到最优的分析结果,提高了分析结果的准确率,降低了金融风险。
Description
技术领域
本发明涉及金融检测技术领域,具体涉及一种基于双向长短期记忆神经网络的金融反欺诈检测方法。
背景技术
在如今信息化社会中,金融业务里存在的金融欺诈行为变得越来越多,金融欺诈风险成为金融业务中所面临的主要金融风险之一,它通常指信贷客户是否具备还款能力或者意愿一类的风险;最关键的问题就是如何有效地检测出这些存在高度可能性的欺诈行为。
随着互联网经济的不断发展,金融领域的欺诈行为也逐渐开始变得越来越多,而各大金融机构在避免和检测这些金融欺诈行为所花费的费用也在不断上升。金融欺诈行为不仅仅是给各大金融机构带来巨大的经济上的损失,还给他们造成了信誉和形象上的重大负面影响。随着金融行业发展,通过各种各样的渠道进行金融服务交易的情况越来越普及,同时也伴随着许多不法分子利用各平台的漏洞进行各种欺诈行为,对于银行有着各种各样的金融理财产品,而与之对应的产品风险防御措施还不太完善,不法分子会利用这些漏洞给银行企业以及金融产品客户造成巨大损失。这对于金融机构来说,就必须构建一套完整的风险控制体系结构来确保能够识别未知的风险,避免欺诈行为的发生,尽可能低的减少自身的损失;而大多数金融机构的风控体系还不能达到较好的效果,有的甚至还是基于人力的经验进行判断,在一定程度上造成了极大的人力、物力、财力的浪费;同时在传统反欺诈环节中审核人员水平参差不齐、劳动密集型的困境,以及克服现有的金融反欺诈方法存在预测效果不佳、对金融反欺诈的效果较差、投入市场使用的技术缺陷。
针对于金融反欺诈问题,最常见的风险审查工作一般情况下是由人工进行的,基于这种方法进行金融反欺诈虽然能在金融反欺诈取得很好的效果,但是人工审查具有不确定性和不稳定性,况且每天金融交易的数量十分巨大,需要耗费巨大的人力资源,无法真正的适用市场。为了克服这种困难,有人提出一种基于朴素贝叶斯模型的金融反欺诈方法,但是这种方法需要知道先验概率,且先验概率很多时候取决于假设,因假设的模型具有不确定性,因此在某些特定的情况下会因为先验模型的原因导致预测效果不佳,对金融反欺诈的效果较差,难以投入市场使用。
现有技术中应用较多是基于大数据的信用评价***,对于欺诈行为的检测却没有更好的办法。大多数欺诈检测***通常只是对有问题的交易进行被动的事后分析,但已经无法挽回已经造成的损失;此外,这些***大部分是直接将预处理好的原始数据带入学习算法中构建反欺诈检测模型,其存在的不足是:在将原始数据带入算法中训练之前,会有人为的数据清洗、数据特征选择或者数据降维的过程;由于人为的主观因素存在,在特征选取过程中,一些原始数据之间的深层次数据特征有可能被过滤掉或丢失,从而影响后面检测模型的准确性和可靠度,导致检测效果不理想。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于双向长短期记忆神经网络的金融反欺诈检测方法,该方法将深度学习与金融领域相结合,有效提升了金融欺诈识别率,降低了金融风险。
本发明的目的通过下述技术方案实现:
一种基于双向长短期记忆神经网络的金融反欺诈检测方法,包括下述步骤:
步骤一,由于原始数据中可能存在缺失值、重复值或者异常值,则需要对原始数据进行预处理;由于不同数据维度所包含的信息可能存在交叉冗余,则需要对原始数据维度进行统计分析处理和关联性分析处理,然后获得能够用于建模的数据;
步骤二,对预处理的数据进行特征工程的处理,即结合业务知识、数据方法进行特征选择,选出最合适的特征进行建模;特征选择是指通过特征工程能够获得原始特征和衍生特征,由于模型的复杂度以及特征对预测结果的重要性,需对已有特征进行特征选择,从而获得建模特征;
步骤三,对数据进行正负样本的重采样,以期在模型构建中获得更好的准确率;
步骤四,使用双向长短时记忆网络BiLSTM来对金融数据进行异常类的检测,并优化参数获得期望模型;
步骤五,将步骤四得到的金融数据表示输入到神经网络,最后输入sigmoid函数进行分类,风险高为1,风险低为0,以此来表示风险的高低。
优选地,所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法。
优选地,所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。
本发明与现有技术相比具有以下的有益效果:
(1)本发明在保证数据完整性的情况下,更好的利用数据本身的特性,检测出数据中的异常数据,且神经网络算法的性能更加的高效,最终实现金融欺诈识别,得到最优的分析结果,提高了分析结果的准确率,降低了金融风险;
(2)本发明对于在金融数据中存在的不平衡数据集,造成数据的不平衡的类分布,采用重采样方法(改进的合成少数类过采样技术MSMOTE)对数据进行增广,以提高识别的准确率。
附图说明
图1为本发明的流程示意图;
图2为本发明的数据建模过程示意图;
图3为本发明的模型架构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
在金融交易反欺诈领域中,神经网络模型是一种欺诈风险量化模型,它运用大数据分析和模型挖掘技术,从客户、商户、产品、渠道等维度挖掘出风险特征,对金融交易进行风险评分,预测未知欺诈概率。模型方法论的核心思想是:通过学习海量客户的历史交易数据以及相关信息(如客户、商户等信息),获取客户自身的历史交易行为模式,将当前交易行为与历史交易行为模式相比较,分析差异性,预测当前交易的风险程度;差异性越大,风险程度越高。
本发明提出了一种基于双向长短期记忆神经的金融反欺诈检测方法,对于金融反欺诈是金融领域内一个及其重要的一环,如今大多数的手段还是以来传统经验进行人为分别。本发明目的就是通过建立检测模型,再依据该检测模型来预测未知事件的风险发生可能性大小,进行风险评估供金融机构做出判断。技术方案的基本内容分为以下几个模块:数据预处理模块、特征工程模块、模型构建及评估模块模型架构。由于原始数据中由于往往会存在缺失值、重复值、异常值等,这就需要首先对原始数据进行预处理,不同数据维度所包含的信息有可能会存在交叉冗余,因此,需要对原始数据维度进行统计分析、关联性分析等处理方式,然后获得能够用于建模的数据。特征工程模块指原始数据经过预处理之后,需要对其进行特征工程,即结合业务知识、数据方法构建能够最终模型的特征集。特征选择是特征工程最重要的部分之一,特征选择是指通过特征工程能够获得很多特征,包括原始特征、衍生特征,但是考虑到模型的复杂度以及特征对预测结果的重要性,需要对已有特征进行特征选择,获得建模特征。常见的特征选择方法包括过滤法、嵌入法、集成法。最后是模型构建及评估模块,利用双向长短期记忆神经网络模型进行模型训练,选择合适的损失函数训练固定次数或待模型精度达到要求,逐步优化完成模型构建
具体来说,如图1~3所示,一种基于双向长短期记忆神经网络的金融反欺诈检测方法,包括下述步骤:
步骤一,由于原始数据中可能存在缺失值、重复值或者异常值,则需要对原始数据进行预处理;由于不同数据维度所包含的信息可能存在交叉冗余,则需要对原始数据维度进行统计分析处理和关联性分析处理,然后获得能够用于建模的数据;
步骤二,对预处理的数据进行特征工程的处理,即结合业务知识、数据方法进行特征选择,选出最合适的特征进行建模;特征选择是指通过特征工程能够获得原始特征和衍生特征,由于模型的复杂度以及特征对预测结果的重要性,需对已有特征进行特征选择,从而获得建模特征;所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法
步骤三,对数据进行正负样本的重采样,以期在模型构建中获得更好的准确率;所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。
步骤四,使用双向长短时记忆网络BiLSTM来对金融数据进行异常类的检测,并优化参数获得期望模型;
步骤五,将步骤四得到的金融数据表示输入到神经网络,最后输入sigmoid函数进行分类,风险高为1,风险低为0,以此来表示风险的高低。
本发明在保证数据完整性的情况下,更好的利用数据本身的特性,检测出数据中的异常数据,且神经网络算法的性能更加的高效,最终实现金融欺诈识别,得到最优的分析结果,提高了分析结果的准确率,降低了金融风险;对于在金融数据中存在的不平衡数据集,造成数据的不平衡的类分布,采用重采样方法(改进的合成少数类过采样技术MSMOTE)对数据进行增广,以提高识别的准确率。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于双向长短期记忆神经网络的金融反欺诈检测方法,其特征在于,包括下述步骤:
步骤一,由于原始数据中可能存在缺失值、重复值或者异常值,则需要对原始数据进行预处理;由于不同数据维度所包含的信息可能存在交叉冗余,则需要对原始数据维度进行统计分析处理和关联性分析处理,然后获得能够用于建模的数据;
步骤二,对预处理的数据进行特征工程的处理,即结合业务知识、数据方法进行特征选择,选出最合适的特征进行建模;特征选择是指通过特征工程能够获得原始特征和衍生特征,由于模型的复杂度以及特征对预测结果的重要性,需对已有特征进行特征选择,从而获得建模特征;
步骤三,对数据进行正负样本的重采样,以期在模型构建中获得更好的准确率;
步骤四,使用双向长短时记忆网络BiLSTM来对金融数据进行异常类的检测,并优化参数获得期望模型;
步骤五,将步骤四得到的金融数据表示输入到神经网络,最后输入sigmoid函数进行分类,风险高为1,风险低为0,以此来表示风险的高低。
2.根据权利要求1所述的基于双向长短期记忆神经网络的金融反欺诈检测方法,其特征在于,所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法。
3.根据权利要求1所述的基于双向长短期记忆神经网络的金融反欺诈检测方法,其特征在于,所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556616.XA CN110458684A (zh) | 2019-06-25 | 2019-06-25 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556616.XA CN110458684A (zh) | 2019-06-25 | 2019-06-25 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110458684A true CN110458684A (zh) | 2019-11-15 |
Family
ID=68480858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910556616.XA Pending CN110458684A (zh) | 2019-06-25 | 2019-06-25 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458684A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
CN113129028A (zh) * | 2020-01-10 | 2021-07-16 | 联洋国融(北京)科技有限公司 | 一种基于时序神经网络模型的欺诈用户检测*** |
-
2019
- 2019-06-25 CN CN201910556616.XA patent/CN110458684A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129028A (zh) * | 2020-01-10 | 2021-07-16 | 联洋国融(北京)科技有限公司 | 一种基于时序神经网络模型的欺诈用户检测*** |
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koh et al. | A two-step method to construct credit scoring models with data mining techniques | |
KR102105744B1 (ko) | 지능형 증권 투자 의사결정 지원 방법 및 그 장치 | |
CN109035003A (zh) | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 | |
CN111476660B (zh) | 一种基于数据分析的智能风控***及方法 | |
Li et al. | Identifying the signs of fraudulent accounts using data mining techniques | |
Eze et al. | Electronic banking and profitability of commercial banks in Nigeria | |
US20150363875A1 (en) | System and Method for Filtering and Analyzing Transaction Information | |
CN108230151A (zh) | 一种可疑交易监测方法、装置、设备及存储介质 | |
Kim et al. | Predicting repayment of borrows in peer‐to‐peer social lending with deep dense convolutional network | |
Jagielska et al. | Neural network for predicting the performance of credit card accounts | |
Arora et al. | Prediction of credit card defaults through data analysis and machine learning techniques | |
CN110458684A (zh) | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 | |
Wagdi et al. | The integration of big data and artificial neural networks for enhancing credit risk scoring in emerging markets: Evidence from Egypt | |
CN112884480A (zh) | 异常交易识别模型的构造方法、装置、计算机设备和介质 | |
Kadam et al. | Loan approval prediction system using logistic regression and CIBIL score | |
CN116385137A (zh) | 一种基于电力信息数据的企业反欺诈风险评估方法及*** | |
CN115564591A (zh) | 一种融资产品的确定方法及相关设备 | |
Oztas et al. | Enhancing Anti-Money Laundering: Development of a Synthetic Transaction Monitoring Dataset | |
CN114626938A (zh) | 一种智能决策引擎、决策***及决策方法 | |
CN113822751A (zh) | 一种线上贷款的风险预测方法 | |
CN113781056A (zh) | 预测用户欺诈行为的方法及装置 | |
CN110110954A (zh) | 风险顶点识别方法和装置 | |
Diadiushkin et al. | Fraud Detection in Instant Payments as Contribution to Digitalization in Banks. | |
Aswathy et al. | Credit card fraud detection using hybrid models | |
Forsström | How can financial institutions more efficiently prevent credit-card fraud and AML using AI and machine learning technologies? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |