CN116862658A - 信用评估方法、装置、电子设备、介质和程序产品 - Google Patents
信用评估方法、装置、电子设备、介质和程序产品 Download PDFInfo
- Publication number
- CN116862658A CN116862658A CN202310869247.6A CN202310869247A CN116862658A CN 116862658 A CN116862658 A CN 116862658A CN 202310869247 A CN202310869247 A CN 202310869247A CN 116862658 A CN116862658 A CN 116862658A
- Authority
- CN
- China
- Prior art keywords
- model
- credit
- training
- credit evaluation
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 127
- 238000007637 random forest analysis Methods 0.000 claims abstract description 108
- 238000013210 evaluation model Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 78
- 230000002068 genetic effect Effects 0.000 claims abstract description 69
- 238000003066 decision tree Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 21
- 238000010276 construction Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 238000011144 upstream manufacturing Methods 0.000 claims description 11
- 230000036961 partial effect Effects 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 238000010187 selection method Methods 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 5
- 208000025174 PANDAS Diseases 0.000 description 4
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 4
- 240000004718 Panda Species 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 238000012854 evaluation process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种信用评估方法、装置、电子设备、介质和计算机程序产品。上述方法和装置可用于人工智能技术领域。信用评估方法包括:获取用户交易数据,其中,用户交易数据包括m个数据特征,m为大于等于1的整数;以及利用预先构建的信用评估模型,根据m个数据特征,评估该用户的信用等级,其中,信用评估模型为基于遗传算法优化的随机森林模型,随机森林模型包括r个决策树,r为大于等于1的整数。其中,预先构建信用评估模型的步骤,包括:基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,超参数组合包括多个超参数;以及根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型。
Description
技术领域
本公开涉及人工智能技术领域,更具体地,涉及一种信用评估方法、装置、电子设备、介质和计算机程序产品。
背景技术
随着生产生活的进步,信用评估已经成为金融、保险、电商等行业的基础性工作之一。通过对客户的信用评估,可以有效地降低失信风险,保障企业和个人的财产安全。传统的信用评估方法主要采用统计学方法和机器学习算法,如逻辑回归和支持向量机等。然而,这些方法在处理高维度、非线性和大规模数据方面存在着一定的局限性,难以满足实际应用的需求。
随机森林算法(Random Forest,RF)是一种基于决策树的集成学习算法,具有处理高维度、非线性和大规模数据的能力。但是,在实际应用中,由于随机森林算法的参数设置和模型优化需要耗费大量的时间和精力,因此其在信用评估中的应用同样受到了一定的限制。因此亟需一种省时省力,且能够处理高维度、非线性和大规模数据的信用评估方法。
发明内容
有鉴于此,本公开提供了一种评估效率和准确性较好,且能够处理高维度、非线性和大规模的用户交易数据的信用评估方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
本公开的一个方面提供了一种信用评估方法,包括:获取用户交易数据,其中,所述用户交易数据包括m个数据特征,m为大于等于1的整数;以及利用预先构建的信用评估模型,根据所述m个数据特征,评估该用户的信用等级,其中,所述信用评估模型为基于遗传算法优化的随机森林模型,所述随机森林模型包括r个决策树,r为大于等于1的整数。
其中,预先构建信用评估模型的步骤,包括:基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,所述超参数组合包括多个超参数;以及根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型。
根据本公开实施例的信用评估方法,通过基于遗传算法优化随机森林模型的超参数组合,可以省时省力地优化随机森林模型的参数,由此得到的优化后的随机森林模型性能稳定,进而可以得到性能稳定的初始信用评估模型。通过获取的历史用户交易数据对初始信用评估模型(基于遗传算法优化后的随机森林模型)进行训练,得到信用评估模型,可以使得本公开的信用评估模型能够应用于信用评估的场景,也即利用本公开预先构建的信用评估模型,可以根据新的用户交易数据的m个数据特征,评估该用户的信用等级。而且,通过历史用户交易数据对初始信用评估模型进行训练后,得到的信用评估模型评估效率和准确性较好。由于本公开的信用评估模型是基于随机森林模型得到的,因此本公开的信用评估模型能够处理高维度、非线性和大规模的用户交易数据。
在一些实施例中,基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型的步骤,包括:初始化遗传算法中的种群,其中,所述种群包括n个个体,每个个体表示随机森林模型的一组超参数组合,n为大于等于1的整数;利用适应度函数迭代更新种群中的个体;当迭代满足设置的终止条件时,遗传算法迭代过程结束;从迭代结束时的种群中选择适应度值从大到小排名第一的个体作为最优解;以及将所述最优解对应的超参数组合应用于随机森林模型,得到初始信用评估模型。
在一些实施例中,利用适应度函数迭代更新种群中的个体的步骤,包括:利用适应度函数计算所述n个个体中每个所述个体的适应度值,作为评估数据;基于所述评估数据,选择满足预先设定的繁殖条件的g个所述个体进行繁殖,g为大于等于1,且小于等于n的整数;对所述g个个体进行交叉操作,生成g个新个体;以设定概率对所述g个新个体的超参数进行随机变异,得到变异新个体;将所述变异新个体替换初始种群中的至少部分个体,得到更新种群;以及利用适应度函数计算所述更新种群中的每个所述新个体的适应度值。
在一些实施例中,根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型的步骤,包括:对获取的k个历史用户交易数据进行预处理,其中,所述预处理包括缺失值处理、去重处理和异常值处理中的至少一个,k为大于等于1的整数;对预处理后的每个所述历史用户交易数据进行特征筛选,得到k个训练样本,其中,每个所述训练样本包括筛选后的m个训练数据特征;有放回地在所述k个训练样本中抽取至少部分训练样本训练所述基于遗传算法优化的随机森林模型的每个决策树;以及将训练完成的r个决策树作为信用评估模型。
在一些实施例中,对预处理后的每个所述历史用户交易数据进行特征筛选,得到k个训练样本的步骤,包括:计算预处理后的k个所述历史用户交易数据的a个特征中每个特征的信息增益,其中,a为大于等于m的整数;按照所述a个特征的信息增益的排序,选择m个特征作为训练数据特征;以及将所述k个历史用户交易数据保留所述m个训练数据特征,作为k个训练样本。
在一些实施例中,有放回地在所述k个训练样本中抽取至少部分训练样本训练所述基于遗传算法优化的随机森林模型的每个决策树的步骤,包括:有放回地在所述k个训练样本中抽取至少部分训练样本;以及根据每次抽取的所述至少部分训练样本确定每个决策树的节点和分支,其中,所述节点根据每次抽取的所述至少部分训练样本中的训练数据特征的信息增益确定,所述分支根据对该分支对应的上游节点所有的训练样本的特征值进行划分得到。
在一些实施例中,对该分支对应的上游节点所有的训练样本进行划分的步骤,包括:对该分支对应的上游节点所有的训练样本采用二分法和/或多分法进行划分。
本公开的另一个方面提供了一种信用评估装置,包括:获取模块,所述获取模块用于执行获取用户交易数据,其中,所述用户交易数据包括m个数据特征,m为大于等于1的整数;以及评估模块,所述评估模块用于执行利用预先构建的信用评估模型,根据所述m个数据特征,评估该用户的信用等级,其中,所述信用评估模型为基于遗传算法优化的随机森林模型,所述随机森林模型包括r个决策树,r为大于等于1的整数;构建模块,所述构建模块用于执行预先构建信用评估模型。
其中,所述构建模块包括:优化单元,所述优化单元用于执行基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,所述超参数组合包括多个超参数;以及训练单元,所述训练单元用于执行根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及一个或多个存储器,其中,所述存储器用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现如上所述方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用方法、装置的示例性***架构;
图2示意性示出了根据本公开实施例的信用评估方法的流程图;
图3示意性示出了根据本公开实施例的预先构建信用评估模型步骤的流程图;
图4示意性示出了根据本公开实施例的基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型的步骤的流程图;
图5示意性示出了根据本公开实施例的利用适应度函数迭代更新种群中的个体的步骤的流程图;
图6示意性示出了根据本公开实施例的根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型的步骤的流程图;
图7示意性示出了根据本公开实施例的对预处理后的每个历史用户交易数据进行特征筛选,得到k个训练样本的步骤的流程图;
图8示意性示出了根据本公开实施例的有放回地在k个训练样本中抽取至少部分训练样本训练基于遗传算法优化的随机森林模型的每个决策树的步骤的流程图;
图9示意性示出了根据本公开实施例的信用评估装置的结构框图;
图10示意性示出了根据本公开实施例的构建模块的结构框图图11示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。在本公开的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
随着生产生活的进步,信用评估已经成为金融、保险、电商等行业的基础性工作之一。通过对客户的信用评估,可以有效地降低失信风险,保障企业和个人的财产安全。传统的信用评估方法主要采用统计学方法和机器学习算法,如逻辑回归和支持向量机等。然而,这些方法在处理高维度、非线性和大规模数据方面存在着一定的局限性,难以满足实际应用的需求。
随机森林算法(Random Forest,RF)是一种基于决策树的集成学习算法,具有处理高维度、非线性和大规模数据的能力。但是,在实际应用中,由于随机森林算法的参数设置和模型优化需要耗费大量的时间和精力,因此其在信用评估中的应用同样受到了一定的限制。因此亟需一种省时省力,且能够处理高维度、非线性和大规模数据的信用评估方法。
本公开的实施例提供了一种信用评估方法、装置、电子设备、计算机可读存储介质和计算机程序产品。信用评估方法包括:获取用户交易数据,其中,用户交易数据包括m个数据特征,m为大于等于1的整数;以及利用预先构建的信用评估模型,根据m个数据特征,评估该用户的信用等级,其中,信用评估模型为基于遗传算法优化的随机森林模型,随机森林模型包括r个决策树,r为大于等于1的整数。
其中,预先构建信用评估模型的步骤包括:基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,超参数组合包括多个超参数;以及根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型。
需要说明的是,本公开的信用评估方法、装置、电子设备、计算机可读存储介质和计算机程序产品可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,例如金融领域,这里对本公开的领域不做限定。
图1示意性示出了根据本公开实施例的可以应用信用评估方法、装置、电子设备、计算机可读存储介质和计算机程序产品的示例性***架构100。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的信用评估方法一般可以由服务器105执行。相应地,本公开实施例所提供的信用评估装置一般可以设置于服务器105中。本公开实施例所提供的信用评估方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信用评估装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图8对本公开实施例的信用评估方法进行详细描述。
图2示意性示出了根据本公开实施例的信用评估方法的流程图。
如图2所示,该实施例的信用评估方法包括操作S210和操作S220。
在操作S210,获取用户交易数据,其中,用户交易数据包括m个数据特征,m为大于等于1的整数。例如,用户交易数据的m个数据特征可以包括姓名、身份证号、年龄、住址、贷款金额、存款金额、担保事件、被担保事件、交易频次和交易地点分布中的至少一个。
在操作S220,利用预先构建的信用评估模型,根据m个数据特征,评估该用户的信用等级,其中,信用评估模型为基于遗传算法优化的随机森林模型,随机森林模型包括r个决策树,每个决策树可以包括至少一个决策路径,用户的信用等级根据该用户的用户交易数据的m个数据特征的特征值所符合的决策路径确定,r为大于等于1的整数。
其中,结合图3,预先构建信用评估模型的步骤,包括操作S310和操作S320。
在操作S310,基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,超参数组合包括多个超参数。
在操作S320,根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型。
根据本公开实施例的信用评估方法,通过基于遗传算法优化随机森林模型的超参数组合,可以省时省力地优化随机森林模型的参数,由此得到的优化后的随机森林模型性能稳定,进而可以得到性能稳定的初始信用评估模型。通过获取的历史用户交易数据对初始信用评估模型(基于遗传算法优化后的随机森林模型)进行训练,得到信用评估模型,可以使得本公开的信用评估模型能够应用于信用评估的场景,也即利用本公开预先构建的信用评估模型,可以根据新的用户交易数据的m个数据特征,评估该用户的信用等级。而且,通过历史用户交易数据对初始信用评估模型进行训练后,得到的信用评估模型评估效率和准确性较好。由于本公开的信用评估模型是基于随机森林模型得到的,因此本公开的信用评估模型能够处理高维度、非线性和大规模的用户交易数据。
图4示意性示出了根据本公开实施例的基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型的步骤的流程图。
操作S310基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型的步骤,包括操作S311~操作S315。
在操作S311,初始化遗传算法中的种群,其中,种群包括n个个体,每个个体表示随机森林模型的一组超参数组合,n为大于等于1的整数。可以理解的是,在遗传算法中,种群由可以包括n个个体,每个个体表示随机森林模型的一组超参数组合,超参数组合可以包括多个超参数,多个超参数例如可以包括决策树的数量(n_estimators)、喂入最大数据特征数(max_features)和决策树最大深度(max_depth)等。初始化遗传算法中的种群可以理解为随机生成初始种群,每个个体的超参数取值范围可以设定合理的上下界。
在操作S312,利用适应度函数迭代更新种群中的个体。
作为一种可能实施的方式,如图5所示,操作S312利用适应度函数迭代更新种群中的个体的步骤,包括操作S3121~操作S3126。
在操作S3121,利用适应度函数计算n个个体中每个个体的适应度值,作为评估数据。
在一些示例中,适应度函数用于评估每个个体的优劣,即随机森林模型在当前超参数组合下的性能。适应度函数可以选择常用的模型评估指标,如准确率、F1值(F1-score)等。这里选择F1值作为适应度值,也即选择F1值作为模型评估指标。
其中,F1值是一个常用于评估分类模型性能的指标,它综合考虑了模型的查准率(Precision)和查全率(Recall)。在信用评估场景中,F1值作为目标函数可以在某种程度上缓解样本不平衡的问题,提高模型的预测准确性。下面通过三个方面详细介绍F1值。
第一方面,查准率(Precision)和查全率(Recall):查准率(Precision)是指模型预测为正类的样本中真正的正类样本所占的比例。查全率(Recall)是指模型预测为正类的真实正类样本占所有真实正类样本的比例。查准率的计算如公式(1)所示,查全率的计算如公式(2)所示。
其中,TP(True Positive)表示真正的正类样本被正确预测为正类的数量,FP(False Positive)表示假正类样本被错误预测为正类的数量,FN(False Negative)表示真正的正类样本被错误预测为假正类的数量。
第二方面,F1值(F1-score):F1值是查准率和查全率的调和平均值,用于综合评估模型的查准率和查全率。F1值越高,表示模型的查准率和查全率越高。F1值的计算如公式(3)所示。
第三方面,作为目标函数:将F1值作为目标函数,可以在遗传算法的适应度评估中衡量不同超参数组合下随机森林模型的性能。通过最大化F1值,可以找到在查准率和查全率之间取得平衡的最优超参数组合。以F1值为目标函数,K折交叉验证为评估方法,适应度函数可以定义为公式(4)。
其中,x表示个体(即超参数组合),k表示第k次交叉验证,Fl(x,k)表示第k次交叉验证下个体x的F1值。
使用F1值作为目标函数,可以在遗传算法优化过程中找到具有较高查准率和查全率的随机森林模型的最优超参数组合,从而提高信用评估模型的性能和准确性。
在操作S3122,基于评估数据,选择满足预先设定的繁殖条件的g个个体进行繁殖,g为大于等于1,且小于等于n的整数。可以理解的是,可以根据n个个体的F1值,选择优秀的个体进行繁殖。常用的选择方法有轮盘赌选择法(Roulette Wheel Selection)和锦标赛选择法(Tournament Selection)等。这里可以选用锦标赛选择法。
锦标赛选择法:从种群中选择g个个体,取适应度值从大到小排名前g的个体作为选择结果。g通常取较小的整数值。
在操作S3123,对g个个体进行交叉操作,生成g个新个体。其中,常用的交叉方法有单点交叉(Single-point Crossover)和多点交叉(Multi-point Crossover)等。这里选择一种即可。
单点交叉:随机选择一个交叉点,交换两个父代个体在该点之后的超参数。
多点交叉:随机选择多个交叉点,交换两个父代个体在这些点之间的超参数。
在操作S3124,以设定概率对g个新个体的超参数进行随机变异,得到变异新个体。其中,变异操作可以增加种群的多样性,避免局部最优解。
在操作S3125,将变异新个体替换初始种群中的至少部分个体,得到更新种群。由此,可以根据适应度函数,保留优秀个体,淘汰表现较差的个体。这里可以采用全替换(Generational Replacement)或部分替换(Steady-State Replacement)策略,选择一种即可。
全替换:用变异新个体完全替换原种群的个体。
部分替换:将变异新个体与原种群合并,按适应度值排序,选取前n个个体作为更新种群,其中n为种群规模。
在操作S3126,利用适应度函数计算更新种群中的每个新个体的适应度值。
通过操作S3121~操作S3126可以便于实现利用适应度函数迭代更新种群中的个体的步骤。
在操作S313,当迭代满足设置的终止条件时,遗传算法迭代过程结束。例如终止条件可以为迭代达到最大迭代次数或者适应度值收敛等。
在操作S314,从迭代结束时的种群中选择适应度值从大到小排名第一的个体作为最优解。
在操作S315,将最优解对应的超参数组合应用于随机森林模型,得到初始信用评估模型。
通过操作S311~操作S315可以便于实现基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型。通过以上遗传算法优化过程,可以找到随机森林模型的最优超参数组合,从而提高信用评估模型的性能和准确性。
图6示意性示出了根据本公开实施例的根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型的步骤的流程图。
操作S320根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型的步骤,包括操作S321~操作S324。
在操作S321,对获取的k个历史用户交易数据进行预处理,其中,预处理包括缺失值处理、去重处理和异常值处理中的至少一个,k为大于等于1的整数。
在一些示例中,缺失值是指历史用户交易数据中某些数据特征的特征值为空或缺失。缺失值处理方法包括删除、填充和插值等。其中,填充的方法包括用固定值、均值、中位数或众数等填充缺失值。这里可以用均值来进行填充,具体可以使用pandas库的fillna()函数,参数设为mean()。
在一些示例中,去重是消除历史用户交易数据中重复样本的过程。对于信用评估中重复的数据,可以直接删除数据集中的重复行。这里使用pandas库的dro_duplicates()函数。
在一些示例中,异常值是指历史用户交易数据中某些数据特征的特征值与正常的特征值相差较大的值。处理异常值的方法包括删除、截断和替换等。这里删除异常值所在的行。具体可以采用基于z-score方法删除异常值,用到了scipy库中ststs.zscore()函数。
通过以上数据预处理步骤,可以有效地处理缺失值、去除重复数据和处理异常值中的至少一个,从而提高信用评估模型的性能和准确性。
在操作S322,对预处理后的每个历史用户交易数据进行特征筛选,得到k个训练样本,其中,每个训练样本包括筛选后的m个训练数据特征。
作为一种可能实现的方式,如图7所示,操作S322对预处理后的每个历史用户交易数据进行特征筛选,得到k个训练样本的步骤,包括操作S3221~操作S3223。
在操作S3221,计算预处理后的k个历史用户交易数据的a个特征中每个特征的信息增益,其中,a为大于等于m的整数。
在一些示例中,操作S3221计算预处理后的k个历史用户交易数据的a个特征中每个特征的信息增益的步骤,包括操作S32211~操作S32213。
在操作S32211,计算k个历史用户交易数据的信息熵,信息熵可以表示为H(D),通过公式(5)可以求得信息熵。
H(D)=-∑pi*log2pi (5)
其中,D表示由k个历史用户交易数据组成的数据集,pi表示第i个标签类别在数据集中所占的比例。需要说明的是,本公开获取的k个历史用户交易数据为带有标注标签的数据,标签类别例如可以为风险等级较低、风险等级中等、风险等级较高和风险等级极高等等,这里的标签类别仅为举例说明,并不能理解为对本公开的限制。
在操作S32212,计算k个历史用户交易数据的a个特征中每个特征的条件熵,条件熵可以用H(D|A)表示,通过公式(6)可以求得条件熵。
H(D|A)=∑(qj*H(D|A=aj)) (6)
其中,qj表示特征A取值为aj时所占的比例,H(D|A=aj)表示特征A取值为aj时数据集D的信息熵。
在操作S32213,根据信息熵和条件熵计算预处理后的k个历史用户交易数据的a个特征中每个特征的信息增益,信息增益可以表示为IG(D,A),通过公式(7)可以求得信息增益。
IG(D,A)=H(D)-H(D|A) (7)
在操作S3222,按照a个特征的信息增益的排序,选择m个特征作为训练数据特征。
在操作S3223,将k个历史用户交易数据保留m个训练数据特征,作为k个训练样本。
通过操作S3221~操作S3223可以便于实现对预处理后的每个历史用户交易数据进行特征筛选,得到k个训练样本。
在操作S323,有放回地在k个训练样本中抽取至少部分训练样本训练基于遗传算法优化的随机森林模型的每个决策树。
作为一种可实施的方式,如图8所示,操作S323有放回地在k个训练样本中抽取至少部分训练样本训练基于遗传算法优化的随机森林模型的每个决策树的步骤,包括操作S3231和操作S3232。
在操作S3231,有放回地在k个训练样本中抽取至少部分训练样本。
在操作S3232,根据每次抽取的至少部分训练样本确定每个决策树的节点和分支,其中,节点根据每次抽取的至少部分训练样本中的训练数据特征的信息增益确定,分支根据对该分支对应的上游节点所有的训练样本的特征值进行划分得到。
在一些示例中,对于m个训练数据特征中的每个特征,计算其信息增益(Information Gain),即划分前后信息熵(Entropy)的差值。信息增益表示特征对分类的贡献程度。选择信息增益最大的训练数据特征作为当前节点的划分特征,并按照该节点的特征值将训练样本划分为多个分支。对于每个分支中的训练样本的未作为节点的训练数据特征,重复“计算其信息增益,选择信息增益最大的训练数据特征作为当前节点的划分特征,并按照该节点的特征值将训练样本划分为多个分支”步骤,直至满足停止条件,如达到最大深度、节点样本数量小于预设阈值等。满足停止条件的节点被视为叶节点,输出叶节点所包含样本的多数类别作为预测结果。
通过操作S3231和操作S3232可以便于实现有放回地在k个训练样本中抽取至少部分训练样本训练基于遗传算法优化的随机森林模型的每个决策树。
在一些示例中,对该分支对应的上游节点所有的训练样本进行划分的步骤,包括:对该分支对应的上游节点所有的训练样本采用二分法和/或多分法进行划分。其中,对于数值型的训练数据特征,可以采用二分法进行划分;对于类别型的训练数据特征,可以采用多分法进行划分。
具体地,二分法主要适用于数值型特征,即特征值为连续型数据。在二分法中,需要找到一个最佳划分点,使得以该划分点将特征值划分为两部分时,信息增益最大。具体步骤如下。
A、对特征值进行排序,得到排序后的特征值序列。
B、遍历排序后的特征值序列,计算每两个相邻特征值的中点作为候选划分点。
C、对于每个候选划分点,将样本根据特征值大小分为两部分,小于等于划分点的样本为一部分,大于划分点的样本为另一部分,计算划分后的信息增益。
D、选择信息增益最大的划分点作为最优划分点,将样本根据该划分点分为两个分支。
具体地,多分法主要适用于类别型特征,即特征值为离散型数据。在多分法中,需要找到一个最佳划分方式,使得以该划分方式将特征值划分为多个子集时,信息增益最大。具体步骤如下。
A、确定特征的所有可能类别值,即特征值的取值范围。
B、对于每个可能的类别值,将样本根据特征值是否等于该类别值分为两部分,等于该类别值的样本为一部分,不等于该类别值的样本为另一部分,计算划分后的信息增益。
C、选择信息增益最大的类别值作为划分依据,将样本根据该类别值划分为两个分支。
由此,通过二分法和/或多分法可以完成对该分支对应的上游节点所有的训练样本进行划分的步骤。
在操作S324,将训练完成的r个决策树作为信用评估模型。
可以理解的是,可以将训练完成的r个决策树形成随机森林,可以将随机森林作为信用评估模型。对于分类问题,随机森林的预测结果为多数投票(Majority Voting)的结果;对于回归问题,随机森林的预测结果为各决策树预测值的平均值。这里视信用评估为分类问题,汇总每棵决策树的预测结果,并进行多数投票,即选择出现次数最多的类别标签(信用等级)作为随机森林预测结果。
通过操作S321~操作S324可以便于实现根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型。
下面详细描述根据本公开实施例的信用评估方法。值得理解的是,下述描述仅是示例性说明,而不是对本公开的具体限制。
本公开提供一种基于遗传算法优化随机森林的信用评估方法,旨在解决传统信用评估方法在预测准确性和模型性能方面的不足。通过使用遗传算法对随机森林模型的超参数进行优化,可以显著提高信用评估模型的性能、准确性和稳定性。为金融机构、企业等提供了更可靠的信用评估依据,降低了信用风险。
本公开的基于遗传算法优化随机森林的信用评估方法,具体步骤如下。
1.数据预处理:对信用评估的原始数据进行预处理,包括缺失值填充、异常值处理、数据标准化等。
2.特征筛选:使用信息增益的方法进行特征筛选,最终得到较优的特征组合。
3.随机森林参数优化:利用遗传算法优化随机森林的超参数,如树的数量、特征子集大小等。具体步骤包括:初始化种群、计算适应度、选择操作、交叉操作、变异操作和停止条件判断。
4.信用评估模型构建:使用优化后的随机森林(RF)算法构建信用评估模型。具体步骤包括:构建多个决策树、随机抽取样本和特征、计算信息增益、生成最优划分特征和节点、预测信用评分。
5.模型评估:对构建的信用评估模型进行评估,包括准确率、召回率、F1分数等指标。
通过以上步骤,构建了基于遗传算法优化随机森林的信用评估模型。这种信用评估方法可以有效提高评估的准确性和稳定性,为金融机构、投资者等利益相关者提供更加可靠的信用评估结果。接下来分别详细介绍每一步骤。
其中,数据预处理是信用评估过程中的关键环节,它可以提高模型的性能和准确性。以下是数据预处理的主要步骤。
缺失值处理:缺失值是指数据集中某些字段的值为空或缺失。处理缺失值的方法包括删除、填充和插值等。填充的方法:用固定值、均值、中位数、众数等填充缺失值。这里可以用均值来进行填充,可以使用pandas库的fillna()函数,参数设为mean()。
去重:去重是消除数据中重复样本的过程。对于信用评估中重复的数据,可以直接删除数据集中的重复行。这里使用pandas库的dro_duplicates()函数。
异常值处理:异常值是指数据集中与正常值相差较大的值。处理异常值的方法包括删除、截断和替换等。这里删除异常值所在的行。可以采用基于z-score方法删除异常值,用到了scipy库中ststs.zscore()函数。
通过以上数据预处理步骤,可以有效地处理缺失值、去除重复数据和处理异常值,从而提高信用评估模型的性能和准确性。
其中,特征筛选可以使用信息增益(Information Gain)作为特征筛选的方法。信息增益是基于信息熵(Entropy)概念的特征选择方法,用于评估特征对分类结果的贡献程度。以下是关于信息增益方法的详细介绍。
首先,计算信息熵(Entropy):信息熵是衡量数据集纯度的指标。较低的信息熵表示数据集的纯度较高,分类结果较明确;较高的信息熵表示数据集的纯度较低,分类结果较混乱。信息熵的计算公式如下。
H(D)=-∑pi*log2pi
其中,D表示数据集,pi表示第i个类别在数据集中所占的比例。
其次,计算条件熵(Conditional Entropy):条件熵表示在特征A的条件下,数据集D的信息熵。计算公式如下。
H(D|A)=∑(pi*H(D|A=ai))
其中,pi表示特征A取值为ai时所占的比例,H(D|A=ai)表示特征A取值为ai时数据集D的信息熵。
最后,计算信息增益(Information Gain):信息增益表示特征A对数据集D的分类结果的贡献程度,即数据集D的信息熵与特征A的条件熵之差。计算公式如下。
IG(D,A)=H(D)-H(D|A)
使用信息增益作为特征筛选的方法,可以计算每个特征的信息增益,并选择具有较高信息增益的特征作为最终的特征子集。
其中,随机森林参数优化是在构建信用评估模型过程中提高模型性能的关键环节。采用遗传算法(GA)对随机森林(RF)的超参数进行优化。以下是随机森林参数优化的具体步骤。
1.初始化种群:在遗传算法中,种群由多个个体组成,每个个体表示一组随机森林超参数。这些超参数包括树的数量(n_estimators)、最大特征数(max_features)、最大深度(max_depth)等。随机生成初始种群,每个个体的超参数取值范围可以设定为合理的上下界。
2.适应度评估:适应度函数用于评估每个个体的优劣,即随机森林模型在当前超参数下的性能。适应度函数可以选择常用的模型评估指标,如准确率、F1值等。这里选择F1值作为模型评估指标。
F1值(F1-score)是一个常用于评估分类模型性能的指标,它综合考虑了模型的查准率(Precision)和查全率(Recall)。在信用评估场景中,F1值作为目标函数可以在某种程度上缓解样本不平衡问题,提高模型的预测准确性。以下是关于F1值的详细介绍。
(1)查准率(Precision)和查全率(Recall):查准率(Precision)是指模型预测为正类的样本中真正的正类样本所占的比例。查全率(Recall)是指模型预测为正类的真实正类样本占所有真实正类样本的比例。两者的计算公式如下。
其中,TP(True Positive)表示真正类样本被正确预测为正类的数量,FP(FalsePositive)表示假正类样本被错误预测为正类的数量,FN(False Negative)表示真正类样本被错误预测为假正类的数量。
(2)F1值(F1-score):F1值是查准率和查全率的调和平均值,用于综合评估模型的查准率和查全率。F1值越高,表示模型的查准率和查全率越高。F1值的计算公式如下。
(3)将F1值作为目标函数,可以在遗传算法的适应度评估中衡量不同超参数组合下随机森林模型的性能。通过最大化F1值,可以找到在查准率和查全率之间取得平衡的最优超参数组合。以F1值为目标函数,K折交叉验证为评估方法,适应度函数可以定义为以下公式。
其中,x表示个体(即超参数组合),k表示第k次交叉验证,F1(x,k)表示第k次交叉验证下个体x的F1值。
使用F1值作为目标函数,可以在遗传算法优化过程中找到具有较高查准率和查全率的随机森林模型的最优超参数组合,从而提高信用评估模型的性能和准确性。
3.选择:基于适应度函数的结果,选择优秀的个体进行繁殖。常用的选择方法有轮盘赌选择(Roulette Wheel Selection)、锦标赛选择(Tournament Selection)等。这里选择锦标赛选择方法。
锦标赛选择:从种群中随机选择k个个体,取适应度值最高的个体作为选择结果。k通常取较小的整数值。
4.交叉:对选择后的个体进行交叉操作,生成新的个体。常用的交叉方法有单点交叉(Single-point Crossover)、多点交叉(Multi-point Crossover)等。这里可选择一种即可。
(1)单点交叉:随机选择一个交叉点,交换两个父代个体在该点之后的超参数。
(2)多点交叉:随机选择多个交叉点,交换两个父代个体在这些点之间的超参数。
5.变异:在交叉后的新个体中,以一定概率对某些超参数进行随机变异。变异操作可以增加种群的多样性,避免局部最优解。
6.替换:将新生成的子代个体替换原种群中的部分个体。根据适应度函数,保留优秀个体,淘汰表现较差的个体。可以采用全替换(Generational Replacement)或部分替换(Steady-State Replacement)策略。这里可选择一种即可。
(1)全替换:用新生成的子代个体完全替换原种群。
(2)部分替换:将新生成的子代个体与原种群合并,按适应度值排序,选取前N个个体作为新一代种群,其中N为种群规模。
7.终止条件:设置终止条件,如最大迭代次数、适应度值收敛等。满足终止条件时,遗传算法迭代过程结束。
8.输出最优解:从最终种群中选择适应度值最高的个体作为最优解,即随机森林的最优超参数组合。
通过以上遗传算法优化过程,可以找到随机森林模型的最优超参数组合,从而提高信用评估模型的性能和准确性。
其中,信用评估模型构建是评估借款人信用风险的关键环节。采用优化后的随机森林(RF)算法构建信用评估模型。以下是信用评估模型构建的具体步骤。
1.数据划分:将预处理后的数据集划分为训练集和测试集,其中训练集用于构建信用评估模型,测试集用于评估模型性能。
2.构建决策树:根据遗传算法优化得到的随机森林超参数(如树的数量、最大特征数、最大深度等),构建多个决策树。每棵决策树独立地对训练数据进行拟合。以下是构建决策树的具体步骤。
(1)随机抽取样本:从训练集中随机抽取一定比例的样本(有放回抽样),用于训练单棵决策树。
(2)随机抽取特征:从所有特征中随机抽取一定数量的特征(无放回抽样),用于构建决策树的节点。
(3)计算信息增益:对于每个候选特征,计算其信息增益(Information Gain),即划分前后信息熵(Entropy)的差值。信息增益表示特征对分类的贡献程度。
(4)生成最优划分特征和节点:选择信息增益最大的特征作为当前节点的划分特征,并按照特征值将样本划分为子节点。对于数值特征,可以采用二分法进行划分;对于类别特征,可以采用多分法进行划分。
1)二分法(Binary Split),二分法主要适用于数值型特征,即特征值为连续型数据。在二分法中,需要找到一个最佳划分点,使得以该划分点将特征值划分为两部分时,信息增益最大。具体步骤如下。
a.对特征值进行排序,得到排序后的特征值序列。
b.遍历排序后的特征值序列,计算每两个相邻特征值的中点作为候选划分点。
c.对于每个候选划分点,将样本根据特征值大小分为两部分(小于等于划分点的样本为一部分,大于划分点的样本为另一部分),计算划分后的信息增益。
d.选择信息增益最大的划分点作为最优划分点,将样本根据该划分点分为两个子节点。
2)多分法(Multiway Split),多分法主要适用于类别型特征,即特征值为离散型数据。在多分法中,需要找到一个最佳划分方式,使得以该划分方式将特征值划分为多个子集时,信息增益最大。具体步骤如下。
a.确定特征的所有可能类别值,即特征值的取值范围。
b.对于每个可能的类别值,将样本根据特征值是否等于该类别值分为两部分(等于该类别值的样本为一部分,不等于该类别值的样本为另一部分),计算划分后的信息增益。
c.选择信息增益最大的类别值作为划分依据,将样本根据该类别值划分为两个子节点。
(5)递归构建子树:对于每个子节点,重复上述步骤(a-d),直至满足停止条件,如达到最大深度、节点样本数量小于预设阈值等。满足停止条件的节点被视为叶节点,输出叶节点所包含样本的多数类别作为预测结果。
3.集成决策树:将多个决策树组成随机森林,形成一个集成模型。对于分类问题,随机森林的预测结果为多数投票(Majority Voting)的结果;对于回归问题,随机森林的预测结果为各决策树预测值的平均值。这里视信用评估为分类问题,汇总每棵树的预测结果,并进行多数投票,即选择出现次数最多的类别标签(信用等级)作为随机森林预测结果。
其中,模型评估是机器学习中的一个重要环节,用于评估模型在实际应用中的性能和准确性。在信用评估问题中,模型评估可以帮助了解模型在预测借款人信用等级时的表现。以下是模型评估的具体过程。
1.划分数据集:在模型训练之初,将整个数据集分为训练集和测试集。训练集用于训练模型,而测试集则用于评估模型性能。通常情况下,可以按照70%(训练集)与30%(测试集)的比例进行划分和评估。
2.模型预测:利用训练好的模型对测试集中的样本进行预测。对于信用评估分类问题,预测结果为信用等级类别。
3.计算性能指标:通过将模型预测的结果与测试集中的实际标签进行比较,计算各种性能指标。在分类问题中,常用的性能指标包括准确率、精确率、召回率、F1值等。这里使用F1值作为性能指标,具体可参考3.2.3中适应度评估的F1值方法。
4.分析性能指标:根据计算得到的性能指标,分析模型在不同方面的表现。例如,准确率较高可能表示模型整体预测性能较好;F1分数较高则表示模型在精确率与召回率之间取得了较好的平衡。
通过以上模型评估过程,可以了解信用评估模型在实际应用中的性能和准确性,为进一步优化和应用模型提供有价值的参考。
本公开的基于遗传算法优化随机森林的信用评估方法通过使用遗传算法自动搜索随机森林模型的最优超参数组合,可以提高模型的预测性能。与传统的网格搜索和随机搜索方法相比,遗传算法能够更有效地在参数空间中进行搜索,从而找到具有更高预测能力的模型。采用信息增益作为特征筛选方法,自动筛选出与信用评估目标密切相关的特征,从而减少模型复杂度和提高模型的解释性。自动特征筛选有助于降低信用评估过程中的人为干预,提高评估结果的客观性。遗传算法具有较高的并行性,可以有效地利用现代多核处理器进行并行计算。通过遗传算法优化随机森林模型的超参数,可以大大减少模型训练和调优所需的时间,提高信用评估过程的计算效率。随机森林模型本身具有较强的泛化能力,能够有效地处理数据中的噪声和异常值。通过遗传算法优化随机森林模型的超参数,可以进一步提高模型的泛化能力,从而使信用评估结果更为稳定和可靠。
基于此,本公开的基于遗传算法优化随机森林的信用评估方法具有较高的预测性能、自动特征筛选能力、计算效率、泛化能力,可有效地应用于信用评估和其他分类问题场景。
基于上述信用评估方法,本公开还提供了一种信用评估装置。以下将结合图9和图10对信用评估装置进行详细描述。
图9示意性示出了根据本公开实施例的信用评估装置10的结构框图。
信用评估装置10包括获取模块1、评估模块2和构建模块3。
获取模块1,获取模块1用于执行操作S210:获取用户交易数据,其中,用户交易数据包括m个数据特征,m为大于等于1的整数。
评估模块2,评估模块2用于执行操作S220:利用预先构建的信用评估模型,根据m个数据特征,评估该用户的信用等级,其中,信用评估模型为基于遗传算法优化的随机森林模型,随机森林模型包括r个决策树,r为大于等于1的整数。
构建模块3,构建模块3用于执行预先构建信用评估模型。
其中,图10示意性示出了根据本公开实施例的构建模块3的结构框图。
构建模块3包括优化单元31和训练单元32。
优化单元31,优化单元31用于执行操作S310:基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,超参数组合包括多个超参数。
训练单元32,训练单元32用于执行操作S320:根据获取的历史用户交易数据对初始信用评估模型进行训练,得到信用评估模型。
根据本公开的一些实施例,优化单元包括初始化元件、迭代元件、终止元件、选择元件和应用元件。
初始化元件,初始化元件用于初始化遗传算法中的种群,其中,种群包括n个个体,每个个体表示随机森林模型的一组超参数组合,n为大于等于1的整数。
迭代元件,迭代元件用于利用适应度函数迭代更新种群中的个体。
终止元件,终止元件用于当迭代满足设置的终止条件时,遗传算法迭代过程结束。
选择元件,选择元件用于从迭代结束时的种群中选择适应度值从大到小排名第一的个体作为最优解。
应用元件,应用元件用于将最优解对应的超参数组合应用于随机森林模型,得到初始信用评估模型。
根据本公开的一些实施例,迭代元件包括第一计算件、第一选择件、交叉件、变异件、更新件和第二计算件。
第一计算件,第一计算件用于利用适应度函数计算n个个体中每个个体的适应度值,作为评估数据。
第一选择件,第一选择件用于基于评估数据,选择满足预先设定的繁殖条件的g个个体进行繁殖,g为大于等于1,且小于等于n的整数。
交叉件,交叉件用于对g个个体进行交叉操作,生成g个新个体。
变异件,变异件用于以设定概率对g个新个体的超参数进行随机变异,得到变异新个体。
更新件,更新件用于将变异新个体替换初始种群中的至少部分个体,得到更新种群。
第二计算件,第二计算件用于利用适应度函数计算更新种群中的每个新个体的适应度值。
根据本公开的一些实施例,训练单元包括预处理元件、特征筛选元件、训练元件和确定元件。
预处理元件,预处理元件用于对获取的k个历史用户交易数据进行预处理,其中,预处理包括缺失值处理、去重处理和异常值处理中的至少一个,k为大于等于1的整数。
特征筛选元件,特征筛选元件用于对预处理后的每个历史用户交易数据进行特征筛选,得到k个训练样本,其中,每个训练样本包括筛选后的m个训练数据特征。
训练元件,训练元件用于有放回地在k个训练样本中抽取至少部分训练样本训练基于遗传算法优化的随机森林模型的每个决策树。
确定元件,确定元件用于将训练完成的r个决策树作为信用评估模型。
根据本公开的一些实施例,特征筛选元件包括第三计算件、第二选择件和第一确定件。
第三计算件,第三计算件用于计算预处理后的k个历史用户交易数据的a个特征中每个特征的信息增益,其中,a为大于等于m的整数。
第二选择件,第二选择件用于按照a个特征的信息增益的排序,选择m个特征作为训练数据特征。
第一确定件,第一确定件用于将k个历史用户交易数据保留m个训练数据特征,作为k个训练样本。
根据本公开的一些实施例,训练元件包括抽取件和第二确定件。
抽取件,抽取件用于有放回地在k个训练样本中抽取至少部分训练样本。
第二确定件,第二确定件用于根据每次抽取的至少部分训练样本确定每个决策树的节点和分支,其中,节点根据每次抽取的至少部分训练样本中的训练数据特征的信息增益确定,分支根据对该分支对应的上游节点所有的训练样本的特征值进行划分得到。
根据本公开实施例的信用评估装置10,通过基于遗传算法优化随机森林模型的超参数组合,可以省时省力地优化随机森林模型的参数,由此得到的优化后的随机森林模型性能稳定,进而可以得到性能稳定的初始信用评估模型。通过获取的历史用户交易数据对初始信用评估模型(基于遗传算法优化后的随机森林模型)进行训练,得到信用评估模型,可以使得本公开的信用评估模型能够应用于信用评估的场景,也即利用本公开预先构建的信用评估模型,可以根据新的用户交易数据的m个数据特征,评估该用户的信用等级。而且,通过历史用户交易数据对初始信用评估模型进行训练后,得到的信用评估模型评估效率和准确性较好。由于本公开的信用评估模型是基于随机森林模型得到的,因此本公开的信用评估模型能够处理高维度、非线性和大规模的用户交易数据。
另外,根据本公开的实施例,获取模块1、评估模块2和构建模块3中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,获取模块1、评估模块2和构建模块3中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。
或者,获取模块1、评估模块2和构建模块3中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图11示意性示出了根据本公开实施例的适于实现上述方法的电子设备的方框图。
如图11所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出(I/O)接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时,该程序代码用于使计算机***实现本公开实施例的方法。
在该计算机程序被处理器901执行时执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种信用评估方法,其特征在于,包括:
获取用户交易数据,其中,所述用户交易数据包括m个数据特征,m为大于等于1的整数;以及
利用预先构建的信用评估模型,根据所述m个数据特征,评估该用户的信用等级,其中,所述信用评估模型为基于遗传算法优化的随机森林模型,所述随机森林模型包括r个决策树,r为大于等于1的整数,
其中,预先构建信用评估模型的步骤,包括:
基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,所述超参数组合包括多个超参数;以及
根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型。
2.根据权利要求1所述的方法,其特征在于,基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型的步骤,包括:
初始化遗传算法中的种群,其中,所述种群包括n个个体,每个个体表示随机森林模型的一组超参数组合,n为大于等于1的整数;
利用适应度函数迭代更新种群中的个体;
当迭代满足设置的终止条件时,遗传算法迭代过程结束;
从迭代结束时的种群中选择适应度值从大到小排名第一的个体作为最优解;以及
将所述最优解对应的超参数组合应用于随机森林模型,得到初始信用评估模型。
3.根据权利要求2所述的方法,其特征在于,利用适应度函数迭代更新种群中的个体的步骤,包括:
利用适应度函数计算所述n个个体中每个所述个体的适应度值,作为评估数据;
基于所述评估数据,选择满足预先设定的繁殖条件的g个所述个体进行繁殖,g为大于等于1,且小于等于n的整数;
对所述g个个体进行交叉操作,生成g个新个体;
以设定概率对所述g个新个体的超参数进行随机变异,得到变异新个体;
将所述变异新个体替换初始种群中的至少部分个体,得到更新种群;以及
利用适应度函数计算所述更新种群中的每个所述新个体的适应度值。
4.根据权利要求1所述的方法,其特征在于,根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型的步骤,包括:
对获取的k个历史用户交易数据进行预处理,其中,所述预处理包括缺失值处理、去重处理和异常值处理中的至少一个,k为大于等于1的整数;
对预处理后的每个所述历史用户交易数据进行特征筛选,得到k个训练样本,其中,每个所述训练样本包括筛选后的m个训练数据特征;
有放回地在所述k个训练样本中抽取至少部分训练样本训练所述基于遗传算法优化的随机森林模型的每个决策树;以及
将训练完成的r个决策树作为信用评估模型。
5.根据权利要求4所述的方法,其特征在于,对预处理后的每个所述历史用户交易数据进行特征筛选,得到k个训练样本的步骤,包括:
计算预处理后的k个所述历史用户交易数据的a个特征中每个特征的信息增益,其中,a为大于等于m的整数;
按照所述a个特征的信息增益的排序,选择m个特征作为训练数据特征;以及
将所述k个历史用户交易数据保留所述m个训练数据特征,作为k个训练样本。
6.根据权利要求4所述的方法,其特征在于,有放回地在所述k个训练样本中抽取至少部分训练样本训练所述基于遗传算法优化的随机森林模型的每个决策树的步骤,包括:
有放回地在所述k个训练样本中抽取至少部分训练样本;以及
根据每次抽取的所述至少部分训练样本确定每个决策树的节点和分支,其中,所述节点根据每次抽取的所述至少部分训练样本中的训练数据特征的信息增益确定,所述分支根据对该分支对应的上游节点所有的训练样本的特征值进行划分得到。
7.根据权利要求6所述的方法,其特征在于,对该分支对应的上游节点所有的训练样本进行划分的步骤,包括:
对该分支对应的上游节点所有的训练样本采用二分法和/或多分法进行划分。
8.一种信用评估装置,其特征在于,包括:
获取模块,所述获取模块用于执行获取用户交易数据,其中,所述用户交易数据包括m个数据特征,m为大于等于1的整数;以及
评估模块,所述评估模块用于执行利用预先构建的信用评估模型,根据所述m个数据特征,评估该用户的信用等级,其中,所述信用评估模型为基于遗传算法优化的随机森林模型,所述随机森林模型包括r个决策树,r为大于等于1的整数;
构建模块,所述构建模块用于执行预先构建信用评估模型,
其中,所述构建模块包括:
优化单元,所述优化单元用于执行基于遗传算法优化随机森林模型的超参数组合,得到初始信用评估模型,其中,所述超参数组合包括多个超参数;以及
训练单元,所述训练单元用于执行根据获取的历史用户交易数据对所述初始信用评估模型进行训练,得到信用评估模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序包括一个或者多个可执行指令,所述可执行指令被处理器执行时实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869247.6A CN116862658A (zh) | 2023-07-14 | 2023-07-14 | 信用评估方法、装置、电子设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869247.6A CN116862658A (zh) | 2023-07-14 | 2023-07-14 | 信用评估方法、装置、电子设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116862658A true CN116862658A (zh) | 2023-10-10 |
Family
ID=88231935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310869247.6A Pending CN116862658A (zh) | 2023-07-14 | 2023-07-14 | 信用评估方法、装置、电子设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862658A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117331047A (zh) * | 2023-12-01 | 2024-01-02 | 德心智能科技(常州)有限公司 | 基于毫米波雷达的人体行为数据分析方法及*** |
-
2023
- 2023-07-14 CN CN202310869247.6A patent/CN116862658A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117331047A (zh) * | 2023-12-01 | 2024-01-02 | 德心智能科技(常州)有限公司 | 基于毫米波雷达的人体行为数据分析方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10360517B2 (en) | Distributed hyperparameter tuning system for machine learning | |
WO2021012783A1 (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
US9646262B2 (en) | Data intelligence using machine learning | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
US10614073B2 (en) | System and method for using data incident based modeling and prediction | |
US11210368B2 (en) | Computational model optimizations | |
EP2625628A2 (en) | Probabilistic data mining model comparison engine | |
CN114298417A (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
CN112633426B (zh) | 处理数据类别不均衡的方法、装置、电子设备及存储介质 | |
CN111369344B (zh) | 一种动态生成预警规则的方法和装置 | |
Zhao et al. | Measurement method and application of a deep learning digital economy scale based on a big data cloud platform | |
US20230342606A1 (en) | Training method and apparatus for graph neural network | |
Akerkar | Advanced data analytics for business | |
CN116862658A (zh) | 信用评估方法、装置、电子设备、介质和程序产品 | |
CN115983900A (zh) | 用户营销策略的构建方法、装置、设备、介质和程序产品 | |
CN112231299A (zh) | 一种特征库动态调整的方法和装置 | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN111582313A (zh) | 样本数据生成方法、装置及电子设备 | |
CN114943563A (zh) | 一种权益推送方法、装置、计算机设备及存储介质 | |
CN113869423A (zh) | 一种营销响应模型构建方法、设备及介质 | |
CN113792749A (zh) | 时间序列数据异常检测方法、装置、设备及存储介质 | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
Zang | Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network | |
CN112884028A (zh) | 一种***资源调整方法、装置及设备 | |
Yang | Intelligent informatization early warning analysis of agricultural economy based on support vector sequential regression model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |