CN115797041A - 基于深度图半监督学习的金融信用评估方法 - Google Patents

基于深度图半监督学习的金融信用评估方法 Download PDF

Info

Publication number
CN115797041A
CN115797041A CN202111048605.4A CN202111048605A CN115797041A CN 115797041 A CN115797041 A CN 115797041A CN 202111048605 A CN202111048605 A CN 202111048605A CN 115797041 A CN115797041 A CN 115797041A
Authority
CN
China
Prior art keywords
graph
node
nodes
layer
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111048605.4A
Other languages
English (en)
Inventor
邱韵
徐小龙
邬晶
李少远
徐世界
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202111048605.4A priority Critical patent/CN115797041A/zh
Publication of CN115797041A publication Critical patent/CN115797041A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度图半监督学习的金融信用评估方法。这里的“深度”并非指深度学习当中网络结构的深层性,而是指在图信息挖掘层面上的深层性,对于金融特征数据所构建的图,进行了两层信息挖掘:首先是用深度图嵌入的方法进行了图结构信息的挖掘,接着再用图卷积神经网络对于图节点的邻域信息进行了聚合。与传统的图半监督学习方法相比,本发明所提出的方法有效缓解了标签稀缺条件下信息量稀疏的问题,在图信息的挖掘当中具有深层性,故称为深度图半监督学习。本发明所提出的基于深度图半监督学习的方法提升了标签稀缺条件下金融信用评估的准确性,同时也加快了模型训练速度,从而实现对于标签稀缺的金融数据高效、准确的信用评估。

Description

基于深度图半监督学习的金融信用评估方法
技术领域
本发明涉及金融用户信用评价领域,特别涉及基于深度图半监督学习的金融信用评估方法。
背景技术
在金融市场当中,金融欺诈行为时有发生,不仅影响金融交易的正常秩序,也为用户、企业、机构带来巨大损失。常见的金融欺诈包括:银行欺诈、保险欺诈、证券欺诈和商品交易欺诈等。为了防范金融欺诈行为的发生,对金融用户、企业等进行信用评估日渐成为一种迫切的需求。若将金融用户的行为记录作为特征(features),将用户的信用评价结果作为标签(labels)的话,那么金融用户信用评估问题就被抽象为如何根据用户的特征数据拟合出合理的标签。因此,如何建立合理高效的数学模型,从金融用户的行为记录特征中准确获取相应的信用评估标签,成为金融用户信用评价领域的研究热点。
在现有的技术当中,常常使用有监督机器学习的方法来完成从金融用户的特征数据到用户信用评价结果标签的学习拟合。但有监督机器学习方法往往需要大量的有标签数据集作为训练样本。在很多实际问题场景当中,样本标签的获取往往费事费力,成本颇高。金融用户的信用评估就是一个典型的例子。在传统的金融信用评估方法当中,对目标用户的评级往往需要通过对用户的交易、投资记录等信息进行长时间的跟踪分析,并根据专家经验以及复杂的算法来进行判定。这就导致在实际金融信用评估问题当中,有标签样本的稀缺性普遍存在,从而极大地限制了有监督学习模型进行信用评估的效果。而现有的半监督学习方法也是有诸多局限,如生成式算法需要提前知道模型的概率密度分布函数,需要专家知识,适用领域较小;半监督支持向量机方法模型复杂度较高且一般局限于二分类问题;协同训练法对数据分布较敏感,需要数据属性之间有较好的独立性;自学习法鲁棒性较差,无自我纠错能力,训练误差会累积。因此,本专利提出了一种基于深度图的半监督学习方法对金融用户进行信用评估以及特征挖掘,与上述半监督学习方法相比,图半监督学习的算法适用于任意分布的数据集、无需先验知识、鲁棒性好、模型结构复杂度低等优点。在此基础上,本发明将深度图嵌入和基于图卷积神经网络的半监督学习方法相结合,同一般的图半监督学习方法相比,有效缓解了标签稀缺条件下信息量稀疏的问题,能够深度挖掘图的结构信息,显著提升了在开源金融数据集上的信用评估效果。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供基于深度图半监督学习的金融信用评估方法。这里的“深度”并非指深度学习当中网络结构的深层性,而是指在图信息挖掘层面上的深层性。对于金融特征数据所构建的图,进行了两层信息挖掘:首先是用深度图嵌入的方法进行了图结构信息的挖掘,接着再用图卷积神经网络对于图节点的邻域信息进行了聚合。因此,与传统的图半监督学习方法相比,本发明所提出的方法有效缓解了标签稀缺条件下信息量稀疏的问题,在图信息的挖掘当中具有深层性,故称为深度图半监督学习。
本发明的主要有益效果有:1.基于金融特征数据进行图的构建。通过将金融特征数据当作图数据来处理,来挖掘金融个体之间的潜在关系信息;2.将深度图嵌入方法用于金融用户图的图表示学习,挖掘图结构信息;3.将图卷积神经网络用于半监督学习模型的训练,对图中节点的邻域信息进行聚合;4.与传统金融信用评估方法相比,本发明所提出的基于深度图半监督学习的方法提升了标签稀缺条件下金融信用评估的准确性,同时也加快了模型训练速度,从而实现对于标签稀缺的金融数据高效、准确的信用评估。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于深度图半监督学习的金融信用评估方法,包括以下步骤:
S1,根据原始特征数据集进行图的构造,即由X∈RN×D构造图G(V,E),其中X为原始特征数据集,由N×D维的矩阵表示,N为用户样本数,D为每个用户样本对应的特征维数,X所对应的图G(V,E)位于D维特征空间当中,V(Vertices)代表图中所有节点的集合,图中共有N个节点,每个节点代表一个用户样本,该节点在D维特征空间当中的坐标等于该节点对应的用户样本D维特征的值,E(Edges)是所有节点之间的边集,边表征节点之间的连接关系,边的权值由基于欧氏距离的rbf映射函数确定,比如说,节点i与节点j之间边的权值可以表示为:
Figure BDA0003251876640000031
其中σ代表rbf函数中的宽度参数,
Figure BDA0003251876640000032
代表节点i与j之间的欧氏距离的平方,经过rbf映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值,节点和边可以被统一地用邻接矩阵来表示,他们共同表征了图的结构信息;
S2,对构造好的图G(V,E)进行随机游走,以图中每个节点为起点分别进行n次随机游走,每次随机游走的截断长度为m,进而产生由一系列节点序列所构成的集合,随机游走的策略基于Node2Vec算法,分为宽度优先搜索(BFS)与深度优先搜索(DFS),在Node2Vec算法的随机游走过程当中,对于有边相连的点对(v,x),给定当前节点为v,则随机游走所访问的下一个节点为x的概率为:
Figure BDA0003251876640000033
其中,πvx是节点v与x之间未归一化的转移概率,Z为归一化常数,对于πvx的计算,进一步引入两个超参数p与q来控制游走策略,并最终体现在πvx的值当中,首先设:
πvx=αpq(t,x)·wvx
其中wvx为节点v和节点x之间的边权,接着:
Figure BDA0003251876640000041
其中dtx为节点t与节点x之间的最短路径距离,超参数p叫做返回参数,其控制着随机游走过程中重复访问刚才访问过的节点的概率,若p较小,则重复访问刚才访问过的节点的概率会变大,超参数q叫做进出参数,其控制的随机游走过程中的游走趋势,若q>1,则随机游走更容易访问节点t周边的节点(对应BFS);若q<1,则随机游走更容易访问远离节点t的节点(对应DFS),有了超参数p和q,我们就能够根据图的结构灵活调整随机游走的策略,从而使模型适应更多种分布的数据,而不再仅仅局限于基于欧氏距离的簇类分布数据。
通过对于对于图中每个节点进行若干次的随机游走操作,整张图的结构信息被包含在了所生成的节点序列当中;
S3,对随机游走所生成的一系列节点序列集合,首先采用滑动窗口模型进行节点对的采样。对于每个节点序列,使用长度为w的滑动窗口采样得到多个点对(Vc,Vi),其中Vc代表中心节点(centre),Vi代表周边节点(context),接着将采样得到的多个点对作为skip-gram网络模型的训练集,对于每一个输入的中心节点,其对应的训练目标是最大化它与它的周边节点之间的共现概率,用负对数损失函数的形式表示,数学表达式如下:
Figure BDA0003251876640000051
其中,Φ(Vc)是将节点Vc映射成对应的嵌入表示向量的映射函数,用映射矩阵Φ∈RN×d来表示,其中N代表图中的节点数(或原始数据的样本数),d代表映射后每个节点对应的嵌入向量的维数,映射矩阵Φ当中的参数即为skip-gram模型的训练结果,通过skip-gram模型的训练,最终对于图中的每个节点,都能够得到一个d维的向量表示,进而得到整张图的嵌入表示结果。这里d的大小可以在训练之前预先设置,我们可以根据实际需求以及相应图嵌入的效果来选取合适的d值,形成skip-gram的网络模型;
S4,在前面所得到的图嵌入的基础上,应用图卷积神经网络(GCN)进行半监督学习,图卷积神经网络类比信号处理中的卷积运算,将图中的每个点的特征向量当作输入信号,并对其进行卷积运算,接着用切比雪夫多项式的一阶近似图卷积运算,得到各层神经网络之间的逐层前向传播规则:
Figure BDA0003251876640000052
其中,H(l)与H(l+1)分别为第l个隐层和第l+1个隐层的输出,特别地,H(0)=X,
Figure BDA0003251876640000053
为图G所对应的加入了自连接的邻接矩阵,即:
Figure BDA0003251876640000054
其中IN为N阶单位矩阵,
Figure BDA0003251876640000055
Figure BDA0003251876640000056
对应的度量矩阵,其为对角阵,每行对角线上的元素是
Figure BDA0003251876640000057
对应行的行和,即:
Figure BDA0003251876640000058
W(l)代表了第l层所对应的待训练的权值矩阵,σ(·)代表隐层的激活函数,在GCN当中采用RELU函数作为隐层激活函数。每一层的图卷积运算都可以理解为对于图中每个节点的一阶邻域信息(或者说图的局部结构信息)进行了加权聚合。
由于图的结构信息被包含在了逐层前向传播规则当中,因此GCN在训练过程中舍去了包含图结构信息的传统无监督损失项,只保留有标签样本的交叉熵函数作为监督损失项,损失函数的表达式如下:
Figure BDA0003251876640000061
其中,Y代表真实的标签,Z代表由GCN预测出的标签概率分布,l代表有标签样本的编号,f代表GCN输出层神经元结点的编号,F表示标签的类别数,
GCN在训练过程中,每次迭代先根据逐层前向传播规则计算出各层的输出(权值矩阵可以随机初始化),再根据损失函数的梯度下降法逐层更新权值矩阵,如此进行迭代,直到满足最大迭代次数,训练结束;
S5,在开源金融数据集上验证并比较结果,本发明当中所选取的开源金融数据集是来源于UCI Machine Learning Repository的***违约相关数据集,数据集包含30000个样本,每个样本有23维特征,标签有两类,用0和1表示,每个样本对应的标签表示该用户是否存在***违约行为,1代表违约,0代表正常,在此数据集当中,违约样本约占22%,正常样本约占78%,若将违约样本作为正样本,正常样本作为负样本,那么对此数据集的分类问题就是一个正负样本比例失衡情况下的正样本检出问题,在这种情况之下,传统的二分类准确率作为评价指标是失准的,因此本发明采用召回率(recall)、精确率(precision)和F1得分作为评价指标,其中F1得分是对召回率和精确率综合考量的结果。
作为本发明的一种优选技术方案,步骤S1中,rbf映射函数的宽度参数σ=0.15。
作为本发明的一种优选技术方案,步骤S2中,每个节点起的随机游走次数n=20,每次随机游走的截断长度m=20,返回参数p=0.5,进出参数q=0.25。
作为本发明的一种优选技术方案,步骤S3中,图嵌入后每个节点对应的向量维数d=100,滑动窗口模型中窗口长度w=10。
与现有技术相比,本发明的有益效果如下:
1.基于金融特征数据进行图的构建。通过将金融特征数据当作图数据来处理,来挖掘金融个体之间的潜在关系信息;
2.将深度图嵌入方法用于金融用户图的图表示学习,挖掘图结构信息;
3.将图卷积神经网络用于半监督学习模型的训练,对图中节点的邻域信息进行聚合;
4.与传统金融信用评估方法相比,本发明所提出的基于深度图半监督学习的方法提升了标签稀缺条件下金融信用评估的准确性,同时也加快了模型训练速度,从而实现对于标签稀缺的金融数据高效、准确的信用评估。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的流程图;
图2为深度图嵌入Node2Vec算法的随机游走策略。BFS代表宽度优先搜索,DFS代表深度优先搜索;
图3为skip-gram采用滑动窗口模型进行点对采样的过程;
图4为skip-gram网络模型结构图;
图5为GCN模型对图的训练过程;
图6为标签率为0.1的条件下,不同模型的三种评价指标结果图;
图7为不同标签率的条件下,不同模型的F1得分结果图;
图8为不同标签率条件下,基于原始数据的GCN与基于深度图嵌入结果的GCN的训练迭代次数比较图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明如图1-8所示,本发明提供了一种基于深度图半监督学习的金融信用评估方法,包括以下步骤:
S1,根据原始特征数据集进行图的构造,即由X∈RN×D构造图G(V,E),其中X为原始特征数据集,由N×D维的矩阵表示,N为用户样本数,D为每个用户样本对应的特征维数,X所对应的图G(V,E)位于D维特征空间当中,V(Vertices)代表图中所有节点的集合,图中共有N个节点,每个节点代表一个用户样本,该节点在D维特征空间当中的坐标等于该节点对应的用户样本D维特征的值,E(Edges)是所有节点之间的边集,边表征节点之间的连接关系,边的权值由基于欧氏距离的rbf映射函数确定,比如说,节点i与节点j之间边的权值可以表示为:
Figure BDA0003251876640000081
其中σ代表rbf函数中的宽度参数,
Figure BDA0003251876640000082
代表节点i与j之间的欧氏距离的平方,经过rbf映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值,节点和边可以被统一地用邻接矩阵来表示,他们共同表征了图的结构信息;
S2,对构造好的图G(V,E)进行随机游走,以图中每个节点为起点分别进行n次随机游走,每次随机游走的截断长度为m,进而产生由一系列节点序列所构成的集合,随机游走的策略基于Node2Vec算法,分为宽度优先搜索(BFS)与深度优先搜索(DFS),在Node2Vec算法的随机游走过程当中,对于有边相连的点对(v,x),给定当前节点为v,则随机游走所访问的下一个节点为x的概率为:
Figure BDA0003251876640000091
其中,πvx是节点v与x之间未归一化的转移概率,Z为归一化常数,对于πvx的计算,进一步引入两个超参数p与q来控制游走策略,并最终体现在πvx的值当中,首先设:
πvx=αpq(t,x)·wvx
其中wvx为节点v和节点x之间的边权,接着:
Figure BDA0003251876640000092
其中dtx为节点t与节点x之间的最短路径距离,超参数p叫做返回参数,其控制着随机游走过程中重复访问刚才访问过的节点的概率,若p较小,则重复访问刚才访问过的节点的概率会变大,超参数q叫做进出参数,其控制的随机游走过程中的游走趋势,若q>1,则随机游走更容易访问节点t周边的节点(对应BFS);若q<1,则随机游走更容易访问远离节点t的节点(对应DFS),有了超参数p和q,我们就能够根据图的结构灵活调整随机游走的策略,从而使模型适应更多种分布的数据,而不再仅仅局限于基于欧氏距离的簇类分布数据。
通过对于对于图中每个节点进行若干次的随机游走操作,整张图的结构信息被包含在了所生成的节点序列当中;
S3,对随机游走所生成的一系列节点序列集合,首先采用滑动窗口模型进行节点对的采样。对于每个节点序列,使用长度为w的滑动窗口采样得到多个点对(Vc,Vi),其中Vc代表中心节点(centre),Vi代表周边节点(context),接着将采样得到的多个点对作为skip-gram网络模型的训练集,对于每一个输入的中心节点,其对应的训练目标是最大化它与它的周边节点之间的共现概率,用负对数损失函数的形式表示,数学表达式如下:
Figure BDA0003251876640000101
其中,Φ(Vc)是将节点Vc映射成对应的嵌入表示向量的映射函数,用映射矩阵Φ∈RN×d来表示,其中N代表图中的节点数(或原始数据的样本数),d代表映射后每个节点对应的嵌入向量的维数,映射矩阵Φ当中的参数即为skip-gram模型的训练结果,通过skip-gram模型的训练,最终对于图中的每个节点,都能够得到一个d维的向量表示,进而得到整张图的嵌入表示结果。这里d的大小可以在训练之前预先设置,我们可以根据实际需求以及相应图嵌入的效果来选取合适的d值,形成skip-gram的网络模型;
S4,在前面所得到的图嵌入的基础上,应用图卷积神经网络(GCN)进行半监督学习,图卷积神经网络类比信号处理中的卷积运算,将图中的每个点的特征向量当作输入信号,并对其进行卷积运算,接着用切比雪夫多项式的一阶近似图卷积运算,得到各层神经网络之间的逐层前向传播规则:
Figure BDA0003251876640000102
其中,H(l)与H(l+1)分别为第l个隐层和第l+1个隐层的输出,特别地,H(0)=X,
Figure BDA0003251876640000103
为图G所对应的加入了自连接的邻接矩阵,即:
Figure BDA0003251876640000104
其中IN为N阶单位矩阵,
Figure BDA0003251876640000105
Figure BDA0003251876640000106
对应的度量矩阵,其为对角阵,每行对角线上的元素是
Figure BDA0003251876640000107
对应行的行和,即:
Figure BDA0003251876640000108
W(l)代表了第l层所对应的待训练的权值矩阵,σ(·)代表隐层的激活函数,在GCN当中采用RELU函数作为隐层激活函数。每一层的图卷积运算都可以理解为对于图中每个节点的一阶邻域信息(或者说图的局部结构信息)进行了加权聚合。
由于图的结构信息被包含在了逐层前向传播规则当中,因此GCN在训练过程中舍去了包含图结构信息的传统无监督损失项,只保留有标签样本的交叉熵函数作为监督损失项,损失函数的表达式如下:
Figure BDA0003251876640000111
其中,Y代表真实的标签,Z代表由GCN预测出的标签概率分布,l代表有标签样本的编号,f代表GCN输出层神经元结点的编号,F表示标签的类别数,
GCN在训练过程中,每次迭代先根据逐层前向传播规则计算出各层的输出(权值矩阵可以随机初始化),再根据损失函数的梯度下降法逐层更新权值矩阵,如此进行迭代,直到满足最大迭代次数,训练结束;
S5,在开源金融数据集上验证并比较结果,本发明当中所选取的开源金融数据集是来源于UCI Machine Learning Repository的***违约相关数据集,数据集包含30000个样本,每个样本有23维特征,标签有两类,用0和1表示,每个样本对应的标签表示该用户是否存在***违约行为,1代表违约,0代表正常,在此数据集当中,违约样本约占22%,正常样本约占78%,若将违约样本作为正样本,正常样本作为负样本,那么对此数据集的分类问题就是一个正负样本比例失衡情况下的正样本检出问题,在这种情况之下,传统的二分类准确率作为评价指标是失准的,因此本发明采用召回率(recall)、精确率(precision)和F1得分作为评价指标,其中F1得分是对召回率和精确率综合考量的结果。
步骤S1中,rbf映射函数的宽度参数σ=0.15。
步骤S2中,每个节点起的随机游走次数n=20,每次随机游走的截断长度m=20,返回参数p=0.5,进出参数q=0.25。
步骤S3中,图嵌入后每个节点对应的向量维数d=100,滑动窗口模型中窗口长度w=10。
具体的,除了本发明所采用的方法之外,为了进行对比,在上述数据集上,采用标签传播算法(LPA)在进行了图嵌入的结果中和没有进行图嵌入的原始数据中分别进行了验证,同样也将GCN在没有进行图嵌入的原始数据当中进行了验证。验证结果如图6、图7、图8所示。其中,图6为标签率为0.1的条件下,不同模型的三种评价指标结果图。图7为不同标签率条件下不同模型的F1得分结果图。图8为不同标签率条件下,基于原始数据的GCN与基于深度图嵌入结果的GCN的训练迭代次数比较图。在三张图当中,’*’代表基于图嵌入结果的实验。
通过对以上三张结果图的分析,可以得到本发明的有益效果有:
1.将深度图嵌入用于标签稀缺条件下的金融信用评估,总体来说能够提升半监督学习模型的效果;
2.将图卷积神经网络用于标签稀缺条件下的金融信用评估,与传统图半监督学习方法相比,显著提升了半监督学习的效果;
3.将深度图嵌入与图卷积神经网络相结合,显著提升了模型在标签极度稀缺(低标签率)情况下的效果;
4.将深度图嵌入与图卷积神经网络相结合,显著加快了图卷积神经网络的训练速度,减少了计算开销。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于深度图半监督学习的金融信用评估方法,其特征在于,包括以下步骤:
S1,根据原始特征数据集进行图的构造,即由X∈RN×D构造图G(V,E),其中X为原始特征数据集,由N×D维的矩阵表示,N为用户样本数,D为每个用户样本对应的特征维数,X所对应的图G(V,E)位于D维特征空间当中,V(Vertices)代表图中所有节点的集合,图中共有N个节点,每个节点代表一个用户样本,该节点在D维特征空间当中的坐标等于该节点对应的用户样本D维特征的值,E(Edges)是所有节点之间的边集,边表征节点之间的连接关系,边的权值由基于欧氏距离的rbf映射函数确定,比如说,节点i与节点j之间边的权值可以表示为:
Figure FDA0003251876630000011
其中σ代表rbf函数中的宽度参数,
Figure FDA0003251876630000012
代表节点i与j之间的欧氏距离的平方,经过rbf映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值,节点和边可以被统一地用邻接矩阵来表示,他们共同表征了图的结构信息;
S2,对构造好的图G(V,E)进行随机游走,以图中每个节点为起点分别进行n次随机游走,每次随机游走的截断长度为m,进而产生由一系列节点序列所构成的集合,随机游走的策略基于Node2Vec算法,分为宽度优先搜索(BFS)与深度优先搜索(DFS),在Node2Vec算法的随机游走过程当中,对于有边相连的点对(v,x),给定当前节点为v,则随机游走所访问的下一个节点为x的概率为:
Figure FDA0003251876630000013
其中,πvx是节点v与x之间未归一化的转移概率,Z为归一化常数,对于πvx的计算,进一步引入两个超参数p与q来控制游走策略,并最终体现在πvx的值当中,首先设:
πvx=αpq(t,x)·wvx
其中wvx为节点v和节点x之间的边权,接着:
Figure FDA0003251876630000021
其中dtx为节点t与节点x之间的最短路径距离,超参数p叫做返回参数,其控制着随机游走过程中重复访问刚才访问过的节点的概率,若p较小,则重复访问刚才访问过的节点的概率会变大,超参数q叫做进出参数,其控制的随机游走过程中的游走趋势,若q>1,则随机游走更容易访问节点t周边的节点(对应BFS);若q<1,则随机游走更容易访问远离节点t的节点(对应DFS),有了超参数p和q,我们就能够根据图的结构灵活调整随机游走的策略,从而使模型适应更多种分布的数据,而不再仅仅局限于基于欧氏距离的簇类分布数据。
通过对于对于图中每个节点进行若干次的随机游走操作,整张图的结构信息被包含在了所生成的节点序列当中;
S3,对随机游走所生成的一系列节点序列集合,首先采用滑动窗口模型进行节点对的采样。对于每个节点序列,使用长度为w的滑动窗口采样得到多个点对(Vc,Vi),其中Vc代表中心节点(centre),Vi代表周边节点(context),接着将采样得到的多个点对作为skip-gram网络模型的训练集,对于每一个输入的中心节点,其对应的训练目标是最大化它与它的周边节点之间的共现概率,用负对数损失函数的形式表示,数学表达式如下:
Figure FDA0003251876630000031
其中,Φ(Vc)是将节点Vc映射成对应的嵌入表示向量的映射函数,用映射矩阵Φ∈RN×d来表示,其中N代表图中的节点数(或原始数据的样本数),d代表映射后每个节点对应的嵌入向量的维数,映射矩阵Φ当中的参数即为skip-gram模型的训练结果,通过skip-gram模型的训练,最终对于图中的每个节点,都能够得到一个d维的向量表示,进而得到整张图的嵌入表示结果。这里d的大小可以在训练之前预先设置,我们可以根据实际需求以及相应图嵌入的效果来选取合适的d值,形成skip-gram的网络模型;
S4,在前面所得到的图嵌入的基础上,应用图卷积神经网络(GCN)进行半监督学习,图卷积神经网络类比信号处理中的卷积运算,将图中的每个点的特征向量当作输入信号,并对其进行卷积运算,接着用切比雪夫多项式的一阶近似图卷积运算,得到各层神经网络之间的逐层前向传播规则:
Figure FDA0003251876630000032
其中,H(l)与H(l+1)分别为第l个隐层和第l+1个隐层的输出,特别地,H(0)=X,
Figure FDA0003251876630000033
为图G所对应的加入了自连接的邻接矩阵,即:
Figure FDA0003251876630000034
其中IN为N阶单位矩阵,
Figure FDA0003251876630000035
Figure FDA0003251876630000036
对应的度量矩阵,其为对角阵,每行对角线上的元素是
Figure FDA0003251876630000037
对应行的行和,即:
Figure FDA0003251876630000038
W(l)代表了第l层所对应的待训练的权值矩阵,σ(·)代表隐层的激活函数,在GCN当中采用RELU函数作为隐层激活函数。每一层的图卷积运算都可以理解为对于图中每个节点的一阶邻域信息(或者说图的局部结构信息)进行了加权聚合。
由于图的结构信息被包含在了逐层前向传播规则当中,因此GCN在训练过程中舍去了包含图结构信息的传统无监督损失项,只保留有标签样本的交叉熵函数作为监督损失项,损失函数的表达式如下:
Figure FDA0003251876630000041
其中,Y代表真实的标签,Z代表由GCN预测出的标签概率分布,l代表有标签样本的编号,f代表GCN输出层神经元结点的编号,F表示标签的类别数,
GCN在训练过程中,每次迭代先根据逐层前向传播规则计算出各层的输出(权值矩阵可以随机初始化),再根据损失函数的梯度下降法逐层更新权值矩阵,如此进行迭代,直到满足最大迭代次数,训练结束;
S5,在开源金融数据集上验证并比较结果,本发明当中所选取的开源金融数据集是来源于UCI Machine Learning Repository的***违约相关数据集,数据集包含30000个样本,每个样本有23维特征,标签有两类,用0和1表示,每个样本对应的标签表示该用户是否存在***违约行为,1代表违约,0代表正常,在此数据集当中,违约样本约占22%,正常样本约占78%,若将违约样本作为正样本,正常样本作为负样本,那么对此数据集的分类问题就是一个正负样本比例失衡情况下的正样本检出问题,在这种情况之下,传统的二分类准确率作为评价指标是失准的,因此本发明采用召回率(recall)、精确率(precision)和F1得分作为评价指标,其中F1得分是对召回率和精确率综合考量的结果。
2.根据权利要求1所述的基于深度图半监督学习的金融信用评估方法,其特征在于,步骤S1中,rbf映射函数的宽度参数σ=0.15。
3.根据权利要求1所述的基于深度图半监督学习的金融信用评估方法,其特征在于,步骤S2中,每个节点起的随机游走次数n=20,每次随机游走的截断长度m=20,返回参数p=0.5,进出参数q=0.25。
4.根据权利要求1所述的基于深度图半监督学习的金融信用评估方法,其特征在于,步骤S3中,图嵌入后每个节点对应的向量维数d=100,滑动窗口模型中窗口长度w=10。
CN202111048605.4A 2021-09-08 2021-09-08 基于深度图半监督学习的金融信用评估方法 Pending CN115797041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048605.4A CN115797041A (zh) 2021-09-08 2021-09-08 基于深度图半监督学习的金融信用评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048605.4A CN115797041A (zh) 2021-09-08 2021-09-08 基于深度图半监督学习的金融信用评估方法

Publications (1)

Publication Number Publication Date
CN115797041A true CN115797041A (zh) 2023-03-14

Family

ID=85473411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048605.4A Pending CN115797041A (zh) 2021-09-08 2021-09-08 基于深度图半监督学习的金融信用评估方法

Country Status (1)

Country Link
CN (1) CN115797041A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829683A (zh) * 2024-03-04 2024-04-05 国网山东省电力公司信息通信公司 基于图对比学习的电力物联数据质量分析方法及***
CN118094439A (zh) * 2024-04-19 2024-05-28 江苏苏商银行股份有限公司 一种银行异常交易检测方法、***及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829683A (zh) * 2024-03-04 2024-04-05 国网山东省电力公司信息通信公司 基于图对比学习的电力物联数据质量分析方法及***
CN118094439A (zh) * 2024-04-19 2024-05-28 江苏苏商银行股份有限公司 一种银行异常交易检测方法、***及装置

Similar Documents

Publication Publication Date Title
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
TWI788529B (zh) 基於lstm模型的信用風險預測方法及裝置
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN108647736B (zh) 一种基于感知损失和匹配注意力机制的图像分类方法
CN110555455A (zh) 一种基于实体关系的在线交易欺诈检测方法
CN111352965B (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及***
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
WO2023109085A1 (zh) 账户风险模型的训练方法和风险用户群体的确定方法
CN115797041A (zh) 基于深度图半监督学习的金融信用评估方法
CN113535964B (zh) 企业分类模型智能构建方法、装置、设备及介质
WO2023116111A1 (zh) 一种磁盘故障预测方法及装置
KR20190094068A (ko) 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치
CN115344693B (zh) 一种基于传统算法和神经网络算法融合的聚类方法
US20230004869A1 (en) Machine-learning techniques for evaluating suitability of candidate datasets for target applications
CN115907775A (zh) 基于深度学习的个人征信评级方法及其应用
US20230041338A1 (en) Graph data processing method, device, and computer program product
CN116502132A (zh) 账号集合识别方法、装置、设备、介质和计算机程序产品
CN114170000A (zh) ***用户风险类别识别方法、装置、计算机设备和介质
CN113988878A (zh) 一种基于图数据库技术的反欺诈方法及***
CN109657795B (zh) 一种基于属性选择的硬盘故障预测方法
CN111400413A (zh) 一种确定知识库中知识点类目的方法及***
Liu et al. A Big Data-Based Anti-Fraud Model for Internet Finance.
CN113158089B (zh) 一种社交网位置向量化建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication