CN115796635A - 基于大数据和机器学习的银行数字化转型成熟度评价*** - Google Patents

基于大数据和机器学习的银行数字化转型成熟度评价*** Download PDF

Info

Publication number
CN115796635A
CN115796635A CN202211248013.1A CN202211248013A CN115796635A CN 115796635 A CN115796635 A CN 115796635A CN 202211248013 A CN202211248013 A CN 202211248013A CN 115796635 A CN115796635 A CN 115796635A
Authority
CN
China
Prior art keywords
index
evaluation
maturity
bank
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211248013.1A
Other languages
English (en)
Inventor
刘佳伟
景峰
杨国正
李益杰
肖郑进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Original Assignee
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiqiyin Hangzhou Technology Co ltd, China Zheshang Bank Co Ltd filed Critical Yiqiyin Hangzhou Technology Co ltd
Priority to CN202211248013.1A priority Critical patent/CN115796635A/zh
Publication of CN115796635A publication Critical patent/CN115796635A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据和机器学***均值和样本标准差;根据银行机构每个指标的实际取值、该指标行业平均值和样本标准差,得到该指标的标准化评价值;根据每个指标的标准化评价值和对应的权重,逐级向上加权汇总,得到该银行数字化转型基于行业发展水平的相对成熟度指数。

Description

基于大数据和机器学习的银行数字化转型成熟度评价***
技术领域
本发明涉及银行业数字化转型领域,尤其涉及一种基于大数据和机器学习的银行数字化转型成熟度评价***。
背景技术
银行业经历了业务自动化、银行电子化等发展阶段,数字化转型方兴未艾、如火如荼。随着数字经济上升为国家战略,数字金融成为当前主流,推动金融业高质量发展。
随着云计算、大数据、人工智能、区块链等新技术创新应用,金融科技推动金融业数字化转型持续深入发展,基础设施持续迭代升级,业务场景不断拓展丰富,公司治理水平不断提高完善。
银行数字化转型作为行业级的重要战略,各行都大力投入并取得了显著的成效。目前,针对银行业数字化转型进程的评价方法存在以下问题:1.评价指标通常人为选定,不够准确;2.评价指标没有进行相关性分析,存在重复描述的情况;3.各评价指标权重由专家打分决定,不够客观;4.量化评价维度通常为单一指标,不够全面;5.整体评价结果为定性指标,不够量化。因此,已有的数字化转型评价方法不能科学、客观、量化地描述银行基于行业发展水平的数字化转型成熟度、科技投入成效、相对优势和不足,不利于银行以行业平均水平为基准对自身数字化转型的目标和实施路径进行调整。
发明内容
本发明旨在提供一种针对银行业数字化转型成熟度的评价***及装置,通过建立科学合理的评价指标体系,运用计算机信息处理技术***地对评估对象进行计算和分析,得到对被评估对象客观公正的评价指数,并得出合理的结论。
本发明的目的是通过以下所述***来实现的:第一方面,本发明提供了一种基于大数据和机器学习的银行数字化转型成熟度评价***,该***包括:
数据采集模块,用于多端采集银行业管理机构、官方协会、银行官方发布的与金融科技技术应用和成效相关的原始数据;
数据处理模块,用于通过机器学习对采集的原始数据进行结构化处理、文档去重、关键词提取、指标相关性计算和指标分类分级,并输出评价领域、主题和要素三级指标体系;
权重计算模块,用于通过神经网络模型对指标权重进行计算,得到各级指标权重值;
指标成熟度计算模块,用于计算每个指标的标准化评价值,并根据标准化评价值和指标权重逐级向上加权汇总,得到被评价银行的数字化转型成熟度指数;
成熟度评价模块,用于根据计算得到的数字化转型成熟度指数输出银行数字化转型成熟度评价结果,
数据存储模块,用于存储收集到的数据和计算产生的数据,以及存储最终的成熟度指数和评价结果。
进一步地,多端采集各官方机构原始数据,包括:
所述官方机构,包括银行业管理机构、银行业官方认证协会、国有行和全国性股份制银行;
所述多端采集方式,包括通过网络爬虫采集官方文档,以及通过USB、无线网络接口手动上传官方文档。
进一步地,通过机器学习对采集的文档进行机构化处理、文档去重、关键词提取、指标相关性计算、指标分类分级,并输出三级评价指标体系,包括:
使用深度学习图像文字识别技术对所述采集文档进行结构化处理,具体地,文字识别采用基于CTC的典型算法CRNN,将非结构化的图像转为结构化文档;
使用SimHash算法将所述结构化文档的文本映射为数字形式的Hash签名,并根据SimHash值剔除重复文档;
使用基于隐含主题模型的图方法TPR获取文档的主题分布和对应的关键词,综合不同主题上候选关键词的重要性,得到对候选关键词的最终排序,选取排序最高的若干为推荐关键词,作为初始指标库;
使用DMI点互信息算法对初始指标进行相关性分析,两个指标之间的相关性程度可以表示为:
Figure BDA0003886790030000021
其中,p(x)和p(y)表示其在文档中出现的概率,p(x|y)和p(y|x)表示其条件概率;筛选指标相关性小于阈值的指标作为评价指标;
根据所述评价指标和文档主题的对应关系,设定文档主题为二级指标,各主题对应指标要素为三级指标;根据银行业数字化转型特点,对二级评价指标进行归类,总结评价领域作为一级数字化转型评价指标,包括:科技投入、生态建设、风险与安全、创新与竞争力、发展潜力、社会责任六个部分领域。
进一步地,使用神经网络模型对指标权重进行计算,得到各三级指标权重值,包括:
采用BP神经网络模型,根据所述三级指标体系的指标数量确定输入层的输入单元数量;设置各层输出公式以及设置权重的初始化参数;
通过样本集训练神经网络模型,其拓扑结构表示为:
Figure BDA0003886790030000031
其中,
Figure BDA0003886790030000032
表示指标权重预测结果向量;X表示输入层指标输入向量;V表示输入层到隐藏层的权值向量;p1表示输入层到隐藏层的偏置项;σ1表示输入层到隐藏层的激活函数;W表示隐藏层到输出层的权值向量;p2表示隐藏层到输出层的偏置项;σ2表示隐藏层到输出层的激活函数;
损失函数表示为:
Figure BDA0003886790030000033
其中,θ表示参数集合,yi表示第i个指标权重真实值,
Figure BDA0003886790030000034
表示第i个指标权重预测值,l表示输出层单元个数;
样本训练集的第i个指标对应的权重表示为:
Figure BDA0003886790030000035
其中,vij表示第i个指标的权重在第j个输出单元的权值;通过重复迭代训练神经网络模型,直到损失函数小于设定的阈值,则神经网络模型训练完成;
将三级评价指标的初始值输入已经训练好的神经网络模型计算,得到各三级评价指标对应权重。
进一步地,计算每个指标的行业平均值、样本标准差、标准评价值,并根据标准评价值和指标权重逐级向上加权汇总,得到被评价银行的数字化转型成熟度指数,包括:
根据已经获取到的官方数据,针对每一个三级评价指标i计算其样本均值:
Figure BDA0003886790030000036
计算样本标准差:
Figure BDA0003886790030000037
其中,n表示银行机构的数量;针对第t个一级指标对应的第k个二级指标下的第i个三级指标,At,k,i,j表示该指标第j个机构的实际取值,Met,k,i表示该指标的平均值,St,k,i表示该指标的标准差。
使用z-score变换得到每个指标的标准化评价值:
Figure BDA0003886790030000041
其中,其中,Xt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的实际取值;Yt,k,i表示被评价机构三级指标i的标准化评价值,取值范围为[0,100];
应用算数加权法逐级向上汇总,得到被评价机构数字化转型的相对成熟度指数:
三级指标加权汇总为二级指标标准化评价值:
Figure BDA0003886790030000042
其中,Vt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的权重;I表示被评价机构的三级指标数量;Zt,k表示被评价机构第t个一级指标对应的第k个二级指标标准化评价值;
二级指标加权汇总为一级指标标准化评价值:
Figure BDA0003886790030000043
其中,K表示被评价机构的二级指标数量;Ft表示被评价机构第t个一级指标标准化评价值;
一级指标加权汇总为成熟度指数:
Figure BDA0003886790030000044
其中,T表示被评价机构的一级指标数量;R表示被评价机构数字化转型成熟度指数。
进一步地,根据***计算得到的数字化转型成熟度指数R输出银行数字化转型成熟度评价结果,其取值范围为(0,100),数值越大表示银行数字化转型成熟度越高,覆盖面越广,对外输出能力越强,客户体验越好,成长性越高。
进一步地,将收集的数据和计算产生的数据进行存储,包括:
所述存储数据包括采集的原始资料数据、抽取得到的关键词、相关性小于阈值的评价指标、指标相关性系数、神经网络模型计算得到的指标权重、指标行业平均值和标准差、指标标准化评价值、数字化转型的相对成熟度指数以及成熟度评价结果。
第二方面,本发明提供了一种基于大数据和机器学习的银行数字化转型成熟度评价电子设备,包括:
存储器用于存储一个或多个程序,包括所述基于大数据和机器学习的银行数字化转型成熟度评价***,以及采集数据和计算结果;
处理器用于执行存储器中的计算机程序;
通信总线用于处理器、存储器、输入、输出设备之间传递数据信息,包括数据总线、地址总线和控制总线;
通信接口用于计算机之间或计算机与其他终端之间的数据传输。
第三方面,本发明提供了一种包含计算机程序的非暂态计算机可读存储介质,该存储介质所包含的计算机程序被处理器执行时实现所述的基于大数据和机器学习的银行数字化转型成熟度评价***。
本申请提供的银行数字化转型成熟度评价***是基于官方客观数据,通过大数据分析和机器学***的银行数字化转型相对成熟度指数,以此得到银行数字化转型成熟度评价结果。本申请基于官方数据,对指标采用定性、定量结合和层次分析的方法,得到客观、量化的评价指数,准确表示银行数字化转型的相对发展水平,为其数字化转型提供理论指导。
与现有技术相比,本发明具有以下有益效果:
1.规范银行业数字化转型成熟度评价体系,提供成熟的银行数字化转型成熟度评价***;
2.评价***通过大数据和机器学***的对比,更好地表示被评价机构相对行业发展的优势和不足;且不同等级指标的划分,提供了不同的对比粒度,给银行数字化转型和发展规划提供了客观详细的指导方向;
3.评价指标维度和数据来源于官方发布的客观数据,避免了主观评价造成的误差;
4.通过科技投入指标与数字化转型成熟度评价指标的历史对比,可以客观、量化评价科技投入成效,为银行制定发展战略提供客观依据。
附图说明
为了更清楚地说明本发明实施例或所述评价***功能,下面将对实施例和描述所述***需要使用的附图作简单介绍。在所有附图中,类似的元件或模块一般由类似的附图标记标识,且各元件或模块并不一定按照实际比例绘制。显然,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大数据和机器学习的银行数字化转型成熟度评价***的逻辑框图;
图2为神经网络模型进行权重计算的模型训练示意图;
图3为神经网络模型进行模型训练的拓扑结构示意图;
图4为本发明实施例提供的银行数字化转型成熟度评价***的电子设备图。
具体实施方式
下面将结合附图对本发明所述评价***的实施例进行详细描述。以下实施例仅用于更加清楚地说明本发明所述的评价***,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。本发明实施例中,“示例性的”、“例如”等词用于表示作例子、例证或说明,且不应被解释为比其它实施例或设计方案更具优势。
下面结合本申请实施例中的附图,对本申请中的评价***进行描述。
本发明实施例提供一种银行数字化转型成熟度的评价***,如图1所示,该***包括S101-S106:
S101,多端采集获取银行业相关机构的官方资料。
具体的,所述银行业相关机构包括中国人民银行、中国银***等管理机构,中国银行业协会等官方注册登记的社会组织,六大国有银行、十二大股份制银行等全国性商业银行机构,以及被评价银行机构,包括国有银行、股份制银行、城商行等。
所述多端采集方式,包括:
A1:通过网络爬虫的方式获取官方发文。
示例的,先确定找到需要爬取数据的URL地址,包装请求头之后向该URL地址发起请求,以获取该URL服务器发来的响应数据,之后利用Python数据解析库在源码中获得想要的数据,并将获得的数据进行清洗保存。
A2:通过手动上传文档获取相关发文。
示例的,通过USB、无线网络等接口手动上传Word、PDF、图片等各种格式的文档至该评价***,并保存至存储器相应区域。
S102:根据采集得到的文档确定多级指标体系。
具体的,所述采集得到的文档包括S01所述多端采集得到的官方发布的文档。
确定多级指标的执行步骤,包括:
A1:使用深度学习图像文字识别技术对文档进行处理。
示例的,对输入图像进行文字区域检测、图像预处理、特征提取、深度学习识别和深度学习后处理等,其中深度学习识别算法包括图像校正、视觉特征提取、序列特征提取、序列预测等模块。具体的,文字识别采用基于CTC的典型算法CRNN(ConvolutionalRecurrent Neural Network),其网络结构包括:卷积层对输入图像进行特征提取,采用主流卷积神经网络CNN模型;循环层使用双向RNN(BLSTM)对特征序列进预测,输出预测特征(真实值)分布;转录层使用CTC损失函数,把从循环层获取的一系列特征分布转换成最终的特征序列,解码序列得到结果。
A2:使用SimHash算法对文档对比去重。
传统的,基于向量空间模型(VSM)计算两个文档欧氏距离和余弦夹角来判定相似度的方法,只适用于文档数量少且复杂度较低的情况。考虑到数字化相关发文数量较多且内容丰富,采用SimHash算法进行文档判重,其主要思想是将原始的文本映射为数字形式的Hash签名,通过比较二进制字符串的差异来比较原始文本的差异。其算法流程如下:
1.分词:使用TF-IDF算法抽取文本关键词,并根据权值进行排序;
2.Hash:通过Hash算法将每个关键词变成Hash值;
3.加权:根据Hash值和关键词权重,生成加权字符串;
4.合并:将各关键词字符串序列值累加,得到一个序列串;
5.降维:将序列串的数字以0/1替换,得到SimHash值;
6.判重:将64位的SimHash值分为4部分,每部分为16位的二进制码,根据鸽巢原理,若两个SimHash相似(海明距离小于3),则至少有一个部分完全相同。
因此,通过判断SimHash的值来对文档内容进行对比可有效提高判定效率,实现对文档的快速去重。
A3:使用基于隐含主题模型的图方法TPR抽取数字化转型相关的关键词,作为初始评价指标。
传统的关键词提取方式,包括人工标注法、TextRank为代表的图方法、TF-IDF为代表的统计方法等,但是其存在人工工作量较大、关键词对文档主题覆盖不全、统计不显著的现象。针对文档与关键词词汇的问题,使用基于隐含主题模型的图方法(TPR,TopicalPageRank)抽取关键词,以实现对文档主题更好地覆盖,其执行步骤如下:
第一阶段:构建一个主题解释器来得到给定单词和文档的主题;
第二阶段:运行TPR算法,从文档中抽取关键词,对给定文档D,进行关键词抽取的主要步骤为:
(1)根据D中单词的同现关系,构建文档对应的单词图,且在构建图时只考虑形容词和名词;
(2)在图上运行TPR算法,得到每个单词在不同主题上的PageRank值;
(3)在不同的主题上,根据单词在该主题的PageRank值得到候选关键词在该主题上的值;
(4)获得文档D的主题分布,综合不同主题上候选关键词的重要性,得到对候选关键词的最终排序,选取排序最高的若干为推荐关键词,作为初始指标库。
A4:采用DMI点互信息算法对初始指标进行相关性分析。
针对可能出现的多个相似词组对同一问题进行描述的问题,采用点互信息算法对初始指标进行相关性描述:
Figure BDA0003886790030000081
其中,p(x)和p(y)表示其在文档中出现的概率,p(x|y)和p(y|x)表示其条件概率;筛选指标相关性小于阈值的指标作为评价指标;通过x和y的条件概率来确定两者的相关程度,并筛除相关系数大于预设阈值的初始指标,避免其所描述的信息重复。将相关性小于阈值的指标,与其主题一一对应进行存储,作为评价指标库。
A5:根据关键词和对应主题对指标进行分类分级。
将A4中去除重复描述信息的指标定义为数字化转型三级评价指标,其对应的主题定义为数字化转型二级评价指标。根据银行业数字化转型特点,对关键词主题,即二级评价指标进行归类,总结为几个一级数字化转型评价指标,包括:科技投入、生态建设、风险与安全、创新与竞争力、发展潜力、社会责任六个领域。整理如下表1所示:
表1银行数字化转型成熟度三级评价指标体系
Figure BDA0003886790030000082
Figure BDA0003886790030000091
Figure BDA0003886790030000101
S103:采用神经网络模型计算三级指标权重。
神经网络模型计算评价指标权重的模型训练过程如图二所示,其执行步骤包括:
A1:根据评价指标体系确定BP神经网络的输入层、隐藏层单元数,并设置各层输出公式,其拓扑结构如图3所示。
神经元激活函数采用Sigmoid,表达式为:
Figure BDA0003886790030000102
设输入层到隐藏层的激活函数为σ1,隐藏层到输出层的激活函数为σ2
输入层包含d个节点,对应训练样本的d个三级评价指标,其输入向量为:
X=(x1,x2,…,xd)T
其中,xd表示第d个三级评价指标的初始权重值;
输入层到隐藏层的权值向量为:
Figure BDA0003886790030000103
其中,vdq表示第d个三级评价指标的权重值在第q个隐藏单元上的权值;
输入层到隐藏层的偏置项向量为P1
P1=(p11,p12,…,p1q)T
其中,p1q表示第q个隐藏单元对应的偏置项;
隐藏层包含q个单元,其输入权值向量为:
α=VTX+P1
隐藏层包含q个节点,其权重向量为:
B=(b1,b2,…,bq)T=σ1(α)=σ1(VT=+P1)
其中,bq为第q个隐藏单元上更新后的权重值;
隐藏层到输出层的权值向量为:
Figure BDA0003886790030000111
隐藏层到输出层的偏置项向量为p2
其中,wql表示第q个隐藏单元的权重值在第l个输出单元上的权值;
隐藏层到输出层的偏置项向量为P2
P2=(p21,p22,…,p2l)T
其中,p2l表示第l个输出单元对应的偏置项;
输出层包含l个单元,其输入权值向量为:
β=WTB+P2
输出层包含l个节点,其输出向量为:
Y=(y1,y2,…,yl)T=σ2(β)=σ2(WTB+P2)
其中,yl为第l个输出单元输出的权重预测值;
则图3的模型可以表示为:
Figure BDA0003886790030000112
其中,
Figure BDA0003886790030000113
为指标权重预测结果向量;
损失函数为:
Figure BDA0003886790030000114
其中,θ表示参数集合,yi表示第i个指标权重真实值,
Figure BDA0003886790030000115
表示第i个指标权重预测值;
A2:设置初始化参数。
初始化网络中的权重和偏置项,记为:
Figure BDA0003886790030000116
A3:通过样本训练集训练该神经网络模型。
1.激活向前传播,得到损失函数的期望值:
Figure BDA0003886790030000117
2.根据损失函数,计算输出单元的误差项,即计算第k次迭代过程中损失函数关于输出单元的梯度值或偏导数,根据链式法则有:
Figure BDA0003886790030000121
Figure BDA0003886790030000122
根据损失函数,计算隐藏单元的误差项,即计算第k次迭代过程中损失函数关于隐藏单元的梯度值或偏导数,根据链式法则有:
Figure BDA0003886790030000123
Figure BDA0003886790030000124
3.更新神经网络中的权值和偏置项:
输出单元参数更新为:
Figure BDA0003886790030000125
Figure BDA0003886790030000126
隐藏单元参数更新为:
Figure BDA0003886790030000127
Figure BDA0003886790030000128
其中,η∈(0,1)表示学习率,k=1,2,…,n表示迭代更新次数。
4.计算权重:
样本训练集的第i个指标的权重可以表示为:
Figure BDA0003886790030000129
其中,vij表示第i个指标的权重在第j个输出单元的权值。
5.重复步骤1-4,直到损失函数小于设定的阈值,则模型训练完成。
A4:根据训练好的神经网络模型计算三级指标的权重。
将S102、S103中确定的三级评价指标和相关数据输入神经网络模型中进行计算,得到各三级评价指标对应权重。
S104:银行数字化转型成熟度计算。
在数字化转型成熟度评价指标体系中,t为一级指标,取值范围为1,2,…,T;k为一级指标t对应下的二级指标,取值范围为1,2,…,K;i为二级指标k对应下的三级指标,取值范围为1,2,…,I,被评价机构数字化转型成熟度指数计算步骤包括:
A1:根据官方数据确定每个三级指标的行业平均值和样本标准差。
根据已经获取到的官方数据,针对每一个三级评价指标i计算其样本均值:
Figure BDA0003886790030000131
样本标准差:
Figure BDA0003886790030000132
其中,n表示银行机构的数量;针对第t个一级指标对应的第k个二级指标下的第i个三级指标,At,k,i,j表示该指标第j个机构的实际取值,Met,k,i表示该指标的平均值,St,k,i表示该指标的标准差。
A2:使用z-score变换得到每个指标的标准化评价值。
被评价机构每个三级指标的标准化评价值为:
Figure BDA0003886790030000133
其中,kt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的实际取值;Yt,k,i表示被评价机构三级指标i的标准化评价值,取值范围为[0,100]。
A3:应用算数加权法逐级向上汇总,得到被评价机构数字化转型的相对成熟度指数。
1.三级指标加权汇总为二级指标标准化评价值:
Figure BDA0003886790030000134
其中,Vt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的权重;I表示被评价机构的三级指标数量;Zt,k表示被评价机构第t个一级指标对应的第k个二级指标标准化评价值;
2.二级指标加权汇总为一级指标标准化评价值:
Figure BDA0003886790030000135
其中,K表示被评价机构的二级指标数量;Ft表示被评价机构第t个一级指标标准化评价值;
3.一级指标加权汇总为成熟度指数:
Figure BDA0003886790030000136
其中,T表示被评价机构的一级指标数量;R表示被评价机构数字化转型成熟度指数;
通过上述计算,可以得到被评价机构的数字化转型成熟度指数,以及详细的一、二、三级指标的标准化评价值。
S105:银行数字化转型成熟度评价。
银行数字化转型成熟度评价模块,主要为根据S104计算得到的数字化转型成熟度指数R输出银行数字化转型成熟度评价结果,其取值范围为(0,100),数值越大表示银行数字化转型成熟度越高,覆盖面越广,对外输出能力越强,客户体验越好,成长性越高。
根据S104计算所得的数字化转型成熟度指数结果,确定被评价银行所处的数字化转型所处阶段,并将评价结果可视化输出,根据各级指标标准化评价值提出科学、合理的指导意见。
S106:数据存储。
数据存储模块,主要用于存储采集的数据、关键词、评价指标、相关性系数、指标权重、指标行业平均值和标准差、指标标准化评价值、数字化转型的相对成熟度指数和评价结果等。
本发明基于大数据和机器学***的量化指数,可以用于指导银行数字化转型发展方向,促进数字化转型持续升级。
图4为基于大数据和机器学习的银行数字化转型成熟度评价***的电子设备图。该设备包括:处理器S401,通信接口S402,存储器S403,通信总线S404。
其中,处理器S401可以是实现或执行本申请所述的各种示例的逻辑方框、模块和电路,包括重要处理器、通用处理器、数字信号处理器或其他可编程的电子逻辑器件、晶体管逻辑器等。所述处理器还可以是实现计算功能的组合,如包含一个或多个微处理器组合等。
所述通信接口S402,是中央处理器和标准通信***之间的接口,用于计算机之间或计算机与其他终端之间的数据传输,包括串口232、485、以太网、GPIB、USB、无线、光纤等多种接口类型,以及串行通讯和并行通讯两种通信方式。
所述存储器S403,是用于存储程序和各种数据信息的记忆部件,包括但不限于电、磁、光、红外、半导体等多种存储介质的***装置或器件。图4只用一个框图表示,不代表只有一个或一种存储器,其按照存储方式还可以分为随机存储器和顺序存储器,按照读写功能可分为只读存储器和随机读写存储器,按照信息可保存性可分为永久记忆性存储器和非永久记忆性存储器,以及按照在***中的作用可以分为主存储器、辅助存储器、缓冲存储器等。
所述通信总线S404,是由导线组成的传输线束,包含数据总线、地址总线和控制总线,用来传输数据、数据地址和控制信号等。图4中以一条线表示,不代表仅有一束,或者仅有一种类型的总线。
本发明还提供了一种包含计算机程序的非暂态计算机可读存储介质,该存储介质所包含的计算机程序被处理器执行时实现所述的基于大数据和机器学习的银行数字化转型成熟度评价***。
以上所述,仅为本申请的具体实施方式,而并非对内容的限制,本领域的普通从业人员在本申请揭露的技术范围之上进行修改,或对部分乃至全部技术特征进行替换,并不能使相应的***能力脱离本发明的所述范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,该***包括:
数据采集模块,用于多端采集银行业管理机构、官方协会、银行官方发布的与金融科技技术应用和成效相关的原始数据;
数据处理模块,用于通过机器学习对采集的原始数据进行结构化处理、文档去重、关键词提取、指标相关性计算和指标分类分级,并输出评价领域、主题和要素三级指标体系;
权重计算模块,用于通过神经网络模型对指标权重进行计算,得到各级指标权重值;
指标成熟度计算模块,用于计算每个指标的标准化评价值,并根据标准化评价值和指标权重逐级向上加权汇总,得到被评价银行的数字化转型成熟度指数;
成熟度评价模块,用于根据计算得到的数字化转型成熟度指数输出银行数字化转型成熟度评价结果;
数据存储模块,用于存储收集到的数据和计算产生的数据,以及存储最终的成熟度指数和评价结果。
2.根据权利要求1所述的一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,多端采集各官方机构原始数据,包括:
所述官方机构,包括银行业管理机构、银行业官方认证协会、国有行和全国性股份制银行;
所述多端采集方式,包括通过网络爬虫采集官方文档,以及通过USB、无线网络接口手动上传官方文档。
3.根据权利要求1所述的一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,通过机器学习对采集的文档进行机构化处理、文档去重、关键词提取、指标相关性计算、指标分类分级,并输出三级评价指标体系,包括:
使用深度学习图像文字识别技术对所述采集文档进行结构化处理,具体地,文字识别采用基于CTC的典型算法CRNN,将非结构化的图像转为结构化文档;
使用SimHash算法将所述结构化文档的文本映射为数字形式的Hash签名,并根据SimHash值剔除重复文档;
使用基于隐含主题模型的图方法TPR获取文档的主题分布和对应的关键词,综合不同主题上候选关键词的重要性,得到对候选关键词的最终排序,选取排序最高的若干为推荐关键词,作为初始指标库;
使用DMI点互信息算法对初始指标进行相关性分析,两个指标之间的相关性程度可以表示为:
Figure FDA0003886790020000021
其中,p(x)和p(y)表示其在文档中出现的概率,p(x|y)和p(y|x)表示其条件概率;筛选指标相关性小于阈值的指标作为评价指标;
根据所述评价指标和文档主题的对应关系,设定文档主题为二级指标,各主题对应指标要素为三级指标;根据银行业数字化转型特点,对二级评价指标进行归类,总结评价领域作为一级数字化转型评价指标,包括:科技投入、生态建设、风险与安全、创新与竞争力、发展潜力、社会责任六个领域。
4.根据权利要求1所述的一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,使用神经网络模型对指标权重进行计算,得到各三级指标权重值,包括:
采用BP神经网络模型,根据所述三级指标体系的指标数量确定输入层的输入单元数量;设置各层输出公式以及设置权重的初始化参数;
通过样本集训练神经网络模型,其拓扑结构表示为:
Figure FDA0003886790020000022
其中,
Figure FDA0003886790020000023
表示指标权重预测结果向量;X表示输入层指标输入向量;V表示输入层到隐藏层的权值向量;P1表示输入层到隐藏层的偏置项;σ1表示输入层到隐藏层的激活函数;W表示隐藏层到输出层的权值向量;P2表示隐藏层到输出层的偏置项;σ2表示隐藏层到输出层的激活函数;
损失函数表示为:
Figure FDA0003886790020000024
其中,θ表示参数集合,yi表示第i个指标权重真实值,
Figure FDA0003886790020000025
表示第i个指标权重预测值,l表示输出层单元个数;
样本训练集的第i个指标对应的权重表示为:
Figure FDA0003886790020000026
其中,vij表示第i个指标的权重在第j个输出单元的权值;通过重复迭代训练神经网络模型,直到损失函数小于设定的阈值,则神经网络模型训练完成;
将三级评价指标的初始值输入已经训练好的神经网络模型计算,得到各三级评价指标对应权重。
5.根据权利要求1所述的一种基于大数据和机器学***均值、样本标准差、标准评价值,并根据标准评价值和指标权重逐级向上加权汇总,得到被评价银行的数字化转型成熟度指数,包括:
根据已经获取到的官方数据,针对每一个三级评价指标i计算其样本均值:
Figure FDA0003886790020000031
计算样本标准差:
Figure FDA0003886790020000032
其中,n表示银行机构的数量;针对第t个一级指标对应的第k个二级指标下的第u个三级指标,At,k,i,j表示该指标第j个机构的实际取值,Met,k,i表示该指标的平均值,St,k,i表示该指标的标准差。
使用z-score变换得到每个指标的标准化评价值:
Figure FDA0003886790020000033
其中,Xt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的实际取值;Yt,k,i表示被评价机构三级指标i的标准化评价值,取值范围为[0,100];
应用算数加权法逐级向上汇总,得到被评价机构数字化转型的相对成熟度指数:
三级指标加权汇总为二级指标标准化评价值:
Figure FDA0003886790020000034
其中,Vt,k,i表示被评价机构在第t个一级指标对应的第k个二级指标下的第i个三级指标的权重;I表示被评价机构的三级指标数量;Zt,k表示被评价机构第t个一级指标对应的第k个二级指标标准化评价值;
二级指标加权汇总为一级指标标准化评价值:
Figure FDA0003886790020000035
其中,K表示被评价机构的二级指标数量;Ft表示被评价机构第t个一级指标标准化评价值;
一级指标加权汇总为成熟度指数:
Figure FDA0003886790020000041
其中,T表示被评价机构的一级指标数量;R表示被评价机构数字化转型成熟度指数。
6.根据权利要求1所述的一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,根据***计算得到的数字化转型成熟度指数输出银行数字化转型成熟度评价结果,包括:
银行数字化转型成熟度R取值范围为(0,100),其数值越大表示银行数字化转型成熟度越高,覆盖面越广,对外输出能力越强,客户体验越好,成长性越高。
7.根据权利要求1所述的一种基于大数据和机器学习的银行数字化转型成熟度评价***,其特征在于,将收集的数据和计算产生的数据进行存储,包括:
所述存储数据包括采集的原始资料数据、抽取得到的关键词、相关性小于阈值的评价指标、指标相关性系数、神经网络模型计算得到的指标权重、指标行业平均值和标准差、指标标准化评价值、数字化转型的相对成熟度指数以及成熟度评价结果。
8.一种基于大数据和机器学习的银行数字化转型成熟度评价电子设备,其特征在于,包括:
存储器用于存储一个或多个程序,包括所述基于大数据和机器学习的银行数字化转型成熟度评价***,以及权利要求1-7采集的数据和计算结果;
处理器用于执行存储器中的计算机程序;
通信总线用于处理器、存储器、输入、输出设备之间传递数据信息,包括数据总线、地址总线和控制总线;
通信接口用于计算机之间或计算机与其他终端之间的数据传输。
9.一种包含计算机程序的非暂态计算机可读存储介质,其特征在于,该存储介质所包含的计算机程序被处理器执行时实现权利要求1至7所述的基于大数据和机器学习的银行数字化转型成熟度评价***。
CN202211248013.1A 2022-10-12 2022-10-12 基于大数据和机器学习的银行数字化转型成熟度评价*** Pending CN115796635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211248013.1A CN115796635A (zh) 2022-10-12 2022-10-12 基于大数据和机器学习的银行数字化转型成熟度评价***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211248013.1A CN115796635A (zh) 2022-10-12 2022-10-12 基于大数据和机器学习的银行数字化转型成熟度评价***

Publications (1)

Publication Number Publication Date
CN115796635A true CN115796635A (zh) 2023-03-14

Family

ID=85432842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211248013.1A Pending CN115796635A (zh) 2022-10-12 2022-10-12 基于大数据和机器学习的银行数字化转型成熟度评价***

Country Status (1)

Country Link
CN (1) CN115796635A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384841A (zh) * 2023-05-31 2023-07-04 成都智慧企业发展研究院有限公司 一种企业数字化转型诊断评价方法及服务平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384841A (zh) * 2023-05-31 2023-07-04 成都智慧企业发展研究院有限公司 一种企业数字化转型诊断评价方法及服务平台
CN116384841B (zh) * 2023-05-31 2023-08-15 成都智慧企业发展研究院有限公司 一种企业数字化转型诊断评价方法及服务平台

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
US20230031738A1 (en) Taxpayer industry classification method based on label-noise learning
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及***
CN106649561A (zh) 面向税务咨询业务的智能问答***
CN109710768B (zh) 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN109933792B (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN111666373A (zh) 一种基于Transformer的中文新闻分类方法
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价***
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN115827871A (zh) 互联网企业分类的方法、装置和***
CN114443840A (zh) 一种文本分类方法、装置及设备
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和***
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
Lee et al. A two-level recurrent neural network language model based on the continuous Bag-of-Words model for sentence classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination