CN113177733A - 基于卷积神经网络的中小微企业数据建模方法及*** - Google Patents

基于卷积神经网络的中小微企业数据建模方法及*** Download PDF

Info

Publication number
CN113177733A
CN113177733A CN202110554758.XA CN202110554758A CN113177733A CN 113177733 A CN113177733 A CN 113177733A CN 202110554758 A CN202110554758 A CN 202110554758A CN 113177733 A CN113177733 A CN 113177733A
Authority
CN
China
Prior art keywords
data
neural network
convolutional neural
training
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110554758.XA
Other languages
English (en)
Other versions
CN113177733B (zh
Inventor
王鑫
王莹
陈进东
张健
曹丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110554758.XA priority Critical patent/CN113177733B/zh
Publication of CN113177733A publication Critical patent/CN113177733A/zh
Application granted granted Critical
Publication of CN113177733B publication Critical patent/CN113177733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于卷积神经网络的中小微企业数据建模方法及***,本发明是卷积神经网络在中小微企业信息处理领域的具体应用,进一步拓展了深度学习算法的应用范围,方法具有较高的针对性和实用性,对于企业的信息既用到了时序信息(如财务信息等),也用到了非时序信息(如企业信息等),这在卷积神经网络的具体应用中具有较高的创新性,并通过信用风险识别的应用场景说明了对时序信息与非时序信息特征提取与融合的具体方法及流程。

Description

基于卷积神经网络的中小微企业数据建模方法及***
技术领域
本发明属于企业数据处理技术领域,具体涉及基于卷积神经网络的中小微企业数据建模方法及***。
背景技术
企业的数据包括时间序列特征的数据和非时间序列特征的数据,其中,时间序列特征的数据主要是财务数据,非时间序列特征的数据主要是非财务数据,其中,财务数据是衡量一个公司偿债能力、发展能力、盈利能力、经营能力的重要指标,非财务数据包括注册资本、成立年限、教育背景、企业主从业年限等企业信息,能够在一定程度上反应一个公司的实力。
大数据背景下,互联网金融数据日益复杂化,通过使用在互联网上采集到的中小微企业基本信息、动态财务指标,构建全面客观的线上数据采集***,使用深度学习方法,能够有效处理具有时间序列特征的复杂金融数据和具有非时序特征的企业信息。卷积神经网络作为深度学习方法,能够对具有时间序列特点的财务数据与复杂的金融数据进行更深层准确地判断。近年来,卷积神经网络被引入到互联网、金融领域,评估个人信用、客户信用与企业信用风险。卷积神经网络不仅可以从数据中自动提取特征,同时其网络结构具有很强的学习能力。通过对网络结构的调整,卷积神经网络不仅可以对具有时间序列特征的数据进行深度学习,进行精准预测分析,还可以对企业信息等非财务数据进行分析。
针对现有技术中对于中小微企业的数据处理的模型存在不精确的问题,并且还存在成本高、复杂、时效低等问题,引入卷积神经网络,将卷积神经网络和时间序列数据、非时间序列数据的处理方法相结合,提出基于卷积神经网络的中小微企业数据建模方法。
发明内容
本发明的目的在于提供基于卷积神经网络的中小微企业数据建模方法及***,从而解决企业信用风险评价的高成本、高复杂、低时效的问题,处理后的数据更精确,对衡量企业的主要指标具有更重要的指导意义。
为了实现上述目的,本发明采用如下技术方案:
一种基于卷积神经网络的中小微企业数据建模方法,所述方法包括:
(1)采集中小微企业相关数据;
(2)对采集的数据进行预处理;
(3)构建卷积神经网络模型;
(4)对构建的卷积神经网络模型进行训练和测试,优化和确定卷积神经网络模型的参数。
优选地,步骤(2)中的所述预处理包括缺失值处理和数据标准化处理。所述缺失值处理为对下载的数据集进行缺失值填充,即用该指标序列的全局平均值填充当前缺失值,获得一个完整数据集;所述数据标准化处理采用z-score标准化处理。
步骤(4)所述对构建的卷积神经网络模型进行训练和测试的方法为:对采集的企业数据进行随机划分,分为训练集和测试集,以训练集数据为输入,对卷积神经网络模型进行迭代训练,然后以测试集对模型进行测试,并根据测试结果进行参数调整。
所述卷积神经网络模型包括两个并行的子卷积神经网络,分别用于接收时间序列特征的数据和非时间序列特征的数据。
对于时间序列特征数据的子卷积神经网络:第一层卷积层使用1×3和3×1两个卷积核,提取不同指标间的相关特征和同一指标的时序特征,然后通过2×2的最大池化层,再接一层只包括3×3单卷积核的卷积层,来对特征进一步提取,最后再经过一层2×2最大池化层进行降采样;
对于非时间序列特征数据的子卷积神经网络:只使用了一层1×3的卷积核,之后使用一层2×2的池化层来进行特征提取;
两个子卷积神经网络的输出矩阵最后均经过flatten平铺,把多维的输入一维化,合并后通过一层全连接层,全连接层之后的输出层选择softmax函数作为输出分类器。
对卷积神经网络模型进行优化具体采用:目标损失函数为“binary-crossentropy”,优化器为Adam,衡量模型好坏的标准是精度accuracy,之后在训练模型过程中,validation-split取值0.2,每个epoch前随机打乱输入样本的顺序,每批训练的数据量大小为10,训练50次。
本发明还公开了一种基于卷积神经网络的中小微企业数据处理***,所述***包括:
至少一个存储单元;
至少一个处理单元;
所述存储单元存储有至少一条指令;所述指令由至少一个处理单元加载并执行如下步骤:
采集中小微企业相关数据;
对采集的数据进行预处理;
构建卷积神经网络模型;
对构建的卷积神经网络模型进行训练和测试,优化和确定卷积神经网络模型的参数。
所述处理单元包括:
数据采集子单元:用于采集中小微企业相关数据;
数据预处理子单元:对采集的数据进行预处理;
模型构建子单元:用于构建卷积神经网络模型;
训练子单元:用于对构建的卷积神经网络模型进行训练和测试。
本发明的优点:
(1)本发明是卷积神经网络在中小微企业信息处理领域的具体应用,进一步拓展了深度学习算法的应用范围,方法具有较高的针对性和实用性,对于企业的信息既用到了时序信息(如财务信息等),也用到了非时序信息(如企业信息等),这在卷积神经网络的具体应用中具有较高的创新性,通过定量与定性的多维度数据分析能够更加准确的体现中小微企业的基本情况。
(2)在数据处理过程中,分别对具有时间序列特征的数据和非时间序列特征的数据采用不同的处理方法,考虑到具有时间序列特征数据的输入特征较多,为了提高其分类准确率,与具有时间序列特征数据连接的子卷积网络采用两个卷积层和两个池化层。考虑到非时间序列特征数据的输入特征较少,为了避免卷积层和池化层的层数过多,可能会面临梯度消失和***的问题,产生过拟合现象,因此与不具有时间序列特征数据连接的子卷积网络只采用了一个卷积层和一个池化层。为验证方法的有效性,利用中小微企业数据进行了评测,结果显示,训练集的准确率为0.95,验证集的准确率为0.99,分类准确率较高,且没产生过拟合现象。所以对具有时间序列特征的数据和非时间序列特征的数据采用不同的处理方法,提高了企业数据的处理准确率,能够更加准确的体现中小微企业的基本情况。
附图说明
图1是分别采用不同层数的卷积和池化层训练集准确率;
图2是分别采用不同层数的卷积和池化层验证集准确率;
图3是均采用2层卷积和2层池化层训练集准确率;
图4是均采用2层卷积和2层池化层验证集准确率;
图5是均采用1层卷积和1层池化层训练集准确率;
图6是均采用1层卷积和1层池化层验证集准确率;
图7是采用卷积神经网络对中小微企业数据处理过程。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。
除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。
实施例1一种基于卷积神经网络的中小微企业数据建模方法
一、采集企业相关数据:
首先,从国泰安数据库中选取中小企业板和创业板制造业,ST与非ST公司共1158个中小微企业,参考张发明2019年发表于《管理学报》的《基于改进动态组合评价方法的小微企业信用评价研究》文献,财务因素分为盈利能力、偿债能力、营运能力和成长能力4个维度,非财务因素分为企业素质、企业主素质2个维度。财务指标选取2017年12月31日、2018年12月31日、2019年12月31日的数据,非财务指标选取2019年12月31日的数据。具体指标选取如表1所示:
表1中小微企业基本信息
Figure BDA0003074990830000041
其次,对企业基本情况下的非财务数据进行量化,具体量化方法可以参考张发明2019年发表于《管理学报》的《基于改进动态组合评价方法的小微企业信用评价研究》文献,将企业注册资本、成立年限、教育背景和企业主从业年限等非财务指标数据按阈值直接量化为[0,1]间的数值,例如将注册资本按1亿元和10亿元两个阈值划分为三个区间,并分别量化为0.6、0.8和1;成立年限大于9年,量化为1,在(7,9],量化为0.8,在(5,7],量化为0.6,在(3,5],量化为0.4,在(1,3],量化为0.2,小于等于1年,量化为0;教育背景为研究生及以上,量化为1,本科量化为0.8,大专量化为0.7,高中和中专量化为0.5,初中量化为0.3,小学量化为0.1,无学历量化为0;企业主从业年限大于9年,量化为1,在(7,9],量化为0.8,在(5,7],量化为0.6,在(3,5],量化为0.4,在(1,3],量化为0.2,小于等于1年,量化为0。
二、确定中小微企业信用风险判断标准:
以上市中小微企业是否被ST作为是否有信用风险的评判标准,沪深证券交易所在1998年4月22日宣布,根据1998年实施的股票上市规则,将对财务状况或其它状况出现异常的上市公司的股票交易进行特别处理,即(ST),企业被判定为ST是指上市公司至少出现以下六种情况之一的状况:
1)最近两年连续亏损。
2)最近一个会计年度审计结果显示其股东权益低于注册资本,即每股净资产低于股票面值。
3)注册会计师对最近一个会计年度的财务报表出具无法表示意见或是否定意见的审计报告。
4)最近一个会计年度经审计的股东权益扣除注册会计师、有关部门不予确认的部分,低于注册资本。
5)在最近一份经审计的财务报告对上年度收益进行调整,导致连续两个会计年度亏损。
6)经交易所或中国***认定为财务状况异常的。
上市公司成为ST后就意味着公司存在某种程度的偿债能力风险,公司的偿债能力可能削弱,公司存在较高的信用风险,偿还债务能力降低,将其作为信用风险高低的界定标准,ST为信用风险高的企业,非sT为信用风险低的企业;
三、对时间序列特征的数据和非时间序列特征的数据进行预处理:
由于获取到的原始数据可能出现丢失的情况,同时不同指标还会存在量纲不统一等问题,主要表现在指标值大小不均匀,某些指标值是以比重的形式出现,有些指标是以比率的形式出现。首先对于数据缺失的问题,由于每个企业需要获取的指标数据众多,如果使用简单的删除,这样会使得样本数据量极大的减少,并不是一个可取的方式;对于量纲不统一的问题,如果直接分析原始指标值,就会放大某些数值过大的指标对模型的影响,这样就会影响到模型的有效性。因此在使用样本数据对模型进行训练之前,数据需要先进行一些预处理。对数据的预处理包含缺失值处理和数据标准化处理两个步骤。
缺失值处理:由于获取到的原始数据集存在缺值等情况,因此要先对下载的数据集进行缺失值填充,即用该指标序列的全局平均值填充当前缺失值,获得一个完整数据集。
数据标准化处理:由于数据集的数据之间量级不一样,例如盈余现金保障倍数、销售利润率、资本收益率等数据量级之间存在着巨大的差异,为了消除数据之间不同量级的影响,将不同量级的数据统一转化为同一个量级,所以对这些数据进行了z-score标准化处理,首先假定原数据服从正态分布,标准化过程就是通过数据序列的均值和标准差对数据进行处理,经过处理的原始数据符合标准正态分布,它将观测值减去该组观测值的中值(μ),再除以标准差(σ)得到的,有利于提高模型的训练速度和预测精度。公式如下:
x′=(x-μ)/σ
四、构建卷积神经网络模型:
对卷积神经网路模型进行构建,通过对卷积神经网络中的结构以及其中卷积层、池化层、输出层Softmax、全连接层的设计,形成稳定的卷积神经网络模型。
五、对构建的卷积神经网络模型进行训练和测试,学习和优化卷积神经网络模型的参数:
对企业数据信息库中的数据进行随机划分,分为训练集和测试集,以训练集数据为输入,对卷积神经网络模型进行迭代训练,然后以测试集对模型进行测试,并根据测试结果进行参数调整,最终使得模型趋于稳定。
所述模型包括两个并行的子卷积神经网络——第一子网络和第二子网络,分别用于输入具有时间序列特征的财务数据和不具有时间序列特征的非财务数据。
在数据处理过程中,分别对时间序列特征的数据和非时间序列特征的数据采用不同的处理方法,考虑到具有时间序列特征数据的输入特征较多,为了提高其分类准确率,与时间序列特征数据连接的子卷积网络采用两个卷积层和两个池化层。考虑到非时间序列特征数据的输入特征较少,为了避免卷积层和池化层的层数过多,可能会面临梯度消失和***的问题,产生过拟合现象,因此与非时间序列特征数据连接的子卷积网络只采用了一个卷积层和一个池化层,从图1和图2可以看出,其训练集的准确率为0.95,验证集的准确率为0.99,分类准确率较高,且没产生过拟合现象。
如果卷积层和池化层的层数过多,可能会面临梯度消失和***的问题,甚至产生过拟合现象。在本发明的一个实验中,均采用第一子网络来处理这两种数据,在保证其他实验参数设定不变的情况下,对时间序列特征和非时间序列特征的数据均采用两层卷积和两层池化层,结果如图3和图4所示,训练集的准确率为0.85,验证集的准确率为0.87,分类准确率降低。
如果卷积层和池化层的层数过少,模型对数据特征的识别能力较弱,使得分类准确率降低。在本发明的另一个实验中,均采用第二子网络来处理这两种数据,在保证其他实验参数设定不变的情况下,对时间序列特征和非时间序列特征的数据均采用一层卷积和一层池化层,结果如图5和图6所示,训练集的准确率为0.79,验证集的准确率为0.76,分类准确率降低。
所以,具体地,采用如下处理方式:
对于接收时间序列特征数据(本实施例指的是财务数据)的子卷积神经网络:第一层卷积层使用1×3和3×1两个卷积核,提取不同指标间的相关特征和同一指标的时序特征,卷积核深度为128,padding填充为same,BN批量归一化操作,激活函数为relu;然后通过2×2的最大池化层,padding填充为same,Dropout为0.1;再接一层只包括3×3单卷积核的卷积层,来对特征进一步提取,填充为same,卷积核深度为128,BN归一化,激活函数为relu;最后再经过一层2×2最大池化层进行降采样,padding填充为same,Dropout为0.1。
对于接收非时间序列特征数据(本实施例指的是非财务数据)的子卷积神经网络:由于非财务数据不具有时间序列特征,输入信息较少,这部分子网络只使用了一层1×3的卷积核,填充为same,卷积核深度为128,BN归一化,激活函数为relu;之后使用一层2×2的池化层来进行特征提取,dropout操作为0.1。
两个子卷积神经网络的输出矩阵最后经过flatten平铺,把多维的输入一维化,合并后通过一层全连接层,最后输出层选择softmax函数作为输出分类器。
优化模型,目标损失函数是“binary-crossentropy”,优化器为Adam(学习率为0.004),衡量模型好坏的标准是精度accuracy;之后在训练模型过程中,validation-split取值0.2,每个epoch前随机打乱输入样本的顺序,每批训练的数据量大小为10,训练50次。
训练过程对训练集中每一个样本进行处理,对输出结果与标签分类结果求损失用于训练,测试集用于得到输出结果与标签分类结果进行准确率计算,不参与训练;对于每一样本数据(即每一企业的数据)采用下述方法进行训练,使得数据趋于稳定:
1)输入企业财务数据input_1,数据结构为(None,3,43,1);输入企业非财务数据input_2,数据结构为(None,1,4,1)。
2)对于第一个子网络,将步骤1)企业财务数据input_1进行第一层卷积操作:第一层卷积层包括两个卷积,分别使用1×3和3×1两个卷积核,其中1×3的卷积核,目的是提取不同指标间的相关特征,而3×1的卷积核,目的是提取同一指标的时序特征。根据卷积核分解,将n×n的卷积核分解成两个一维的卷积(1×n,n×1),这样做既可以加速计算减少参数规模,又因为将卷积核的数量翻倍,因此增加了网络深度及非线性;填充都为same,保证了经过卷积后输入向量大小不变;卷积核深度为128,padding填充为same;BN批量归一化操作;激活函数为relu,ReLU函数与Sigmoid函数相比,ReLU在x≥0部分消除了“梯度饱和效应”,且ReLU的计算更简单。但ReLU本身也存在缺陷:如果输入变为负值,其梯度等于0将无法成功完成网络训练。即便如此,ReLU仍然是当前深度学习领域中最为常用的激活函数之一。该模型所使用的激活函数均为ReLU。
两个卷积输出形状都为(None,3,43,128)。
3)对于第一个子网络,连接操作:将步骤2)第一层卷积操作的两个卷积输出的结果(None,3,43,128),在深度上进行拼接,输出结果为(None,3,43,256)。
4)对于第一个子网络,最大池化:将步骤3)拼接的输出结果(None,3,43,256),通过2×2的最大池化层,padding填充为same,Dropout为0.1,输出结果(None,2,22,256)。
5)对于第一个子网络,进行第二层卷积操作:将步骤4)输出结果(None,2,22,256),使用3×3的卷积核;填充为same,保证了经过卷积后输入向量大小不变;卷积核深度为128;BN归一化;激活函数为relu,输出结果为(None,2,22,128)。
6)对于第一个子网络,第二个最大池化:将步骤5)输出结果(None,2,22,128),经过一层2×2最大池化层进行降采样;padding填充为same,dropout操作为0.1,输出结果为(None,1,11,128)。
7)对于第一个子网络,平铺层:Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡,将步骤6)输出结果(None,1,11,128)平铺,输出结果为(None,1408)。
8)对于第二个子网络,将步骤7)企业非财务数据input_2卷积操作:使用了一层1×3的卷积核;填充为same,保证了经过卷积后输入向量大小不变;卷积核深度为128;BN归一化;激活函数为relu,输出结果为(None,1,4,128)。
9)对于第二个子网络,最大池化:将步骤8)输出结果(None,1,4,128)使用一层2×2的池化层;dropout操作为0.1,输出结果为(None,1,2,128)。
10)对于第二个子网络,平铺层:Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡,将步骤9)输出结果(None,1,2,128)平铺,输出结果为(None,256)。
11)将第一个子网络和第二个子网络进行拼接操作,将步骤7)输出结果(None,1408)与步骤10)输出结果(None,256)进行拼接,输出结果为(None,1664)。
12)全连接操作:将步骤11)输出结果(None,1664)进行全连接操作,units=128,激活函数为relu,输出结果为(None,128)。
18)输出层:选择softmax函数作为输出分类器。
19)编译模型,优化模型:目标损失函数是“binary-crossentropy”(二分类损失函数),优化器为Adam(学习率为为0.004),衡量模型好坏的标准是精度accuracy。
20)训练模型:validation-split(取值0.2),即每次训练指定训练集中的五分之一的数据作为验证集,在每轮训练结束后用来测试模型的相关指标,如精确度、损失函数等。且shuffle值定为true,表示在训练过程中每个epoch前随机打乱输入样本的顺序,保证了验证集的随机性,增加了模型的鲁棒性。每批数据量的大小batch-size(取值10),表示训练过程中,每批训练的数据量大小为10。训练次数epochs(取值50),表示训练50次。
实施例2
一种基于卷积神经网络的中小微企业数据建模***,所述***包括:
至少一个存储单元;
至少一个处理单元;
所述存储单元存储有至少一条指令;所述指令由至少一个处理单元加载并执行如下步骤:
采集中小微企业相关数据;
对采集的数据进行预处理;
构建卷积神经网络模型;
对构建的卷积神经网络模型进行训练和测试,学习和优化卷积神经网络模型的参数。
所述处理单元包括:
数据采集子单元:用于采集中小微企业相关数据;
数据预处理子单元:对采集的数据进行预处理;
模型构建子单元:用于构建卷积神经网络模型;
训练子单元:用于对构建的卷积神经网络模型进行训练和测试。
上述***具体的数据处理过程采用实施例1的方法。
以上所述之实施例,只是本发明的较佳实施例而已,仅仅用以解释本发明,并非限制本发明实施范围,对于本技术领域的技术人员来说,当然可根据本说明书中所公开的技术内容,通过置换或改变的方式轻易做出其它的实施方式,故凡在本发明的原理上所作的变化和改进等,均应包括于本发明申请专利范围内。

Claims (9)

1.基于卷积神经网络的中小微企业数据建模方法,其特征在于,所述方法包括:
(1)采集中小微企业相关数据;
(2)对采集的数据进行预处理;
(3)构建卷积神经网络模型;
(4)对构建的卷积神经网络模型进行训练和测试,优化和确定卷积神经网络模型的参数。
2.根据权利要求1所述的方法,其特征在于,步骤(2)中的所述预处理包括缺失值处理和数据标准化处理。
3.根据权利要求1所述的方法,其特征在于,所述缺失值处理为对下载的数据集进行缺失值填充,即用该指标序列的全局平均值填充当前缺失值,获得一个完整数据集;所述数据标准化处理采用z-score标准化处理。
4.根据权利要求1所述的方法,其特征在于,步骤(4)所述对构建的卷积神经网络模型进行训练和测试的方法为:对采集的企业数据进行随机划分,分为训练集和测试集,以训练集数据为输入,对卷积神经网络模型进行迭代训练,然后以测试集对模型进行测试,并根据测试结果进行参数调整。
5.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型包括两个并行的子卷积神经网络,分别用于接收时间序列特征的数据和非时间序列特征的数据。
6.根据权利要求5所述的方法,其特征在于,对于接收时间序列特征数据的子卷积神经网络:第一层卷积层使用1×3和3×1两个卷积核,提取不同指标间的相关特征和同一指标的时序特征,然后通过2×2的最大池化层,再接一层只包括3×3单卷积核的卷积层,来对特征进一步提取,最后再经过一层2×2最大池化层进行降采样;
对于非时间序列特征数据的子卷积神经网络:只使用了一层1×3的卷积核,之后使用一层2×2的池化层来进行特征提取;
两个子卷积神经网络的输出矩阵最后均经过flatten平铺,把多维的输入一维化,合并后通过一层全连接层,全连接层之后的输出层选择softmax函数作为输出分类器。
7.根据权利要求1所述的方法,其特征在于,对卷积神经网络模型进行优化具体采用:目标损失函数为“binary-crossentropy”,优化器为Adam,衡量模型好坏的标准是精度accuracy,之后在训练模型过程中,validation-split取值0.2,每个epoch前随机打乱输入样本的顺序,每批训练的数据量大小为10,训练50次。
8.一种基于卷积神经网络的中小微企业数据处理***,其特征在于,所述***包括:
至少一个存储单元;
至少一个处理单元;
所述存储单元存储有至少一条指令;所述指令由至少一个处理单元加载并执行如下步骤:
采集中小微企业相关数据;
对采集的数据进行预处理;
构建卷积神经网络模型;
对构建的卷积神经网络模型进行训练和测试,优化和确定卷积神经网络模型的参数。
9.根据权利要求8所述的***,其特征在于,所述处理单元包括:
数据采集子单元:用于采集中小微企业相关数据;
数据预处理子单元:对采集的数据进行预处理;
模型构建子单元:用于构建卷积神经网络模型;
训练子单元:用于对构建的卷积神经网络模型进行训练和测试。
CN202110554758.XA 2021-05-20 2021-05-20 基于卷积神经网络的中小微企业数据建模方法及*** Active CN113177733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554758.XA CN113177733B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的中小微企业数据建模方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554758.XA CN113177733B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的中小微企业数据建模方法及***

Publications (2)

Publication Number Publication Date
CN113177733A true CN113177733A (zh) 2021-07-27
CN113177733B CN113177733B (zh) 2023-05-02

Family

ID=76929521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554758.XA Active CN113177733B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的中小微企业数据建模方法及***

Country Status (1)

Country Link
CN (1) CN113177733B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114331226A (zh) * 2022-03-08 2022-04-12 天津联创科技发展有限公司 一种企业需求智能诊断方法、***以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272202A (zh) * 2018-08-24 2019-01-25 中国科学院大学 一种基于卷积神经网络的企业信用评级方法及***
CN110033021A (zh) * 2019-03-07 2019-07-19 华中科技大学 一种基于一维多路卷积神经网络的故障分类方法
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
US20200027000A1 (en) * 2018-07-23 2020-01-23 Samsung Electronics Co., Ltd. Methods and systems for annotating regulatory regions of a microbial genome
CN110826380A (zh) * 2018-08-14 2020-02-21 上海汇付数据服务有限公司 一种异常签名的识别方法及其***
CN111292007A (zh) * 2020-02-28 2020-06-16 中国工商银行股份有限公司 供应商财务风险预测方法及装置
CN112686498A (zh) * 2020-12-11 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于深度卷积网络的企业信用评级方法
CN112786120A (zh) * 2021-01-26 2021-05-11 云南大学 神经网络辅助化学材料合成的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
US20200027000A1 (en) * 2018-07-23 2020-01-23 Samsung Electronics Co., Ltd. Methods and systems for annotating regulatory regions of a microbial genome
CN110826380A (zh) * 2018-08-14 2020-02-21 上海汇付数据服务有限公司 一种异常签名的识别方法及其***
CN109272202A (zh) * 2018-08-24 2019-01-25 中国科学院大学 一种基于卷积神经网络的企业信用评级方法及***
CN110033021A (zh) * 2019-03-07 2019-07-19 华中科技大学 一种基于一维多路卷积神经网络的故障分类方法
CN111292007A (zh) * 2020-02-28 2020-06-16 中国工商银行股份有限公司 供应商财务风险预测方法及装置
CN112686498A (zh) * 2020-12-11 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于深度卷积网络的企业信用评级方法
CN112786120A (zh) * 2021-01-26 2021-05-11 云南大学 神经网络辅助化学材料合成的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴春霖;李琦;侯俊雄;KARIMIAN HAMED;陈工;: "卷积神经网络的PM2.5预报模型" *
李孝虔: "基于卷积神经网络的心脏病预测方法研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114331226A (zh) * 2022-03-08 2022-04-12 天津联创科技发展有限公司 一种企业需求智能诊断方法、***以及存储介质

Also Published As

Publication number Publication date
CN113177733B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和***
CN111507831A (zh) 信贷风险自动评估方法和装置
Zekić-Sušac et al. Predicting company growth using logistic regression and neural networks
CN112102073A (zh) 信贷风险控制方法及***、电子设备及可读存储介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN110796539A (zh) 一种征信评估方法及装置
Bakhach et al. TSFDC: A trading strategy based on forecasting directional change
CN116468273A (zh) 客户风险识别方法及装置
Haryono et al. Aspect-based sentiment analysis of financial headlines and microblogs using semantic similarity and bidirectional long short-term memory
CN113177733A (zh) 基于卷积神经网络的中小微企业数据建模方法及***
CN117575773A (zh) 业务数据的确定方法、装置、计算机设备、存储介质
Cucaro The bankruptcy prediction model Z-ScoreM for Italian Manufacturing Listed Companies and Z'-ScoreM for Italian Industrial Company
CN117422321A (zh) 专利价值评估方法、装置、电子设备和存储介质
CN116128339A (zh) 客户信用评估方法及装置、存储介质及电子设备
CN114626940A (zh) 数据分析方法、装置及电子设备
CN117252677A (zh) 信贷额度确定方法和装置、电子设备及存储介质
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
Araghi Evaluating predictive power of data envelopment analysis technique compared with logit and probit models in predicting corporate bankruptcy
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置
CN117291740B (zh) 一种基于大数据的应收账款资料真实性智能识别审核***
Wang et al. A comparative study with quantile regression and back propagation neural network for credit rating
CN116304929A (zh) 一种基于a股市场的财务操纵识别方法及装置
Tao et al. Credit risk assessment of P2P lending borrowers based on SVM
Hwang et al. Stock selection using data envelopment analysis-discriminant analysis
CN117994017A (zh) 构建零***风险预测模型的方法和线上信贷业务Scoredelta模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant