CN115795035A - 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质 - Google Patents

基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质 Download PDF

Info

Publication number
CN115795035A
CN115795035A CN202211527115.7A CN202211527115A CN115795035A CN 115795035 A CN115795035 A CN 115795035A CN 202211527115 A CN202211527115 A CN 202211527115A CN 115795035 A CN115795035 A CN 115795035A
Authority
CN
China
Prior art keywords
individual
data
neural network
scientific
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211527115.7A
Other languages
English (en)
Inventor
费敏锐
吴限
周文举
仵大奎
易开祥
徐昱琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202211527115.7A priority Critical patent/CN115795035A/zh
Publication of CN115795035A publication Critical patent/CN115795035A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于进化神经网络的科技服务资源分类方法,该方法利用新型优化算法结合极限学习机网络,同时优化随机隐藏层和输出层参数,提高科技服务资源分类模型训练效率的同时,增强文本数据分类准确率,能够对汇集的科技服务资源按照行业划分进行自动化分类和整合。还包括一种相应的***,具体包括:数据集构建模块,抽取不同类型资源数据,按行业划分类别并添加标签,构建分类训练和测试数据集;数据预处理模块,清洗数据集数据,并进行汉语分词、去停用词、Word2Vec向量化处理,得到所有数据的特征向量和词库;网络进化模块,基于榕树生长优化算法(BTGO)算法与ELM构建进化神经网络,应用新型更新算子优化隐藏层和输出层参数;资源分类模块,使用进化得到的神经网络模型,对科技服务资源测试集的文本数据进行模型评估,并对未知数据进行自动化资源分类。

Description

基于进化神经网络的科技服务资源分类方法、***及其计算 机可读存储介质
技术领域
本发明属于大数据处理技术领域,尤其涉及现代服务业中的科技服务技术领域,具体涉及一种基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质。
背景技术
科技服务业在为各种科技创新活动提供全方位服务的同时,也大大带动了经济增长和科技进步,已成为现代服务业的重要一环。科技服务资源作为科技服务的基础要素,对其进行有效整合能够提高资源利用率和成果转化效率。科技资源包括人才信息、知识产权、专利技术等类型,主要由文本数据组成,针对海量文本信息如何快速有效提取特征并进行分类是当前机器学习模型需要解决的问题。
目前,对文本数据的分类算法包括决策树、支持向量机、K最邻近算法、神经网络等,这些方法实现简单,但对于维度高、稀疏性大的科技资源数据往往存在精度不足的问题。极限学习机(Extreme Learning Machine,ELM)是一种新型前馈神经网络训练算法,利用随机设定的输入层和隐藏层权重和偏置,并结合广义逆矩阵计算得到输出层权重。ELM具有良好的数据拟合和泛化能力,同时由于其实现简单和训练速度快等特点,被广泛应用于分类、拟合等任务中。
由于ELM引入了随机的隐藏层权重,在训练时降低了训练复杂度,但其随机的参数设置往往难以保证实际应用中的稳定性和可靠性。因此,许多研究中基于元启发优化算法对ELM的随机参数进行优化,在多次迭代求解后全局化提高网络性能。如利用粒子群优化、遗传算法、差分进化等对隐藏层、输入层权值、结构等进行搜索,以形成进化神经网络方法。然而这些进化神经网络方法只关注于随机参数的优化,对于输出层参数未能有效利用和优化,因此需要改进和研究新型进化神经网络方法。
目前,针对科技服务资源数据处理方法,中国专利申请号“CN201410260379.X”公开了“一种基于文本分类和图像深度挖掘的科技情报获取与推送方法”;中国专利申请号“CN201811127718.1”公开了“一种基于大数据的农业科技服务智能分拣方法”;中国专利申请号“CN202110554334.3”公开了“一种基于知识图谱的科技文献分类方法”;中国专利申请号“CN201510846339.8”公开了“基于改进自适应遗传算法的神经网络图像分类方法”;中国专利申请号“CN201610012847.0”公开了“一种基于多局部搜索的神经网络进化方法”;中国专利申请号“CN201510714025.2”公开了“一种基于进化算法的自适应学习神经网络实现方法”。在已公开的发明或文献中,未提到使用基于本发明的进化神经网络方法的科技服务资源数据分类方法的实例。
发明内容
本发明提供了一种基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质,利用基于新型优化算法的进化神经网络对海量科技资源文本数据进行分类,提高科技服务资源分类模型训练效率的同时,增强文本数据分类准确率。基于以上目的,本发明所采取技术方案如下:
该基于进化神经网络的科技服务资源分类方法,其主要特点是,所述的方法包括以下步骤:
(1)抽取不同类型的科技服务资源数据,根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
(2)对数据集的文本数据进行汉语分词、去停用词处理,使用Word2Vec方法进行文本向量化,得到各数据的特征向量和词库,用于后续模型进化与评估;
(3)基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于资源分类;
(4)使用上述获得的最终神经网络模型,对科技服务资源数据的测试数据集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
优选地,在步骤(1)中,抽取的资源数据类型包含人才信息、知识产权、专利技术等类型,包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据,按照比例划分训练、验证和测试集,以满足实际资源整合需求。
优选地,在步骤(2)中,对步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后,利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理,将其转化为稠密的特征向量,并通过整理所有文本数据,得到数据集的特征向量及One-hot编码标签,用于后续模型进化与评估。
优选地,在步骤(3)中,应用榕树生长优化算法对ELM网络的所有参数进行编码优化,利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化,以同时达到预测准确率和训练速度最优。
较佳地,所述步骤(3)进行初始化优化处理具体包括以下步骤:
(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数,设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值Tgrowth、再生阶段阈值Trecover;设置ELM的网络隐层节点数目;
(3.2)设置优化算法的适应度函数,即由xi确定的神经网络在测试集的分类错误率,采用以下公式进行表示:
Figure BDA0003975246260000031
其中,TP、TN分别为将正类预测为正类数和将负类预测为负类数,FP、FN分别为将负类预测为正类数和将正类预测为负类数;
(3.3)BTGO采用实数编码框架,每个枝叶个体表示一组神经网络参数W,由神经网络的隐藏层权重Whidden和输出层权重Woutput两部分组成,第i个个体可表示为:
xi=[Whidden;Woutput]
=[xi,1,xi,2,…,xi,h,xi,h+1,…,xi,D] (2)
其中,h为神经网络隐藏层权重及偏差数目之和,D为所有权重数目之和;
(3.4)随机初始化BTGO种群中的80%个体,该部分个体的序号集合记为I(i∈I),即个体xi(i∈I)所有维度上的取值均为[-1,1]范围内的随机值,其计算如式(3)所示:
xij=xmin,j+r×(xmax,j-xmin,j) (3)
其中,xmin,j和xmax,j分别表示解空间的最小值和最大值,r为[0,1]范围的随机值;
(3.5)对于所述步骤(3.4)的剩余20%个体,其序号集合记为I*,表示隐藏层权重部分的位置为随机产生,表示输出层权重部分由ELM的广义逆MPP公式计算得到,即个体xi(i∈I*)前h位由式(3)计算,其余位的计算如式(4)所示,完整的计算如式(5)所示。
Figure BDA0003975246260000032
Figure BDA0003975246260000033
其中H为隐藏层输出矩阵,X为输入矩阵,β为输出层权重,βm表示由广义逆计算得到的输出层权重β的第m位;
(3.6)以此应用初始种群中的个体所保存的参数xi构建网络模型oi,并预测测试集的标签
Figure BDA0003975246260000034
Figure BDA0003975246260000041
其中g()为神经网络的激活函数,具体为sigmoid函数,比较预测标签
Figure BDA0003975246260000042
和真实标签y计算分类错误率,并根据步骤(3.2)中的式(1)计算个体的适应度值;
(3.7)初始化BTGO气生根位置Proot并将其作为个体历史最优位置,按照种群中个体的适应度排名进行枝干群划分,将其按从小到大依次划分至m个子群,每个枝干群的最佳适应度个体作为该子群的最优位置,记为Ptrunk
(3.8)所有子群中自适应度值最小的个体视为当前最佳位置Pbest,并更新最佳位置适应度值。
较佳地,所述步骤(3)进行网络模型优化完整处理具体包括以下步骤:
(3.9)记counti为个体i未更新次数,若当前个体i的适应度值相比其气生根个体
Figure BDA0003975246260000043
更小,则将counti的值置为0,否则其值加1;
(3.10)根据counti的值执行BTGO不同更新算子,产生新的榕树种群个体,其中对于个体i∈I*的前h位由更新算子更新,其余位由式(5)计算得到:个体i未更新次数counti低于Tgrowth时,以pr的概率选择执行气生根算子或多树干算子;当大于Tgrowth小于Trecover时,执行调节算子产生新种群;
(3.11)执行生根算子或部分广义逆更新个体:个体随机概率小于pr时,执行生根算子更新如下:
Figure BDA0003975246260000044
其中,r为[-1,1]间的随机数,F为比例因子,满足上述步骤(3.10)中条件个体部分位置执行MPP更新;
(3.12)执行多树干算子或部分MPP方式更新:当个体i的随机概率大于pr时,执行多树干算子,其更新方式如式(8):
Figure BDA0003975246260000045
其中r为[-1,1]范围内的随机数,F为比例因子,
Figure BDA0003975246260000046
为第i个个体所在的树干群体中的最佳位置,同样的,对于满足条件的个体采用MPP更新部分位置;
(3.13)执行调节算子或以MPP方式更新部分位置:当个体的counti累积高于Tgrowth而小于Trecover时BTGO执行调节算子,即从m个树干子群中随机选择一个子群Cr,个体i向该子群最优位置靠近,其表示如下:
Figure BDA0003975246260000047
其中,s是调节因子,并被设置为固定值;
(3.14)执行重生算子或以MPP方式更新个体部分位置:当个体的counti累积大于Trecover时,个体i转而执行重生算子,此时该个体的位置被重新随机初始化,其更新如下:
xij=xmin,j+r×(xmax,j-xmin,j)(10)
若该个体i∈I*,则前h位由式(10)重新初始化,其余位由式(4)计算得到;
(3.15)计算上述更新算子得到的新种群个体xi构建对应的网络模型oi,并根据步骤(3.5)预测标签并计算适应度值;
(3.16)根据个体与各树干种群的空间距离,将其重新划分至距离最近的新树干子群中,其距离与新子群序号计算如下:
Figure BDA0003975246260000051
Figure BDA0003975246260000052
(3.17)比较xi
Figure BDA0003975246260000053
的适应度值,若xi具有更小适应度,则更新对应的气生根位置
Figure BDA0003975246260000054
为xi的位置,并将该个体未更新次数counti清0,否则其次数增加1;
(3.18)更新m个子群的最佳位置Ptrunk和适应度值,更新整个种群的最优个体Pbest及其适应度。
(3.19)判断当前是否达到终止条件,若迭代至最大迭代次数,则返回步骤(3.9)继续执行,否则输出当前数据集中的最优个体及其对应的分类器分类准确率。
优选地,在步骤(4)中,利用以上步骤(3)中的神经网络模型,对未标记和分类的新资源数据进行分类,结合测试数据集评估模型和整合优化资源。
较佳地,所述的步骤(4)具体为:
使用所述步骤(3)获得的最佳参数构建神经网络模型obest,所述的神经网络模型参数由最优个体Pbest所代表的参数构成,其表示如下:
Figure BDA0003975246260000055
其中X为输入向量,
Figure BDA0003975246260000056
Figure BDA0003975246260000057
分别为确定的最佳神经网络隐藏层权重和输出层权重;
选取科技服务资源测试集中的文本数据进行模型评估得到最终模型的准确率,执行以下式(13)对未知数据X进行自动化分类并得到预测结果Y:
Figure BDA0003975246260000058
该实现上述方法的基于进化神经网络的科技服务资源分类***,其主要特点是,所述的***包括:
数据集构建模块,用于抽取不同类型的科技服务资源数据,并根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
数据预处理模块,与所述的数据集构建模块相连接,用于对获取到的数据集进行清除缺失、错误和冗余数据处理,并对其中的文本数据进行汉语分词、去停用词处理,同时使用Word2Vec方法进行文本向量化,得到各个数据的特征向量和词库,用于后续模型进行进化与评估;
网络进化模块,与所述的数据预处理模块相连接,用于基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于进行资源分类;以及
资源分类模块,与所述的网络进化模块相连接,用于基于最佳网络模型对科技服务资源测试集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于进化神经网络的科技服务资源分类方法的各个步骤。
采用了本发明的该基于优化算法的科技服务资源数据处理方法、***及其计算机可读存储介质,具有以下有益效果:
(1)本发明抽取不同行业科技服务资源文本进行训练测试,使用新的元启发优化方法BTGO解决传统神经网络收敛速度慢的问题,有效提高了模型训练速度和质量。
(2)使用BTGO算法的神经网络进化方法,有效优化网络参数提高资源分类准确率,提升机器学习算法的运行效率。
(3)本发明实现简单并易于扩展,本方法可方便扩展至文本分类中的其他资源聚合问题。
附图说明
图1为本发明的基于进化神经网络的科技服务资源分类***的结构图。
图2为本发明的基于进化神经网络的科技服务资源分类方法的步骤2的流程框图。
图3为本发明的基于进化神经网络的科技服务资源分类方法的步骤3初始化阶段的流程框图。
图4为本发明的基于进化神经网络的科技服务资源分类方法的步骤3进行网络优化处理的完整流程框图。
具体实施方式
为更加清晰阐明本发明的技术方案和优势所在,以下部分结合对应实例和图表进行详细叙述。值得注意的是,此处所阐述的具体实例仅用于解释本发明,并不用于限定本发明。
本发明***结构图如图1所示,下面结合优选实例及附图进一步说明,以明确基于BTGO的进化神经网络方法在科技服务资源分类中的应用:
该基于进化神经网络的科技服务资源分类方法,具体包含以下步骤:
步骤1:S1数据集构建模块,抽取不同类型的科技服务资源数据,根据科技服务行业对每条数据划分类别并添加标签,构建分类训练和测试数据集;
(1.1)从实际运营中的科技服务资源库中抽取不同行业元数据,包含人才信息、知识产权、专利技术等类型;
(1.2)根据科技服务行业对每条数据划分类别并添加标签,按照比例划分训练、测试数据集,作为原始样本数据;
步骤2:S2数据预处理模块,对原始数据集进行数据预处理,即清洗缺失、错误和冗余数据,汉语分词、去停用词、文本向量化处理,得到资源数据的特征向量和词库,S2模块流程框图如图2所示。
(2.1)对上述步骤1中原始数据集进行数据清洗,清除缺失资源名称或资源描述信息的数据行,同时对于冗余项和错误标签的数据行进行删除;
(2.2)对已清洗的数据集进行汉语分词、去停用词处理,利用在超大批量科技文本数据集上预训练的Word2Vec模型,对其进行文本向量化,转化为稠密的文本特征向量;
(2.3)整理所有文本数据,得到数据集的特征向量及One-hot编码标签,用于后续模型进化与评估;
步骤3:S3网络进化模块,基于榕树生长优化(Banyan Tree GrowthOptimization,BTGO)算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,得到最佳网络模型用于资源分类,S3模块初始化阶段流程框图及网络进化完整流程框图分别如图3和图4所示。
(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数。设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值Tgrowth、再生阶段阈值Trecover;设置ELM的网络隐层节点数目;
(3.2)设置优化算法的适应度函数,即由xi确定的神经网络在测试集的分类错误率,可表示如下:
Figure BDA0003975246260000071
其中,TP、TN分别为将正类预测为正类数和将负类预测为负类数,FP、FN分别为将负类预测为正类数和将正类预测为负类数。
(3.3)BTGO采用实数编码框架,每个枝叶个体表示一组神经网络参数W,由神经网络的隐藏层权重Whidden和输出层权重Woutput两部分组成,第i个个体可表示为:
xi=[Whidden;Woutput]
=[xi,1,xi,2,…,xi,h,xi,h+1,…,xi,D] (2)
其中,h为神经网络隐藏层权重及偏差数目之和,D为所有权重数目之和;
(3.4)随机初始化BTGO种群中的80%个体,该部分个体的序号集合记为I(i∈I),即个体xi(i∈I)所有维度上的取值均为[-1,1]范围内的随机值,其计算如式(3)所示:
xij=xmin,j+r×(xmax,j-xmin,j) (3)
其中,xmin,j和xmax,j分别表示解空间的最小值和最大值,r为[0,1]范围的随机值。
(3.5)对于步骤(3.4)的剩余20%个体,其序号集合记为I*,表示隐藏层权重部分的位置为随机产生,表示输出层权重部分由ELM的广义逆(Moore-Penrose Pseudoinverse,MPP)公式计算得到,即个体xi(i∈I*)前h位由式(3)计算,其余位的计算如式(4)所示,完整的计算如式(5)所示。
Figure BDA0003975246260000081
Figure BDA0003975246260000082
其中H为隐藏层输出矩阵,X为输入矩阵,β为输出层权重,βm表示由广义逆计算得到的输出层权重β的第m位;
(3.6)以此应用初始种群中的个体所保存的参数xi构建网络模型oi,并预测测试集的标签
Figure BDA0003975246260000083
Figure BDA0003975246260000084
其中g()为神经网络的激活函数,一般为sigmoid函数,比较预测标签
Figure BDA0003975246260000085
和真实标签y计算分类错误率,并根据步骤(3.2)中的式(1)计算个体的适应度值;
(3.7)初始化BTGO气生根位置proot并将其作为个体历史最优位置,按照种群中个体的适应度排名进行枝干群(子群)划分,将其按从小到大依次划分至m个子群。每个枝干群的最佳适应度个体作为该子群的最优位置,记为Ptrunk
(3.8)所有子群中自适应度值最小的个体视为当前最佳位置pbest,并更新最佳位置适应度值;
(3.9)记counti为个体i未更新次数,若当前个体i的适应度值相比其气生根个体
Figure BDA0003975246260000086
更小,则将counti的值置为0,否则其值加1。
(3.10)根据counti的值执行BTGO不同更新算子,产生新的榕树种群个体,其中对于个体i∈I*的前h位由更新算子更新,其余位由式(5)计算得到:个体i未更新次数counti低于Tgrowth时,以pr的概率选择执行气生根算子或多树干算子;当大于Tgrowth小于Trecover时,执行调节算子产生新种群。
(3.11)执行生根算子或部分广义逆(MPP)更新个体:个体随机概率小于pr时,执行生根算子更新如下:
Figure BDA0003975246260000091
其中,r为[-1,1]间的随机数,F是比例因子。满足上述(3.9)中条件个体部分位置执行MPP更新。
(3.12)执行多树干算子或部分MPP方式更新:当个体i的随机概率大于pr时,执行多树干算子,其更新方式如式(8):
Figure BDA0003975246260000092
其中r为[-1,1]范围内的随机数,F为比例因子,
Figure BDA0003975246260000093
为第i个个体所在的树干群体中的最佳位置。同样的,对于满足条件的个体采用MPP更新部分位置。
(3.13)执行调节算子或以MPP方式更新部分位置:当个体的counti累积高于Tgrowth而小于Trecover时BTGO执行调节算子,即从m个树干子群中随机选择一个子群Cr,个体i向该子群最优位置靠近,其表示如下:
Figure BDA0003975246260000094
其中,s是调节因子,并被设置为固定值。
(3.14)执行重生算子或以MPP方式更新个体部分位置:当个体的counti累积大于Trecover时,个体i转而执行重生算子,此时该个体的位置被重新随机初始化,其更新如下:
xij=xmin,j+r×(xmax,j-xmin,j) (10)
若该个体i∈I*,则前h位由式(10)重新初始化,其余位由式(4)计算得到。
(3.15)计算上述更新算子得到的新种群个体xi构建对应的网络模型oi,根据(3.5)的步骤预测标签并计算适应度值;
(3.16)根据个体与各树干种群的空间距离,将其重新划分至距离最近的新树干子群中,其距离与新子群序号计算如下:
Figure BDA0003975246260000095
Figure BDA0003975246260000096
(3.17)比较xi
Figure BDA0003975246260000101
的适应度值,若xi具有更小适应度,则更新对应的气生根位置
Figure BDA0003975246260000102
为xi的位置,并将该个体未更新次数counti清0,否则其次数增加1。
(3.18)更新m个子群的最佳位置Ptrunk和适应度值,更新整个种群的最优个体Pbest及其适应度。
(3.19)判断方法是否达到终止条件,若迭代至最大迭代次数,则返回步骤(3.8)继续执行,否则输出当前数据集中的最优个体及其对应的分类器分类准确率。
步骤4:S4资源分类模块,使用上述步骤获得的最佳参数构建神经网络模型obest,该模型参数由最优个体Pbest所代表的参数构成,其表示如下:
Figure BDA0003975246260000103
其中X为输入向量,
Figure BDA0003975246260000104
Figure BDA0003975246260000105
分别为确定的最佳神经网络隐藏层权重和输出层权重。选取科技服务资源测试集中的文本数据进行模型评估得到最终模型的准确率,执行以下式(13)对未知数据X进行自动化分类并得到预测结果Y:
Figure BDA0003975246260000106
该实现上述所述的方法的基于进化神经网络的科技服务资源分类***,其中,所述的***包括:
数据集构建模块,用于抽取不同类型的科技服务资源数据,并根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
数据预处理模块,与所述的数据集构建模块相连接,用于对获取到的数据集进行清除缺失、错误和冗余数据处理,并对其中的文本数据进行汉语分词、去停用词处理,同时使用Word2Vec方法进行文本向量化,得到各个数据的特征向量和词库,用于后续模型进行进化与评估;
网络进化模块,与所述的数据预处理模块相连接,用于基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于进行资源分类;以及
资源分类模块,与所述的网络进化模块相连接,用于基于最佳网络模型对科技服务资源测试集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于进化神经网络的科技服务资源分类方法的各个步骤。
采用了本发明的该基于优化算法的科技服务资源数据处理方法、***及其计算机可读存储介质,具有以下有益效果:
(1)本发明抽取不同行业科技服务资源文本进行训练测试,使用新的元启发优化方法BTGO解决传统神经网络收敛速度慢的问题,有效提高了模型训练速度和质量。
(2)使用BTGO算法的神经网络进化方法,有效优化网络参数提高资源分类准确率,提升机器学习算法的运行效率。
(3)本发明实现简单并易于扩展,本方法可方便扩展至文本分类中的其他资源聚合问题。
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于进化神经网络的科技服务资源分类方法,其特征在于,所述的方法包括以下步骤:
(1)抽取不同类型的科技服务资源数据,根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
(2)对数据集的文本数据进行汉语分词、去停用词处理,使用Word2Vec方法进行文本向量化,得到各数据的特征向量和词库,用于后续模型进化与评估;
(3)基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于资源分类;
(4)使用上述获得的最终神经网络模型,对所述科技服务资源数据的测试数据集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
2.根据权利要求1所述的基于进化神经网络的科技服务资源分类方法,其特征在于,在所述步骤(1)中,抽取的资源数据类型包含人才信息、知识产权、专利技术,以及包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据,按照比例划分训练、验证和测试集,以满足实际资源整合需求。
3.根据权利要求2所述的基于进化神经网络的科技服务资源分类方法,其特征在于,在所述步骤(2)中,对所述步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后,利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理,将其转化为稠密的特征向量,并通过整理所有文本数据,得到数据集的特征向量及One-hot编码标签,用于后续模型进化与评估。
4.根据权利要求3所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述步骤(3)具体为,应用榕树生长优化算法对ELM网络的所有参数进行编码优化,利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化,以同时达到预测准确率和训练速度最优。
5.根据权利要求4所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述步骤(3)进行初始化优化处理具体包括以下步骤:
(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数,设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值Tgrowth、再生阶段阈值Trecover;设置ELM的网络隐层节点数目;
(3.2)设置优化算法的适应度函数,即由xi确定的神经网络在测试集的分类错误率,采用以下公式进行表示:
Figure FDA0003975246250000021
其中,TP、TN分别为将正类预测为正类数和将负类预测为负类数,FP、FN分别为将负类预测为正类数和将正类预测为负类数;
(3.3)BTGO采用实数编码框架,每个枝叶个体表示一组神经网络参数W,由神经网络的隐藏层权重Whidden和输出层权重Woutput两部分组成,第i个个体可表示为:
xi=[Whidden;Woutput]
=[xi,1,xi,2,...,xi,h,xi,h+1,...,xi,D] (2)
其中,h为神经网络隐藏层权重及偏差数目之和,D为所有权重数目之和;
(3.4)随机初始化BTGO种群中的80%个体,该部分个体的序号集合记为I(i∈I),即个体xi(i∈I)所有维度上的取值均为[-1,1]范围内的随机值,其计算如式(3)所示:
xij=xmin,j+r×(xmax,j-xmin,j) (3)
其中,xmin,j和xmax,j分别表示解空间的最小值和最大值,r为[0,1]范围的随机值;
(3.5)对于所述步骤(3.4)的剩余20%个体,其序号集合记为I*,表示隐藏层权重部分的位置为随机产生,表示输出层权重部分由ELM的广义逆MPP公式计算得到,即个体xi(i∈I*)前h位由式(3)计算,其余位的计算如式(4)所示,完整的计算如式(5)所示:
Figure FDA0003975246250000022
Figure FDA0003975246250000023
其中H为隐藏层输出矩阵,X为输入矩阵,β为输出层权重,βm表示由广义逆计算得到的输出层权重β的第m位;
(3.6)以此应用初始种群中的个体所保存的参数xi构建网络模型oi,并预测测试集的标签
Figure FDA0003975246250000024
Figure FDA0003975246250000025
其中g()为神经网络的激活函数,具体为sigmoid函数,比较预测标签
Figure FDA0003975246250000026
和真实标签y计算分类错误率,并根据步骤(3.2)中的式(1)计算个体的适应度值;
(3.7)初始化BTGO气生根位置Proot并将其作为个体历史最优位置,按照种群中个体的适应度排名进行枝干群划分,将其按从小到大依次划分至m个子群,每个枝干群的最佳适应度个体作为该子群的最优位置,记为Ptrunk
(3.8)所有子群中自适应度值最小的个体视为当前最佳位置Pbest,并更新最佳位置适应度值。
6.根据权利要求5所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述步骤(3)进行网络模型优化完整处理具体包括以下步骤:
(3.9)记counti为个体i未更新次数,若当前个体i的适应度值相比其气生根个体
Figure FDA0003975246250000031
更小,则将counti的值置为0,否则其值加1;
(3.10)根据counti的值执行BTGO不同更新算子,产生新的榕树种群个体,其中对于个体i∈I*的前h位由更新算子更新,其余位由式(5)计算得到:个体i未更新次数counti低于Tgrowth时,以pr的概率选择执行气生根算子或多树干算子;当大于Tgrowth小于Trecover时,执行调节算子产生新种群;
(3.11)执行生根算子或部分广义逆更新个体:个体随机概率小于pr时,执行生根算子更新如下:
Figure FDA0003975246250000032
其中,r为[-1,1]间的随机数,F为比例因子,满足上述步骤(3.10)中条件个体部分位置执行MPP更新;
(3.12)执行多树干算子或部分MPP方式更新:当个体i的随机概率大于pr时,执行多树干算子,其更新方式如式(8):
Figure FDA0003975246250000033
其中r为[-1,1]范围内的随机数,F为比例因子,
Figure FDA0003975246250000034
为第i个个体所在的树干群体中的最佳位置,同样的,对于满足条件的个体采用MPP更新部分位置;
(3.13)执行调节算子或以MPP方式更新部分位置:当个体的counti累积高于Tgrowth而小于Trecover时BTGO执行调节算子,即从m个树干子群中随机选择一个子群cr,个体i向该子群最优位置靠近,其表示如下:
Figure FDA0003975246250000035
其中,s是调节因子,并被设置为固定值;
(3.14)执行重生算子或以MPP方式更新个体部分位置:当个体的counti累积大于Trecover时,个体i转而执行重生算子,此时该个体的位置被重新随机初始化,其更新如下:
xij=xmin,j+r×(xmax,j-xmin,j)(10)
若该个体i∈I*,则前h位由式(10)重新初始化,其余位由式(4)计算得到;
(3.15)计算上述更新算子得到的新种群个体xi构建对应的网络模型oi,并根据步骤(3.5)预测标签并计算适应度值;
(3.16)根据个体与各树干种群的空间距离,将其重新划分至距离最近的新树干子群中,其距离与新子群序号计算如下:
Figure FDA0003975246250000041
Figure FDA0003975246250000042
(3.17)比较xi
Figure FDA0003975246250000043
的适应度值,若xi具有更小适应度,则更新对应的气生根位置
Figure FDA0003975246250000044
为xi的位置,并将该个体未更新次数counti清0,否则其次数增加1;
(3.18)更新m个子群的最佳位置Ptrunk和适应度值,更新整个种群的最优个体Pbest及其适应度;
(3.19)判断当前是否达到终止条件,若迭代至最大迭代次数,则返回步骤(3.9)继续执行,否则输出当前数据集中的最优个体及其对应的分类器分类准确率。
7.根据权利要求6所述的基于进化神经网络的科技服务资源分类方法,其特征在于,在所述步骤(4)中,利用所述步骤(3)中的神经网络模型,对未标记和分类的新资源数据进行分类,并结合测试数据集评估模型和整合优化资源。
8.根据权利要求7所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述的步骤(4)具体为:
使用所述步骤(3)获得的最佳参数构建神经网络模型obest,所述的神经网络模型参数由最优个体Pbest所代表的参数构成,其表示如下:
Figure FDA0003975246250000045
其中X为输入向量,
Figure FDA0003975246250000046
Figure FDA0003975246250000047
分别为确定的最佳神经网络隐藏层权重和输出层权重;
选取科技服务资源测试集中的文本数据进行模型评估得到最终模型的准确率,执行以下式(13)对未知数据X进行自动化分类并得到预测结果Y:
Figure FDA0003975246250000048
9.一种实现权利要求1至8中任一项所述的方法的基于进化神经网络的科技服务资源分类***,其特征在于,所述的***包括:
数据集构建模块,用于抽取不同类型的科技服务资源数据,并根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
数据预处理模块,与所述的数据集构建模块相连接,用于对获取到的数据集进行清除缺失、错误和冗余数据处理,并对其中的文本数据进行汉语分词、去停用词处理,同时使用Word2Vec方法进行文本向量化,得到各个数据的特征向量和词库,用于后续模型进行进化与评估;
网络进化模块,与所述的数据预处理模块相连接,用于基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于进行资源分类;以及
资源分类模块,与所述的网络进化模块相连接,用于基于最佳网络模型对科技服务资源测试集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至8中任一项所述的基于进化神经网络的科技服务资源分类方法的各个步骤。
CN202211527115.7A 2022-12-01 2022-12-01 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质 Pending CN115795035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211527115.7A CN115795035A (zh) 2022-12-01 2022-12-01 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211527115.7A CN115795035A (zh) 2022-12-01 2022-12-01 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115795035A true CN115795035A (zh) 2023-03-14

Family

ID=85444319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211527115.7A Pending CN115795035A (zh) 2022-12-01 2022-12-01 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115795035A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843456A (zh) * 2023-08-29 2023-10-03 北京燕知信科技服务有限公司 基于人工智能的金融大数据处理方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843456A (zh) * 2023-08-29 2023-10-03 北京燕知信科技服务有限公司 基于人工智能的金融大数据处理方法及***
CN116843456B (zh) * 2023-08-29 2023-11-07 北京燕知信科技服务有限公司 基于人工智能的金融大数据处理方法及***

Similar Documents

Publication Publication Date Title
Akay et al. A comprehensive survey on optimizing deep learning models by metaheuristics
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
Kanan et al. Feature selection using ant colony optimization (ACO): a new method and comparative study in the application of face recognition system
CN110110080A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
Abd-Alsabour A review on evolutionary feature selection
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及***
Asadi et al. ACORI: A novel ACO algorithm for rule induction
WO2022252455A1 (en) Methods and systems for training graph neural network using supervised contrastive learning
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
Tian et al. Automatic convolutional neural network selection for image classification using genetic algorithms
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
CN111275074B (zh) 基于栈式自编码网络模型的电力cps信息攻击辨识方法
Nie et al. Online multiview deep forest for remote sensing image classification via data fusion
CN115795035A (zh) 基于进化神经网络的科技服务资源分类方法、***及其计算机可读存储介质
Assuncao et al. Automatic evolution of autoencoders for compressed representations
Japa et al. A population-based hybrid approach for hyperparameter optimization of neural networks
Gupta et al. Optimization of stacking ensemble configuration based on various metahueristic algorithms
KR20220014744A (ko) 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법
CN116956160A (zh) 一种基于自适应树种算法的数据分类预测方法
CN116028878A (zh) 面向图像分类的多样化查询主动学习方法及装置
Saha et al. Class2str: End to end latent hierarchy learning
Cui et al. Deep Bayesian optimization on attributed graphs
Bhattacharjee et al. Estimation of distribution using population queue based variational autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination