CN116720519B

CN116720519B - 一种苗医药命名实体识别方法

Info

Publication number: CN116720519B
Application number: CN202310674383.XA
Authority: CN
Inventors: 莫礼平; 奉松绿; 程翠娜; 闵威; 麦伟锋
Original assignee: Jishou University
Current assignee: Jishou University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-12-19
Anticipated expiration: 2043-06-08
Also published as: CN116720519A

Abstract

本发明公开了一种苗医药命名实体识别方法，包括以下步骤：采集苗医药命名实体识别数据，构建苗医药命名实体识别数据集并对所述苗医药命名实体识别数据集进行预处理；构建苗医药命名实体识别模型，并对所述苗医药命名实体识别模型进行预训练；通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化；将采集的苗医药实体识别数据集中的数据通过优化后的苗医药命名实体识别模型进行识别，并输出识别结果，从而完成苗医药命名实体识别。本发明解决了如何准确且快速的对苗医药命名实体进行精准识别并输出结果的问题。

Description

一种苗医药命名实体识别方法

技术领域

本发明涉及实体识别技术领域，尤其涉及一种苗医药命名实体识别方法。

背景技术

当今信息时代，利用人工智能技术研究、开发民族医药信息资源，从中挖掘医药知识并加以保护和利用，是民族医药信息化的必然要求，推进我国名族医药学传承和创新发展的必然途径。民医药是我国传统民族医药中的瑰宝，在我国民族医药卫生事业发展过程中起到了不可替代的作用。要实现苗医药知识的智能处理和应用，需要从苗医药文本中识别苗药名、苗药功能、疾病名等实体，这就涉及到自然语言处理领域的命名实体识别技术。命名实体识别是指在一句话中提取识别其中的实体部分，包括人名、地名、机构名、专有名词等。

面向汉语文本的命名实体识别早起采用的大多是基于规则的方法；基于规则的方法是指，利用语言学专家手工构造的规则模板，建立一个实体和实体类别的对应表格，通过查表方式查询其实体所对应的实体类别，以及通过手动编写实体前后规则来确定未登录实体的实体类别。该类方法的优点是接近人的思维方式，知识表示直观、便于推理具有针对性和暂时较高的准确率。但是依赖于具体语言、领域和文本格式，需要富有经验的语言学家才能完成，可移植性差，且需要人工干预，且规则编制过程费时费力且容易产生错误。基于深度学习的命名实体识别方法利用计算机自动学习其特征，通过避免特征工程，减少了许多人工和时间，命名实体识别的准确率与效果能够得到显著提高，准确性、灵活性与适应性也能够得到了进一步的提高。然而，即使深度学习在解决命名实体识别问题上取得了突破性成就，识别率也得到了很大提高，但依旧在小概率情况下会产生一些原则性的序列标注错误问题。基于深度学习的命名实体识别方法，虽然能够有限提升命名实体的识别效果，但因深度学习模型结构复杂，神经元多，网络层次深，需要大量的算力支持，而且还会在命名实体识别过程中存在过拟合，欠拟合等问题。因此，亟待提出一种苗医药命名实体识别方法，解决如何准确且快速的对苗医药命名实体进行精准识别并输出结果的问题。

发明内容

本发明的主要目的是提供一种苗医药命名实体识别方法，旨在解决如何准确且快速的对苗医药命名实体进行精准识别并输出结果的问题。

为实现上述目的，本发明提供一种苗医药命名实体识别方法，其中，所述苗医药命名实体识别方法包括以下步骤：

S1、采集苗医药命名实体识别数据，构建苗医药命名实体识别数据集并对所述苗医药命名实体识别数据集进行预处理；

S2、构建苗医药命名实体识别模型，并对所述苗医药命名实体识别模型进行预训练；

S3、通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化；

S4、将采集的苗医药实体识别数据集中的数据通过优化后的苗医药命名实体识别模型进行识别，并输出识别结果，从而完成苗医药命名实体识别。

优选方案之一，所述步骤S1中对所述苗医药命名实体识别数据集进行预处理，具体为：

将采集的苗医药命名实体识别数据标准化处理；

对标准化处理后的数据进行初步清洗并标注。

优选方案之一，所述苗医药命名实体识别模型采用BERT-CRF-VAT模型。

优选方案之一，所述BERT-CRF-VAT模型包括对抗训练，所述对抗训练具体为：

其中，Ladv为损失函数，E为苗医药命名实体识别数据集，i为输入，j为标签，δ为模型参数，r_adv为损失扰动。

优选方案之一，所述步骤S3通过改进鱿鱼优化算法对所述苗医药命名实体识别模型进行参数优化之前，还包括：对鲸鱼优化算法进行改进，得到改进的鲸鱼优化算法。

优选方案之一，所述对鲸鱼优化算法进行改进，包括以下步骤：

S311、初始化种群个体；

S312、计算每个种群个体的适应度值，得到当前最优个体；

S313、预设迭代上限，若迭代次数＜迭代上限，则依次更新鲸鱼优化算法的各参数，若迭代次数≥迭代上限，则迭代结束；

S314、构建位置更新模型，通过所述位置更新模型更新种群个体的位置；

S315、重复上述步骤S312-S314，直至得到最优个体及适应度值。

优选方案之一，所述步骤S311采用Logistic混沌映射方法对种群进行初始化。

优选方案之一，所述步骤S314构建位置更新模型，通过所述位置更新模型更新种群个体的位置，具体为：

构建位置更新模型，所述位置更新模型包括第一位置更新模型、第二位置更新模型和第三位置更新模型；

在[0，1)之间任意产生一个随机数p；

若p≥0.5，则根据第一位置更新模型更新种群个体的位置；

若p＜0.5，则判断|A|是否大于等于1；若|A|≥1，则根据第二位置更新模型更新种群个体的位置，若|A|＜1，则根据第三位置更新模型更新种群个体的位置。

优选方案之一，所述步骤S3通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化，具体为：

S321、设置鲸鱼优化算法的参数；

S322、将苗医药命名实体识别模型中的待优化的超参数以实数的形式编码成鲸鱼优化算法中的种群个体；

S323、计算所述种群个体的适应度值；

S324、基于位置更新模型更新各种群个体，并根据当前迭代次数自适应调整鲸鱼优化算法中的收敛因子和惯性权重；

S325、判断是否满足迭代终止条件，若是，则输出超参数的最优组合，若不是，则重复上述步骤S323-S324。

优选方案之一，所述苗医药命名实体识别模型的超参数包括批训练大小、学习率和学习率放大倍数。

本发明的上述技术方案中，该苗医药命名实体识别方法包括以下步骤：采集苗医药命名实体识别数据，构建苗医药命名实体识别数据集并对所述苗医药命名实体识别数据集进行预处理；构建苗医药命名实体识别模型，并对所述苗医药命名实体识别模型进行预训练；通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化；将采集的苗医药实体识别数据集中的数据通过优化后的苗医药命名实体识别模型进行识别，并输出识别结果，从而完成苗医药命名实体识别。本发明解决了如何准确且快速的对苗医药命名实体进行精准识别并输出结果的问题。

在本发明中，所述苗医药命名实体识别模型采用BERT的轻量化改进版本RoBERTa-tiny3L312-clue对苗医药文本进行预训练，并引入了提高抗噪能力的虚拟对抗训练预训练方法来减少错别字对命名实体识别的影响，使得预训练模型具有更强的鲁棒性以及抗干扰能力，以及能够避免小规模数据集训练过程中出现过拟合现象，有效对抗苗医药命名实体识别数据集中错别字词噪声，从而取得较好的苗医药命名实体识别效果。

在本发明中，采用Logistic混沌映射方法对鲸鱼种群进行初始化，从而提高了种群元素的随机性，增强了种群多样性。

在本发明中，通过对收敛因子a进行非线性化的动态自适应调整，可保证鲸鱼优化算法的全局搜索和局部搜索的性能，使算法得以迅速收敛，且提高了算法的精度。

在本发明中，将鲸鱼优化算法采用自适应惯性权重的分阶段设置，调整了算法的收敛速度，以平衡算法的全局搜索和局部搜索性能。

在本发明中，采用改进后的鲸鱼优化算法对苗医药命名实体识别模型进行超参数优化后，使苗医药命名实体识别模型具有更好的收敛性，且对苗医药命名实体识别的效果更佳。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例一种苗医药命名实体识别方法的示意图；

图2为本发明实施例BERT-CRF和BERT-BiLSTM-CRF精确率、召回率和F1值对比图；

图3为本发明实施例BERT-CRF-VAT模型的结构示意图；

图4为本发明实施例BERT-CRF和BERT-CRF-VAT精确率、召回率和F1值对比图；

图5为本发明实施例BERT-CRF和BERT-CRF-VAT的精确率收敛示意图；

图6为本发明实施例BERT-CRF和BERT-CRF-VAT的召回率收敛示意图；

图7为本发明实施例BERT-CRF和BERT-CRF-VAT的F1值收敛示意图；

图8为本发明实施例F1的寻优曲线对比图；

图9为本发明实施例F2的寻优曲线对比图；

图10为本发明实施例F3的寻优曲线对比图；

图11为本发明实施例F4的寻优曲线对比图；

图12为本发明实施例F5的寻优曲线对比图；

图13为本发明实施例F6的寻优曲线对比图；

图14为本发明实施例基于改进后的鲸鱼优化算法超参数优化前后模型的性能指标对比图；

图15为本发明实施例优化前后BERT-CRF-VAT模型针对精确率的收敛曲线对比图；

图16为本发明实施例优化前后BERT-CRF-VAT模型针对召回率的收敛曲线对比图；

图17为本发明实施例优化前后BERT-CRF-VAT模型针对F1值收敛曲线对比图。

本发明目的的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参见图1，根据本发明的一方面，本发明提供一种苗医药命名实体识别方法，其中，所述苗医药命名实体识别方法包括以下步骤：

具体地，在本实施例中，所述步骤S1中对所述苗医药命名实体识别数据集进行预处理，具体为：将采集的苗医药命名实体识别数据标准化处理；对标准化处理后的数据进行初步清洗并标注；本发明以《苗药学》和《湖北苗药》两本苗医药图书为例，进行苗医药命名实体识别数据的采集，本发明不进行具体限定，具体可根据需要进行设定；根据上述两本苗医药图书中常见的八类命名实体进行苗医药命名实体分类，具体的实体类别标记及其带来的具体列表如表1所示，

表1实体类别及其含义

苗医药文本的标注方法采用BIO标注模式，该模式中的“B”代表实体的首字记号，“I”代表非实体首字记号，“O”代表非实体记号，苗医药命名实体识别数据集中各类命名实体的标注记号及其含义如表2所示，

表2各类命名实体的标注记号及其含义

为节省手动数据标注的时间，简化数据标注的难度，可借助开源文本标注工具Doccano平台进行苗医药命名实体识别数据集的标注，Doccano平台提供了文本分类、序列标注和序列到序列的标注功能。因此，它可以为情绪分析、命名实体识别、文本摘要等任务创建标记数据，用户只需在Doccano平台创建项目，上传数据就可以开始标注。考虑到Doccano平台需要运行在服务器上，个人电脑虽然可以作为服务器，但无法贡献服务器IP地址与端口号到公网上发布，无法通过公网进行远距离的多人协同工作，所以，对苗医药本文数据进行标注时，借助了腾讯云服务器，利用其提供的算力资源、配套的操作***、公网IP地址及端口号来搭建Doccano平台。为搭建Doccano平台，所需的软硬件配置包括腾讯云轻量应用服务器、软件配置和硬件配置；所述软件配置包括配置CentOS Stream 8 64bit的操作***、服务器公网地址(http://106.55.228.233/)以及开放端口(80)；硬件配置包括2核的CPU、2G的内存和40GB的硬盘，本发明不进行具体限定，具体可根据需要搭建Doccano平台；在腾讯云服务器上安装D0ccano平台，需要先设置好端口号，然后用命令启动任务，即可完成平台的搭建，由于没有购买域名服务，访问服务器只能通过IP地址。因此，此处使用浏览网页服务默认的超文本传输协议开放端口80来访问服务器。输入管理员账号并登录后，主菜单栏包括数据集、标签、成员以及统计等设置按钮，可以按需求对应点击操作。为方便人工标注操作，减少实体类别误判，苗医药文本标注时，针对八类实体设置了使用不同颜色的方案，标注后不同类别的实体使用不同的颜色显示，如表3所示，本发明不进行具体限定，具体可根据需要进行设定；

表3实体类别及其对应颜色设置

在Doccano平台的标签设置中可以设置不同标签采用不同颜色进行标记，以每一行为一个标注单位，将待标注的数据导入到Doccano平台，借助在腾讯云服务器上搭建好的Doccano平台，只需通过直接鼠标划过某个实体再下拉类别的操作方法就完成了对该实体的标注，此种方法简便，而且由于标注结果直接以颜色和底标显示，具有很好的区分性，有利于降低标注出错的概率。在Doccano平台使用上述操作方法，基于BIO标注模式对苗医药文本进行标注，得到最终标注结果，参见表4、表5、表6和表7；

表4为苗医药名称和苗医药功能的标注结果

表5为疾病名和药物计量的标注结果

表6为著作名称和药物来源植物的标注结果

表7为省份名和药物来源地的标注结果

以《苗药学》和《湖北苗药》两本苗医药图书为例进行标注，得到的标注结果中共有26270个标注实体，如表8所示，

表8个实体标注数量统计

具体地，在本实施例中，Bi_LSTM-CRF和BERT-CRF是命名实体识别领域应用较多的两种经典的深度学习模型，通过对所述Bi_LSTM-CRF深度学习模型和BERT-CRF深度学习模型进行对比分析，得到本申请所述苗医药命名实体识别模型，所述苗医药命名实体识别模型采用BERT-CRF-VAT模型。

具体地，在本实施例中，所述Bi_LSTM-CRF是目前常用的命名实体识别模型，其本质是循环神经网络的改进版本，所述循环神经网络也即为RNN。RNN的结构决定了在学习参数的过程中由于其共享的一组参数参与自循环运算时需要发生多次连续乘积，容易出现梯度下降时梯度消失和梯度***的问题，针对RNN容易梯度消失和梯度***的缺点，通过改进RNN的结构，设计一种长短期记忆神经网络LSTM；LSTM门结构包括遗忘门、输入门、输出门三个部分；遗忘门将细胞状态中的信息选择性地遗忘，决定了输入的数据是否需要遗忘以及遗忘的程度；输入门为状态更新做好准备，而输出门对应最终输出结果。ft是遗忘门，其中h_t是前一时刻保留的信息作为此刻的输入信息，x_t为此刻的输入信息，σ是sigmod激活函数，ht为t时刻的输出，W和b分别代表权重矩阵和偏置向量；it是输入门，其中表示t时刻的状态，是由当前输入取得的中间状态。ht是输出门，对应的最终输出结果；但命名实体识别是一种需要依赖前后相隔较远信息的任务，上下文特征有重要参考意义。LSTM虽然能够捕获长距离的序列数据信息，在命名实体识别任务上能够显著地提高标注的准确率，但不足以捕获上下文。Bi_LSTM(即双向LSTM)，通过增加LSTM的深度，并进行双向处理，便于引入更多的特征，能够有效捕获上下文，Bi_LSTM可以看成是一个两层的LSTM神经网络。第一层从左边向右作为序列数据的起始输入；第二层从右边向左作为序列数据的起始输入，反向处理序列数据；最后，对得到的两个结果进行拼接。这样拼接得到的数据便具有了前后的关联信息。

具体地，在本实施例中，命名实体识别通常被看成是一个序列标注问题。在深度学习模型没有应用在序列标注任务之前，解决序列标注问题常使用的是HMM、CRF等统计模型。其中，基于条件随机场理论的CRF使用最为广泛。CRF建立在概率无向图的基础上，本质上是一种从观测序列X到隐藏状态序列Y的判别式概率模型。模型的核心思想是依据概率无向图模型理论，构建条件概率来求解未知的变量；

假设给定输入观测序列X和待输出的隐藏状态序列Y如式3.1和式3.2所示；

X＝[x₀,x₁,...,x_i,...,x_n] 3.1

Y＝[y₀,y₁,...,y_i,...,y_n] 3.2

则CRF的条件概率P(Y|X)，称为线性链条件随机场，如式3.3所示；

P(y_i|X,y₁,...,y_i-1,y_i+1,...,y_n)＝P(y_i|X,y_i-1)3.3

其中，i＝1,2,...,n，在i＝1或n时，只考虑单边；

从式3.3可见，Y序列中yi元素发生的条件概率只与yi-1有关，即满足马尔可夫性。

统计方法中，通常将命名实体识别建模成线性链；在给定线性链表示的随机变量序列X的条件下，线性链表示的随机变量序列Y的条件概率分布P(Y|X)构成条件随机场；CRF用于解决序列标注问题，通常使用式3.4、式3.5和式3.6所示作为目标函数；

其中，t表示某一时刻，f表示特征函数，K表示特征函数的个数，w表示特征函数的权重；score(y|x)函数用于计算从X序列到Y序列的得分；其计算方法是，对某一时刻输入序列的一个元素，根据转移函数和发射特征函数值乘以其权重w，得出此时刻的基本得分，再将得分相加后进行指数函数累乘。Z(x)用于对序列得分的穷举，为了方便之后计算p(y|x)概率时，将其归一化表示到[0,1]区间；p(y|x)表示X序列到Y序列的概率，其值等于score(y|x)函数除以Z(x)得到的商值。

CRF用于解决序列标注问题的本质就是以目标函数最大化为目标训练模型，再进行解码；模型训练的参数包括三组矩阵：第一组是序列的初始概率矩阵π，也就是序列Y中每个元素作为首位时的概率大小；第二组是转移概率矩阵A，表示隐藏状态序列Y中各元素之间的转移概率；第三组是发射概率矩阵B，表示观测状态X各元素到隐藏状态序列Y各元素的生成概率，也称发射概率。在训练过程中，通过采用神经网络梯度下降法对作为模型训练参数的三组矩阵进行更新，最终实现目标函数最大化；模型的解码问题，也称为预测问题，可以描述为：给定模型的参数λ＝(A,B,π)以及观测序列X，求概率最大的隐藏序列Y。典型的解码算法是Viterbi算法，其原理是基于动态规划的思想求解最优路径。该算法将CRF中训练得出的参数λ＝(A,B,π)建模为一个路径最优问题，节点的权值代表此处的发射概率，节点与节点之间的权值代表转移概率。节点在首位时，算法取矩阵π中的发射概率作为权值；计算节点时，算法将穷举计算当前节点到上层所有与之连接节点的节点权值与节点间权值的和作为到该节点的最佳适应度值，并将该适应度值对应的路线作为最佳路线保存。通过重复以上操作，最后最佳适应度值的节点所保存的路线就是在给定模型的参数λ＝(A,B,π)的情况下的最佳序列组合，序列的排列顺序就是模型的解码结果；通过将Bi_LSTM和CRF进行组合应用，设计出了基于Bi_LSTM-CRF结构的命名实体识别模型。Bi_LSTM-CRF以词嵌入向量为输入，以每个单词对应的预测标签未输出；Bi-LSTM层输出的每个分类的预测矩阵就是CRF层的输入，CRF层再将拥有最高预测得分的序列作为模型的输出，CRF层还可以加入一些特征约束来保证最终预测结果是有效的，这些特征约束可以在训练数据时被CRF层自动学习得到，有了这些约束，错误的预测序列将会减少。

具体地，在本实施例中，BERT因采用了表义能力较强的双向Transformer网络，能够根据上下文信息计算出字的向量表示，可以获得更长距离的上下文信息，从而能够增强句子的语义表示能力。BERT由双层双向结构组成，E代表输入的文字，T代表输出的词向量，Tm表示采用Attention机制通过叠加神经网络层形成的transformer结构，具有强大的关键信息吸纳能力的Attention机制在BERT模型中起着核心作用；为了更有效地完成命名实体识别任务，将BERT引入到Bi_LSTM-CRF中，得到BERT-Bi_LSTM-CRF命名实体识别模型；在BERT-Bi_LSTM-CRF结构中，输入句子中的每个字首先通过BERT层进行语义表征，输出字向量表示序列，再将字向量序列输入Bi_LSTM层进行语义编码处理。结构中的前向LSTM单元用于输出当前词语及其左边信息的向量，后向LSTM单元用于输出当前词语及其右边信息的向量。将前向LSTM和后向LSTM输出的向量组合便得到了Bi_LSTM的输出结果。最后，把Bi_LSTM的输出结果输入CRF层计算出最优化的标签序列。BERT-Bi_LSTM-CRF模型性能优越，但复杂度较高，适用于处理大规模数据集。相比于BERT-Bi_LSTM-CRF模型，BERT-CRF模型拥有轻量化结构，在处理小规模数据集时更为合适；BERT-CRF结构中不包含BERT-Bi_LSTM-CRF模型中的Bi_LSTM层，输入句子中的每个字经过BERT层的预训练后，作为字向量直接输出到CRF层，最后输出标注的预测结果，从而简化了整个模型结构。[CLS]表示一句话的开始标记，[SEP]表示一句话的结束标记，其它字为句子内容；BERT-CRF模型将语义信息直接交由BERT层的双向全自注意力网络进行处理，无需根据时间推移进行顺序处理的问题，不但能够按照自我注意策略动态地选择具有相关性的子集，并以此作为输入来计算后续自注意力网络的特定内容，还能够利用双向Attention机制解决长期依赖问题。本文制作的苗医药命名实体识别数据集是小规模数据集，理论上，利用BERT强大的编码能力对苗医药文本做语义编码，据此选用BERT-CRF结构来构建苗医药命名实体识别模型比较合适。

具体地，在本实施例中，从苗医药命名实体识别数据集中选取90％的数据样本作为训练集，10％的数据样本作为测试集，数据集中总样本包含4581个句子，随机选取4123个句子构成训练集，共125380个字符，剩余458个句子作为测试集，共13932个字符；通过设置评价指标：精确率P、召回率R和F1值衡量模型的训练效果；

其中，TP为正样本被预测为正样本的数量，FP为负样本被预测为正样本的数量，FN为正样本被预测为负样本的数量，P为对预测结果精确度的度量，R为对正样本预测结果准确度的度量，F1为精确度和召回率的整体反映。

具体地，在本实施例中，参见图2，将BERT-Bi_LSTM-CRF和BERT-CRF两种模型在苗医药文本数据集上进行对比实验，得到的精确率P、召回率R和F1值；采用BERT-CRF模型对苗医药命名实体识别的效果更佳，针对小规模数据集的命名实体识别任务更为合适；但苗医药命名实体识别数据集中存在较多识别错误的字词，可称之为噪声，导致图书图片转化到文字的文字识别正确率很难达到100％，虽然使用BERT对苗医药文本进行预训练，可以提升词向量的表义能力，但噪声的存在还是会影响模型的鲁棒性。此外，由于数据集数据量较少，训练过程中还容易出现过拟合的情况。为解决该问题，在BERT-CRF模型中引入VAT机制，采用加入一定的噪声后再进行预训练的方法来提高预训练后输出字向量的抗噪能力。针对训练样本少的情况，深度网络可以最大限度地拟合训练样本的分布，但如果模型与训练样本分布过分接近，就会把训练样本中的一些噪声也拟合进去。正则化是防止深度网络过拟合的一种有效途径。VAT就是一种正则化方法，是通过给定条件标签分布p(y|x)数据来度量该分布局部光滑性的一种方法。对于每一个数据点，VAT研究的是条件标签分布对于局部扰动的鲁棒性。如果数据发生一点小变化，就导致模型预测的标签结果较多偏离程度，这说明模型棒性比较差。比如，如果对一张图片加一点扰动，模型就将其判别为不同类别，这说明模型的鲁棒性很差。对抗训练是通过增加输入扰动s′＝s+∈r_adv来实现，其中r_adv是模归一化的向量。BERT在微调小数据时容易过拟合，在BERT中引入对抗训练技术，可以有效缓解过拟合的现象，同时提高模型对输入的鲁棒性。为了克服数据集中噪声带来的不良影响，参见图3为所述苗医药命名实体识别模型的结构，也即为所述BERT-CRF-VAT模型的结构。

具体地，在本实施例中，所述BERT-CRF-VAT模型包括四层，从下至上分别是BERT输入层、BERT编码层、CRF编码预测层和输出层，所述BERT输入层在包含原有字编码(token)、段落编码(segment)和位置编码(positional)三种词嵌入(embedding)层的基础上，增加了一个对抗编码(adversarial)的虚拟对抗编码embedding层。每个embedding层将给定的词w通过查表转换为固定长度的嵌入表示s；然后，通过增加一个额外的对抗扰动，产生一个对抗编码，并将其加到原始表示s上；最后，将虚拟对抗编码embedding层与其余3个embedding层进行拼接，得到的编码和作为BERT的最终输入数据。

具体地，在本实施例中，所述BERT-CRF-VAT模型包括对抗训练，所述对抗训练具体为：

其中，Ladv为损失函数，E为苗医药命名实体识别数据集，i为输入，j为标签，δ为模型参数，r_adv为损失扰动；

其中，D为非负度量函数，用于度量分布i+w_i和j之间的距离，w_i为对抗扰动，Ω为扰动空间；

针对小数据集，为了防止过拟合，可通过下式增大损失；

为了防止w_i过大，还需要采用下式对做标准化处理；

再根据下式计算出的w_i，得到最后结果。

BERT-CRF-VAT模型在BERT的embedding层加入了VAT，使得预训练模型具有更强的鲁棒性以及抗干扰能力，提高模型的预测准确率和泛化性能，能够避免小规模数据集训练过程中出现过拟合现象，可以有效对抗苗医药文本数据集中的错别字词噪声，从而取得较好的苗医药命名实体识别效果。

具体地，在本实施例中，参见图4，通过BERT-CRF和BERT-CRF-VAT两种模型在苗医药文本数据集上进行对比实验以反映增加了VAT机制对苗医药命名实体识别效果的提升作用；参见图5，为使用BERT-CRF和BERT-CRF-VAT两种模型针对精确度P的迭代计算过程的收敛曲线，参见图6，为使用BERT-CRF和BERT-CRF-VAT两种模型针对召回率R的迭代计算过程的收敛曲线；参见图7，为使用BERT-CRF和BERT-CRF-VAT两种模型针对和F1值的迭代计算过程的收敛曲线；可以看出使用BERT-CRF-VAT模型比BERT-CRF模型具有更好的收敛性，所述BERT-CRF-VAT模型仅需要更少的迭代次数就能达到更好的识别效果。

具体地，在本实施例中，所述步骤S3通过改进鱿鱼优化算法对所述苗医药命名实体识别模型进行参数优化之前，还包括：对鲸鱼优化算法进行改进，得到改进的鲸鱼优化算法。

具体地，在本实施例中，所述对鲸鱼优化算法进行改进，包括以下步骤：

S311、初始化种群个体

S312、计算每个种群个体的适应度值，得到当前最优个体；

S315、重复上述步骤S312-S314，直至得到最优个体及适应度值。

具体地，在本实施例中，所述步骤S311中采用Logistic混沌映射方法对种群进行初始化；

X_i+1＝u·X_i·(1-X_i)

其中，u为混沌映射的范围，当u＝4时，其映射范围恰好在方便混沌映射之后种群个体载波的[0，1)之间；

所述鲸鱼优化算法以随机的方式初始化种群的方法会使得种群的分布不均匀，从而导致算法总体性能的下降。然而，WOA在种群初始化阶段，使用[0,1)范围的随机数来确定鲸鱼个体每个维度的值，再进行载波映射以确定最终值。这种随机方法很难做到绝对的随机，不能避免鲸鱼个体聚集，使得有些区域难以被搜索到，从而导致算法收敛速度变慢，全局搜索性能降低。本发明将鲸鱼种群看成一个混沌***，利用对初始变量具有敏感特性的logistic混沌映射进行种群初始化，可提高种群元素的随机性，从而达到增加种群多样性的目的。

具体地，在本实施例中，采用收敛因子a进行非线性化的动态自适应调整，收敛因子a是平衡WOA的全局搜索与局部搜索性能，控制算法收敛速度的关键因素。a较大时，WOA的全局搜索能力较强；反之，WOA局部搜索加强。随着迭代次数的增加，a的取值范围从2线性递减至0，而A受到a和随机数r的影响，取值范围限制在[-a,a]之间。为了改善WOA的收敛性能，本发明通过非线性凹曲线函数对a进行非线性化的动态调整；

经上述处理后，在迭代次数t小于之前，随着t的增加，a虽逐步减小但是仍然保持为一个较大值，可以保证算法的全局搜索性能；在t达到/>之后，随着t的增加，a以较大的梯度下降，算法快速进入局部搜索阶段，以较大的概率被螺旋包围或者气泡攻击，使得算法得以迅速收敛，计算精度也得到相应提升。

具体地，在本实施例中，本发明通过分阶段设置自适应惯性权重ω调整WOA的收敛速度，以平衡算法的全局搜索与局部搜索性能的方法，当自适应惯性权重ω取值较大时，WOA的全局搜索性能较好；反之，算法的局部搜索性能较好。这表明惯性权重ω能够影响WOA的收敛速度、算法精度，以及全局搜索能力；为了更好地平衡算法的全局搜索性能和局部搜索性能，并兼顾考虑算法收敛性和计算精度，本发明采用按分阶段设置惯性权重ω的方法克服上述不足。在前期全局搜索阶段，需避免惯性权重ω干扰可能导致出现错误跳出已找到的较好近似解的情况，应保证算法不受ω的干扰，故将ω设置为1。在后期局部搜索阶段，为了提高收敛速度，采用自适应机制设置惯性权重ω。具体方法是：首先，设置(0.03,1]与(1,1.97]两组惯性权重，从中随机选取两个数作为预选惯性权重值；然后，根据两个预选值计算适应度函数值，并将计算结果与未加惯性权重时的原本的适应度值进行比较，从三者中选取最佳者。如果选取的是原本的适应度值，说明不需要做干扰变化。

具体地，在本实施例中，所述步骤S314构建位置更新模型，通过所述位置更新模型更新种群个体的位置，具体为：

所述第一位置更新模型为：

X₁(t+1)＝D'·e^bl·cos(2πl)+ωX^*(t)

其中，X₁(t+1)为当前搜索个体的第一位置更新模型，D'为当前个体与当前最优个体之间的距离，b为对数螺旋线形状的常数，l为随机数，X^*(t)为当前最优个体；w为惯性权重，t为迭代次数；

随机数为：

l＝rand[-1,1)

当前个体与当前最优个体之间的距离为：

D'＝|X^*(t)-X(t)|；

所述第二位置更新模型为：

X₂(t+1)＝ωX_rand(t)-A·D

其中，X₂(t+1)为当前搜索个体的第二位置更新模型，X_rand(t)为随机产生的最优个体的位置信息，A为常系数，D为随机产生的最优个体X_rand(t)与当前搜索个体的距离；

D＝|C·X_rand(t)-X(t)|

其中，C为随机扰动系数；

所述第三位置更新模型为：

X₃(t+1)＝ωX^*(t)-A·D

其中，X₃(t+1)为当前搜索个体的第三位置更新模型，D为当前最优个体与当前搜索个体的距离；

当前最优个体与当前搜索个体的距离D为：

D＝|C·X*(t)-X(t)|

常系数A为：

A＝2·a·r₁-a

C＝2·r₂

其中，a为收敛因子，r₁，r₂为在区间[0,1)上的随机数；

收敛因子a为：

其中，t为当前迭代次数，t_max为最大迭代次数；

在[0，1)之间任意产生一个随机数p；

若p≥0.5，则根据第一位置更新模型更新种群个体的位置；

若p＜0.5，则判断|A|是否大于等于1；若|A|≥1，则根据第二位置更新模型更新种群个体的位置，若|A|＜1，则根据第三位置更新模型更新种群个体的位置；在改进的鲸鱼优化算法中，种群初始话的时间复杂度为O(nd)，其中，n为种群大小，d为维度大小，在迭代过程中，当迭代次数t＞t_max/2.5时，惯性权重w开始生效，并计算适应度值，时间复杂度为O(3/5n)；在鲸鱼位置更新时，时间复杂度为O(n)。因此，每一次迭代得到的复杂度为O(3/5n+nd)，当算法维度d较大时，其复杂度近似为O(nd)。

具体地，在本实施例中，在步骤S315得到最优个体及适应度值之后，还包括：构建测试模型，并根据所述测试模型进行性能测试；

所述测试模型包括三个单模函数和三个多多模函数作为性能测试的基准函数，如表9所示，F1、F2、F3为单模函数，其超平面波峰只有一个，便于观察算法的收敛性能；F4、F5、F6为多模函数，其超平面波峰有多个，便于观察算法的全局搜索性能；设种群规模为30，最大迭代次数为500次；

表9为基准函数

在30维的情况下，基于F1、F2、F3、F4、F5、F6基准函数得到的数据，如表10所示，其中，WOA、M-WOA、W-SA-WOA为现有的改进前的鲸鱼优化算法，本发明不进行具体说明，MS-SA-WOA为改进后的鲸鱼优化算法；

表10为实验结果

在100维的情况下，基于F1、F2、F3、F4、F5、F6基准函数得到的数据，如表11所示，

表11为实验结果

从表10和表11可以得到，对于30维和100维的单模函数F1、F2、F3，MS-SA-WOA算法性能更优，对于30维的多模函数F6，MS-SA-WOA算法略优于WOA、M-WOA，接近W-SA-WOA；对于100维多模函数F6，MS-SA-WOA接近W-SA-WOA，但显著优于WOA和M-WOA；对于30维和100维的多模函数F4和F5，MS-SA-WOA直接收敛于0，达到理论最优解；

同时，采用Wilcoxon秩和检验方法判断MS-SA-WOA与基本WOA、M-WOA和W-SA-WOA算法是否具有显著性差异，参见表12，为秩和校验结果；

表12为秩和校验结果

/>

MS-SA-WOA同三种算法在6个基准函数上进行秩和检验的结果如表12所示，表中Wilcoxon列的值“+”、“＝”和“-”分别表示MS-SA-WOA优于、同于和差于所比较的算法，可以看出，MS-SA-WOA的性能比其它三种算法更优；

参见图8-图13，对于对于30维和100维的单模函数F1、F2、F3，MS-SA-WOA的收敛速度和计算精度明显优于其它三种算法。从图11可看出，对于100维的多模函数F4，MS-SA-WOA由于在全局搜索前期惯性权值为1，收敛速度略慢于M-WOA，但在局部搜索后期可以快速收敛并获得理论最优值0。从图12可以看出，对于100维的多模函数F5，MS-SA-WOA的收敛速度略慢于M-WOA，但在30维的多模函数中，MS-SA-WOA的收敛速度更快，计算精度也更高。；显然，对于低维计算，MS-SA-WOA的收敛性和计算精度都优于所比较的三种算法；对于高维计算，MS-SA-WOA的算法收敛速度和计算精度在大多数情况下也优于所比较的其它三种算法。所述MS-SA-WOA即为本发明改进后的鲸鱼优化算法。

具体地，在本实施例中，所述步骤S3通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化，具体为：

S321、设置鲸鱼优化算法的参数；

S323、计算所述种群个体的适应度值；

具体地，在本实施例中，所述苗医药命名实体识别模型的超参数包括批训练大小Batch size、学习率learning rate和学习率放大倍数Crf multiplier；Batch size是指每次训练时一次性提取的样本数量，一般结合数据集的大小和梯度下降算法的种类来设置；Batch size值设置太大容易造成内存溢出，设置太小可能导致无法收敛；learning rate用于控制损失梯度的神经网络权值的调整幅度，同时也用于控制神经网络参数训练的速度；learning rate值设置越小，损失梯度下降的速度越慢，收敛的时间越长；learning rate值越大，损失梯度下降的速度越快，收敛的时间越短，但容易出现跨过最优解，从而出现难以收敛的情况；Crf multiplier是指对CRF层的学习率放大一定倍数的操作参数；通过适当放大CRF层的学习率，可以使得模型更好学习转移矩阵，从而增加转移矩阵的影响力。因此，通过设定Crf multiplier这个超参数，可以使CRF层的学习达到最佳效果。为了有效发挥苗医药命名实体识别模型的最佳性能，提高苗医药命名实体识别的准确度，本发明将改进后的鲸鱼优化算法对模型中的Batch size、learning rate和Crf multiplier这三个超参数进行优化搜索，从而求出这三个超参数的最优组合。

具体地，在本实施例中，在步骤S325之后，还包括对优化前后的苗医药命名实体识别模型进行性能测试；参数配置参见表13所示，

表13为基于改进后的鲸鱼优化算法超参数优化的参数配置

基于改进后的鲸鱼优化算法优化搜索苗医药命名实体识别模型最佳适应度所对应的种群个体的位置，也即最优的超参数的组合，采用苗医药命名实体识别数据集，使用F1值构建作为测试集评判改进后的鲸鱼优化算法适应度函数值，得到三个超参数的最优组合，如表14所示，

表14为基于改进后的鲸鱼优化算法超参数优化结果

参见图14，为优化前后的苗医药命名实体识别模型的精确度P，召回率R和F1值，优化后的苗医药命名实体识别模型与优化前模型相比，苗医药命名实体识别的精确率相当，但召回率R和F1值得到了提升；其中，BERT-CRF-VAT为超参数优化前的苗医药命名实体识别模型，BERT-CRF-VAT-Whale为超参数优化后的苗医药命名实体识别模型；

参见图15-图17，为优化前后的苗医药命名实体识别模型的精确度P，召回率R和F1值的收敛性曲线对比，针对精确率P、召回率R和F1值三个指标，使用改进后的鲸鱼优化算法进行超参数优化后的苗医药命名实体识别模型均呈现出比原苗医药命名实体识别模型更快的收敛速度，这意味着优化后的模型具有更好的收敛性，仅需要较少的迭代次数就能达到较好的识别效果。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims

1.一种苗医药命名实体识别方法，其特征在于，包括以下步骤：

所述步骤S3通过改进鱿鱼优化算法对所述苗医药命名实体识别模型进行参数优化之前，还包括：对鲸鱼优化算法进行改进，得到改进的鲸鱼优化算法；所述对鲸鱼优化算法进行改进，包括以下步骤：

S311、采用Logistic混沌映射方法对种群进行初始化；

S312、计算每个种群个体的适应度值，得到当前最优个体；

S314、构建位置更新模型，通过所述位置更新模型更新种群个体的位置；具体为：

在[0，1)之间任意产生一个随机数p；

若p≥0.5，则根据第一位置更新模型更新种群个体的位置；

若p＜0.5，则判断|A|是否大于等于1；若|A|≥1，则根据第二位置更新模型更新种群个体的位置，若|A|＜1，则根据第三位置更新模型更新种群个体的位置；

S315、重复上述步骤S312-S314，直至得到最优个体及适应度值；

所述步骤S3通过鲸鱼优化算法对所述苗医药命名实体识别模型进行超参数优化，具体为：

S321、设置鲸鱼优化算法的参数；

S323、计算所述种群个体的适应度值；

S325、判断是否满足迭代终止条件，若是，则输出超参数的最优组合，若不是，则重复上述步骤S323-S324；

2.根据权利要求1所述的一种苗医药命名实体识别方法，其特征在于，所述步骤S1中对所述苗医药命名实体识别数据集进行预处理，具体为：

将采集的苗医药命名实体识别数据标准化处理；

对标准化处理后的数据进行初步清洗并标注。

3.根据权利要求1-2任意一项所述的一种苗医药命名实体识别方法，其特征在于，所述苗医药命名实体识别模型采用BERT-CRF-VAT模型。

4.根据权利要求3所述的一种苗医药命名实体识别方法，其特征在于，所述BERT-CRF-VAT模型包括对抗训练，所述对抗训练具体为：

5.根据权利要求1所述的一种苗医药命名实体识别方法，其特征在于，所述苗医药命名实体识别模型的超参数包括批训练大小、学习率和学习率放大倍数。