CN116050419B

CN116050419B - 一种面向科学文献知识实体的无监督识别方法及***

Info

Publication number: CN116050419B
Application number: CN202310323198.6A
Authority: CN
Inventors: 张晖; 兰浩宇; 杨春明; 陈洋
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-02
Anticipated expiration: 2043-03-30
Also published as: CN116050419A

Abstract

本发明涉及知识实体识别技术领域，公开了一种面向科学文献知识实体的无监督识别方法及***，该方法，利用无标注的科学文献文本数据对全词遮盖模型进行预训练，通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据，然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测，通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体，并确定科学文献文本中的词语的类别。本发明解决了现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。

Description

一种面向科学文献知识实体的无监督识别方法及***

技术领域

本发明涉及知识实体识别技术领域，具体是一种面向科学文献知识实体的无监督识别方法及***。

背景技术

科学文献中的知识实体是指专业文献中能表达一个关键知识点的术语实体，蕴含着丰富的科学知识。近年来，科学文献中知识实体的识别与抽取受到广泛关注，与该主题相关的会议相继召开，如“科学文献中知识实体提取和评估研讨会”、“科学文本自然语言处理研讨会”等，旨在探讨如何准确、全面地从科学文本中识别和抽取知识实体，这对特定科学领域知识体系的构建具有重要意义。

目前对于知识实体及其类别的识别与抽取相关研究中，主流方法主要包括：基于人工抽取的方法、基于字典和规则的方法、基于传统机器学习的方法和基于深度学习的方法。其中较好的研究工作是在有监督或半监督条件下进行，这需要一个大量的高质量的标注数据作为语料基础，然而特定科学领域往往缺乏这样的标注数据作为支撑，需要人工介入完成数据标注工作。又由于知识实体类型的划分因领域不同而没有固定的标准，通常可分为方法类、工具类、理论类、资源类等实体类别，导致非领域专家无法进行语料标注工作，大大提高了时间和人力资源成本。

目前无监督的知识实体识别方法还处于探索阶段，虽然效果上并不优于有监督学习的方法，但可避免人工的标注工作。有研究工作通过全词遮盖模型实现了电力领域的无监督命名实体识别，它的基本思想原理是利用公开的结构化数据（电力检修手册）构建一个实体及类别代表词集合来作用指导依据，同时利用全词遮盖技术对文本中的词语进行预测，再通过计算文本词语与代表词之间的相似度，进而完成命名实体识别及类型判断。该方法中作为指导依据的代表词集合的构建需要公开的结构化的数据支持，但对于特定科学领域缺乏这类公开数据集，只有无标注的文本数据资源，因此无法直接迁移到科学文献的知识实体识别中来。

发明内容

为克服现有技术的不足，本发明提供了一种面向科学文献知识实体的无监督识别方法及***，解决现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。

本发明解决上述问题所采用的技术方案是：

一种面向科学文献知识实体的无监督识别方法，利用无标注的科学文献文本数据对全词遮盖模型进行预训练，通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据，然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测，通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体，并确定科学文献文本中的词语的类别。

作为一种优选的技术方案，包括以下步骤：

S1，预训练：对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料，并结合串频统计算法构建领域词典，然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练，使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征；

S2，知识实体类别代表词学习：将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示，再利用对比学习结构模型对词语的向量重新学习，然后通过聚类得到知识实体代表词及其类别的集合，作为识别流程中判断文本词语是否为知识实体的依据；

S3，知识实体识别：对待识别的科学文献文本中的词语进行遮盖处理，利用已训练的全词遮盖模型对遮盖词语进行预测，然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值，以此判断遮盖词语是否为知识实体，并确定其类别。

作为一种优选的技术方案，步骤S2包括以下步骤：

S21，将分词处理后的训练语料输入词向量表示模型进行训练，并提取出领域词典中词语的词向量，对提取出的词向量进行两次数据增强，得到与原始词向量类别及语义特征相同但数值不同的两个新词向量，新词向量之间互为正类样本；

S22，产生的两个新词向量与其他任一数据增强后的词向量均互为负例，记两次数据增强前有N个词向量，两次数据增强后的词向量空间中有2N个词向量，则这两个新词向量与2N-2个其他词向量均互为负类样本；

S23，将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中，在此空间中利用损失函数限定正类样本间的距离越来越近，负类样本间的距离越来越远，使得词向量在新表征空间中能尽量分散均匀分布；

S24，对重新表征后的词向量进行聚类，聚类完成后计算簇中心与其他词语的语义相似度，并设定阈值，筛选出语义相似度大于所设阈值的实体词，同时结合各簇中具体的实体词确定该簇所代表的类别，从而得到所需知识实体代表词集合。

作为一种优选的技术方案，步骤S23中，损失函数如下：

；

；

；

其中，

、/>

、/>

表示样本的编号；/>

表示/>

和/>

所组成的样本对的损失；/>

表示编号为

的样本经过对比学习结构模型转换后的向量，/>

表示编号为/>

的样本经过对比学习结构模型转换后的向量，/>

表示编号为/>

的样本经过对比学习结构模型转换后的向量；/>

表示两样本的相似度，采用余弦相似度计算；N表示数据增强前的样本总数；/>

表示调节参数，取值为0或1，表示当/>

时，/>

取值为1，否则为0；/>

表示温度参数，用于控制样本分布的均匀程度；/>

表示最终的损失函数。

作为一种优选的技术方案，步骤S24中，采用K-means算法对重新表征后的词向量进行聚类，包括以下步骤：

S241，在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心；

S242，计算词向量空间中其他所有词向量与各簇中心的距离，词向量到簇中心的距离越近，则认为该词向量对应的样本词属于该簇类别的概率越大，然后将每个样本词划分给距离最近的簇；

S243，计算完向量空间所有样本词后，计算每个簇所有样本词的均值向量，并将每个簇所有样本词的均值向量作为新的簇中心，更新原来的簇中心；其中，所述样本词的均值向量计算公式为：

；

式中，

；

其中，

表示样本词的均值向量，/>

表示某一个簇，/>

表示/>

簇里的某一向量，/>

表示/>

簇的样本词个数；

S244，重复步骤S241至步骤S243，直到簇中心不再变化，训练完成。

作为一种优选的技术方案，簇数量K的设定方案如下：

假设已经通过聚类算法将待分类的数据进行了聚类，并最终得到了K个簇；对于每个簇中的每个样本词，分别计算其轮廓系数，对每个样本词计算以下指标：

：样本点到与其属于同一个簇的其他样本点的距离的平均值；/>

值越小，说明该样本点属于该类别的可能性越大；

：样本点到其他簇中的所有样本的平均距离/>

的最小值，/>

的计算公式为：

；

则样本点

的轮廓系数为：

；

其中，

表示样本点/>

的轮廓系数；

所有样本点的轮廓系数的平均值为该聚类结果平均轮廓系数

，/>

；簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。

作为一种优选的技术方案，S3包括以下步骤：

S31，对待检测文本进行分词，识别出文本中的名词

并进行遮盖；

S32，利用S14中所得到的全词遮盖模型预测被遮盖词可能的输出词

；

S33，结合S2中所得到的知识实体代表词集合，计算所遮盖词

归属于类别/>

中的得分/>

；

S34，设定阈值，当分数

大于阈值时则认定该遮盖词语为知识实体且属于相应实体类别/>

，否则认定该遮盖词语不是知识实体。/>

作为一种优选的技术方案，步骤S33中，遮盖词语

归属于类别/>

中的得分/>

的计算方法如下：

S341，利用已预训练好的全词遮盖模型对遮盖词

预测可能词/>

；设定阈值/>

，把预测概率/>

的词汇/>

取出，分别计算取出后的/>

与各实体类别/>

中所有代表词/>

的平均语义相似度；再把取出的预测词/>

和实体类别/>

的语义相似度进行加权平均，最终得到遮盖词/>

与实体类别/>

的语义相似度/>

，公式如下所示：

；

其中，

为代表词集合中某一类别所包含的代表词个数；

S342，设定包含实体词多的实体类型有更大的权重，对代表词集合中不同的实体类型设定不同的权重，用

表示，设实体聚类簇中包含/>

个元素，则权重计算公式如下：

；

其中，

表示类别/>

被赋予的权重值；

S343，再计算遮盖词

归属类型/>

的分值/>

，计算公式如下：

。

作为一种优选的技术方案，步骤S1包括以下步骤：

S11，从公开数据库中收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据，将关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典，将标题和摘要数据拼接处理后构成基础语料；

S12，对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串，然后将已存在领域词典的字串词进行频度更新，将未出现于领域词典的字串词及其频度直接添加至领域词典中；

S13，将基础语料结合领域词典进行分词处理，并对领域词典中出现的词语进行全词遮盖处理，然后采用全词遮盖模型进行训练，以使全词遮盖模型得到领域的词语的上下文语义表示。

一种面向科学文献知识实体的无监督识别***，用于实现所述的一种面向科学文献知识实体的无监督识别方法，包括依次相连的以下模块：

预训练模块：用以，对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料，并结合串频统计算法构建领域词典，然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练，使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征；

知识实体类别代表词学习模块：用以，将结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示，再利用对比学习结构模型对词语的向量重新学习，然后通过聚类得到知识实体代表词及其类别的集合，作为识别流程中判断文本词语是否为知识实体的依据；

知识实体识别模块：用以，对待识别的科学文献文本中的词语进行遮盖处理，利用已训练的全词遮盖模型对遮盖词语进行预测，然后计算所得到的预测词语与构建的代表词集合中词语之间的相似度分值，以此判断遮盖词语是否为知识实体，并确定其类别。

本发明相比于现有技术，具有以下有益效果：

（1）本发明采用无监督的方法，完全从未标注的文本数据入手，避免了人工对于数据的标注工作，在特定领域科学文献中的知识实体识别任务中可大力节省人力开支，并且对低资源领域缺少结构化标注数据的情况提供了解决思路；

（2）本发明在无结构化数据集依靠的情况下结合对比学习的思路，通过词向量聚类的方法对知识实体代表词集合进行构建，并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量，在一定程度上提高了聚类的准确度，即可以得到较好效果的代表词及类别集合来作为识别方法的指导依据。

附图说明

图1为本发明***结构图；

图2为本发明预训练模块流程示意图；

图3为本发明知识实体类别代表词学习模块流程示意图；

图4为本发明知识实体识别模块流程示意图；

图5为本发明S25中对比学习结构模型训练的网络框架图；

图6为本发明S3中实体识别及归类示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1至图6所示，本发明提供一种面向科学文献知识实体的无监督识别方法及***，本发明从无标注的文本数据出发，通过结合对比学习和聚类的方法构建知识实体代表词集合作为评判依据，再结合全词遮盖模型来识别文献文本中的知识实体，避免了传统知识实体识别中的人工标注工作，节省了时间成本和人力资源，为低资源科学领域的知识实体识别提供了一套可执行的无监督识别方法。

一种面向科学文献知识实体的无监督识别***，包括预训练模块、知识实体类别代表词学习模块以及知识实体识别模块：

所述预训练模块用于：收集文献数据，对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型（BERT-WWM模型）的训练语料，并结合串频统计算法构建领域词典，然后将训练语料以词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练，使得模型学习到所涉及科学领域的词语的上下文语义和语法特征；

所述知识实体类别代表词学习模块用于：将预训练模块中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示，再利用对比学习结构模型对词语的向量重新学习，然后通过聚类得到知识实体代表词及其类别的集合，作为识别流程中判断文本词语是否为知识实体的依据；

所述知识实体识别模块用于：对待检测的科学文献文本中的名词进行遮盖处理，利用已训练的全词遮盖模型对遮盖词语进行预测，然后计算所得到的预测词语与所构建的代表词集合中词语之间的相似度分值，以此判断遮盖词语是否为知识实体，并确定其类别。

工作时，具体包括以下步骤：

S1、预训练模块的目的在于：一方面采集并处理指定领域的文献文本，为知识实体类别代表词学习模块提供语料数据；另一方面通过全词遮盖技术（Whole Word Masking,WWM）预训练学习文献文本词语的上下文表示，为知识实体识别模块提供预测模型。

具体步骤为：

S11，从公开数据库中利用爬虫技术收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据，关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典，词语的初始频度为统计的重复次数，标题和摘要数据进行拼接处理后构成基础语料；

S13，将基础语料结合领域词典进行分词处理，并对领域词典中出现的词语进行全词遮盖处理，然后采用全词遮盖模型进行训练，以使全词遮盖模型得到领域的词语的上下文语义表示；

进一步的，步骤S12中采用的N-gram算法，它的基本思想是将文本内容按字节流进行大小为N的滑动窗口操作，形成长度为N的字节片段序列。每个字节片段称为gram，对全部gram的出现频度进行统计，并按照事先设定的阈值和规则进行过滤，得到长度及频度符合要求的字串。这里我们认为知识实体的字节长度最小为2最大为10，频度最小为2。

进一步说明，在针对中文的模型预训练和词向量表示中都需要加入分词的步骤，因此需要构建一个指导分词的领域词典。而选用基于串频统计的N-gram算法进行构建词典的考虑在于，本发明的需求中不需要对新词识别的词边界问题进行深入研究，只需要分词结果中尽量包含目标词语即可。

进一步的，步骤S13中全词遮盖模型采用BERT-WWM模型，其为升级版的BERT，可以对遮盖的词语进行预测，其主要更改了BERT预训练阶段的训练样本生成策略：

BERT是以字为单位进行遮盖，因此可能会将“…材料的损伤决定…”遮盖为“…材料的[MASK]伤决定…”，而BERT-WWM是以完整的词进行遮盖，会将文本遮盖为“…材料的[MASK][MASK]决定…”，因此训练后的模型在做遮盖处的词语预测时会更加准确；

S2、知识实体类别代表词学习模块的目的在于：将S13中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示，再通过结合对比学习的方法对词向量数据进行聚类，构建出一个小型的领域知识实体代表词及其类别的集合，为知识实体识别模块提供判断依据。

所述实体类别及其代表词集合构建方法的具体步骤为：

S21，将S13中分词处理后的训练语料输入词向量表示模型进行训练，并提取出领域词典中词语的词向量，对筛选后的词向量进行两次数据增强转换，得到与原始词向量类别相同但数值不同的两个新词向量，新词向量之间互为正类样本；

S22，产生的两个新词向量与空间中其他任一数据增强后的词向量均互为负例，记数据增强前有N个词向量，即这两个新词向量与2N-2个其他词向量均互为负类样本；

S23，将数据增强后的词向量经过对比学习结构模型重新学习并表征，映射到的新表征空间中，利用损失函数限时正类样本间的距离越来越近，负类样本间的距离越来越远，使得样本词向量在新表征空间中能尽量分散均匀分布；

S24，对上述重新表征后的词向量进行聚类（如K-means算法），聚类完成后计算簇中心与其他词语的语义相似度（如余弦相似度），并设定阈值，筛选出语义相似度大于所设阈值的实体词，目的是去除部分语义上差别过大的词语，从而得到所需知识实体代表词集合，而每个簇的类别信息由聚类完成后人工观测各簇内的具体词语信息得到。

进一步的，步骤S21中利用模型学习将词语向量表示，通常使用的词向量表示模型有Word2Vec和BERT，此处选用Word2Vec，其原因是：BERT的词向量注重反映词语的上下文信息，而本发明方法中代表词集合的构建更注重词语本身的语义表示。

进一步的，所述S21步骤中数据增强转换方式的选用，是构建对比学习框架的核心环节。在自然语言处理领域对比学习的数据增强主要依据的是语义不变性，常用方法有词汇替换、回译、字面转换、随机噪声等，本发明采用的方式为通过将训练样本输入模型两次，得到两个数值上不同的特征向量，详细描述如下：

将训练样本重新输入Word2Vec训练两次，提取出所需词语的向量表示，由于每次的模型训练具有随机性，即使训练参数设置保持一致，相同词语也会得到两个数值上不同的词向量。

这是因为Word2Vec的训练是基于随机初始化的，每次训练时都会使用不同的随机种子，这可能导致不同的初始词向量，也就是说在空间中的词向量相对位置是不变的，但每次结果的绝对位置可能不同。而由于是基于相同语料进行训练，因此词语的语义特征上是相似的。即原样本词

经过上述数据增强操作后得到/>

和/>

，/>

和/>

与/>

之间仅存在向量的数值大小不一样，但保留了样本/>

的语义和类别的特征信息，因此/>

与/>

和/>

之间互为正类样本，属于同一类别的实体词。

进一步的，所述S23步骤中采用的对比学习网络结构，详细描述如下：

将原样本词向量

经数据增强转换后得到的两个新词向量/>

和/>

，经过特征编码器Encoder后转换为对应的特征向量/>

和/>

，此网络结构由两个全连接层（FullyConnected Layer，FC）和非线性激活函数Tanh组成，以函数/>

表示。随后，是另一个非线性变换结构Projector，进一步将/>

和/>

映射成另一空间的向量/>

和/>

，此处采用全连接层（FC）、批量归一化（Batch Normalization，BN）和非线性激活函数（ReLU）来组成，具体结构为/>

，用函数/>

表示。对于数据对/>

互为正例，而/>

和

与空间里其他任意2N-2个向量都互为负例。在经过/>

变换后，增强向量被投射到新的表示空间。在新的表示空间内，希望正例距离较近，负例距离较远。这需要通过定义合适的损失函数来实现，判断空间距离远近的标准采用语义相似度衡量。具体的损失函数如下：

；

；/>

；

其中，

、/>

、/>

表示样本的编号；/>

表示/>

和/>

所组成的样本对的损失；/>

表示编号为/>

的样本经过对比学习结构模型转换后的向量，/>

表示编号为/>

的样本经过对比学习结构模型转换后的向量，/>

表示编号为/>

的样本经过对比学习结构模型转换后的向量；/>

表示调节参数，取值为0或1，表示当/>

时，/>

取值为1，否则为0；/>

表示温度超参；/>

表示最终的损失函数。

其中，

分子部分用于描述互为正例的样本相似程度，分母部分表示当前样本和batchSize（一次训练所选取的样本数）中的其他样本的相似程度之和，即可通过分子式表示样本/>

和/>

的相似概率。其中/>

表示样本经过/>

变换之后的向量表示，/>

表示温度超参（可以缩放输入，并扩大余弦相似度的范围），用于控制loss对负样本对的敏感程度，

表示对两个向量求解语义相似度。L表示所有配对的损失并取平均值，这里2N表示原batchSize中的N个样本经预处理后为2N个样本。/>

：计算所有配对的损失并取平均值

进一步的，所述步骤S24中采用的K-means算法详细描述如下：

（1）在所述对比学习后重新表征的词向量空间中选定K个词作为初始簇中心，即簇中心；

（2）计算词向量空间中其他所有词向量与各簇中心的距离，词向量到簇中心的距离越近，则认为该词向量对应的样本词属于该簇类别的概率越大，然后将每个样本词划分给距离最近的簇；

（3）计算完向量空间所有样本词后，计算每个簇所有样本词的均值作为新的簇中心，更新原来的簇中心；

（4）重复步骤（1）～步骤（3），直到簇中心不再变化，即收敛时，训练完成。

其中，步骤（3）所述样本词的均值向量计算公式为：

；

；

式中，

为样本词向量，/>

为类别/>

的样本个数。

进一步需要说明的是，簇数量K的设定方案采用轮廓系数法反向评价，具体如下：

假设已经通过聚类算法将待分类的数据进行了聚类，并最终得到了K个簇。对于每个簇中的每个样本词

，分别计算其轮廓系数。具体地，需要对每个样本词/>

计算以下两个指标：

（1）

：样本词/>

到与其属于同一个簇的其他样本词的距离的平均值。/>

越小，说明该样本词/>

属于该类别的可能性越大。/>

（2）

：样本词/>

到其他簇/>

中的所有样本的平均距离/>

的最小值，即

；

则样本词

的轮廓系数为：

；

而所有样本词

的轮廓系数的平均值，即为该聚类结果平均轮廓系数/>

。

，簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。因此平均轮廓系数最大的k便是最佳的聚类数。

S3、知识实体识别模块的目的在于：结合S1中预训练得到的预测模型与S2模块中构建的知识实体类别和代表词集合，识别出待检测文本中的知识实体。具体步骤为：

S31，对待检测文本进行分词，识别出文本中的名词（

）并进行遮盖；

S32，利用S14中所得到的BERT-WWM全词遮盖模型预测被遮盖词（

）可能的输出词

；

S33，结合S2模块中所得到的领域知识实体代表词集合，计算所遮盖词

归属于类别/>

中的得分/>

；

S34，设定阈值，当分数

，否则认定该遮盖词语不是知识实体。

进一步的，所述依据遮盖词归属于类别

中的得分/>

来判断遮盖词是否为知识实体的方法，详细描述如下：

步骤一，将待识别数据文本结合领域词典进行分词并识别出其中的名词，记为

，对/>

进行遮盖处理，然后利用已训练好的BERT-WWM模型对遮盖部分预测可能词/>

。设定阈值/>

，把预测概率/>

的词汇/>

取出，分别计算/>

与各实体类别/>

中所有代表词/>

的平均语义相似度。再把取出的预测词/>

和实体类别/>

的语言相似度进行加权平均，最终得到遮盖词/>

与实体类别/>

的语义相似度/>

，公式如下所示：

；

步骤二，设定包含实体词多的实体类型有更大的权重，对不同规模的实体类型设定权重

，设实体聚类簇中包含/>

个元素，则权重计算公式如下：

；

需要说明的是：这里考虑采用类别内元素个数的对数是为了降低元素数量对权重的影响力度。

步骤三，再计算实体归属类型的分值

，如存在某个实体类别/>

，使得/>

大于/>

，则认为遮盖词/>

为相应的实体类别，否则认为该词不是实体词。具体分值计算如下所示：

。

与现有技术相比，本发明可以获得包括以下有益效果：

（2）本发明在无结构化数据集依靠的情况下结合对比学习的思路，通过词向量聚类的方法对知识实体代表词集合进行构建，并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量，在一定程度上提高了聚类的准确度，即可以得到更好效果的代表词及类别集合来作为识别方法的指导依据。

实施例2

如图1至图6所示，作为实施例1的进一步优化，在实施例1的基础上，本实施例还包括以下技术特征：

如图1所示，本发明实施例提供了一种面向激光领域科学文献知识实体的无监督识别方法，包括预训练模块、知识实体类别代表词学习模块及知识实体识别模块。所述预训练模块用于激光领域主题词典的构建和通过全词遮盖模型学习激光领域词语的上下文语义和语法特征；知识实体类别代表词学习模块用于聚类构建一个小规模的明确类型的激光知识实体代表词集合，以作为知识实体识别模块中判断待检测文本中词语是否为知识实体的指导依据；知识实体识别模块用于结合激光领域词典和激光知识实体代表词集合对待检测文本中知识实体进行识别。

根据图2所示，所述预训练模块能够提供知识实体识别流程中所需的激光领域词典、知识实体代表词学习模块所需的模型训练语料以及学习了激光领域先验知识的BERT-WWM模型。详细实施步骤为：

步骤一，在公开数据集中收集有关“激光损伤”的科学文献共计6598篇。将标题和摘要数据进行拼接并使用中文通用停用词表进行过滤，得到预训练的基础语料；将关键词以每词为一行存储到领域词典文件中，并进行去重处理，所得词语重复次数即为该词语的初始频度。

步骤二，设定实体词最大词语长度为L=10，使用中文通用的停用词表过滤基础语料，并对长度小于或等于L且大于2的字串进行串频统计；对串频统计频度大于阈值

的字串，如果存在于初始领域词典中，则更新其词频为初始词频和串频统计词频之和，新字串及其频度则直接添加到领域词典中。最后得到最终的领域词典。此处设定阈值/>

的原因是，我们认为频度小于2的字串因出现次数过低不属于知识实体。本实施例得到初始激光领域词典共计8884个实体词。

步骤三，利用分词工具（如jieba）结合领域词典将基础语料进行分词处理；将分词后的语料作为BERT-WWM模型的输入语料，对领域词典中出现的词进行全词遮盖处理，再进行模型的预训练，以使模型学习到激光领域的先验知识，得到知识实体识别模块中所需的预测模型。

其中，BERT-WWM模型训练中为节省资源，采用两阶段预训练方式，第一阶段预训练的句子长度为128，第二阶段预训练句子长度为512。主要采用的预训练任务为全词遮盖（Masked Language Model，MLM）和下句预测（Next Sentence Prediction，NSP），由于本发明方法的任务是无监督的知识实体识别，所以没有进行任务级别（如分类）的预训练任务。

根据图3所示，所述领域知识实体代表词学习模块能够通过聚类算法得到一个小规模的明确类型的激光知识实体代表词集合，为知识实体识别提供判断依据。详细实施步骤为：

步骤一，将预训练模块中分词后的语料作为Word2Vec模型的输入语料，进行词向量表示学习，主要参数设置有：size=300（词向量维度），window=5，min_count=2，sg=1（使用Skip-gram模型），训练完成后保存模型以及提取出激光领域词典中的词向量，再将训练样本重新输入Word2Vec训练两次进行数据增强，训练参数设定保持一致，对于相同词语的词向量进行区别标记，再经过图5所示的对比学习网络结构将词向量重新表征；

步骤二，最后在新的表征空间中采用K-means算法进行聚类，并对聚类结果中各个簇的每个词汇，人工结合具体的代表词决定该簇所表示的具体实体类别，再通过计算簇中心与其他词语的语义相似度，筛选出语义相似度大于所设阈值（如

）的实体词作为激光知识实体代表词集合；

最终划分激光领域知识实体类别为：激光类型（T）、实验理论（A）、实验资源（R）、实验操作（H）、实验结果（O）和其他（E），其中各类别代表词个数由所设阈值大小决定。

根据图4所示，所述知识实体识别模块能够通过预训练的预测模型对待检测文本中的激光知识实体进行识别。详细实施步骤为：

步骤一，结合所构建激光领域词典对待检测文本进行分词，识别出文本中的名词，利用已划分的实体类别将各个词进行类别标注，此处标记了100个名词，得到了可用于测试的文本；

步骤二，对上述识别后的词用[MASK]遮盖，利用预训练好的BERT-WWM模型对遮盖部分预测可能词

，计算遮盖词与实体类别/>

的语义相似度/>

：如图6所示，设定阈值/>

（如0.6），把预测概率/>

的词汇/>

取出，分别计算/>

与各实体类别/>

中所有代表词

的平均语义相似度。再把取出的预测词/>

和实体类别/>

的语言相似度进行加权平均，得到最终的/>

，

步骤三，结合公式计算出遮盖词归属于各类别的得分

，如果存在某个实体类别/>

，使得/>

大于所设阈值，则判定所遮盖词是激光知识实体，类别为相应实体类别

，否则不是。

最终在所标注的100个词中识别正确同时归属类别正确的词语共计47个，证明了本发明的可行性。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种面向科学文献知识实体的无监督识别方法，其特征在于，利用无标注的科学文献文本数据对全词遮盖模型进行预训练，通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据，然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测，通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体，并确定科学文献文本中的词语的类别；

包括以下步骤：

S3，知识实体识别：对待识别的科学文献文本中的词语进行遮盖处理，利用已训练的全词遮盖模型对遮盖词语进行预测，然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值，以此判断遮盖词语是否为知识实体，并确定其类别；

步骤S2包括以下步骤：

2.根据权利要求1所述的一种面向科学文献知识实体的无监督识别方法，其特征在于，步骤S23中，损失函数如下：