CN116050419B - 一种面向科学文献知识实体的无监督识别方法及*** - Google Patents
一种面向科学文献知识实体的无监督识别方法及*** Download PDFInfo
- Publication number
- CN116050419B CN116050419B CN202310323198.6A CN202310323198A CN116050419B CN 116050419 B CN116050419 B CN 116050419B CN 202310323198 A CN202310323198 A CN 202310323198A CN 116050419 B CN116050419 B CN 116050419B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- entity
- cluster
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000013598 vector Substances 0.000 claims description 135
- 238000012549 training Methods 0.000 claims description 77
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000000873 masking effect Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012896 Statistical algorithm Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及知识实体识别技术领域,公开了一种面向科学文献知识实体的无监督识别方法及***,该方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。本发明解决了现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。
Description
技术领域
本发明涉及知识实体识别技术领域,具体是一种面向科学文献知识实体的无监督识别方法及***。
背景技术
科学文献中的知识实体是指专业文献中能表达一个关键知识点的术语实体,蕴含着丰富的科学知识。近年来,科学文献中知识实体的识别与抽取受到广泛关注,与该主题相关的会议相继召开,如“科学文献中知识实体提取和评估研讨会”、“科学文本自然语言处理研讨会”等,旨在探讨如何准确、全面地从科学文本中识别和抽取知识实体,这对特定科学领域知识体系的构建具有重要意义。
目前对于知识实体及其类别的识别与抽取相关研究中,主流方法主要包括:基于人工抽取的方法、基于字典和规则的方法、基于传统机器学习的方法和基于深度学习的方法。其中较好的研究工作是在有监督或半监督条件下进行,这需要一个大量的高质量的标注数据作为语料基础,然而特定科学领域往往缺乏这样的标注数据作为支撑,需要人工介入完成数据标注工作。又由于知识实体类型的划分因领域不同而没有固定的标准,通常可分为方法类、工具类、理论类、资源类等实体类别,导致非领域专家无法进行语料标注工作,大大提高了时间和人力资源成本。
目前无监督的知识实体识别方法还处于探索阶段,虽然效果上并不优于有监督学习的方法,但可避免人工的标注工作。有研究工作通过全词遮盖模型实现了电力领域的无监督命名实体识别,它的基本思想原理是利用公开的结构化数据(电力检修手册)构建一个实体及类别代表词集合来作用指导依据,同时利用全词遮盖技术对文本中的词语进行预测,再通过计算文本词语与代表词之间的相似度,进而完成命名实体识别及类型判断。该方法中作为指导依据的代表词集合的构建需要公开的结构化的数据支持,但对于特定科学领域缺乏这类公开数据集,只有无标注的文本数据资源,因此无法直接迁移到科学文献的知识实体识别中来。
发明内容
为克服现有技术的不足,本发明提供了一种面向科学文献知识实体的无监督识别方法及***,解决现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。
本发明解决上述问题所采用的技术方案是:
一种面向科学文献知识实体的无监督识别方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。
作为一种优选的技术方案,包括以下步骤:
S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;
S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。
作为一种优选的技术方案,步骤S23中,损失函数如下:
其中,、/>、/>表示样本的编号;/>表示/>和/>所组成的样本对的损失;/>表示编号为的样本经过对比学习结构模型转换后的向量,/>表示编号为/>的样本经过对比学习结构模型转换后的向量,/>表示编号为/>的样本经过对比学习结构模型转换后的向量;/>表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;/>表示调节参数,取值为0或1,表示当/>时,/>取值为1,否则为0;/>表示温度参数,用于控制样本分布的均匀程度;/>表示最终的损失函数。
作为一种优选的技术方案,步骤S24中,采用K-means算法对重新表征后的词向量进行聚类,包括以下步骤:
S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;
S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:
式中,
S244,重复步骤S241至步骤S243,直到簇中心不再变化,训练完成。
作为一种优选的技术方案,簇数量K的设定方案如下:
假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇;对于每个簇中的每个样本词,分别计算其轮廓系数,对每个样本词计算以下指标:
作为一种优选的技术方案,S3包括以下步骤:
S341,利用已预训练好的全词遮盖模型对遮盖词预测可能词/>;设定阈值/>,把预测概率/>的词汇/>取出,分别计算取出后的/>与各实体类别/>中所有代表词/>的平均语义相似度;再把取出的预测词/>和实体类别/>的语义相似度进行加权平均,最终得到遮盖词/>与实体类别/>的语义相似度/>,公式如下所示:
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,从公开数据库中收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,将关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,将标题和摘要数据拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示。
一种面向科学文献知识实体的无监督识别***,用于实现所述的一种面向科学文献知识实体的无监督识别方法,包括依次相连的以下模块:
预训练模块:用以,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
知识实体类别代表词学习模块:用以,将结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
知识实体识别模块:用以,对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
本发明相比于现有技术,具有以下有益效果:
(1)本发明采用无监督的方法,完全从未标注的文本数据入手,避免了人工对于数据的标注工作,在特定领域科学文献中的知识实体识别任务中可大力节省人力开支,并且对低资源领域缺少结构化标注数据的情况提供了解决思路;
(2)本发明在无结构化数据集依靠的情况下结合对比学习的思路,通过词向量聚类的方法对知识实体代表词集合进行构建,并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量,在一定程度上提高了聚类的准确度,即可以得到较好效果的代表词及类别集合来作为识别方法的指导依据。
附图说明
图1为本发明***结构图;
图2为本发明预训练模块流程示意图;
图3为本发明知识实体类别代表词学习模块流程示意图;
图4为本发明知识实体识别模块流程示意图;
图5为本发明S25中对比学习结构模型训练的网络框架图;
图6为本发明S3中实体识别及归类示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图6所示,本发明提供一种面向科学文献知识实体的无监督识别方法及***,本发明从无标注的文本数据出发,通过结合对比学习和聚类的方法构建知识实体代表词集合作为评判依据,再结合全词遮盖模型来识别文献文本中的知识实体,避免了传统知识实体识别中的人工标注工作,节省了时间成本和人力资源,为低资源科学领域的知识实体识别提供了一套可执行的无监督识别方法。
一种面向科学文献知识实体的无监督识别***,包括预训练模块、知识实体类别代表词学习模块以及知识实体识别模块:
所述预训练模块用于:收集文献数据,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型(BERT-WWM模型)的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使得模型学习到所涉及科学领域的词语的上下文语义和语法特征;
所述知识实体类别代表词学习模块用于:将预训练模块中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
所述知识实体识别模块用于:对待检测的科学文献文本中的名词进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
工作时,具体包括以下步骤:
S1、预训练模块的目的在于:一方面采集并处理指定领域的文献文本,为知识实体类别代表词学习模块提供语料数据;另一方面通过全词遮盖技术(Whole Word Masking,WWM)预训练学习文献文本词语的上下文表示,为知识实体识别模块提供预测模型。
具体步骤为:
S11,从公开数据库中利用爬虫技术收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,词语的初始频度为统计的重复次数,标题和摘要数据进行拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示;
进一步的,步骤S12中采用的N-gram算法,它的基本思想是将文本内容按字节流进行大小为N的滑动窗口操作,形成长度为N的字节片段序列。每个字节片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值和规则进行过滤,得到长度及频度符合要求的字串。这里我们认为知识实体的字节长度最小为2最大为10,频度最小为2。
进一步说明,在针对中文的模型预训练和词向量表示中都需要加入分词的步骤,因此需要构建一个指导分词的领域词典。而选用基于串频统计的N-gram算法进行构建词典的考虑在于,本发明的需求中不需要对新词识别的词边界问题进行深入研究,只需要分词结果中尽量包含目标词语即可。
进一步的,步骤S13中全词遮盖模型采用BERT-WWM模型,其为升级版的BERT,可以对遮盖的词语进行预测,其主要更改了BERT预训练阶段的训练样本生成策略:
BERT是以字为单位进行遮盖,因此可能会将“…材料的损伤决定…”遮盖为“…材料的[MASK]伤决定…”,而BERT-WWM是以完整的词进行遮盖,会将文本遮盖为“…材料的[MASK][MASK]决定…”,因此训练后的模型在做遮盖处的词语预测时会更加准确;
S2、知识实体类别代表词学习模块的目的在于:将S13中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示,再通过结合对比学习的方法对词向量数据进行聚类,构建出一个小型的领域知识实体代表词及其类别的集合,为知识实体识别模块提供判断依据。
所述实体类别及其代表词集合构建方法的具体步骤为:
S21,将S13中分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对筛选后的词向量进行两次数据增强转换,得到与原始词向量类别相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与空间中其他任一数据增强后的词向量均互为负例,记数据增强前有N个词向量,即这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将数据增强后的词向量经过对比学习结构模型重新学习并表征,映射到的新表征空间中,利用损失函数限时正类样本间的距离越来越近,负类样本间的距离越来越远,使得样本词向量在新表征空间中能尽量分散均匀分布;
S24,对上述重新表征后的词向量进行聚类(如K-means算法),聚类完成后计算簇中心与其他词语的语义相似度(如余弦相似度),并设定阈值,筛选出语义相似度大于所设阈值的实体词,目的是去除部分语义上差别过大的词语,从而得到所需知识实体代表词集合,而每个簇的类别信息由聚类完成后人工观测各簇内的具体词语信息得到。
进一步的,步骤S21中利用模型学习将词语向量表示,通常使用的词向量表示模型有Word2Vec和BERT,此处选用Word2Vec,其原因是:BERT的词向量注重反映词语的上下文信息,而本发明方法中代表词集合的构建更注重词语本身的语义表示。
进一步的,所述S21步骤中数据增强转换方式的选用,是构建对比学习框架的核心环节。在自然语言处理领域对比学习的数据增强主要依据的是语义不变性,常用方法有词汇替换、回译、字面转换、随机噪声等,本发明采用的方式为通过将训练样本输入模型两次,得到两个数值上不同的特征向量,详细描述如下:
将训练样本重新输入Word2Vec训练两次,提取出所需词语的向量表示,由于每次的模型训练具有随机性,即使训练参数设置保持一致,相同词语也会得到两个数值上不同的词向量。
这是因为Word2Vec的训练是基于随机初始化的,每次训练时都会使用不同的随机种子,这可能导致不同的初始词向量,也就是说在空间中的词向量相对位置是不变的,但每次结果的绝对位置可能不同。而由于是基于相同语料进行训练,因此词语的语义特征上是相似的。即原样本词经过上述数据增强操作后得到/>和/>,/>和/>与/>之间仅存在向量的数值大小不一样,但保留了样本/>的语义和类别的特征信息,因此/>与/>和/>之间互为正类样本,属于同一类别的实体词。
进一步的,所述S23步骤中采用的对比学习网络结构,详细描述如下:
将原样本词向量经数据增强转换后得到的两个新词向量/>和/>,经过特征编码器Encoder后转换为对应的特征向量/>和/>,此网络结构由两个全连接层(FullyConnected Layer,FC)和非线性激活函数Tanh组成,以函数/>表示。随后,是另一个非线性变换结构Projector,进一步将/>和/>映射成另一空间的向量/>和/>,此处采用全连接层(FC)、批量归一化(Batch Normalization,BN)和非线性激活函数(ReLU)来组成,具体结构为/>,用函数/>表示。对于数据对/>互为正例,而/>和与空间里其他任意2N-2个向量都互为负例。在经过/>变换后,增强向量被投射到新的表示空间。在新的表示空间内,希望正例距离较近,负例距离较远。这需要通过定义合适的损失函数来实现,判断空间距离远近的标准采用语义相似度衡量。具体的损失函数如下:
其中,、/>、/>表示样本的编号;/>表示/>和/>所组成的样本对的损失;/>表示编号为/>的样本经过对比学习结构模型转换后的向量,/>表示编号为/>的样本经过对比学习结构模型转换后的向量,/>表示编号为/>的样本经过对比学习结构模型转换后的向量;/>表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;/>表示调节参数,取值为0或1,表示当/>时,/>取值为1,否则为0;/>表示温度超参;/>表示最终的损失函数。
其中,分子部分用于描述互为正例的样本相似程度,分母部分表示当前样本和batchSize(一次训练所选取的样本数)中的其他样本的相似程度之和,即可通过分子式表示样本/>和/>的相似概率。其中/>表示样本经过/>变换之后的向量表示,/>表示温度超参(可以缩放输入,并扩大余弦相似度的范围),用于控制loss对负样本对的敏感程度,表示对两个向量求解语义相似度。L表示所有配对的损失并取平均值,这里2N表示原batchSize中的N个样本经预处理后为2N个样本。/>:计算所有配对的损失并取平均值
进一步的,所述步骤S24中采用的K-means算法详细描述如下:
(1)在所述对比学习后重新表征的词向量空间中选定K个词作为初始簇中心,即簇中心;
(2)计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
(3)计算完向量空间所有样本词后,计算每个簇所有样本词的均值作为新的簇中心,更新原来的簇中心;
(4)重复步骤(1)~步骤(3),直到簇中心不再变化,即收敛时,训练完成。
其中,步骤(3)所述样本词的均值向量计算公式为:
进一步需要说明的是,簇数量K的设定方案采用轮廓系数法反向评价,具体如下:
S3、知识实体识别模块的目的在于:结合S1中预训练得到的预测模型与S2模块中构建的知识实体类别和代表词集合,识别出待检测文本中的知识实体。具体步骤为:
步骤一,将待识别数据文本结合领域词典进行分词并识别出其中的名词,记为,对/>进行遮盖处理,然后利用已训练好的BERT-WWM模型对遮盖部分预测可能词/>。设定阈值/>,把预测概率/>的词汇/>取出,分别计算/>与各实体类别/>中所有代表词/>的平均语义相似度。再把取出的预测词/>和实体类别/>的语言相似度进行加权平均,最终得到遮盖词/>与实体类别/>的语义相似度/>,公式如下所示:
需要说明的是:这里考虑采用类别内元素个数的对数是为了降低元素数量对权重的影响力度。
与现有技术相比,本发明可以获得包括以下有益效果:
(1)本发明采用无监督的方法,完全从未标注的文本数据入手,避免了人工对于数据的标注工作,在特定领域科学文献中的知识实体识别任务中可大力节省人力开支,并且对低资源领域缺少结构化标注数据的情况提供了解决思路;
(2)本发明在无结构化数据集依靠的情况下结合对比学习的思路,通过词向量聚类的方法对知识实体代表词集合进行构建,并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量,在一定程度上提高了聚类的准确度,即可以得到更好效果的代表词及类别集合来作为识别方法的指导依据。
实施例2
如图1至图6所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
如图1所示,本发明实施例提供了一种面向激光领域科学文献知识实体的无监督识别方法,包括预训练模块、知识实体类别代表词学习模块及知识实体识别模块。所述预训练模块用于激光领域主题词典的构建和通过全词遮盖模型学习激光领域词语的上下文语义和语法特征;知识实体类别代表词学习模块用于聚类构建一个小规模的明确类型的激光知识实体代表词集合,以作为知识实体识别模块中判断待检测文本中词语是否为知识实体的指导依据;知识实体识别模块用于结合激光领域词典和激光知识实体代表词集合对待检测文本中知识实体进行识别。
根据图2所示,所述预训练模块能够提供知识实体识别流程中所需的激光领域词典、知识实体代表词学习模块所需的模型训练语料以及学习了激光领域先验知识的BERT-WWM模型。详细实施步骤为:
步骤一,在公开数据集中收集有关“激光损伤”的科学文献共计6598篇。将标题和摘要数据进行拼接并使用中文通用停用词表进行过滤,得到预训练的基础语料;将关键词以每词为一行存储到领域词典文件中,并进行去重处理,所得词语重复次数即为该词语的初始频度。
步骤二,设定实体词最大词语长度为L=10,使用中文通用的停用词表过滤基础语料,并对长度小于或等于L且大于2的字串进行串频统计;对串频统计频度大于阈值的字串,如果存在于初始领域词典中,则更新其词频为初始词频和串频统计词频之和,新字串及其频度则直接添加到领域词典中。最后得到最终的领域词典。此处设定阈值/>的原因是,我们认为频度小于2的字串因出现次数过低不属于知识实体。本实施例得到初始激光领域词典共计8884个实体词。
步骤三,利用分词工具(如jieba)结合领域词典将基础语料进行分词处理;将分词后的语料作为BERT-WWM模型的输入语料,对领域词典中出现的词进行全词遮盖处理,再进行模型的预训练,以使模型学习到激光领域的先验知识,得到知识实体识别模块中所需的预测模型。
其中,BERT-WWM模型训练中为节省资源,采用两阶段预训练方式,第一阶段预训练的句子长度为128,第二阶段预训练句子长度为512。主要采用的预训练任务为全词遮盖(Masked Language Model,MLM)和下句预测(Next Sentence Prediction,NSP),由于本发明方法的任务是无监督的知识实体识别,所以没有进行任务级别(如分类)的预训练任务。
根据图3所示,所述领域知识实体代表词学习模块能够通过聚类算法得到一个小规模的明确类型的激光知识实体代表词集合,为知识实体识别提供判断依据。详细实施步骤为:
步骤一,将预训练模块中分词后的语料作为Word2Vec模型的输入语料,进行词向量表示学习,主要参数设置有:size=300(词向量维度),window=5,min_count=2,sg=1(使用Skip-gram模型),训练完成后保存模型以及提取出激光领域词典中的词向量,再将训练样本重新输入Word2Vec训练两次进行数据增强,训练参数设定保持一致,对于相同词语的词向量进行区别标记,再经过图5所示的对比学习网络结构将词向量重新表征;
步骤二,最后在新的表征空间中采用K-means算法进行聚类,并对聚类结果中各个簇的每个词汇,人工结合具体的代表词决定该簇所表示的具体实体类别,再通过计算簇中心与其他词语的语义相似度,筛选出语义相似度大于所设阈值(如)的实体词作为激光知识实体代表词集合;
最终划分激光领域知识实体类别为:激光类型(T)、实验理论(A)、实验资源(R)、实验操作(H)、实验结果(O)和其他(E),其中各类别代表词个数由所设阈值大小决定。
根据图4所示,所述知识实体识别模块能够通过预训练的预测模型对待检测文本中的激光知识实体进行识别。详细实施步骤为:
步骤一,结合所构建激光领域词典对待检测文本进行分词,识别出文本中的名词,利用已划分的实体类别将各个词进行类别标注,此处标记了100个名词,得到了可用于测试的文本;
步骤二,对上述识别后的词用[MASK]遮盖,利用预训练好的BERT-WWM模型对遮盖部分预测可能词,计算遮盖词与实体类别/>的语义相似度/>:如图6所示,设定阈值/>(如0.6),把预测概率/>的词汇/>取出,分别计算/>与各实体类别/>中所有代表词的平均语义相似度。再把取出的预测词/>和实体类别/>的语言相似度进行加权平均,得到最终的/>,
最终在所标注的100个词中识别正确同时归属类别正确的词语共计47个,证明了本发明的可行性。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (8)
1.一种面向科学文献知识实体的无监督识别方法,其特征在于,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别;
包括以下步骤:
S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别;
步骤S2包括以下步骤:
S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;
S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。
3.根据权利要求2所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S24中,采用K-means算法对重新表征后的词向量进行聚类,包括以下步骤:
S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;
S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:
式中,
S244,重复步骤S241至步骤S243,直到簇中心不再变化,训练完成。
4.根据权利要求3所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,簇数量K的设定方案如下:
假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇;对于每个簇中的每个样本词,分别计算其轮廓系数,对每个样本词计算以下指标:
S341,利用已预训练好的全词遮盖模型对遮盖词预测可能词/>;设定阈值/>,把预测概率/>的词汇/>取出,分别计算取出后的/>与各实体类别/>中所有代表词/>的平均语义相似度;再把取出的预测词/>和实体类别/>的语义相似度进行加权平均,最终得到遮盖词/>与实体类别/>的语义相似度/>,公式如下所示:
7.根据权利要求1至6任一项所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S1包括以下步骤:
S11,从公开数据库中收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,将关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,将标题和摘要数据拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示。
8.一种面向科学文献知识实体的无监督识别***,其特征在于,用于实现权利要求1至7任一项所述的一种面向科学文献知识实体的无监督识别方法,包括依次相连的以下模块:
预训练模块:用以,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
知识实体类别代表词学习模块:用以,将结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
知识实体识别模块:用以,对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323198.6A CN116050419B (zh) | 2023-03-30 | 2023-03-30 | 一种面向科学文献知识实体的无监督识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323198.6A CN116050419B (zh) | 2023-03-30 | 2023-03-30 | 一种面向科学文献知识实体的无监督识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050419A CN116050419A (zh) | 2023-05-02 |
CN116050419B true CN116050419B (zh) | 2023-06-02 |
Family
ID=86129854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310323198.6A Active CN116050419B (zh) | 2023-03-30 | 2023-03-30 | 一种面向科学文献知识实体的无监督识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050419B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116798633B (zh) * | 2023-08-22 | 2023-11-21 | 北京大学人民医院 | 创伤数据安全风险评估***构建方法和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN113988073A (zh) * | 2021-10-26 | 2022-01-28 | 迪普佰奥生物科技(上海)股份有限公司 | 适用于生命科学的文本识别方法和*** |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
CN114282592A (zh) * | 2021-11-15 | 2022-04-05 | 清华大学 | 一种基于深度学习的行业文本匹配模型方法及装置 |
-
2023
- 2023-03-30 CN CN202310323198.6A patent/CN116050419B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN113988073A (zh) * | 2021-10-26 | 2022-01-28 | 迪普佰奥生物科技(上海)股份有限公司 | 适用于生命科学的文本识别方法和*** |
CN114282592A (zh) * | 2021-11-15 | 2022-04-05 | 清华大学 | 一种基于深度学习的行业文本匹配模型方法及装置 |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
Non-Patent Citations (3)
Title |
---|
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark;Ningyu Zhang 等;《Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics》;第1卷;7888–7915 * |
基于BERT-BLSTM-CRF的政务领域命名实体识别方法;杨春明 等;《西南科技大学学报》;第35卷(第3期);86-91 * |
基于BERT的危险化学品命名实体识别模型;陈观林 等;《广西科学》;第30卷(第1期);43-51 * |
Also Published As
Publication number | Publication date |
---|---|
CN116050419A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111353029B (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN111597328B (zh) | 一种新事件主题提取方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及*** | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、***及电子设备 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及*** | |
CN115062104A (zh) | 融合知识提示的法律文本小样本命名实体识别方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113705238A (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及模型 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、***、设备和存储介质 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 | |
CN116361442B (zh) | 基于人工智能的营业厅数据分析方法及*** | |
CN113722494A (zh) | 一种基于自然语言理解的设备故障定位方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN114117069B (zh) | 一种用于知识图谱智能问答的语义理解方法及*** | |
CN116166773A (zh) | 一种变体文本识别方法、装置和可读存储介质 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN115344695A (zh) | 一种基于领域bert模型的服务文本分类方法 | |
CN112182213B (zh) | 一种基于异常流泪特征认知的建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |