CN116050419B - 一种面向科学文献知识实体的无监督识别方法及*** - Google Patents

一种面向科学文献知识实体的无监督识别方法及*** Download PDF

Info

Publication number
CN116050419B
CN116050419B CN202310323198.6A CN202310323198A CN116050419B CN 116050419 B CN116050419 B CN 116050419B CN 202310323198 A CN202310323198 A CN 202310323198A CN 116050419 B CN116050419 B CN 116050419B
Authority
CN
China
Prior art keywords
word
words
entity
cluster
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310323198.6A
Other languages
English (en)
Other versions
CN116050419A (zh
Inventor
张晖
兰浩宇
杨春明
陈洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202310323198.6A priority Critical patent/CN116050419B/zh
Publication of CN116050419A publication Critical patent/CN116050419A/zh
Application granted granted Critical
Publication of CN116050419B publication Critical patent/CN116050419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识实体识别技术领域,公开了一种面向科学文献知识实体的无监督识别方法及***,该方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。本发明解决了现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。

Description

一种面向科学文献知识实体的无监督识别方法及***
技术领域
本发明涉及知识实体识别技术领域,具体是一种面向科学文献知识实体的无监督识别方法及***。
背景技术
科学文献中的知识实体是指专业文献中能表达一个关键知识点的术语实体,蕴含着丰富的科学知识。近年来,科学文献中知识实体的识别与抽取受到广泛关注,与该主题相关的会议相继召开,如“科学文献中知识实体提取和评估研讨会”、“科学文本自然语言处理研讨会”等,旨在探讨如何准确、全面地从科学文本中识别和抽取知识实体,这对特定科学领域知识体系的构建具有重要意义。
目前对于知识实体及其类别的识别与抽取相关研究中,主流方法主要包括:基于人工抽取的方法、基于字典和规则的方法、基于传统机器学习的方法和基于深度学习的方法。其中较好的研究工作是在有监督或半监督条件下进行,这需要一个大量的高质量的标注数据作为语料基础,然而特定科学领域往往缺乏这样的标注数据作为支撑,需要人工介入完成数据标注工作。又由于知识实体类型的划分因领域不同而没有固定的标准,通常可分为方法类、工具类、理论类、资源类等实体类别,导致非领域专家无法进行语料标注工作,大大提高了时间和人力资源成本。
目前无监督的知识实体识别方法还处于探索阶段,虽然效果上并不优于有监督学习的方法,但可避免人工的标注工作。有研究工作通过全词遮盖模型实现了电力领域的无监督命名实体识别,它的基本思想原理是利用公开的结构化数据(电力检修手册)构建一个实体及类别代表词集合来作用指导依据,同时利用全词遮盖技术对文本中的词语进行预测,再通过计算文本词语与代表词之间的相似度,进而完成命名实体识别及类型判断。该方法中作为指导依据的代表词集合的构建需要公开的结构化的数据支持,但对于特定科学领域缺乏这类公开数据集,只有无标注的文本数据资源,因此无法直接迁移到科学文献的知识实体识别中来。
发明内容
为克服现有技术的不足,本发明提供了一种面向科学文献知识实体的无监督识别方法及***,解决现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。
本发明解决上述问题所采用的技术方案是:
一种面向科学文献知识实体的无监督识别方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。
作为一种优选的技术方案,包括以下步骤:
S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;
S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。
作为一种优选的技术方案,步骤S23中,损失函数如下:
Figure SMS_1
Figure SMS_2
Figure SMS_3
其中,
Figure SMS_19
、/>
Figure SMS_8
、/>
Figure SMS_13
表示样本的编号;/>
Figure SMS_9
表示/>
Figure SMS_15
和/>
Figure SMS_14
所组成的样本对的损失;/>
Figure SMS_17
表示编号为
Figure SMS_16
的样本经过对比学习结构模型转换后的向量,/>
Figure SMS_20
表示编号为/>
Figure SMS_4
的样本经过对比学习结构模型转换后的向量,/>
Figure SMS_10
表示编号为/>
Figure SMS_7
的样本经过对比学习结构模型转换后的向量;/>
Figure SMS_12
表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;/>
Figure SMS_18
表示调节参数,取值为0或1,表示当/>
Figure SMS_21
时,/>
Figure SMS_5
取值为1,否则为0;/>
Figure SMS_11
表示温度参数,用于控制样本分布的均匀程度;/>
Figure SMS_6
表示最终的损失函数。
作为一种优选的技术方案,步骤S24中,采用K-means算法对重新表征后的词向量进行聚类,包括以下步骤:
S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;
S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:
Figure SMS_22
式中,
Figure SMS_23
其中,
Figure SMS_24
表示样本词的均值向量,/>
Figure SMS_25
表示某一个簇,/>
Figure SMS_26
表示/>
Figure SMS_27
簇里的某一向量,/>
Figure SMS_28
表示/>
Figure SMS_29
簇的样本词个数;
S244,重复步骤S241至步骤S243,直到簇中心不再变化,训练完成。
作为一种优选的技术方案,簇数量K的设定方案如下:
假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇;对于每个簇中的每个样本词,分别计算其轮廓系数,对每个样本词计算以下指标:
Figure SMS_30
:样本点到与其属于同一个簇的其他样本点的距离的平均值;/>
Figure SMS_31
值越小,说明该样本点属于该类别的可能性越大;
Figure SMS_32
:样本点到其他簇中的所有样本的平均距离/>
Figure SMS_33
的最小值,/>
Figure SMS_34
的计算公式为:
Figure SMS_35
则样本点
Figure SMS_36
的轮廓系数为:
Figure SMS_37
其中,
Figure SMS_38
表示样本点/>
Figure SMS_39
的轮廓系数;
所有样本点的轮廓系数的平均值为该聚类结果平均轮廓系数
Figure SMS_40
,/>
Figure SMS_41
;簇内样本的距离越近,簇间样本距离越远,平均轮廓系数越大,聚类效果越好。
作为一种优选的技术方案,S3包括以下步骤:
S31,对待检测文本进行分词,识别出文本中的名词
Figure SMS_42
并进行遮盖;
S32,利用S14中所得到的全词遮盖模型预测被遮盖词可能的输出词
Figure SMS_43
S33,结合S2中所得到的知识实体代表词集合,计算所遮盖词
Figure SMS_44
归属于类别/>
Figure SMS_45
中的得分/>
Figure SMS_46
S34,设定阈值,当分数
Figure SMS_47
大于阈值时则认定该遮盖词语为知识实体且属于相应实体类别/>
Figure SMS_48
,否则认定该遮盖词语不是知识实体。/>
作为一种优选的技术方案,步骤S33中,遮盖词语
Figure SMS_49
归属于类别/>
Figure SMS_50
中的得分/>
Figure SMS_51
的计算方法如下:
S341,利用已预训练好的全词遮盖模型对遮盖词
Figure SMS_53
预测可能词/>
Figure SMS_57
;设定阈值/>
Figure SMS_61
,把预测概率/>
Figure SMS_54
的词汇/>
Figure SMS_58
取出,分别计算取出后的/>
Figure SMS_62
与各实体类别/>
Figure SMS_64
中所有代表词/>
Figure SMS_52
的平均语义相似度;再把取出的预测词/>
Figure SMS_56
和实体类别/>
Figure SMS_60
的语义相似度进行加权平均,最终得到遮盖词/>
Figure SMS_63
与实体类别/>
Figure SMS_55
的语义相似度/>
Figure SMS_59
,公式如下所示:
Figure SMS_65
其中,
Figure SMS_66
为代表词集合中某一类别所包含的代表词个数;
S342,设定包含实体词多的实体类型有更大的权重,对代表词集合中不同的实体类型设定不同的权重,用
Figure SMS_67
表示,设实体聚类簇中包含/>
Figure SMS_68
个元素,则权重计算公式如下:
Figure SMS_69
其中,
Figure SMS_70
表示类别/>
Figure SMS_71
被赋予的权重值;
S343,再计算遮盖词
Figure SMS_72
归属类型/>
Figure SMS_73
的分值/>
Figure SMS_74
,计算公式如下:
Figure SMS_75
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,从公开数据库中收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,将关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,将标题和摘要数据拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示。
一种面向科学文献知识实体的无监督识别***,用于实现所述的一种面向科学文献知识实体的无监督识别方法,包括依次相连的以下模块:
预训练模块:用以,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
知识实体类别代表词学习模块:用以,将结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
知识实体识别模块:用以,对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
本发明相比于现有技术,具有以下有益效果:
(1)本发明采用无监督的方法,完全从未标注的文本数据入手,避免了人工对于数据的标注工作,在特定领域科学文献中的知识实体识别任务中可大力节省人力开支,并且对低资源领域缺少结构化标注数据的情况提供了解决思路;
(2)本发明在无结构化数据集依靠的情况下结合对比学习的思路,通过词向量聚类的方法对知识实体代表词集合进行构建,并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量,在一定程度上提高了聚类的准确度,即可以得到较好效果的代表词及类别集合来作为识别方法的指导依据。
附图说明
图1为本发明***结构图;
图2为本发明预训练模块流程示意图;
图3为本发明知识实体类别代表词学习模块流程示意图;
图4为本发明知识实体识别模块流程示意图;
图5为本发明S25中对比学习结构模型训练的网络框架图;
图6为本发明S3中实体识别及归类示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图6所示,本发明提供一种面向科学文献知识实体的无监督识别方法及***,本发明从无标注的文本数据出发,通过结合对比学习和聚类的方法构建知识实体代表词集合作为评判依据,再结合全词遮盖模型来识别文献文本中的知识实体,避免了传统知识实体识别中的人工标注工作,节省了时间成本和人力资源,为低资源科学领域的知识实体识别提供了一套可执行的无监督识别方法。
一种面向科学文献知识实体的无监督识别***,包括预训练模块、知识实体类别代表词学习模块以及知识实体识别模块:
所述预训练模块用于:收集文献数据,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型(BERT-WWM模型)的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使得模型学习到所涉及科学领域的词语的上下文语义和语法特征;
所述知识实体类别代表词学习模块用于:将预训练模块中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
所述知识实体识别模块用于:对待检测的科学文献文本中的名词进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
工作时,具体包括以下步骤:
S1、预训练模块的目的在于:一方面采集并处理指定领域的文献文本,为知识实体类别代表词学习模块提供语料数据;另一方面通过全词遮盖技术(Whole Word Masking,WWM)预训练学习文献文本词语的上下文表示,为知识实体识别模块提供预测模型。
具体步骤为:
S11,从公开数据库中利用爬虫技术收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,词语的初始频度为统计的重复次数,标题和摘要数据进行拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示;
进一步的,步骤S12中采用的N-gram算法,它的基本思想是将文本内容按字节流进行大小为N的滑动窗口操作,形成长度为N的字节片段序列。每个字节片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值和规则进行过滤,得到长度及频度符合要求的字串。这里我们认为知识实体的字节长度最小为2最大为10,频度最小为2。
进一步说明,在针对中文的模型预训练和词向量表示中都需要加入分词的步骤,因此需要构建一个指导分词的领域词典。而选用基于串频统计的N-gram算法进行构建词典的考虑在于,本发明的需求中不需要对新词识别的词边界问题进行深入研究,只需要分词结果中尽量包含目标词语即可。
进一步的,步骤S13中全词遮盖模型采用BERT-WWM模型,其为升级版的BERT,可以对遮盖的词语进行预测,其主要更改了BERT预训练阶段的训练样本生成策略:
BERT是以字为单位进行遮盖,因此可能会将“…材料的损伤决定…”遮盖为“…材料的[MASK]伤决定…”,而BERT-WWM是以完整的词进行遮盖,会将文本遮盖为“…材料的[MASK][MASK]决定…”,因此训练后的模型在做遮盖处的词语预测时会更加准确;
S2、知识实体类别代表词学习模块的目的在于:将S13中结合词典分词后的训练语料输入词向量表示模型训练得到词典中词语的向量表示,再通过结合对比学习的方法对词向量数据进行聚类,构建出一个小型的领域知识实体代表词及其类别的集合,为知识实体识别模块提供判断依据。
所述实体类别及其代表词集合构建方法的具体步骤为:
S21,将S13中分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对筛选后的词向量进行两次数据增强转换,得到与原始词向量类别相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与空间中其他任一数据增强后的词向量均互为负例,记数据增强前有N个词向量,即这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将数据增强后的词向量经过对比学习结构模型重新学习并表征,映射到的新表征空间中,利用损失函数限时正类样本间的距离越来越近,负类样本间的距离越来越远,使得样本词向量在新表征空间中能尽量分散均匀分布;
S24,对上述重新表征后的词向量进行聚类(如K-means算法),聚类完成后计算簇中心与其他词语的语义相似度(如余弦相似度),并设定阈值,筛选出语义相似度大于所设阈值的实体词,目的是去除部分语义上差别过大的词语,从而得到所需知识实体代表词集合,而每个簇的类别信息由聚类完成后人工观测各簇内的具体词语信息得到。
进一步的,步骤S21中利用模型学习将词语向量表示,通常使用的词向量表示模型有Word2Vec和BERT,此处选用Word2Vec,其原因是:BERT的词向量注重反映词语的上下文信息,而本发明方法中代表词集合的构建更注重词语本身的语义表示。
进一步的,所述S21步骤中数据增强转换方式的选用,是构建对比学习框架的核心环节。在自然语言处理领域对比学习的数据增强主要依据的是语义不变性,常用方法有词汇替换、回译、字面转换、随机噪声等,本发明采用的方式为通过将训练样本输入模型两次,得到两个数值上不同的特征向量,详细描述如下:
将训练样本重新输入Word2Vec训练两次,提取出所需词语的向量表示,由于每次的模型训练具有随机性,即使训练参数设置保持一致,相同词语也会得到两个数值上不同的词向量。
这是因为Word2Vec的训练是基于随机初始化的,每次训练时都会使用不同的随机种子,这可能导致不同的初始词向量,也就是说在空间中的词向量相对位置是不变的,但每次结果的绝对位置可能不同。而由于是基于相同语料进行训练,因此词语的语义特征上是相似的。即原样本词
Figure SMS_77
经过上述数据增强操作后得到/>
Figure SMS_81
和/>
Figure SMS_84
,/>
Figure SMS_78
和/>
Figure SMS_80
与/>
Figure SMS_83
之间仅存在向量的数值大小不一样,但保留了样本/>
Figure SMS_85
的语义和类别的特征信息,因此/>
Figure SMS_76
与/>
Figure SMS_79
和/>
Figure SMS_82
之间互为正类样本,属于同一类别的实体词。
进一步的,所述S23步骤中采用的对比学习网络结构,详细描述如下:
将原样本词向量
Figure SMS_96
经数据增强转换后得到的两个新词向量/>
Figure SMS_87
和/>
Figure SMS_95
,经过特征编码器Encoder后转换为对应的特征向量/>
Figure SMS_89
和/>
Figure SMS_94
,此网络结构由两个全连接层(FullyConnected Layer,FC)和非线性激活函数Tanh组成,以函数/>
Figure SMS_91
表示。随后,是另一个非线性变换结构Projector,进一步将/>
Figure SMS_97
和/>
Figure SMS_99
映射成另一空间的向量/>
Figure SMS_101
和/>
Figure SMS_86
,此处采用全连接层(FC)、批量归一化(Batch Normalization,BN)和非线性激活函数(ReLU)来组成,具体结构为/>
Figure SMS_93
,用函数/>
Figure SMS_88
表示。对于数据对/>
Figure SMS_92
互为正例,而/>
Figure SMS_98
Figure SMS_100
与空间里其他任意2N-2个向量都互为负例。在经过/>
Figure SMS_90
变换后,增强向量被投射到新的表示空间。在新的表示空间内,希望正例距离较近,负例距离较远。这需要通过定义合适的损失函数来实现,判断空间距离远近的标准采用语义相似度衡量。具体的损失函数如下:
Figure SMS_102
Figure SMS_103
;/>
Figure SMS_104
其中,
Figure SMS_110
、/>
Figure SMS_106
、/>
Figure SMS_111
表示样本的编号;/>
Figure SMS_108
表示/>
Figure SMS_113
和/>
Figure SMS_118
所组成的样本对的损失;/>
Figure SMS_122
表示编号为/>
Figure SMS_117
的样本经过对比学习结构模型转换后的向量,/>
Figure SMS_121
表示编号为/>
Figure SMS_105
的样本经过对比学习结构模型转换后的向量,/>
Figure SMS_114
表示编号为/>
Figure SMS_115
的样本经过对比学习结构模型转换后的向量;/>
Figure SMS_119
表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;/>
Figure SMS_116
表示调节参数,取值为0或1,表示当/>
Figure SMS_120
时,/>
Figure SMS_107
取值为1,否则为0;/>
Figure SMS_112
表示温度超参;/>
Figure SMS_109
表示最终的损失函数。
其中,
Figure SMS_124
分子部分用于描述互为正例的样本相似程度,分母部分表示当前样本和batchSize(一次训练所选取的样本数)中的其他样本的相似程度之和,即可通过分子式表示样本/>
Figure SMS_126
和/>
Figure SMS_128
的相似概率。其中/>
Figure SMS_125
表示样本经过/>
Figure SMS_127
变换之后的向量表示,/>
Figure SMS_129
表示温度超参(可以缩放输入,并扩大余弦相似度的范围),用于控制loss对负样本对的敏感程度,
Figure SMS_130
表示对两个向量求解语义相似度。L表示所有配对的损失并取平均值,这里2N表示原batchSize中的N个样本经预处理后为2N个样本。/>
Figure SMS_123
:计算所有配对的损失并取平均值
进一步的,所述步骤S24中采用的K-means算法详细描述如下:
(1)在所述对比学习后重新表征的词向量空间中选定K个词作为初始簇中心,即簇中心;
(2)计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
(3)计算完向量空间所有样本词后,计算每个簇所有样本词的均值作为新的簇中心,更新原来的簇中心;
(4)重复步骤(1)~步骤(3),直到簇中心不再变化,即收敛时,训练完成。
其中,步骤(3)所述样本词的均值向量计算公式为:
Figure SMS_131
Figure SMS_132
式中,
Figure SMS_133
为样本词向量,/>
Figure SMS_134
为类别/>
Figure SMS_135
的样本个数。
进一步需要说明的是,簇数量K的设定方案采用轮廓系数法反向评价,具体如下:
假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇。对于每个簇中的每个样本词
Figure SMS_136
,分别计算其轮廓系数。具体地,需要对每个样本词/>
Figure SMS_137
计算以下两个指标:
(1)
Figure SMS_138
:样本词/>
Figure SMS_139
到与其属于同一个簇的其他样本词的距离的平均值。/>
Figure SMS_140
越小,说明该样本词/>
Figure SMS_141
属于该类别的可能性越大。/>
(2)
Figure SMS_142
:样本词/>
Figure SMS_143
到其他簇/>
Figure SMS_144
中的所有样本的平均距离/>
Figure SMS_145
的最小值,即
Figure SMS_146
则样本词
Figure SMS_147
的轮廓系数为:
Figure SMS_148
而所有样本词
Figure SMS_149
的轮廓系数的平均值,即为该聚类结果平均轮廓系数/>
Figure SMS_150
Figure SMS_151
,簇内样本的距离越近,簇间样本距离越远,平均轮廓系数越大,聚类效果越好。因此平均轮廓系数最大的k便是最佳的聚类数。
S3、知识实体识别模块的目的在于:结合S1中预训练得到的预测模型与S2模块中构建的知识实体类别和代表词集合,识别出待检测文本中的知识实体。具体步骤为:
S31,对待检测文本进行分词,识别出文本中的名词(
Figure SMS_152
)并进行遮盖;
S32,利用S14中所得到的BERT-WWM全词遮盖模型预测被遮盖词(
Figure SMS_153
)可能的输出词
Figure SMS_154
S33,结合S2模块中所得到的领域知识实体代表词集合,计算所遮盖词
Figure SMS_155
归属于类别/>
Figure SMS_156
中的得分/>
Figure SMS_157
S34,设定阈值,当分数
Figure SMS_158
大于阈值时则认定该遮盖词语为知识实体且属于相应实体类别/>
Figure SMS_159
,否则认定该遮盖词语不是知识实体。
进一步的,所述依据遮盖词归属于类别
Figure SMS_160
中的得分/>
Figure SMS_161
来判断遮盖词是否为知识实体的方法,详细描述如下:
步骤一,将待识别数据文本结合领域词典进行分词并识别出其中的名词,记为
Figure SMS_165
,对/>
Figure SMS_169
进行遮盖处理,然后利用已训练好的BERT-WWM模型对遮盖部分预测可能词/>
Figure SMS_172
。设定阈值/>
Figure SMS_163
,把预测概率/>
Figure SMS_167
的词汇/>
Figure SMS_171
取出,分别计算/>
Figure SMS_175
与各实体类别/>
Figure SMS_162
中所有代表词/>
Figure SMS_166
的平均语义相似度。再把取出的预测词/>
Figure SMS_170
和实体类别/>
Figure SMS_174
的语言相似度进行加权平均,最终得到遮盖词/>
Figure SMS_164
与实体类别/>
Figure SMS_168
的语义相似度/>
Figure SMS_173
,公式如下所示:
Figure SMS_176
步骤二,设定包含实体词多的实体类型有更大的权重,对不同规模的实体类型设定权重
Figure SMS_177
,设实体聚类簇中包含/>
Figure SMS_178
个元素,则权重计算公式如下:
Figure SMS_179
需要说明的是:这里考虑采用类别内元素个数的对数是为了降低元素数量对权重的影响力度。
步骤三,再计算实体归属类型的分值
Figure SMS_180
,如存在某个实体类别/>
Figure SMS_181
,使得/>
Figure SMS_182
大于/>
Figure SMS_183
,则认为遮盖词/>
Figure SMS_184
为相应的实体类别,否则认为该词不是实体词。具体分值计算如下所示:
Figure SMS_185
与现有技术相比,本发明可以获得包括以下有益效果:
(1)本发明采用无监督的方法,完全从未标注的文本数据入手,避免了人工对于数据的标注工作,在特定领域科学文献中的知识实体识别任务中可大力节省人力开支,并且对低资源领域缺少结构化标注数据的情况提供了解决思路;
(2)本发明在无结构化数据集依靠的情况下结合对比学习的思路,通过词向量聚类的方法对知识实体代表词集合进行构建,并在此过程中利用训练模型的特点进行创新性地数据增强转换构造出新词向量,在一定程度上提高了聚类的准确度,即可以得到更好效果的代表词及类别集合来作为识别方法的指导依据。
实施例2
如图1至图6所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
如图1所示,本发明实施例提供了一种面向激光领域科学文献知识实体的无监督识别方法,包括预训练模块、知识实体类别代表词学习模块及知识实体识别模块。所述预训练模块用于激光领域主题词典的构建和通过全词遮盖模型学习激光领域词语的上下文语义和语法特征;知识实体类别代表词学习模块用于聚类构建一个小规模的明确类型的激光知识实体代表词集合,以作为知识实体识别模块中判断待检测文本中词语是否为知识实体的指导依据;知识实体识别模块用于结合激光领域词典和激光知识实体代表词集合对待检测文本中知识实体进行识别。
根据图2所示,所述预训练模块能够提供知识实体识别流程中所需的激光领域词典、知识实体代表词学习模块所需的模型训练语料以及学习了激光领域先验知识的BERT-WWM模型。详细实施步骤为:
步骤一,在公开数据集中收集有关“激光损伤”的科学文献共计6598篇。将标题和摘要数据进行拼接并使用中文通用停用词表进行过滤,得到预训练的基础语料;将关键词以每词为一行存储到领域词典文件中,并进行去重处理,所得词语重复次数即为该词语的初始频度。
步骤二,设定实体词最大词语长度为L=10,使用中文通用的停用词表过滤基础语料,并对长度小于或等于L且大于2的字串进行串频统计;对串频统计频度大于阈值
Figure SMS_186
的字串,如果存在于初始领域词典中,则更新其词频为初始词频和串频统计词频之和,新字串及其频度则直接添加到领域词典中。最后得到最终的领域词典。此处设定阈值/>
Figure SMS_187
的原因是,我们认为频度小于2的字串因出现次数过低不属于知识实体。本实施例得到初始激光领域词典共计8884个实体词。
步骤三,利用分词工具(如jieba)结合领域词典将基础语料进行分词处理;将分词后的语料作为BERT-WWM模型的输入语料,对领域词典中出现的词进行全词遮盖处理,再进行模型的预训练,以使模型学习到激光领域的先验知识,得到知识实体识别模块中所需的预测模型。
其中,BERT-WWM模型训练中为节省资源,采用两阶段预训练方式,第一阶段预训练的句子长度为128,第二阶段预训练句子长度为512。主要采用的预训练任务为全词遮盖(Masked Language Model,MLM)和下句预测(Next Sentence Prediction,NSP),由于本发明方法的任务是无监督的知识实体识别,所以没有进行任务级别(如分类)的预训练任务。
根据图3所示,所述领域知识实体代表词学习模块能够通过聚类算法得到一个小规模的明确类型的激光知识实体代表词集合,为知识实体识别提供判断依据。详细实施步骤为:
步骤一,将预训练模块中分词后的语料作为Word2Vec模型的输入语料,进行词向量表示学习,主要参数设置有:size=300(词向量维度),window=5,min_count=2,sg=1(使用Skip-gram模型),训练完成后保存模型以及提取出激光领域词典中的词向量,再将训练样本重新输入Word2Vec训练两次进行数据增强,训练参数设定保持一致,对于相同词语的词向量进行区别标记,再经过图5所示的对比学习网络结构将词向量重新表征;
步骤二,最后在新的表征空间中采用K-means算法进行聚类,并对聚类结果中各个簇的每个词汇,人工结合具体的代表词决定该簇所表示的具体实体类别,再通过计算簇中心与其他词语的语义相似度,筛选出语义相似度大于所设阈值(如
Figure SMS_188
)的实体词作为激光知识实体代表词集合;
最终划分激光领域知识实体类别为:激光类型(T)、实验理论(A)、实验资源(R)、实验操作(H)、实验结果(O)和其他(E),其中各类别代表词个数由所设阈值大小决定。
根据图4所示,所述知识实体识别模块能够通过预训练的预测模型对待检测文本中的激光知识实体进行识别。详细实施步骤为:
步骤一,结合所构建激光领域词典对待检测文本进行分词,识别出文本中的名词,利用已划分的实体类别将各个词进行类别标注,此处标记了100个名词,得到了可用于测试的文本;
步骤二,对上述识别后的词用[MASK]遮盖,利用预训练好的BERT-WWM模型对遮盖部分预测可能词
Figure SMS_190
,计算遮盖词与实体类别/>
Figure SMS_194
的语义相似度/>
Figure SMS_197
:如图6所示,设定阈值/>
Figure SMS_192
(如0.6),把预测概率/>
Figure SMS_195
的词汇/>
Figure SMS_198
取出,分别计算/>
Figure SMS_200
与各实体类别/>
Figure SMS_189
中所有代表词
Figure SMS_193
的平均语义相似度。再把取出的预测词/>
Figure SMS_196
和实体类别/>
Figure SMS_199
的语言相似度进行加权平均,得到最终的/>
Figure SMS_191
步骤三,结合公式计算出遮盖词归属于各类别的得分
Figure SMS_201
,如果存在某个实体类别/>
Figure SMS_202
,使得/>
Figure SMS_203
大于所设阈值,则判定所遮盖词是激光知识实体,类别为相应实体类别
Figure SMS_204
,否则不是。
最终在所标注的100个词中识别正确同时归属类别正确的词语共计47个,证明了本发明的可行性。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (8)

1.一种面向科学文献知识实体的无监督识别方法,其特征在于,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别;
包括以下步骤:
S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别;
步骤S2包括以下步骤:
S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;
S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N-2个其他词向量均互为负类样本;
S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;
S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。
2.根据权利要求1所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S23中,损失函数如下:
Figure QLYQS_1
Figure QLYQS_2
;/>
Figure QLYQS_3
其中,
Figure QLYQS_8
、/>
Figure QLYQS_6
、/>
Figure QLYQS_11
表示样本的编号;/>
Figure QLYQS_7
表示/>
Figure QLYQS_12
和/>
Figure QLYQS_9
所组成的样本对的损失;/>
Figure QLYQS_15
表示编号为/>
Figure QLYQS_16
的样本经过对比学习结构模型转换后的向量,/>
Figure QLYQS_20
表示编号为/>
Figure QLYQS_4
的样本经过对比学习结构模型转换后的向量,/>
Figure QLYQS_10
表示编号为/>
Figure QLYQS_13
的样本经过对比学习结构模型转换后的向量;/>
Figure QLYQS_17
表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;/>
Figure QLYQS_18
表示调节参数,取值为0或1,表示当/>
Figure QLYQS_21
时,/>
Figure QLYQS_5
取值为1,否则为0;/>
Figure QLYQS_14
表示温度参数,用于控制样本分布的均匀程度;/>
Figure QLYQS_19
表示最终的损失函数。
3.根据权利要求2所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S24中,采用K-means算法对重新表征后的词向量进行聚类,包括以下步骤:
S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;
S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;
S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:
Figure QLYQS_22
式中,
Figure QLYQS_23
其中,
Figure QLYQS_24
表示样本词的均值向量,/>
Figure QLYQS_25
表示某一个簇,/>
Figure QLYQS_26
表示/>
Figure QLYQS_27
簇里的某一向量,/>
Figure QLYQS_28
表示
Figure QLYQS_29
簇的样本词个数;
S244,重复步骤S241至步骤S243,直到簇中心不再变化,训练完成。
4.根据权利要求3所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,簇数量K的设定方案如下:
假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇;对于每个簇中的每个样本词,分别计算其轮廓系数,对每个样本词计算以下指标:
Figure QLYQS_30
:样本点到与其属于同一个簇的其他样本点的距离的平均值;/>
Figure QLYQS_31
值越小,说明该样本点属于该类别的可能性越大;
Figure QLYQS_32
:样本点到其他簇中的所有样本的平均距离/>
Figure QLYQS_33
的最小值,/>
Figure QLYQS_34
的计算公式为:
Figure QLYQS_35
则样本点
Figure QLYQS_36
的轮廓系数为:
Figure QLYQS_37
;/>
其中,
Figure QLYQS_38
表示样本点/>
Figure QLYQS_39
的轮廓系数;
所有样本点的轮廓系数的平均值为该聚类结果平均轮廓系数
Figure QLYQS_40
,/>
Figure QLYQS_41
;簇内样本的距离越近,簇间样本距离越远,平均轮廓系数越大,聚类效果越好。
5.根据权利要求4所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,S3包括以下步骤:
S31,对待检测文本进行分词,识别出文本中的名词
Figure QLYQS_42
并进行遮盖;
S32,利用S14中所得到的全词遮盖模型预测被遮盖词可能的输出词
Figure QLYQS_43
S33,结合S2中所得到的知识实体代表词集合,计算所遮盖词
Figure QLYQS_44
归属于类别/>
Figure QLYQS_45
中的得分
Figure QLYQS_46
S34,设定阈值,当分数
Figure QLYQS_47
大于阈值时则认定该遮盖词语为知识实体且属于相应实体类别/>
Figure QLYQS_48
,否则认定该遮盖词语不是知识实体。
6.根据权利要求5所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S33中,遮盖词语
Figure QLYQS_49
归属于类别/>
Figure QLYQS_50
中的得分/>
Figure QLYQS_51
的计算方法如下:
S341,利用已预训练好的全词遮盖模型对遮盖词
Figure QLYQS_54
预测可能词/>
Figure QLYQS_59
;设定阈值/>
Figure QLYQS_62
,把预测概率/>
Figure QLYQS_53
的词汇/>
Figure QLYQS_57
取出,分别计算取出后的/>
Figure QLYQS_61
与各实体类别/>
Figure QLYQS_64
中所有代表词/>
Figure QLYQS_52
的平均语义相似度;再把取出的预测词/>
Figure QLYQS_56
和实体类别/>
Figure QLYQS_60
的语义相似度进行加权平均,最终得到遮盖词/>
Figure QLYQS_63
与实体类别/>
Figure QLYQS_55
的语义相似度/>
Figure QLYQS_58
,公式如下所示:
Figure QLYQS_65
其中,
Figure QLYQS_66
为代表词集合中某一类别所包含的代表词个数;
S342,设定包含实体词多的实体类型有更大的权重,对代表词集合中不同的实体类型设定不同的权重,用
Figure QLYQS_67
表示,设实体聚类簇中包含/>
Figure QLYQS_68
个元素,则权重计算公式如下:
Figure QLYQS_69
其中,
Figure QLYQS_70
表示类别/>
Figure QLYQS_71
被赋予的权重值;
S343,再计算遮盖词
Figure QLYQS_72
归属类型/>
Figure QLYQS_73
的分值/>
Figure QLYQS_74
,计算公式如下:
Figure QLYQS_75
7.根据权利要求1至6任一项所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S1包括以下步骤:
S11,从公开数据库中收集相关科学领域文献的标题、关键词、摘要数据以构成基础语料数据,将关键词去重并人工去除明显不属于知识实体的词语后添加至领域词典,将标题和摘要数据拼接处理后构成基础语料;
S12,对基础语料采用N-gram串频统计算法提取出频度处于规定范围的字串,然后将已存在领域词典的字串词进行频度更新,将未出现于领域词典的字串词及其频度直接添加至领域词典中;
S13,将基础语料结合领域词典进行分词处理,并对领域词典中出现的词语进行全词遮盖处理,然后采用全词遮盖模型进行训练,以使全词遮盖模型得到领域的词语的上下文语义表示。
8.一种面向科学文献知识实体的无监督识别***,其特征在于,用于实现权利要求1至7任一项所述的一种面向科学文献知识实体的无监督识别方法,包括依次相连的以下模块:
预训练模块:用以,对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;
知识实体类别代表词学习模块:用以,将结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;
知识实体识别模块:用以,对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
CN202310323198.6A 2023-03-30 2023-03-30 一种面向科学文献知识实体的无监督识别方法及*** Active CN116050419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310323198.6A CN116050419B (zh) 2023-03-30 2023-03-30 一种面向科学文献知识实体的无监督识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310323198.6A CN116050419B (zh) 2023-03-30 2023-03-30 一种面向科学文献知识实体的无监督识别方法及***

Publications (2)

Publication Number Publication Date
CN116050419A CN116050419A (zh) 2023-05-02
CN116050419B true CN116050419B (zh) 2023-06-02

Family

ID=86129854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310323198.6A Active CN116050419B (zh) 2023-03-30 2023-03-30 一种面向科学文献知识实体的无监督识别方法及***

Country Status (1)

Country Link
CN (1) CN116050419B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116798633B (zh) * 2023-08-22 2023-11-21 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和***
CN114254653A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目文本语义抽取与表示分析方法
CN114282592A (zh) * 2021-11-15 2022-04-05 清华大学 一种基于深度学习的行业文本匹配模型方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和***
CN114282592A (zh) * 2021-11-15 2022-04-05 清华大学 一种基于深度学习的行业文本匹配模型方法及装置
CN114254653A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目文本语义抽取与表示分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark;Ningyu Zhang 等;《Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics》;第1卷;7888–7915 *
基于BERT-BLSTM-CRF的政务领域命名实体识别方法;杨春明 等;《西南科技大学学报》;第35卷(第3期);86-91 *
基于BERT的危险化学品命名实体识别模型;陈观林 等;《广西科学》;第30卷(第1期);43-51 *

Also Published As

Publication number Publication date
CN116050419A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111353029B (zh) 一种基于语义匹配的多轮对话口语理解方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN111597328B (zh) 一种新事件主题提取方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及***
CN115859980A (zh) 一种半监督式命名实体识别方法、***及电子设备
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及***
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN113886562A (zh) 一种ai简历筛选方法、***、设备和存储介质
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN114756678A (zh) 一种未知意图文本的识别方法及装置
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及***
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN114117069B (zh) 一种用于知识图谱智能问答的语义理解方法及***
CN116166773A (zh) 一种变体文本识别方法、装置和可读存储介质
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115344695A (zh) 一种基于领域bert模型的服务文本分类方法
CN112182213B (zh) 一种基于异常流泪特征认知的建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant