CN113190656A - 一种基于多标注框架与融合特征的中文命名实体抽取方法 - Google Patents
一种基于多标注框架与融合特征的中文命名实体抽取方法 Download PDFInfo
- Publication number
- CN113190656A CN113190656A CN202110511025.8A CN202110511025A CN113190656A CN 113190656 A CN113190656 A CN 113190656A CN 202110511025 A CN202110511025 A CN 202110511025A CN 113190656 A CN113190656 A CN 113190656A
- Authority
- CN
- China
- Prior art keywords
- chinese
- entity
- sequence
- chinese character
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 29
- 239000012634 fragment Substances 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000010276 construction Methods 0.000 description 8
- 239000010410 layer Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 5
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法,该首先基于预训练语言模型对汉字进行编码。然后,通过词典匹配为每个汉字引入词信息与分词标记信息,构建词典特征。在此基础上,根据汉字在匹配词中的含义,使用汉语拼音软件对汉字进行注音,构建拼音特征。接着,基于点乘注意力机制融合词典特征与拼音特征到汉字编码中,得到结合词典特征与拼音特征的汉字语义编码,提升对于中文命名实体边界的识别能力。最后,结合序列标注与指标标注的优点,利用多任务学习模型联合学习两种标注任务,提高中文命名实体抽取的准确率。
Description
技术领域
本发明属于人工智能和自然语言处理领域,具体涉及一种基于多标注框架与融合特征的中文命名实体抽取方法。
背景技术
随着互联网技术的飞速发展,各行业数据信息在爆发式增长,推动了行业大数据智能化分析挖掘服务与创新应用的发展,进一步推动着我国数字经济的发展。这些数据信息中包含大量的非结构化文本,从这些非结构化文本中抽取出结构化的有效信息成为了工业界关注的重点,而其中就涉及到自然语言处理领域中一个基础任务:命名实体抽取。
早期命名实体识别的研究工作主要是基于词典与规则的方法,这些方法主要依靠语言学家和领域专家依据数据集特征手工构造领域词典和规则模板。这种基于规则的方法的优点在于,可以根据需求不断地更新迭代规则来抽取目标实体。但是其缺点在于,面对一些复杂的领域和应用场景,人工建立规则的代价较大,并且随着规则库的扩大,容易产生规则冲突问题,使得已有的规则库难以维护与扩展,无法适应数据与领域的变化。
随后,基于统计机器学习的命名实体识别研究得到关注。命名实体识别在统计机器学习方法中被定义为序列标注问题。应用于NER的统计机器学习方法主要有最大熵模型、隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。这种方法依赖于人工构建的特征,过程比较繁琐。
近几年随着深度学习的不断发展,命名实体识别领域出现了越来越多的基于深度神经网络(Deep Neural Network,DNN)的工作。基于DNN的命名实体识别方法无需繁琐的特征工程,并且模型效果远超传统的规则以及统计机器学习方法。
中文命名实体识别相较于英文的更难,因为中文缺少英文文本中空格符这样的分隔符,也没有明显的词形变化特征,容易造成边界歧义。除此之外,中文还存在一词多义的现象,在不同领域或者不同上下文中,同一个词表现为不同的含义,需要充分利用上下文信息对词义进行理解。同时,中文还存在省略、简写等语言学特点,这些都给中文命名实体识别带来了更大的挑战。现有很多中文命名实体抽取方法缺乏对词信息的利用,并且标注框架单一、局限性较大,影响中文命名实体抽取的精度。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提出一种基于多标注框架与融合特征的中文命名实体抽取方法,以解决现有的中文命名实体抽取方法因标注框架单一,导致局限于单标注框架的问题,以及缺乏对词信息的利用,导致难以识别实体边界的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于多标注框架与融合特征的中文命名实体抽取方法,包括以下步骤:
(1)对输入汉字序列中的每个汉字在外部词典中进行词匹配,利用词向量查询表将词映射成词向量,利用分词标记向量查询表将汉字在词中的分词标记映射成分词标记向量,所述分词标记向量与词向量拼接构成词典特征;
(2)根据汉字在匹配词中的含义对汉字注上拼音,通过拼音向量查询表对所述拼音映射得到拼音特征;
(3)基于点乘注意力机制将所述词典特征与拼音特征融合到中文预训练语言模型BERT得到的汉字编码中,为后续提供结合词典特征与拼音特征的汉字语义编码;
(5)序列标注作为辅助任务,指针标注作为主任务,将所述第一特征序列编码作为序列标注辅助任务的输入,所述第二特征序列编码作为指针标注主任务的输入,利用多任务学习模型对序列标注辅助任务与指针标注主任务进行联合学习;
(6)计算序列标注辅助任务在条件随机场中的对数似然损失指针标注主任务中实体片段头汉字的实体类型分类交叉熵损失以及指针标注主任务中实体片段尾汉字的实体类型分类交叉熵损失对所述加权求和得到模型需要最小化的训练目标,进行端到端联合训练,而测试阶段通过指针标注主任务抽取出句子中的实体片段及其类型。
进一步地,所述步骤(1)中,外部词典与词向量查询表来源于互联网上公开的预训练词向量,分词标记向量查询表由one-hot向量构成。
进一步地,所述步骤(2)中,拼音向量查询表通过word2vec基于外部中文语料集训练得到,使用汉语拼音软件将外部中文语料集中的文本转换成拼音。
进一步地,所述步骤(5)中,序列标注辅助任务使用不带实体类型的BMOES对输入句子中的实体进行标记,负责中文命名实体片段抽取,抽取出的实体片段不带类型;指针标注主任务只对句子中实体片段的头、尾汉字进行实体类型标记,负责中文命名实体抽取,抽取出的实体带有类型。
进一步地,所述步骤(6)中,测试阶段取每个汉字实体类型预测概率分布的最大值对应的标签作为该汉字的预测标签,然后匹配与实体片段头汉字实体类型相同且位置距离最近的实体片段尾汉字,将所述实体片段头汉字与实体片段尾汉字之间的文本片段抽取出来作为实体。
有益效果:本发明能够有效解决难以识别中文命名实体边界的问题,充分发挥不同标注框架的优点,提高了中文命名实体抽取的准确率。第一,本发明通过构建词典与拼音特征,增强模型对实体边界的识别,并且通过中文预训练语言模型BERT对汉字进行编码,为上层模型提供上下文语义支撑;第二,利用双向长短期记忆网络模型的递归结构进行特征序列建模,学习序列位置信息,缓解因预训练语言模型BERT缺少序列依赖式的建模而导致序列位置信息容易丢失的问题;第三,通过多任务学习模型对序列标注与指针标注进行联合学习,结合不同标注框架的优点,突破单标注框架的局限性,进一步提升中文命名实体抽取的准确率。
附图说明
图1为本发明方法的整体框架图;
图2为本发明方法中词典与拼音特征构建的示例图;
图3为本发明方法中序列标注示例图;
图4为本发明方法中指针标注示例图;
图5(a)(b)分别为本发明方法中词典匹配窗口大小在Ontonotes4数据集和MSRA数据集上对准确性影响的实验结果图;
图6(a)(b)分别为本发明方法中词典匹配窗口大小在Resume数据集和Weibo数据集上对准确性影响的实验结果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提出了一种基于多标注框架与融合特征的中文命名实体抽取方法,解决了现有中文命名实体抽取方法难以识别实体边界以及局限于单一标注框架的问题。如图1所示,本发明的完整流程包括词典特征构建阶段、拼音特征构建阶段、词典与拼音特征融合阶段、特征序列建模阶段、多标注框架的联合学习阶段、输出层建模阶段6个部分。具体的实施方式说明如下:
词典特征构建阶段对应技术方案步骤(1)。具体实施方式为:对于任意给定的输入汉字序列其中表示汉字表,n表示序列长,ci(1≤i≤n)表示长度为1的汉字。对于序列X中任意汉字ci,为了引入与汉字ci上下文相关的词,需要引入一个外部词典Lx,通过设置一个词汇匹配窗口lw,将句子中所有包含汉字ci且长度小于等于lw的文本片段与词典Lx中的词进行匹配。如果出现在词典Lx中,则该文本片段就被当作是与该汉字ci上下文相关的候选词。由于句子中可能会有多个包含汉字ci的文本片段出现在词典中,最终会得到汉字ci的一个候选匹配词集合ws(ci)={w1,w2,…,wm},wj(1≤j≤m)表示匹配词。
得到候选匹配词集合ws(ci)后,还需进一步筛选,对于候选匹配词集合中任意一个词,如果该词是候选匹配词集合中另一个词的子串,则将该词从候选匹配词集合中过滤除去。这么做的原因为:1)一个完整的词通常更符合汉字的上下文中信息,比如“南京市长江大桥”中的“长江大桥”相比“长江”就更适合作为“长”的候选词;2)减少在基于注意力机制融合词典与拼音特征过程中的干扰,使得注意力更有可能从候选词列表中选出最符合该汉字上下文信息的词。
通过词向量查询表(lookup table)w将筛选后的匹配词集合ws(ci)中的词映射成词向量得到匹配词特征编码WE(ci):
WE(ci)=ew(ws(ci))
其中,ew来源于已经训练好的预训练词向量,在训练过程中保持不变。接着,对汉字在匹配词中的位置进行分词标记。假设B表示汉字ci在词首,M表示汉字ci在词中间,E表示汉字ci在词尾。汉字ci匹配不同的词对应着序列不同的分词结果,因此有必要将汉字ci在匹配词中的分词标记也融入到词典特征中,进一步突出不同匹配词之间的差异性。对汉字ci的候选匹配词集合ws(ci)中的任意词wj,令seg(wj)∈{B,M,E}表示汉字ci在wj中的分词标记。若START(wj)表示wj在序列X中的开始位置索引,END(wj)表示wj在序列X中的结束位置索引,seg(wj)的计算公式定义如下:
对于汉字ci的候选匹配词集合ws(ci)中所有词汇应用上式可得segs(ci):
其中,segs(ci)表示ci在其所有匹配词中的分词标记构成的集合,通过分词标记向量查询表eseg将segs(ci)中分词标记映射成one-hot向量分词标记编码SEGE(ci):
SEGE(ci)=eseg(segs(ci))
one-hot向量的每一维分别对应到集合{B,,}中的每一位元素上。其中,[1,0,0]对应B,[0,1,0]对应M,[0,0,1]对应E。
将汉字ci在匹配词中分词标记编码SEGE(ci)与匹配词特征编码WE(ci)在编码维度上进行拼接得到汉字ci最终的词典特征编码LE(ci):
LE(ci)=[SEGE(ci);WE(ci)]
拼音特征构建阶段对应技术方案步骤(2)。具体实施方式为:包括轻声在内,拼音一共有5种音调,例如“chang”、“chāng”、“cháng”、“chǎng”、“chàng”。假如要从“南京市长江大桥”这个句子中抽取实体,当句中的“长”发“cháng”这个音时,句子被断句为“南京市|长江大桥”,此时“长江大桥”作为地名实体被抽取出来;当句中的“长”读音为“zhǎng”时,句子被断句为“南京市长|江大桥”,此时“江大桥”作为人名实体被抽取出来。说明汉字在句中的拼音特征存在影响实体抽取准确率的情况。
对输入汉字序列X中任意汉字ci,得到其候选词集合ws(ci)后,利用汉语拼音软件(例如pypinyin),根据汉字ci在匹配词中的含义对ci注上拼音,得到与候选匹配词集合ws(ci)对应的拼音集合pys(ci)。然后,通过拼音向量查询表epy将pys(ci)中的拼音映射成拼音向量得到拼音特征编码PYE(ci):
PYE(ci)=epy(pys(ci))
其中,拼音向量查询表epy是利用汉语拼音软件将外部中文语料集(例如,中文***语料集)转换成拼音,然后,基于Word2Vec的Skip-gram方法训练得到。由于外部中文语料集中可能包含数字、英语或其它没有拼音的符号,在进行词向量训练之前的数据预处理阶段,本发明将英文转换成“[ENG]”,数字转换成“[DIGIT]”,其它没有拼音的字符统一转换成“[UNK]”。
词典与拼音特征构建的示例图如图2所示。图中给出了“市”和“长”的匹配结果,其中wi,j表示序列片段{ci,ci+1,…,cj}构成的词。可以看出“长江”没有被包含在“长”的匹配结果中,因为“长江”是“长江大桥”的子串而被过滤。
词典与拼音特征融合阶段对应技术方案步骤(3)。具体实施方式为:为了避免一些垂直领域的实体抽取标注数据集规模较小而导致模型训练过拟合,本发明利用中文预训练语言模型BERT提供语义支撑,提升模型泛化性能。将输入序列X={c1,c2,…,cn}输入到中文预训练语言模型BERT中,取BERT最后一层输出作为序列编码Xh=[x1,x2,…,xn],其中dx表示BERT编码维度,R表示实数,表明xi是维度为dx的实数列向量,表明Xh是维度为dx×n的实数矩阵。将上述构建得到的汉字ci的词典特征与拼音特征在编码维度上进行拼接得到融合特征LPE(ci):
LPE(ci)=[LE(ci);PYE(ci)]
假设词向量查询表ew的编码维度为dw,拼音向量查询表epy编码维度为dpy,汉字ci的候选匹配词集合ws(ci)大小为m,则基于点乘注意力机制将LPE(ci)融合到汉字编码xi中,xi相当于注意力机制中query,而LPE(ci)则相当于注意力机制中key与value。首先,将LPE(ci)线性映射到与xi编码维度一致的LPEikv:
其中,训练参数而映射后的融合特征假设unsqueeze(M,y)表示扩张矩阵M的第y维,squeeze(M,y)表示压缩矩阵M的第y维,则unsqueeze(xi,0)可将xi从转换为然后,计算注意力权重LPEiw:
LPEiw=softmax(unsqueeze(xi,0)·PEikv)
其中,注意力权重LPEiw∈R1×m,softmax之后的权重和为1。接着,利用注意力权重LPEiw对LPEikv加权求和计算注意力输出LPEio:
xi=LPEio+xi
特征序列建模阶段对应技术方案步骤(4)。具体实施方式为:针对Transfomer的自注意力机制无法捕捉序列位置信息的问题,预训练语言模型BERT将可训练的绝对位置编码融入到输入中来缓解该问题,但依然缺少序列依赖式的建模。长短期记忆网络模型(LongShort-Term Memory,LSTM)不需要位置编码,LSTM按序列顺序递归编码的结构就具备学习到序列位置信息的能力。将上一步融合词典与拼音特征后的汉字语义序列编码分别输入到两个双向长短期记忆网络模型(BidirectionalLong Short-Term Memory,BiLSTM)中进行特征序列建模,其中,一个BiLSTM输出用于第(5)步中基于序列标注的中文命名实体片段抽取辅助任务,另一个BiLSTM输出用于第(5)步中基于指针标注的中文命名实体抽取主任务。BiLSTM由前向和后向LSTM构成,两个任务的BiLSTM是独立不共享训练参数的。
多标注框架的联合学习阶段对应技术方案步骤(5)。具体实施方式为:序列标注与指针标注是应用于命名实体抽取的两种常见标注框架。序列标注对文本序列中每个汉字在实体中的位置进行标记,如图3所示是用BMOES对文本序列进行标记的示例图,其中,B表示汉字在命名实体片段的开始,M表示汉字在命名实体片段的中间,O表示汉字在命名实体片段之外,E表示汉字在命名实体片段的结尾,S表示汉字本身就是命名实体片段。例句中包含“南京市”和“长江大桥”两个实体。指针标注对文本序列中每个实体片段的头汉字和尾汉字所属实体类型进行标记,如图4所示,其中,“南京市”和“长江大桥”都是地点类(Loc)实体。
序列标注通过对全序列依赖建模,抽取出的实体完整性更好,通常查准率更高;指针标注通过对实体片段头、尾汉字实体类型分类,抗噪声干扰性与鲁棒性更好,通常查全率更高。为了结合不同标注框架的优点,将所述作为序列标注辅助任务的输入,作为指针标注主任务的输入,利用多任务学习模型,例如,多门混合专家(Multi-gate Mixture-of-Experts,MMOE)模型、渐进层次抽取(Progressive Layered Extraction,PLE)模型等,对基于序列标注中文命名实体片段抽取辅助任务与基于指针标注的中文命名实体抽取主任务进行联合学习,得到序列标注辅助任务输出与指针标注主任务输出
输出层序列建模阶段对应技术方案步骤(6)。具体实施方式为:对上一步得到的Xa与Xb加一层Dropout防止模型过拟合。然后,将Dropout后的Xa输入到条件随机场(Conditional Random Field,CRF)中,计算基于序列标注的中文命名实体片段抽取辅助任务对BMOES标签索引序列y∈Zn的似然概率p(y|X):
其中,表示在该任务下X所有可能的BMOES标签索引序列构成的集合,y′∈Zn是中任一BMOES标签索引序列。训练参数bCRF∈R5×5(BMOES序列标记法的标签数为5),表示WCRF中对应标签yt的训练参数,表示bCRF中对应标签yt-1转移到标签yt的训练参数,同理。假设序列标注辅助任务的真实BMOES标签索引序列为yspan∈Zn,Z表示整数,代入到上式中用于计算序列标注辅助任务的对数似然损失
接着,将Dropout后的Xb线性映射到基于指针标注的中文命名实体抽取主任务的标签空间,然后加一层softmax计算每个汉字在各个标签上的概率分布pstart与pend:
其中,训练参数 ce+1是实体类型数ce与非实体类型的和,是实体片段头汉字实体类型的预测概率分布,是实体片段尾汉字实体类型的预测概率分布。假设实体片段头汉字的真实实体类型标签索引序列为ystart∈Zn,实体片段尾汉字的真实实体类型标签索引序列为yend∈Zn,计算指针标注主任务的交叉熵(Cross Entropy,CE)损失与
然后,将实体类型相同且位置距离最近的实体片段头、尾汉字进行配对,抽取出序列中的实体。
本发明提出了一种基于多标注框架与融合特征的中文命名实体抽取方法。为了测试该方法的有效性,分别在Ontonotes4、MSRA、Resume、Weibo数据集上,从查准率(P)、查全率(R)、F1指标三个方面评估了方法,并和其它中文命名实体抽取方法进行了对比。
模型优化器使用自适应矩估计(Adaptive momentum estimation,Adam),BERT训练参数的学习率设置为3e-5,其它模型参数学习率设置为1e-3,BERT编码维度dx=768,多任务学习模型使用渐进层次抽取模型PLE,PLE中各任务独立Experts和共享Experts的Expert个数统一设置为2,Expert设置为单层全连接网络,PLE层数设置为2,LSTM层数设置为1,LSTM编码维度dh=768,词向量编码维度dw=50,拼音向量编码维度dpy=50,损失权重
表1显示了不同中文命名实体抽取方法在Ontonotes4数据集上的准确率对比结果;表2显示了不同中文命名实体抽取方法在MSRA数据集上的准确率对比结果;表3显示了不同中文命名实体抽取方法在Resume数据集上的准确率对比结果;表4显示了不同中文命名实体抽取方法在Weibo数据集上的准确率对比结果。从上述表中的实验结果可以看出,本发明提出的中文命名实体抽取方法相比其它的中文命名实体抽取方法,在绝大多数数据集以及指标项上都取得了最好的中文命名实体抽取准确率表现。图5(a)(b)显示了本发明方法中词典匹配窗口大小在Ontonotes4和MSRA数据集上对准确率影响实验结果,图6(a)(b)显示了本发明方法中词典匹配窗口大小在Resume和Weibo数据集上对准确率影响实验结果,通过评估分析方法中词典匹配窗口大小的选择对中文命名实体抽取准确率的影响,为后续不同应用场景下词典匹配窗口大小的选择提供指导性建议。
表1 Ontonotes4数据集上不同实体抽取方法的准确率对比
表2 MSRA数据集上不同实体抽取方法的准确率对比
表3 Resume数据集上不同实体抽取方法的准确率对比
表4 Weibo数据集上不同实体抽取方法的准确率对比
Claims (5)
1.一种基于多标注框架与融合特征的中文命名实体抽取方法,包括以下步骤:
(1)对输入汉字序列中的每个汉字在外部词典中进行词匹配,利用词向量查询表将词映射成词向量,利用分词标记向量查询表将汉字在词中的分词标记映射成分词标记向量,所述分词标记向量与词向量拼接构成词典特征;
(2)根据汉字在匹配词中的含义对汉字注上拼音,通过拼音向量查询表对所述拼音映射得到拼音特征;
(3)基于点乘注意力机制将所述词典特征与拼音特征融合到中文预训练语言模型BERT得到的汉字编码中,为后续提供结合词典特征与拼音特征的汉字语义编码;
(5)序列标注作为辅助任务,指针标注作为主任务,将所述第一特征序列编码作为序列标注辅助任务的输入,所述第二特征序列编码作为指针标注主任务的输入,利用多任务学习模型对序列标注辅助任务与指针标注主任务进行联合学习;
2.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法,其特征在于,所述步骤(1)中,外部词典与词向量查询表来源于互联网上公开的预训练词向量,分词标记向量查询表由one-hot向量构成。
3.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法,其特征在于,所述步骤(2)中,拼音向量查询表通过word2vec基于外部中文语料集训练得到,使用汉语拼音软件将外部中文语料集中的文本转换成拼音。
4.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法,其特征在于,所述步骤(5)中,序列标注辅助任务使用不带实体类型的BMOES对输入句子中的实体进行标记,负责中文命名实体片段抽取,抽取出的实体片段不带类型;指针标注主任务只对句子中实体片段的头、尾汉字进行实体类型标记,负责中文命名实体抽取,抽取出的实体带有类型。
5.根据权利要求1所述的一种基于多标注框架与融合特征的中文命名实体抽取方法,其特征在于,所述步骤(6)中,测试阶段取每个汉字实体类型预测概率分布的最大值对应的标签作为该汉字的预测标签,然后匹配与实体片段头汉字实体类型相同且位置距离最近的实体片段尾汉字,将所述实体片段头汉字与实体片段尾汉字之间的文本片段抽取出来作为实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511025.8A CN113190656B (zh) | 2021-05-11 | 2021-05-11 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511025.8A CN113190656B (zh) | 2021-05-11 | 2021-05-11 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190656A true CN113190656A (zh) | 2021-07-30 |
CN113190656B CN113190656B (zh) | 2023-07-14 |
Family
ID=76981067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110511025.8A Active CN113190656B (zh) | 2021-05-11 | 2021-05-11 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190656B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114065773A (zh) * | 2021-11-22 | 2022-02-18 | 山东新一代信息产业技术研究院有限公司 | 多轮问答***历史上下文语义表示方法 |
CN114139541A (zh) * | 2021-11-22 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 命名实体识别方法、装置、设备及介质 |
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115546814A (zh) * | 2022-10-08 | 2022-12-30 | 招商局通商融资租赁有限公司 | 关键合同字段抽取方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
CN109446521A (zh) * | 2018-10-18 | 2019-03-08 | 京东方科技集团股份有限公司 | 命名实体识别方法、装置、电子设备、机器可读存储介质 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111462752A (zh) * | 2020-04-01 | 2020-07-28 | 北京思特奇信息技术股份有限公司 | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
-
2021
- 2021-05-11 CN CN202110511025.8A patent/CN113190656B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
CN109446521A (zh) * | 2018-10-18 | 2019-03-08 | 京东方科技集团股份有限公司 | 命名实体识别方法、装置、电子设备、机器可读存储介质 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
CN111462752A (zh) * | 2020-04-01 | 2020-07-28 | 北京思特奇信息技术股份有限公司 | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (3)
Title |
---|
FENIL DOSHI等: "Normalizing Text using Language Modelling based on Phonetics and String Similarity", ARXIV, pages 1 - 9 * |
H PENG等: "Phonetic-enriched Text Representation for Chinese Sentiment Analysis with Reinforcement Learning", IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, pages 1 - 16 * |
江涛: "基于深度神经网络的电子病历命名实体识别关键技术研究与应用", 中国优秀硕士学位论文全文数据库 (医药卫生科技辑), no. 7, pages 053 - 210 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065773A (zh) * | 2021-11-22 | 2022-02-18 | 山东新一代信息产业技术研究院有限公司 | 多轮问答***历史上下文语义表示方法 |
CN114139541A (zh) * | 2021-11-22 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 命名实体识别方法、装置、设备及介质 |
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114036933B (zh) * | 2022-01-10 | 2022-04-22 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
CN115546814A (zh) * | 2022-10-08 | 2022-12-30 | 招商局通商融资租赁有限公司 | 关键合同字段抽取方法、装置、电子设备及存储介质 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113190656B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别*** | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及*** | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110852089B (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN112926324A (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和*** | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN113191150A (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及*** | |
CN111199152A (zh) | 一种基于标签注意力机制的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |