CN116244445B - 航空文本数据标注方法及其标注*** - Google Patents

航空文本数据标注方法及其标注*** Download PDF

Info

Publication number
CN116244445B
CN116244445B CN202211706705.6A CN202211706705A CN116244445B CN 116244445 B CN116244445 B CN 116244445B CN 202211706705 A CN202211706705 A CN 202211706705A CN 116244445 B CN116244445 B CN 116244445B
Authority
CN
China
Prior art keywords
entity
sample
aviation
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211706705.6A
Other languages
English (en)
Other versions
CN116244445A (zh
Inventor
刘俊
武铎
贺薇
董洪飞
陶剑
何柳
孙郁文
高龙
王孝天
高魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aero Polytechnology Establishment
Original Assignee
China Aero Polytechnology Establishment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aero Polytechnology Establishment filed Critical China Aero Polytechnology Establishment
Priority to CN202211706705.6A priority Critical patent/CN116244445B/zh
Publication of CN116244445A publication Critical patent/CN116244445A/zh
Application granted granted Critical
Publication of CN116244445B publication Critical patent/CN116244445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种航空文本数据标注方法及其标注***,包括以下步骤,步骤1基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;步骤2基于主动学***。

Description

航空文本数据标注方法及其标注***
技术领域
本申请涉及航空文本信息抽取领域,具体地涉及一种航空文本数据标注方法及其标注***。
背景技术
在自然语言处理任务中,信息抽取技术愈发成熟,其在数据检索、知识图谱、问答***等真实场景中均发挥了巨大作用。然而,信息抽取的性能极大程度地依赖于标注数据质量和数据规模,开源的数据难以满足特定场景需求,实现高效、高质量、自动化的航空文本标注***,是信息抽取领域一个重要的研究方向。
目前,航空文本标注方法主要依靠从业人员对原始数据进行手工标注,并依托一定的标注工具或***提高标注的规范与效率,国内外现有的标注***主要可分为两大类,一类是完全依赖于人工进行标注的,另一类在标注***中融合基于半监督的主动学习算法,能够半自动地对数据进行标注,相较于前者具有更高标注效率。针对航空领域标注数据少、数据标注难的问题,基于信息抽取技术来实现标注功能。
发明内容
为了克服现有技术的不足,本发明通过基于实体核心EODA(Entity-OrientedDataAugmentation)的数据增强算法完成样本数目扩充,通过实体识别,关系抽取任务上的多个模型进行实验对比,在数据增强工作上带来的效果增益较好;通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样策略。在两类主动学***。
为实现上述目的,本发明所采用的解决方案为:一种航空文本数据标注方法,其包括以下步骤:
步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:
使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Ye分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边E上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列;所述转移特征函数tk和状态特征函数sl是与位置相关的局部特征函数;
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值;
步骤2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,基于字词级别的最低置信度的样本查询策略表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数;
根据基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
步骤3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
使用步骤1得到未标注数据,再使用步骤S2得到筛选样本,对筛选样本区分难度进行判断,将判断结果反馈给实体识别模型和主动学习模型,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新,并返回步骤1继续循环执上述操作,直到迭代达到指定次数或目标值,建立基于信息抽取的航空文本标注模型,所述基于信息抽取的航空文本标注模型包括一定量的标注数据集、参数优化之后的实体识别模型和主动学习模型;将新的航空文本数据输入到基于信息抽取的航空文本标注模型,从而对任意航空文本数据进行标注。
在一个优选实施方式中,所述步骤1中的非实体词部分增强,具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,具体为:所述同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换;所述随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机***词语,词语的来源是样本分词结果中的非实体词或者中文停用词表;所述随机交换是将待标注航空文本非实体词片段随机交换两个词语;所述随机删除是将待标注航空文本中非实体词片段随机删除词语。
在另一个优选实施方式中,所述步骤1中的实体词部分增强具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示:所述实体词替换是与同标签同义词替换相同,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位;所述词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,从而提升词汇根据上下文内容进行模板槽学习的能力;所述短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,扩大样本长距离上下文信息;所述短句生成是随机选取至少包含一个实体词的短句,并能拼接生成新样本,以提升短航空文本实体识别性能。
进一步,所述步骤2中的主动学习模型具体为:所述主动学习模型包括构建学习引擎和选择引擎,使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型包括词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除只能单向融合上下文信息的限制,并在双向Transformer结构结合MLM的模型构建模式被用于预训练时,能生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。
可优选的是,所述步骤2中的不确定性样本查询策略包括:
最低置信度策略:对于每一条样本,主动学习模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值;
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分;以及
最大熵策略:熵的概念来自于信息论,用于度量***的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分。
进一步可优选的是,所述步骤2中的版本空间缩减样本查询策略为:所述版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将筛选出来经过模型训练后能够缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例。
本发明的第二方面,提供一种应用前述航空文本数据标注方法的航空文本标注***,包括基于实体核心的文本增强算法模块、基于实体识别的实体识别算法模块以及主动学习算法模块,针对信息抽取任务为实体识别任务形成一套标注流程;航空文本标注***的组织架构包括基础服务层、业务逻辑层和应用层;通过航空文本标注***实现原始航空文本的数据标注,所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
与现有技术相比,本发明的有益效果在于:
(1)本发明针对低资源场景,提出了基于实体核心EODA的数据增强方法,完成样本数目扩充,通过在命名实体识别,关系抽取任务上的多个模型进行实验对比,该方法要优于传统EDA方法在数据增强工作上带来的效果增益;
(2)本发明针对多资源场景,通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样查询策略;
(3)在两类主动学习的框架下,实体识别和关系抽取任务均能够提高30%以上的标注效率,且模型能更快地收敛。
附图说明
图1为本发明航空文本数据标注方法的流程示意图;
图2为本发明主动运行框架图;
图3为本发明BERT-BiLSTM CRF模型框架图;
图4为本发明航空文本数据标注***的一个具体实施例的架构图;
图5为本发明一个优选实施方式中航空文本标注***的流程图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例将基于实体核心EODA的数据增强方法与基于字词级别最低置信度的查询策略两种主动学***,更好地服务于信息抽取航空文本数据标注。如图1所示为本发明实施例航空文本数据标注方法的控制框图。
本发明实施例提供了一种航空文本数据标注方法,如图2所示为本发明实施例主动运行框架图;为了证明本发明的适用性,将其应用于实例,具体包含如下步骤:
S1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;
扩充之后的样本一方面可以用于训练比如实体识别或者抽取模型,增强模型能力,另一方面可以作为候选样本供主动学习部分进行。
非实体词部分增强操作具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,如下所示;
同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换。
随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机***词语,词语的来源是样本分词结果中的非实体词或者中文停用词表。
随机交换是将待标注航空文本非实体词片段随机交换两个词语。
随机删除是将待标注航空文本中非实体词片段随机删除词语。
非实体词增强示例如下表1所示:
表1EODA航空文本数据增强示例
实体词部分增强操作,具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示;
实体词替换是与同标签同义词替换类似,但是词汇的来源主要源自于已标注语料中的实体词表,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位。
词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,主要是为了提升词汇根据上下文内容进行模板槽学习的能力。
短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,该方法旨在丰富样本长距离上下文信息。
短句生成是随机选取至少包含一个实体词的短句,与其他样本拼接生成新样本,以提升缺乏上下文信息的短航空文本实体识别性能。
本实施例中使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,实体识别模型为:
使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Ye分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点。
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边e上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列,转移特征函数tk和状态特征函数sl都是与位置相关的局部特征函数。
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值。
S2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,使用基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
主动学习模型具体为:
主动学习模型的核心在于构建学习引擎和选择引擎,本发明使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型的关注点不仅局限于词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除了只能单向融合上下文信息的限制,另外双向Transformer结构结合MLM的模型构建模式被用于预训练时,能很好地生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。如图3所示为本发明实施例BERT-BiLSTM CRF模型框架图。
结合不确定性样本查询策略和版本空间缩减样本查询策略,不确定性样本查询策略,主要依据策略如下所示:
最低置信度策略:对于每一条样本,模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值。
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标主要有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分。
最大熵策略:熵的概念来自于信息论,用于度量***的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分。
版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将它们筛选出来经过模型训练后能够极大限度地缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例,其中,委员会是具有代表性的查询策略。
委员会的主要工作机制是:利用数据库中的已标注训练集训练n个基准模型,这些基准模型各自工作互相独立,成立一个表决委员会,基于委员会查询的方法(Query-By-Committee,QBC)相同训练集训练多个同结构的模型,模型投票选出争议样本,将争议样本打标后训练模型,反复迭代如下所示:
C={θ^((1)),...,θ^((n))};
式中:C表示表决委员会结果;θ^((1))表示第1个基准模型;θ^((n))表示第n个基准模型。
每一个经过训练的基准模型均能够对未标注实例进行表决,而当中争议度大、决策意见不一致的这些实例将被挑选出来进行更严格的标注,最后再将其加入到已标注训练集进行下一轮的模型学习。
建立基于字词级别的最低置信度的样本查询策略即,其表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数。
使用基于字词级别的最低置信度的样本查询策略在未标注数据中筛选出筛选样本,后续通过判别筛选样本间的区别度,将判别结果重新反馈到实体识别模型和主动学习模型,形成多轮次迭代;
S3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
基于步骤1和步骤2的理论建立基于信息抽取的航空文本标注模型,形成迭代更新的方案。首先用步骤1的实体识别模型进行提前训练,可以使用步骤1所得到的数据集,也可以使其它数据集,主要实现对实体识别模型进行粗略的训练,对通过步骤1得到的数据集筛选后再通过主动学习模型进行打分排序,通过标注的标准对其中模型难以区分的样本再加以判断,用来对筛选样本进行评价,将判断结果反馈给抽取的模型以及主动学习模型,以此来对模型参数进行迭代更新,通过多轮次的迭代来达到最终的最优效果,既包括一定量的标注数据集,也包括参数优化之后的抽取模型和主动学习模型。
基于S1和S2建立基于信息抽取的航空文本标注模型,形成一套具有完整生命周期的标注流程。
基于信息抽取的航空文本标注***要包括数据增强算法、实体识别算法、主动学习算法,由此核心算法支撑的***组织架构主要分为三层:基础服务层、业务逻辑层、应用层;如图4所示为本发明实施例***架构图。
所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
通过航空文本标注***最终实现原始航空文本的数据标注。如图5所示为本发明一个优选实施方式中航空文本标注***的流程图。在这个实施例中结合现有技术,将标注项目的任务类别分为实体识别或者关系抽取;辅助标注方案中的实体识别提供基于主动学习和数据增强的两类辅助标注方案,为用户提供了更多选择。***使用时按照以下步骤执行:
S31:选择标注项目的任务类别,选择项是实体识别或者关系抽取。
S32:上传任务的知识体系,如选择的是实体识别,需要设定实体类别;如选择的是关系抽取,需要设定每类三元组的主客实体类别以及中间的关系指示词。
S33:选择辅助标注方案,以实体识别为例,提供给了基于主动学习和数据增强的两类辅助标注方案,根据实际场景需要进行选择;其中主动学习方案中提供了训练迭代轮次和样本选择策略候选项,数据增强方案提供了增益系数,字词操作比例。
S34:至此完成了标注任务的初始化,然后上传原始航空文本数据,航空文本标注***将自动完成相应任务的预处理,去噪和格式化。
S35:航空文本标注***根据航空文本数据量规模,自动分派标注任务,后端模型将同步监控已标注航空文本数据条数,管理员再根据实际标注场景启动模型训练并用于辅助标注流程。
S36:航空文本数据标注结束,导出已标注航空文本数据集。
EODA方法遵循样本中实体类别在增强前后阶段均保持不变的原则,尽可能地不破坏原始样本的语义,通过引入合理的噪声来进行文本增强,从而均衡了样本类别数量的差异性,完成样本扩充,以一种有效且低代价的方式提升模型性能;基于主动学习的实体识别算法使用少量已标注的实例作为初始训练集来学习模型,将所有未标注实例随机划分至多批次查询集合中,通过查询策略从当前批次未标注实例中选择最优的一批实例进行更严格的标注处理,标注后实例被投入学习引擎中的模型进行训练,更新后的模型再次作用于样本查询,以此往复迭代,使得同等已标注数据规模下信息抽取模型收敛速度加快且性能更为优异。
综上,本案例的预测结果证明了具有很好的效句子长度果。
(1)本发明实施例针对低资源场景,提出了基于实体核心EODA的数据增强方法,完成样本数目扩充,通过在命名实体识别,关系抽取任务上的多个模型进行实验对比,该方法要优于传统EDA方法在数据增强工作上带来的效果增益。本发明针对多资源场景,通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样查询策略。在两类主动学习的框架下,实体识别和关系抽取任务均能够提高30%以上的标注效率,且模型能更快地收敛。
(2)本发明实施例将数据增强和主动学***,更好地服务于信息抽取航空文本数据标注。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (5)

1.一种航空文本数据标注方法,其特征在于,其包括以下步骤:
步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:
使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Yw分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边E上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列;所述转移特征函数tk和状态特征函数sl是与位置相关的局部特征函数;
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值;
步骤2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,
不确定性样本查询策略包括:
最低置信度策略:对于每一条样本,主动学习模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值;
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分;以及
最大熵策略:熵的概念来自于信息论,用于度量***的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分;
版本空间缩减样本查询策略为:所述版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将筛选出来经过模型训练后能够缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例;
基于字词级别的最低置信度的样本查询策略表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数;
根据基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
步骤3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
使用步骤1得到未标注数据,再使用步骤S2得到筛选样本,对筛选样本区分难度进行判断,将判断结果反馈给实体识别模型和主动学习模型,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新,并返回步骤1继续循环执上述操作,直到迭代达到指定次数或目标值,建立基于信息抽取的航空文本标注模型,所述基于信息抽取的航空文本标注模型包括一定量的标注数据集、参数优化之后的实体识别模型和主动学习模型;
将新的航空文本数据输入到基于信息抽取的航空文本标注模型,从而对任意航空文本数据进行标注。
2.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤1中的非实体词部分增强,具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,具体为:
所述同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换;
所述随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机***词语,词语的来源是样本分词结果中的非实体词或者中文停用词表;
所述随机交换是将待标注航空文本非实体词片段随机交换两个词语;
所述随机删除是将待标注航空文本中非实体词片段随机删除词语。
3.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤1中的实体词部分增强具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示:
所述实体词替换是与同标签同义词替换相同,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位;
所述词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,从而提升词汇根据上下文内容进行模板槽学习的能力;
所述短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,扩大样本长距离上下文信息;
所述短句生成是随机选取至少包含一个实体词的短句,并能拼接生成新样本,以提升短航空文本实体识别性能。
4.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤2中的主动学习模型具体为:
所述主动学习模型包括构建学习引擎和选择引擎,使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型包括词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除只能单向融合上下文信息的限制,并在双向Transformer结构结合MLM的模型构建模式被用于预训练时,能生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。
5.一种根据权利要求1-4之一所述的航空文本数据标注方法的航空文本标注***,其特征在于,包括基于实体核心的文本增强算法模块、基于实体识别的实体识别算法模块以及主动学习算法模块,针对信息抽取任务为实体识别任务形成一套标注流程;航空文本标注***的组织架构包括基础服务层、业务逻辑层和应用层;通过航空文本标注***实现原始航空文本的数据标注,其中:
所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
CN202211706705.6A 2022-12-29 2022-12-29 航空文本数据标注方法及其标注*** Active CN116244445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211706705.6A CN116244445B (zh) 2022-12-29 2022-12-29 航空文本数据标注方法及其标注***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211706705.6A CN116244445B (zh) 2022-12-29 2022-12-29 航空文本数据标注方法及其标注***

Publications (2)

Publication Number Publication Date
CN116244445A CN116244445A (zh) 2023-06-09
CN116244445B true CN116244445B (zh) 2023-12-12

Family

ID=86626902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211706705.6A Active CN116244445B (zh) 2022-12-29 2022-12-29 航空文本数据标注方法及其标注***

Country Status (1)

Country Link
CN (1) CN116244445B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776884A (zh) * 2023-06-26 2023-09-19 中山大学 一种用于医学命名实体识别的数据增强方法及***
CN117473096B (zh) * 2023-12-28 2024-03-15 江西师范大学 一种融合latex标签的知识点标注方法及其模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901825A (zh) * 2021-11-22 2022-01-07 东北大学 一种基于主动深度学习的实体关系联合抽取方法及***
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN115039140A (zh) * 2020-08-11 2022-09-09 辉达公司 使用一个或更多个神经网络的增强的对象识别
WO2022222224A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于深度学习模型的数据增强方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138523B2 (en) * 2016-07-27 2021-10-05 International Business Machines Corporation Greedy active learning for reducing labeled data imbalances
US10957433B2 (en) * 2018-12-03 2021-03-23 Tempus Labs, Inc. Clinical concept identification, extraction, and prediction system and related methods
EP3903241A4 (en) * 2018-12-24 2022-09-14 Roam Analytics, Inc. BUILDING A KNOWLEDGE GRAPH USING MULTIPLE SUB-GRAPHS AND A LINK LAYER INCLUDING MULTIPLE LINK NODES
US20210004700A1 (en) * 2019-07-02 2021-01-07 Insurance Services Office, Inc. Machine Learning Systems and Methods for Evaluating Sampling Bias in Deep Active Classification
US11436448B2 (en) * 2019-12-06 2022-09-06 Palo Alto Research Center Incorporated System and method for differentially private pool-based active learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115039140A (zh) * 2020-08-11 2022-09-09 辉达公司 使用一个或更多个神经网络的增强的对象识别
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
WO2022222224A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于深度学习模型的数据增强方法、装置、设备及介质
CN113901825A (zh) * 2021-11-22 2022-01-07 东北大学 一种基于主动深度学习的实体关系联合抽取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LTP:A New Active Learning Strategy for CRF-Based Named Entity Recognition;Tong Zhang等;researchgate;1-9 *
装备文本预料数据标注规范化研究;刘俊等;航空标准化与质量(第06期);38-44 *

Also Published As

Publication number Publication date
CN116244445A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN109271505B (zh) 一种基于问题答案对的问答***实现方法
CN116244445B (zh) 航空文本数据标注方法及其标注***
CN107729468B (zh) 基于深度学习的答案抽取方法及***
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化***及方法
CN110263325A (zh) 中文分词***
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN101901213A (zh) 一种基于实例动态泛化的共指消解方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN117371534B (zh) 一种基于bert的知识图谱构建方法及***
CN114048314A (zh) 一种自然语言隐写分析方法
CN112579583B (zh) 一种面向事实检测的证据与声明联合抽取方法
CN116680420B (zh) 基于知识表示增强的低资源跨语言文本检索方法及装置
CN112884087A (zh) 一种生物增强子及其类型的识别方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN111144134A (zh) 基于OpenKiWi的翻译引擎自动化评测***
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN115688803A (zh) 一种用于框架语义知识库构建的词元一致性框架推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant