CN113901826A

CN113901826A - 基于串行混合模型的军事新闻实体识别方法

Info

Publication number: CN113901826A
Application number: CN202111401314.9A
Authority: CN
Inventors: 谢泽宇; 崔隽; 后弘毅; 陆保国; 苏晓威
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-01-07

Abstract

本发明公开了一种基于串行混合模型的军事新闻实体识别方法。该方法首先使用BERT预训练语言模型对文本进行动态分布式表示；其次使用Bi‑LSTM网络结构提取上下文中的局部特征，同时使用CRF模型提取全局最优序列；最后串联规则模型对领域自动化抽取实体进行规则校验，串联上述三个步骤实现从军事中大规模精确抽取军事新闻命名实体。本发明相较于传统命名实体识别方法不仅模型性能提升显著，准确率、召回率、F值有一定提升，而且具备较强的工程实现和推广意义。

Description

基于串行混合模型的军事新闻实体识别方法

技术领域

本发明属于命名实体识别技术领域，尤其涉及一种基于串行混合模型的军事新闻实体识别方法。

背景技术

从给定的非结构化文本中抽取出高质量的知识三元组并构建相应的知识图谱的功能，为实现自动化的知识抽取与高效利用提供理论基础和技术支撑。传统专家***时代主要依靠专家手工获取知识不同，现代知识显著特点是规模巨大，无法单一依靠人工和专家构建。

目前命名实体识别的方法主要有两种：统计机器学习的抽取方法和基于神经网络的深度学习抽取方法。在统计机器学习的抽取方法中，条件随机模型通过考虑输入的状态特征函数、包含标签转移特征函数和充分利用文本特征，实现了高准确率的实体识别与抽取，成为最常用的方法。其它的机器学习方法还包括隐马尔可夫模型和最大熵马尔可夫模型等。基于神经网络的深度学习成为知识好抽取的新思路，相关研究团队提出了神经网络模型CNN（卷积神经网络）加CRF（条件随机场），较早使用神经网络进行实体抽取，在命名实体识别任务上取得了很好的效果。在他们工作的基础上，一种一般包含嵌入层（主要有词向量，字符向量以及一些额外特征）、Bi-LSTM（双向长短时记忆网络）层、激活函数tanh隐藏层和最后的CRF层的模型也被提出，称为RNN+CRF。实验表明，RNN+CRF取得了更好的效果，超越了基于丰富人工特征的CRF模型，成为目前基于深度学习的NER主流模型。联合抽取串联（pipelined）地抽取实体和关系有其优点，它在任务上有一定的简化作用，具有较强的易操作性；但同时，它会忽略实体和关系之间的相关性，可能导致错误在任务之间积累和传播，导致知识抽取的性能降低。

发明内容

发明目的：本发明的目的在于提供一种实现军事新闻实体的高效准确识别的基于串行混合模型的军事新闻实体识别方法，基于串行混合的思想，融合Bert-Bi-LSTM-CRF深度学习抽取和军事新闻领域规则方法，通过串行迭代方式提升军事新闻领域实体识别的准确率。

技术方案：本发明的基于串行混合模型的军事新闻实体识别方法，包括如下步骤：

步骤1、多源数据接引汇聚，针对不同的数据量级、数据格式、网络条件，提供定制化的数据引接汇聚方案，保证数据集成的稳定、高效；为保证军事新闻数据知识抽取的有效性与一致性，研究基于定制规则的数据校验与清洗转换技术，对军事新闻数据中的结构不完整、数据不正确、内容不相关、标准不统一的信息进行清洗与转换；提高数据质量。

步骤2、交互式语料标注，采用交互式数据标注平台构建技术进行语料标注，提高人工标注效率，为军事新闻知识抽取模型提供准确可靠样本集；

步骤3、Bert-Bi-LSTM-CRF序列标注，采用Bert-Bi-LSTM-CRF模型作为核心的序列标注模型，进行军事新闻实体识别；

步骤4、串行混合模型联合抽取方法，对军事新闻领域数据进行实体知识抽取，其中混合模型主要包括：深度学习模型和规则模型；

步骤5、知识抽取模型服务编排与发布部署，使用面向军用领域的微服务框架、面向智能军事新闻应用的集成与编排技术、面向军用传输协议的服务适配等技术，实现智能模型服务化高效使用，智能应用服务化灵活编排构建。

进一步地，步骤1中，所述多源数据接引汇聚的步骤如下：

步骤1-1、数据汇聚，通过数据多源引接、增量采集、数据转换、采集方式，实现数据的汇集；针对不同的数据结构、网络条件、数据规模，提供组件化、可配置的数据接入能力，以统一架构全面支持军事新闻业务***、文档等数据的高效引接汇聚。实现统一采集平台进行数据采集，提供从各军兵种、各类业务***中数据引接汇聚的功能，支持多种关系型数据、分布式文件***、分布式列存储、MPP数据库、文件***等各类数据源，实现采集任务统一管理和调度，能够导入所有表的数据。支持跨网络、跨平台、不同形式的数据源以及不同的应用中采集、转换、融合、管理数据，形成数据持续采集治理的流程。

步骤1-2、清洗转换，通过数据清洗、数据规则校验的方法相结合的实现数据的清洗转换。基于定制规则的数据校验与清洗转换技术，对军事新闻数据中的结构不完整、数据不正确、内容不相关、标准不统一的信息进行清洗与转换，提高数据质量。保证军事新闻数据知识抽取的有效性与一致性。基于定制规则的数据校验与清洗转换技术，提高军事新闻数据资产质量，支撑军事新闻知识高效准确抽取。军事新闻数据校验方法包括：数据结构完整性校验、数据缺失校验、数据一致性校验、数据范围校验和置信度校验等校验方法。

进一步地，步骤2中，所述交互式语料标注是针对军事新闻文本数据中的实体和关系进行标注，并在标注过程中对实体和关系进行词义排歧。词义排歧是自然语言处理中的一个难点问题，主要难点之一在于难以获得带语义标记的大规模训练语料。大规模的训练语料不仅是基于学习的算法得以实现的基础，更是对算法性能进行评价的先决条件。人机交互的语义标注***包括：第一，利用人机交互的标注***可以在进行人工标注的同时，抽取出多义词周围的一些特征环境，通过对这些特征环境的分析；第二，在利用人机交互***对真实语料进行标注时，通过人标注时所采用的规则，也能获得一些机器自动化标注的规则；第三，利用人机交互***标注一部分语料后，可将这些语料视为标准，以此来对机器标注进行评价。

进一步地，步骤3中，所述Bert-Bi-LSTM-CRF序列标注，首先采用BERT预训练语言模型，实现对军事新闻文本的深层语义特征进行提取；其次利用了一种Bi-LSTM来提取指称项的局部上下文特征，其中Bi-LSTM中包含两个LSTM，一个提取前向隐藏的特征，另一个提取后向隐藏的特征。

进一步地，所述Bert-Bi-LSTM-CRF序列标注具体包括如下步骤：

步骤3-1、采用BERT预训练语言模型进行分布式表示，动态分布式表示模型通过双向语言模型在海量开源语料上进行训练，然后通过迁移学习的方式在少量军事新闻语料上进行微调，最后根据目标任务，采用动态加权的方式进行整合；在海量语料的基础上运行自监督学习方法为单词学习一个好的向量表示。

步骤3-2、采用Bi-LSTM-CRF的局部特征提取模型进行特征提取，利用了一种LSTM 来提取指称项的局部上下文特征，Bi-LSTM中包含两个LSTM，一个提取前向隐藏的特征，另一个提取后向隐藏的特征，Bi-LSTM层的输出可以表示为

，由于

的维度为 2k，使用激活函数将

投射到k维度空间，该函数可以表示为：

。

在命名实体识别任务中，Bi-LSTM善于处理长距离的文本信息，但无法处理相邻标签之间的依赖关系。而CRF能通过邻近标签的关系获得一个最优的预测序列，可以弥补Bi-LSTM的缺点。

Bert-Bi-LSTM-CRF模型中LSTM拥有较强的长序列特征提取能力，用于学习上下文中词向量的长期依赖关系，Bert-Bi-LSTM一般是两个方向LSTM的串联拼接，考虑到当前词向量可能依赖于其前向和后向的知识，因此Bert-Bi-LSTM是一种常见的选择。CRF层可以学习到句子的约束条件，相比LSTM而言，CRF层更加关注近距离的约束规则，可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到。其次，CRF中有转移特性，即它会考虑输出标签之间的顺序性，也会学习一些约束规则。

训练的深度学习模型往往精度不足。同时由于此类实体组合的复杂多样性，使用规则匹配的方式往往难以达到预期效果。因此，本文拟采用句子选择器+序列标注模型的方法，提高句子质量的同时抽取高可用知识。

进一步地，步骤4中，所述深度学习模型采用混合Bert（预训练语言模型）、Bi-LSTM、CRF的训练模型；所述规则模型采用领域词典库和校验规则库。

进一步地，步骤5中，知识抽取模型服务编排与发布部署，基于编排机制的模型动态组装技术，提供接口规范定义、模型算法描述、模型算法组件化、封装合格化验证、模型组件加载适配等功能，提供便捷的交互接口。

有益效果：与现有技术相比，本发明具有如下显著优点：

（1）串行知识抽取工程，模块化程度高，各知识模块高内聚、低耦合，且串行流程可扩展延伸；

（2）本研究提出的知识抽取方法工程化程度高，在诸多领域具备通用性；

（3）可根据应用领域的不同定制化规则，同时各模块可以不断迭代优化并替换现有模块；

（4）可支持智能应用服务化灵活编排与快速构建。

附图说明

图1是本发明的串行混合模型的知识抽取框架流程图示意图；

图2是本发明的Bert-Bi-LSTM-CRF模型结构示意图；

图3是本发明的BERT模型结构示意图；

图4是本发明的Transformer编码器示意图；

图5是本发明的局部特征提取框架示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明基于串行混合模型的军事新闻实体识别方法，步骤如下：

第一步，原始语料，从各军兵种、各类业务***中数据引接汇聚的功能，支持多种关系型数据、分布式文件***、分布式列存储、MPP数据库、文件***等各类数据源，实现采集任务统一管理和调度，能够导入所有表的数据。定制数据校验与清洗转换规则，提高军事新闻数据资产质量，支撑军事新闻知识高效准确抽取。军事新闻数据校验方法包括：数据结构完整性校验、数据缺失校验、数据一致性校验、数据范围校验和置信度校验等校验方法。

第二步，语料标注，大规模的训练语料不仅是基于学习的算法得以实现的基础，更是对算法性能进行评价的先决条件。人机交互的语义标注***包括：第一，利用人机交互的标注***可以在进行人工标注的同时，抽取出多义词周围的一些特征环境，通过对这些特征环境的分析；第二，在利用人机交互***对真实语料进行标注时，通过人标注时所采用的规则，也能获得一些机器自动化标注的规则；第三，利用人机交互***标注一部分语料后，可将这些语料视为标准，以此来对机器标注进行评价。

第三步，模型训练，使用大量标注语料库训练了一个双向神经网络语言模型，然后使用这个训练好的语言模型来获取当前要标注词的语言模型向量，接着将该向量作为特征加入到原始的模型中，取得了很好的实体抽取效果。

（1）BERT预训练语言模型，针对一词多义、目标数据量较小等问题，现有静态分布式表示技术，如glove，word2vec等，无法对复杂问题的深层语义特征进行准确表达，本研究使用动态分布式表示技术对军事新闻文本的深层语义特征进行提取。动态分布式表示技术具有两大优点，因为其输入的基本单元是句子，可以有效区分一词多义的情况；另外，通过引入迁移学习的方式，仅通过少量目标语料进行微调，即可使模型适配于目标领域。动态分布式表示模型通过双向语言模型在海量开源语料上进行训练，然后通过迁移学习的方式在少量军事新闻语料上进行微调，最后根据目标任务，采用动态加权的方式进行整合。

Bert作为Word2Vec的替代者，在NLP领域的多个方向大幅度刷新精度。其本质上是通过在海量语料的基础上运行自监督学习方法为单词学习一个好的向量表示。所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在特定的NLP任务例如命名实体识别中可以直接使用Bert的特征表示作为该任务的词嵌入表示。Bert可以作为其他任务迁移学习的模型，该模型可以微调或者固定之后作为特征提取器。Bert网络架构使用的是多层Transformer结构，最大特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离换成1，有效的解决了NLP中棘手的长期依赖问题。如图3、图4所示。

（2）基于Bi-LSTM-CRF的局部特征提取模型，本研究利用了一种LSTM来提取指称项的局部上下文特征。具体来讲，Bi-LSTM中包含两个LSTM，一个提取前向隐藏的特征，另一个提取后向隐藏的特征。指称项或者实体特征序列可以描述为S={x_1,x_2,…,x_n}为，其中n是句子的长度。

Bi-LSTM层的输出可以表示为为

，由于

的维度为2k，我们使用激活函数将

投射到k维度空间。该函数可以表示为

，如图5所示。

在此基础上，课题利用注意力机制来抽取上下文中的有价值的特征。具体来讲，假设

是一个矩阵，包含由Bi-LSTM生成的隐藏向量

（指称项特征或实体描述特征），其中d是隐藏层的维度，n是输入句子的长度。注意力机制的主要目的是为了对生成的潜在表示特征进行加权操作，具体公式如下：

其中，

表示注意力向量，

是一个全1的向量，

表示注意力的权重向量。

和

是要学习的矩阵，

。通过上述方法就能有效的获取到指称项的局部上下文特征。

“2018年09月21日凌晨8点30分，5架F-35飞机于日本那霸机场起飞，预计当天10点10分降落成日本春日机场”新闻文本中抽取到{国家、地区：日本}和{武器装备：F-35}领域实体抽取为例。首先将文本通过嵌入规则生成低维度向量，然后通过Bert-BiLSTM层学习出每个字与对应标签的预测分值，如“日本”中的“日”字对应每个标签的概率可能为0.6（B-地点），0.1（I-地点），0.04（B-人物）等等。最后将这些得分输入到CRF层，CRF层学习到的约束规则可以是：1）句子中第一个词总是以标签“B-”或“O”开始，而不是“I-”；2）标签“B-标签1I-标签2 I-标签3 …”，其中标签1、标签2、标签3应该属于同一类实体；3）标签序列“O I-标签”是非法的。通过CRF层约束规则筛选，得到概率最大的标签序列作为最终的抽取结果。

第四步，串行混合模型构建，混合模型主要包括：深度学习模型和规则模型。其中深度学习模型采用混合Bert（预训练语言模型）、Bi-LSTM、CRF的训练模型，规则模型包括领域词典库和校验规则库。如图2所示，

（1）Bert-Bi-LSTM-CRF模型是实体抽取领域最常用的模型之一，其中LSTM拥有较强的长序列特征提取能力，用于学习上下文中词向量的长期依赖关系，Bert-Bi-LSTM一般是两个方向LSTM的串联拼接，考虑到当前词向量可能依赖于其前向和后向的知识，因此Bert-Bi-LSTM是一种常见的选择。CRF层可以学习到句子的约束条件，相比LSTM而言，CRF层更加关注近距离的约束规则，可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到。其次，CRF中有转移特性，即它会考虑输出标签之间的顺序性，也会学习一些约束规则。

（2）本文将实体关系抽取作为一种序列标注任务处理，采用Bert-Bi-LSTM-CRF模型作为核心的序列标注模型，然而在实际应用中，序列标注任务精度往往受到句子质量的影响。特别是在对军事新闻相关实体的抽取中，如“F-35”、“歼-10”、“CA910”等复杂组合的特殊意义实体十分普遍，若不针对包含此类文本的句子集加以筛选，则训练的模型往往精度不足。同时由于此类实体组合的复杂多样性，使用规则匹配的方式往往难以达到预期效果。因此，本文拟采用句子选择器+序列标注模型的方法，提高句子质量的同时抽取高可用知识。

基于规则的实体抽取：针对结构化数据设计了具体到表关联依赖特性的通用规则模板，适用于大多数关系型数据库的实体关系抽取场景。针对非结构化数据拟采用包含规则学习和数据抽取两个功能模块在内的实体关系抽取***。

专业词典，词典保持固定结构：名称、类别、词性等，词典可用于规则模型匹配文本目标实体、触发词等。

正则校验库，为抽样校验、实体校验服务，提供长度、正则两种规则约束实体，校验规则支持定制化编辑。

第五步，知识抽取模型服务，基于编排机制的模型动态组装技术，提供接口规范定义、模型算法描述、模型算法组件化、封装合格化验证、模型组件加载适配等功能，提供便捷的交互接口，以达到知识抽取模型服务的快速编排与发布部署。

Claims

1.一种基于串行混合模型的军事新闻实体识别方法，其特征在于，包括如下步骤：

步骤1、多源数据接引汇聚，针对不同的数据量级、数据格式、网络条件，提供定制化的数据引接汇聚方案，保证数据集成的稳定、高效；为保证军事新闻数据知识抽取的有效性与一致性，研究基于定制规则的数据校验与清洗转换技术，对军事新闻数据中的结构不完整、数据不正确、内容不相关、标准不统一的信息进行清洗与转换；

步骤2、交互式语料标注，采用交互式数据标注平台构建技术进行语料标注，为军事新闻知识抽取模型提供准确可靠样本集；

2.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，步骤1中，所述多源数据接引汇聚的步骤如下：

步骤1-1、数据汇聚，通过数据多源引接、增量采集、数据转换、采集方式，实现数据的汇集；

步骤1-2、清洗转换，通过数据清洗、数据规则校验的方法相结合的实现数据的清洗转换。

3.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，步骤2中，所述交互式语料标注是针对军事新闻文本数据中的实体和关系进行标注，并在标注过程中对实体和关系进行词义排歧。

4.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，步骤3中，所述Bert-Bi-LSTM-CRF序列标注，首先采用BERT预训练语言模型，实现对军事新闻文本的深层语义特征进行提取；其次利用了一种Bi-LSTM来提取指称项的局部上下文特征，其中Bi-LSTM中包含两个LSTM，一个提取前向隐藏的特征，另一个提取后向隐藏的特征。

5.根据权利要求4所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，所述Bert-Bi-LSTM-CRF序列标注具体包括如下步骤：

步骤3-1、采用BERT预训练语言模型进行分布式表示，动态分布式表示模型通过双向语言模型在海量开源语料上进行训练，然后通过迁移学习的方式在少量军事新闻语料上进行微调，最后根据目标任务，采用动态加权的方式进行整合；

步骤3-2、采用Bi-LSTM-CRF的局部特征提取模型进行特征提取，利用了一种LSTM来提取指称项的局部上下文特征，Bi-LSTM中包含两个LSTM，一个提取前向隐藏的特征，另一个提取后向隐藏的特征，Bi-LSTM层的输出可以表示为

，由于

的维度为2k，使用激活函数将

投射到k维度空间，该函数可以表示为：

。

6.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，步骤4中，所述深度学习模型采用混合Bert、Bi-LSTM、CRF的训练模型；所述规则模型采用领域词典库和校验规则库。

7.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法，其特征在于，步骤5中，知识抽取模型服务编排与发布部署，基于编排机制的模型动态组装技术，提供接口规范定义、模型算法描述、模型算法组件化、封装合格化验证、模型组件加载适配等功能，提供便捷的交互接口。