CN113158658A

CN113158658A - 一种基于知识嵌入的结构化管制指令提取方法

Info

Publication number: CN113158658A
Application number: CN202110454084.6A
Authority: CN
Inventors: 王煊; 聂建强; 蒋伟煜; 徐秋程; 严勇杰
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-23
Anticipated expiration: 2041-04-26
Also published as: CN113158658B

Abstract

本发明提供了一种基于知识嵌入的结构化管制指令提取方法，包括：构建计算机可读的结构化管制指令；引入机场信息，提升任务处理模型在实际使用时的通用性。通过处理非结构化管制指令，实现以下辅助功能：提取管制指令中出现的场面、气象等信息并进行汇聚；提取航空器的动作、状态等信息并进行模拟仿真；形成计算机可读的结构化信息。该方法针对管制指令中出现的词语之间的语义关系特点设计专门的处理方法，同时针对收集的训练数据的无法覆盖所有机场的特点，提出将机场知识嵌入进行改进，使模型具有通用性。

Description

一种基于知识嵌入的结构化管制指令提取方法

技术领域

本发明属于空中交通管制自动化***技术领域，尤其涉及一种基于知识嵌入的结构化管制指令提取方法。

背景技术

目前解决管制员失误的主流方法是加强场面的监控设备，通过借助场面监视雷达、多点定位***传感器等设备降低失误。同时，一些基于人工智能的更先进的解决方法也被提出，基于语音识别的管制指令提取方法通过语音识别技术将管制语音转换成文本，再利用语义分析的技术提取管制指令的内容。然而在管制指令的语义分析和提取阶段，主要是基于陆空通话规则的模板进行提取，该方法只能处理小部分符合模板的管制指令，不能有效针对所有的管制指令，原因在于实际的管制员发出的管制指令是自然语言形式的，因此无法穷举出所有的模板进行匹配分析，这也是基于陆空通话规则模板的结构化管制指令提取算法的局限。

发明内容

发明目的：本发明从语言学的角度对实际管制指令的词语关系进行分析，设计机场知识字典替换管制指令中的实体信息，使训练的模型具有针对机场管制指令的好的泛化能力，同时设计本体语义网，利用语言学知识学习部分词语的关系，针对管制指令中可能出现语义歧义的词语关系，通过训练相应的语义角色标注模型解决难题。该方法最终可以生成计算机可以理解的结构化管制指令，且能解析绝大部分在实际工作环境下所产生的非结构化形式的管制指令。

技术方案：本发明提供了一种基于知识嵌入的结构化管制指令提取方法，包括如下步骤：

步骤1，构建机场先验知识字典；

步骤2，替换管制指令文本中的已知信息

步骤3，训练信息抽取模型；

步骤4，使用训练后的模型进行预测，得到结构化管制指令。

步骤1包括，将已知机场信息编写入先验知识字典，所述特定信息包括机场中的跑道号、滑行道号、塔台名称，所述机场知识字典包含两部分，一是在模型训练过程中数据来源机场的知识；二是在模型预测过程中目标数据的来源机场，构建方法以键值对的形式保存，即{信息属性：信息值}的方式建立映射关系，例如：{跑道：35L}。其中，跑道是信息属性，而35L是信息值，它表明机场中有一条跑道是35L号跑道；

步骤2包括：对管制指令中出现的机场中的跑道、滑行道信息进行辨析，通过检索机场知识字典预处理管制指令数据，将信息替换成属性，辨析方法是直接搜索字典中有无相应信息。例如：对管制指令中出现的跑道、滑行道信息值进行辨析，通过检索机场知识字典预处理管制指令数据，即将信息替换成对应的属性。搜索字典中有无该信息，例如：东方XXXX，35L起飞。根据字典中的信息，可知35L是跑道，因此，预处理管制指令，变成：东方XXXX，跑道起飞。

步骤3包括，

步骤3-1，进行预处理：从机场塔台收集管制指令作为训练数据，针对训练数据的管制指令，检索对应的机场知识字典，检索出管制指令中出现的实体信息，在管制指令中将实体替换成对应的通用表述实体，将替换后的管制指令数据组成训练数据集；

步骤3-2，训练信息抽取模型

步骤3-2包括：对训练数据集中的管制指令进行标注，将其中出现的实体信息一一标出，同时对介词词组进行一致性标注，向命名实体识别模型输入训练数据集中的管制指令，设定管制指令句子长度是l，即所述句子包含l个单字，使用词嵌入技术得到每个字的向量表示，设向量维度是512，则输入句子的维度变成(l，512)；

所述信息抽取模型包括双向长短期记忆网络BiLSTM模型和条件随机场CRF(Conditional Random Field,CRF)模型，BiLSTM模型包含两个方向相反的LSTM，一个LSTM利用目标词的上文信息对目标词实体属性进行预测，另一个LSTM利用目标词的下文对目标词的实体属性进行预测；经过BiLSTM模型处理，输出(l，M)维的信号，其中M是标注类别的数量，最后利用CRF模型得到实体类别输出序列。

LSTM层在隐藏循环层中使用的基本单元是记忆块，一个记忆块包含一个或多个单元格和三个乘法单元门输入：输入门，遗忘门，输出门。LSTM层通过这三个门调节和控制记忆块的长期状态，这种机制被称为门限机制。两个方向相反的LSTM均符合以下条件：设定输入文本为x＝x₁，x₂，...，x_T，x_t表示文本中的第t个字，T是输入文本长度，LSTM层可以利用门限机制记住很久以前位置上的信息，其计算公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t) (1)

其中，σ是激活函数，i_t，f_t，o_t分别表示输入门、遗忘门和输出门在位置t上的输出值，c_t表示第t个单元格状态，模型在第t个神经元上的隐藏状态h_t由o_t和c_t计算得到； W_xi，W_xf，W_xo，W_xc是输入x的权重矩阵，W_hi，W_hf，W_ho，W_hc是隐藏状态h的权重矩阵，W_ci，W_cf，W_co是单元格状态c的权重矩阵，b_i，b_f，b_c，b_o分别是输入门、遗忘门、单元格状态更新、输出门方程的偏置值；tanh(z)＝2f(2z)-1是激活函数，

是激活函数，z表示输入表示序列。

步骤4包括：

步骤4-1，对于需要处理的管制指令文本，通过检索当前机场知识字典找出实体信息，并使用步骤1定义的规则对实体进行替换；

步骤4-2，通过信息抽取模型处理管制指令，抽取出相关的实体，生成结构化数据。

本发明可应用于空中交通管制***中对管制指令的语义理解。针对管制指令的特殊语法特点和空中交通管理的领域特性，构建机场知识字典，设计实体替换规则，，训练BiLSTM-CRF模型对管制指令进行信息抽取和结构化处理。本发明能更精确地解析管制指令并形成结构化指令，能有效处理从管制指令语音识别到基于管制指令内容的运动趋势预测之间的工作。

有益效果：本发明具有如下的技术效果：

(1)不需要在所有机场收集数据，在几个机场收集数据后训练模型，可以迁移至其他机场使用。

(2)让计算机自主理解管制指令的语义，并判断出飞行器的运动过程。

(3)提取管制指令中如管制意图、管制呼号等重要信息。

(4)将非结构化管制指令转换为结构化管制指令，得到高精度结果。

(5)可对非结构化的管制指令进行语义分析，利用机场知识提升模型在不同机场的通用性，本发明极大地提高了管制指令语义分析的适用范围，突破了模型训练数据必须从目标机场收集得到的限制。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1为本发明方法的流程图。

图2为本发明方法的模块化主要流程图。

图3为命名实体识别模型BiLSTM-CRF模型结构图。

具体实施方式

如图1所示，本发明提供了一种基于知识嵌入的结构化管制指令提取方法，具体包括如下步骤：

步骤1-2：替换管制指令先验知识

管制指令中的实体信息会根据不同机场的设置而发生变化，比如，跑道号、滑行道号，然而神经网络模型对数据量的依赖很大，需要根据特定的机场管制指令数据进行训练才能识别这些实体信息，这会导致模型在迁移到新机场使用时出现性能下降，无法识别新机场的信息等难题。该步骤根据机场知识设计相应的检索字典，将机场中的跑道号、滑行道号、塔台名称等特定信息编写入机场知识字典，机场知识字典包括训练数据来源的机场和需要迁移使用的机场。

步骤3：模型训练阶段

步骤3.1：预处理

针对训练数据的管制指令，检索对应的机场知识字典，检索出管制指令中出现的实体信息，在管制指令中将实体替换成对应的通用表述实体，比如，某机场知识字典中定义：滑行道→E，将管制指令中单独出现的E换成滑行道。将替换后的管制指令数据进行整理，形成训练数据集。

步骤3.2：训练信息抽取模型

对训练数据集中的管制指令进行人工标注，将其中出现的实体信息一一标出，需要抽取的实体信息包括航班呼号、管制意图、时间、机构、天气、修正海压、高度、速度、通讯频率等信息。同时对“在”、“从”、“到”、“往”、“向”等介词词组进行标注，由于介词对语义关系的确定具有很大的作用，因此需要对介词词组进行一致性标注，这主要是因为介词所指代的名词不一定紧跟在介词的后面，需要在识别时进行一致性判断。

信息抽取模型采用BiLSTM-CRF模型(模型结构见图3)进行处理，输入经过预处理后的管制指令，句子长度是l，即该句子包含l个单字，使用词嵌入技术(例如： Word2Vec)得到每个字的向量表示，设向量维度是512，则输入句子的维度变成(l,512)。该模型由两部分组成，分别是BiLSTM模型和条件随机场(CRF)模型组成，其中 BiLSTM层包含两个方向相反的LSTM层，一个层利用目标词的上文信息对目标词实体属性进行预测，另一个层利用目标词的下文对目标词的实体属性进行预测。经过 BiLSTM层处理，输出(l，M)维的信号，其中l是句子的长度，而M则是标注类别的数量。然后利用CRF层得到每个字的全局最优类别概率分布。

步骤4：模型预测阶段

步骤4.1：预处理

针对需要处理的管制指令，通过检索机场知识字典找出实体信息，并对实体进行替换。这么做的目的主要是保证句子的句法信息和语义信息完整，因为神经网络模型通过目标词语的上下文信息判断其所属的类别，因此需要进行替换步骤，形成处理后的管制指令。

步骤4.2：抽取信息

利用训练后的命名实体识别模型处理管制指令，抽取出相关的实体，生成结构化数据。

实施例

本实施例提出了一种基于知识嵌入的结构化管制指令提取方法，如图2所示，需要准备训练数据、定义机场知识字典和空管本体语义网，并设计两个不同功能的神经网络模型完成结构化管制指令生成。为方便描述，将分为三个步骤进行描述。

步骤一、数据准备和预处理。首先从某个机场获取管制指令数据，并构建该机场的知识字典用于检索，通过字典进行训练数据预处理。

步骤二、替换已有实体。搜索机场字典，将管制指令中的信息值替换成信息属性。

步骤三、管制指令信息抽取。在目标机场使用模型对管制指令进行三元组抽取时，构建目标机场知识字典，通过检索对管制指令进行预处理，然后使用训练后的模型抽取指令中的实体，形成结构化指令。

假设从青岛机场收集到一批管制指令实时数据，其中包含：1)山东四六四四E脱离。2)山东四六四四幺拐可以落地。3)山东四六四六保持一边上到九百，联系青岛进近幺幺九点四。下面将结合实例介绍以上三个步骤的工作。

步骤一、构建机场知识字典，由于收集到的训练数据来自青岛机场，构建青岛机场知识字典，应包括如下信息：跑道—幺拐、滑行道—E、塔台—青岛塔台、进近—青岛进近。通过检索字典预处理管制指令，以上三条指令变为：1)山东四六四四滑行道脱离。2)山东四六四四跑道可以落地。3)山东四六四六保持一边上到九百，联系进近幺幺九点四。

步骤二、标注训练数据，训练BiLSTM+CRF模型用于抽取实体，Transformer模型用于抽取关系，构建空管本体语义网用于抽取关系。

(1)针对BiLSTM+CRF模型，数据标注如下：

1、山(B_call)东(I_call)四(I_call)六(I_call)四(I_call)四(E_call)滑(O)行(O)道(o)脱(B_act)离(E_act)。(O)

2、山(B_call)东(I_call)四(I_call)六(I_call)四(I_call)四(E_call)跑(O)道(O)可(B_act)以(I_act)落(I_act)地(E_act)。(O)

3、山(B_call)东(I_call)四(I_call)六(I_call)四(I_call)六(E_call)保(B_act) 持(E_act)一(O)边(O)上(B_act)到(B_high)九(I_high)百(E_high)，联(B_act)系(E_act)进(O) 近(O)幺(B_freq)幺(I_freq)九(I_freq)点(I_freq)四(E_freq)。(O)

使用BIOE标注方法标注数据，其中，B表示类别的开头部分，I表示类别的中间部分，E表示类别的结尾部分，O表示无类别。需要注意的是，在3)中，到九百被标注成一个类别，之后通过词性可以找出“到”是介词，这样训练后的数据可以将介词词组“到九百”识别出来。

若仅从这三个例子出发，则实体类别有13类，以1)为例，句子包括12个字(包括标点),因此句子长度是12，通过词嵌入方法处理输入句子，得到模型的输入维度是 (12，512)，模型的输出维度是(12,13)，其中每个元素表示当前的字在不同类别中的概率值。通过训练得到BiLSTM+CRF模型。

(2)针对Transformer模型，数据标注如下：

1、山东四六四四滑行道脱离。

山东四六四四(A0)滑行道(A2)脱离

2、山东四六四四跑道可以落地。

山东四六四四(A0)跑道(A3)可以落地

3、山东四六四六保持一边上到九百，联系进近幺幺九点四。

山东四六四六(A0)保持一边(A1)

山东四六四六(A0)上到九百(DIR)

山东四六四六(A0)联系进近幺幺九点四(A1)

其中，“脱离”、“可以落地”、“保持”、“上”、“联系”表示核心动词，语义角色的标签定义为：核心的语义角色为A0-A5六种，A0通常表示动作的施事，A1通常表示动作的受事，A2-A5根据谓语动词不同具有不同的含义，还有11个附加语义角色，分别是：1)LOC表示地点，2)TMP表示时间，3)ADV表示附加标记，4)BNE表示受益人，5)CND表示条件，6)DIR表示方向，7)DGR表示程度，8)EXT表示扩展，9)FRQ表示频率，10)MNR表示方式，11)PRP表示目的或原因。在空中交通管理中，由于管制指令需要关注飞行器在空间中的移动，因此将源点和终点这两个语义定义为A2和A3。

因此实体类别起码有13类，以1)为例，句子包括12个字(包括标点),因此句子长度是12，通过词嵌入方法处理输入句子，得到模型的输入维度是(12，512)，模型的输出维度是(12,13)，其中每个元素表示当前的字在不同类别中的概率值。

步骤三、构建机场知识字典，预处理管制指令并抽取实体和关系。

假设需要将模型用于浦东机场的管制指令结构化处理应用，则构建浦东机场的知识字典，比如如下信息：跑道—三五L等。若需要处理的管制指令为：4)东方三九八四三五L可以起飞，通过检索字典预处理管制指令，得到：4)东方三九八四跑道可以起飞。

使用BiLSTM-CRF模型抽取管制指令中的实体，例如：东方三九八四(call)、跑道(O)、可以起飞(act)，并将抽取出的实体集合组成了结构化管制指令。

本发明提供了一种基于知识嵌入的结构化管制指令提取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于知识嵌入的结构化管制指令提取方法，其特征在于，包括如下步骤：

步骤1，构建机场知识字典；

步骤2，构建规则替换管制指令文本中的已知信息；

步骤3，进行信息抽取模型训练；

步骤4，通过训练好的模型进行预测，得到结构化的管制指令。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：将特定已知机场信息编写入机场先验知识字典，所述特定已知机场信息包括机场中的跑道号、滑行道号、塔台名称，所述机场知识字典包含两部分，一是在模型训练过程中数据来源机场的知识；二是在模型预测过程中目标数据的来源机场，构建方法以键值对的形式保存，即{信息属性：信息值}的方式建立映射关系。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：对管制指令中出现的机场中的跑道、滑行道信息进行辨析，通过检索机场知识字典预处理管制指令数据，将信息替换成属性，辨析方法是直接搜索字典中有无相应信息。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

步骤3-2，训练信息抽取模型。

5.根据权利要求4所述的方法，其特征在于，步骤3-2包括：对训练数据集中的管制指令进行标注，将其中出现的实体信息一一标出，同时对介词词组进行一致性标注，向命名实体识别模型输入训练数据集中的管制指令，设定管制指令句子长度是l，即所述句子包含l个单字，使用词嵌入技术得到每个字的向量表示，设向量维度是512，则输入句子的维度变成(l，512)；

所述命名实体识别模型包括双向长短期记忆网络BiLSTM模型和条件随机场CRF模型，BiLSTM模型包含两个方向相反的LSTM，一个LSTM利用目标词的上文信息对目标词实体属性进行预测，另一个LSTM利用目标词的下文对目标词的实体属性进行预测；经过BiLSTM模型处理，输出(l，M)维的信号，其中M是标注类别的数量，最后利用CRF模型得到实体类别输出序列。

6.根据权利要求5所述的方法，其特征在于，两个方向相反的LSTM均符合以下条件：设定输入文本为x＝x₁，x₂，...，x_T，x_t表示文本中的第t个字，T是输入文本长度，LSTM利用门限机制记住位置上的信息，计算公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_t tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t) (1)

其中，σ是激活函数，i_t，f_t，o_t分别表示输入门、遗忘门和输出门在位置t上的输出值，c_t表示第t个单元格状态，模型在第t个神经元上的隐藏状态h_t由o_t和c_t计算得到；W_xi，W_xf，W_xo，W_xc是输入x的权重矩阵，W_hi，W_hf，W_ho，W_hc是隐藏状态h的权重矩阵，W_ci，W_cf，W_co是单元格状态c的权重矩阵，b_i，b_f，b_c，b_o分别是输入门、遗忘门、单元格状态更新、输出门方程的偏置值；tanh(z)＝2f(2z)-1是激活函数，

是激活函数，z表示输入表示序列。

7.根据权利要求6所述的方法，其特征在于，步骤4包括：

步骤4-1，对于需要处理的管制指令，通过检索机场知识字典找出实体信息，并对实体进行替换；

步骤4-2，通过命名实体识别模型处理管制指令，抽取出相关的实体，形成结构化的管制指令。