CN110069771B - 一种基于语义组块的管制指令信息处理方法 - Google Patents

一种基于语义组块的管制指令信息处理方法 Download PDF

Info

Publication number
CN110069771B
CN110069771B CN201910180560.2A CN201910180560A CN110069771B CN 110069771 B CN110069771 B CN 110069771B CN 201910180560 A CN201910180560 A CN 201910180560A CN 110069771 B CN110069771 B CN 110069771B
Authority
CN
China
Prior art keywords
attribute
word
sequence
english letter
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910180560.2A
Other languages
English (en)
Other versions
CN110069771A (zh
Inventor
王煊
徐秋程
丁辉
王冠
严勇杰
陈平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910180560.2A priority Critical patent/CN110069771B/zh
Publication of CN110069771A publication Critical patent/CN110069771A/zh
Application granted granted Critical
Publication of CN110069771B publication Critical patent/CN110069771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义组块的管制指令信息处理方法,其目的为:1、构建计算机可读的结构化管制指令,为管制指令的自动化处理提供基础。2、便于管制指令的信息抽取和语义分析,提高结果精度。通过对管制术语词组的识别和处理,该方法可以实现以下辅助功能:对管制指令中出现的基本管制术语携带的信息进行有效提取;对目标航空器的型号、状态等信息进行精确提取;为基于管制指令的信息汇聚提供数据。该方法针对管制指令包含特殊管制术语、数字等情况,通过使用框架搜索法及设计相应的规则对其进行提取。本发明提高了对管制指令的信息抽取能力,同时也提高了语义分析结果的精度。

Description

一种基于语义组块的管制指令信息处理方法
技术领域
本发明属于空中交通管制自动化***技术领域,尤其涉及一种基于语义组块的管制指令信息处理方法。
背景技术
随着近30年中国民航业的蓬勃发展,空中交通管理的需求不断膨胀,导致安全隐患问题日益突出。据统计资料显示,在过去发生的飞行安全事故中,人为因素占比超过75%,而其中因管制员失误而造成的事故占25%。目前解决因管制员失误而造成的冲突的主流方法是加强场面的监控设备,通过借助场面监视雷达、多点定位***传感器等设备防止冲突发生。同时,一些基于人工智能的更先进的解决方法也被提出,如利用语音识别技术对管制语音进行识别并转换成文本格式,利用自然语言处理技术进行语义分析。
在管制指令中存在一些特殊管制术语,这些管制术语不符合自然语法规则,同时也会和相邻词语形成词组(语块)。在一般的自然语言处理中,对实体或语块的提取方法使用命名实体识别,然而命名实体识别技术只对人名、地名、机构名等进行识别,无法对以管制术语为中心的词组(语块)进行识别提取,也无法对管制指令中出现的一些英语字母和数字的组合进行实体识别。
语义组块理论由Steve Abney率先提出,是一种用于浅层句法分析的方法。英语组块的定义为:句子由一些组块构成,每个组块由句法相关的词语所组成,具有无重叠,无嵌套,不相交的特性。将该方法用于对特殊管制术语词组的提取具有以下可行性:1、空管领域是封闭域,特殊管制术语的数量有限,可以设计有限数量组块规则;2、管制指令符合陆空通话规则,管制术语的使用符合一定的规则,可以直接用于规则的制定;3、特殊管制术语词组在一般管制指令中的角色相对独立,通常只表达外部环境信息,很少与管制指令中的其他词语发生关联,且满足句子组块的定义。
发明内容
发明目的:本发明从语义组块的角度对实际管制指令中出现的重要词组信息的组成形式进行分析,并结合陆空通话规则设计相应的组块规则进行词组提取。在本发明中,以特殊管制术语、数字、英文字母序列为切入点,并且根据其组成特点进行识别和提取。
技术方案:本发明提供了一种基于语义组块的管制指令信息处理方法,包括如下步骤:
步骤1,对管制指令进行中文分词操作,得到词序列;
步骤2,对词序列中的每个词进行词性标注,作为目标词语的特征;
步骤3,对包含特殊管制术语的管制指令进行处理;
步骤4,对管制指令的其他成分进行处理;
步骤5,根据步骤3和步骤4的处理结果,对管制指令进行分析,完成对空中交通管制***中管制指令的语义理解,将得到的结果用于判断管制指令中的信息是否与***中的计划信息一致。
步骤1中,采用分词算法(如基于词典和隐马尔科夫模型的方法)对管制指令进行中文分词操作,得到词序列,并且在分词过程中,编辑管制术语词典,在词典中添加一些常用的基本管制术语(根据对管制指令的收集,得到如:地面风、露点、能见度、塔台等名词)。将所述管制术语词典添加至分词算法中,辅助对管制指令进行分词处理。
步骤2中,对于管制指令中的数字,其词性标注是m;对于英文字母序列的词性标注是nx或eng;对于特殊管制术语的词性标注是Sp。
步骤2中,对特殊管制术语进行词性标注时,具体进行如下设置:
用Sp0表示所述特殊管制术语不与其前后词语形成词组;
用Sp1表示所述特殊管制术语与其前面的词语形成词组;
用Sp2表示所述特殊管制术语与其后面的词语形成词组;
用Sp3表示所述特殊管制术语能够与其前面或后面的词语形成词组。
步骤3包括:
步骤3-1,当管制指令中出现特殊管制术语时,以该管制术语为中心词,根据特殊标注所对应的搜索规则生成语块框架(特殊标注是事先对管制术语进行人为标注,并设置搜索规则,搜索规则在步骤3-2中给出),语块框架包含两个词槽:
第一个词槽为特殊管制术语,第二个词槽为搜索内容,或者,第一个词槽为语块属性(例如:时间),第二个词槽为管制指令中出现的属性对应的内容;
步骤3-2,结合特殊管制术语的用法设计相应的搜索规则(表1):
对于词性标注为Sp0的特殊管制术语,不进行任何搜索,直接进行识别,形成词组;
对于词性标注为Sp1的特殊管制术语,向左进行搜索,根据已定义的搜索规则(见表1搜索规则)搜索到相应的边界;
对于词性标注为Sp2的特殊管制术语,向右进行搜索,根据表1定义的搜索规则搜索到相应的边界;
表1
Figure BDA0001991066030000031
对于词性标注为Sp3的特殊管制术语,先向左进行搜索,根据规则库中的搜索规则搜索到相应的边界;若无内容,再向右进行搜索,根据规则库中的搜索规则搜索到相应的边界;
步骤3-3,对于步骤3-1给出的框架,分别将特殊管制术语和搜索得到的内容进行填充,例如:地面风3米秒,地面风是特殊管制术语,3米秒为搜索内容,此处的框架的形式为:第一个词槽为特殊管制术语,第二个词槽为搜索内容。
步骤4包括:
步骤4-1,对管制指令中是否出现数字或英文字母序列进行判断,若没有出现数字或英文字母,结束过程;若存在数字或英文字母,则继续步骤4-2;
步骤4-2,对管制指令中出现的数字或英文字母序列进行分析,将其结构分为三种情况:
第一种情况,数字或者英文字母组合的前后携带可进行属性判断的字或词;
第二种情况,数字或者英文字母组合具有内部特殊结构,结合管制陆空通话规则能够进行判断;
第三种情况,数字或者英文字母序列的外部没有明显指示其属性的字,其内部也没有能够辨别属性的特殊结构;
步骤4-3,对于第一种情况和第二种情况,设计相关的规则进行属性的判断;
步骤4-4,对于第三种情况,采用基于隐马尔科夫模型的方法进行属性的判断;
步骤4-5,如果通过步骤4-3和步骤4-4已经求出属性,则对语块框架中的词槽进行填充,语块框架的形式为:第一个词槽为属性,第二个词槽为数字或英文字母。
步骤4-3包括:设计如下规则进行属性的判断:
如果该数字或者英文字母组合内部包含小数点,属性为民航管制频率;
如果该数字或者英文字母组合是字母和数字的组合,属性为航班号;
如果该数字或者英文字母组合后接单位是米,属性为高度;
如果该数字或者英文字母组合后接单位是英尺,属性为高度;
如果该数字或者英文字母组合后接单位是米秒,属性为速度;
如果该数字或者英文字母组合后接单位是公里,属性为距离;
如果该数字或者英文字母组合后接单位是度,属性为转向;
如果该数字或者英文字母组合后接单位是分,属性为时间点;
如果该数字或者英文字母组合后接单位是分钟,属性为时间长度。
步骤4-4包括:
隐马尔科夫模型形式定义如下:
Q是所有可能的状态集合,目标数字和英文字母序列以外的词语对应词性,目标数字和英文字母序列对应的则是其(这里的“其”指目标数字和英文字母序列)属性;V是所有可能的观测集合,即词性对应的输出词语;I是状态序列;O是观测序列,其中:
Q={q1,q2,...,qN},V={v1,v2,...,vM},
I={i1,i2,...,iK},O={o1,o2,...,oM},
其中,N是可能的状态数,qN表示第N个可能的状态;M是可能的观测数,vM表示第M个可能的观测数,oM表示第M个实际观测;K是实际的状态数,iK表示第K个实际的状态值;A是状态转移概率矩阵:A=[aij]N×N,B是观测概率矩阵:B=[bj(K)]N×M,π是初始状态概率向量:π=(πi),其中:
aij=P(it+1=qj|it=qi),i=1,2,...,N;j=1,2,...,N,aij表示从当前时刻的状态qi生成下一时刻的状态qj的概率,记为P(it+1=qj|it=qi);
bj(k)=P(ot=vk|it=qj),k=1,2,...,M;bj(k)表示由当前时刻的状态qi生成当前时刻的输出值vk的概率,记为P(ot=vk|it=qj);
πi=P(i1=qi),πi表示初始时刻的不同状态的生成概率,记为P(i1=qi),;
根据第三种情况描述的问题,为了确定在管制指令中单独出现的数字或者英文字母序列的情况,取目标数字或者英文字母序列前后n个词语,形成序列,则问题转化为序列标注的问题,其中观测序列已知,而目标词以外词语的词性也已知,求解目标数字或者英文字母的属性问题转化为隐马尔科夫模型(Hidden Markov Model,HMM)的概率计算问题,概率最大的状态即为目标的属性,而隐马尔科夫模型的参数确定则转化为学习问题;
概率计算问题的求解方法如下:给定模型λ=(π,A,B)和观测序列O,则目标数字或者英文字母序列在位置t属于状态即属性qi的概率γt(i)为:
γt(i)=P(it=qi|O,λ),
其中,0<t≤T,T表示序列的最后一个元素的位置;
通过前向、后向概率计算得:
Figure BDA0001991066030000051
其中,αt(i)为经过前向概率计算得到的第i个状态的前向概率:
αt(i)=P(o1,o2,...,ot,it=qi|λ),
βt(i)为经过后向概率计算得到的第i个状态的后向概率:
βt(i)=P(ot+1,ot+2,...,OT|it=qi,λ),
边界条件即最终位置的不同状态的后向概率βT(i)为:βT(i)=1。
HMM的学习问题则通过使用管制指令语料和Baum-Welch算法进行解决,可以估计出相应的参数。
有益效果:本发明具有如下的技术效果:
(1)自动识别管制指令中以特殊管制术语,数字,英文字母为主的词组。
(2)可以实现对管制指令的信息汇聚。
(3)提高管制指令语义分析的性能。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为基于语义组块的管制指令信息抽取方法的流程图。
图2为基于语义组块的管制指令信息抽取方法的主要流程图。
图3为隐马尔科夫模型结构图。
图4为完成词性分析后的结果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明的实现过程和步骤如下,其流程图如图1所示。
步骤1:中文分词
利用分词算法对管制指令进行中文分词操作,得到词序列。在分词过程中,通过在分词词典中添加基本管制术语,可以提高分词结果的精度。
步骤2:词性标注
对词序列中的每个词进行词性标注,作为对目标词语的特征。因为本发明重点关注管制指令中的特殊管制术语、数字和英语字母,因此需要通过词性标注能直接将这三种类型的词识别出来。其中数字的词性标注是“m”,英文字母序列的词性标注是“nx”或“eng”,容易区分。在对特殊管制术语进行词性标注的设置时应考虑其组词的特点,使用词性“Sp”表示特殊管制术语。考虑特殊管制术语的组词规则,进行如下设置:
“Sp0”:不与其前后词语形成词组,如:[东方塔台]。
“Sp1”:与前面的词语形成词组,如:27号[停机位]。
“Sp2”:与后面的词语形成词组,如:[地面风]350度。
“Sp3”:可与前面或后面的词语形成词组,如:[跑道]18L或18L[跑道]。
步骤3:管制指令中包含特殊管制术语的处理方法
步骤A-1:当管制指令中出现特殊管制术语时,以该管制术语为中心,激起框架,框架由两部分组成:特殊管制术语+搜索内容。
步骤A-2:结合特殊管制术语的用法设计相应的搜索规则,管制指令中出现一些常用的管制术语的组块模式如表1所示,在表1中同时给出了不同的词性标注对应的搜索规则。根据进一步的研究发现,词性标注为“Sp1”、“Sp2”、“Sp3”的特殊管制术语形成的词组的组成元素相对灵活,有些元素可以省略,但其边界词基本都是数字、英文字母序列、量词。由于这三类词在句子中单独出现频率低,因此在句中与特殊管制术语的信息关联度较高,在设计规则库的时候可以进行简化以提高特殊管制术语与规则库中条目匹配的效率。
表1
Figure BDA0001991066030000071
Figure BDA0001991066030000081
步骤A-3:在步骤A-1中给出的框架包含两个部分,按照空槽属性分别将特殊管制术语和词组其他内容进行填充。
步骤4:管制指令中不包含特殊管制术语的处理方法
在管制指令中会出现大量的数字或英文字母序列,一些数字/英文字母序列与特殊管制指令关联度很高,可以通过同时出现特殊管制术语进行类别查找。在另一种情况下,数字或英文字母序列单独出现在管制指令中,周围并没有可以被用来标明属性的特殊管制术语,比如:时间、频率、高度、速度等。在本步骤中将给出相关的解决方法。
步骤A-1:对管制指令中是否出现数字或英文字母序列进行判断,若没有出现数字或英文字母,结束过程;若存在数字或英文字母,则继续下一步骤。
步骤A-2:对管制指令中出现的数字或英文字母序列进行分析,可以发现其结构可以分为三种情况:
1、数字/英文字母组合的前后携带可进行属性判断的字或词,如:上升到10000[英尺]。
2、数字/英文字母组合具有内部特殊结构,结合管制陆空通话规则可以进行判断,如:123.6(根据民航管制频率表,频率的内部结构包含小数点)。
3、数字/英文字母序列的外部没有明显指示其属性的字,其内部也没有可辨别属性的特殊结构,如:时间的表示,高度的描述。
本步骤的工作是针对以上三种情况提出相应的解决方法,即对单独出现的数字/英文字母组合进行属性的判断,主要包含两个方法:基于规则的方法和基于隐马尔科夫模型(Hidden Markov Model,HMM)的方法。
(1)基于规则的方法
针对第1、2种情况,设计相关的规则进行属性的判断,如表2所示。
表2
特点 属性
内部包含小数点 民航管制频率
字母+数字组合 航班号
后接单位:米 高度
后接单位:英尺 高度
后接单位:米秒 速度
后接单位:公里 距离
后接单位:度 转向
后接单位:分 时间点
后接单位:分钟 时间长度
(2)基于HMM的方法
针对第3种情况,当管制指令中出现的数字/英文字母序列既没有外部的词明确指出其属性,也没有清晰的内部特点指出其属性时,需要结合该条管制指令中出现的词语进行标注,即依靠上下文的信息进行判断,此时前向-后向算法求解不同属性下的数字/英文字母出现的概率。
隐马尔科夫模型由初始概率分布π、状态转移概率分布A以及观测概率分布B确定,其模型的形式定义如下:
Q是所有可能的状态集合,目标数字和英文字母序列以外的词语的对应词性,目标数字和英文字母序列对应的则是其属性;V是所有可能的观测集合,即词性对应的输出词语;I是状态序列;M是观测序列,其中:
Q={q1,q2,...,qN},V={v1,v2,...,vM}
I={i1,i2,...,iK},O={o1,o2,...,OM}
其中,N是可能的状态数,M是可能的观测数,K是实际的状态数和观测数。A是状态转移概率矩阵:A=[aij]N×N,B是观测概率矩阵:B=[bj(k)]N×M,π是初始状态概率向量:π=(πi),其中:
aij=P(it+1=qj|it=qi),i=1,2,...,N;j=1,2,...,N
bj(k)=P(ot=vk|it=qj),k=1,2,...,M;j=1,2,...,N
πi=P(i1=qi),i=1,2,...,N,
根据第三种情况描述的问题,为了确定在管制指令中单独出现的数字/英文字母序列的情况,取目标数字/英文字母序列前后n个词语(0<n<3),形成序列,则问题转化为序列标注的问题,其中观测序列已知,而目标词以外词语的词性也已知,故求解目标数字/英文字母的属性问题转化为HMM的概率计算问题,概率最大的状态即为目标的属性,而HMM的参数确定则转化为学习问题。
概率计算问题的求解方法如下:给定模型λ=(π,A,B)和观测序列O,则目标数字/英文字母序列(在位置t)属于状态(属性)qi的概率为:
γt(i)=P(it=qi|O,λ),
通过前向-后向概率计算得:
Figure BDA0001991066030000101
其中,αt(i)为经过前向概率计算得到的前向概率:
αt(i)=P(o1,o2,...,ot,it=qi|λ),
βt(i)是后向概率(边界条件为:βT(i)=1):
βt(i)=P(ot+1,ot+2,...,oT|it=qi,λ),
HMM的学习问题则通过使用管制指令语料和Baum-Welch算法进行解决,可以估计出相应的参数。
步骤A-3:判断数字/英文字母的属性是否求出,若通过以上步骤已经求出属性,则对框架中的词槽进行填充,此处的框架采用:属性+目标数字/英文字母序列的方法进行填充。有时管制指令中的数字/英文字母并没有相邻的词语进行属性判断,因此通过上述方法都无法判断出目标属性,这时需根据历史数据进行属性的推测,并通过推测结果进行框架填充。
步骤5:词组形成
由于框架中已经是结构化的形式,因此该步骤只需将框架进行提取,并且根据任务提取其中的信息。
本发明基于语言学的语义组块和隐马尔科夫模型对管制指令中出现的包含特殊管制术语形成的词组以及单独出现的数字/英文字母序列或序列组合的属性的进行识别,并形成相应的框架描述结构;
所述的基于语义组块的特殊管制术语词组的提取包括了对特殊管制术语进行词性设置,根据特殊管制术语的使用规则设计相应的搜索原则进行词组信息抽取;
所述的基于隐马尔科夫模型的数字/英文字母序列的属性识别包括了使用前向-后向方法对目标数字/英文字母序列的属性进行识别和提取;
本发明可应用于空中交通管制***中对管制指令的语义理解。本发明能有效处理从管制指令的重要信息的提取工作。
实施例
为方便配图和描述,此处的实施步骤按照图2显示的主要流程图划分,同时结合实际的管制指令进行说明。首先给出管制指令的例子:
1、DAL185,东方塔台,阵风12米秒,沿滑行道d5p4a5滑行。
2、北京区域,CSN6723,泊头上方,35分,保持8400米。
3、CCA1234,请立即上升到87。
步骤1:词性分析
该步骤包含三步处理过程:中文分词、词性标注和目标词搜索,其中目标词可以是特殊管制术语或数字/英文字母序列等。由于已经设置了特殊管制术语的词性,词性标注后的结果如图4所示,途中只展示了特殊管制术语、数字、英文字母等重点关注的目标词。根据词性分析的结果,将词性作为词语的特征,首先找出其中的特殊管制术语,即标注为“Sp”的词:东方塔台、阵风、滑行道、北京区域;以及数字/英文字母序列,即标注为“m”或“eng”的词:DAL、185、12、d5p4a5、CSN、6723、35、8400、CCA、1234、87。先对特殊管制术语进行处理,再对数字/英文字母序列进行处理。
步骤2:特殊管制术语处理方法
该步骤根据前一个步骤中词性标注的结果对应的搜索规则进行搜索,其中:东方塔台、北京区域的词性标注为“Sp0”,因此不需要进行任何搜索,直接进行提取;阵风的词性标注为“Sp2”,搜索规则为向右搜索至边界,其边界为量词:米秒[r],再向右搜索为介词:沿[p],因此在搜索到米秒时停止,其间的所有词12米秒为搜索内容;滑行道的词性标注为“Sp3”,搜索规则是先向左搜索到边界,再向右搜索到边界。其左侧为介词:沿[p],无内容,而右侧为英文词组:d5p4a5[eng],再向右搜索为动词:滑行[v],搜索停止,其内容为:d5p4a5。
步骤3:数字/英文字母单独出现时处理方法:判断规则
通过步骤2的处理,一部分的数字因为出现在特殊管制术语的相邻位置,因此被提取出来,对于剩下的词:DAL、185、CSN、6723、35、8400、CCA、1234、87,其中DAL-185、CSN-6723、CCA-1234这三对词其成份间形成的关系满足航班号的表达式,因此可以被判定为表示航班;35、8400根据相应的搜索规则向右搜索后得到相应单位指明其属性分别为:时间和高度。
步骤4:数字/英文字母单独出现时处理方法:HMM
在第3个例句中出现的数字87很特殊,并无后接单位词表明其属性(实际的属性是高度层),因此可以通过隐马尔科夫模型求解其概率的方法进行判断。由于该词的右边没有其他的词语,取其前两个词语:上升、到形成词序列:上升|到|87,该词序列为HMM的观测序列,对应的隐藏状态序列为:动词[v]|动词[v]|?,符号“?”表示87的属性未知,可能是如下的属性:高度、速度、时间、距离等。通过使用训练数据进行训练后的得到HMM的参数λ=(π,A,B),且观测序列O和其他词的状态已知,可以通过前向-后向概率计算得到不同属性的条件概率:γ(i)=P(i=qi|O,λ),其中qi是不同的属性,其中λ(i)最大的属性为对应属性。
步骤5:框架填充
针对识别的信息,设计框架,为统一规范,框架只包含两个词槽:特殊管制术语+搜索内容或者属性+数字/英文字母。根据步骤3和步骤4的工作结果进行框架词槽填充,得到框架填充结果:
1、航班号[属性]+DAL185
东方塔台[特殊管制术语]+无
阵风[特殊管制术语]+12米秒
滑行道[特殊管制术语]+d5p4a5
2、北京区域[特殊管制术语]+无
航班号[属性]+CSN6723
时间[属性]+35分
高度[属性]+8400米
3、航班号[属性]+CCA1234
高度[属性]+87
得到的框架填充结果可以用于判断管制指令中是否出现与***计划信息相矛盾的地方,例如:通过本发明方法判断出管制指令中的航空器上升的高度为8400米,而在飞行计划表中是让航空器上升到9000米。飞行计划表中的信息都是以结构化的形式存在,因此需要从非结构化的管制指令中找出相关的信息,通过本发明方法得到的形式为:高度[属性]+8400米,由此可以根据属性找出计划表中的高度属性对应的是9000米,而管制指令出现了错误。
本发明提供了一种基于语义组块的管制指令信息处理方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种基于语义组块的管制指令信息处理方法,其特征在于,包括如下步骤:
步骤1,对管制指令进行中文分词操作,得到词序列;
步骤2,对词序列中的每个词进行词性标注,作为目标词语的特征;
步骤3,对包含特殊管制术语的管制指令进行处理;
步骤4,对管制指令的其他成分进行处理;
步骤5,根据步骤3和步骤4的处理结果,对管制指令进行分析,完成对空中交通管制***中管制指令的语义理解,将得到的结果用于判断管制指令中的信息是否与***中的计划信息一致;
步骤1中,采用分词算法对管制指令进行中文分词操作,得到词序列,并且在分词过程中,编辑管制术语词典,将所述管制术语词典添加至分词算法中,辅助对管制指令进行分词处理;
步骤2中,管制指令中的数字的词性标注是m;英文字母序列的词性标注是nx或eng;特殊管制术语的词性标注是Sp;
步骤2中,对特殊管制术语进行词性标注时,具体进行如下设置:
用Sp0表示所述特殊管制术语不与其前后词语形成词组;
用Sp1表示所述特殊管制术语与其前面的词语形成词组;
用Sp2表示所述特殊管制术语与其后面的词语形成词组;
用Sp3表示所述特殊管制术语能够与其前面和后面的词语形成词组;
步骤3包括:
步骤3-1,当管制指令中出现特殊管制术语时,以该特殊管制术语为中心词,根据特殊标注所对应的搜索规则生成语块框架,语块框架包含两个词槽:
第一个词槽为特殊管制术语,第二个词槽为搜索内容,或者,第一个词槽为语块属性,第二个词槽为管制指令中出现的属性对应的内容;
步骤3-2,结合特殊管制术语的用法设计相应的搜索规则:
对于词性标注为Sp0的特殊管制术语,不进行任何搜索,直接进行识别,形成词组;
对于词性标注为Sp1的特殊管制术语,向左进行搜索,根据定义的搜索规则搜索到相应的边界;
对于词性标注为Sp2的特殊管制术语,向右进行搜索,根据规则库中的搜索规则搜索到相应的边界;
对于词性标注为Sp3的特殊管制术语,先向左进行搜索,根据规则库中的搜索规则搜索到相应的边界;若无内容,再向右进行搜索,根据规则库中的搜索规则搜索到相应的边界;
步骤3-3,对于步骤3-1给出的语块框架,分别将特殊管制术语和搜索得到的内容进行填充,此处的框架的形式为:第一个词槽为特殊管制术语,第二个词槽为搜索内容;
步骤4包括:
步骤4-1,对管制指令中是否出现数字或英文字母序列进行判断,若没有出现数字或英文字母,结束过程;若存在数字或英文字母,则继续步骤4-2;
步骤4-2,对管制指令中出现的数字或英文字母序列进行分析,将其结构分为三种情况:
第一种情况,数字或者英文字母组合的前后携带能够进行属性判断的字或词;
第二种情况,数字或者英文字母组合具有内部特殊结构,结合管制陆空通话规则能够进行判断;
第三种情况,数字或者英文字母序列的外部没有指示其属性的字,其内部也没有能够辨别属性的特殊结构;
步骤4-3,对于第一种情况和第二种情况,设计相关的规则进行属性的判断;
步骤4-4,对于第三种情况,采用基于隐马尔科夫模型的方法进行属性的判断;
步骤4-5,如果通过步骤4-3和步骤4-4已经求出属性,则对语块框架中的词槽进行填充,此处的语块框架的形式为:第一个词槽为属性,第二个词槽为数字或英文字母;
步骤4-3包括:设计如下规则进行属性的判断:
如果该数字或者英文字母组合内部包含小数点,属性为民航管制频率;
如果该数字或者英文字母组合是字母和数字的组合,属性为航班号;
如果该数字或者英文字母组合后接单位是米,属性为高度;
如果该数字或者英文字母组合后接单位是英尺,属性为高度;
如果该数字或者英文字母组合后接单位是米秒,属性为速度;
如果该数字或者英文字母组合后接单位是公里,属性为距离;
如果该数字或者英文字母组合后接单位是度,属性为转向;
如果该数字或者英文字母组合后接单位是分,属性为时间点;
如果该数字或者英文字母组合后接单位是分钟,属性为时间长度;
步骤4-4包括:
隐马尔科夫模型形式定义如下:
Q是所有可能的状态集合,目标数字和英文字母序列以外的词语对应词性,目标数字和英文字母序列对应的则是其属性;V是所有可能的观测集合,即词性对应的输出词语;I是状态序列;O是观测序列,其中:
Q={q1,q2,...,qN},V={v1,v2,...,vM},
I={i1,i2,...,iK},O={o1,o2,...,oM},
其中,N是可能的状态数,qN表示第N个可能的状态;M是可能的观测数,vM表示第M个可能的观测,oM表示第M个实际观测的值;K是实际的状态数,iK表示第K个实际的状态值;A是状态转移概率矩阵:A=[aij]N×N,B是观测概率矩阵:B=[bj(k)]N×M,π是初始状态概率向量:π=(πi),其中:
aij=P(it+1=qj|it=qi),i=1,2,...,N;j=1,2,...,N,aij表示从当前时刻的状态qi生成下一时刻的状态qj的概率,记为P(it+1=qj|it=qi);
bj(k)=P(ot=vk|it=qj),k=1,2,...,M;bj(k)表示由当前时刻的状态qj生成当前时刻的输出值vk的概率,记为P(ot=vk|it=qj);
πi=P(i1=qi),πi表示初始时刻的不同状态的生成概率,记为P(i1=qi);
根据第三种情况描述的问题,取目标数字或者英文字母序列前后n个词语,形成序列,求解目标数字或者英文字母的属性问题转化为隐马尔科夫模型的概率计算问题,概率最大的状态即为目标的属性,而隐马尔科夫模型的参数确定则转化为学习问题;
概率计算问题的求解方法如下:给定模型λ=(π,A,B)和观测序列O,则目标数字或者英文字母序列在位置t属于状态即属性qi的概率γt(i)为:
γt(i)=P(it=qi|O,λ),
其中,0<t≤T,T表示序列的最后一个元素的位置;
通过前向、后向概率计算得:
Figure FDA0002847986200000041
其中,αt(i)为经过前向概率计算得到的第i个状态的前向概率:
αt(i)=P(o1,o2,...,ot,it=qi|λ),
βt(i)为经过后向概率计算得到的第i个状态的后向概率:
βt(i)=P(ot+1,ot+2,...,oT|it=qi,λ),
边界条件即最终位置的不同状态的后向概率βT(i)为:βT(i)=1。
CN201910180560.2A 2019-03-11 2019-03-11 一种基于语义组块的管制指令信息处理方法 Active CN110069771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910180560.2A CN110069771B (zh) 2019-03-11 2019-03-11 一种基于语义组块的管制指令信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910180560.2A CN110069771B (zh) 2019-03-11 2019-03-11 一种基于语义组块的管制指令信息处理方法

Publications (2)

Publication Number Publication Date
CN110069771A CN110069771A (zh) 2019-07-30
CN110069771B true CN110069771B (zh) 2021-02-05

Family

ID=67365209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180560.2A Active CN110069771B (zh) 2019-03-11 2019-03-11 一种基于语义组块的管制指令信息处理方法

Country Status (1)

Country Link
CN (1) CN110069771B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627257B (zh) * 2020-04-13 2022-05-03 南京航空航天大学 基于航空器运动趋势预判的管制指令安全预演与校验方法
CN113158658B (zh) * 2021-04-26 2023-09-19 中国电子科技集团公司第二十八研究所 一种基于知识嵌入的结构化管制指令提取方法
CN113569545B (zh) * 2021-09-26 2021-12-07 中国电子科技集团公司第二十八研究所 一种基于语音识别纠错模型的管制信息提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875948A (zh) * 2017-02-22 2017-06-20 中国电子科技集团公司第二十八研究所 一种基于管制语音的冲突告警方法
CN108628959A (zh) * 2018-04-13 2018-10-09 长安大学 一种基于交通大数据的本体构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436764A (zh) * 2011-11-21 2012-05-02 南京莱斯信息技术股份有限公司 通过历史数据挖掘航班管制因素的方法
CN102849555B (zh) * 2012-09-21 2015-07-15 日立电梯(中国)有限公司 一种基于云计算的高精度地震管控的方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875948A (zh) * 2017-02-22 2017-06-20 中国电子科技集团公司第二十八研究所 一种基于管制语音的冲突告警方法
CN108628959A (zh) * 2018-04-13 2018-10-09 长安大学 一种基于交通大数据的本体构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王煊等.用于管制语音理解的语义分析方法.《指挥信息***与技术》.2019,第10卷(第1期),第32-36页. *
用于管制语音理解的语义分析方法;王煊等;《指挥信息***与技术》;20190228;第10卷(第1期);第32-36页 *

Also Published As

Publication number Publication date
CN110069771A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
Lin et al. A real-time ATC safety monitoring framework using a deep learning approach
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和***
CN110069771B (zh) 一种基于语义组块的管制指令信息处理方法
WO2020143163A1 (zh) 基于注意力机制的命名实体识别方法、装置和计算机设备
CN107291684B (zh) 语言文本的分词方法和***
CN108073570A (zh) 一种基于隐马尔可夫模型的词义消歧方法
CN108021552A (zh) 一种电力***操作票内容提取方法及***
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和***
CN113569545B (zh) 一种基于语音识别纠错模型的管制信息提取方法
CN110826334A (zh) 一种基于强化学习的中文命名实体识别模型及其训练方法
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN110428830B (zh) 一种基于正则表达式的空管指令意图识别方法
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
Oualil et al. Real-time integration of dynamic context information for improving automatic speech recognition.
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及***
CN110232121B (zh) 一种基于语义网的管制指令分类方法
CN112966525A (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
Kleinert et al. Automated interpretation of air traffic control communication: The journey from spoken words to a deeper understanding of the meaning
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN109189820A (zh) 一种煤矿安全事故本体概念抽取方法
CN107943783A (zh) 一种基于lstm‑cnn的分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant