CN103020109A

CN103020109A - 基于访问信息挖掘的民航报文相关性分析方法

Info

Publication number: CN103020109A
Application number: CN201210406334XA
Authority: CN
Inventors: 宋雪雁; 黄兆桐; 孙济洲; 李志增; 于翠玲
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-10-22
Filing date: 2012-10-22
Publication date: 2013-04-03

Abstract

本发明涉及民航信息技术领域。分析报文的相关性，获得报文之间直接的或者间接的联系，本发明采取的技术方案是，基于访问信息挖掘的民航报文相关性分析方法，包括如下步骤：1)获取民航报文的访问记录；2)基于步骤1)的访问记录，分析报文内容，将具有一致性信息的报文放至同一集合中；3)设置最小支持度，报文出现的频率需大于该支持度；4)基于步骤2)的报文集和步骤3)的最小支持度，产生一维频繁报文集；5)对产生的一维频繁报文集，循环处理直至未能再产生维数更高的频繁报文集；6)基于步骤4)，步骤5)，得到报文所有维数的频繁报文集，分析这些报文集，即可得出报文的相关性。本发明主要应用于民航信息处理。

Description

基于访问信息挖掘的民航报文相关性分析方法

技术领域

本发明涉及民航信息技术领域，涉及民航报文相关性的分析方法。具体讲，涉及基于访问信息挖掘的民航报文相关性分析方法。

背景技术

随着民航运输流量的增大以及民航信息技术的发展，民航报文的使用越来越频繁，重要性越来越显著。

民航报文种类繁多，总体分为航管飞行动态AFTN报文、航空公司SITA报文和民航机场气象报文等。各种报文之间有不同程度的相关性。比如民航机场气象报文发送后，空管员根据气象报文分析是否适宜降落，随后结果就会被反映到航班的落地报里，这两种报文的相关性就非常高。分析报文的相关性，获得报文之间直接的或者间接的联系，对民航信息技术领域非常重要。

报文相关性分析采用访问信息挖掘的技术，主要是priori方法。访问信息挖掘利用数据挖掘技术从相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。

发明内容

本发明旨在克服现有技术的不足，分析报文的相关性，获得报文之间直接的或者间接的联系。为达到上述目的，本发明采取的技术方案是，基于访问信息挖掘的民航报文相关性分析方法，包括如下步骤：

1)获取民航报文的访问记录；

2)基于步骤1)的访问记录，分析报文内容，将具有一致性信息的报文放至同一集合中；

3)设置最小支持度，报文出现的频率需大于该支持度；

4)基于步骤2)的报文集和步骤3)的最小支持度，统计所有报文出现的频率，找出大于或等于最小支持度的报文，产生一维频繁报文集；

5)基于步骤3)的最小支持度，基于步骤4)的一维频繁报文集，对产生的一维频繁报文集，循环处理直至未能再产生维数更高的频繁报文集；

6)基于步骤4)，步骤5)，得到报文所有维数的频繁报文集，分析这些报文集，即可得出报文的相关性。

所述步骤1)的访问记录由数据库日志，网站日志等获取。

所述步骤2)中的一致性信息是包括航班号、机场的相同信息，将具有一致性内容的报文放在同一集合中，以保证分析结果的有效性。

所述步骤3)的最小支持度范围为0.01-0.99，实际取值由使用者决定。

所述步骤5)的多维频繁报文集解释为：若报文集内有k个相关联报文，则为K维频繁报文集，其频数为在记录中同时出现的次数。

所述步骤5)的实施应满足如下条件：

1)所获得报文频繁集出现的频率必须大于最小支持度。

2)由K维频繁报文集产生K+1维频繁报文集时，必须考虑到k维频繁报文集中的所有组合。

循环处理过程的第一步是简单统计所有含一个元素的报文出现的频率，来决定最大的一维报文项目集，及步骤4)所做工作；在第k步，分两个阶段，首先通过第(k-1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度，则将该报文项目集放入k维频繁报文集。

所述步骤6)的报文相关性由频繁报文集产生，相关性系数为频繁报文集的频数。

本发明的技术特点及效果：

本发明充分利用了数据挖掘技术中的现有研究和实现成果，可以方便的对报文的访问记录进行分析，计算出报文的相关性。本发明的应用不依赖于报文的存储和传播方式，使用者可以根据应用需求，选择最合适的报文存储和传播方式，以获得最佳使用效果。

处理的数据是航班运行的报文数据，通过本发明的分类处理，提高了航班报文分析效率和准确性，实现航班运行管理的水平。

附图说明

图1是本发明的***组成结构图；

具体实施方式

技术方案采取的步骤如下：

1)获取民航报文的访问记录。

2)基于步骤1)的访问记录，分析报文内容，将具有一致性信息的报文放至同一集合中。

3)设置最小支持度，报文出现的频率需大于该支持度。

4)基于步骤2)的报文集和步骤3)的最小支持度，统计所有报文出现的频率，找出大于或等于最小支持度的报文，产生一维频繁报文集。

5)基于步骤3)的最小支持度，基于步骤4)的一维频繁报文集，对产生的一维频繁报文集，循环处理直至未能再产生维数更高的频繁报文集。

所述步骤1)的访问记录可由数据库日志，网站日志等获取。

所述步骤2)中的一致性信息包括航班号、机场等相同信息。将具有一致性内容的报文放在同一集合中，以保证分析结果的有效性。记录集合如表1所示。

所述步骤3)的最小支持度范围为0.01-0.99。实际取值由使用者决定。支持度越大，相关性分析越准确，但是一些具有隐含关联的报文可能会被遗漏。

所述步骤4)中一维频繁报文集由报文出现的频率和支持度来决定。一维频繁集示例如表2所示。

所述步骤5)的多维频繁报文集解释为：若报文集内有k个相关联报文，则为K维频繁报文集，其频数为在记录中同时出现的次数。3维频繁报文集如表3所示。

所述步骤5)的实施应满足如下条件：

1)所获得报文频繁集出现的频率必须大于最小支持度。

现结合附图和实施例对本发明做进一步说明。

如表1、表2、表3和附图所示，本发明的具体实施过程和工作原理如下：

1)根据民航报文的具体应用环境，从数据库日志或网站日志等存储环境中获取访问记录。

2)根据报文日志，在同一访问记录中，将有相关性信息的报文放在同一集合中。同一访问记录可以生成一个或多个上述报文集合。报文集合如表1所示。

3)根据实际情况，设置最小支持度。最小支持度越小，获取的报文相关性信息越多，但效率越低。反之亦然。

4)统计所有报文出现的频率，找出大于或等于最小支持度的报文，产生一维频繁报文集。如表2所示。

5)对产生的一维频繁报文集，循环处理直至未能再产生维数更高的频繁报文集。流程图如附图所示。循环处理过程采用了apriori算法的思想。

Apriori算法的第一步是简单统计所有含一个元素的报文出现的频率，来决定最大的一维报文项目集，及步骤4)所做工作。在第k步，分两个阶段，首先通过第(k-1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度，则将该报文项目集放入k维频繁报文集。

循环处理过程算法描述如下：

(1)L₁＝{一维频繁报文集}；

(2)for(k＝2；L_k-1≠Φ；k++){

(3)C_k＝apriori_gen(L_k-1，min_sup)；

(4)for each record r∈R{

(5)C_r＝subset(C_k，r)；

(6)for each candidate c∈C_r

(7)c.count++；

(8)}

(9)L_k＝{c∈C_k|c.count≥min_sup}

(10)}

(11)return L＝∪L_k；

其中，L_k为k维频繁报文集，C_k为候选频繁报文集，min_sup为最小支持度，R为步骤2)生成的报文记录，C_r为记录r所包含的候选。(2)表示从k-1维频繁报文集生成候选频繁报文集C_k。(4)表示扫描报文记录。(5)表示从记录r中找出在C_k中的候选。(6)、(7)表示若在记录中找到候选，则对应候选的频数增加1.其中c属于C_r，为一种报文。c.count表示报文的出现次数。(9)表示若报文候选集的出现的频率大于最小支持度，则将其加入K维报文频繁集合中。(11)表示返回生成的所有维数的报文频繁集，即为相关性大于最小支持度的报文的集合。

apriori_gen函数说明如下：

Apriori候选产生函数apriori_gen的参数L_k-1，即所有大型(k-1)项目集的集合。它返回所有大型k项目集的集合的一个超集(Superset)。首先，在Jion(连接)步骤，把L_k-1和L_k-1相连接以获得候选的最终集合的一个超集C_k：

接着，在Prune(修剪)步骤，我们将删除所有的项目集c∈C_k，如果c的一些k-1子集不在L_k-1中，为了说明这个产生过程为什么能保持完全性，要注意对于L_k中的任何有最小支持度的项目集，任何大小为k-1的子集也必须有最小支持度。因此，如果我们用所有可能的项目扩充Lk-1中的每个项目集，然后删除所有k-1子集不在L_k-1中的项目集，那么我们就能得到L_k中项目集的一个超集。

经过合并运算，C_k＞L_k。类似原因在删除运算中，删除C_k中其k-1子项目集不在L_k-1中的项目集，同样没有删除包含在L_k中的项目集。

(1)for所有项目集c∈C_k do

(2)for所有c的(k-1)子集s do

(3)if(s￠L_k-1)then

(4)从C_k中删除c

subset函数说明如下：

候选项目集C_k存储在一棵Hash树中。Hash树的一个节点包含了项集的一个链表(一个叶节点)或包含了一个Hash表(一个内节点)。在内节点中，Hash表的每个Bucket都指向另一个节点。Hash树的根的深度定义为1。在深度d的一个内节点指向深度d+1的节点。项目集存储在叶子中。要加载一个项目集c时，从根开始向下直到一个叶子。在深度为d的一个内节点上，要决定选取哪个分枝，可以对此项目集的第d个项目使用一个Hash函数，然后跟随相应Bucket中的指针。所有的节点最初都创建成叶节点。当一个叶节点中项集数量超过某个指定的阈值时，此叶节点就转为一个内节点。

从根节点开始，Subset函数寻找所有包含在某个记录r中的候选，方法如下：若处于一个叶子，就寻找此叶子中的哪些项目集是包括在r中的，并对它们附加引用指向答案集合。若处于一个内节点，而且是通过Hash项目i从而到达此节点的，那么就对r中i之后的每个项目进行Hash，并对相应Bucket中的节点递归地应用这个过程。对于根节点，就对r中的每个项目进行Hash。

访问记录	报文集
		1	PLN，COR，FPL，CHG，DEP
2	FPL，CHG，DEP
		3	PLN，COR，ABS，FPL
4	PLN，COR，ABS，CHG，DEP
		5	PLN，COR，ABS，FPL，CHG，DEP
6	PLN，DEP
		7	PLN，COR
8	PLN，COR，ABS，CHG，DEP

表1

报文	出现频率
		PLN	0.40
COR	0.10
		ABS	0.30
FPL	0.20
		CHG	0.01
DEP	0.20

表2

3维频繁报文集	出现频率
		PLN，CHG，DEP	0.10
FPL，CHG，DEP	0.09
		ABS，FPL，CHG	0.08
PLN，COR，CHG	0.20
		PLN，FPL，DEP	0.30
COR，ABS，FPL	0.20
		ABS，FPL，DEP	0.05

表3

PLN：飞行预报报文

COR：修订飞行预报报文

ABS：取消重复与非重复飞行预报报文

CHG：修订领航计划报

DEP：起飞报文。

Claims

1.一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，包括如下步骤：

1)获取民航报文的访问记录；

3)设置最小支持度，报文出现的频率需大于该支持度；

2.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤1)的访问记录由数据库日志，网站日志等获取。

3.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤2)中的一致性信息是包括航班号、机场的相同信息，将具有一致性内容的报文放在同一集合中，以保证分析结果的有效性。

4.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤3)的最小支持度范围为0.01-0.99，实际取值由使用者决定。

5.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤5)的多维频繁报文集解释为：若报文集内有k个相关联报文，则为K维频繁报文集，其频数为在记录中同时出现的次数。

6.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤5)的实施应满足如下条件：

1)所获得报文频繁集出现的频率必须大于最小支持度；

7.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，循环处理过程的第一步是简单统计所有含一个元素的报文出现的频率，来决定最大的一维报文项目集，及步骤4)所做工作；在第k步，分两个阶段，首先通过第(k 1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度，则将该报文项目集放入k维频繁报文集。

8.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法，其特征是，所述步骤6)的报文相关性由频繁报文集产生，相关性系数为频繁报文集的频数。