CN103020109A - 基于访问信息挖掘的民航报文相关性分析方法 - Google Patents
基于访问信息挖掘的民航报文相关性分析方法 Download PDFInfo
- Publication number
- CN103020109A CN103020109A CN201210406334XA CN201210406334A CN103020109A CN 103020109 A CN103020109 A CN 103020109A CN 201210406334X A CN201210406334X A CN 201210406334XA CN 201210406334 A CN201210406334 A CN 201210406334A CN 103020109 A CN103020109 A CN 103020109A
- Authority
- CN
- China
- Prior art keywords
- message
- frequent
- collection
- messages
- civil aviaton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及民航信息技术领域。分析报文的相关性,获得报文之间直接的或者间接的联系,本发明采取的技术方案是,基于访问信息挖掘的民航报文相关性分析方法,包括如下步骤:1)获取民航报文的访问记录;2)基于步骤1)的访问记录,分析报文内容,将具有一致性信息的报文放至同一集合中;3)设置最小支持度,报文出现的频率需大于该支持度;4)基于步骤2)的报文集和步骤3)的最小支持度,产生一维频繁报文集;5)对产生的一维频繁报文集,循环处理直至未能再产生维数更高的频繁报文集;6)基于步骤4),步骤5),得到报文所有维数的频繁报文集,分析这些报文集,即可得出报文的相关性。本发明主要应用于民航信息处理。
Description
技术领域
本发明涉及民航信息技术领域,涉及民航报文相关性的分析方法。具体讲,涉及基于访问信息挖掘的民航报文相关性分析方法。
背景技术
随着民航运输流量的增大以及民航信息技术的发展,民航报文的使用越来越频繁,重要性越来越显著。
民航报文种类繁多,总体分为航管飞行动态AFTN报文、航空公司SITA报文和民航机场气象报文等。各种报文之间有不同程度的相关性。比如民航机场气象报文发送后,空管员根据气象报文分析是否适宜降落,随后结果就会被反映到航班的落地报里,这两种报文的相关性就非常高。分析报文的相关性,获得报文之间直接的或者间接的联系,对民航信息技术领域非常重要。
报文相关性分析采用访问信息挖掘的技术,主要是priori方法。访问信息挖掘利用数据挖掘技术从相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
发明内容
本发明旨在克服现有技术的不足,分析报文的相关性,获得报文之间直接的或者间接的联系。为达到上述目的,本发明采取的技术方案是,基于访问信息挖掘的民航报文相关性分析方法,包括如下步骤:
1)获取民航报文的访问记录;
2)基于步骤1)的访问记录,分析报文内容,将具有一致性信息的报文放至同一集合中;
3)设置最小支持度,报文出现的频率需大于该支持度;
4)基于步骤2)的报文集和步骤3)的最小支持度,统计所有报文出现的频率,找出大于或等于最小支持度的报文,产生一维频繁报文集;
5)基于步骤3)的最小支持度,基于步骤4)的一维频繁报文集,对产生的一维频繁报文集,循环处理直至未能再产生维数更高的频繁报文集;
6)基于步骤4),步骤5),得到报文所有维数的频繁报文集,分析这些报文集,即可得出报文的相关性。
所述步骤1)的访问记录由数据库日志,网站日志等获取。
所述步骤2)中的一致性信息是包括航班号、机场的相同信息,将具有一致性内容的报文放在同一集合中,以保证分析结果的有效性。
所述步骤3)的最小支持度范围为0.01-0.99,实际取值由使用者决定。
所述步骤5)的多维频繁报文集解释为:若报文集内有k个相关联报文,则为K维频繁报文集,其频数为在记录中同时出现的次数。
所述步骤5)的实施应满足如下条件:
1)所获得报文频繁集出现的频率必须大于最小支持度。
2)由K维频繁报文集产生K+1维频繁报文集时,必须考虑到k维频繁报文集中的所有组合。
循环处理过程的第一步是简单统计所有含一个元素的报文出现的频率,来决定最大的一维报文项目集,及步骤4)所做工作;在第k步,分两个阶段,首先通过第(k-1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度,则将该报文项目集放入k维频繁报文集。
所述步骤6)的报文相关性由频繁报文集产生,相关性系数为频繁报文集的频数。
本发明的技术特点及效果:
本发明充分利用了数据挖掘技术中的现有研究和实现成果,可以方便的对报文的访问记录进行分析,计算出报文的相关性。本发明的应用不依赖于报文的存储和传播方式,使用者可以根据应用需求,选择最合适的报文存储和传播方式,以获得最佳使用效果。
处理的数据是航班运行的报文数据,通过本发明的分类处理,提高了航班报文分析效率和准确性,实现航班运行管理的水平。
附图说明
图1是本发明的***组成结构图;
具体实施方式
技术方案采取的步骤如下:
1)获取民航报文的访问记录。
2)基于步骤1)的访问记录,分析报文内容,将具有一致性信息的报文放至同一集合中。
3)设置最小支持度,报文出现的频率需大于该支持度。
4)基于步骤2)的报文集和步骤3)的最小支持度,统计所有报文出现的频率,找出大于或等于最小支持度的报文,产生一维频繁报文集。
5)基于步骤3)的最小支持度,基于步骤4)的一维频繁报文集,对产生的一维频繁报文集,循环处理直至未能再产生维数更高的频繁报文集。
6)基于步骤4),步骤5),得到报文所有维数的频繁报文集,分析这些报文集,即可得出报文的相关性。
所述步骤1)的访问记录可由数据库日志,网站日志等获取。
所述步骤2)中的一致性信息包括航班号、机场等相同信息。将具有一致性内容的报文放在同一集合中,以保证分析结果的有效性。记录集合如表1所示。
所述步骤3)的最小支持度范围为0.01-0.99。实际取值由使用者决定。支持度越大,相关性分析越准确,但是一些具有隐含关联的报文可能会被遗漏。
所述步骤4)中一维频繁报文集由报文出现的频率和支持度来决定。一维频繁集示例如表2所示。
所述步骤5)的多维频繁报文集解释为:若报文集内有k个相关联报文,则为K维频繁报文集,其频数为在记录中同时出现的次数。3维频繁报文集如表3所示。
所述步骤5)的实施应满足如下条件:
1)所获得报文频繁集出现的频率必须大于最小支持度。
2)由K维频繁报文集产生K+1维频繁报文集时,必须考虑到k维频繁报文集中的所有组合。
所述步骤6)的报文相关性由频繁报文集产生,相关性系数为频繁报文集的频数。
现结合附图和实施例对本发明做进一步说明。
如表1、表2、表3和附图所示,本发明的具体实施过程和工作原理如下:
1)根据民航报文的具体应用环境,从数据库日志或网站日志等存储环境中获取访问记录。
2)根据报文日志,在同一访问记录中,将有相关性信息的报文放在同一集合中。同一访问记录可以生成一个或多个上述报文集合。报文集合如表1所示。
3)根据实际情况,设置最小支持度。最小支持度越小,获取的报文相关性信息越多,但效率越低。反之亦然。
4)统计所有报文出现的频率,找出大于或等于最小支持度的报文,产生一维频繁报文集。如表2所示。
5)对产生的一维频繁报文集,循环处理直至未能再产生维数更高的频繁报文集。流程图如附图所示。循环处理过程采用了apriori算法的思想。
Apriori算法的第一步是简单统计所有含一个元素的报文出现的频率,来决定最大的一维报文项目集,及步骤4)所做工作。在第k步,分两个阶段,首先通过第(k-1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度,则将该报文项目集放入k维频繁报文集。
循环处理过程算法描述如下:
(1)L1={一维频繁报文集};
(2)for(k=2;Lk-1≠Φ;k++){
(3)Ck=apriori_gen(Lk-1,min_sup);
(4)for each record r∈R{
(5)Cr=subset(Ck,r);
(6)for each candidate c∈Cr
(7)c.count++;
(8)}
(9)Lk={c∈Ck|c.count≥min_sup}
(10)}
(11)return L=∪Lk;
其中,Lk为k维频繁报文集,Ck为候选频繁报文集,min_sup为最小支持度,R为步骤2)生成的报文记录,Cr为记录r所包含的候选。(2)表示从k-1维频繁报文集生成候选频繁 报文集Ck。(4)表示扫描报文记录。(5)表示从记录r中找出在Ck中的候选。(6)、(7)表示若在记录中找到候选,则对应候选的频数增加1.其中c属于Cr,为一种报文。c.count表示报文的出现次数。(9)表示若报文候选集的出现的频率大于最小支持度,则将其加入K维报文频繁集合中。(11)表示返回生成的所有维数的报文频繁集,即为相关性大于最小支持度的报文的集合。
apriori_gen函数说明如下:
Apriori候选产生函数apriori_gen的参数Lk-1,即所有大型(k-1)项目集的集合。它返回所有大型k项目集的集合的一个超集(Superset)。首先,在Jion(连接)步骤,把Lk-1和Lk-1相连接以获得候选的最终集合的一个超集Ck:
接着,在Prune(修剪)步骤,我们将删除所有的项目集c∈Ck,如果c的一些k-1子集不在Lk-1中,为了说明这个产生过程为什么能保持完全性,要注意对于Lk中的任何有最小支持度的项目集,任何大小为k-1的子集也必须有最小支持度。因此,如果我们用所有可能的项目扩充Lk-1中的每个项目集,然后删除所有k-1子集不在Lk-1中的项目集,那么我们就能得到Lk中项目集的一个超集。
经过合并运算,Ck>Lk。类似原因在删除运算中,删除Ck中其k-1子项目集不在Lk-1中的项目集,同样没有删除包含在Lk中的项目集。
(1)for所有项目集c∈Ck do
(2)for所有c的(k-1)子集s do
(3)if(s¢Lk-1)then
(4)从Ck中删除c
subset函数说明如下:
候选项目集Ck存储在一棵Hash树中。Hash树的一个节点包含了项集的一个链表(一个叶节点)或包含了一个Hash表(一个内节点)。在内节点中,Hash表的每个Bucket都指向另一个节点。Hash树的根的深度定义为1。在深度d的一个内节点指向深度d+1的节点。项目集存储在叶子中。要加载一个项目集c时,从根开始向下直到一个叶子。在深度为d的一个内节点上,要决定选取哪个分枝,可以对此项目集的第d个项目使用一个Hash函数,然后跟随相应Bucket中的指针。所有的节点最初都创建成叶节点。当一个叶节点中项集数量超过某个指定的阈值时,此叶节点就转为一个内节点。
从根节点开始,Subset函数寻找所有包含在某个记录r中的候选,方法如下:若处于一个叶子,就寻找此叶子中的哪些项目集是包括在r中的,并对它们附加引用指向答案集合。若处于一个内节点,而且是通过Hash项目i从而到达此节点的,那么就对r中i之后的每个项目进行Hash,并对相应Bucket中的节点递归地应用这个过程。对于根节点,就对r中的每个项目进行Hash。
访问记录 | 报文集 |
1 | PLN,COR,FPL,CHG,DEP |
2 | FPL,CHG,DEP |
3 | PLN,COR,ABS,FPL |
4 | PLN,COR,ABS,CHG,DEP |
5 | PLN,COR,ABS,FPL,CHG,DEP |
6 | PLN,DEP |
7 | PLN,COR |
8 | PLN,COR,ABS,CHG,DEP |
表1
报文 | 出现频率 |
PLN | 0.40 |
COR | 0.10 |
ABS | 0.30 |
FPL | 0.20 |
CHG | 0.01 |
DEP | 0.20 |
表2
3维频繁报文集 | 出现频率 |
PLN,CHG,DEP | 0.10 |
FPL,CHG,DEP | 0.09 |
ABS,FPL,CHG | 0.08 |
PLN,COR,CHG | 0.20 |
PLN,FPL,DEP | 0.30 |
COR,ABS,FPL | 0.20 |
ABS,FPL,DEP | 0.05 |
表3
PLN:飞行预报报文
COR:修订飞行预报报文
ABS:取消重复与非重复飞行预报报文
CHG:修订领航计划报
DEP:起飞报文。
Claims (8)
1.一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,包括如下步骤:
1)获取民航报文的访问记录;
2)基于步骤1)的访问记录,分析报文内容,将具有一致性信息的报文放至同一集合中;
3)设置最小支持度,报文出现的频率需大于该支持度;
4)基于步骤2)的报文集和步骤3)的最小支持度,统计所有报文出现的频率,找出大于或等于最小支持度的报文,产生一维频繁报文集;
5)基于步骤3)的最小支持度,基于步骤4)的一维频繁报文集,对产生的一维频繁报文集,循环处理直至未能再产生维数更高的频繁报文集;
6)基于步骤4),步骤5),得到报文所有维数的频繁报文集,分析这些报文集,即可得出报文的相关性。
2.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤1)的访问记录由数据库日志,网站日志等获取。
3.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤2)中的一致性信息是包括航班号、机场的相同信息,将具有一致性内容的报文放在同一集合中,以保证分析结果的有效性。
4.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤3)的最小支持度范围为0.01-0.99,实际取值由使用者决定。
5.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤5)的多维频繁报文集解释为:若报文集内有k个相关联报文,则为K维频繁报文集,其频数为在记录中同时出现的次数。
6.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤5)的实施应满足如下条件:
1)所获得报文频繁集出现的频率必须大于最小支持度;
2)由K维频繁报文集产生K+1维频繁报文集时,必须考虑到k维频繁报文集中的所有组合。
7.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,循环处理过程的第一步是简单统计所有含一个元素的报文出现的频率,来决定最大的一维报文项目集,及步骤4)所做工作;在第k步,分两个阶段,首先通过第(k 1)步中生成的最大报文集来生成侯选报文项目集.然后搜索数据库计算侯选项目集的支持度.若候选项目集的支持度大于步骤3)设置的最小支持度,则将该报文项目集放入k维频繁报文集。
8.如权利要求1所述的一种基于访问信息挖掘的民航报文相关性分析方法,其特征是,所述步骤6)的报文相关性由频繁报文集产生,相关性系数为频繁报文集的频数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210406334XA CN103020109A (zh) | 2012-10-22 | 2012-10-22 | 基于访问信息挖掘的民航报文相关性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210406334XA CN103020109A (zh) | 2012-10-22 | 2012-10-22 | 基于访问信息挖掘的民航报文相关性分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103020109A true CN103020109A (zh) | 2013-04-03 |
Family
ID=47968713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210406334XA Pending CN103020109A (zh) | 2012-10-22 | 2012-10-22 | 基于访问信息挖掘的民航报文相关性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103020109A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和*** |
CN113806204A (zh) * | 2020-06-11 | 2021-12-17 | 北京威努特技术有限公司 | 一种报文字段相关性的评估方法、装置、***及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136949A (zh) * | 2011-03-24 | 2011-07-27 | 国网电力科学研究院 | 一种基于网络和时间的告警相关性分析方法及*** |
CN102185742A (zh) * | 2011-06-16 | 2011-09-14 | 北京亿赞普网络技术有限公司 | 基于通信网络报文的互联网广告效果监测方法及*** |
-
2012
- 2012-10-22 CN CN201210406334XA patent/CN103020109A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136949A (zh) * | 2011-03-24 | 2011-07-27 | 国网电力科学研究院 | 一种基于网络和时间的告警相关性分析方法及*** |
CN102185742A (zh) * | 2011-06-16 | 2011-09-14 | 北京亿赞普网络技术有限公司 | 基于通信网络报文的互联网广告效果监测方法及*** |
Non-Patent Citations (1)
Title |
---|
郭涛等: "基于关联规则数据挖掘Apriori算法的研究与应用", 《计算机技术与发展》, vol. 21, no. 6, 30 June 2011 (2011-06-30) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和*** |
CN113806204A (zh) * | 2020-06-11 | 2021-12-17 | 北京威努特技术有限公司 | 一种报文字段相关性的评估方法、装置、***及存储介质 |
CN113806204B (zh) * | 2020-06-11 | 2023-07-25 | 北京威努特技术有限公司 | 一种报文字段相关性的评估方法、装置、***及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leung et al. | A data science solution for mining interesting patterns from uncertain big data | |
Wang et al. | Review on community detection algorithms in social networks | |
CN103793489B (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN103914493A (zh) | 一种微博用户群体结构发现分析方法及*** | |
CN103678671A (zh) | 一种社交网络中的动态社区检测方法 | |
CN104699851A (zh) | 一种大数据环境下业务标签的扩展方法 | |
Chao et al. | Efficient trajectory contact query processing | |
CN104317794A (zh) | 基于动态项权值的中文特征词关联模式挖掘方法及其*** | |
Wang et al. | Group pattern mining on moving objects’ uncertain trajectories | |
CN108173876B (zh) | 基于最大频繁模式的动态规则库构建方法 | |
CN103020109A (zh) | 基于访问信息挖掘的民航报文相关性分析方法 | |
Yu et al. | BIDE-based parallel mining of frequent closed sequences with MapReduce | |
CN103927373A (zh) | 基于增量式关联规则技术的动态大数据模型高效建立方法 | |
Wang et al. | A new method for discovering behavior patterns among animal movements | |
Fu et al. | ICA: an incremental clustering algorithm based on OPTICS | |
Hu et al. | An incremental rare association rule mining approach with a life cycle tree structure considering time-sensitive data | |
Colosi et al. | Time series data management optimized for smart city policy decision | |
Neelima et al. | A survey on approaches for mining frequent itemsets | |
CN104572648B (zh) | 一种基于高性能计算的存储统计***及方法 | |
Mary et al. | Performance enhancement in session identification | |
Dong et al. | An innovative model to mine asynchronous periodic pattern of moving objects | |
Cheng et al. | Personalized services research based on web data mining technology | |
Xiaohu et al. | A Fast Search Algorithm Based on Agent Association Rules | |
Revelle et al. | Temporal artifacts from edge accumulation in social interaction networks | |
Wang et al. | Alternative tuples based probabilistic skyline query processing in wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130403 |