CN107229234A - 面向航空电子数据的分布式挖掘***及方法 - Google Patents

面向航空电子数据的分布式挖掘***及方法 Download PDF

Info

Publication number
CN107229234A
CN107229234A CN201710367757.8A CN201710367757A CN107229234A CN 107229234 A CN107229234 A CN 107229234A CN 201710367757 A CN201710367757 A CN 201710367757A CN 107229234 A CN107229234 A CN 107229234A
Authority
CN
China
Prior art keywords
data
relation analysis
module
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710367757.8A
Other languages
English (en)
Inventor
毛睿
陆敏华
李荣华
王毅
廖好
周明洋
商烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201710367757.8A priority Critical patent/CN107229234A/zh
Publication of CN107229234A publication Critical patent/CN107229234A/zh
Priority to PCT/CN2017/106317 priority patent/WO2018214387A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向航空电子数据的分布式挖掘***,包括数据关联分析模块、数据关联分析应用模块和数据存储模块;数据关联分析模块从数据源中获取训练数据,完成数据关联模型建立,将模型提供给数据关联分析应用模块使用,完成实时预测并将结果显示在屏幕上,数据关联分析应用模块利用数据存储模块实现的云存储功能完成实时存储的功能。此外,本发明还公开了该***的实现方法。本发明对大规模的航电数据进行分布式存储,能够实时地存储和共享数据,并利用历史数据的分析,用机器学习中的分类算法对实时数据进行火力打击的预测,在保证准确率的同时提高了体系化对抗***的决策效率,从而为飞行员提供有效的决策指导,预测成功率高达94%。

Description

面向航空电子数据的分布式挖掘***及方法
技术领域
本发明属于计算机领域,具体涉及一种航空飞行数据分析***,尤其涉及一种面向航空电子数据的分布式挖掘***;此外,本发明还涉及该面向航空电子数据的分布式挖掘***的实现方法。
背景技术
航空飞行运行是一项庞大的综合***。在飞行的全过程中,在各部门各岗位间,都有大量的、种类繁多的数据需要传递,比如机组信息、气象状况、航行信息、航线风险系数评估、舱单信息、起飞数据、特情预案等数据。由于受到技术和管理模式的限制,传统的数据传递方式是通过电话、发放纸质文档、手册等。这些传统的保障方式存在诸多缺点,甚至成为限制民航业继续发展的瓶颈。航空数据对每一次航班的安全起飞和经济效益有着极其重要的影响。而航空数据的特点是多源、复杂、大规模,现有的单一平台的数据分析***的应用有限,因此针对这些多源的大规模飞行数据,亟需研发一种面向航空电子数据的数据分析***。
现有的数据分类算法对比见下表1:
表1
体系化对抗环境中,实时感知数据源的数据是一个关键性的问题,这些数据源通常来自多种传感器,高效的管理数据源产生的异构的数据成为这个问题的一个难点。本发明针对这些问题,对现有的分布式框架和相关的数据分析方法进行了一定的研究,尝试找出处理和分析多源的大规模飞行数据的有效方法。
发明内容
本发明要解决的技术问题在于提供一种面向航空电子数据的分布式挖掘***,该***在数据实时性的基础上,支持历史数据的关联模型建立,利用实时的数据和关联模型完成实时预测,对飞行员的决策提供一定的指导。具体来说,该***需要实现以下功能:飞行数据实时共享、飞行数据关联分析和实时辅助决策。为此,本发明还提供该面向航空电子数据的分布式挖掘***的实现方法。
为解决上述技术问题,本发明提供一种面向航空电子数据的分布式挖掘***,包括数据关联分析模块、数据关联分析应用模块和数据存储模块;
数据关联分析模块从数据源中获取训练数据,完成数据关联模型建立,将模型提供给数据关联分析应用模块使用,数据关联分析应用模块完成实时预测并将结果显示在屏幕上,数据关联分析应用模块利用数据存储模块实现的云存储功能完成实时存储的功能。
作为本发明优选的技术方案,所述数据存储模块包括读取文件路径单元和演示控制单元;所述读取文件路径单元用于读取用户选择的数据源文件存放路径;所述演示控制单元用于演示数据的存储情况,它周期性地读取存储记录并显示到面板上;所述数据存储模块采用Hadoop分布式存储平台及HBase分布式数据库,从多架飞机实时获取数据,然后通过云存储方式再存储到多架飞机上,并实时获取并共享多架飞机的数据。
作为本发明优选的技术方案,所述数据关联分析模块包括训练数据路径单元、训练参数选择单元和数据分割方式选择单元;所述训练数据路径单元用于读取用户选择的训练数据存放路径,所述训练参数选择单元用于读取用户选择的各个训练参数值,所述数据分割方式选择单元用于读取用户选择的数据分割方式,所述数据关联分析模块根据上述单元读取的内容来进行模型的建立和训练。
作为本发明优选的技术方案,所述数据关联分析模块采用SVM分类器,对应代码的SVM包,通过SVM的方法,对已有的数据和分析结果进行分类,其核心模块是数据拆分程序和调用的libsvm分类器包,拆分程序将数据源结果为0的记录拆分成N份,N由用户输入,分别和结果为1的记录组成N个训练数据集,用libsvm训练后输出N个模型,预测时使用N个模型结果进行预测结果进行与/或操作输出预测结果;所述数据关联分析模块中数据关联模型建立通过用户指定输入参数完成。
作为本发明优选的技术方案,所述SVM分类器为使用RBF核的非线性svm分类器;所述SVM分类器为二分割分类器。
作为本发明优选的技术方案,所述数据关联分析应用模块包括模型路径选择单元、读取文件路径单元和演示控制单元;所述模型路径选择单元用于读取用户选择的训练模型存放路径,所述读取文件路径单元用于读取用户选择的数据源文件存放路径,所述演示控制单元利用读取的模型对数据进行分析,将预测结果显示到面板上。
此外,本发明还提供一种上述***的实现方法,包括数据存储模块的数据存储实现、数据关联分析模块的建立数据关联模型实现和数据关联分析应用模块的实时预测结果显示实现。
作为本发明优选的技术方案,所述数据存储模块的数据存储实现包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据;
6)判断是否终止演示,是则结束,否则回到步骤4)。
作为本发明优选的技术方案,所述数据关联分析模块的建立数据关联模型实现包括如下步骤:
1)读取数据、取出各属性值的上下界;
2)再次扫描数据,用上下界缩放数据后调用read_prob函数产生svm_problem;
3)svm_problem进行交叉验证,得到训练准确率;
4)基于svm_problem调用svm_train函数,生成模型并存储;
5)结束。
作为本发明优选的技术方案,所述数据关联分析应用模块的实时预测结果显示实现包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据再使用SVM算法实时预测结果;
6)判断是否终止演示,是则结束,否则回到步骤4)。
根据以上提供的技术方案,与现有技术相比,本发明提供的面向航空电子数据的分布式挖掘***,具有以下有益效果:
1、本发明将Hadoop分布式存储平台及HBase分布式数据库优化后应用到航空电子大数据***,是本领域的首创,本发明对大规模的航电数据进行分布式存储,能够实时地存储和共享数据,并利用历史数据的分析,对实时数据进行火力打击的预测,从而成功地为飞行员提供有效的决策指导,预测成功率高达94%。
2、本发明用机器学***衡,影响决策准确度。因此,本发明在SVM的基础上,创新地使用数据分割的方法,来提高准确度。将决策辅助功能集成到航电***中,即可以利用存储的数据进行训练分类器,又能用训练好的分类器进行实时的火力打击预测,并根据预测结果为飞行器实时地提供决策建议。
3、经试验验证,本发明***优选使用RBF核的非线性svm分类器准确率最高,而优选使用二分割分类器的F1值最高。
4、经试验验证,本发明***支持静态减少节点以及动态增加节点。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明面向航空电子数据的分布式挖掘***的总体框架图。
图2是本发明面向航空电子数据的分布式挖掘***的模块单元结构图。
图3是本发明***中数据存储模块逻辑流程图。
图4是本发明***中数据关联分析模块逻辑流程图。
图5是本发明***中数据关联分析应用模块的示例图。
图6是本发明***中数据关联分析应用模块逻辑流程图。
图7是本发明***中数据关联分析模块中非线性SVM的示例图。
图8和图9是本发明***中数据关联分析模块中数据分割的示例图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,本发明面向航空电子数据的分布式挖掘******整体分为3个模块,数据存储模块,数据关联分析模块和数据关联分析应用模块。数据关联分析模块从数据源中获取训练数据,可以通过用户指定输入参数,完成数据关联模型建立,将模型提供给数据关联分析应用模块使用,数据关联分析应用模块完成实时预测并将结果显示在屏幕上,数据关联分析应用模块利用数据存储模块实现的云存储功能完成实时存储的功能。
由于***是在分布式平台基础上开发的,搭建***时首先需要在多台设备(开发***时使用6台)上搭建Hadoop和HBase完全分布式环境。每台设备相当于一个飞行节点,其中有一台作为主节点,来进行调度和显示等操作。
1.数据存储模块
(1)分布式存储平台
为完成数据可靠性存储过程,参考技术方案中的设计,借助已有的分布式云平台,基于HDFS实现数据存储功能。在六台专用测试设备上部署HDFS的服务端,待所有节点模拟飞行员就位(设备开机)后,在任一节点启动HDFS的start-all.sh命令,六台测试设备组建成统一的数据共享平台,分别监听相应功能的端口。数据存储或查询请求达到时,使用对应端口传输数据。
平台的数据可靠性和容错性借助HDFS的冗余备份功能完成。
(2)分布式数据库
在已有的HDFS稳定存储的基础上,项目为规范化管理所有数据,基于HBase实现了一个分布式数据库,使用Hadoop的HDFS来完成可靠存储,使用Hadoop的MapReduce框架来加速***数据查询操作。
HBase的表格设计如下:
实际存储时,每个数据包对应一个rowKey,每个rowKey只包含一个数据块的信息,HBase利用列存的方式保证***数据的可靠性。
(3)运行流程
该模块运行过程包括数据存储和数据显示两个步骤。
数据存储:隔40ms吐出一次数据,将数据存储到HBase中,因样本数据量较小,读取完成之后从第一个数据开始再次吐出。
数据显示:另开线程完成文件的读取过程,每隔10ms从HBase环境中实时查询从上次时间戳查询到现在时间戳时间内所有的记录,从记录中读取最后一条记录,实时显示在屏幕上。
如图2所示,数据存储模块包括读取文件路径单元和演示控制单元,用于数据存储演示。读取文件路径单元用于读取用户选择的数据源文件存放路径,演示控制单元用于演示数据的存储情况,它周期性地读取存储记录并显示到面板上。
如图3所示,数据存储模块逻辑流程包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据;
6)判断是否终止演示,是则结束,否则回到步骤4)。
2.数据关联分析模块
由于航电的训练数据具有低维度(7维),大容量(420W条记录)和不平衡性(0和1比例为15:1)的特点,我们综合考虑以上算法,最终选择使用支持向量机SVM来完成数据分析过程中模型建立工作。这一部分主要使用的SVM分类器,对应代码的SVM包,通过SVM的方法,对已有的数据和分析结果进行分类,其核心模块是数据拆分程序和调用的libsvm分类器包,拆分程序将数据源结果为0的记录拆分成N份(N由用户输入),分别和结果为1的记录组成N个训练数据集,用libsvm训练后输出N个模型,预测时使用N个模型结果进行预测结果进行与/或操作输出预测结果。
运行过程主要包括以下三个步骤。
数据归一化:扫描数据集,取出上下界,完成数据的归一化操作,保证每个变量对结果的作用平衡。
数据分割:因为数据的特殊性,结果为0的记录数量远多于结果为1,所以本发明采取技术方案中的划分策略,将结果为1的数据划分成N份,分别与0组合之后形成N个数据源,这一部分在read_prob函数中实现。
数据训练:调用libsvm软件包中的各个函数(包括svm_scale、svm_train等),对各svm_problem训练,生成svm_model并dump(转存)到硬盘上。
如图2所示,数据关联分析模块包括训练数据路径单元、训练参数选择单元、数据分割方式选择单元,用于建立模型、进行模型训练。训练数据路径单元用于读取用户选择的训练数据存放路径,训练参数选择单元用于读取用户选择的各个训练参数值,数据分割方式选择单元用于读取用户选择的数据分割方式,数据关联分析模块根据这些单元读取的内容来进行模型的建立和训练。
如图4所示,数据关联分析模块逻辑流程包括如下步骤:
1)读取数据、取出各属性值的上下界,包括经度、纬度、高度、横滚角、直航角、俯仰角和速度7个属性;
2)再次扫描数据,用上下界scale数据(缩放数据,以提高训练和预测时数据的处理速度)后调用read_prob函数产生svm_problem;
3)svm_problem进行cross validation(交叉验证),得到训练准确率;
4)基于svm_problem调用svm_train函数,生成模型并存储;
5)结束。
3.数据关联分析应用模块
应用模块的整体设计原则是利用数据存储模块完成存储,利用数据关联分析模块输出的最优模型作为输入模型,对任一数据实时预测,如图5所示。
其中,多分模型的数据预测遵循如下规则:
2分:
或模型:n1|n2
与模型:n1&n2
4分:
先与后或:(n1&n2)|(n3&n4)
先或后与:(n1|n2)&(n3|n4)
8分:
先与后或:(n1&n2&n3&n4)|(n5&n6&n7&n8)
先或后与:(n1|n2|n3|n4)&(n5|n6|n7|n8)
运行过程主要包括以下三个步骤。
初始化:初始化HBase的连接,完成表的创建,列簇的创建等操作,从硬盘读取需要存储的文件内容。
数据产生:每隔40ms吐出一次数据,将数据存储到HBase中,因样本数据量较小,读取完成之后从第一个数据开始再次吐出。
数据显示:另开线程完成文件的读取过程,每隔10ms从HBase环境中实时查询从上次时间戳查询到现在时间戳时间内所有的记录,从记录中读取最后一条记录,用这个数据调用SVM完成实时预测,并将结果显示在屏幕上。
如图2所示,数据关联分析应用模块包括模型路径选择单元、读取文件路径单元、演示控制单元,用于数据分析演示。模型路径选择单元用于读取用户选择的训练模型存放路径,读取文件路径单元用于读取用户选择的数据源文件存放路径,演示控制单元利用读取的模型对数据进行分析,将预测结果显示到面板上。
如图6所示,数据关联分析应用模块逻辑流程包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据再使用SVM算法实时预测结果;
6)判断是否终止演示,是则结束,否则回到步骤4)。
在体系化对抗决策体系中,历史数据信息是十分宝贵的资源,对历史信息的分析和提炼可以完成许多功能,比如说历史火力打击信息可以用来辅助决策。通过对一组历史飞行过程及火力打击的结果分析,我们可以获取一个飞行状态的分类器模型,利用这个模型可以预测节点火力打击结果。把预测模型引入“资源云”平台上之后,我们可以根据每个节点的火力打击预测结果,完成一些辅助决策功能,提高体系化对抗***的决策效率。
针对已有的飞行状态信息数据集和打击结果,可以近似的把问题看做一个输入是飞机发射导弹时的航电信息和目标的绝对位置信息,输出是击中和没击中目标的二分类分类器模型,分析比较常用的二分类分类器,得出一个结果最优的分类器模型应用到决策***中。
(1)分类器算法
由于要解决的是一个二分类问题,标号为0和1。那么分类器就是要找到一个面,将所有样本点分到面的两侧。即,对于任一样本x=(b1,b2,…bm),分类器决策函数F:
F(x)=g(f(x))
a.线性可分SVM
线性可分SVM分类器决策函数中的f(x)=wTx+b,它本质上是寻找一个能将样本点按标号分到两侧的具有最大化margin的超平面,margin是所有数据点到超平面的几何间隔的最小值。从统计的角度讲,由于正负样本可以看作从两个不同的分布随机抽样得到,若分类边界与两个分布的距离越大,抽样出的样本落在分类边界另一边的概率越小。所以,最大化margin可以保证最坏情况下的泛化误差最小,分类器确信度更高。
分类器决策函数中的f(x)=wTx+b,那么它的超平面为WTx+b=0.
给定训练集合T,超平面WTx+b=0,定义样本点(xi,yi)到超平面的函数间隔为:
几何间隔为:
设N为样本点数目,定义T中所有样本点的函数间隔的最小值为:
超平面的margin为T中所有样本点的几何间隔的最小值:
最大化margin可表示为:
变化得:
可以看出,w、b等比例缩放对超平面和几何间隔都没有影响,而函数间隔会同比例缩放。所以,令代入上式,而最大化等价于最小化这样就得到了线性可分svm的最优化问题:
这是一个凸二次规划问题,应用拉格朗日对偶性,通过求解对偶问题可得到最优解,求解的过程就不赘述了。
b.非线性SVM
对于非线性的分类问题,决策面是一个曲面,曲面通过一定映射,会变成高维空间中的一个超平面,这样就可以用线性可分svm中的方法来解决。
例如,两类数据分布为两个圆圈的形状(如图7所示),这样的数据本身是线性不可分的,理想的分界面应该是一个圆而不是一条线(超平面)。
若用x1和x1表示这个二维平面的坐标,那么它的决策面可写成这样的形式:
a0+a1x1+a2x2+a3x1 2+a4x2 2+a5x1x2=0
如果我们构造一个五维空间,坐标值分别为z1=x1、z2=x2、z3=x1 2、z4=x2 2、z5=x1x2,那么上面的决策面方程在新的空间中可以写作:
可以看出,这正是一个超平面的方程。如果我们按这样的方式将数据映射到五维空间,那么在新空间中原来的非线性数据就变成线性可分的了,从而可以使用线性svm算法处理。
由于在线性可分svm的求解过程中,需要计算的地方数据向量总是以内积的形式出现,所以,我们定义计算两个向量在映射过后的空间中的内积的函数为核函数,用核函数来简化映射空间中的内积运算。
所以,对于非线性情况,处理方法是选择一个核函数,通过它将数据映射到高维空间,变成高维空间中的一个线性可分问题,以此来解决在原始空间中线性不可分的问题,然后再用线性可分SVM算法进行处理。svm常用的核函数有四种:线性核(等同于线性可分svm)、多项式核、RBF核、sigmoid核,具体形式如下表2。
表2
类型 函数表达式
线性核 uT*v
多项式核 (g*uT*v+coef0)degree
RBF核 exp(-g*||u-v||2)
sigmoid核 tanh(g*uT*v+coef0)
数据分割
由于样本数据集中两类数据比例悬殊,造成不平衡问题。尝试将训练集中比例较高的那一类样本分割成几块,每块与另一类样本分别组成一个子训练集,对每个子训练集进行训练,得到子分类模型。将子分类模型通过一些运算可以组成新的分类器,对数据进行预测。这样处理,可以一定程度上改善数据不平衡问题。
例如,将label=0的样本分割成四块,分别与label=1的样本组成四个子训练集,对它们进行训练得到四个子分类模型。每个子分类模型对输入数据进行预测,得到四个output,可以对这四个output进行与运算,得到最终的output,这就相当于一个新的分类器,示意图如图8和图9所示。
以下通过具体实验来验证本发明的效果:
1.分类器算法评测实验
(1)数据集
用作实验的原始飞行数据样本共4497432个,其中击中(label=1)的有316768个,未击中(label=0)的有4180664个。将原始数据按照50%、25%、25%的比例均匀划分为train set、validation set、test set三个集合。其中,train set用来训练分类器;validation set用来测试不同分类器的性能,确定分类模型的网络结构或者控制模型复杂程度的参数;test set用来检验最终选择的最优分类模型的性能。
(2)实验结果
对不同分类器算法进行测试实验,评估实验结果,选取最佳的分类器模型,用testset进行验证。
a.线性可分svm
用Liblinear实现线性可分svm,进行测试,结果如下表3:
表3
accuracy precision recall F1
92.9669% 0 0 0
由于数据集中label=1的数目远远低于label=0的实例数目(比例约为1:13),因此线性svm会全部预测0,但是显然这样是毫无意义的。
b.非线性svm
用Libsvm实现不同类型的非线性svm,进行测试,结果如下表4:
表4
核函数 accuracy precision recall F1
线性核 92.9669% 0 0 0
多项式核 92.9669% 0 0 0
RBF核 94.3549% 0.599 0.596 0.597
sigmod核 85.9684% 0 0 0
可以看出选用RBF核函数的结果最好,准确率达到了94.4%,1的预测率也超过了50%。
c.数据分割
子训练集用前面提到的libsvm的RBF核类型进行训练,因为它的效果最好。
i.二分割
将label=0的训练数据随机分割成两块,与label为1的数据组成两个子训练集,训练得到两个model,分别对validation set进行预测,得到两个output,按与和或两种关系处理output得到最终分类结果。测试结果如下表5:
表5
accuracy precision recall F1
94.1015% 0.556 0.806 0.658
94.0866% 0.554 0.811 0.659
ii.四分割
将label=0的训练数据随机分割成四块,与label为1的数据组成四个子训练集,训练得到四个model,分别对validation set进行预测,得到四个output,按全与、全或、先与后或、先或后与四种关系处理output得到最终分类结果。测试结果如下表6:
表6
accuracy precision recall F1
全与 93.1026% 0.505 0.926 0.654
全或 93.0137% 0.502 0.931 0.652
先与后或 93.0717% 0.504 0.928 0.653
先或后与 93.0503% 0.503 0.929 0.653
iii.八分割
将label=0的训练数据随机分割成八块,与label为1的数据组成八个子训练集,训练得到八个model,分别对validation set进行预测,得到八个output,按全与、全或、先与后或、先或后与四种关系处理output得到最终分类结果。测试结果如下表7:
表7
iv.三分之二分割
将label=0的训练数据随机分割成三块,每两块与label为1的数据组成三个子训练集,训练得到三个model,分别对validation set进行预测,得到三个output,按与和或两种关系处理output得到最终分类结果。测试结果如下表8:
表8
accuracy precision recall F1
94.3033% 0.575 0.729 0.643
94.2959% 0.574 0.734 0.644
d.验证实验
根据以上测试,可以看出,单纯使用RBF核的非线性svm分类器准确率最高,而二分割分类器的F1值最高。用test set对这两种最优分类模型进行验证实验,结果如下表9:
表9
分类器 accuracy Precision recall F1
RBF核svm 94.3391% 0.599 0.595 0.597
二分割-与 94.0945% 0.555 0.807 0.658
二分割-或 94.0772% 0.554 0.812 0.659
验证得到,这两种分类器性能与前面的测试结果基本一致,确实最优。
2.本发明面向航空电子数据的分布式挖掘*********测试
a.数据存储模块测试
运行软件***,进入数据采集模块,然后开始演示。观察Dashboard面板上的数据,随着程序运行,面板能实时显示集群中各节点的状态信息,且可以看出飞行数据正被存储,证明该模块能够实时存储各个节点的数据。
b.数据关联分析模块测试
运行软件***,进入数据关联分析模块,分别采用不同的核函数选择参数和分割参数,对输入数据集进行训练,均能成功地得到分类模型,证明该模块能够用不同方法进行数据分析。
c.数据关联分析应用模块测试
运行软件***,进入数据关联分析应用模块,选取参数,然后开始演示。界面能实时显示所有节点的飞行数据和预测火力打击结果,证明该模块能够对飞行数据进行实时存储和预测。
d.***节点静态减少测试
按照相应的方法,将***节点由6个静态减少到4个,检查集群中Hadoop和Hbase的节点数,均变成了4,说明***支持静态减少节点。
e.***节点动态增加测试
按照相应的方法,将***节点由前一测试中的4个动态增加到6个,并在新增加的节点上运行***软件。检查***数据存储功能界面上节点信息的变化,由原来的4成功变成了6,说明***支持动态增加节点。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (10)

1.一种面向航空电子数据的分布式挖掘***,其特征在于,包括数据关联分析模块、数据关联分析应用模块和数据存储模块;
数据关联分析模块从数据源中获取训练数据,完成数据关联模型建立,将模型提供给数据关联分析应用模块使用,数据关联分析应用模块完成实时预测并将结果显示在屏幕上,数据关联分析应用模块利用数据存储模块实现的云存储功能完成实时存储的功能。
2.如权利要求1所述的***,其特征在于,所述数据存储模块包括读取文件路径单元和演示控制单元;所述读取文件路径单元用于读取用户选择的数据源文件存放路径;所述演示控制单元用于演示数据的存储情况,它周期性地读取存储记录并显示到面板上;所述数据存储模块采用Hadoop分布式存储平台及HBase分布式数据库,从多架飞机实时获取数据,然后通过云存储方式再存储到多架飞机上,并实时获取并共享多架飞机的数据。
3.如权利要求1所述的***,其特征在于,所述数据关联分析模块包括训练数据路径单元、训练参数选择单元和数据分割方式选择单元;所述训练数据路径单元用于读取用户选择的训练数据存放路径,所述训练参数选择单元用于读取用户选择的各个训练参数值,所述数据分割方式选择单元用于读取用户选择的数据分割方式,所述数据关联分析模块根据上述单元读取的内容来进行模型的建立和训练。
4.如权利要求1或3所述的***,其特征在于,所述数据关联分析模块采用SVM分类器,对应代码的SVM包,通过SVM的方法,对已有的数据和分析结果进行分类,其核心模块是数据拆分程序和调用的libsvm分类器包,拆分程序将数据源结果为0的记录拆分成N份,N由用户输入,分别和结果为1的记录组成N个训练数据集,用libsvm训练后输出N个模型,预测时使用N个模型结果进行预测结果进行与/或操作输出预测结果;所述数据关联分析模块中数据关联模型建立通过用户指定输入参数完成。
5.如权利要求4所述的***,其特征在于,所述SVM分类器为使用RBF核的非线性svm分类器;所述SVM分类器为二分割分类器。
6.如权利要求1所述的***,其特征在于,所述数据关联分析应用模块包括模型路径选择单元、读取文件路径单元和演示控制单元;所述模型路径选择单元用于读取用户选择的训练模型存放路径,所述读取文件路径单元用于读取用户选择的数据源文件存放路径,所述演示控制单元利用读取的模型对数据进行分析,将预测结果显示到面板上。
7.一种如权利要求1-6任一项所述的***的实现方法,其特征在于,包括数据存储模块的数据存储实现、数据关联分析模块的建立数据关联模型实现和数据关联分析应用模块的实时预测结果显示实现。
8.如权利要求7所述的方法,其特征在于,所述数据存储模块的数据存储实现包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据;
6)判断是否终止演示,是则结束,否则回到步骤4)。
9.如权利要求7所述的方法,其特征在于,所述数据关联分析模块的建立数据关联模型实现包括如下步骤:
1)读取数据、取出各属性值的上下界;
2)再次扫描数据,用上下界缩放数据后调用read_prob函数产生svm_problem;
3)svm_problem进行交叉验证,得到训练准确率;
4)基于svm_problem调用svm_train函数,生成模型并存储;
5)结束。
10.如权利要求7所述的方法,其特征在于,所述数据关联分析应用模块的实时预测结果显示实现包括如下步骤:
1)初始化HBase连接;
2)创建表、列簇;
3)本机数据导入内存;
4)开始演示;
5)实时数据上传HBase,同时实时从HBase获取所有节点数据再使用SVM算法实时预测结果;
6)判断是否终止演示,是则结束,否则回到步骤4)。
CN201710367757.8A 2017-05-23 2017-05-23 面向航空电子数据的分布式挖掘***及方法 Pending CN107229234A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710367757.8A CN107229234A (zh) 2017-05-23 2017-05-23 面向航空电子数据的分布式挖掘***及方法
PCT/CN2017/106317 WO2018214387A1 (zh) 2017-05-23 2017-10-16 面向航空电子数据的分布式挖掘***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710367757.8A CN107229234A (zh) 2017-05-23 2017-05-23 面向航空电子数据的分布式挖掘***及方法

Publications (1)

Publication Number Publication Date
CN107229234A true CN107229234A (zh) 2017-10-03

Family

ID=59934492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710367757.8A Pending CN107229234A (zh) 2017-05-23 2017-05-23 面向航空电子数据的分布式挖掘***及方法

Country Status (2)

Country Link
CN (1) CN107229234A (zh)
WO (1) WO2018214387A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214387A1 (zh) * 2017-05-23 2018-11-29 深圳大学 面向航空电子数据的分布式挖掘***及方法
CN109597839A (zh) * 2018-12-04 2019-04-09 中国航空无线电电子研究所 一种基于航电作战态势的数据挖掘方法
CN116579796A (zh) * 2023-05-11 2023-08-11 广州一小时科技有限公司 基于深度学习实现智慧门店的效益分析方法及装置
CN116755619A (zh) * 2023-06-06 2023-09-15 中国自然资源航空物探遥感中心 航空磁放综合站测量数据切片方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829291B (zh) * 2024-02-02 2024-07-16 公诚管理咨询有限公司 一种全过程咨询知识集成管理***及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470896A (zh) * 2007-12-24 2009-07-01 南京理工大学 基于视频分析的机动目标飞行模式预测方法
CN102830404A (zh) * 2012-08-28 2012-12-19 中国人民解放军国防科学技术大学 基于距离像的激光成像雷达地面目标识别方法
RU2484418C1 (ru) * 2012-04-24 2013-06-10 Марина Леонардовна Нефедова Зенитная ракета
CN104008403A (zh) * 2014-05-16 2014-08-27 中国人民解放军空军装备研究院雷达与电子对抗研究所 一种svm(矢量机)模式的多目标识别判定方法
CN104077787A (zh) * 2014-07-08 2014-10-01 西安电子科技大学 一种基于时域和多普勒域的飞机目标分类方法
CN104215935A (zh) * 2014-08-12 2014-12-17 电子科技大学 一种基于决策加权融合的雷达炮弹目标识别方法
CN105069136A (zh) * 2015-08-18 2015-11-18 成都鼎智汇科技有限公司 一种大数据环境下的图像识别方法
CN105629210A (zh) * 2014-11-21 2016-06-01 中国航空工业集团公司雷华电子技术研究所 一种机载雷达空地运动目标分类识别方法
CN105759784A (zh) * 2016-02-04 2016-07-13 北京宇航***工程研究所 一种基于数据包络分析的故障诊断方法
CN106372660A (zh) * 2016-08-30 2017-02-01 西安电子科技大学 一种基于大数据分析的航天产品装配质量问题分类方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842126B2 (en) * 2012-04-20 2017-12-12 Cloudera, Inc. Automatic repair of corrupt HBases
CN103903101B (zh) * 2014-04-14 2016-02-24 上海航天电子通讯设备研究所 一种通用航空多源信息监管平台及其方法
CN105260426A (zh) * 2015-05-08 2016-01-20 中国科学院自动化研究所 基于大数据的飞机综合健康管理***和方法
CN104932519B (zh) * 2015-05-25 2017-06-06 北京航空航天大学 基于专家知识的无人机飞行指挥辅助决策***及其设计方法
CN105427674B (zh) * 2015-11-02 2017-12-12 国网山东省电力公司电力科学研究院 一种无人机飞行状态实时评估预警***及方法
CN106534291B (zh) * 2016-11-04 2019-05-07 广东电网有限责任公司电力科学研究院 基于大数据处理的电压监测方法
CN107229695A (zh) * 2017-05-23 2017-10-03 深圳大学 多平台航空电子大数据***及方法
CN107229234A (zh) * 2017-05-23 2017-10-03 深圳大学 面向航空电子数据的分布式挖掘***及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470896A (zh) * 2007-12-24 2009-07-01 南京理工大学 基于视频分析的机动目标飞行模式预测方法
RU2484418C1 (ru) * 2012-04-24 2013-06-10 Марина Леонардовна Нефедова Зенитная ракета
CN102830404A (zh) * 2012-08-28 2012-12-19 中国人民解放军国防科学技术大学 基于距离像的激光成像雷达地面目标识别方法
CN104008403A (zh) * 2014-05-16 2014-08-27 中国人民解放军空军装备研究院雷达与电子对抗研究所 一种svm(矢量机)模式的多目标识别判定方法
CN104077787A (zh) * 2014-07-08 2014-10-01 西安电子科技大学 一种基于时域和多普勒域的飞机目标分类方法
CN104215935A (zh) * 2014-08-12 2014-12-17 电子科技大学 一种基于决策加权融合的雷达炮弹目标识别方法
CN105629210A (zh) * 2014-11-21 2016-06-01 中国航空工业集团公司雷华电子技术研究所 一种机载雷达空地运动目标分类识别方法
CN105069136A (zh) * 2015-08-18 2015-11-18 成都鼎智汇科技有限公司 一种大数据环境下的图像识别方法
CN105759784A (zh) * 2016-02-04 2016-07-13 北京宇航***工程研究所 一种基于数据包络分析的故障诊断方法
CN106372660A (zh) * 2016-08-30 2017-02-01 西安电子科技大学 一种基于大数据分析的航天产品装配质量问题分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘进军: "基于乘法的SVM和集成学***衡数据分类算法研究", 《计算机应用与软件》 *
戴苏榕: "基于HDFS和NVME的机载航电云储存技术研究", 《航空电子技术》 *
龚胜科: "粗集支持向量机的战斗机空战效能智能评估", 《火力与指挥控制》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214387A1 (zh) * 2017-05-23 2018-11-29 深圳大学 面向航空电子数据的分布式挖掘***及方法
CN109597839A (zh) * 2018-12-04 2019-04-09 中国航空无线电电子研究所 一种基于航电作战态势的数据挖掘方法
CN109597839B (zh) * 2018-12-04 2022-11-04 中国航空无线电电子研究所 一种基于航电作战态势的数据挖掘方法
CN116579796A (zh) * 2023-05-11 2023-08-11 广州一小时科技有限公司 基于深度学习实现智慧门店的效益分析方法及装置
CN116579796B (zh) * 2023-05-11 2024-07-16 广州一小时科技有限公司 基于深度学习实现智慧门店的效益分析方法及装置
CN116755619A (zh) * 2023-06-06 2023-09-15 中国自然资源航空物探遥感中心 航空磁放综合站测量数据切片方法、装置、设备及介质
CN116755619B (zh) * 2023-06-06 2024-01-05 中国自然资源航空物探遥感中心 航空磁放综合站测量数据切片方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2018214387A1 (zh) 2018-11-29

Similar Documents

Publication Publication Date Title
CN107229695A (zh) 多平台航空电子大数据***及方法
CN107229234A (zh) 面向航空电子数据的分布式挖掘***及方法
US8255344B2 (en) Systems and methods for parallel processing optimization for an evolutionary algorithm
US20130151535A1 (en) Distributed indexing of data
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN101615265A (zh) 一种基于多Agent技术的智能决策仿真实验***
CN110046810A (zh) 一种基于赋时Petri网的车间制造***多目标调度方法
Liu et al. Multi-Level Partitioning and Distribution of the Assignment Problem for Large-Scale Multi-Robot Task Allocation.
Gao Forecasting of rockbursts in deep underground engineering based on abstraction ant colony clustering algorithm
CN106503365B (zh) 一种用于sph算法的分区搜索方法
Ali et al. A parallel grid optimization of SVM hyperparameter for big data classification using spark Radoop
CN117764631A (zh) 基于源端静态数据建模的数据治理优化方法及***
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN106485030A (zh) 一种用于sph算法的对称边界处理方法
Olatunji et al. Modeling permeability prediction using extreme learning machines
CN107038244A (zh) 一种数据挖掘方法和装置、一种可读介质和存储控制器
CN114970086B (zh) 一种基于数据空间的复杂***级数字孪生构建方法
Cai et al. Online data-driven surrogate-assisted particle swarm optimization for traffic flow optimization
US11915113B2 (en) Distributed system for scalable active learning
Wu et al. Explainable network pruning for model acceleration based on filter similarity and importance
CN106529011B (zh) 一种用于sph算法的并行分区实现方法
Pinto et al. A Machine Learning Firefly Algorithm Applied to the Resource Allocation Problems
Hu et al. Decision‐Level Defect Prediction Based on Double Focuses
Liu et al. MapReduce-based ant colony optimization algorithm for multi-dimensional knapsack problem
US20240169129A1 (en) Iterative bootstrapping neurosymbolic method for generating system designs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171003