CN117725448A

CN117725448A - 气象导航信号特征的聚类分析方法

Info

Publication number: CN117725448A
Application number: CN202311607644.2A
Authority: CN
Inventors: 王维国
Original assignee: Chengdu Zhongkobe Intelligent Technology Co ltd
Current assignee: Chengdu Zhongkobe Intelligent Technology Co ltd
Priority date: 2023-11-26
Filing date: 2023-11-26
Publication date: 2024-03-19

Abstract

本发明涉及气象领域的一种气象导航信号特征的聚类分析方法，通过下述技术方案予以实现：基于特定地域，对采样数据进行分类；根据运行地当下气象信息作为输入，利用引力搜索算法进行全局搜索，运用数学方法对不同的采样样本进行数字分类；组合解算特征采样样本n个采样两两间的距离，依据最小距离原则将样本分配到k个聚类中；对采样数据进行选择和数据预处理，消除变量间的相关性；建立概率统计模型，利用K‑means的聚类结果的聚类中心点初始化气象因子群的气象因子，更新聚类中心的位置和适应值；找出彼此独立的自变量，把平均相似系数作衡量判据；计算每组的相关阵及相关距离系数，利用聚类算法，得到聚类结果的决策图。

Description

气象导航信号特征的聚类分析方法

技术领域

本发明涉及气象领域一种基于气象信息的导航信号特征聚类分析方法，同时也是一种卫星导航***欺骗干扰信号抑制的方法。

背景技术

随着极端天气发生频次增加，人们对天气预报的需求越来越迫切，为做到检测精密、预报精准、服务精细，提升天气预报的准确性、科学性、及时性，各地的气象信息***规模越来越大。静止气象卫星可对多种尺度的天气***进行有效的全天候同步监测，已成为大气信息获取和气象要素反演的重要手段。由于静止气象卫星分辨率相对较低，且只有红外水汽和可见光等有限的光谱通道，可资利用的信息较少，特别是缺少微波通道的信息，这就大大限制了静止卫星云图在天气特别是降水分析中的应用。

气象导航是最近几年才发展起来的一项新业务。其是根据天气和海况预报、船舶性能和技术条件、航行任务，为船舶优选横渡大洋航线和保证付诸实现的全部技术。气象导航亦称气象定线，它是将气象学、海洋学、造船学和计算机等技术与航海技术有机地结合起来，为横渡大洋的船舶提供最佳天气航线，从而使船舶达到最佳航行效果的技术。气象导航本身是在为远洋航行提供综合的气象信息服务。利用气象导航，并不只是像一些人想象的那样，仅仅只替飞机、船舶的位置进行定位。气象导航要利用全球的天气监测网资料，结合船舶的具体航行要求，提出各种建议，它具很大的实用价值。气象导航服务***(WeatherWizard)是一个船舶导航辅助***。该***与船商公司的Navi-Sailor系列电子海图***相互兼容，既可以安装在公司总部作为决策辅助工具，又可以应用在船舶上作为导航工具。Weather Wizard***通过接收气象局提供的任意局部海域甚至全球海域的综合气象图，将目前与未来五天的动态气象参数叠加显示在电子海图***上，为船舶的安全航行和管理提供了非常有效的信息支援。近年气象信息越来越丰富、多元化。网站所传播气象信息内容的丰富性和传播信息数量已远远超过传统媒体。然而，由气象导航公司提供服务也存在诸如航线跟踪修正的非实时性，在设计修正航线时具有一定局限性。

随着我国气象事业的不断发展，气象领域积累的数据越来越多，激增的数据背后隐藏着许多重要的信总，如何充分利用这些数据对其进行更高层次的分析，以便更好地利用这些数据并从中发现有用的、却常被人们忽视的重要信息，已成为一个难以解决的问题。

在气象领域，随着时间的推移，各地观测站积累了大量的气象数据，对这些数据进行初步分析可以得出，气候变化总体上具有一定的周期性，但各地的气候并不完全遵循周期性。气象观测站得到的气象资料，包括一天中的最高气温、最低气温、平均气温、降水量、湿度、光照时间和风向等等；这些海量的数据分散地存储在各个气象站，而且早些时候的数据还记录在纸上。仅仅依靠单站单年的气象数据不足以说明一个地方的气候变化特征，也不可能预报将来的天气，更不足以预报将来是否会发生灾害性天气；但实践证明，可以把相邻的多个气象站的多年的气象资料加以分析处理，从而寻找这一地区气候的总体特征，或根据这一地区的灾害性天气记录，探寻灾害性天气发生的规律，以及导致这种异常天气发生的可能的原因。

气象要素是表征大气状态的基本物理量和基本天气现象。主要包括大气温度、大气压力、空气湿度、风向和风速、能见度、云、降水、雷暴、雾和辐射等，气压是重要的气象要素之一。气象数据即大气科学数据，由地面气象观测站观测所得，它具有连续性、时间性、空间性、地域性以及种类和要素多样性等特点，是一种典型的时间序列数据。因此，各地观测站积累的海量复杂的数据一直是气象领域科学研究的对象。由于大气运动非常复杂，大大小小的天气***相互联系、相互制约，天气***的形成变化又与地理环境相互影响，故天气预报决策比较困难，预报水平不高。但是，大气在瞬息万变中又存在诸多规律，尤其是某个天气现象的出现与一些气象要素的变化有极大关联。要找到这些规律，就必须从大量的历史气象要素数据库入手，从中分析挖掘出有预报价值、可应用于预报决策的东西。由于大气运动的复杂性观测资料的误差及采样过程中不可避免的人为因素，各类天气样本在特征空间中的投影点表现得较为散乱，若未经处理映射于同一空间中，则特征投影点交叉重叠，变得杂乱无章，根本无法进行聚类分析。气象学中存在许多分类问题，如气候分类区划、天气过程分类环流分类、预报因子的合并归类、相似年的确定等。因此在大气科学研究中，存在着两种不同的分类问题：1)事先不知道分类的类别和分类数目，也不清楚样本的属性；2)事先已经知道分类的类别，用因子判定预报量的可能属于的类别一判别分类气象数据。由于气象数据具有随机性，且相邻日期的气温之间没有必然的联系，气象数据的变化比较随机的特点给精确的气象预测带来了困难。传统的分析方法已经无法满足研究者对数据处理的需求，数据挖掘正是在这种情况下得以运用并迅速发展起来的一门技术。数据挖掘是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。其中，聚类分析是数据挖掘技术中重要的一部分。聚类分析是一种十分有效的数据挖掘技术，它根据数据本身的规律对数据集进行自发地聚类，从而得出有效的结论，具有重要的应用价值。因此，将聚类技术应用到气象的海量数据分析中，从而获取有价值的信息，为发现气象规律提供了可靠依据，并为进一步的研究奠定了基础。聚类分析指将物理或抽象对象的集合分组成为由类似对象组成的多个类的分析过程。它是一种重要的人类行为。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。它是搜素簇的无监督学习过程。聚类分析是数据挖掘领域的重要研究内容之一,吸纳了计算机科学、统计学、数学等各领域的知识和思想。对于没有明显特征的数据集,聚类能够挖掘出数据对象的“相异性”或“相似性”,并根据这种特性把集合分为若干子集,使相同子集内部对象差别较小而不同子集间的差别较大。气象分析领域有规模庞大的卫星云图图像资源,如何使用计算机方法对卫星云图进行图像处理并从中提取有效的云团信息进而对雷暴、降水等基于云团的天气***进行分析预报,是气象和计算机信息处理研究人员有待解决的难题之一。

由于经过多年积累的大量而复杂的气象数据，不能直接运用数据挖掘对其分析，必须根据挖掘目的对数据进行选择、预处理等操作，然后将改进算法应用到气象数据的处理中。数据挖掘(Data Mining)是知识发现过程的一个基本且必不可少的步骤，它根据专门的算法从大量的、不完整的、模糊的、有噪声的和随机的实际应用数据中，自动地发现模式或提取具有潜在价值的，隐含着的信息和知识的过程。提取的知识表示为规则、规律、模式等形式。知识发现被认为是从数据中发现有用知识的整个过程，它一般需要经历：数据集成和数据预处理(数据准备)、数据挖掘、结果评价。一般而言，在数据挖掘中，经常出现的数据类型有：二元变量、区间标度变量、标称型、序数型、比例标度型变量以及混合类型的变量。许多数据挖掘用户并不是专业的数据挖掘人员，无疑，大部分用户只熟悉自己所研究领域的专业知识。因此，设置过多或者过复杂的参数对于他们来说比较困难甚至是不现实的。在实际应用中，数据挖掘的对象复杂多样，因此聚类分析方法要能适应数据类型的变化，不只局限于属性为数值类型的数据对象。

传统的聚类分析方法大多是在数值型数据的基础上研究的。现有的聚类算法都有着其特定的应用领域，但是却没有一种通用的算法能够满足所有类型的数据，从这点来看，研究聚类富有巨大的挑战性。目前，主要的聚类算法可分为4类：划分法、层次法、基于密度的方法和基于模型的方法，其中最为常用的方法为基于划分的K-means算法，此法简单高效，在大规模数据中应用较为广泛，是解决聚类问题的一种经典算法。但它依赖初始值，容易陷入局部最优解，从而影响聚类的精度。此外基于启发式原理的引力搜索算法，具有良好的全局搜索能力，在聚类过程中能够很好地搜索全体粒子，但同时存在收敛速度相对比较慢的缺点。有的聚类算法在比较小的数据集合(例如：300)上运行较好：但是，随着数据规模的增大，数据集合可能包含几十万数据对象甚至几百万，在如此规模的数据集上，有的聚类算法的结果可能会产生很大的偏差。

随着搜索空间的大小成指数倍的增加，在解决高维空间上的优化问题时，经典的优化算法无法得到一个更合适的解。此外，由于高维数据分布地比较稀疏，使用传统的距离度量方式进行计算显得困难且可能得不到有效的结果。利用相应的聚类分析是以各种距离来度量个案间或变量间的亲疏程度。如果所选的聚类变量指标之间存在较高的线性关系，能够相互替代，那么计算距离时同类变量将会重复起作用，将在距离中有较高的权重，从而导致聚类结果偏向该变量。

判断一个新的聚类方法是否有效，实践证明没有绝对的“最好”的统一标准，聚类结果的好坏只取决希望的聚类目标。信号分类在应用特征提取的技术方法时,需要很长的运算时间，才能够对信息完成处理和分析的过程。由于***聚类是从每个个案开始进行分类的，所以当样本容量很大时，计算的工作量也会非常大，因此***聚类只适合样本不太大的数据。如果样本数大于200个，宜采用快速聚类分析方法，因为样本越大，层次聚类分析的判别图形就会越分散，不易解释。

现今，大多数聚类算法作用的数据属性一般是数值型的。虽然聚类算法有很多种，但在实际应用中要根据实际情况来选择合适的聚类算法，聚类算法形成的聚类结果应符合客观事实，且应对噪音数据和孤立点需有较好的鲁棒性。然而，真实的应用数据库中可能包括各种各样的类型：单独的二元数据、分类/标称数据、序数型数据等等，或者将这些类型属性组合在一起。一些聚类算法在聚类分析中要求用户输入参数，且输入参数对聚类精度有较大的影响。通常这些参数不是很容易确定，要求用户进行这样的操作无疑使得聚类质量难以保证，同时不便于用户使用，使用户感到反感导致不能为他们提供良好的服务。实际上绝大多数的数据集中，可能存在孤立点，数据对象的某些值有可能早已经丢失，严重情况下数据甚至是错误的。由于噪声、孤立点敏感，不适用于非凸型分布数据集，由于不可逆行，一个合并或***完成之后，无法回溯。如何保证算法在处理含有噪声的数据处理中聚类质量也是聚类算法的重点和难点。根据研究目的，在聚类分析前，确定以哪些变量指标为依据进行聚类。选择的聚类指标一定要能够反映和覆盖聚类的特征，如果聚类指标不全或者代表性差，将直接影响结果。近年来,聚类分析理论呈多样化发展,应用范围也已扩展至图像处理、气象分析、医学等领域。图像处理是聚类分析应用研究的一个新兴的方向,而图像分割则是该方向研究的一个分支。由于授时***的开放性和复杂性，也为恶意攻击者提供了机会。如果授时***遭到攻击，将会导致各个终端设备的时间不准确，从而影响正常的工作流程和数据传输。为了解决这一问题，授时安全防护装置应运而生。它通过采用多种策略和技术，对授时***进行全面的防护。目前卫星授时保护装置对欺骗式信号的检测判断大多采用载噪比变化、速度变化、位置偏差、秒脉冲偏差，而对其阈值的设置缺乏参考值，阈值离实际值越近，灵敏度越高，误报率越高，且晴天配置的参数，可能在阴天或雨天就产生误报。然而授时***本身的复杂性也增加了防护装置的设计和部署的难度。如今的北斗卫星授时和GPS授时都是主要时间来源方式，由于授时保护设备是与外界完全隔离的，只需要给它一个准确且稳定的正弦波时钟信号，那它就能产出一个高精度的授时信号。不会受环境变化影响，即便受到攻击，由于驯服钟的存在，它依然能对抗干扰保证相当长时间的正常工作。它主要是通过同步时钟和控制时间信号来实现的。然而，授时安全防护装置也存在一些挑战，在气象导航信号特征聚类分析中，当前授时保护装置作流程存在阈值单一，需要手动配置，天气恶劣时，容易误判等问题。

发明内容

本发明的目的是针对现有技术存在问题和K-means算法和引力搜索算法各自的不足之处，提供一种能够提高收敛速度和聚类质量，聚类分类结果更加智能，集合意义直观，资源消耗少，处理速度快，占用内存少，原理简单，执行速率快，具有高效性和伸缩性的气象导航信号特征聚类分析方法。以解决当前授时保护装置存在的问题。

本发明实现上述目的的气象导航信号特征的聚类分析方法，其特征在于包括如下步骤：

Step1：在授时设备与导航卫星信号接收天线之间，实时监测接收到的导航卫星信号，气象数据采集***基于特定地域，在不同气象条件下，对气象导航信号特征的m个变量作n次采样，选择能够反映和覆盖聚类特征的聚类指标，对采样数据进行分类，用m个指标来描述采样的特征，在用相似系数时，以相似性指标统计分类指标，找出其空间结构的分布特征和相似系数最大的两类合并，将特征相似的采样聚为同一类，相似的就归为一类，并将数据传输到天气信息***的气象数据链上；

Step2：气象信息处理***根据运行地当下气象信息作为地面气象设备的检验模式输入，以直接或间接的观测数据作为输入数据来驱动模式运行，对输入的气象参数进行自动分析、检索各类天气的气象数据，基于对气候***各分量过程的观测数据的整理与归纳，将气象要素资料的图象和气象图象进行编辑、加工，动态计算授时保护模块的保护阈值，利用K-means的聚类结果的聚类中心点初始化气象因子群的气象因子，其后利用引力搜索算法GSA进行全局搜索，分别对各样本气象要素进行聚类搜索后，提取气象因子最大值作为特征因子，更新聚类中心的位置和适应值，运用数学方法对不同的采样样本进行数字分类，定量地确定样本之间的亲疏关系，并按照它们之间的相似程度，根据分类对象的不同，将数据对象分成若干个聚簇的归组并类为样本聚类和变量聚类，然后规定采样样本之间的距离或相似系数和类与类之间的距离，将距离比较近的个体归为一类，再将距离最近的两类合并，依次下去，直至所有采样样本并成一类，或各类之间的距离大于给定阈值T为止；

Step3：在测试数据集下，进行组合解算导航信号特征采样样本n个采样两两间的距离d，基于减法聚类确定的聚类数，引入遗传算法GA确定出各类气象要素在特征空间中对应各聚类中心的隶属区域范围、聚类数k和相应的初始聚类中心点，依据最小距离原则将样本集中的每一个样本分配到k个聚类的其中的至少一个；

Step4：设定的临界隶属度，根据挖掘目的对采样数据进行选择和数据预处理，将远离聚类中心的疏散点作为噪声和边远零散点去除，消除变量间的相关性；

Step5：设m维变量的k个总体遵从正态分布，且具有相同的协方差，可知略去与K无关的项，合并同类项，以每行为一个分类特征指标变量，每一列为一个采样集同簇中样本，得到样本矩阵，将样本矩阵设置为对称性协方差矩阵及逆矩阵，建立概率统计模型，利用K-means的聚类结果的聚类中心点初始化气象因子群的气象因子，更新聚类中心的位置和适应值，并将气象数据对象的顺序输入概率统计模型：根据样品聚类的结果进行判别分折，得出判别函数，先进行变量聚类，找出彼此独立且有代表性的自变量，将相似系数中两个最相似的两个点的相位系数保留下来作为第一级归并级的相似水平，把平均相似系数作衡量判据，如此下去，每一次都将最相似或最近的两组归并，直到所有个体归并为一组为止；

Step6：计算每组的相关阵及相关距离系数，从相关距离系数阵出发作逐级归并，把归并过程制成枝形图，在每级归并后按平均权重串组法计算各组的相似系数阵，以新的相似距离系数矩阵为基础，重复上述过程，做新的合并后，又重新计算串组后的距离系数矩阵，利用聚类算法，构造树状结构，得到一个树状决策图的聚类结果；

Step7：气象信息***以新的信息技术为基础进行测试、校准和验证，利用贝叶斯后验概率原理，按照天气和GNSS卫星轨道仰角，对GNSS卫星导航接收机输出的原始观测量和定位结果、授时信息等量纲进行聚类，不断更新，授时输出包含原始观测量载噪比，速度、定位结果输出位置，秒脉冲偏差的量纲。

本发明相比于现有技术具有如下有益效果：

本发明基于引力搜索的K-means聚类算法，用K-means得到的聚类结果作为引力搜索算法的初始气象因子群，利用K-means的聚类结果的聚类中心点初始化气象因子群的气象因子，其后利用GSA进行全局搜索，然后利用引力搜索算法进行全局搜索，更新聚类中心的位置和适应值；且该参数的调节具有较强的鲁棒性，避免了优化参数问题。通过验证算法的有效性和可行性。这种将K-means算法和引力搜索算法进行结合，当适应值达到某个阈值时，运用K-means将数据分到以每个气象因子为中心的聚类中，并利用K-means原理计算新的聚类中心，再用新的聚类中心作为气象因子的编码值，继而更新气象因子的适应值。这样可以加快引力搜索算法的收敛速度，避免K-means过早陷于局部最优。通过实验分析，证明方法较引力搜索聚类算法提高了收敛速度和聚类质量。还可以避免当前授时保护模块工作流程存在阈值单一，需要手动配置，天气恶劣时，容易误判等问题。

本发明针对传统聚类方法存在的缺点，在测试数据集下进行组合解算导航信号特征采样样本n个采样两两间的距离d，基于减法聚类确定的聚类数，引入遗传算法分别对各样本气象要素进行聚类搜索，确定出各类气象要素在特征空间中对应各聚类中心的隶属区域范围、聚类数k和相应的初始聚类中心点，这种采用模糊C均值聚类(FQM)遗传算法(GA)和模糊减法聚类(FSC)相互交叉优势互补的思想，既克服了GA/FQM算法局部全局寻优的不足，又可客观确定出聚类中心数目。

本发明将气象数据对象的时间序列数据输入概率统计模型：根据样品聚类的结果进行判别分折，得出判别函数，先进行变量聚类，找出彼此独立且有代表性的自变量，将相似系数中两个最相似的两个点的相位系数保留下来作为第一级归并级的相似水平，把平均相似系数作衡量判据，对高维特征空间中的重叠和交叉部分的样本点类属，通过计算其与空间中各聚类中心点的欧氏距离来予以甄别，最后得到高维特征空间中各天气的类属域，实况云图中诸像素点通过计算和判断其灰度锑度特征量在高维空间中的投影点落区位置，即可确定其天气类属，进而实现对天气区的自动分类。试验结果表明该方法具有良好的分类效果，判别结果与天气实况基本一致。聚类的分类结果会更加智能，也能够较大程度地减少人为主观因素的干扰。

本发明针对传统聚类方法存在的缺点，从相关距离系数阵出发作逐级归并，把归并过程制成枝形图，在每级归并后按平均权重串组法计算各组的相似系数阵，以新的相似距离系数矩阵为基础，重复上述过程，做新的合并后，又重新计算串组后的距离系数矩阵，利用聚类算法，得到聚类结果，最后的聚类结果是一个树状的决策图。利用模糊C均值聚类遗传算法和模糊减法聚类相互交叉优势互补的思想和途径；对合成后高维特征空间中重叠和交叉部分的样本点属性，通过计算其与空间中各聚类中心点的欧氏距离来予以确认，最后得到高维特征空间中各类天气的隶属域判据。仿真实验表明,该方法不仅实现简单、效率高,鲁棒性好，处理速度快，占用内存少，原理简单，集合意义直观，资源消耗少，执行速率快，而且还能通过对邻域相关参数的调整获取最佳的云图分割效果。

本发明气象信息***以新的信息技术为基础，利用贝叶斯后验概率原理，按照天气和GNSS卫星轨道仰角，对GNSS卫星导航接收机输出的原始观测量和定位结果、授时信息等量纲进行聚类，授时输出包含原始观测量载噪比，速度、定位结果输出位置，秒脉冲偏差的量纲。使得授时保护模块能够不使用阈值的情况下，根据运行区域的天气气象信息进行信号可信性判定，解决当前授时保护模块存在的问题。该方法大大取代了手工操作，为天气的预警、预测提供了方便。

附图说明

图1是本发明气象导航信号特征聚类分析流程图；

图2是授时保护模块的流程示意图。

具体实施方式

参阅图1。根据本发明，采用如下步骤：

本实施例的气象信息***包括：气象数据采集***、气象信息处理***，气象数据采集***利用通信技术将各种数据传输给气象信息处理***。

授时保护模块使用精确的时钟和时间源，直接串行接入时间同步装置/时间服务器与卫星天线之间，通过网络接口输出当前卫星信号干扰和欺骗检测状态信息，实时检测接收信号中是否存在干扰，当干扰功率达到一定强度后发出干扰告警，当检测接收信号中存在欺骗信号时，识别和隔离攻击源，关闭输出信号并发出欺骗告警。

在聚类分析前，气象数据采集***采用信号转换模块将原始数据转化为同标准的标准，在同一标准下，用变量值除以最大值减去最小值全距，变量值减去最小值再除以全距，变量值除以最大值进行标准化处理；根据研究问题的特征，结合实际工作经验，挑选对聚类效果影响显著的变量，对所有变量的数据进行主成分分析，基于≥85％的方差贡献率，选择主要成分的个数，把起主要成分作用的变量选出，进行因子分析，用因子模型剔除剩余变量。根据K均值聚类法，选择k个气象要素观测量或指定气象要素观测量作为聚类的种子，将每个气象要素观测量在n维空间中作为一个点，每一类中的n个均值在n维空间中形成k个点，以k个事先选定的气象要素观测量作为k个聚类中心点，将初始类中心的n个变量组成n维空间。

由于聚类分析主要是基于个案或变量之间的距离或者相似性，最初代表k个簇的中心点是在数据域中随机选取的。要保证可比性，就要求数据无量纲差异，如数量级、单位上的差异，能够在同一标准下进行比较。k-均值聚类的目标是最小化总的簇内方差，是衡量内部聚类的方式的指标。因此，在聚类分析前，需要对数据进行处理，将原始数据转化为无量纲的数据。气象信息处理***基于贝叶斯后验概率理论，将每个样本与离它最近的中心点相关联，形成k个簇，找到k个簇中各自的样本点的平均值，将其作为新的中心点，直重复直到中心点的变化幅度小于某个阈值，并在运行区域的特定天气下，对卫星导航授时模块的载噪比、速度、位置、秒脉冲差统计，形成聚类的指纹库，其中：

卫星导航授时模块的速度：V_i＝(W_i，v，μ_iv，σ_iv)

位置：P_i＝(W_i，P，μ_iz，σ_iz)

载噪比S_i：S_i＝(W_i，S_n，μ_in，σ_in)

秒脉冲差：T_i＝(W_i，T，μ_i，σ_i)

其中，W_i为已知气象条件，v为速度，μ_iv为速度均值，σ_iv为速度标准差；P为定位输出位置，μ_iz为位置均值，σ_iz为位置标准差；S_n为参与定位解算的卫星，μ_in为均值，σ_in为标准差；T为秒脉冲时间差，μ_i为时差均值，σ_i为时差标准差。

同一气象条件下，卫星信号的衰减及延迟分布可以近似用高斯概率分布来描述，因此本实施例，基于卫星信号解算出的速度V_i、位置P_i定位结果、载噪比S_i及秒脉冲时差S_i，可以将其概率密度函数近似表示为：

式中，x表示授时定位模块实时输出的值；μ表示均值；σ表示标准偏差。

气象信息处理***根据贝叶斯和全概率公式进行贝叶斯估计，分别以气象聚类的V_i，P_i，S_i，T_i的N个参考点：以参考点的多维指纹数据，先验概率计算后验概率，并计算出各数据落入对应气象条件类的概率。

贝叶斯公式

式中，事件B_i的概率为P(B_i)，事件B_i已发生条件下事件A的概率为P(A|B_i)，事件A发生条件下事件B_i的概率为P(B_i|A)。

样本空间假设由两个事件组成，比方A和A'.那么在这个样本空间中发生的时间B的概率的计算公式是：全概率公式P(A)＝Σⁿ _k＝1P(B_k)P(A/B_k)，它将对一复杂事件A的概率求解问题转化为在不同情况下发生的简单事件的概率的求和问题。如果事件B₁、B₂、B₃…B_k构成一个完备事件组，即它们两两互不相容，其和为全集；且P(B_k)＞0，k＝1,2，…，n，则对任一事件A有：

P(A)＝P(A|B₁)P(B₁)+P(A|B₂)P(B₂)+...+P(A|B_k)P(B_k)；或者：

P(A)＝P(AB₁)+P(AB₂)+...+P(AB_k))，其中A与B_k的关系为交。

气象信息处理***按照距聚类中心的距离最小原则，把气象要素观测量分派到各类中心所在的类中，完成第一次迭代形成的k类；根据组成每一类的气象要素观测量，计算各变量均值，对聚类中心进行第二次迭代，二次迭代后，聚类中心的变化为0，迭代停止，按照这种方法依次迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，迭代停止，聚类过程结束。即类中心聚类变化的最大值小于初始类中心距离的2％时，迭代停止，在每次迭代结束后当所有的样品聚类完成后，再计算新的类中心，开始下一次迭代，这样会节省运算时间。选择“聚类成员”将生成一个新变量，表示每一观察单位的所属类别，***默认变量名为“QCL_n”，n为产生新变量的序号。选择“与聚类中心的距离”将生成一个新变量，表示每一观察单位与类中心的距离。

在样本动态聚类过程中，气象信息处理***利用SPSS统计软件，选择n个数值型变量参与聚类分析，从数据库随机挑个随机点作为种子点；当要聚类的类数已知时，使用K-meanscluster执行快速聚类Quick Clustering(快速样本聚类过程)命令，通过计算机程序找出点群的两个种子点，不断地取离种子点最近均值，然后对所有点求到这K个种子点的距离，计算数据聚集新类与其它类的距离，计算距离得到距离阵。快速聚类属于非层次聚类方法，又称“K-均值(K-means)聚类，也叫动态聚类、逐步聚类、迭代聚类，是动态样品聚类方法中常用的一种，其基本思想是对n个数值变量进行快速聚类，则n个变量组成n维的空间，每个样品(Case)是空间中的一个点，最终按照事先要求聚类成K个类别。快速聚类计算速度较快，其特点是：处理速度快，占用内存少，适合于大样本的聚类分析，最后要求聚类数为k。

气象信息处理***采用K-means.算法，随机选择k个样本作为簇类初始中心，采用聚类算法快速确定聚类中心点之后再定义样本标签，对相同气象数据样本进行聚类，然后根据相似度划分剩余点标签调节比例参数，选择若干个聚类中心，依据与聚类中心的距离分出初始分类，判断初始分类是否合理，如果合理，则完成分类，如果不合理，采用模糊C均值聚类方法对引入遗传算法GA的聚类结果进行调整，修改调整分类，如此迭代循环后，应用分割法对气象要素时间序列进行分割，分割出各段内数据，某段内各数据的变化幅度用该段的方差来表示，或者用离差平方和来表示，比较不同的分割，找出其中的最小值，确定最佳分割点，可以用分割后的各段变差之和作为某种分割的优劣标准，通过标准化处理，消除变量间的量纲关系的影响，让不同变量能够在同一个标准下进行比较，计算任意分割点i,j之间的变差，组成一变差矩阵V，由矩阵V中元素计算各种可能的变差，作进一步的聚类优化，分割对应的各部分数据的总变差，以变差最小者为最优。变差愈小表明各段数据愈接近。即用遗传算法GA确定的聚类中心替代常规FQM算法中随机选取的初始聚类中心，作进一步的聚类优化。本实施例可极大降低算法的时间复杂度，可见该算法提高了寻优速度。另外，本实施例算法仅有1个可调参数(即调节比例)，且该参数的调节具有较强的鲁棒性，避免了优化参数问题。

定义类间距离，将n个变量归为n类，或变量单独为一类，构造n个类，计算所有类与类之间的距离，合并距离最近的两类为新的一类，计算新的一类与当前各类的距离，再次合并距离最近的两类为新的一类，再计算新的聚类中心，如此重复，直到所有个气象因子或变量全都归为一大类，然后根据距离选择最相似的一对并成一个新类，计算新类与当前各类的距离与其它类的距离，合并距离最近、最相似的两类为一个新类，合并最相似两类，若类的个数等于1，绘制各次聚类结果，绘制聚类图，根据最终的聚类图，决定气象因子的分类数和类别。

本实施例快速聚类分析使用的是欧氏距离平方，各变量的权重相等。如果使用其他统计量进行聚类，则不能用这种方法。本实施例快速聚类变量必须是连续变量。如果测定变量的单位不同，应该对聚类变量进行标准化后，再进行聚类，否则会得出错误的结论。每个气象要素观测量被分配到类后即刻计算新的类中心，所有气象要素观测量分配后再计算，可以节省迭代时间。其余点分离出来，即可快速确定聚类中心，求出气象数据的聚类中心和簇类数后，可以得到多维尺度变换聚类分布图。

参阅图2。为解决当前授时保护模块存在的问题，涉及到的量纲包含载噪比(原始观测量)，速度、位置(定位结果输出)，秒脉冲偏差(授时输出)。

授时保护模块能够不使用阈值的情况下，利用贝叶斯后验概率原理，按照天气和GNSS卫星轨道仰角，对GNSS卫星导航接收机输出的原始观测量和定位结果、授时信息等量纲进行聚类。授时保护模块上电后，实时监测接收到的导航卫星信号，识别并隔离干扰信号、欺骗信号，对位置偏差、速度、载噪比范围、秒脉冲差进行配置阈值，基于数据采集，形成指纹库，按照小雨、中雨、大雨、雪、中雪、大雪、云(云层厚度分为三级)、晴10大类气象，对采集数据进行聚类；对原始观测量数据，按照GNSS卫星的仰角进行二次聚类；由于数据近似满足高斯分布，据此，计算出均值和方差：

然后运行数据概率计算，通过贝叶斯后验概率模型统计随机事件Z_i及随机试验的样本空间S，以为任意量N，在载噪比等量纲条件下聚类到某气象条件的先验概率p(S|Z_i)p(Z_i)，以及全概率公式计算出的该量纲在所有类气象条件下的先验概率和再计算出当前采集到的数据落在各气象信息类的概率，得到某类气象条件下该量纲(载噪比等)的后验概率p(Z_i|S)，

然后，对使用各个参数在气象类别概率的乘积，得到概率最大的气象类别；并基于运行区域的天气气象信息进行信号可信度判定，根据阈值判断信号可信度，如果连续时间内，概率最大的气象类别和当前气象类别相符或者相近，判断为可信，反之，则判断为GNSS信号不可信。可信则北斗授时，否则进行自我守时自我守时。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种气象导航信号特征的聚类分析方法，其特征在于包括如下步骤：

Step5：设m维变量的k个总体遵从正态分布，且具有相同的协方差，可知略去与K无关的项，合并同类项，以每行为一个分类特征指标变量，每一列为一个采样集同簇中样本，得到样本矩阵，将样本矩阵设置为对称性协方差矩阵及逆矩阵，建立概率统计模型，利用K-means的聚类结果的聚类中心点初始化气象因子群的气象因子，更新聚类中心的位置和适应值，并将气象数据对象的顺序输入概率统计模型，根据样品聚类的结果进行判别分折，得出判别函数，先进行变量聚类，找出彼此独立且有代表性的自变量，将相似系数中两个最相似的两个点的相位系数保留下来作为第一级归并级的相似水平，把平均相似系数作衡量判据，如此下去，每一次都将最相似或最近的两组归并，直到所有个体归并为一组为止；

Step7：气象信息***以新的信息技术为基础进行测试、校准和验证，利用贝叶斯后验概率原理，按照天气和GNSS卫星轨道仰角，对GNSS卫星导航接收机输出的原始观测量和定位结果、授时信息的量纲进行聚类，不断更新，授时输出包含原始观测量载噪比，速度、定位结果输出位置，秒脉冲偏差的量纲。

2.如权利要求1所述的气象导航信号特征的聚类分析方法，其特征在于：在聚类分析前，气象信息处理***采用信号转换模块将原始数据转化为同标准的标准，在同一标准下，用变量值除以最大值减去最小值全距，变量值减去最小值再除以全距，变量值除以最大值进行标准化处理。

3.如权利要求2所述的气象导航信号特征的聚类分析方法，其特征在于：气象数据采集***根据研究问题的特征，结合实际工作经验，挑选对聚类效果影响显著的变量，对所有变量的数据进行主成分分析，基于≥85％的方差贡献率，选择主要成分的个数，把起主要成分作用的变量选出，进行因子分析，用因子模型剔除剩余变量。

4.如权利要求3所述的气象导航信号特征的聚类分析方法，其特征在于：根据K均值聚类法，选择k个气象要素观测量或指定气象要素观测量作为聚类的种子，将每个气象要素观测量在n维空间中作为一个点，每一类中的n个均值在n维空间中形成k个点，以k个事先选定的气象要素观测量作为k个聚类中心点，将初始类中心的n个变量组成n维空间。

5.如权利要求1所述的气象导航信号特征的聚类分析方法，其特征在于：气象信息处理***基于贝叶斯后验概率理论，将每个样本与离它最近的中心点相关联，形成k个簇，找到k个簇中各自的样本点的平均值，将其作为新的中心点，直到中心点的变化幅度小于某个阈值，并在运行区域的特定天气下，对卫星导航授时模块的载噪比、速度、位置、秒脉冲差统计，形成聚类的指纹库，其中：

卫星导航授时模块的

速度：V_i＝(W_i，v，μ_iv，σ_iv)

位置：P_i＝(W_i，P，μ_iz，σ_iz)

载噪比S_i：S_i＝(W_i，S_n，μ_in，σ_in)

秒脉冲差：T_i＝(W_i，T，μ_i，σ_i)

6.如权利要求5所述的气象导航信号特征的聚类分析方法，其特征在于：同一气象条件下，卫星信号的衰减及延迟分布近似用高斯概率分布来描述，基于卫星信号解算出的速度V_i、位置P_i定位结果、载噪比S_i及秒脉冲时差S_i，可以将其概率密度函数近似表示为：

7.如权利要求1或2所述的气象导航信号特征的聚类分析方法，其特征在于：根据贝叶斯和全概率公式进行贝叶斯估计，分别以气象聚类的V_i，P_i，S_i，T_i的N个参考点：以参考点的多维指纹数据，先验概率计算后验概率，并计算出各数据落入对应气象条件类的概率；按照距聚类中心的距离最小原则，把气象要素观测量分派到各类中心所在的类中，完成第一次迭代形成的k类；根据组成每一类的气象要素观测量，计算各变量均值，对聚类中心进行第二次迭代，二次迭代后，聚类中心的变化为0，迭代停止，按照这种方法依次迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，迭代停止，聚类过程结束。

8.如权利要求1所述的气象导航信号特征的聚类分析方法，其特征在于：在样本动态聚类过程中，利用SPSS统计软件，选择n个数值型变量参与聚类分析，从数据库随机挑个随机点作为种子点；当要聚类的类数已知时，使用K-meanscluster执行快速聚类命令，通过计算机程序找出点群的两个种子点，不断地取离种子点最近均值，然后对所有点求到这K个种子点的距离，计算数据聚集新类与其它类的距离，计算距离得到距离阵，并采用K-means.算法，随机选择k个样本作为簇类初始中心，采用聚类算法快速确定聚类中心点之后再定义样本标签，对相同气象数据样本进行聚类，然后根据相似度划分剩余点标签调节比例参数，再计算新的聚类中心，如此迭代循环。

9.如权利要求8所述的气象导航信号特征的聚类分析方法，其特征在于：选择若干个聚类中心，依据与聚类中心的距离分出初始分类，判断初始分类是否合理，如果合理，则完成分类，如果不合理，采用模糊C均值聚类方法对引入遗传算法GA的聚类结果进行调整，修改调整分类，如此迭代循环后，应用分割法对气象要素时间序列进行分割，分割出各段内数据，某段内各数据的变化幅度用该段的方差来表示，或者用离差平方和来表示，比较不同的分割，找出其中的最小值，确定最佳分割点，用分割后的各段变差之和作为某种分割的优劣标准，通过标准化处理，消除变量间的量纲关系的影响，让不同变量能够在同一个标准下进行比较，计算任意分割点i,j之间的变差，组成一变差矩阵V，由矩阵V中元素计算各种可能的变差，作进一步的聚类优化，分割对应的各部分数据的总变差，以变差最小者为最优。

10.如权利要求1所述的气象导航信号特征的聚类分析方法，其特征在于：定义类间距离，将n个变量归为n类，或变量单独为一类，构造n个类，计算所有类与类之间的距离，合并距离最近的两类为新的一类，计算新的一类与当前各类的距离，再次合并距离最近的两类为新的一类，如此重复，直到所有个气象因子或变量全都归为一大类，然后根据距离选择最相似的一对并成一个新类，计算新类与当前各类的距离与其它类的距离，合并距离最近、最相似的两类为一个新类，合并最相似两类，若类的个数等于1，绘制各次聚类结果，绘制聚类图，根据最终的聚类图，决定气象因子的分类数和类别。