CN106055883B

CN106055883B - 一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法

Info

Publication number: CN106055883B
Application number: CN201610353984.0A
Authority: CN
Inventors: 张春; 于之虹; 张军; 鲁广明; 杨超平; 戴红阳; 张爽; 田芳; 高峰; 李岩松; 田蓓
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2022-09-02
Anticipated expiration: 2036-05-25
Also published as: CN106055883A

Abstract

本发明涉及一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，方法包括：利用采用模糊C‑均值聚类算法去除电网运行样本数据中的冗余数据；利用主成分分析法获取电网运行样本数据中贡献率最大的三维数据作为电网运行样本数据的低维空间映射点坐标向量的初始值；采用迭代修正法对电网运行样本数据的低维空间映射点坐标向量的初始值进行修正，获取电网运行样本数据的低维空间映射点坐标向量；根据电网运行样本数据的低维空间映射点坐标向量评判电网运行样本数据的有效性。本发明提供的方法，能够在电力***暂态稳定评估时，利用主成分分析法为迭代提供初始值，使映射结果稳定，并且采用迭代修正的方法求解低维空间映射点坐标，加快了求解速度。

Description

一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法

技术领域

本发明涉及电力***安全稳定分析技术领域，具体涉及一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法。

背景技术

在基于机器学习技术的电力***暂态稳定评估(TSA)方法中，可以将判稳结果当做一个分类问题来处理。即通过选择一组合适的分类特征来描述***的状态，建立一个高维的输入空间，然后再采用一种合适的分类方法对样本进行分类。分类结果的质量不仅与采用分类方法的性能有关，还与所选取的特征子集有关，因为选择的输入特征的表达能力决定了输入空间的可分性。如果选取的输入特征是无效的，那么无论采用何种分类器都无法将稳定样本和失稳样本分开。由于缺乏一个有效的方法来评估输入空间的可分性。当采用某种方法进行分类时，如果分类结果不理想，就无法判断问题究竟出自分类方法或者是输入特征的表达能力。为解决这个问题，需要初步分析所提取的特征区分稳定样本与失稳样本的能力。

鉴于此，很多学者引入了sammon映射算法来分析选择特征的有效性和输入空间的可分性。Sammon映射算法是一种从高维空间转化为低维空间的方法，采用非线性迭代计算方式可以有效地促进数据的降维，并且使低维空间中的映射点相互之间的距离与原始高维空间中点与点之间的距离尽量相同，从而保持各样品整体结构不变。将一个高维的输入空间近似地转化为一个二维或三维的空间后，可以在低维空间中对数据特征的有效性进行直接的可视化研究。在二维或者三维空间标绘出原始样本的映射点后，当稳定样本与失稳样本的映射点能明显分开时，表明选择的特征是有效的，所构成的输入空间具有可分性。若两种坐标点相互混杂，则说明该特征集是没有分类能力的。

然而，传统sammon映射算法接采用拟牛顿法或梯度下降法等最优化方法求解。和其它迭代学习算法一样，存在着容易陷入局部极值问题，对初始值也比较敏感，并且迭代计算过程耗时长。

发明内容

本发明提供一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，其目的是在电力***暂态稳定评估时，利用主成分分析法为迭代提供初始值，使映射结果稳定，并且采用迭代修正的方法求解低维空间映射点坐标，加快了求解速度。

本发明的目的是采用下述技术方案实现的：

一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，其改进之处在于，包括：

初始化电网运行样本数据；

采用模糊C-均值聚类算法去除电网运行样本数据中的冗余数据；

采用主成分分析法获取所述电网运行样本数据中贡献率最大的三维数据作为所述电网运行样本数据的低维空间映射点坐标向量的初始值；

采用迭代修正法对所述电网运行样本数据的低维空间映射点坐标向量的初始值进行修正，获取所述电网运行样本数据的低维空间映射点坐标向量；

根据所述电网运行样本数据的低维空间映射点坐标向量评判所述电网运行样本数据的有效性。

优选的，所述初始化电网运行样本数据，包括：

设所述电网运行样本数据的样本数为N，所述电网运行样本数据的特征数为p，构建N×p的电网运行样本数据的样本矩阵

其中，i∈[1,N]，j∈[1,p]，则

优选的，所述利用采用模糊C-均值聚类算法去除电网运行样本数据中的冗余数据，包括：

令聚类类别数c＝2，迭代停止的阀值为ε，初始聚类中心矩阵为

迭代计数器b＝0；

a.用[0,1]间的随机数初始化隶属矩阵U，其中，所述隶属矩阵U需满足：

式(1)中，u_ki为第k维电网运行样本数据中属于第i类的隶属度；

b.按下式确定初始聚类中心矩阵中第i个聚类中心：

式(2)中，i＝1,2，p为电网运行样本数据总维数，

为第k维电网运行样本数据中属于第i类的隶属度的m次幂，x_k为第k维电网运行样本数据，m＝2为加权指数；

c.对初始隶属矩阵U进行更新，按下式确定新隶属矩阵U^(b)中第k维电网运行样本数据中属于第i类的更新隶属度

式(3)中，i＝1,2，

为第k维电网运行样本数据与初始聚类中心矩阵中第i个聚类中心的距离度量，

为第k维电网运行样本数据与初始聚类中心矩阵中第j个聚类中心的距离度量；

d.对初始聚类中心矩阵V^(b)进行更新，按下式确定新聚类中心矩阵V^(b+1)中第i个聚类中心

e.若||V^(b+1)-V^(b)||≤ε，则执行步骤f，并输出V^(b+1)和U^(b)，否则，令b＝b+1，并返回步骤a；

f.遍历U^(b)中全部元素，设隶属度阈值为ρ，若第k维电网运行样本数据x_k属于V^(b+1)的隶属度均小于ρ，则去除第k维电网运行样本数据x_k。

优选的，所述利用主成分分析法获取所述电网运行样本数据中贡献率最大的三维数据作为所述电网运行样本数据的低维空间映射点坐标向量的初始值，包括：

对所述电网运行样本数据中元素x_ij进行标准化处理，获取x_ij的标准值

公式为：

式(5)中，N为所述电网运行样本数据的样本数，p为所述电网运行样本数据的特征数，i∈[1,N]，j∈[1,p]，

为第j维电网运行样本数据的均值，s_j为第j维电网运行样本数据的标准差，其中，所述第j维电网运行样本数据的均值

的计算公式为：

所述第j维电网运行样本数据的标准差s_j的计算公式为：

根据所述电网运行样本数据中元素x_ij的标准值

构建所述电网运行样本数据的标准矩阵S^*；

建立标准矩阵S^*的相关矩阵

并求解所述相关矩阵R的齐次方程|R-λI|＝0，获取所述相关矩阵R的特征根λ₁,λ₂,...,λ_p和特征向量u₁,u₂,..,u_p，其中，λ₁≥λ₂≥...≥λ_p，I为单位矩阵，λ为所述相关矩阵R的特征根，λ_p为所述相关矩阵R第p为元素的特征根，u_p为所述相关矩阵R第p为元素的特征向量；

按下式确定所述电网运行样本数据的低维空间映射点坐标向量的初始值[F_i1,F_i2,F_i3]：

[F₁,F₂,F₃]＝S^*[u₁,u₂,u₃] (8)

式(8)中，i∈[1,N]，N为所述电网运行样本数据的样本数，F₁为第1维空间映射点坐标向量的初始值，F₂为第2维空间映射点坐标向量的初始值，F₃为第3维空间映射点坐标向量的初始值。

优选的，所述采用迭代修正法对所述电网运行样本数据的低维空间映射点坐标向量的初始值进行修正，获取所述电网运行样本数据的低维空间映射点坐标向量，包括：

按下式确定所述电网运行样本数据的a维空间和b维空间映射点坐标向量的增量Δf_a和Δf_b：

式(9)中，f_a为第a维空间映射点坐标向量值，Δf_a为第a维空间映射点坐标向量的增量，d_kj为第k维电网运行样本数据与第j维电网运行样本数据的距离，j∈[1,p]，k∈[1,p]，p为所述电网运行样本数据的特征数，

其中，Iteration为修正次数，maxIteration为总修正次数，且maxIteration∈[10⁴N,10⁵N]；

将λ单调递减至0.01，递减次数为maxIteration，获取maxIteration组所述电网运行样本数据的低维空间映射点坐标向量的增量，并根据所述电网运行样本数据的低维空间映射点坐标向量的增量对所述电网运行样本数据的低维空间映射点坐标向量进行修正。

优选的，所述根据所述电网运行样本数据的低维空间映射点坐标向量评判所述电网运行样本数据的有效性，包括：

将所述电网运行样本数据的低维空间映射点坐标向量的坐标点标绘至坐标系，若所述电网运行样本数据中失稳数据的低维空间映射点坐标向量的坐标点与所述电网运行样本数据中稳定数据的低维空间映射点坐标向量的坐标点混合分布，则所述电网运行样本数据不具有有效性，若所述电网运行样本数据中失稳数据的低维空间映射点坐标向量的坐标点与所述电网运行样本数据中稳定数据的低维空间映射点坐标向量的坐标点能够可视化分开，则所述电网运行样本数据具有有效性。

本发明的有益效果：

本发明提供的一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，针对分析电力***暂态稳定输入特征是否有效性问题，根据电力***运行过程中数据不均衡特点，对传统sammon映射算法加以改进。利用模糊C-均值聚类，去除冗余的稳定样本数据且很好地保持了原始数据拓扑结构和统计特性，完成在迭代计算前对原始数据大样本的压缩任务。并且，改进算法比传统算法更具稳定性与高效性。一方面利用主成分分析法为迭代提供初始值，使映射结果稳定。另一方面，采用迭代修正的方法求解低维空间映射点坐标，加快了求解速度。

本发明提供的一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，为分析输入特征的有效性提供了有力工具，对暂态稳定特征的选取具有很好的指导作用。同样，在其他基于机器学习的电力***问题中也具有良好的应用前景。

附图说明

图1是本发明一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法的流程图；

图2是本发明实施例中失稳数据与稳定数据的低维空间映射点坐标向量的坐标点混合分布结构示意图；

图3是本发明实施例中失稳数据与稳定数据的低维空间映射点坐标向量的坐标点可视化分开结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供的一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法，如图1所示，包括：

101.初始化电网运行样本数据；

102.采用模糊C-均值聚类算法去除电网运行样本数据中的冗余数据；

103.采用主成分分析法获取所述电网运行样本数据中贡献率最大的三维数据作为所述电网运行样本数据的低维空间映射点坐标向量的初始值；

104.采用迭代修正法对所述电网运行样本数据的低维空间映射点坐标向量的初始值进行修正，获取所述电网运行样本数据的低维空间映射点坐标向量；

105.根据所述电网运行样本数据的低维空间映射点坐标向量评判所述电网运行样本数据的有效性。

所述步骤101，包括：

其中，i∈[1,N]，j∈[1,p]，则

在样本数量过大的情况下，映射算法时间会随着样本数的增加而急剧增加，影响分析结果的速度。而在电力***运行过程中，失稳样本数量极少，稳定样本数量多，且稳定样本数据中有大量样本数据是重复冗余的。故采用模糊C-均值聚类算法(Fuzzy C-Meansalgorithm,FCM)对稳定样本进行去除冗余处理，压缩样本数量，减轻计算量，从而加快分析选取特征的有效性的速度。

FCM是一种应用广泛的聚类方法，普通C-均值聚类中每个样本只能划分到一个类，而FCM则引入了隶属度的概念，是一种柔性的模糊划。FCM基于划分的聚类算法是对普通C-均值聚类算法的改进，因此所述步骤102，包括：

迭代计数器b＝0；

b.按下式确定初始聚类中心矩阵中第i个聚类中心：

式(2)中，i＝1,2，p为电网运行样本数据总维数，

式(3)中，i＝1,2，

Sammon映射是通过原始数据集的加权欧式距离，最小化目标函数E，最终将高维数据通过一个非线性映射投影到低维空间里。在映射的主要步骤中，存在着两个重要的影响因素影响着最终可视化结果的稳定性和映射速度：低维空间初始值的选取和迭代运算的次数。

因为sammon映射对低维空间中初始设定的位置值很敏感，而选取初始值的困难在于对所得到的初始值并没有统一的标准来衡量。所以通常的做法是，以不同的随机初始值进行多次计算，然后取其中最优解。这样做的计算量会很大，浪费大量时间，并且不良的映射效果有可能对分析选取特征集构成的输入空间的有效性造成误判。因此采用主成份分析(PCA)线性降维技术可以提供一个比较好的初始值。

主成分分析是一种多元统计分析方法。该方法通过构造原变量的一系列线性组合形成新变量，使这些新变量在彼此互不相关的前提下尽可能多地反映原变量的信息。数据信息主要反映在数据变量的方差上，方差越大，包含信息越多。通常用累计方差贡献率来衡量。主成分分析是对多个样本的输入变量形成的数据矩阵求取相关矩阵，根据相关矩阵的特征值，获得累计方差贡献率，再根据相关矩阵的特征向量，确定主成分，因此所述步骤103，包括：

公式为：

的计算公式为：

所述第j维电网运行样本数据的标准差s_j的计算公式为：

根据所述电网运行样本数据中元素x_ij的标准值

构建所述电网运行样本数据的标准矩阵S^*；

建立标准矩阵S^*的相关矩阵

[F₁,F₂,F₃]＝S^*[u₁,u₂,u₃] (8)

所述步骤104，包括：

所述步骤105，包括：

将所述电网运行样本数据的低维空间映射点坐标向量的坐标点标绘至坐标系，若所述电网运行样本数据中失稳数据的低维空间映射点坐标向量的坐标点与所述电网运行样本数据中稳定数据的低维空间映射点坐标向量的坐标点混合分布，如图2所示，则所述电网运行样本数据不具有有效性，若所述电网运行样本数据中失稳数据的低维空间映射点坐标向量的坐标点与所述电网运行样本数据中稳定数据的低维空间映射点坐标向量的坐标点能够可视化分开，如图3所示，则所述电网运行样本数据具有有效性。

稳定样本和失稳样本的映射点在三维空间中能够可视化分开，说明选取的特征子集是有效，所构成的输入空间具有可分性。如果稳定样本和失稳样本映射点不可分，则说明所选特征是没有分类能力的，需要重新选择输入特征。

在sammon映射算法的主要步骤中，存在着两个重要的影响因素影响着最终映射结果的稳定性和求解速度：低维空间初始值的选取和映射目标误差函数的最小化迭代。Sammon映射对低维空间中初始设定的位置值很敏感，而对低维空间映射点初始位置的设定值并没有统一的衡量标准。所以通常的做法是，采用随机数初始化初始位置，并以不同的随机初始值进行多次计算，然后选取其中解效果最优的映射结果。这种求解方式的计算量大，重复很多不必要的计算，而且不良的映射效果有可能对分析选取特征集构成的输入空间的有效性造成误判。相比之下，主成份分析(PCA)等线性降维技术可以提供一个比较好的初始值。用PCA得到原始样本中贡献率最大的三维数据代替原算法取随机数的方法，做为低维空间映射点坐标向量的初始值，可以使映射结果更加稳定，能够有效地减少计算次数。关于迭代运算次数问题，一方面在映射运算前，通过模糊C-均值聚类算法去除冗余稳定样本数据，减少计算量。另一方面采用迭代修正的方法代替计算过程繁重的最速下降法求解低维空间映射点的坐标向量。迭代修正法不断调整低维空间映射点的坐标位置，即调整低维空间的结构，当误差函数足够小时，低维空间和高维空间将具有相似的结构。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。