CN103777091A

CN103777091A - 一种基于k均值的高铁电能质量监测数据分类方法

Info

Publication number: CN103777091A
Application number: CN201310676852.8A
Authority: CN
Inventors: 杨岑玉; 王同勋; 周胜军; 谈萌; 杨柳
Original assignee: State Grid Corp of China SGCC; Smart Grid Research Institute of SGCC
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Smart Grid Research Institute of SGCC
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-05-07
Anticipated expiration: 2033-12-13
Also published as: CN103777091B

Abstract

本发明提出一种基于K均值的高铁电能质量监测数据分类方法，该方法首先将供电臂上仅有一辆高铁运行的电能质量数据分离出，然后利用高铁的运行时间、电能质量指标的统计值作为样本数据归一化后，进行K均值聚类，最终获取不同车型的电能质量监测数据的分类。本发明根据高铁牵引站电能质量监测数据，提供了一种简便快捷的将某供电臂上仅有一辆高铁运行的电能质量数据进行分离的方法；利用K均值聚类算法，完成了针对高铁车型的电能质量数据分类；不仅为研究某类型高铁运行过程中给电网带来的电能质量问题提供了基础。还可针对各种工况进行电能质量监测数据分类，为进一步细化高铁负荷的电能质量特性分析提供基础。

Description

一种基于K均值的高铁电能质量监测数据分类方法

技术领域

本发明属于高铁的电能质量数据分析领域，提供涉及一种基于K均值的高铁电能质量监测数据分类方法。

背景技术

高速铁路以节能、环保、高效、安全、舒适、快捷、准时等特点在我国迅猛发展，其正日新月异的改变着人们的出行和生活。然而高速铁路机车功率大、行车速度高，给担负其供电任务的沿线电网的电能质量带来了一定的影响。

我国高速铁路采用交-直-交大功率机车、高速度(最高运行速度350km／h以上)、高密度(最小追踪间隔3min)、大编组(最大16辆编组)的运营模式；高速铁路特别是京沪高速铁路的运输模式采取高速列车和跨线列车混跑的模式，这决定者高速铁路牵引负荷的特殊性和复杂性。电气化高速铁路机车属于非线性和冲击性负荷，其给电网主要带来负序和谐波等电能质量影响；同时不同车型的机车运行时引起电网的电能质量特性不同，特别是谐波特性。这些不仅对电网中其它设备造成不利影响，而且对自身运行的稳定性和可靠性构成威胁。电气化铁道的电力机车为波动性很大的大功率单相整流负荷，而且由于列车在运行过程中的加速、惰行、制动的各种状态，以及线路坡度、弯道半径、气象条件、司机操作等因素以及供电臂上列车数量的变化，牵引负荷随机波动。因此，在进行电能计量的分析时，必须充分考虑到电力机车的负荷特性。采用不同的交-直电力机车，其产生的谐波含量不同。为了进一步研究某车型投运后的电能质量特性，评估其给电网带来的影响，本发明提出了一种针对车型对电能质量监测数据进行了分类研究的方法。

发明内容

为了克服现有技术的缺陷，本发明的目的在于提出一种基于K均值的高铁电能质量监测数据分类方法，该方法首先将供电臂上仅有一辆高铁运行的电能质量数据分离出，然后利用高铁的运行时间、电能质量指标及其统计值作为样本数据归一化后，进行K均值聚类，最终获取不同车型的电能质量监测数据的分类。该发明为进一步研究某车型投运后的电能质量特性，评估其给电网带来的影响，进而为电网采取积极的应对措施提供了基础。

本发明是通过如下技术方案实现的：

一种基于K均值的高铁电能质量监测数据分类方法，其特征在于，该方法包括如下步骤：

(1)通过在线的电能质量监测仪获取高铁牵引站的电能质量监测数据；

(2)依据有车运行时的电能质量监测数据以及高铁在供电臂的运行时间，筛选出供电臂上仅有一辆车运行的电能质量数据；

(3)针对供电臂上仅有一辆车运行的电能质量数据，计算出一辆高铁的运行时间和电能质量指标的统计值；

(4)将步骤(3)中的运行时间和电能质量指标的统计值作为样本数据，并进行归一化处理；

(5)对进行归一化处理后的样本数据进行K均值聚类，以获取不同车型的电能质量监测数据分类。

进一步地，步骤(1)中，所述高铁牵引站的电能质量监测数据包括电压偏差、电流、负序电流、频率偏差、有功功率、无功功率、电量、谐波、间谐波、相角、电压波动与闪变、三相不平衡度、电压暂升、电压暂降和电压短时中断等。

进一步地，步骤(2)中，所述有车运行时的电能质量监测数据包括有功功率、负序电流和相角等。

进一步地，步骤(2)中，所述筛选出供电臂上仅有一辆车运行时的电能质量数据包括下述步骤：

(a)当有车运行时的电能质量监测数据同时大于预设阀值时，则视为供电臂有车的时刻，将供电臂有车的时刻由前到后进行排序得到有车时段的时间序列；

(b)根据有车时间序列，计算出各连续有车时段的时间长度；

(c)判断各连续有车时段的时间长度与最短通行时间的大小，对连续有车时段进行划分；

(d)判断各连续有车时段的时间长度与最长通行时间的大小，将连续有车时段划分为多辆车运行的有车时段和仅有一辆车运行的有车时段，进而得出供电臂上仅有一辆车运行时的电能质量数据。

进一步地，步骤(3)中，所述电能质量指标包括有功功率、无功功率、电流、负序电流、以及谐波的含量和次数等；所述电能质量指标的统计值包括电能质量指标的最大值、最小值、均值和方差等。

进一步地，步骤(3)中，所述一辆高铁的运行时间根据所述仅有一辆车运行时的电能质量数据所对应的起、止时刻的差值绝对值获得；

假设电能质量指标p按时间排列的向量为P，P=[p(1)，p(2)，...，p(i)，...，p(n)]，其中p(i)和p(n)分别为第i和n个采样时刻的电能质量指标，则所述电能质量指标指标p的最大值为p_max=max(P)、最小值为p_min=min(P)、平均值为

方差为

进一步地，步骤(4)中，将一辆高铁的运行时间和电能质量指标的统计值映射到[0，+1]区间，设定X′_i=(x′_i，l，x′_i，2，...，x′_i，j，...x′_i，M)是第i个样本数据，具共M个特征值，通过下式对样本数据进行归一化计算：

x_{i, j} = \frac{x_{i, j}^{'} - \min_{j = 1, . . ., m} (x_{i, j}^{'})}{\max_{j = 1, . . ., m} (x_{i, j}^{'}) - \min_{j = 1, . . ., m} (x_{i, j}^{'})}

式中，x′_i，j第i个样本数据的第j个特征值，x_i，j为第i个样本数据的第j个特征的归一化值。

进一步地，步骤(5)中K-均值聚类过程如下：

(a)从样本数据中选取4个样本，作为4个簇的初始聚类中心；

(b)将样本数据按照最小距离原则分配给最邻近的聚类中心；

(c)根据聚类结果，重新计算每个聚类中的样本均值作为新的聚类中心；

(d)重复步骤b和c直到聚类中心不再变化。

(e)聚类结束，得到4个簇。

与现有技术相比，本发明的有益效果在于：

1)本发明根据高铁牵引站电能质量监测数据，提供了一种简便快捷的将某供电臂上仅有一辆高铁运行的电能质量数据进行分离的方法；利用K均值聚类算法，完成了针对高铁车型的电能质量数据分类。

2)本发明为研究某类型高铁运行过程中给电网带来的电能质量问题提供了基础。此外，本发明所提方法也可针对工况(包括负荷制动、启动、稳定运行等)进行电能质量监测数据分类，为进一步细化高铁负荷的电能质量特性分析提供基础。

附图说明

图1是本发明的针对高铁车型的电能质量监测数据的分类的流程图；

图2是本发明的供电臂上仅有一辆车运行时的电能质量数据分类流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细描述。

本例中阐述了一种基于K均值的高铁电能质量监测数据分类方法，其流程图如图1所示，包括如下步骤：

(1)通过在线的电能质量监测仪获取高铁牵引站的电能质量监测数据。

高铁牵引供电站电能质量监测数据包含有功功率(P)、无功功率(Q)、电流(I)、谐波(I_h，I₁表示基波电流)、间谐波(I_ih)、电压(功、闪变(P_st)、负序(μ₂)等指标。

(2)依据有车运行时的电能质量监测数据以及高铁在供电臂的通行时间，筛选出供电臂上仅有一辆车运行的电能质量数据，其具体实现过程如图2所示。

I本发明首先针对电能质量的有功功率、负序电流和相角等指标对供电臂有车时段和无车时段的电能质量数据进行初步的分类。

依据有高铁进入供电臂后，将监测数据的某些指标比如说功率、负序电流和相角同时大于预设阈值作为判别条件，得到供电臂上任一时刻t1(i)(i=1，2，…n，n表示采样点个数)的有车情况：有车y=1和无车y=0。将有车y=1情况对应的时刻依次排列形成为有车时段的时间序列t(j)。

II然后根据有车时间序列，计算出各连续有车时段的时间长度。

利用后一点和前一点的时间差即t(j+1)-t(j)是否大于10s作为判据，寻找供电臂上连续有车时段的起始时刻t_b和终止时刻t_e。具体过程如下：如果t(j+1)-t(j)<10s，则j=j+1，进入下一个点进行判断；如果t(j+1)-t(j)≥10s，则认为t(j)为第n个连续有车时段的终止时刻t_e(n)，t(j+1)为第n+1个连续有车时段的起始时刻t_b(n+1)。

因此，根据某一连续有车时段的终止时刻t_e(n)与该连续有车时段的起始时刻t_b(n+1)之间的差值即可求得各连续有车时段的时间长度。

III进行连续有车时段的划分。

一辆高铁在供电臂的正常通行时间大概为4min到6min之间，则最短通行时间为4min，最长运行时间为6min。为了获得更为准确完整的连续有车时段，本发明利用高铁在供电臂上的最短通行时间4min进行进一步的判断。具体操作如下：计算第n个有车时段的时间长度t_interal=t_e-t_b，如果t_interal≥4min，则表示该第n个有车时段是完整的；如果t_interal<4min，则连接其后的有车时段，形成新的有车时段，直到该新的有车时段的时间长度大于最短通行时间4min，这样该新的有车时段也是完整的有车时段。

IV最后将连续有车时段划分为多辆车运行的有车时段和仅有一辆车运行的有车时段。

为了得到仅有一辆高铁运行的电能质量数据，本发明利用单辆高铁运行的最长时间作为判据，如果有车时段的时间长度＞6min，则认为是多辆车运行的有车时段；如果有车时段的时间长度≤6min，则认为是一辆车运行的有车时段，该时段对应的电能质量数据，就是本发明要获得的仅有一辆高铁运行的电能质量数据。

(3)针对供电臂上仅有一辆高铁运行时的电能质量数据，计算出一辆高铁的运行时间、电能质量指标及其统计值。

其中一辆车的运行时间可根据所得到的仅有一辆高铁运行的电能质量数据所对应的起止时刻相减获得。电能质量指标主要是指功率、电流、谐波含量、谐波次数、负序电流等指标。电能质量指标的统计值包括电能质量指标的最大值、最小值、均值、方差等。假设电能指标p的按时间排列的向量为P，P=[p(1)，p(2)，...，p(i)，...，p(n)]，其中p(i)和p(n)分别为第i和n个采样时刻的电能质量指标值，则该指标p的最大值为p_max=max(P)、最小值为p_min=min(P)、平均值为

p_{mean} = Σ_{i = 1}^{n} p (i) / n,

方差为

p_{var} = \frac{Σ_{i = 1}^{n} {(p (i) - p_{mean})}^{2}}{n - 1} .

(4)将运行时间、电能质量指标及其统计值作为样本数据，进行归一化处理。

为提高模型的泛化能力、减少程序训练的时间，将样本数据进行了归一化处理。本例中将所有高铁的运行时间、电能质量指标及其统计值映射到[0，+1]区间，假设X′_i=(x′_i，1x′_i，2′...，x′_i，m)是第i个样本数据，具有x′_i，1，x′_i，2，...，x′_i，m共m维变量，即m个特征值。

归一化公式为：

x_{i, j} = \frac{x_{i, j}^{'} - \min_{j = 1, . . ., m} (x_{i, j}^{'})}{\max_{j = 1, . . ., m} (x_{i, j}^{'}) - \min_{j = 1, . . ., m} (x_{i, j}^{'})};

上式中，x′_i,j第i个样本数据的第j个特征值，x_i，j为第i个样本数据的第j个特征的归一化值，归一化后的第i个样本数据为X_i=x_i,1，x_i，2，...，x_i，m)。

(5)进行K-均值聚类

(5a)依据车型：高速列车8编组、高速列车16编组、中速列车8编组和中速列车16编组，将仅一辆车运行时的电能质量数据分为四类；

(5b)选取4个初始聚类中心V_i(1)，i=1，2，…，4，i表示类的序号，括弧中1表示初始迭代运算次数；

例如：4个初始聚类中心可根据实际情况选取得较为分散些，比如16编组列车功率一般是8编组列车功率的2倍，这样就可以分别在1倍功率和2倍功率出选择初始聚类中心。

(5c)逐个将待聚类的数据样本(X₁，X₂，...，X_j，...，X_N)按最小距离准则分配给4个聚类中心中的某一个V_i(t)。计算第j个数据样本X_j与4个聚类中心V_i(t)，i=1，2，…，4的距离d(X_j，V_i(t))，i=1，2，3，4，若d(X_j，V_i(t))最小，则X_j为第i类，记为X′_j；

其中，X_j和X_N表示第j和N个数据样本；t表示迭代运算次数，初始为1；i表示类的序号，i=1，2，…，4；

(5d)计算4个新的聚类中心：。C_i表示第i类的样本个数。

(5e)如果V_i(t+1)=V_i(t)，i=1，2，...，4，则算法结束，并最终将样本数据聚为四类，即得到四类样本数据；否则，t=t+1，返回步骤(5c)。

(6)步骤(5)中获得的四类聚类样本数据，就是四种不同车型的电能质量监测数据。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于K均值的高铁电能质量监测数据分类方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(1)中，所述高铁牵引站的电能质量监测数据包括电压偏差、电流、负序电流、频率偏差、有功功率、无功功率、电量、谐波、间谐波、相角、电压波动与闪变、三相不平衡度、电压暂升、电压暂降和电压短时中断。

3.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(2)中，所述有车运行时的电能质量监测数据包括有功功率、负序电流和相角。

4.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(2)中，所述筛选出供电臂上仅有一辆车运行时的电能质量数据包括下述步骤：

(b)根据有车时间序列，计算出各连续有车时段的时间长度；

5.根据权利要求4所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(b)中，计算出各连续有车时段的时间长度包括如下步骤：

判断有车时间序列中相邻两时刻中后一时刻与前一时刻的时间差是否大于10s；

如<10s，则进入与后一时刻的下一时刻进行判断；

如≥10s，则将前一时刻视为该连续有车时段的终止时刻，将后一时刻视为下一连续有车时段的起始时刻，以此确定出各连续有车时段的时间长度。

6.根据权利要求4所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(c)中，对连续有车时段进行划分包括如下步骤：

判断各连续有车时段的时间长度与最短通行时间的大小；

如≥最短通行时间，表示该连续有车时段是完整的；

如＜最短通行时间，则将该连续有车时段与后一连续有车时段形成新的连续有车时段，直至该新的连续有车时段的时间长度大于或等于最短通行时间为止。

7.根据权利要求4所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(d)中，将所述连续有车时段划分为多辆车运行的有车时段和仅有一辆车运行的有车时段包括如下步骤：

判断各连续有车时段的时间长度与最长通行时间的大小；

如＞最长通行时间，则认为是多辆车运行的有车时段；

如≤最长通行时间，则认为是仅有一辆车运行的有车时段，该时段对应的电能质量数据即为仅有一辆车运行时的电能质量数据。

8.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(3)中，所述电能质量指标包括有功功率、无功功率、电流、负序电流、以及谐波的含量和次数；所述电能质量指标的统计值包括电能质量指标的最大值、最小值、均值和方差。

9.根据权利要求8所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(3)中，所述一辆高铁的运行时间根据所述仅有一辆车运行时的电能质量数据所对应的起、止时刻的差值绝对值获得；

假设电能质量指标p按时间排列的向量为P，P=[p(1)，p(2)，...，p(i)，...，p(n)]，其中p(i)和P(n)分别为第i和n个采样时刻的电能质量指标，则所述电能质量指标指标p的最大值为p_max=max(P)、最小值为p_min=min(P)、平均值为方差为

10.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(4)中，将一辆高铁的运行时间和电能质量指标的统计值映射到[0，+1]区间，设定X′_j=(x′_i，1x′_i，2...，x′_i，j...，x′_i，M)是第i个样本数据，具共M个特征值，通过下式对样本数据进行归一化计算：

x_{i, j} = \frac{x_{i, j}^{'} - \min_{j = 1, . . ., m} (x_{i, j}^{'})}{\max_{j = 1, . . ., m} (x_{i, j}^{'}) - \min_{j = 1, . . ., m} (x_{i, j}^{'})}

11.根据权利要求1所述的基于K均值的高铁电能质量监测数据分类方法，其特征在于，步骤(5)中，对进行归一化处理后的样本数据进行K均值聚类的方法包括如下步骤：

(a)依据车型将仅有一辆车运行时的电能质量数据分为四类，所述车型包括高速列车8编组、高速列车16编组、中速列车8编组和中速列车16编组；

(b)随机选取初始化聚类中心V_i(1)；

其中，i=1，2，…，4，i表示类的序号；1表示初始迭代运算次数；

(c)逐个将待聚类的样本数据(X₁，X₂，...，X_j，...，X_N)按照下述最小距离规则分配给4个聚类中心中的某一个V_i(t)，所述最小距离规则为：

计算第j个样本数据X_j与4个聚类中心V_i(t)，i=1，2，…，4的距离d(X_j，V_i(t))，i=1，2，3，4，若d(X_j，V_i(t))最小，则X_j为第i类，记为X′_j；

其中，X_j和X_N表示第j和N个样本数据；t表示迭代运算次数，初始为1；i表示类的序号，i=1，2，…，4；

(d)通过下式计算4个新的聚类中心：

V_{i} (t + 1) = \frac{1}{| C_{i} |} Σ_{k = 1}^{| C_{i} |} X_{k}^{i}, i = 1,2, . . ., 4

其中，C_i表示第i类样本数据的个数；

(e)如果V_i(t+1)=V_i(t)，i=1，2，...，4，则该K均值聚类算法结束，并将样本数据聚为四类；否则，令迭代运算次数t=t+1，跳转至步骤(c)。