CN112599134A

CN112599134A - 一种基于声纹识别的变压器声音事件检测方法

Info

Publication number: CN112599134A
Application number: CN202011400711.XA
Authority: CN
Inventors: 张晨晨; 季坤; 丁国成; 朱太云; 甄超; 李坚林; 陈庆涛; 吴兴旺; 杨海涛; 尹睿涵; 胡啸宇; 付成成; 高亮; 王维佳; 胡心颖
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; State Grid Anhui Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; State Grid Anhui Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-04-02

Abstract

本发明提供一种基于声纹识别的变压器声音事件检测方法，包括对变压器语音信号待测样本进行分帧；对每个语音信号帧进行加窗；对每个加窗后的语音信号帧进行离散傅里叶变换；根据傅里叶变换结果计算能量谱密度；采用50Hz倍频三角滤波器组对能量谱密度进行滤波；对滤波后的能量谱密度取对数，最终得到变压器语音信号待测样本的声纹特征；采用事先训练好的CapsNet胶囊网络模型对声纹特征进行检测，得到变压器语音信号待测样本的类别。本发明可以解决变压器声音事件重叠问题，有着较高的识别准确率，提高了变压器声音事件在线检测的智能水平。

Description

一种基于声纹识别的变压器声音事件检测方法

技术领域

本发明涉及变压器在线检测技术领域，具体是一种基于声纹识别的变压器声音事件检测方法。

背景技术

随着中国经济的发展，电力需求容量不断提升，电能质量问题备受关注。为增强电力***中的无功补偿与无功平衡，抑制***过电压，提高电能质量和供电可靠性，变压器的安全稳定运行尤为关键。大量实践表明，变压器出现严重事故前，往往都存在着潜伏性故障。目前，变压器保护主要是通过故障时的电压、电流等电气参量进行继电保护。然而，变压器潜伏性故障由于普遍存在于内部且难以检测，迄今缺乏有效的在线检测手段。

目前，针对变压器潜伏性故障检测主要围绕以下几种参量进行：

(1)绝缘水平相关检测参量：包括绝缘电阻、吸收比、极化指数、介质损耗因数、泄露电流等。围绕以上参量的检测手段能够反映大多数的电气故障及隐患，但都存在难以实现在线检测的缺陷。

(2)温度：测量变压器的温度参数能够检测到大部分故障，且通过适当的温度传感器如光纤温度传感器以及红外成像仪可以实现变压器的在线检测。然而，温度参量本身承载的信息量有限，难以对故障进行分类。另外，光学设备普遍价格高昂，难以在工程条件下大面积应用。

(3)振动信号：通过适当的算法对振动信号进行分析，可以得出故障类型。但缺点是经常需要贴近振动源进行测量，不适用于强场强位置。

几种测量参量都具有各自优缺点，振动信号相对于其他两项综合优势更为明显，但振动产生的声学特征量在过去的研究中被忽视。变压器在运行过程中由于受到电磁力、机械应力的作用，铁芯、绕组、操纵机构等会发生振动并产生机械波，经过绝缘介质与腔体的传播，产生的声学振动信号包含了大量的设备状态信息。尤其是当设备发生缺陷或故障后，内部组件或结构发生机械形变，会使其声学指纹(以下简称声纹)改变，可以作为诊断缺陷及故障的重要特征参量。另一方面，基于声学振动信号的声纹检测法与许多传统检测方法相比，可以实现在设备外部对其运行状态进行不停电检测，与电气设备没有任何电气连接，不影响***的正常运行；在安全地检测设备状态的同时，又能解决红外、紫外等远距离成像手段检测特征有限与检测纵深不足的问题。因此，有足够的理论和实践依据表明，声纹不停电检测在电网主设备状态检修领域中具有良好的应用前景。

申请号为201711262969.6的中国专利：一种小区变压器故障预防方法，其公开了采集变压器音频、振动信息，并基于音频、振动信息进行变压器故障判断的过程。但该专利是将采集的音频、振动信息与数据库中的数据进行简单比对以诊断故障，其故障判断的准确率取决于数据库中数据的准确性，需要另外采集大量数据建立数据库，因此该方法的准确率存在受到数据库建立和数据库中数据准确性制约的问题。

申请号为201811425363.4的中国专利：一种变压器故障的声纹识别方法及***，其公开了采集变压器声纹数据，并基于声纹数据进行变压器故障诊断的方法。但该专利仍然是将采集的声纹数据与数据库中数据进行简单比对以诊断故障，同样存在准确率受到数据库制约的问题。

申请号为201811618261.4的中国专利：基于改进卷积神经网络的电力变压器在线检测***及方法，其公开了采用卷积神经网络(即CNN网络)进行变压器故障诊断的过程，但其主要是基于变压器自身结构的机械振动数据和CNN网络来实现故障诊断的，需要在变压器现场布置大量用于检测变压器箱体机械振动的传感器，并且单一的CNN网络也存在准确率不高的问题。

申请号为201811646299.2的中国专利：一种基于声学特征和神经网络的电力变压器故障诊断方法，其公开了基于变压器的声音信号，并采用GRU神经网络模型对变压器故障进行诊断的过程。但该专利对于采集的变压器的声音信号需要经过滤波预处理，因此容易导致声音信号中频域信息的损失，特别是高频区域的语音信息损失更为严重。并且采用单一的GRU神经网络也存在准确率不高的问题。

申请号为201810805455.9的中国专利：一种基于振动噪声及BP神经网络的变压器故障诊断方法，其公开了基于变压器的噪声声压信号，并采用BP神经网络对变压器故障进行诊断的方法。但该专利是通过BP神经网络得到声压最大频段，并找出声压最大频段对应的区域，以噪声最大的区域作为故障区域。这种诊断方法实际上忽略了噪声较小的故障区域，因此与变压器实际故障情况不符，也存在准确率不高的问题。

发明内容

鉴于上述现有技术，本发明要解决的技术问题是提供一种基于声纹识别的变压器声音事件检测方法，该方法能够对变压器进行在线检测，并具有准确率高的优点。

本发明的技术方案为：

一种基于声纹识别的变压器声音事件检测方法，包括以下步骤：

(1)对变压器语音信号待测样本进行分帧，得到若干个语音信号帧；

(2)对每个语音信号帧进行加窗；

(3)对每个加窗后的语音信号帧进行离散傅里叶变换；

(4)根据傅里叶变换结果，计算每个加窗后的语音信号帧的能量谱密度；

(5)采用50Hz倍频三角滤波器组对每个加窗后的语音信号帧的能量谱密度进行滤波；

(6)对滤波后的能量谱密度取对数，得到每个加窗后的语音信号帧的MFCC特征，所有加窗后的语音信号帧的MFCC特征构成变压器语音信号待测样本的声纹特征；

(7)将所述变压器语音信号待测样本的声纹特征输入事先训练好的CapsNet胶囊网络模型进行检测，得到变压器语音信号待测样本的类别。

所述的基于声纹识别的变压器声音事件检测方法，步骤(2)中，具体采用海明窗对每个语音信号帧进行加窗。

所述的基于声纹识别的变压器声音事件检测方法，步骤(5)中，所述采用50Hz倍频三角滤波器组对每个加窗后的语音信号帧的能量谱密度进行滤波，具体包括：

(51)采用以下公式计算得到每个三角滤波器的中心频率：

其中，m表示三角滤波器的序号，f(m)表示第m个三角滤波器的中心频率，f_s表示变压器语音信号的采样频率，N表示加窗后的语音信号帧的傅里叶变换的采样点数，F_max表示变压器语音信号的频率范围上限；

(52)将三角滤波器的频率响应定义为：

其中，f_k表示加窗后的语音信号帧的傅里叶变换的第k个采样点对应的频率，k＝0，1，…，N-1；H_m(f_k)表示第m个三角滤波器的频率响应在f_k处的取值；定义f(0)＝f[(F_max/100)+1]＝0；

(53)采用以下公式计算得到每个三角滤波器对能量谱密度进行滤波的结果：

其中，S(m)表示第m个三角滤波器的滤波结果，E(k)表示加窗后的语音信号帧的傅里叶变换的第k个采样点对应的能量谱密度。

所述的基于声纹识别的变压器声音事件检测方法，步骤(7)中，所述CapsNet胶囊网络模型的训练过程，具体包括：

a、将变压器语音信号训练样本的声纹特征输入构建的CapsNet胶囊网络模型的特征提取层；

b、所述特征提取层从变压器语音信号训练样本的声纹特征中提取声音事件的高级谱特征，并输入到胶囊层；

c、所述胶囊层对变压器声音事件建模并进行分类，采用Margin Loss函数计算分类损失；

d、将真实事件类别标签值与输出值进行比较得到误差，根据误差反向传播算法对整个CapsNet胶囊网络模型进行调整，优化模型参数，完成训练。

一种终端设备，包括存储介质和处理器；所述存储介质，用于存储多条指令；所述处理器，用于加载并执行所述指令，实现所述的基于声纹识别的变压器声音事件检测方法。

一种存储介质，其中存储有多条指令，所述指令由处理器加载并执行，实现所述的基于声纹识别的变压器声音事件检测方法。

由上述技术方案可知，本发明通过将采集的变压器语音信号经过分帧、加窗、离散傅里叶变换、能量谱计算、50Hz倍频三角滤波器组滤波、对数运算一系列操作，最终得到变压器语音信号的声纹特征，再利用CapsNet胶囊网络模型进行检测，可以解决变压器声音事件重叠问题，有着较高的识别准确率，提高了变压器声音事件在线检测的智能水平。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明具体实施方式公开了一种基于声纹识别的变压器声音事件检测方法，包括以下步骤：

S1、按时域对变压器语音信号待测样本进行分帧，得到M个语音信号帧：

例如，本发明将时长为1s的变压器原始声音信号作为一个样本，对每个样本进行分帧，若每帧的时间长度为0.04s，帧移取0.01s，那么按时域可以将每个样本分隔为97帧。

S2、采用海明窗对步骤S1得到的语音信号帧进行加窗：

对每帧的时域数据进行加窗，目的是为了削弱后续傅里叶变换带来的失真影响。本发明采用具有较好时间和频率聚集特性的海明窗(Hamming window)，其计算公式如下：

其中，N表示每帧的采样长度即采样点数，w(n)表示对第n个采样点进行加窗的加权值，n＝0，1，…，N-1。

S3、对步骤S2得到的每个加窗后的语音信号帧进行快速离散傅里叶变换，其计算公式如下：

其中，X(n)表示加窗后的语音信号帧，X(k)表示X(n)的傅里叶变换，X(n)和X(k)均是长度为N的有限长序列。

S4、根据步骤S3得到的傅里叶变换结果，计算每个加窗后的语音信号帧的能量谱密度，其计算公式如下：

E(k)＝|X(k)|²

其中，E(k)表示加窗后的语音信号帧的傅里叶变换的第k个采样点对应的能量谱密度。

S5、根据变压器声音频率特性分析，本发明设计50Hz倍频三角滤波器组，采用设计的50Hz倍频三角滤波器组对每个加窗后的语音信号帧的能量谱密度进行滤波，具体包括：

S51、首先需要将50Hz倍频频率值转化到50Hz间隔频率列表上，得到每个三角滤波器的中心频率，其计算公式如下：

其中，m表示三角滤波器的序号，f(m)表示第m个三角滤波器的中心频率，f_s表示变压器语音信号的采样频率，这里N表示加窗后的语音信号帧的傅里叶变换的采样点数，与语音信号帧的采样长度取值相同，所以用同样的字母表示，F_max表示变压器语音信号的频率范围上限。

三角滤波器的总数F_max/100由变压器语音信号的频率范围上限F_max决定，根据实测的变压器铁芯声音数据，绝大部分能量都集中在0到4kHz范围内，因此三角滤波器的总数为4000/100＝40个。

S52、三角滤波器组的构建方式为：第一个三角滤波器从第一个点开始，第二个点时达到最大值，第三个点时又归零；第二个三角滤波器从第二个点开始，第三个点时达到最大值，第四个点时又归零，依次类推。由此，将三角滤波器的频率响应定义为：

其中，f_k表示加窗后的语音信号帧的傅里叶变换的第k个采样点对应的频率；H_m(f_k)表示第m个三角滤波器的频率响应在f_k处的取值；定义f(0)＝f[(F_max/100)+1]＝0。

S53、采用设计的50Hz倍频三角滤波器组对每个加窗后的语音信号帧的能量谱密度进行滤波，其计算公式如下：

其中，S(m)表示第m个三角滤波器的滤波结果。

滤波得到的结果对50Hz倍频附近的能量进行了加强，每帧的能量谱维度为40。

S6、对步骤S5滤波后的能量谱密度取对数，得到每个加窗后的语音信号帧的MFCC特征，维度为40。M个加窗后的语音信号帧的MFCC特征一起构成变压器语音信号待测样本的声纹特征。

S7、将步骤S6得到的声纹特征输入事先训练好的CapsNet胶囊网络模型进行检测，得到变压器语音信号待测样本的类别。

CapsNet胶囊网络模型主要包含两部分：特征提取层和胶囊层。特征提取层采用一堆卷积层和池化层从变压器语音信号训练样本的声纹特征中提取声音事件的高级谱特征；胶囊层接收特征提取层的输出，对变压器声音事件建模并进行分类，最后采用Margin Loss函数计算分类损失。通过将真实事件类别标签值与输出值进行比较得到误差，根据误差反向传递的方式进行不断迭代，最终确定网络模型结构中的各个权重参数和偏置参数。

CapsNet胶囊网络可以解决多声音事件检测中的重叠问题。在CapsNet胶囊网络中，将所有事件类别作为检测目标，当遇到事件相互重叠的情况时，尝试选取轻度重叠相应位置的特征去检测目标，从而避免基于严重重叠区域直接检测。

下面结合一个应用实例来说明本发明方法的识别准确率。

本发明采用的数据库的相关音频录制于2018年下半年，一共采集了合肥常青变电站、南郊变电站共约1.7h的声音数据，采用44.1kHz采样频率和双声道录音。具体采集方式为在变压器的不同方位、距离变压器1米左右的距离放置录音设备，录音设备高度在1米左右。通过对录制的声音数据初步分析，将声音数据归为7个类别：鸟叫(bird)、知了(cicada)、撞击(crash)、电钻(saw)、讲话声(speech)、风声(wind)、变压器正常运作声(transformer_normal)。

数据库的标注遵循以下几点规律：

(1)“听觉为主，谱图为辅”，即以听感作为判断事件存在的主要根据，谱图作为辅助手段；

(2)每听一遍的过程中只标注一种事件，即每句话至少听T次才能标注完全(T为事件的类别数)；

(3)两个同类事件的停顿间隔不超过1s时认为间隔不存在(时间精度为1s)，经过初步标注和统计后，得到的各类事件的时长分布情况如表1所示：

事件	鸟叫	知了	撞击声	电钻声	讲话声	正常声	风声
								时长	997.41	535.89	951.25	898.47	81.4	5326.09	1430.72

表1事件时长分布情况(单位：s)

从表1可以看出，数据库中各类事件类别时长不均衡，“变压器正常工作声音”要远多于其他事件，同时“讲话声”和“知了声”样本数量较少。虽然“讲话声”相对于其他类别较少，但考虑到其对变压器异常情况的预警比较重要，故保留。

为了分析方便，将数据集的音频切成长1s的片段，得到5958段音频。假设片段中的事件总是存在的，将数据库按照6∶2∶2的比例随机划分成训练集、验证集和测试集，每部分包含的样本数为3558、1200和1200。

使用基于1s长度片段的F1-score作为衡量标准，并采用基于类别统计的方式计算整个数据集上的指标(即平均每个类别的结果)。在实际分类问题中，依据样本的真实类别和预测类别可以分为4类：(1)真实类别为第i类，被预测的类别也为第i类的样本数记为TP_i；(2)真实类别为第i类，被预测的类别为其它类的样本数记为FN_i；(3)真实类别为其它类，被预测类别为第i类样本数记为FP_i；(4)真实类别为其它类，但也被分类正确的样本数记为TN_i。

第i个类别的准确率(Precision)P_i定义为：

第i个类别的召回率(Recall)R_i定义为：

第i个类别的F1的定义结合了准确率和召回率，它的表达式为：

宏平均F1(Macro F1)是各个类别的F1指数的平均值，它的定义为：

微平均F1(Micro F1)等于数据集上整体的正确率(Accuracy)，它表示的是所有分类正确的样本所占样本总数的比例。在以上的定义中，准确率是针对预测结果而言的，召回率是针对真实的样本而言。宏平均F1对每个类别赋予相同的权值，微平均F1对每个样本赋予相同的权值。

对7类声音事件进行检测，实验中得到的宏平均F1值为0.84，各个类别的F1值如表2所示，在各个类别的F1值中，其中“变压器正常运作声”和“知了声”的F1值最高，它们的F1值均超过0.95，而“讲话声”的F1值最低，这和“讲话声”的样本最少不无关系。总体而言，在声音事件检测这一任务上，本发明方法有着不错的识别准确率。

事件	鸟叫	知了	撞击声	电钻声	讲话声	正常声	风声	平均值
									F1-score	0.76	0.97	0.74	0.88	0.67	0.98	0.91	0.84

表2事件检测F1值

本发明具体实施方式还公开了一种终端设备，包括存储介质和处理器。存储介质用于存储多条指令；处理器用于加载并执行存储介质中的指令，实现上述基于声纹识别的变压器声音事件检测方法。

本发明具体实施方式还公开了一种存储介质，其中存储有多条指令，该些指令由处理器加载并执行，实现上述基于声纹识别的变压器声音事件检测方法。

本发明方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读存储介质中。基于这样的理解，本发明技术方案或者本发明对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动计算设备或者网络设备等)执行本发明方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于声纹识别的变压器声音事件检测方法，其特征在于，包括以下步骤：

(2)对每个语音信号帧进行加窗；

(3)对每个加窗后的语音信号帧进行离散傅里叶变换；

2.根据权利要求1所述的基于声纹识别的变压器声音事件检测方法，其特征在于，步骤(2)中，具体采用海明窗对每个语音信号帧进行加窗。

3.根据权利要求1所述的基于声纹识别的变压器声音事件检测方法，其特征在于，步骤(5)中，所述采用50Hz倍频三角滤波器组对每个加窗后的语音信号帧的能量谱密度进行滤波，具体包括：

(51)采用以下公式计算得到每个三角滤波器的中心频率：

(52)将三角滤波器的频率响应定义为：

4.根据权利要求1所述的基于声纹识别的变压器声音事件检测方法，其特征在于，步骤(7)中，所述CapsNet胶囊网络模型的训练过程，具体包括：

5.一种终端设备，其特征在于，包括存储介质和处理器；

所述存储介质，用于存储多条指令；

所述处理器，用于加载并执行所述指令，实现权利要求1-4中任一项所述的基于声纹识别的变压器声音事件检测方法。

6.一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载并执行，实现权利要求1-4中任一项所述的基于声纹识别的变压器声音事件检测方法。