CN108630209B

CN108630209B - 一种基于特征融合与深度置信网络的海洋生物识别方法

Info

Publication number: CN108630209B
Application number: CN201810371675.5A
Authority: CN
Inventors: 刘立昕
Original assignee: Institute of Deep Sea Science and Engineering of CAS
Current assignee: Institute of Deep Sea Science and Engineering of CAS
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2021-05-25
Anticipated expiration: 2038-04-24
Also published as: CN108630209A

Abstract

本发明涉及一种基于特征融合与深度置信网络的海洋生物识别方法，解决了现有海洋声信号特征提取与分类方法导致算法的鲁棒性能和识别精度十分有限的问题，本发明的具体步骤如下：采集声学信号S(n)，对所采集的声学信号进行预处理；提取感知线性预测系数(PLP)特征参数与梅尔倒谱系数(MFCC)特征参数，将PLP特征参数与MFCC特征参数融合成新的特征参数；对新的特征参数进行主成分分析；构建深度置信网络进行学习；完成对海洋生物的识别。本发明可实现对海洋生物的快速识别，其识别精度高，鲁棒性能强，在海洋生物研究、海洋救灾和资源勘探等民生息息相关的问题上，具有重大的研究意义和广阔的应用前景。

Description

一种基于特征融合与深度置信网络的海洋生物识别方法

技术领域

本发明涉及海洋生物识别技术领域，特别涉及一种基于特征融合与深度置信网络的海洋生物识别方法。

背景技术

海洋生物识别旨在通过非接触的方式实现对生物类别的判断，其被动识别技术是通过被动声呐接收目标声信号进行分类识别。在海洋生物研究、海洋救灾和资源勘探等民生息息相关的问题上，具有重大的研究意义和广阔的应用前景。

海洋目标识别技术由于海洋环境的复杂及各方面限制，是一个难度极大的研究课题，当前还需要重点解决的技术问题主要包括：1.小样本或无监督学***衡。

目前国内外对海洋生物及舰船的识别研究比较多，然而大多采用传统的特征提取与分类方法，存在很多的问题和不足，算法的鲁棒性能和识别精度十分有限。

发明内容

鉴以此，本发明提出一种基于特征融合与深度置信网络的海洋生物识别方法，以解决上述背景技术中提出的问题。

本发明的技术方案是这样实现的，一种基于特征融合与深度置信网络的海洋生物识别方法，其特征在于，包括下列步骤：

S1、采集声学信号S(n)，对所采集的声学信号进行预处理；

S2、提取感知线性预测系数(PLP)特征参数与梅尔倒谱系数(MFCC)特征参数，将PLP特征参数与MFCC特征参数融合成新的特征参数；

S3、对新的特征参数进行主成分分析，获得转换函数P以及融合特征矩阵Y；

S4、构建深度置信网络，将融合特征矩阵Y输入进行学习；

S5、完成对海洋生物的识别。

优选的，所述预处理方式包括预加重、分帧和加窗。

优选的，步骤S2中，所述提取PLP特征参数步骤在于：

将声学信号S(n)进行短时傅立叶变换，得到频谱x(ω)，计算频谱x(ω)的功率谱p(ω)；

对功率谱p(ω)进行临界频带分析：

Ω(ω)＝6ln{ω/1200π+[(ω/1200π)²+1]^1/2} (1)

式中，ω为角频率，Ω为Bark域频率。

将功率谱p(ω)与模拟听觉频率临界曲线Ψ(Ω)进行卷积操作，获得临界带功率谱θ[Ω_i]，临界带曲线的公式为：

进行等响度曲线预加重处理；

进行强度-响度转换；

进行傅里叶逆变换，得到信号短时自相关函数R(τ)，根据Durbin公式获得12阶线性预测系数，对所述12阶线性预测系数进行谱分析，获得12维PLP特征参数及其一阶差分特征参数，共24维PLP特征参数。

优选的，将所述Bark域采样步长设置为1，划分成24个临界带域，将所述临界带功率谱θ[Ω_i]采样间隔设置为1。

优选的，步骤S2中，所述获得MFCC特征参数的步骤在于：

对声学信号S(n)进行分帧操作，并对每一帧声学信号S(n)进行高频预加重处理；

进行离散傅里叶变换运算，得到离散功率谱X(k)；

将X(k)通过多个带通滤波器的滤波器组H_m(n)滤波，得到多个功率值p_m；

将所述功率值p_m进行对数运算，获得对数能量L_m；

将对数能量L_m经过离散余弦变换得到D_m，求取D_m的静态参数，通过静态参数求取差分系数，将所述静态参数与所述差分系数结合，即获得MFCC特征参数。

优选的，步骤S2中可获得12个维度的MFCC特征参数及其一阶差分特征参数，即总计24维的MFCC特征参数。

优选的，步骤S2中，将所述PLP特征参数与所述MFCC特征参数融合成新的特征参数的步骤在于：

设定特征向量V，将所述PLP特征参数与所述MFCC特征参数进行串联融合:

V＝(α β) (4)

式中，α为PLP特征参数，β为MFCC特征参数。

优选的，步骤S3中，对所述新的特征参数进行主成分分析的步骤在于：

将n条m维串联特征向量V_i构成矩阵X：

计算矩阵X每一行的均值：

计算X的协方差矩阵：

对协方差矩阵进行特征值分解，得到协方差矩阵的特征值和对应特征向量；

通过特征值的累积大小贡献率确定选取的特征值个数k，定义前k个主分量的累计贡献率为：

取

的前k行组成转换矩阵P；

优选的，步骤S3中，将矩阵X与转换矩阵P相乘，获得融合特征矩阵Y。

优选的，步骤S4中，构建深度置信网络的步骤在于：

利用受限玻尔兹曼机(RBM)来构建深度置信网络；

引入丢弃法(dropout)、加入动量项(momentum)、权重衰减方法(weight decay)对深度置信网络进行优化；

用所述新的特征参数训练深度置信网络。

与现有技术相比，本发明的有益效果是，本发明所提供的一种基于特征融合与深度置信网络的海洋生物识别方法，首先，对声音信号的预处理便于后续稳健特征的提取，同时增加了数据量，为深度学习过程做了铺垫，避免因样本数量不足，训练数据难以拟合的问题。其次，通过主成分分析的特征融合过程，构造的新特征参数具有更好的分类性能，能有效提高识别率。最后，通过深度学习的方法进行特征自主学习过程，可以学习到数据内在的本质信息，有助于提高识别率和算法的鲁棒性，可对目标类别数据进行识别预测，且具有较高的识别率，在海洋生物研究、海洋救灾和资源勘探等民生息息相关的问题上，具有重大的研究意义和广阔的应用前景。

附图说明

图1为本发明实施例的总体流程框图；

图2为本发明实施例提取PLP特征参数的流程框图；

图3为本发明实施例提取MFCC特征参数的流程框图；

图4为本发明实施例PLP特征参数散点图；

图5为本发明实施例MFCC特征参数散点图；

图6为本发明实施例融合特征参数散点图。

具体实施方式

为了更好理解本发明技术内容，下面提供具体实施例，并结合附图对本发明做进一步的说明。

参见图1，一种基于特征融合与深度置信网络的海洋生物识别方法，其特征在于，包括下列步骤：

S1、采集声学信号S(n)，对所采集的声学信号进行预处理，所述预处理方式包括预加重、分帧、加窗；

具体的，预加重是对信号的高频部分进行加重，以增加信号的高频分辨率，使信号的频谱变得平坦，能够利用同样的信噪比在低频到高频的整个频带内求频谱，便于对信号进行频谱分析或声道参数分析；

分帧是指将语音信号划分成短时段的信号，每一段的长度大概为10ms--30ms，每一段称为一帧，分帧的目的是因为声信号是准平稳，只有在短时段上才视为是一个平稳过程；

对语音信号加窗的目的是为了减小截断效应，降低语音帧的坡度，使语音帧的两端平滑的过渡到零。

S2、提取PLP特征参数与MFCC特征参数，将PLP特征参数与MFCC特征参数融合成新的特征参数；

参见图2与图4，具体的，提取PLP特征参数的步骤在于：

将声学信号S(n)进行短时傅立叶变换，得到频谱x(ω)，计算频谱x(ω)的功率谱p(ω)：

p(ω)＝R_x[x(ω)]²+I_m[x(ω)]² (1)

对功率谱p(ω)进行临界频带分析，功率谱p(ω)以其频率轴按下式规整到Bark域：

Ω(ω)＝6ln{ω/1200π+[(ω/1200π)²+1]^1/2} (2)

式中，ω为角频率，Ω为Bark域频率。

在功率谱规整到Bark域后，将功率谱与模拟听觉频率临界曲线Ψ(Ω)进行卷积操作，临界带曲线的公式为：

Ψ(Ω)曲线近似模拟了人耳的听觉滤波特性，在Bark域中基本稳定，将Bark域采样步长设置为1，划分24个临界带域，通过Ψ(Ω)与P(Ω)的离散卷积，得到采样信号的临界带功率谱：

式中，i取1,2，…,24，θ[Ω_i]的采样间隔取1。

进行等响度曲线预加重处理，人耳对声音频率的感知能力是不同的。在同一固定声强级下，人类通常对中高频的声音感觉较为强烈，根据此研究结论，采用基于人耳特性模拟得到的等响曲线对信号频率的分量在傅里叶频域进行等响预加重处理：

Γ[Ω(ω)]＝E(ω)θ[Ω(ω)] (6)

式中，ω为信号频率分量，E(ω)近似模拟了人耳对不同频率声信号的感知能力。

进行强度-响度转换，为了模拟客观信号强度与主观感受响度的非线性关系，要控制临界带谱的幅值变换幅度范围。通过求取立方根的方式来对临界带功率谱幅值进行压缩，计算公式如下：

对获得的

进行傅里叶逆变换，得到信号短时自相关函数R(τ)，通过Durbin公式解得12阶线性预测系数，对所述12阶线性预测系数进行谱分析，获得12维PLP特征参数及其一阶差分特征参数，共24维特征参数。所获得的PLP特征参数散点图如图4所示，由图4可知，PLP特征参数散点分布范围较为宽泛，不同目标类别间散点已有大致的分布中心。

参见图3与图5，具体的，获得MFCC特征参数的步骤在于：

首先取每帧的数据点数为N为1024，然后对采样的声学信号S(n)进行分帧操作，并对每帧声学信号s(n)进行高频预加重、加窗处理；

对每帧声学信号s(n)进行离散傅里叶变换运算，得到离散功率谱X(k):

将X(k)通过M个带通滤波器的滤波器组H_m(n)滤波，得到M个功率值p_m，其中m取0,1,…,M-1；

将所述功率值p_m进行对数运算，获得对数能量L_m，其中m取0,1,…,M-1；

将对数能量L_m经过离散余弦变换得到梅尔倒谱特征参数D_m：

式中，m取0,1,…,M-1。

去除D_m中的直流分量D₀，取D₁,D₂,…D_k作为MFCC特征参数的静态参数，通过静态参数求取差分系数，将静态参数与差分系数结合，即可得到MFCC特征参数d(n)。

式中，k为常数，表示所取的差分系数的阶数，c(n)表示梅尔倒谱特征参数，最终可获得12个维度的MFCC特征参数及其一阶差分特征参数，总共24维的MFCC特征参数。所获得的MFCC特征参数散点图如图5所示，由图5可知，MFCC特征散点聚集程度较为明显，且表现为相似类别间区分程度较弱。

具体的，所述将PLP特征参数与MFCC特征参数融合成新的特征参数的步骤在于：

设定特征向量V，应用下列公式将24维PLP特征参数与24维MFCC特征参数进行串联融合:

V＝(α β) (10)

式中，α为PLP特征参数，β为MFCC特征参数。

具体的，步骤S3中，对新的特征参数进行主成分分析的步骤在于：

将有n条m维串联特征向量V_i构成矩阵X：

计算矩阵X每一行的均值：

式中，m为矩阵X的行数。

计算X的协方差矩阵：

对协方差矩阵进行特征值分解，得到协方差矩阵的特征值和对应特征向量，通过特征值的累积大小贡献率确定选取的特征值个数k，特征值满足从大到小排列的规律，通过特征值的累积大小贡献率确定选取的特征值个数k，定义前k个主分量的累计贡献率为：

当

足够大时，可以认为由这k个特征值对应的特征向量组合可以很好的表征原始声学信号，取

的前k行组成转换矩阵P，将矩阵X与转换矩阵P相乘，获得融合特征矩阵Y：

Y＝PX (15)

式中，Y的每一行为新的融合特征参数。所获得的融合特征参数散点图如图6所示，由图6可知，从散点的分布来看，不同类别特征散点分别聚集在不同区域，融合后的特征对不同类别数据的可区分性更强，也就是具有更好的分类性能。

S4、构建深度置信网络，将融合特征矩阵Y输入进行学习；

首先，构建深度置信网络。利用受限玻尔兹曼机(RBM)来构建深度置信网络。隐层层数为3，节点数目分别为48-24-12。输入层节点数与融合特征参数的维度相同为36，输出层为Softmax，分类器类别输出为4，整个网络的结构为36-48-24-12-4。

其次，优化网络，引入丢弃法(dropout)、加入动量项(momentum)、权重衰减方法(weight decay)对网络进行优化。

最后，利用新的融合特征参数训练深度置信网络。训练过程分为两步：预训练和微调。

(1)预训练。进行RBM参数学习的过程，整个预训练的过程是无监督的。训练的每一个RBM都是对输入数据的新的表示，假设输入数据为向量v，经过一个RBM隐藏层单元激活后得到的输出向量为h，将该输出向量h作为下一个RBM的输入训练数据来训练一个新的RBM，其中获得的每一个RBM的权重都可以独立的从前一层的输出中提取特征。

(2)微调过程。将RBM预训练权重参数作为网络的初始参数，通过随机梯度下降(SGD)有监督地精细调整所有的权重，直至训练完成。

S5、通过训练完成的深度置信网络实现对海洋生物的识别。

本实施例的实施效果通过以下表1实验数据进行说明，在本实施例中，数据量为32000。

表1不同分类方法对海洋鲸类的识别准确率

由此可见，本实施例提出的深度置信网络的识别方法对于海洋鲸类的识别准确率高于传统机器学习分类方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。