CN108875592A

CN108875592A - 一种基于注意力的卷积神经网络优化方法

Info

Publication number: CN108875592A
Application number: CN201810519139.5A
Authority: CN
Inventors: 王红滨; 王勇军; 何鸣; 王念滨; 周连科; 陈田田; 秦帅; 赵昱杰; 李秀明; 薛冬梅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-04-13
Filing date: 2018-05-28
Publication date: 2018-11-23

Abstract

本发明提供的是一种基于注意力模型的卷积神经网络优化方法。首先对水下目标的噪声数据进行分段，针对每段噪声数据提取其MFCC，其目的是将目标噪声数据变成定长的矢量化数据。然后，将得到的定长的矢量化数据按实验过程中水听器的排布位置以及其时序关系进行拼接，形成一个完整的时段水听阵特征，继而再将形成的水听阵特征转成对应的图片以作为输入数据集输入到训练网络中。本发明通过试验对模型在使用情况的结果分析以及对模型进行修改与优化，深度学习对水下目标识别识别率的得到10％‑15％的提升。

Description

一种基于注意力的卷积神经网络优化方法

技术领域

本发明涉及的是一种水下目标识别方法。

背景技术

水声信号处理和声纳技术是一门发展迅速、需求推动力强大、应用前景异常广阔的学科，是现代声纳***与水声对抗的一个重要的组成部分，一直以来受到许多学者、工程技术人员的极大关注。各种水下目标都具有其自身特有的噪声特性，可用于目标识别、分类、状态监测等等应用领域。由于海洋环境的复杂性和水声信号通道的特殊性，要从目标噪声信号中抽取一种既能反映目标本质特征又能满足水下远距离探测要求的有效特征表示，一直是这一领域的难题。

传统的水下目标识别解决方案多从水下目标的低频信息入手，基于目标的DEMON与LOFAR 谱进行分析得出目标的类属。

发明内容

本发明的目的在于提供一种可以快速的对模型进行降维操作从而降低过拟合风险的基于注意力模型的卷积神经网络优化方法。

本发明的目的是这样实现的：

(1)噪声数据的切分

所述噪声数据的切分是对水下目标的噪声数据以100ms为单位进行分段；

(2)数据特征的提取

所述数据特征的提取是针对每段噪声数据提取其MFCC，MFCC的提取过程如公式为：

式中，f为目标噪声频率，mel(f)为所示目标噪声提取的梅尔倒谱系数；

(3)多路数据拼接

将水下目标噪声数据分段并进行数据特征的提取后，结合水听器的组阵位置，组成相应的向量矩阵，同时，不同的时序数据组成不同批次的数据，每段噪声数据通过上一步得到的 MFCC按多路水听器的排放位置以及每段噪声数据的时序关系进行拼接，形成深度学习模型输入数据集；

(4)基于注意力模型加速池化操作

使用卷积模型处理水下目标噪声数据，在卷积结构的处理方法中注意力被定义为相应卷积层中卷积操作后的特征图，通过主成分分析的方法确定特征图的降维方向，在提取卷积核的特征的基础上进行池化；

(6)注意力加权连接

利用卷积核特征将卷积神经网络提取的特征，即最后一层结果，基于注意力模型进行加权处理。

在卷积神经网络中通过卷积操作获得特征之后，会利用这些特征去做分类。理论上讲，可以直接使用所有提取得到的特征去训练分类器，但如果直接训练的话会面临极大的计算量挑战。研究人员从生物学得到的启发，利用人类在图像识别与分类时具有的“静态性”的属性，对不同位置的特征进行聚合统计，这些概要统计特征不仅具有较低的维度，同时还会防止过拟合。但是传统的池化策略的问题是所有池化策略都是固定的，即池化操作在参与模型训练时只是单纯的粗暴地对上一层卷积结果进行降维。本发明提出了一种结合卷积神经网络和注意力模型的池化与拼接结构，分为层间注意力池化模型与面向全连接层的特征拼接的注意力拼接模型。可以快速的对模型进行降维操作从而降低模型的过拟合风险。

本发明提出了一种结合卷积神经网络和注意力模型的池化与拼接结构，分为层间注意力池化模型与面向全连接层的特征拼接的注意力拼接模型。层间注意力池化模型在进行池化操作时充分考虑当前卷积核的特点，依照卷积核与特征图的数据特性进行有效池化，此池化操作不仅可以较大幅度的提高池化的尺度，从而对特征图进行快速降维，还可以防止在较小的数据集上使用深度学习模型易引发的过拟合现象。同时，以卷积核与特征图的数据特性作为注意力的池化操作进行的可以在快速降维的过程中保持图像的特征不丢失。

传统的水下目标识别解决方案多从水下目标的低频信息入手，基于目标的DEMON与LOFAR 谱进行分析得出目标的类属。本发明利用注意力模型对卷积神经网络模型的池化层进行优化，利用卷积神经网络对水下目标的声频信息进行分析识别，利用声音特征提取方法作为模型学习输入数据的矢量化方法，将生成的声频数据的矢量化信息处理成声频信息的热力图作为模型训练的输入数据。通过试验对模型在使用情况的结果分析以及对模型进行修改与优化，深度学习对水下目标识别识别率的得到10％-15％的提升。

本发明使用MFCC矢量拼接多路水听器输入的方法与单纯使用MFCC与其它分类器在的分类结果的对比结果。其中使用MFCC矢量拼接方法融合多路水听器的方法明显高于单纯使用 MFCC对声音进行描述的方法。相比最低的识别准确率，本发明所用接合MFCC矢量拼接的方法要比传统方法的准确率提高近16.1％。

附图说明

图1是基于注意力模型的卷积神经网络应用框架；

图2是基于注意力模型的层间池化操作；

图3是基于注意力模型的全连接层操作；

图4是基于注意力模型的卷积神经网络结构；

图5是基于注意力模型的卷积核大小结果对比；

图6是数据集预处理过程；

图7是数据集提取结果示例。

具体实施方式

下面举例对本发明做更详细的描述。

首先对训练数据集进行预处理。与以往直接使用Mel-Frequency对噪声数据做特征提取不同，本发明首先对水下目标的噪声数据以100ms为单位进行分段，针对每段噪声数据提取其MFCC，其目的是将目标噪声数据变成定长的矢量化数据。然后，将得到的定长的矢量化数据按实验过程中水听器的排布位置以及其时序关系进行拼接，形成一个完整的时段水听阵特征，继而再将形成的水听阵特征转成对应的图片以作为输入数据集输入到训练网络中。

(1)噪声数据的切分

从实验环境得到的噪声数据为安放在不同位置不同角度的多路水听器组阵后所测量的水中目标噪声，以16路水听阵为例，单路水听器测量时间6min，频带25.6kHz，采样率为65536Hz，采集的所有信号均为电压值。由于单个水听器的数据不适合卷积神经网络直接进行处理，同时考虑到卷积网络的结构特性，本发明将多组水听器所获取的噪声数据进行有针对的处理。本发明考虑了水听器获取数据的位置关系与数据本身的时序关系，首先对数据进行分切，然后按位置与时序关系进行集成。分切单位要充分考虑水听器特性。下文分切单位定为100ms，从而形成卷积结构的水下目标识别的输入数据集。

(2)数据特征的提取(以MFCC为例)

本发明使用可以融合多种噪声特征提取方法，如LPCC、PLP等等，下文以MFCC为例，MFCC 的提取过程如公式(4)所示，在具体使用本方法时，要考虑所采用的水下噪声采集设备的采集特性来设定参数。本例中将每段噪声分512帧，利用31个三角滤波器。本发明在提取一阶 MFCC(16个滤波器)的同时，考虑到MFCC只能得到噪声的静态特性无法得到噪声数据的动态特征，在提取一阶MFCC结果的同时又提取目标噪声的一阶差分MFCC(15个一阶差分)，一阶差分MFCC作为目标噪声的动态特征，使得本发明可以更加细腻的提取水下目标噪声数据的特征。最后通过将所有特征线性结合，从而为每段分切后的噪声数据得到一个128×1维的特征向量。

式中，f为目标噪声频率，mel(f)为所示目标噪声提取的梅尔倒谱系数。

(3)多路数据拼接

数据拼接是本发明结合实际实验的重要过程，实际上数据拼接就是一个将水听器位置与目标噪声时序关系结合的过程。将水下目标噪声数据分段后按具体的特征提取方法后，结合具体水听器的组阵位置，组成相应的向量矩阵，同时，不同的时序数据组成不同批次的数据，如第一组100ms的所有水听器的数据组成一个批次(Batch)数据，第二组100ms的所有水听器数据组成另一个Batch的数据。每段噪声数据通过上一步的将得到的MFCC按多路水听器的排放位置以及每段噪声数据的时序关系进行拼接，从而形成深度学习模型输入数据集。

(4)基于注意力模型加速池化操作

本发明使用注意力模型来加速池化操作的降维过程。注意力机制是一个将编码器-解码器结构从固定长度的内部表征中解放出来的方法。本发明定义的注意力操作指得是通过在当前操作中要保持模型在之前步骤中的操作趋势。本发明使用卷积模型处理水下目标噪声数据，在卷积结构的处理方法中注意力被定义为相应卷积层中卷积操作后的特征图，通过主成分分析的方法确定特征图的降维方向，从而为相邻的池化操作提供有效的指导。本发明在进行池化时充分考虑上一层卷积核的作用，在提取卷积核的特征的基础上进行池化。

(5)注意力加权连接

本发明利用卷积核特征将卷积神经网络提取的特征，即最后一层结果。卷积神经网络的全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。卷积层模仿人的视觉通路提取特征，全连接层一般负责分类或者回归，由于全连接层会丢失一些特征位置信息。全连接的核心操作就是矩阵向量乘积，本质就是由一个特征空间线性变换到另一个特征空间。目标空间的任一维都认为会受到源空间的每一维的影响。本发明利用卷积核特征将卷积神经网络提取的特征，即最后一层结果，基于注意力模型进行加权处理，从而既考虑卷积处理的特点又保留了特征的位置信息。

本发明的主要特点和内容如下：

(1)基于注意力模型加速池化操作

Encoder-Decoder结构在多个领域展现出先进水平，但这种结构将输入序列表示为固定长度的内部表示。限制了输入序列的长度，也导致模型对特别长的输入序列的性能变差。利用注意力模型可以将关注点从前n个固定序列中解放出来，从而做到关注到想要关注的n个前序序列。注意力机制是一个将编码器-解码器结构从固定长度的内部表征中解放出来的方法。通过保持模型对输入序列处理过程中每一步的中间输出结果，训练模型学习如何选择性地关注输入，并将其与输出序列中的项联系起来。人们在进行观察图像的时候，其实并不是一次就把整幅图像的每个位置像素都看过，大多是根据需求将注意力集中到图像的特定部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置，本发明使用注意力模型来加速池化操作的降维过程。

(2)全连接层(fully connected layers，FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由1×1卷积操作实现以达到快速计算结果，同时，1×1卷积核可以起到一个跨通道聚合的作用，所以进一步可以起到降维(或者升维)的作用，起到减少参数的目的。卷积层模仿人的视觉通路提取特征，全连接层一般负责分类或者回归，由于全连接层会丢失一些特征位置信息。

全连接的核心操作就是矩阵向量乘积，本质就是由一个特征空间线性变换到另一个特征空间。目标空间的任一维都认为会受到源空间的每一维的影响。本发明利用卷积核特征将卷积神经网络提取的特征，即最后一层结果，基于注意力模型进行加权处理，从而既考虑卷积处理的特点又保留了特征的位置信息。

针对基于注意力模型加速池化操作，其计算方法如下。

模型使用AoC_L表示，其计算方法如公式(1)所示

式中，L_i表示第L层第i个池化结果，eigVector(k_i)表示第k_i个卷积核所提取的特征向量， Area(k_i)表示第k_i个卷积核所覆盖的区域。

IoC_i代表了基于卷积核影响的注意力模型，则其计算方法如公式(2)所示。

式中，w_i为一个权重矩阵，其记录每一维特征在整个特征图中的比重，为全连接层之前模型处理结果，m为卷积核的个数。

w_i的计算以多层感知器模型计算得到，其方法如公式(3)所示。

w_i＝f(k_i,y_i) (4)

式中，f(·)表示一个前馈神经网络。前馈神经网络以卷积核为输入，以k_i代表其所对应的卷积核，y_i表示此特征所对应的标签。

Claims

1.一种基于注意力模型的卷积神经网络优化方法，其特征是：

(1)噪声数据的切分

(2)数据特征的提取

(3)多路数据拼接

将水下目标噪声数据分段并进行数据特征的提取后，结合水听器的组阵位置，组成相应的向量矩阵，同时，不同的时序数据组成不同批次的数据，每段噪声数据通过上一步得到的MFCC按多路水听器的排放位置以及每段噪声数据的时序关系进行拼接，形成深度学习模型输入数据集；

(4)基于注意力模型加速池化操作

(6)注意力加权连接