CN111460932B

CN111460932B - 基于自适应卷积的水声信号分类识别方法

Info

Publication number: CN111460932B
Application number: CN202010188704.1A
Authority: CN
Inventors: 王红滨; 王勇军; 张耘; 何鸣; 王念滨; 周连科; 张毅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-06-21
Anticipated expiration: 2040-03-17
Also published as: CN111460932A

Abstract

基于自适应卷积的水声信号分类识别方法，本发明涉及水声信号分类识别方法。本发明的目的是为了解决现有模型对特征提取能力不足导致分类准确率低的问题。过程为：一、建立自适应卷积神经网络模型；二、将带标签的水声信号分为训练集和测试集；将训练集输入模型，对模型进行训练，得到预训练好的自适应卷积神经网络模型；将测试集输入预训练好的模型，若测试准确率大于等于85％，则认为模型为最终训练好的模型；否则对模型参数进行调整，并再次利用训练集进行模型训练；直到获得训练好的模型。三、将待测试的水声信号输入训练好的自适应卷积神经网络模型，完成对水声信号的分类识别。本发明用于水声信号分类识别领域。

Description

基于自适应卷积的水声信号分类识别方法

技术领域

本发明涉及水声信号分类识别方法。

背景技术

深度学习模型中，卷积层的功能是利用多个卷积核对输入进行特征提取，每个卷积核提取一种特征，因此卷积层的输出为多通道的特征图，其通道与卷积核一一对应。卷积核由权重矩阵和偏置值组成，作用是将局部感受野上的特征信息进行提取和聚合，模型训练的过程中通过调整权重和偏置值等参数使得卷积核能够提取出有效特征。卷积核由参数矩阵构成，利用参数矩阵中的参数对输入中的局部区域进行加权求和，局部区域的大小取决于参数矩阵的尺寸，通常被称为感受野。在构建深层网络模型过程中，随着层数的加深和池化操作的进行，卷积核的感受野也在随之扩大，以此来达到全局感受野的目的。

卷积核在提取特征的过程中，其采样窗口的几何结构通常是固定的，但图像中特征的几何结构多种多样且存在几何变换的情况，固定几何结构的采样窗口使得卷积核对于这些特征的适应能力有限。虽然卷积核的感受野随着网络的加深而扩大(最终达到了全局感受野)，但是其几何结构始终保持不变，矩形结构的卷积核采样窗口虽然能够通过调整参数进行适应，但仍有所不足，如图2所示。

在图2中，若输入数据存在一个三角形，当卷积核尺寸为3*3时，由于采样窗口为固定的几何结构，其9个采样点的空间分布为矩形，可以看出有部分采样点落在了图中的特征外，这种情况下卷积核通常会通过权重参数的调整来进行特征提取，但是若特征存在如旋转、放缩等几何变换就会导致卷积核难以适应这种变化。一维的水声信号相对于图像而言，其特征虽然没有如此多的几何结构和几何变换，但由于水声信号是由多种不同频率的声波组成，这些声波的波长与相位也各不相同，因此同样需要增强卷积核对多种声波的适应能力。

实际上卷积操作的计算量可以由采样窗口的滑动步长来调整，它们互相成反比，计算量会随着步长的增加而减少。常规卷积操作进行特征提取的过程展示了输入层、两个卷积层和一个最大池化层，其中输入层的尺寸为8*8，卷积核尺寸为3*3，池化层尺寸为2*2。在对输入数据进行卷积操作时，为了不丢失信息，采样窗口的滑动步长通常较小，大部分情况下会设置为1且最大不超过采样窗口的边长，而池化层采样窗口的滑动步长则通常与其边长相同，因此卷积核采样窗口的滑动步长为1且最大不能超过3，池化层采样窗口的滑动步长则为2。8*8的输入经过3*3的卷积核输出的特征图尺寸为5*5，特征图尺寸算如公式1所示；

公式1中，i为输入数据的边长，k为卷积核采样窗口的边长，S为采样窗口的滑动步长，f为输出的特征图的边长；公式1的计算结果需要进行向下取整；输出的特征图中元素的数量等于卷积计算的次数，因此随着采样窗口滑动步长的增加，会使输出的特征图的尺寸减小，从而使得卷积计算的次数减少，而模型的计算速度也就随之加快。但是移动步长的增加会导致卷积核在提取特征时可能会略过部分信息，从而导致模型输出的结果不够准确，因此如何在减少计算量的同时保证结果的准确性是本发明研究的主要问题之一。

在得到卷积核输出的多通道特征图后，现有模型通常是直接利用全连接层来进行结果的计算，这种做法仅仅关注了相应特征是否存在，而忽略了不同特征通道对最终结果的影响程度，因此如何在特征图通道的角度对模型的特征提取能力进一步增强是本发明的研究内容之一。

发明内容

本发明的目的是为了解决现有模型对特征提取能力不足导致分类准确率低的问题，而提出基于自适应卷积的水声信号分类识别方法。

基于自适应卷积的水声信号分类识别方法具体过程为：

步骤一、建立自适应卷积神经网络模型；

步骤二、将带标签的水声信号分为训练集和测试集；

将训练集输入自适应卷积神经网络模型，对自适应卷积神经网络模型进行训练，得到预训练好的自适应卷积神经网络模型；

将测试集输入预训练好的自适应卷积神经网络模型，若测试准确率大于等于85％，则认为预训练好的自适应卷积神经网络模型为最终训练好的自适应卷积神经网络模型；否则对模型参数进行调整，并再次利用训练集进行模型训练；直到获得训练好的自适应卷积神经网络模型；

步骤三、将待测试的水声信号输入训练好的自适应卷积神经网络模型，完成对水声信号的分类识别。

本发明的有益效果为：

本发明通过建立自适应卷积神经网络模型；将带标签的水声信号分为训练集和测试集；将训练集输入自适应卷积神经网络模型，对自适应卷积神经网络模型进行训练，得到预训练好的自适应卷积神经网络模型；将测试集输入预训练好的自适应卷积神经网络模型，若测试准确率大于等于85％，则认为预训练好的自适应卷积神经网络模型为最终训练好的自适应卷积神经网络模型；否则对模型参数进行调整，并再次利用训练集进行模型训练；直到获得训练好的自适应卷积神经网络模型；将待测试的水声信号输入训练好的自适应卷积神经网络模型，完成对水声信号的分类识别。

本发明利用更多的网络层来通过输入数据本身的信息来获取相应的特征信息，使得卷积核根据这些信息来自适应的改变采样窗口中各个采样点的采样位置，以此来让卷积核能够更好的适应输入数据中特征的几何变换和位移等情况，从而最终达到提高模型性能的目的，增强了模型特征提取能力，提高了模型在水声信号分类的准确率，解决现有模型对特征提取能力不足导致分类准确率低的问题。

附图说明

图1为自适应卷积神经网络模型结构图；

图2为卷积操作采样示意图；

图3为特征图通道加权过滤层结构图；

图4为传统卷积与卷积的矩阵运算图；

图5为卷积核移动步长优化图；

图6为卷积核感受野形状变化图；

图7为自适应卷积层整体结构图。

具体实施方式

具体实施方式一：本实施方式基于自适应卷积的水声信号分类识别方法具体过程为：

步骤一、建立自适应卷积神经网络模型；

步骤二、将带标签的水声信号(标签为水声信号对应的目标距离)分为训练集和测试集；

将测试集输入预训练好的自适应卷积神经网络模型，若测试准确率大于等于85％，则认为预训练好的自适应卷积神经网络模型为最终训练好的自适应卷积神经网络模型；否则对模型参数(包括卷积核数量、尺寸等)进行调整，并再次利用训练集进行模型训练；直到获得训练好的自适应卷积神经网络模型；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中建立自适应卷积神经网络模型；具体过程为：

自适应卷积神经网络模型包括输入层、特征提取层、特征图加权过滤层、三个全连接层、输出层；

所述特征提取层包括第一层自适应卷积层、第二层自适应卷积层；

第一层自适应卷积层接受输入层输入，输出相应的特征图，第二层自适应卷积层接受第一层自适应卷积层输出的特征图，第二层自适应卷积层输出的特征图经过特征图加权过滤层后，利用三个全连接层来最后输出分类结果(模型的具体参数在表1中，表中第一列显示了模型的网络层数量，其中Adapt_Conv表示自适应卷积层，Multi_FC、FC_4、FC_5构成特征图加权过滤层，FC_6、FC_7、FC_8为最后的三层全连接层)；

输入层神经元数量为1*n，n为输入数据的长度，通道数为c；其中输入数据的长度n取决于水声信号分帧后的采样点数，通道数c为收集水声信号的水听器数量；

第一层自适应卷积层中卷积核的长度为25，通道数与输入层通道数保持一致为c，即卷积核尺寸为25×c，卷积核组数为6，采用激活函数为Tanh；

第二层自适应卷积层中卷积核的长度同样为25，通道数与第一层自适应卷积层的卷积核组数保持一致为6，即卷积核尺寸为25×6，卷积核组数为16，采用激活函数为Tanh；

第一层自适应卷积层包含第一个卷积层、第二个卷积层、第三个卷积层；

第一个卷积层在当前感受野的原采样区域进行卷积得到感受野的整体偏移值，从而整体移动卷积核感受野采样位置；第二个卷积层采样窗口内进行多次卷积操作(计算次数取决于输入数据的尺寸和卷积核的尺寸，可以利用公式2计算得到)计算出局部偏移值，利用局部偏移值来改变第三个卷积层卷积核每个采样点的采样位置，第三个卷积层利用计算出来的整体偏移值和局部偏移值对输入数据进行重采样并计算得到输出的多通道特征图，如图7所示，展示了自适应卷积整体结构；

第二层自适应卷积层包含第一个卷积层、第二个卷积层、第三个卷积层；

第一个卷积层在当前感受野的原采样区域进行卷积得到感受野的整体偏移值，从而整体移动卷积核感受野采样位置；第二个卷积层采样窗口内进行多次卷积操作(计算次数取决于输入数据的尺寸和卷积核的尺寸，可以利用公式2计算得到)计算出局部偏移值，利用局部偏移值来改变第三个卷积层卷积核每个采样点的采样位置，第三个卷积层利用计算出来的整体偏移值和局部偏移值对输入数据进行重采样并计算得到输出的多通道特征图，如图7所示，展示了自适应卷积整体结构。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述第一层、第二层自适应卷积层的自适应卷积操作主要包括以下5步：

假设输入数据尺寸为1*n的一维水声信号，n为输入数据的长度(n为输入数据的长度，取决于数据本身，本发明中模型的相应参数的数值需要据此调整)，第一个卷积层、第二个卷积层、第三个卷积层(3个卷积层)中的卷积核尺寸均为1*25，通道数为c(c是根据水声信号的通道数来确定的，而水声信号的通道数则取决于数据收集过程中声呐等设备的数量，因此该参数是一种超参数，需要根据实际情况来进行设定)，如7所示；*为尺寸(比如1*3表示一个有一行3列的矩阵)；

(1)第一个卷积层在水声信号上进行步长为25的滑动卷积，计算水声信号每个采样窗口内特征的整***置偏移值，并通过填充的方式使得采样窗口输出的数据长度与窗口保持一致，使得输出的张量长度与水声信号保持一致；具体过程为：

第一个卷积层的采样窗口在输入数据(这里的输入数据为前面网络层的输出，比如第一层自适应卷积层接收的是输入层的输出，那么就是水声信号，而第二层自适应卷积层则是接受第一层自适应卷积层的输出，就是前面一层所提取出的多通道特征图)上进行遍历采样，对每次采样的数据利用公式6来计算输出，输出为整***置偏移值，填充的方式为在原始数据前后部分填充0；

式中，y(p₀)为输出的特征矩阵y(卷积计算输出的结果)上的元素p₀；w(r_n)为每个采样点对应的权重参数，x(p)为根据坐标获取采样值的采样函数；r_n为定义的采样窗口中的位置偏移；R＝{-1,0,1}；

R＝{-1,0,1}就定义了一个尺寸为1*3的采样窗口，其中的-1，0，1就是相应的位置偏移，比如当采样区域的中心点坐标p₀为2时，采样到的采样点坐标就是1(2-1)，2(2+0)，3(2+1)，同时根据r_n来获得采样点对应的权重参数，因为采样窗口尺寸就是由卷积核尺寸决定的，所以这里卷积核尺寸同样为1*3，拥有3个权重参数，分别与三个采样点一一对应，从而进行加权求和计算出y(p₀)；

(2)第二个卷积层在水声信号上进行步长为1的滑动卷积，计算水声信号每个采样点的局部位置偏移值，输出的张量长度与水声信号保持一致；具体过程为：

(3)将第一个卷积层与第二个卷积层输出的位置偏移值相加，获得第三个卷积层所有采样点的位置偏移值，最后将这些偏移值与采样点原始坐标相加，得到最终进行特征提取的采样点坐标；

首先第一个卷积层和第二个卷积层利用公式6计算得到Δr和Δrn，然后利用公式9对输入数据重采样，得到重采样后的数据，第三个常规卷积层利用公式6对重采样后的数据进行计算，所以公式8包括了两次公式6的计算得到的Δr和Δrn，一次公式9的计算得到的，以及第三次公式6得到的最终结果；

这里为了保证采样点的位置偏移不会超出范围，利用Sigmoid函数对最终进行特征提取的采样点坐标进行归一化处理，函数式如下式所示：

式中，x为最终的采样点坐标；

(4)利用下式对水声信号进行线性插值采样，输出重新采样后的水声信号；

x(p)＝(p-q₀)*x(q₀)+(q₁-p)*x(q₁)

式中，q₀和q₁为采样点p相邻的两个采样点坐标，x(p)、x(q₀)和x(q₁)分别为采样点p、q₀和q₁的采样值，通过对线性插值函数求偏导进行梯度下降调整自适应卷积神经网络模型参数；

(5)第三个卷积层在重新采样后的水声信号上进行步长为25的滑动卷积，对水声信号进行特征提取，输出长度为

的特征向量(为第三层卷积层输出的特征图结果，这三层卷积层共同组成自适应卷积层)。

图7中展示的输入数据尺寸为1*9，通道数为1，卷积核尺寸为1*3，通道数为1，每个常规卷积层的卷积核数量为3，这只是图7中的参数，最终的模型参数在表1中；

自适应卷积层中3个卷积层中卷积核间需要保持一一对应的关系，因此可以将自适应卷积层视作由多组卷积核构成的网络层，每组卷积核数量为3。

上述步骤详细描述了一组卷积核的计算过程，自适应卷积层中多组卷积核的输出结果为多通道特征图，其中每个通道对应一组卷积核，则可以认为每个通道表示一种特征。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述特征图加权过滤层包括多通道全连接层(Multi_FC_3)、全连接层1(FC_4)、全连接层2(FC_5)激活层和加权层(这里所说的激活层指的是利用公式3-13对全连接层2的输出进行激活，即将全连接层的输出通过公式来调整输出值的范围)；

多通道全连接层的神经元通道数与第二层自适应卷积层输出的特征图通道数相同；

多通道全连接层接收第二层自适应卷积层的输出；

多通道全连接层的神经元数量为1，通道数为16；

全连接层1的神经元数量为64，通道数为1；

全连接层2的神经元数量为16，通道数为1；采用激活函数为：

Activation(x)＝α*Tanh(β*Relu(x)) (2)

式中，x为激活函数输入；

全连接层1接收多通道全连接层的输出，利用64个神经元对多通道全连接层的16维输出进行升维，随后全连接层2接收全连接层1的输出，利用全连接层2将全连接层1的64维输出结果降维回16维，通过这种先升维再降维的方式将特征图的多通道联系起来，最终全连接层2输出16个通道的权值。

本发明主要提出了基于自适应卷积的特征提取方法，以及针对自适应卷积输出的多通道特征图的通道加权方法，这两种方法均是面向水声信号的特征提取的。在本发明中，将在LeNet5模型的基础上，使用自适应卷积层替换其原有的卷积层和池化层，并将特征图通道的加权过滤层嵌入到卷积层与全连接层之间，初步构建用于水下目标探测的自适应卷积神经网络模型。

根据前文对LeNet5的研究，该模型由7层网络层组成，分别为2层卷积层、2层池化层和3层全连接层；本发明利用自适应卷积层替换卷积和池化层，并在全连接层前嵌入特征图通道加权过滤层的自适应卷积神经网络模型结构如图1所示。

由于水声信号数据形式为一维结构，且本发明通过将多个水听器收集到的水声信号按时间对齐的方式合并为多通道的水声信号，即一个通道对应一个水听器的数据，以此来联合多个水听器的信息获取它们之间的差异性，提高探测的效果。根据水声信号的一维多通道的数据形式，自适应卷积神经网络模型的输入层需要与其保持一致，通道数取决于收集数据的水听器数量。

图1中模型输入层的通道数为c₁，由于自适应卷积层中的卷积核通道数需要与其前驱网络层的输出通道相同，即第一个自适应卷积层中卷积核的通道数同样为c₁。本发明模型中的卷积层拥有多组卷积核，每组由3个卷积核组成(其结构如图7所示)，而一组卷积核的输出为特征图中的一个通道，因此卷积核的组数就决定了输出的特征图的通道数。第一个卷积层中拥有c₂组卷积核，其输出的特征图通道数为c₂。下一个卷积层中卷积核的通道数与前一层中的卷积核组数相同，且拥有c₃组卷积核。因此经过两层自适应卷积层完成水声信号的特征提取后，得到的特征图通道数为c₃。

LeNet5模型中，经过卷积层和池化层进行特征提取后，将得到的特征图直接压缩为单通道的特征向量，即将高为h、宽为w、通道数为c的二维多通道特征图压缩成长度为h*w*c的一维单通道特征向量，然后将该特征向量输入到全连接层中。本发明的模型则将基于特征图通道的加权过滤方法应用于特征图压缩之前，先对特征图进行加权过滤操作，以此改变不同特征图通道对结果的影响程度(具体过程如图3所示)，这里不改变自适应卷积层输出的特征图形状，最后采用与LeNet5相同的矩阵压缩方式将加权过滤后的特征图压缩为一维单通道形式，并输入到后面的全连接层中。模型的详细参数如表1所示。

表1自适应卷积神经网络模型参数

表1中Input为输入层，其神经元数量n和通道数c需要根据数据集进行调整，其中神经元数量n取决于水声信号分帧后的采样点数，通道数c为收集水声信号的水听器数量。Adapt_Conv为自适应卷积层，卷积核组数与LeNet5中对应卷积层中卷积核数量相同，Adapt_Conv_1接收Input的输出，Adapt_Conv_2接收Adapt_Conv_1的输出。Multi_FC_3、FC_4和FC_5构成了用于计算特征图通道权值的加权过滤层，其中Multi_FC_3为多通道全连接层，FC_4和FC_5为常规全连接层。Multi_FC_3接收Adapt_Conv_2的输出，因此Multi_FC_3的神经元通道数与Adapt_Conv_2输出的特征图通道数相同。FC_4接收Multi_FC_3的输出，利用64个神经元对Multi_FC_3的16维输出进行升维，随后FC_5接收FC_4的输出，将其降维回16维，通过这种先升维再降维的方式将特征图的多通道联系起来，最终输出16个通道的权值。FC_6、FC_7和FC_8与LeNet中的全连接层结构相同，其中FC_6接收Adapt_Conv_2输出的特征图经过加权过滤后的结果，FC_8利用Softmax函数作为分类器，且FC_8的神经元数量需要根据分类的类别数进行设定。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述特征图加权过滤层的具体计算过程为：

目前很多研究提出在空间维度上来提升网络的性能，主要是为了解决卷积神经网络只关注特征的有无而对于特征间的联系没做考虑的问题。比如在GoogleNet采用Inception结构，在同一卷积层利用多种尺寸的卷积核来获得不同尺度的特征；在CapsNet中利用向量神经元代替标量神经元，并提出动态路由算法获取特征向量，以此来学习位置、角度等空间特征。以上这些工作均取得了十分不错的表现，参考这些研究，本发明通过对特征图通道的加权过滤操作来改变不同特征对结果的影响，以提升模型的性能。

考虑到经过特征提取得到多通道特征图，不同通道的特征对于最终的结果的影响程度应该有所不同，简单来说就是部分通道的特征与探测结果基本无关，部分特征与探测结果的关联程度较低，部分特征则对于探测结果比较重要，因此需要对不同通道的特征进行过滤、缩小和放大的操作。基于以上考虑，本发明提出一种能够通过学习的方式进行特征图通道加权过滤操作的结构。

图3为特征图通道加权过滤层结构图，输入样本经过卷积层进行特征提取后，得到多通道的特征图。特征图通道的加权过滤操作工作于卷积层输出的特征图之上，首先将卷积层输出的多通道特征图经过一个多通道全连接层完成全局卷积计算，并经过多个全连接层将多个通道的信息进行联系，获得每个特征图通道对应的权重。这里所谓的多通道全连接层，指的是每个通道神经元数量为1(可以视为长度与输入特征图长度相同的一维卷积核)，通道数与输入的特征图通道数相同，特征图的每个通道分别与一个神经元连接，如图3所示。最后对每个特征图通道进行加权操作，以此来实现特征过滤、缩小和放大的目的，具体流程如下：

1)在输入矩阵上经过卷积操作后得到

的特征矩阵，c3为第二层自适应卷积层输出的特征图通道数；

模型存在输入层、第一层自适应卷积层、第二层自适应卷积层；

输入层的参数就是输入数据的参数，输入层神经元数量为1*n，n为输入数据的长度，通道数为c；

第一层自适应卷积层中卷积核尺寸为1*25，卷积核通道数同样为c，有6组卷积核，输出的特征图通道数为6；

第二层自适应卷积层中卷积核尺寸为1*25，通道数同样为6，有16组卷积核，输出的特征图通道数为16；

所述输入矩阵为输入的水声信号；

2)对第二层自适应卷积层输出的特征图的每个通道进行全局卷积操作，输出一个1*16的张量；

全局卷积操作通过多通道全连接层完成，输出的张量通过全连接层1和全连接层2将第二层自适应卷积层输出的特征图的每个通道联系起来；

3)利用Relu与Tanh的复合函数对全连接层2的输出进行激活，如下式所示，得到相应的权重(相应的权重是元素数量，与第二层自适应卷积层输出的特征图通道数c3一样且一一对应，从而将权重加权到相应的特征图通道上)；

Activation(x)＝α*Tanh(β*Relu(x))

其中，

Relu(x)＝max(0,x)

式中，参数α用来调整激活函数的取值范围，参数β调整函数曲线的弯曲程度，能够一定程度上缓解梯度消失的问题；

4)通过矩阵乘法操作为第二层自适应卷积层输出的每个特征图通道进行加权(完成了对第二层自适应卷积层输出的特征图的加权过滤操作)，以此来实现特征过滤、缩小和放大的目的；过程为：

将相应的权重与第二层自适应卷积层输出的每个特征图通道中所有元素进行乘法计算(由于每个通道为一个标量，也就是说将权重与相应通道中所有元素相乘)。

第二层自适应卷积层输出是一个多通道的特征图，每个通道由多个1*(n1/n2/n3)的标量组成，每个通道对应一个权重，所以是将相应的权重加权到相应的通道上。

参数α决定了函数的取值范围为(0,α)。经过激活函数后，权重值为0时其对应的通道的特征将被过滤，从而无法对结果产生影响；权重取值在区间(0,1)时其对应的通道的特征将被缩小，对结果的影响程度则会减小；权重取值在区间(1,α)时其对应的通道的特征将被放大，对结果的影响程度则会增加。参数β能够改变函数曲线的弯曲程度，当β越小时函数曲线越平滑，保证了能够在x取值的更大范围内进行梯度下降来调整网络的参数，以缓解了梯度消失的问题。这里的参数α和β可以根据实验结果进行调整。

特征过滤模块通过引入额外的全局卷积层和全连接层，并利用Relu与Tanh函数的复合函数对这些网络层的输出进行激活来获取各个特征图通道的权重，最后对特征图通道进行加权来改变不同通道的特征对结果的影响程度。特征过滤模块结构简单，能够很好作用在卷积层后面，因此可以十分方便的嵌入到任意的卷积神经网络中。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述三个全连接层分别为FC_6、FC_7和FC_8；

FC_6、FC_7和FC_8与LeNet中的全连接层结构相同，其中FC_6接收第二层自适应卷积层(Adapt_Conv_2)输出的特征图经过加权过滤后的结果，FC_7接收FC_6输出的结果，FC_8接收FC_7输出的结果；

FC_8利用Softmax函数作为分类器；

FC_6的神经元数量为120，通道数为1；采用激活函数为Tanh；

FC_7的神经元数量为84，通道数为1；采用激活函数为Tanh；

FC_8的神经元数量为m(这个取决于数据集中样本的种类数，有多少种样本就有多少个神经元，也可以多一些，但不能少，所以也是一个根据实际情况调整的参数)，通道数为1；采用激活函数为Softmax；(FC_8的神经元数量需要根据分类的类别数进行设定)；

m取值为正整数。

其它步骤及参数与具体实施方式一至五之一相同。

自适应卷积操作

在构建深度神经网络模型的过程中，卷积层中的卷积核采样窗口的尺寸和滑动步长通常是作为超参数在开始学习过程之前进行设定，并且在整个学习过程中保持不变。这些超参数的设置一般通过对实验结果的分析来进行调整，采样窗口的大小通常采用逐层递增的方式，而步长若小于采样窗口的边长会导致采样窗口在原始输入矩阵上出现重叠，步长越小重叠的区域就越大，提取的信息就越多，但同样计算量也会更大。由于采样窗口的大小设定后无法在训练过程中改变，因此本发明提出的自适应卷积操作能够在采样窗口大小一定(采样点数固定)的条件下通过在学习过程中根据输入数据的特征自适应的获得采样窗口的采样区域和每个采样点的采样位置，以此达到本发明的预期目的。

卷积核采样窗口在输入数据上滑动采样来进行卷积计算，若多次卷积计算间串行进行，会使得计算时间过长。当前因计算机技术的发展，在训练过程中往往会将卷积运算转换为矩阵相乘，利用空间换时间的方法来加速计算，如图4所示，这样做是在没有减少乘法和加法的运算次数的条件下，使得很多运算并发的进行从而节省时间。

利用矩阵相乘来进行卷积运算同样会带来问题，首先用空间换时间就直接导致了会消耗更多的硬件资源，对运算设备的要求提高，同时在运算过程中会有大量的数据被冗余存储。传统卷积运算与矩阵乘法运算从图4中可以看出来，传统的卷积运算是以卷积核采样窗口在输入数据上进行滑动采样，每次采样得到的元素与相应权重相乘并求和得到结果，一次采样得到一个结果。向量内积同样也是相乘并求和的计算方式，因此将每个采样位置内的元素拉伸成向量，多个采样位置的向量组合成矩阵，这样卷积运算就转换成了矩阵运算。这样虽然能从其他层面(比如内存访问等)加速了模型计算，但是运算次数并没有减少，同时还提高了对运算设备的要求，冗余数据存储也浪费了资源。

卷积运算次数在输入矩阵和卷积核尺寸大小一定的情况下，采样窗口的滑动步长越长计算次数越少，但提取的信息就越少。实际上，只有对存在特征的区域进行卷积操作才能够提取出有效特征，相邻区域的卷积运算通常只有少数甚至只有一次能够提取出有效特征，这也是卷积层后面通常会有一层池化的原因。比如最大池化会将特征图中相邻区域内对某种特征响应值最大的元素保留，也就是说其他元素的卷积操作对后面的网络层来说没有产生任何影响。

针对前述内容中的问题，本发明在传统卷积层的基础上引入额外的卷积层，利用该卷积层通过学习的方式得到特征提取时采样窗口的位置偏移值，如图5所示。

由于水声信号是一种一维数据，由声呐等设备随时间采样得到，因此对于水声信号的卷积操作相对于图像的二维卷积来说是在一维尺度上进行的。引入的卷积层通过学习的方式来获取输入数据中特征的位置偏移值，并将该值作用在用于特征提取的卷积层的采样窗口上，从而改变采样窗口在输入数据上的采样位置。

图5中展示了在一维输入数据上进行的步长的自适应卷积操作，深色部分表示特征所在区域。首先通过卷积核1对输入矩阵进行滑动步长等于卷积核1边长的卷积操作，从而计算出卷积核2提取特征相对于原始采样位置的偏移值，并将偏移值作用在卷积核2的采样窗口上来改变卷积核2的采样位置。步长自适应卷积操作输出的特征图尺寸计算如公式3所示。

公式3中，N为输入的长度，n为卷积核的长度；结合公式2得公式4：

从公式4可知，当卷积核2的步长较小时，优化后的卷积运算次数要少于传统的卷积操作。实际上，n通常情况下是远小于N的，因此可以认为在常规卷积操作中，当采样窗口的滑动步长小于n的一半时，其计算量要大于本发明提出的自适应卷积操作，而大多数情况下的滑动步长都会设置为1来避免步长太大而导致信息丢失。综上所述，本文提出自适应步长优化方法实际上是在尽可能保证有效信息提取的条件下，将步长扩大到感受野边长的一半。

在对卷积核感受野滑动步长优化的基础上，还需要对卷积核的感受野进行几何变换。而由于在卷积核尺寸确定后其所拥有的参数数量也会随之确定，且在学习过程中无法改变，从而无法通过在学习过程中改变卷积核的尺寸来改变其几何结构。但是卷积核感受野的几何结构实际上是由每个权重参数的采样位置来决定的，为了达到卷积核感受野几何变换的目的，本发明的方法是通过改变卷积核感受野中每个采样点的采样位置从而在固定的卷积核参数的情况下来改变感受野的几何结构，如图6所示。

图6展示的是移动采样窗口中各个采样点位置的过程，为了达到这个目的，同样需要通过引入额外的卷积层以各个采样点为中心进行卷积计算来获取采样点的位置偏移值，并将这些位置偏移值作用于采样窗口上，以此来变相达到对卷积核感受野进行几何变换的目的。

在获取感受野和采样点的位置偏移值后，需要将得到的偏移值作用于特征提取的卷积层上。根据对卷积操作的研究和分析，卷积操作主要包含以下两个步骤：

(1)利用采样窗口在输入矩阵上进行采样。

(2)通过卷积核的权重参数对所采样的值进行加权求和计算输出的特征图。

实际上采样窗口已经定义了采样的偏移值，而对于常规的卷积操作来说其采样窗口定义的偏移值在整个过程中保持不变，且决定了卷积核感受野的尺寸和每个采样点的位置，如公式5所示。

R＝{-1,0,1} (5)

公式5表示一个1*3的采样窗口，则对于输出的特征矩阵y上的每个元素p₀(这里p₀表示每次卷积运算中采样窗口中心点的坐标)来说，y(p₀)计算如公式6所示；

式中，y(p₀)为输出的特征矩阵y上的元素p₀；w(r_n)为每个采样点对应的权重参数，x(p)为根据坐标获取采样值的采样函数；

添加通过学习得到的偏移值Δr来移动感受野中每个采样点的采样位置，Δr作用于整个采样窗口内的所有采样位置上，因此y(p₀)的计算如公式7所示；

同样采用类似的方法通过添加参数Δr_n来移动感受野中每个采样点的采样位置，最终y(p₀)的计算如公式8所示；

由于得到的整体偏移值和局部偏移值通常均为小数形式，因此这里的采样函数选择通过线性插值的方式来计算最终每个点的采样值，如公式9所示；

x(p)＝(p-q₀)*x(q₀)+(q₁-p)*x(q₁) (9)

公式9中的q₀和q₁为采样点p相邻的两个采样点，通过对线性插值函数求偏导进行梯度下降调整自适应卷积神经网络模型参数。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于自适应卷积的水声信号分类识别方法，其特征在于：所述方法具体过程为：

步骤一、建立自适应卷积神经网络模型；

步骤二、将带标签的水声信号分为训练集和测试集；

步骤三、将待测试的水声信号输入训练好的自适应卷积神经网络模型，完成对水声信号的分类识别；

所述步骤一中建立自适应卷积神经网络模型；具体过程为：

第一层自适应卷积层接受输入层输入，输出相应的特征图，第二层自适应卷积层接受第一层自适应卷积层输出的特征图，第二层自适应卷积层输出的特征图经过特征图加权过滤层后，利用三个全连接层来最后输出分类结果；

所述第一层、第二层自适应卷积层的自适应卷积操作包括以下5步：

假设输入数据尺寸为1*n的一维水声信号，n为输入数据的长度，第一个卷积层、第二个卷积层、第三个卷积层中的卷积核尺寸均为1*25，通道数为c；*为尺寸；

第一个卷积层的采样窗口在输入数据上进行遍历采样，输出为整***置偏移值，填充的方式为在原始数据前后部分填充0；

(2)第二个卷积层在水声信号上进行步长为1的滑动卷积，计算水声信号每个采样点的局部位置偏移值，输出的张量长度与水声信号保持一致；

利用Sigmoid函数对最终进行特征提取的采样点坐标进行归一化处理，函数式如下所示：

式中，x为最终的采样点坐标；

x(p)＝(p-q₀)*x(q₀)+(q₁-p)*x(q₁)

的特征向量。

2.根据权利要求1所述基于自适应卷积的水声信号分类识别方法，其特征在于：所述特征图加权过滤层包括多通道全连接层、全连接层1、全连接层2、激活层和加权层；

多通道全连接层接收第二层自适应卷积层的输出；

多通道全连接层的神经元数量为1，通道数为16；

全连接层1的神经元数量为64，通道数为1；

全连接层2的神经元数量为16，通道数为1；采用激活函数为：

Activation(x)＝α*Tanh(β*Relu(x))

式中，x为激活函数输入；

全连接层1接收多通道全连接层的输出，利用64个神经元对多通道全连接层的16维输出进行升维，随后全连接层2接收全连接层1的输出，利用全连接层2将全连接层1的64维输出结果降维回16维，最终全连接层2输出16个通道的权值。

3.根据权利要求2所述基于自适应卷积的水声信号分类识别方法，其特征在于：所述特征图加权过滤层的具体计算过程为：

1)在输入矩阵上经过卷积操作后得到

所述输入矩阵为输入的水声信号；

3)利用Relu与Tanh的复合函数对全连接层2的输出进行激活，如下式所示，得到相应的权重；

Activation(x)＝α*Tanh(β*Relu(x))

其中，

Relu(x)＝max(0,x)

式中，参数α用来调整激活函数的取值范围，参数β调整函数曲线的弯曲程度；

4)通过矩阵乘法操作为第二层自适应卷积层输出的每个特征图通道进行加权；过程为：

将相应的权重与第二层自适应卷积层输出的每个特征图通道中所有元素进行乘法计算。

4.根据权利要求3所述基于自适应卷积的水声信号分类识别方法，其特征在于：所述三个全连接层分别为FC_6、FC_7和FC_8；

FC_6接收第二层自适应卷积层输出的特征图经过加权过滤后的结果，FC_7接收FC_6输出的结果，FC_8接收FC_7输出的结果；

FC_8利用Softmax函数作为分类器；

FC_6的神经元数量为120，通道数为1；采用激活函数为Tanh；

FC_7的神经元数量为84，通道数为1；采用激活函数为Tanh；

FC_8的神经元数量为m，通道数为1；采用激活函数为Softmax；

m取值为正整数。