CN109741733B

CN109741733B - 基于一致性路由网络的语音音素识别方法

Info

Publication number: CN109741733B
Application number: CN201910035513.9A
Authority: CN
Inventors: 徐宁; 倪亚南; 刘小峰; 姚潇
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2023-01-31
Anticipated expiration: 2039-01-15
Also published as: CN109741733A

Abstract

本发明公开一种基于一致性路由网络的语音音素识别方法，首先在训练阶段，构造一致性路由前馈网络编码器，对向量初始语音音素数据进行矩阵运算和二维卷积得到低阶状态向量；构造一致性路由网络的一致性路由结构，通过一致性路由系数加权低阶状态向量，将其中的信息传递给高阶状态向量；以每个高阶状态向量的长度的softmax激活值在所有高阶状态向量softmax激活值中的占比来表示判定为该标签的概率；然后构造一致性路由网络的重构解码器，将真实标签对应的高阶状态向量进行解码重构；基于总损失函数对一致性路由网络的参数求得梯度公式进行优化更新；在测试阶段，将初始语音音素数据输入一致性路由网络的前馈编码器中，判断待测试数据的所属类别。

Description

基于一致性路由网络的语音音素识别方法

技术领域

本发明属于分类处理及深度学习技术领域，具体涉及一种基于一致性路由网络的语音音素识别方法。

背景技术

语音数据是现代信息数据的重要处理内容，每一帧语音数据都可以用特征参数来描绘，比如共振峰有关参数，即一帧语音数据的共振峰频率(第一维)、带宽(第二维)、能量频谱倾斜(第三维)等，以上是基于研究人员经验积累、按照理论知识直接提取出来的多维特征。然而这样的工作计算量非常大，并且需要大量的尝试以及创新。近几年崛起的深度学习方法集特征提取和特征的分类于一体，具有非常强大的特征自组织以及特征抽象能力，能够帮助研究人员减轻在语音数据特征的设计上投入的时间和精力。卷积神经网络目前已经在图像的分类识别方面取得了巨大的成就，但是由于语音数据和图像数据存在一定的差异，卷积网络善于处理矩阵形式的图像信号，然而语音数据是时间序列，多个采样点之间有时间轴上的先后关系，因此，卷积神经网络并不适合直接处理语音数据。本发明提出的一致性路由网络能够克服传统的卷积网络所具有的缺点，得到识别目标所具有的更高阶更鲁棒的数字化表征。

发明内容

本发明的目的是针对现有技术存在的问题，提出一种基于一致性路由网络的语音音素识别方法，实现对语音音素的时序信号所对应的音速符号的精准识别，解决现有技术中按照理论知识直接提取的语音特征准确度低、语音数据分类效果差以及过拟合的技术问题。

为实现上述目的，本发明采用的技术方案是：

基于一致性路由网络的语音音素识别方法，包括以下步骤：

步骤1，构造一致性路由网络的前馈网络编码器；

步骤2，构造一致性路由网络的重构解码器，将真实标签对应的高阶状态向量进行解码重构；

步骤3，根据softmax激活值的判别结果计算分类损失，根据对比解码器的解码结果和原始数据计算重构损失，根据一致性路由结果计算相似性损失，将分类损失、重构损失、相似性损失进行加权求和得到总损失，使用自适应矩估计法对一致性路由网络中的所有可更新参数进行优化，使总损失最小化；

步骤4，将待测试的初始语音音素数据输入一致性路由网络的编码器中，根据所有高阶状态向量长度的softmax激活值判断待测试的初始语音音素数据的所属类别。

优选地，步骤1进一步包括以下步骤：

步骤1.1，使用矩阵乘法和二维卷积核对初始语音音素数据进行矩阵运算和二维卷积计算，计算得到低阶状态向量；

步骤1.2，构造一致性路由网络的一致性路由结构，通过矩阵和向量的元素乘法之后求平均值，将低阶状态向量中的信息传递给高阶状态向量；

步骤1.3，用每个类别对应的高阶状态向量的长度的softmax激活值在所有高阶向量softmax激活值中的占比来表示判别为该类别的语音音素数据的概率。

优选地，初始语音音素数据是通过原始语音数据经过预处理得到，具体包括以下步骤：

步骤A，对原始语音进行巴特沃斯带通滤波，并检测异常值点，去除毛刺噪声点；

步骤B，对滤波后的语音信号进行分帧处理；

步骤C，对分帧后的每一帧语音信号进行特征提取，选取w个特征作为每一帧的w维特征向量；

步骤D，对每一帧的w维特征向量进行归一化处理得到初始语音音素数据。

优选地，步骤1.1中，使用矩阵乘法和二维卷积核对初始语音音素数据进行矩阵运算和二维卷积计算的步骤中使用的编码方法包括：以多层感知机为基本组成单元的全连接网络的编码、二维卷积网络的编码、混合全连接-卷积网络的编码。

优选地，步骤1.1中，利用混合全连接-卷积网络的编码计算得到低阶状态向量的具体步骤包括：

步骤1.11，初始语音音素数据经过一个全连接层连接到具有m₁个单元的隐藏层h₁，经过激活函数sigmoid作用得到隐藏层h₁的输出数据z₁；

步骤1.12，将隐藏层h₁的输出数据z₁重塑为一个三维张量input1，即m₂个[b₁×b₁]大小的特征图谱，通过卷积核大小为[k₁×k₁]的二维卷积层连接到具有m₃个[b₂×b₂]大小的特征图谱的隐藏层h₂，经过激活函数sigmoid作用得到隐藏层h₂的输出z₂；

步骤1.13，将隐藏层h₂的输出数据z₂重塑成[n₁×lowVec_len]大小的二维张量，代表n₁个低阶状态向量，张量矩阵的每一行代表一个低阶状态向量lowVec，每个低阶状态向量的维度是lowVec_len；

步骤1.14，将每个低阶状态向量按照如下公式进行squash归一化处理。

优选地，步骤1.2中，高阶状态向量的个数即为预定的分类类别数目，构造一致性路由网络的一致性路由结构的步骤进一步包括：

步骤1.21，进行低阶状态向量到高阶状态向量的状态转换，每一个低阶状态向量先复制n₂份，复制后的每一个低阶状态向量需要转换为一个对应的高阶状态向量，将n₁个维度为lowVec_len的低阶状态向量复制n₂份得到一个维度为[n₁×n₂×lowVec_len×1]的张量tile_lowVec，n₂为预设的高阶状态向量数目，将tile_lowVec看作是一个包含了n₁×n₂个低阶状态向量的三维张量，使用基于张量的矩阵乘法得到中间张量P，具体公式如下：

Ρ＝W·tile_lowVec

其中W是一个形如[n₁×n₂×highVec_len×lowVec_len]的权值张量，highVec_len为高阶状态向量维度，·代表张量的矩阵乘法，即执行n₁×n₂次维度为[highVec_len×lowVec_len]与[lowVec_len×1]的矩阵相乘，P是形如[n₁×n₂×highVec_len×1]的中间张量，其中W是低阶状态向量转换到高阶状态向量的状态转换系数矩阵，为可迭代更新的参数；

步骤1.22，由于完成状态转换操作之后，每一个高阶状态向量对应n₁个低阶状态向量，为了得到一个完整的高阶状态向量，需要对其所有对应的n₁个低阶状态向量进行求和平均操作，具体公式如下：

其中lowVec_i为该高阶状态向量highVec对应的第i个低阶状态向量，由于上述公式的求和对象是向量，所以求和是向量各个维度上各自求和，先将每个高阶状态向量使用squash函数进行归一化处理，再将n₂个高阶状态向量组成一个大的张量矩阵，并且保留第一个维度大小为1，最后的高阶状态张量矩阵大小为[1×n₂×highVec_len]；

步骤1.23，将高阶状态张量矩阵按照第一个维度复制n₁份，n₁为低阶状态向量个数，得到形如[n₁×n₂×highVec_len]的张量v_j，将张量v_j扩增维度得到形如[n₁×n₂×1×highVec_len]的张量，按张量的矩阵乘法计算张量v_j与中间张量P的乘积得到形如[n₁×n₂×1]的低阶和高阶状态向量之间的相似性度量矩阵m_s；

步骤1.24，对相似性度量矩阵m_s中的所有元素求取平均值，取平均值的相反数作为正则项加入到后面的总损失中，记该正则项为L_s，L_s表示相似性损失。

优选地，步骤2进一步包括以下步骤：

步骤2.1，根据输入数据所对应的真实标签值，取出相应位置的高阶状态向量，记为trueHighVec；

步骤2.2，将向量trueHighVec经过包括隐藏层de_fc₁和隐藏层de_fc₂的全连接层，以全连接的方式连接到输出维度为w的解码器输出层，w为初始语音音素数据的维度，解码出的重构数据与初始语音音素数据具有相同的数据格式。

优选地，步骤3中，对一致性路由网络中的可更新参数进行优化，以最小化总损失的步骤进一步包括：

步骤3.1，采用解码器输出的重构数据与初始语音音素数据之间各个维度对应的距离的平方差之均值作为重构损失L_r；

步骤3.2，根据所有高阶状态向量的长度得到分类损失L_c，分类损失表示高阶状态向量的长度与期望值阈值的差距，计算公式如下：

其中k是预测音素符号，T_k是一个分类标签指示函数，当k指向真实音素符号时，T_k为1，||highVec_k||表示预测音素符号k对应的归一化后的高阶状态向量的长度，m⁺和m^-分别为归一化后的单个高阶状态向量长度的上下限值，max函数表示取两个数值中较大的一个，λ为非真实音素符号对应的分类损失之和的缩放系数；

步骤3.3，总损失函数L_t＝L_c+ηL_r+γL_s，其中η是用于调整重构损失在总损失中的比重的比例系数，γ是用于调整相似性损失在总损失中的比重的比例系数，采用自适应矩估计法对总损失函数进行优化，以最小化总损失。

优选地，步骤3.3中最小化总损失具体为：使用链式求导法则和反向传播算法计算出优化目标对于网络中的每个可更新参数的梯度公式，并采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值，然后根据每个参数的参数数值更新公式进行计算，从而更新一致性路由网络中的可更新参数数值，其中，可更新参数包括编码器中的权重矩阵、卷积核、一致性路由系数。

与现有技术相比，本发明的有益效果是：1)本发明提供的基于一致性路由网络的语音音素识别方法，实现对语音音素的时序信号所对应的音速符号的快速、精准识别，解决现有技术中按照理论知识直接提取的特征准确度低、语音数据分类效果差、模型计算速度慢、以及过拟合的技术问题；2)本发明方法提取出频域系数等多个维度的特征表征的语音音素数据，颗粒度精细到每一帧，可以对每一帧的音素进行识别，具有较高的实时性；语音数据输入一致性路由网络后，经过卷积层以及一致性路由，可以得到表征所要求的类别的高阶状态向量，根据各个高阶状态向量的长度的softmax激活值可以判断出输入数据属于各个类别的概率；在训练阶段根据高阶状态向量解码重构出输入数据，大大增强了所提取的高阶状态向量对输入数据表征能力的置信度。

附图说明

图1为本发明一种实施例的基于一致性路由网络的语音音素识别方法流程图；

图2为本发明一种实施例中一致性路由网络整体架构中的编码器架构示意图；

图3为本发明一种实施例中一致性路由网络整体架构中的解码器架构示意图；

图4为本发明一种实施例中的squash函数示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明一种实施例的基于一致性路由网络的语音音素识别方法流程图。

基于一致性路由网络的语音音素识别方法，具体步骤如下：

训练阶段：

步骤1，构造一致性路由网络的前馈网络编码器，如图2所示，具体为，

步骤1.1，使用矩阵乘法和二维卷积核对初始语音音素数据进行矩阵运算和二维卷积计算，计算得到结果为低阶状态向量：

lowVec＝forward(input0)

其中，lowVec表示编码后的低阶状态向量向量，forward表示编码过程，input0表示初始语音音素数据，即编码器部分的输入数据；

步骤1.2，构造一致性路由网络的一致性路由结构，通过矩阵和向量的的元素乘法之后求平均值，将低阶状态向量中的信息传递给高阶状态向量；

步骤1.3，用每个类别对应的高阶状态向量的长度的softmax激活值在所有高阶向量softmax激活值中的占比来表示判别为该类别的语音音素数据的概率；

步骤3，根据softmax激活值的判别结果计算分类损失，根据对比解码器的解码结果和原始数据计算重构损失，根据一致性路由结果计算相似性损失，将以上三个损失项加权求和得到总损失，使用自适应矩估计法对一致性路由网络中的可更新参数进行优化，整个模型的优化目标是使总损失最小化；

测试阶段：

具体地，步骤1.1中，所述初始语音音素数据是通过对原始语音数据进行预处理得到，具体包括以下步骤：

A.对原始语音进行巴特沃斯带通滤波，并检测异常值点，去除毛刺噪声点，公式如下：

s_p＝butter_bandpass_filter(s_r,a,b)

其中，s_p表示滤波后的语音信号，s_r表示未经处理的原始语音数据，butter_bandpass_filter为巴特沃斯带通滤波操作，频率的通带为aHz-bHz；

B.对滤波后的语音信号进行分帧处理；本实施例按照20ms级别的颗粒度对滤波后的语音信号进行分帧处理，即每一帧的时间长度是20ms，本实施例中使用的数据的采样频率是16000Hz，所以每一帧包含320个采样点；

C.对分帧后的每一帧语音信号进行特征提取，选取w个特征作为每一帧的w维特征向量；本实施例中通过傅里叶变换计算每一帧的基音频率、共振峰频率、能量频谱倾斜以及带宽等构成w个维度作为每一帧的特征，去除无关频率成分的影响，w为25；

D.对每一帧的w维(25维)特征向量进行归一化处理得到初始语音音素数据，即将每一帧的w维特征向量按维度除以一个归一化因子，所述归一化因子是一个w维(25维)向量l_norm。将语音信号的特征按各个维度将数值归一化到0-1之间，能够加速分类模型的收敛性能。

步骤1.1中采用的编码方法具体包括以多层感知机为基本组成单元的全连接网络的编码、二维卷积网络的编码、混合全连接-卷积网络的编码。

具体地，利用混合全连接-卷积网络的编码得到低阶状态向量的具体步骤为：

步骤1.11，初始语音音素数据input0(归一化的w维(25维)特征向量)经过一个全连接层连接到具有m₁个单元的隐藏层h₁，本实施例中m₁为1600；全连接层的权重为en_w₁，偏置为en_b₁，则隐藏层h₁的输入为

a₁＝input0·en_w₁+en_b₁

其中·为矩阵乘法，经过激活函数sigmoid作用得到隐藏层h₁的输出数据z₁＝sigmoid(a₁)，a₁为一个向量，sigmoid函数映射关系作用于向量的每一个元素上，本实施例中a₁的维度为1600。en_w₁和en_b₁均为可迭代更新的参数。

步骤1.12，将隐藏层h₁的输出数据z₁重塑为一个三维张量input1，即m₂个[b₁×b₁]大小的特征图谱，本实施例中[b₁×b₁]为[5×5]，m₂为64，可通过第三方软件实现重塑，通过卷积核大小为[k₁×k₁]的二维卷积层连接到具有m₃个[b₂×b₂]大小的特征图谱的隐藏层h₂；本实施例中m₃为256，b₂为3；卷积层的权重为en_w₂，偏置为en_b₂，且卷积核大小[k₁×k₁]为[3×3]，隐藏层h₂的输入为

a₂＝input1*en_w₂+en_b₂

其中*为矩阵二维卷积，经过激活函数sigmoid作用得到隐藏层h₂的输出z₂＝sigmoid(a₂)，本实施例中，a₂的大小为[3×3×256]。en_w₂和en_b₂均为可迭代更新的参数。

步骤1.13，将隐藏层h₂的输出数据z₂重塑成[n₁×lowVec_len]大小的二维张量，代表n₁个低阶状态向量，张量矩阵的每一行代表一个低阶状态向量lowVec，每个低阶状态向量的维度是lowVec_len；本实施例中二维张量的大小为[288×8]，即n₁(288)个低阶状态向量，每个低阶状态向量是元素个数(维度)为8的一个向量。

squash归一化函数的曲线如图4所示，该函数能将长度较短的低阶状态向量迅速压缩到接近于0的长度，将长度较长的低阶状态向量压缩到接近于1的长度。

所述步骤1.2中，构造一致性路由网络的一致性路由结构，通过矩阵和向量的的元素乘法之后求平均值，将低阶状态向量中的信息传递给高阶状态向量，高阶状态向量的个数即为预定的分类类别数目，所有低阶状态向量根据一致性路由计算出n₂个高阶状态向量的向量表示，本实施例中n₂为10，具体步骤为：

步骤1.21，将n₁个维度为lowVec_len的低阶状态向量复制n₂份(10份)得到一个[n₁×n₂×lowVec_len×1](即[288*10*8*1])的张量tile_lowVec，n₂为预设的高阶状态量数目，基于张量的矩阵乘法得到中间张量P，具体公式如下：

Ρ＝W·tile_lowVec

其中W是一个形如[n₁×n₂×highVec_len×lowVec_len](即[288*10*16*8])的权值张量，highVec_len为高阶状态向量维度，本实施例中为16维，·代表张量的矩阵乘法，即执行n₁×n₂(即288×10)次[highVec_len×lowVec_len](即[16×8])与[lowVec_len×1](即[8×1])的矩阵相乘，P是形如[n₁×n₂×highVec_len×1](即[288×10×16×1])的中间张量，其中W是低阶状态向量转换到高阶状态向量的状态转换系数矩阵，为可迭代更新的参数；

其中lowVec_i是该高阶状态向量highVec对应的第i个低阶状态向量。由于上述公式的求和对象是向量，所以求和是向量各个维度上各自求和。完成求和之后，先将每个高阶状态向量使用squash函数进行归一化处理，再将n₂个高阶状态向量组成一个大的张量矩阵，并且保留第一个维度大小为1，最后的高阶状态张量矩阵大小为[1×n₂×highVec_len](即[1×10×16])；

步骤1.23，将高阶状态张量矩阵按照第一个维度复制n₁份，n₁为低阶状态向量个数，得到形如[n₁×n₂×highVec_len](即[288×10×16])的张量v_j，将张量v_j扩增维度得到形如[n₁×n₂×1×highVec_len](即[288×10×1×16])的张量，按张量的矩阵乘法计算张量v_j与中间张量P的乘积得到形如[n₁×n₂×1](即288×10×1)的低阶和高阶状态向量之间的相似性度量矩阵m_s；

步骤1.24，对相似性度量矩阵m_s中的所有元素求取得到平均值，由于模型的期望目标是使得低阶状态向量和高阶状态向量之间的相似性越高越好，但是最后的优化步骤是使得损失最小化，所以取该平均值的相反数作为正则项加入到后面的总损失中，记该正则项为L_s，L_s表示相似性损失。

所述步骤2，构造一致性路由网络的重构解码器，解码器使用堆叠的三层全连接网络构成，将真实音素符号对应的高阶状态向量进行解码重构具体步骤为：

步骤2.1，为了屏蔽无效信息的干扰，将非真实音素符号对应的高阶状态向量中的数丢弃，取出真实符号对应的高阶状态向量trueHighVec，trueHighVec是一个维度为highVec_len的向量，可以将其看做是维度为[1×highVec_len]的矩阵，作为解码器的输入。

步骤2.2，将向量trueHighVec经过包括隐藏层de_fc₁和隐藏层de_fc₂的全连接层，隐藏层de_fc₁的单元数量为m₄，隐藏层de_fc₂的单元数量为m₅，本实施例中m₄、m₅分别为128和64，以全连接的方式连接到输出维度为w(即25)的解码器输出层，w为初始语音音素数据的维度，解码出的重构数据与初始语音音素数据具有相同的数据格式。

所述步骤3根据总损失对一致性路由网络的参数进行优化，最小化总损失，具体步骤如下：

步骤3.1，采用解码器输出的重构数据与初始语音音素数据之间各个维度对应的距离的平方差之均值作为重构损失L_r；重构损失指示了解码器输出与输入的误差，具体公式如下：

s_d＝decode(trueHighVec)

其中s_d表示根据高阶状态向量trueHighVec解码重构出的数据，decode表示解码器的解码过程，input0表示初始语音音素数据，∑表示对该矩阵中所有的元素求和。

其中k是预测音素符号，T_k是一个分类标签指示函数，当k指向真实音素符号时，T_k为1，||highVec_k||表示预测音素符号k对应的归一化后的高阶状态向量的长度，m⁺和m-分别为归一化后的单个高阶状态向量长度的上下限值，max函数表示取两个数值中较大的一个，即当真实音素符号对应的高阶状态向量长度超过上限，则该高阶状态向量的分类损失忽略，非真实音素符号对应的高阶状态向量长度低于下限时，则该高阶状态向量的分类损失忽略，λ为非真实音素符号对应的分类损失之和的缩放系数；

步骤3.3，总损失函数L_t＝L_c+ηL_r+γL_s，其中η是用于调整重构损失在总损失中的比重的比例系数，γ是用于调整相似性损失在总损失中的比重的比例系数，采用自适应矩估计法对总损失函数进行优化，即根据链式求导以及反向传播法则求出总损失函数对一致性路由网络中每一个可更新参数的导数，进而最小化总损失，优化一致性路由网络。

所述步骤3.3中最小化总损失具体为：使用链式求导法则和反向传播算法计算出优化目标对于网络中的每个可更新参数(主要包括编码器中的权重矩阵、卷积核、一致性路由系数等)的梯度公式，并采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值，然后根据每个参数的参数数值更新公式进行计算，从而更新一致性路由网络中的可更新参数数值。本实施例中自适应矩估计法的学习率设定为0.001，本实施例的分类方法能够收敛到较优的解，训练时间长短由具体的训练数据大小决定，一般设定训练数据中每个样本都被计算50次后停止训练。

在训练完后，在应用阶段，参数都已固定，在测试阶段不需要再计算高阶状态向量对于真实音素符号的损失，故将计算损失函数的部分以及解码重构部分截断去除，直接根据所有高阶状态向量长度的softmax激活值来判断输入语音数据的所属类别。

采用数据集Arctic对本发明的分类方法进行测试，该数据集采集了两名发音标准的受试者共2264个句子的音频文件，其中音频文件的采样频率是16kHz,2264个句子一共包含了40个类别的音素。为测试本发明在不同分类复杂度下的性能构建了四种测试场景：场景一中分类的音素对象是m和n，共两类；场景二中分类的音素对象是p，r，s和t共四类；场景三中分类的音素对象是ao、ah，ax、ae、ay、aw和aa，共七类；场景四中分类的音素对象是ao、ah，ax、ae、ay、aw、aa、er、ey和eh共十类。具体测试场景如表1所示，测试结果如表2所示，一致性路由与动态路由单个batch训练阶段计算时间对比如表3。

表1四种测试场景

表2四种测试场景中的测试结果

	训练正确率	测试正确率
			场景一	100％	99.82％
场景二	100％	98.12％
			场景三	100％	97.86％
场景四	100％	89.72％

表3一致性路由与动态路由单个batch训练阶段计算时间对比

	一致性路由	动态路由
			场景一	1.1s	7.2s
场景二	1.3s	9.6s
			场景三	1.4s	13.9s
场景四	1.7s	21.3s

采用对音素符号的分类的正确率作为评价指标，正确率的计算分为训练阶段和测试阶段，训练正确率体现了本发明对训练数据的所对应真实音素符号的预测准确率，测试正确率体现本发明对新数据的泛化能力。

由上表可知，本发明提出的分类方法对所有训练数据都具有完美的拟合能力，即使是对于从未被该分类方法接触过的测试数据也具有良好的泛化能力。同时，一致性路由的计算时间至少缩短到了动态路由的七分之一，在多分类场景中效果尤为明显。

本发明提供一种基于一致性路由网络的语音音素识别方法，首先在训练阶段，构造一致性路由前馈网络编码器，对向量初始语音音素数据进行矩阵运算和二维卷积得到低阶状态向量；构造一致性路由网络的一致性路由结构，通过一致性路由系数加权低阶状态向量，将其中的信息传递给高阶状态向量；以每个高阶状态向量的长度的softmax激活值在所有高阶状态向量softmax激活值中的占比来表示判定为该标签的概率；然后构造一致性路由网络的重构解码器，将真实标签对应的高阶状态向量进行解码重构；基于总损失函数对一致性路由网络的参数求得梯度公式进行优化更新；在测试阶段，将初始语音音素数据输入一致性路由网络的前馈编码器中，判断待测试数据的所属类别。本发明实现在小样本数据集上对数字化语音音素的信号所对应的音速符号的精准识别，解决了以往的识别方法准确度低、语音音素数据识别效果差以及过拟合的技术问题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于一致性路由网络的语音音素识别方法，其特征在于，包括以下步骤：

步骤1，构造一致性路由网络的前馈网络编码器；包括以下步骤：

步骤2，构造一致性路由网络的重构解码器，将真实标签对应的高阶状态向量进行解码重构；包括以下步骤：

步骤2.2，将向量trueHighVec经过包括隐藏层de_fc₁和隐藏层de_fc₂的全连接层，以全连接的方式连接到输出维度为w的解码器输出层，w为初始语音音素数据的维度，解码出的重构数据与初始语音音素数据具有相同的数据格式；

2.根据权利要求1所述的基于一致性路由网络的语音音素识别方法，其特征在于，初始语音音素数据是通过原始语音数据经过预处理得到，具体包括以下步骤：

步骤B，对滤波后的语音信号进行分帧处理；

3.根据权利要求1所述的基于一致性路由网络的语音音素识别方法，其特征在于，步骤1.1中，使用矩阵乘法和二维卷积核对初始语音音素数据进行矩阵运算和二维卷积计算的步骤中使用的编码方法包括：以多层感知机为基本组成单元的全连接网络的编码、二维卷积网络的编码、混合全连接-卷积网络的编码。

4.根据权利要求3所述的基于一致性路由网络的语音音素识别方法，其特征在于，步骤1.1使用的编码方法中，利用混合全连接-卷积网络的编码计算得到低阶状态向量的具体步骤包括：

步骤1.14，将每个低阶状态向量按照如下公式进行squash归一化处理：

5.根据权利要求1所述的基于一致性路由网络的语音音素识别方法，其特征在于，步骤1.2中，高阶状态向量的个数即为预定的分类类别数目，构造一致性路由网络的一致性路由结构的步骤包括：

Ρ＝W·tile_lowVec

6.根据权利要求5所述的基于一致性路由网络的语音音素识别方法，其特征在于，步骤3中，对一致性路由网络中的可更新参数进行优化，以最小化总损失的步骤包括：

7.根据权利要求6所述的基于一致性路由网络的语音音素识别方法，其特征在于，步骤3.3中最小化总损失具体为：使用链式求导法则和反向传播算法计算出优化目标对于网络中的每个可更新参数的梯度公式，并采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值，然后根据每个参数的参数数值更新公式进行计算，从而更新一致性路由网络中的可更新参数数值，其中，可更新参数包括编码器中的权重矩阵、卷积核、一致性路由系数。