CN116580708A

CN116580708A - 一种智能语音处理方法和***

Info

Publication number: CN116580708A
Application number: CN202310626858.8A
Authority: CN
Inventors: 李伟; 江萌; 刘佳佳; 毕永红; 谌秋实; 李晓莉; 牛士玮; 许冠洲; 刘琼洁; 赵珣; 王文萍; 胡亚军; 施美丽; 赵静娴
Original assignee: Pla 61623
Current assignee: Pla 61623
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-11

Abstract

本发明公开了一种智能语音处理方法和***，属于数据处理技术领域，方法包括：获取语音数据；对语音数据进行预处理；其中，预处理具体包括：获取语音数据的原始频谱数据；为原始频谱数据中的每个时间‑频率组生成一个随机数；对预设时频区域范围内的随机数进行平均，得到扰动参数；根据扰动参数对原始频谱数据进行预处理；通过CNN卷积神经网络构建声学模型；通过声学模型提取声学特征；通过N‑Gram算法和维特比解码算法构建语言模型；根据声学特征，通过语言模型进行语音识别，并输出语音识别结果。在本发中，在语音识别之前通过扰动参数对语音数据进行预处理，提高对于不同音色的语句识别的鲁棒性，增强语音识别的准确性。

Description

一种智能语音处理方法和***

技术领域

本发明属于数据处理技术领域，具体涉及一种智能语音处理方法和***。

背景技术

随着人工智能技术的发展，语音识别在日常生活中扮演着越来越重要的角色。传统的语音识别方法通常采用高斯混合模型(Gaussian Mixture Model，GMM)，但是面临说话者音色存在变化时，其准确性和鲁棒性受到限制。例如，在说话场景和语气情绪等因素不同时，即使是同一句话、同一个说话人，其说话的语速和咬字也往往是不完全一样的，传统的语音识别方法难以保证每一次语音识别的结果一致性。

发明内容

为了解决现有技术存在的成本过高，评估准确性低的技术问题，本发明提供一种智能语音处理方法和***。

第一方面

本发明提供了一种智能语音处理方法，包括：

S101：获取语音数据；

S102：对语音数据进行预处理；

其中，预处理具体包括：

获取语音数据的原始频谱数据；

为原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t)：

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间；

对预设时频区域范围内的随机数进行平均，计算得到扰动参数δ(f,t)：

其中，λ为扰动幅度参数，p为频域范围参数，q为时域范围参数；

根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理：

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据；

S103：通过CNN卷积神经网络构建声学模型；

其中，CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层，输入层与卷积层连接，卷积层与池化层连接，池化层与全连接层连接，全连接层与输出层连接；

S104：通过声学模型提取声学特征；

其中，卷积层用于输出声学特征向量C：

其中，s表示卷积层中卷积器的宽度，w_b,k表示第k个卷积器的权重，表示第i组输入特征矢量，a_k表示偏置值，θ()表示非线性激活函数；

其中，池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数，并根据局部相关性参数选取不同的池化算法，以通过池化算法对卷积层的输出结果进行池化处理；

其中，池化算法包括平均池化算法、最大池化算法和随机池化算法；

其中，全连接层用于对池化处理后的声学特征向量进行映射处理，得到声学特征；

其中，输出层用于输出声学特征；

S105：通过N-Gram算法和维特比解码算法构建语言模型；

S106：根据声学特征，通过语言模型进行语音识别，挑选概率最大的候选序列作为语音识别结果，并输出语音识别结果。

第二方面

本发明提供了一种智能语音处理***，包括：

获取模块，用于获取语音数据；

预处理模块，用于对语音数据进行预处理；

其中，预处理具体包括：

获取语音数据的原始频谱数据；

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间；

根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理：

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据；

声学模型构建模块，用于通过CNN卷积神经网络构建声学模型；

声学特征提取模块，用于通过声学模型提取声学特征；

其中，卷积层用于输出声学特征向量C：

其中，输出层用于输出声学特征；

语言模型构建模块，用于通过N-Gram算法和维特比解码算法构建语言模型；

输出模块，用于根据声学特征，通过语言模型进行语音识别，挑选概率最大的候选序列作为语音识别结果，并输出语音识别结果。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，在语音识别之前通过扰动参数对语音数据进行预处理，对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲，抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响，提高对于不同音色的语句识别的鲁棒性，增强语音识别的准确性。

(2)在本发明中，根据语音前后帧的局部关联程度选用不同的池化策略，以通过池化算法对卷积层的输出结果进行池化处理，可以适应各种场景下语音数据的处理，能够保证所有类型的语音数据的池化效果，进而提升语音识别的准确性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种智能语音处理方法的流程示意图；

图2是本发明提供的一种智能语音处理***的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的智能语音处理方法的流程示意图。

本发明提供的一种智能语音处理方法，包括：

S101：获取语音数据。

具体而言，可以从LibriSpeech、Mozilla Common Voice、VoxCeleb等公开的数据集中获取语音数据。还可以通过麦克风自行采集语音数据。

S102：对语音数据进行预处理。

可选地，预处理包括：数据清洗、数据平衡、数据降噪和声音归一化等。预处理提高语音信号的质量和可用性。

其中，预处理具体包括：

获取语音数据的原始频谱数据。

具体地，可以通过对语音数据进行加窗，之后进行傅里叶变换得到原始频谱数据。

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间。

其中，λ为扰动幅度参数，p为频域范围参数，q为时域范围参数。

进一步地，设置扰动幅度参数λ可以控制扰动的幅度，设置频域范围参数p和时域范围参数q可以平滑频率轴和时间轴的随机性。

根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理：

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据。

需要说明的是，在语音识别之前通过扰动参数对语音数据进行预处理，对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲，抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响，提高对于不同音色的语句识别的鲁棒性，增强语音识别的准确性。

S103：通过CNN卷积神经网络构建声学模型。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种常用于图像和序列数据处理的深度学习模型。CNN在计算机视觉任务中广泛应用，如图像分类、目标检测和图像分割等，其特点是能够有效地捕捉输入数据的局部特征和空间结构。

其中，CNN卷积神经网络中包括输入层(Input Layer)、卷积层(ConvolutionalLayer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)和输出层，输入层与卷积层连接，卷积层与池化层连接，池化层与全连接层连接，全连接层与输出层连接。

其中，输入层是网络的起点，负责接收原始数据作为模型的输入。

其中，卷积层包含多个卷积核(或滤波器)，每个卷积核对输入数据进行卷积操作，提取局部特征。通过滑动窗口的方式在输入数据上进行卷积操作，生成一系列特征图。卷积层能够捕捉输入数据的空间结构和局部特征，并通过学习卷积核的权重来提取不同层次的特征。

其中，池化层用于降低特征图的尺寸，并减少模型的参数数量。池化操作还有助于提高模型的平移不变性和位置不变性。

其中，全连接层通常出现在网络的最后几层。在经过多个卷积层和池化层提取高级特征后，全连接层将特征图转换为一维向量，并连接到输出层。

其中，输出层是卷积神经网络的最后一层，可以根据任务的要求决定输出形式。

S104：通过声学模型提取声学特征。

其中，卷积层用于输出声学特征向量C：

其中，s表示卷积层中卷积器的宽度，w_b,k表示第k个卷积器的权重，表示第i组输入特征矢量，a_k表示偏置值，θ()表示非线性激活函数。

其中，偏置值a_k在卷积层中起着重要的作用。每个卷积层中的卷积核都有一个对应的偏置值，用于调整卷积层的输出。偏置值a_k是一个常数，与每个卷积核的权重相加，然后通过非线性激活函数进行激活。

其中，非线性激活函数在神经网络中起着关键作用，它们引入非线性特性，使神经网络能够学习和表示复杂的数据关系。

在一种可能的实施方式中，非线性激活函数为：Sigmoid激活函数或者Tanh激活函数。其中，Sigmoid函数将输入映射到一个介于0和1之间的连续输出。Tanh函数将输入映射到介于-1和1之间的连续输出。

其中，池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数，并根据局部相关性参数选取不同的池化算法，以通过池化算法对卷积层的输出结果进行池化处理。

需要说明的是，根据语音前后帧的局部关联程度选用不同的池化策略，提升对于语音数据的池化效果，进而提升语音识别的准确性。

在一种可能的实施方式中，根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数，具体包括：

S1041：选取两个声学特征向量C_x＝(x₁,x₂,…,x_i)和C_y＝(y₁,y₂,…,y_i)。

S1042：对两个声学特征向量中的变量按照由小到大进行排序，并进行编号作为秩次R_xi和R_yi。

S1043：在两个声学特征向量的秩次R_xi和R_yi不同的情况下，通过以下公式计算局部相关性参数r：

S1044：在两个声学特征向量的秩次R_xi和R_yi相同的情况下，通过以下公式计算局部相关性参数r：

其中，局部相关性参数r越大表示前后两帧的声学特征越相关，反之，局部相关性参数r越小表示前后两帧的声学特征越不相关。

需要说明的是，语音信号沿频率轴会显示出一些局部特性，语音信号相邻样值之间存在很大的相关性，这意味着沿频率轴相似音素多数集中在的相同的局部区域，这些局部集中的特性可以作为区分不同音素的关键线索。而在本发明中，借助语音信号前后两帧的关联性来反应局部关联程度。

其中，池化算法包括平均池化算法、最大池化算法和随机池化算法。

其中，平均池化算法是一种常见的池化操作方法。它将池化窗口内的特征值取平均，得到池化后的输出特征值。平均池化算法的优点是能够平滑特征图、降低噪声的影响，并保留整体统计特征。它适用于一些需要考虑整体结构信息的任务。然而，它可能丢失一些细节特征，特别是在特征边缘或较小物体区域。

其中，最大池化算法是一种常用的池化操作方法，它选择池化窗口内的最大特征值作为池化结果。最大池化算法的优点是能够保留主要特征和边缘信息，对于特征提取和目标定位任务表现出色。然而，它对噪声或异常值比较敏感，可能会受到这些因素的干扰。

其中，随机池化算法引入了随机性，通过在池化窗口内随机选择特征值作为池化结果。随机池化算法的优点在于增加模型的鲁棒性和泛化能力，减少过拟合的风险，并提供一定的数据增强效果。然而，该算法精度较高，时间复杂度较大，不适合推广到全局。

现有技术中，往往在平均池化算法、最大池化算法和随机池化算法中选择一种作为最终的池化算法以进行池化处理，显然难以适应各种场景下语音数据的处理，不能保证所有类型的语音数据的池化效果最优。

在一种可能的实施方式中，根据局部相关性参数选取不同的池化算法，以通过池化算法对卷积层的输出结果进行池化处理，具体包括：

S1045：在局部相关性参数r小于0的情况下，选择平均池化算法进行池化处理，得到池化结果Ψ_k：

其中，Φ_kn表示声学特征值。

需要说明的是，局部相关性参数r小于0时，意味着局部的声学特征变化较大，而平均池化算法可以降低特征数据的离散性，因此，在此种情况下选择平均池化算法进行池化处理。

S1046：在局部相关性参数r等于0的情况下，选择随机池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝p_k

其中，p_k表示特征值Φ_kn被随机选中的概率。

需要说明的是，在局部相关性参数r等于0的情况下，意味着局部的声学特征相对独立，此时可以选用相较于其他两种池化方法，精度较高的随机池化算法进行池化处理。

S1047：在局部相关性参数r大于0的情况下，选择最大池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝max({Φ_kn}n∈N)。

需要说明的是，局部相关性参数r大于0时，意味着局部的声学特征变化不大，前后两帧声学特征的区分度不够明显，而最大池化算法可以提高强特征，抑制弱特征，进而保留细节特征，提升池化处理效果，因此，在此种情况下选择最大池化算法进行池化处理。

在本发明中，根据局部相关性参数选取不同的池化算法，以通过池化算法对卷积层的输出结果进行池化处理，可以适应各种场景下语音数据的处理，能够保证所有类型的语音数据的池化效果。

其中，全连接层用于对池化处理后的声学特征向量进行映射处理，得到声学特征。

在实际应用过程中，卷积神经网络模型由于初始模型复杂、数据集过少、训练集中噪声数据比率过大等等原因造成训练过程中陷入局部最优，导致测试样本输出和测试样本的期望输出相差较大的情况，容易出现过拟合。

为了降低过拟合发生的概率，在一种可能的实施方式中，全连接层中包含多个神经元，多个神经元之间通过神经元节点相连。全连接层具体用于：

计算第i个神经元节点的稀疏度参数ρ_i：

其中，表示第i个神经元节点的输出值，/>表示第i个神经元的输出值，α表示神经元节点的权重，β表示神经元的权重。

其中，稀疏度参数ρ_i可以体现神经元节点的重要性，如果一个神经元节点的稀疏度参数ρ_i越小，意味着该神经元节点所连接的各个权值对于整个神经网络输出的影响较小，在实际处理过程中，可以直接进行屏蔽的概率就越高。

根据第i个神经元节点的稀疏度参数ρ_i计算第i个神经元节点在全连接层中被屏蔽的概率P_i：

P_i＝μ·ρ_i

其中，μ为稀疏调节参数。

进一步地，通过调整稀疏调节参数，可以调整神经元节点被隐藏的概率，进而决定模型收敛的速度。

根据各个神经元节点在全连接层中被屏蔽的概率P_i，对部分神经元节点进行隐藏，对池化处理后的声学特征向量进行映射处理，得到声学特征。

在本发明中，对部分影响较小神经元节点进行隐藏，可以减少模型的建模成本，减少模型复杂度，加速模型的收敛速度，增强模型的泛化能力，防止模型过拟合。

其中，输出层用于输出声学特征。

S105：通过N-Gram算法和维特比解码算法构建语言模型。

其中，N-Gram算法是一种基于统计语言模型的文本处理方法，用于对文本数据进行分析和预测。它是基于N个连续的词或字符序列来建模文本的算法。N-Gram算法是相对成熟的现有技术，本发明不再赘述。

其中，维特比解码算法是一种基于动态规划的序列标注算法，常用于自然语言处理领域中的序列标注任务，例如词性标注、命名实体识别等。该算法用于寻找最可能的标注序列，给定观察序列和模型参数。维特比解码算法是相对成熟的现有技术，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，参考说明书附图2，示出了本发明提供的智能语音处理***的结构示意图。

本发明提供的一种智能语音处理***20，包括：

获取模块201，用于获取语音数据；

预处理模块202，用于对语音数据进行预处理；

其中，预处理具体包括：

获取语音数据的原始频谱数据；

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间；

根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理：

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据；

声学模型构建模块203，用于通过CNN卷积神经网络构建声学模型；

声学特征提取模块204，用于通过声学模型提取声学特征；

其中，卷积层用于输出声学特征向量C：

其中，输出层用于输出声学特征；

语言模型构建模块205，用于通过N-Gram算法和维特比解码算法构建语言模型；

输出模块206，用于根据声学特征，通过语言模型进行语音识别，挑选概率最大的候选序列作为语音识别结果，并输出语音识别结果。

S1031：选取两个声学特征向量C_x＝(x1,x2,…,xi)和C_y＝(y1,y2,…,y_i)；

S1032：对两个声学特征向量中的变量按照由小到大进行排序，并进行编号作为秩次R_xi和R_yi；

S1033：在两个声学特征向量的秩次R_xi和R_yi不同的情况下，通过以下公式计算局部相关性参数r：

S1034：在两个声学特征向量的秩次R_xi和R_yi相同的情况下，通过以下公式计算局部相关性参数r：

S1035：在局部相关性参数r小于0的情况下，选择平均池化算法进行池化处理，得到池化结果Ψ_k：

其中，Φ_kn表示声学特征值；

S1035：在局部相关性参数r等于0的情况下，选择随机池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝p_k

其中，p_k表示特征值Φ_kn被随机选中的概率；

S1036：在局部相关性参数r大于0的情况下，选择最大池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝max({Φ_kn}n∈N)。

在一种可能的实施方式中，全连接层中包含多个神经元，多个神经元之间通过神经元节点相连；全连接层具体用于：

计算第i个神经元节点的稀疏度参数ρ_i：

其中，表示第i个神经元节点的输出值，/>表示第i个神经元的输出值，α表示神经元节点的权重，β表示神经元的权重；

P_i＝μ·ρ_i

其中，μ为稀疏调节参数；

在一种可能的实施方式中，非线性激活函数为：Sigmoid激活函数或者Tanh激活函数。

本发明提供的一种智能语音处理***可以实现上述实施例1中的任一项智能语音处理方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种智能语音处理方法，其特征在于，包括：

S101：获取语音数据；

S102：对所述语音数据进行预处理；

其中，预处理具体包括：

获取所述语音数据的原始频谱数据；

为所述原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t)：

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间；

根据所述扰动参数δ(f,t)对所述原始频谱数据A(f,t)进行预处理：

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据；

S103：通过CNN卷积神经网络构建声学模型；

其中，所述CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层，所述输入层与所述卷积层连接，所述卷积层与所述池化层连接，所述池化层与所述全连接层连接，所述全连接层与所述输出层连接；

S104：通过所述声学模型提取声学特征；

其中，所述卷积层用于输出声学特征向量C：

其中，s表示所述卷积层中卷积器的宽度，w_b,k表示第k个卷积器的权重，表示第i组输入特征矢量，a_k表示偏置值，θ()表示非线性激活函数；

其中，所述池化层用于根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数，并根据所述局部相关性参数选取不同的池化算法，以通过所述池化算法对所述卷积层的输出结果进行池化处理；

其中，所述池化算法包括平均池化算法、最大池化算法和随机池化算法；

其中，所述全连接层用于对池化处理后的声学特征向量进行映射处理，得到声学特征；

其中，所述输出层用于输出所述声学特征；

S105：通过N-Gram算法和维特比解码算法构建语言模型；

S106：根据所述声学特征，通过所述语言模型进行语音识别，挑选概率最大的候选序列作为语音识别结果，并输出所述语音识别结果。

2.根据权利要求1所述的智能语音处理方法，其特征在于，所述根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数，具体包括：

S1041：选取两个声学特征向量C_x＝(x₁,x₂,…,x_i)和C_y＝(y₁,y₂,…,y_i)；

S1042：对两个声学特征向量中的变量按照由小到大进行排序，并进行编号作为秩次R_xi和R_yi；

S1043：在两个声学特征向量的秩次R_xi和R_yi不同的情况下，通过以下公式计算所述局部相关性参数r：

S1044：在两个声学特征向量的秩次R_xi和R_yi相同的情况下，通过以下公式计算所述局部相关性参数r：

3.根据权利要求2所述的智能语音处理方法，其特征在于，所述根据所述局部相关性参数选取不同的池化算法，以通过所述池化算法对所述卷积层的输出结果进行池化处理，具体包括：

S1045：在所述局部相关性参数r小于0的情况下，选择所述平均池化算法进行池化处理，得到池化结果Ψ_k：

其中，Φ_kn表示声学特征值；

S1046：在所述局部相关性参数r等于0的情况下，选择所述随机池化算法进行池化处理，得到池化结果Ψ_k：

其中，p_k表示特征值Φ_kn被随机选中的概率；

S1047：在所述局部相关性参数r大于0的情况下，选择所述最大池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝max({Φ_kn}n∈N)。

4.根据权利要求1所述的智能语音处理方法，其特征在于，所述全连接层中包含多个神经元，多个所述神经元之间通过神经元节点相连；所述全连接层具体用于：

计算第i个神经元节点的稀疏度参数ρ_i：

根据第i个神经元节点的稀疏度参数ρ_i计算第i个神经元节点在所述全连接层中被屏蔽的概率P_i：

P_i＝μ·ρ_i

其中，μ为稀疏调节参数；

根据各个神经元节点在所述全连接层中被屏蔽的概率P_i，对部分神经元节点进行隐藏，对池化处理后的声学特征向量进行映射处理，得到声学特征。

5.根据权利要求1所述的智能语音处理方法，其特征在于，所述非线性激活函数为：Sigmoid激活函数或者Tanh激活函数。

6.一种智能语音处理***，其特征在于，包括：

获取模块，用于获取语音数据；

预处理模块，用于对所述语音数据进行预处理；

其中，预处理具体包括：

获取所述语音数据的原始频谱数据；

rand(f,t)～U(-1,1)

其中，f表示频率，t表示时间；

A^*(f,t)＝A(f+δ(f,t),t)

其中，A^*(f,t)表示预处理后的频谱数据；

声学特征提取模块，用于通过所述声学模型提取声学特征；

其中，所述卷积层用于输出声学特征向量C：

其中，所述输出层用于输出所述声学特征；

输出模块，用于根据所述声学特征，通过所述语言模型进行语音识别，挑选概率最大的候选序列作为语音识别结果，并输出所述语音识别结果。

7.根据权利要求6所述的智能语音处理***，其特征在于，所述根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数，具体包括：

S1031：选取两个声学特征向量C_x＝(x₁,x₂,…,x_i)和C_y＝(y₁,y₂,…,y_i)；

S1033：在两个声学特征向量的秩次R_xi和R_yi不同的情况下，通过以下公式计算所述局部相关性参数r：

S1034：在两个声学特征向量的秩次R_xi和R_yi相同的情况下，通过以下公式计算所述局部相关性参数r：

8.根据权利要求7所述的智能语音处理***，其特征在于，所述根据所述局部相关性参数选取不同的池化算法，以通过所述池化算法对所述卷积层的输出结果进行池化处理，具体包括：

S1035：在所述局部相关性参数r小于0的情况下，选择所述平均池化算法进行池化处理，得到池化结果Ψ_k：

其中，Φ_kn表示声学特征值；

S1035：在所述局部相关性参数r等于0的情况下，选择所述随机池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝p_k

其中，p_k表示特征值Φ_kn被随机选中的概率；

S1036：在所述局部相关性参数r大于0的情况下，选择所述最大池化算法进行池化处理，得到池化结果Ψ_k：

Ψ_k＝max({Φ_kn}n∈N)。

9.根据权利要求6所述的智能语音处理***，其特征在于，所述全连接层中包含多个神经元，多个所述神经元之间通过神经元节点相连；所述全连接层具体用于：

计算第i个神经元节点的稀疏度参数ρ_i：

P_i＝μ·ρ_i

其中，μ为稀疏调节参数；

10.根据权利要求6所述的智能语音处理***，其特征在于，所述非线性激活函数为：Sigmoid激活函数或者Tanh激活函数。