CN116580708A - 一种智能语音处理方法和*** - Google Patents
一种智能语音处理方法和*** Download PDFInfo
- Publication number
- CN116580708A CN116580708A CN202310626858.8A CN202310626858A CN116580708A CN 116580708 A CN116580708 A CN 116580708A CN 202310626858 A CN202310626858 A CN 202310626858A CN 116580708 A CN116580708 A CN 116580708A
- Authority
- CN
- China
- Prior art keywords
- pooling
- layer
- acoustic
- output
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 155
- 210000002569 neuron Anatomy 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 16
- 239000003086 colorant Substances 0.000 abstract description 9
- 230000000694 effects Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种智能语音处理方法和***,属于数据处理技术领域,方法包括:获取语音数据;对语音数据进行预处理;其中,预处理具体包括:获取语音数据的原始频谱数据;为原始频谱数据中的每个时间‑频率组生成一个随机数;对预设时频区域范围内的随机数进行平均,得到扰动参数;根据扰动参数对原始频谱数据进行预处理;通过CNN卷积神经网络构建声学模型;通过声学模型提取声学特征;通过N‑Gram算法和维特比解码算法构建语言模型;根据声学特征,通过语言模型进行语音识别,并输出语音识别结果。在本发中,在语音识别之前通过扰动参数对语音数据进行预处理,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种智能语音处理方法和***。
背景技术
随着人工智能技术的发展,语音识别在日常生活中扮演着越来越重要的角色。传统的语音识别方法通常采用高斯混合模型(Gaussian Mixture Model,GMM),但是面临说话者音色存在变化时,其准确性和鲁棒性受到限制。例如,在说话场景和语气情绪等因素不同时,即使是同一句话、同一个说话人,其说话的语速和咬字也往往是不完全一样的,传统的语音识别方法难以保证每一次语音识别的结果一致性。
发明内容
为了解决现有技术存在的成本过高,评估准确性低的技术问题,本发明提供一种智能语音处理方法和***。
第一方面
本发明提供了一种智能语音处理方法,包括:
S101:获取语音数据;
S102:对语音数据进行预处理;
其中,预处理具体包括:
获取语音数据的原始频谱数据;
为原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间;
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数;
根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据;
S103:通过CNN卷积神经网络构建声学模型;
其中,CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层,输入层与卷积层连接,卷积层与池化层连接,池化层与全连接层连接,全连接层与输出层连接;
S104:通过声学模型提取声学特征;
其中,卷积层用于输出声学特征向量C:
其中,s表示卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数;
其中,池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,并根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理;
其中,池化算法包括平均池化算法、最大池化算法和随机池化算法;
其中,全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征;
其中,输出层用于输出声学特征;
S105:通过N-Gram算法和维特比解码算法构建语言模型;
S106:根据声学特征,通过语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出语音识别结果。
第二方面
本发明提供了一种智能语音处理***,包括:
获取模块,用于获取语音数据;
预处理模块,用于对语音数据进行预处理;
其中,预处理具体包括:
获取语音数据的原始频谱数据;
为原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间;
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数;
根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据;
声学模型构建模块,用于通过CNN卷积神经网络构建声学模型;
其中,CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层,输入层与卷积层连接,卷积层与池化层连接,池化层与全连接层连接,全连接层与输出层连接;
声学特征提取模块,用于通过声学模型提取声学特征;
其中,卷积层用于输出声学特征向量C:
其中,s表示卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数;
其中,池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,并根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理;
其中,池化算法包括平均池化算法、最大池化算法和随机池化算法;
其中,全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征;
其中,输出层用于输出声学特征;
语言模型构建模块,用于通过N-Gram算法和维特比解码算法构建语言模型;
输出模块,用于根据声学特征,通过语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出语音识别结果。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,在语音识别之前通过扰动参数对语音数据进行预处理,对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲,抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
(2)在本发明中,根据语音前后帧的局部关联程度选用不同的池化策略,以通过池化算法对卷积层的输出结果进行池化处理,可以适应各种场景下语音数据的处理,能够保证所有类型的语音数据的池化效果,进而提升语音识别的准确性。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种智能语音处理方法的流程示意图;
图2是本发明提供的一种智能语音处理***的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的智能语音处理方法的流程示意图。
本发明提供的一种智能语音处理方法,包括:
S101:获取语音数据。
具体而言,可以从LibriSpeech、Mozilla Common Voice、VoxCeleb等公开的数据集中获取语音数据。还可以通过麦克风自行采集语音数据。
S102:对语音数据进行预处理。
可选地,预处理包括:数据清洗、数据平衡、数据降噪和声音归一化等。预处理提高语音信号的质量和可用性。
其中,预处理具体包括:
获取语音数据的原始频谱数据。
具体地,可以通过对语音数据进行加窗,之后进行傅里叶变换得到原始频谱数据。
为原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间。
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数。
进一步地,设置扰动幅度参数λ可以控制扰动的幅度,设置频域范围参数p和时域范围参数q可以平滑频率轴和时间轴的随机性。
根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据。
需要说明的是,在语音识别之前通过扰动参数对语音数据进行预处理,对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲,抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
S103:通过CNN卷积神经网络构建声学模型。
其中,卷积神经网络(Convolutional Neural Network,CNN)是一种常用于图像和序列数据处理的深度学习模型。CNN在计算机视觉任务中广泛应用,如图像分类、目标检测和图像分割等,其特点是能够有效地捕捉输入数据的局部特征和空间结构。
其中,CNN卷积神经网络中包括输入层(Input Layer)、卷积层(ConvolutionalLayer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)和输出层,输入层与卷积层连接,卷积层与池化层连接,池化层与全连接层连接,全连接层与输出层连接。
其中,输入层是网络的起点,负责接收原始数据作为模型的输入。
其中,卷积层包含多个卷积核(或滤波器),每个卷积核对输入数据进行卷积操作,提取局部特征。通过滑动窗口的方式在输入数据上进行卷积操作,生成一系列特征图。卷积层能够捕捉输入数据的空间结构和局部特征,并通过学习卷积核的权重来提取不同层次的特征。
其中,池化层用于降低特征图的尺寸,并减少模型的参数数量。池化操作还有助于提高模型的平移不变性和位置不变性。
其中,全连接层通常出现在网络的最后几层。在经过多个卷积层和池化层提取高级特征后,全连接层将特征图转换为一维向量,并连接到输出层。
其中,输出层是卷积神经网络的最后一层,可以根据任务的要求决定输出形式。
S104:通过声学模型提取声学特征。
其中,卷积层用于输出声学特征向量C:
其中,s表示卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数。
其中,偏置值ak在卷积层中起着重要的作用。每个卷积层中的卷积核都有一个对应的偏置值,用于调整卷积层的输出。偏置值ak是一个常数,与每个卷积核的权重相加,然后通过非线性激活函数进行激活。
其中,非线性激活函数在神经网络中起着关键作用,它们引入非线性特性,使神经网络能够学习和表示复杂的数据关系。
在一种可能的实施方式中,非线性激活函数为:Sigmoid激活函数或者Tanh激活函数。其中,Sigmoid函数将输入映射到一个介于0和1之间的连续输出。Tanh函数将输入映射到介于-1和1之间的连续输出。
其中,池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,并根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理。
需要说明的是,根据语音前后帧的局部关联程度选用不同的池化策略,提升对于语音数据的池化效果,进而提升语音识别的准确性。
在一种可能的实施方式中,根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,具体包括:
S1041:选取两个声学特征向量Cx=(x1,x2,…,xi)和Cy=(y1,y2,…,yi)。
S1042:对两个声学特征向量中的变量按照由小到大进行排序,并进行编号作为秩次Rxi和Ryi。
S1043:在两个声学特征向量的秩次Rxi和Ryi不同的情况下,通过以下公式计算局部相关性参数r:
S1044:在两个声学特征向量的秩次Rxi和Ryi相同的情况下,通过以下公式计算局部相关性参数r:
其中,局部相关性参数r越大表示前后两帧的声学特征越相关,反之,局部相关性参数r越小表示前后两帧的声学特征越不相关。
需要说明的是,语音信号沿频率轴会显示出一些局部特性,语音信号相邻样值之间存在很大的相关性,这意味着沿频率轴相似音素多数集中在的相同的局部区域,这些局部集中的特性可以作为区分不同音素的关键线索。而在本发明中,借助语音信号前后两帧的关联性来反应局部关联程度。
其中,池化算法包括平均池化算法、最大池化算法和随机池化算法。
其中,平均池化算法是一种常见的池化操作方法。它将池化窗口内的特征值取平均,得到池化后的输出特征值。平均池化算法的优点是能够平滑特征图、降低噪声的影响,并保留整体统计特征。它适用于一些需要考虑整体结构信息的任务。然而,它可能丢失一些细节特征,特别是在特征边缘或较小物体区域。
其中,最大池化算法是一种常用的池化操作方法,它选择池化窗口内的最大特征值作为池化结果。最大池化算法的优点是能够保留主要特征和边缘信息,对于特征提取和目标定位任务表现出色。然而,它对噪声或异常值比较敏感,可能会受到这些因素的干扰。
其中,随机池化算法引入了随机性,通过在池化窗口内随机选择特征值作为池化结果。随机池化算法的优点在于增加模型的鲁棒性和泛化能力,减少过拟合的风险,并提供一定的数据增强效果。然而,该算法精度较高,时间复杂度较大,不适合推广到全局。
现有技术中,往往在平均池化算法、最大池化算法和随机池化算法中选择一种作为最终的池化算法以进行池化处理,显然难以适应各种场景下语音数据的处理,不能保证所有类型的语音数据的池化效果最优。
在一种可能的实施方式中,根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理,具体包括:
S1045:在局部相关性参数r小于0的情况下,选择平均池化算法进行池化处理,得到池化结果Ψk:
其中,Φkn表示声学特征值。
需要说明的是,局部相关性参数r小于0时,意味着局部的声学特征变化较大,而平均池化算法可以降低特征数据的离散性,因此,在此种情况下选择平均池化算法进行池化处理。
S1046:在局部相关性参数r等于0的情况下,选择随机池化算法进行池化处理,得到池化结果Ψk:
Ψk=pk
其中,pk表示特征值Φkn被随机选中的概率。
需要说明的是,在局部相关性参数r等于0的情况下,意味着局部的声学特征相对独立,此时可以选用相较于其他两种池化方法,精度较高的随机池化算法进行池化处理。
S1047:在局部相关性参数r大于0的情况下,选择最大池化算法进行池化处理,得到池化结果Ψk:
Ψk=max({Φkn}n∈N)。
需要说明的是,局部相关性参数r大于0时,意味着局部的声学特征变化不大,前后两帧声学特征的区分度不够明显,而最大池化算法可以提高强特征,抑制弱特征,进而保留细节特征,提升池化处理效果,因此,在此种情况下选择最大池化算法进行池化处理。
在本发明中,根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理,可以适应各种场景下语音数据的处理,能够保证所有类型的语音数据的池化效果。
其中,全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征。
在实际应用过程中,卷积神经网络模型由于初始模型复杂、数据集过少、训练集中噪声数据比率过大等等原因造成训练过程中陷入局部最优,导致测试样本输出和测试样本的期望输出相差较大的情况,容易出现过拟合。
为了降低过拟合发生的概率,在一种可能的实施方式中,全连接层中包含多个神经元,多个神经元之间通过神经元节点相连。全连接层具体用于:
计算第i个神经元节点的稀疏度参数ρi:
其中,表示第i个神经元节点的输出值,/>表示第i个神经元的输出值,α表示神经元节点的权重,β表示神经元的权重。
其中,稀疏度参数ρi可以体现神经元节点的重要性,如果一个神经元节点的稀疏度参数ρi越小,意味着该神经元节点所连接的各个权值对于整个神经网络输出的影响较小,在实际处理过程中,可以直接进行屏蔽的概率就越高。
根据第i个神经元节点的稀疏度参数ρi计算第i个神经元节点在全连接层中被屏蔽的概率Pi:
Pi=μ·ρi
其中,μ为稀疏调节参数。
进一步地,通过调整稀疏调节参数,可以调整神经元节点被隐藏的概率,进而决定模型收敛的速度。
根据各个神经元节点在全连接层中被屏蔽的概率Pi,对部分神经元节点进行隐藏,对池化处理后的声学特征向量进行映射处理,得到声学特征。
在本发明中,对部分影响较小神经元节点进行隐藏,可以减少模型的建模成本,减少模型复杂度,加速模型的收敛速度,增强模型的泛化能力,防止模型过拟合。
其中,输出层用于输出声学特征。
S105:通过N-Gram算法和维特比解码算法构建语言模型。
其中,N-Gram算法是一种基于统计语言模型的文本处理方法,用于对文本数据进行分析和预测。它是基于N个连续的词或字符序列来建模文本的算法。N-Gram算法是相对成熟的现有技术,本发明不再赘述。
其中,维特比解码算法是一种基于动态规划的序列标注算法,常用于自然语言处理领域中的序列标注任务,例如词性标注、命名实体识别等。该算法用于寻找最可能的标注序列,给定观察序列和模型参数。维特比解码算法是相对成熟的现有技术,本发明不再赘述。
S106:根据声学特征,通过语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出语音识别结果。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,在语音识别之前通过扰动参数对语音数据进行预处理,对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲,抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
(2)在本发明中,根据语音前后帧的局部关联程度选用不同的池化策略,以通过池化算法对卷积层的输出结果进行池化处理,可以适应各种场景下语音数据的处理,能够保证所有类型的语音数据的池化效果,进而提升语音识别的准确性。
实施例2
在一个实施例中,参考说明书附图2,示出了本发明提供的智能语音处理***的结构示意图。
本发明提供的一种智能语音处理***20,包括:
获取模块201,用于获取语音数据;
预处理模块202,用于对语音数据进行预处理;
其中,预处理具体包括:
获取语音数据的原始频谱数据;
为原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间;
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数;
根据扰动参数δ(f,t)对原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据;
声学模型构建模块203,用于通过CNN卷积神经网络构建声学模型;
其中,CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层,输入层与卷积层连接,卷积层与池化层连接,池化层与全连接层连接,全连接层与输出层连接;
声学特征提取模块204,用于通过声学模型提取声学特征;
其中,卷积层用于输出声学特征向量C:
其中,s表示卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数;
其中,池化层用于根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,并根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理;
其中,池化算法包括平均池化算法、最大池化算法和随机池化算法;
其中,全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征;
其中,输出层用于输出声学特征;
语言模型构建模块205,用于通过N-Gram算法和维特比解码算法构建语言模型;
输出模块206,用于根据声学特征,通过语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出语音识别结果。
在一种可能的实施方式中,根据卷积层输出的声学特征向量C计算语音数据的局部相关性参数,具体包括:
S1031:选取两个声学特征向量Cx=(x1,x2,…,xi)和Cy=(y1,y2,…,yi);
S1032:对两个声学特征向量中的变量按照由小到大进行排序,并进行编号作为秩次Rxi和Ryi;
S1033:在两个声学特征向量的秩次Rxi和Ryi不同的情况下,通过以下公式计算局部相关性参数r:
S1034:在两个声学特征向量的秩次Rxi和Ryi相同的情况下,通过以下公式计算局部相关性参数r:
在一种可能的实施方式中,根据局部相关性参数选取不同的池化算法,以通过池化算法对卷积层的输出结果进行池化处理,具体包括:
S1035:在局部相关性参数r小于0的情况下,选择平均池化算法进行池化处理,得到池化结果Ψk:
其中,Φkn表示声学特征值;
S1035:在局部相关性参数r等于0的情况下,选择随机池化算法进行池化处理,得到池化结果Ψk:
Ψk=pk
其中,pk表示特征值Φkn被随机选中的概率;
S1036:在局部相关性参数r大于0的情况下,选择最大池化算法进行池化处理,得到池化结果Ψk:
Ψk=max({Φkn}n∈N)。
在一种可能的实施方式中,全连接层中包含多个神经元,多个神经元之间通过神经元节点相连;全连接层具体用于:
计算第i个神经元节点的稀疏度参数ρi:
其中,表示第i个神经元节点的输出值,/>表示第i个神经元的输出值,α表示神经元节点的权重,β表示神经元的权重;
根据第i个神经元节点的稀疏度参数ρi计算第i个神经元节点在全连接层中被屏蔽的概率Pi:
Pi=μ·ρi
其中,μ为稀疏调节参数;
根据各个神经元节点在全连接层中被屏蔽的概率Pi,对部分神经元节点进行隐藏,对池化处理后的声学特征向量进行映射处理,得到声学特征。
在一种可能的实施方式中,非线性激活函数为:Sigmoid激活函数或者Tanh激活函数。
本发明提供的一种智能语音处理***可以实现上述实施例1中的任一项智能语音处理方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,在语音识别之前通过扰动参数对语音数据进行预处理,对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲,抑制由于不同说话人的音色不同对于同一句话、同一个字词发音的影响,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
(2)在本发明中,根据语音前后帧的局部关联程度选用不同的池化策略,以通过池化算法对卷积层的输出结果进行池化处理,可以适应各种场景下语音数据的处理,能够保证所有类型的语音数据的池化效果,进而提升语音识别的准确性。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种智能语音处理方法,其特征在于,包括:
S101:获取语音数据;
S102:对所述语音数据进行预处理;
其中,预处理具体包括:
获取所述语音数据的原始频谱数据;
为所述原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间;
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数;
根据所述扰动参数δ(f,t)对所述原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据;
S103:通过CNN卷积神经网络构建声学模型;
其中,所述CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层,所述输入层与所述卷积层连接,所述卷积层与所述池化层连接,所述池化层与所述全连接层连接,所述全连接层与所述输出层连接;
S104:通过所述声学模型提取声学特征;
其中,所述卷积层用于输出声学特征向量C:
其中,s表示所述卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数;
其中,所述池化层用于根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数,并根据所述局部相关性参数选取不同的池化算法,以通过所述池化算法对所述卷积层的输出结果进行池化处理;
其中,所述池化算法包括平均池化算法、最大池化算法和随机池化算法;
其中,所述全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征;
其中,所述输出层用于输出所述声学特征;
S105:通过N-Gram算法和维特比解码算法构建语言模型;
S106:根据所述声学特征,通过所述语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出所述语音识别结果。
2.根据权利要求1所述的智能语音处理方法,其特征在于,所述根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数,具体包括:
S1041:选取两个声学特征向量Cx=(x1,x2,…,xi)和Cy=(y1,y2,…,yi);
S1042:对两个声学特征向量中的变量按照由小到大进行排序,并进行编号作为秩次Rxi和Ryi;
S1043:在两个声学特征向量的秩次Rxi和Ryi不同的情况下,通过以下公式计算所述局部相关性参数r:
S1044:在两个声学特征向量的秩次Rxi和Ryi相同的情况下,通过以下公式计算所述局部相关性参数r:
3.根据权利要求2所述的智能语音处理方法,其特征在于,所述根据所述局部相关性参数选取不同的池化算法,以通过所述池化算法对所述卷积层的输出结果进行池化处理,具体包括:
S1045:在所述局部相关性参数r小于0的情况下,选择所述平均池化算法进行池化处理,得到池化结果Ψk:
其中,Φkn表示声学特征值;
S1046:在所述局部相关性参数r等于0的情况下,选择所述随机池化算法进行池化处理,得到池化结果Ψk:
其中,pk表示特征值Φkn被随机选中的概率;
S1047:在所述局部相关性参数r大于0的情况下,选择所述最大池化算法进行池化处理,得到池化结果Ψk:
Ψk=max({Φkn}n∈N)。
4.根据权利要求1所述的智能语音处理方法,其特征在于,所述全连接层中包含多个神经元,多个所述神经元之间通过神经元节点相连;所述全连接层具体用于:
计算第i个神经元节点的稀疏度参数ρi:
其中,表示第i个神经元节点的输出值,/>表示第i个神经元的输出值,α表示神经元节点的权重,β表示神经元的权重;
根据第i个神经元节点的稀疏度参数ρi计算第i个神经元节点在所述全连接层中被屏蔽的概率Pi:
Pi=μ·ρi
其中,μ为稀疏调节参数;
根据各个神经元节点在所述全连接层中被屏蔽的概率Pi,对部分神经元节点进行隐藏,对池化处理后的声学特征向量进行映射处理,得到声学特征。
5.根据权利要求1所述的智能语音处理方法,其特征在于,所述非线性激活函数为:Sigmoid激活函数或者Tanh激活函数。
6.一种智能语音处理***,其特征在于,包括:
获取模块,用于获取语音数据;
预处理模块,用于对所述语音数据进行预处理;
其中,预处理具体包括:
获取所述语音数据的原始频谱数据;
为所述原始频谱数据中的每个时间-频率组生成一个范围在-1和1之间的随机数rand(f,t):
rand(f,t)~U(-1,1)
其中,f表示频率,t表示时间;
对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f,t):
其中,λ为扰动幅度参数,p为频域范围参数,q为时域范围参数;
根据所述扰动参数δ(f,t)对所述原始频谱数据A(f,t)进行预处理:
A*(f,t)=A(f+δ(f,t),t)
其中,A*(f,t)表示预处理后的频谱数据;
声学模型构建模块,用于通过CNN卷积神经网络构建声学模型;
其中,所述CNN卷积神经网络中包括输入层、卷积层、池化层、全连接层和输出层,所述输入层与所述卷积层连接,所述卷积层与所述池化层连接,所述池化层与所述全连接层连接,所述全连接层与所述输出层连接;
声学特征提取模块,用于通过所述声学模型提取声学特征;
其中,所述卷积层用于输出声学特征向量C:
其中,s表示所述卷积层中卷积器的宽度,wb,k表示第k个卷积器的权重,表示第i组输入特征矢量,ak表示偏置值,θ()表示非线性激活函数;
其中,所述池化层用于根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数,并根据所述局部相关性参数选取不同的池化算法,以通过所述池化算法对所述卷积层的输出结果进行池化处理;
其中,所述池化算法包括平均池化算法、最大池化算法和随机池化算法;
其中,所述全连接层用于对池化处理后的声学特征向量进行映射处理,得到声学特征;
其中,所述输出层用于输出所述声学特征;
语言模型构建模块,用于通过N-Gram算法和维特比解码算法构建语言模型;
输出模块,用于根据所述声学特征,通过所述语言模型进行语音识别,挑选概率最大的候选序列作为语音识别结果,并输出所述语音识别结果。
7.根据权利要求6所述的智能语音处理***,其特征在于,所述根据所述卷积层输出的所述声学特征向量C计算所述语音数据的局部相关性参数,具体包括:
S1031:选取两个声学特征向量Cx=(x1,x2,…,xi)和Cy=(y1,y2,…,yi);
S1032:对两个声学特征向量中的变量按照由小到大进行排序,并进行编号作为秩次Rxi和Ryi;
S1033:在两个声学特征向量的秩次Rxi和Ryi不同的情况下,通过以下公式计算所述局部相关性参数r:
S1034:在两个声学特征向量的秩次Rxi和Ryi相同的情况下,通过以下公式计算所述局部相关性参数r:
8.根据权利要求7所述的智能语音处理***,其特征在于,所述根据所述局部相关性参数选取不同的池化算法,以通过所述池化算法对所述卷积层的输出结果进行池化处理,具体包括:
S1035:在所述局部相关性参数r小于0的情况下,选择所述平均池化算法进行池化处理,得到池化结果Ψk:
其中,Φkn表示声学特征值;
S1035:在所述局部相关性参数r等于0的情况下,选择所述随机池化算法进行池化处理,得到池化结果Ψk:
Ψk=pk
其中,pk表示特征值Φkn被随机选中的概率;
S1036:在所述局部相关性参数r大于0的情况下,选择所述最大池化算法进行池化处理,得到池化结果Ψk:
Ψk=max({Φkn}n∈N)。
9.根据权利要求6所述的智能语音处理***,其特征在于,所述全连接层中包含多个神经元,多个所述神经元之间通过神经元节点相连;所述全连接层具体用于:
计算第i个神经元节点的稀疏度参数ρi:
其中,表示第i个神经元节点的输出值,/>表示第i个神经元的输出值,α表示神经元节点的权重,β表示神经元的权重;
根据第i个神经元节点的稀疏度参数ρi计算第i个神经元节点在所述全连接层中被屏蔽的概率Pi:
Pi=μ·ρi
其中,μ为稀疏调节参数;
根据各个神经元节点在所述全连接层中被屏蔽的概率Pi,对部分神经元节点进行隐藏,对池化处理后的声学特征向量进行映射处理,得到声学特征。
10.根据权利要求6所述的智能语音处理***,其特征在于,所述非线性激活函数为:Sigmoid激活函数或者Tanh激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626858.8A CN116580708A (zh) | 2023-05-30 | 2023-05-30 | 一种智能语音处理方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626858.8A CN116580708A (zh) | 2023-05-30 | 2023-05-30 | 一种智能语音处理方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580708A true CN116580708A (zh) | 2023-08-11 |
Family
ID=87543045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310626858.8A Pending CN116580708A (zh) | 2023-05-30 | 2023-05-30 | 一种智能语音处理方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862530A (zh) * | 2023-06-25 | 2023-10-10 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及*** |
CN111696535A (zh) * | 2020-05-22 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN111986661A (zh) * | 2020-08-28 | 2020-11-24 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
-
2023
- 2023-05-30 CN CN202310626858.8A patent/CN116580708A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及*** |
CN111696535A (zh) * | 2020-05-22 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 |
CN111986661A (zh) * | 2020-08-28 | 2020-11-24 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
余华 等: "基于改进深度置信网络的语音增强算法", 《数据采集与处理》, vol. 33, no. 5, pages 793 - 800 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862530A (zh) * | 2023-06-25 | 2023-10-10 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和*** |
CN116862530B (zh) * | 2023-06-25 | 2024-04-05 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | A light CNN for deep face representation with noisy labels | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
WO2018107810A1 (zh) | 声纹识别方法、装置、电子设备及介质 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
WO2019227574A1 (zh) | 语音模型训练方法、语音识别方法、装置、设备及介质 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Khdier et al. | Deep learning algorithms based voiceprint recognition system in noisy environment | |
CN116580708A (zh) | 一种智能语音处理方法和*** | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和*** | |
CN113409771B (zh) | 一种伪造音频的检测方法及其检测***和存储介质 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Towhid et al. | Spectrogram segmentation for bird species classification based on temporal continuity | |
CN113470655A (zh) | 一种基于音素对数似然比的时延神经网络的声纹识别方法 | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Rahman et al. | Dynamic thresholding on speech segmentation | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN116347723A (zh) | 一种可调灯光样色的声控型墙壁开关的控制*** | |
Li et al. | Living identity verification via dynamic face-speech recognition | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
Le Cornu et al. | Voicing classification of visual speech using convolutional neural networks | |
Liu et al. | Bird song classification based on improved Bi-LSTM-DenseNet network | |
CN111755012A (zh) | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |