CN111243579A - 一种时域单通道多说话人语音识别方法与*** - Google Patents
一种时域单通道多说话人语音识别方法与*** Download PDFInfo
- Publication number
- CN111243579A CN111243579A CN202010061565.6A CN202010061565A CN111243579A CN 111243579 A CN111243579 A CN 111243579A CN 202010061565 A CN202010061565 A CN 202010061565A CN 111243579 A CN111243579 A CN 111243579A
- Authority
- CN
- China
- Prior art keywords
- speaker
- network
- error
- output
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000926 separation method Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013077 scoring method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
一种时域单通道多说话人语音识别方法,输入是混合语音信号的原始波形采样,先通过一维卷积网络提取特征,然后送入分离网络进行语音分离;分离后的输出分别送入两个全连接层,输出两个声学状态分布向量;随后采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息,通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差,构建含有时域单通道多说话人语音识别模型,利用该模型即可实现多说话人语音识别,本发明还提供了一种通过阈值设置来减少1/4~1/2误差计算量的打分算法以加速交叉打分过程。在测试时,将神经网络两个输出的概率向量对数值送入语音识别解码器,即可获得两个人的识别文本。
Description
技术领域
本发明属于音频技术领域,特别涉及一种时域单通道多说话人语音识别方法与***。
背景技术
鸡尾酒会问题(cocktail party problem)是计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的内容,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决该问题对于一系列实际应用场景都会有很大帮助,比如多人会议自动记录、多方人机交互、音/视频自动标注等。
随着神经网络和深度学习的兴起,很多基于深度学习的语音分离算法被提出,主要可以归纳为两大类,一类是基于时频谱的语音分离,一类是基于时域信号的语音分离。
1、基于时频谱的语音分离方法:
1)深度聚类(Deep Clustering,DPCL)方法:首先通过人工神经网络将语音信号的时频谱映射到高维空间,然后利用如K-均值聚类等聚类算法对高维空间向量做一个划分,将属于同一说话人的分量划分到一起。该方法假设每个时频点仅属于多个说话人中的一个,而且在高维空间进行聚类不一定是最优的操作。
2)深度吸引子网络(Deep Attractor Network,DAN)方法:和DPCL类似,也是先将混合语音信号的时频谱映射到高维空间,然后在该空间构建一系列吸引子,利用这些吸引子将属于该目标人的时频点划分到一起。但是,DAN需要去估计吸引子,不仅需要额外的计算量,而且需要复杂的设计过程。
3)排序无关训练(Permutation Invariant Training,PIT)方法:在两个说话人语音信号混合的情况下,比较直观的的方法是使用人工神经网络来进行语音分离,首先输入混合语音的时频谱或其他特征,然后设计两个输出,每个输出对应一个说话人的时频谱。但是这会导致问题出现:输出两个端口和目标参考语音的排序不一定一致,即:神经网络的两个输出的说话人排序可能是“说话人2说话人1”,但是参考语音的排序是“说话人1说话人2”,如果这个时候强制根据语音标注来计算输出和标注值之间的误差,会产生严重的错误。因此需要对参考语音重新排序为“说话人2说话人1”后,重新计算误差,这就是语音分离中的标签排序(Label Permutation)问题。PIT是目前解决标签排序的主要方法,通过考虑所有可能的参考语音排序,然后选择一个使得所有人误差之和最小的排序作为最优排序,缓解了标签排序问题。如图1所示为利用PIT 方法进行单通道多说话人语音分离的框架。
标准PIT方法的数学模型为:假设混合语音信号输入中包含两个说话人, Y代表混合语音信号输入的时频谱,是一个T×F的矩阵,其中T是时间帧数, F是快速傅里叶变换的频点数。为了表述的简便省略了相关矩阵的时间和频点下标。将其幅度值送入分离网络(通常为循环神经网络RNN)并估计出的两个说话人的掩膜M1和M2。
(M1,M2)=Separation(|Y|) (1)
其中Separation代表分离网络。
然后根据掩膜对两个说话人时频谱的幅度值进行估计,如下公式所示:
假设X1和X2是目标说话人原始的干净语音,则估计值与干净语音之间的误差用如下误差函数计算:
其中S是总的说话人个数,当说话人为两个的时候S=2;p是1,2,…,S的一个排列,总共有S!种可能。上述公式的目标是:通过找到一个最优的目标说话人排列顺序,使其与估计出的说话人排列顺序基本一致,然后再把该排列顺序下的最小均方误差(Mean SquareError,MSE)作为神经网络梯度更新的误差。
根据公式4,在两个说话人的情况下采用PIT方法,计算两个误差LS1和 LS2:
LS1=LS11+LS22 (5)
LS2=LS12+LS21 (6)
其中
表示分离网络第i个输出和第j个目标人的干净语音频谱之间的误差。具体来说,LS11指的是网络第1个输出与第1个说话人干净语音频谱之间的误差, LS22指的是(将分离网络的第1个输出判断为第1个说话人的前提下)网络的第二个输出与第2个说话人干净语音频谱之间的误差;LS12指的是在网络第1个输出与第2个说话人干净语音频谱之间的误差,LS21指的是(将分离网络的第1 个输出判断为第2个说话人的前提下)网络的第二个输出与第1个说话人干净语音频谱之间的误差。
最终,在LS1和LS2两个误差中会选择较好的一组作为神经网络反向传播更新的误差。在这种情况下,需要进行4次公式(7)的运算。
2、基于时域信号的语音分离方法:
时域语音分离网络(Time domain Audio Separation Network,TasNet)利用了PIT的思想来处理输出端口的排序问题,不同之处在于神经网络的输入和输出都是语音波形采样。在整体结构上先利用一维卷积充当编码器,对一帧的语音进行编码而得到编码向量;然后将这个编码向量送到分离网络得到两个掩膜;两个掩膜分别乘以混合语音的编码向量而得到该帧目标说话人语音的编码向量;最后通过一个一维卷积充当的解码器将该编码向量还原为语音波形。最近的工作表明该方法取得的分离效果已经大幅度超过了上述几种基于时频谱的分离方法。
具体而言,考虑当前的混合语音信号输入y是时域形式的,需要对其进行编解码操作实现信号分离,其中编码器用N个与其等长的卷积核与做卷积:
其中i=1,…,N,N是卷积核数目,wi是第i个卷积核,得到的e就是编码向量,为N维。随后将这些编码向量输入分离网络,输出是两个说话人的掩膜,预测每个人的编码向量就是混合语音的编码向量乘以自己的掩膜:
(m1,m2)=Separation(e) (9)
di=mi⊙e (10)
最后是解码器恢复出原始语音
其中W是可学习的解码器矩阵。
上述方法的缺陷在于:由于PIT是对语音的一小段进行处理的,可能存在一句语音中前后两段的参考语音排序不一致,导致将前后段某个输出的分离结果拼起来时,会出现严重的说话人交换的情况,也就是在本应该只有说话人2 的输出中含有了说话人1的语音。于是在实际应用中,一般都会采用循环神经网络RNN进行句子级的建模,这样可以保证输出前后帧的排序具有一定的连续性和稳定性。
此外,所有上述两类方法仍然需要首先进行语音分离后再对每个人进行语音识别,也就是仍然没有实现真正的端到端***,距商业化应用的要求还有一定的距离。
3、利用PIT进行单通道多说话人语音识别
利用PIT进行单通道多说话人语音识别的最直观的方法是将神经网络的输出改为声学建模单元,并将语音分离时的MSE误差函数替换为交叉熵(Cross Entropy,CE)误差函数,即
其中
但是该方法的不足之处在于输入时混合信号的频域幅度谱,并没有对混合信号的相位信息加以利用。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种时域单通道多说话人语音识别方法与***,将时域处理技术与单通道多说话人语音分离技术结合,在排序无关训练的基础上引入语音信号的时域处理方法,从而降低多个说话人语音识别的错误率。
为了实现上述目的,本发明采用的技术方案是:
一种时域单通道多说话人语音识别方法,包括如下步骤:
步骤1,将混合语音的原始波形送入一维卷积网络初步提取特征,然后送入分离网络BSRU,输出原始波形分离后的特征表示;
步骤2,将原始波形分离后的特征表示分别送入两个全连接层,输出两个声学状态分布向量;
步骤3,将所述两个状态分布向量参考强制对齐获得的标注信息,通过交叉打分和阈值选择的方式获得两种排序下的较小的误差,并作为神经网络反向传播的误差,构建时域单通道多说话人语音识别模型;
步骤4,利用所述含有时域单通道多说话人语音识别模型,实现多说话人语音识别。
所述步骤1中,一维卷积网络为一层或多层,对于多层的一维卷积网络,每一层的参数包括卷积核个数、卷积核长度、最大值池化大小和步长;对于一层的一维卷积网络,则将卷积核的长度设置为一帧语音的采样点数;多层的一维卷积网络有池化操作,一层的一维卷积网络没有池化操作;每一层卷积的输出均通过批量归一化进行规整,以提高泛化性和训练速度,最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。
所述步骤1中,分离网络BSRU为双向的SRU,SRU计算方式如下:
ft=σ(Wfxt+vf⊙ct-1+bf)
ct=ft⊙ct-1+(1-ft)⊙(Wxt)
rt=σ(Wrxt+vr⊙ct-1+br)
ht=rt⊙ct+(1-rt)⊙xt
其中W、Wr、Wf是权重矩阵,vf、bf、vr、br是参数向量;xt和ht是当前输入与输出;ct是t时刻cell的状态值,用于保存历史信息,ct-1是t-1时刻cell 的状态值;ft和rt分别代表忘记门和重置门;σ是sigmod函数;⊙表示两个向量的元素对应相乘。
所述步骤2中,得到的两个状态分布向量为两个说话人的声学建模单元概率分布。
所述步骤3中,首先,采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息;随后,在两个说话人的情况下,采用多次交叉打分的方法,即分别考虑两种情况下的误差LR1和LR2:
LR1=LR11+LR22
LR2=LR12+LR21
其中LRij表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差,i=1,2,j=1,2。
首先计算LR11,如果LR11小于一个预先设定的阈值,则计算LR22,并将 LR1作为两种排序下较小的一个误差;如果LR11大于该阈值,则计算LR12和 LR21,将LR2作为两种排序下较小的一个误差。
本发明还提供了一种时域单通道多说话人语音识别***,包括:
混合语音信号波形采样模块101,进行混合语音信号波形采样;
一维卷积神经网络模块102,以混合语音信号波形采样模块101的输出为输入,初步提取特征;
分离网络BSRU103,以一维卷积神经网络模块102的输出为输入,得到原始波形分离后的特征表示;
两个全连接层104,分别以分离网络BSRU103的两路输出为输入,得到两个状态分布向量;
多次交叉打分模块105,使用多次交叉打分及设置误差阈值的方法,对两个全连接层104的输出和两个目标语音标注106进行交叉打分,获得两种排序下的较小交叉熵误差107;
最小误差模块108,取两种排序下较小的一个误差,作为整个神经网络反向传播更新的误差。
本发明的主要原理是:在两个说话人的情况下,输入是混合语音信号的原始波形采样,先通过一维卷积网络初步学习到波形的特征,然后再送入分离网络进行语音分离;分离后的输出被分别送入两个全连接层,输出两个声学状态分布向量;随后采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息,通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差。为了加速交叉打分过程,本发明还提供了一种通过阈值设置来减少1/4~1/2误差计算量的打分算法。在测试时,将神经网络两个输出的概率向量对数值送入语音识别解码器,即可获得两个人的识别文本。
与现有技术相比,本发明的主要优点在于:通过采用更灵活的卷积网络堆叠方式,以及简化了交叉打分计算误差的方法,实现提升模型泛化能力的目的,进一步提升了多个说话人的语音识别***性能。该方法可广泛应用于涉及语音分离和识别的多种应用领域。
附图说明
图1是现有技术中利用PIT方法进行单通道多说话人语音分离的框架示意图。
图2是本发明的时域单通道多说话人语音识别建模流程图
图3是SRU计算方式示意图。
具体实施方式
以下结合附图对本发明进行详细说明。
本发明提出一种时域单通道多说话人语音识别方法与***,特别地,用于多说话人语音识别的场景下,在排序无关训练的基础上将语音信号的时域处理和单通道多说话人语音识别结合,用于降低多个说话人语音识别的错误率。这些方法和***不局限于多说话人语音识别,也可以是任何与语音识别有关的方法和***。
图2为本发明的时域单通道多说话人语音识别模型建模流程,其包括:
步骤1、原始波形送入一维卷积网络初步提取特征,随后送入分离网络 BSRU,输出原始波形分离后的特征表示;
本发明的***输入是混合语音的原始采样波形,将其通过一维卷积网络初步提取特征。这里的一维卷积网络可以是一层或多层,对于多层的一维卷积网络,每一层的参数有卷积核个数、卷积核长度、最大值池化大小和步长等。对于一层的一维卷积网络,则一般将卷积核的长度设置为一帧语音的采样点数,如25ms一帧、16kHz采样则为400个点。多层的一维卷积网络有池化操作,一层的一维卷积网络没有池化操作。每一层卷积的输出均通过批量归一化进行规整,以提高泛化性和训练速度。最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。这些波形的特征表示随后被送入分离网络 BSRU进行分离,输出原始混合波形分离后的两个说话人的特征表示。
分离网络BSRU(Bidirectional SRU)即双向的SRU,参考图3,SRU计算方式如下:
ft=σ(Wfxt+vf⊙ct-1+bf)
ct=ft⊙ct-1+(1-ft)⊙(Wxt)
rt=σ(Wrxt+vr⊙ct-1+br)
ht=rt⊙ct+(1-rt)⊙xt
公式中W、Wr、Wf是权重矩阵,vf、bf、vr、br是参数向量;xt和ht是当前输入与输出;ct是cell的状态值,用于保存历史信息;ft和rt分别代表忘记门和重置门;σ是sigmod函数;⊙表示两个向量的元素对应相乘。
步骤2、步骤1中输出的原始波形分离后的特征表示被分别送入两个全连接层,分别输出两个声学状态分布向量;
分离网络的输出经过两个单独的全连接层,分别得到两个神经网络全连接层输出的声学建模单元概率分布。
步骤3、参考强制对齐获得的标注信息,通过采用多次交叉打分及设置误差阈值的方法降低计算量。
参考强制对齐获得的标注信息,通过交叉打分和阈值选择的方式分别获得两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差。
首先,采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息;
随后,在两个说话人的情况下,采用多次交叉打分的方法,即分别考虑两种情况下的误差LR1和LR2:
LR1=LR11+LR22 (3)
LR2=LR12+LR21 (4)
其中LRij,i=1,2,j=1,2表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差。
如果按照上述公式依次进行,需要计算4次LRij。本发明的方法是:首先计算LR11,如果LR11小于一个预先设定的阈值,则计算LR22,并将公式(3) 作为两种排序下较小的一个误差;如果LR11大于该阈值,则计算LR12和LR21,将公式(4)作为两种排序下较小的一个误差。从而每次只需要计算2次或3次 LRij,相比于之前的4次可以节省大约1/4~1/2的误差计算量。这个阈值的设定遵循两个原则:第一,训练的初期误差普遍较大,因此该阈值在训练的初期也应较大,而随着训练的进行而递减;第二,该阈值应该和当前训练的LRij平均值有关。
使用这种多次交叉打分法进行训练的误差计算时间,是多次交叉打分方式下的误差计算时间的3/4到1/2。
本发明中的两种排序是指:在两个说话人的情况下,当输入两个说话人的混合语音,要识别两个人分别说的内容,也就是一个输入、两个输出。同时在训练的时候也知道实际上这两个人分别说了什么内容,即两个参考;但是并不知道输出和参考的对应关系,存在两种排序:
A.输出1对应参考1,输出2对应参考2
B.输出2对应参考1,输出1对应参考2
即不能保证第一个端口的输出始终是第一个人的。
在多个说话人的情况下,原理相同。
总之,本发明提供了一种时域单通道多说话人语音识别建模方法,能够比较有效地进一步提高多说话人语音的识别效果。在一些多说话人连续语音识别的数据集上采用这种方法,可以获得比基于时频谱的PIT方法更好的性能。
图2同时表示出了一种相应的***,其中混合语音信号波形采样模块101 得到的信号为x=[x1,...,xT](T为信号的时间长度),混合语音信号波形采样模块101的输出作为一维卷积神经网络模块102的输入;一维卷积神经网络模块 102的输出作为分离网络BSRU103的输入;分离网络BSRU 103的输出分别送入两个全连接层104;两个全连接层104的输入与两个目标语音标注106一起送到多次交叉打分模块105;多次交叉打分模块105使用多次交叉打分及设置误差阈值的方法,以获得两种排序下的较小交叉熵误差107,最小误差模块108选出的较小误差,就是整个神经网络反向传播更新的误差。
在测试时,将神经网络两个输出的概率向量对数值送入语音识别解码器,即可获得两个人的识别文本,本发明主要优点在于:通过采用更灵活的卷积网络堆叠方式,以及简化了交叉打分计算误差的方法,实现提升模型泛化能力的目的,进一步提升了多个说话人的语音识别***性能。该方法可广泛应用于涉及语音分离和识别的多种应用领域。
Claims (7)
1.一种时域单通道多说话人语音识别方法,其特征在于,包括如下步骤:
步骤1,将混合语音的原始波形送入一维卷积网络初步提取特征,然后送入分离网络BSRU,输出原始波形分离后的特征表示;
步骤2,将原始波形分离后的特征表示分别送入两个全连接层,输出两个声学状态分布向量;
步骤3,将所述两个状态分布向量参考强制对齐获得的标注信息,通过交叉打分和阈值选择的方式获得两种排序下的较小的误差,并作为神经网络反向传播的误差,构建时域单通道多说话人语音识别模型;
步骤4,利用所述含有时域单通道多说话人语音识别模型,实现多说话人语音识别。
2.根据权利要求1所述时域单通道多说话人语音识别方法,其特征在于,所述步骤1中,一维卷积网络为一层或多层,对于多层的一维卷积网络,每一层的参数包括卷积核个数、卷积核长度、最大值池化大小和步长;对于一层的一维卷积网络,则将卷积核的长度设置为一帧语音的采样点数;多层的一维卷积网络有池化操作,一层的一维卷积网络没有池化操作;每一层卷积的输出均通过批量归一化进行规整,以提高泛化性和训练速度,最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。
3.根据权利要求1所述时域单通道多说话人语音识别方法,其特征在于,所述步骤1中,分离网络BSRU为双向的SRU,SRU计算方式如下:
ft=σ(Wfxt+vf⊙ct-1+bf)
ct=ft⊙ct-1+(1-ft)⊙(Wxt)
rt==σ(Wrxt+vr⊙ct-1+br)
ht=rt⊙ct+(1-rt)⊙xt
其中W、Wr、Wf是权重矩阵,vf、bf、vr、br是参数向量;xt和ht是当前输入与输出;ct是t时刻cell的状态值,用于保存历史信息,ct-1是t-1时刻cell的状态值;ft和rt分别代表忘记门和重置门;σ是sigmod函数;⊙表示两个向量的元素对应相乘。
4.根据权利要求3所述时域单通道多说话人语音识别方法,其特征在于,所述步骤2中,得到的两个状态分布向量为两个说话人的声学建模单元概率分布。
5.根据权利要求1所述时域单通道多说话人语音识别方法,其特征在于,所述步骤3中,首先,采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息;随后,在两个说话人的情况下,采用多次交叉打分的方法,即分别考虑两种情况下的误差LR1和LR2:
LR1=LR11+LR22
LR2=LR12+LR21
其中LRij表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差,i=1,2,j=1,2。
6.根据权利要求5所述时域单通道多说话人语音识别方法,其特征在于,首先计算LR11,如果LR11小于一个预先设定的阈值,则计算LR22,并将LR1作为两种排序下较小的一个误差;如果LR11大于该阈值,则计算LR12和LR21,将LR2作为两种排序下较小的一个误差。
7.一种时域单通道多说话人语音识别***,其特征在于,包括:
混合语音信号波形采样模块(101),进行混合语音信号波形采样;
一维卷积神经网络模块(102),以混合语音信号波形采样模块(101)的输出为输入,初步提取特征;
分离网络BSRU(103),以一维卷积神经网络模块(102)的输出为输入,得到原始波形分离后的特征表示;
两个全连接层(104),分别以分离网络BSRU(103)的两路输出为输入,得到两个状态分布向量;
多次交叉打分模块(105),使用多次交叉打分及设置误差阈值的方法,对两个全连接层(104)的输出和两个目标语音标注(106)进行交叉打分,获得两种排序下的较小交叉熵误差(107);
最小误差模块(108),取两种排序下较小的一个误差,作为整个神经网络反向传播更新的误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061565.6A CN111243579B (zh) | 2020-01-19 | 2020-01-19 | 一种时域单通道多说话人语音识别方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061565.6A CN111243579B (zh) | 2020-01-19 | 2020-01-19 | 一种时域单通道多说话人语音识别方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243579A true CN111243579A (zh) | 2020-06-05 |
CN111243579B CN111243579B (zh) | 2022-10-14 |
Family
ID=70872827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010061565.6A Active CN111243579B (zh) | 2020-01-19 | 2020-01-19 | 一种时域单通道多说话人语音识别方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243579B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、***、电子设备及存储介质 |
CN113239809A (zh) * | 2021-05-14 | 2021-08-10 | 西北工业大学 | 基于多尺度稀疏sru分类模型的水声目标识别方法 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN113436633A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 说话人识别方法、装置、计算机设备及存储介质 |
CN113571085A (zh) * | 2021-07-24 | 2021-10-29 | 平安科技(深圳)有限公司 | 语音分离方法、***、装置和存储介质 |
CN113782045A (zh) * | 2021-08-30 | 2021-12-10 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US20060028337A1 (en) * | 2004-08-09 | 2006-02-09 | Li Qi P | Voice-operated remote control for TV and electronic systems |
US20120092436A1 (en) * | 2010-10-19 | 2012-04-19 | Microsoft Corporation | Optimized Telepresence Using Mobile Device Gestures |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN108877782A (zh) * | 2018-07-04 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
US20190304437A1 (en) * | 2018-03-29 | 2019-10-03 | Tencent Technology (Shenzhen) Company Limited | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition |
US20190318725A1 (en) * | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Research Laboratories, Inc. | Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers |
CN110491415A (zh) * | 2019-09-23 | 2019-11-22 | 河南工业大学 | 一种基于卷积神经网络和简单循环单元的语音情感识别方法 |
-
2020
- 2020-01-19 CN CN202010061565.6A patent/CN111243579B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US20060028337A1 (en) * | 2004-08-09 | 2006-02-09 | Li Qi P | Voice-operated remote control for TV and electronic systems |
US20120092436A1 (en) * | 2010-10-19 | 2012-04-19 | Microsoft Corporation | Optimized Telepresence Using Mobile Device Gestures |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
US20190304437A1 (en) * | 2018-03-29 | 2019-10-03 | Tencent Technology (Shenzhen) Company Limited | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition |
US20190318725A1 (en) * | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Research Laboratories, Inc. | Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers |
CN108877782A (zh) * | 2018-07-04 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN110491415A (zh) * | 2019-09-23 | 2019-11-22 | 河南工业大学 | 一种基于卷积神经网络和简单循环单元的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
TIAN TAN ET AL: "Knowledge Transfer in Permutation Invariant Training for Single-Channel Multi-Talker Speech Recognition", 《ICASSP 2018》 * |
范存航等: "一种基于卷积神经网络的端到端语音分离方法", 《信号处理》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、***、电子设备及存储介质 |
CN113239809A (zh) * | 2021-05-14 | 2021-08-10 | 西北工业大学 | 基于多尺度稀疏sru分类模型的水声目标识别方法 |
CN113239809B (zh) * | 2021-05-14 | 2023-09-15 | 西北工业大学 | 基于多尺度稀疏sru分类模型的水声目标识别方法 |
CN113436633A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 说话人识别方法、装置、计算机设备及存储介质 |
CN113436633B (zh) * | 2021-06-30 | 2024-03-12 | 平安科技(深圳)有限公司 | 说话人识别方法、装置、计算机设备及存储介质 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN113571085A (zh) * | 2021-07-24 | 2021-10-29 | 平安科技(深圳)有限公司 | 语音分离方法、***、装置和存储介质 |
CN113571085B (zh) * | 2021-07-24 | 2023-09-22 | 平安科技(深圳)有限公司 | 语音分离方法、***、装置和存储介质 |
CN113782045A (zh) * | 2021-08-30 | 2021-12-10 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN113782045B (zh) * | 2021-08-30 | 2024-01-05 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115116448B (zh) * | 2022-08-29 | 2022-11-15 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111243579B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243579B (zh) | 一种时域单通道多说话人语音识别方法与*** | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
JP7407968B2 (ja) | 音声認識方法、装置、設備及び記憶媒体 | |
Kinoshita et al. | Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
US20200043467A1 (en) | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks | |
CN111859912B (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
CN110797002B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Razak et al. | Comparison between fuzzy and nn method for speech emotion recognition | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN113674732B (zh) | 语音置信度检测方法、装置、电子设备和存储介质 | |
WO2021135457A1 (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN111563161A (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN112488063B (zh) | 一种基于多阶段聚合Transformer模型的视频语句定位方法 | |
CN110569908B (zh) | 说话人计数方法及*** | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
WO2020151017A1 (zh) | 一种可扩展的领域人机对话***状态跟踪方法及设备 | |
CN116312539A (zh) | 基于大模型的中文对话轮次纠正方法及*** | |
CN111210815A (zh) | 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |