CN110867178A - 一种多通道远场语音识别方法 - Google Patents
一种多通道远场语音识别方法 Download PDFInfo
- Publication number
- CN110867178A CN110867178A CN201810986855.4A CN201810986855A CN110867178A CN 110867178 A CN110867178 A CN 110867178A CN 201810986855 A CN201810986855 A CN 201810986855A CN 110867178 A CN110867178 A CN 110867178A
- Authority
- CN
- China
- Prior art keywords
- field
- far
- vector
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000000859 sublimation Methods 0.000 claims abstract description 20
- 230000008022 sublimation Effects 0.000 claims abstract description 20
- 238000013459 approach Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
Description
技术领域
本发明属于远场语音识别技术领域,具体涉及一种多通道远场语音识别方法。
背景技术
近年来,受益于计算机技术与深度学习理论的发展,在近场场景下,语音识别***已经具有良好的语音识别性能。由于远场拾音时声学环境的复杂性,远场自动语音识别性能恶化严重。然而,人们对远场语音识别技术有着广泛的应用需求,比如新兴的智能家电领域,会议场景等。在这种环境中,语音信号受到噪声和混响的严重干扰,语音识别***的识别率大幅度下降。为了解决这个问题,通常采用多个麦克风的信号来增强语音信号,与单通道相比,使用麦克风阵列的优势在于多通道语音信号可以提供空间上的区分性。
目前,传统的多通道语音识别***包括:前端语音增强模块和后端语音识别模块;上述两个模块是各自独立的。首先,在前端语音增强模块中,使用麦克风阵列语音增强,对多通道信号进行前端语音增强,通常包含定位,波束形成,后滤波等。然后,在后端语音识别模块中,将增强后的语音信号传送到基于神经网络的后端语音识别的声学模型中,进行语音识别。
为了使前端语音增强和后端语音识别模型可以联合进行优化,近来也有很多方法将前端增强模块引入神经网络。使用神经网络估计语音增强的滤波系数,掩蔽值等方法,对原始的多通道远场语音信号进行增强处理;再结合后端声学模型进行联合优化训练。这些方法能够有效改善远场语音识别的性能,但是,这些传统的语音识别方法,一般需要引入一些额外的神经网络层,并且对于训练数据中没有出现过的场景,自适应能力较弱。
另外,在深度神经网络的训练过程中,通常都是以0-1硬标签作为模型训练的目标,即一组声学特征属于某个特定状态的概率为1,其他均为0。在远场场景中,语音受到噪声和混响的干扰,不同声学单元之间的区分性变得很模糊,这种情况下,标注仅限于单个声学状态并不是最优的方案。针对远场识别的声学模型,目标值在0和1之间的软标签更适合远场识别的模型。传统的知识升华策略借助性能较好的专家模型(近场数据训练的模型),来获得训练数据的软标签,用于训练学生模型(远场数据训练的模型)。但是,这种情况下,每一帧语音的软标签向量的维度通常都很大,会给训练过程带来大的存储和IO负担。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种多通道远场语音识别方法,该方法采用一种基于空间特征补偿的方法,并配合改进的知识升华的框架,将广义互相关参数(Generalized Cross Correlation,以下简称GCC)作为辅助特征引入到学生声学模型中,有效的提高了学生模型在远场环境下的自适应能力,以及提升远场语音识别的性能。在麦克风阵列信号处理中,GCC通常用来估计两个麦克风之间的到达时延,多个麦克风对之间的到达时延可以用来参数化声源位置。对于语音信号,GCC隐含了说话人的位置信息,提供了不同通道的位置信息,将这一信息作为神经网络训练的补偿特征可以提升远场语音识别的性能。同时,该方法还采用了一种改进的知识升华策略,只选取每个软标签向量中较大的一部分值,将剩下的值置零,作为训练学生模型的标签。改进之后的标签可以用一个维度很小的稀疏向量编码,称之为稀疏标签;用稀疏标签代替传统软标签的方法可以大幅减轻存储和IO的负担,同时对模型识别性能的提升也有一定帮助。
为了实现上述目的,本发明提供了一种多通道远场语音识别方法,通过采用基于空间特征补偿的方法和改进的知识升华策略,克服远场识别性能大幅衰减问题,以及传统方法在模型复杂度和自适应能力方面的局限性,在引入较少模型参数量的情况下,改善多通道远场语音识别的准确率和自适应能力;该方法具体包括:
步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;
步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;
步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;
步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。在本方法中,所述待识别的语音信号为AMI数据集的标准测试集,时长约8.6小时。
作为上述技术方案的改进之一,步骤2)具体包括:
根据公式(1),计算任意两个通道之间的GCC特征,假设任意两个通道的语音信号分别是xi(t)和xj(t);
其中,Xi(f)和Xj(f)分别表示对应的两个通道xi(t)和xj(t)的语音信号的傅立叶变换;*表示它的复数共轭;gccij(n)为两个通道语音信号xi(t)和xj(t)间的GCC参数。
理想情况下,gccij(n)在一个周期内呈现单波峰形状,波峰所在位置即为麦克风i和j的到达时延,周期的大小与i和j两个麦克风之间的到达时延相关联。
其中,阵元之间的物理距离在一定意义上反映了到达时延的大小。如果两个阵元距离较远,一般认为到达时延较大。它们之间可以近似看作以声速为权重因子的线性关系。
将步骤1)获得的语音特征向量与GCC特征拼接,获得远场特征向量,作为训练远场学生模型的训练数据。其中,增加GCC作为辅助特征,从而改善模型在远场环境下的自适应能力,提升识别准确率。
作为上述技术方案的改进之一,步骤3)具体包括:
提取每个通道的近场语音信号的语音特征,获得近场特征向量,并将其作为训练数据训练专家模型,获得训练后的语音识别性能较好的专家模型,辅助远场学生模型的训练;其中,近场语音信号是和远场语音信号是同时录制的语音信号;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签。
作为上述技术方案的改进之一,步骤3)还具体包括:
将步骤2)获得的远场特征向量输入远场学生模型,获得对应的远场后验概率向量,采用知识升华策略,利用稀疏标签训练远场学生模型,同时采用KL距离作为度量,最小化目标函数,
其中,ot′是步骤2)获得的远场特征向量,PS(s|ot′)为训练后的学生模型的远场后验概率向量;ot是步骤3)提到的近场特征向量,PT(s|ot)为训练后的专家模型的近场后验概率向量;
使PS(s|ot′)对应的后验概率值逼近PT(s|ot)对应的后验概率值,获得训练后的远场学生模型;,通过反向回传更新学生模型的参数,获得训练后的远场学生模型。
其中,传统的知识升华框架使用近场数据的专家模型生成的软标签,作为标注,训练远场模型。
本发明的优点在于:
通过输入GCC特征,神经网络学习多通道信号在空间域上的差异化信息,这些差异化信息蕴含着目标说话人与干扰声源之间的空间位置关系,通过解析这些信息可以实现对目标声音的增强及对干扰声音的削弱,从而提升远场识别的准确率以及适应能力;同时通过知识升华策略,采用概率分布的方式描述语音帧所属不同状态的可能性,包含更加丰富的潜在状态分布信息,有利于获得更好的识别性能;本方法还使用稀疏标签代替传统的软标签,节约了存储的同时,对性能也有进一步的提升作用。
附图说明
图1是本发明的专家模型和基于空间特征补偿和知识升华的学生模型结构图;
图2是本发明的获得训练后的远场学生模型的示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种多通道远场语音识别方法,通过采用基于空间特征补偿的方法和改进的知识升华策略,克服远场识别性能大幅衰减问题,以及传统方法在模型复杂度和自适应能力方面的局限性,在引入较少模型参数量的情况下,改善多通道远场语音识别的准确率和自适应能力;该方法具体包括:
步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;
步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;
步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;
步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。在本方法中,所述待识别的语音信号为AMI数据集的标准测试集,时长约8.6小时。
作为上述技术方案的改进之一,步骤2)具体包括:
根据公式(1),计算任意两个通道之间的GCC特征,假设任意两个通道的语音信号分别是xi(t)和xj(t);
其中,Xi(f)和Xj(f)分别表示对应的两个通道xi(t)和xj(t)的语音信号的傅立叶变换;*表示它的复数共轭;gccij(n)为两个通道语音信号xi(t)和xj(t)间的GCC参数。
理想情况下,gccij(n)在一个周期内呈现单波峰形状,波峰所在位置即为麦克风i和j的到达时延,周期的大小与i和j两个麦克风之间的到达时延相关联。
其中,阵元之间的物理距离在一定意义上反映了到达时延的大小。如果两个阵元距离较远,一般认为到达时延较大。它们之间可以近似看作以声速为权重因子的线性关系。
将步骤1)获得的语音特征向量与GCC特征拼接,获得远场特征向量,作为训练远场学生模型的训练数据。其中,增加GCC作为辅助特征,从而改善模型在远场环境下的自适应能力,提升识别准确率。
作为上述技术方案的改进之一,步骤3)具体包括:
提取每个通道的近场语音信号的语音特征,获得近场特征向量,并将其作为训练数据训练专家模型,获得训练后的语音识别性能较好的专家模型,辅助远场学生模型的训练;其中,近场语音信号是和远场语音信号是同时录制的语音信号;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签。
作为上述技术方案的改进之一,步骤3)还具体包括:
将步骤2)获得的远场特征向量输入远场学生模型,获得对应的远场后验概率向量,采用知识升华策略,利用稀疏标签训练远场学生模型,同时采用KL距离作为度量,最小化目标函数,
其中,ot′是步骤2)获得的远场特征向量,PS(s|ot′)为训练后的学生模型的远场后验概率向量;ot是步骤3)提到的近场特征向量,PT(s|ot)为训练后的专家模型的近场后验概率向量;
使PS(s|ot′)对应的后验概率值逼近PT(s|ot)对应的后验概率值,获得训练后的远场学生模型;,通过反向回传更新学生模型的参数,获得训练后的远场学生模型。
其中,传统的知识升华框架使用近场数据的专家模型生成的软标签,作为标注,训练远场模型。
在本实施例中,使用数据是公开数据集AMI,该数据集AMI是100小时的会议数据,其包括:同时录制的近场数据和八通道远场数据。其中,学生模型和专家模型都是包含三个隐层的LSTM模型,每层包含1024个LSTM单元和512个映射单元;输出层有3965个状态。神经网络的输入是40维filter-bank特征,上下文各做了2帧扩展。
使用近场数据训练专家模型,得到训练后的专家模型。在训练远场模型时,将八个通道的语音信号对应的语音特征进行串接,得到320维的语音特征向量,再进行上下文2帧的扩展;对于八个通道的远场语音信号,任意两个通道之间提取21维的GCC特征,总共28个麦克风对,得到588维的GCC特征向量,再将其与320维的语音特征向量拼接,获得远场特征向量,作为远场训练数据,训练远场学生模型。采用训练后的专家模型,将近场数据输入训练后的专家模型中,获得多个近场后验概率向量(3965维向量),采用改进的知识升华策略,将多个近场后验概率向量转化为40维的稀疏标签,作为训练八通道远场学生模型的标签,采用KL散度,最小化目标函数,使远场后验概率向量对应的后验概率值逼近近场后验概率向量对应的后验概率值,通过反向回传更新学生模型的参数,获得训练后的远场学生模型,如图2所示;然后将待识别语音信号的特征和GCC特征拼接,获得特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。
在本实施例中,每个时刻的近场语音信号的软标签的维度是3965,这会带来很大的存储和IO负担,尤其在数据量大的情况下。采用改进的知识升华策略,取出每个软标签中最大的40个值,其他值置零,再用Softmax函数进行归一化处理,将3965维的软标签转化成40维的稀疏标签,来训练远场学生模型,大幅节约了训练过程中的存储和IO。
为了评估本发明提出的方法对多通道远场语音识别性能,以下提供了本方法的词错误率(word error rate,WER),此外还提供了基础的多通道远场模型的WER,经过波束形成多通道语音增强模型的WER,以及传统软标签的知识升华结合GCC特征的WER。测试数据为8.6小时与训练数据相同风格的多通道远场语音,结果如下:
这里的词错误率指:
词错误率=词***错误率+词替换错误率+词删除错误率
由表中结果可以看出,本发明获得的针对多通道远场语音的学生模型,和基础模型以及波束形成模型相比,能够取得更低的词错误率,提升远场识别的准确率。和传统软标签的知识升华框架相比,稀疏标签可以在大幅节约存储的情况下,一定程度提升识别性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种多通道远场语音识别方法,其特征在于,该方法具体包括:
步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;
步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;
步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;
步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。
3.根据权利要求1所述的方法,其特征在于,所述步骤3)包括:
提取每个通道的近场语音信号的语音特征,获得近场特征向量,并将其作为训练数据训练专家模型,获得训练后的语音识别性能较好的专家模型,辅助远场学生模型的训练;其中,近场语音信号是和远场语音信号是同时录制的语音信号;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986855.4A CN110867178B (zh) | 2018-08-28 | 2018-08-28 | 一种多通道远场语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986855.4A CN110867178B (zh) | 2018-08-28 | 2018-08-28 | 一种多通道远场语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110867178A true CN110867178A (zh) | 2020-03-06 |
CN110867178B CN110867178B (zh) | 2022-01-21 |
Family
ID=69651388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810986855.4A Active CN110867178B (zh) | 2018-08-28 | 2018-08-28 | 一种多通道远场语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867178B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596261A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种声源定位方法及装置 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090038697A (ko) * | 2007-10-16 | 2009-04-21 | 한국전자통신연구원 | 음원 추적이 가능한 지능형 로봇 및 방법 |
US20120224456A1 (en) * | 2011-03-03 | 2012-09-06 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
CN107452372A (zh) * | 2017-09-22 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 远场语音识别模型的训练方法和装置 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及*** |
-
2018
- 2018-08-28 CN CN201810986855.4A patent/CN110867178B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090038697A (ko) * | 2007-10-16 | 2009-04-21 | 한국전자통신연구원 | 음원 추적이 가능한 지능형 로봇 및 방법 |
US20120224456A1 (en) * | 2011-03-03 | 2012-09-06 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
CN107452372A (zh) * | 2017-09-22 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 远场语音识别模型的训练方法和装置 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及*** |
Non-Patent Citations (3)
Title |
---|
XIONG XIAO等: "Deep beamforming net-works for multi-channel speech recognition", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
刘超等: "一种改进的分数时延估计方法及应用", 《数据采集与处理》 * |
杨尚衡等: "基于麦克风阵列的音频信号方位检测***", 《轻工科技》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596261A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种声源定位方法及装置 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110867178B (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
Li et al. | Developing far-field speaker system via teacher-student learning | |
Li et al. | Embedding and beamforming: All-neural causal beamformer for multichannel speech enhancement | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN110600018A (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN110867178B (zh) | 一种多通道远场语音识别方法 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
Wang et al. | Stream attention-based multi-array end-to-end speech recognition | |
CN113160839B (zh) | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 | |
CN115602152B (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
CN111142066A (zh) | 波达方向估计方法、服务器以及计算机可读存储介质 | |
Yalta et al. | CNN-based multichannel end-to-end speech recognition for everyday home environments | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN111341332A (zh) | 基于深度神经网络的语音特征增强后置滤波方法 | |
CN113870893A (zh) | 一种多通道双说话人分离方法及*** | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
Shi et al. | A comparative study on multichannel speaker-attributed automatic speech recognition in multi-party meetings | |
Sklyar et al. | Separator-transducer-segmenter: Streaming recognition and segmentation of multi-party speech | |
CN114495909B (zh) | 一种端到端的骨气导语音联合识别方法 | |
Pertilä et al. | Time Difference of Arrival Estimation with Deep Learning–From Acoustic Simulations to Recorded Data | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN112489678B (zh) | 一种基于信道特征的场景识别方法及装置 | |
CN112731291B (zh) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |