CN111179920B - 一种端到端远场语音识别方法及*** - Google Patents

一种端到端远场语音识别方法及*** Download PDF

Info

Publication number
CN111179920B
CN111179920B CN201911415037.XA CN201911415037A CN111179920B CN 111179920 B CN111179920 B CN 111179920B CN 201911415037 A CN201911415037 A CN 201911415037A CN 111179920 B CN111179920 B CN 111179920B
Authority
CN
China
Prior art keywords
signal
channel
multichannel
masking
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911415037.XA
Other languages
English (en)
Other versions
CN111179920A (zh
Inventor
黎塔
邬龙
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201911415037.XA priority Critical patent/CN111179920B/zh
Publication of CN111179920A publication Critical patent/CN111179920A/zh
Application granted granted Critical
Publication of CN111179920B publication Critical patent/CN111179920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供一种端到端远场语音识别方法及***。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。

Description

一种端到端远场语音识别方法及***
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端到端远场语音识别方法及***。
背景技术
语音识别技术是将输入的语音转换成文本的重要技术,虽然神经网络声学模型很大程度上降低了近场语音识别***的识别错误率,但识别***对远场语音的识别准确率仍远低于对近场语音的识别准确率。远场语音中存在的背景噪声、混响以及人声干扰是影响语音识别技术广泛实用化的一个关键因素。
迄今为止,前人已经提出不少旨在提高远场语音识别性能的方法。这些方法大致可以概括成三类:一是采用两阶段训练算法,即先对语音信号进行增强,然后将增强后的信号进行后端声学建模;二是直接利用远场语音数据训练声学模型,并在训练过程中加入混响信息等以及使用更复杂的神经网络结构来进行声学建模;三是将语音信号增强和声学建模放在一个框架里面进行联合优化。
为此本发明提出一种基于空间特征和最大信噪比准则的端到端远场语音识别方法。首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入,然后利用估计出来的掩蔽值来计算波束形成的系数,进而进行多通道语音增强。最后,将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模,并在优化过程中加入最大信噪比准则进行联合优化,最终得到识别的结果。
发明内容
有鉴于此,本申请实施例提供了一种端到端远场语音识别方法及***。
第一方面,本发明申请提供一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出。
可选地,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
可选地,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
可选地,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
可选地,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
第二方面,本发明申请提供一种端到端语音识别***,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入掩蔽网络中;
处理单元:用于计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化。
输出单元:用于将优化后的多通道信号最终识别结果,并输出。
可选地,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
可选地,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
可选地,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
可选地,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
本申请实施例提供端到端远场语音识别方法***。在一个实施例中,首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入,然后利用估计出来的掩蔽值来计算波束形成的系数,进而进行多通道语音增强。最后,将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模,并在优化过程中加入最大信噪比准则进行联合优化,最终得到识别的结果。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明申请一种端到端远场语音识别***的结构示意图;
图2为本发明申请一种端到端远场语音识别***的又一结构示意图;
图3为本发明申请一种端到端远场语音识别方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明申请一种端到端远场语音识别***的结构示意图,参见图1,本申请实施例中的一种端到端远场语音识别***包括:采集单元101、处理单元102和输出单元103。
采集单元101用于采集多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络中。
为了进一步提高***性能,将空间特征和频谱特征进行融合,从而提高掩蔽网络估计的精度。在一个可能的实施例中,针对远场信号中的散射噪声(背景噪声、混响)以及直达声,提出了三种空间特征:
幅值平方相干系数:
Figure BDA0002350972750000041
Figure BDA0002350972750000042
Figure BDA0002350972750000043
其中,
Figure BDA0002350972750000044
和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数。MSC(t,f)代表幅值平方相干系数。
多通道相位差:
Figure BDA0002350972750000051
Figure BDA0002350972750000052
多通道幅度差:
Figure BDA0002350972750000053
幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向。
处理单元102包括:第一处理单元1021、第二处理单元1022和第三处理单元1023。
第一处理单元102用于计算多通道信号的掩蔽值。将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络后,分别计算多通道信号和多通道噪声信号的掩蔽值。其中对第C个多通道信号和第C个多通道噪声信号的掩蔽网络和掩蔽值的计算如下:
Figure BDA0002350972750000054
Figure BDA0002350972750000055
Figure BDA0002350972750000056
Figure BDA0002350972750000057
其中,BLSTMS()和BLSTMN()分别代表信号和噪声掩蔽估计网络。
Figure BDA00023509727500000511
Figure BDA0002350972750000058
分别代表第c个通道信号和噪声掩蔽值。
对C个通道的掩蔽值求平均:
Figure BDA0002350972750000059
Figure BDA00023509727500000510
在得到每个通道的掩蔽值之后,计算多通道语音信号和多通道噪声信号的功率谱矩阵如下:
Figure BDA0002350972750000061
Figure BDA0002350972750000062
其中
Figure BDA0002350972750000063
代表了C个通道的短时傅里叶变化。
根据计算出的多通道语音信号和多通道噪声信号的功率谱矩阵,对多通道信号的波束形成系数的估计如下:
Figure BDA0002350972750000064
其中,u是波束形成的参考向量,估计如下:
Figure BDA0002350972750000065
Figure BDA0002350972750000066
vc=WTtanh(Wqqc+Wrrc+b) (18)
Figure BDA0002350972750000067
其中,qc、rc、vc为在形成通道信号掩蔽估计网络和通道噪声掩蔽估计网络过程中中间层的输出特征,并将其作为波束形成系数估计过程中的输入特征。
根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。增强后的多通道信号Y表示为:
Y=GHX (20)
其中,X为输入信号,G是波束形成系数矩阵。
进一步地,输出信号的能量可以表示为:
ΦYY=GHXXHG
=GHΦXXG
=GHΦSSG+GHΦNNG (21)
其中,GHΦSSG和GHΦNNG分别代表干净信号的能量和噪声的能量,因此信噪比可以表示为:
Figure BDA0002350972750000071
第三处理单元103用于对增强后的多通道信号进行声学建模。将增强后的多通道信号送入基于连接主义和注意力机制的编码解码网络中进行声学建模。
在一个可能的实施例中,对基于连接主义和注意力机制的编码解码网络的准则进行联合优化,在训练过程中,利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐。优化准则如下所示:
LMTL=λLctc+(1-λ)Lattention (23)
其中,λ是插值系数,Lctc和Lattention分别是连接主义分类准则和基于注意力编解码器准则。
将公式(22)加入到公式(23)中,得到最终的代价函:
Figure BDA0002350972750000072
根据公式(24)中的代价函数对多通道信号进行优化,得到最终的识别结果。
在一个可能的实施例中,对于连接主义分类准则而言,为了解决输出序列长度小于输入序列长度的问题,在输出符号集中加入一个blank符号,并允许blank符号的重复出现。连接主义分类准则预测整个输出序列的条件概率:
Figure BDA0002350972750000073
通过帧之间相互独立的假设公式(8)可以分解成:
Figure BDA0002350972750000081
其中x代表输入语音特征,y代表输出序列。L代表输出符号集合,T代表语音总帧数。π1:T=(π1,...,πT)代表每一帧的输出符号,πt∈L'并且L'=L∪blank。P(πt|x)是t时刻的条件概率。B是映射函数,完成输出路径到输出符号序列的映射。
对于基于注意力机制的编码解码网络而言,它并未有任何条件独立的假设直接估计最终的后验概率。它使用了两个网络:编码网络和解码网络。编码网络的作用是将输入特征x映射成隐含层向量h,解码网络的作用是将隐含层向量h解码成输出符号序列y。因此后验概率可以表示为:
Figure BDA0002350972750000082
其中,cu是输入特征x的函数。U是输出序列的长度和输入帧长不相等。因此,P(yu|y1:u-1,cu)可以表示为:
ht=Encoder(x) (28)
aut=Attend(su-1,au-1,ht) (29)
Figure BDA0002350972750000083
P(yu|y1:u-1,cu)=Decoder(yu-1,su-1,cu) (31)
其中,Encoder()和Decoder()分别表示编码网络和解码网络。s是解码网络的隐含状态向量,h是编码网络的隐含状态向量。Attend()是注意力网络,注意力权重aut计算如下:
eut=Score(su-1,au-1,ht) (32)
Figure BDA0002350972750000084
其中,Score()既可以是基于内容的注意力也可以是基于位置的注意力:
eut=vTtanh(Ksu-1+Wht) (34)
eut=vTtanh(Ksu-1+Q(F*au-1)+Wht) (35)
在本申请实施例中,通过将空间特征和频谱特征进行融合,从而提高掩蔽网络估计的精度。将神经网络波束形成和声学建模结合进行联合优化、将最大信噪比准则和语音识别准则进行联合优化解决了前端语音增强和语音识别非一致优化的问题。
在一个可能的实施例中,本发明申请一种远场语音识别***的基本框架还可以如图2所示。
图3为本发明申请一种远场语音识别方法的流程示意图,如图3所示,包括步骤:
步骤S301:将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值。
其中,多通道信号的空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差。幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向,因此将不同空间特征进行融合并输入到掩蔽网络中可以进一步提高掩蔽网络的估计精度。
分别计算多通道语音信号和多通道噪声信号的的掩蔽估计网络和掩蔽值,其计算公式与公式(7)~(10)相同。对多个多通道语音信号和多通道噪声信号的掩蔽值求平均值,其计算公式与公式(11)~(12)相同。
步骤S302:根据所述掩蔽值计算多通道语音信号的波束形成系数,并根据所述波束形成系数对多通道语音信号增强。
在得到每个通道信号的掩蔽值之后,根据该掩蔽值可以计算出相应通道语音信号和噪声信号的功率谱矩阵。根据计算出的通道语音信号和噪声信号的功率谱矩阵,计算通道信号的波束形成的系数。并根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。
通过增强后的多通道信号,计算出多通道信号的信噪比。
步骤S303:将增强的信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化。
将增强后的多通道语音信号输入到基于连接主义和注意力机制的编码解码网络。并对连接主义分类准则和编解码网络的准则进行联合优化。在训练过程中,利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐,其优化准则和公式(23)相同。
将步骤S302中计算得出的多通道信号的信噪比即公式(22)加入到公式(23)中得到最终的代价函数。
根据代价函数对多通道信号进行优化,得到最终的识别结果。
步骤S304:将优化后的多通道信号最终识别结果,并输出。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (8)

1.一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出;
所述空间特征包括幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种,所述空间特征的数学表达式包括:
所述幅值平方相干系数的数学表达式为:
Figure FDA0003931182910000011
Figure FDA0003931182910000012
Figure FDA0003931182910000013
其中,
Figure FDA0003931182910000014
和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数,MSC(t,f)代表幅值平方相干系数;
所述多通道相位差的数学表达式为:
Figure FDA0003931182910000021
Figure FDA0003931182910000022
所述多通道幅度差的数学表达式为:
Figure FDA0003931182910000023
其中所述幅值平方相干系数从时频点相关性的角度区分散射噪声和直达声,所述多通道相位差和多通道幅度差反映直达声的方向。
2.根据权利要求1所述的方法,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
4.根据权利要求1所述的方法,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
5.一种端到端语音识别***,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和包括幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种的空间特征进行融合后输入掩蔽网络中;
所述幅值平方相干系数的数学表达式为:
Figure FDA0003931182910000031
Figure FDA0003931182910000032
Figure FDA0003931182910000033
其中,
Figure FDA0003931182910000034
和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数,MSC(t,f)代表幅值平方相干系数;
所述多通道相位差的数学表达式为:
Figure FDA0003931182910000035
Figure FDA0003931182910000036
所述多通道幅度差的数学表达式为:
Figure FDA0003931182910000037
其中所述幅值平方相干系数从时频点相关性的角度区分散射噪声和直达声,所述多通道相位差和多通道幅度差反映直达声的方向;
处理单元:用于计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
输出单元:用于将优化后的多通道信号最终识别结果,并输出。
6.根据权利要求5所述的***,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
7.根据权利要求5或6 所述的***,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
8.根据权利要求5所述的***,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
CN201911415037.XA 2019-12-31 2019-12-31 一种端到端远场语音识别方法及*** Active CN111179920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911415037.XA CN111179920B (zh) 2019-12-31 2019-12-31 一种端到端远场语音识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911415037.XA CN111179920B (zh) 2019-12-31 2019-12-31 一种端到端远场语音识别方法及***

Publications (2)

Publication Number Publication Date
CN111179920A CN111179920A (zh) 2020-05-19
CN111179920B true CN111179920B (zh) 2023-01-24

Family

ID=70655961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911415037.XA Active CN111179920B (zh) 2019-12-31 2019-12-31 一种端到端远场语音识别方法及***

Country Status (1)

Country Link
CN (1) CN111179920B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927707B (zh) * 2021-01-25 2023-10-03 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113611323B (zh) * 2021-05-07 2024-02-20 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及***
CN113921027B (zh) * 2021-12-14 2022-04-29 北京清微智能信息技术有限公司 一种基于空间特征的语音增强方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN109166590B (zh) * 2018-08-21 2020-06-30 江西理工大学 一种基于空域相关性的二维时频掩模估计建模方法

Also Published As

Publication number Publication date
CN111179920A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
CN111179920B (zh) 一种端到端远场语音识别方法及***
CN110444214B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
CN111243620B (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
US11948552B2 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
US20180358003A1 (en) Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN102804747B (zh) 多通道回波对消器
KR20200115107A (ko) 심층 멀티태스킹 반복 신경망을 이용한 음향 에코 제거 시스템 및 방법
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
US20060053002A1 (en) System and method for speech processing using independent component analysis under stability restraints
CN107221336A (zh) 一种增强目标语音的装置及其方法
CN103229234B (zh) 音频编码装置、方法以及音频解码装置、方法
JPH02160298A (ja) 雑音除去方法、それに用いるニューラルネットワークの学習方法
WO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
US10978081B2 (en) Audio watermark encoding/decoding
US20040199384A1 (en) Speech model training technique for speech recognition
CN102770913B (zh) 稀疏音频
CN116030823B (zh) 一种语音信号处理方法、装置、计算机设备及存储介质
CN113053407A (zh) 一种针对多说话人的单通道语音分离方法及***
CN110610718A (zh) 一种提取期望声源语音信号的方法及装置
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
Kumar et al. Murmured speech recognition using hidden markov model
Bando et al. Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition.
Girin et al. Audio source separation into the wild

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant