CN115273883A - 卷积循环神经网络、语音增强方法及装置 - Google Patents
卷积循环神经网络、语音增强方法及装置 Download PDFInfo
- Publication number
- CN115273883A CN115273883A CN202211177764.9A CN202211177764A CN115273883A CN 115273883 A CN115273883 A CN 115273883A CN 202211177764 A CN202211177764 A CN 202211177764A CN 115273883 A CN115273883 A CN 115273883A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- convolution
- time
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 46
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000000873 masking effect Effects 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 43
- 230000017105 transposition Effects 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013461 design Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 2
- 238000013509 system migration Methods 0.000 abstract 2
- 238000009432 framing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002054 transplantation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种卷积循环神经网络、语音增强方法及装置,所述语音增强方法包括如下步骤:步骤1.对设备获取的带噪混合语音时域信号进行短时离散余弦变换处理,得到每帧信号的频域实数谱特征;步骤2.将频域实数谱特征输入预训练卷积循环神经网络模型的输入端进行前向推理,得到带噪混合语音实数谱掩蔽值;步骤3.将相乘结果进行短时离散余弦逆变换,得到降噪后的时域语音信号。本发明通过多层一维卷积层架构设计,既保证提取局部特征的技术效果,又相对现有技术采用的二维卷积层减少了参数量,能够满足实时计算要求和适合嵌入式***移植。本发明通过构造一个参数量较小的神经网络模型,在嵌入式端达到语音增强的目的。
Description
技术领域
本发明属于智能语音技术领域,涉及语音增强技术,具体涉及一种卷积循环神经网络、语音增强方法及装置。
背景技术
语音增强技术一直以来都是智能语音技术领域的热门研究方向。最近几年,由于深度学习技术的快速发展,将深度学习方法应用于语音增强技术的方法也层出不穷,且取得了良好的效果。
卷积循环神经网络是一种将卷积神经网络和循环神经网络有效结合起来的神经网络。由于卷积循环神经网络既包含有卷积神经网络,可以有效提取语音信号局部特征,又包含有循环神经网络,可以有效处理时间序列信号。因此,卷积循环神经网络在语音增强处理上得到广泛运用。如西北工业大学谢磊老师实验室提出的深度复数卷积循环网络(DeepComplex Convolution Recurrent Network,DCCRN),南京大学现代声学实验室乐小怀等人提出的双路径卷积循环网络(Dual-Path Convolution Recurrent Network,DPCRN)等,均在噪声抑制,语音增强上取得了很不错的效果。但由于这些神经网络大多是在短时傅里叶变换后进行处理,需要对信号的实部和虚部分别处理或者直接进行复数形式处理,这使得模型的参数量和计算量都较大,给嵌入式***移植部署带来很大的挑战。
发明内容
为了减少模型参数量和计算量,使得设计的卷积循环神经网络满足实时计算和适合嵌入式***移植。在参考双路径卷积循环网络模型的基础上,本发明公开了一种卷积循环神经网络、语音增强方法及装置。
本发明所述卷积循环神经网络,包括依次串联的编码器模块、双路径循环神经网络模块及解码器模块:
所述编码器模块包括3个依次串联的第一至第三一维卷积模块,各个一维卷积模块包括依次串联的一维卷积层、批归一化层和激活函数层 ;
所述双路径循环神经网络模块包括依次串联的双向长短时记忆网络层,单向长短时记忆网络层和全连接层;所述双向长短时记忆网络层的输入端还与所述全连接层的输出端连接;
所述解码器模块包括两个串联的第一转置卷积模块和第二转置卷积模块,所述第一转置卷积模块包括依次串联的第一转置卷积层、批归一化层和激活函数层,所述第二转置卷积模块包括依次串联的第二转置卷积层、批归一化层、激活函数层和第三转置卷积层;
所述第一一维卷积模块的激活函数层输出端还与第二转置卷积模块的第三转置卷积层输入端连接,所述第二一维卷积模块的激活函数层输出端还与第二转置卷积模块的第二转置卷积层输入端连接。
优选的,所述激活函数层为RELU函数层。
本发明所述语音增强方法,包括如下步骤:
步骤1.对获取的带噪混合语音时域信号进行短时离散余弦变换处理,得到每帧信号的频域实数谱特征;
步骤2.将频域实数谱特征输入卷积循环神经网络模型的输入端进行前向推理,得到带噪混合语音的实数谱掩蔽值,并将掩蔽值与所述频域实数谱特征相乘;
步骤3.将相乘结果进行短时离散余弦逆变换,得到降噪后的时域语音信号;
所述卷积循环神经网络为如前所述卷积循环神经网络。
优选的,步骤1具体为,对获取的带噪混合语音时域信号进行分帧加窗处理,对分帧加窗后的每帧信号进行短时离散余弦逆变换,得到所述频域实数谱特征。
本发明所述语音增强装置,包括如下组成部分:
音频分析模块:用于对拾音设备采集的原始带噪混合语音进行分帧加窗及短时离散余弦变换,得到所述带噪混合语音的频域实数谱。
音频处理模块:用于将所述带噪混合语音的频域实数谱输入卷积循环神经网络模型,得到所述带噪混合语音的频域实数谱掩蔽值;
其中音频处理模块包含能进行卷积神经网络、激活函数层和全连接层硬件加速的神经网络加速器。
音频输出模块:用于将频域实数谱掩蔽值与所述频域实数谱特征相乘,并进行合帧合窗及短时离散余弦逆变换,得到降噪后的时域语音信号。
本发明所述卷积循环神经网络及语音增强方法,通过多层一维卷积层架构设计,既保证提取局部特征的技术效果,又相对现有技术采用的二维卷积层减少了参数量,能够满足实时计算要求和适合嵌入式***移植,通过构造一个参数量较小的神经网络模型,达到嵌入式端语音增强的目的。
附图说明
图1为本发明所述卷积循环神经网络及利用该网络进行语音增强的一种具体实施方式示意图;
图2为本发明所述卷积循环神经网络装置的示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述卷积循环神经网络,包括依次串联的编码器模块、双路径循环神经网络模块及解码器模块:
所述编码器模块包括3个依次串联的第一至第三一维卷积模块,各个一维卷积模块包括依次串联的一维卷积层、批归一化层和激活函数层 ;
所述双路径循环神经网络模块包括依次串联的双向LSTM层,单向LSTM层和全连接层;所述双向LSTM 层的输入端还与所述全连接层的输出端连接;
所述解码器模块包括两个串联的第一转置卷积模块和第二转置卷积模块,所述第一转置卷积模块包括依次串联的第一转置卷积层、批归一化层和激活函数层,所述第二转置卷积模块包括依次串联的第二转置卷积层、批归一化层、激活函数层和第三转置卷积层;
所述第一一维卷积模块的激活函数层输出端还与第二转置卷积模块的第三转置卷积层输入端连接,所述第二一维卷积模块的激活函数层输出端还与第二转置卷积模块的第二转置卷积层输入端连接。
所述编码器模块由依次串联的第一至第三一维卷积模块构成,为防止带噪混合语音信号在处理过程中出现幅值溢出现象,一维卷积模块中每个卷积层后带有一个批归一化层(Batch Normalization,BN)和激活函数层。
其中,如图1所示的具体实施方式中,激活函数层优选线性整流函数(Linearrectification function,Relu)作为激活函数。相比于sigmoid激活函数和tanh激活函数,Relu函数可大大减少激活层的计算时间。其中,第一一维卷积层的输入为步骤1中输出的频域实数谱特征;其他层的输入均为上一层的输出。
所述双路径循环神经网络模块包括两个长短时记忆网络(LSTM)层和一个全连接层。第一个LSTM层为双向LSTM层,其数据流向是在频域轴方向双向流动,其目的在于充分利用语音信号的谐波结构。第二个LSTM层为单向LSTM层,其数据流向是在时间轴上随时间单向流动,其目的在于利用语音信号是时间上的序列信号特性,单向LSTM层可以在语音信号连续帧上的进行时间依赖性建模。最后通过一个全连接层输出单向LSTM层处理后的语音信号特征。
所述解码器模块包括3个转置卷积层,前两个转置卷积层后分别带有一个BN层和Relu函数层,每一个转置卷积层的输入为上一层的输出和其对应的卷积层的输出所连接的数据。最后一个转置卷积层的输出即为实数谱的掩蔽值。
下面结合附图对本发明的具体实施方式作进一步的详细说明。
利用前述卷积循环神经网络进行语音增强处理的一个具体实施方式如图1所示。
步骤1.对获取的带噪混合语音时域信号进行处理,得到每帧信号的频域实数谱特征;
一个具体处理方式为:对获取的时域带噪混合语音信号进行分帧加窗处理,帧长可采用512个采样点,帧移为256个采样点。窗函数可采用汉明窗。对分帧加窗后的每帧信号进行短时离散余弦变换,得到每帧信号的512维频域实数谱特征。
采用短时离散余弦变换(STDCT)的原因在于,STDCT作为短时离散傅里叶变换(Short-time Discrete Fourier Transform,STDFT)的另一种变换,不仅继承了STDFT的属性,而且其变换后的频谱值是实数,在神经网络中计算时可以有效减少参数量和计算量。
步骤2.将步骤1得到的频域实数谱特征输入卷积循环神经网络中的第一一维卷积层;
所述卷积循环神经网络的后续具体处理步骤如下:
S11.在第一一维卷积层中进行数据填充;
本实施例中,第一一维卷积层中设置卷积核长度为5,步长为2,输出通道为8。通过数据填充后,第一个卷积层的输出数据维度为256x8。
将第一一维卷积层的输出数据输入第一批归一化层和第一Relu函数层处理,输出数据维度不变的数据;
S12.将经过第一Relu函数层处理后的数据输入第二一维卷积层,通过数据填充后输出;
其中第二一维卷积层的输出通道大于第一一维卷积层;本实施例中,第二一维卷积层卷积核长度为3,步长为2,输出通道为16。通过数据填充后,第二个卷积层的输出数据维度为128x16。
S13.将第二一维卷积层的输出数据先后经第二批归一化层和第二Relu函数层处理,输出数据维度不变的数据;
S14.将经过第二Relu函数层处理后的数据输入第三一维卷积层,通过数据填充后输出;本实施例中,第三一维卷积层卷积核长度为3,步长为2,输出通道为32。通过数据填充后,第二个卷积层的输出数据维度为64x32。
S15.继续将第三一维卷积层的输出数据输入第三批归一化层和第三Relu函数层处理,输出数据维度不变的数据;
S16.将第三Relu函数层处理后的数据输入双路径循环神经网络模块的双向LSTM层,数据流在频率轴方向双向流动。本实施例中,双向LSTM的节点数为32。
S17.将经过双向LSTM层处理后的数据输入单向LSTM层,数据流在时间轴上流动,本实施例中,单向LSTM层的节点数为32;
S18.将经过单向LSTM层处理后的数据通过双路径循环神经网络模块的全连接层输出,本实施例中,全连接层的节点数为32。
S19.将S18步骤中全连接层的输出数据与S15步骤中第三Relu函数层输出的数据选用按元素相加的连接方式,其目的是既可防止梯度消失,同时可保持数据维度不变。本实施例中,连接后仍以64乘32的数据维度输入解码器模块的第一转置卷积层,卷积核长度为3,步长为2,输出通道为16.。则第一个转置卷积层输出维度为128x16。
S20.将第一转置卷积层的输出数据输入第四批归一化层和第四Relu函数层处理,得到数据维度不变的输出数据。
S21、将S20步骤的输出数据和S13步骤中第二Relu函数层的输出数据按元素相加,本实施例中,连接后仍以128x16的数据维度输入第二转置卷积层,卷积核长度为3,步长为2,输出通道为8。则第二个转置卷积层输出维度为256x8。
S22.将第二转置卷积层的输出数据输入第五批归一化层和第五Relu函数层处理,得到数据维度不变的输出数据。
S23.将S22步骤的输出数据和S11步骤中第一Relu函数层的输出数据按元素相加,构成256x8的数据维度输入第三个转置卷积层,卷积核长度为5,步长为2,输出通道为1。则第三个转置卷积层输出维度为512x1,即为神经网络模型推理出的带噪混合语音实数谱的掩蔽值。由于编码模块和解码模块是对称结构,S19,S21,S23步骤中将不同模块输出的维度相同的数据按元素相加,可防止梯度消失,同时可保持数据维度不变。
S24.将S1步骤中得到的频域实数谱特征乘以S15步骤中掩蔽值,再经过短时离散余弦逆变换(STDCT),得到降噪后的时域语音信号。掩蔽值相当于滤波系数,频域实数谱特征与之相乘可得到降噪后的语音。
采用本发明所述卷积循环神经网络及语音增强方法,通过多层一维卷积层架构设计,既保证提取局部特征的技术效果,又相对现有技术采用的二维卷积层减少了参数量,能够满足实时计算要求和适合嵌入式***移植,通过构造一个参数量较小的神经网络模型,达到语音增强的目的。
本发明根据上述实施例提供一种语音增强装置,可依靠搭载成都启英泰伦科技有限公司CI130X系列智能语音芯片实现。具体包括进行混合语音采集的拾音设备,如带有麦克风的风扇、空调等产品或者裸露的数字麦克风或模拟麦克风。存储器如SRAM,ROM,FLASH等,音频分析模块,音频处理模块以及音频输出模块等。
音频分析模块可进行信号模数转换,对信号进行分帧加窗及短时离散余弦变换,短时傅里叶变换等。音频处理模块主要对带噪混合语音的频域实数谱进行预训练卷积循环神经网络模型的前向推理,得到所述带噪混合语音的频域实数谱掩蔽值。其中音频处理模块主要包含能进行神经网络层加速运算的神经网络硬件加速器。如卷积神经网络模块加速运算,全连接层加速运算,激活函数层加速运算等,该神经网络加速器通过芯片硬件设计实现,为本领域现有技术。音频输出模块主要对处理后的语音实数谱进行合帧合窗及短时离散余弦逆变换以及包含可进行实时音频录制的IIS,IIC硬件配置。
在本申请所提供的具体实施方式中,所公开的神经网络和各个模块,可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能可以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机或端侧设备可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对于现有技术作出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者端侧设备)执行本发明各个实施例所述方法的全部或部分步骤。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (5)
1.一种卷积循环神经网络,其特征在于,包括依次串联的编码器模块、双路径循环神经网络模块及解码器模块:
所述编码器模块包括3个依次串联的第一至第三一维卷积模块,各个一维卷积模块包括依次串联的一维卷积层、批归一化层和激活函数层 ;
所述双路径循环神经网络模块包括依次串联的双向长短时记忆网络层,单向长短时记忆网络层和全连接层;所述双向长短时记忆网络层的输入端还与所述全连接层的输出端连接;
所述解码器模块包括两个串联的第一转置卷积模块和第二转置卷积模块,所述第一转置卷积模块包括依次串联的第一转置卷积层、批归一化层和激活函数层,所述第二转置卷积模块包括依次串联的第二转置卷积层、批归一化层、激活函数层和第三转置卷积层;
所述第一一维卷积模块的激活函数层输出端还与第二转置卷积模块的第三转置卷积层输入端连接,所述第二一维卷积模块的激活函数层输出端还与第二转置卷积模块的第二转置卷积层输入端连接。
2.如权利要求1所述的卷积循环神经网络,其特征在于,所述激活函数层为RELU函数层。
3.一种语音增强方法,其特征在于,包括如下步骤:
步骤1.对获取的带噪混合语音时域信号进行短时离散余弦变换处理,得到每帧信号的频域实数谱特征;
步骤2.将频域实数谱特征输入卷积循环神经网络模型的输入端进行前向推理,得到带噪混合语音的实数谱掩蔽值,并将掩蔽值与所述频域实数谱特征相乘;
步骤3.将相乘结果进行短时离散余弦逆变换,得到降噪后的时域语音信号;
所述卷积循环神经网络为权利要求1至2任意一项所述卷积循环神经网络。
4.如权利要求3所述的语音增强方法,其特征在于,步骤1具体为,对获取的带噪混合语音时域信号进行分帧加窗处理,对分帧加窗后的每帧信号进行短时离散余弦逆变换,得到所述频域实数谱特征。
5.一种语音增强装置,其特征在于,包括如下组成部分:
音频分析模块:用于对拾音设备采集的原始带噪混合语音进行分帧加窗及短时离散余弦变换,得到所述带噪混合语音的频域实数谱;
音频处理模块:用于将所述带噪混合语音的频域实数谱输入卷积循环神经网络模型,得到所述带噪混合语音的频域实数谱掩蔽值;
其中音频处理模块包含能进行卷积神经网络、激活函数层和全连接层硬件加速的神经网络加速器;
音频输出模块:用于将频域实数谱掩蔽值与所述频域实数谱特征相乘,并进行合帧合窗及短时离散余弦逆变换,得到降噪后的时域语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211177764.9A CN115273883A (zh) | 2022-09-27 | 2022-09-27 | 卷积循环神经网络、语音增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211177764.9A CN115273883A (zh) | 2022-09-27 | 2022-09-27 | 卷积循环神经网络、语音增强方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273883A true CN115273883A (zh) | 2022-11-01 |
Family
ID=83756438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211177764.9A Pending CN115273883A (zh) | 2022-09-27 | 2022-09-27 | 卷积循环神经网络、语音增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273883A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594056A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市龙芯威半导体科技有限公司 | 一种基于sift的rnn语音降噪与去混响方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1253581A1 (en) * | 2001-04-27 | 2002-10-30 | CSEM Centre Suisse d'Electronique et de Microtechnique S.A. - Recherche et Développement | Method and system for enhancing speech in a noisy environment |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取***及方法 |
US20200143819A1 (en) * | 2017-07-19 | 2020-05-07 | Nippon Telegraph And Telephone Corporation | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method |
CN113178204A (zh) * | 2021-04-28 | 2021-07-27 | 云知声智能科技股份有限公司 | 一种单通道降噪的低功耗方法、装置及存储介质 |
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
CN113611324A (zh) * | 2021-06-21 | 2021-11-05 | 上海一谈网络科技有限公司 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
CN114974292A (zh) * | 2022-05-23 | 2022-08-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-09-27 CN CN202211177764.9A patent/CN115273883A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1253581A1 (en) * | 2001-04-27 | 2002-10-30 | CSEM Centre Suisse d'Electronique et de Microtechnique S.A. - Recherche et Développement | Method and system for enhancing speech in a noisy environment |
US20200143819A1 (en) * | 2017-07-19 | 2020-05-07 | Nippon Telegraph And Telephone Corporation | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取***及方法 |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN113178204A (zh) * | 2021-04-28 | 2021-07-27 | 云知声智能科技股份有限公司 | 一种单通道降噪的低功耗方法、装置及存储介质 |
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
CN113611324A (zh) * | 2021-06-21 | 2021-11-05 | 上海一谈网络科技有限公司 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
CN114974292A (zh) * | 2022-05-23 | 2022-08-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
徐峰等: "DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强", 《信号处理》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594056A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市龙芯威半导体科技有限公司 | 一种基于sift的rnn语音降噪与去混响方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108682418B (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
Yen et al. | Cold diffusion for speech enhancement | |
ES2347760T3 (es) | Procedimiento y dispositivo de reduccion de ruido. | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Xiang et al. | A convolutional network with multi-scale and attention mechanisms for end-to-end single-channel speech enhancement | |
CN110942766A (zh) | 音频事件检测方法、***、移动终端及存储介质 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN113077806A (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN115273883A (zh) | 卷积循环神经网络、语音增强方法及装置 | |
CN112259119A (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
Shafik et al. | A wavelet based approach for speaker identification from degraded speech | |
CN112397090B (zh) | 一种基于fpga的实时声音分类方法及*** | |
Krishnan et al. | Features of wavelet packet decomposition and discrete wavelet transform for malayalam speech recognition | |
Saleem et al. | Variance based time-frequency mask estimation for unsupervised speech enhancement | |
Jannu et al. | Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
Indra et al. | A modified tunable–Q wavelet transform approach for tamil speech enhancement | |
Singh et al. | Bone conducted speech signal enhancement using LPC and MFCC | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、***及设备 | |
Xiang et al. | Joint waveform and magnitude processing for monaural speech enhancement | |
CN114898767A (zh) | 基于U-Net的机载语音噪音分离方法、设备及介质 | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
Zhou et al. | Meta-SE: a meta-learning framework for few-shot speech enhancement | |
Ram et al. | Enhancement of speech using deep neural network with discrete cosine transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221101 |
|
RJ01 | Rejection of invention patent application after publication |