CN115756376A - 一种基于lstm的会议音量调控方法、装置及*** - Google Patents

一种基于lstm的会议音量调控方法、装置及*** Download PDF

Info

Publication number
CN115756376A
CN115756376A CN202211292076.7A CN202211292076A CN115756376A CN 115756376 A CN115756376 A CN 115756376A CN 202211292076 A CN202211292076 A CN 202211292076A CN 115756376 A CN115756376 A CN 115756376A
Authority
CN
China
Prior art keywords
voice
speaker
conference
processing
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211292076.7A
Other languages
English (en)
Inventor
侯俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Clp Zhiheng Information Technology Service Co ltd
Original Assignee
Clp Zhiheng Information Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clp Zhiheng Information Technology Service Co ltd filed Critical Clp Zhiheng Information Technology Service Co ltd
Priority to CN202211292076.7A priority Critical patent/CN115756376A/zh
Publication of CN115756376A publication Critical patent/CN115756376A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了智能会议和深度学习技术领域的一种基于LSTM的会议音量调控方法、装置及***。其包括:获取会议多人混合语音MV;获取主讲人纯净语音PV;对会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱MVS;利用预构建的LSTM网络模型对主讲人纯净语音PV进行处理,得到主讲人语音特征d‑vector;将混合语音频谱MVS和主讲人语音特征d‑vector输入CLF网络模型进行处理,得到主讲人语音音频SV;增高主讲人语音音频SV的音量,得到SV+;降低会议多人混合语音MV的音量,得到MV‑;将SV+和MV‑进行音轨合并处理,得到处理后的会议多人混合语音并输出。本发明通过对主讲人语音过滤,实现了会议过程中突出主讲人语音音量,抑制环境噪音和其他参会人员语音的技术效果。

Description

一种基于LSTM的会议音量调控方法、装置及***
技术领域
本发明涉及一种基于LSTM的会议音量调控方法、装置及***,属于智能会议技术领域和深度学习技术领域。
背景技术
当前通过远程音频来进行业务会议已十分常见。远程会议避免了传统会议在空间和时间上的不便,极大地提高了企业员工沟通与交流的效率。但是远程会议也存在着一些不可避免的问题,会议期间发言的调控与管理便是之一。在多人远程会议中,一般会有一位主讲人和若干旁听人,当主讲人发言时,旁听者可能会存在私下讨论、闲聊或突然插话等行为,对主讲人和其余旁听人造成影响。
当前比较流行且成熟的远程会议产品,大多设置了会议主持人和其他参会人的身份,且会议主持人只可对其他参会人进行“发言”和“禁言”的操作,无法用更缓和的方式去调控会议参与人的语音音量。传统的会议音量调节多是基于后台人工手动调控或基于检测算法进行简单调控,无法做到随着会议场景变换、主讲人更替等情况而做出相应的智能调控。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于LSTM的会议音量调控方法、装置及***,通过为远程会议进行AI赋能,设计CLF网络模型进行主讲人语音过滤,实现了会议过程中突出主讲人语音音量,抑制环境噪音和其他参会人员的语音的技术效果,解决了避免会议过程中旁听者进行私下讨论、闲聊或突然插话等行为时对会议主讲人和其他旁听者造成的影响的技术问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于LSTM的会议音量调控方法,包括:
获取会议多人混合语音MV;
获取主讲人纯净语音PV;
对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱 MVS;
利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
增高所述主讲人语音音频SV的音量,得到SV+;
降低所述会议多人混合语音MV的音量,得到MV-;
将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
可选地,所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为:
Figure BDA0003901479530000021
其中,STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS,s(u)为所述会议多人混合语音MV的语音帧,g(t)为窗函数,*为复共轭符号,u和t为时间变量,e为自然常数,j为虚数单位,f为所述会议多人混合语音MV的频率。
可选地,所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector的方法包括:
采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理;
将预加重处理后的主讲人纯净语音PV进行重叠分段处理,得到分帧后的语音信息;
对所述分帧后的语音信息进行加窗处理,将每帧语音与一个平滑的窗函数相乘,帧两端信号平滑的衰减到零;
对加窗后的每帧语音进行快速傅立叶变换处理,得到每帧语音的频谱;
根据所述每帧语音的频谱,通过计算平方得到谱线能量;
将所述谱线能量通过梅尔滤波器组计算处理,得到梅尔能量;
将所述梅尔能量进行DCT倒谱运算处理,再通过对数计算处理得到MFCC特征;
将所述MFCC特征输入3层LSTM网络模型,得到所述主讲人语音特征 d-vector。
可选地,所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为:
H(z)=1-μz-1,0.9≤μ≤1.0,
其中,H(z)表示预加重处理后的信号,μ表示预加重系数,z-1表示主讲人纯净语音PV的倒数。
可选地,所述DCT倒谱运算处理的计算公式如下:
Figure BDA0003901479530000031
其中,mfcc(,i n)为第i帧第n个谱线,M为三角滤波器的总个数,m =0,1,2,…,M-1,S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。
可选地,所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV的方法,包括:
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型,得到主讲人语音掩码mask;
将所述主讲人语音掩码mask与所述混合语音频谱MVS相乘,得到去除噪声干扰的主讲人语音信号幅度谱;
将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理,得到所述主讲人语音音频SV。
可选地,所述CLF网络模型由10个卷积层、1个LSTM层和3个全连接层构成,所述10个卷积层中前9个卷积层均为64个卷积核,第10个卷积层为8个卷积核;所述第10个卷积层与所述LSTM层和所述3个全连接层连接,用于对特征进行降维。
可选地,所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为:
Figure BDA0003901479530000032
其中,STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS,s(t) 为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧,t和u为时间变量,f为频率,g(t)为窗函数,e为自然常数,j为虚数单位。
第二方面,本发明提供了一种基于LSTM的会议音量调控装置,包括:
语音获取模块,用于获取会议多人混合语音MV和主讲人纯净语音PV;
混合语音处理模块,用于对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱MVS;
主讲人声纹提取模块,用于利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
CLF语音提取模块,用于将所述混合语音频谱MVS和所述主讲人语音特征 d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
语音输出模块,用于增高所述主讲人语音音频SV的音量,得到SV+;降低所述会议多人混合语音MV的音量,得到MV-;将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
第三方面,本发明提供了一种基于LSTM的会议音量调控***,包括:
处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明采用一种基于LSTM的会议音量调控方法、装置及***,通过为远程会议进行AI赋能,设计CLF网络模型进行主讲人语音过滤,实现了会议过程中突出主讲人语音音量,抑制环境噪音和其他参会人员的语音的技术效果,解决了避免会议过程中旁听者进行私下讨论、闲聊或突然插话等行为时对会议主讲人和其他旁听者造成的影响的技术问题。
附图说明
图1是本发明一种实施例中一种基于LSTM的会议音量调控方法、装置及***的流程示意图;
图2是本发明一种实施例中CLF网络模型的整体示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
下面结合附图对本发明的应用原理作详细的描述。
实施例1
本发明实施例中提供了一种基于LSTM的会议音量调控方法,如图1所示,包括以下步骤:
获取会议多人混合语音MV;
获取主讲人纯净语音PV;
对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱 MVS;
利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
增高所述主讲人语音音频SV的音量,得到SV+;
降低所述会议多人混合语音MV的音量,得到MV-;
将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
在本发明实施例的一种具体实施方式中,所述短时傅里叶变换为用一个时宽足够窄的窗函数与时间信号相乘,窗内的信号近似视为平稳信号,然后在窗内进行傅里叶变换,得到信号的瞬时频谱。随着截取窗在时间轴上移动,得到整个时间域上的频谱。所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为:
Figure BDA0003901479530000051
其中,STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS,s(u)为所述会议多人混合语音MV的语音帧,g(t)为窗函数,*为复共轭符号,u和t为时间变量,e为自然常数,j为虚数单位,f为所述会议多人混合语音MV的频率。
在本发明实施例的一种具体实施方式中,所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector的方法包括:
采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理;
将预加重处理后的主讲人纯净语音PV进行重叠分段处理,得到分帧后的语音信息;
对所述分帧后的语音信息进行加窗处理,将每帧语音与一个平滑的窗函数相乘,帧两端信号平滑的衰减到零;
对加窗后的每帧语音进行快速傅立叶变换处理,得到每帧语音的频谱;
根据所述每帧语音的频谱,通过计算平方得到谱线能量;
将所述谱线能量通过梅尔滤波器组计算处理,得到梅尔能量;
将所述梅尔能量进行DCT倒谱运算处理,再通过对数计算处理得到MFCC特征;
将所述MFCC特征输入3层LSTM网络模型,得到所述主讲人语音特征 d-vector。
在本发明实施例的一种具体实施方式中,所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为:
H(z)=1-μz-1,0.9≤μ≤1.0,
其中,H(z)表示预加重处理后的信号,μ表示预加重系数,z-1表示主讲人纯净语音PV的倒数。
在本发明实施例的一种具体实施方式中,所述DCT倒谱运算处理的计算公式如下:
Figure BDA0003901479530000061
其中,mfcc(,i n))为第i帧第n个谱线,M为三角滤波器的总个数,m =0,1,2,…,M-1,S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。
在本发明实施例的一种具体实施方式中,所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频 SV的方法,包括:
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型,得到主讲人语音掩码mask;
将所述主讲人语音掩码mask与所述混合语音频谱MVS相乘,得到去除噪声干扰的主讲人语音信号幅度谱;
将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理,得到所述主讲人语音音频SV。
在本发明实施例的一种具体实施方式中,如图2所示,所述CLF网络模型由 10个卷积层、1个LSTM层和3个全连接层构成,所述10个卷积层中前9个卷积层均为64个卷积核,第10个卷积层为8个卷积核;所述第10个卷积层与所述 400维的LSTM层和所述3个600维的全连接层连接,用于对特征进行降维。最后一层的激活函数使用sigmoid函数,其余层的激活函数使用ReLU函数。处理每一帧时,说话人编码与卷积层的输出拼接后的级联向量作为LSTM网络模型的输入,最终得到主讲人语音掩码mask。
在本发明实施例的一种具体实施方式中,所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为:
Figure BDA0003901479530000071
其中,s(t)为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种基于LSTM的会议音量调控装置,包括:
语音获取模块,用于获取会议多人混合语音MV和主讲人纯净语音PV;
混合语音处理模块,用于对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱MVS;
主讲人声纹提取模块,用于利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
CLF语音提取模块,用于将所述混合语音频谱MVS和所述主讲人语音特征 d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
语音输出模块,用于增高所述主讲人语音音频SV的音量,得到SV+;降低所述会议多人混合语音MV的音量,得到MV-;将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
实施例3
基于与实施例1相同的发明构思,本发明实施例中提供了一种基于LSTM的会议音量调控***,包括:
处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于LSTM的会议音量调控方法,其特征在于,包括:
获取会议多人混合语音MV;
获取主讲人纯净语音PV;
对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱MVS;
利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
增高所述主讲人语音音频SV的音量,得到SV+;
降低所述会议多人混合语音MV的音量,得到MV-;
将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
2.根据权利要求1所述的一种基于LSTM的会议音量调控方法,其特征在于,所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为:
Figure FDA0003901479520000011
其中,STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS,s(u)为所述会议多人混合语音MV的语音帧,g(t)为窗函数,*为复共轭符号,u和t为时间变量,e为自然常数,j为虚数单位,f为所述会议多人混合语音MV的频率。
3.根据权利要求1所述的一种基于LSTM的会议音量调控方法,其特征在于,所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector的方法包括:
采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理;
将预加重处理后的主讲人纯净语音PV进行重叠分段处理,得到分帧后的语音信息;
对所述分帧后的语音信息进行加窗处理,将每帧语音与一个平滑的窗函数相乘,帧两端信号平滑的衰减到零;
对加窗后的每帧语音进行快速傅立叶变换处理,得到每帧语音的频谱;
根据所述每帧语音的频谱,通过计算平方得到谱线能量;
将所述谱线能量通过梅尔滤波器组计算处理,得到梅尔能量;
将所述梅尔能量进行DCT倒谱运算处理,再通过对数计算处理得到MFCC特征;
将所述MFCC特征输入3层LSTM网络模型,得到所述主讲人语音特征d-vector。
4.根据权利要求3所述的一种基于LSTM的会议音量调控方法,其特征在于,所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为:
H(z)=1-μz-1,0.9≤μ≤1.0,
其中,H(z)表示预加重处理后的信号,μ表示预加重系数,z-1表示主讲人纯净语音PV的倒数。
5.根据权利要求3所述的一种基于LSTM的会议音量调控方法,其特征在于,所述DCT倒谱运算处理的计算公式如下:
Figure FDA0003901479520000021
其中,mfcc(,i n)为第i帧第n个谱线,M为三角滤波器的总个数,m=0,1,2,…,M-1,S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。
6.根据权利要求1所述的一种基于LSTM的会议音量调控方法,其特征在于,所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV的方法,包括:
将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型,得到主讲人语音掩码mask;
将所述主讲人语音掩码mask与所述混合语音频谱MVS相乘,得到去除噪声干扰的主讲人语音信号幅度谱;
将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理,得到所述主讲人语音音频SV。
7.根据权利要求6所述的一种基于LSTM的会议音量调控方法,其特征在于,所述CLF网络模型由10个卷积层、1个LSTM层和3个全连接层构成,所述10个卷积层中前9个卷积层均为64个卷积核,第10个卷积层为8个卷积核;所述第10个卷积层与所述LSTM层和所述3个全连接层连接,用于对特征进行降维。
8.根据权利要求6所述的一种基于LSTM的会议音量调控方法,其特征在于,所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为:
Figure FDA0003901479520000031
其中,STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS,s(t)为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧,t和u为时间变量,f为频率,g(t)为窗函数,e为自然常数,j为虚数单位。
9.一种基于LSTM的会议音量调控装置,其特征在于,包括:
语音获取模块,用于获取会议多人混合语音MV和主讲人纯净语音PV;
混合语音处理模块,用于对所述会议多人混合语音MV进行短时傅里叶变换处理,得到混合语音频谱MVS;
主讲人声纹提取模块,用于利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理,得到主讲人语音特征d-vector;
CLF语音提取模块,用于将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理,得到主讲人语音音频SV;
语音输出模块,用于增高所述主讲人语音音频SV的音量,得到SV+;降低所述会议多人混合语音MV的音量,得到MV-;将所述SV+和所述MV-进行音轨合并处理,得到处理后的会议多人混合语音并输出。
10.一种基于LSTM的会议音量调控***,其特征在于,包括:
处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-8中任一项所述方法的步骤。
CN202211292076.7A 2022-10-21 2022-10-21 一种基于lstm的会议音量调控方法、装置及*** Pending CN115756376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211292076.7A CN115756376A (zh) 2022-10-21 2022-10-21 一种基于lstm的会议音量调控方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211292076.7A CN115756376A (zh) 2022-10-21 2022-10-21 一种基于lstm的会议音量调控方法、装置及***

Publications (1)

Publication Number Publication Date
CN115756376A true CN115756376A (zh) 2023-03-07

Family

ID=85352483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211292076.7A Pending CN115756376A (zh) 2022-10-21 2022-10-21 一种基于lstm的会议音量调控方法、装置及***

Country Status (1)

Country Link
CN (1) CN115756376A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN112687275A (zh) * 2020-12-25 2021-04-20 北京中科深智科技有限公司 一种语音过滤方法和过滤***
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN113963713A (zh) * 2021-10-11 2022-01-21 稿定(厦门)科技有限公司 音频降噪方法及装置
CN114097027A (zh) * 2019-04-30 2022-02-25 微软技术许可有限责任公司 讲话者归属的记录稿生成
CN114333896A (zh) * 2020-09-25 2022-04-12 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN114758668A (zh) * 2022-04-24 2022-07-15 北京达佳互联信息技术有限公司 语音增强模型的训练方法和语音增强方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN114097027A (zh) * 2019-04-30 2022-02-25 微软技术许可有限责任公司 讲话者归属的记录稿生成
CN114333896A (zh) * 2020-09-25 2022-04-12 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112687275A (zh) * 2020-12-25 2021-04-20 北京中科深智科技有限公司 一种语音过滤方法和过滤***
CN113963713A (zh) * 2021-10-11 2022-01-21 稿定(厦门)科技有限公司 音频降噪方法及装置
CN114758668A (zh) * 2022-04-24 2022-07-15 北京达佳互联信息技术有限公司 语音增强模型的训练方法和语音增强方法

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Cao et al. CMGAN: Conformer-based metric GAN for speech enhancement
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
Kanda et al. Joint speaker counting, speech recognition, and speaker identification for overlapped speech of any number of speakers
CN110739003A (zh) 基于多头自注意力机制的语音增强方法
CN108922517A (zh) 训练盲源分离模型的方法、装置及存储介质
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
WO2023216760A1 (zh) 语音处理方法、装置、存储介质、计算机设备及程序产品
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
CN114373473A (zh) 通过低延迟深度学习实现同时降噪和去混响
WO2022134351A1 (zh) 单声道语音降噪方法、***、设备及可读存储介质
Li et al. Dual-path modeling for long recording speech separation in meetings
Zhang et al. Personalized acoustic echo cancellation for full-duplex communications
Zhang et al. A complex spectral mapping with inplace convolution recurrent neural networks for acoustic echo cancellation
CN115756376A (zh) 一种基于lstm的会议音量调控方法、装置及***
Ma et al. Multi-scale attention neural network for acoustic echo cancellation
CN115294987A (zh) 一种会议记录生成方法、装置、设备及存储介质
Xiang et al. Joint waveform and magnitude processing for monaural speech enhancement
Zhou et al. Multimodal voice conversion under adverse environment using a deep convolutional neural network
Qiu et al. Dual-path hybrid attention network for monaural speech separation
Silva-Rodríguez et al. Acoustic echo cancellation using residual U-Nets
Yu et al. Group Multi-Scale Convolutional Network for Monaural Speech Enhancement in Time-domain
Liu et al. Perceptually similar orthogonal sounds and applications to multichannel acoustic echo canceling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination