CN115756376A

CN115756376A - 一种基于lstm的会议音量调控方法、装置及***

Info

Publication number: CN115756376A
Application number: CN202211292076.7A
Authority: CN
Inventors: 侯俊
Original assignee: Clp Zhiheng Information Technology Service Co ltd
Current assignee: Clp Zhiheng Information Technology Service Co ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-03-07

Abstract

本发明公开了智能会议和深度学习技术领域的一种基于LSTM的会议音量调控方法、装置及***。其包括：获取会议多人混合语音MV；获取主讲人纯净语音PV；对会议多人混合语音MV进行短时傅里叶变换处理，得到混合语音频谱MVS；利用预构建的LSTM网络模型对主讲人纯净语音PV进行处理，得到主讲人语音特征d‑vector；将混合语音频谱MVS和主讲人语音特征d‑vector输入CLF网络模型进行处理，得到主讲人语音音频SV；增高主讲人语音音频SV的音量，得到SV+；降低会议多人混合语音MV的音量，得到MV‑；将SV+和MV‑进行音轨合并处理，得到处理后的会议多人混合语音并输出。本发明通过对主讲人语音过滤，实现了会议过程中突出主讲人语音音量，抑制环境噪音和其他参会人员语音的技术效果。

Description

一种基于LSTM的会议音量调控方法、装置及***

技术领域

本发明涉及一种基于LSTM的会议音量调控方法、装置及***，属于智能会议技术领域和深度学习技术领域。

背景技术

当前通过远程音频来进行业务会议已十分常见。远程会议避免了传统会议在空间和时间上的不便，极大地提高了企业员工沟通与交流的效率。但是远程会议也存在着一些不可避免的问题，会议期间发言的调控与管理便是之一。在多人远程会议中，一般会有一位主讲人和若干旁听人，当主讲人发言时，旁听者可能会存在私下讨论、闲聊或突然插话等行为，对主讲人和其余旁听人造成影响。

当前比较流行且成熟的远程会议产品，大多设置了会议主持人和其他参会人的身份，且会议主持人只可对其他参会人进行“发言”和“禁言”的操作，无法用更缓和的方式去调控会议参与人的语音音量。传统的会议音量调节多是基于后台人工手动调控或基于检测算法进行简单调控，无法做到随着会议场景变换、主讲人更替等情况而做出相应的智能调控。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于LSTM的会议音量调控方法、装置及***，通过为远程会议进行AI赋能，设计CLF网络模型进行主讲人语音过滤，实现了会议过程中突出主讲人语音音量，抑制环境噪音和其他参会人员的语音的技术效果，解决了避免会议过程中旁听者进行私下讨论、闲聊或突然插话等行为时对会议主讲人和其他旁听者造成的影响的技术问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于LSTM的会议音量调控方法，包括：

获取会议多人混合语音MV；

获取主讲人纯净语音PV；

对所述会议多人混合语音MV进行短时傅里叶变换处理，得到混合语音频谱 MVS；

利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理，得到主讲人语音特征d-vector；

将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理，得到主讲人语音音频SV；

增高所述主讲人语音音频SV的音量，得到SV+；

降低所述会议多人混合语音MV的音量，得到MV-；

将所述SV+和所述MV-进行音轨合并处理，得到处理后的会议多人混合语音并输出。

可选地，所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为：

其中，STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS，s(u)为所述会议多人混合语音MV的语音帧，g(t)为窗函数，*为复共轭符号，u和t为时间变量，e为自然常数，j为虚数单位，f为所述会议多人混合语音MV的频率。

可选地，所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理，得到主讲人语音特征d-vector的方法包括：

采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理；

将预加重处理后的主讲人纯净语音PV进行重叠分段处理，得到分帧后的语音信息；

对所述分帧后的语音信息进行加窗处理，将每帧语音与一个平滑的窗函数相乘，帧两端信号平滑的衰减到零；

对加窗后的每帧语音进行快速傅立叶变换处理，得到每帧语音的频谱；

根据所述每帧语音的频谱，通过计算平方得到谱线能量；

将所述谱线能量通过梅尔滤波器组计算处理，得到梅尔能量；

将所述梅尔能量进行DCT倒谱运算处理，再通过对数计算处理得到MFCC特征；

将所述MFCC特征输入3层LSTM网络模型，得到所述主讲人语音特征 d-vector。

可选地，所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为：

H(z)＝1-μz^-1,0.9≤μ≤1.0，

其中，H(z)表示预加重处理后的信号，μ表示预加重系数，z^-1表示主讲人纯净语音PV的倒数。

可选地，所述DCT倒谱运算处理的计算公式如下：

其中，mfcc(,i n)为第i帧第n个谱线，M为三角滤波器的总个数，m ＝0,1,2,…,M-1，S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。

可选地，所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理，得到主讲人语音音频SV的方法，包括：

将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型，得到主讲人语音掩码mask；

将所述主讲人语音掩码mask与所述混合语音频谱MVS相乘，得到去除噪声干扰的主讲人语音信号幅度谱；

将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理，得到所述主讲人语音音频SV。

可选地，所述CLF网络模型由10个卷积层、1个LSTM层和3个全连接层构成，所述10个卷积层中前9个卷积层均为64个卷积核，第10个卷积层为8个卷积核；所述第10个卷积层与所述LSTM层和所述3个全连接层连接，用于对特征进行降维。

可选地，所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为：

其中，STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS，s(t) 为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧，t和u为时间变量，f为频率，g(t)为窗函数，e为自然常数，j为虚数单位。

第二方面，本发明提供了一种基于LSTM的会议音量调控装置，包括：

语音获取模块，用于获取会议多人混合语音MV和主讲人纯净语音PV；

混合语音处理模块，用于对所述会议多人混合语音MV进行短时傅里叶变换处理，得到混合语音频谱MVS；

主讲人声纹提取模块，用于利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理，得到主讲人语音特征d-vector；

CLF语音提取模块，用于将所述混合语音频谱MVS和所述主讲人语音特征 d-vector输入CLF网络模型进行处理，得到主讲人语音音频SV；

语音输出模块，用于增高所述主讲人语音音频SV的音量，得到SV+；降低所述会议多人混合语音MV的音量，得到MV-；将所述SV+和所述MV-进行音轨合并处理，得到处理后的会议多人混合语音并输出。

第三方面，本发明提供了一种基于LSTM的会议音量调控***，包括：

处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明采用一种基于LSTM的会议音量调控方法、装置及***，通过为远程会议进行AI赋能，设计CLF网络模型进行主讲人语音过滤，实现了会议过程中突出主讲人语音音量，抑制环境噪音和其他参会人员的语音的技术效果，解决了避免会议过程中旁听者进行私下讨论、闲聊或突然插话等行为时对会议主讲人和其他旁听者造成的影响的技术问题。

附图说明

图1是本发明一种实施例中一种基于LSTM的会议音量调控方法、装置及***的流程示意图；

图2是本发明一种实施例中CLF网络模型的整体示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种基于LSTM的会议音量调控方法，如图1所示，包括以下步骤：

获取会议多人混合语音MV；

获取主讲人纯净语音PV；

增高所述主讲人语音音频SV的音量，得到SV+；

降低所述会议多人混合语音MV的音量，得到MV-；

在本发明实施例的一种具体实施方式中，所述短时傅里叶变换为用一个时宽足够窄的窗函数与时间信号相乘，窗内的信号近似视为平稳信号，然后在窗内进行傅里叶变换，得到信号的瞬时频谱。随着截取窗在时间轴上移动，得到整个时间域上的频谱。所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为：

在本发明实施例的一种具体实施方式中，所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理，得到主讲人语音特征d-vector的方法包括：

采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理；

根据所述每帧语音的频谱，通过计算平方得到谱线能量；

在本发明实施例的一种具体实施方式中，所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为：

H(z)＝1-μz^-1,0.9≤μ≤1.0，

在本发明实施例的一种具体实施方式中，所述DCT倒谱运算处理的计算公式如下：

其中，mfcc(,i n))为第i帧第n个谱线，M为三角滤波器的总个数，m ＝0,1,2,…,M-1，S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。

在本发明实施例的一种具体实施方式中，所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理，得到主讲人语音音频 SV的方法，包括：

在本发明实施例的一种具体实施方式中，如图2所示，所述CLF网络模型由 10个卷积层、1个LSTM层和3个全连接层构成，所述10个卷积层中前9个卷积层均为64个卷积核，第10个卷积层为8个卷积核；所述第10个卷积层与所述 400维的LSTM层和所述3个600维的全连接层连接，用于对特征进行降维。最后一层的激活函数使用sigmoid函数，其余层的激活函数使用ReLU函数。处理每一帧时，说话人编码与卷积层的输出拼接后的级联向量作为LSTM网络模型的输入，最终得到主讲人语音掩码mask。

在本发明实施例的一种具体实施方式中，所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为：

其中，s(t)为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧。

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种基于LSTM的会议音量调控装置，包括：

实施例3

基于与实施例1相同的发明构思，本发明实施例中提供了一种基于LSTM的会议音量调控***，包括：

处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于LSTM的会议音量调控方法，其特征在于，包括：

获取会议多人混合语音MV；

获取主讲人纯净语音PV；

对所述会议多人混合语音MV进行短时傅里叶变换处理，得到混合语音频谱MVS；

增高所述主讲人语音音频SV的音量，得到SV+；

降低所述会议多人混合语音MV的音量，得到MV-；

2.根据权利要求1所述的一种基于LSTM的会议音量调控方法，其特征在于，所述对所述会议多人混合语音MV进行短时傅里叶变换处理的计算公式为：

3.根据权利要求1所述的一种基于LSTM的会议音量调控方法，其特征在于，所述利用预构建的LSTM网络模型对所述主讲人纯净语音PV进行处理，得到主讲人语音特征d-vector的方法包括：

采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理；

根据所述每帧语音的频谱，通过计算平方得到谱线能量；

将所述MFCC特征输入3层LSTM网络模型，得到所述主讲人语音特征d-vector。

4.根据权利要求3所述的一种基于LSTM的会议音量调控方法，其特征在于，所述采用一阶高通滤波器对主讲人纯净语音PV进行预加重处理的计算公式为：

H(z)＝1-μz^-1,0.9≤μ≤1.0，

5.根据权利要求3所述的一种基于LSTM的会议音量调控方法，其特征在于，所述DCT倒谱运算处理的计算公式如下：

其中，mfcc(,i n)为第i帧第n个谱线，M为三角滤波器的总个数，m＝0,1,2,…,M-1，S(i,m)为第i帧的频谱能量经过第m个滤波器后的梅尔能量。

6.根据权利要求1所述的一种基于LSTM的会议音量调控方法，其特征在于，所述将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理，得到主讲人语音音频SV的方法，包括：

7.根据权利要求6所述的一种基于LSTM的会议音量调控方法，其特征在于，所述CLF网络模型由10个卷积层、1个LSTM层和3个全连接层构成，所述10个卷积层中前9个卷积层均为64个卷积核，第10个卷积层为8个卷积核；所述第10个卷积层与所述LSTM层和所述3个全连接层连接，用于对特征进行降维。

8.根据权利要求6所述的一种基于LSTM的会议音量调控方法，其特征在于，所述将所述去除噪声干扰的主讲人语音信号幅度谱进行逆短时傅里叶变换处理的公式为：

其中，STFT(t,f)为经过短时傅里叶变换后得到的混合语音频谱MVS，s(t)为经过逆短时傅里叶变换后得到的所述主讲人语音音频SV的语音帧，t和u为时间变量，f为频率，g(t)为窗函数，e为自然常数，j为虚数单位。

9.一种基于LSTM的会议音量调控装置，其特征在于，包括：

CLF语音提取模块，用于将所述混合语音频谱MVS和所述主讲人语音特征d-vector输入CLF网络模型进行处理，得到主讲人语音音频SV；

10.一种基于LSTM的会议音量调控***，其特征在于，包括：

处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-8中任一项所述方法的步骤。