CN111429919A

CN111429919A - 基于会议实录***的防串音方法、电子装置及存储介质

Info

Publication number: CN111429919A
Application number: CN202010235796.4A
Authority: CN
Inventors: 陈先丽; 肖金平; 万正勇; 沈志勇
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-17
Anticipated expiration: 2040-03-30
Also published as: CN111429919B

Abstract

本发明涉及数据处理技术，提供了一种基于会议实录***的防串音方法、电子装置及存储介质。该方法通过实时获取发言者的语音信息，并将语音信息输入预先训练的声纹识别模型得到发言者的实时语音特征，判断预先建立的声纹库中是否存在发言者的预存语音特征，当存在时，从声纹库中读取发言者的语音特征及对应的标签，基于预先建立的每个麦克风与每个发言者标签的映射关系，得到发言者的语音特征对应的麦克风，实时检测多个麦克风是否发生串音现象，当多个麦克风中任意一个麦克风发生串音现象时，对发生串音的麦克风执行防串音处理操作。利用本发明，可以准确地检测出发生串音的麦克风，以对发生串音的麦克风执行防串音处理。

Description

基于会议实录***的防串音方法、电子装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于会议实录***的防串音方法、电子装置及存储介质。

背景技术

在会议实录***的使用过程中，当麦克风之间距离过近或麦克风灵敏度过高时，声音会传入其他麦克风，造成麦克风串音，严重影响了会议实录的准确性。目前市面上的会议实录***无法自动检测和处理麦克风串音问题，主要原因是现有的会议实录***主要依赖麦克风的硬件区分会议发言人，当麦克风串音时，尤其是当麦克风中传入的音频流强度等特征相似时，无法确定是哪个麦克风发生串音，导致无法进行防串音处理。

发明内容

鉴于以上内容，本发明提供一种基于会议实录***的防串音方法、电子装置及存储介质，其目的在于解决现有技术中无法自动检测出发生串音的麦克风，导致不能进行防串音处理的问题。

为实现上述目的，本发明提供一种基于会议实录***的防串音方法，该方法包括：

获取步骤：实时获取发言者的语音信息，将该语音信息输入预先训练的声纹识别模型，得到该发言者的实时语音特征；

判断步骤：基于所述发言者的实时语音特征，利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征，当所述声纹库存在所述发言者的预存语音特征时，从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签；及

执行步骤：基于预先建立的每个麦克风与每个发言者标签的映射关系，得到所述发言者的实时语音特征对应的麦克风，实时检测多个麦克风是否发生串音现象，当所述多个麦克风中任意一个麦克风发生串音现象时，对发生串音的麦克风执行防串音处理操作。

优选的，所述判断步骤包括：

利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值，当第一相似度值大于或等于预设阈值时，从所述声纹库中确定所述发言者的预存语音特征及所述发言者对应的标签。

优选的，所述判断步骤还包括：

当所有第一相似度值小于预设阈值时，将所述发言者的实时语音信息、标签及声纹特征存储至所述声纹库。

优选的，所述执行步骤包括：

基于预设的转换规则实时将发言者的实时语音信息转换成文本信息，基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量，当所述麦克风数量小于预设值时，不执行防串音处理操作。

优选的，所述执行步骤还包括：

当所述麦克风数量大于预设值时，利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值，当第二相似度值均大于或等于第二预设阈值时，对发生串音的麦克风执行防串音处理操作，否则，不执行防串音处理操作。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器及处理器，所述存储器上存储基于会议实录***的防串音程序，所述基于会议实录***的防串音程序被所述处理器执行，实现如下步骤：

优选的，所述判断步骤包括：

优选的，所述执行步骤包括：

优选的，所述执行步骤还包括：

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于会议实录***的防串音程序，所述基于会议实录***的防串音程序被处理器执行时，可实现如上所述基于会议实录***的防串音方法中的任意步骤。

本发明提出的基于会议实录***的防串音方法、电子装置及存储介质，通过实时获取发言者的语音信息，并输入声纹识别模型得到发言者的语音特征，判断声纹库中是否存在发言者的语音特征，当存在时读取发言者的语音特征及对应的标签，基于预先建立的映射关系得到发言者对应的麦克风，实时检测多个麦克风是否发生串音现象，当多个麦克风中任意一个麦克风发生串音现象时，对发生串音的麦克风执行防串音处理操作。相较于通过手动调整麦克风灵敏度或人工关闭麦克风的传统方式，本发明可实时准确地检测出发生串音的麦克风，并以对发生串音的麦克风执行防串音处理。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中基于会议实录***的防串音程序较佳实施例的模块示意图；

图3为本发明基于会议实录***的防串音方法较佳实施例的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，为本发明电子装置1较佳实施例的示意图。

该电子装置1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子装置1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储设备，例如该电子装置1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子装置1的操作***和各类应用软件，例如基于会议实录***的防串音程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于会议实录***的防串音程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述电子装置1与其它电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及基于会议实录***的防串音程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的基于会议实录***的防串音程序10时可以实现如下步骤：

关于上述步骤的详细介绍，请参照下述图2关于基于会议实录***的防串音程序10实施例的程序模块图以及图3关于基于会议实录***的防串音方法实施例的流程图的说明。

在其他实施例中，所述基于会议实录***的防串音程序10可以被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为图1中基于会议实录***的防串音程序10一实施例的程序模块图。在本实施例中，所述基于会议实录***的防串音程序10可以被分割为：获取模块110、判断模块120及执行模块130。

获取模块110，用于实时获取发言者的语音信息，将该语音信息输入预先训练的声纹识别模型，得到该发言者的实时语音特征。

在本实施例中，可以利用具有录音功能的终端设备(例如，话筒、麦克风)或者具有录像功能的录像设备(例如，数码摄像机)等的声音采集装置实时获取会议中发言者的实时语音信息。其中，该语音信息的音频格式例如可以为mp3、wma、wav等。具体的，当终端设备一侧的发言者开始发言时，该终端设备通过声音采集装置采集语音信息。此外，还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号，去除无效的语音片段和噪音，确定每个有效语音片段的开始和结束端点，有利于提高后续语音与离线数据库匹配的准确度。获取到发言者的语音信息后，将该语音信息输入预先训练好的声纹识别模型，可以得到该语音信息的声纹特征。

其中，声纹识别模型的训练步骤包括：

从预设语音数据库(例如：NIST-SREs)中获取预设数量的语音信息，例如，获取2004年至2010年来自4400发言者的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音数据对x-vector模型的深度神经网络进行训练，训练出可以正确区分训练集中不同发言者声纹的网络参数，提高对训练集外的发言者的声纹特征进行有效识别的能力。其中，可用的深度神经网络模型包括但不限于以下几种模型：前馈DNN、CNN、LSTM、Transformer。

在本实施例中，深度神经网络模型以前馈DNN为例对本方案进行说明，包含语音梅尔倒频谱系数(MCFFs)特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层，一个统计池化层、两个嵌入表示层和最后一个SoftMax输出层。

输入层输入数据为处理后的MFCCs特征向量，MCFFs是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳察觉声音频率的非线性特性，它与频率的关系可以用以下公式表示：

其中，f表示语音频率。

提取MFCCs特征向量的基本操作流程包括：输入连续语音、预加重、分帧、加窗、对信号进行FFT变换、通过Mel滤波器组、对数运算、动态差分参数提取。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发声过程中声带和嘴唇效应，补偿语音信号受到发音***所抑制的高频部分，突出高频的共振峰。将n个采样点集合成一个观测单位，称一帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。将每一帧乘以汉明窗，以增加帧左端和右端的连续性。然后将每帧转换为频域上的能量分布来观察，提取不同的能量分布中语音特征。

本实施例中，采取n＝512，一帧的时间为25ms，滑动窗口的时间为3s，对每帧提取MFCCs的20维语音特征，并通过基于能量的VAD过滤掉非语音帧，每个滑动窗口读入包含120维的输入语音特征向量，输出维度为512维。

NIN隐藏层内由若干微网络模块构成，微网络模块的参数是共享的，减少了模型要训练的网络参数数量，隐层间以ReLU非线性激活函数相连。

本实施例中，在输入层将当前时刻t和其前后两个时刻的特征向量连续传入输入数据层，既包括{t-2,t-1,t,t+1,t+2}5个窗口内的数据，每一个窗口数据输入维度为120维输出为512维，{t-2,t,t+2}、{t-3，t，t+3}窗口数据粘在一起分别作为第一隐藏层和第二隐藏层的输入数据维度为1536，输出维度仍为512，第三第四NIN隐藏层的输入数据都是当前窗口{t}数据，输出维度分别为512和1500。

统计池化层接收最终帧级层的输出作为输入，累积输入段T＝30s时间内数据，并计算其平均值和标准偏差。统计数据是1500个维度向量，每个输入段计算一次。然后将这些统计数传递到两个额外的隐藏层，生成的嵌入维度分别为512和300，最后通过SoftMax输出层。训练完成后是不需要SoftMax输出层的，除了SoftMax输出层，总共包含420万个参数。

训练中利用多分类的交叉熵函数对模型进行训练，利用数据集中可变长的语音片段对发言者进行分类训练，假设有K个发言者，N个用于训练的语音片段样本，

表示在T时间段内语音片段是属于第K个发言者的概率，spkr_k表示第k个发言者，

表示T时间段内的语音片段，n表示N个语音片段中的某个语音片段，d_n，k表示二值函数，在该目标函数中取值为1，若第n个语音片段属于第k个发言者，那么分类的目标函数E为：

使用随机梯度下降(SGD)算法来执行该目标函数的优化，将minibatch大小设定为64，初始学习率设定为0.008。具体的，将上述样本集的64000份样本分成1000子集，每个子集有64个样本，循环遍历这1000个子集，针对每个子集做一次梯度下降更新参数，在遍历完所有的minibatch之后相当于在梯度下降中做了1000次迭代。

在声纹识别中，模型的误差很大的一部分来自于语音片段信道的差异,因此需要对语音片段进行信道补偿。本实施例中，当基于DNN的网络模型训练完成后，去除该模型的SoftMax层后，输出的嵌入向量为对应发言者语音的特征向量，然后将该模型接入PLDA模型后端，从而实现对语音片段的信道补偿。

判断模块120，用于基于所述发言者的实时语音特征，利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征，当所述声纹库存在所述发言者的预存语音特征时，从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签。

本实施例中，基于发言者的实时语音特征，利用预设判断规则判断发言者的语音特征是否存在于预先建立的声纹库中，当声纹库存在发言者的预存语音特征时，则提取出该发言者的语音特征及发言者对应的标签。其中，预先建立了的声纹库中可以包含本公司成员，特别是公司领导的会议报告和演讲的音频数据、标签和通过x-vector网络后生成的特征向量。在会议实录中将检测到的发言者的语音信息利用声纹识别模型生成特征向量，再与所述声纹库中的各声纹特征进行打分比较，判断检测到的语音信息是否存在于所述声纹库中。

进一步地，利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值，当第一相似度值大于或等于预设阈值时，从所述声纹库中读取确定所述发言者的预存语音特征及所述发言者对应的标签。

具体地，可以利用PLDA模型比较发言者的特征与声纹库中的语音特征的相似度，PLDA模型是包含四个变量的模型，第i个发言者的第j条语音可表示为：

X_ij＝μ+Fh_i+Gw_ij+ξ_ij,

其中，μ是训练数据均值，矩阵F表示发言者子空间，G表示场景子空间，矢量h_i和w_ij为对应的子空间因子，它们服从标准高斯分布，ξ_ij表示残差。上式中前两项只跟发言者有关而跟发言者具体的某一条语音无关，称为信号部分，描述了发言者之间的差异，后两项描述了同一发言者的不同场景之间的差异，为噪音部分。h_i可以看作是X_ij在发言者空间中的特征表示，在打分阶段如果两条语音的h_i特征的似然度越大，那么两条语音属于同一个发言者的概率越大，其中，可以用对数似然得分比来进行打分：

其中，H_s和H_d表示两个不同的语音空间，η₁，η₂表示不同的语音特征，p是两条语音来自同一特征空间的概率，两条语音的score值越大，相似度也越高，属于同一个人的可能性越大。

在一个实施例中，当所有第一相似度值小于预设阈值时，将所述发言者实的实时语音信息、标签及声纹特征存储至所述声纹库。

执行模块130，用于基于预先建立的每个麦克风与每个发言者标签的映射关系，得到所述发言者的实时语音特征对应的麦克风，实时检测多个麦克风是否发生串音现象，当所述多个麦克风中任意一个麦克风发生串音现象时，对发生串音的麦克风执行防串音处理操作。

本实施例中，通过会议实录中检测到语音与声纹库的比对可获得发言者的声纹特征和该声纹特征对应的标签，会议实录***中预先将麦克风和发言者标签间建立映射关系，基于映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。实时检测会议中的多个麦克风是否存在串音的情况，当检测到有麦克风串音时，只需要提取发言者的声纹特征即可确定发言者对应的麦克风，对其他发生串音的麦克风执行关闭、降低灵敏度等防串音处理操作。

发言者的声纹特征是唯一的，由于一个发言者标签可能与多个麦克风关联，当麦克风串音时，尤其是当麦克风中传入的音频流强度等特征相似时，无法通过发言者标签和麦克风间之间的映射关系确定发生串音的麦克风，因而不能进行自动防串音处理。

进一步地，基于预设的转换规则实时将发言者的实时语音信息转换成文本信息，基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量，当所述麦克风数量小于预设值时，不执行防串音处理操作。

会议实录***可以利用ASR技术将发言者的语音实时转化成文本信息，通过对语音转换后的文本信息来检测麦克风串音现象，首先根据检测转换后的文本对应的发言者标签确定响应的麦克风数量，当只有一个或没有麦克风响应时，不需要作防串音处理。

在一个实施例中，当所述麦克风数量大于预设值时，利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值，当第二相似度值均大于或等于第二预设阈值时，对发生串音的麦克风执行防串音处理操作，否则，不执行防串音处理操作。

当有两个或两个以上的麦克风响应时，判断输出的文本内容是否一致，若不一致，则说明两个或两个以上的发言人使用了麦克风，不属于串音现象，不需要作防串音处理；若输出的文本内容一致，说明麦克风发生了串音现象，需要进行防串音处理。其中，判断输出的文本内容是否一致可以包括：不同发言者标签对应的输出文本的Jaccard相似度值是否大于第二预设阈值0.9。串音处理中需要区分发言者使用的麦克风和发生串音的麦克风，这时可以检测发言者语音并提取x-vector处理后的特征向量，利用该特征向量确定与发言者匹配的麦克风，关掉不匹配麦克风。

参照图3所示，是本发明基于会议实录***的防串音方法较佳实施例的流程图。

步骤S10，实时获取发言者的语音信息，将该语音信息输入预先训练的声纹识别模型，得到该发言者的实时语音特征。

其中，声纹识别模型的训练步骤包括：

其中，f表示语音频率。

步骤S20，基于所述发言者的实时语音特征，利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征，当所述声纹库存在所述发言者的预存语音特征时，从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签。

X_ij＝μ+Fh_i+gw_ij+ξ_ij,

在一个实施例中，当所有第一相似度值小于预设阈值时，将所述发言者的实时语音信息、标签及声纹特征存储至所述声纹库。

步骤S30，基于预先建立的每个麦克风与每个发言者标签的映射关系，得到所述发言者的实时语音特征对应的麦克风，实时检测多个麦克风是否发生串音现象，当所述多个麦克风中任意一个麦克风发生串音现象时，对发生串音的麦克风执行防串音处理操作。

此外，本发明还提出一种计算机可读存储介质，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括基于会议实录***的防串音程序10，所述基于会议实录***的防串音程序10被处理器执行时实现如下操作：

本发明之计算机可读存储介质的具体实施方式与上述基于会议实录***的防串音方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于会议实录***的防串音方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的基于会议实录***的防串音方法，其特征在于，所述判断步骤包括：

3.如权利要求2所述的基于会议实录***的防串音方法，其特征在于，所述判断步骤还包括：

4.如权利要求1所述的基于会议实录***的防串音方法，其特征在于，所述执行步骤包括：

5.如权利要求4所述的基于会议实录***的防串音方法，其特征在于，所述执行步骤还包括：

6.一种电子装置，该电子装置包括存储器及处理器，其特征在于，所述存储器上存储基于会议实录***的防串音程序，所述基于会议实录***的防串音程序被所述处理器执行，实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述判断步骤包括：

8.如权利要求6所述的电子装置，其特征在于，所述执行步骤包括：

9.如权利要求8所述的电子装置，其特征在于，所述执行步骤还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于会议实录***的防串音程序，所述基于会议实录***的防串音程序被处理器执行时，可实现如权利要求1至5中任一项所述基于会议实录***的防串音方法的步骤。