CN111429919A - 基于会议实录***的防串音方法、电子装置及存储介质 - Google Patents
基于会议实录***的防串音方法、电子装置及存储介质 Download PDFInfo
- Publication number
- CN111429919A CN111429919A CN202010235796.4A CN202010235796A CN111429919A CN 111429919 A CN111429919 A CN 111429919A CN 202010235796 A CN202010235796 A CN 202010235796A CN 111429919 A CN111429919 A CN 111429919A
- Authority
- CN
- China
- Prior art keywords
- speaker
- crosstalk
- microphones
- voice
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002265 prevention Effects 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 34
- 238000012549 training Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及数据处理技术,提供了一种基于会议实录***的防串音方法、电子装置及存储介质。该方法通过实时获取发言者的语音信息,并将语音信息输入预先训练的声纹识别模型得到发言者的实时语音特征,判断预先建立的声纹库中是否存在发言者的预存语音特征,当存在时,从声纹库中读取发言者的语音特征及对应的标签,基于预先建立的每个麦克风与每个发言者标签的映射关系,得到发言者的语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。利用本发明,可以准确地检测出发生串音的麦克风,以对发生串音的麦克风执行防串音处理。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于会议实录***的防串音方法、电子装置及存储介质。
背景技术
在会议实录***的使用过程中,当麦克风之间距离过近或麦克风灵敏度过高时,声音会传入其他麦克风,造成麦克风串音,严重影响了会议实录的准确性。目前市面上的会议实录***无法自动检测和处理麦克风串音问题,主要原因是现有的会议实录***主要依赖麦克风的硬件区分会议发言人,当麦克风串音时,尤其是当麦克风中传入的音频流强度等特征相似时,无法确定是哪个麦克风发生串音,导致无法进行防串音处理。
发明内容
鉴于以上内容,本发明提供一种基于会议实录***的防串音方法、电子装置及存储介质,其目的在于解决现有技术中无法自动检测出发生串音的麦克风,导致不能进行防串音处理的问题。
为实现上述目的,本发明提供一种基于会议实录***的防串音方法,该方法包括:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
优选的,所述判断步骤包括:
利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中确定所述发言者的预存语音特征及所述发言者对应的标签。
优选的,所述判断步骤还包括:
当所有第一相似度值小于预设阈值时,将所述发言者的实时语音信息、标签及声纹特征存储至所述声纹库。
优选的,所述执行步骤包括:
基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
优选的,所述执行步骤还包括:
当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,所述存储器上存储基于会议实录***的防串音程序,所述基于会议实录***的防串音程序被所述处理器执行,实现如下步骤:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
优选的,所述判断步骤包括:
利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中确定所述发言者的预存语音特征及所述发言者对应的标签。
优选的,所述执行步骤包括:
基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
优选的,所述执行步骤还包括:
当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于会议实录***的防串音程序,所述基于会议实录***的防串音程序被处理器执行时,可实现如上所述基于会议实录***的防串音方法中的任意步骤。
本发明提出的基于会议实录***的防串音方法、电子装置及存储介质,通过实时获取发言者的语音信息,并输入声纹识别模型得到发言者的语音特征,判断声纹库中是否存在发言者的语音特征,当存在时读取发言者的语音特征及对应的标签,基于预先建立的映射关系得到发言者对应的麦克风,实时检测多个麦克风是否发生串音现象,当多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。相较于通过手动调整麦克风灵敏度或人工关闭麦克风的传统方式,本发明可实时准确地检测出发生串音的麦克风,并以对发生串音的麦克风执行防串音处理。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中基于会议实录***的防串音程序较佳实施例的模块示意图;
图3为本发明基于会议实录***的防串音方法较佳实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,为本发明电子装置1较佳实施例的示意图。
该电子装置1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子装置1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储设备,例如该电子装置1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子装置1的操作***和各类应用软件,例如基于会议实录***的防串音程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于会议实录***的防串音程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子装置1与其它电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及基于会议实录***的防串音程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于会议实录***的防串音程序10时可以实现如下步骤:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
关于上述步骤的详细介绍,请参照下述图2关于基于会议实录***的防串音程序10实施例的程序模块图以及图3关于基于会议实录***的防串音方法实施例的流程图的说明。
在其他实施例中,所述基于会议实录***的防串音程序10可以被分割为多个模块,该多个模块被存储于存储器12中,并由处理器13执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
参照图2所示,为图1中基于会议实录***的防串音程序10一实施例的程序模块图。在本实施例中,所述基于会议实录***的防串音程序10可以被分割为:获取模块110、判断模块120及执行模块130。
获取模块110,用于实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征。
在本实施例中,可以利用具有录音功能的终端设备(例如,话筒、麦克风)或者具有录像功能的录像设备(例如,数码摄像机)等的声音采集装置实时获取会议中发言者的实时语音信息。其中,该语音信息的音频格式例如可以为mp3、wma、wav等。具体的,当终端设备一侧的发言者开始发言时,该终端设备通过声音采集装置采集语音信息。此外,还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号,去除无效的语音片段和噪音,确定每个有效语音片段的开始和结束端点,有利于提高后续语音与离线数据库匹配的准确度。获取到发言者的语音信息后,将该语音信息输入预先训练好的声纹识别模型,可以得到该语音信息的声纹特征。
其中,声纹识别模型的训练步骤包括:
从预设语音数据库(例如:NIST-SREs)中获取预设数量的语音信息,例如,获取2004年至2010年来自4400发言者的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音数据对x-vector模型的深度神经网络进行训练,训练出可以正确区分训练集中不同发言者声纹的网络参数,提高对训练集外的发言者的声纹特征进行有效识别的能力。其中,可用的深度神经网络模型包括但不限于以下几种模型:前馈DNN、CNN、LSTM、Transformer。
在本实施例中,深度神经网络模型以前馈DNN为例对本方案进行说明,包含语音梅尔倒频谱系数(MCFFs)特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层,一个统计池化层、两个嵌入表示层和最后一个SoftMax输出层。
输入层输入数据为处理后的MFCCs特征向量,MCFFs是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳察觉声音频率的非线性特性,它与频率的关系可以用以下公式表示:
其中,f表示语音频率。
提取MFCCs特征向量的基本操作流程包括:输入连续语音、预加重、分帧、加窗、对信号进行FFT变换、通过Mel滤波器组、对数运算、动态差分参数提取。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发声过程中声带和嘴唇效应,补偿语音信号受到发音***所抑制的高频部分,突出高频的共振峰。将n个采样点集合成一个观测单位,称一帧。通常情况下N的值为256或512,涵盖的时间约为20-30ms左右。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。然后将每帧转换为频域上的能量分布来观察,提取不同的能量分布中语音特征。
本实施例中,采取n=512,一帧的时间为25ms,滑动窗口的时间为3s,对每帧提取MFCCs的20维语音特征,并通过基于能量的VAD过滤掉非语音帧,每个滑动窗口读入包含120维的输入语音特征向量,输出维度为512维。
NIN隐藏层内由若干微网络模块构成,微网络模块的参数是共享的,减少了模型要训练的网络参数数量,隐层间以ReLU非线性激活函数相连。
本实施例中,在输入层将当前时刻t和其前后两个时刻的特征向量连续传入输入数据层,既包括{t-2,t-1,t,t+1,t+2}5个窗口内的数据,每一个窗口数据输入维度为120维输出为512维,{t-2,t,t+2}、{t-3,t,t+3}窗口数据粘在一起分别作为第一隐藏层和第二隐藏层的输入数据维度为1536,输出维度仍为512,第三第四NIN隐藏层的输入数据都是当前窗口{t}数据,输出维度分别为512和1500。
统计池化层接收最终帧级层的输出作为输入,累积输入段T=30s时间内数据,并计算其平均值和标准偏差。统计数据是1500个维度向量,每个输入段计算一次。然后将这些统计数传递到两个额外的隐藏层,生成的嵌入维度分别为512和300,最后通过SoftMax输出层。训练完成后是不需要SoftMax输出层的,除了SoftMax输出层,总共包含420万个参数。
训练中利用多分类的交叉熵函数对模型进行训练,利用数据集中可变长的语音片段对发言者进行分类训练,假设有K个发言者,N个用于训练的语音片段样本,表示在T时间段内语音片段是属于第K个发言者的概率,spkrk表示第k个发言者,表示T时间段内的语音片段,n表示N个语音片段中的某个语音片段,dn,k表示二值函数,在该目标函数中取值为1,若第n个语音片段属于第k个发言者,那么分类的目标函数E为:
使用随机梯度下降(SGD)算法来执行该目标函数的优化,将minibatch大小设定为64,初始学习率设定为0.008。具体的,将上述样本集的64000份样本分成1000子集,每个子集有64个样本,循环遍历这1000个子集,针对每个子集做一次梯度下降更新参数,在遍历完所有的minibatch之后相当于在梯度下降中做了1000次迭代。
在声纹识别中,模型的误差很大的一部分来自于语音片段信道的差异,因此需要对语音片段进行信道补偿。本实施例中,当基于DNN的网络模型训练完成后,去除该模型的SoftMax层后,输出的嵌入向量为对应发言者语音的特征向量,然后将该模型接入PLDA模型后端,从而实现对语音片段的信道补偿。
判断模块120,用于基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签。
本实施例中,基于发言者的实时语音特征,利用预设判断规则判断发言者的语音特征是否存在于预先建立的声纹库中,当声纹库存在发言者的预存语音特征时,则提取出该发言者的语音特征及发言者对应的标签。其中,预先建立了的声纹库中可以包含本公司成员,特别是公司领导的会议报告和演讲的音频数据、标签和通过x-vector网络后生成的特征向量。在会议实录中将检测到的发言者的语音信息利用声纹识别模型生成特征向量,再与所述声纹库中的各声纹特征进行打分比较,判断检测到的语音信息是否存在于所述声纹库中。
进一步地,利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中读取确定所述发言者的预存语音特征及所述发言者对应的标签。
具体地,可以利用PLDA模型比较发言者的特征与声纹库中的语音特征的相似度,PLDA模型是包含四个变量的模型,第i个发言者的第j条语音可表示为:
Xij=μ+Fhi+Gwij+ξij,
其中,μ是训练数据均值,矩阵F表示发言者子空间,G表示场景子空间,矢量hi和wij为对应的子空间因子,它们服从标准高斯分布,ξij表示残差。上式中前两项只跟发言者有关而跟发言者具体的某一条语音无关,称为信号部分,描述了发言者之间的差异,后两项描述了同一发言者的不同场景之间的差异,为噪音部分。hi可以看作是Xij在发言者空间中的特征表示,在打分阶段如果两条语音的hi特征的似然度越大,那么两条语音属于同一个发言者的概率越大,其中,可以用对数似然得分比来进行打分:
其中,Hs和Hd表示两个不同的语音空间,η1,η2表示不同的语音特征,p是两条语音来自同一特征空间的概率,两条语音的score值越大,相似度也越高,属于同一个人的可能性越大。
在一个实施例中,当所有第一相似度值小于预设阈值时,将所述发言者实的实时语音信息、标签及声纹特征存储至所述声纹库。
执行模块130,用于基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
本实施例中,通过会议实录中检测到语音与声纹库的比对可获得发言者的声纹特征和该声纹特征对应的标签,会议实录***中预先将麦克风和发言者标签间建立映射关系,基于映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。实时检测会议中的多个麦克风是否存在串音的情况,当检测到有麦克风串音时,只需要提取发言者的声纹特征即可确定发言者对应的麦克风,对其他发生串音的麦克风执行关闭、降低灵敏度等防串音处理操作。
发言者的声纹特征是唯一的,由于一个发言者标签可能与多个麦克风关联,当麦克风串音时,尤其是当麦克风中传入的音频流强度等特征相似时,无法通过发言者标签和麦克风间之间的映射关系确定发生串音的麦克风,因而不能进行自动防串音处理。
进一步地,基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
会议实录***可以利用ASR技术将发言者的语音实时转化成文本信息,通过对语音转换后的文本信息来检测麦克风串音现象,首先根据检测转换后的文本对应的发言者标签确定响应的麦克风数量,当只有一个或没有麦克风响应时,不需要作防串音处理。
在一个实施例中,当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
当有两个或两个以上的麦克风响应时,判断输出的文本内容是否一致,若不一致,则说明两个或两个以上的发言人使用了麦克风,不属于串音现象,不需要作防串音处理;若输出的文本内容一致,说明麦克风发生了串音现象,需要进行防串音处理。其中,判断输出的文本内容是否一致可以包括:不同发言者标签对应的输出文本的Jaccard相似度值是否大于第二预设阈值0.9。串音处理中需要区分发言者使用的麦克风和发生串音的麦克风,这时可以检测发言者语音并提取x-vector处理后的特征向量,利用该特征向量确定与发言者匹配的麦克风,关掉不匹配麦克风。
参照图3所示,是本发明基于会议实录***的防串音方法较佳实施例的流程图。
步骤S10,实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征。
在本实施例中,可以利用具有录音功能的终端设备(例如,话筒、麦克风)或者具有录像功能的录像设备(例如,数码摄像机)等的声音采集装置实时获取会议中发言者的实时语音信息。其中,该语音信息的音频格式例如可以为mp3、wma、wav等。具体的,当终端设备一侧的发言者开始发言时,该终端设备通过声音采集装置采集语音信息。此外,还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号,去除无效的语音片段和噪音,确定每个有效语音片段的开始和结束端点,有利于提高后续语音与离线数据库匹配的准确度。获取到发言者的语音信息后,将该语音信息输入预先训练好的声纹识别模型,可以得到该语音信息的声纹特征。
其中,声纹识别模型的训练步骤包括:
从预设语音数据库(例如:NIST-SREs)中获取预设数量的语音信息,例如,获取2004年至2010年来自4400发言者的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音数据对x-vector模型的深度神经网络进行训练,训练出可以正确区分训练集中不同发言者声纹的网络参数,提高对训练集外的发言者的声纹特征进行有效识别的能力。其中,可用的深度神经网络模型包括但不限于以下几种模型:前馈DNN、CNN、LSTM、Transformer。
在本实施例中,深度神经网络模型以前馈DNN为例对本方案进行说明,包含语音梅尔倒频谱系数(MCFFs)特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层,一个统计池化层、两个嵌入表示层和最后一个SoftMax输出层。
输入层输入数据为处理后的MFCCs特征向量,MCFFs是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳察觉声音频率的非线性特性,它与频率的关系可以用以下公式表示:
其中,f表示语音频率。
提取MFCCs特征向量的基本操作流程包括:输入连续语音、预加重、分帧、加窗、对信号进行FFT变换、通过Mel滤波器组、对数运算、动态差分参数提取。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发声过程中声带和嘴唇效应,补偿语音信号受到发音***所抑制的高频部分,突出高频的共振峰。将n个采样点集合成一个观测单位,称一帧。通常情况下N的值为256或512,涵盖的时间约为20-30ms左右。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。然后将每帧转换为频域上的能量分布来观察,提取不同的能量分布中语音特征。
本实施例中,采取n=512,一帧的时间为25ms,滑动窗口的时间为3s,对每帧提取MFCCs的20维语音特征,并通过基于能量的VAD过滤掉非语音帧,每个滑动窗口读入包含120维的输入语音特征向量,输出维度为512维。
NIN隐藏层内由若干微网络模块构成,微网络模块的参数是共享的,减少了模型要训练的网络参数数量,隐层间以ReLU非线性激活函数相连。
本实施例中,在输入层将当前时刻t和其前后两个时刻的特征向量连续传入输入数据层,既包括{t-2,t-1,t,t+1,t+2}5个窗口内的数据,每一个窗口数据输入维度为120维输出为512维,{t-2,t,t+2}、{t-3,t,t+3}窗口数据粘在一起分别作为第一隐藏层和第二隐藏层的输入数据维度为1536,输出维度仍为512,第三第四NIN隐藏层的输入数据都是当前窗口{t}数据,输出维度分别为512和1500。
统计池化层接收最终帧级层的输出作为输入,累积输入段T=30s时间内数据,并计算其平均值和标准偏差。统计数据是1500个维度向量,每个输入段计算一次。然后将这些统计数传递到两个额外的隐藏层,生成的嵌入维度分别为512和300,最后通过SoftMax输出层。训练完成后是不需要SoftMax输出层的,除了SoftMax输出层,总共包含420万个参数。
训练中利用多分类的交叉熵函数对模型进行训练,利用数据集中可变长的语音片段对发言者进行分类训练,假设有K个发言者,N个用于训练的语音片段样本,表示在T时间段内语音片段是属于第K个发言者的概率,spkrk表示第k个发言者,表示T时间段内的语音片段,n表示N个语音片段中的某个语音片段,dn,k表示二值函数,在该目标函数中取值为1,若第n个语音片段属于第k个发言者,那么分类的目标函数E为:
使用随机梯度下降(SGD)算法来执行该目标函数的优化,将minibatch大小设定为64,初始学习率设定为0.008。具体的,将上述样本集的64000份样本分成1000子集,每个子集有64个样本,循环遍历这1000个子集,针对每个子集做一次梯度下降更新参数,在遍历完所有的minibatch之后相当于在梯度下降中做了1000次迭代。
在声纹识别中,模型的误差很大的一部分来自于语音片段信道的差异,因此需要对语音片段进行信道补偿。本实施例中,当基于DNN的网络模型训练完成后,去除该模型的SoftMax层后,输出的嵌入向量为对应发言者语音的特征向量,然后将该模型接入PLDA模型后端,从而实现对语音片段的信道补偿。
步骤S20,基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签。
本实施例中,基于发言者的实时语音特征,利用预设判断规则判断发言者的语音特征是否存在于预先建立的声纹库中,当声纹库存在发言者的预存语音特征时,则提取出该发言者的语音特征及发言者对应的标签。其中,预先建立了的声纹库中可以包含本公司成员,特别是公司领导的会议报告和演讲的音频数据、标签和通过x-vector网络后生成的特征向量。在会议实录中将检测到的发言者的语音信息利用声纹识别模型生成特征向量,再与所述声纹库中的各声纹特征进行打分比较,判断检测到的语音信息是否存在于所述声纹库中。
进一步地,利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中读取确定所述发言者的预存语音特征及所述发言者对应的标签。
具体地,可以利用PLDA模型比较发言者的特征与声纹库中的语音特征的相似度,PLDA模型是包含四个变量的模型,第i个发言者的第j条语音可表示为:
Xij=μ+Fhi+gwij+ξij,
其中,μ是训练数据均值,矩阵F表示发言者子空间,G表示场景子空间,矢量hi和wij为对应的子空间因子,它们服从标准高斯分布,ξij表示残差。上式中前两项只跟发言者有关而跟发言者具体的某一条语音无关,称为信号部分,描述了发言者之间的差异,后两项描述了同一发言者的不同场景之间的差异,为噪音部分。hi可以看作是Xij在发言者空间中的特征表示,在打分阶段如果两条语音的hi特征的似然度越大,那么两条语音属于同一个发言者的概率越大,其中,可以用对数似然得分比来进行打分:
其中,Hs和Hd表示两个不同的语音空间,η1,η2表示不同的语音特征,p是两条语音来自同一特征空间的概率,两条语音的score值越大,相似度也越高,属于同一个人的可能性越大。
在一个实施例中,当所有第一相似度值小于预设阈值时,将所述发言者的实时语音信息、标签及声纹特征存储至所述声纹库。
步骤S30,基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
本实施例中,通过会议实录中检测到语音与声纹库的比对可获得发言者的声纹特征和该声纹特征对应的标签,会议实录***中预先将麦克风和发言者标签间建立映射关系,基于映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。实时检测会议中的多个麦克风是否存在串音的情况,当检测到有麦克风串音时,只需要提取发言者的声纹特征即可确定发言者对应的麦克风,对其他发生串音的麦克风执行关闭、降低灵敏度等防串音处理操作。
发言者的声纹特征是唯一的,由于一个发言者标签可能与多个麦克风关联,当麦克风串音时,尤其是当麦克风中传入的音频流强度等特征相似时,无法通过发言者标签和麦克风间之间的映射关系确定发生串音的麦克风,因而不能进行自动防串音处理。
进一步地,基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
会议实录***可以利用ASR技术将发言者的语音实时转化成文本信息,通过对语音转换后的文本信息来检测麦克风串音现象,首先根据检测转换后的文本对应的发言者标签确定响应的麦克风数量,当只有一个或没有麦克风响应时,不需要作防串音处理。
在一个实施例中,当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
当有两个或两个以上的麦克风响应时,判断输出的文本内容是否一致,若不一致,则说明两个或两个以上的发言人使用了麦克风,不属于串音现象,不需要作防串音处理;若输出的文本内容一致,说明麦克风发生了串音现象,需要进行防串音处理。其中,判断输出的文本内容是否一致可以包括:不同发言者标签对应的输出文本的Jaccard相似度值是否大于第二预设阈值0.9。串音处理中需要区分发言者使用的麦克风和发生串音的麦克风,这时可以检测发言者语音并提取x-vector处理后的特征向量,利用该特征向量确定与发言者匹配的麦克风,关掉不匹配麦克风。
此外,本发明还提出一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括基于会议实录***的防串音程序10,所述基于会议实录***的防串音程序10被处理器执行时实现如下操作:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
本发明之计算机可读存储介质的具体实施方式与上述基于会议实录***的防串音方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于会议实录***的防串音方法,应用于电子装置,其特征在于,所述方法包括:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
2.如权利要求1所述的基于会议实录***的防串音方法,其特征在于,所述判断步骤包括:
利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中确定所述发言者的预存语音特征及所述发言者对应的标签。
3.如权利要求2所述的基于会议实录***的防串音方法,其特征在于,所述判断步骤还包括:
当所有第一相似度值小于预设阈值时,将所述发言者的实时语音信息、标签及声纹特征存储至所述声纹库。
4.如权利要求1所述的基于会议实录***的防串音方法,其特征在于,所述执行步骤包括:
基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
5.如权利要求4所述的基于会议实录***的防串音方法,其特征在于,所述执行步骤还包括:
当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
6.一种电子装置,该电子装置包括存储器及处理器,其特征在于,所述存储器上存储基于会议实录***的防串音程序,所述基于会议实录***的防串音程序被所述处理器执行,实现如下步骤:
获取步骤:实时获取发言者的语音信息,将该语音信息输入预先训练的声纹识别模型,得到该发言者的实时语音特征;
判断步骤:基于所述发言者的实时语音特征,利用预设判断规则判断预先建立的声纹库中是否存在所述发言者的预存语音特征,当所述声纹库存在所述发言者的预存语音特征时,从所述声纹库中读取所述发言者的预存语音特征及所述发言者对应的标签;及
执行步骤:基于预先建立的每个麦克风与每个发言者标签的映射关系,得到所述发言者的实时语音特征对应的麦克风,实时检测多个麦克风是否发生串音现象,当所述多个麦克风中任意一个麦克风发生串音现象时,对发生串音的麦克风执行防串音处理操作。
7.如权利要求6所述的电子装置,其特征在于,所述判断步骤包括:
利用第一预设计算规则分别计算所述发言者的实时语音特征与所述声纹库中各预存语音特征的第一相似度值,当第一相似度值大于或等于预设阈值时,从所述声纹库中确定所述发言者的预存语音特征及所述发言者对应的标签。
8.如权利要求6所述的电子装置,其特征在于,所述执行步骤包括:
基于预设的转换规则实时将发言者的实时语音信息转换成文本信息,基于转换后的文本信息对应的发言者的标签确定响应中的麦克风数量,当所述麦克风数量小于预设值时,不执行防串音处理操作。
9.如权利要求8所述的电子装置,其特征在于,所述执行步骤还包括:
当所述麦克风数量大于预设值时,利用第二预设计算规则分别计算各麦克风对应的文本信息之间的第二相似度值,当第二相似度值均大于或等于第二预设阈值时,对发生串音的麦克风执行防串音处理操作,否则,不执行防串音处理操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于会议实录***的防串音程序,所述基于会议实录***的防串音程序被处理器执行时,可实现如权利要求1至5中任一项所述基于会议实录***的防串音方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235796.4A CN111429919B (zh) | 2020-03-30 | 2020-03-30 | 基于会议实录***的防串音方法、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235796.4A CN111429919B (zh) | 2020-03-30 | 2020-03-30 | 基于会议实录***的防串音方法、电子装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429919A true CN111429919A (zh) | 2020-07-17 |
CN111429919B CN111429919B (zh) | 2023-05-02 |
Family
ID=71551659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010235796.4A Active CN111429919B (zh) | 2020-03-30 | 2020-03-30 | 基于会议实录***的防串音方法、电子装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429919B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113345466A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、***、设备及存储介质 |
CN110675889A (zh) * | 2018-07-03 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、客户端和电子设备 |
CN110718238A (zh) * | 2018-07-12 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 串音数据检测方法、客户端和电子设备 |
-
2020
- 2020-03-30 CN CN202010235796.4A patent/CN111429919B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675889A (zh) * | 2018-07-03 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、客户端和电子设备 |
CN110718238A (zh) * | 2018-07-12 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 串音数据检测方法、客户端和电子设备 |
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、***、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
XIN ZHENG: "INVESTIGATION OF TANDEM DEEP BELIEF NETWORK APPROACH FOR PHONEME RECOGNITION" * |
周爱农 等: "会议***技术的现状与发展浅见" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113345466A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
CN113345466B (zh) * | 2021-06-01 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111429919B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
US9875739B2 (en) | Speaker separation in diarization | |
Mantena et al. | Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
Das et al. | Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers | |
US20120316879A1 (en) | System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Lukose et al. | Music player based on emotion recognition of voice signals | |
CN108091340B (zh) | 声纹识别方法、声纹识别***和计算机可读存储介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
CN111429919B (zh) | 基于会议实录***的防串音方法、电子装置及存储介质 | |
Lei et al. | Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
GB2576960A (en) | Speaker recognition | |
Raghib et al. | Emotion analysis and speech signal processing | |
CN114582373A (zh) | 用于在人机对话中识别用户情绪的方法及装置 | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
Islam et al. | A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |