CN110648678B - 一种用于具有多麦克风会议的场景识别方法和*** - Google Patents
一种用于具有多麦克风会议的场景识别方法和*** Download PDFInfo
- Publication number
- CN110648678B CN110648678B CN201910893667.1A CN201910893667A CN110648678B CN 110648678 B CN110648678 B CN 110648678B CN 201910893667 A CN201910893667 A CN 201910893667A CN 110648678 B CN110648678 B CN 110648678B
- Authority
- CN
- China
- Prior art keywords
- microphone
- voice
- energy
- frequency
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000004044 response Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 20
- 238000009499 grossing Methods 0.000 claims description 19
- 238000009432 framing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000013707 sensory perception of sound Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100029055 Exostosin-1 Human genes 0.000 description 1
- 102100029074 Exostosin-2 Human genes 0.000 description 1
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 description 1
- 101000918311 Homo sapiens Exostosin-1 Proteins 0.000 description 1
- 101000918275 Homo sapiens Exostosin-2 Proteins 0.000 description 1
- 102100024061 Integrator complex subunit 1 Human genes 0.000 description 1
- 101710092857 Integrator complex subunit 1 Proteins 0.000 description 1
- 108050002021 Integrator complex subunit 2 Proteins 0.000 description 1
- 101710092886 Integrator complex subunit 3 Proteins 0.000 description 1
- 102100025254 Neurogenic locus notch homolog protein 4 Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G10L21/0202—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种用于具有多麦克风会议的场景识别方法和***。其中,包括响应于检测到多个麦克风通道的语音信号,按帧对齐储存;基于对齐后的语音信号,计算多个麦克风通道语音信号每一帧的语音能量;基于语音能量跟踪和场景识别,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道切换。该方案有助于在单人说话的场景或多人同时说话的场景下综合语音能量,混响程度,噪声等情况下选择音质最好的麦克风语音信号输出通道。
Description
技术领域
本申请涉及声音处理领域,具体涉及一种用于具有多麦克风会议的场景识别方法和***。
背景技术
近年来,随着VOIP技术的进步和发展,视频会议的需求越来越多,视频会议可以实现多个用户同时进行语音通信,在通信领域中具有广泛的应用前景。随着智能语音的兴起,麦克风阵列拾音技术也逐步成为了当前热门的技术之一。
现有技术中经常使用麦克风阵列,来解决远距离语音识别率下降的问题,采用一定的波束形成和自适应滤波方法来消除噪声。在现实会议中可能有多个内置麦克风进行级联,而每个内置麦克风级联若干扩展麦克风,一般内置为指向麦,扩展麦可能为指向麦或全向麦。一般会议***的拾音麦克风可以分为全向麦克风与指向麦克风(或定向麦),全向麦克风的声音拾取范围大,但混响严重,音质不佳,指向麦克风音质好,但声音拾取范围窄。当会议同时存在全向麦克风与指向麦克风,且两者灵敏度相差不大时,相同距离下,指向麦克风的音质会更好,但此时全向麦克风拾取到语音能量可能更大,特别是在混响大的会议室里,如果直接通过语音能量来选择麦克风输出通道,则很可能选择全向麦克风。由于不同类型麦克风的特性的差异、麦克风摆放位置的偏差以及目标语音方向不准确等问题导致麦克风拾音效果较差,同时选择最佳麦克风输出通道成为亟需解决的问题。
发明内容
本申请的目的在于提出了一种用于具有多麦克风会议的场景识别方法和***,来解决在多个麦克风拾音的环境下,选择优质音质的麦克风语音输出通道的技术问题。
第一方面,本申请实施例提供了一种用于具有多麦克风会议的场景识别方法,该方法包括:
S1:响应于检测到多个麦克风通道的语音信号,按帧对齐储存。
S2:基于对齐后的语音信号,计算多个麦克风通道语音信号每一帧的语音能量。
S3:基于语音能量跟踪和场景识别,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道切换。
在该方法中,根据语音检测和语音能量跟踪初步判断是否为静音场景,或者有人说话场景,根据执行以下具体的MFCC特征和欧式距离等步骤识别为单人说话的场景和多人同时说话的场景,再进行后续混音输出或者选择混响最小的麦克风语音信号作为输出通道
在一些具体实施例中,该方法还包括:在步骤S1之前还包括,采用AEC算法和VAD算法,消除远端语音信号,输出语音信号的强度大于或等于第一门限值的各麦克风语音信号。采用声学回声消除算法(Acoustic Echo Cancellation,AEC)有效地排除远端回声,即检测到静音场景时,麦克风近端没有人讲话,远端有人讲话的情况。采用语音激活检测算法(Voice Activity Detection,VAD)计算对数值,输入语音信号的对数值大于或等于第一门限值的各麦克风语音信号作为进行S1步骤中多个麦克风通道的语音信号,有利于排除噪音和杂音信号,提高选择优质音质麦克风语音输出通道概率。
在一些具体实施例中,第一门限值可设置为[-70dB,-50dB]。
在一些具体实施例中,该方法还包括:步骤S3中场景识别包括以下步骤:
响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧、预加重和加窗。
基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率。
计算梅尔滤波器输出的多个麦克风的语音信号的对数能量,经DCT变换得到MFCC系数,基于MFCC系数进行差分运算进而计算出多个麦克风的欧式距离。
响应于对数能量最大的两个麦克风通道的欧式距离大于或等于或等于第一阈值,识别为多人同时说话的场景,将对数能量最大的两个麦克风通道的语音信号混音后输出。
在该方法中,MFCC的分析基于人耳的听觉机理,人对音调的感知度为线性关系,Mel频率表达了一种常用的从语音频率到“感知频率”的对应关系,如果两个麦克风通道的MFCC值差异较大,则说明时多个人同时说话。欧式距离具体理解为计算两个点的实际距离。将欧式距离与对数能量最大的两个麦克风的MFCC值计算相结合,计算MFCC值差异最大的两个麦克风的实际距离,有效实现区分为多人同时说话的场景和单人说话的场景,相较于现有场景识别方法有较好的鲁棒性。
在一些具体实施例中,该方法还包括:对数能量最大的两个麦克风通道的将欧式距离小于第一阈值的情况识别为单人说话的场景,并执行以下步骤:
响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧和加窗。
基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,计算各个麦克风通道的当前帧的高频语音能量平均值。
计算各个麦克风通道的高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
在该方法中,对于同一会议室内不同麦克风拾取到声音混响程度不一样。在单人说话的场景下,当语音能量相差不大的情况下,高频语音能量占比多的麦克风一般为正对的麦克风,因为语音信号主要集中在高频,混响主要集中在中低频。不同频率的声音信号,由于波长的不同,饶过障碍物的能力也不尽相同,高频信号波长较短,不容易绕过障碍物,频率衰减快,低频信号波长较长,容易绕过障碍物,频率衰减慢。此外,高低频信号在空气中传播时,被墙壁等障碍物吸收的程度越大,越容易衰弱,低频信号则反之。鉴于以上不同频率声音信号的混响时间和混响程度的不同,本实施例中采用各麦克风通道的高频语音能量平均值和当前麦克风通道的高频语音能量平均值的比值是否大于或等于第二阈值,输出较高的高频语音能量平均值的麦克风通道,避免由于根据语音能量大小的单一性选择而选择一路混响大音质不佳的麦克风输出通道。
在一些具体实施例中,该方法还包括:步骤S2中的语音能量为计算对齐后各麦克风语音信号每一帧的均方根值,均方根值的计算公式如下:
其中,第i个麦克风的语音数据表示为:xi1,xi2,...,xiL,L为语音帧长。语音能量计算利用均方根值可以更直观有效地反映语音能量的大小,便于后续步骤中的利用语音能量进行长时语音能量跟踪和短时语音能量跟踪。
在一些具体实施例中,该方法还包括:能量跟踪包括短时跟踪和长时跟踪,基于短时跟踪实现静音状态切换语音状态,基于长时跟踪实现长期静音状态或语音状态下切换各麦克风语音信号输出通道。当麦克风通道从静音状态切换语音状态时,采用记录时间间隔较短的短时跟踪(比如间隔时间为200ms),避免出现切换不及时的情况;当麦克风长期处于语音状态或静音状态,采用记录时间间隔较长的长时跟踪(比如间隔时间为2s),避免***频繁运行,节省成本。
在一些具体实施例中,该方法还包括:平滑处理采用正弦曲线,具体计算公式如下公式所示:
smooth2(i)=1-smooth(i),i=0,1,...,L-1
其中,其中i表示第i个麦克风通道,当前麦克风语音信号为x1,当前语音能量最大为x2,则平滑处理后的麦克风语音信号x为:
x(i)=smo0th1(i)*x1(i)+smooth2(i)*x2(i),i=0,1,...,L-1。采用平滑处理方式实现各麦克风语音信号输出通道的切换,避免麦克风语音信号变化过大导致在切换过程中出现的设备内部的噪音。
在一些具体实施例中,该方法还包括:加窗的处理方式采用每一帧乘以汉明窗,加窗过程的公式如下:
S′(n)=S(n)×W(n)
其中,S(n)表示多个麦克风语音信号,W(n)表示汉明窗,W(n,a)表示加窗后的语音信号,N为帧长大小,a为汉明窗系数。
在一些具体实施例中,该方法还包括:FFT的计算公式如下:
在一些具体实施例中,该方法还包括:高频语音能量的频率选自[4kHz,8kHz]的范围,高频语音能量平均值是通过计算当前帧与历史若干帧的高频语音能量值的平均值来获得。
另一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例的方法。
第三方面,本申请实施例提供了一种用于具有多麦克风会议的场景识别***,该***包括:
语音检测单元:配置用于响应于检测来自多个麦克风通道的语音信号,按帧对齐储存。
能量计算单元:配置用于基于对齐后的多个麦克风通道语音信号,计算多个麦克风每一帧的语音能量。
场景识别单元:配置用于响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧、预加重和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率;计算梅尔滤波器输出的多个麦克风的语音信号的对数能量,经DCT得到MFCC系数,基于MFCC系数进行差分运算进而计算出多个麦克风的MFCC系数的欧式距离;在对数能量最大的两个麦克风通道的欧式距离大于或等于或等于第一阈值的情况下,确定场景为多人同时说话的场景,否则确定为单人说话的场景。
选择混响最小处理单元:配置用于在单人说话的场景下响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,计算各个麦克风通道的当前帧的高频语音能量平均值;计算各个麦克风通道的高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
本申请实施例提供的一种用于具有多麦克风会议的场景识别方法和***。其中,包括响应于检测到多个麦克风通道的语音信号,按帧对齐储存;基于对齐后的语音信号,计算多个麦克风通道语音信号每一帧的语音能量;基于语音能量跟踪和场景识别,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道切换。该方案有助于在单人说话的场景或多人同时说话的场景下综合语音能量,混响程度,噪声等选择音质最好的麦克风语音信号的输出通道。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1根据本申请实施例中的一种用于具有多麦克风会议的场景识别方步骤示意图;
图2是根据本申请实施例中的一种用于具有多麦克风会议的场景识别方法的流程图;
图3是根据本申请实施例的一种用于具有多麦克风会议的场景识别方法的语音平滑系数示意图;
图4是根据本申请实施例的一种用于具有多麦克风会议的场景识别方法的场景识别步骤示意图;
图5是根据本申请实施例的一种用于具有多麦克风会议的场景识别方法的选择混响最小的步骤流程示意图;
图6是根据本申请实施例的一种用于具有多麦克风会议的场景识别***的结构示意图;
图7是根据本申请实施例的各麦克风阵列的分布示意图;
图8是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例中的一种用于具有多麦克风会议的场景识别方法步骤示意图,如图1所示:
S1:响应于检测到多个麦克风通道的语音信号,按帧对齐储存。
在该步骤中检测采集来自各个麦克风输入通道的语音信号,各个麦克风可能是内置麦克风或扩展麦克风,麦克风距离声源的位置也各不相同,检测采集都各个麦克风输入通道的语音信号强度也不一样,在语音检测步骤,采集各个麦克风输入语音信号强度,按帧对齐存储,进行S2步骤的语音能量计算。
S2:基于对齐后的语音信号,计算多个麦克风通道语音信号每一帧的语音能量。
在该步骤中将所采集到来自的各麦克风输入语音信号按帧存储后进行对齐处理,并计算每个麦克风通道语音能量。利用均方根值可以比较直观的反映语音能量的大小,便于后续利用语音能量进行间断跟踪。
S3:基于语音能量跟踪和场景识别,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道切换。
在该步骤中采用梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)计算对数能量最大的两个麦克风通道的欧式距离,以识别到其中的单人说话的场景或多人同时说话的场景,当识别单人说话的场景执行高频能量对比处理方式输出混响较小的麦克风通道,当识别到多人同时说话的场景,执行混音处理方式输出混音后的麦克风通道。
在一些优选实施例中,采用声学回声消除算法(Acoustic Echo Cancellation,AEC)和语音激活检测算法(Voice Activity Detection,VAD),消除远端语音信号,输出语音信号的强度大于或等于第一门限值的各麦克风输入语音信号作为进行S1步骤的语音信号。在现实会议中可能有多个内置麦克风进行级联,而每个内置麦克风级联若干扩展麦克风,一般内置麦克风为指向麦克风,扩展麦克风可能为指向麦克风和全向麦克风中的一种。采用AEC算法和VAD算法可以有效排除远端回声和VAD算法中对数值低于第一门限的噪音干扰,提高选择优质音质麦克风语音输出通道的概率。
在一些具体实施例中,将麦克风语音信号按帧截断并储存,每一帧帧长为8ms或者10ms便于后续步骤的时延对齐和能量计算。
在一些具体实施例中,第一门限值可设置为[-70dB,-50dB]。
在一些优选实施例中,S2步骤的语音能量为计算对齐后的各麦克风语音信号每一帧的均方根值,均方根值的计算公式如下:
其中,对齐后的第i个麦克风的语音数据表示为:xi1,xi2,...,xiL,其中,L为语音帧长。
在一些优选实施例中,语音帧长包括至少10帧的麦克风语音信号,每一帧的语音帧长设置为10ms。会议***是一个实时***,每次传输的麦克风语音帧长8ms或者10ms,采用计算均方根值表示麦克风的语音能量,语音帧长不能过小,本优选方案中每一帧的帧长设置为10ms取连续10帧的语音信号进行平均取值,以便计算出来的均方根值数值大小适中,方便追踪。
继续参考图2,其示出了根据本申请实施例中的一种用于具有多麦克风会议的场景识别方法的流程图。该方法包括以下步骤:
步骤201:前增益处理。一般会议***的拾音麦克风可以分为全向麦克风与指向麦克风(或定向麦),全向麦克风的声音拾取范围大,但混响严重,音质不佳,指向麦克风音质好,但声音拾取范围窄。当会议同时存在全向麦克风与指向麦克风,且两者灵敏度相差不大时,相同距离下,指向麦克风的音质会更好,但此时全向麦克风拾取到语音能量可能更大,特别是在混响大的会议室里,如果直接通过语音能量大小来选择麦克风输出通道,则很可能切换到全向麦克风。因此在全向麦克风的回声处理模块加入前增益处理,在相同距离内同时存在全向麦克风和指向麦克风的情况下,降低全向麦克风的语音能量,即施加负增益,负增益值可通过当前回声返回损耗(Echo Return Loss,ERL)与目标ERL计算差值获取,目标ERL是指麦克风距离扬声器某个值的时候(比如1m),该麦克风与扬声器作为一个***,扬声器播放的声音能量与麦克风拾到的信号能量的比值,即回声信号衰减。当全向麦克风距离声源越近时,语音能量下降越多,从而降低选择全向麦克风的概率。
步骤202:语音检测。响应于检测各麦克风输入通道的信号强度,采用AEC算法消除远端语音信号和VAD算法判断各麦克风输入通道是否大于或等于设定第一门限,根据设定第一门限判定是否为语音状态。利用语音检测有利于排除噪音和杂音信号,提高选择优质音质麦克风语音输出通道概率。
步骤203:能量计算。计算对齐后各麦克风语音信号的语音能量,主要是对各个麦克风输入语音数据进行分帧对齐处理并计算各个麦克风每一帧信号的均方根值。利用均方根值可以直观的反映语音能量的大小,便于利用语音能量进行跟踪。
步骤204:能量跟踪。采用自适应处理和分析过程,间断跟踪各麦克风的语音输入能量。根据麦克风工作状态,选择长时跟踪或短时跟踪方式,执行步骤205的场景识别。
步骤205:场景识别。采用梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)计算对数能量最大的两个麦克风通道的欧式距离,以识别到其中的单人说话的场景和多人同时说话的场景,当识别单人说话的场景执行高频能量对比处理方式输出混响较小的麦克风通道,当识别到多人同时说话的场景,执行混音处理方式输出混音后的麦克风通道。
步骤206:麦克风选择。输出步骤205识别场景对应的麦克风语音通道。
步骤207:混音处理。当通过MFCC判断有多人同时说话的场景时,需要对两路对数能量最大的两个麦克风通道的语音信号进行混音。混音的方法有很多种,包括直接相加,加权平均,衰减相加,非均匀波形收缩(Asymmetrical Wave-Shrinking,AWS)等。
步骤208:平滑处理。在单人从一个麦克风走到另一个麦克风或两人分别对两个麦克风交叉说话的场景模式下,采用平滑处理实现各个麦克风通道的切换。避免在麦克风输出通道切换过程中出现噪音等情况。
在一些优选实施例中,该方法还包括:平滑处理采用正弦曲线,具体计算公式如下公式所示:
smooth2(i)=1-smooth(i),i=0,1,...,L-1
其中,其中i表示第i个麦克风通道,当前麦克风语音信号为x1,当前语音能量最大为x2,则平滑处理后的麦克风语音信号x为:
x(i)=smooth1(i)*x1(i)+smooth2(i)*x2(i),i=0,1,...,L-1。
在两个麦克风输出语音通道采集到的语音能量一路慢慢变小,一路慢慢变大,并且超过第二门限的时候要进行平滑处理,基于平滑处理实现各麦克风语音信号输出通道的切换,避免麦克风语音信号变化过大导致在切换过程中出现的设备内部的噪音。
在一些优选实施例中,第二门限设置为[3dB,6dB],可根据具体场景识别设置不同的第二门限值,比如当识别到双工场景可提高第二门限值为6dB。
如图3示出了根据本申请实施例的一种用于具有多麦克风会议的场景识别方法的语音平滑系数示意图。横坐标设置为平滑长度,纵坐标设置为平滑系数,smooth1为语音能量变小的麦克风语音输出信号,smooth2为语音能量变大的麦克风语音输出信号,smooth1的平滑系数的值从1逐渐降为0,smooth2的平滑系数的值从0升为1,完成两路麦克风语音输出通道的平滑切换。
在一些优选实施例中,能量跟踪包括短时跟踪和长时跟踪,基于短时跟踪实现静音状态切换语音状态,基于长时跟踪实现长期静音状态或语音状态切换麦克风通道。短时跟踪是对前T1时间比如200ms的语音能量进行跟踪,每次记录的时间间隔比较短,长时跟踪是对前T2时间比如2s的语音能量进行跟踪,每次记录的时间比较长。
需说明的是,当语音检测到麦克风输出通道为静音状态,比较各麦克风的噪声能量大小,噪音能量大的离噪声源比较近,能量小的离噪声源比较远,两者噪声能量差值大于或等于第二门限,输出噪声能量较小的麦克风通道。
另外,当检测到麦克风输出通道静音状态或长时输出状态,另一个麦克风输入语音能量出现较短时间较大的能量或噪音,且两者的能量大于或等于第二门限,保持当前麦克风语音输出通道。
继续参考图4,其示出了根据本申请实施例中的一种用于具有多麦克风会议的场景识别方法的场景识别步骤示意图。该方法包括以下步骤:
步骤401:连续语音。基于前增益处理、语音能量计算和语音能量跟踪,当检测到麦克风通道连续语音信号,执行以下402-411步骤。
步骤402:分帧。对各麦克风通道语音信号进行重新分帧。
步骤403:预加重。将分帧后的各麦克风通道语音信号进行预加重处理,具体计算公式如下所示:
H(Z)=1-μZ-1
其中,μ是预加系数。预加重的目的是为了提升语音信号高频的部分,使各麦克风通道语音信号的频谱变得平坦,同时消除语音发生过程中由于声源个体声带和嘴唇的带来的不良效应,突出语音信号高频共振峰,增加语音的高频分辨率。
步骤404:加窗。将各麦克风通道的每一帧语音信号乘以汉明窗,具体加窗的计算公式如下:
S′(n)=S(n)×W(n)
其中,S(n)表示多个麦克风语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数。加窗使得麦克风的语音信号有周期性,以减少语音信号在快速傅里叶变换中的语音能量泄露。
步骤405:快速傅里叶变换(Fast Fourier Transform,FFT)。对分帧加窗后的各帧信号进行FFT变换得到各麦克风语音信号每一帧的频谱,将语音信号的频谱取模平方得到语音信号的能量谱,傅里叶变换计算公式如下:
各麦克风语音信号在时域上的变换通常很难看出语音信号的特性,通过加窗后的每一帧语音信号必须再经过FFT得到在频谱上的语音能量分布,根据不同的语音能量分布,可以比较直观看出不同声源的语音特性,从而识别各麦克风的语音信号是否来自于同一个声源。
步骤406:梅尔三角滤波器(Mel滤波器组)。将能量谱通过一组Mel尺度的三角形滤波器组,定义有M个三角滤波器的滤波器组,各个三角滤波器的中心频率是相等间隔的线性分布,频率互相Mel域的公式如下所示:
其中,f表示频率,fmel表示Mel频率。
梅尔三角滤波器的频率响应定义公式如下:
步骤407:对数运算。计算每个滤波器组输出的对数能量,计算公式如下:
其中,En(m)表示对数能量,Hm(k)表示三角滤波器的频响,X(k)表示变换后的频谱因为人耳对声音的感知为非线性的呈对数关系,这也是类似人的听觉,不能在线性范围听到响度。
步骤408:离散余弦变换(Discrete Cosine Transform,DCT)。将语音信号进行DCT变换,得到MFCC系数计算公式如下:
其中,L表示MFCC系数的阶数,同时也是MFCC的维度,M表示三角滤波器的个数,En(m)表示对数能量。
步骤409:MFCC特征。对MFCC系数进行差分运算,可以得到一阶差分与二阶差分,此运算包含了当前语音信号的前一帧和后一帧的信息,计算公式如下:
其中,dt表示第t个一阶差分参数,Q表示倒谱系数的维数,K表示一阶导数的时间差,Ct表示第t个倒谱系数。由于不同人之间说话的差异,利用单一参数很很难达到可靠的性能要求,需要采集特征参数的组合使用来提供实际***的性能,当各组参数间相关性不大时,反映语音信号的不同特征效果更好。
步骤410:欧式距离。计算不同麦克风MFCC系数的欧式距离,计算公式如下:
其中,x,y为不同麦克风的MFCC系数,N为MFCC系数的个数。
步骤411:选麦克风输出通道。当对数能量最大的两个麦克风通道的欧式距离大于或等于或等于第一阈值情况,识别为多人同时说话的场景,将对数能量最大的两个麦克风通道的语音信号混音后输出。当对数能量最大的两个麦克风通道的欧式距离小于第一阈值情况,识别为单人说话的场景,执行高频能量对比处理方式输出混响较小的麦克风通道。
在该方法中,MFCC的分析基于人耳的听觉机理,人对音调的感知度为线性关系,Mel频率表达了一种常用的从语音频率到“感知频率”的对应关系,如果两个麦克风通道的MFCC值差异较大,则说明时多个人同时说话。欧式距离具体理解为计算两个点的实际距离。将欧式距离与对数能量最大的两个麦克风的MFCC值计算相结合,计算MFCC值差异最大的两个麦克风的实际距离,有效实现区分为多人同时说话的场景和单人说话的场景,相较于现有场景识别方法有较好的鲁棒性。
在具体优选实施例中,步骤402中对语音信号重新分帧,可设置为每帧的长度为8ms或10ms。
在具体优选实施例中,步骤403中μ值的取值范围为[0.9,1.0],在具体实施例中可优选0.97。
在具体优选实施例中,在步骤404中汉明窗a系数的取值范围为[0.1,1.0],在具体实施例中可选优0.46。
在具体优选实施例中,在步骤406中梅尔三角滤波器组的个数M取24,f的取值范围为[0,4000]。
在具体优选实施例中,在步骤408中MFCC系数,一般取12个在具体计算中参数只有实部,没有虚部,便于计算。
在具体优选实施例中,在步骤409中MFCC系数的阶数同时也是MFCC的维度可以取值13。
在具体优选实施例中,在步骤411中的第一阈值设置为[20-40]。
当识别到单人说话的场景,由于在混响大的会议室里,受麦克风灵敏度和会议室混响的影响,可能出现距离声源更远的麦克风,拾取的麦克风语音能量更大,如果直接采用语音能量跟踪选择语音能量最大的麦克风通道,则有可能选择距离声源更远但混响比例更大的麦克风通道。因此通过计算语音能量最大的两个麦克风的能量差绝对值,判断两个麦克风距离说话者的距离,可通过语音能量混响调制能量比(Speech-to-ReverberationModulation Energy Ratio,SRMR)和高频能量对比(High Frequency Energy Compare,HFEC)两种方法计算各个麦克风的混响比例,选择混响最小的麦克风输出通道。
语音能量混响调制能量比(Speech-to-Reverberation Modulation EnergyRatio,SRMR)是目前主流的方法,是一种非侵入式评测语音可懂度的方法,具体步骤如下:将语音信号通过23通道的Gammatone滤波器组和等效矩形带宽(Equivalent RectangularBandwidth,ERB);通过希尔伯特变换计算每个频带输出信号的瞬时包络;对瞬时包络信号进行加窗(汉明窗)与离散傅里叶变换(Discrete Fourier Transform,DFT);对DFT信号用8通道的听觉调制滤波器进行处理,得到8个频带的信号;计算SRMR,即前4个频带能量与后4个频带能量的比值;比较各个麦的SRMR与当前选择的麦克风的SRMR,大于或等于门限,则选择该麦克风输出通道,SRMR计算公式如下:
其中,bk表示第k个自带的能量。
本实施例中,采用高频能量对比(High Frequency Energy Compare,HFEC)选择混响最小的麦克风输出通道。计算方法包括对高频语音信号进行FFT信号变化后求和,计算得到平均值与当前麦克风输出通道进行比较,输出混响最小的麦克风语音信号。继续参考图5,其示出了根据本申请实施例的一种用于具有多麦克风会议的场景识别方法的选择混响最小的步骤流程示意图,该方法包括以下步骤:
步骤501:加窗。将各麦克风通道的每一帧语音信号乘以汉明窗,以减少语音信号FFT变换中的语音能量泄露,具体加窗的计算公式如下:
S′(n)=S(n)×W(n)
其中,S(n)表示多个麦克风语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数,W(n,a)为加窗后的语音信号。
步骤502:快速傅里叶变换(Fast Fourier Transform,FFT)。对分帧加窗后的各帧信号进行FFT变换得到各麦克风语音信号每一帧的频谱,将语音信号的频谱取模平方得到语音信号的能量谱,傅里叶变换计算公式如下:
各麦克风语音信号在时域上的变换通常很难看出语音信号的特性,通过加窗后的每一帧语音信号必须再经过FFT以得到在频谱上的语音能量分布,根据不同的能量分布,可以直观看出不同声源的语音特性,从而识别各麦克风的语音信号是否来自于同一个声源。
步骤503:高频能量计算。将预处理后的多个麦克风通道的语音信号进行步骤502中的FFT变换获取对应的频谱,计算各个麦克风通道的当前帧的高频语音能量平均值。根据计算高频语音能量的平均值,可以有效避免因但是语音噪音,或瞬间语音信号变大,而错选麦克风语音通道的场景。
步骤504:能量对比。计算各个麦克风通道的高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。根据计算后相应的比值和第二阈值大小的比较,确定新麦克风的输出通道,根据会议具体情况通过调整第二阈值设置参数,从而控制麦克风输出通道。
步骤505:选麦克风输出通道。输出步骤504计算的比值大于或等于第二阈值的麦克风通道。
在该方法中,本申请人根据多年的实践经验总结对于同一会议室内不同麦克风拾取到声音混响程度不一样。在单人说话的场景下,当语音能量相差不大的情况下,高频语音能量占比多的麦克风一般为正对的麦克风,因为语音信号主要集中在高频,混响主要集中在中低频。不同频率的声音信号,由于波长的不同,饶过障碍物的能力也不尽相同,高频信号波长较短,不容易绕过障碍物,频率衰减快,低频信号波长较长,容易绕过障碍物,频率衰减慢。此外,高低频信号在空气中传播时,被墙壁等障碍物吸收的程度越大,越容易衰弱,低频信号则反之。鉴于以上不同频率声音信号的混响时间和混响程度的不同,本实施例中采用各麦克风通道的高频语音能量平均值和当前麦克风通道的高频语音能量平均值的比值是否大于或等于第二阈值,输出较高的高频语音能量平均值的麦克风通道,避免由于根据语音能量大小的单一性选择而选择一路混响大音质不佳的麦克风输出通道。
在具体优选实施例中,步骤501中汉明窗系数a的取值范围为[0.1,1.0],在具体实施例中可选优0.46。
在具体优选实施例中,步骤503中的高频语音能量的频率选自[4Hz-8kHz]的范围,高频语音能量平均值是通过计算当前帧与历史若干帧的高频语音能量值的平均值来获得,在具体实施例中可优选前5帧到前20帧进行求和计算平均值。
在具体优选实施例中,步骤504中的第二阈值可以设置为[1,6]
此外,本申请还提出了一种用于具有多麦克风会议的场景识别***。其中如图6所示,包括:语音检测单元601、能量计算单元602、场景识别单元603和选择混响最小处理单元604。其中,当语音检测单元601检测到各个麦克风输入通道的语音信号,按帧存储通过能量计算单元602并结合场景识别单元603识别多人同时说话的场景或单人说话的场景,识别为多人同时说话的场景,将对数能量最大的两个麦克风通道的语音信号混音后输出。当对数能量最大的两个麦克风通道的欧式距离小于第一阈值的情况,识别为单人说话的场景,执行选择混响最小处理单元604输出混响较小的麦克风通道。
在具体的实施例中,语音检测单元601:配置用于响应于检测来自多个麦克风通道的语音信号,按帧对齐储存。
能量计算单元602:配置用于基于对齐后的多个麦克风通道语音信号,计算多个麦克风每一帧的语音能量。
场景识别单元603:配置用于响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧、预加重和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率;计算梅尔滤波器输出的多个麦克风的语音信号的对数能量,经DCT得到MFCC系数,基于MFCC系数进行差分运算进而计算出多个麦克风的MFCC系数的欧式距离;在对数能量最大的两个麦克风通道的欧式距离大于或等于第一阈值的情况下,确定场景为多人同时说话的场景,否则确定为单人说话的场景。
选择混响最小处理单元604:配置用于在单人说话的场景下响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,计算各个麦克风通道的当前帧的高频语音能量平均值;计算各个麦克风通道的高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
下面结合附图,详细说明本发明实施例的方法。
如图7所示,为本发明实施例中多个麦克风会议***拾音部分示意图,INT表示内置麦克风,EXT表示扩展麦克风,在现实会议中可能有若干内置麦克风如INT1、INT2、INT3进行级联,若干扩展麦克风如EXT1、EXT2进行级联,一般内置为指向麦,扩展麦可能为指向麦或全向麦,本实施例中,设置3个内置麦克风都是指向麦,设置2个扩展麦克风都是全向麦。
在一些具体优选实施例中,单人说话的场景模式可以包括以下几种:
当单人对一个麦克风开始说话,当前麦克风语音信号强度从无到有且大于或等于第一门限,结合语音检测和短时能量跟踪,快速输出语音能量最大的麦克风通道。
当单人对多个麦克风开始说话,各麦克风语音信号强度从无到有且大于或等于第一门限,且对数能量最大的两个麦克风通道的欧式距离小于第一阈值,快速切换到高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值大于或等于第二阈值的麦克风通道,即语音能量大且混响能量较小的麦克风输出通道。
当单人在两个麦克风中间,两路麦克风语音信号强度大于或等于第一门限,且两个麦克风通道的对数能量相差不大小于第二门限,,两个麦克风通道欧式距离小于第一阈值,快速切换到高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值大于或等于第二阈值的麦克风通道,即语音能量接近且混响能量较小的麦克风输出通道。
当单人从一个麦克风走到另一个麦克风,靠近声源的一路麦克风输入语音能量逐渐变小,远离声源的另一路麦克风输入语音能量逐渐变大,两个麦克风通道的的欧式距离小于第一阈值,当两路麦克风语音语音能量相差大于或等于第二门限,采用语音平滑处理技术切换到高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值大于或等于第二阈值的麦克风通道,即语音能量大且混响能量较小的麦克风输出通道。
当两人分别对两个麦克风交叉说话,一段时间其中一个麦克风采集到的语音能量比较大,接下来一段时间内另一个麦克风采集到的能量比较大,两个麦克风通道的的欧式距离小于第一阈值,当两路麦克风语音语音能量相差大于或等于第二门限,采用语音平滑处理技术切换到高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值大于或等于第二阈值的麦克风通道,即语音能量大且混响能量较小的麦克风输出通道。
在一些具体优选实施例中,多人同时说话的场景模式可以包括以下几种:
当两人或者两人以上对两个或者两个以上麦克风同时说话,两个或两个以上麦克风语音输入通道均采集到大于或等于第一门限值的语音信号且各麦克风通道的语音能量的差值小于第二门限,同时对数能量最大的两个麦克风通道的欧式距离大于或等于第一阈值,将对数能量最大的两个麦克风通道的语音信号混音后输出。
在一些具体优选实施例中,除了单人说话和多人同时说话的场景外的场景模式可以包括以下几种:
当语音检测单元检测到各麦克风通道的语音信号为静音状态(远端可能有人在说话,但本端没有人说话,VAD算法小于第一门限),保持当前麦克风语音输出通道。
当其中一个麦克风离噪声源比较近,在静音期间,比较各麦克风语音通道的的噪声能量大小,能量大的离噪声源比较近,能量小的离噪声源比较远,两者噪音能量大于或等于第一门限。采用语音检测和短时能量跟踪,选择噪音能量小的麦克风语音输出通道。
当瞬时噪声或者短时间的插话,在静音期间出现很短时间的噪声(能量较大)或者语音期间另外一个麦克风出现短时间较大能量语音或者噪声(能量较大)。采用语音检测和短时跟踪保持当前麦克风语音输出通道。
当语音检测双工场景时,提高第二门限值,保持当前麦克风语音输出通道或者切到双工效果最好的麦克风通道。
下面参考图8,其示出了适于用来实现本申请实施例的电子设备的计算机***800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有***800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也可以根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括语音检测单元、能量计算单元、场景识别单元和选择混响最小处理单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,语音检测单元还可以被描述为“响应于检测来自多个麦克风通道的语音信号,并将各麦克风语音信号按帧对齐储存的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:语音检测单元、能量计算单元、场景识别单元和选择混响最小处理单元。其中,语音检测单元:响应于检测来自多个麦克风通道的语音信号,按帧对齐储存;能量计算单元:基于对齐后的多个麦克风通道语音信号,计算多个麦克风每一帧的语音能量;场景识别单元:响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧、预加重和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率;计算梅尔滤波器输出的多个麦克风的语音信号的对数能量,经DCT得到MFCC系数,基于MFCC系数进行差分运算进而计算出多个麦克风的MFCC系数的欧式距离;在对数能量最大的两个麦克风通道的欧式距离大于或等于第一阈值的情况下,确定场景为多人同时说话的场景,否则确定为单人说话的场景;选择混响最小处理单元:在单人说话的场景下响应于检测到多个麦克风通道的语音信号,将语音信号进行预处理,其中预处理包括对语音信号分帧和加窗;基于预处理后的多个麦克风通道的语音信号进行FFT变换获取对应的频谱,计算各个麦克风通道的当前帧的高频语音能量平均值;计算各个麦克风通道的高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用于具有多麦克风会议的场景识别方法,其特征在于,所述方法包括:
S1:响应于检测到多个麦克风通道的语音信号,按帧对齐储存;
S2:基于对齐后的所述语音信号,计算多个麦克风通道语音信号每一帧的语音能量;
S3:基于所述语音能量跟踪,采用梅尔频率倒谱系数计算对数能量最大的两个麦克风通道的欧式距离,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道的切换。
2.根据权利要求1所述的一种用于具有多麦克风会议的场景识别方法,其特征在于,所述步骤S3还包括以下步骤:
响应于检测到多个麦克风通道的语音信号,将所述语音信号进行预处理,其中预处理包括对所述语音信号分帧、预加重和加窗;
基于预处理后的所述多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率;
计算所述梅尔滤波器输出的所述多个麦克风的语音信号的对数能量,经DCT变换得到MFCC系数,基于所述MFCC系数进行差分运算进而计算出多个麦克风的欧式距离;
响应于所述对数能量最大的两个麦克风通道的欧式距离大于或等于第一阈值,识别为多人同时说话的场景,将所述对数能量最大的两个麦克风通道的语音信号混音后输出。
3.根据权利要求2所述的一种用于具有多麦克风会议的场景识别方法,其特征在于,将所述欧式距离小于所述第一阈值的情况识别为单人说话的场景,并执行以下步骤:
计算所述各个麦克风通道的当前帧的高频语音能量平均值;
计算各个麦克风通道的所述高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将所述比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
7.根据权利要求3所述的一种用于具有多麦克风会议的场景识别方法,其特征在于,所述高频语音能量的频率选自[4kHz,8kHz]的范围,所述高频语音能量平均值是通过计算当前帧与历史若干帧的高频语音能量值的平均值来获得。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
10.一种用于具有多麦克风会议的场景识别***,其特征在于,所述***包括:
语音检测单元:配置用于响应于检测来自多个麦克风通道的语音信号,按帧对齐储存;
能量计算单元:配置用于基于对齐后的多个麦克风通道语音信号,计算多个麦克风每一帧的语音能量;
场景识别单元:配置用于响应于检测到多个麦克风通道的语音信号,将所述语音信号进行预处理,其中预处理包括对所述语音信号分帧、预加重和加窗;基于预处理后的所述多个麦克风通道的语音信号进行FFT变换获取对应的频谱,通过梅尔滤波器计算频带能量并转让为梅尔频率;计算所述梅尔滤波器输出的所述多个麦克风的语音信号的对数能量,经DCT变换得到MFCC系数,基于所述MFCC系数进行差分运算进而计算出多个麦克风的欧式距离;在所述对数能量最大的两个麦克风通道的欧式距离大于或等于第一阈值的情况下,确定场景为多人同时说话的场景,否则确定为单人说话的场景;
选择混响最小处理单元:配置用于在单人说话的场景下响应于检测到多个麦克风通道的语音信号,将所述语音信号进行预处理,其中预处理包括对所述语音信号分帧和加窗;基于预处理后的所述多个麦克风通道的语音信号进行FFT变换获取对应的频谱,计算所述各个麦克风通道的当前帧的高频语音能量平均值;计算各个麦克风通道的所述高频语音能量平均值与当前选择的麦克风输出通道的高频语音能量平均值的比值,将所述比值大于或等于第二阈值的麦克风通道选择作为新的麦克风输出通道。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893667.1A CN110648678B (zh) | 2019-09-20 | 2019-09-20 | 一种用于具有多麦克风会议的场景识别方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893667.1A CN110648678B (zh) | 2019-09-20 | 2019-09-20 | 一种用于具有多麦克风会议的场景识别方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110648678A CN110648678A (zh) | 2020-01-03 |
CN110648678B true CN110648678B (zh) | 2022-04-22 |
Family
ID=69010890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910893667.1A Active CN110648678B (zh) | 2019-09-20 | 2019-09-20 | 一种用于具有多麦克风会议的场景识别方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648678B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613247B (zh) * | 2020-04-14 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种基于麦克风阵列的前景语音检测方法及装置 |
CN111510662B (zh) * | 2020-04-27 | 2021-06-22 | 深圳米唐科技有限公司 | 基于音视频分析的网络通话麦克风状态提示方法及*** |
CN111640428B (zh) * | 2020-05-29 | 2023-10-20 | 阿波罗智联(北京)科技有限公司 | 一种语音识别方法、装置、设备和介质 |
CN112037825B (zh) * | 2020-08-10 | 2022-09-27 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
CN111970410B (zh) * | 2020-08-26 | 2021-11-19 | 展讯通信(上海)有限公司 | 回声消除方法及装置、存储介质、终端 |
CN112672265B (zh) * | 2020-10-13 | 2022-06-28 | 珠海市杰理科技股份有限公司 | 检测麦克风阵一致性的方法及***、计算机可读存储介质 |
CN112333339A (zh) * | 2020-11-03 | 2021-02-05 | 厦门亿联网络技术股份有限公司 | 一种回声消除的测试方法、***、计算机设备和存储介质 |
CN112669865B (zh) * | 2021-03-16 | 2021-06-08 | 浙江华创视讯科技有限公司 | 一种主麦克风的切换方法、装置、设备及可读存储介质 |
CN113345466B (zh) * | 2021-06-01 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
CN113708868B (zh) * | 2021-08-27 | 2023-06-27 | 国网安徽省电力有限公司池州供电公司 | 一种多拾音设备的调度***及其调度方法 |
CN115038014A (zh) * | 2022-06-02 | 2022-09-09 | 深圳市长丰影像器材有限公司 | 一种音频信号处理方法、装置、电子设备和存储介质 |
EP4303874A1 (en) * | 2022-07-07 | 2024-01-10 | Interprefy AG | Providing a measure of intelligibility of an audio signal |
CN115410593A (zh) * | 2022-08-01 | 2022-11-29 | 钉钉(中国)信息技术有限公司 | 音频信道的选择方法、装置、设备及存储介质 |
CN116489502B (zh) * | 2023-05-12 | 2023-10-31 | 深圳星河创意科技开发有限公司 | 基于ai摄像头拓展坞的远程会议方法与ai摄像头拓展坞 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1826019A (zh) * | 2005-02-24 | 2006-08-30 | 索尼株式会社 | 麦克风设备 |
EP2324476A1 (en) * | 2008-09-30 | 2011-05-25 | Apple Inc. | Multiple microphone switching and configuration |
CN105096956A (zh) * | 2015-08-05 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人的多声源判断方法及装置 |
EP3122066A1 (en) * | 2015-07-22 | 2017-01-25 | Harman International Industries, Incorporated | Audio enhancement via opportunistic use of microphones |
CN106952054A (zh) * | 2017-04-11 | 2017-07-14 | 西华大学 | 一种汽车4s店销售服务质量评价***及评价方法 |
CN107369460A (zh) * | 2017-07-31 | 2017-11-21 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 |
CN109887522A (zh) * | 2019-01-24 | 2019-06-14 | 深圳市微纳感知计算技术有限公司 | 一种麦克风阵列增益调节方法、装置及终端设备 |
CN110675887A (zh) * | 2019-09-12 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议***的多麦克风切换方法和*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012021574A2 (en) * | 2010-08-10 | 2012-02-16 | Blabbelon, Inc. | Highly scalable voice conferencing service |
US11848023B2 (en) * | 2019-06-10 | 2023-12-19 | Google Llc | Audio noise reduction |
-
2019
- 2019-09-20 CN CN201910893667.1A patent/CN110648678B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1826019A (zh) * | 2005-02-24 | 2006-08-30 | 索尼株式会社 | 麦克风设备 |
EP2324476A1 (en) * | 2008-09-30 | 2011-05-25 | Apple Inc. | Multiple microphone switching and configuration |
CN102165521A (zh) * | 2008-09-30 | 2011-08-24 | 苹果公司 | 多个麦克风切换和配置 |
EP3122066A1 (en) * | 2015-07-22 | 2017-01-25 | Harman International Industries, Incorporated | Audio enhancement via opportunistic use of microphones |
CN105096956A (zh) * | 2015-08-05 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人的多声源判断方法及装置 |
CN106952054A (zh) * | 2017-04-11 | 2017-07-14 | 西华大学 | 一种汽车4s店销售服务质量评价***及评价方法 |
CN107369460A (zh) * | 2017-07-31 | 2017-11-21 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 |
CN109887522A (zh) * | 2019-01-24 | 2019-06-14 | 深圳市微纳感知计算技术有限公司 | 一种麦克风阵列增益调节方法、装置及终端设备 |
CN110675887A (zh) * | 2019-09-12 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议***的多麦克风切换方法和*** |
Non-Patent Citations (2)
Title |
---|
"A vision-based microphone switch for speech intent detection";G. Iyengar;《Proceedings IEEE ICCV Workshop on Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time Systems》;20020807;全文 * |
"基于无线声传感器网络的语音增强研究";杨志智;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110648678A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648678B (zh) | 一种用于具有多麦克风会议的场景识别方法和*** | |
Cauchi et al. | Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech | |
Ma et al. | Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions | |
US8831936B2 (en) | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement | |
CN110675887B (zh) | 一种用于会议***的多麦克风切换方法和*** | |
US20110096915A1 (en) | Audio spatialization for conference calls with multiple and moving talkers | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
US20130163781A1 (en) | Breathing noise suppression for audio signals | |
EP3275208B1 (en) | Sub-band mixing of multiple microphones | |
CN108172231A (zh) | 一种基于卡尔曼滤波的去混响方法及*** | |
US12014722B2 (en) | System and method for data augmentation of feature-based voice data | |
EP3757993B1 (en) | Pre-processing for automatic speech recognition | |
CN112485761B (zh) | 一种基于双麦克风的声源定位方法 | |
EP3841569A1 (en) | System and method for acoustic speaker localization | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN110169082B (zh) | 用于组合音频信号输出的方法和装置、及计算机可读介质 | |
US11528571B1 (en) | Microphone occlusion detection | |
EP3847645A1 (en) | Determining a room response of a desired source in a reverberant environment | |
CN114464184A (zh) | 语音识别的方法、设备和存储介质 | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
Astapov et al. | Directional and Qualitative Feature Classification for Speaker Diarization with Dual Microphone Arrays. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |