CN110610718A - 一种提取期望声源语音信号的方法及装置 - Google Patents
一种提取期望声源语音信号的方法及装置 Download PDFInfo
- Publication number
- CN110610718A CN110610718A CN201810623577.6A CN201810623577A CN110610718A CN 110610718 A CN110610718 A CN 110610718A CN 201810623577 A CN201810623577 A CN 201810623577A CN 110610718 A CN110610718 A CN 110610718A
- Authority
- CN
- China
- Prior art keywords
- sound source
- voice
- position information
- signal
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000926 separation method Methods 0.000 claims abstract description 144
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000003860 storage Methods 0.000 claims description 25
- 238000009499 grossing Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及音频处理技术,特别涉及一种提取期望声源语音信号的方法及装置。用以在不提高硬件成本的前提下,保证语音识别率。该方法为:基于通过至少两个麦克风接收的对应语音信号的相关特征,获得期望声源的存在概率期望声源的位置信息,进而获得预设的目标分离系数,以及采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。这样,由于位置信息与目标分离***之间预设有稳定的对应关系,因此,基于位置信息能够形成稳定的指向,从而迅速获取到相应的目标分离系数,进而从混响环境中快速准确地提取出期望声源的语音信号,极大提升了干扰环境下的语音识别率,同时又不会增加硬件成本。
Description
技术领域
本发明涉及音频处理技术,特别涉及一种提取期望声源语音信号的方法及装置。
背景技术
现有技术下,在采集语音信号的过程中,为了提高数据准确性,通常采用双麦克风来提取期望声源发出的语音信号。
然而,在期望声源周边通常会存在其他干扰源;如,假设在会议场景下,作为期望声源的发言人在讲话的同时,参与会议的其他人员也会参与评论。此时,双麦克风均会同时采集到期望声源的语音信号,以及其他源的语音信号,那么,如何从双麦克风的接收信号中识别出期望声源的语音信号便成为了急需解决的问题。
目前,已经提出了一种解决方案,该解决方案如下:
首先,接收通过双麦克风获得第一语音信号和第二语音信号。
然后,分别提取出第一语音信号和第二语音信号的声学场景特征(如,方位角、能量等等)。
最后,基于获得的声学场景特征,分别对第一语音信号和第二语音信号进行独立分量分析(Independent Component Analysis,ICA),从混杂的信号中提取出独立的期望声源的语音信号,以及干扰源的语音信号。
最后,对分析结果进行滤波处理。
采用所述解决方案,由于需要执行ICA处理过程,其运算量非常庞大,从而导致功耗巨大,因此,需要采用高级的语音处理引擎才能进行匹配处理。
然而,高级的语音处理引擎的硬件成本非常高,不具有通用性,如果采用普通的语音处理引擎替代,很有可能无法支撑如此庞杂的处理过程,从而导致无法正确识别期望声源的语音信号,影响了语音识别率,进而降低了服务质量
发明内容
本发明实施例提供一种提取期望声源语音信号的方法及装置,用以在不提高硬件成本的前提下,保证语音识别率。
本发明实施例提供的具体技术方案如下:
一种提取期望声源语音信号的方法,包括:
从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号,并基于所述基准语音信号的声学特征,确定期望声源的存在概率;
基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息;
基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数;
采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
可选的,基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率,包括:
分别提取出所述基准语音信号在设定的N个频带上的声学特征;
将所述N个频带上的声学特征作为特征向量,建立相应的语音模型;
基于所述语音模型,分别计算出每一个声学特征的似然比;
确定任意一个声学特征的似然比达到设定阈值时,将所述期望声源的存在概率设置为表示存在期望声源的指定值。
可选的,基于所述期望声源的存在概率和位置信息,获取预设的目标分离系数,包括:
确定所述期望声源的存在概率指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数;或者,
确定所述期望声源的存在概率指示存在期望声源,并且确定包含所述基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,并所述一组分离系数与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
可选的,获取预设的目标分离系数,包括:
获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系;
基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
可选的,采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号,包括:
采用目标分离系数,基于所述对应语音信号的至少两个语音信号,分离出各个频点的频域输出信号;
采用通过短时逆傅里叶变换及叠接相加法或短时逆傅里叶变换及叠接保留法,将各个频点的频域输出信号转换为至少两路时域输出信号;
选择一路时域输出信号作为期望声源的语音信号。
一种提取期望声源语音信号的装置,包括:
第一确定单元,用于从通过双麦克风接收的第一语音信号和第二语音信号中选择一个作为基准语音信号,并基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率;
第二确定单元,用于基于所述第一语音信号和第二语音信号的相位差,确定期望声源的位置信息;
获取单元,用于基于所述基准语音信号表征的期望声源的存在概率和所述位置信息,获取预设的目标分离系数;
提取单元,用于采用所述目标分离系数,从所述第一语音信号和第二语音信号提取出期望声源的语音信号。
可选的,基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率时,所述第一确定单元用于:
分别提取出所述基准语音信号在设定的N个频带上的声学特征;
将所述N个频带上的声学特征作为特征向量,建立相应的语音模型;
基于所述语音模型,分别计算出每一个声学特征的似然比;
确定任意一个声学特征的似然比达到设定阈值时,将所述期望声源的存在概率设置为表示存在期望声源的指定值。
可选的,基于所述期望声源的存在概率和位置信息,获取预设的目标分离系数时,所述获取单元用于:
确定所述期望声源的存在概率指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数;或者,
确定所述期望声源的存在概率指示存在期望声源,并且确定包含所述基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,并所述一组分离系数与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
可选的,获取预设的目标分离系数时,所述获取单元用于:
获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系;
基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
可选的,采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号时,所述提取单元用于:
采用目标分离系数,基于所述对应语音信号的至少两个语音信号,分离出各个频点的频域输出信号;
采用通过短时逆傅里叶变换及叠接相加法或短时逆傅里叶变换及叠接保留法,将各个频点的频域输出信号转换为至少两路时域输出信号;
选择一路时域输出信号作为期望声源的语音信号。
一种存储介质,存储有用于提取期望声源语音信号的方法的程序,所述程序被处理器运行时,执行以下步骤:
从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号,并基于所述基准语音信号的声学特征,确定期望声源的存在概率;
基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息;
基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数;
采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
一种通信装置,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述任一项所述的方法。
本发明实施例中,从通过双麦克风接收的第一语音信号和第二语音信号中选择一个作为基准语音信号,并基于所述基准语音信号的声学特征表征的期望声源的存在概率,以及第一语音信号和第二语音信号的相位差表征的期望声源的位置信息,获取预设的目标分离系数,并采用所述目标分离系数,从所述第一语音信号和第二语音信号提取出期望声源的语音信号。
这样,由于位置信息与目标分离***之间预设有稳定的对应关系,因此,基于位置信息能够形成稳定的指向,从而迅速获取到相应的目标分离系数,进而从混响环境中快速准确地提取出期望声源的语音信号,采用本发明技术方案既充分融合了波束形成和盲源分离的优势,既有传统波束形成计算量小的优点,又能在多种混响环境形成稳定的指向,同时稳定地分离出期望语音,极大提升了干扰环境下的语音识别率,同时又不会增加硬件成本。
附图说明
图1为本发明实施例中语音处理装置逻辑功能示意图;
图2为本发明实施例中提取期望声源语音信号流程示意图;
图3为本发明实施例中双麦克风收集双声源的语音信号示意图;
图4为本发明实施例中语音处理装置功能结构示意图。
具体实施方式
在实际使用环境中,语音处理装置从输入的语音信号中提取特征用于识别,但环境中存在各种干扰,如混响,噪声,信号畸变。这些干扰使得输入的语音信号的特征与语音识别模型的特征有很大的差异,从而降低了识别率。
本发明实施例中,在盲估计和无畸变滤波的原则下最小化这种差异来提高语音识别率,同时不提高硬件成本。
下面结合附图对本发明优选的实施方式作出进一步详细说明。
参阅图1所示,本发明实施例中,语音处理装置中主要包含以下功能模块:
回声消除(Acoustic Echo Cancellation,AEC),主要用于语音信号打断,消除设备自身发出而被麦克风拾取的语音信号,如,喇叭进行语音播放过程中产生的语音信号。
盲源分离(Blind Source Separation,BSS),主要用于形成空域指向性和频率成分分辨力,过滤掉期望声源(即期望声源)以外的干扰,提升信号的信噪比,扩大语音识别的距离和对干扰的鲁棒性。
进一步地,还可以包括自动增益控制(Automatic Gain Control,AGC),主要用于扩大增强后的语音信号幅度,从而扩大语音识别的距离。
本发明实施例中,语音处理装置可以从至少两个麦克风收录的多个语音信号中,精准地提取出期望声源的语音信号,为了便于描述,后续实施例中,均以通过双麦克风收录了两个语音信号为例进行解释说明。
所谓期望声源即是指在包含了混响、干扰的噪杂环境中发出主要语音信号的发言对象,也被称为主声源。
参阅图2所示,本发明实施例中,语音处理装置提取期望声源语音信号的详细过程如下:
步骤200:语音处理装置从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号。
具体的,语音处理装置可以从所述对应语音信号中选择任意一路语音信号作为基准语音信号;或者,语音处理装置也可以从所述对应语音信号中选取任意至少两路语音信号,合并后生成基准语音信号。
以通过双个麦克风收录两路语音信号(以下称为第一路语音信号和第二路语音信号)为例,具体的,在执行步骤200时,语音处理装置需要将第一语音信号和第二语音信号均变换至时频域,以便于后续流程处理。变换方法采用短时傅里叶变换,可选的,采用变换公式为如下:
其中,表示归一化离散频率,k的范围是0~N-1,N表示短时傅里叶变换长度,τ表示信号帧序号。
步骤210:语音处理装置提取所述基准语音信号的声学特征,并基于所述声学特征建立语音模型,并基于所述语音模型确定所述基准语音信号表征的期望声源的存在概率。
可选的,以语音模型为例,在建立语音模型时,语音处理装置可以执行以下操作:
首先,语音处理装置分别提取出所述基准语音信号在设定的N个频带上的声学特征,作为所述基准语音信号的声学特征;
例如,假设N=6,那么,计算基准语音信号在6个频带上的log能量,6个频带分别是80-250kHZ、250-500kHz、500-1kHZ、1kHz-2kHz、2kHz-3kHz、3kHz-4kHz,分别对应于能量值1(即声学特征1),能量值2(即声学特征2),…,能量值6(即声学特征6)。
其中,基准语音信号在频带上的声学特征可以有多种表示方法,如,能量值、幅度值,等等。
然后,语音处理装置将所述N个频带上的声学特征作为特征向量,采用于高斯混合模型(Gaussian Mixed Model,GMM),建立相应的语音模型,再基于所述语音模型,分别计算出每一个声学特征的似然比。
所谓似然比,表示的是在每个频带上的语音信号的初始存在概率,具体的,在计算似然比时,可以基于所述特征向量,采用GMM,获得各个频带上的语音类信号特性参数(如,语音类信号均值、语音类信号方差等等),以及采用GMM,获得各个频带上的干扰类信号特性参数(如,干扰类信号均值、干扰类信号方差等等),采用获得的各类参数,计算出每一个声学特征的似然比,任意一个声学特征的似然比达到设定阈值时,将期望声源的存在概率设置为表示存在期望声源的指定值,确定存在语音信号。
其中,可选的,似然比的计算公式如下:
其中,k表示频带索引,Fn表示输入的特征向量,fn是具体的某个频带输入的声学特征,us和un分别表示某个频带的语音类信号均值和干扰类信号的均值,σs和σn分别表示是某个频带的语音类信号方差和干扰类信号方差。
当任意一个似然比L(Fn,k)的取值达到设定阈值时,就将期望声源的存在概率置为1。
当然,所述GMM仅为举例,实际应用中,还可能采用其他方式建立相应的语音模型。例如:支持向量机(SVM)算法,深度神经网络(DNN)算法,卷积神经网络(CNN)算法、循环神经网络(RNN)算法等等)
步骤220:语音处理装置基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息。
仍以通过双个麦克风收录两路语音信号为例,具体的,可以采用可控功率响应相位加权(SRP-PHAT)算法,基于第一语音信号和第二语音信号的相位差,对期望声源的方位角(DOA)进行估计,并将方位角作为期望声源的位置信息;其中,所谓的DOA,可以是期望声源与设定的中垂线之间的夹角。
可选的,DOA的计算公式如下:
由于是双麦克风,可以定义i=1,j=2,Xj(w)和Xj(w)表示通过两个麦克风接收的经短时傅里叶变换后的第一语音信号和第二语音信号,Ψij表示预设的用于提高定位性能的加权值,本发明实施例中,采用PHAT算法加权,具体的,dw表示对频点的积分,ejwt表示时延决定的相位差,R(t)表示互相关能量。
那么,将所有可能存在的DOA所对应的时延t代入公式,使得最大的DOA,即是期望声源的DOA。
之所以采用SRP-PHAT算法,是将SRP算法本身具有短时分析特性和稳健性,与相位变换PHAT加权算法对周围干扰环境(如,混响和噪声)的不敏感性相结合,能够在各种实际环境中鲁棒地对期望声源的DOA进行估计。
当然,采用SRP-PHAT算法只在持续的语音信号输入阶段进行DOA估计,这样,在后续进行语音信号分离时,可以稳定地提取出期望声源的语音信号。
此外也可以利用其他的定位方法,如,广义互相关(GCC)算法,非线性广义互相关(GCC-Nonlinear),延时求和(DS)算法,最小方差无畸变(MVDR)等。
步骤230:语音处理装置基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数。
仍以双个麦克风收录两路语音信号为例,本发明实施例中,采用一种双麦克风的简单分离模型,预先对应不同的期望声源的存在概率和DOA,预设了相应的一组分离系数,一组分离系数中包含了针对每一个频点设置的分离系数。具体配置过程如下:
参阅图3所示,假设环境中存在两个声源,一个是期望声源s1,另一种是干扰声源s2。而两个麦克风接收到语音信号可以用x1和x2表示,其中,h11、h12分别为s1到两个麦克风的传递函数,h21、h22分别为s2到两个麦克风的传递函数,则x1和x2可以表示为:
x1(t)=s1(t)*h11(t)+s2(t)*h12(t) (1)
x2(t)=s1(t)*h21(t)+s2(t)*h22(t) (2)
由于双麦克风之间的间距很小,因此,可以近似认为期望声源和干扰声源到不同麦克风的传递函数只有包含时间的延迟,那么,可以认为:
令y1(t)=s1(t)*h11(t)y2(t)=s2(t)*h22(t),联合(3)(4)代入(1)(2),可以得到:
x1(t)=y1(t)+y2(t-d2) (5)
x2(t)=y1(t-d1)+y2(t) (6)
将(5)和(6)应用到短时傅里叶变换后的每一个频点,并缩写为向量形式,那么,
X(ω,τ)=AY(ω,τ) (7)
其中,τ表示信号帧序号,A(ω)基于所述简单分离模型的混合矩阵模型,结合波束形成的观点,将双麦克风的半空间180度划分为一系列的方位区域,每一个方位区域都对应一个DOA的取值,而每一个DOA的取值对应一个时延d=Dsin(DOA)/C,其中D为双麦克风之间的间距,C为常温下空气中的声速。
由于只要提取期望声源的语音信号,因此,假设d1=d2=d,将时延d代入(8),可以得到每一个方位区域对应的一组混合矩阵A(ω),A(ω)的逆矩阵就是相应的分离矩阵W,W中的每一个元素为对应一个频点的分离系数,W包含所有元素即是对应一个方位区域的一组分离系数。
本发明实施例中,预先将不同方位区域对应的分离矩阵W包含的一组分离系数保存在一个存储表中。
另一方面,在实际应用中,语音信号是采用信号帧方式传播的,而语音处理装置需要对信号帧进持续检测,因此,语音处理装置会持续不断地接收到双麦克风传送过来的双路语音信号,并不断提取出基准语音信号,从而不断判断基准语音信号表征的期望声源的存在概率,以及不断判断通过至少两个双麦克风接收的对应语音信号中的至少一对语音信号的相位差表征的期望声源的DOA。本发明实施例中,可选的,在执行步骤230时,语音处理装置可以采用但不限于以下方式:
A、语音处理装置确定最新获得的基准语音信号表征的期望声源的存在概率指示存在期望声源时,获取对应最新获得的位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数。
B、语音处理装置确定最新获得的基准语音信号表征的期望声源的存在概率指示存在期望声源,并且确定包含最新获得的基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应最新获得的位置信息预设的一组分离系数,并将所述一组分离系数,与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
具体而言,语音处理装置确定连续Ln个基准语音信号(Ln为预设门限值)表征的期望声源的存在概率均为1时,即可根据当前的基准语音信号(即最新的基准语音信号)对应的期望声源的DOA,从存储表中查找对应所述DOA设置的一组分离系数,作为目标分离系数,形成稳定的指向,用于后续从混杂信号中分离出期望声源的语音信号;其中,Ln的取值为1到无穷,取值越小反应越快,但也越容易提取不稳定的期望声源的语音信号。
基于当前的基准语音信号对应的期望声源的DOA,获取对应的一组分离系数之后,可选的,可以将所述一组分离系数与基于所述Ln个基准语音信号中其他基准语音信号获取的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数,这样就充分融合波束形成(beamforming)和盲源分离的优势,既有传统波束形成计算量小的优点,又能在多种混响环境形成稳定的指向。当然,也可以不进行平滑处理,而直接将基于当前的基准语音信号对应的期望声源的DOA获得的一组分离系数,作为目标分离系数,从混响环境中提取期望声源的语音信号,在此不再赘述。
进一步的,在获取对应所述位置信息预设的一组分离系数,语音处理装置可以获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系,然后,语音处理装置基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
步骤240:语音处理装置采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
具体的,目标分离系数中包含有***可能使用到的每一个频点的分离系数,即分离矩阵W中的每一个元素对应一个频点的分离系数,因此,采用目标分离系数(即分离矩阵W),基于第一语音信号和第二语音信号,采用公式OUT(ω,τ)=W(ω)X(ω,τ)可以得到每一个频点的频域输出信号,其中,X(ω,τ)=[X1(ω,τ),X2(ω,τ)],τ表示信号帧序号。
然后,可以采用短时逆傅里叶变换及叠接相加法得到两路时域输出信号,其中,表示归一化离散频率,k的范围是0~N-1,N表示短时傅里叶变换长度,τ表示信号帧序号。
那么,依据目标分离系数进行提取的过程中,可以选取一路输出的时域输出信号使用期望声源的语音信号。
基于所述实施例,参阅图4所示,本发明实施例中,语音处理装置至少包括:
第一确定单元41,用于从通过双麦克风接收的第一语音信号和第二语音信号中选择一个作为基准语音信号,并基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率;
第二确定单元42,用于基于所述第一语音信号和第二语音信号的相位差,确定期望声源的位置信息;
获取单元43,用于基于所述基准语音信号表征的期望声源的存在概率和所述位置信息,获取预设的目标分离系数;
提取单元44,用于采用所述目标分离系数,从所述第一语音信号和第二语音信号提取出期望声源的语音信号。
所述第一确定单元41、第二确定单元42、获取单元43和提取单元44均可以视为执行图1所示的“盲源分离”这一操作的功能单元。
可选的,基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率时,所述第一确定单元41用于:
分别提取出所述基准语音信号在设定的N个频带上的声学特征;
将所述N个频带上的声学特征作为特征向量,建立相应的语音模型;
基于所述语音模型,分别计算出每一个声学特征的似然比;
确定任意一个声学特征的似然比达到设定阈值时,将所述期望声源的存在概率设置为表示存在期望声源的指定值。
可选的,基于所述期望声源的存在概率和位置信息,获取预设的目标分离系数时,所述获取单43元用于:
确定所述期望声源的存在概率指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数;或者,
确定所述期望声源的存在概率指示存在期望声源,并且确定包含所述基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,并所述一组分离系数与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
可选的,获取预设的目标分离系数时,所述获取单元43用于:
获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系;
基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
可选的,采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号时,所述提取单元44用于:
采用目标分离系数,基于所述对应语音信号的至少两个语音信号,分离出各个频点的频域输出信号;
采用通过短时逆傅里叶变换及叠接相加法或短时逆傅里叶变换及叠接保留法,将各个频点的频域输出信号转换为至少两路时域输出信号;
选择一路时域输出信号作为期望声源的语音信号。
基于同一发明构思,本发明实施例提供一种存储介质,存储有用于提取期望声源语音信号的方法的程序,所述程序被处理器运行时,执行以下步骤:
从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号,并基于所述基准语音信号的声学特征,确定期望声源的存在概率;
基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息;
基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数;
采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
基于同一发明构思,本发明实施例提供一种通信装置,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述任一种方法。
传统盲源分离两大分离原则分别是信号稀疏性和信号统计独立性。
基于信号稀疏性的盲源分离的优点是:可以针对信号源比麦克风数量多的情况进行语音信号分离;缺点是:有混响时若信号稀疏性假设错误,会导致分离结果与实际环境效果相差很大,且计算量巨大。
基于统计独立性的盲源分离的优点是:可以针对麦克风数量大于等于信号源数量的情况进行语音分离,并且可以在有混响的情况下应用,一般需要迭代优化,可以在时域或者频域进行;缺点是:频域分离对于每个频点存在不确定性,特别是在实际复杂场景及混响环境时;时域分离没有不确定性问题,但计算量巨大。
而本发明实施例中,基于从通过至少两个麦克风接收的对应语音信号中提取的基准语音信号的声学特征,确定期望声源的存在概率,以及基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息,并基于获得的各类信息获取预设的目标分离系数,以及采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
这样,由于位置信息与目标分离***之间预设有稳定的对应关系,因此,基于位置信息能够形成稳定的指向,从而迅速获取到相应的目标分离系数,进而从混响环境中快速准确地提取出期望声源的语音信号,采用本发明技术方案既充分融合了波束形成和盲源分离的优势,既有传统波束形成计算量小的优点,又能在多种混响环境形成稳定的指向,同时稳定地分离出期望语音,极大提升了干扰环境下的语音识别率,同时又不会增加硬件成本。
进一步地,本发明技术方案,提供了全套的语音识别前处理技术,考虑了语音识别的打断,唤醒,远距离识别,噪声环境识别等日常语音交互的难点,提升期望声源与双麦克风之间的语音交互的有效距离,如,使有效的语音交互的有效距离达到5m。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种提取期望声源语音信号的方法,其特征在于,包括:
从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号,并基于所述基准语音信号的声学特征,确定期望声源的存在概率;
基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息;
基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数;
采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
2.如权利要求1所述的方法,其特征在于,基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率,包括:
分别提取出所述基准语音信号在设定的N个频带上的声学特征;
将所述N个频带上的声学特征作为特征向量,建立相应的语音模型;
基于所述语音模型,分别计算出每一个声学特征的似然比;
确定任意一个声学特征的似然比达到设定阈值时,将所述期望声源的存在概率设置为表示存在期望声源的指定值。
3.如权利要求1或2所述的方法,其特征在于,基于所述期望声源的存在概率和位置信息,获取预设的目标分离系数,包括:
确定所述期望声源的存在概率指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数;或者,
确定所述期望声源的存在概率指示存在期望声源,并且确定包含所述基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,并所述一组分离系数与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
4.如权利要求1或2所述的方法,其特征在于,获取预设的目标分离系数,包括:
获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系;
基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
5.如权利要求1或2所述的方法,其特征在于,采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号,包括:
采用目标分离系数,基于所述对应语音信号的至少两个语音信号,分离出各个频点的频域输出信号;
采用通过短时逆傅里叶变换及叠接相加法或短时逆傅里叶变换及叠接保留法,将各个频点的频域输出信号转换为至少两路时域输出信号;
选择一路时域输出信号作为期望声源的语音信号。
6.一种提取期望声源语音信号的装置,其特征在于,包括:
第一确定单元,用于从通过双麦克风接收的第一语音信号和第二语音信号中选择一个作为基准语音信号,并基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率;
第二确定单元,用于基于所述第一语音信号和第二语音信号的相位差,确定期望声源的位置信息;
获取单元,用于基于所述基准语音信号表征的期望声源的存在概率和所述位置信息,获取预设的目标分离系数;
提取单元,用于采用所述目标分离系数,从所述第一语音信号和第二语音信号提取出期望声源的语音信号。
7.如权利要求6所述的装置,其特征在于,基于所述基准语音信号的声学特征,确定所述基准语音信号表征的期望声源的存在概率时,所述第一确定单元用于:
分别提取出所述基准语音信号在设定的N个频带上的声学特征;
将所述N个频带上的声学特征作为特征向量,建立相应的语音模型;
基于所述语音模型,分别计算出每一个声学特征的似然比;
确定任意一个声学特征的似然比达到设定阈值时,将所述期望声源的存在概率设置为表示存在期望声源的指定值。
8.如权利要求6或7所述的装置,其特征在于,基于所述期望声源的存在概率和位置信息,获取预设的目标分离系数时,所述获取单元用于:
确定所述期望声源的存在概率指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,将所述一组分离系数作为目标分离系数;或者,
确定所述期望声源的存在概率指示存在期望声源,并且确定包含所述基准语音信号在内的连续Ln个基准语音信号均指示存在期望声源时,获取对应所述位置信息预设的一组分离系数,并所述一组分离系数与基于所述连续Ln个基准语音信号中其他基准语音信号获得的各组分离系数进行平滑处理,将平滑处理结果作为目标分离系数。
9.如权利要求6或7所述的装置,其特征在于,获取预设的目标分离系数时,所述获取单元用于:
获取预设的存储表,所述存储表中记录有预设的分离系数和位置信息之间的对应关系;
基于所述位置信息和所述对应关系,查找所述存储表,获取对应所述位置信息预设的一组分离系数。
10.如权利要求6或7所述的装置,其特征在于,采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号时,所述提取单元用于:
采用目标分离系数,基于所述对应语音信号的至少两个语音信号,分离出各个频点的频域输出信号;
采用通过短时逆傅里叶变换及叠接相加法或短时逆傅里叶变换及叠接保留法,将各个频点的频域输出信号转换为至少两路时域输出信号;
选择一路时域输出信号作为期望声源的语音信号。
11.一种存储介质,其特征在于,存储有用于提取期望声源语音信号的方法的程序,所述程序被处理器运行时,执行以下步骤:
从通过至少两个麦克风接收的对应语音信号中提取出基准语音信号,并基于所述基准语音信号的声学特征,确定期望声源的存在概率;
基于所述对应语音信号中的至少一对语音信号的相位差,确定期望声源的位置信息;
基于所述期望声源的存在概率和所述期望声源的位置信息,获取预设的目标分离系数;
采用所述目标分离系数,从所述对应语音信号的至少两个语音信号中提取出期望声源的语音信号。
12.一种通信装置,其特征在于,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810623577.6A CN110610718B (zh) | 2018-06-15 | 2018-06-15 | 一种提取期望声源语音信号的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810623577.6A CN110610718B (zh) | 2018-06-15 | 2018-06-15 | 一种提取期望声源语音信号的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610718A true CN110610718A (zh) | 2019-12-24 |
CN110610718B CN110610718B (zh) | 2021-10-08 |
Family
ID=68888662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810623577.6A Active CN110610718B (zh) | 2018-06-15 | 2018-06-15 | 一种提取期望声源语音信号的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610718B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383629A (zh) * | 2020-03-20 | 2020-07-07 | 深圳市未艾智能有限公司 | 语音处理方法和装置、电子设备以及存储介质 |
CN111624553A (zh) * | 2020-05-26 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 声源定位方法及***、电子设备及存储介质 |
CN112259117A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种目标声源锁定和提取的方法 |
CN112637742A (zh) * | 2020-12-29 | 2021-04-09 | 北京安声浩朗科技有限公司 | 信号处理方法及信号处理装置、存储介质及耳机 |
CN112799019A (zh) * | 2021-01-26 | 2021-05-14 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN113884986A (zh) * | 2021-12-03 | 2022-01-04 | 杭州兆华电子有限公司 | 波束聚焦增强的强冲击信号空时域联合检测方法及*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1436436A (zh) * | 2000-03-31 | 2003-08-13 | 克拉里提有限公司 | 用于话音信号提取的方法和设备 |
CN101079267A (zh) * | 2006-05-26 | 2007-11-28 | 富士通株式会社 | 定向集音装置、定向集音方法以及存储器产品 |
CN101751912A (zh) * | 2008-12-05 | 2010-06-23 | 索尼株式会社 | 信息处理设备、声音素材捕获方法和程序 |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
US20130142343A1 (en) * | 2010-08-25 | 2013-06-06 | Asahi Kasei Kabushiki Kaisha | Sound source separation device, sound source separation method and program |
JP2016194657A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音源分離装置、音源分離方法および音源分離プログラム |
CN106251877A (zh) * | 2016-08-11 | 2016-12-21 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
US20170053662A1 (en) * | 2015-08-20 | 2017-02-23 | Honda Motor Co., Ltd. | Acoustic processing apparatus and acoustic processing method |
CN106531156A (zh) * | 2016-10-19 | 2017-03-22 | 兰州交通大学 | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
US20170186442A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Audio signal processing in noisy environments |
-
2018
- 2018-06-15 CN CN201810623577.6A patent/CN110610718B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1436436A (zh) * | 2000-03-31 | 2003-08-13 | 克拉里提有限公司 | 用于话音信号提取的方法和设备 |
CN101079267A (zh) * | 2006-05-26 | 2007-11-28 | 富士通株式会社 | 定向集音装置、定向集音方法以及存储器产品 |
CN101751912A (zh) * | 2008-12-05 | 2010-06-23 | 索尼株式会社 | 信息处理设备、声音素材捕获方法和程序 |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
US20130142343A1 (en) * | 2010-08-25 | 2013-06-06 | Asahi Kasei Kabushiki Kaisha | Sound source separation device, sound source separation method and program |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
JP2016194657A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音源分離装置、音源分離方法および音源分離プログラム |
US20170053662A1 (en) * | 2015-08-20 | 2017-02-23 | Honda Motor Co., Ltd. | Acoustic processing apparatus and acoustic processing method |
US20170186442A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Audio signal processing in noisy environments |
CN106251877A (zh) * | 2016-08-11 | 2016-12-21 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
CN106531156A (zh) * | 2016-10-19 | 2017-03-22 | 兰州交通大学 | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
Non-Patent Citations (2)
Title |
---|
NICHOLAS CHONG ET AL.: "Multiple moving speaker tracking via degenerate unmixing estimation technique and Cardinality Balanced Multi-target Multi-Bernoulli Filter (DUET-CBMeMBer)", 《ISSNIP》 * |
毛维 等: "一种适用于双微阵列的语音增强算法", 《科学技术与工程》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383629A (zh) * | 2020-03-20 | 2020-07-07 | 深圳市未艾智能有限公司 | 语音处理方法和装置、电子设备以及存储介质 |
CN111624553A (zh) * | 2020-05-26 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 声源定位方法及***、电子设备及存储介质 |
CN111624553B (zh) * | 2020-05-26 | 2023-07-07 | 锐迪科微电子科技(上海)有限公司 | 声源定位方法及***、电子设备及存储介质 |
CN112259117A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种目标声源锁定和提取的方法 |
CN112259117B (zh) * | 2020-09-28 | 2024-05-14 | 上海声瀚信息科技有限公司 | 一种目标声源锁定和提取的方法 |
CN112637742A (zh) * | 2020-12-29 | 2021-04-09 | 北京安声浩朗科技有限公司 | 信号处理方法及信号处理装置、存储介质及耳机 |
CN112799019A (zh) * | 2021-01-26 | 2021-05-14 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN112799019B (zh) * | 2021-01-26 | 2023-07-07 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN113884986A (zh) * | 2021-12-03 | 2022-01-04 | 杭州兆华电子有限公司 | 波束聚焦增强的强冲击信号空时域联合检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110610718B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN110556103B (zh) | 音频信号处理方法、装置、***、设备和存储介质 | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
Erdogan et al. | Improved MVDR beamforming using single-channel mask prediction networks. | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
US10123113B2 (en) | Selective audio source enhancement | |
US9837099B1 (en) | Method and system for beam selection in microphone array beamformers | |
US20190172476A1 (en) | Deep learning driven multi-channel filtering for speech enhancement | |
US9008329B1 (en) | Noise reduction using multi-feature cluster tracker | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
KR101726737B1 (ko) | 다채널 음원 분리 장치 및 그 방법 | |
CN111445920B (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN112017681B (zh) | 定向语音的增强方法及*** | |
Kumatani et al. | Microphone array processing for distant speech recognition: Towards real-world deployment | |
CN109509465B (zh) | 语音信号的处理方法、组件、设备及介质 | |
CN113113034A (zh) | 用于平面麦克风阵列的多源跟踪和语音活动检测 | |
US11869481B2 (en) | Speech signal recognition method and device | |
CN112363112B (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
US11528571B1 (en) | Microphone occlusion detection | |
US11727926B1 (en) | Systems and methods for noise reduction | |
Girin et al. | Audio source separation into the wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 519085 High-tech Zone, Tangjiawan Town, Zhuhai City, Guangdong Province Applicant after: ACTIONS TECHNOLOGY Co.,Ltd. Address before: 519085 High-tech Zone, Tangjiawan Town, Zhuhai City, Guangdong Province Applicant before: ACTIONS (ZHUHAI) TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |