CN108538306B - 提高语音设备doa估计的方法及装置 - Google Patents
提高语音设备doa估计的方法及装置 Download PDFInfo
- Publication number
- CN108538306B CN108538306B CN201711498690.8A CN201711498690A CN108538306B CN 108538306 B CN108538306 B CN 108538306B CN 201711498690 A CN201711498690 A CN 201711498690A CN 108538306 B CN108538306 B CN 108538306B
- Authority
- CN
- China
- Prior art keywords
- voice
- microphone signals
- frame
- signal
- estimation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000011022 operating instruction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种提高语音设备DOA估计的方法,包括步骤:采集语音设备被唤醒时的麦克信号,确定每一帧的语音唤醒置信度;根据麦克信号确定每一帧的宽带方位谱函数,并确定每一帧的角度估计值;根据语音唤醒置信度确定各角度估计值的统计结果,统计结果最大的角度估计值即为DOA估计的结果。本发明通过将统计结果最大的角度估计值即为DOA估计的结果,且各角度估计值的统计结果指统计各帧麦克信号的语音唤醒置信度大于门限值的统计结果、或者同一角度估计值所对应的帧的语音唤醒置信度的总和、或者同一角度估计值所对应的帧的语音唤醒置信度与宽带方位谱函数的乘积的总和,能够更精准地确定语音信号源的方位角,提高信噪比减少语音损伤。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种提高语音设备DOA估计的方法及装置。
背景技术
当前智能语音硬件设备应用越来越广泛,如智能音响、机器人等。这些智能语音设备一般通过麦克风阵列信号处理后再进行语音识别,从而提高远场条件下的语音识别率。这些设备一般都具有的功能包括可以用某个关键词唤醒,唤醒后可以找到说话人的方向,可以对说话人的方向进行语音增强,并且自己在播放音乐或语音的情况下,可对其用唤醒词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混响技术等。
目前这些智能语音交互设备存在的一个难题是远场识别率低。智能语音交互设备的识别依赖于语音信号质量的好坏,设备对接收到的干净的语音信号识别率比较高,对受混响、噪声、干扰影响的远场语音信号识别率较低。这是因为目前的处理方法是在唤醒时进行DOA估计,当多个声源同时存在或者当设备距离墙壁、显示屏等强反射面时,唤醒时刻DOA估计(基于阵列的声波到达方向估计)不准确,导致后面的波束形成信号处理误将说话人的声音当作噪声消除掉,从而造成设备无法听懂说话人的指令。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种提高语音设备DOA估计的方法及装置,以解决上述的至少一项技术问题。
(二)技术方案
本发明的一方面,提供了一种提高语音设备DOA估计的方法,包括:
采集语音设备被唤醒时的麦克信号,并确定每一帧麦克信号的语音唤醒置信度;
根据所述麦克信号确定每一帧宽带方位谱函数,并确定每一帧麦克信号的角度估计值;以及
根据所述语音唤醒置信度确定各角度估计值的统计结果,统计结果最大的角度估计值即为DOA估计的结果。
在本发明的一些实施例中,根据所述语音唤醒置信度确定各角度估计值的统计结果包括子步骤:
设置门限值;
去除语音唤醒置信度小于该门限值的帧麦克信号,保留语音唤醒置信度大于等于该门限值的帧麦克信号,以确定保留帧麦克信号;以及
确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果。
在本发明的一些实施例中,各角度估计值的统计结果指同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。
在本发明的一些实施例中,所述麦克信号是通过语音设备的麦克风阵列获取的,且所述麦克风阵列的麦克风个数为N,所述麦克信号为
X(t)=[x1(t),...,xN(t)]T
其中,t为时域序列,T表示转置,N≥1。
在本发明的一些实施例中,在根据所述麦克信号确定宽带方位谱函数之前,还包括步骤:
对所述麦克信号进行傅里叶变换,确定频域麦克信号:
X(k)=[x1(k),...,xN(k)]T,k=1,...,K
其中,k为频域序列,K≥1。
在本发明的一些实施例中,所述麦克信号的语音信号源个数为A,干扰信号源个数为D-A,其中D为信号源的数目,D≥A,麦克信号包括噪声信号、语音信号和干扰信号,将麦克信号记为
X(k)=A(k,ΘD)S(k)+N(k)
其中,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),...,a(k,θm),...,a(k,θD)],a(k,θm)是阵列流形向量,m≤D,信号源信号为S(k)=[s(k,θ1),...,s(k,θm),...,s(k,θD)]T,ΘD=[θ1,...,θm,...θD]表示D个信号源方位角的集合,N(k)=[n1(k),...,nm(k),...,nN(k)]T是噪声信号。
在本发明的一些实施例中,根据所述麦克信号确定宽带方位谱函数,包括子步骤:
根据所述麦克信号,确定数据协方差矩阵;
对所述数据协方差矩阵进行分解,确定语音子空间和噪声子空间;以及
根据所述语音子空间和噪声子空间确定所述宽带方位谱函数。
在本发明的一些实施例中,所述数据协方差矩阵为:
R(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中,R(k)SS=E{S(k)S(k)H}和R(k)nn=E{N(k)N(k)H}分别是语音信号协方差矩阵和噪声信号协方差矩阵,H指共轭转置;
对所述数据协方差矩阵进行分解得到R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
所述对应于频率k的频率方位谱函数为:
P(k,θm)=1/aH(k,θm)E(k)nE(k)n Ha(k,θm),θm∈ΘD。
将各频率方位谱平均,即得到宽带方位谱函数:
在本发明的一些实施例中,所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的,且最大的宽带方位谱函数对应的θm即为每一帧麦克信号的角度估计值。
本发明的另一方面,还提供了一种提高语音设备DOA估计的装置,包括:
存储器,用于存储操作指令;
处理器,用于根据所述存储器中的操作指令,执行前述的提高语音设备DOA估计的方法。
(三)有益效果
本发明的提高语音设备DOA估计的方法及装置,相较于现有技术,至少具有以下的至少一项优点:
1、将语音唤醒置信度引入DOA估计的计算中,能够使得DOA估计的结果更准确,能够更精准地确定语音信号源的方位角,减少了干扰信号和噪声信号对语音信号的影响,为后续的波束形成算法提供更准确的方向信息,提高了信噪比减少语音损伤,能够进一步提高识别率。
2、可以通过三种算法确定各角度估计值的统计结果:各帧麦克信号的语音唤醒置信度大于该门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和,统计结果最大的角度估计值即为DOA估计的结果。该方法能够根据用户的需求选择不同的DOA估计的算法。
附图说明
图1为本发明实施例的提高语音设备DOA估计的方法的步骤示意图。
图2为本发明实施例的根据所述麦克信号确定宽带方位谱函数的具体步骤示意图。
图3为本发明实施例的提高语音设备DOA估计的装置的结构示意图。
图4A为本发明实施例的语音信号的语谱图。
图4B为本发明实施例的麦克信号的语谱图。
图5为本发明实施例的语音信号与麦克信号所有帧的DOA估计示意图。
图6为本发明实施例的语音唤醒置信度的曲线示意图。
具体实施方式
目前,传统的处理方法有两种,第一种是统计角度估计值θest中出现统计结果最大的角度估计值即为目标方位,比如30°附近出现的次数最多,则30°即为目标方向,第二种则是统计不同角度估计值θest对应的方位谱P(θest)之和,最大值对应的角度即为目标方位角。当多个声源同时存在时,在某些帧容易造成估计角度错误的情况,从而导致最后的统计角度结果出现偏差。
有鉴于此,本发明将语音唤醒置信度引入DOA估计的计算中,能够使得DOA估计的结果更准确,能够更精准地确定语音信号源的方位角,避免了干扰信号和噪声信号对语音信号的影响,便于提高信噪比减少语音损伤,进一步提高识别率。此外,本发明可以通过三种算法确定各角度估计值的统计结果:各帧麦克信号(包括语音信号、干扰信号和噪声信号)的语音唤醒置信度大于该门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和,统计结果最大的角度估计值即为DOA估计的结果。该方法能够根据用户的需求选择不同的DOA估计的算法,从而确定语音信号源(产生能够唤醒语音设备的语音信号)的方位。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明实施例的提高语音设备DOA估计的方法的步骤示意图,如图1所示,该方法包括以下步骤:
S1、采集语音设备被唤醒时的麦克信号,并确定每一帧麦克信号的语音唤醒置信度;
S2、根据所述麦克信号确定每一帧宽带方位谱函数,并确定每一帧麦克信号的角度估计值;以及
S3、根据所述语音唤醒置信度确定各角度估计值的统计结果,统计结果最大的角度估计值即为DOA估计的结果。
以下分别对本发明实施例的提高语音设备DOA估计的方法的各个步骤进行详细描述。
S1、采集语音设备被唤醒时的麦克信号,并确定每一帧麦克信号的语音唤醒置信度。
该麦克信号可以是通过语音设备的麦克风阵列获取的,且所述麦克风阵列的麦克风个数为N,所述麦克信号为
X(t)=[x1(t),...,xN(t)]T
其中,t为时域序列,T表示转置,N≥1。
需要注意的是,由于采集到的麦克信号是时域信号,而后续信号处理主要在频域进行,采用重叠相加语音处理框架,因此需要将时域信号进行FFT变换转到频域,得到频域麦克信号:
X(k)=[x1(k),...,xN(k)]T,k=1,...,K
其中,k为频域序列,K≥1。
所述麦克信号的语音信号源个数为A,干扰信号源个数为D-A,其中D为信号源的数目,D≥A,又由于麦克信号为语音信号与噪声、干扰的叠加,因此有公式:
X(k)=A(k,ΘD)S(k)+N(k)
其中,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),...,a(k,θm),...,a(k,θD)],a(k,θm)是阵列流形向量,m≤D,信号源信号为D*1维向量,其公式为S(k)=[s(k,θ1),...,s(k,θm),...,s(k,θD)]T,ΘD=[θ1,...,θm,...θD]表示D个信号源方位角的集合,N(k)=[n1(k),...,nm(k),...,nN(k)]T是噪声信号。
通过对唤醒词进行建模训练,再输入一麦克信号,即可确定每一帧麦克信号的语音唤醒置信度ci,i代表帧数。一般来说,语音唤醒置信度较高的帧麦克信号是语音信号,语音唤醒置信度较低的帧麦克信号是干扰信号、语音信号的间隔或者是噪声信号,不同的情况下,语音信号的置信度范围也不同。
S2、根据所述麦克信号确定宽带方位谱函数,并确定每一帧麦克信号的角度估计值。
图2为本发明实施例的根据所述麦克信号确定宽带方位谱函数的具体步骤示意图,如图2所示,根据所述麦克信号确定宽带方位谱函数具体包括以下子步骤:
S21、根据所述麦克信号,确定数据协方差矩阵:
R(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中,R(k)SS=E{S(k)S(k)H}和R(k)nn=E{N(k)N(k)H}分别是语音信号协方差矩阵和噪声信号协方差矩阵,H指共轭转置;
S22、对所述数据协方差矩阵进行分解,确定语音子空间和噪声子空间;
对所述数据协方差矩阵进行分解得到R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
S23、根据所述语音子空间和噪声子空间确定所述宽带方位谱函数;
所述对应于频率k的MUSIC频率方位谱函数为:
P(k,θm)=1/aH(k,θm)E(k)nE(k)n Ha(k,θm),θm∈ΘD。
将各频率方位谱平均,即得到不同方位角的宽带方位谱函数:
还需要注意的是,所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的,且最大的宽带方位谱函数对应的θm即为每一帧麦克信号的角度估计值,θest为角度估计值的集合。
S3、根据所述语音唤醒置信度确定各角度估计值的统计结果,统计结果最大的角度估计值即为DOA估计的结果。
为了提供一种能够根据用户的实际需求进行选择的DOA估计的方法,本发明中的各角度估计值的统计结果有三种算法:
(1)先设置门限值,去除语音唤醒置信度小于该门限值的帧麦克信号,保留语音唤醒置信度大于等于该门限值的帧麦克信号,以确定保留帧麦克信号,再确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果;
(2)同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和;
(3)同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。
需要说明的是,在其他实施例中,还可以求方法(2)中的总和在所有的角度估计值所对应的帧麦克信号的语音唤醒置信度的总和中的比例,或者求方法(3)中的总和在所有的角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和中的比例,并将该比例作为统计结果,或者还有其他类似的方法,在此不再赘述。
举例来说,传统的处理方法有两种,第一种是统计θest中出现统计结果最大的角度估计值即为目标方位角(DOA估计结果),比如30°附近出现的次数最多,则30°即为目标方位角,第二种是统计不同角度估计值θest对应的方位谱P(θest)之和,最大值对应的角度估计值即为语音信号源的方位。当多个声源同时存在时,在某些帧容易造成估计角度错误的情况,从而导致最后的统计角度结果出现偏差。
本发明引入语音唤醒置信度ci,提供了一种更准确的提高语音设备DOA估计的方法。
对应于算法(1),设置门限值clim,如果第i帧麦克信号的语音唤醒置信度ci<clim时,舍弃该帧麦克信号的角度估计值,保留语音唤醒置信度大于等于该门限值(即ci≥Clim)的帧麦克信号,以确定保留帧麦克信号,再确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果,统计结果最大的角度估计值即为语音信号源所在方位。
对应于算法(2),利用语音唤醒置信度ci对角度估计值进行加权。举例来说,统计时角度估计值θ1分别出现在第1、6两帧,θ2分别出现在第4、8、10三帧,将θ1的统计结果记为P1=c1+c6,θ2的统计结果记为P2=c4+c8+c10,如此计算其他目标方位角的统计结果,若θm的统计结果最大,则该θm即为目标方位角。相较于现有技术将P1记为2,P2记为3,本发明的算法加入了语音唤醒置信度,明显更具合理性。
对应于算法(3),同样地,假设统计时θ1分别出现在第1、6两帧,θ2分别出现在第4、8、10三帧,则P1=P(θ1,1)*c1+P(θ1,6)*c6、P2=P(θ2,4)*c4+P(θ2,8)*c8+P(θ2,10)*c10,统计结果的最大值对应的角度估计值即为目标方位,某一帧语音不是关键词或者是被噪声污染的关键词时,该帧的语音唤醒置信度偏低,弱化了该帧对最终的统计结果影响。相较于传统的统计方法,P1=P(θ1,1)+P(θ1,6)、P2=P(θ2,4)+P(θ2,8)+P(θ2,10),本发明通过引入语音唤醒置信度,避免了某一帧语音不是关键词或者是被噪声信号和干扰信号污染的关键词的情况,能够更精准地估计出语音信号源所在的方位角。
本发明实施例的另一方面,还提供了一种提高语音设备DOA估计的装置,图3为本发明实施例的提高语音设备DOA估计的装置的结构示意图,如图3所示,该装置包括:
存储器31,用于存储操作指令;
处理器32,用于根据所述存储器31中的操作指令,执行前述的提高语音设备DOA估计的方法。
接着,就结合附图说明本发明的效果。
图4A为本发明实施例的语音信号的语谱图,图4B为本发明实施例的麦克信号的语谱图,如图4A和图4B所示,图4A的线谱更加清晰,这是因为图4B中麦克信号中除了语音信号之外还包括了干扰信号和噪声信号,两段语音均取自麦克风环阵的第一通道,目标声源的位置在70°方向,干扰语音来自120°方向。
图5为本发明实施例的语音信号与麦克信号所有帧的DOA估计示意图,如图5所示,该麦克信号的帧数为61,可以看出麦克信号的DOA估计严重偏离语音信号的方向,最终统计结果语音信号源的方位大约是71°,麦克信号估计出的语音信号源的方位大约为80°。
图6为本发明实施例的语音唤醒置信度的曲线示意图,如图6所示,语音信号的语音唤醒置信度较高,噪声信号和干扰信号的语音唤醒置信度较低,通过本发明的提高语音设备DOA估计的方法,能够统计出的语音信号源的方位大约为73°
综上,本发明的方法及装置通过将统计结果最大的角度估计值即为DOA估计的结果,且各角度估计值的统计结果指统计各帧麦克信号的语音唤醒置信度大于门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和,因此DOA估计的结果更准确,能够更精准地确定语音信号源的方位角,避免干扰信号和噪声信号对语音信号的影响,能够提高信噪比减少语音损伤,进一步提高了识别率。
除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本发明的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
再者,“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种提高语音设备DOA估计的方法,包括:
采集语音设备被唤醒时的麦克信号,并确定每一帧麦克信号的语音唤醒置信度,所述麦克信号是通过语音设备的麦克风阵列获取的;
根据所述麦克信号确定每一帧宽带方位谱函数,并确定每一帧麦克信号的角度估计值,所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的,且最大的宽带方位谱函数对应的θm即为每一帧麦克信号的角度估计值,所述宽带方位谱函数为:
其中,k为频域序列,k=1,...,K,K≥1;a(k,θm)是阵列流形向量;E(k)n是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的噪声子空间,D为信号源的数目;N为所述麦克风阵列的麦克风个数,N≥1;H指共轭转置;以及
根据所述语音唤醒置信度确定各角度估计值的统计结果,统计结果最大的角度估计值即为DOA估计的结果;
其中,根据所述语音唤醒置信度确定各角度估计值的统计结果包括以下三种算法之一:
算法一包括子步骤:
设置门限值;
去除语音唤醒置信度小于该门限值的帧麦克信号,保留语音唤醒置信度大于等于该门限值的帧麦克信号,以确定保留帧麦克信号;以及
确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果;
算法二包括:各角度估计值的统计结果指同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和;以及
算法三包括:同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。
2.根据权利要求1所述的方法,其中,所述麦克信号为
X(t)=[x1(t),...,xN(t)]T
其中,t为时域序列,T表示转置。
3.根据权利要求2所述的方法,其中,在根据所述麦克信号确定宽带方位谱函数之前,还包括步骤:
对所述麦克信号进行傅里叶变换,确定频域麦克信号:
X(k)=[x1(k),...,xN(k)]T,k=1,...,K。
4.根据权利要求3所述的方法,其中,所述麦克信号的语音信号源个数为A,干扰信号源个数为D-A,其中,D≥A,麦克信号包括噪声信号、语音信号和干扰信号,将麦克信号记为X(k)=A(k,ΘD)S(k)+N(k)
其中,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),...,a(k,θm),...,a(k,θD)],m≤D,信号源信号为S(k)=[s(k,θ1),...,s(k,θm),...,s(k,θD)]T,ΘD=[θ1,...,θm,...θD]表示D个信号源方位角的集合,N(k)=[n1(k),...,nm(k),...,nN(k)]T是噪声信号。
5.根据权利要求4所述的方法,其中,根据所述麦克信号确定宽带方位谱函数,包括子步骤:
根据所述麦克信号,确定数据协方差矩阵;
对所述数据协方差矩阵进行分解,确定语音子空间和噪声子空间;以及
根据所述语音子空间和噪声子空间确定所述宽带方位谱函数。
6.根据权利要求5所述的方法,其中,所述数据协方差矩阵为:
R(k)xx=E{X(k)X(k)H}=R(k)ss+R(k)nn
其中,R(k)ss=E{S(k)S(k)H}和R(k)nn=E{N(k)N(k)H}分别是语音信号协方差矩阵和噪声信号协方差矩阵;
对所述数据协方差矩阵进行分解得到R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)s是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间;
所述对应于频率k的频率方位谱函数为:
P(k,θm)=1/aH(k,θm)E(k)nE(k)n Ha(k,θm),θm∈ΘD;
将各频率方位谱平均,即得到宽带方位谱函数。
7.一种提高语音设备DOA估计的装置,包括:
存储器,用于存储操作指令;
处理器,用于根据所述存储器中的操作指令,执行如权利要求1至6项中任一所述的提高语音设备DOA估计的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711498690.8A CN108538306B (zh) | 2017-12-29 | 2017-12-29 | 提高语音设备doa估计的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711498690.8A CN108538306B (zh) | 2017-12-29 | 2017-12-29 | 提高语音设备doa估计的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108538306A CN108538306A (zh) | 2018-09-14 |
CN108538306B true CN108538306B (zh) | 2020-05-26 |
Family
ID=63489870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711498690.8A Active CN108538306B (zh) | 2017-12-29 | 2017-12-29 | 提高语音设备doa估计的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108538306B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
CN111103568A (zh) * | 2019-12-10 | 2020-05-05 | 北京声智科技有限公司 | 一种声源定位方法、装置、介质和设备 |
CN111883162B (zh) * | 2020-07-24 | 2021-03-23 | 杨汉丹 | 唤醒方法、装置和计算机设备 |
KR20230146605A (ko) * | 2021-12-20 | 2023-10-19 | 썬전 샥 컴퍼니 리미티드 | 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템 |
CN114639398B (zh) * | 2022-03-10 | 2023-05-26 | 电子科技大学 | 一种基于麦克风阵列的宽带doa估计方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101865758A (zh) * | 2010-06-12 | 2010-10-20 | 南京航空航天大学 | 基于多重信号分类算法的冲击载荷定位方法 |
CN102866385A (zh) * | 2012-09-10 | 2013-01-09 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
CN104599679A (zh) * | 2015-01-30 | 2015-05-06 | 华为技术有限公司 | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 |
CN104931928A (zh) * | 2015-07-01 | 2015-09-23 | 西北工业大学 | 一种信号源定位方法及装置 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN106950542A (zh) * | 2016-01-06 | 2017-07-14 | 中兴通讯股份有限公司 | 声源的定位方法、装置及*** |
CN107159435A (zh) * | 2017-05-25 | 2017-09-15 | 洛阳语音云创新研究院 | 一种磨机工作状态调整方法及装置 |
CN107316648A (zh) * | 2017-07-24 | 2017-11-03 | 厦门理工学院 | 一种基于有色噪声的语音增强方法 |
JP2017228978A (ja) * | 2016-06-23 | 2017-12-28 | キヤノン株式会社 | 信号処理装置、信号処理方法、及びプログラム |
CN107976651A (zh) * | 2016-10-21 | 2018-05-01 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
-
2017
- 2017-12-29 CN CN201711498690.8A patent/CN108538306B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101865758A (zh) * | 2010-06-12 | 2010-10-20 | 南京航空航天大学 | 基于多重信号分类算法的冲击载荷定位方法 |
CN102866385A (zh) * | 2012-09-10 | 2013-01-09 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
CN104599679A (zh) * | 2015-01-30 | 2015-05-06 | 华为技术有限公司 | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 |
CN104931928A (zh) * | 2015-07-01 | 2015-09-23 | 西北工业大学 | 一种信号源定位方法及装置 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN106950542A (zh) * | 2016-01-06 | 2017-07-14 | 中兴通讯股份有限公司 | 声源的定位方法、装置及*** |
JP2017228978A (ja) * | 2016-06-23 | 2017-12-28 | キヤノン株式会社 | 信号処理装置、信号処理方法、及びプログラム |
CN107976651A (zh) * | 2016-10-21 | 2018-05-01 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
CN107159435A (zh) * | 2017-05-25 | 2017-09-15 | 洛阳语音云创新研究院 | 一种磨机工作状态调整方法及装置 |
CN107316648A (zh) * | 2017-07-24 | 2017-11-03 | 厦门理工学院 | 一种基于有色噪声的语音增强方法 |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
Non-Patent Citations (1)
Title |
---|
基于麦克风阵列声源定位技术的研究;赵秀粉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;36-59 * |
Also Published As
Publication number | Publication date |
---|---|
CN108538306A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108538306B (zh) | 提高语音设备doa估计的方法及装置 | |
CN108122563B (zh) | 提高语音唤醒率及修正doa的方法 | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
Zhang et al. | A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR | |
Nesta et al. | Convolutive BSS of short mixtures by ICA recursively regularized across frequencies | |
US10123113B2 (en) | Selective audio source enhancement | |
US9100734B2 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
Liu et al. | Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
Kim | Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller | |
CN110992977B (zh) | 一种目标声源的提取方法及装置 | |
Vincent | An experimental evaluation of Wiener filter smoothing techniques applied to under-determined audio source separation | |
Sharma et al. | Adaptive and hybrid Kronecker product beamforming for far-field speech signals | |
WO2020078210A1 (zh) | 混响语音信号中后混响功率谱的自适应估计方法及装置 | |
Tammen et al. | Complexity reduction of eigenvalue decomposition-based diffuse power spectral density estimators using the power method | |
Kim et al. | Sound source separation using phase difference and reliable mask selection selection | |
Lee et al. | Deep neural network-based speech separation combining with MVDR beamformer for automatic speech recognition system | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN113223552A (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
Jukić et al. | Speech dereverberation with convolutive transfer function approximation using MAP and variational deconvolution approaches | |
McCowan et al. | Multi-channel sub-band speech recognition | |
Malek et al. | Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme | |
Meng et al. | A robust maximum likelihood distortionless response beamformer based on a complex generalized Gaussian distribution | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |