CN108538306B

CN108538306B - 提高语音设备doa估计的方法及装置

Info

Publication number: CN108538306B
Application number: CN201711498690.8A
Authority: CN
Inventors: 朱振岭; 陈孝良; 冯大航; 苏少炜
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-05-26
Anticipated expiration: 2037-12-29
Also published as: CN108538306A

Abstract

本发明提供了一种提高语音设备DOA估计的方法，包括步骤：采集语音设备被唤醒时的麦克信号，确定每一帧的语音唤醒置信度；根据麦克信号确定每一帧的宽带方位谱函数，并确定每一帧的角度估计值；根据语音唤醒置信度确定各角度估计值的统计结果，统计结果最大的角度估计值即为DOA估计的结果。本发明通过将统计结果最大的角度估计值即为DOA估计的结果，且各角度估计值的统计结果指统计各帧麦克信号的语音唤醒置信度大于门限值的统计结果、或者同一角度估计值所对应的帧的语音唤醒置信度的总和、或者同一角度估计值所对应的帧的语音唤醒置信度与宽带方位谱函数的乘积的总和，能够更精准地确定语音信号源的方位角，提高信噪比减少语音损伤。

Description

提高语音设备DOA估计的方法及装置

技术领域

本发明涉及语音处理领域，尤其涉及一种提高语音设备DOA估计的方法及装置。

背景技术

当前智能语音硬件设备应用越来越广泛，如智能音响、机器人等。这些智能语音设备一般通过麦克风阵列信号处理后再进行语音识别，从而提高远场条件下的语音识别率。这些设备一般都具有的功能包括可以用某个关键词唤醒，唤醒后可以找到说话人的方向，可以对说话人的方向进行语音增强，并且自己在播放音乐或语音的情况下，可对其用唤醒词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混响技术等。

目前这些智能语音交互设备存在的一个难题是远场识别率低。智能语音交互设备的识别依赖于语音信号质量的好坏，设备对接收到的干净的语音信号识别率比较高，对受混响、噪声、干扰影响的远场语音信号识别率较低。这是因为目前的处理方法是在唤醒时进行DOA估计，当多个声源同时存在或者当设备距离墙壁、显示屏等强反射面时，唤醒时刻DOA估计(基于阵列的声波到达方向估计)不准确，导致后面的波束形成信号处理误将说话人的声音当作噪声消除掉，从而造成设备无法听懂说话人的指令。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种提高语音设备DOA估计的方法及装置，以解决上述的至少一项技术问题。

(二)技术方案

本发明的一方面，提供了一种提高语音设备DOA估计的方法，包括：

采集语音设备被唤醒时的麦克信号，并确定每一帧麦克信号的语音唤醒置信度；

根据所述麦克信号确定每一帧宽带方位谱函数，并确定每一帧麦克信号的角度估计值；以及

根据所述语音唤醒置信度确定各角度估计值的统计结果，统计结果最大的角度估计值即为DOA估计的结果。

在本发明的一些实施例中，根据所述语音唤醒置信度确定各角度估计值的统计结果包括子步骤：

设置门限值；

去除语音唤醒置信度小于该门限值的帧麦克信号，保留语音唤醒置信度大于等于该门限值的帧麦克信号，以确定保留帧麦克信号；以及

确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果。

在本发明的一些实施例中，各角度估计值的统计结果指同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。

在本发明的一些实施例中，所述麦克信号是通过语音设备的麦克风阵列获取的，且所述麦克风阵列的麦克风个数为N，所述麦克信号为

X(t)＝[x₁(t)，...，x_N(t)]^T

其中，t为时域序列，T表示转置，N≥1。

在本发明的一些实施例中，在根据所述麦克信号确定宽带方位谱函数之前，还包括步骤：

对所述麦克信号进行傅里叶变换，确定频域麦克信号：

X(k)＝[x₁(k)，...，x_N(k)]^T，k＝1，...，K

其中，k为频域序列，K≥1。

在本发明的一些实施例中，所述麦克信号的语音信号源个数为A，干扰信号源个数为D-A，其中D为信号源的数目，D≥A，麦克信号包括噪声信号、语音信号和干扰信号，将麦克信号记为

X(k)＝A(k，Θ_D)S(k)+N(k)

其中，N*D维阵列流形矩阵A(k，Θ_D)＝[a(k，θ₁)，...，a(k，θ_m)，...，a(k，θ_D)]，a(k，θ_m)是阵列流形向量，m≤D，信号源信号为S(k)＝[s(k，θ₁)，...，s(k，θ_m)，...，s(k，θ_D)]^T，Θ_D＝[θ₁，...，θ_m，...θ_D]表示D个信号源方位角的集合，N(k)＝[n₁(k)，...，n_m(k)，...，n_N(k)]^T是噪声信号。

在本发明的一些实施例中，根据所述麦克信号确定宽带方位谱函数，包括子步骤：

根据所述麦克信号，确定数据协方差矩阵；

对所述数据协方差矩阵进行分解，确定语音子空间和噪声子空间；以及

根据所述语音子空间和噪声子空间确定所述宽带方位谱函数。

在本发明的一些实施例中，所述数据协方差矩阵为：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

其中，R(k)_SS＝E{S(k)S(k)^H}和R(k)_nn＝E{N(k)N(k)^H}分别是语音信号协方差矩阵和噪声信号协方差矩阵，H指共轭转置；

对所述数据协方差矩阵进行分解得到R(k)_xx＝EΛE^H，Λ是降序排列的特征值构成的对角矩阵，E(k)＝[E(k)_S，E(k)_n]是对应的特征向量，E(k)_S、E(k)_n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间；

所述对应于频率k的频率方位谱函数为：

P(k，θ_m)＝1/a^H(k，θ_m)E(k)_nE(k)_n ^Ha(k，θ_m)，θ_m∈Θ_D。

将各频率方位谱平均，即得到宽带方位谱函数：

在本发明的一些实施例中，所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的，且最大的宽带方位谱函数对应的θ_m即为每一帧麦克信号的角度估计值。

本发明的另一方面，还提供了一种提高语音设备DOA估计的装置，包括：

存储器，用于存储操作指令；

处理器，用于根据所述存储器中的操作指令，执行前述的提高语音设备DOA估计的方法。

(三)有益效果

本发明的提高语音设备DOA估计的方法及装置，相较于现有技术，至少具有以下的至少一项优点：

1、将语音唤醒置信度引入DOA估计的计算中，能够使得DOA估计的结果更准确，能够更精准地确定语音信号源的方位角，减少了干扰信号和噪声信号对语音信号的影响，为后续的波束形成算法提供更准确的方向信息，提高了信噪比减少语音损伤，能够进一步提高识别率。

2、可以通过三种算法确定各角度估计值的统计结果：各帧麦克信号的语音唤醒置信度大于该门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和，统计结果最大的角度估计值即为DOA估计的结果。该方法能够根据用户的需求选择不同的DOA估计的算法。

附图说明

图1为本发明实施例的提高语音设备DOA估计的方法的步骤示意图。

图2为本发明实施例的根据所述麦克信号确定宽带方位谱函数的具体步骤示意图。

图3为本发明实施例的提高语音设备DOA估计的装置的结构示意图。

图4A为本发明实施例的语音信号的语谱图。

图4B为本发明实施例的麦克信号的语谱图。

图5为本发明实施例的语音信号与麦克信号所有帧的DOA估计示意图。

图6为本发明实施例的语音唤醒置信度的曲线示意图。

具体实施方式

目前，传统的处理方法有两种，第一种是统计角度估计值θ_est中出现统计结果最大的角度估计值即为目标方位，比如30°附近出现的次数最多，则30°即为目标方向，第二种则是统计不同角度估计值θ_est对应的方位谱P(θ_est)之和，最大值对应的角度即为目标方位角。当多个声源同时存在时，在某些帧容易造成估计角度错误的情况，从而导致最后的统计角度结果出现偏差。

有鉴于此，本发明将语音唤醒置信度引入DOA估计的计算中，能够使得DOA估计的结果更准确，能够更精准地确定语音信号源的方位角，避免了干扰信号和噪声信号对语音信号的影响，便于提高信噪比减少语音损伤，进一步提高识别率。此外，本发明可以通过三种算法确定各角度估计值的统计结果：各帧麦克信号(包括语音信号、干扰信号和噪声信号)的语音唤醒置信度大于该门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和，统计结果最大的角度估计值即为DOA估计的结果。该方法能够根据用户的需求选择不同的DOA估计的算法，从而确定语音信号源(产生能够唤醒语音设备的语音信号)的方位。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明实施例的提高语音设备DOA估计的方法的步骤示意图，如图1所示，该方法包括以下步骤：

S1、采集语音设备被唤醒时的麦克信号，并确定每一帧麦克信号的语音唤醒置信度；

S2、根据所述麦克信号确定每一帧宽带方位谱函数，并确定每一帧麦克信号的角度估计值；以及

S3、根据所述语音唤醒置信度确定各角度估计值的统计结果，统计结果最大的角度估计值即为DOA估计的结果。

以下分别对本发明实施例的提高语音设备DOA估计的方法的各个步骤进行详细描述。

S1、采集语音设备被唤醒时的麦克信号，并确定每一帧麦克信号的语音唤醒置信度。

该麦克信号可以是通过语音设备的麦克风阵列获取的，且所述麦克风阵列的麦克风个数为N，所述麦克信号为

X(t)＝[x₁(t)，...，x_N(t)]^T

其中，t为时域序列，T表示转置，N≥1。

需要注意的是，由于采集到的麦克信号是时域信号，而后续信号处理主要在频域进行，采用重叠相加语音处理框架，因此需要将时域信号进行FFT变换转到频域，得到频域麦克信号：

X(k)＝[x₁(k)，...，x_N(k)]^T，k＝1，...，K

其中，k为频域序列，K≥1。

所述麦克信号的语音信号源个数为A，干扰信号源个数为D-A，其中D为信号源的数目，D≥A，又由于麦克信号为语音信号与噪声、干扰的叠加，因此有公式：

X(k)＝A(k，Θ_D)S(k)+N(k)

其中，N*D维阵列流形矩阵A(k，Θ_D)＝[a(k，θ₁)，...，a(k，θ_m)，...，a(k，θ_D)]，a(k，θ_m)是阵列流形向量，m≤D，信号源信号为D*1维向量，其公式为S(k)＝[s(k，θ₁)，...，s(k，θ_m)，...，s(k，θ_D)]^T，Θ_D＝[θ₁，...，θ_m，...θ_D]表示D个信号源方位角的集合，N(k)＝[n₁(k)，...，n_m(k)，...，n_N(k)]^T是噪声信号。

通过对唤醒词进行建模训练，再输入一麦克信号，即可确定每一帧麦克信号的语音唤醒置信度c_i，i代表帧数。一般来说，语音唤醒置信度较高的帧麦克信号是语音信号，语音唤醒置信度较低的帧麦克信号是干扰信号、语音信号的间隔或者是噪声信号，不同的情况下，语音信号的置信度范围也不同。

S2、根据所述麦克信号确定宽带方位谱函数，并确定每一帧麦克信号的角度估计值。

图2为本发明实施例的根据所述麦克信号确定宽带方位谱函数的具体步骤示意图，如图2所示，根据所述麦克信号确定宽带方位谱函数具体包括以下子步骤：

S21、根据所述麦克信号，确定数据协方差矩阵：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

S22、对所述数据协方差矩阵进行分解，确定语音子空间和噪声子空间；

S23、根据所述语音子空间和噪声子空间确定所述宽带方位谱函数；

所述对应于频率k的MUSIC频率方位谱函数为：

P(k，θ_m)＝1/a^H(k，θ_m)E(k)_nE(k)_n ^Ha(k，θ_m)，θ_m∈Θ_D。

将各频率方位谱平均，即得到不同方位角的宽带方位谱函数：

还需要注意的是，所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的，且最大的宽带方位谱函数对应的θ_m即为每一帧麦克信号的角度估计值，θ_est为角度估计值的集合。

为了提供一种能够根据用户的实际需求进行选择的DOA估计的方法，本发明中的各角度估计值的统计结果有三种算法：

(1)先设置门限值，去除语音唤醒置信度小于该门限值的帧麦克信号，保留语音唤醒置信度大于等于该门限值的帧麦克信号，以确定保留帧麦克信号，再确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果；

(2)同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和；

(3)同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。

需要说明的是，在其他实施例中，还可以求方法(2)中的总和在所有的角度估计值所对应的帧麦克信号的语音唤醒置信度的总和中的比例，或者求方法(3)中的总和在所有的角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和中的比例，并将该比例作为统计结果，或者还有其他类似的方法，在此不再赘述。

举例来说，传统的处理方法有两种，第一种是统计θ_est中出现统计结果最大的角度估计值即为目标方位角(DOA估计结果)，比如30°附近出现的次数最多，则30°即为目标方位角，第二种是统计不同角度估计值θ_est对应的方位谱P(θ_est)之和，最大值对应的角度估计值即为语音信号源的方位。当多个声源同时存在时，在某些帧容易造成估计角度错误的情况，从而导致最后的统计角度结果出现偏差。

本发明引入语音唤醒置信度c_i，提供了一种更准确的提高语音设备DOA估计的方法。

对应于算法(1)，设置门限值c_lim，如果第i帧麦克信号的语音唤醒置信度c_i＜c_lim时，舍弃该帧麦克信号的角度估计值，保留语音唤醒置信度大于等于该门限值(即c_i≥C_lim)的帧麦克信号，以确定保留帧麦克信号，再确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果，统计结果最大的角度估计值即为语音信号源所在方位。

对应于算法(2)，利用语音唤醒置信度c_i对角度估计值进行加权。举例来说，统计时角度估计值θ1分别出现在第1、6两帧，θ2分别出现在第4、8、10三帧，将θ1的统计结果记为P1＝c₁+c₆，θ2的统计结果记为P2＝c₄+c₈+c₁₀，如此计算其他目标方位角的统计结果，若θ_m的统计结果最大，则该θ_m即为目标方位角。相较于现有技术将P1记为2，P2记为3，本发明的算法加入了语音唤醒置信度，明显更具合理性。

对应于算法(3)，同样地，假设统计时θ1分别出现在第1、6两帧，θ2分别出现在第4、8、10三帧，则P1＝P(θ1，1)*c₁+P(θ1，6)*c₆、P2＝P(θ2，4)*c₄+P(θ2，8)*c₈+P(θ2，10)*c₁₀，统计结果的最大值对应的角度估计值即为目标方位，某一帧语音不是关键词或者是被噪声污染的关键词时，该帧的语音唤醒置信度偏低，弱化了该帧对最终的统计结果影响。相较于传统的统计方法，P1＝P(θ1，1)+P(θ1，6)、P2＝P(θ2，4)+P(θ2，8)+P(θ2，10)，本发明通过引入语音唤醒置信度，避免了某一帧语音不是关键词或者是被噪声信号和干扰信号污染的关键词的情况，能够更精准地估计出语音信号源所在的方位角。

本发明实施例的另一方面，还提供了一种提高语音设备DOA估计的装置，图3为本发明实施例的提高语音设备DOA估计的装置的结构示意图，如图3所示，该装置包括：

存储器31，用于存储操作指令；

处理器32，用于根据所述存储器31中的操作指令，执行前述的提高语音设备DOA估计的方法。

接着，就结合附图说明本发明的效果。

图4A为本发明实施例的语音信号的语谱图，图4B为本发明实施例的麦克信号的语谱图，如图4A和图4B所示，图4A的线谱更加清晰，这是因为图4B中麦克信号中除了语音信号之外还包括了干扰信号和噪声信号，两段语音均取自麦克风环阵的第一通道，目标声源的位置在70°方向，干扰语音来自120°方向。

图5为本发明实施例的语音信号与麦克信号所有帧的DOA估计示意图，如图5所示，该麦克信号的帧数为61，可以看出麦克信号的DOA估计严重偏离语音信号的方向，最终统计结果语音信号源的方位大约是71°，麦克信号估计出的语音信号源的方位大约为80°。

图6为本发明实施例的语音唤醒置信度的曲线示意图，如图6所示，语音信号的语音唤醒置信度较高，噪声信号和干扰信号的语音唤醒置信度较低，通过本发明的提高语音设备DOA估计的方法，能够统计出的语音信号源的方位大约为73°

综上，本发明的方法及装置通过将统计结果最大的角度估计值即为DOA估计的结果，且各角度估计值的统计结果指统计各帧麦克信号的语音唤醒置信度大于门限值的统计结果、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和、或者同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和，因此DOA估计的结果更准确，能够更精准地确定语音信号源的方位角，避免干扰信号和噪声信号对语音信号的影响，能够提高信噪比减少语音损伤，进一步提高了识别率。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本发明的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

再者，“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高语音设备DOA估计的方法，包括：

采集语音设备被唤醒时的麦克信号，并确定每一帧麦克信号的语音唤醒置信度，所述麦克信号是通过语音设备的麦克风阵列获取的；

根据所述麦克信号确定每一帧宽带方位谱函数，并确定每一帧麦克信号的角度估计值，所述每一帧麦克信号的角度估计值是通过计算各帧麦克信号的宽带方位谱函数确定的，且最大的宽带方位谱函数对应的θ_m即为每一帧麦克信号的角度估计值，所述宽带方位谱函数为：

其中，k为频域序列，k＝1，...，K，K≥1；a(k，θ_m)是阵列流形向量；E(k)_n是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的噪声子空间，D为信号源的数目；N为所述麦克风阵列的麦克风个数，N≥1；H指共轭转置；以及

根据所述语音唤醒置信度确定各角度估计值的统计结果，统计结果最大的角度估计值即为DOA估计的结果；

其中，根据所述语音唤醒置信度确定各角度估计值的统计结果包括以下三种算法之一：

算法一包括子步骤：

设置门限值；

确定保留帧麦克信号中同一角度估计值所对应的帧麦克信号的统计结果；

算法二包括：各角度估计值的统计结果指同一角度估计值所对应的帧麦克信号的语音唤醒置信度的总和；以及

算法三包括：同一角度估计值所对应的帧麦克信号的语音唤醒置信度与宽带方位谱函数的乘积的总和。

2.根据权利要求1所述的方法，其中，所述麦克信号为

X(t)＝[x₁(t)，...，x_N(t)]^T

其中，t为时域序列，T表示转置。

3.根据权利要求2所述的方法，其中，在根据所述麦克信号确定宽带方位谱函数之前，还包括步骤：

对所述麦克信号进行傅里叶变换，确定频域麦克信号：

X(k)＝[x₁(k)，...，x_N(k)]^T，k＝1，...，K。

4.根据权利要求3所述的方法，其中，所述麦克信号的语音信号源个数为A，干扰信号源个数为D-A，其中，D≥A，麦克信号包括噪声信号、语音信号和干扰信号，将麦克信号记为X(k)＝A(k，Θ_D)S(k)+N(k)

其中，N＊D维阵列流形矩阵A(k，Θ_D)＝[a(k，θ₁)，...，a(k，θ_m)，...，a(k，θ_D)]，m≤D，信号源信号为S(k)＝[s(k，θ₁)，...，s(k，θ_m)，...，s(k，θ_D)]^T，Θ_D＝[θ₁，...，θ_m，...θ_D]表示D个信号源方位角的集合，N(k)＝[n₁(k)，...，n_m(k)，...，n_N(k)]^T是噪声信号。

5.根据权利要求4所述的方法，其中，根据所述麦克信号确定宽带方位谱函数，包括子步骤：

根据所述麦克信号，确定数据协方差矩阵；

6.根据权利要求5所述的方法，其中，所述数据协方差矩阵为：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_ss+R(k)_nn

其中，R(k)_ss＝E{S(k)S(k)^H}和R(k)_nn＝E{N(k)N(k)^H}分别是语音信号协方差矩阵和噪声信号协方差矩阵；

对所述数据协方差矩阵进行分解得到R(k)_xx＝EΛE^H，Λ是降序排列的特征值构成的对角矩阵，E(k)＝[E(k)_S，E(k)_n]是对应的特征向量，E(k)_s是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间；

所述对应于频率k的频率方位谱函数为：

P(k，θ_m)＝1/a^H(k，θ_m)E(k)_nE(k)_n ^Ha(k，θ_m)，θ_m∈Θ_D；

将各频率方位谱平均，即得到宽带方位谱函数。

7.一种提高语音设备DOA估计的装置，包括：

存储器，用于存储操作指令；

处理器，用于根据所述存储器中的操作指令，执行如权利要求1至6项中任一所述的提高语音设备DOA估计的方法。