CN105590631B

CN105590631B - 信号处理的方法及装置

Info

Publication number: CN105590631B
Application number: CN201410649621.2A
Authority: CN
Inventors: 韩娜; 袁浩; 黄冬梅
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2020-04-07
Anticipated expiration: 2034-11-14
Also published as: EP3220158A4; US10181330B2; US20170337936A1; CN105590631A; EP3220158A1; WO2016074495A1

Abstract

本发明公开了一种信号处理的方法，通过获取至少两个通道声音信号，并获取所述各个通道声音信号对应的频域音频信号；获取每个频点的音频信号对应波束群的波束形成输出信号；获取所述波束群的输出方向；获取所述方向上波束形成后输出的时域声音信号。本发明还公开了一种信号处理的装置，采用基于频域的宽带波束形成算法有效地提高了接收语音的增益，采用自适应选择最佳波束的方式，规避了提供期望信号到达方向等先验信息，减小了算法复杂度，增加了算法的适用范围，所用的频域波束形成算法有利于对信号频谱的精细调整，方便与其它的前后处理算法进行融合，同时，本发明易于实现，计算量小，适用于各种嵌入式平台。

Description

信号处理的方法及装置

技术领域

本发明涉及信号处理领域，尤其涉及一种信号处理的方法及装置。

背景技术

基于麦克风阵列的语音增强方法中应用最普遍的是利用阵列的波束形成特性。根据实现方式不同，现有的波束形成技术可以分为固定波束形成技术(Delay and Sum Beamforming，DSBF)和自适应波束形成技术。Flanagan在1985年提出DSBF方法是一种最简单的固定波束形成方法。它首先将阵列中各个麦克风上接收到的语音信号进行时间补偿，以使各通道的语音同步，然后对各通道信号相加平均。在这种情况下，一旦信号偏离阵列指向，阵列对于不同频率的信号会表现出不同的增益，从而造成宽带信号的处理失真。

与固定波束形成技术相对应的另一类波束形成技术就是自适应的波束形成，其自适应特性表现在滤波系数是随着输入信号统计特性的变化而变化的。Griffth和Jim于1982提出的广义旁瓣抵消器(Generalized Sidelobe Canceller,GSC)是自适应波束形成器的一种通用模型。然而GSC算法中，阻塞矩阵(Block Matrix,BM)的输出往往含有有效的语音成分，这样在滤波结果中会对原始语音造成损伤。

发明内容

本发明提供一种处理信号的方法及装置，主要目的在于解决现有技术中存在的基于麦克风阵列的语音增强时宽带信号的失真问题。

为实现上述目的，本发明提供的一种信号处理的方法，所述方法包括：

获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；

根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；

根据同一方向的不同频点的波束能量获取所述波束群的输出方向；

获取所述方向上波束形成后输出的时域声音信号。

优选地，所述根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号，包括：

根据预先设置的多方向的权向量，选取全部或部分通道声音信号对应的频域音频信号，获取每个频点的音频信号对应波束群的波束形成输出信号

优选地，所述根据同一方向的不同频点的波束能量获取所述波束群的输出方向，包括：

对同一方向的不同频点的波束能量进行求和，并选取波束能量最大的方向作为输出方向。

优选地，所述对同一方向的不同频点的波束能量进行求和，并选取波束能量最大的方向作为输出方向，包括：

对同一方向的预先设置的第一频率至第二频率之间的所有频点的波束能量进行求和，并选取波束能量最大的方向作为输出方向。

优选地，所述多方向的权向量是基于延时累加波束形成算法、线性约束最小方差波束形成算法、广义旁瓣抵消波束形成算法或者最小方差无畸变响应法MVDR得到的。

优选地，所述根据同一方向的不同频点的波束能量获取所述波束群的输出方向之后，还包括：

对所述输出方向上波束形成后输出的各频点的音频信号乘以增益，所述增益为与频域值正比例相关的值。

优选地，所述增益在预先设置的不同频域值范围内，与频域值有不同的正比例关系。

此外，为实现上述目的，本发明还提供一种信号处理的装置，所述装置包括：

短时傅里叶变换STFT单元，用于获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；

第一获取单元，用于根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；

第二获取单元，用于根据同一方向的不同频点的波束能量获取所述波束群的输出方向；

逆变换单元，用于获取所述方向上波束形成后输出的时域声音信号。

优选地，所述第一获取单元，用于：

优选地，所述第二获取单元，用于：

优选地，所述第二获取单元还用于：

优选地，其特征在于，所述装置还包括增益单元，用于对所述输出方向上波束形成后输出的各频点的音频信号乘以增益，所述增益为与频域值正比例相关的值。

本发明通过获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；根据同一方向的不同频点的波束能量获取所述波束群的输出方向；获取所述方向上波束形成后输出的时域声音信号，本发明采用基于频域的宽带波束形成算法有效地提高了接收语音的增益，采用自适应选择最佳波束的方式，规避了提供期望信号到达方向等先验信息，减小了算法复杂度，增加了算法的适用范围。所用的频域波束形成算法有利于对信号频谱的精细调整，方便与其它的前后处理算法进行融合，同时，本发明易于实现，计算量小，适用于各种嵌入式平台。

附图说明

图1为本发明信号处理的方法第一实施例的流程示意图；

图2为本发明波束形成的方法示意图；

图3为步骤103的细化流程示意图；

图4为本发明提供的一种L型的三维空间麦克风阵列的示意图；

图5为本发明信号处理的方法第二实施例的流程示意图；

图6为本发明信号处理的装置第一实施例的功能模块示意图；

图7为本发明信号处理的装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种信号处理的方法。

实施例一：

参照图1，图1为本发明信号处理的方法第一实施例的流程示意图。

在第一实施例中，该信号处理的方法包括：

步骤101，获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；

具体的，采集N个麦克风的声音信号(N>＝2)，对每一个麦克风接收到的时域信号进行短时傅里叶变换(short-time Fourier transform，STFT)，得到该麦克风接收信号各频点的数据。

对各个麦克风信号采用相同的分帧方法进行短时傅里叶变换，帧与帧之间部分重叠，重叠的方式可以有多种，本实施例采用1/4帧移的方式进行分帧，当然也可以采用1/2帧移等其他方式；将第n个麦克风帧信号s_n(i)乘上窗函数w(i)，本实施例使用hamming窗，得到加窗帧信号x_n(i)；然后，对加窗后的帧信号进行短时傅里叶变换，得到频域的帧数据，即：

X_n(f)＝fft(x_n(i)) (1)

其中，i＝1,…,L，L为帧数据长度，f为频点。

步骤102，根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；

具体的，设计一个波束群，包含M个波束分别指向M个方向：θ₁，θ₂，…，θ_M，每个波束都使用麦克风阵列中的所有阵元做波束形成。各个相邻波束的主瓣相交，并且波束群的主瓣覆盖所需的空间范围，这样不管声源从哪个方向过来，都有一个波束的指向与之接近。

根据M个不同方向的权矢量，获得相应的M个波束形成后的频域帧数据。具体方法如下：针对其中的某个特定方向θ_m，使用M个不同方向的权向量对麦克风阵列中各个麦克风在相同频点f的接收数据进行加权和，得到第m个波束该频点加权合成数据Y_m(f)。

其中，W_m,n(f)为对第m个波束中第n个麦克风接收的频点f上数据所施加的权值，m＝1,…,M，*表示共轭，^H表示共轭转置，X和W_m分别为X_n(f)和W_m,n(f)的矢量表示形式。

具体的，由于受到麦克风阵列的拓扑结构的影响，使用麦克风阵列中的部分子阵做波束形成的效果可以非常接近使用全部阵元做波束形成的效果。可以通过较少的运算量获得相同的性能效果。如图2，图2为本发明波束形成的方法示意图。所示的8个指向性麦克风组成的圆型麦克风阵列，本实施例选择与期望信号方向最接近的那个麦克风及其相邻的两个麦克风组成子阵来做波束形成，比如期望信号为45度方向的波束，选择正对45度方向的2号麦克风及其相邻的1、3号麦克风组成子阵来做波束形成。

设计一个波束群，包含8个波束分别指向8个方向：0度、45度、90度、135度、180度、225度、270度、315度。各个相邻波束的主瓣相交，并且所有波束的主瓣叠加覆盖360度范围，这样不管声源从哪个方向过来，都有一个波束的指向与之接近。

步骤103，根据同一方向的不同频点的波束能量获取所述波束群的输出方向；

具体的，图3为步骤103的细化流程示意图。利用步骤102得到的加权合成数据Y_m(f)，分别计算M个频域帧数据的能量。计算公式如下：

其中f_s为采样率，然后，选择能量值E_m最大的波束，作为最终的波束形成结果。从而实现自适应选择一个与声源方向最接近的波束，获得最佳的音质。

具体的，为了节省计算量和保持选择的准确性，可以根据部分频点的能量和来选择最佳的输出波束。具体实现流程如图3所示。利用步骤102得到的加权合成数据Y_m(f)，分别计算M个方向对应的频域帧数据的能量和。计算公式如下：

其中0＜f₁＜f₂＜f_s/2，例如，当FFT的长度L为256时，f₁＝f_s/8,f₂＝f_s/2。这里计算的就是频点f₁到f₂的能量和。然后选择能量值E最大的波束，作为最终的波束形成结果。采用以上方式可以避免低频信号失真。

其中，所述多方向的权向量是基于延时累加波束形成算法、线性约束最小方差波束形成算法、广义旁瓣抵消波束形成算法或者最小方差无畸变响应法(Minimum VarianceDistortionless Response,MVDR)得到的。

具体的，本实施例以MVDR波束形成滤波器为例进行详细说明。

MVDR方法就是使输出信号的功率最小来获得对最优波束形成器权矢量的估计。输出信号的功率谱密度为：

Φ_YY＝W^HΦ_XXW (5)

其中Φ_xx表示阵列输入信号的功率谱密度矩阵。

在最优化过程中需要保证期望方向上的信号无失真，即

W^Hd＝1 (6)

其中d表示信号传播所引起的衰减和延迟，如下：

如果使用远场模型，各阵元接收信号的幅度差异可忽略，衰减因子α_n全部设为1，Ω为角频率，τ_n为空间两个阵元之间时间差：

其中，f_s为信号的采样率，c为声速340m/s，l_x,n为第n个阵元与参考阵元之间的间隔距离在x轴方向的分量，l_y,n为y轴方向的分量，l_z,n为z轴方向的分量，θ为入射信号在xy平面的投影与x轴的夹角，

为入射信号与z轴的夹角。图4为本发明提供的一种L型的三维空间麦克风阵列的示意图。而公式(4)对于任意拓扑结构的麦克风阵列都是适用的。

那么这个波束形成器就转化为求解带约束的优化问题：

因为只对最佳的噪声抑制感兴趣，如果期望信号的方向和阵列的指向是完全一致的，那么就只要使用噪声的功率谱密度矩阵，可以得到MVDR滤波器为：

其中Φ_vv为噪声的功率谱密度矩阵。如果该矩阵为相干矩阵即得到超指向性波束形成器，即为步骤102中使用的频域权矢量：

Γ_vv为噪声相干函数矩阵，其中第p行、第q列元素由下式计算：

其中l_pq为阵元p、q之间的间隔距离。

步骤104，获取所述方向上波束形成后输出的时域声音信号。

具体的，对所有频点f的加权合成帧数据Y(f)作逆短时傅里叶变换，即可得到加权后的时域帧数据y(i)，i＝1,…,L。然后，对时域帧数据做加窗与叠加处理，得到最终的时域数据。

对逆短时傅里叶变换的结果进行加窗，得到中间结果：

y′(i)＝y(i)·w(i),1≤i≤L (13)

由于采用的1/4帧移，需要将4帧的数据进行叠加处理。将上式求得结果所属第j-3、j-2、j-1、j帧的信号相叠加，得到第j帧时域信号z_j(i)(长度为L/4)：

z_j(i)＝y'_j-3(i+3·L/4)+y'_j-2(i+L/2)+y'_j-1(i+L/4)+y'_j(i)，1≤i≤L/4 (14)

本发明实施例通过获取至少通道两个声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；根据同一方向的不同频点的波束能量获取所述波束群的输出方向；获取所述方向上波束形成后输出的时域声音信号，本发明采用基于频域的宽带波束形成算法有效地提高了接收语音的增益，采用自适应选择最佳波束的方式，规避了提供期望信号到达方向等先验信息，减小了算法复杂度，增加了算法的适用范围。所用的频域波束形成算法有利于对信号频谱的精细调整，方便与其它的前后处理算法进行融合，同时，本发明易于实现，计算量小，适用于各种嵌入式平台。

实施例二：

参照图5，图5为本发明信号处理的方法第二实施例的流程示意图。

在第一实施例的基础上，步骤103之后还包括步骤105：

步骤105，对所述输出方向上波束形成后输出的各频点的音频信号乘以增益，所述增益为与频域值正比例相关的值。

具体的，在宽带波束中，还需要考虑波束在频域的一致性问题，尤其各频点的波束主瓣宽度不一致的问题。宽带波束的主瓣在低频部分宽，高频部分窄，如果同时满足公式(9)中的归一化约束条件，即保证期望方向上的信号无失真，将使信号的高频能量衰减较大，引起信号失真。因此，在波束形成以后，本实施例有一个后处理过程。随着频率的增加，将波束的权系数乘上一个逐渐递增的权值因子，如公式(15)所示，补偿高频部分的衰减，从而达到高频提升的目的。

Y(f)＝Y(f)×(1+f/f_s·β) (15)

优选地，针对不同的频率点作不同的增强或衰减处理，使得主观听觉感受更加舒适。例如，在低频时，波束的主瓣很宽，低频信号基本没有受到衰减，因此可以不用增强。而当频率大于一定值以后，信号开始衰减，随着频率的增加将波束的增益做不同程度的放大，如公式(16)所示。

其中，f₁＝f_s/8，f₂＝f_s/4，β₁、β₂为不同的放大倍数，本实施例中β₁＝2.8，β₂＝2。

所述增益在预先设置的不同频域值范围内，与频域值有不同的正比例关系。

步骤104，对增益后的所述输出方向上波束形成后输出的各频点的音频信号进行STFT的逆变换，获取时域声音信号。

采用本发明所述方法，与现有技术相比，基于频域的宽带波束形成算法，有效地提高了接收语音的增益。采用自适应选择最佳波束的方式，规避了提供期望信号到达方向等先验信息，减小了算法复杂度，增加了算法的适用范围。所用的频域波束形成算法有利于对信号频谱的精细调整，方便与其它的前后处理算法进行融合。采用调节频点增益的后处理算法，改善了宽带语音信号处理中的音质下降问题。同时，本发明易于实现，计算量小，适用于各种嵌入式平台。

本发明提供一种信号处理的装置。

实施例一：

参照图6，图6为本发明信号处理的装置第一实施例的功能模块示意图。

在第一实施例中，该装置包括：

采集与时频变换单元601，用于获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；

X_n(f)＝fft(x_n(i)) (1)

其中，i＝1,…,L，L为帧数据长度，f为频点。

第一获取单元602，用于根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；

优选地，所述第一获取单元602，用于：

第二获取单元603，用于根据同一方向的不同频点的波束能量获取所述波束群的输出方向；

优选地，所述第二获取单元603，用于：

具体的，实现流程如图3所示，利用第一获取单元602得到的加权合成数据Y_m(f)，分别计算M个频域帧数据的能量。计算公式如下：

优选地，所述第二获取单元603还用于：

具体的，为了节省计算量和保持选择的准确性，可以根据部分频点的能量和来选择最佳的输出波束。具体实现流程如图3所示。利用所述第一获取单元602到的加权合成数据Y_m(f)，分别计算M个方向对应的频域帧数据的能量和。计算公式如下：

其中，所述多方向的权向量是基于延时累加波束形成算法、线性约束最小方差波束形成算法、广义旁瓣抵消波束形成算法或者最小方差无畸变响应法MVDR得到的。

具体的，本实施例以MVDR波束形成滤波器为例进行详细说明。

Φ_YY＝W^HΦ_XXW (5)

其中Φ_xx表示阵列输入信号的功率谱密度矩阵。

在最优化过程中需要保证期望方向上的信号无失真，即

W^Hd＝1 (6)

其中d表示信号传播所引起的衰减和延迟，如下：

那么这个波束形成器就转化为求解带约束的优化问题：

其中Φ_vv为噪声的功率谱密度矩阵。如果该矩阵为相干矩阵即得到超指向性波束形成器，即为第一获取单元602中使用的频域权矢量：

其中l_pq为阵元p、q之间的间隔距离。

逆变换单元604，用于获取所述方向上波束形成后输出的时域声音信号。

对逆短时傅里叶变换的结果进行加窗，得到中间结果：

y′(i)＝y(i)·w(i),1≤i≤L (13)

本发明实施例通过获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；根据预先设置的多方向的权向量和所述各个声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号；根据同一方向的不同频点的波束能量获取所述波束群的输出方向；获取所述方向上波束形成后输出的时域声音信号，本发明采用基于频域的宽带波束形成算法有效地提高了接收语音的增益，采用自适应选择最佳波束的方式，规避了提供期望信号到达方向等先验信息，减小了算法复杂度，增加了算法的适用范围。所用的频域波束形成算法有利于对信号频谱的精细调整，方便与其它的前后处理算法进行融合，同时，本发明易于实现，计算量小，适用于各种嵌入式平台。

实施例二：

参照图7，图7为本发明信号处理的装置第二实施例的功能模块示意图。

在第一实施例的基础上，还包括增益单元605；

所述增益单元605，用于对所述输出方向上波束形成后输出的各频点的音频信号乘以增益，所述增益为与频域值正比例相关的值。

Y(f)＝Y(f)×(1+f/f_s·β) (15)

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信号处理的方法，其特征在于，所述方法包括：

获取所述方向上波束形成后输出的时域声音信号。

2.根据权利要求1所述的方法，其特征在于，所述根据预先设置的多方向的权向量和所述各个通道声音信号对应的频域音频信号获取每个频点的音频信号对应波束群的波束形成输出信号，包括：

根据预先设置的多方向的权向量，选取全部或部分通道声音信号对应的频域音频信号，获取每个频点的音频信号对应波束群的波束形成输出信号。

3.根据权利要求1所述的方法，其特征在于，所述根据同一方向的不同频点的波束能量获取所述波束群的输出方向，包括：

4.根据权利要求3所述的方法，其特征在于，所述对同一方向的不同频点的波束能量进行求和，并选取波束能量最大的方向作为输出方向，包括：

5.根据权利要求1所述的方法，其特征在于，所述多方向的权向量基于延时累加波束形成算法、线性约束最小方差波束形成算法、广义旁瓣抵消波束形成算法或者最小方差无畸变响应法MVDR而得到的。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述根据同一方向的不同频点的波束能量获取所述波束群的输出方向之后，还包括：

7.根据权利要求6所述的方法，其特征在于，所述增益在预先设置的不同频域值范围内，与频域值有不同的正比例关系。

8.一种信号处理的装置，其特征在于，所述装置包括：

采集与时频变换单元，用于获取至少两个通道声音信号，并对各个通道声音信号进行短时傅里叶变换STFT，获取所述各个通道声音信号对应的频域音频信号；

9.根据权利要求8所述的装置，其特征在于，所述第一获取单元，用于：

根据预先设置的多方向的权向量，选取部分通道声音信号对应的频域音频信号，获取每个频点的音频信号对应波束群的波束形成输出信号。

10.根据权利要求8所述的装置，其特征在于，所述第二获取单元，用于：

11.根据权利要求10所述的装置，其特征在于，所述第二获取单元还用于：

12.根据权利要求11所述的装置，其特征在于，所述多方向的权向量是基于延时累加波束形成算法、线性约束最小方差波束形成算法、广义旁瓣抵消波束形成算法或者最小方差无畸变响应法MVDR得到的。

13.根据权利要求8至12任意一项所述的装置，其特征在于，所述装置还包括增益单元，用于对所述输出方向上波束形成后输出的各频点的音频信号乘以增益，所述增益为与频域值正比例相关的值。

14.根据权利要求13所述的装置，其特征在于，所述增益在预先设置的不同频域值范围内，与频域值有不同的正比例关系。