WO2019223650A1

WO2019223650A1 - 一种波束成形方法、多波束成形方法、装置及电子设备

Info

Publication number: WO2019223650A1
Application number: PCT/CN2019/087621
Authority: WO
Inventors: 周舒然; 李志飞
Original assignee: 出门问问信息科技有限公司
Priority date: 2018-05-22
Filing date: 2019-05-20
Publication date: 2019-11-28

Abstract

本发明实施例公开了一种波束成形方法、多波束成形方法、装置及电子设备，通过计算空间滤波参数与目标声音源指向对应的原始频域信号的乘积获取所述目标声音源指向的波束成形输出，并通过对非目标声音源指向进行降噪处理提高所述目标声音源指向的波束成形输出的信噪比。由此，可以确保目标空间指向的声音不失真，并对其他目标空间指向的声音进行有效抑制，从而提高目标空间指向的声音的信噪比。

Description

一种波束成形方法、多波束成形方法、装置及电子设备

本申请要求了2018年05月22日提交的、申请号为2018104970698、发明名称为“多波束波束成形的方法、装置及电子设备”，2018年05月22日提交的、申请号为2018104964502、发明名称为“多波束波束成形的方法、装置及电子设备”，以及2018年05月22日提交的、申请号为2018104964485、发明名称为“波束成形的方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及语音处理技术领域，特别是涉及一种波束成形方法、多波束成形方法、装置及电子设备。

背景技术

随着智能终端技术的快速普及，用户对于智能终端的功能以及智能化的要求越来越高，如何使智能终端更加智能化，专业化，已经成为了当前研究方向之一。

比如：基本上所有的智能终端都标配录音功能，而录音功能大多数会使用波束成形(Beamforming)，波束成形是一种用于传感器阵列的信号处理技术(例如麦克风阵列)，用于定向信号接收和对接收到的声音信号进行适当的信号处理。波束成形允许麦克风组件接收声音信号以便达到选择性处理电信号的效果，例如，对从一个声源发出的声音信息的处理不同于从不同的声源发出的声音信息的处理。

目前，通常通过融合时域滤波器和频域中的波束成形驱动权重的计算来进行语音处理，但这并不能降低不需要的环境噪音。

发明内容

有鉴于此，本申请实施例提供了一种波束成形方法、多波束成形方法、装置及电子设备，以确保目标空间指向的声音不失真，并对其他目标空间指向的声音进行有效抑制，从而提高目标空间指向的声音的信噪比。

第一方面，本发明实施例提供一种波束成形的方法，包括：

获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同；确定所述空间滤波参数对应的声音源指向，并获取所述声音源指向对应的原始频域信号；

计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积用于对除声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形。

进一步地，在获取空间滤波参数之前，所述方法还包括：

计算所述空间滤波参数。

进一步地，所述计算空间滤波参数包括：

计算声音源到达麦克风阵列的延迟时间；

根据所述延迟时间构建信号矢量函数，并根据所述信号矢量函数及所述延迟时间计算声音源指向；

根据预设的第一限制条件和第二限制条件，计算损失函数趋向最小值时的空间滤波参数，所述损失函数根据所述空间滤波参数和所述信号矢量函数构造；

其中，所述第一限制条件具体为白噪音增益限制；所述第二限制条件具体为使得所述空间滤波参数与所述信号矢量函数的乘积为第一预设值。

进一步地，计算声音源到达麦克风阵列的延迟时间包括：

确定麦克风阵列中麦克风之间的间距，以及声音源传播声音的速度；

确定所述声音源指向的角度；

根据所述麦克风之间的间距、所述声音源传播声音的速度及所述声音源指向的角度计算延迟时间。

进一步地，根据所述信号矢量函数及所述延迟时间计算声音源指向包括：

确定所有子带频率对应的矩阵；

根据所述所有子带频率对应的矩阵、所述信号矢量函数及所述延迟时间计算声音源指向。

进一步地于，所述空间滤波参数为一矩阵。

进一步地，所述声音源指向为平面波0°-180°的任意角度。

第二方面，本发明实施例提供一种波束成形的装置，包括：

第一获取单元，用于获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同；

确定单元，用于确定所述第一获取单元获取的所述空间滤波参数对应的声音源指向；

第二获取单元，用于获取所述确定单元确定的所述声音源指向对应的原始频域信号；

第一计算单元，用于计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积用于对除声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形。

第三方面，本发明实施例提供一种多波束波束成形的方法，包括：

计算目标声音源指向对应的波束成形输出；

根据阻塞矩阵计算噪音参数；

根据所述噪音参数对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

进一步地，计算目标声音源指向对应的波束成形输出包括：

获取空间滤波参数，确定所述空间滤波参数对应的目标声音源指向；

获取所述目标声音源指向对应的原始频域信号；

计算所述空间滤波参数与所述目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形输出。

进一步地，根据阻塞矩阵计算噪音参数包括：

计算声音信号依次达到麦克风的频率响应；

根据所述频率响应构建所述阻塞矩阵；

根据所述阻塞矩阵及所述非目标声音源指向对应的原始频域信号，计算所述噪音参数。

进一步地，根据所述噪音参数对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪包括：

通过多通道滤波算法及迭代算法，计算多通道最优滤波参数；

根据所述目标声音源的波束成形输出、所述多通道最优滤波参数以及所述噪音参数，对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

第四方面，本发明实施例提供一种多波束波束成形的装置，包括：

第一计算单元，用于计算目标声音源指向对应的波束成形输出；

第二计算单元，用于通过阻塞矩阵计算噪音参数；

降噪单元，用于根据所述第二计算单元计算的所述噪音参数对所述第一计算单元计算的所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

进一步地，所述第一计算单元包括：

第一获取模块，用于获取空间滤波参数；

确定模块，用于确定所述第一获取模块获取的所述空间滤波参数对应的目标声音源指向；

第二获取模块，用于获取所述第一获取模块获取的目标声音源指向对应的原始频域信号；

计算模块，用于计算所述空间滤波参数与目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形输出。

进一步地，第二计算单元包括：

第一计算模块，用于计算声音信号依次达到麦克风的频率响应；

构建模块，用于根据所述第一计算模块计算的所述频率响应构建所述阻塞矩阵；

第二计算模块，用于根据所述构建模块构建的所述阻塞矩阵及所述非目标声音源指向对应的原始频域信号，计算所述噪音参数。

进一步地，所述降噪单元包括：

计算模块，用于通过多通道滤波算法及迭代算法，计算多通道最优滤波参数；

降噪模块，用于根据所述目标声音源的波束成形输出、所述多通道最优滤波参数以及所述噪音参数，对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

第五方面，本发明提供一种多波束波束成形的方法，包括：

计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个非目标声音源指向；

计算所述目标声音源指向的增强语音；

根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值；

计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音。

进一步地，在计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积之前，所述方法还包括：

通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

进一步地，所述计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形包括：

获取空间滤波参数，并确定所述空间滤波参数分别对应的至少两个声音源指向；

获取至少两个声音源指向分别对应的原始频域信号；

计算所述空间滤波参数分别与至少两个声音源指向对应的原始频域信号的乘积。

进一步地，所述计算目标声音源指向的增强语音包括：

以每个子带为单位，计算所述目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；

计算第一乘积与所述比值增益的乘积，以获取所述增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波参数之间的乘积。

进一步地，根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值包括：

将当前帧中所有子带对应的能量进行合并，计算当前帧所有子带的能量和；

计算所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和之间的比值，得到能量比值。

进一步地，通过平滑参数对当前帧与前一帧进行逐帧平滑处理包括：

设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为第二预设值；

计算前一帧的比值增益与前一帧的平滑参数以获取第二乘积；

计算当前帧的比值增益与当前帧的平滑参数的乘积以获取第三乘积；

根据所述第二乘积与第三乘积之和对当前帧进行逐帧平滑处理。

进一步地，计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音包括：

计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，根据平滑处理结果输出所述乘积对应的语音。

第六方面，本发明实施例提供一种多波束波束成形的装置，包括：

第一计算单元，用于计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个非目标声音源声音源指向；

第二计算单元，用于分别计算目标声音源指向的增强语音；

第三计算单元，用于根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值；

第四计算单元，用于计算所述目标声音源指向的所述原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音。

第七方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行以实现如本发明实施例第一方面所述的方法和/或如本发明实施例第三方面所述的方法和/或如本发明实施例第五方面所述的方法。

第八方面，本发明实施例提供一种电子设备，所述电子设备中包括处理器、存储器和总线；所述处理器、所述存储器通过所述总线完成相互间的通信；所述存储器中用于存储程序指令，所述程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法和/或如本发明实施例第三方面所述的方法和/或如本发明实施例第五方面所述的方法。

本发明实施例通过计算空间滤波参数与目标声音源指向对应的原始频域信号的乘积获取所述目标声音源指向的波束成形输出，并通过对非目标声音源指向进行降噪处理提高所述目标声音源指向的波束成形输出的信噪比。由此，可以确保目标空间指向的声音不失真，并对其他目标空间指向的声音进行有效抑制，从而提高目标空间指向的声音的信噪比。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的一种波束成形方法的流程图；

图2是本发明实施例的一种麦克风阵列的示意图；

图3是本发明实施例的另一种麦克风阵列的示意图；

图4是本发明实施例的一种计算空间滤波参数的方法流程图；

图5是本发明实施例的一种多波束波束成形方法的流程图；

图6是本发明实施例的一种目标声音源指向的最终语音输出的示意图；

图7是本发明实施例的另一种多波束波束成形方法的流程图；

图8是本发明实施例的又一种多波束波束成形方法的流程图；

图9是本发明实施例的一种波束成形装置的示意图；

图10是本发明实施例的另一种波束成形装置的示意图；

图11是本发明实施例的一种多波束波束成形装置的示意图；

图12是本发明实施例的另一种多波束波束成形装置的示意图；

图13是本发明实施例的又一种多波束波束成形装置的示意图；

图14是本发明实施例的又一种多波束波束成形装置的示意图；

图15是本发明实施例的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是本发明实施例的一种波束成形方法的流程图。本实施例的声音源的波束成形方法如图1所示，包括以下步骤：

步骤S110，获取空间滤波参数。其中，空间滤波参数随角度和子带频率的不同而不同。

在本实施例中，可以通过空间滤波参数增强固定空间指向(声音源指向)的波束成形，以确保指向方向的声音大致不变，其他方向的声音会在一定程度上有抑制。

本发明实施例中的空间滤波参数为在频域中的滤波器参数，其目的在于对每一帧的信号在子带频率上做相应的增益或者抑制。在一种可选的实现方式中，本实施例中的空间滤波参数为一矩阵，该空间滤波参数经过计算机设备的计算得到，将获取的空间滤波参数存储于执行本发明实施例所述的方法的电子设备中，以供电子设备直接使用，从而缩短了波束成形的时间消耗。

为了便于说明，后续实施例会以波束指向正前方90°方向为例进行说明，即声音源指向为正前方90°，但是，应当说明的是，该种说明该方式并非易在限定波束执行仅能为90°，实际应用中，所述声音源指向为平面波0°-180°的任意角度，如30°、60°、120°等。

步骤S120，确定空间滤波参数对应的声音源指向。

步骤S130，获取声音源指向对应的原始频域信号。

声音源从不同的方向达到麦克风阵列，导致不同麦克风接收到信号会有不同程度的延迟时间，可通过延迟时间进行波束聚焦的方向定位，并确定出与空间滤波参数一致的声音源指向(如正前方90°)。

所述麦克风阵列由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样，在实际应用中，麦克风数目可以4个成线型(如图2所示)等间距均匀分布、6个成线型等间距均匀分布、8个成圆形等间距均匀分布(如图3所示)，12或14个成圆形、长方形、月牙形等间距均匀分布等等，具体的本发明实施例对麦克风阵列的数量和排列方式不作限定。但是，为了便于说明，本发明实施例后续会以图2所示的4个成线型的麦克风阵列2为例进行说明，但是应当明确的是，该种说明方式并不是对麦克风阵列的具体限定。

在实际应用过程中，考虑到声波的特性，在对麦克风进行布局时，每个麦克风之间的距离不易设置的过大，也不能设置的过小，若设置的距离不合适会对声音源的聚焦定位产生误差，一般情况下，可设置麦克风之间的等间距距离小于80毫米，且大于30毫米。

在本实施例中，在通过延迟时间进行波束聚焦的方向定位时，可以采用但不局限于以下方法，通过麦克风排列的物理结构，计算声音源到达每一个麦克风的延迟时间。假设：确定麦克风间距d，声音传播速度c，以及声音源指向的角度Ω(也即想要收声和聚焦的方向角度，如正前方90°)。在麦克风阵列中，选择一个最先到达麦克风的参照物(如图2中的Mic1)，计算第一个麦克风Mic1的延迟时间为：tau_0＝d*sin(Ω)/c；第二个麦克风Mic2的延迟时间为tau_1＝2*d*sin(Ω)/c，第三个麦克风Mic4的延迟时间为：tau_2＝3*d*sin(Ω)/c，第四个麦克风Mic4的延迟时间为：tau_3＝4*d*sin(Ω)/c。以声音源指向的角度Ω为90°为例，通常第一个麦克风Mic1为参考麦克风，延迟时间为0，tau_1指的是声场到第二个麦克风Mic2的延迟时间。上述延迟时间的计算方法适用于线性等间距分布的麦克风阵列，其他麦克风分布及非等间距的计算方法与上述方法可能存在差异。

根据各麦克风阵列的延迟时间构建信号矢量函数，并根据信号矢量函数和延迟时间计算声音源指向。在构建信号矢量函数时，需要确定所有子带频率对应的矩阵。信号矢量函数为：

其中，Ω为收声和聚焦的方向角度，j为某个时刻下的相位，ω＝2*π*f，其中，f为所有子带频率对应的矩阵，τ ₀为声音源到第一个麦克风的延迟时间，N为麦克风的数量，τ _(N-1)为声音源到第N个麦克风的延迟时间。由此，可以根据信号矢量函数和各麦克风对应的延迟时间计算声音源指向。可选的，首先确定声音源对应的子带频率对应的矩阵，并根据声音源对应的所有子带频率对应的矩阵、上述信号矢量函数和延迟时间计算目标声音源指向。

在实际应用过程中，为了便于对声音进行后续使用，需要先将声音信号通过傅立叶变换将原来难以处理的时域信号(声音信号)转换成了易于分析的频域信号，所述傅立叶变换的原理为任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加，而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号，以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。其中，有关傅立叶变换的具体实现方式本发明实施例在此不再进行赘述。

需要说明的是，步骤110及步骤120之间并没有先后执行的限定，在实际应用中，也可先执行步骤110，再执行步骤120，或者，步骤110和步骤120同步执行，本发明实施例对此不做限定。

步骤S140、计算获取的空间滤波参数与声音源的原始频域信号的乘积以获取该声音源指向的波束成形输出。其中，所述乘积会以对除声音源指向的原始频域信号之外的非目标声音源对应的原始频域信号产生抑制的方式进行波束成形。

其中，空间滤波参数和原始频域信号均为矩阵，将两个矩阵相乘，所述乘积会以对除声音源指向的原始频域信号之外的非目标声音源对应的原始频域信号产生抑制的方式进行波束成形，使得固定方向的声音信号不失真，并且，对其他方向的声音信号产生抑制。

本发明实施例提供的波束成形的方法，电子设备获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同；确定所述空间滤波参数对应的声音源指向，并获取所述声音源指向对应的原始频域信号；计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积会以对除声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形；与现有技术相比，本发明不仅能够通过空间滤波参数的提前预置节省波束成形的时间，而且还能够实现对固定方向的声音信号不失真。

在本实施例中，通过计算机设备预先计算平面波0°-180°的任意角度对应的空间滤波参数，以便对声音源进行波束成形时获取对应的空间滤波参数。

图4是本发明实施例的一种计算空间滤波参数的方法流程图。在一种可选的实现方式中，如图4所示，计算空间滤波参数具体包括以下步骤：

步骤S1，计算声音源到达麦克风阵列的延迟时间。声音源从不同的方向到达麦克风阵列，导致不同麦克风接收到信号会有不同程度的延迟时间，可通过延迟时间进行波束聚焦的方向定位，并确定出与空间滤波参数一致的声音源指向(如正前方90°)。

在本实施例中，计算声音源到达麦克风阵列的延迟时间具体可以采用但不限于以下步骤：确定麦克风间距d，声音传播速度c，以及声音源指向的角度Ω(也即想要收声和聚焦的方向角度，如正前方90°)。根据确定麦克风间距d，声音传播速度c，以及声音源指向的角度Ω计算上述延迟时间。具体方法请参考步骤S120，在此不再赘述。

步骤S2，根据各麦克风阵列的延迟时间构建信号矢量函数，并根据信号矢量函数和延迟时间计算声音源指向。在构建信号矢量函数时，需要确定所有子带频率对应的矩阵。信号矢量函数为：

其中，Ω为收声和聚焦的方向角度，j为某个时刻下的相位，ω＝2*π*f，其中，f为所有子带频率对应的矩阵，τ ₀为声音源到第一个麦克风的延迟时间，N为麦克风的数量，τ _(N-1)为声音源到第N个麦克风的延迟时间。由此，可以根据信号矢量函数和各麦克风对应的延迟时间计算声音源指向。可选的，首先确定声音源对应的子带频率对应的矩阵，并根据声音源对应的所有子带频率对应的矩阵、上述信号矢量函数和延迟时间计算目标声音源指向。具体解释请参考步骤S120，在此不再赘述。

步骤S3，根据预设的第一限制条件和第二限制条件，计算损失函数趋向最小值时的空间滤波参数。其中，损失函数根据空间滤波参数和信号矢量函数构造。

在一种可选的实现方式中，预设的第一限制条件为白噪音增益限制。

W _f(ω)为空间滤波参数，T为转置运算，H为共轭转置，ω＝2*π*f，f为所有子带频率对应的矩阵，Ω为收声和聚焦的方向角度。g(ω,Ω)为信号矢量函数。γ为白噪音的增益限制，可选的，白噪音的增益限制为gamma_db＝-20db，γ具体为exp(gamma_db/10)，具体的，本发明实施例对γ的具体数值不做限定。

在一种可选的实现方式中，预设的第二限制条件为使得空间滤波参数与信号矢量函数的乘积为第一预设值。优选地，第一预设值为1。也就是说，第二限制条件为：W _f(ω)*g(ω,Ω)＝1。其中，空间滤波参数与信号矢量函数均为矩阵，并且，在一般情况下信号矢量函数的矩阵几乎不会变化。

本发明实施例要对波束形成的空间条件进行限定。在具体实现过程中，必须要同时满足所述第一限制条件和第二限制条件。可选的，除了满足上述两个限制条件外，还可以包含满足第三限制条件，第三限制条件为：确定损失函数的凸面性。

其中，R _nn是噪声的协方差矩阵，g(ω,Ω)为信号矢量函数，H为共轭转置。

根据空间滤波参数及信号矢量函数构造的损失函数为：

其中，损失函数b_hat使得最终得到在每个角度Ω上的响应response：

根据所述第一限制条件及所述第二限制条件，计算所述损失函数趋向最小值时的空间滤波参数具体如下：

在计算损失函数趋向最小值时的空间滤波参数，还需要与第一限制条件、第二限制条件与第三限制条件建立方程式，采用数学解方程的方式解空间滤波参数，有关数学解答方程的算法本发明实施例在此不再进行赘述。

图5是本发明实施例的一种多波束波束成形方法的流程图。如图5所示，本实施例的多波束波束成形方法包括以下步骤：

步骤S210，计算目标声音源指向对应的波束成形输出。

本发明实施所述的波束成形的声音角度来源为至少两个声音源指向，构成多波束波束成形，在实际应用中，所述声音源指向为平面波0°-180°的任意角度，需要说明的是，本发明实施例所述的至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向，为了便于说明，后续实施例会以波束指向：0°、30°、60°、90°、120°、150°、180°方向(共7个方向)为例进行说明，其中，目标声音源为指向90°，但是，应当说明的是，该种说明该方式并非易在限定波束执行仅能为上述角度，还可以指向53°、80°，目标声音源还可以为60°等等，具体不做限定。

分别计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积，得到各个单波束成形，该结果也为一个矩阵，其表现形式为频谱。在计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积时，需要通过麦克风阵列确定各个声音源指向，具体包括：所述麦克风阵列由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样，在实际应用中，麦克风数目可以4个成线型(如图2所示)等间距均匀分布、6个成线型等间距均匀分布、8个成圆形等间距均匀分布(如图3所示)，12或14个成圆形、长方形、月牙形等间距均匀分布等等，具体的本发明实施例对麦克风阵列的数量和排列方式不作限定。但是，为了便于说明，本发明实施例后续会以图3所示的4个成线型的麦克风阵列3为例进行说明，但是应当明确的是，该种说明方式并不是对麦克风阵列的具体限定。

作为本发明实施例的另一种实现方法，在计算目标声音源指向对应的波束成形输出时，还可以采用GSC(Generalized Sidelobe Cancellation)等计算单一声音源指向的波束成形的算法，本发明实施例对计算单一声音源指向的波束成形算法不做限定。

S220，根据阻塞矩阵计算噪音参数。其中，阻塞矩阵用于表征声音信号的频率响应。计算噪音参数的目的在于对非目标声音源指向的声音进行降噪。例如，波束指向分别为：0°、30°、60°、90°、120°、150°、180°方向(共7个方向)，目标声音源指向为90°，则噪音参数用于对声音源指向为：0°、30°、60°、120°、150°、180°的声音进行降噪。

步骤S230，根据噪声参数对目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

在具体实施过程中，从步骤S210计算的目标声音源指向对应的波束成形输出信号中，滤除步骤S220中非目标声音源指向的信号，即采用噪音参数对非目标声音源指向的信号进行降噪，如此一来既能确保目标声音源指向声音的不失真，又能降低其他声音源指向声音的干扰。

本发明实施例提供的多波束波束成形的方法，计算目标声音源指向对应的波束成形输出；通过阻塞矩阵计算噪音参数；根据所述噪音参数对所述目标声音源指向对应的波束成形输出之外的其他声音源指向的信号进行降噪；与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且对其他声音源指向的声音进行降噪，能够有效抑制其他声音方向的干扰。

进一步的，作为对上述实施例的进一步扩展及细化，下面依次说明每个步骤的具体实现方法。

在执行步骤S210计算目标声音源指向对应的波束成形输出时，可以采用但不局限于以下方法，例如：获取空间滤波参数，并确定所述空间滤波参数对应的目标声音源指向，获取目标声音源指向对应的原始频域信号；计算所述空间滤波参数与目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形。

其中，本发明实施例所述的空间滤波参数为在频域中的滤波器参数，其目的在于对每一帧的信号在子带频率上做相应的增益。在实际应用中，本发明实施例中所述的空间滤波参数为一矩阵，该空间滤波参数经过电脑设备的计算得到，将获取的空间滤波参数存储于执行本发明实施例所述的方法的电子设备中，以供电子设备直接使用，从而缩短了波束成形的时间消耗。

获取空间滤波参数W _f(ω)，并确定所述空间滤波参数W _f(ω)对应的目标声音源指向，并分别获取目标声音源指向对应的原始频域信号；计算所述空间滤波参数W _f(ω)分别与不同声音源指向对应的原始频域信号的乘积。

在本实施例中，确定空间滤波参数W _f(ω)对应的目标声音源指向在通过延迟时间进行波束聚焦的方向定位时，即确定空间滤波参数W _f(ω)对应的目标声音源指向，可以采用但不局限于以下方法，通过麦克风排列的物理结构，计算声音源到达每一个麦克风的延迟时间。假设：确定麦克风间距d，声音传播速度c，以及声音源指向的角度Ω(也即想要收声和聚焦的方向角度，如正前方90°)。在麦克风阵列中，选择一个最先到达麦克风的参照物(如图2中的Mic1)，计算第一个麦克风Mic1的延迟时间为：tau_0＝d*sin(Ω)/c；第二个麦克风Mic2的延迟时间为tau_1＝2*d*sin(Ω)/c，第三个麦克风Mic4的延迟时间为：tau_2＝3*d*sin(Ω)/c，第四个麦克风Mic4的延迟时间为：tau_3＝4*d*sin(Ω)/c。通常第一个麦克风Mic1为参考麦克风，所以延迟时间为0，tau_1指的是声场到第二个麦克风Mic2的延迟时间。上述延迟时间的计算方法适用于线性等间距分布的麦克风阵列，其他麦克风分布及非等间距的计算方法与上述方法可能存在差异。

进一步地，空间滤波参数W _f(ω)和原始频域信号Z(t,e ^jω)均为矩阵，将两个矩阵相乘：得到Y(ω,Ω)＝W _f(ω)Z(t,e ^jω)，乘积Y(ω,Ω)会对除目标声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形，使得固定方向的声音信号不失真。

在执行步骤S220通过阻塞矩阵计算噪音参数，可以采用但不局限于以下方式，例如：通过计算声音信号依次到达麦克风的频率响应，并根据该频率响应构建阻塞矩阵，根据该阻塞矩阵和非目标声音源指向对应的原始频域信号，计算噪声参数。计算噪音参数的目的在于对非目标声音源指向的声音进行降噪。

在一种可选的实现方式中，首先计算声音信号到达第一个麦克风的频率响应：A-1(e ^jω)，到达第二个麦克风的频率响应：A-2(e ^jω)，…，声音信号到达第M个麦克风的频率响应：A-M(e ^jω)，A用于表征麦克风的频率响应函数。

根据上述频率响应构建组阻塞矩阵：

阻塞矩阵H(e ^jω)构建完毕后，根据阻塞矩阵H(e ^jω)及非目标声音源指向对应的原始频域信号Z(t,e ^jω)，计算所述噪音参数：

U(t,e ^jω)＝H(t,e ^jω)Z(t,e ^jω)

其中，t表征每帧信号的输入时间。

在具体实施过程中，从步骤S210中计算的目标声音源指向对应的波束成形输出信号中，滤除步骤S220中非目标声音源指向的信号，即采用噪音参数U(t,e ^jω)对非目标声音源指向的信号进行降噪，如此一来既能确保目标声音源指向声音的不失真，又能降低非目标声音源指向声音的干扰。

在实际应用过程中，声音信号在传播过程中，会包含一些风扇、空调等比较稳定、微弱的噪声。为了降低该些噪声，在步骤S230执行根据噪音参数U(t,e ^jω)对目标声音源指向对应的波束成形输出之外的其他声音源指向的信号进行降噪时，可以采用但不局限于以下方法，包括：通过多通道滤波算法及迭代算法，计算多通道最优滤波参数；根据目标声音源的波束成形输出、最优滤波参数以及噪音参数，对目标声音源指向对应的波束成形输出之外的其他声音源指向的信号进行降噪。

本发明实施例以多通道滤波算法为多通道维纳滤波为例进行说明。为了使得目标声音源指向输出的能量收到的影响最小，通过多通道维纳滤波和NLMS迭代的方法(Normalized Least Mean Square，归一化最小均方自适应滤波算法)，计算最优滤波参数G(t,e ^jω)，进一步滤掉稳定的背景噪音，计算最优滤波参数G(t,e ^jω)，必须使得E{||Y(t,e ^jω)-G(t,e ^jω)U(t,e ^jω)|| ²}最小，进而得到最优滤波参数G(t,e ^jω)。

计算出最优滤波参数G(t,e ^jω)、噪音参数U(t,e ^jω)之后，输出最终目标声音源指向的语音输出：

Y＝Y(ω,Ω)-G(t,e ^jω)*U(t,e ^jω)

为了便于对最终的语音输出的理解，如图6所示，图6示出了本发明实施例的一种目标声音源指向的最终语音输出的示意图，其中，图7中Y(ω,Ω)表示为Y _FBF(t,e ^jω)，G(t,e ^jω)*U(t,e ^jω)表示为Y _NC(t,e ^jω)。

本实施例通过计算目标声音源指向对应的波束成形输出，并根据噪音参数对非目标声音源指向的信号进行降噪，由此，可以进一步确保目标声音源指向的声音不失真，并进一步抑制非目标声音源指向的干扰。

图7是本发明实施例的另一种多波束波束成形方法的流程图。如图7所示，本实施例的多波束波束成形方法包括以下步骤：

步骤S340，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形。其中，空间滤波参数随声音源的角度和子带频率的不同而不同，至少两个声音源指向包含一个目标声音源及至少一个非目标声音源指向。

本实施例所述的空间滤波参数为在频域中的滤波器参数，其目的在于对每一帧的信号在子带频率上做相应的增益。在实际应用中，本发明实施例中所述的空间滤波参数为一矩阵，该空间滤波参数经过电脑设备的计算得到，计算得到结果后将空间滤波参数存储于本发明实施例所述的电子设备中，以供电子设备直接使用，从而缩短了波束成形的时间消耗。在一种可选的实现方式中，本实施例可采用图4中的步骤S1-S3所述的方法来计算空间滤波参数，在此不再赘述。

本实施例的波束成形的声音角度来源为至少两个声音源指向，构成多波束波束成形，在实际应用中，所述声音源指向为平面波0°-180°的任意角度，需要说明的是，本发明实施例所述的至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向，为了便于说明，后续实施例会以波束指向：0°、30°、60°、90°、120°、150°、180°方向(共7个方向)为例进行说明，其中，目标声音源为指向90°，但是，应当说明的是，该种说明该方式并非易在限定波束执行仅能为上述角度，还可以指向53°、80°，目标声音源还可以为60°等等，具体不做限定。

分别计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积，得到各个单波束成形，该结果也为一个矩阵，其表现形式为频谱。在计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积时，需要通过麦克风阵列确定各个声音源指向，具体包括：所述麦克风阵列由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样，在实际应用中，麦克风数目可以4个成线型等间距均匀分布(如图2所示)、6个成线型等间距均匀分布、8个成圆形等间距均匀分布(如图3所示)，12或14个成圆形、长方形、月牙形等间距均匀分布等等，具体的本发明实施例对麦克风阵列的数量和排列方式不作限定。但是，为了便于说明，本发明实施例后续会以图2中的麦克风阵列样式和数量为例进行说明，但是应当明确的是，该种说明方式并不是对麦克风阵列的具体限定。

步骤S320，计算目标声音源指向的增强语音。

本实施例以图2中的麦克风阵列2为例，在获取到7个方向的声音，将7段声音经过傅里叶变换后，得到7个4*512的矩阵，其中，4代表麦克风的数量，512代表将不同方向对应的频谱分别分解为512个子带。本步骤的目的在于从子带的角度进行滤波处理，确定目标声音源对应的所有子带，在每个子带上的占比。

假设目标声音源指向为90°，目标声音源对应的频谱对应α1:4*512个子带，0°声音源指向对应的频谱对应α2:4*512个子带，30°声音源指向对应的频谱对应α3:4*512个子带，60°声音源指向对应的频谱对应α4:4*512个子带，120°声音源指向对应的频谱对应α5:4*512个子带，150°声音源指向对应的频谱对应α6:4*512个子带，180°声音源指向对应的频谱对应α7:4*512个子带。在一种实现方式中，计算目标声音源指向对应的比值增益为：α1/(α1+α2+α3+α4+α5+α6+α7)；在另一种实现方式中，计算目标声音源指向对应的比值增益为：α1/(α2+α3+α4+α5+α6+α7)。得到目标声音源对应的比值增益后，根据比值增益与步骤S310计算的多波束波束成形输出(也即空间滤波参数与至少两个声音源指向对应的原始频域信号的乘积)获得目标声音源指向的增强语音。可选的，计算第一乘积与目标声音源对应的比值增益的乘积。其中，第一乘积为目标声音源指向对应的原始频域信号与空间滤波参数之间的乘积。

步骤S330，根据目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值。

在一种可选的实现方式中，将当前帧频谱分解的多个子带进行合并，并获取合并后的子带的能量。其中，当前帧中包括目标声音源和非目标声音源。在具体实施过程中，先将目标声音源对应的512个子带进行合并，并确定合并后的子带能量。其次，依次将其他6个声音源指向(或7个声音源指向，包含目标声音源)的512个子带进行合并，分别确定每个合并后的声音源指向的子带能量，最后，计算6个声音源指向(或7个声音源指向，包含目标声音源)的所有子带的能量和，该能量和为一矩阵。

根据目标声音源对应的子带能量与6个声音源指向(或7个声音源指向，包含目标声音源)的所有子带的能量和，计算能量比值。

步骤S340，计算目标声音源指向的原始频域信号、目标声音源指向对应的增强语音以及能量比值的乘积，以对非目标声音源指向降噪，并输出该乘积对应的语音。

获取目标声音源指向对应的原始频域信号，并计算原始频域信号与步骤S320得到的目标声音源指向对应的增强语音、步骤S330计算得到的能量比值之间的乘积，根据该乘积得到的波束成形能够确保目标声音源指向的声音不失真，同时，能够抑制非目标声音源方向产生的噪音。

本发明实施例提供的多波束波束成形的方法，通过计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，并通过计算目标声音源指向的增强语音、能量比值和目标声音源指向的所述原始频域信号的乘积，以输出该乘积对应的语音，从而实现对非目标声音源的降噪处理，确保目标声音源指向的声音不失真。

图8是本发明实施例的又一种多波束波束成形方法的流程图。作为对上述实施例的细化和扩展，本发明实施例还提供另一种多波束波束成形的方法，如图8所示，本实施例的多波束波束成形方法包括以下步骤：

步骤S410，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形。其中，空间滤波参数随声音源的角度和子带频率的不同而不同，至少两个声音源指向包含一个目标声音源及至少一个非目标声音源指向。

在计算空间滤波参数W _f(ω)与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形时，可以采用但不局限于以下方法：

获取空间滤波参数W _f(ω)，并确定所述空间滤波参数W _f(ω)分别对应的各声音源指向，并分别获取各声音源指向对应的原始频域信号；计算所述空间滤波参数W _f(ω)分别与不同声音源指向对应的原始频域信号的乘积。

在本实施例中，确定空间滤波参数W _f(ω)对应的至少两个声音源指向在通过延迟时间进行波束聚焦的方向定位时，即确定空间滤波参数W _f(ω)对应的目标声音源指向，可以采用但不局限于以下方法，通过麦克风排列的物理结构，计算声音源到达每一个麦克风的延迟时间。假设：确定麦克风间距d，声音传播速度c，以及声音源指向的角度Ω(也即想要收声和聚焦的方向角度，如正前方90°)。在麦克风阵列中，选择一个最先到达麦克风的参照物(如图2中的Mic1)，计算第一个麦克风Mic1的延迟时间为：tau_0＝d*sin(Ω)/c；第二个麦克风Mic2的延迟时间为tau_1＝2*d*sin(Ω)/c，第三个麦克风Mic4的延迟时间为：tau_2＝3*d*sin(Ω)/c，第四个麦克风Mic4的延迟时间为：tau_3＝4*d*sin(Ω)/c。通常第一个麦克风Mic1为参考麦克风，所以延迟时间为0，tau_1指的是声场到第二个麦克风Mic2的延迟时间。上述延迟时间的计算方法适用于线性等间距分布的麦克风阵列，其他麦克风分布及非等间距的计算方法与上述方法可能存在差异。

进一步地，空间滤波参数W _f(ω)和原始频域信号Z(t,e ^jω)均为矩阵，将两个矩阵相乘：得到Y(ω,Ω)＝W _f(ω)Z(t,e ^jω)，乘积Y(ω,Ω)会对除目标声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形，使得固定方向的声音信号不失真，并且，对其他方向的声音信号产生抑制。

在本实施例中，假设有7个声音源指向(包含一个90°的目标声音源指向)、4个麦克风(如图2所示的麦克风阵列3)采集声音，通过上述方法计算波束指向分别为：0°、30°、60°、90°、120°、150°、180°方向(共7个方向)的单波束成形。得到7个4*512的矩阵，4代表麦克风的数量，512代表将不同方向对应的频谱分别分解为512个子带。

步骤S420，计算目标声音源指向的增强语音。

在实际应用中采用以下方式计算目标声音源指向的增强语音，包括：

以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；计算第一乘积B(ω,Ω)与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

在计算所有声音源指向的能量和时，其实质为将4个麦克风进行合并，即合并后得到7个1*512的矩阵，得到所有声音源指向的能量和记作Spectrum power of other directions，继续获取目标声音源指向的能量，记作：Spectrum power of target directions，计算目标声音源指向的能量Spectrum power of target directions与所有声音源指向的能量和Spectrum power of other directions的比值，得到比值增益Gain-mask。

继续计算第一乘积B(ω,Ω)与比值增益Gain-mask的乘积，得到增强语音Gain-mask-frame＝B(ω,Ω)*Gain-mask。

步骤S430，根据目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值。

具体包括：将当前帧中所有子带对应的能量进行合并，并计算当前帧所有子带的能量和；计算所述目标声音源对应的子带能量与非目标声音源指向的所有子带的能量和之间的比值，得到能量比值。或者，计算所述目标声音源对应的子带能量与当前帧中所有子带的能量和之间的比值，得到能量比值。

当前帧中包含7个声音源方向的所有子带，将当前帧中所有子带对应的能量进行合并，首先，将每个声音源指向的所有子带进行合并，得到不同方向对应的频谱，得到7*1的矩阵，其中，7为7个声音源方向，1为合并后的子带(频谱)。其次，将不同方向对应的所有子带进行合并，得到1*1的矩阵，即根据该矩阵获取所有子带的能量和，记作Energy of each bin in all directions。第三，获取目标声音源对应的子带能量，记作：Energy of each bin in target directions，最后，计算所述目标声音源对应的子带能量与非目标声音源指向的所有子带的能量和(当前帧所有声音源指向对应的所有子带的能量和)之间的比值，得到能量比值，记作：Gain-mask-frame-bin。

步骤S240，通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

本发明实施例中，进行平滑处理的目的在于，使连续两帧之前的语音能够平滑过渡。因此，在通过平滑参数对当前帧与前一帧进行逐帧平滑处理时，可以采用但不局限于以下方式实现：

设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为第二预设值。优选地，第二预设值为1。计算前一帧的比值增益与前一帧对应的平滑参数的乘积以获取第二乘积，计算上述比值增益与当前帧对应的平滑参数的乘积以获取第三乘积。根据第二乘积与第三乘积之和对当前帧中的声音源进行逐帧平滑处理。

在一种可选的实现方式中，平滑参数γ为一经验值，可设置当前帧的平滑参数γ为0.8，那么前一帧的平滑参数为(1-γ)＝0.2，具体的，本发明实施例对此不做限定。由此，可以获取当前帧的比值增益以对当前帧中的声音源进行逐帧平滑处理。假设前一帧的比值增益为前一帧的比值增益为Previous Gain。则当前帧的比值增益Current Gain＝Previous Gain*(1-γ)+γ*Gain-mask＝Previous Gain*(1-γ)+γ*Spectrum power of target directions/Spectrum power of other directions。

步骤S450，计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的乘积，并根据上述平滑处理结果输出所述乘积对应的语音。

本实施例通过计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，并通过计算目标声音源指向的增强语音、能量比值和目标声音源指向的所述原始频域信号的乘积，同时通过平滑参数对当前帧与前一帧进行逐帧平滑，根据平滑处理结果输出该乘积对应的语音，进一步对非目标声音源的降噪处理，并进一步确保目标声音源指向的声音不失真。

进一步的，作为对上述图1所示方法的实现，本发明另一实施例还提供了一种语音处理装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步的，作为对上述图1所示方法的实现，本发明另一实施例还提供了一种波束成形装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图9是本发明实施例的一种波束成形装置的示意图。图10是本发明实施例的另一种波束成形装置的示意图。如图9所示，本实施例的波束成形装置9包括第一获取单元91、确定单元92、第二获取单元93和第一计算单元94。

其中，第一获取单元91用于获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同。确定单元92用于确定所述第一获取单元91获取的所述空间滤波参数对应的声音源指向。第二获取单元93用于获取所述确定单元92确定的所述声音源指向对应的原始频域信号。第一计算单元94用于计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积用于对除声音源指向的原始频域信号之外的其他频域信号进行抑制。

进一步的，如图10所示，波束成形装置9还包括：

第二计算单元95用于在第一获取单元93获取空间滤波参数之前，计算所述空间滤波参数。

进一步的，如图10所示，所述第二计算单元95包括：

第一计算模块951，用于计算声音源到达麦克风阵列的延迟时间。构建模块952，用于构建信号矢量函数。第二计算模块953，用于根据所述构建模块952构建的所述信号矢量函数及所述第一计算模块951计算的所述延迟时间计算声音源指向。第一设定模块954，用于设定第一限制条件，所述第一限制条件为白噪音增益限制。第二设定模块955，用于设定第二限制条件，所述第二限制条件为所述空间滤波参数与所述信号矢量函数的乘积为1。构造模块956，用于根据所述空间滤波参数及所述信号矢量函数构造损失函数。第三计算模块957，用于根据所述第一设定模块954设定的所述第一限制条件及所述第二设定模块设955定的所述第二限制条件，计算所述损失函数趋向最小值时的空间滤波参数。

进一步的，如图10所示，所述第一计算模块951包括：

第一确定子模块951a，用于确定麦克风阵列中麦克风之间的间距，以及声音源传播声音的速度。第二确定子模块951b，用于确定所述声音源指向的角度。计算子模块951c，用于根据所述麦克风之间的间距、速度及角度计算延迟时间。

进一步的，如图12所示，所述第二计算模块953包括：

确定子模块953a，用于确定所有子带频率对应的矩阵。计算子模块953b，用于根据所述确定子模块确定的所述所有子带频率对应的矩阵、所述信号矢量函数及所述延迟时间计算声音源指向。

进一步的，所述空间滤波参数为一矩阵。

进一步的，所述声音源指向为平面波0°-180°的任意角度。

由于本实施例所介绍的波束成形装置为可以执行本发明实施例中的波束成形方法的装置，故而基于本发明实施例中所介绍的波束成形方法，本领域所属技术人员能够了解本实施例的波束成形装置的具体实施方式以及其各种变化形式，所以在此对于该波束成形装置如何实现本发明实施例中的波束成形方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中波束成形方法所采用的装置，都属于本申请所欲保护的范围。

进一步的，作为对上述图5所示方法的实现，本发明另一实施例还提供了一种多波束波束成形的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图11是本发明实施例的一种多波束波束成形装置的示意图。图12是本发明实施例的另一种多波束波束成形装置的示意图。如图11所示，本实施例的多波束波束成形装置11包括第一计算单元111、第二计算单元112和降噪单元113。

其中，第一计算单元111用于计算目标声音源指向对应的波束成形输出。第二计算单元112用于通过阻塞矩阵计算噪音参数。降噪单元113用于根据所述第二计算单元112计算的所述噪音参数对第一计算单元111计算的所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。

进一步的，如图12所示，所述第一计算单元111包括：

第一获取模块1111，用于获取空间滤波参数。

确定模块1112，用于确定所述第一获取模块1111获取的所述空间滤波参数对应的目标声音源指向。

第二获取模块1113，用于获取所述第一获取模块1111获取的目标声音源指向对应的原始频域信号。

计算模块1114，用于计算所述空间滤波参数与目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形。

进一步的，如图12所示，第二计算单元112包括：

第一计算模块1121，用于计算声音信号依次达到麦克风的频率响应。

构建模块1122，用于根据所述第一计算模块计算的所述频率响应构建所述阻塞矩阵。

第二计算模块1123，用于根据所述构建模块构建的所述阻塞矩阵及所述其他声音源指向对应的原始频域信号，计算所述噪音参数。

进一步的，如图12所示，所述降噪单元113包括：

计算模块1131，用于通过多通道滤波算法及迭代算法，计算多通道最优滤波参数。

降噪模块1132，用于根据所述目标声音源的波束成形输出、最优滤波参数以及所述噪音参数，对所述目标声音源指向对应的波束成形输出之外的其他声音源指向的信号进行降噪。

由于本实施例所介绍的多波束波束成形装置为可以执行本发明实施例中的多波束波束成形方法的装置，故而基于本发明实施例中所介绍的多波束波束成形方法，本领域所属技术人员能够了解本实施例的多波束波束成形装置的具体实施方式以及其各种变化形式，所以在此对于该多波束波束成形装置如何实现本发明实施例中的多波束波束成形方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中多波束波束成形方法所采用的装置，都属于本申请所欲保护的范围。

进一步的，作为对上述图7所示方法的实现，本发明另一实施例还提供了一种多波束波束成形的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图13是本发明实施例的又一种多波束波束成形装置的示意图。图14是本发明实施例的又一种多波束波束成形装置的示意图。如图13所示，本实施例中的多波束波束成形装置13包括第一计算单元131、第二计算单元132、第三计算单元133和第四计算单元134。

其中，第一计算单元131，用于计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述各声音源指向包含一个目标声音源及至少一个非目标声音源指向。

第二计算单元132，用于分别计算目标声音源指向的增强语音。

第三计算单元133，用于根据目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值。

第四计算单元134，用于计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，输出所述乘积对应的语音。

进一步的，如图14所示，多波束波束成形装置13还包括：

处理单元135，用于在所述第四计算单元134计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积之前，通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

进一步的，如图14所示，所述第一计算单元131包括：

第一获取模块1311，用于获取空间滤波参数。

确定模块1312，用于确定所述第一获取模块1311获取的所述空间滤波参数分别对应的至少两个声音源指向。

第二获取模块1313，用于分别获取所述确定模块确定的至少两个声音源指向对应的原始频域信号。

计算模块1314，用于计算所述空间滤波参数分别与不同声音源指向对应的原始频域信号的乘积。

进一步的，如图14所示，所述第二计算单元132包括：

第一计算模块1321，用于以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益。

第二计算模块1322，用于计算第一乘积与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

进一步的，如图14所示，所述第三计算单元133包括：

合并模块1331，用于将当前帧中所有子带对应的能量进行合并。

第一计算模块1332，用于计算当前帧所有子带的能量和。

第二计算模块1333，用于计算所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和之间的比值，得到能量比值。

进一步的，如图14所示，所述处理单元135包括：

设置模块1351，用于设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为1。

计算模块1352，用于计算前一帧的比值增益与对应的平滑参数的乘积以获取第二乘积，计算当前帧的平滑参数与所述比值增益的乘积以获取第三乘积。

处理模块1353，用于根据所述第一乘积与第二乘积之和对当前帧进行逐帧平滑处理。

进一步的，所述第四计算单元134，还用于计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的乘积，并根据平滑处理结果输出所述乘积对应的语音。

本发明实施例提供的多波束波束成形的装置，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音，与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且能够有效抑制其他声音方向的干扰。

上述各装置均包括处理器和存储器，装置中的各个单元均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现上述方法时，确保目标空间指向的声音不失真，并对其他空间指向的声音进行有效抑制。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述语音处理方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述语音处理方法。

图15是本发明实施例的一种电子设备的结构框图。如图15所示，电子设备17包括：

至少一个处理器151；

以及与所述处理器151连接的至少一个存储器152、总线153；其中，

所述处理器151、存储器152通过所述总线153完成相互间的通信；

所述处理器151用于调用所述存储器152中的程序指令，以执行上述方法的任一实施例。

本文中的电子设备可以是服务器、PC、PAD、手机、智能电视等一切包含麦克风的智能设备。

本发明实施例提供的电子设备，通过计算空间滤波参数与目标声音源指向对应的原始频域信号的乘积获取所述目标声音源指向的波束成形输出，并通过对非目标声音源指向进行降噪处理提高所述目标声音源指向的波束成形输出的信噪比。由此，可以确保目标空间指向的声音不失真，并对其他目标空间指向的声音进行有效抑制，从而提高目标空间指向的声音的信噪比。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一种语音处理方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时实现上述任一种语音处理方法的功能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种波束成形的方法，其特征在于，包括：

获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同；确定所述空间滤波参数对应的声音源指向，并获取所述声音源指向对应的原始频域信号；

计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积用于对除声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形。
根据权利要求1所述的方法，其特征在于，在获取空间滤波参数之前，所述方法还包括：

计算所述空间滤波参数。
根据权利要求2所述的方法，其特征在于，所述计算空间滤波参数包括：

计算声音源到达麦克风阵列的延迟时间；

根据所述延迟时间构建信号矢量函数，并根据所述信号矢量函数及所述延迟时间计算声音源指向；

根据预设的第一限制条件和第二限制条件，计算损失函数趋向最小值时的空间滤波参数，所述损失函数根据所述空间滤波参数和所述信号矢量函数构造；

其中，所述第一限制条件具体为白噪音增益限制；所述第二限制条件具体为使得所述空间滤波参数与所述信号矢量函数的乘积为第一预设值。
根据权利要求3所述的方法，其特征在于，计算声音源到达麦克风阵列的延迟时间包括：

确定麦克风阵列中麦克风之间的间距，以及声音源传播声音的速度；

确定所述声音源指向的角度；

根据所述麦克风之间的间距、所述声音源传播声音的速度及所述声音源指向的角度计算延迟时间。
根据权利要求3所述的方法，其特征在于，根据所述信号矢量函数及所述延迟时间计算声音源指向包括：

确定所有子带频率对应的矩阵；

根据所述所有子带频率对应的矩阵、所述信号矢量函数及所述延迟时间计算声音源指向。
根据权利要求1-5中任一项所述的方法，其特征在于，所述空间滤波参数为一矩阵。
根据权利要求1-5中任一项所述的方法，其特征在于，所述声音源指向为平面波0°-180°的任意角度。
一种波束成形的装置，其特征在于，包括：

第一获取单元，用于获取空间滤波参数，所述空间滤波参数随角度和子带频率的不同而不同；

确定单元，用于确定所述第一获取单元获取的所述空间滤波参数对应的声音源指向；

第二获取单元，用于获取所述确定单元确定的所述声音源指向对应的原始频域信号；

第一计算单元，用于计算所述空间滤波参数及所述原始频域信号的乘积，所述乘积用于对除声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形。
一种多波束波束成形的方法，其特征在于，包括：

计算目标声音源指向对应的波束成形输出；

根据阻塞矩阵计算噪音参数；

根据所述噪音参数对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。
根据权利要求9所述的方法，其特征在于，计算目标声音源指向对应的波束成形输出包括：

获取空间滤波参数，确定所述空间滤波参数对应的目标声音源指向；

获取所述目标声音源指向对应的原始频域信号；

计算所述空间滤波参数与所述目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形输出。
根据权利要求10所述的方法，其特征在于，根据阻塞矩阵计算噪音参数包括：

计算声音信号依次达到麦克风的频率响应；

根据所述频率响应构建所述阻塞矩阵；

根据所述阻塞矩阵及所述非目标声音源指向对应的原始频域信号，计算所述噪音参数。
根据权利要求11所述的方法，其特征在于，根据所述噪音参数对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪包括：

通过多通道滤波算法及迭代算法，计算多通道最优滤波参数；

根据所述目标声音源的波束成形输出、所述多通道最优滤波参数以及所述噪音参数，对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。
一种多波束波束成形的装置，其特征在于，包括：

第一计算单元，用于计算目标声音源指向对应的波束成形输出；

第二计算单元，用于通过阻塞矩阵计算噪音参数；

降噪单元，用于根据所述第二计算单元计算的所述噪音参数对所述第一计算单元计算的所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。
根据权利要求13所述的装置，其特征在于，所述第一计算单元包括：

第一获取模块，用于获取空间滤波参数；

确定模块，用于确定所述第一获取模块获取的所述空间滤波参数对应的目标声音源指向；

第二获取模块，用于获取所述第一获取模块获取的目标声音源指向对应的原始频域信号；

计算模块，用于计算所述空间滤波参数与目标声音源指向对应的原始频域信号的乘积，得到目标声音源指向的波束成形输出。
根据权利要求14所述的装置，其特征在于，第二计算单元包括：

第一计算模块，用于计算声音信号依次达到麦克风的频率响应；

构建模块，用于根据所述第一计算模块计算的所述频率响应构建所述阻塞矩阵；

第二计算模块，用于根据所述构建模块构建的所述阻塞矩阵及所述非目标声音源指向对应的原始频域信号，计算所述噪音参数。
根据权利要求14所述的装置，其特征在于，所述降噪单元包括：

计算模块，用于通过多通道滤波算法及迭代算法，计算多通道最优滤波参数；

降噪模块，用于根据所述目标声音源的波束成形输出、所述多通道最优滤波参数以及所述噪音参数，对所述目标声音源指向对应的波束成形输出之外的非目标声音源指向的信号进行降噪。
一种多波束波束成形的方法，其特征在于，包括：

计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个非目标声音源指向；

计算所述目标声音源指向的增强语音；

根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值；

计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音。
根据权利要求17所述的方法，其特征在于，在计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积之前，所述方法还包括：

通过平滑参数对当前帧与前一帧进行逐帧平滑处理。
根据权利要求18所述的方法，其特征在于，所述计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形包括：

获取空间滤波参数，并确定所述空间滤波参数分别对应的至少两个声音源指向；

获取至少两个声音源指向分别对应的原始频域信号；

计算所述空间滤波参数分别与至少两个声音源指向对应的原始频域信号的乘积。
根据权利要求19所述的方法，其特征在于，所述计算目标声音源指向的增强语音包括：

以每个子带为单位，计算所述目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；

计算第一乘积与所述比值增益的乘积，以获取所述增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波参数之间的乘积。
根据权利要求20所述的方法，其特征在于，根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值包括：

将当前帧中所有子带对应的能量进行合并，计算当前帧所有子带的能量和；

计算所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和之间的比值，得到能量比值。
根据权利要求21所述的方法，其特征在于，通过平滑参数对当前帧与前一帧进行逐帧平滑处理包括：

设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为第二预设值；

计算前一帧的比值增益与前一帧的平滑参数以获取第二乘积；

计算当前帧的比值增益与当前帧的平滑参数的乘积以获取第三乘积；

根据所述第二乘积与第三乘积之和对当前帧进行逐帧平滑处理。
根据权利要求18-22中任一项所述的方法，其特征在于，计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音包括：

计算所述目标声音源指向的原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，根据平滑处理结果输出所述乘积对应的语音。
一种多波束波束成形的装置，其特征在于，包括：

第一计算单元，用于计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个非目标声音源声音源指向；

第二计算单元，用于分别计算目标声音源指向的增强语音；

第三计算单元，用于根据所述目标声音源对应的子带能量与至少一个非目标声音源指向的所有子带的能量和，计算能量比值；

第四计算单元，用于计算所述目标声音源指向的所述原始频域信号、所述目标声音源指向对应的增强语音以及所述能量比值的乘积，并输出所述乘积对应的语音。
一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求1-7中任一项所述的方法和/或如权利要求9-12中任一项所述的方法和/或如权利要求17-23中任一项所述的方法。
一种电子设备，其特征在于，所述电子设备中包括处理器、存储器和总线；所述处理器、所述存储器通过所述总线完成相互间的通信；所述存储器中用于存储程序指令，所述程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法和/或如权利要求9-12中任一项所述的方法和/或如权利要求17-23中任一项所述的方法。