CN111489753A

CN111489753A - 抗噪声的声源定位方法、装置和计算机设备

Info

Publication number: CN111489753A
Application number: CN202010583990.1A
Authority: CN
Inventors: 陈俊彬; 太荣鹏; 温平
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-08-04
Anticipated expiration: 2040-06-24
Also published as: CN111489753B

Abstract

本申请涉及抗噪声的声源定位方法，用于具有唤醒功能的智能设备，方法包括：判断当前音频数据是否可触发唤醒；若是，则根据当前音频数据对应的频域信号，估测指定数量的声源方向；对指定数量的声源方向，分别进行波束成形，得到指定数量的输出结果；根据指定数量的输出结果，计算峰度值；将峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。通过对当前音频数据的各频域信号进行波束成形，并结合波束成形的峰度值计算精准确定声源定位方向，提高唤醒过程中声源定位的精准性。

Description

抗噪声的声源定位方法、装置和计算机设备

技术领域

本申请涉及到智能设备领域，特别是涉及到抗噪声的声源定位方法、装置和计算机设备。

背景技术

大多数带唤醒词的智能语音设备，降噪过程依赖于对唤醒语音的声源定位，如果唤醒的时候定位发生错误，则会导致后续的降噪性能大大降低甚至出现反效果，导致损伤语音、放大噪声。现有带唤醒功能的智能音箱，声源定位受噪声影响，降低定位的准确性，在唤醒的同时出现播放噪声时，唤醒之后指示的唤醒方向朝向噪声，而不是朝向携带唤醒词的人声方向。尤其在空调、电扇等家电的远场拾音模块，其旁边天然有一个较强的噪声源，很容易使唤醒之后的声源定位结果指向噪声源，严重影响声源定位的准确性。

发明内容

本申请的主要目的为提供抗噪声的声源定位方法，旨在解决现有带唤醒功能的智能设备在存在噪声影响时定位补准确的技术问题。

本申请提供了抗噪声的声源定位方法，用于具有唤醒功能的智能设备，方法包括：

判断当前音频数据是否可触发唤醒；

若是，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向；

对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果；

根据所述指定数量的输出结果，计算峰度值；

将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

优选地，所述根据所述当前音频数据对应的频域信号，估测指定数量的声源方向的步骤，包括：

按照预设角度范围，在当前空间内均匀选取N个方向向量d_n,n=1,2,...,N；

计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,n=1,2,...,N，所述指定帧为所述当前音频数据的所有帧数据中的任一帧；

根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量d_n上的N个响应值,n=1,2,...,N；

将所述N个响应值按照各自对应的空间位置，平铺得到角度谱angular spectrum；

在所述角度谱angular spectrum中搜索所有的响应值峰值点；

在所有所述响应值峰值点中，按照响应值由大至小选取所述指定数量的响应值峰值点；

通过所述指定数量的响应值峰值点所在角度对应的方向向量，形成所述指定数量的声源方向的方向向量集合

，

，A为所述指定数量。

优选地，所述智能设备上设置多个麦克风组成的麦克风阵列，所述计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,

的步骤，包括：

根据

，计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量d_n所在方向到达第i个麦克风和到达第j个麦克风的到达时间差

，其中，r_i和r_j分别表示第i个麦克风和第j个麦克风的直角坐标向量，c为声速，

表示向量的2-范数；

判断所述当前空间的顶面和底面是否通过吸音材料围成，其中，所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面，所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面，所述直角坐标系的原点为所述麦克风阵列的圆心，以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面；

若是，则设定

，并通过

，计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量d_n所在方向的可控响应信噪比，其中，

是第

个麦克风到第

个麦克风的距离，

是第一类零阶贝塞尔函数，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

通过

，计算所述指定帧在所述N个方向向量d_n的可控响应信噪比, 作为所述帧响应值，其中，n=1,2,...,N，

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

优选地，所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后，包括：

若所述当前空间的顶面和底面不是吸音材料围成，则设定

，并通过

是第i个麦克风到第j个麦克风的距离，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

通过

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

优选地，所述智能设备上设置多个麦克风组成的麦克风阵列，所述计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,n=1,2,...,N的步骤，包括：

根据

，计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量d_n所在方向到达第i个麦克风和到达第j个麦克风的到达时间差

表示向量的2-范数；

根据

，计算第i个麦克风和第j个麦克风，接收所述当前音频数据的指定帧对应的频域信号在dn方向的基于相位变换加权的可控响应功率，其中，

表示共轭，

，F_s是采样频率；

根据

，计算所述指定帧在所述N个方向向量d_n的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率, 作为所述帧响应值，其中，n=1,2,...,N，

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

优选地，所述对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果的步骤，包括：

根据所述方向向量集合

，利用

做波束成形，得到所述指定数量的方向上的波束输出

，

，其中，

为空域滤波系数，

是

的共轭转置，

，

为与第a个方向向量

对应的导向向量，

为散射噪声场的互相关矩阵，

，其中，若所述当前空间的顶面和底面是吸音材料围成

，若所述当前空间的顶面和底面不是吸音材料围成

，

表示第i个麦克风到第j个麦克风的距离。

优选地，所述根据所述指定数量的输出结果，计算峰度值的步骤，包括：

将所述指定数量的方向上的波束输出

，通过逆快速傅里叶变换，得到所述指定数量的时域信号

；

将所述指定数量的时域信号

，拼接形成所述指定数量的方向上的输出信号

；

根据所述指定数量的方向上的输出信号

，通过公式

计算各方向上的所述峰度值，其中，

。

本申请还提供了一种抗噪声的声源定位装置，集成于具有唤醒功能的智能设备，装置包括：

判断模块，用于判断当前音频数据是否可触发唤醒；

估测模块，用于若可触发唤醒，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向；

波束成形模块，用于对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果；

计算模块，用于根据所述指定数量的输出结果，计算峰度值；

作为模块，用于将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过对当前音频数据的各频域信号进行波束成形，避免了噪声源的干扰，并结合波束成形的峰度值计算精准确定声源定位方向，即便智能设备旁边存在噪声源，也不会影响智能设备的声源定位，依然正确地指向发出当前音频数据的人声所处方位，提高唤醒过程中声源定位的精准性。

附图说明

图1 是本申请一实施例的抗噪声的声源定位方法流程示意图；

图2是本申请一实施例的angular spectrum中的峰值分布状态示意图；

图3是本申请一实施例的抗噪声的声源定位装置结构示意图；

图4是本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的抗噪声的声源定位方法，用于具有唤醒功能的智能设备，方法包括：

S1：判断当前音频数据是否可触发唤醒。

本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据，具有唤醒功能的智能设备内设置麦克风阵列，不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词，判断是否可触发唤醒，具有预设的唤醒词，则可触发唤醒，反之则不能唤醒。

本申请通过时域信号，输入到唤醒***，识别是否具有预设唤醒词，并在存在预设唤醒词，可进行唤醒后，通过对缓存于缓存器的时域信号，在声源定位阶段，通过估测指定数量的声源方向，然后利用峰值确定声源所在的声源定位方向。举例地，输入时域信号x_m(t)，m=1,2,...,M，t=1,2,...,T，M是麦克风阵列中麦克风的个数，T是一帧时域信号的长度。把x_m(t)放入缓存器y中，y={y₁;y₂;...;y_m}。其中，y_m={y_m(1),y_m(2),...,y_m(L)}，y_m(1)={y_m(1,1),y_m(1,2),...,y_m(1,T)}，缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号x_m(t)，则赋值过程：y_m(1,t)=y_m(2,t),y_m(2,t)=y_m(3,t),...,y_m(L-1,t)=y_m(L,t),y_m(L,t)=x_m(t)，以实现时域信号的接续更新和缓存。将时域信号x_m(t)输入到唤醒***中，判断是否具有预设的唤醒词，若唤醒***被触发，则进入声源定位阶段。

S2：若可触发唤醒，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向。

噪声利用频域信号

做若干个声源方向的初步测定。对缓存器内缓存的时域信号y重新分帧加窗，帧长为T`，则帧数为L`，通过快速傅里叶变换（FFT）得到频域信号

，K是FFT点数，

。

S3：对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果。

本申请在触发唤醒之后，为避免噪声源的影响精准的声源定位，通过多路波束成形，提高声源定位的精准性。本申请的波束成形的方式优选以SDBF（SuperDirectiveBeamforming，超指向型波束成形），根据A个方向向量

，利用

做波束成形，以进一步提高声源定位的精准性。

S4：根据所述指定数量的输出结果，计算峰度值。

本申请通过对A个选定的方向上，分别计算波束的峰度值，以通过峰度值的大小确定声源定位的方向。

S5：将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

本申请通过对A个方向上所有的峰度值求平均，找出峰度值最大对应的方向，并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形，避免了噪声源的干扰，并结合波束成形的峰度值计算精准确定声源定位方向，即便智能设备旁边存在噪声源，也不会影响智能设备的声源定位，依然正确地指向发出当前音频数据的人声所处方位，提高唤醒过程中声源定位的精准性。

进一步地，所述根据所述当前音频数据对应的频域信号，估测指定数量的声源方向的步骤S2，包括：

S21：按照预设角度范围，在当前空间内均匀选取N个方向向量d_n,n=1,2,...,N；

S22：计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,n=1,2,...,N，其中，所述指定帧为所述当前音频数据的所有帧数据中的任一帧；

S23：根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量d_n上的N个响应值,n=1,2,...,N；

S24：将所述N个响应值按照各自对应的空间位置，平铺得到角度谱angularspectrum；

S25：在所述角度谱angularspectrum中搜索所有的响应值峰值点；

S26：在所有所述响应值峰值点中，按照响应值由大至小选取所述指定数量的响应值峰值点；

S27：通过所述指定数量的响应值峰值点所在角度对应的方向向量，形成所述指定数量的声源方向的方向向量集合

，

，A为所述指定数量。

本申请通过按照预设的角度范围，在当前空间中均匀选取N个方向向量d_n,n=1,2,...,N，方向向量就是一个单位球上面均匀选择的经纬点，单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值，然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值，上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置，平铺得到角度谱angular spectrum，上述各空间位置由固定的俯仰角Φ和方位角θ决定，第n个响应值所在的空间位置为方向向量d_n的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点，或者以聚类的方法搜索所有的响应值峰值点，比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明，上述3×3邻域包括9宫格的选定框，当选定框的中心格对应的响应值均大于其他格对应的响应值，则认为筛选到了响应值峰值点，此时中心格对应的点成为响应值峰值点，响应值峰值点不单单与数值的大小相关，还与具体的位置相关。从N个方向向量d_n中筛选响应值排前的A个响应值峰值点所对应的方向向量集合d_peak，作为指定数量为A个的声源方向，

。通过所述指定数量的响应值峰值点所在角度对应的方向向量，形成所述指定数量的声源方向的方向向量集合d_peak，响应值峰值点所在的角度（θ、φ），有其对应的方向向量，角度转为方向向量的方法为：方向向量d=(x,y,z)，其中，x=cosφcosθ，y=cosφsinθ，z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率，以及计算可控响应信噪比等，在可控响应信噪比的计算过程中，优选最小方差无失真响应加权。本申请通过将

帧频域信号的响应值结果进行平滑，比如通过求平均的方式进行平滑，并搜索A个响应值峰值点，得到L`帧频域信号对应的方向向量集合d_peak。在空间坐标系下，每个方向向量d_n都可以分解为俯仰角φ和方位角θ，将（θ，φ，响应值）三者的对应表，在二维平面上平铺、并可视化，可以得到角度谱angular spectrum。如图2所示，在angular spectrum 中找出5个响应值峰值点的示意图，图中5个“*”标注位置为响应值峰值点：横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角，角度分辨率为1°，角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小，越深则值越小。

进一步地，所述智能设备上设置多个麦克风组成的麦克风阵列，所述计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,n=1,2,...,N的步骤S22，包括：

S221：根据

表示向量的2-范数；

S222：判断所述当前空间的顶面和底面是否通过吸音材料围成，其中，所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面，所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面，所述直角坐标系的原点为所述麦克风阵列的圆心，以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面；

S223:若是，则设定

，并通过

是第i个麦克风到第j个麦克风的距离，

是第一类零阶贝塞尔函数，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

S224:通过

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

本申请优先选择通过计算可控响应信噪比的方式，作为帧响应值，通过对L`帧的帧响应值进行平滑（比如求平均）得到N个方向上的响应值，并通过N个方向上的响应值，得到角度谱，然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式，得到的峰值更尖锐，更适合于多声源定位。上述正实数的ε用来防止除零，上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料，来选择合适的散射噪声公式，比如天花板和地板为直角坐标系内当前空间的两个对称的端面，若均噪声为吸音材料材质，则对音频信号的散射效果有较大影响。比如通过识别应用场景，确定空间内是否需要吸音材料，也可通过回声测试等方式，估测是否存在吸音材料，比如根据空间大小判断发射音频和接收音频的差异量，是否小于预测标准衰减，若是，则判定存在吸音材料，则调用本实施例的散射噪声公式，否则调用下一实施例的散射噪声公式。不存在吸音材料时，计算可控响应信噪比的方式，除散射噪声公式不同之外，其他过程均类似，不赘述。

进一步地，判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤S222之后，包括：

S225：若所述当前空间的顶面和底面不是吸音材料围成，则设定

，并通过

是第i个麦克风到第j个麦克风的距离，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

S226：通过

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

S2201：根据

表示向量的2-范数；

S2202：根据

，计算第i个麦克风和第j个麦克风，接收所述当前音频数据的指定帧对应的频域信号在所述方向向量d_n所在方向的基于相位变换加权的可控响应功率，其中，

表示共轭，

，F_s是采样频率；

S2203：根据

，计算所述指定帧在所述N个方向向量d_n的基于相位变换加权的可控响应功率, 作为所述帧响应值，其中，n=1,2,...,N，

表示所述当前音频数据的指定帧为第

帧频域信号。

本申请通过计算基于相位变换加权的可控响应功率的方式，作为帧响应值，进而分别平滑得到N个方向上的响应值，并通过N个方向上的响应值，得到角度谱，并搜索出响应值峰值点。本实施例的计算方式相比于计算可控响应信噪比的方式，计算量小，声源定位响应快，且对智能设备的计算能力要求低，方便更广泛地应用于大多数的智能设备上。

进一步地，所述对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果的步骤S3，包括：

S31：根据所述方向向量集合

，利用

做波束成形，得到所述指定数量的方向上的波束输出

，

，其中，

为空域滤波系数，

是

的共轭转置，

，

为与第a个方向向量

对应的导向向量，

为散射噪声场的互相关矩阵，

，其中，若所述当前空间的顶面和底面是吸音材料围成

，若所述当前空间的顶面和底面不是吸音材料围成

，

表示第i个麦克风到第j个麦克风的距离。

本申请优选通过超指向型波束成形，求得每个方向的波束，以提高指向声源定位方向的准确性。通过上述计算过程得到

帧、A个方向波束成形之后的输出信号，利用逆快速傅里叶变换（IFFT），令其回到时域，得到

，以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differentialmicrophone array)、GSC(Generalized Side-lobe Canceller)等等来代替。

进一步地，所述根据所述指定数量的输出结果，计算峰度值的步骤S4，包括：

S41：将所述指定数量的方向上的波束输出

，通过逆快速傅里叶变换，得到所述指定数量的时域信号

；

S42：将所述指定数量的时域信号

，拼接形成所述指定数量的方向上的输出信号

；

S43：根据所述指定数量的方向上的输出信号

，通过公式

计算各方向上的所述峰度值，其中，

。

本申请在计算峰度值的过程中，利用求峰度值的方法对非高斯性进行度量，其他实施例可以用求负熵（Negentropy）的方法来代替。通过对每个方向的

个峰度值进行求平均，即

。在

中找出最大值所对应方向，作为最终的声源定位方向：

。本申请在声源定位算法的基础上，增加了波束成形以及峰度值计算的过程，以峰度值最大的方向作为最终的声源定位方向，降低了噪声对声源定位的影响，大大增加了声源定位的抗干扰性能，解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。

参照图3，本申请一实施例的抗噪声的声源定位装置，集成于具有唤醒功能的智能设备，装置包括：

判断模块1，用于判断当前音频数据是否可触发唤醒。

估测模块2，用于若可触发唤醒，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向。

噪声利用频域信号

，K是FFT点数，

。

波束成形模块3，用于对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果。

本申请在触发唤醒之后，为避免噪声源的影响精准的声源定位，通过多路波束成形，提高声源定位的精准性。本申请的波束成形的方式优选以SDBF（Super DirectiveBeamforming，超指向型波束成形），根据A个方向向量

，利用

做波束成形，以进一步提高声源定位的精准性。

计算模块4，用于根据所述指定数量的输出结果，计算峰度值。

作为模块5，用于将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

进一步地，估测模块2，包括：

第一选取单元，用于按照预设角度范围，在当前空间内均匀选取N个方向向量d_n,n=1,2,...,N；

计算单元，用于计算所述当前音频数据的指定帧对应的频域信号，分别在所述N个方向向量d_n上计算帧响应值,n=1,2,...,N，其中，所述指定帧为所述当前音频数据的所有帧数据中的任一帧；

第一平滑单元，用于根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量d_n上的N个响应值,n=1,2,...,N；

平铺单元，用于将所述N个响应值按照各自对应的空间位置，平铺得到角度谱angularspectrum；

搜索单元，用于在所述角度谱angular spectrum中搜索所有的响应值峰值点；

第二选取单元，用于在所有所述响应值峰值点中，按照响应值由大至小选取所述指定数量的响应值峰值点；

作为单元，用于通过所述指定数量的响应值峰值点所在角度对应的方向向量，形成所述指定数量的声源方向的方向向量集合

，

，A为所述指定数量。

。通过所述指定数量的响应值峰值点所在角度对应的方向向量，形成所述指定数量的声源方向的方向向量集合d_peak，响应值峰值点所在的角度（θ、φ），有其对应的方向向量，角度转为方向向量的方法为：方向向量d=(x,y,z)，其中，x=cosφcosθ，y=cosφsinθ，z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率，以及计算可控响应信噪比等，在可控响应信噪比的计算过程中，优选最小方差无失真响应加权。本申请通过将L`帧频域信号的响应值结果进行平滑，比如通过求平均的方式进行平滑，并搜索A个响应值峰值点，得到L`帧频域信号对应的方向向量集合d_peak。在空间坐标系下，每个方向向量d_n都可以分解为俯仰角φ和方位角θ，将（θ，φ，响应值）三者的对应表，在二维平面上平铺、并可视化，可以得到角度谱angular spectrum。如图2所示，在angular spectrum 中找出5个响应值峰值点的示意图，图中5个“*”标注位置为响应值峰值点：横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角，角度分辨率为1°，角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小，越深则值越小。

进一步地，所述智能设备上设置多个麦克风组成的麦克风阵列，计算单元，包括：

第一计算子单元，用于根据

表示向量的2-范数；

判断子单元，用于判断所述当前空间的顶面和底面是否通过吸音材料围成，其中，所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面，所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面，所述直角坐标系的原点为所述麦克风阵列的圆心，以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面；

第一设定子单元，用于若通过吸音材料围成，则设定

，并通过

是第i个麦克风到第j个麦克风的距离，

是第一类零阶贝塞尔函数，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

第二计算子单元，用于通过

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

本申请优先选择通过计算可控响应信噪比的方式，作为帧响应值，通过对l`帧的响应值进行平滑（比如求平均）得到N个方向上的响应值，并通过N个方向上的响应值，得到角度谱，然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式，得到的峰值更尖锐，更适合于多声源定位。上述正实数的ε用来防止除零，上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料，来选择合适的散射噪声公式，比如天花板和地板为直角坐标系内当前空间的两个对称的端面，若均为吸音材料材质，则对音频信号的散射效果有较大影响。比如通过识别应用场景，确定空间内是否需要吸音材料，也可通过回声测试等方式，估测是否存在吸音材料，比如根据空间大小判断发射音频和接收音频的差异量，是否小于预测标准衰减，若是，则判定存在吸音材料，则调用本实施例的散射噪声公式，否则调用下一实施例的散射噪声公式。不存在吸音材料时，计算可控响应信噪比的方式，除散射噪声公式不同之外，其他过程均类似，不赘述。

进一步地，计算单元，包括：

第二设定子单元，用于若所述当前空间的顶面和底面不是吸音材料围成，则设定

，并通过

是第i个麦克风到第j个麦克风的距离，

，real(·)表示取实部，

，

表示求共轭，

，F_s为采样频率，ε为任意正实数;

第三计算子单元，用于通过

表示所述当前音频数据对应的所述指定帧为第

帧频域信号。

第四计算子单元，用于根据

表示向量的2-范数；

第五计算子单元，用于根据

表示共轭，

，F_s是采样频率；

第六计算子单元，用于根据

表示所述当前音频数据的指定帧为第

帧频域信号。

本申请通过计算基于相位变换加权的可控响应功率的方式，作为帧响应值，进而分别平滑得到N个方向上的响应值，并通过N个方向上的响应值，得到角度谱，并搜索出A个响应值峰值点，作为A个方向的终点。本实施例的计算方式相比于计算可控响应信噪比的方式，计算量小，声源定位响应快，且对智能设备的计算能力要求低，方便更广泛地应用于大多数的智能设备上。

进一步地，波束成形模块3，包括：

得到单元，用于根据所述方向向量集合

，利用

做波束成形，得到所述指定数量的方向上的波束输出

，

，其中，

为空域滤波系数，

是

的共轭转置，

，

为与第

个方向向量

对应的导向向量，

为散射噪声场的互相关矩阵，

，其中，若所述当前空间的顶面和底面是吸音材料围成

，若所述当前空间的顶面和底面不是吸音材料围成

，

表示第i个麦克风到第j个麦克风的距离。

进一步地，计算模块4，包括：

变换单元，用于将所述指定数量的方向上的波束输出

，通过逆快速傅里叶变换，得到所述指定数量的时域信号

；

第二拼接单元，用于将所述指定数量的时域信号

，拼接形成所述指定数量的方向上的输出信号

；

计算单元，用于根据所述指定数量的方向上的输出信号

，通过公式

计算各方向上的所述峰度值，其中，

。

个峰度值进行求平均，即

。在

中找出最大值所对应方向，作为最终的声源定位方向：

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、显示屏、输入装置、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储抗噪声的声源定位过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现抗噪声的声源定位方法。

上述处理器执行上述抗噪声的声源定位方法，用于具有唤醒功能的智能设备，方法包括：判断当前音频数据是否可触发唤醒；若是，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向；对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果；根据所述指定数量的输出结果，计算峰度值；将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

上述计算机设备，通过对当前音频数据的各频域信号进行波束成形，避免了噪声源的干扰，并结合波束成形的峰度值计算精准确定声源定位方向，即便智能设备旁边存在噪声源，也不会影响智能设备的声源定位，依然正确地指向发出当前音频数据的人声所处方位，提高唤醒过程中声源定位的精准性。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现抗噪声的声源定位方法，用于具有唤醒功能的智能设备，方法包括：判断当前音频数据是否可触发唤醒；若是，则根据所述当前音频数据对应的频域信号，估测指定数量的声源方向；对所述指定数量的声源方向，分别进行波束成形，得到所述指定数量的输出结果；根据所述指定数量的输出结果，计算峰度值；将所述峰度值最大的指定声源方向，作为声源定位的方向，其中，所述指定声源方向为所述指定数量的声源方向中的其中一个。

上述计算机可读存储介质，通过对当前音频数据的各频域信号进行波束成形，避免了噪声源的干扰，并结合波束成形的峰度值计算精准确定声源定位方向，即便智能设备旁边存在噪声源，也不会影响智能设备的声源定位，依然正确地指向发出当前音频数据的人声所处方位，提高唤醒过程中声源定位的精准性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。