CN106772245A

CN106772245A - 声源定位方法和装置

Info

Publication number: CN106772245A
Application number: CN201510801065.0A
Authority: CN
Inventors: 曾向阳; 王海涛
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2017-05-31

Abstract

本发明提供一种声源定位方法和装置，该方法包括：根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，所述第一通道脉冲响应为所述声源与所述拾音器之间的通道脉冲响应；获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，所述模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，所述第二通道脉冲响应为所述区域的测点与所述拾音器之间的通道脉冲响应，所述相关系数表示所述第一通道脉冲响应和所述第二通道脉冲响应之间的相似度；根据绝对值最大的相关系数确定所述声源的位置，从而保证在近场、室内环境中对声源的位置进行准确的定位。

Description

声源定位方法和装置

技术领域

本发明实施例涉及定位技术，尤其涉及一种声源定位方法和装置。

背景技术

声源定位技术是利用拾音器拾取语音信号，并通过数字信号处理技术对拾音器拾取的语音信号进行分析和处理，从而确定和跟踪声源的空间位置的一种技术。声源定位技术在视频会议、语音识别和目标定位等领域有着重要的应用。

目前，声源定位技术主要是基于波束形成的方法来进行声源定位，图1是现有技术中基于波束形成的方法来进行声源定位的示意图。如图1所示，拾音器2、拾音器3、拾音器4、拾音器5、拾音器6构成一个拾音器阵列，处理器(图中未示出)将拾音器阵列采集到的声源1的信号进行加权求和，形成波束7、波束8和波束9，获取每个波束的输出信号功率，将输出信号功率最大的波束对应的位置确定为声源位置，例如，图1中波束8的输出信号功率最大，则波束8对应的位置为声源位置。

但是，由于受拾音器阵列形状的影响，基于波束形成的方法无法获得稳定的声源定位精度，尤其在近场或者是声学环境比较复杂的室内环境中无法精确的进行声源定位。

发明内容

本发明实施例提供一种声源定位方法和装置，以保证在近场、室内环境中对声源的位置进行准确的定位。

第一方面，本发明实施例提供一种声源定位方法，包括：根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，所述第一通道脉冲响应为所述声源与所述拾音器之间的通道脉冲响应；获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，所述模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，所述第二通道脉冲响应为所述区域的测点与所述拾音器之间的通道脉冲响应，所述相关系数表示所述第一通道脉冲响应和所述第二通道脉冲响应之间的相似度；根据绝对值最大的相关系数确定所述声源的位置。在本实施例中，由于相关系数的绝对值越大，说明该第二通道脉冲响应与第一通道脉冲响应相似度越高，即该第二通道脉冲响应对应的区域位置和声源的位置越相近，因此，将第二通道脉冲响应对应的区域位置确定为声源的位置，可以保证在近场、室内环境中对声源的位置进行准确的定位。

结合第一方面，在第一方面的第一种可能实现方式中，所述根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应之前，所述方法还包括：将所述待定位空间划分为多个区域，并为每个所述区域设置一个测点；根据每个所述测点与所述拾音器之间的通道脉冲响应生成所述模板库。在本实施例中，将待定位空间划分为若干区域，测量每个测点与拾音器之间的通道脉冲响应，以生成模板库，从而可以将待测声源的通道脉冲响应与模板库中的每个通道脉冲响应进行匹配，保证确定的声源位置更加精确。

结合第一方面或第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：获取所述第一通道脉冲响应的反向脉冲序列；获取所述反向脉冲序列与每个所述第二通道脉冲响应之间的所述相关系数。

结合第一方面的任一种可能实现方式，在第一方面的第三种可能实现方式中，所述根据绝对值最大的相关系数确定所述声源的位置，包括：获取所述绝对值最大的相关系数中的第一元素；其中，所述第一元素为所述绝对值最大的相关系数中数值最大的元素；根据所述第一元素确定所述声源的位置。在本实施例中，由于拾音器接收到的音频信号不仅包括声源发出的音频信号，还包括其它的反射信号和干扰信号，一般情况下，声源发出的音频信号的信号强度比其它的反射信号和干扰信号的信号强度高，因此，声源发出的音频信号对应的元素的绝对值比其它的信号对应的元素的绝对值高，因此，根据第一元素确定声源的位置的与实际的声源的位置更加的接近，提高了声源定位的精确度。

结合第一方面第二种或第三种可能实现方式，在第一方面的第四种可能实现方式中，所述根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应，包括：根据公式计算所述第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为所述拾音器接收到的音频信号，s(t)为所述声源发出的音频信号，t为所述声源发出的音频信号的持续时间。

结合第一方面第四种可能实现方式，在第一方面的第五种可能实现方式中，所述获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：根据公式获取所述反向脉冲序列其中，为通道脉冲响应反向处理函数；根据公式获取所述相关系数x(l,i)；其中，h_i(t)为所述第二通道脉冲响应，i表示所述第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

结合第一方面第五种可能实现方式，在第一方面的第六种可能实现方式中，所述根据绝对值最大的相关系数确定所述声源的位置，包括：根据公式p(i)＝max(x(l,i))获取所述绝对值最大的相关系数p(i)；根据公式c＝max(p(i))确定所述声源的位置c。

第二方面，本发明实施例提供一种声源定位装置，包括：获取模块，用于根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，所述第一通道脉冲响应为所述声源与所述拾音器之间的通道脉冲响应；处理模块，用于获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，所述模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，所述第二通道脉冲响应为所述区域的测点与所述拾音器之间的通道脉冲响应，所述相关系数表示所述第一通道脉冲响应和所述第二通道脉冲响应之间的相似度；确定模块，用于根据绝对值最大的相关系数确定所述声源的位置。本实施例的装置，用于执行第一方面提供的声源定位方法，其实现原理和有益效果类似，此处不再赘述。

结合第二方面，在第二方面的第一种可能实现方式中，所述处理模块还用于将所述待定位空间划分为多个区域，并为每个所述区域设置一个测点；并根据每个所述测点与所述拾音器之间的通道脉冲响应生成所述模板库。本实施例的装置，用于执行第一方面的第一种可能实现方式提供的声源定位方法，其实现原理和有益效果类似，此处不再赘述。

结合第二方面或第二方面的第一种可能实现方式，在第二方面的第二种可能实现方式中，所述处理模块获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：所述处理模块获取所述第一通道脉冲响应的反向脉冲序列；并获取所述反向脉冲序列与每个所述第二通道脉冲响应之间的所述相关系数。

结合第二方面的任一种可能实现方式，在第二方面的第三种可能实现方式中，所述确定模块具体用于获取所述绝对值最大的相关系数中的第一元素，并根据所述第一元素确定所述声源的位置；其中，所述第一元素为所述绝对值最大的相关系数中数值最大的元素。本实施例的装置，用于执行第一方面的第三种可能实现方式提供的声源定位方法，其实现原理和有益效果类似，此处不再赘述。

结合第二方面的第二种或第三种可能实现方式，在第二方面的第四种可能实现方式中，所述获取模块具体用于根据公式计算所述第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为所述拾音器接收到的音频信号，s(t)为所述声源发出的音频信号，t为所述声源发出的音频信号的持续时间。

结合第二方面的第四种可能实现方式，在第二方面的第四种可能实现方式中，所述处理模块获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：所述处理模块根据公式获取所述反向脉冲序列并根据公式获取所述相关系数x(l,i)；其中，为通道脉冲响应反向处理函数，h_i(t)为所述第二通道脉冲响应，i表示所述第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

结合第二方面的第四种可能实现方式，在第二方面的第五种可能实现方式中，所述确定模块具体用于根据公式p(i)＝max(x(l,i))获取所述绝对值最大的相关系数p(i)；根据公式c＝max(p(i))确定所述声源的位置c。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中基于波束形成的方法来进行声源定位的示意图；

图2为本发明实施例提供的声源定位方法的应用场景示意图；

图3为本发明实施例提供的声源定位方法的***架构示意图；

图4为本发明实施例一提供的声源定位方法的流程图；

图5为本发明实施例二提供的声源定位方法的流程图；

图6为本发明实施例三提供的声源定位方法的流程图；

图7为本发明实施例四提供的声源定位装置的结构示意图；

图8为本发明实施例五提供的声源定位设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例涉及的方法，旨在解决现有技术中由于受拾音器阵列形状的影响，基于波束形成的方法无法获得稳定的声源定位精度，而且，在近场或者是声学环境比较复杂的室内环境中无法精确的进行声源定位这一技术问题。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的声源定位方法的应用场景示意图。如图2所示，该场景可以为房屋、办公场所、隧道等室内空间，该室内空间被划分为若干个区域，并且，包括一个拾音器和一个声源，可以根据拾音器与声源之间的通道脉冲响应，将声源的位置定位到该室内空间的某个区域内。

图3为本发明实施例提供的声源定位方法的***架构示意图。如图3所示，该***包括定位设备11和声源12，其中，定位设备11包括计算机13、声卡14和拾音器15。定位设备可以为一个独立的设备，例如，手机、电脑、手持终端等，则计算机可以为一个具有运算功能的处理器，拾音器可以为内置的麦克风；定位设备也可以为几个设备组成的一个组合设备，例如，定位设备由一台计算机、声卡设备和外接的麦克风组成。声源可以为各种发音设备、乐器、人、动物等。

图4为本发明实施例一提供的声源定位方法的流程图。本实施例的执行主体为终端，该终端可以为计算机、手机、平板电脑等具有处理功能的设备，本实施例涉及的是终端将声源与拾音器之间的通道脉冲响应与模板库中保存的通道脉冲响应进行匹配，确定声源的位置的具体过程，。如图4所示，该方法包括以下步骤：

步骤101、根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应。

其中，第一通道脉冲响应为声源与拾音器之间的通道脉冲响应。

在本实施例中，可以在终端上安装Dirac软件，通过Dirac软件测量第一通道脉冲响应。声源可以为各种发音设备、乐器等，声源发出的音频信号为预先设置的一个已知的音频信号，拾音器可以为麦克风、录音器等声音采集设备。

步骤102、获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数。

其中，模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，第二通道脉冲响应为区域的测点与拾音器之间的通道脉冲响应，相关系数表示第一通道脉冲响应和第二通道脉冲响应之间的相似度。

在本实施例中，可以预先将待定位空间划分为若干个区域，并为每个区域设置一个测点，测量每个测点与拾音器之间的通道脉冲响应，将待定位空间中每个区域对应的第二通道脉冲响应保存到模板库中，当获取到第一通道脉冲响应之后，计算第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，相关系数为一个向量，且用于表示第一通道脉冲响应和第二通道脉冲响应之间的相似度，例如，若相关系数的绝对值越大，则第一通道脉冲响应和第二通道脉冲响应之间的相似度越高，若相关系数的绝对值越小，则第一通道脉冲响应和第二通道脉冲响应之间的相似度越低。

需要说明的是，声源的位置可以是待定位空间中的任一位置，但是拾音器的位置必须和建立模板库时拾音器的位置相同，且固定不变。

步骤103、根据绝对值最大的相关系数确定声源的位置。

在本实施例中，相关系数的绝对值越大，说明第二通道脉冲响应和第一通道脉冲响应的相似度越高，因此，从所有的相关系数中确定绝对值最大的相关系数，将绝对值最大的相关系数对应的区域确定为声源的位置。

现有技术中，将拾音器阵列采集到的声源的信号进行加权求和，形成波束，将输出信号功率最大的波束对应的位置作为声源的位置，但是，在近场、室内、封闭及半封闭空间中，由于反射体的存在，声源发出的声音会通过多次反射叠加被拾音器接收，声学环境较为复杂，严重影响了声源定位的精度，而且，现有技术的方法也会受到拾音器阵列形状的影响，使得声源定位精度很低。本实施例提供的声源定位方法，获取声源与拾音器之间的通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，根据绝对值最大的相关系数确定声源的位置，由于相关系数的绝对值越大，说明该第二通道脉冲响应与第一通道脉冲响应相似度越高，即该第二通道脉冲响应对应的区域位置和声源的位置越相近，因此，将第二通道脉冲响应对应的区域位置确定为声源的位置，可以保证在近场、室内环境中对声源的位置进行准确的定位。

本实施例提供的声源定位方法，终端根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应，获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，根据绝对值最大的相关系数确定声源的位置，由于相关系数的绝对值越大，说明该第二通道脉冲响应与第一通道脉冲响应相似度越高，即该第二通道脉冲响应对应的区域位置和声源的位置越相近，因此，将第二通道脉冲响应对应的区域位置确定为声源的位置，可以保证在近场、室内环境中对声源的位置进行准确的定位。

图5为本发明实施例二提供的声源定位方法的流程图。本发明实施例为图4所示方法的一种具体实现方式，涉及建立模板库、获取相关系数和确定声源位置的具体实现方式。如图5所示，该方法包括以下步骤：

步骤201、将待定位空间划分为多个区域，并为每个区域设置一个测点。

在本实施例中，如图2所示，可以按照定位精度的需要，将给定的待定位空间划分为若干区域，每个区域的范围可人为划定，每个区域中心之间的距离可自由选择，区域一般为规则的正方形或长方形，但并不以此为限。可以为对各区域进行编号，例如，将各个区域一次编号为i，i＝1,2,…n,并在每个区域中设置一个测点，该测点一般设置在区域的中心位置。然后再待定位空间中设置一个拾音器，例如，麦克风，录音器等，在测量和定位过程中，拾音器的位置应保持不变。

步骤202、根据每个测点与拾音器之间的通道脉冲响应生成模板库。

在本实例中，可以使用Dirac软件测量每个测点与拾音器之间的通道脉冲响应，并将这些通道脉冲响应保存到模板库中，也可以采用其他的测量软件测量通道脉冲响应，本发明中并不以此为限。

步骤203、根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应。

步骤204、获取第一通道脉冲响应的反向脉冲序列。

步骤205、获取反向脉冲序列与每个第二通道脉冲响应之间的相关系数。

在本实施例中，计算相关系数之前，先要将第一通道脉冲响应进行反向处理，获取反向脉冲序列，再计算反向脉冲序列与每个第二通道脉冲响应之间的相关系数。

在本实施例中，步骤204和步骤205为“获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数”这一步骤的具体实现方式。

步骤206、获取绝对值最大的相关系数中第一元素；其中，第一元素为绝对值最大的相关系数中绝对值最大的元素。

步骤207、根据第一元素确定声源的位置。

在本实施例中，从所有的相关系数中选取绝对值最大的相关系数，由于相关系数为一个向量，包括多个元素，其中，元素代表的是拾音器接收到的音频信号的通道脉冲响应，由于拾音器接收到的音频信号不仅包括声源发出的音频信号，还包括其它的反射信号和干扰信号，一般情况下，声源发出的音频信号的信号强度比其它的反射信号和干扰信号的信号强度高，因此，声源发出的音频信号对应的元素的绝对值比其它的信号对应的元素的绝对值高，因此，根据第一元素确定声源的位置的与实际的声源的位置更加的接近。

在本实施例中，步骤206和步骤207为“根据绝对值最大的相关系数确定声源的位置”这一步骤的具体实现方式。

本实施例提供的声源定位方法，终端将待定位空间划分为多个区域，并为每个区域设置一个测点，根据每个测点与拾音器之间的通道脉冲响应生成模板库，根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应，获取第一通道脉冲响应的反向脉冲序列，获取反向脉冲序列与每个第二通道脉冲响应之间的相关系数，获取绝对值最大的相关系数中第一元素，根据第一元素确定声源的位置。本实施例中，预先将待定位空间划分为若干区域，测量每个区域的测点与拾音器之间的通道脉冲响应生成模板库，根据第一通道脉冲响应和第二通道脉冲响应之间的相关系数，并根据绝对值最大的相关系数中的绝对值最大的元素来确定声源的位置，保证声源定位的精度更加的准确，并且，本实施例中，仅需要一个拾音器即可实现整个待定位空间的声源定位，成本低，操作简单。

可选地，在本实施例中，还可以采用双拾音器进行声源定位，提升声源定位稳定性。

图6为本发明实施例三提供的声源定位方法的流程图。如图6所示，该方法包括以下步骤：

步骤301、根据公式计算第一通道脉冲响应

其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为拾音器接收到的音频信号，s(t)为声源发出的音频信号，t为声源发出的音频信号的持续时间。

在本实施例中，待定位空间中的某一声源发出的音频信号为s(t)，拾音器接收到的音频信号为r(t)，将s(t)和r(t)进行傅里叶变换，得到频域信号S(jω)和R(jω)，在利用公式计算第一通道脉冲响应

步骤302、根据公式获取反向脉冲序列

其中，为通道脉冲响应反向处理函数。

步骤303、根据公式获取相关系数x(l,i)。

其中，h_i(t)为第二通道脉冲响应，i表示第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

在本实施例中，将模版库中的第二通道脉冲响应h_i(t)和第一通道脉冲响应的反向脉冲序列通过相关函数计算相关系数。其中，x(l,i)表示反向脉冲序列与第i个区域对应的第二通道脉冲响应之间的相关系数。

步骤304、根据公式p(i)＝max(x(l,i))获取绝对值最大的相关系数p(i)。

步骤305、根据公式c＝max(p(i))确定声源的位置c。

在本实施例中，c为绝对值最大的相关系数对应的区域的编号，即将绝对值最大的相关系数对应的区域确定为声源的位置。

本实施例提供的声源定位方法，终端根据公式计算第一通道脉冲响应根据公式获取反向脉冲序列根据公式获取相关系数x(l,i)，根据公式p(i)＝max(x(l,i))获取绝对值最大的相关系数p(i)，根据公式c＝max(p(i))确定声源的位置c，相较于现有技术，本实施例的声源定位方法，充分利用了室内通道的声学信息，计算简便，数据运算量小，可在1～2s内完成声源定位；并且，定位精度高，可以实现厘米级定位精度。

图7为本发明实施例四提供的声源定位装置的结构示意图。该声源定位装置可以为一个独立的设备，例如，手机、电脑、手持终端、平板电脑等设备，也可以为集成在手机、电脑、手持终端、平板电脑等设备中的一个功能模块。如图7所示，该装置包括获取模块21、处理模块22和确定模块23。获取模块21用于根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，第一通道脉冲响应为声源与拾音器之间的通道脉冲响应。处理模块22用于获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，第二通道脉冲响应为区域的测点与拾音器之间的通道脉冲响应，相关系数表示第一通道脉冲响应和第二通道脉冲响应之间的相似度。确定模块23用于根据绝对值最大的相关系数确定声源的位置。

本实施例的装置，可以用于执行图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，在图7所示实施例的基础上，处理模块22还用于将待定位空间划分为多个区域，并为每个区域设置一个测点；并根据每个测点与拾音器之间的通道脉冲响应生成模板库。

可选地，处理模块22获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：处理模块22获取第一通道脉冲响应的反向脉冲序列；并获取反向脉冲序列与每个第二通道脉冲响应之间的相关系数。

可选地，确定模块23具体用于获取绝对值最大的相关系数中的第一元素，并根据第一元素确定声源的位置；其中，第一元素为绝对值最大的相关系数中数值最大的元素。

可选地，获取模块21具体用于根据公式计算第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为拾音器接收到的音频信号，s(t)为声源发出的音频信号，t为声源发出的音频信号的持续时间。

可选地，处理模块22获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：处理模块22根据公式获取反向脉冲序列并根据公式获取相关系数x(l,i)；其中，为通道脉冲响应反向处理函数，h_i(t)为第二通道脉冲响应，i表示第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

可选地，确定模块23具体用于根据公式p(i)＝max(x(l,i))获取绝对值最大的相关系数p(i)；根据公式c＝max(p(i))确定声源的位置c。

本实施例的装置，可以用于执行图4-图6所示的任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本发明实施例五提供的声源定位设备的结构示意图。如图8所示，该声源定位设备包括处理器31、声卡32和拾音器33。处理器31用于根据声源发出的音频信号和拾音器33接收到的音频信号，获取第一通道脉冲响应；其中，第一通道脉冲响应为声源与拾音器之间的通道脉冲响应；获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，第二通道脉冲响应为区域的测点与拾音器之间的通道脉冲响应，相关系数表示第一通道脉冲响应和第二通道脉冲响应之间的相似度；根据绝对值最大的相关系数确定声源的位置。声卡32用于将声源发出的音频信号和拾音器33接收到的音频信号分别转换为数字信号。拾音器33用于接收音频信号。

可选地，处理器31可以是一个通用处理器，也可以是专用集成电路(application specific integrated circuit，ASIC)或数字信号处理器(digital signalprocessing，简称DSP)。

本实施例的声源定位设备，可以用于执行图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，该定位设备还可以包括收发器34和存储器35，收发器34与处理器31耦合，收发器34可以是发射器，接收器或其组合，用于箱其它设备发送数据或接收其它设备发送的数据。存储器35可为非瞬时性的存储介质，与处理器31相耦合，用于保存模板库和不同类型的数据。存储器35可包含只读存储器(read only memory，ROM),随机存取存储器(random accessmemory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是磁盘存储器。存储器504可用于保存实现图4、图5或图6所述相关方法的指令。

可选地，处理器31还用于将待定位空间划分为多个区域，并为每个区域设置一个测点；并根据每个测点与拾音器之间的通道脉冲响应生成模板库。

可选地，处理器31获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：处理器31获取第一通道脉冲响应的反向脉冲序列；获取反向脉冲序列与每个第二通道脉冲响应之间的相关系数。

可选地，处理器31根据绝对值最大的相关系数确定声源的位置，包括：处理器31获取绝对值最大的相关系数中的第一元素，并根据第一元素确定声源的位置；其中，第一元素为绝对值最大的相关系数中数值最大的元素。

可选地，处理器31根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应，包括：处理器31根据公式计算第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为拾音器接收到的音频信号，s(t)为声源发出的音频信号，t为声源发出的音频信号的持续时间。

可选地，处理器31获取第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：处理器31根据公式获取反向脉冲序列并根据公式获取相关系数x(l,i)；其中，为通道脉冲响应反向处理函数，h_i(t)为第二通道脉冲响应，i表示第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

可选地，处理器31根据绝对值最大的相关系数确定声源的位置，包括：处理器31根据公式p(i)＝max(x(l,i))获取绝对值最大的相关系数p(i)；并根据公式c＝max(p(i))确定声源的位置c。

本实施例的声源定位设备，可以用于执行图4-图6所示的任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(random access memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声源定位方法，其特征在于，包括：

根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，所述第一通道脉冲响应为所述声源与所述拾音器之间的通道脉冲响应；

获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，所述模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，所述第二通道脉冲响应为所述区域的测点与所述拾音器之间的通道脉冲响应，所述相关系数表示所述第一通道脉冲响应和所述第二通道脉冲响应之间的相似度；

根据绝对值最大的相关系数确定所述声源的位置。

2.根据权利要求1所述的方法，其特征在于，所述根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应之前，所述方法还包括：

将所述待定位空间划分为多个区域，并为每个所述区域设置一个测点；

根据每个所述测点与所述拾音器之间的通道脉冲响应生成所述模板库。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：

获取所述第一通道脉冲响应的反向脉冲序列；

获取所述反向脉冲序列与每个所述第二通道脉冲响应之间的所述相关系数。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据绝对值最大的相关系数确定所述声源的位置，包括：

获取所述绝对值最大的相关系数中的第一元素；其中，所述第一元素为所述绝对值最大的相关系数中数值最大的元素；

根据所述第一元素确定所述声源的位置。

5.根据权利要求3或4所述的方法，其特征在于，所述根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应，包括：

根据公式计算所述第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为所述拾音器接收到的音频信号，s(t)为所述声源发出的音频信号，t为所述声源发出的音频信号的持续时间。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：

根据公式获取所述反向脉冲序列其中，为通道脉冲响应反向处理函数；

根据公式获取所述相关系数x(l,i)；其中，h_i(t)为所述第二通道脉冲响应，i表示所述第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

7.根据权利要求6所述的方法，其特征在于，所述根据绝对值最大的相关系数确定所述声源的位置，包括：

根据公式p(i)＝max(x(l,i))获取所述绝对值最大的相关系数p(i)；

根据公式c＝max(p(i))确定所述声源的位置c。

8.一种声源定位装置，其特征在于，包括：

获取模块，用于根据声源发出的音频信号和拾音器接收到的音频信号，获取第一通道脉冲响应；其中，所述第一通道脉冲响应为所述声源与所述拾音器之间的通道脉冲响应；

处理模块，用于获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数；其中，所述模板库中包括待定位空间中每个区域对应的第二通道脉冲响应，所述第二通道脉冲响应为所述区域的测点与所述拾音器之间的通道脉冲响应，所述相关系数表示所述第一通道脉冲响应和所述第二通道脉冲响应之间的相似度；

确定模块，用于根据绝对值最大的相关系数确定所述声源的位置。

9.根据权利要求8所述的装置，其特征在于，所述处理模块还用于将所述待定位空间划分为多个区域，并为每个所述区域设置一个测点；并根据每个所述测点与所述拾音器之间的通道脉冲响应生成所述模板库。

10.根据权利要求8或9所述的装置，其特征在于，所述处理模块获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：

所述处理模块获取所述第一通道脉冲响应的反向脉冲序列；并获取所述反向脉冲序列与每个所述第二通道脉冲响应之间的所述相关系数。

11.根据权利要求8-10任一项所述的装置，其特征在于，所述确定模块具体用于获取所述绝对值最大的相关系数中的第一元素，并根据所述第一元素确定所述声源的位置；其中，所述第一元素为所述绝对值最大的相关系数中数值最大的元素。

12.根据权利要求10或11所述的装置，其特征在于，所述获取模块具体用于根据公式计算所述第一通道脉冲响应其中，S(jω)＝FFT(s(t))，R(jω)＝FFT(r(t))，r(t)为所述拾音器接收到的音频信号，s(t)为所述声源发出的音频信号，t为所述声源发出的音频信号的持续时间。

13.根据权利要求12所述的装置，其特征在于，所述处理模块获取所述第一通道脉冲响应和模板库中的每个第二通道脉冲响应之间的相关系数，包括：

所述处理模块根据公式获取所述反向脉冲序列并根据公式获取所述相关系数x(l,i)；其中，为通道脉冲响应反向处理函数，h_i(t)为所述第二通道脉冲响应，i表示所述第二通道脉冲响应对应的区域的编号，且i为大于或者等于1的正整数，l＝1,2...2t-1。

14.根据权利要求13所述的装置，其特征在于，所述确定模块具体用于根据公式p(i)＝max(x(l,i))获取所述绝对值最大的相关系数p(i)；根据公式c＝max(p(i))确定所述声源的位置c。