CN108089153A

CN108089153A - 一种声源定位方法、装置及***

Info

Publication number: CN108089153A
Application number: CN201611046953.7A
Authority: CN
Inventors: 陈扬坤; 何赛娟; 陈展
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2018-05-29

Abstract

本发明实施例提供了一种声源定位方法、装置及***，所述方法应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述方法包括：获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，并将该位置点确定为声源位置。本发明实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性。

Description

一种声源定位方法、装置及***

技术领域

本发明涉及语音信号处理技术领域，特别是涉及一种声源定位方法、装置及***。

背景技术

随着通信技术的发展，信息交互变得越来越方便。例如，在办公领域，处于不同地区的用户可以进行视频会议；或者，在教育领域，可以通过直播的方式进行在线教学，或通过录播视频的方式进行教学等。

在视频会议、在线教学或视频录播过程中，通常需要定位正在讲话的人，并将视频采集设备对准正在讲话的人。具体地，可以在会议室或教室安装视频采集设备，如，可以为能够360度旋转及上下调节的云台摄像机，通过该视频采集设备定位声源位置，即为正在讲话的人所处位置，进一步地控制其对准正在讲话的人。

已知的声源定位方法，主要为将麦克风安装在视频采集设备上，通过对麦克风接收的声源进行检测，从而定位声源位置，即为正在讲话的人所处位置。但是，上述方法中，由于将麦克风安装在视频采集设备上，因此通常只能定位距离视频采集设备距离较近的声源，而不能准确定位距离视频采集设备距离较远的声源。也就是说，已知的声源定位方法中，声源定位准确性较低。

发明内容

本发明实施例的目的在于提供一种声源定位方法、装置及***，以提高声源定位的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种声源定位方法，应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

识别语音功率值最大的位置点，并将该位置点确定为声源位置。

可选地，所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值的步骤包括：

根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

可选地，所述针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差的步骤包括：

根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，所述D_mk为所述预设位置点m到麦克风k的距离，所述D_ml为所述预设位置点m到麦克风l的距离，所述c为声速。

可选地，所述根据所述各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括：

根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，所述M_k(w)为所述麦克风k接收的语音信号的傅里叶变换；所述为所述麦克风l接收的语音信号的傅里叶变换的共轭；所述w为语音信号频率；所述φ_kl(w)通过以下公式确定：

可选地，所述根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值的步骤包括：

根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

第二方面，本发明实施例提供了一种声源定位装置，应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

获取模块，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

计算模块，用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

定位模块，用于识别语音功率值最大的位置点，并将该位置点确定为声源位置。

可选地，所述计算模块，包括：

第一计算子模块，用于根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

第二计算子模块，用于针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

第三计算子模块，用于根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

第四计算子模块，用于根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

可选地，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

可选地，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

可选地，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

第三方面，本发明实施例提供了一种声源定位***，所述***包括：视频采集设备、以及设置于所述视频采集设备外部的麦克风；

所述视频采集设备，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，并将该位置点确定为声源位置；

所述各麦克风，用于采集语音信号，并将其采集的语音信号发送给所述视频采集设备。

本发明实施例提供了一种声源定位方法、装置及***，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，并将该位置点确定为声源位置。本发明实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种声源定位方法的流程图；

图2(a)为本发明实施例的一种教室中麦克风分布情况示意图；

图2(b)为本发明实施例的另一种教室中麦克风分布情况示意图；

图3为本发明实施例提供的一种声源定位装置的结构示意图；

图4为本发明实施例提供的一种声源定位***的结构示意图。

具体实施方式

为了提高声源定位的准确性，本发明实施例提供了一种声源定位方法、装置及***。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明实施例提供了一种声源定位方法过程，如图1所示，该过程可以包括以下步骤：

S101，获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息。

在本发明实施例中，为了提高声源定位的准确性，可以在需要进行声源定位的采集场景中，如教室、会议室等，安装视频采集设备，并在视频采集设备外部安装麦克风。其中，上述视频采集设备可以为球机、云台摄像机等，本发明实施例对此不进行限定。

具体地，可以安装多个麦克风，并且为了能够很好地接收教室、会议室等采集场景各个区域的语音信号，可以将多个麦克风安装在采集场景的各个区域中。例如，如图2(a)所示，其示出了本发明实施例的一种教室中麦克风分布情况示意图，图中为教室俯视图。如图2(a)所示，可以将视频采集设备210安装在讲台附近，将多个麦克风安装在教室四周的墙壁上。并且，每面墙壁上安装的麦克风可以等间距排列，或者，也可以根据教室中学生230的分布情况不等间距排列。

或者，如图2(b)所示，其示出了本发明实施例的另一种教室中麦克风分布情况示意图，图中为教室俯视图。如图2(b)所示，可以将视频采集设备210安装在讲台附近，将多个麦克风安装在教室屋顶。并且，屋顶的各麦克风可以等间距排列，或者，也可以根据教室中学生230的分布情况不等间距排列。

并且，还可以确定各麦克风以及各预设位置点的标识信息，如，各麦克风的标识信息可以为a、b、l、k等，各预设位置点的标识信息可以为1、2、3等。还可以在采集场景中构建平面坐标系，并根据构建的平面坐标系，确定各麦克风以及各预设位置点的坐标信息。上述各预设位置点即为讲话的人可能出现的各位置点。

例如，如图2(a)、2(b)所示，可以将沿教室某一墙壁与地面相交直线的方向确定为X轴，与该墙壁相邻的另一墙壁与地面相交直线的方向确定为Y轴，X轴与Y轴相交点为O点。确定X轴、Y轴后，即可确定各麦克风的坐标信息，如麦克风n的坐标信息可以为：(Xn、Yn)。并且，可以将各麦克风的坐标信息存储在视频采集设备中。视频采集设备中存储的各麦克风的坐标信息可以如表1所示：

表1

麦克风标识信息	坐标信息
		n	(1.0、0.2)
k	(3.0、0.2)
		l	(5.0、0.2)
t	(7.0、0.2)

在教室中，讲话的人可能为老师或学生，并且，教师通常在讲台上，学生通常在自己座位上。也就是说，讲话的人可能出现的各位置点即为讲台或各学生的座位。因此，当确定X轴、Y轴后，还可以确定讲台的坐标信息，以及各学生座位的坐标信息，如可以确定第i个预设位置点的坐标信息可以为：(Xi、Yi)。并且，可以将讲台的坐标信息，以及各学生座位的坐标信息作为各预设位置点的坐标信息存储在视频采集设备中。视频采集设备中存储的各预设位置点的坐标信息可以如表2所示：

表2

在本发明实施例中，麦克风采集的语音信号可以通过模拟电路传输给视频采集设备。因此，在本发明实施例中，视频采集设备可以获取各麦克风采集的语音信号。并且，为了进行声源定位，视频采集设备还可以获取各麦克风的坐标信息，以及各预设位置点的坐标信息。例如，视频采集设备可以从本地预定存储空间中获取各麦克风的坐标信息，以及各预设位置点的坐标信息。

S102，根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值。

在本发明实施例中，获取到各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息后，视频采集设备可以根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，以确定声源所在的位置点。

各位置点对应的语音功率值，可以用来表征各位置点声音的大小。可以理解，语音功率值最大的位置点，也就是声音最大的位置点，即为声源位置点。具体地，视频采集设备可以分别针对每个预设位置点，计算该位置点对应的语音功率值。

例如，视频采集设备可以根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换。具体地，视频采集设备可以根据现有的方式，计算各语音信号的傅里叶变换，本发明实施例对此不进行赘述。

针对任一预设位置点，视频采集设备可以首先根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差。具体地，可以根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，D_mk为预设位置点m到麦克风k的距离，D_ml为预设位置点m到麦克风l的距离，c为声速，c＝340m/s。

当预设位置点m的坐标信息为(Xm、Ym)，麦克风k的坐标信息为(Xk、Yk)，麦克风l的坐标信息为(Xl、Yl)时，D_mk、D_ml分别为：

然后，视频采集设备可以根据各语音信号的傅里叶变换，以及该预设位置点到每两个相邻麦克风的时延差，计算该预设位置点到每两个相邻麦克风的广义互相关。

具体地，视频采集设备可以根据以下公式，计算预设位置点m到相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，M_k(w)为麦克风k接收的语音信号的傅里叶变换；为麦克风l接收的语音信号的傅里叶变换的共轭；w为语音信号频率；φ_kl(w)通过以下公式确定：

最后，视频采集设备可以根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。具体地，视频采集设备可以根据以下公式，计算预设位置点m对应的语音功率值P(m)：

其中，M为麦克风总数。

S103，识别语音功率值最大的位置点，并将该位置点确定为声源位置。

当视频采集设备计算得到每个预设位置点对应的语音功率值后，其可以识别语音功率值最大的位置点，并将该位置点确定为声源位置。

声源位置即为正在讲话的人所在位置，与其他位置相比，该位置的声音应该是最大的，因此该位置对应的语音功率值也应该是最大的。因此，在本发明实施例中，可以将语音功率值最大的位置点确定为声源位置。

本发明实施例提供了一种声源定位方法，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，并将该位置点确定为声源位置。本发明实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性。

相应于上面的方法实施例，本发明实施例还提供了相应的装置实施例。

图3为本发明实施例提供的一种声源定位装置，应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

获取模块310，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

计算模块320，用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

定位模块330，用于识别语音功率值最大的位置点，并将该位置点确定为声源位置。

本发明实施例提供了一种声源定位装置，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，并将该位置点确定为声源位置。本发明实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性。

作为本发明实施例的一种实施方式，所述计算模块320，包括：

第一计算子模块(图中未示出)，用于根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

第二计算子模块(图中未示出)，用于针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

第三计算子模块(图中未示出)，用于根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

第四计算子模块(图中未示出)，用于根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

作为本发明实施例的一种实施方式，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

作为本发明实施例的一种实施方式，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

作为本发明实施例的一种实施方式，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

如图4所示，本发明实施例还提供了一种声源定位***，所述***包括：视频采集设备410、以及设置于所述视频采集设备410外部的麦克风420；

所述视频采集设备410，用于获取各麦克风420采集的语音信号，并获取所述各麦克风420的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风420采集的语音信号、所述各麦克风420的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，并将该位置点确定为声源位置；

所述各麦克风420，用于采集语音信号，并将其采集的语音信号发送给所述视频采集设备410。

本发明实施例提供了一种声源定位***，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，并将该位置点确定为声源位置。本发明实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性。

对于装置/***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种声源定位方法，其特征在于，应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括：

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Integral;</mo> <mrow> <mo>-</mo> <mi>&infin;</mi> </mrow> <mrow> <mo>+</mo> <mi>&infin;</mi> </mrow> </msubsup> <msub> <mi>&phi;</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msub> <mi>M</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msubsup> <mi>M</mi> <mi>l</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mi>w</mi> <mi>&tau;</mi> </mrow> </msup> <mi>d</mi> <mi>w</mi> </mrow>

5.根据权利要求4所述的方法，其特征在于，所述根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值的步骤包括：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中，所述M为麦克风总数。

6.一种声源定位装置，其特征在于，应用于声源定位***中的视频采集设备，所述声源定位***还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述计算模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

9.根据权利要求8所述的装置，其特征在于，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

10.根据权利要求9所述的装置，其特征在于，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

11.一种声源定位***，其特征在于，所述***包括：视频采集设备、以及设置于所述视频采集设备外部的麦克风；