CN108089153A - 一种声源定位方法、装置及*** - Google Patents

一种声源定位方法、装置及*** Download PDF

Info

Publication number
CN108089153A
CN108089153A CN201611046953.7A CN201611046953A CN108089153A CN 108089153 A CN108089153 A CN 108089153A CN 201611046953 A CN201611046953 A CN 201611046953A CN 108089153 A CN108089153 A CN 108089153A
Authority
CN
China
Prior art keywords
mrow
microphone
position point
predeterminated position
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611046953.7A
Other languages
English (en)
Inventor
陈扬坤
何赛娟
陈展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201611046953.7A priority Critical patent/CN108089153A/zh
Publication of CN108089153A publication Critical patent/CN108089153A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明实施例提供了一种声源定位方法、装置及***,所述方法应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述方法包括:获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;识别语音功率值最大的位置点,并将该位置点确定为声源位置。本发明实施例中,将麦克风设置在视频采集设备外部,采集场景中的声音均能被麦克风采集到,因此,能够提高声源定位的准确性。

Description

一种声源定位方法、装置及***
技术领域
本发明涉及语音信号处理技术领域,特别是涉及一种声源定位方法、装置及***。
背景技术
随着通信技术的发展,信息交互变得越来越方便。例如,在办公领域,处于不同地区的用户可以进行视频会议;或者,在教育领域,可以通过直播的方式进行在线教学,或通过录播视频的方式进行教学等。
在视频会议、在线教学或视频录播过程中,通常需要定位正在讲话的人,并将视频采集设备对准正在讲话的人。具体地,可以在会议室或教室安装视频采集设备,如,可以为能够360度旋转及上下调节的云台摄像机,通过该视频采集设备定位声源位置,即为正在讲话的人所处位置,进一步地控制其对准正在讲话的人。
已知的声源定位方法,主要为将麦克风安装在视频采集设备上,通过对麦克风接收的声源进行检测,从而定位声源位置,即为正在讲话的人所处位置。但是,上述方法中,由于将麦克风安装在视频采集设备上,因此通常只能定位距离视频采集设备距离较近的声源,而不能准确定位距离视频采集设备距离较远的声源。也就是说,已知的声源定位方法中,声源定位准确性较低。
发明内容
本发明实施例的目的在于提供一种声源定位方法、装置及***,以提高声源定位的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种声源定位方法,应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述方法包括:
获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;
根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;
识别语音功率值最大的位置点,并将该位置点确定为声源位置。
可选地,所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值的步骤包括:
根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换;
针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差;
根据各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关;
根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。
可选地,所述针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差的步骤包括:
根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
其中,所述Dmk为所述预设位置点m到麦克风k的距离,所述Dml为所述预设位置点m到麦克风l的距离,所述c为声速。
可选地,所述根据所述各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括:
根据以下公式,计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τmkl):
其中,所述Mk(w)为所述麦克风k接收的语音信号的傅里叶变换;所述为所述麦克风l接收的语音信号的傅里叶变换的共轭;所述w为语音信号频率;所述φkl(w)通过以下公式确定:
可选地,所述根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值的步骤包括:
根据以下公式,计算所述任一预设位置点m对应的语音功率值P(m):
其中,所述M为麦克风总数。
第二方面,本发明实施例提供了一种声源定位装置,应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述装置包括:
获取模块,用于获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;
计算模块,用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;
定位模块,用于识别语音功率值最大的位置点,并将该位置点确定为声源位置。
可选地,所述计算模块,包括:
第一计算子模块,用于根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换;
第二计算子模块,用于针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差;
第三计算子模块,用于根据各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关;
第四计算子模块,用于根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。
可选地,所述第二计算子模块,具体用于根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
其中,所述Dmk为所述预设位置点m到麦克风k的距离,所述Dml为所述预设位置点m到麦克风l的距离,所述c为声速。
可选地,所述第三计算子模块,具体用于根据以下公式,计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τmkl):
其中,所述Mk(w)为所述麦克风k接收的语音信号的傅里叶变换;所述为所述麦克风l接收的语音信号的傅里叶变换的共轭;所述w为语音信号频率;所述φkl(w)通过以下公式确定:
可选地,所述第四计算子模块,具体用于根据以下公式,计算所述任一预设位置点m对应的语音功率值P(m):
其中,所述M为麦克风总数。
第三方面,本发明实施例提供了一种声源定位***,所述***包括:视频采集设备、以及设置于所述视频采集设备外部的麦克风;
所述视频采集设备,用于获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;识别语音功率值最大的位置点,并将该位置点确定为声源位置;
所述各麦克风,用于采集语音信号,并将其采集的语音信号发送给所述视频采集设备。
本发明实施例提供了一种声源定位方法、装置及***,视频采集设备可以获取各麦克风采集的语音信号,并获取各麦克风的坐标信息,以及各预设位置点的坐标信息,然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值,最后识别语音功率值最大的位置点,并将该位置点确定为声源位置。本发明实施例中,将麦克风设置在视频采集设备外部,采集场景中的声音均能被麦克风采集到,因此,能够提高声源定位的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种声源定位方法的流程图;
图2(a)为本发明实施例的一种教室中麦克风分布情况示意图;
图2(b)为本发明实施例的另一种教室中麦克风分布情况示意图;
图3为本发明实施例提供的一种声源定位装置的结构示意图;
图4为本发明实施例提供的一种声源定位***的结构示意图。
具体实施方式
为了提高声源定位的准确性,本发明实施例提供了一种声源定位方法、装置及***。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种声源定位方法过程,如图1所示,该过程可以包括以下步骤:
S101,获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息。
在本发明实施例中,为了提高声源定位的准确性,可以在需要进行声源定位的采集场景中,如教室、会议室等,安装视频采集设备,并在视频采集设备外部安装麦克风。其中,上述视频采集设备可以为球机、云台摄像机等,本发明实施例对此不进行限定。
具体地,可以安装多个麦克风,并且为了能够很好地接收教室、会议室等采集场景各个区域的语音信号,可以将多个麦克风安装在采集场景的各个区域中。例如,如图2(a)所示,其示出了本发明实施例的一种教室中麦克风分布情况示意图,图中为教室俯视图。如图2(a)所示,可以将视频采集设备210安装在讲台附近,将多个麦克风安装在教室四周的墙壁上。并且,每面墙壁上安装的麦克风可以等间距排列,或者,也可以根据教室中学生230的分布情况不等间距排列。
或者,如图2(b)所示,其示出了本发明实施例的另一种教室中麦克风分布情况示意图,图中为教室俯视图。如图2(b)所示,可以将视频采集设备210安装在讲台附近,将多个麦克风安装在教室屋顶。并且,屋顶的各麦克风可以等间距排列,或者,也可以根据教室中学生230的分布情况不等间距排列。
并且,还可以确定各麦克风以及各预设位置点的标识信息,如,各麦克风的标识信息可以为a、b、l、k等,各预设位置点的标识信息可以为1、2、3等。还可以在采集场景中构建平面坐标系,并根据构建的平面坐标系,确定各麦克风以及各预设位置点的坐标信息。上述各预设位置点即为讲话的人可能出现的各位置点。
例如,如图2(a)、2(b)所示,可以将沿教室某一墙壁与地面相交直线的方向确定为X轴,与该墙壁相邻的另一墙壁与地面相交直线的方向确定为Y轴,X轴与Y轴相交点为O点。确定X轴、Y轴后,即可确定各麦克风的坐标信息,如麦克风n的坐标信息可以为:(Xn、Yn)。并且,可以将各麦克风的坐标信息存储在视频采集设备中。视频采集设备中存储的各麦克风的坐标信息可以如表1所示:
表1
麦克风标识信息 坐标信息
n (1.0、0.2)
k (3.0、0.2)
l (5.0、0.2)
t (7.0、0.2)
在教室中,讲话的人可能为老师或学生,并且,教师通常在讲台上,学生通常在自己座位上。也就是说,讲话的人可能出现的各位置点即为讲台或各学生的座位。因此,当确定X轴、Y轴后,还可以确定讲台的坐标信息,以及各学生座位的坐标信息,如可以确定第i个预设位置点的坐标信息可以为:(Xi、Yi)。并且,可以将讲台的坐标信息,以及各学生座位的坐标信息作为各预设位置点的坐标信息存储在视频采集设备中。视频采集设备中存储的各预设位置点的坐标信息可以如表2所示:
表2
在本发明实施例中,麦克风采集的语音信号可以通过模拟电路传输给视频采集设备。因此,在本发明实施例中,视频采集设备可以获取各麦克风采集的语音信号。并且,为了进行声源定位,视频采集设备还可以获取各麦克风的坐标信息,以及各预设位置点的坐标信息。例如,视频采集设备可以从本地预定存储空间中获取各麦克风的坐标信息,以及各预设位置点的坐标信息。
S102,根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值。
在本发明实施例中,获取到各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息后,视频采集设备可以根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值,以确定声源所在的位置点。
各位置点对应的语音功率值,可以用来表征各位置点声音的大小。可以理解,语音功率值最大的位置点,也就是声音最大的位置点,即为声源位置点。具体地,视频采集设备可以分别针对每个预设位置点,计算该位置点对应的语音功率值。
例如,视频采集设备可以根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换。具体地,视频采集设备可以根据现有的方式,计算各语音信号的傅里叶变换,本发明实施例对此不进行赘述。
针对任一预设位置点,视频采集设备可以首先根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差。具体地,可以根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
其中,Dmk为预设位置点m到麦克风k的距离,Dml为预设位置点m到麦克风l的距离,c为声速,c=340m/s。
当预设位置点m的坐标信息为(Xm、Ym),麦克风k的坐标信息为(Xk、Yk),麦克风l的坐标信息为(Xl、Yl)时,Dmk、Dml分别为:
然后,视频采集设备可以根据各语音信号的傅里叶变换,以及该预设位置点到每两个相邻麦克风的时延差,计算该预设位置点到每两个相邻麦克风的广义互相关。
具体地,视频采集设备可以根据以下公式,计算预设位置点m到相邻麦克风k、l的广义互相关R(τmkl):
其中,Mk(w)为麦克风k接收的语音信号的傅里叶变换;为麦克风l接收的语音信号的傅里叶变换的共轭;w为语音信号频率;φkl(w)通过以下公式确定:
最后,视频采集设备可以根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。具体地,视频采集设备可以根据以下公式,计算预设位置点m对应的语音功率值P(m):
其中,M为麦克风总数。
S103,识别语音功率值最大的位置点,并将该位置点确定为声源位置。
当视频采集设备计算得到每个预设位置点对应的语音功率值后,其可以识别语音功率值最大的位置点,并将该位置点确定为声源位置。
声源位置即为正在讲话的人所在位置,与其他位置相比,该位置的声音应该是最大的,因此该位置对应的语音功率值也应该是最大的。因此,在本发明实施例中,可以将语音功率值最大的位置点确定为声源位置。
本发明实施例提供了一种声源定位方法,视频采集设备可以获取各麦克风采集的语音信号,并获取各麦克风的坐标信息,以及各预设位置点的坐标信息,然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值,最后识别语音功率值最大的位置点,并将该位置点确定为声源位置。本发明实施例中,将麦克风设置在视频采集设备外部,采集场景中的声音均能被麦克风采集到,因此,能够提高声源定位的准确性。
相应于上面的方法实施例,本发明实施例还提供了相应的装置实施例。
图3为本发明实施例提供的一种声源定位装置,应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述装置包括:
获取模块310,用于获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;
计算模块320,用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;
定位模块330,用于识别语音功率值最大的位置点,并将该位置点确定为声源位置。
本发明实施例提供了一种声源定位装置,视频采集设备可以获取各麦克风采集的语音信号,并获取各麦克风的坐标信息,以及各预设位置点的坐标信息,然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值,最后识别语音功率值最大的位置点,并将该位置点确定为声源位置。本发明实施例中,将麦克风设置在视频采集设备外部,采集场景中的声音均能被麦克风采集到,因此,能够提高声源定位的准确性。
作为本发明实施例的一种实施方式,所述计算模块320,包括:
第一计算子模块(图中未示出),用于根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换;
第二计算子模块(图中未示出),用于针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差;
第三计算子模块(图中未示出),用于根据各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关;
第四计算子模块(图中未示出),用于根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。
作为本发明实施例的一种实施方式,所述第二计算子模块,具体用于根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
其中,所述Dmk为所述预设位置点m到麦克风k的距离,所述Dml为所述预设位置点m到麦克风l的距离,所述c为声速。
作为本发明实施例的一种实施方式,所述第三计算子模块,具体用于根据以下公式,计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τmkl):
其中,所述Mk(w)为所述麦克风k接收的语音信号的傅里叶变换;所述为所述麦克风l接收的语音信号的傅里叶变换的共轭;所述w为语音信号频率;所述φkl(w)通过以下公式确定:
作为本发明实施例的一种实施方式,所述第四计算子模块,具体用于根据以下公式,计算所述任一预设位置点m对应的语音功率值P(m):
其中,所述M为麦克风总数。
如图4所示,本发明实施例还提供了一种声源定位***,所述***包括:视频采集设备410、以及设置于所述视频采集设备410外部的麦克风420;
所述视频采集设备410,用于获取各麦克风420采集的语音信号,并获取所述各麦克风420的坐标信息,以及各预设位置点的坐标信息;根据所述各麦克风420采集的语音信号、所述各麦克风420的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;识别语音功率值最大的位置点,并将该位置点确定为声源位置;
所述各麦克风420,用于采集语音信号,并将其采集的语音信号发送给所述视频采集设备410。
本发明实施例提供了一种声源定位***,视频采集设备可以获取各麦克风采集的语音信号,并获取各麦克风的坐标信息,以及各预设位置点的坐标信息,然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值,最后识别语音功率值最大的位置点,并将该位置点确定为声源位置。本发明实施例中,将麦克风设置在视频采集设备外部,采集场景中的声音均能被麦克风采集到,因此,能够提高声源定位的准确性。
对于装置/***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种声源定位方法,其特征在于,应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述方法包括:
获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;
根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;
识别语音功率值最大的位置点,并将该位置点确定为声源位置。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值的步骤包括:
根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换;
针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差;
根据各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关;
根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。
3.根据权利要求2所述的方法,其特征在于,所述针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差的步骤包括:
根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
<mrow> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> </mrow> <mi>c</mi> </mfrac> </mrow>
其中,所述Dmk为所述预设位置点m到麦克风k的距离,所述Dml为所述预设位置点m到麦克风l的距离,所述c为声速。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括:
根据以下公式,计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τmkl):
<mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&amp;Integral;</mo> <mrow> <mo>-</mo> <mi>&amp;infin;</mi> </mrow> <mrow> <mo>+</mo> <mi>&amp;infin;</mi> </mrow> </msubsup> <msub> <mi>&amp;phi;</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msub> <mi>M</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msubsup> <mi>M</mi> <mi>l</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mi>w</mi> <mi>&amp;tau;</mi> </mrow> </msup> <mi>d</mi> <mi>w</mi> </mrow>
其中,所述Mk(w)为所述麦克风k接收的语音信号的傅里叶变换;所述为所述麦克风l接收的语音信号的傅里叶变换的共轭;所述w为语音信号频率;所述φkl(w)通过以下公式确定:
<mrow> <msub> <mi>&amp;phi;</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>M</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msubsup> <mi>M</mi> <mi>l</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>.</mo> </mrow>
5.根据权利要求4所述的方法,其特征在于,所述根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值的步骤包括:
根据以下公式,计算所述任一预设位置点m对应的语音功率值P(m):
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
其中,所述M为麦克风总数。
6.一种声源定位装置,其特征在于,应用于声源定位***中的视频采集设备,所述声源定位***还包括设置于所述视频采集设备外部的麦克风,所述装置包括:
获取模块,用于获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;
计算模块,用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;
定位模块,用于识别语音功率值最大的位置点,并将该位置点确定为声源位置。
7.根据权利要求6所述的装置,其特征在于,所述计算模块,包括:
第一计算子模块,用于根据各麦克风采集的语音信号,计算各语音信号的傅里叶变换;
第二计算子模块,用于针对每个预设位置点,根据该预设位置点的坐标信息、以及各麦克风的坐标信息,计算该预设位置点到每两个相邻麦克风的时延差;
第三计算子模块,用于根据各语音信号的傅里叶变换,以及所述该预设位置点到每两个相邻麦克风的时延差,计算所述该预设位置点到每两个相邻麦克风的广义互相关;
第四计算子模块,用于根据该预设位置点到每两个相邻麦克风的广义互相关,计算该位置点对应的语音功率值。
8.根据权利要求7所述的装置,其特征在于,所述第二计算子模块,具体用于根据以下公式,计算任一预设位置点m到任两个相邻麦克风k、l的时延差τmkl
<mrow> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> </mrow> <mi>c</mi> </mfrac> </mrow>
其中,所述Dmk为所述预设位置点m到麦克风k的距离,所述Dml为所述预设位置点m到麦克风l的距离,所述c为声速。
9.根据权利要求8所述的装置,其特征在于,所述第三计算子模块,具体用于根据以下公式,计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τmkl):
<mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&amp;Integral;</mo> <mrow> <mo>-</mo> <mi>&amp;infin;</mi> </mrow> <mrow> <mo>+</mo> <mi>&amp;infin;</mi> </mrow> </msubsup> <msub> <mi>&amp;phi;</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msub> <mi>M</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msubsup> <mi>M</mi> <mi>l</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mi>w</mi> <mi>&amp;tau;</mi> </mrow> </msup> <mi>d</mi> <mi>w</mi> </mrow>
其中,所述Mk(w)为所述麦克风k接收的语音信号的傅里叶变换;所述为所述麦克风l接收的语音信号的傅里叶变换的共轭;所述w为语音信号频率;所述φkl(w)通过以下公式确定:
<mrow> <msub> <mi>&amp;phi;</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>M</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <msubsup> <mi>M</mi> <mi>l</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>.</mo> </mrow>
10.根据权利要求9所述的装置,其特征在于,所述第四计算子模块,具体用于根据以下公式,计算所述任一预设位置点m对应的语音功率值P(m):
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;tau;</mi> <mrow> <mi>m</mi> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
其中,所述M为麦克风总数。
11.一种声源定位***,其特征在于,所述***包括:视频采集设备、以及设置于所述视频采集设备外部的麦克风;
所述视频采集设备,用于获取各麦克风采集的语音信号,并获取所述各麦克风的坐标信息,以及各预设位置点的坐标信息;根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息,计算各位置点对应的语音功率值;识别语音功率值最大的位置点,并将该位置点确定为声源位置;
所述各麦克风,用于采集语音信号,并将其采集的语音信号发送给所述视频采集设备。
CN201611046953.7A 2016-11-23 2016-11-23 一种声源定位方法、装置及*** Pending CN108089153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611046953.7A CN108089153A (zh) 2016-11-23 2016-11-23 一种声源定位方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611046953.7A CN108089153A (zh) 2016-11-23 2016-11-23 一种声源定位方法、装置及***

Publications (1)

Publication Number Publication Date
CN108089153A true CN108089153A (zh) 2018-05-29

Family

ID=62171152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611046953.7A Pending CN108089153A (zh) 2016-11-23 2016-11-23 一种声源定位方法、装置及***

Country Status (1)

Country Link
CN (1) CN108089153A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109506568A (zh) * 2018-12-29 2019-03-22 苏州思必驰信息科技有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN109655816A (zh) * 2018-11-30 2019-04-19 恩平市声动电子科技有限公司 获取声源位置的方法、装置及设备终端
CN110830771A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 智能监控方法、装置、设备及计算机可读存储介质
CN110874909A (zh) * 2018-08-29 2020-03-10 杭州海康威视数字技术股份有限公司 监控方法、***及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104076331A (zh) * 2014-06-18 2014-10-01 南京信息工程大学 一种七元麦克风阵列的声源定位方法
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN104181506A (zh) * 2014-08-26 2014-12-03 山东大学 一种基于改进phat加权时延估计的声源定位方法及其实现***
CN104898091A (zh) * 2015-05-29 2015-09-09 复旦大学 基于迭代优化算法的麦克风阵列自校准声源定位***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104076331A (zh) * 2014-06-18 2014-10-01 南京信息工程大学 一种七元麦克风阵列的声源定位方法
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN104181506A (zh) * 2014-08-26 2014-12-03 山东大学 一种基于改进phat加权时延估计的声源定位方法及其实现***
CN104898091A (zh) * 2015-05-29 2015-09-09 复旦大学 基于迭代优化算法的麦克风阵列自校准声源定位***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874909A (zh) * 2018-08-29 2020-03-10 杭州海康威视数字技术股份有限公司 监控方法、***及可读存储介质
CN109655816A (zh) * 2018-11-30 2019-04-19 恩平市声动电子科技有限公司 获取声源位置的方法、装置及设备终端
CN109506568A (zh) * 2018-12-29 2019-03-22 苏州思必驰信息科技有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN109506568B (zh) * 2018-12-29 2021-06-18 思必驰科技股份有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN110830771A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 智能监控方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108089152A (zh) 一种设备控制方法、装置及***
CN110010147B (zh) 一种麦克风阵列语音增强的方法和***
CN104254819B (zh) 音频用户交互辨识和上下文精炼
CN108089153A (zh) 一种声源定位方法、装置及***
Li et al. Online direction of arrival estimation based on deep learning
CN103581606B (zh) 一种多媒体采集装置和方法
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN107167770B (zh) 一种混响条件下的麦克风阵列声源定位装置
CN111239687A (zh) 一种基于深度神经网络的声源定位方法及***
Parhizkar et al. Single-channel indoor microphone localization
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN109147787A (zh) 一种智能电视声控识别***及其识别方法
CN110085072A (zh) 一种多机位非对称显示的实现方法及装置
Tian et al. Distributed Kalman filter-based speaker tracking in microphone array networks
CN109859769A (zh) 一种掩码估计方法及装置
Hao et al. Spectral flux-based convolutional neural network architecture for speech source localization and its real-time implementation
CN112887875B (zh) 会议***语音数据采集方法、装置、电子设备及存储介质
Parviainen et al. Self-localization of wireless acoustic sensors in meeting rooms
Tsiami et al. Experiments in acoustic source localization using sparse arrays in adverse indoors environments
JP2011033369A (ja) 会議装置
Nguyen et al. Selection of the closest sound source for robot auditory attention in multi-source scenarios
Segura et al. GCC-PHAT based head orientation estimation
Li et al. Robust acoustic source localization with TDOA based RANSAC algorithm
Venkatakrishnan et al. Tampere University Rotated Circular Array Dataset
Maganti et al. Speaker localization for microphone array-based asr: the effects of accuracy on overlapping speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529