CN108152788A - 声源追踪方法、声源追踪设备及计算机可读存储介质 - Google Patents

声源追踪方法、声源追踪设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108152788A
CN108152788A CN201711416776.1A CN201711416776A CN108152788A CN 108152788 A CN108152788 A CN 108152788A CN 201711416776 A CN201711416776 A CN 201711416776A CN 108152788 A CN108152788 A CN 108152788A
Authority
CN
China
Prior art keywords
sound
audio signal
zero
source follow
crossing rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711416776.1A
Other languages
English (en)
Inventor
田拓
来意哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian TCL Software Development Co Ltd
Original Assignee
Xian TCL Software Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian TCL Software Development Co Ltd filed Critical Xian TCL Software Development Co Ltd
Priority to CN201711416776.1A priority Critical patent/CN108152788A/zh
Publication of CN108152788A publication Critical patent/CN108152788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种声源追踪方法、声源追踪设备及计算机可读存储介质,该声源追踪方法包括:获取能量阈值和过零率阈值;根据能量阈值和过零率阈值检测并采集突发音频信号;对突发音频信号进行解析,以获取突发音频信号的声源方位信息;根据声源方位信息,确定终端的声音采集方向。本发明通过对突发音频信号进行阈值限定,以增加对突发语音端点的声源检测,从而能够对突发事件作出应急反应,避免噪音声源的干扰提高语音追踪和语音识别精确度和实时性,降低噪声影响,实现多声源测向,对声源的音频信息进行有效定位和提取,极大地提高了声源追踪设备的工作效率。

Description

声源追踪方法、声源追踪设备及计算机可读存储介质
技术领域
本发明涉及声源追踪技术领域,尤其涉及一种声源追踪方法、声源追踪设备及计算机可读存储介质。
背景技术
目前,在酒店安防监控领域、大型报告会场、新闻现场等诸多空间场景中,通常需要麦克风阵列进行远场拾音,以追踪场景中发言人的语音。
但是现有的麦克风阵列存在以下缺陷,没有突发语音端点检测,不能对突发事件作为应急反应,并且容易受到其他声源的噪音干扰,从而影响远场拾音的效果,造成麦克风阵列在定位追踪语音上的精确度和实时性上有一定程度的降低,导致麦克风阵列无法正确地获取到发言人的语音信息,极大地降低了麦克风阵列的工作效率。
发明内容
本发明的主要目的在于提供一种声源追踪方法、声源追踪设备及计算机可读存储介质,旨在解决麦克风阵列在远场拾音上的精确度和实时性的追踪定位效率低下的技术问题。
为实现上述目的,本发明实施例提供一种声源追踪方法,所述声源追踪方法应用于声源追踪终端,所述声源追踪方法包括:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并采集突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
优选地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:
获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
优选地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:
获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;
根据信号时延值获取突发音频信号中所有的时频点;
将所有时频点进行聚类处理,以获得声源方位信息。
优选地,所述将所有时频点进行聚类处理的步骤包括:
对所有时频点进行降噪处理,以获取到降噪时频点;
将所有降噪时频点进行聚类处理,以获得声源方位信息。
优选地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:
当检测到多个声源方位信息时,获取各声源方位信息的波束能量;
将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
优选地,所述获取能量阈值和过零率阈值的步骤包括:
根据预设测试条件采集预设采集范围内的样本音频信号;
根据样本音频信号进行计算,以获取能量阈值和过零率阈值。
此外,为实现上述目的,本发明还提供一种声源追踪设备,所述声源追踪设备包括:存储器、处理器,通信总线以及存储在所述存储器上的声源追踪程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述声源追踪程序,以实现以下步骤:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并采集突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
优选地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:
获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
优选地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:
获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;
根据信号时延值获取突发音频信号中所有的时频点;
将所有时频点进行聚类处理,以获得声源方位信息。
优选地,所述将所有时频点进行聚类处理的步骤包括:
对所有时频点进行降噪处理,以获取到降噪时频点;
将所有降噪时频点进行聚类处理,以获得声源方位信息。
优选地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:
当检测到多个声源方位信息时,获取各声源方位信息的波束能量;
将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
优选地,所述获取能量阈值和过零率阈值的步骤包括:
根据预设测试条件采集预设采集范围内的样本音频信号;
根据样本音频信号进行计算,以获取能量阈值和过零率阈值。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并获取突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
本发明通过获取能量阈值和过零率阈值;根据能量阈值和过零率阈值检测并获取突发音频信号;对突发音频信号进行解析,以获取突发音频信号的声源方位信息;根据声源方位信息,确定终端的声音采集方向。本发明通过对突发音频信号进行阈值限定,以增加对突发语音端点的声源检测,从而能够对突发事件作出应急反应,避免噪音声源的干扰提高语音追踪和语音识别精确度和实时性,降低噪声影响,实现多声源测向,对声源的音频信息进行有效定位和提取,极大地提高了声源追踪设备的工作效率。
附图说明
图1为本发明声源追踪方法一较佳实施例的流程示意图;
图2为图1中步骤S40的细化流程示意图;
图3为图1中步骤S20的细化流程示意图;
图4为本发明实施例方法涉及的硬件运行环境的设备结构示意图;
图5为本发明声源追踪终端近场球面波模型。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种声源追踪方法,所述声源追踪方法应用于声源追踪终端,在声源追踪方法第一实施例中,参照图1,所述声源追踪方法包括:
步骤S10,获取能量阈值和过零率阈值;
所述音频型号具有短时平均能量,所述短时平均能量可对语音信号进行浊音分析(浊音的短时平均能量比清音短时平均能量大;还可以用来区别声母和韵母的分界、无声和有声的分界等等。而能量阈值是对短时平均能量的门限界定,通过能量阈值,可对语音信号进行筛选过滤,以保障后续声源追踪终端所获取的音频信号为准确清晰的信息信号。
所述过零率阈值,指的是在离散时间语音信号情况下,如果相邻的信号采样具有不同的代数符号就称为发生了过零,而单位时间内过零的次数就称为短时过零率,所述短时过零率指的是一个信号的符号变化的比率,是信号频率的简单度量。而过零率阈值是对过零率的门限界定,通过过零率阈值,可对语音信号进行筛选过滤,保障后续声源追踪终端所获取的音频信号不是无效不规律的信息信号。
可以理解的是,在背景噪声比较小时采用短时平均能量的识别效率较高,而在背景噪声比较大时采用过零率的识别效率较高,但是通常情况是两个参数联合进行识别。能量阈值和过零率阈值均根据实际情况对采集到的音频信号进行合格性判定。
所述获取能量阈值和过零率阈值的步骤包括:
步骤S11,根据预设测试条件采集预设采集范围内的样本音频信号;
能量阈值和过零率阈值的获取方式可以是用户手动设置的,也可以是声源追踪终端的生产厂商预设的,也可以是根据实际情况调试的等等。而其中最能够保障质量效果的方式便是根据实际情况调试。具体情况为,声源追踪终端的应用场景一般是对安防监控领域、大型报告会场、视频会议现场、新闻现场、演讲会场等重要空间场景,因此对声源采集质量要求较高,需要根据现场环境适时作出调整。
不同的现场环境也有不用的环境影响因素,其中影响因素最大最重要便是收音效果。假设声源追踪终端距离声源(发言人或播放设备等)较远,那么在当前的现场场景中,声源追踪终端将不可避免地受到其他声源的影响导致收音效果降低。因此,调试过程主要是模拟正常收音效果与被干扰的收音效果的区别,并进行适配处理。故,在正常进行收银之前,可实现设置一理想环境,进行最佳效果采样。具体为根据预设测试条件采集预设采集范围内的样本音频信号,所述预设测试条件一般可以是现场环境安静无干扰的条件;也可以是可正常收音情形下的略微嘈杂环境的条件等等。在预设测试条件下进行预设采集范围内的音频信号采集,所述预设采集范围是为保障声源追踪终端的收音效果而设置的收音范围,终端的收音范围越远,其对音频信号的解析识别能力的要求就越高,对硬件的规格需求也就越大,这会导致终端体积增大,因此,需要设置一个预设采集范围,作为声源追踪终端的合理收音范围,在保障收音质量效果的同时,避免对终端硬件上的苛求导致操作不变。
步骤S12,根据样本音频信号进行计算,以获取能量阈值和过零率阈值。
在采集到样本音频信号之后,声源追踪终端将对样本音频信号进行数据计算处理。需要说明的是,为保障能量阈值和过零率阈值的稳定和高度参考性,样本音频信号的数量越多,密度越高,越能够计算获取到精确的能量值和过零率阈值。
可选地,以下为能量阈值和过零率阈值的一优选实例:
声源追踪终端将样本音频信号将模拟信号通过内置的多通道声音同步采集模块转换成数字信号送给DSP(数字信号处理技术)芯片,DSP芯片计算样本音频信号的短时能量和短时过零率;每一帧记为,n=1,2,…N,n为离散音频信号时间序列,N为帧长,i表示帧数。则每一帧音频信号的能量阈值为:
而每一帧音频信号的过零率阈值为:
即,Ei和Zi分别为该样本音频信号的能量阈值和过零率阈值。
步骤S20,根据能量阈值和过零率阈值检测并采集突发音频信号;
声源追踪终端在获取到能量阈值和过零率阈值之后,便可以将能量阈值和过零率阈值作为精准的参考数据,对后续的音频信号进行有效筛选和判断。通过能量阈值和过零率阈值,声源追踪终端可实时检测当前结束到的所有突发音频信号。在现实生活中,对声源的检测识别追踪过程中经常会检测到突发的音频信号。例如原本安静的空间场景中突然出现了音频信息,那么声源追踪终端需要对音频信号进行追踪检测,以确定当前出现的音频信息是否为有效信息。若判定是否有效信息的方式即可通过能量阈值和过零率阈值进行检测。
参照图2,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:
步骤S21,获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
所述现场音频信号指的是声源追踪终端所在现场的音频信号,声源追踪终端主要是通过对现场的音频信息进行采集,并转化为现场音频信号,同时对现场音频信号进行解析,以获取到现场音频信号的能量值和过零率。由上述可知,能量值和过零率即为突发音频信号的短时平均能量和短时过零率。
步骤S22,将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
在获取到现场音频信号的能量值和过零率之后,声源追踪终端将对能量值和过零率进行阈值检测。假设能量值大于能量阈值,证明当前的现场音频信号的能量值达标;假设过零率大于过零率阈值,则证明当前的现场音频信号的过零率达标。但是,该检测判定过程中,只有现场音频信号的能量值和过零率同时达标,才能将该现场音频信号确认为达标的突发音频信号,否则该现场音频信号为无效的音频信号。也就是说,假设现场音频信号中的能量值大于能量阈值,而过零率不大于过零率阈值;或者现场音频信号中的过零率大于过零率阈值,而能量值不大于能量阈值时,声源追踪终端将认定该突发音频信号为不合格的无效音频信号。通过能量阈值和过零率阈值的双重限定,声源追踪终端可以将不清晰的、无效不规律的噪音进行有效过滤,从而得到真正所需要的突发音频信号,避免出现采集的音频信号不可用的现象发生。
步骤S30,对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
突发音频信号中包含了很多信息,包括音频采集强度,音频频率,以及音频语义等多种有效信息,但都需要进行解析才能够获取到。通过对突发音频信号的解析,可获得大量解析数据,而这些解析数据,可具体指向该段突发音频信号的来源。
具体地,参照图3,以下将通过例子进行解析说明,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:
步骤S31,获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值并根据能量值确定最大音频信号的信号时延值;
声源追踪终端所获取的突发音频信号可能是不连续的,因此突发音频信号中的能量值也会是不连续的,因此存在一定的能量值差异。也就是说,所采集的突发音频信号中,每一帧的帧能量都有可以因为声源的发音方式不同而出现能量值的迥异,而能量值最大的音频信号通常是当前应用场景主要的声源信息,例如在新闻发布会中,演讲发言人的发言是焦点,也是会场内音量最高(即能量值最大)的音频信号。声源追踪终端需获取到所有突发音频信号中能量值最大的最大音频信号,根据每一帧信号中的帧能量,声源追踪终端可确定该最大音频信号的时延值,因为时延值会通过帧能量的变化趋势体现出来。而一般地,在声源追踪终端的应用场景中,演讲发言人的声音将会比较稳定,其音频信号的能量值也会呈现稳定的变化形式。
步骤S32,根据信号时延值获取突发音频信号中所有的时频点;
步骤S33,将所有时频点进行聚类处理,以获得声源方位信息。
由信号时延值,终端可确定出突发音频信号中的所有时频点,从而确定所有时频点的确切位置,而根据时频点,终端可对其进行聚类处理,以判断终端检测到该突发音频信号的方向位置,从而获取突发音频信号的声源方位信息。聚类处理主要是对不同时频点进行统计处理,以确定不同帧时刻所存在的信号帧是否为有效或清晰的信号帧,而有效的信号帧中的信号强度均可以标识着该信号帧的方向来源,经过一段突发音频信号中的多个信号帧的聚类处理,终端可统计出精确的声源方位信息。
所述将所有时频点进行聚类处理,以获得声源方位信息的步骤包括:
步骤S331,对所有时频点进行降噪处理,以获取到降噪时频点;
步骤S332,将所有降噪时频点进行聚类处理,以获得声源方位信息。
时频点中可能存在一些游离的无效信号点,为避免无效信号点对获取声源方位信息的干扰,本实施例将对时频点进行降噪处理,以获取到降噪时频点。将所有时频点中游离无效的时频点进行过滤、隔离或者柔化,从而减少或消除离散的时频点,可直观地显示时频特征,同时有利于提高所有时频点的辨识度,方便后续的操作处理。
步骤S40,根据声源方位信息,确定终端的声音采集方向。
获取到声源方位信息之后,终端即可针对声源方位信息,确定声源的位置范围,并将终端采集音频信号的收音天线或采集模块进行进一步精确定位,以过滤掉可能周围存在的噪音,避免干扰因素对收音效果的影响。在本实施例中声源追踪终端中的收音天线或采集模块可设置成可转动的采集装置,在获取到声源方位信息后,可将采集装置进行位移,以更方便有效地采集到音频信号。例如,在辩论赛之中,声源追踪终端可同时追踪正方和反方的发言,在轮到正方发言时,迅速确定正方的声源方向信息,以将终端上的采集装置转动到朝向正方声源方向的位置;而当轮到反方发言时,终端通过分析可迅速确定反方的声源方向信息,以将终端上的采集装置转动到朝向反方声源方向上的位置,从而实现高精度获取发言方的音频信号的目的。
本发明通过获取能量阈值和过零率阈值;根据能量阈值和过零率阈值检测并获取突发音频信号;对突发音频信号进行解析,以获取突发音频信号的声源方位信息;根据声源方位信息,确定终端的声音采集方向。本发明通过对突发音频信号进行阈值限定,以增加对突发语音端点的声源检测,从而能够对突发事件作出应急反应,避免噪音声源的干扰提高语音追踪和语音识别精确度和实时性,降低噪声影响,实现多声源测向,对声源的音频信息进行有效定位和提取,极大地提高了声源追踪设备的工作效率。
进一步地,在本发明声源追踪方法第一实施例的基础上,提出本发明声源追踪方法第二实施例,参照图2,与前述实施例的区别在于,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:
步骤S41,当检测到多个声源方位信息时,获取各声源方位信息的波束能量;
步骤S42,将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
假设终端同时获取到多个声源方位信息,则不同的声源方位信息当前将被确定为声音采集方向,例如当前声源追踪终端在新闻发布会上同时检测到两个或两个以上的声源,分别为中文发言以及英文翻译。那么证明在当前场景下,中文发言和英文翻译均属于有效声源,按流程应该同时采集。但是在本实施例中,英文翻译只是对中文发言的版本转换,相对于原版的中文发言,英文翻译的音量(即能量值)会稍微降低一些。那么为方便声源追踪终端进行最大化的声源追踪,终端将经过一个能量判定过程,以确定所要追踪的方向。
具体地,在终端检测到多个声源方位信息之后,终端将直接获取各声源方位信息的波束能量。所述波束能量指的是声源方位信息中所检测到的能量值最大的声源能量。波束能量越大,则相对应的能量值越大,也就意味着当前所采集到的对应声源为主要声源。
在确定波束能量之后,终端可确定下当前场景环境中最主要的声源,从而将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
可选地,在本实施例中,声源与声源追踪终端的距离较远,即声源追踪终端中多个麦克风之间的幅度衰减差异很小,可以近似认为相等,是平面波模型。当信源离声源追踪终端较近时,基于平面波前的远场模型不再适用,必须采用更为精确也更为复杂的基于球面波前的近场模型。声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。信源到声源追踪终端各阵元的距离是不同的,因此声波波前到达各阵元时,幅度也是不同的。近场模型和远场模型最主要的区别在于是否考虑声源追踪终端各阵元因接收信号幅度衰减的不同所带来的影响。对于远场模型,信源到各阵元的距离差与整个传播距离相比非常小,可忽略不计;参照图5,图5为本发明声源追踪终端近场球面波模型,对于近场模型,信源到各阵元的距离差与整个传播距离相比较大,必须考虑各阵元接收信号的幅度差。
参照图4,图4是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等终端设备。
如图4所示,该声源追踪设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该声源追踪设备还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的声源追踪设备结构并不构成对声源追踪设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及声源追踪程序。操作***是管理和控制声源追踪设备硬件和软件资源的程序,支持声源追踪程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与声源追踪设备中其它硬件和软件之间通信。
在图4所示的声源追踪设备中,处理器1001用于执行存储器1005中存储的声源追踪程序,实现以下步骤:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并采集突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
进一步地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:
获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
进一步地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:
获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;
根据信号时延值获取突发音频信号中所有的时频点;
将所有时频点进行聚类处理,以获得声源方位信息。
进一步地,所述将所有时频点进行聚类处理的步骤包括:
对所有时频点进行降噪处理,以获取到降噪时频点;
将所有降噪时频点进行聚类处理,以获得声源方位信息。
进一步地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:
当检测到多个声源方位信息时,获取各声源方位信息的波束能量;
将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
进一步地,所述获取能量阈值和过零率阈值的步骤包括:
根据预设测试条件采集预设采集范围内的样本音频信号;
根据样本音频信号进行计算,以获取能量阈值和过零率阈值。
本发明声源追踪设备的具体实施方式与上述声源追踪方法各实施例基本相同,在此不再赘述。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并采集突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
本发明计算机可读存储介质具体实施方式与上述声源追踪方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种声源追踪方法,其特征在于,所述声源追踪方法应用于声源追踪终端,所述声源追踪方法包括:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并采集突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
2.如权利要求1所述的声源追踪方法,其特征在于,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:
获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
3.如权利要求2所述的声源追踪方法,其特征在于,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:
获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值并根据能量值确定最大音频信号的信号时延值;
根据信号时延值获取突发音频信号中所有的时频点;
将所有时频点进行聚类处理,以获得声源方位信息。
4.如权利要求3所述的声源追踪方法,其特征在于,所述将所有时频点进行聚类处理,以获得声源方位信息的步骤包括:
对所有时频点进行降噪处理,以获取到降噪时频点;
将所有降噪时频点进行聚类处理,以获得声源方位信息。
5.如权利要求4所述的声源追踪方法,其特征在于,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:
当检测到多个声源方位信息时,获取各声源方位信息的波束能量;
将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。
6.如权利要求1所述的声源追踪方法,其特征在于,所述获取能量阈值和过零率阈值的步骤包括:
根据预设测试条件采集预设采集范围内的样本音频信号;
根据样本音频信号进行计算,以获取能量阈值和过零率阈值。
7.一种声源追踪设备,其特征在于,所述声源追踪设备包括:存储器、处理器,通信总线以及存储在所述存储器上的声源追踪程序,所述声源追踪程序被所述处理器执行时实现以下步骤:
获取能量阈值和过零率阈值;
根据能量阈值和过零率阈值检测并获取突发音频信号;
对突发音频信号进行解析,以获取突发音频信号的声源方位信息;
根据声源方位信息,确定终端的声音采集方向。
8.如权利要求7所述的声源追踪设备,其特征在于,所述声源追踪程序被所述处理器执行时还实现以下步骤:
获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;
将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。
9.如权利要求7所述的声源追踪设备,其特征在于,所述声源追踪程序被所述处理器执行时还实现如权利要求3至6中任一项所述的声源追踪方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有声源追踪程序,所述声源追踪程序被处理器执行时实现如权利要求1至6中任一项所述的声源追踪方法的步骤。
CN201711416776.1A 2017-12-22 2017-12-22 声源追踪方法、声源追踪设备及计算机可读存储介质 Pending CN108152788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711416776.1A CN108152788A (zh) 2017-12-22 2017-12-22 声源追踪方法、声源追踪设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711416776.1A CN108152788A (zh) 2017-12-22 2017-12-22 声源追踪方法、声源追踪设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108152788A true CN108152788A (zh) 2018-06-12

Family

ID=62465492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711416776.1A Pending CN108152788A (zh) 2017-12-22 2017-12-22 声源追踪方法、声源追踪设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108152788A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN109270493A (zh) * 2018-10-16 2019-01-25 苏州思必驰信息科技有限公司 声源定位方法和装置
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN110335313A (zh) * 2019-06-17 2019-10-15 腾讯科技(深圳)有限公司 音频采集设备定位方法及装置、说话人识别方法及***
CN110797045A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 声音处理方法、***、电子设备和计算机可读介质
CN111640437A (zh) * 2020-05-25 2020-09-08 中国科学院空间应用工程与技术中心 一种基于深度学习的声纹识别方法及***
CN112533070A (zh) * 2020-11-18 2021-03-19 深圳Tcl新技术有限公司 视频声音和画面的调整方法、终端和计算机可读存储介质
CN113223548A (zh) * 2021-05-07 2021-08-06 北京小米移动软件有限公司 声源定位方法及装置
CN113542863A (zh) * 2020-04-14 2021-10-22 深圳Tcl数字技术有限公司 一种声音处理方法、存储介质以及智能电视
CN115762525A (zh) * 2022-11-18 2023-03-07 北京中科艺杺科技有限公司 一种基于全方位语音获取的语音过滤收录方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
CN104538041A (zh) * 2014-12-11 2015-04-22 深圳市智美达科技有限公司 异常声音检测方法及***
CN105403860A (zh) * 2014-08-19 2016-03-16 中国科学院声学研究所 一种基于支配相关的多稀疏声源定位方法
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN106371057A (zh) * 2016-09-07 2017-02-01 北京声智科技有限公司 语音声源测向方法及装置
CN106960672A (zh) * 2017-03-30 2017-07-18 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
CN105403860A (zh) * 2014-08-19 2016-03-16 中国科学院声学研究所 一种基于支配相关的多稀疏声源定位方法
CN104538041A (zh) * 2014-12-11 2015-04-22 深圳市智美达科技有限公司 异常声音检测方法及***
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN106371057A (zh) * 2016-09-07 2017-02-01 北京声智科技有限公司 语音声源测向方法及装置
CN106960672A (zh) * 2017-03-30 2017-07-18 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
代勇等: "基于时频域的具有延迟的欠定盲分离", 《四川大学学报 (工程科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797045A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 声音处理方法、***、电子设备和计算机可读介质
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN109192219B (zh) * 2018-09-11 2021-12-17 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN109270493A (zh) * 2018-10-16 2019-01-25 苏州思必驰信息科技有限公司 声源定位方法和装置
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN109709518B (zh) * 2018-12-25 2021-07-20 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN110335313A (zh) * 2019-06-17 2019-10-15 腾讯科技(深圳)有限公司 音频采集设备定位方法及装置、说话人识别方法及***
CN110335313B (zh) * 2019-06-17 2022-12-09 腾讯科技(深圳)有限公司 音频采集设备定位方法及装置、说话人识别方法及***
CN113542863A (zh) * 2020-04-14 2021-10-22 深圳Tcl数字技术有限公司 一种声音处理方法、存储介质以及智能电视
CN111640437A (zh) * 2020-05-25 2020-09-08 中国科学院空间应用工程与技术中心 一种基于深度学习的声纹识别方法及***
CN112533070A (zh) * 2020-11-18 2021-03-19 深圳Tcl新技术有限公司 视频声音和画面的调整方法、终端和计算机可读存储介质
CN112533070B (zh) * 2020-11-18 2024-02-06 深圳Tcl新技术有限公司 视频声音和画面的调整方法、终端和计算机可读存储介质
CN113223548A (zh) * 2021-05-07 2021-08-06 北京小米移动软件有限公司 声源定位方法及装置
CN115762525A (zh) * 2022-11-18 2023-03-07 北京中科艺杺科技有限公司 一种基于全方位语音获取的语音过滤收录方法及***
CN115762525B (zh) * 2022-11-18 2024-05-07 北京中科艺杺科技有限公司 一种基于全方位语音获取的语音过滤收录方法及***

Similar Documents

Publication Publication Date Title
CN108152788A (zh) 声源追踪方法、声源追踪设备及计算机可读存储介质
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
US20210217433A1 (en) Voice processing method and apparatus, and device
US20160187453A1 (en) Method and device for a mobile terminal to locate a sound source
CN108366216A (zh) 会议视频录制、记录及传播方法、装置及服务器
CN107316651B (zh) 基于麦克风的音频处理方法和装置
US20140350923A1 (en) Method and device for detecting noise bursts in speech signals
CN112751648B (zh) 丢包数据恢复方法和相关装置、设备及存储介质
US11284151B2 (en) Loudness adjustment method and apparatus, and electronic device and storage medium
CN105719644A (zh) 一种自适应调整语音识别率的方法及装置
CN105118522A (zh) 噪声检测方法及装置
CN107580155B (zh) 网络电话质量确定方法、装置、计算机设备和存储介质
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
CN109151789A (zh) 翻译方法、装置、***以及蓝牙耳机
CN113053365B (zh) 语音分离方法、装置、设备和存储介质
CN105872205A (zh) 一种信息处理方法及装置
CN108010539A (zh) 一种基于语音激活检测的语音质量评估方法及装置
CN109361995A (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN111868823A (zh) 一种声源分离方法、装置及设备
CN109031201A (zh) 基于行为识别的语音定位方法以及装置
CN114067822A (zh) 通话音频处理方法、装置、计算机设备和存储介质
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN109994129A (zh) 语音处理***、方法和设备
CN110364176A (zh) 语音信号处理方法及装置
CN109389993A (zh) 一种语音数据采集方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612