CN117724042B - 基于声学双谱的鸟鸣声源定位方法及*** - Google Patents

基于声学双谱的鸟鸣声源定位方法及*** Download PDF

Info

Publication number
CN117724042B
CN117724042B CN202410179288.7A CN202410179288A CN117724042B CN 117724042 B CN117724042 B CN 117724042B CN 202410179288 A CN202410179288 A CN 202410179288A CN 117724042 B CN117724042 B CN 117724042B
Authority
CN
China
Prior art keywords
frequency band
energy
sound
time
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410179288.7A
Other languages
English (en)
Other versions
CN117724042A (zh
Inventor
舒璐
覃业锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bainiao Data Technology Beijing Co ltd
Original Assignee
Bainiao Data Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bainiao Data Technology Beijing Co ltd filed Critical Bainiao Data Technology Beijing Co ltd
Priority to CN202410179288.7A priority Critical patent/CN117724042B/zh
Publication of CN117724042A publication Critical patent/CN117724042A/zh
Application granted granted Critical
Publication of CN117724042B publication Critical patent/CN117724042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请涉及语音处理技术领域,提出了基于声学双谱的鸟鸣声源定位方法及***,包括:采集每个监控区域中的声音信号以及声音监测设备的空间位置向量;基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定梅尔频带能量聚集凸显度;基于每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定鸟类信息帧显著系数;采用VAD算法基于鸟类信息帧显著系数得到每个阵元麦克风采集声音信号的若干个声音信号片段;采用基于广义互相关时延估计的声源估计算法基于所有声音信号片段确定声音信号的定位结果。本申请自适应地对双门限端点检测算法中的阈值进行设定,提高声源定位结果的准确率。

Description

基于声学双谱的鸟鸣声源定位方法及***
技术领域
本申请涉及语音处理技术领域,具体涉及基于声学双谱的鸟鸣声源定位方法及***。
背景技术
鸟类是生态***中的重要一员,它们的数量和分布情况可以反应出生态环境的变化。通过对自然保护地内的鸟类进行定位追踪,能够帮助科研人员了解自然保护地内鸟类的分布和活动规律,可以及时发现生态环境的变化并采取相应的保护措施,有助于维护自然保护地内的生态平衡。
由于自然环境中安静的时段比较多,使得声音采集设备采集到的声音信号中静音信号(指在某个时间段内没有声音或者声音非常弱的信号)占比较大,因此需要对采集到的声音信号进行有效声音信号的提取,以减少***的运行时间和资源的占用率。双门限端点检测(VAD,Voice Activity Detection)算法是一种常用的语音活动检测算法,具有鲁棒性高、灵敏度高、实时性好的优点。但是传统的双门限端点检测算法中的阈值通常是由经验选取的定值,而自然环境中存在着大量风声、植物叶片摩擦声等环境噪声,当鸟类距离声音采集设备较远、设备附近存在较多的植物叶片摩擦声或强烈的风声,使得设备采集的声音信号中的噪声水平较高,若不及时调整双门限端点检测算法中的阈值,将会造成采集的声音信号中有效鸟类声音信号片段的误检或漏检,降低采集的声音信号中鸟鸣声音信号片段识别的准确性,从而影响声源定位的准确性。
发明内容
本申请提供基于声学双谱的鸟鸣声源定位方法及***,以解决声源定位过程中双门限端点检测算法中的阈值造成声音信号中有效鸟类声音信号片段误检、漏检的问题,所采用的技术方案具体如下:
第一方面,本申请一个实施例提供基于声学双谱的鸟鸣声源定位方法,该方法包括以下步骤:
将自然保护地划分为若干个监控区域,采集每个监控区域中的声音信号以及声音监测设备的空间位置向量;
基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定每帧上每个频率带的梅尔频带能量聚集凸显度;
基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数;
采用VAD算法基于每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数得到每个阵元麦克风采集声音信号的若干个声音信号片段;
采用基于广义互相关时延估计的声源估计算法基于每个麦克风阵列中所有阵元麦克风采集声音信号的所有声音信号片段确定声音信号的定位结果。
优选的,所述采集每个监控区域中的声音信号以及声音监测设备的空间位置向量的方法为:
在每个监控区域的预设位置分别放置一个声音监测设备,所述声音监测设备为由若干个阵元麦克风组成的麦克风阵列;
将以自然保护地的中心点为坐标原点,分别将南北方向、东西方向、与地面垂直的方向为x轴、y轴、z轴建立一个空间坐标系,将每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中的俯仰角和方位角组成的数据对作为每个阵元麦克风的序数对,将每个声音监测设备中所有阵元麦克风的序数对组成的向量作为每个声音监测设备的空间位置向量。
优选的,所述基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定每帧上每个频率带的梅尔频带能量聚集凸显度的方法为:
将每个阵元麦克风采集声音信号的梅尔语谱图中每一帧对应的区域均匀划分成预设数量个频率带;
将每个频率带中所有时频单元的能量值按照频率升序的顺序组成的序列作为每个频率带的能量序列;
基于每个频率带中时频单元能量峰值的大小以及每个频率带的频率区间确定每个频率带的频带能量聚集度;
将以自然常数为底数,以每个频率带的能量序列与其余任意一个频率带的能量序列之间的度量距离为指数的计算结果在每帧上所有频率带上的累加结果与每个频率带的频带能量聚集度的乘积作为每帧上每个频率带的梅尔频带能量聚集凸显度。
优选的,所述基于每个频率带中时频单元能量峰值的大小以及每个频率带的频率区间确定每个频率带的频带能量聚集度的方法为:
将每个频率带的能量序列作为输入,采用波峰波谷二阶差分识别算法获取每个频率带的能量序列中的所有波峰数据点;将任意一个所述波峰数据点对应的时频单元作为一个波峰时频单元;
将每个频率带中所有波峰时频单元的频率之间差值的最大值与每个频率带中所有波峰时频单元数量的乘积与0.1的和作为分母;
将每个频率带的能量序列中所有元素的峰度与分母的比值作为每个频率带的频带能量聚集度。
优选的,所述基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数的方法为:
将每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带中每个时频单元所在行中所有时频单元的能量值按照时间顺序排列组成的序列作为每个时频单元的能量时间分布序列;
将每个时频单元的能量时间分布序列作为输入,采用突变点检测算法获取每个时频单元的能量时间分布序列中的突变点;
获取与每个时频单元时间间隔最小的两个突变点,将每个时频单元的能量时间分布序列中所述两个突变点之间元素组成的序列作为每个时频单元的能量时间分布子序列;
基于每个频率带中不同时频单元的能量时间分布子序列确定每个频率带中每个时频单元的能量变化相关程度;
基于每个频率带中每个时频单元的能量变化相关程度以及每个频率带的梅尔频带能量聚集凸显度确定每个频率带的鸟类信号频带显著系数;
将每个阵元麦克风采集声音信号的梅尔语谱图中每帧上所有频率带的鸟类信号频带显著系数的累加和作为每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数。
优选的,所述基于每个频率带中不同时频单元的能量时间分布子序列确定每个频率带中每个时频单元的能量变化相关程度的方法为:
将每个频率带中每个时频单元与其余任意一个时频单元的能量时间分布子序列之间的度量距离与0.1的和作为第一距离值;
将第一距离值的倒数在每个频率带中所有时频单元上的累加结果作为每个频率带中每个时频单元的能量变化相关程度。
优选的,所述基于每个频率带中每个时频单元的能量变化相关程度以及每个频率带的梅尔频带能量聚集凸显度确定每个频率带的鸟类信号频带显著系数的方法为:
将每个频率带中每个时频单元的能量时间分布子序列中元素数量与0.1的和作为分母;将每个频率带中每个时频单元的能量变化相关程度与分母的比值作为第一累加因子,将第一累加因子在每个频率带中所有时频单元上的累加结果与每个频率带的梅尔频带能量聚集凸显度的乘积作为每个频率带的鸟类信号频带显著系数。
优选的,所述采用VAD算法基于每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数得到每个阵元麦克风采集声音信号的若干个声音信号片段的方法为:
将每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数按照时间顺序组成的序列作为每个阵元麦克风采集声音信号的鸟类信息显著序列;
将每个阵元麦克风采集声音信号、每个阵元麦克风采集声音信号的鸟类信息显著序列作为输入,采用神经网络模型确定双门限端点检测算法的阈值,采用双门限端点检测算法基于所述阈值将每个阵元麦克风采集声音信号分为若干个声音信号片段。
优选的,所述采用基于广义互相关时延估计的声源估计算法基于每个麦克风阵列中所有阵元麦克风采集声音信号的所有声音信号片段确定声音信号的定位结果的方法为:
将每个阵元麦克风采集声音信号对应的所有声音信号片段的梅尔语谱图和频谱图作为输入,采用卷积神经网络获取每个阵元麦克风采集声音信号中的鸟鸣信号片段;
将每个阵元麦克风采集声音信号中的鸟鸣信号片段作为输入,采用理想二值掩蔽算法获取每个声音监测设备中每个阵元麦克风的强化鸟鸣序列;
将每个声音监测设备中每个阵元麦克风的强化鸟鸣序列作为矩阵的一个行向量,将信号采集过程中每个声音监测设备中所有阵元麦克风的强化鸟鸣序列构建的矩阵作为每个声音监测设备的鸟鸣信号矩阵;
将每个声音监测设备的鸟鸣信号矩阵、每个声音监测设备的空间位置向量作为输入,采用基于广义互相关时延估计的声源估计算法输出每个声音监测设备采集的鸟鸣信号在空间坐标系中的坐标信息。
第二方面,本申请实施例还提供了基于声学双谱的鸟鸣声源定位***,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本申请的有益效果是:通过对环境噪声信号和鸟类声音信号进行分析,根据梅尔语谱图中频率带之间的频带能量聚集度和能量分布相似度构建梅尔频带能量聚集凸显度,提高了疑似鸟类声音信号在梅尔语谱图中所在区域的能量显著聚集特征,并结合各个频率带中时频单元的能量变化相关程度和随时间的变化程度,构建鸟类信息帧显著系数,提高了鸟类声音信号与环境噪声信号在梅尔语谱图中的区分度,基于鸟类信息帧显著系数自适应地对双门限端点检测算法中的阈值进行设定,避免时设备采集的声音信号中的噪声水平较高时,无法进行阈值自适应调整的问题,提高双门限端点检测算法对有效声音信号片段的提取精度,从而使得每个声音监测设备采集鸟鸣信号定位的准确性更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例所提供的基于声学双谱的鸟鸣声源定位方法的流程示意图;
图2为本申请一个实施例所提供的空间坐标系示意图;
图3为本申请一个实施例所提供的基于声学双谱的鸟鸣声源定位方法的实施流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其示出了本申请一个实施例提供的基于声学双谱的鸟鸣声源定位方法的流程图,该方法包括以下步骤:
步骤S001,将自然保护地划分为若干个监控区域,采集每个监控区域中的声音信号以及声音监测设备的空间位置向量。
将自然保护地所在的区域划分成个监控区域,在每个监控区域的预设位置各放置一个声音监测设备和一个摄像头监控设备,每个声音监测设备是由M个阵元麦克风组成的麦克风阵列,能够采集到其所在监控区域内的声音信号,可通过物联网将各个声音监测设备所采集的声音信号实时传回数据中心,由数据中心进行后续的鸟鸣声源的定位。本申请中,监控区域的划分数量/>、每个声音监测设备中的阵元麦克风的数量M的大小分别取经验值20、8,各个阵元麦克风采集的声音信号的采样频率、量化长度和采样时长分别设置为/>、/>和6s。需要说明的是,监控区域的划分数量、麦克风阵列的规格以及声音信号的采集参数可由实施者根据自然保护地所在区域的实际情况选择合适的值。
进一步地,以自然保护地的中心点为坐标原点o,分别将南北方向、东西方向、与地面垂直的方向为x轴、y轴、z轴建立一个空间坐标系,如图2所示,将每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中xoy平面上的垂直投影点与坐标原点o的连线与x轴的夹角作为所述每个阵元麦克风的方向角,将每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中xoy平面上的垂直投影点与坐标原点o的连线与每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中对应坐标点与坐标原点o的连线之间的夹角作为所述每个阵元麦克风的俯仰角。其次,将每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中的俯仰角和方位角组成的数据对作为每个阵元麦克风的序数对,将每个声音监测设备中M个阵元麦克风的序数对组成的向量作为每个声音监测设备的空间位置向量。
至此,分别确定每个麦克风阵列的空间位置向量以及每个阵元麦克风采集的声音信号,用于后续确定每个监控区域内的声源定位结果。
步骤S002,基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定每个频率带的梅尔频带能量聚集凸显度。
本申请旨在提取每个监控区域内麦克风阵列中每个阵元麦克风采集声音信号中的有声片段,基于每个麦克风阵列中所有阵元麦克风采集声音信号中的有声片段确定声音信号的声源定位结果,整个方案的实施流程如图3所示。本申请中,首先考虑鸟类鸣叫时声音能量在特定频率范围内的聚集特征评估每个阵元麦克风采集声音信号中每帧信号上不同频率区间存在鸟鸣信号的概率。
自然环境中的风声、植物叶片摩擦声等环境噪声通常是由大范围的空气流动或植物叶片摩擦等多个随机振动源引起的,并且这些环境噪声在传播过程中会受到各种障碍物和介质的遮蔽和衰减,使得环境噪声信号的能量比较均匀地分布在不同的频率上,而鸟类的声音通常是由特定的生理结构发出的,比如鸟类的鸣管等,这些结构的差异会导致鸟类只能发出特定频率的声音,并且鸟类产生的声音信号的能量通常会聚集在特定的频率范围内,以适应环境和传递信息,吸引异性、求食、进行警吓和避开袭击等,因此在梅尔语谱图中,环境噪声信号的能量通常会比较均匀地分布在不同的频率上,而鸟鸣信号的能量会聚集在特定的频率范围内。
在本实施例中,对于任意一个麦克风阵列中每个阵元麦克风采集的声音信号,以第n个麦克风阵列中第m个阵元麦克风采集声音信号为例,将声音信号/>作为输入,经过分帧加窗、傅里叶变换等流程获取声音信号/>的梅尔语谱图/>,其中,帧长设置为20ms、帧重叠设置为5ms,加窗时的窗函数为汉明窗,梅尔语谱图的获取为公知技术,具体过程不再赘述。梅尔语谱图/>的横轴为时间、纵轴为频率,因此将每个时刻和每个频率都在梅尔语谱图/>上确定的点作为一个时频单元,对于梅尔语谱图/>中每一帧上的区域,将梅尔语谱图/>中每一帧上的区域均匀划分成/>个频率区间,将每个频率区间作为一个频率带,/>的大小取经验值20。对于任意一个频率带,以梅尔语谱图/>中第i帧上第k个频率带/>为例,将每个频率带中所有时频单元的能量值按照频率升序的顺序组成的序列作为每个频率带的能量序列。
其次,为了评估每个频率带的能量序列中元素的聚集程度,将每个频率带的能量序列作为输入,采用波峰波谷二阶差分识别算法获取每个频率带的能量序列中的所有波峰数据点;将任意一个所述波峰数据点对应的时频单元作为一个波峰时频单元,波峰波谷二阶差分识别算法为公知技术,具体过程不再赘述。
基于上述分析,此处构建梅尔频带能量聚集凸显度,用于表征每个阵元麦克风采集声音信号的梅尔语谱图中每个频率带中能量的聚集程度。计算频率带的梅尔频带能量聚集凸显度:
式中,是频率带/>的频带能量聚集度,/>是频率带/>的能量序列中所有元素的峰度,/>是频率带/>中所有波峰时频单元数量,/>是频率带/>中所有波峰时频单元的频率之间差值的最大值,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1,峰度的计算为公知技术,具体过程不再赘述;
是频率带/>的梅尔频带能量聚集凸显度,/>是梅尔语谱图/>中第i帧上频率带的数量,c是梅尔语谱图/>中第i帧上第c个频率带,/>、/>分别是梅尔语谱图/>中第i帧上第k个频率带、第c个频率带的能量序列,/>是序列/>、/>之间的欧式距离。
其中,梅尔语谱图中第i帧上频率带/>的能量序列中能量集中分布的现象越显著,频率带/>的能量序列中的峰值在能量序列中分布越突出,/>的值越大,频率带/>的能量序列中能量值在峰值附近的集中程度越高,频率带/>的能量序列中波峰数据点之间的频率间隔越小,/>的值越小,/>的值越小,/>的值越大;梅尔语谱图/>中第i帧上频率带/>内包含鸟鸣信号成分越多,梅尔语谱图/>中第i帧上频率带/>内能量越集中分布在较小的频率范围内并且能量分布越显著,由于鸟鸣信号能量高的特征,频率带/>内各个时频单元的能量值越会大于其余频率带的能量序列中的元素值,序列/>、/>之间的差异越大,/>的值越大,/>的值越大。
至此,得到每个频率带的梅尔频带能量聚集凸显度,用于后续评估每帧信号中鸟类信息的显著程度。
步骤S003,基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数。
在自然保护地中采集声音信号的过程中,可能会受到多种环境噪声的干扰,包括但不限于风声、雨声、麦克风阵列附近树叶的摩擦声等。上述干扰声音会影响频带上能量的衰减特征,从而影响每个频率带内能量聚集程度,因此,本申请进一步考虑通过鸟类鸣叫过程中信号能量稳定变化持续时间较短且连续时间段内能量随时间变化的相关性来评估声音信号内每一帧信号中鸣叫信息的含量高低。
具体地,环境噪声信号通常是由多个不同的振动源产生的声音信号合成的声音信号,使得环境噪声信号具有较强的随机性,而鸟类在发声时需要通过肺部、喉部、口腔等部位进行气流的调节和声带的振动,使得鸟类在发声时会产生一系列间断的声波,形成间隔性的声音,因此在梅尔语谱图中,环境噪声信号的能量在较长的时间段内不会出现较大的变化,并且环境噪声信号在不同的频率上的能量随时间的变化具有较弱的相关性,即环境噪声信号在梅尔语谱图上的同一帧中,不同时频单元之间的能量值随时间的变化具有较大的差异,而鸟鸣信号的能量是短暂的,快速变化的,即在较短的时间段内会不会出现较大的变化,并且鸟鸣信号在不同的频率上的能量随时间的变化具有较强的相关性。
进一步地,对于声音信号的梅尔语谱图/>中的每个频率带,以梅尔语谱图中第i帧上第k个频率带/>为例,将频率带/>中每个时频单元所在行中所有时频单元的能量值按照时间顺序组成的序列作为频率带/>中每个时频单元的能量时间分布序列,并将频率带/>中每个时频单元的能量时间分布序列作为输入,采用BG(BernaolaGalvan)序列分割算法获取频率带/>中每个时频单元的能量时间分布序列中的突变点,BG序列分割算法为公知技术,具体过程不再赘述。
在另一个实施例中,对于声音信号的梅尔语谱图/>中的每个频率带,还可以将每个频率带中每个时频单元的能量时间分布序列作为输入,采用Pettitt突变点检测算法获取每个频率带中每个时频单元的能量时间分布序列的突变点,Pettitt突变点检测算法为公知技术,具体过程不再赘述。
其次,将频率带中每个时频单元的能量时间分布序列中的每个突变点作为一个分割点,则/>个突变点会将频率带/>中每个时频单元的能量时间分布序列分成个子序列,将频率带/>中每个时频单元所在的子序列作为频率带/>中每个时频单元的能量时间分布子序列。
基于上述分析,此处构建鸟类信息帧显著系数,用于表征每个阵元麦克风采集声音信号中每帧信号上时频单元符合鸟类鸣叫能量变化特征的程度。计算声音信号中第i帧的鸟类信息帧显著系数:
式中,是频率带/>中第q个时频单元的能量变化相关程度,/>是频率带中时频单元的数量,g是频率带/>中第g个时频单元,/>、/>分别是频率带/>中第q个、第g个时频单元的能量时间分布子序列,/>是序列/>、/>之间的DTW(Dynamic Time Warping)距离,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1,DTW距离的计算为公知技术,具体过程不再赘述;
是频率带/>的鸟类信号频带显著系数,/>是频率带/>的梅尔频带能量聚集凸显度,是能量时间分布子序列/>中元素的数量;
是声音信号/>中第i帧的鸟类信息帧显著系数,/>是梅尔语谱图/>中第i帧上频率带的数量。
其中,声音信号中第i帧信号中包含的鸟鸣鸟叫信息越多,第i帧越有可能是鸟鸣信号帧,频率带/>中所有时频单元的能量值随时间的变化特征越相似,不同时频单元所在能量时间分布子序列之间的差异越小,序列/>、/>之间的差异越小,第一距离值的值越小,/>的值越大;频率带/>中第q个时频单元的能量值出现稳定变化的持续时间越短,频率带/>中第q个时频单元的能量时间分布子序列/>中元素数量越少,/>的值越小,第一累加因子/>的值越大,梅尔语谱图/>中第i帧上频率带/>的能量序列中能量集中分布特征越显著,/>的值越大,/>的值越大;即的值越大,声音信号/>中第i帧信号越符合鸟类鸣叫时能量随时间的变化特征,第i帧信号上包含鸟鸣信息成分的频率带越多。
至此,得到每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数,用于后续获取每个阵元采集声音信号的声音信号片段。
步骤S004,基于每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数确定所述声音信号的若干个声音信号片段;采用基于广义互相关时延估计的声源估计算法基于每个麦克风阵列中所有阵元麦克风采集声音信号的所有声音信号片段确定声音信号的定位结果。
根据上述步骤,分别获取每个麦克风阵列中每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数,将每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数按照时间顺序组成的序列作为每个阵元麦克风采集声音信号的鸟类信息显著序列。将每个阵元麦克风采集声音信号及其鸟类信息显著序列作为输入,采用循环神经网络模型,将随机梯度下降算法作为优化算法,将均方误差函数作为损失函数,由循环神经网络输出双门限端点检测算法的阈值,循环神经网络的训练为公知技术,具体过程不再赘述。其次,将每个阵元麦克风采集声音信号作为输入,采用双门限端点检测算法基于所述阈值得到每个阵元麦克风采集声音信号中的若干个声音信号片段,双门限端点检测算法为公知技术,具体过程不再赘述。
进一步地,对于任意一个阵元麦克风采集声音信号,获取每个阵元麦克风采集声音信号的每个声音信号片段的梅尔语谱图和频谱图,音频信号频谱图的获取为公知技术,具体过程不再赘述。将每个声音信号片段的梅尔语谱图和频谱图作为输入,采用卷积神经网络模型,将随机梯度下降算法作为优化算法,将交叉熵函数为损失函数,由卷积神经网络输出每个声音信号片段的标签,所述标签分为1、0两种,其中,标签1、0分别代表属于鸟鸣声音信号、不属于鸟鸣声音信号,将任意一个标签为1的声音信号片段作为一个鸟鸣信号片段,神经网络的训练为公知技术,具体过程不再赘述。
进一步地,分别获取每个麦克风阵列中每个阵元麦克风采集声音信号中的鸟鸣信号片段。并分别将每个鸟鸣信号片段作为输入,采用理想二值掩蔽IBM(Ideal BinaryMask)算法获取每个鸟鸣信号片段的增强结果,IBM算法为公知技术,具体过程不再赘述。对于任意一个阵元麦克风采集声音信号,将每个阵元麦克风采集声音信号包含所有鸟鸣信号片段的增强结果中所有采样点的振幅按照时间升序顺序组成的序列作为每个阵元麦克风的有效间段序列,其次对于每个阵元麦克风采集声音信号中不属于任意一个鸟鸣信号片段的采样点,将每个不属于鸟鸣信号片段的采样点振幅置为0,将所有不属于鸟鸣信号片段的采样点振幅按照采样时间顺序添加到每个阵元麦克风的有效间段序列中得到每个阵元麦克风的强化鸟鸣序列。举例而言,第n个麦克风阵列中第m个阵元麦克风采集声音信号的采样起止时间分别为、/>,声音信号/>中包含两个鸟鸣信号片段,两个鸟鸣信号片段的时间区间分别是[/>,/>]、[/>,/>],则两个鸟鸣信号片段的增强结果中所有采样点的振幅按照时间升序顺序组成的序列作为第m个阵元麦克风的有效间段序列,将不属于两个鸟鸣信号片段的时间区间内[/>,/>]、[/>+1,/>-1]、[/>+1,/>]所有采样点振幅置为0,并将所有重置为0的振幅按照采样时间顺序添加到第m个阵元麦克风的有效间段序列中得到第m个阵元麦克风的强化鸟鸣序列。
其次,根据上述步骤,分别获取每个麦克风阵列中所有阵元麦克风的强化鸟鸣序列。将每个阵元麦克风的强化鸟鸣序列作为矩阵的一个行向量,将每个麦克风阵列中所有阵元麦克风的强化鸟鸣序列构建的矩阵作为每个麦克风阵列的鸟鸣信号矩阵;将每个麦克风阵列的鸟鸣信号矩阵、每个麦克风阵列的空间位置向量作为输入,采用基于广义互相关时延估计的声源估计算法输出每个麦克风阵列采集的鸟鸣信号在空间坐标系中的坐标信息,基于广义互相关时延估计的声源定位算法为公知技术,具体过程不再赘述,将每个麦克风阵列采集的鸟鸣信号在空间坐标系中的坐标信息上传至自然保护地的数据中心。
基于与上述方法相同的发明构思,本申请实施例还提供了基于声学双谱的鸟鸣声源定位***,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于声学双谱的鸟鸣声源定位方法中任意一项所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.基于声学双谱的鸟鸣声源定位方法,其特征在于,该方法包括以下步骤:
将自然保护地划分为若干个监控区域,采集每个监控区域中的声音信号以及声音监测设备的空间位置向量;
基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定每帧上每个频率带的梅尔频带能量聚集凸显度;
基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数;
采用VAD算法基于每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数得到每个阵元麦克风采集声音信号的若干个声音信号片段;
采用基于广义互相关时延估计的声源估计算法基于每个麦克风阵列中所有阵元麦克风采集声音信号的所有声音信号片段确定声音信号的定位结果;
所述采用基于广义互相关时延估计的声源估计算法基于每个麦克风阵列中所有阵元麦克风采集声音信号的所有声音信号片段确定声音信号的定位结果的方法为:
将每个阵元麦克风采集声音信号对应的所有声音信号片段的梅尔语谱图和频谱图作为输入,采用卷积神经网络获取每个阵元麦克风采集声音信号中的鸟鸣信号片段;
将每个阵元麦克风采集声音信号中的鸟鸣信号片段作为输入,采用理想二值掩蔽算法获取每个声音监测设备中每个阵元麦克风的强化鸟鸣序列;
将每个声音监测设备中每个阵元麦克风的强化鸟鸣序列作为矩阵的一个行向量,将信号采集过程中每个声音监测设备中所有阵元麦克风的强化鸟鸣序列构建的矩阵作为每个声音监测设备的鸟鸣信号矩阵;
将每个声音监测设备的鸟鸣信号矩阵、每个声音监测设备的空间位置向量作为输入,采用基于广义互相关时延估计的声源估计算法输出每个声音监测设备采集的鸟鸣信号在空间坐标系中的坐标信息。
2.根据权利要求1所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述采集每个监控区域中的声音信号以及声音监测设备的空间位置向量的方法为:
在每个监控区域的预设位置分别放置一个声音监测设备,所述声音监测设备为由若干个阵元麦克风组成的麦克风阵列;
将以自然保护地的中心点为坐标原点,分别将南北方向、东西方向、与地面垂直的方向为x轴、y轴、z轴建立一个空间坐标系,将每个监控区域内麦克风阵列中每个阵元麦克风在空间坐标系中的俯仰角和方位角组成的数据对作为每个阵元麦克风的序数对,将每个声音监测设备中所有阵元麦克风的序数对组成的向量作为每个声音监测设备的空间位置向量。
3.根据权利要求1所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上不同频率带之间能量分布集中特征的分析结果确定每帧上每个频率带的梅尔频带能量聚集凸显度的方法为:
将每个阵元麦克风采集声音信号的梅尔语谱图中每一帧对应的区域均匀划分成预设数量个频率带;
将每个频率带中所有时频单元的能量值按照频率升序的顺序组成的序列作为每个频率带的能量序列;
基于每个频率带中时频单元能量峰值的大小以及每个频率带的频率区间确定每个频率带的频带能量聚集度;
将以自然常数为底数,以每个频率带的能量序列与其余任意一个频率带的能量序列之间的度量距离为指数的计算结果在每帧上所有频率带上的累加结果与每个频率带的频带能量聚集度的乘积作为每帧上每个频率带的梅尔频带能量聚集凸显度。
4.根据权利要求3所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述基于每个频率带中时频单元能量峰值的大小以及每个频率带的频率区间确定每个频率带的频带能量聚集度的方法为:
将每个频率带的能量序列作为输入,采用波峰波谷二阶差分识别算法获取每个频率带的能量序列中的所有波峰数据点;将任意一个所述波峰数据点对应的时频单元作为一个波峰时频单元;
将每个频率带中所有波峰时频单元的频率之间差值的最大值与每个频率带中所有波峰时频单元数量的乘积与0.1的和作为分母;
将每个频率带的能量序列中所有元素的峰度与分母的比值作为每个频率带的频带能量聚集度。
5.根据权利要求1所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述基于每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带的梅尔频带能量聚集凸显度以及能量稳定变化持续时间的长短确定每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数的方法为:
将每个阵元麦克风采集声音信号的梅尔语谱图中每帧上每个频率带中每个时频单元所在行中所有时频单元的能量值按照时间顺序排列组成的序列作为每个时频单元的能量时间分布序列;
将每个时频单元的能量时间分布序列作为输入,采用突变点检测算法获取每个时频单元的能量时间分布序列中的突变点;
获取与每个时频单元时间间隔最小的两个突变点,将每个时频单元的能量时间分布序列中所述两个突变点之间元素组成的序列作为每个时频单元的能量时间分布子序列;
基于每个频率带中不同时频单元的能量时间分布子序列确定每个频率带中每个时频单元的能量变化相关程度;
基于每个频率带中每个时频单元的能量变化相关程度以及每个频率带的梅尔频带能量聚集凸显度确定每个频率带的鸟类信号频带显著系数;
将每个阵元麦克风采集声音信号的梅尔语谱图中每帧上所有频率带的鸟类信号频带显著系数的累加和作为每个阵元麦克风采集声音信号中每帧信号的鸟类信息帧显著系数。
6.根据权利要求5所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述基于每个频率带中不同时频单元的能量时间分布子序列确定每个频率带中每个时频单元的能量变化相关程度的方法为:
将每个频率带中每个时频单元与其余任意一个时频单元的能量时间分布子序列之间的度量距离与0.1的和作为第一距离值;
将第一距离值的倒数在每个频率带中所有时频单元上的累加结果作为每个频率带中每个时频单元的能量变化相关程度。
7.根据权利要求5所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述基于每个频率带中每个时频单元的能量变化相关程度以及每个频率带的梅尔频带能量聚集凸显度确定每个频率带的鸟类信号频带显著系数的方法为:
将每个频率带中每个时频单元的能量时间分布子序列中元素数量与0.1的和作为分母;将每个频率带中每个时频单元的能量变化相关程度与分母的比值作为第一累加因子,将第一累加因子在每个频率带中所有时频单元上的累加结果与每个频率带的梅尔频带能量聚集凸显度的乘积作为每个频率带的鸟类信号频带显著系数。
8.根据权利要求1所述的基于声学双谱的鸟鸣声源定位方法,其特征在于,所述采用VAD算法基于每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数得到每个阵元麦克风采集声音信号的若干个声音信号片段的方法为:
将每个阵元麦克风采集声音信号中所有帧信号的鸟类信息帧显著系数按照时间顺序组成的序列作为每个阵元麦克风采集声音信号的鸟类信息显著序列;
将每个阵元麦克风采集声音信号、每个阵元麦克风采集声音信号的鸟类信息显著序列作为输入,采用神经网络模型确定双门限端点检测算法的阈值,采用双门限端点检测算法基于所述阈值将每个阵元麦克风采集声音信号分为若干个声音信号片段。
9.基于声学双谱的鸟鸣声源定位***,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述基于声学双谱的鸟鸣声源定位方法的步骤。
CN202410179288.7A 2024-02-18 2024-02-18 基于声学双谱的鸟鸣声源定位方法及*** Active CN117724042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410179288.7A CN117724042B (zh) 2024-02-18 2024-02-18 基于声学双谱的鸟鸣声源定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410179288.7A CN117724042B (zh) 2024-02-18 2024-02-18 基于声学双谱的鸟鸣声源定位方法及***

Publications (2)

Publication Number Publication Date
CN117724042A CN117724042A (zh) 2024-03-19
CN117724042B true CN117724042B (zh) 2024-04-19

Family

ID=90209267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410179288.7A Active CN117724042B (zh) 2024-02-18 2024-02-18 基于声学双谱的鸟鸣声源定位方法及***

Country Status (1)

Country Link
CN (1) CN117724042B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953914B (zh) * 2024-03-27 2024-06-18 深圳市西昊智能家具有限公司 用于智能办公的语音数据增强优化方法
CN118173105B (zh) * 2024-05-15 2024-07-05 百鸟数据科技(北京)有限责任公司 基于音频信号处理的鸟类鸣声识别方法
CN118173104B (zh) * 2024-05-15 2024-07-05 百鸟数据科技(北京)有限责任公司 基于声源定位的分布式场景空间声场再现方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
CN108369811A (zh) * 2015-10-12 2018-08-03 诺基亚技术有限公司 分布式音频捕获和混合
CN109658948A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种面向候鸟迁徙活动的声学监测方法
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454334B2 (en) * 2003-08-28 2008-11-18 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369811A (zh) * 2015-10-12 2018-08-03 诺基亚技术有限公司 分布式音频捕获和混合
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
CN109658948A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种面向候鸟迁徙活动的声学监测方法
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于能量检测的复杂环境下的鸟鸣识别;张小霞;李应;;计算机应用;20131001(第10期);全文 *
生猪咳嗽声识别与定位方法的研究;李江丽;田建艳;张苏楠;;黑龙江畜牧兽医;20200720(第14期);全文 *

Also Published As

Publication number Publication date
CN117724042A (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN117724042B (zh) 基于声学双谱的鸟鸣声源定位方法及***
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN112526451B (zh) 基于麦克风阵列成像的压缩波束形成及***
CN109584896A (zh) 一种语音芯片及电子设备
CN109741759B (zh) 一种面向特定鸟类物种的声学自动检测方法
CN113314127B (zh) 基于空间方位的鸟鸣识别方法、***、计算机设备与介质
Jiang et al. Interpretable features for underwater acoustic target recognition
CN112990082B (zh) 一种水声脉冲信号的检测识别方法
CN110929842B (zh) 非合作无线电信号突发时间区域精确智能检测方法
CN206114888U (zh) 语音声源测向装置
CN114863937A (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN112331220A (zh) 一种基于深度学习的鸟类实时识别方法
CN117746905B (zh) 基于时频持续性分析的人类活动影响评估方法及***
CN109377982B (zh) 一种有效语音获取方法
CN116504253A (zh) 一种基于频率动态卷积模型的鸟类声音识别方法和***
Cosentino et al. Porpoise click classifier (PorCC): A high-accuracy classifier to study harbour porpoises (Phocoena phocoena) in the wild
CN111613247B (zh) 一种基于麦克风阵列的前景语音检测方法及装置
CN112434716B (zh) 一种基于条件对抗神经网络的水下目标数据扩增方法及***
Connor et al. Automating identification of avian vocalizations using time–frequency information extracted from the Gabor transform
Wu et al. Audio-based expansion learning for aerial target recognition
JP2011139409A (ja) 音響信号処理装置、音響信号処理方法、及びコンピュータプログラム
CN117238298B (zh) 一种基于声音事件的动物识别与定位方法及***
CN118173104B (zh) 基于声源定位的分布式场景空间声场再现方法及装置
Kendrick et al. Wind-induced microphone noise detection-automatically monitoring the audio quality of field recordings
Tivarekar et al. Species recognition using audio processing algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant