CN117746871A - 一种基于云端检测鸟类鸣声的方法及*** - Google Patents

一种基于云端检测鸟类鸣声的方法及*** Download PDF

Info

Publication number
CN117746871A
CN117746871A CN202410191354.2A CN202410191354A CN117746871A CN 117746871 A CN117746871 A CN 117746871A CN 202410191354 A CN202410191354 A CN 202410191354A CN 117746871 A CN117746871 A CN 117746871A
Authority
CN
China
Prior art keywords
bird
data
bird song
neural network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410191354.2A
Other languages
English (en)
Other versions
CN117746871B (zh
Inventor
廖尚頔
陈霏
陈学业
郭晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Southern University of Science and Technology
Original Assignee
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center, Southern University of Science and Technology filed Critical Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Priority to CN202410191354.2A priority Critical patent/CN117746871B/zh
Priority claimed from CN202410191354.2A external-priority patent/CN117746871B/zh
Publication of CN117746871A publication Critical patent/CN117746871A/zh
Application granted granted Critical
Publication of CN117746871B publication Critical patent/CN117746871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云端检测鸟类鸣声的方法及***,所述方法包括:接收智能终端获取的原始声音数据;对所述原始声音数据进行处理,分离得到鸟类鸣声数据;以及根据所述鸟类鸣声数据,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。本发明通过用户随身携带的智能终端采集环境声音,再在云端通过两组不同的神经网络模型对环境声音中的鸟类鸣声分别进行分离与识别,从而确定相应的鸟类信息,可以精准识别鸟类声纹特征,无需额外的硬件设备即可实时处理、分析和反馈环境中的鸟类信息,方便随身使用、应用范围广,易于推广及科普鸟类信息。

Description

一种基于云端检测鸟类鸣声的方法及***
技术领域
本发明涉及识别鸟类鸣声的技术领域,具体涉及一种基于云端检测鸟类鸣声的方法及***。
背景技术
生态环境下的鸟类声音包含着丰富的生物学信息,通过在山林、湿地、公园、绿地、森林、等野生鸟类聚居区域使用鸟类鸣声检测和识别技术对鸟类进行观察,尤其是在野外环境下对濒临灭绝的鸟类声音的检测和识别,有利于人们及时发现鸟类的行踪,以及所处环境下鸟类的物种信息,并采取相应的保护措施。
现有技术中,对鸟类声音数据的分析主要依赖于生态保护者或者相关领域的研究学者、工作人员,采用固定安装的野外声音采集设备,结合后台服务器为硬件基础,将声音数据传递至服务器,依靠声学数据库,花费数日时间进行手动声音比对。但是为了实现对鸟类鸣声的分离与识别,固定安装的野外声音采集设备装置体积大,数据采集成本高、区域有限、效率低,覆盖范围较窄,而且在固定设备的声纹识别技术方面,由于未考虑利用云计算和大数据策略,因此无法实时分析和处理动态鸟类鸣声数据和精准识别鸟类物种,更无法实时反馈结果,导致实用性差、难于推广给普通人进行鸟类鸣声的采集与识别,不利于科普推广。
因此,现有技术还有待于改进和发展。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于云端检测鸟类鸣声的方法及***,以解决现有技术中需要通过固定安装的野外声音采集设备进行拾音,并通过不同硬件设备对声音进行分离与识别,导致效率低、覆盖范围窄,且无法实时分析和处理动态鸟类鸣声数据和精准识别鸟类物种的问题。
为了达到上述发明目的,本发明第一方面公开了一种基于云端检测鸟类鸣声的方法,其中,所述方法包括:
接收智能终端获取的原始声音数据;
将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
在一种实施方式中,所述经过训练的第一神经网络模型为经过训练的深度吸引子网络,以所述原始声音数据作为训练数据集;所述经过训练的第二神经网络模型为经过训练的时间延迟神经网络,以所述第一神经网络模型输出的鸟类鸣声数据作为训练数据集。
在一种实施方式中,所述接收智能终端获取的原始声音数据,包括:
获取所述智能终端的定位信息;
接收所述原始声音数据;
将所述定位信息标签化,并与所述原始声音数据匹配,得到具有位置标签的原始声音数据。
在一种实施方式中,所述将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据,包括:
提取与所述原始声音数据匹配的位置标签;
提取所述原始声音数据中不同音源的声纹特征;
将所述不同音源的声纹特征输入所述经过训练的深度吸引子网络,分离得到对应鸟类鸣声数据的声纹特征;
根据所述对应鸟类鸣声数据的声纹特征,确定所述鸟类鸣声数据以及对应所述鸟类鸣声数据的所述位置标签。
在一种实施方式中,所述提取所述原始声音数据中不同音源的声纹特征,包括:
对所述原始声音数据使用短时傅里叶变换,得到混合语谱图;
根据所述混合语谱图,分离得到不同音源的源音频语谱图;
对所述不同音源的源音频语谱图使用逆短时傅里叶变换,得到对应不同音源的声音源波形;
根据所述声音源波形,生成所述不同音源的声纹特征。
在一种实施方式中,所述将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端,包括:
预处理所述鸟类鸣声数据,得到强化鸟类鸣声数据;
基于梅尔频率倒谱系数处理所述强化鸟类鸣声数据,得到对应所述强化鸟类鸣声数据的声纹特征参数;
将所述声纹特征参数输入所述经过训练的时间延迟神经网络,确定对应所述声纹特征参数的所述鸟类信息,并将所述鸟类信息发送给所述智能终端。
在一种实施方式中,所述基于梅尔频率倒谱系数处理所述强化鸟类鸣声数据,得到对应所述强化鸟类鸣声数据的声纹特征参数,包括:
对所述强化鸟类鸣声数据进行快速傅里叶变换,获得所述强化鸟类鸣声数据的语谱图;
基于所述强化鸟类鸣声数据的所述语谱图和所述梅尔频率倒谱系数,得到梅尔频率倒谱系数特征向量作为对应所述强化鸟类鸣声数据的所述声纹特征参数。
在一种实施方式中,所述将所述声纹特征参数输入所述经过训练的时间延迟神经网络,确定对应所述声纹特征参数的所述鸟类信息,包括:
将所述声纹特征参数进行压缩操作和激励操作,获得若干层压缩-激励数据;
将若干层所述压缩-激励数据串联并融合,获得特征聚合数据;
将所述特征聚合数据进行基于注意力机制的概率池化处理,获得权重统计数据;
根据所述权重统计数据确定所述鸟类信息。
在一种实施方式中,所述将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据之前,还包括:
对所述原始声音数据依次进行降采样、分段和归一化处理,去除环境噪音,得到所述原始声音数据的标准化范围;
对所述标准化范围进行验证,若确定所述原始声音数据内具有鸟类鸣声数据,则将所述原始声音数据输入所述经过训练的第一神经网络模型。
本发明第二方面还公开了一种基于云端检测鸟类鸣声的***,所述***包括云端服务器和与所述云端服务器通信连接的若干智能终端,其中,所述云端服务器包括:
接收模块,所述接收模块接收所述智能终端获取的原始声音数据;
鸟类鸣声分离模块,所述鸟类鸣声分离模块将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
鸟类鸣声数据处理模块,所述鸟类鸣声数据处理模块将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
所述第二神经网络模型采用ECAPA-TDNN网络结构,包括一维卷积层、压缩-激励层、特征融合层、注意力统计池化层、全连接层和信息分类层。
本发明公开了一种基于云端检测鸟类鸣声的方法及***,其中所述方法包括:接收智能终端获取的原始声音数据;对所述原始声音数据进行处理,分离得到鸟类鸣声数据;以及根据所述鸟类鸣声数据,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。本发明通过用户随身携带的智能终端采集环境声音,再在云端利用不同的神经网络模型分别实现对环境声音中鸟类鸣声的分离与识别,从而快速确定相应的鸟类信息且无需额外的硬件设备,可以精准识别鸟类声纹特征,并实时处理、分析和反馈环境中的鸟类信息,方便随身使用、应用范围广,易于推广及科普鸟类信息。
附图说明
通过参考下列附图,可以更好地理解本发明的许多方面。在附图中,相同的附图标号在几个视图中对应相同的部分。
图1是本发明一种基于云端检测鸟类鸣声的方法的流程示意图。
图2是本发明一实施例中深度吸引子网络结构示意图。
图3是本发明一实施例中梅尔频率倒谱系数计算声纹特征参数的流程示意图。
图4是本发明一实施例中时间延迟神经网络的结构示意图。
图5是本发明一实施例中时间延迟神经网络内压缩激励层单层结构示意图。
图6是本发明一实施例中时间延迟神经网络内注意力统计池化层的结构示意图。
图7是本发明一实施例中对梅尔(Mel)谱进行增强处理的流程示意图。
图8是本发明一种基于云端检测鸟类鸣声的***的结构框架图。
具体实施方式
本发明提供一种基于云端检测鸟类鸣声的方法及***,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明公开了一种基于云端检测鸟类鸣声的方法,包括步骤:
S100、接收智能终端获取的原始声音数据。
具体地,所述智能终端为可穿戴式/便携式智能终端,如手机、挂脖秒表、智能手环和智能腕带等,所述智能终端的应用区域包括山林、湿地、公园、绿地等野生鸟类聚居区域,用户可使用此套装置应用于户外运动、亲子踏青、野外拓展等多个生活场景中,从而随时随地采集环境声音,并将所述环境声音作为原始声音数据上传至云端服务器实现本发明所述基于云端检测鸟类鸣声的方法。
具体地,步骤S100中包括:
S110、获取所述智能终端的定位信息;
S120、接收所述原始声音数据;
S130、将所述定位信息标签化,并与所述原始声音数据匹配,得到具有位置标签的原始声音数据。
可选地,在所述智能终端上设有GPS定位***,可以实时获取所述智能终端的所述定位信息,从而将所述定位信息与所述原始声音数据同步上传至云端服务器,完成“声景打卡”的功能,在减少识别鸟类鸣声的难度的同时,增加普通民众参与野生动物识别及保护的积极性,有利于野生动物尤其是野生鸟类的科普与保护。而将所述定位信息标签化并与所述原始声音数据匹配后,得到具有位置标签的原始声音数据,从而保证识别到的鸟类信息与采集到鸟鸣声的地点进行对应,有助于确定野生鸟类的栖息地、迁徙路线以及活动范围等信息。
进一步地,如图1所示,本发明所述基于云端检测鸟类鸣声的方法中,在步骤S100之后包括:
S200、将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据。
具体地,环境声音中往往有多个音源,共同组成了环境声音中复杂的声音条件,因此需要提取所述原始声音数据中的鸟类鸣声数据后,才能进行匹配识别对应的鸟类信息,通过训练后的第一神经网络模型可以快速分离得到具有鸟类鸣声数据的声音数据。可选地,所述第一神经网络模型为经过训练的深度吸引子网络(Online Deep AttractorNetwork,ONAN),并以所述原始声音数据作为训练数据集,从而保证所述第一神经网络模型的训练是在现实环境声音的样本下进行的,相比实验室环境更贴合实际应用,有利于现实推广。
可选地,在S200之前,需要首先确定用户通过所述智能终端发送的所述原始声音数据内具有鸟鸣声。因此需要首先对所述原始声音数据依次进行降采样、分段和归一化处理,去除环境噪音,得到所述原始声音数据的标准化范围,其中,将所述原始声音数据分段为7s一段。对于所述原始声音数据来说,所述标准化范围为[-1,1],而通过对已有鸟类鸣声数据进行归一化验证后可知鸟类鸣声的标准化范围为[-0.7461247,0.66244507],因此只有当所述原始声音数据在归一化后的标准范围落在鸟类鸣声的标准化范围内,则验证所述原始声音数据内具有鸟类鸣声数据,继续本发明所述基于云端检测鸟类鸣声的方法的步骤。若所述原始声音数据在归一化后的标准范围未落在鸟类鸣声的标准化范围内,则验证所述原始声音数据内不具有鸟类鸣声数据,停止检测并向所述智能终端反馈信息提示当前采集的声音数据中不存在鸟类鸣声。
在确定所述原始声音数据中包含鸟类鸣声数据后,步骤S200具体包括:
S210、提取与所述原始声音数据匹配的位置标签;
S220、提取所述原始声音数据中不同音源的声纹特征;
S230、将所述不同音源的声纹特征输入经过训练的深度吸引子网络,分离得到对应鸟类鸣声数据的声纹特征;
S240、根据所述对应鸟类鸣声数据的声纹特征,确定所述鸟类鸣声数据以及对应所述鸟类鸣声数据的所述位置标签。
具体地,通过短时傅里叶变换(STFT)处理所述原始声音数据以提取不同音源的声纹特征。其中,首先对所述原始声音数据使用短时傅里叶变换,得到混合语谱图;然后根据所述混合语谱图,分离得到不同音源的源音频语谱图;再对所述不同音源的源音频语谱图使用逆短时傅里叶变换,得到对应不同音源的声音源波形;最后根据所述声音源波形,生成所述不同音源的声纹特征。
具体地,假设所述原始声音数据中包括C个音源,则混合后的所述原始声音数据可以表示为:
其中,表示时间,/>表示实数域,/>为各音源发出声音的波形,/>为混合波形。
使用STFT将所述原始声音数据从时域切换为频域,得到:
其中,表示频率,/>表示复数域,/>为所述原始声音数据的混合语谱图,/>为各音源发出声音的源音频语谱图。
估计每个音源的实值掩码,得到:
其中为各音源发出声音所对应的声音源波形。利用逆短时傅里叶变换(iSTFT)来近似分离后的声音源波形,并使用所述原始声音数据的相位,可以得到:
其中,表示目标音源估计信号,再结合所述混合语谱图,可以估计得到各音源的掩码,从而生成对应不同音源的声纹特征/>
其中,表示转置卷积,/>表示各音源参数。
得到对应不同音源的声纹特征后,将所述声纹特征输入经过训练的深度吸引子网络(Online Deep Attractor Network,ODAN)以实现在线分离鸟类鸣声数据与环境声音中的其他声音,实现环境噪音降噪以及鸟类鸣声分离提取与增强。
具体地,ODAN架构如图2所示,包括LSTM层、全连接层、嵌入层和最终的声纹特征输出层,其中通过初始化吸引子引导鸟种分配以及特征标记,从而分离得到对应鸟类鸣声数据的声纹特征,从而若可以根据所述声纹特征提取所述鸟类鸣声数据。具体地,ODAN架构中包括四个单向LSTM层,每个LSTM层有600个单元。将嵌入维度设置为20,epoch总数设置为150,如果在连续10个epoch后验证错误没有减少,则应用提前停止。所有模型均使用预训练的LSTM DAN模型进行初始化。应用最大范数为0.5的梯度剪辑来加速训练,实现对所述原始声音数据中的复杂音源的实时在线分离。
具体地,分离得到对应鸟类鸣声数据的声纹特征后,确定对应的所述鸟类鸣声数据并提取所述原始声音数据对应的位置标签,将所述位置标签与所述鸟类鸣声数据匹配,以保证所述鸟类鸣声数据中包含有上传所述鸟类鸣声数据的所述智能终端的定位信息,以在确定对应所述鸟类鸣声数据的鸟类信息后,确定对应所述鸟类信息的位置,从而同步确定野生鸟类的栖息地、迁徙路线以及活动范围等信息。
进一步地,如图1所示,本发明所述基于云端检测鸟类鸣声的方法中,在步骤S200之后包括:
S300、将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
根据鸟鸣声音的特性,使用梅尔频率倒谱系数(Mel-scal Frequency CepstralCoefficients,MFCC)计算所述鸟类鸣声数据对应的声纹特征参数,并基于所述声纹特征参数通过所述经过训练的第二神经网络模型确定对应的鸟类信息。由于对于鸟鸣声音的分离与识别所需要的特质不同,因此使用不同的神经网络模型进行处理,由所述第一神经网络模型的输出作为所述第二神经网络模型的输入,从而无缝衔接鸟类鸣声的分离与识别,加快处理过程,实现实时处理反馈。可选地,所述经过训练的第二神经网络模型为时间延迟神经网络(Time Delay Neural Network,TDNN ),以所述第一神经网络模型输出的鸟类鸣声数据作为训练数据集。如图3所示,使用MFCC计算所述鸟类鸣声数据对应的声纹特征参数包括对输入的声音数据进行预加重、分帧和加窗操作,再通过快速傅里叶变换(FFT)和Mel滤波器组,经过对数转换后利用离散余弦变换(DCT)将对数Mel谱转化为时域,最终通过调整MFCC窗口的大小捕捉频率和时间特征,得到Mel语谱图和MFCC特征向量,即所述声纹特征参数。
具体地,步骤S300包括:
S310、预处理所述鸟类鸣声数据,得到强化鸟类鸣声数据;
S320、基于梅尔频率倒谱系数处理所述强化鸟类鸣声数据,得到对应所述强化鸟类鸣声数据的声纹特征参数;
S330、将所述声纹特征参数输入经过训练的时间延迟神经网络,确定对应所述声纹特征参数的所述鸟类信息,并将所述鸟类信息发送给所述智能终端。
其中,所述预处理所述鸟类鸣声数据,得到强化鸟类鸣声数据包括对所述鸟类鸣声数据依次进行预加重操作、分帧操作和加窗操作。
由于鸟类鸣声传播时受到辐射效应的影响,使得信号频谱具有随着频率增加而强度降低的特性,因此需对其进行高频加强。另外为了对量化的鸟类鸣声数据进行平滑处理,以及减少在以后的信号处理中受到有限精度的影响,也必须首先对鸟类鸣声数据进行预加重。其目的就是提升高频部分,滤除低频干扰,使信号的频谱变得平坦,便于进行频谱分析和声道参数的分析。预加重操作是将声音信号通过一个高通滤波器,用以补偿信号在接收时高频能量上的损失。高通滤波器表达式如下:
其中λ为预加重系数,表示音频信号输入,/>表示高通滤波后音频输出,在一种实施方式中λ的取值为0.9375。
所述分帧操作为连续分段操作,即将所述鸟类鸣声数据分割为10-30ms长度的帧,同时为了使帧与帧之间平滑过度,采用交叠分段的方法。帧与帧之间的偏移通常取为帧长的1/2或1/3,即每隔帧长的1/2或1/3进行分帧。取帧长为512个采样点,帧移为256个采样点,最后使用汉明(Hamming)窗改善帧左右两端的连续性,从而使所述强化鸟类鸣声数据满足FFT处理的周期性要求。
得到所述强化鸟类鸣声数据后,首先使用FFT将若干所述强化鸟类鸣声数据从时域转换到频域:
,/>
其中,表示经FFT变换后的能量谱;/>表示输入的声音信号,/>表示傅里叶变换的点数。
将Mel频率尺度定义为:
其中表示频率,β表示Mel参数,取值为2595。之后使用DCT将对数Mel谱转换为时域,并设定MFCC窗口大小为80,以捕捉更多的频率和时间特征,得到Mel语谱图和MFCC特征向量作为所述强化鸟类鸣声数据的所述声纹特征参数。
进一步地,如图7所示,在处理Mel谱时,为了提高模型的鲁棒性和泛化能力,本发明使用了6种不同类型的增强:图像混合(Mixing of images),随机功率(Random Power),白噪声(White noise),粉红噪声(Pink Noise),带通噪声(Bandpass noise),降低高频率(Lower the upper frequencies)。首先,以随机的混合概率(默认为0.7)将2-3个不同的训练图像相互重叠。一旦这个过程完成,将随机功率施加到混合图像上,使所有图像达到一定的对比度和亮度水平。接下来按以下顺序添加增强:白噪声、粉红噪声、带通噪声以及降低上层频率,以此顺序添加增强可以达到保证模型的鲁棒性和泛化能力,提高输出结果的准确性。同时,为了保证数据的多样性,上述所有增强都以0.4-0.7的概率进行添加。
获得所述声纹特征参数后,使用经过训练的时间延迟神经网络框架下的注意力机制的声纹识别模型(Emphasized Channel Attention, Propagation and Aggregation-Time Delay Neural Network,ECAPA-TDNN)实现特征分类。以所述声纹特征参数作为ECAPA-TDNN的输入特征。
如图4所示,ECAPA-TDNN网络结构中,BN代表批归一化(Batch Normalization),ReLU代表修正线性单元(Rectified Linear Units),即为非线性,/>表示核大小,/>表示一维卷积Conv1D层或压缩-激励层(Squeeze Excitation-Residual ResolutionBlocks,SE-Res2Blocks)的膨胀间隔。/>和/>分别对应中间特征映射的通道维度和时间维度。/>是训练集鸟类鸣声的数量。
具体地,步骤S330包括:S331、将所述声纹特征参数进行压缩操作和激励操作,获得若干层压缩-激励数据;S332、将若干层所述压缩-激励数据串联并融合,获得特征聚合数据;S333、将所述特征聚合数据进行基于注意力机制的概率池化处理,获得权重统计数据;S334、根据所述权重统计数据确定所述鸟类信息。
具体地,所述步骤S330是通过所述ECAPA-TDNN网络结构实现的。所述ECAPA-TDNN网络结构包括六部分:一维卷积层、压缩-激励层、特征融合层、注意力统计池化层、全连接层和信息分类层。
所述一维卷积层采用基于TDNN的框架,配置Conv1D、ReLU和BN。具体地,在一维卷积层,k=5,d=1。
从所述一维卷积层输出的所述声纹特征参数进入所述压缩-激励层,所述压缩-激励层包括压缩部分(Squeeze)和激励部分(Excitation)。所述压缩部分用于获取包含全局属性的帧级特征,所述激励部分用于预测各通道的重要性,即各通道权重,从而获得通道之间的相互依赖关系。也即,所述压缩-激励数据包括包含全局属性的帧级特征数据、各通道权重和通道之间的相互依赖关系。
具体地,所述压缩-激励层包括若干层,层数是通道数减2。如图4所示,在一实施例中,通道数为5,则压缩-激励层有3层,通道数分别为[1024, 1024, 1024, 1024, 3072],压缩-激励层分别为SE第一层(k=3,d=2)、SE第二层(k=3,d=3)和SE第三层(k=3,d=4)。所述压缩-激励层为空洞卷积,空洞率分别为[1,2,3,4,1],因此,所述SE第一层、所述SE第二层和所述SE第三层都有前后上下文。
所述压缩部分的原始特征层(feature map)的维度为H*W*C,其中H代表高度(Height),W代表宽度(width),C代表通道数(channel)。所述压缩部分用于把H*W*C压缩为1*1*C,相当于把H*W压缩成一维。在一实施例中,所述压缩部分可采用球化平均池(GlobalAverage Pooling)实现的。H*W压缩成一维后,相当于这一维参数获得了之前H*W全局的视野,也即全局属性,感受区域更广,可以实现动态信号的处理。
具体地,步骤S331包括:S3311、将所述声纹特征参数在所述压缩部分进行压缩操作,获得每个通道的描述符;S3312、根据所述描述符,获得各通道权重和通道之间的相互依赖关系。
如图5所示,是一实施例中时间延迟神经网络内压缩-激励层(SE-Res2Block)单层结构示意图,BN和ReLU分别与图4所示一致,标准一维卷积Conv1D层的内核大小为1。单层压缩激励层包括第一稠密层、扩张卷积层、第二稠密层和缩放层。尺度维的扩张卷积层通过核大小和膨胀间隔扩展了时序上下文,所述扩张卷积层配置Res2 Dilated Conv1D、ReLU和BN。在1帧的上下文中包含了前一层和后一层稠密层的扩张卷积。利用第一稠密层可以降低特征维度,所述第一稠密层配置Conv1D、ReLU和BN,而第二稠密层可以将特征数量恢复到原始维度,所述第二稠密层配置Conv1D、ReLU和BN。随后在缩放层通过一个挤压激励块(SE-Block)来缩放每个通道。整个装置由一个跳跃(skip)连接覆盖。对于每一帧,所提出的***将所有压缩激励层的输出特征映射串联起来,经过多层特征融合处理之后生成用于注意力统计池化的特征聚合数据。
具体地,所述压缩操作包括,将所述声纹特征参数的每一帧的帧级特征(frame-level features)按时间取平均,输入特征为[N,C,L], 其中N为分批规模(batch size),L为特征帧数, C为通道数,则通过求平均值,将特征压缩成[N,C,1],计算方式表示为:
表示跨时域的帧级特征的平均向量,包括每个通道的描述符,/>表示时长,/>表示特征聚合数据。因此,所述压缩-激励数据还包括各通道的描述符。
之后,在所述激励部分使用中的描述符计算每个通道的权,对每个通道的重要性进行预测,获得通道重要性大小之后再作用到之前的所述原始特征层对应的通道上。
所述激励部分的激励操作过程定义为:
其中为sigmoid函数,/>为非线性函数,/>,表示系数,表示系数,/>和/>表示参数。此操作充当瓶颈层,/>和/>分别表示输入通道数和降维。结果向量/>包含0到1之间的权重/>,这些权重通过通道相乘应用于原始输入:
将权重与原始输入/>点乘,也即,/>为每个所述通道分别乘权值。因此,所述压缩-激励数据还包括各通道的乘权值。
所述压缩-激励数据包括包含全局属性的帧级特征数据、各通道权重、通道之间的相互依赖关系、各通道的描述符和各通道的乘权值。
步骤S332在所述ECAPA-TDNN网络结构的特征融合层实现,具体包括:S3321、将所述SE第一层、所述SE第二层和所述SE第三层的所述压缩-激励数据串联,获取浅层特征映射信息;S3322、根据所述浅层特征映射信息经过融合处理获取特征聚合数据,所述特征聚合数据包括多层。
所述串联和融合过程包括,所述特征融合层基于TDNN框架,配置Conv1D、ReLU,采用多层特征聚合(Multi-layer Feature Aggregation, MFA),具体地,在所述特征融合层中,k=1,d=1。所述特征融合层的输入是所述SE第一层、SE所述第二层和SE所述第三层的输出所拼接的(也即channels最后一维的3072,来源是1024*3=3072),拼接也可以理解为串联。
步骤S333是在所述ECAPA-TDNN网络结构的注意力统计池化层(AttentiveStatistical Pooling)实现的,具体包括:S3331、将所述特征聚合数据输入所述注意力统计池化层,计算所述通道的自注意力得分;S3332、根据所述自注意力得分计算所述通道的加权统计信息,根据所述加权统计信息计算各通道的加权平均向量以及加权标准差向量。
具体地,所述概率池化处理包括,所述ECAPA-TDNN网络结构中使用注意力机制,即注意力统计池化层,计算时序池化层中的加权统计信息,可以在不同帧级上提取特定的鸟鸣声纹属性,将此时间注意力机制扩展到通道维度,获得各通道的自注意力得分。给不同的帧赋予不同的权重,且同时生成加权平均向量与加权标准差向量。如图6所示的注意力统计池化层的结构示意图,注意力机制依赖于通道:
其中,表示标量分数,/>为时间步长/>处最后一个帧层的激活量,参数/>将注意力信息投影到更小的R维表示,在R维中,通道/>为共享,以减少参数计算和过拟合风险。在ReLU之后,即所述非线性/>之后,所述注意力信息通过权重/>和偏置/>的线性层转换为通道相关的自注意力分数,然后通过跨时间在所述通道上,对所有帧的标量分数/>进行归一化:
其中,自注意力分数表示给定通道/>的每个帧的重要性,并用于计算所述通道/>的加权统计信息。对于每段鸟类鸣声音频,加权平均向量/>的通道分量/>估计为:
其中,表示通道/>时间步长t处最后一个帧层的激活量,向量/>表示加权标准差,其通道分量/>表示如下:
其中,表示局部输入。所述注意力统计池化层的最终输出通过连接加权平均向量/>和加权标准差向量/>给出。将局部输入/>与整个时域的全局非加权平均值和标准偏差连接起来,时序上下文向量允许所述注意力机制自适应鸟类鸣声音频的全局属性,如噪声或录音条件。
步骤S334是在所述ECAPA-TDNN网络结构的全连接层和信息分类层实现的。所述全连接层配置全连接单元(Fully Connected,FC)和BN处理单元,所述信息分类层基于AAM-Softmax架构,用于对输出进行分类。所述步骤S334具体包括:S3341、在所述全连接层进行线性转换和批归一化处理,获取中间信息;S3342、在所述信息分类层根据所述中间信息确定所述鸟类信息。
具体地,所述线性转换的输出维度参数为预设的线性神经元(lin_neurons)值,优选为192。所述信息分类层采用AAM-Softmax架构,将输入转化到[0,1]作为权重,对输入计算对应的均值和方差,并进行分类,确定所述鸟类信息,分类的个数是鸟类鸣声数量。
在一实施例中,通过使用ECAPA-TDNN神经网络实现动态鸟鸣声纹的特征分类,获取鸟类信息,再采用鸟类物种生物数据库的自动比对,实现实时鸟类物种的识别。
通过经过训练的第二神经网络模型(时间延迟神经网络)实现鸟类鸣声识别,从而确定所述原始声音数据中所述鸟类鸣声数据对应的鸟类信息。同时提取所述鸟类鸣声数据的所述位置标签,将所述鸟类信息与所述位置标签匹配,得到具有定位信息的鸟类信息,将所述具有定位信息的鸟类信息存储于云端服务器,以准确追踪野生鸟类的栖息地、迁徙路线以及活动范围等信息。同时将所述具有定位信息的鸟类信息作为所述第二神经网络模型的训练集数据存入所述第二神经网络模型的训练数据集中,以在后续过程中得到更准确地鸟类鸣声识别效果。
本发明通过在云端接收原始声音数据,通过分离鸟类鸣声数据后匹配对应的鸟类信息,从而实时在线反馈当前环境声音中的鸟类鸣声信息与鸟类信息,方便使用、应用范围广,易于推广及科普鸟类信息,在落实野生鸟类声景资源保护的同时推进民众在野生动物多样性保护中的参与度。
以下结合具体使用场景说明本发明所述基于云端检测鸟类鸣声的方法的流程:
用户佩戴匹配本发明所述基于云端检测鸟类鸣声的方法的智能手表在森林中进行野营,在听到鸟鸣声后利用智能手表采集当前环境的声音,智能手表将采集到的环境声音作为原始声音数据与GPS***得到的定位信息同步上传至云端服务器。在云端服务器中,结合大数据与云计算策略,首先使用ODAN将所述原始声音数据中的鸟类鸣声数据与其余声音数据在线分离,实现环境噪音降噪以及鸟类鸣声的分离提取与增强;再将分离得到的鸟类鸣声数据使用MFCC处理并计算得到鸟鸣声纹特征参数;再利用TDNN实现鸟鸣声纹识别,将所述鸟鸣声纹特征参数与鸟类信息匹配,得到用户听到的鸟类鸣声对应的鸟类信息;最终将所述鸟类信息传输至用户的智能手表并显示,为用户科普当前环境中的鸟类信息,落实野生鸟类声景资源保护的同时推进民众在野生动物多样性保护中的参与度。本发明通过两组不同的神经网络模型分别实现对鸟类鸣声的分离与识别,无需额外的硬件设备即可实现对现实场景中鸟类鸣声的识别,声景数据采集成本低、效率高,覆盖范围广。
在一种实施方式中,本发明还公开了一种基于云端检测鸟类鸣声的***,如图8所示,所述***包括云端服务器500和与所述云端服务器500通信连接的智能终端600。
具体地,所述云端服务器500包括:
接收模块510,所述接收模块510接收所述智能终端获取的原始声音数据;
鸟类鸣声分离模块520,所述鸟类鸣声分离模块520将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
鸟类鸣声数据处理模块530,所述鸟类鸣声数据处理模块530将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
具体地,所述第二神经网络模型采用ECAPA-TDNN网络结构,包括一维卷积层、压缩-激励层、特征融合层、注意力统计池化层、全连接层和信息分类层。
进一步地,所述智能终端600包括:
拾音器610,所述拾音器610用于采集当前环境的声音;
音频处理模块620,所述音频处理模块620用于将所述拾音器610采集到的环境声音转换为原始声音数据;
5G通信模块630,所述5G通信模块630用于与所述云端服务器500通信连接;
GPS定位模块640,所述GPS定位模块640用于定位所述智能终端600的位置并生成对应的定位信息。
在一种实施方式中,本发明还提供一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质上存储有基于云端检测鸟类鸣声的程序,所述程序由处理器执行时实现以下步骤:
接收智能终端获取的原始声音数据;
将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非暂时性计算机可读存储介质中,所述计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种基于云端检测鸟类鸣声的方法及***,所述方法包括:接收智能终端获取的原始声音数据;对所述原始声音数据进行处理,分离得到鸟类鸣声数据;以及根据所述鸟类鸣声数据,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。本发明通过用户随身携带的智能终端采集环境声音,再在云端通过两组不同的神经网络模型对环境声音中的鸟类鸣声分别进行分离与识别,从而确定相应的鸟类信息,可以精准识别鸟类声纹特征,无需额外的硬件设备即可实时处理、分析和反馈环境中的鸟类信息,方便随身使用、应用范围广,易于推广及科普鸟类信息。

Claims (10)

1.一种基于云端检测鸟类鸣声的方法,其特征在于,所述方法包括:
接收智能终端获取的原始声音数据;
将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
2.根据权利要求1所述的基于云端检测鸟类鸣声的方法,其特征在于,所述经过训练的第一神经网络模型为经过训练的深度吸引子网络,以所述原始声音数据作为训练数据集;所述经过训练的第二神经网络模型为经过训练的时间延迟神经网络,以所述第一神经网络模型输出的鸟类鸣声数据作为训练数据集。
3.根据权利要求2所述的基于云端检测鸟类鸣声的方法,其特征在于,所述接收智能终端获取的原始声音数据,包括:
获取所述智能终端的定位信息;
接收所述原始声音数据;
将所述定位信息标签化,并与所述原始声音数据匹配,得到具有位置标签的原始声音数据。
4.根据权利要求3所述的基于云端检测鸟类鸣声的方法,其特征在于,所述将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据,包括:
提取与所述原始声音数据匹配的位置标签;
提取所述原始声音数据中不同音源的声纹特征;
将所述不同音源的声纹特征输入所述经过训练的深度吸引子网络,分离得到对应鸟类鸣声数据的声纹特征;
根据所述对应鸟类鸣声数据的声纹特征,确定所述鸟类鸣声数据以及对应所述鸟类鸣声数据的所述位置标签。
5.根据权利要求4所述的基于云端检测鸟类鸣声的方法,其特征在于,所述提取所述原始声音数据中不同音源的声纹特征,包括:
对所述原始声音数据使用短时傅里叶变换,得到混合语谱图;
根据所述混合语谱图,分离得到不同音源的源音频语谱图;
对所述不同音源的源音频语谱图使用逆短时傅里叶变换,得到对应不同音源的声音源波形;
根据所述声音源波形,生成所述不同音源的声纹特征。
6.根据权利要求2所述的基于云端检测鸟类鸣声的方法,其特征在于,所述将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端,包括:
预处理所述鸟类鸣声数据,得到强化鸟类鸣声数据;
基于梅尔频率倒谱系数处理所述强化鸟类鸣声数据,得到对应所述强化鸟类鸣声数据的声纹特征参数;
将所述声纹特征参数输入所述经过训练的时间延迟神经网络,确定对应所述声纹特征参数的所述鸟类信息,并将所述鸟类信息发送给所述智能终端。
7.根据权利要求6所述的基于云端检测鸟类鸣声的方法,其特征在于,所述基于梅尔频率倒谱系数处理所述强化鸟类鸣声数据,得到对应所述强化鸟类鸣声数据的声纹特征参数,包括:
对所述强化鸟类鸣声数据进行快速傅里叶变换,获得所述强化鸟类鸣声数据的语谱图;
基于所述强化鸟类鸣声数据的所述语谱图和所述梅尔频率倒谱系数,得到梅尔频率倒谱系数特征向量作为对应所述强化鸟类鸣声数据的所述声纹特征参数。
8.根据权利要求6所述的基于云端检测鸟类鸣声的方法,其特征在于,所述将所述声纹特征参数输入所述经过训练的时间延迟神经网络,确定对应所述声纹特征参数的所述鸟类信息,包括:
将所述声纹特征参数进行压缩操作和激励操作,获得若干层压缩-激励数据;
将若干层所述压缩-激励数据串联并融合,获得特征聚合数据;
将所述特征聚合数据进行基于注意力机制的概率池化处理,获得权重统计数据;
根据所述权重统计数据确定所述鸟类信息。
9.根据权利要求1所述的基于云端检测鸟类鸣声的方法,其特征在于,所述将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据之前,还包括:
对所述原始声音数据依次进行降采样、分段和归一化处理,去除环境噪音,得到所述原始声音数据的标准化范围;
对所述标准化范围进行验证,若确定所述原始声音数据内具有鸟类鸣声数据,则将所述原始声音数据输入所述经过训练的第一神经网络模型。
10.一种基于云端检测鸟类鸣声的***,其特征在于,包括云端服务器和与所述云端服务器通信连接的若干智能终端,其中,所述云端服务器包括:
接收模块,所述接收模块接收所述智能终端获取的原始声音数据;
鸟类鸣声分离模块,所述鸟类鸣声分离模块将所述原始声音数据输入经过训练的第一神经网络模型,分离得到鸟类鸣声数据;
鸟类鸣声数据处理模块,所述鸟类鸣声数据处理模块将所述鸟类鸣声数据输入经过训练的第二神经网络模型,确定与所述鸟类鸣声数据对应的鸟类信息,并将所述鸟类信息发送给所述智能终端。
CN202410191354.2A 2024-02-21 一种基于云端检测鸟类鸣声的方法及*** Active CN117746871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410191354.2A CN117746871B (zh) 2024-02-21 一种基于云端检测鸟类鸣声的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410191354.2A CN117746871B (zh) 2024-02-21 一种基于云端检测鸟类鸣声的方法及***

Publications (2)

Publication Number Publication Date
CN117746871A true CN117746871A (zh) 2024-03-22
CN117746871B CN117746871B (zh) 2024-07-16

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049876A1 (en) * 2003-08-28 2005-03-03 Ian Agranat Method and apparatus for automatically identifying animal species from their vocalizations
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的***及其方法
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN112289326A (zh) * 2020-12-25 2021-01-29 浙江弄潮儿智慧科技有限公司 一种具有噪音去除的鸟类识别综合管理***及其噪音去除方法
CN112992172A (zh) * 2021-01-28 2021-06-18 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN115700880A (zh) * 2021-07-22 2023-02-07 中移(成都)信息通信科技有限公司 一种行为监测方法、装置、电子设备及存储介质
CN115731924A (zh) * 2022-11-01 2023-03-03 广州大学 单通道时域鸟声分离方法、装置以及计算机可读存储介质
CN116524939A (zh) * 2023-04-23 2023-08-01 南京理工大学 一种基于ecapa-tdnn的鸟鸣物种自动识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049876A1 (en) * 2003-08-28 2005-03-03 Ian Agranat Method and apparatus for automatically identifying animal species from their vocalizations
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的***及其方法
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN112289326A (zh) * 2020-12-25 2021-01-29 浙江弄潮儿智慧科技有限公司 一种具有噪音去除的鸟类识别综合管理***及其噪音去除方法
CN112992172A (zh) * 2021-01-28 2021-06-18 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN115700880A (zh) * 2021-07-22 2023-02-07 中移(成都)信息通信科技有限公司 一种行为监测方法、装置、电子设备及存储介质
CN115731924A (zh) * 2022-11-01 2023-03-03 广州大学 单通道时域鸟声分离方法、装置以及计算机可读存储介质
CN116524939A (zh) * 2023-04-23 2023-08-01 南京理工大学 一种基于ecapa-tdnn的鸟鸣物种自动识别方法

Similar Documents

Publication Publication Date Title
CN107928673B (zh) 音频信号处理方法、装置、存储介质和计算机设备
CN111477250B (zh) 音频场景识别方法、音频场景识别模型的训练方法和装置
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN111145786A (zh) 语音情感识别方法和装置、服务器、计算机可读存储介质
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN113365147B (zh) 基于音乐卡点的视频剪辑方法、装置、设备及存储介质
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110931023B (zh) 性别识别方法、***、移动终端及存储介质
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN113035202B (zh) 一种身份识别方法和装置
Wang et al. Rainfall observation using surveillance audio
CN110136726A (zh) 一种语音性别的估计方法、装置、***及存储介质
CN111179910A (zh) 语速识别方法和装置、服务器、计算机可读存储介质
CN116741159A (zh) 音频分类及模型的训练方法、装置、电子设备和存储介质
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN114512134A (zh) 声纹信息提取、模型训练与声纹识别的方法和装置
CN113782042A (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN117746871B (zh) 一种基于云端检测鸟类鸣声的方法及***
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN117746871A (zh) 一种基于云端检测鸟类鸣声的方法及***
CN116682463A (zh) 一种多模态情感识别方法及***
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Floor 2, Land and Property Transaction Building, No. 8007, Hongli West Road, Xiangmihu Street, Futian District, Shenzhen, Guangdong 518034

Applicant after: Shenzhen Planning and Natural Resources Data Management Center (Shenzhen Spatial Geographic Information Center)

Applicant after: Southern University of Science and Technology

Address before: No.1088 Xueyuan Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518055

Applicant before: Southern University of Science and Technology

Country or region before: China

Applicant before: Shenzhen Planning and Natural Resources Data Management Center (Shenzhen Spatial Geographic Information Center)

GR01 Patent grant