CN117727309A

CN117727309A - 基于tdnn结构的鸟鸣物种自动识别方法

Info

Publication number: CN117727309A
Application number: CN202410179331.XA
Authority: CN
Inventors: 高树会; 李可扬
Original assignee: Bainiao Data Technology Beijing Co ltd
Current assignee: Bainiao Data Technology Beijing Co ltd
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-03-19
Anticipated expiration: 2044-02-18
Also published as: CN117727309B

Abstract

本发明涉及语音处理技术领域，提出了基于TDNN结构的鸟鸣物种自动识别方法，包括：采集生态区内的混合鸟鸣数据；基于每一帧信号能量的周期性以及鸟鸣音高的稳定性确定每一帧的鸟鸣音节覆盖率；根据每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定时频掩蔽概率；基于每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定频谱掩蔽值；基于所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图；将频谱子图与其时频掩蔽图相乘的结果作为频谱子图的增强鸟鸣特征图；采用TDNN识别模型基于增强鸟鸣特征图确定物种识别结果。本发明通过对频谱图中频谱子图的掩蔽处理，提高了识别模型训练样本的质量，以及鸟鸣物种识别的准确率。

Description

基于TDNN结构的鸟鸣物种自动识别方法

技术领域

本发明涉及语音处理技术领域，具体涉及基于TDNN结构的鸟鸣物种自动识别方法。

背景技术

鸟类是生态***中重要的食物链和食物网的一部分。鸟类通过捕食昆虫、小型哺乳动物和其他小型生物，帮助控制种群的数量，维持了生态***的平衡，有助于维持生态***的稳定性。鸟鸣是鸟类生存活动中的必要行为手段，鸟鸣的音调、长短随着鸟类活动的不同存在差异。因此，识别鸟鸣信息、了解鸟类活动对于维护整个生态***的平衡和稳定具有重要意义。

鸟类身体较小，极易隐藏在生态区中森林内的树木上、灌木丛中等隐蔽之处，但是鸟鸣声却可以传播的很远，且不同种鸟类的鸟鸣声之间具有一定的可区分性，因此通过鸟鸣声识别鸟类是现阶段的常用方法。得益于对大量数据优异的学习能力、训练能力，深度学习的技术在鸟鸣识别中广泛应用，通过从鸟鸣数据中提取特征训练模型识别鸟类的能力。由于鸟鸣数据是多频率、多音调的混合音频，因此要求模型对时序信号具有较强的处理能力。时延神经网络TDNN(Time-Delay Neural Networks)是最早用于处理音频信号的网络之一，但是TDNN对输入序列的长度有一定的限制，且对不同长度的鸟鸣信号的处理过程较为复杂；除此之外，TDNN中存在记忆容量问题，导致每个神经元只能获取有限个时间步长之前的输入信息，对混合鸟鸣数据中不同鸟鸣特征的区分能力较弱。

发明内容

本发明提供基于TDNN结构的鸟鸣物种自动识别方法，以解决TDNN对输入序列长度限制以及记忆容量导致混合鸟鸣数据识别率低的问题，所采用的技术方案具体如下：

本发明一个实施例基于TDNN结构的鸟鸣物种自动识别方法，该方法包括以下步骤：

采集生态区内的混合鸟鸣数据；

将每个混合鸟鸣数据的频谱图划分成尺度相等的频谱子图；基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率；

根据每个频谱子图上每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定每个频谱子图上每一帧的时频掩蔽概率；

基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值；基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图；

采用TDNN识别模型基于每个频谱子图及其时频掩蔽图确定每个混合鸟鸣数据对应的物种识别结果。

优选的，所述将每个混合鸟鸣数据的频谱图划分成尺度相等的频谱子图的方法为：

利用预设尺度的时间窗口按照预设移动步长在每个混合鸟鸣数据的频谱图上沿着时间顺序滑动，将每个时间窗口滑动位置内的频谱图作为一个频谱子图。

优选的，所述基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率的方法为：

基于每个频谱子图上每一帧上所有频率点的能量值、预测能量值确定每一帧上每个频率点的能量周期稳定性；

基于每个频谱子图上音高相等的频率点所在不同帧之间的时间差确定每一帧上每个频率点的音高可预测系数；

分别将每个频谱子图上每一帧上所有频率点的能量周期稳定性、音高可预测系数按照频率升序顺序组成的向量作为每一帧的能量稳定评估向量、音高可预测向量；

将每一帧的能量稳定评估向量与其余任意一帧的能量稳定评估向量之间的相似性度量结果作为分子；

将每一帧的音高可预测向量与其余任意一帧的音高可预测向量之间的相似性度量结果与预设参数之和作为分母；

将分子与分母的比值在每个频谱子图上其余所有帧上累加结果的均值作为每一帧的鸟鸣音节覆盖率。

优选的，所述基于每个频谱子图上每一帧上所有频率点的能量值、预测能量值确定每一帧上每个频率点的能量周期稳定性的方法为：

分别将每个频谱子图上每帧信号中能量最大值、最小值所在的所有频率组成的集合作为每一帧的极大频率集合、极小频率集合；采用数据预测算法基于每一帧的极大频率集合、极小频率集确定每一帧上每个频率点的预测能量值；

将每一帧上每一频率点的能量值与其余频率点的能量值之间的差值所组成序列的赫斯特指数作为分子；

将之间差值的绝对值与预设参数之和作为分母；将分子与分母的比值作为每一帧上每个频率点的能量周期稳定性。

优选的，所述基于每个频谱子图上音高相等的频率点所在不同帧之间的时间差确定每一帧上每个频率点的音高可预测系数的方法为：

将每个频谱子图上任意一个与每一帧上每个频率点的音高相等的频率点所在的帧作为每一帧上每个频率点的一个等音高帧；将每个频谱子图上每一帧上每个频率点的所有等音高帧与每一帧之间的时间差组成集合内元素的方差作为分子；

将每个频谱子图中每一帧上所有频率点的音高中的最大值与其余任意一帧上所有频率点的音高中的最大值之间差值作为第一音高差值；将第一音高差值在每个频谱子图中其余所有帧上的累加结果与预设参数之和作为分母；

将分子与分母的比值作为每一帧上每个频率点的音高可预测系数。

优选的，所述根据每个频谱子图上每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定每个频谱子图上每一帧的时频掩蔽概率的方法为：

将每个频谱子图上每一帧上所有频率点的能量值按照频率升序顺序组成的序列作为每一帧的单帧能量向量；将每一帧的单帧能量向量中所有元素的均值作为每一帧的能量均值；

将每个频谱子图中所有帧的单帧能量向量作为输入，采用聚类算法得到每一帧的单帧能量向量所在的聚类簇；

将每一帧的短时过零率与每一帧的能量均值的比值作为第一比例因子；将每个频谱子图中所有能量均值最大值对应帧的短时过零率与能量均值最大值的比值作为最大比例因子；将第一比例因子与最大比例因子之间的差值作为每一帧的信息逼近系数；

将每个频谱子图上所有帧的鸟鸣音节覆盖率中的最大值与每一帧的鸟鸣音节覆盖率的差值作为分子；将每一帧的信息逼近系数与预设参数之和作为分母，将分子与分母的比值作为每一帧的单帧掩蔽概率；

将每一帧的单帧能量向量所在聚类簇中所有元素对应帧的单帧掩蔽概率的均值作为每一帧的时频掩蔽概率。

优选的，所述基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值的方法为：

分别将每个频谱子图上所有帧的鸟鸣音节覆盖率、时频掩蔽概率的均值作为第一均值、第二均值；

将每个频谱子图上鸟鸣音节覆盖率大于等于、小于第一均值的任意一帧的音节决策值分别置为1、0；

将每个频谱子图上时频掩蔽概率大于等于、小于第二均值的任意一帧的掩蔽决策值分别置为1、0；

将每个频谱子图上每一帧的音节决策值、掩蔽决策值的与运算结果作为每一帧的频谱掩蔽值。

优选的，所述基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图的方法为：

将每个频谱子图上频谱掩蔽值为1的任意一帧上所有频率点的掩蔽值置为1；

对于每个频谱子图上音节决策值、掩蔽决策值均为0的任意一帧，基于每一帧上所有频率的噪声成分贡献确定每一帧上每个频率点的掩蔽值；

将每个频谱子图上每一帧上所有频率点的掩蔽值按照每个频谱图上频率点的位置构建的二值图作为每个频谱子图的时频掩蔽图。

优选的，所述基于每一帧上所有频率的噪声成分贡献确定每一帧上每个频率点的掩蔽值的方法为：

将每一帧上每个频率点的能量周期稳定性与每个频率点的音高可预测系数的比值作为每个频率点的噪声成分贡献；

将每一帧上所有频率点的噪声成分贡献作为输入，利用阈值分割算法获取每一帧上噪声成分贡献的分割阈值；

将噪声成分贡献大于所述分割阈值的任意一个频率点的掩蔽值置为0，将噪声成分贡献小于所述分割阈值的任意一个频率点的掩蔽值置为1。

优选的，所述采用TDNN识别模型基于频谱子图的增强鸟鸣特征图确定每个混合鸟鸣数据对应的物种识别结果的方法为：

将每个频谱子图与其时频掩蔽图相乘的结果作为每个频谱子图的增强鸟鸣特征图；将所有混合鸟鸣数据的频谱图中所有频谱子图的增强鸟鸣特征图作为输入，采用TDNN识别模型确定每个混合鸟鸣数据对应的物种识别结果。

本发明的有益效果是：本发明通过对频谱子图上每一帧处能量周期性以及音高的混乱程度构建鸟鸣音节覆盖率，评估每个混合鸟鸣数据中每一帧包含鸟鸣音节的可能性；其次通过对每一帧处频率振荡特征的分析确定每一帧的时频掩蔽概率，时频掩蔽概率考虑了频谱子图中的能量重叠的现象，降低部分帧上局部能量被噪声帧的能量覆盖的现象对每一帧评估结果的影响；其次基于每一帧的频谱掩蔽值确定每个频谱子图的时频掩蔽图，实现了对混合鸟鸣数据的增强，使得后续TDNN网络的物种识别结果准确率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于TDNN结构的鸟鸣物种自动识别方法的流程示意图；

图2为本发明一个实施例所提供的每个频谱子图的时频掩蔽图的示意图；

图3为本发明一个实施例所提供的基于TDNN结构的鸟鸣物种自动识别方法的实施流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于TDNN结构的鸟鸣物种自动识别方法流程图，该方法包括以下步骤：

步骤S001，采集生态区内的混合鸟鸣数据。

利用生态区内布置的AI声纹感知设备，该设备是由四路拾音器组成的麦克风阵列，能够采集大小为200m*200m范围内的音频数据，其次可通过物联网将所采集的鸟鸣数据实时传回数据中心，由数据中心进行后续的混合鸟鸣声音识别。本发明中，鸟鸣数据的采样频率设置为22.05Khz，每个鸟鸣数据的采样时长设置为5s。

在AI声纹感知设备采集鸟鸣数据的过程中，可能存在设备中的噪声、生态区内的环境噪声、其余物种的鸣叫声等，例如风吹过树叶的飒飒声等，这些噪声、其余物种的鸣叫声会与鸟鸣声混合到一起被AI声纹感知设备采集，传输到数据中心。根据鸟鸣数据的采样时长，数据中心中同样将每个时长为5s的音频段作为一个混合鸟鸣数据。

至此，得到生态区内的混合鸟鸣数据，用于后续鸟鸣音节覆盖率的计算。

步骤S002，基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率。

在每个AI声纹设备的混合鸟鸣数据中，来自不同鸟的鸟叫在混合中可以作为不同声源的音频数据，即将每个发出鸣叫的鸟作为一个声源，由于不同鸟类的鸣叫时的音调不同；而同一种鸟类想表达的信息不同、鸟龄不同等因素都将会导致鸟鸣信号之间的差异。因此本发明中，考虑通过对鸟鸣信号进行聚类处理，根据音频特征的相似程度对鸟鸣音节进行分类处理，以区分不同种鸟类的鸟鸣数据。

数据中心接受的每个混合鸟鸣数据中包含各种环境噪声，其中雨声、风声等自然声音都可以归属于平稳噪声，并且它们在宽带噪声，在全频率基本均匀分布，在鸣叫过程中，鸟类的共振腔在声门的激励下，共振腔会在短时间内以同样的频率振动，形成周期性的变化。即在混合鸟鸣数据包含的每一种鸟鸣信号中相邻音节之间间隔时间很短，每个音节都是具有频谱质心的，每个音节的能量都是呈现出从弱到强，再从强到弱的趋势性，能量集中在频谱质心附近。

具体地，获取每个混合鸟鸣数据的频谱图，以2s为时间窗口的长度，相邻两个时间窗口之间的移动步长为0.25s，即第一个时间窗口的时间范围为第0s至第2s，第二个时间窗口的时间范围为第0.25s至第2.25s，每个混合鸟鸣数据的频谱图可划分为13个尺度相等的频谱子图。这样划分的目的是由于在混合鸟鸣数据中存在时长、起始时刻不明确的噪声，为了后续对每个频谱子图进行分帧截取时尽可能的获取包含鸟鸣频率的帧。需要说明的是，时间窗口的长度实施者可根据采集混合鸟鸣数据的时长设置合适的值。

进一步地，在每个混合鸟鸣数据中，每个鸟类的发声器官结构不同，发生的基础频率就不同，且同一种鸟类，以不同音节鸣叫时，声音的基础频率也有差异，即不同鸟类数据的音高大小不同。分别将每个混合鸟鸣数据作为输入，采用YIN算法获取每个混合鸟鸣数据中每一帧上每个频率的音高，YIN算法为公知技术，具体过程不再赘述。其次，分别获取每个频谱子图上每帧信号中能量最大值、最小值所在的频率，并将每个频谱子图上每帧信号中能量最大值、最小值所在的所有频率组成的集合分别作为每一帧的极大频率集合、极小频率集合。

进一步地，对于每个频谱子图，以第a个混合鸟鸣数据的频谱图中第k个频谱子图上第i帧为例，将频谱子图/>上第i帧的极大频率集合、极小频率集合中的频率以及每个频率对应的能量值俺时间顺序输入，利用自回归移动平均ARIMA(AutoregressiveIntegrated Moving Average)模型获取频谱子图/>上第i帧上每个频率点的预测能量值，ARIMA模型的应用为公知技术，具体过程不再赘述。

基于上述分析，此处构建鸟鸣音节覆盖率，用于表征每个混合鸟鸣数据中每一帧包含鸟鸣音节的可能性。计算频谱子图中第i帧的鸟鸣音节覆盖率：

式中，是第i帧中频率c的能量周期稳定性，/>是频率c的能量值与第i帧上其余频率的能量值之间差值组成的序列，/>是序列/>的赫斯特指数，/>、/>分别是第i帧中频率c的能量值、预测能量值，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01，赫斯特指数的计算为公知技术，具体过程不再赘述；

是第i帧中频率c的音高可预测系数，/>是频谱子图/>中与频率c的音高大小相等的其余频率对应帧与第i帧之间时间差组成的集合，/>是集合/>内元素的方差，m是频谱子图/>中包含帧的数量，j是频谱子图/>中上第j帧，/>、/>分别是第i帧、第j帧上的音高最大值；

是频谱子图/>中第i帧的鸟鸣音节覆盖率，/>、/>分别是第i帧、第j帧上所有频率的能量周期稳定性按照频率升序顺序组成的能量稳定评估向量，/>、/>分别是第i帧、第j帧上所有频率的音高可预测系数按照频率升序顺序组成的音高可预测向量，/>、/>分别是向量/>与/>、/>与/>之间的余弦相似度，余弦相似度为公知技术，具体过程不再赘述。

其中，频谱子图中第i帧越符合能量周期性变化的规律，频率c的能量值与第i帧上其余频率对应能量值之间差值分布规律性越强，/>的值越大；能量值可预测性强，能量预测值与实际值之间的差异越小，/>的值越小，/>的值越大；频谱子图/>中包含实际鸟鸣信息的帧越多，频谱子图/>中相邻不同帧之间音高的波动越大，同一的音高对应的等音高帧之间的时间间隔越不相同，/>内元素的分布方差越大，/>的值越大；第i帧中包含的鸟鸣音节的概率越高，第i帧上音高最大值与其余帧上音高最大值越接近，第一音高差值/>的值越小，/>的值越小，/>的值越大；频谱子图内第i帧和其余帧之间的能量变化的周期性越强，能量稳定评估向量之间的相似度越高，的值越大；频谱子图内第i帧和其余帧之间音高变化越不稳定，相邻帧之间的音高的周期性越差，/>的值越小；即/>的值越大，第i帧上包含鸟鸣音节的可能性越大。

至此，得到每一帧的鸟鸣音节覆盖率，用于后续确定每一帧的时频掩蔽概率。

步骤S003，根据每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率确定每个频谱子图上每一帧的时频掩蔽概率；基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值。

进一步地，在利用AI声纹识别设备采集混合鸟鸣数据时，由受到境噪声、设备噪声的影响，在每个混合鸟鸣数据中往往混叠有噪声，噪声会改变原信号的周期和频谱平坦度，因此只通过鸟鸣音节覆盖率不能完全检测鸟鸣，可能会出现音节漏检的现象。

与人类发音相似，鸟鸣出现的音频帧上，短时过零率的值很小，能量值较大。其次，对于混合鸟鸣数据来说，信号的能量值大多数是稀疏的，且信号的能量值是可区分的。相应的，在每个混合鸟鸣数据的频谱图中存在大量能量值为0的区域，这些区域通常不是能够提取鸟鸣特征的区域。因此，本发明考虑利用时频掩蔽的方式进一步地对每个频谱子图上的每一帧进行判断。

具体地，对于每个混合信号中的频谱子图，以频谱子图为例，将频谱子图/>中每一帧上所有频率对应的能量值按照频率升序的顺序进行排列，将排列组成的向量作为频谱子图/>中每一帧的单帧能量向量，并将每一帧的单帧能量向量中所有元素的均值作为每一帧的能量均值。其次，统计频谱子图/>中每一帧上能量值为0的频率的数量，以及每一帧的短时过零率，音频信号上短时过零率的计算为公知技术，具体过程不再赘述。

进一步地，将频谱子图中所有的单帧能量向量作为输入，利用k-means聚类算法获取单帧能量向量的聚类结果，将两个单帧能量向量之间的欧氏距离作为聚类时的度量距离，k-means聚类算法为公知技术，具体过程不再赘述。对单帧能量向量进行聚类的目的在于降低频谱子图/>中能量重叠的现象发生时，导致部分帧上局部能量被噪声帧的能量覆盖的现象对每一帧评估结果的影响。

基于上述分析，此处构建时频掩蔽概率，用于表征每个频谱图中每一帧被掩蔽的可能性。计算频谱子图中第i帧的时频掩蔽概率：

式中，是第i帧的信息逼近系数，/>、/>分别是第i帧的短时过零率、能量均值，是频谱子图内所有单帧能量向量中元素的均值最大值，/>是/>对应帧的短时过零率；

是第i帧的单帧掩蔽概率，/>是频谱子图/>中所有帧的鸟鸣音节覆盖率的最大值，/>是频谱子图/>中第i帧的鸟鸣音节覆盖率，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01；

是频谱子图/>中第i帧的时频掩蔽概率，K是第i帧的单帧能量向量所在聚类簇内单帧能量向量的数量，j是第i帧的单帧能量向量所在聚类簇内第j个单帧能量向量，是第j个单帧能量向量对应的单帧掩蔽概率。

其中，频谱子图中第i帧上出现鸟鸣的概率越大，第i帧的在局部区域中体现的振荡频率越接近于频谱子图/>中其他鸟鸣出现帧处的振荡频率，第i帧的短时过零率的/>值越小，能量值越大，第i帧的单帧能量向量中元素的均值，能量均值/>的值越大，第一比例因子/>的值越小，/>与最大比例因子/>的大小越接近，/>的值越小；第i帧所在局部区域中能量分布越紊乱，第i帧上包含鸟鸣音节的可能性越低，/>的值越小，的值越大，/>的值越大；即/>的值越大，第i帧上出现鸟鸣的概率越低，能量越稀疏，被时频掩蔽的概率越大。

根据上述步骤，分别获取频谱子图中所有帧的鸟鸣音节覆盖率、时频掩蔽概率。并基于每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每一帧的频谱掩蔽值，计算频谱子图中第i帧的频谱掩蔽值：

式中，是频谱子图/>中第i帧的音节决策值，/>是第i帧的鸟鸣音节覆盖率，/>是频谱子图/>中所有帧的鸟鸣音节覆盖率的均值；

是频谱子图/>中第i帧的掩蔽决策值，/>是第i帧的时频掩蔽概率，/>是频谱子图/>中所有帧的时频掩蔽概率的均值；

是频谱子图/>中第i帧的频谱掩蔽值，/>是与运算符，即两个值都为1时，的值为1，则在频谱子图/>中第i帧上各频率点的掩蔽值为1。

对于即两个值都为0时，的值为0的情况，为了保留更多的信息，则在频谱子图/>中第i帧上通过各频率点的能量周期稳定性、音高可预测系数进行判断各频率点的掩蔽值为1还是0。具体地，分别计算频谱掩蔽值为0的帧上面每个频率的噪声成分贡献，其次将频谱子图/>中所有频谱掩蔽值为0的帧上面每个频率的噪声成分贡献作为输入，利用大津阈值算法获取分割阈值，将噪声成分贡献大于分割阈值的频率点的掩蔽值置为0，将噪声成分贡献小于分割阈值的频率点的掩蔽值置为1。以频谱子图/>中第i帧上频率c为例，计算频率c的噪声成分贡献/>：

式中，、/>分别是第i帧中频率c的能量周期稳定性、音高可预测系数。

至此，得到每一帧上每个频率点的掩蔽值，用于后续确定每个频谱子图的时频掩蔽图。

步骤S004，基于每个频谱子图上所有帧上频率点的频谱掩蔽值构建每个频谱子图的时频掩蔽图；采用TDNN识别模型基于每个频谱子图及其时频掩蔽图确定每个混合鸟鸣数据对应的物种识别结果。

根据上述步骤，分别获取频谱子图中每一帧的频谱掩蔽值构建频谱子图/>的时频掩蔽图，即将每一帧上所有频率点的掩蔽值按照频谱子图/>中每个频率点的位置构建的二值图作为，如图2所示，黑色、白色方块分别代表掩蔽值0、1。其次，将频谱子图/>的时频掩蔽图与频谱子图/>相乘结果作为频谱子图/>的增强鸟鸣特征图。

进一步地，分别获取每个混合鸟鸣数据内所有频谱子图的增强鸟鸣特征图，基于所述增强鸟鸣特征图得到生态区内鸟鸣物种的识别结果，本发明的整个实施流程如图3所示。其次，将所有混合鸟鸣数据内所有频谱子图的增强鸟鸣特征图作为TDNN网络的输入，以Adam算法为优化算法，以交叉熵函数为损失函数，TDNN网络的输出为混合鸟鸣数据对应的鸟类识别结果，神经网络的训练为公知技术，具体过程不再赘述。

进一步地，将AI声纹设备采集的每个混合鸟鸣数据及其对应的物种识别结果保存在数据中心，并由数据中心的管理人员以及生态区的管理人员对生态区域内的物种行为进行后续评估处理。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，该方法包括以下步骤：

采集生态区内的混合鸟鸣数据；

基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值；

基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图；采用TDNN识别模型基于每个频谱子图及其时频掩蔽图确定每个混合鸟鸣数据对应的物种识别结果。

2.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述将每个混合鸟鸣数据的频谱图划分成尺度相等的频谱子图的方法为：

3.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率的方法为：

4.根据权利要求3所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每个频谱子图上每一帧上所有频率点的能量值、预测能量值确定每一帧上每个频率点的能量周期稳定性的方法为：

5.根据权利要求3所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每个频谱子图上音高相等的频率点所在不同帧之间的时间差确定每一帧上每个频率点的音高可预测系数的方法为：

6.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述根据每个频谱子图上每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定每个频谱子图上每一帧的时频掩蔽概率的方法为：

7.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值的方法为：

8.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图的方法为：

9.根据权利要求8所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述基于每一帧上所有频率的噪声成分贡献确定每一帧上每个频率点的掩蔽值的方法为：

10.根据权利要求1所述的基于TDNN结构的鸟鸣物种自动识别方法，其特征在于，所述采用TDNN识别模型基于频谱子图的增强鸟鸣特征图确定每个混合鸟鸣数据对应的物种识别结果的方法为：