CN115272862A

CN115272862A - 一种基于音视协同的飞虫追踪识别方法与装置

Info

Publication number: CN115272862A
Application number: CN202210942280.2A
Authority: CN
Inventors: 胡凯; 杨猛; 刘广威
Original assignee: Dalian Sailing Technology Co ltd; Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Current assignee: Dalian Sailing Technology Co ltd; Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-01

Abstract

本发明公开了一种基于音视协同的飞虫追踪识别方法与装置，涉及飞虫识别追踪技术领域，旨在解决中，有害飞虫的防治一直是一项棘手的挑战，尤其是对于大棚、温室种植来说，如果棚中进入少量零星的害虫，不及时驱离捕捉，害虫的繁殖能力会使得少量害虫快速变成虫灾，进而给养殖户带来巨大的损失；发明设计的TCN网络能够有效地提取时间序列数据的特征，相比于人工选取特征或者传统的机器学习方法具有更好的鲁棒性和识别率；与传统的非机器学习类方法相比，本发明方法通过训练数据驱动TCN网络进行特征学习，避免了人工特征筛选过程造成的数据信息利用不无完全。

Description

一种基于音视协同的飞虫追踪识别方法与装置

技术领域

本发明涉及飞虫识别追踪技术领域，具体为一种基于音视协同的飞虫追踪识别方法与装置。

背景技术

随着农业生产技术的不断进步，越来越多的智能技术应用于农业种植、养殖等诸多环节，其中，有害飞虫的防治一直是一项棘手的挑战，尤其是对于大棚、温室种植来说，如果棚中进入少量零星的害虫，不及时驱离捕捉，害虫的繁殖能力会使得少量害虫快速变成虫灾，进而给养殖户带来巨大的损失。因此，如何尽早有效发现零星的有害飞虫成为一个重要的课题。目前该问题的主要解决方法就是靠种植户的经验以及及时的观察等，这样效率是非常低的。

现有采用深度神经网络的目标识别通常是采用信号的时频图作为网络输入数据，而时频图是一种通用算法，并非完全由数据驱动形成特征，也会造成信息损失，本发明提出的方法是针对声音时间序列直接进行特征提取。

将图像识别和声音识别进行协同，由图像识别初判，根据初判结果再决定是否启动声音识别二次判决，从而可以得到更准确的监测判决结果。

将基于图像的目标物体定位与基于声音的目标物体定位进行加权融合，从而得到更准确的定位追踪结果。

发明内容

鉴于现有技术中所存在的问题，本发明公开了一种基于音视协同的飞虫追踪识别装置，采用的技术方案是，包括高清摄像头、麦克风阵列，所述高清摄像头和所述麦克风阵列内分别设置有数据预处理模块、CNN识别网络、TCN分类网络、轨迹融合计算。

作为本发明的一种优选技术方案，所述数据预处理模块包括图像数据的预处理和声音数据预处理模块。

作为本发明的一种优选技术方案，所述图像数据的预处理包括卷积层、全连接网络。

作为本发明的一种优选技术方案，所述卷积层有多层。

作为本发明的还公开了利用上述基于音视协同的飞虫追踪识别装置的方法，采用的技术是，包括以下步骤：

步骤1，图像数据的预处理

通过所述高清摄像头拾取的图像数据进行预处理，根据图像的色度分量判断是否出现整体接近白色或者黑色，进行相应的处理使用，如果是，则认为图像无法正常识别，则对图像济宁增强后再使用，如果否，则认为图像可以直接使用；步骤2，CNN网络

基于图像数据进行异物检测采用CNN网络，以实现较为准确的异物识别，CNN网络的输出有2中状态，分别为正常、有异物；然后对目标区域进行判断检测，对所检测的目标方向区域拍摄的图像进行模型识别，当模型输出的状态为非正常状态时，则认为当前视野内存在异物；CNN网络故障判断包括依次串联的若干层卷积层、全连接网络，当时频分布图输入至第一层卷积层后，第一层卷积层进行特征提取，提取的特征输入下一层卷积层进行池化，依次经过若干层卷积层池化降低维度；最后一个卷积层进行池化后，将最终输出的多组二维提取特征拆分拼接成向量，并输入至全连接网络；经过全连接网络处理输出所需要的结果；且2种输出状态对应于全连接网络输出的2个节点；当输出状态为有异物时，再根据异物在图像中的位置，即可得到异物的坐标，再根据时间就可以得到异物的运动轨迹；

步骤3，声音数据预处理模块

用24KHz采样率对声音信号进行采样，将输入的音频数据流截取出N个采样点作为单帧输入数据；N取值较大，通常需要数秒以上的数据；N个采样点所用的采样时间记为T，为一帧数据的录制时间；统计这N个数据的均值和方差，将数据帧进行标准化处理如下：

其中，s为输入的时间序列，m为均值，σ为序列的标准差；

步骤4，TCN网络

声音信号输入即为TCN模块的输出，转数数据的采样率只需要满足时间T内的采样点数与TCN模块2自网络输出的特征序列长度一致即可；

TCN模块1-3具有相同的结构，其中空洞卷积采用两侧层因果卷积叠加而成，卷积核大小为2，BN层、ReLU层和Dropout层分别是常规的批量归一化层、ReLU激活函数层和丢弃层；1x1卷积层由输入直接连接到模块输出的ReLU激活函数层，形成残差连接，可以避免网络退化；

特征融合：TCN模块2输出与异物大小序列交叉组合形成新的特征序列作为特征融合的输出，交叉方式为由TCN模块2输入的序列为输出序列的奇数序列，异物大小数据序列为输出序列的偶数序列；

首先将采样率为24KHz,长度为N点的带标签数据集进行归一化处理，然后对本发明中设计的TCN网络进行训练；将待识别的声音信号输入本发明所设计的TCN网络中即可输出飞虫的坐标，进而形成飞虫的飞行轨迹；

步骤5，轨迹融合

通过CNN网络图像识别和TCN网络声音识别两种方法分别得到异物的运动轨迹后，再进行加权，权值分别为0.5，即可得到最终的异物运动轨迹。

本发明的有益效果：1、发明设计的TCN网络能够有效地提取时间序列数据的特征，相比于人工选取特征或者传统的机器学习方法具有更好的鲁棒性和识别率；与传统的非机器学习类方法相比，本发明方法通过训练数据驱动TCN网络进行特征学习，避免了人工特征筛选过程造成的数据信息利用不无完全。

2、在TCN网络设计中加入了目标异物的大小数据序列和声音信号中间抽象特征的融合，对融合信息进行进一步的特征提取；这样的设计充分考虑了目标异物的大小与其飞行声音信号之间的关联，更利于目标特征的挖掘，能够提高识别效率。

3、通过CNN网络以图像识别的方式计算出目标物体的运动轨迹，通过TCN网络以声音识别的方式计算出目标物体的运动轨迹，两种运动轨迹的估算值进行加权融合，可以获得更准确的运动轨迹。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明步骤和原理示意图；

图2为本发明CNN网络结构示意图；

图3为本发明TCN网络整体结构示意图；

图4为本发明卷积层结构示意图；

图5为本发明输出和输入结构示意图；

图6为本发明特征融合结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相正对地重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

如图1至图6所示，本发明公开了一种基于音视协同的飞虫追踪识别方法与装置，采用的技术方案是针对飞虫的追踪识别这一特殊应用场景设计了一种采用双深度学习神经网络的融合判决机制，该方法首先对高清摄像头采集到的视野内的图像利用预先训练好的CNN识别网络模型进行初次判决，当图像内出现了异物时，启动二次判决，二次判决采用预先训练好的TCN分类网络模型对麦克风阵列拾取的声音信号特征进行深度特征提取和识别，然后识别出异物是否为目标飞虫，并且计算出实时的方位，同时，再驱动图像数据的预处理根据异物在图像中的位置计算出异物的方位和轨迹，再跟声音数据预处理模块计算出的方案轨迹进行加权融合，得到更准确的方位轨迹结果。

通过将飞虫大小数据变量与TCN网络中间提取到的声音信号抽象特征即：TCN模块2的输出，进行特征融合，将融合后的特征再进行进一步的特征提取。

通过CNN网络以图像识别的方式计算出目标物体的运动轨迹，通过TCN网络以声音识别的方式计算出目标物体的运动轨迹，两种运动轨迹的估算值进行加权融合，可以获得更准确的运动轨迹。

步骤1，图像数据的预处理

通过所述高清摄像头拾取的图像数据进行预处理，根据图像的色度分量判断是否出现整体接近白色或者黑色，进行相应的处理使用，如果是，则认为图像无法正常识别，则对图像济宁增强后再使用，如果否，则认为图像可以直接使用；

步骤2，CNN网络

基于图像数据进行异物检测采用CNN网络，以实现较为准确的异物识别，CNN网络的输出有2中状态，分别为正常、有异物；然后对目标区域进行判断检测，对所检测的目标方向区域拍摄的图像进行模型识别，当模型输出的状态为非正常状态时，则认为当前视野内存在异物；CNN网络故障判断包括依次串联的若干层卷积层、全连接网络，当时频分布图输入至第一层卷积层后，第一层卷积层进行特征提取，提取的特征输入下一层卷积层进行池化，依次经过若干层卷积层池化降低维度；最后一个卷积层进行池化后，将最终输出的多组二维提取特征拆分拼接成向量，并输入至全连接网络；经过全连接网络处理输出所需要的结果；

且2种输出状态对应于全连接网络输出的2个节点；当输出状态为有异物时，再根据异物在图像中的位置，即可得到异物的坐标，再根据时间就可以得到异物的运动轨迹；

卷积层均包括卷积、激活、池化三个步骤，所述卷积层为四层，分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层，其中，所述第一层卷积层卷积核16x16，数量64个，步长2，第一层卷积层的激活函数使用ReLu；第一层卷积层的池化使用2x2，步长2；第二层卷积层卷积核8x8，数量128个，步长2；第二层卷积层的激活函数同样使用ReLu；第二层卷积层的池化也使用2x2，步长2；第三层卷积层的卷积核4x4，数量128个，步长1；第三层卷积层的激活函数同样使用ReLu；第三层卷积层池化也使用2x2，步长2；第四层卷积层卷积核2x2，数量128个，步长1；第四层卷积层的激活函数同样是ReLu；第四层卷积层池化使用2x2，步长2；

全连接网络由依次串联的两层全连接层构成，且全连接层均使用2048个神经元；

其中卷积运算公式为：

其中，x_i,j表示参与卷积的输入时频分布图，c_i,j表示卷积核；

卷积核大小是由训练阶段的反向传播算法计算得到，本实施例中第一层卷积层的卷积核大小为16*16，第二层卷积层的卷积核大小为8*8，第三层为4*4，第四层为2*2；

步骤3，声音数据预处理模块

其中，s为输入的时间序列，m为均值，σ为序列的标准差；

步骤4，TCN网络

TCN模块1-3具有相同的结构，如图4所示，其中空洞卷积采用两侧层因果卷积叠加而成，卷积核大小为2，如图4所示BN层、ReLU层和Dropout层分别是常规的批量归一化层、ReLU激活函数层和丢弃层；1x1卷积层由输入直接连接到模块输出的ReLU激活函数层，形成残差连接，可以避免网络退化；

特征融合如图5所示，TCN模块2输出与异物大小序列交叉组合形成新的特征序列作为特征融合的输出，交叉方式为由TCN模块2输入的序列为输出序列的奇数序列，异物大小数据序列为输出序列的偶数序列；

Softmax层其实就是一个softmax函数，公式如下：

其中y_i是输入softmax层的向量，softmax的作用是：将元素取值可以为任何值的向量映射为向量内每个元素值属于(0,1),所有值之和＝1，可以理解为概率；全连接层，是每一个节点都与上一层的所有节点相连，用来把前边提取到的特征综合起来；由于其全相连的特性，一般全连接层的参数也是最多的；

归一化就是把信号统一除以一个固定值，比如使用峰值，计算公式如下：

TCN网络的训练过程跟其他各种神经网络的训练过程类似，基本网络结构都是由一个跟识别过程相同的网络和一个误差反向传播的机制，训练时将训练数据集顺次输入到网络入口，经过网络的计算得到识别结果，识别结果跟输入的训练样本的标签的误差再反向依次修正网络各层节点的参数，这个过程一直循环到识别结果和输入样本的标签的误差达到预定的阈值，得到的网络各层节点的参数即构成了训练得到的TCN网络模型；

步骤5，轨迹融合

对于时刻t，利用图像数据通过CNN网络得到的飞虫坐标记为

利用声音数据通过TCN网络得到的飞虫坐标记为

其中

表示t时刻通过图像数据得到的飞虫位置的水平角，

表示t时刻通过图像数据得到的飞虫位置的俯仰角，

表示利用声音数据通过TCN网络得到的飞虫位置的水平角，

表示利用声音数据通过TCN网络得到的飞虫位置的俯仰角；加权公式为：

因为t是表示时刻，有了每一个时刻的飞虫位置坐标，自然就得到了其运动轨迹。

本发明的工作原理：采用高清摄像头和麦克风阵列，分别采集监控视野内的高清图像和声音信号；偷偷进入监控视野的飞虫会被摄像头记录下来图像数据，其飞行时产生的声音信号会被麦克风阵列记录下来，分别采用卷积神经网络对目标视野内的异物进行初次识别，得到是否启用声音二次确认识别的信号，如果需要，就再利用TCN网络结合因果卷积和空洞卷积对拾取声音信号进行特征提取；专门考虑声音信号与目标飞行物飞行音之间的相关性，将网络学习到的抽象特征与转速信息结合进一步进行特征学习，再进一步确认是否为目标飞行物以及得到其运动轨迹；利用该方法可以充分利用数据信息，避免了人工特征选取造成的信息损失。

本发明涉及的电路连接为本领域技术人员采用的惯用手段，可通过有限次试验得到技术启示，属于公知常识。

本文中未详细说明的部件为现有技术。

上述虽然对本发明的具体实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化，而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于音视协同的飞虫追踪识别装置，其特征在于：包括高清摄像头、麦克风阵列，所述高清摄像头和所述麦克风阵列内分别设置有数据预处理模块、CNN识别网络、TCN分类网络、轨迹融合计算。

2.根据权利要求1所述的一种基于音视协同的飞虫追踪识别装置，其特征在于：所述数据预处理模块包括图像数据的预处理和声音数据预处理模块。

3.根据权利要求2所述的一种基于音视协同的飞虫追踪识别装置，其特征在于：所述图像数据的预处理包括卷积层、全连接网络。

4.根据权利要求3所述的一种基于音视协同的飞虫追踪识别方法与装置，其特征在于：所述卷积层有多层。

5.根据权利要求1所述的一种基于音视协同的飞虫追踪识别方法，其特征在于：包括以下步骤：

步骤1，图像数据的预处理

通过所述高清摄像头拾取的图像数据进行预处理，根据图像的色度分量判断是否出现整体接近白色或者黑色，进行相应的处理使用；

步骤2，CCN网络

基于图像数据进行异物检测采用CNN网络，以实现较为准确的异物识别，CNN网络的输出有2中状态，分别为正常、有异物；然后对目标区域进行判断检测；

步骤3，声音数据预处理模块

其中，s为输入的时间序列，m为均值，σ为序列的标准差；

步骤4，TCN网络

步骤5，轨迹融合

通过CNN网络图像识别和TCN网络声音识别两种方法分别得到异物的运动轨迹后，再进行加权，即可得到最终的异物运动轨迹。