CN111476118A

CN111476118A - 一种动物行为自动识别方法及装置

Info

Publication number: CN111476118A
Application number: CN202010222352.7A
Authority: CN
Inventors: 詹炜; 邹亚峰; 张智亮
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-31
Anticipated expiration: 2040-03-26
Also published as: CN111476118B

Abstract

本发明涉及动物行为自动分类技术领域，公开了一种动物行为自动识别方法、装置以及计算机存储介质，包括以下步骤:从动物行为视频中获取多帧动作图像得到样本数据集，对所述样本数据集中各动作图像进行关节标注；以所述样本数据集作为输入样本对神经网络进行训练，得到关节识别模型；将待测动物视频输入所述关节识别模型，得到所述待测动物视频中每一帧待测图像对应的关节信息；建立不同动物行为所对应的关节点之间的位置关系函数；根据所述关节信息为各所述待测图像匹配对应的位置关系函数，进而识别出各所述待测图像对应的动物行为。本发明提供的动物行为自动识别方法、装置以及计算机存储介质，可以实现动物微小动作行为的自动识别。

Description

一种动物行为自动识别方法及装置

技术领域

本发明涉及动物行为自动分类技术领域，具体涉及一种动物行为自动识别方法、装置以及计算机存储介质。

背景技术

随着我国农业的发展、人民生活水平的提高，居民对农产品的消费需求逐渐由吃得饱向吃得好、吃的放心、吃的健康的方向转变。然而农产品在栽培过程中难以避免得会受到害虫的侵袭，例如，中国是柑橘的重要原产地之一，品种优良，有4000多年的栽培历史，而它们饱受虫害之苦，其中柑橘大实蝇为主要虫害之一，为了有效防治它对柑橘的危害，我国科学家对其生活习性进行观察分析，研究出有效药物来消除虫害。由此可见，动物行为的分析对于动物的防治、管理等具有积极意义。但是，仅靠人工的方式对大量的害虫录像进行行为动作分类记录，非常耗时耗力，通常对一小时的视频进行人工行为分类、记录需要花费两到三天的时间，因此国内外加大了动物行为快速分类技术的研究力度并取得了一定的进展。

深度学习在动作识别、手势识别等领域的快速发展和应用已经是不争的事实。近年来，在Nature Protocols和Journal of Neuroscience Methods上发表了两篇关于物种行为姿态估计和物种行为识别的论文，他们分别能够对目标关节点进行运动追踪以及对目标运动肢体进行标记，是国内外比较成熟、优良的用于动物行为识别的技术。但是仍然和大多数动物行为识别技术一样，只能将采集的视频数据传回服务器进行粗略的智能分析，不能够将目标动物的动作变化自动进行行为分类、记录，而是通过后期的人工分析的模式。这种模式下，分析人员虽然不用去对视频的每一帧进行观察记录，但是仍然需要分析人员手动控制视频的播放，定位到目标运动帧，对该运动帧进行人工的行为识别分类并记录，本质上还是人工的方式。

发明内容

本发明的目的在于克服上述技术不足，提供一种动物行为自动识别方法、装置以及计算机存储介质，解决现有技术中对于动物的微小行为动作识别仍然较大程度依赖于人工分析的技术问题。

为达到上述技术目的，本发明的技术方案提供一种动物行为自动识别方法，包括以下步骤:

从动物行为视频中获取多帧动作图像得到样本数据集，对所述样本数据集中各动作图像进行关节标注；

以所述样本数据集作为输入样本对神经网络进行训练，得到关节识别模型；

将待测动物视频输入所述关节识别模型，得到所述待测动物视频中每一帧待测图像对应的关节信息；

建立不同动物行为所对应的关节点之间的位置关系函数；

根据所述关节信息为各所述待测图像匹配对应的位置关系函数，进而识别出各所述待测图像对应的动物行为。

本发明还提供一种动物行为自动识别装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述动物行为自动识别方法。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述动物行为自动识别方法。

与现有技术相比，本发明的有益效果包括：本发明在采集多帧动作图像后，对动作图像进行标注，将标注后的动作图像作为样本数据集对神经网络进行训练，从而获得关节识别模型，关节识别模型可以实现待测图像中动物关节点的自动识别。识别出动物的关节点后，通过分析各关节点之间的位置关系，匹配相对应的位置关系函数，从而匹配出相对应的动物行为，进而实现动物行为的自动识别。本发明实现了动物行为的自动识别，减少了人工参与度，提高了行为分类的自动化智能化程度。

附图说明

图1是本发明提供的动物行为自动识别方法一实施方式的流程图；

图2是本发明提供的残差网络一实施方式的主干网络结构图；

图3是本发明提供的残差网络一实施方式的残差网络的IDENTITY_BLOCK结构图；

图4是本发明提供的残差网络一实施方式的CONV_BLOCK结构图；

图5是本发明提供的残差网络一实施方式的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本发明的实施例1提供了动物行为自动识别方法，包括以下步骤:

S1、从动物行为视频中获取多帧动作图像得到样本数据集，对所述样本数据集中各动作图像进行关节标注；

S2、以所述样本数据集作为输入样本对神经网络进行训练，得到关节识别模型；

S3、将待测动物视频输入所述关节识别模型，得到所述待测动物视频中每一帧待测图像对应的关节信息；

S4、建立不同动物行为所对应的关节点之间的位置关系函数；

S5、根据所述关节信息为各所述待测图像匹配对应的位置关系函数，进而识别出各所述待测图像对应的动物行为。

具体的，本实施例中样本数据集的数据由专业人员使用高清摄像设备以固定角度、固定距离拍摄包含待测动物在内的动物行为视频，截取动物行为视频中的动作帧作为神经网络的训练数据。对动作图像中待检测的关节点进行标注。本实施例中待测动物为柑桔大实蝇，其关节包括左触角、右触角、左眼、右眼、左前足、右前足、左中足、右中足、左后足、右后足、左翅、右翅、头部、腹部以及产卵器。以标注后的样本数据集左为输入样本数据对神经网络进行训练，得到关节识别模型，关节识别模型可以实现待测图像中的动物关节的自动识别。动物在进行不同行为时，其关节的运动以及各关节之间的位置关系不同，基于此，建立不同动物行为所对应的位置关系函数，位置关系函数描述了动物行为所对应的关节点位置关系。通过关节识别模型识别出待测图像中动物的关节后，即可获取动物各关节间的位置关系，进而匹配出相对应的位置关系函数，最后识别出相对应的动物行为，实现动物行为的自动化识别。

本发明通过建立位置关系函数，结合深度学习技术，在动物行为分类过程中解放出更多的人工参与部分。工作人员只需要用摄像设备采集待测动物视频，传回服务器，通过训练好的神经网络检测视频流，追踪动物的关节点，再通过所得关节点的位置以及运动关系进行行为分类，完成了动物行为的自动化分类。

优选的，从动物行为视频中获取多帧动作图像得到样本数据集，具体为：

获取动物行为视频，从所述动物行为视频中截取多帧动作图像，得到样本数据集；

筛除所述样本数据集中噪声大于设定值的动作图像；

筛除所述样本数据集中不包含待测动物的动作图像；

对筛选后的各动作图像分别进行翻转、改变尺寸或改变对比度，实现样本数据集的扩充。

截取了动作图像后需要进行数据处理，筛除存在模糊、噪声明显以及不存在待检测动物的样本数据，确保每一张动作图像清晰的包含大部分需要检测到的动物关节点。为了使训练模型更精确，采用翻转、改变尺存、改变对比度等方法生成相似的图像数据，对原始样本数据集进行扩充。

优选的，如图2所示，所述神经网络为残差网络。

对于身体关节较小、运动速度较快的动物，例如柑橘大实蝇，其关节、行为识别的难度较大。为了提高识别的准确率。我们需要加深神经网络层数，但是如果网络层数过多，会导致分析速率大大降低，而残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，也可有效解决网络加深导致的性能下降问题，因此本优选实施例采用残差网络。残差网络的主干网络如图2所示，图像输入残差网络后，先进行ZERO PAD，即用零填充像素边界，然后通过5个卷积步骤，即stage1-atage5，CONV为卷积核，BatchNorm是规范化通道参数，ReLU为激活函数，MAX POOL为最大池化层，ID BLOCK为恒等残差块，CONV BLOCK是卷积块，AVG POOL为平均池化层，FC为全连接层，用于把前边提取到的特征综合起来。IDBLOCK残差块的目的是使输入与输出具有相同的维度，输入输出相同，因此可以连续连接，ID BLOCK残差块的具体结构如图3，利用ID BLOCK残差块的恒等性质，在残差网络在输入和输出之间建立了一条直接的关联通道，这种结构也称之为‘跃迁’。如果输入和输出的通道数不同，残差网络采用1*1的卷积使输入的值一致。如果输入图片的尺寸不满足要求的尺寸，残差网络会将较长通道数和输出通道数保持一致，有效解决了网络加深导致的性能下降问题。CONV BLOCK卷积块为另一种类型的残差块，具体结构如图4，其目的是解决维度不匹配现象，与ID BLOCK不同的是，CONV BLOCK在shortcut(跃迁路径)中是CONV2D卷积操作，用于将调整输入图片尺寸，以便在shortcut残差快的值返回到主路径时需要最后添加的尺寸相匹配，这样就可以连接后面的ID BLOCK。

优选的，以所述样本数据集作为输入样本对神经网络进行训练，具体为：

对所述神经网络进行初始化；

将所述样本数据集中各动作图像依次输入神经网络，得到关节预测值；

计算所述关节预测值与所标注的关节标注值之间的差值，根据所述差值计算损失值；

根据所述损失值进行反向传播，以更新所述神经网络的权重参数，得到所述关节识别模型。

具体的，本实施例中，残差网络的结构由5个卷积层、一个全连接层和一个softmax组成的，如图5所示。

训练时采用批量处理，一次会处理多张图片，所以要求图片的尺寸保持一致，例如224*224。如果输入图片的尺寸不满足要求的尺寸，残差网络会对较短的一边随机缩放，一般缩放到大于要求尺寸，即大于224，本实施例中较短的一边随机缩放到[256,480]，长边与短边等比例缩放，保证图片长宽比例不变，然后将其随机裁剪为多个224*224图片。

样本数据集中动作图像输入神经网络时，首先输入是224*224*3的图像，通过一个7*7*64的卷积核，padding深度为3，stride为2，然后进行归一化，最后通过ReLU函数激活，大于0的保存，小于0的取零。然后通过一个最大池化层，池化核为3*3，padding深度为0，stride为0，输出为56*56*64，这就完成了第一个卷积层操作。

接下来，进入第二个卷积层，输入为56*56*64，通过卷积核为1*1*256，padding深度为0，stride为1，输出为56*56*256，然后进行归一化，得到branch1。再将56*56*64作为输入，通过一个1*1*64，padding深度为0，stride为1的卷积核，然后通过一个3*3*64，padding深度为1，stride为1的卷积核，最后通过一个1*1*128，padding深度为0，stride为2的卷积核，最终输出为56*56*256，之后进行归一化，得到branch2。将branch1和branch2相加，并进行ReLU激活，输出56*56*256，重复上述过程一共三次，这就完成了第二个卷积层操作。

接下来，进入第三个卷积层，输入为56*56*64，通过卷积核为1*1*512，padding深度为0，stride为2，输出为28*28*512，然后进行归一化，得到branch1。再将56*56*64作为输入，通过一个1*1*128，padding深度为1，stride为1的卷积核，然后通过一个3*3*128，padding深度为1，stride为1的卷积核，最后通过一个1*1*512，padding深度为0，stride为1的卷积核，最终输出为28*28*512，之后进行归一化，得到branch2。将branch1和branch2相加，并进行ReLU激活，输出28*28*512，重复上述过程一共四次，这就完成了第三个卷积层操作。

接下来，进入第四个卷积层，输入为28*28*512，通过卷积核为1*1*1024，padding深度为0，stride为2，输出为14*14*1024，然后经过Batchnorm和scale进行归一化，得到branch1。再将28*28*512作为输入，通过一个1*1*256，padding深度为0，stride为2的卷积核，然后通过一个3*3*256，padding深度为1，stride为1的卷积核，最后通过一个1*1*1024，padding深度为0，stride为1的卷积核，最终输出为14*14*1024，之后经过Batchnorm和scale进行归一化，得到branch2。将branch1和branch2相加，并进行ReLU激活，输出14*14*1024，重复上述过程一共六次，这就完成了第四个卷积层操作。

接下来，进入第五个卷积层，输入为14*14*1024，通过卷积核为1*1*2048，padding深度为0，stride为2，输出为14*14*2048，然后经过Batchnorm和scale进行归一化，得到branch1。再将14*14*1024作为输入，通过一个1*1*512，padding深度为0，stride为2的卷积核，然后通过一个3*3*512，padding深度为1，stride为1的卷积核，最后通过一个1*1*2048，padding深度为0，stride为1的卷积核，最终输出为7*7*2048，之后经过Batchnorm和scale进行归一化，得到branch2。将branch1和branch2相加，并进行ReLU激活，输出7*7*2048，重复上述过程一共三次，这就完成了第五个卷积层操作。

最后进入第六个卷积层，先将7*7*2048作为输入，通过一个7*7的平均池化核，padding深度为0，stride为1，输出结果为1*1*2048，

最后通过一个全连接层，输出为1*1*1000，最后经过softmax得到关节名称、关节点坐标以及概率(置信度)。

具体的，将标注的动作图片分为训练集和测试集，将训练集分批次通过搭建的神经网络，得到关节预测值，关节预测值包括关节名称预测值和关节点坐标预测值，用关节预测值减去标注的关节标注值得到差值X。要让关节预测值与关节标注值的差值最小，即损失函数的损失值最小：

通过前向传播计算损失值，反向传播损失值以更新权重参数，达到训练权重参数的目的，本实施例中k取默认值1。

训练完后，通过训练集检测模型的准确度，准确度达到要求时停止训练，否则继续通过训练集进行训练。训练好后输出关节识别模型，待测动物视频分解为帧，通过训练好的关节识别模型进行关节识别，返回关节名称、关节点坐标以及概率(置信度)，并保存。

优选的，对所述神经网络进行初始化，具体为：

以ImageNet数据集作为样本数据对所述神经网络进行预训练得到初始化参数，根据初始化参数对所述神经网络进行初始化。

具体的，采用迁移学习的方法，采用ImageNet数据集对神经网络进行预训练，将与训练模型的参数作为初始化参数，实现神经网络的初始化。ImageNet数据集包括2万多个类目标，超过1400万的图像URL被ImageNet手动注释，以ImageNet数据集作为输入训练得到的权重值作为初始化参数能更快的获得更好的权重参数，加快训练速度。初始化完成后，将标注数据集作为神经网络的输入，经过多次迭代训练反复调参，得到检测效果较好的关节识别模型。

优选的，根据所述关节信息为各所述待测图像匹配对应的位置关系函数，具体为：

所述关节信息包括关节名称以及关节点坐标，根据关节名称以及关节点坐标获取各关节之间的位置关系；

根据各关节之间的位置关系，从多个所述位置关系函数中为所述待测图像匹配对应的位置关系函数。

位置关系函数描述了动物在某种行为时，发生动作的关节之间的位置关系，描述了行为与关节之间的关系。例如，大实蝇在梳理触角时，某一个前足将与触角交叉；梳理前足时，左前足与右前足会交叉；前足与中足相互梳理时，则是某一前足和某一中足发生交叉；梳理翅膀时，后足关节点将与翅膀关节点靠近或重合接触；梳理腹部时，后足与腹部靠近或重合接触等等。

优选的，根据所述关节信息为各所述待测图像匹配对应的位置关系函数，还包括：

根据不同动物行为时所对应发生变化的关节类型的不同，将各所述位置关系函数划分为多个初步类别；

根据当前帧待测图像及其相邻帧待测图像，判断当前帧待测图像中关节点坐标发生变化的关节类型，根据判断结果将当前帧待测图像归入相应的初步类别；

从相应的初步类别中为当前帧待测图像匹配相对应的位置关系函数。

动物的行为通常种类较多，因此，直接一句关节位置关系进行匹配耗时较长。因此，现根据不同动物行为时，进行动作的关节类型的不同，将动物行为初步分成几个大类，从而将位置关系函数也对应分为几个初步类别。例如，通过观察柑橘大实蝇的行为，找到各个行为与关节点的位置关系，将前足坐标变化、后足坐标不变的行为划分为第一大类；将后足坐标变化、前足坐标不变的行为划分为第二大类；将前足、中足、后足坐标均不断变化归为大实蝇移动过程，将其排除出待检测行为。初步类别划分好后，再将各个位置函数关系归入相应的类别。结合前后相邻帧图像判断当前帧待测图像发生动作的关节名称，从而找到相应类别的位置关系函数集合，再从对应类别的位置关系函数集合中区匹配对应的位置关系函数，从而减小匹配难度，提高匹配效率。

所述关节信息包括置信度，判断当前帧待测图像对应的置信度是否低于设定阈值，如果低于，则以上一帧置信度大于设定阈值的待测图像所对应的动物行为，作为当前帧待测图像的动作行为；如果不低于，则根据当前待测图像的关节信息为当前待测图像匹配对应的位置关系函数，进而识别出当前帧待测图像对应的动物行为。

从一段待测动物视频中截取的多帧待测图像中，可能存在关节点识别困难的图像，例如：由于该帧待测图像中动物快速运动导致关节点模糊，或者由于该帧待测图像中动物的运动，导致关节点被其他身体部位遮挡，则此时通过关节识别模型识别出的关节点坐标、关节点名称不准确，从而直接影响到后续对于位置关系函数的匹配和动物行为的识别。但是因为行为动作是连续的，个别待测图像模糊或者遮挡是不影响判断的，可以参照相邻帧待测图像的判断结果。因此本优选实施例中，在判断一段待测动物视频中截取的多帧待测图像时，如果关节识别模型对当前帧待测图像进行关节识别的置信度低于0.5时，则直接认定为当前帧待测图像正在发生上一个行为动作，即当前帧待测图像的动作与上一个置信度大于0.5的动作相同，这种处理方式可以提高行为识别的置信度，同时，一定程度上提高行为识别的速度。

进一步的，当一段待测动物视频中截取的多帧待测图像全部识别完成时，我们为每一种动物行为创建一个文件夹，以行为名称作为相应文件夹的文件名，将各帧待测图像分别保存至对应的文件夹中，待测图像的命名方式为该帧待测图像在待测动物视频中的帧数。

优选的，本方法还包括：

所述待测动物视频识别完成后，从第一帧开始，按时间顺序依次提取多组固定帧数的待测图像，得到多组检测图像组；

依次判断各所述检测图像组中是否有超过设定帧数的待测图像在执行同样的动物行为：如果是，则判定检测正确，记录当前检测图像组的第一帧为起始帧，并提取下一组检测图像组进行检测；如果否，则判定检测错误，记录所述检测图像组中最后一帧为结束帧，并提取下一组检测图像组进行检测；

各所述检测图像组检测完成后，统计各类动物行为发生的时间段。

由于通过匹配位置关系函数的方法可能存在检测错误的帧，为了减小误差我们需要剔除误检测部分。因此我们采用以下方法：从第一帧开始，按时间顺序连续取固定帧数的待测图像作为检测图像组，本实施例中共取25帧(即1-25帧、2-26帧···)，本实施例中25帧为1秒，该数据取决于视频录制的帧数。如果检测图像组中，即1秒钟时间所包括的25帧待测图像中，有超过设定帧数的待测图像在执行同样的行为动作，即有12帧以上待测图像在存在于同一个文件夹中，则判定检测图像组确实发生相应的行为动作，即检测正确，否则检测错误。如果检测正确，则记录检测图像组的第一帧为行为发生的起始帧。接下来我们需要寻找该行为的结束帧，为了不漏任何一帧，接着判断第二组检测图像组(即从第二帧开始往后连续取25帧待测图像)、第三组检测图像组(即从第三帧开始往后连续取25帧待测图像)，用相同的方法判断，此时，我们已经保存了起始帧，如果检测正确，则起始帧仍然为第一次记录的帧，不做更改，继续检测，直到检测错误，即1秒中有大于一半的时间没有发生对应的动物行为，则我们取该25帧的最后一帧为该动物行为的结束帧。这样我们就找到了该动物行为的起始帧和结束帧。此时，我们再从结束帧开始，同理重复上述操作，继续寻找起始帧和结束帧，这样我们就找到了视频中发生各动物行为的所有的精确的时间段。

这样我们就记录了各行为在视频中所在的相对时间、帧数、持续时间、持续帧数，以达到减少人工参与度的目的，进一步提高动物行为识别的自动化程度。

实施例2

本发明的实施例2提供了动物行为自动识别装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的动物行为自动识别方法。

本发明实施例提供的动物行为自动识别装置，用于实现动物行为自动识别方法，因此，动物行为自动识别方法所具备的技术效果，动物行为自动识别装置同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1提供的动物行为自动识别方法。

本发明实施例提供的计算机存储介质，用于实现动物行为自动识别方法，因此，动物行为自动识别方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种动物行为自动识别方法，其特征在于，包括以下步骤:

建立不同动物行为所对应的关节点之间的位置关系函数；

2.根据权利要求1所述的动物行为自动识别方法，其特征在于，从动物行为视频中获取多帧动作图像得到样本数据集，具体为：

筛除所述样本数据集中噪声大于设定值的动作图像；

筛除所述样本数据集中不包含待测动物的动作图像；

3.根据权利要求1所述的动物行为自动识别方法，其特征在于，所述神经网络为残差网络；

以所述样本数据集作为输入样本对神经网络进行训练，具体为：

对所述神经网络进行初始化；

4.根据权利要求3所述的动物行为自动识别方法，其特征在于，对所述神经网络进行初始化，具体为：

5.根据权利要求1所述的动物行为自动识别方法，其特征在于，根据所述关节信息为各所述待测图像匹配对应的位置关系函数，具体为：

6.根据权利要求1所述的动物行为自动识别方法，其特征在于，根据所述关节信息为各所述待测图像匹配对应的位置关系函数，还包括：

7.根据权利要求1所述的动物行为自动识别方法，其特征在于，根据所述关节信息为各所述待测图像匹配对应的位置关系函数，还包括：

8.根据权利要求1所述的动物行为自动识别方法，其特征在于，还包括：

9.一种动物行为自动识别装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-8任一所述的动物行为自动识别方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一所述的动物行为自动识别方法。