CN113470073A

CN113470073A - 一种基于深度学习的动物中心追踪方法

Info

Publication number: CN113470073A
Application number: CN202110765039.2A
Authority: CN
Inventors: 李新建; 孙广龙; 高利霞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-01

Abstract

本发明公开了一种基于深度学习的动物中心追踪方法，包括模型训练和动物追踪，模型训练时，采用预训练的神经网络进行图片的特征提取，采用YOLO算法的目标检测层识别目标动物的边界框，最终获得训练好的模型；动物追踪时，使用训练好的模型对视频中所有帧图片进行追踪，计算出动物的边界框，并最终得到动物运动的轨迹图。本发明基于深度学习的动物中心追踪方法提供了一种新的实验动物行为学追踪定位的方法，该方法可以在多种实验范式及复杂的实验环境中准确地对动物中心位点进行定位，克服了在体记录电线以及实验人员进入场景的干扰，并且可以适用于不同种类的动物模型。

Description

一种基于深度学习的动物中心追踪方法

技术领域

本发明涉及图像处理方法领域，特别是涉及一种基于深度学习的动物中心追踪方法。

背景技术

在生物、医学、神经科学等领域的行为学研究中，通过录像数据准确获得动物在实验场景中的位置具有重要作用。随着在体记录技术的发展和实验范式的多样化，研究人员经常会遇到实验动物难以准确定位的问题。

传统的方法(如：Limelight、ANY-maze、

XT、TopScan等)是利用背景减噪法提取实验动物的轮廓，再通过计算轮廓的中心来确定动物的位置，这类方法虽然计算速度快，但只适用于背景干净、图像信噪比高、干扰小的简单场景，且容易受到实验过程中在体记录设备的电线和实验人员进入场景进行必要操作的影响，无法适应实验范式的多样化。

近年来计算机视觉技术的发展提供了大量的图像数据处理算法，为追踪实验动物提供了新的解决方案。然而目前该类算法大多是基于特征点检测的动物姿态评估，如DeepLabCut([1]Mathis，A.，et al.，DeepLabCut：markerless pose estimation of user-defined body parts with deep learning.Nat Neurosci，2018.21(9)：p.1281-1289.[2]Nath，T.，et al.，Using DeepLabCut for 3D markerless pose estimation acrossspecies and behaviors.Nat Protoc，2019.14(7)：p.2152-2176.)、LEAP([1]Wang，Z.R.，et al.，Leap Motion-based virtual reality training for improving motorfunctional recovery of upper limbs and neural reorganization in subacutestroke patients.Neural Regen Res，2017.12(11)：p.1823-1831.[2]Pereira，T.D.，etal.，Fast animal pose estimation using deep neural networks.Nat Methods，2019.16(1)：p.117-125.)、DeepPoseKit(Graving，J.M.，et al.，DeepPoseKit，a softwaretoolkit for fast and robust animal pose estimation using deep learning.Elife，2019.8.)、Trex(Walter，T.and I.D.Couzin，TRex，a fast multi-animal trackingsystem with markerless identification，and 2D estimation of posture and visualfields.Elife，2021.10.)等。虽然该类方法可以追踪动物的多个特征点，使得动物的行为分析更加丰富。但由于创建训练数据时无法客观地评估准确的动物中心位点，在追踪动物中心位置时需要更长的时间，并且效果较差。

发明内容

为了克服现有方法难以在多样化的实验范式中准确追踪实验动物的不足，本发明基于深度学习算法提供了一种基于深度学习的动物中心追踪方法。

一种基于深度学习的动物中心追踪方法，包括以下步骤：

(1)模型训练

(1.1)从待测场景视频中随机提取图片，然后手动创建提取图片的边界框用于模型训练的数据集，

(1.2)将数据集划分为训练集、交叉验证集和测试集三部分，训练集的数据用于训练模型的参数，交叉验证集和测试集用于验证和测试模型的效果，

训练时，采用预训练的神经网络进行图片的特征提取，采用YOLO算法的目标检测层识别目标动物的边界框，最终获得训练好的模型，

(2)动物追踪

(2.1)每次追踪之前手动限定追踪的区域，并把视频中每帧图像该区域以外的部分设置为背景相似的颜色，

(2.2)使用训练好的模型对视频中所有帧图片进行追踪，计算出动物的边界框，

(2.3)将视频中的每帧的格式转换为灰度格式，计算视频所有帧的平均值，作为视频的背景噪声，

(2.4)使用背景减噪法，视频中每帧图片减去边界框区域对应的背景噪声，即可得到动物在边界框中的轮廓，

(2.5)最后通过计算视频所有帧中动物轮廓的质心对动物进行追踪，得到动物运动的轨迹图。

优选的，步骤(1.1)中，图片为RGB格式。

优选的，步骤(1.2)中，预训练的神经网络为resnet18、mobilenetv2或resnet50。

优选的，步骤(1.2)中，在预训练的神经网络后连接YOLO特有识别边界框的目标检测层。

优选的，步骤(1.2)中，训练时采用mini-batch梯度下降法，迭代过程中通过反向传播调整网络中的参数。

优选的，步骤(2.2)中，若YOLO计算出多个可能的边界框，则选择预测的p值最大的边界框用于之后的处理。

优选的，步骤(2.2)中，按1∶1.5的比例将预测的边界框放大。

优选的，动物追踪时，单个视频文件的动物追踪通过dbt_singleTracking实现；多个视频文件的动物追踪通过dbt_batchTracking实现；通过dbt_createLabeledVideo创建追踪完成的视频。

优选的，所述的动物中心追踪方法，通过dbt_manualTracking手动矫正追踪失败的帧，或者，通过dbt_optimize导出追踪失败的帧，并与步骤(1.1)的数据集合并，再通过步骤(1.2)重新训练新的模型，以此作为最终的训练好的模型用于步骤(2)动物追踪。

本发明基于深度学习的动物中心追踪方法提供了一种新的实验动物行为学追踪定位的方法，该方法可以在多种实验范式及复杂的实验环境中准确地对动物中心位点进行定位，克服了在体记录电线以及实验人员进入场景的干扰，并且可以适用于不同种类的动物模型。

附图说明

图1为本发明技术流程图，其中，a：模型训练与优化流程；b：动物追踪流程；c：黑色小鼠旷场实验追踪步骤示意图。

图2为三种预训练神经网络的性能比较图，其中，a：不同图片尺寸下三种神经网络的YOLO模型训练时间比较；b：不同图片尺寸下三种神经网络的YOLO模型检测速度和检测精准度比较，圆点由小到大依次代表224、320、416、512的图片尺寸。

图3为DeepBhvTracking与三种其他方法的比较结果图，其中，a～d分别是背景减噪法、YOLO法、DeepLabCut法、DeepBhvTracking法在L型迷宫的追踪定位示意图和动物轨迹示意图；e～h分别是背景减噪法、YOLO法、DeepLabCut法、DeepBhvTracking法在三箱迷宫的动物轨迹示意图；i：DeepBhvTracking和DeepLabCut模型训练的时间比较；j：DeepBhvTracking与三种其他方法检测时间的比较；k：不同实验范式下四种追踪方法的每帧像素变化量比较；l：不同实验范式下四种追踪方法的与真实值的误差比较。*代表p＜0.05，**代表p＜0.01，***代表p＜0.001，显著性结果为经Bonferroni校正后的秩和检验。

图4为DeepBhvTracking在多种动物多种实验范式下的效果检测图，其中，a：黑色小鼠跑步机实验；b：黑色小鼠倒V型迷宫；c：黑色小鼠高架十字迷宫；d：白色小鼠三箱实验；e：狨猴猴笼。

图5为DeepBhvTracking在医学领域中的应用示例结果图，其中，a：野生型C57BL/6在旷场下的轨迹示意图；b：示意小鼠在旷场各个位置的停留时间；c：示意小鼠在旷场各个位置的运动速度；d：三种小鼠的平均速度比较；e：三种小鼠在旷场中心和角落区域停留的时间比较；f：三种小鼠在旷场中心和角落区域运动的平均速度比较。*代表p＜0.05，**代表p＜0.01，***代表p＜0.001，显著性结果为经Bonferroni校正后的秩和检验。

具体实施方式

本发明方法是基于MATLAB软件而开发的一款工具包，命名为DeepBhvTracking，DeepBhvTracking详细的代码清单见表1，使用时需提前安装deep learning工具包、computer vision工具包和预训练的神经网络(resnet18、mobilenetv2、resnet50或其他的预训练神经网络)。本申请涉及的测试部分均在dell电脑(CPU Intel(R)Core(TM)[email protected]，RAM 64GB，GPU Inter(R)UHD Graphics 630 8GB)上完成。

表1 DeepBhvTracking详细的代码清单

实施例1

该方法主要通过预训练的神经网络进行迁移学习和You Only Look Once(YOLO)算法计算出动物的边界框，然后在边界框内使用背景减噪法提取出动物的轮廓，最后根据动物轮廓计算出动物的中心位点。分为模型训练(图1a)和动物追踪(图1b、c)两部分，具体如下：

(一)模型训练

首先从待检测场景视频中随机提取图片(RGB格式)作为数据集，之后通过ImageLabel手动创建数据集图片的边界框。数据集的获取通过dbt_dataset实现。

将数据集根据图片数量划分为训练集(70％)、交叉验证集(10％)、测试集(20％)，训练集的数据用于训练YOLO模型的参数，交叉验证集和测试集用于验证和测试模型的效果。为了使模型的泛化能力更强，对训练集的数据进行数据增强(包括翻转、旋转、添加噪声)。采用预训练的神经网络对训练集的图片进行特征提取，这些网络上的参数对ImageNet大数据库中大量的图像进行了训练，已经具备了从图像中提取丰富信息特征的能力。在预训练的神经网络后连接YOLO特有识别边界框的目标检测层。训练时采用mini-batch梯度下降法，迭代过程中通过反向传播调整网络中的参数。最后，将训练完成的YOLO模型保存用于之后的动物追踪。模型的训练与验证通过dbt_training实现。

(二)动物追踪

为了避免实验场外的因素对追踪动物的影响，在每次追踪之前手动定义追踪区域，并把视频中每帧图像该区域以外的部分设置为背景相似的颜色。然后，使用训练完成的YOLO模型对视频中所有帧图片进行追踪，计算出动物的边界框。由于YOLO会计算出多个可能的边界框，我们选择预测的p值最大的框用于之后的处理。为了避免预测的边界框只包络了动物部分身体对追踪效果的影响，我们按1∶1.5的比例将该边界框放大。然后将视频由彩色格式转换为灰度格式，然后计算视频中每点像素在时间上的均值，作为视频的背景噪声。此时使用背景减噪法，视频中每帧边界框区域图片减去对应的背景噪声，即可得到动物在边界框中的轮廓。最后通过计算视频所有帧中动物在边界框中轮廓的质心对动物进行追踪，得到动物运动的轨迹图。之后可以通过轨迹图对该动物的运动速度、加速度、运动时间等运动相关参数进行分析。单个视频文件的动物追踪可以通过dbt_singleTracking实现，同时也可通过dbt_batchTracking实现多个视频文件中的动物进行批处理追踪。最后，也可以通过dbt_createLabeledVideo创建追踪完成的视频，来检测追踪的效果。

为了避免追踪失败的帧(包括YOLO未成功检测到动物和检测错误的帧)对实验分析的影响，提供dbt_manualTracking手动矫正追踪失败的帧。同时，提供dbt_optimize导出追踪失败的图像，将这些图片与之前的训练数据集合并，再训练新的模型，以此来优化此前训练得到的模型。

(三)预训练神经网络比较

图2为3种常用的预训练神经网络(resnet18，mobilenetv2和resnet50)在不同图片尺寸下的性能比较。其中，在resnet18网络中，选择‘res5b_branch2a_relu’层之前的部分作为特征提取层，将该层之后的层替换为YOLO目标检测层；在mobilenetv2网络中，选择‘block_16_expand_relu’层之前的部分作为特征提取层，将该层之后的层替换为YOLO目标检测层；在‘resnet50’网络中，选择‘activation_40_relu’层之前的部分作为特征提取层，将该层之后的层替换为YOLO目标检测层。

结果显示，YOLO模型的训练时间和检测精确度随着图片尺寸的增大而增大，但检测速度随着图片尺寸的增大而减小(图2a、b)。在同一图片尺寸下，resnet18网络的训练时间最短，检测速度最快，但检测精准度最小；resnet50网络的训练时间最长，检测速度最慢，但检测精准度最高(图2a、b)。出于对检测速度和精准度的权衡考虑，因此选择resnet50网络作为训练YOLO模型的预训练神经网络。

实施例2

在三种典型的实验范式中将DeepBhvTracking与三种常用的追踪定位方法进行了性能比较。三种实验范式分别为：(1)黑色小鼠旷场实验(n＝6)：该范式场景较为简单，没有电线和实验人员的干扰，信噪比较高；(2)黑色小鼠L型迷宫实验(n＝6)：该范式老鼠头上安装了钙成像记录装置，有电线的干扰，实验人员需要进入场景进行必要的操作；(3)白色小鼠三箱实验(n＝6)：该范式老鼠头上安装了钙成像记录装置，有电线的干扰，且老鼠颜色与背景相似，信噪比较低。三种追踪方法为：背景减噪法、YOLO算法、DeepLabCut算法，其中YOLO、DeepLabCut和DeepBhvTracking都是基于深度学***经过Bonferroni法矫正。四种方法的追踪定位的结果均不手动矫正用于之后的比较分析。

结果表明，背景减噪法无法准确追踪复杂场景诸如L型迷宫和三箱实验中的动物(图3a、e)，在这两种范式中计算的每帧变化量和与真实值的误差均显著大于DeepBhvTracking法(图3k、1)。但背景减噪法具有检测速度较快和不用训练模型的优势(图3j)，且在简单场景如旷场实验中追踪效果较好(图3k、1)。YOLO算法虽然有效解决了电线和人为因素的干扰，但由于YOLO只能通过边界框来定位动物，无法准确地获得动物的中心位置，使得追踪的轨迹存在跳动，导致轨迹的异常(图3b、f、k、l)。DeepLabCut作为一种基于特征点检测的姿态估计方法，也可以有效解决电线和人为因素的干扰(图3c、g)。但由于创建训练数据时无法准确地手动标注动物的中心位置，且存在部分帧识别失败的情况，导致在L型迷宫中追踪效果比较差，计算的每帧变化量和与真实值的误差均显著大于DeepBhvTracking法(图3k、l)。同时，DeepLabCut的检测速度也较慢(图2j)。总的来说，DeepBhvTracking在多种范式中可以在较快的处理速度下保证相对好的追踪效果(图2)。

实施例3

为了验证DeepBhvTracking的可用性和泛化能力，将其应用于追踪不同范式的动物中：黑色小鼠跑步机实验(图4a)、黑色小鼠倒V型迷宫(图4b)、黑色小鼠高架十字迷宫(图4c)、白色小鼠三箱实验(图4d)和狨猴在猴笼的运动(图4e)。不同的范式中均可以得到动物相对平滑的运动轨迹，表明DeepBhvTracking可广泛地用于不同的动物模型和不同的运动场景。

实施例4

图5为DeepBhvTracking在神经医学研究领域的一个应用示例，使用3种小鼠进行旷场实验，分别为：野生型C57BL/6小鼠(n＝6)、突变型PRRT2小鼠(n＝6)和突变型FMRl小鼠(n＝6)。旷场实验是评估啮齿类动物运动状况和焦虑水平常用的范例之一。首先，我们使用DeepBhvTracking计算得出每只小鼠在旷场中8分钟内运动的轨迹(图5a)。然后，可以通过运动轨迹计算小鼠在旷场各位置的运动时间和运动速度(图5b、c)。所有的小鼠都更倾向于呆在角落，并且在角落处的运动速度小于在中心处的运动速度。同时，两种突变体小鼠的平均运动速度均大于野生型小鼠，但PRRT2小鼠相比野生型小鼠更呆在中心的时间更长，表明其焦虑水平更低。

Claims

1.一种基于深度学习的动物中心追踪方法，其特征在于，包括以下步骤：

(1)模型训练

(2)动物追踪

(2.2)使用训练好的模型对视频中所有帧图片进行追踪，计算出动物的边界框，(2.3)将视频中的每帧的格式转换为灰度格式，计算视频所有帧的平均值，作为视频的背景噪声，

2.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(1.1)中，图片为RGB格式。

3.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(1.2)中，预训练的神经网络为resnet18、mobilenetv2或resnet50。

4.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(1.2)中，在预训练的神经网络后连接YOLO特有识别边界框的目标检测层。

5.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(1.2)中，训练时采用mini-batch梯度下降法，迭代过程中通过反向传播调整网络中的参数。

6.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(2.2)中，若YOLO计算出多个可能的边界框，则选择预测的p值最大的边界框用于之后的处理。

7.如权利要求1所述的动物中心追踪方法，其特征在于，步骤(2.2)中，按1∶1.5的比例将预测的边界框放大。

8.如权利要求1所述的动物中心追踪方法，其特征在于，动物追踪时，单个视频文件的动物追踪通过dbt_singleTracking实现；多个视频文件的动物追踪通过dbt_batchTracking实现；通过dbt_createLabeledVideo创建追踪完成的视频。

9.如权利要求1所述的动物中心追踪方法，其特征在于，通过dbt_manualTracking手动矫正追踪失败的帧，或者，通过dbt_optimize导出追踪失败的帧，并与步骤(1.1)的数据集合并，再通过步骤(1.2)重新训练新的模型，以此作为最终的训练好的模型用于步骤(2)动物追踪。