CN117274869B

CN117274869B - 一种基于形变场提取的细胞形变动态分类方法及***

Info

Publication number: CN117274869B
Application number: CN202311241345.1A
Authority: CN
Inventors: 庞枫骞; 雷淳月; 曾京生
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-03-26
Anticipated expiration: 2043-09-25
Also published as: CN117274869A

Abstract

本发明公开一种基于形变场提取的细胞动态分类方法及***，涉及计算机图像处理领域，包括：加载负责提取形变信息的形变提取网络和负责视频分类的视频分类网络的参数；获取待分类视频；利用形变提取网络形变分支提取细胞形变信息；利用视频分类网络下采样融合模块对不同尺度形变信息进行融合；对形变信息利用时序建模模块得到细胞形变的时序信息；利用以全连接层为核心的分类模块对时序信息进行类别预测。本发明可通过构建形变提取网络，以更加简单的形变提取网络提取细胞形变场，实现细胞形变动态的准确且快速的分类。

Description

一种基于形变场提取的细胞形变动态分类方法及***

技术领域

本发明涉及计算机图像处理领域，特别是涉及一种基于形变场提取的细胞形变动态分类方法及***。

背景技术

细胞是构成人体的基本单元，其形变广泛存在于生理或病理过程，如细胞有丝***、细胞应激反应和细胞迁移等。例如，细胞的有丝***包含前期、前中期、中期、后期、末期多个阶段，不同阶段的细胞动态特性有很大的差异，据此可以对细胞有丝***周期进行建模，可见对细胞形变进行分析是十分有研究意义的。根据细胞形变程度对细胞视频进行分类的关键是准确捕获显微视频中帧级细胞形变以及合理分类视频级细胞形变。帧级细胞形变聚焦于显微视频中某一时段的细胞动态变化，而视频级细胞形变侧重于整合多个帧级细胞形变。形变卷积是针对目标的非刚体特性设计，为输入图像学习一个偏移场来抵消非刚体目标的不同姿态，从而提升非刚体目标的特征提取效果。对此，本发明提出一种基于形变场提取的细胞形变动态分类方法及***。

发明内容

本发明的目的是提供一种基于形变场提取的细胞形变动态分类方法及***，可通过更加简单的形变提取网络提取细胞形变场，实现细胞形变动态的准确且快速的分类。

为实现上述目的，本发明提供了如下方案：

一种基于形变场提取的细胞形变动态分类方法，所述方法包括：

获取待分类的细胞视频；

利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息；所述形变分支包括多个串联连接的MOE模块；每一所述MOE模块包括共享卷积层、形变提取层、和第一池化层；所述形变提取层包括第一支路；所述第一支路的输入为所述共享卷积层的输出；所述第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；所述第一卷积层的输入为所述第一分流支路和所述第二分流支路的叠加结果；在所述第一分流支路上包括第三卷积层和第一激活层；所述第一池化层的输入为所述第一支路的输出；每一所述MOE模块的输出包括所包含的所述第一池化层输出的细胞视频特征和所包含的所述第一分流支路输出的细胞形变信息；

利用视频分类网络的特征融合模块对每一所述MOE模块输出的所述细胞形变信息进行融合，得到融合形变信息；

将所述融合形变信息输入到所述视频分类网络的时序建模模块，得到细胞形变时序信息；

将所述细胞形变时序信息输入到所述视频分类网络的分类模块进行细胞形变动态分类，得到所述细胞形变动态分类结果。

本发明提供一种基于形变场提取的细胞形变动态分类***，所述***包括：

视频获取子***，用于获取待分类的细胞视频；

形变信息提取子***，用于利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息；所述形变分支包括多个串联连接的MOE模块；每一所述MOE模块包括共享卷积层、形变提取层、和第一池化层；所述形变提取层包括第一支路；所述第一支路的输入为所述共享卷积层的输出；所述第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；所述第一卷积层的输入为所述第一分流支路和所述第二分流支路的叠加结果；在所述第一分流支路上包括第三卷积层和第一激活层；所述第一池化层的输入为所述第一支路的输出；每一所述MOE模块的输出包括所包含的所述第一池化层输出的细胞视频特征和所包含的所述第一分流支路输出的细胞形变信息；

分类子***，用于利用视频分类网络的特征融合模块对每一所述MOE模块输出的所述细胞形变信息进行融合，得到融合形变信息；将所述融合形变信息输入到所述视频分类网络的时序建模模块，得到细胞形变时序信息；将所述细胞形变时序信息输入到所述视频分类网络的分类模块进行细胞形变动态分类，得到所述细胞形变动态分类结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于形变场提取的细胞形变动态分类方法及***，其中，形变提取网络中用于提取形变信息的形变分支包括多个串联连接的MOE模块；每一MOE模块包括共享卷积层、形变提取层和第一池化层；形变提取层包括第一支路；第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；每一所述MOE模块的输出包括所包含的所述第一池化层输出的细胞视频特征和所包含的所述第一分流支路输出的细胞形变信息。本发明通过形变分支可更加直接地构建细胞形变场，并且形变分支结构简单，可以采用更加简单的网络结构完成细胞形变场作为紧凑型分类特征，从而实现以更小的运算量完成较高精度的细胞形变分类，既保证了分类的准确性，同时还提升了分类的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例1提供的一种基于形变场提取的细胞动态分类方法流程图；

图2为本发明实施例1提供的形变提取网络和视频分类网络构成的整体网络结构示意图；

图3为本发明实施例1提供的M1网络和M2网络的训练流程图；

图4为本发明实施例1提供的形变提取网络的结构示意图；

图5为本发明实施例1提供的训练M1网络的主流程图；

图6为本发明实施例1提供的MOE模块的结构示意图；

图7为本发明实施例1提供的形变分支的训练主要流程示意图；

图8为本发明实施例1提供的第一支路提取形变信息流程图；

图9为本发明实施例1提供的补帧策略结构示意图；

图10为本发明实施例1提供的RV模块结构示意图；

图11为本发明实施例1提供的RV模块处理流程图；

图12为本发明实施例1提供的基于M1网络形变分支训练M2网络结构示意图；

图13为本发明实施例1提供的基于M1网络形变分支训练M2网络的主要流程；

图14为本发明实施例1提供的推理过程形变提取网络和视频分类网络构成的整体网络结构示意图；

图15为本发明实施例1提供的整体网络的推理过程主流程；

图16为本发明实施例1提供的推理过程中的MOE模块结构示意图；

图17为本发明实施例1提供的M2网络分类推理过程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

形变卷积是针对目标的非刚体特性设计，为输入图像学习一个偏移场来抵消非刚体目标的不同姿态，从而提升非刚体目标的特征提取效果。受到启发，我们发现将这个偏移场引入到基于细胞形变的分类任务中，可以有效地显式构建细胞的形变运动场，与所完成任务更加匹配，从而可以用更小的运算量完成较高精度的细胞形变分类。而构建何种深度网络结构提取偏移场以及如何对这种深度网络结构进行监督学习是完成上述研究思路的要点。

本发明的目的是提供一种基于形变场提取的细胞形变动态分类方法及***，属于一种以细胞形变场提取为核心的细胞显微视频形变动态分类方法，通过构建形变提取网络，可通过更加简单的形变提取网络提取细胞形变场，实现细胞形变动态的准确且快速的分类。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供一种基于形变场提取的细胞形变动态分类方法，所述方法包括：

S100：获取待分类的细胞视频；

由于视频相对于图片能够提供更多的时序动态信息，更加适合于对目标动态变化的捕捉和度量。本发明所采用的深度网络框架以一批细胞视频为输入，其中B表示这批视频的数量，v_n表示这批视频中的第n个视频。视频v_n由长为L的帧序列组成，记f_i为视频v_n的第i帧，每帧的通道数、高和宽分别为C、H和W，即视频/>V映射为/>作为网络的输入，最终根据输入视频中细胞的形变程度对细胞视频进行k分类，得到预测结果/>

S200：利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息(也可称细胞形变特征)。

本发明网络结构主要由两个子网络组成：1)负责形变信息提取网络M1；2)负责细胞视频分类网络M2。网络整体结构如图2所示，图中M1网络和M2网络由虚线隔开。

负责形变信息提取的M1网络：M1网络采用编-解码器结构，编码器由串联的可学习模块MOE(Motion Offset Extraction)组成作为M1网络的形变分支，提取细胞视频帧间形变信息；解码器由连续的可学习模块RV(ReconstructedVideo)组成，在M1网络训练时应用，作为M1网络的重建分支对输入视频进行重建，以此确保MOE模块的可靠性；

负责细胞视频分类的M2网络：M2网络由三部分组成，其一是利用自顶向下的金字塔结构融合不同尺度的形变信息，其二是利用时序建模模块对形变信息进行时序建模，最后是利用最大池化层对特征进行下采样后由全连接层完成分类。

由于本发明采用深度网络框架，首先需要对网络进行训练，然后基于训练好的网络完成推理过程。因此，本文分别对训练和推理两个过程进行详细叙述。

因此，在执行步骤S200-利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息之前，还包括：对所述形变提取网络进行训练。

训练过程主流程如图3所示，在训练过程中，主要分为五步：

ST1：输入细胞视频

ST2：对M1网络进行训练，使训练后M1网络的形变分支可生成细胞视频的帧间形变信息，训练好后将M1网络的参数传入ST3阶段。

ST3：对ST2阶段传入的M1网络参数进行保存，并将参数传递到ST4阶段。

ST4：导入ST3阶段所保存的M1网络参数，基于M1网络的形变分支对M2网络进行训练，训练好后保存M1和M2网络参数，并将两网络的参数传递到ST5阶段。

ST5：保存ST4阶段中训练的网络参数，至此训练主流程结束。

具体的，在主流程的ST2阶段中，所述训练M1网络的结构如图4所示，具体训练流程如图5所示。

M1网络采用编-解码器结构，其编码器由连续的可学习模块MOE(Motion OffsetExtraction)组成作为M1网络的形变分支，提取细胞视频帧间形变信息，解码器由连续的可学习模块RV(Reconstructed Video)组成，作为M1网络的重建分支，对输入视频进行重建以此确保MOE模块的可靠性。

形变分支作为其编码器端，主体是由多个连续的MOE模块组成，即所述形变分支包括多个串联连接的MOE模块，如图4左侧所示。其功能是提取视频两帧之间的形变场。在训练过程中，不同位置的MOE模块网络层均可分为上下两个分支，上分支(第一支路)用于提取细胞视频的帧间形变信息，下分支(第二支路)配合上分支构建L1损失函数监督上分支，同时上下分支作为MOE模块的两个输出。但不同位置的MOE模块的输入输出接口略有不同。以设置3个MOE模块为例进行说明，第一个MOE模块的输入接口承接视频V_Input，将视频序列进行复制作为上下两个分支的输入。第二个和第三个MOE模块皆为双输入模块，在这两个模块中，不再对视频序列进行复制，其余内部结构与第一个MOE模块的结构相同，输出也为双输出。由于在解码器端只需要对提取形变信息的第一支路细胞视频特征进行重建，所以最后一个MOE模块的第二支路输出不再使用。

重建分支作为解码器端，主体是由三个连续的RV模块组成，如图4右侧所示，需要说明的是，这里的三个RV模块仅是一个示例，并不具有限定作用，可根据需求选择任意数量的RV模块。在训练过程中，重建分支针对形变分支得到的高维视频特征进行视频重建，其目的为确保形变分支的可靠性。RV模块为单输入单输出模块，其输入承接形变分支提取的高维视频特征，经过三个连续的RV模块后，输出重建视频

最后，针对重建后的视频与输入视频V_Input计算L1损失函数并反向传播，确保M1网络最终对输入视频成功重建。

训练M1网络具体分为四个步骤，具体流程如图5所示。

ST21：输入视频(细胞视频样本)张量通过形变分支中三个连续的MOE模块提取输入视频两帧间的形变信息和细胞视频特征，随着MOE模块逐级加深网络提取输入视频更丰富的语义信息，并利用第一池化层对细胞视频特征逐级进行两倍下采样，最终得到高维细胞视频特征/>送入ST22阶段。

ST22：高维细胞视频特征V′利用重建分支中三个连续的RV模块进行逐级上采样，并将高维细胞视频特征逐级映射到低维，由此逐渐恢复原始输入视频V_Input，最终得到重建视频作为ST23阶段的输入。

ST23：针对输入视频(细胞视频样本)张量与重建视频计算L1损失函数(第二损失函数)，以此确保M1网络形变分支学习到视频帧间形变信息。计算得到的损失作为ST24阶段的输入。

ST24：对得到的损失进行反向传播优化形变分支和重建分支。

在图5的ST21阶段中，形变分支主要利用三个连续的MOE模块提取细胞视频的帧间形变信息，这里对MOE模块进行详细叙述，MOE模块结构如图6所示，训练MOE模块的具体流程如图7所示。

如图6所示，MOE模块主要由四部分组成：共享卷积层、形变提取层、计算损失函数层和第一池化层。

第一，MOE模块利用共享卷积层(卷积核为3×3，步长为1，填充为1)升高所承接输入的两个支路的特征维度，以此提取更丰富的语义信息，且将升高维度的两个支路分别记作第一支路b1和第二支路b2。

第二，利用形变信息提取部分(形变提取层)捕获细胞形变，在训练过程中，此部分由b1支路和b2支路搭配完成。其中b1支路利用补帧策略将承接数据进行分流，且将分流方向分别记作b11支路(第一分流支路)和b12支路(第二分流支路)。b11支路包括第三卷积层和第一激活层，具体的，第三卷积层可包括Depthwise卷积层和Pointwise卷积层，则b11支路由串联的“Depthwise卷积层-ReLU层(对应第一激活层)-Pointwise卷积层”组成，利用b11支路获取细胞关于Δx和Δy两个方向的形变场。具体的，Depthwise卷积的卷积核大小为2×3×3，步长为(1,1,1)，填充为(0,1,1)，Pointwise卷积的卷积核大小为1×1，步长为1，填充为1。而对于b12支路，主要利用一个叠加器融合b11支路所得的形变场。并且利用两个串联的卷积(第一卷积层和第二卷积层，卷积核为3×3，步长为1，填充为1)分别用作提取特征以及克服外观影响。在b2支路，利用二维卷积(第四卷积层，卷积核为3×3，步长为1，填充为1)提取信息，其目的为监督b1支路提取的形变信息。

第三，利用b1支路和b2支路得到的高维视频特征计算L1损失函数(第一损失函数)，并反向传播优化网络。

第四，利用平均池化层(第一池化层)对b1支路和b2支路得到的高维特征进行下采样，降低特征尺度。

因此，形变提取网络的结构可总结为：

形变提取网络的形变分支包括多个串联连接的MOE模块。每一所述MOE模块包括共享卷积层、形变提取层和第一池化层；所述形变提取层包括第一支路；所述第一支路的输入为所述共享卷积层的输出；所述第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；所述第一卷积层的输入为所述第一分流支路和所述第二分流支路的叠加结果；在所述第一分流支路上包括Depthwise卷积层、第一ReLU层和Pointwise卷积层；所述第一分流支路和所述第二分流支路是依据补帧策略对所述第一支路的输入进行分流得到；所述第一池化层的输入为所述第一支路的输出；每一所述MOE模块的输出包括所包含的所述第一池化层输出的细胞视频特征和所包含的所述第一分流支路输出的细胞形变信息。

其中，对所述形变分支提取网络进行训练时，所述形变提取层还包括第二支路；所述第一支路和所述第二支路的输入分别为所述共享卷积层的两个输出。

所述形变分支中的所述MOE模块还包括计算损失函数层；所述计算损失函数层，用于根据所述第一支路的输出和所述第二支路的输出计算L1损失函数(第一损失函数)并反向传播优化所述形变提取网络。

对所述形变分支提取网络进行训练时，所述池化层的输入为所述第一支路的输出和所述第二支路的输出；所述第一池化层的输出为所述第一支路的输出和所述第二支路的输出分别经过池化操作后的结果。

对所述形变分支提取网络进行训练时，所述形变分支提取网络还包括重建分支；所述重建分支包括多个串联连接的RV模块；每一所述RV模块包括依次串联连接的第五卷积层、第二激活层和上采样层。

第一个所述RV模块的输入为最后一个所述MOE模块中所述第一支路的输出经所述第一池化层后得到的所述细胞视频特征；最后一个所述RV模块的输出为基于最后一个所述MOE模块中所述第一池化层输出的所述细胞视频特征得到的重建细胞视频。

对于形变分支的训练过程，即MOE模块训练的主要流程如图7所示，主要有九步：

ST211：判断当前MOE模块是否为M1网络的第一个MOE模块，若是则进入ST212阶段，否则就进入ST213阶段；

ST212：复制输入使V_Input同时作为后续第一支路与第二支路的输入；

ST213：第一支路和第二支路经过共享卷积层升高特征的通道维度，提取更丰富的语义信息，在三个连续的MOE模块中，共享卷积层输出的通道维C依次升为64、128和256，共享卷积层的输出分别流向b1和b2支路作为ST214和ST215阶段的输入；

ST214：利用b1支路提取输入视频的帧间细胞视频信息和帧间细胞形变信息，本文后续将对其结构及处理流程进行详细介绍。b1支路的输出将输入ST216阶段；

在图7的ST214阶段中，利用第一支路提取形变信息具体结构如图6所示，训练的主要流程如图8所示，主要分为四步：

U1：将第一支路的输入分为两个分支：b11和b12，分流时首先将复制视频v＝{f₁,f₂,…,f_L}的第一帧f₁得到f₁′，然后将f₁′拼接到v的开头，得到v^b11＝{f₁′,f₁,f₂,...,f_L}作为b11支路。然后删除v^b11的最后一帧f_L得到v^b12＝{f₁′，f₁，f₂，...，f_L-1}作为b12支路，最后b11作为U2阶段的输入，b12作为U3阶段的输入。

图8的U1步骤中，发明了一种补帧策略，使不断加深网络的同时不会导致数据在每级失帧。利用补帧策略，将输入视频v^b1最终分为v^b11和v^b12，分别作为b11和b12分支的输入，其具体结构如图9所示。首先，将复制输入视频v^b1的第一帧f₁，记作f₁′，然后将f₁′与视频v^b1在时间维度上进行拼接，得到v^b11＝{f₁′，f₁，f₂，...，f_L}，接着删除v^b11的最后一帧f_L，得到v^b12＝{f₁′，f₁，f₂，...，f_L-1}。

U2：利用Depthwise卷积得到输出视频的帧间细胞形变信息，然后通过激活函数ReLU增加形变信息的非线性，最后通过Pointwise卷积将细胞形变信息转化为在x和y两个方向上的偏移量，得到偏移场offsets＝{Δp_n|n＝1，2，...，L}，且U2阶段生成的偏移量将作为U3阶段的输入。

U3：将偏移量offsets＝{Δp_n|n＝1，2，...，L}加入b12分支的细胞视频特征，在叠加模块通过双线性插值寻找偏移后的像素值。将偏移后的张量视作新张量，新张量送入卷积层得到高维细胞视频特征。利用b2支路监督b1支路中的特征，希望通过偏移量offsets与新张量的叠加对齐第二支路的v＝{f₁，f₂，...，f_L}，即构建offsets＝{Δp_n|n＝1，2，...，L}与b12支路的帧v^b12＝{f₁′，f₁，f₂，...，f_L-1}相加有细胞视频特征v^b1＝{f₁′+Δp₁，f₁+Δp₂，f₂+Δp₃，...，f_L-1+Δp_L}，通过卷积使得v^b1→{f₁，f₂，...，f_L}，即v^b1→v^b2；U3阶段的输出将作为U4阶段的输入；

U4：由于U3阶段所用卷积目的在于利用偏移量offsets使v^b1→v^b2，而并不能克服如光照等因素带来的外观影响，所以在U4阶段通过一个额外卷积层(第二卷积层)克服外观影响。

ST215：b2支路的输入经过一个二维卷积(第四卷积层)，得到视频帧经过传统卷积的高维细胞视频特征，以此监督ST214阶段，此阶段的输出作为ST216阶段的输入；

ST216：对ST214和ST215阶段的输出计算L1损失函数(第一损失函数)，使得第一支路和第二支路输出的高维细胞视频特征对齐，以此达到利用第二支路监督第一支路的目的；

ST217：将ST112和ST113阶段的输出送入第一池化层，分别对特征进行两倍下采样，并将结果分别作为第一支路和第二支路的输出；

ST218：判断此MOE模块是否为M1网络中最后一个MOE模块，若是则进入ST219阶段，不是则返回ST213阶段；

ST219：输出当前循环中ST214阶段输出的高维细胞形变特征和高维细胞视频特征以及每个循环中ST216阶段计算的L1损失函数。

因此得出，结合着形变分支的具体模块构成说明其训练过程为：

(1)对所述细胞视频样本进行复制得到复制视频，将所述细胞视频样本和所述复制视频输入到第一个所述MOE模块中的所述共享卷积层中；将当前所述共享卷积层的两个输出分别作为所述第一支路的输入和所述第二支路的输入。

(2)将当前所述第一支路的输入应用所述补帧策略进行分流，得到所述第一分流支路和所述第二分流支路。

其中，将当前所述第一支路的输入应用所述补帧策略进行分流，得到所述第一分流支路和所述第二分流支路，具体包括：

复制当前所述第一支路的输入的第一帧并将复制的第一帧拼接到当前所述第一支路的输入的开头，得到新的细胞视频，即所述第一分流支路；

删除所述新的细胞视频的最后一帧得到所述第二分流支路。

(3)将当前所述第一分流支路分别依次经过所述Depthwise卷积层、所述第一ReLU层和所述Pointwise卷积层后，再与当前所述第二分流支路进行叠加，将叠加的结果输入到所述第一卷积层和第二卷积层，得到所述第一支路的输出。

(4)将当前所述第二支路的输入经过卷积操作后得到所述第二支路的输出。

(5)根据当前所述第一支路的输出和当前所述第二支路的输出计算L1损失函数，并反向传播优化所述形变提取网络。

(6)将当前所述第一支路的输出和当前所述第二支路的输出输入到所述第一池化层。

(7)判断当前所述MOE模块是否为最后一个所述MOE模块，得到第一判断结果。

若所述第一判断结果为是，则输入出最后一个所述MOE模块中所述第一支路的输出和所有所述MOE模块的所述L1损失函数。

若所述第一判断结果为否，则将当前所述MOE模块输出的细胞视频特征输出到下一个所述MOE模块的所述共享卷积层中，并返回上面步骤(1)中的“将当前所述共享卷积层的输出分别作为所述第一支路的输入和所述第二支路的输入”，直至遍历每一个所述MOE模块，得到每一所述MOE模块输出的细胞形变信息和细胞视频特征。

对于重建分支，在图5的ST22阶段中，M1网络的重建分支主要由三个连续的RV模块组成，RV模块结构示意如图10所示，训练RV模块的具体流程如图11所示。

RV模块由串联的“卷积层(即第五卷积层)-ReLU层(即第二激活层)-UP Sampling层(即上采样层)”组成。具体的，卷积层的卷积核大小为3×3，步长为1，填充为1，RV模块利用该卷积降低特征维度，将特征映射到低维；UP Sampling层采用转置卷积，卷积核大小为2×2，利用转置卷积对输入特征进行两倍的上采样，重建像素点。细胞视频的高维特征通过三个连续的RV模块重建输入视频得到

RV模块处理流程如图11所示，具体分为四步：

ST221：首先，对形变分支最后输出的高维细胞视频特征经过二维卷积(第五卷积层)，降低输入特征的维度，三次经过ST221阶段，特征通道维度C逐步降为128、64、3，ST221阶段的输出作为ST222阶段的输入；

ST222：输入经过ReLU函数(第二激活层)增加非线性，输出作为ST223阶段的输入；

ST223：通过转置卷积(上采样层)对输入特征进行2倍上采样，重建像素点，三次经过ST223阶段，特征尺度逐步变为和H×W。ST223阶段的输出作为ST224阶段的输入；

ST224：判断当前模块是否为第三个RV模块，若不是，则返回ST221阶段，若是则结束M1网络重建分支的训练。

因此得出，结合着重建分支的RV模块的具体结构说明其训练过程为：

(i)将最后一个所述MOE模块中所述第一支路输出的所述细胞视频特征依次经过第一个所述RV模块的所述第五卷积层、所述第二激活层和所述上采样层。

(ii)判断当前所述RV模块是否最后一个所述RV模块，得到第二判断结果。

若所述第二判断结果为是，则得到所述重建细胞视频。

若所述第二判断结果为否，则将当前所述RV模块的输出作为下一个所述RV模块的输入，并返回步骤(ii)“判断当前所述RV模块是否最后一个所述RV模块，得到第二判断结果”。

对于M2网络的训练，在训练主流程的ST4阶段，基于M1网络的形变分支进一步训练M2网络的结构如图12所示，具体训练流程如图13所示。

负责细胞视频分类的M2网络采用金字塔结构，利用下采样融合模块自顶向下融合不同尺度的特征，并利用串行的“卷积层-池化层”统一特征尺度，统一尺度后，利用时序建模模块提取特征的时序信息，通过一个最大池化层降低特征尺度，最后利用全连接层产生网络的预测结果。具体的，下采样融合模块利用不重叠的2×2平均池化层窗口对特征进行两倍下采样，利用一个1×1的二维卷积调整特征的通道维度；在串行的“卷积层-池化层”中，卷积层采用卷积核的大小为3×3，步长为1、填充为1的二维卷积，池化层采用不重叠的2×2平均池化层窗口；在时序建模模块中，由三个连续的串联“卷积层-ReLU层-最大池化层”组成，其中卷积层采用卷积核为3×3×3，步长为(1,1,1)，填充为(1,1,1)的三维卷积，最大池化采用不重叠的2×2×2窗口。

ST4阶段中训练M2模块主要流程如图13所示，主要有九个步骤：

ST41：导入ST3阶段所保存的M1网络权重；

ST42：输入视频在M1网络形变分支经过三个连续的MOE模块(MOE1、MOE2、MOE3)将得到B组三种不同尺度的细胞形变特征和/>三个细胞形变特征将通过下采样融合模块对不同尺度细胞形变特征进行自顶向下的融合。首先，F⁽¹⁾将进行2倍下采样，将其尺度与F⁽²⁾统一，然后经过一个卷积核为1×1的二维卷积与MOE2模块得到的特征F⁽²⁾相加得到第一中间融合特征/>同理，对/>进行2倍下采样后将其尺度与F⁽³⁾统一，然后经过一个1×1的二维卷积与MOE3模块得到的特征F⁽³⁾相加得到第二中间融合特征/>由此，经过ST42阶段高层语义信息与低层特征相融合，得到的三个特征F⁽¹⁾、/>和/>作为ST43阶段的输入；

ST43：输入为ST42阶段得到的B组三个不同尺度特征和/>本阶段通过串联的“卷积层-平均池化层”分别对三个输入进行操作，最终将尺度统一为/>经过一个“卷积层-平均池化层”，特征的维度保持不变同时特征的尺度减半。对于输入特征F⁽¹⁾和/>将分别经过两组和一组“卷积层-平均池化层”，得到新的特征图/>和/>对于输入特征/>由于/>其本身尺度即/>所以本阶段不对/>进行额外操作直接送入ST44阶段；

ST44：对ST43阶段得到的三个特征

和/>在通道维度上进行拼接，得到新的特征作为ST45阶段的输入；

ST45：通过三个串行的“卷积层-ReLU层-最大池化层”，将不断升高输入特征的通道维度，同时减小特征图尺寸，最终得到/>送入ST46阶段；

ST46：首先，将ST45阶段提取的特征在L/8维上求取平均，得到然后在/>上进行最大池化，最终得到

ST47：对特征形状进行重塑，得到维度为1×1024送入全连接层，最后将结果传递给ST48阶段；

ST48：通过Softmax函数将全连接层的输出映射为预测概率，通过预测概率与真实标签计算交叉熵损失函数；

ST49：损失反向传播，训练M2网络和M1形变分支。

前面的内容介绍的是形变提取网络的训练流程，下面则介绍形变提取网络在实际分类过程(推理过程)中的具体应用。

在推理过程中，利用M1网络的形变分支以及M2网络对细胞视频进行分类，且在M1网络的形变分支中，仅需用到第一支路。推理过程具体结构如图14所示，主要流程如图15所示。

推理过程网络主要由M1网络形变分支的第一支路与M2网络组成。M1网络形变分支的第一支路由多个连续的MOE模块的第一支路组成，不同位置的MOE提取出不同尺度的形变信息。M2网路在推理过程主要由四部分组成，下采样融合、统一特征尺度、时序建模和分类。第一，利用下采样融合模块自顶向下融合不同尺度的特征，其中下采样由串联的“平均池化层(池化窗口为2×2，步长为2)-卷积层(卷积核的大小为1×1，步长为1、填充为1)”组成，进而利用一个加法器对特征进行融合；第二，串连的“卷积层(卷积核的大小为3×3，步长为1、填充为1)-池化层(池化窗口为2×2，步长为2)”用于统一特征尺度；第三，时序建模模块用于提取特征的时序信息，由三个连续的串行“三维卷积层(卷积核为3×3×3，步长为(1,1,1)，填充为(1,1,1)-ReLU层-最大池化层(池化窗口为2×2×2)”组成；第四，以全连接层为核心的分类模块对所述时序信息进行预测。综上所述，利用M1网络形变分支的第一支路与M2网络即可对输入细胞视频进行分类。

推理过程主流程如图15所示，主要分为七步：

SI1：加载训练好的M1和M2网络参数；

SI2：输入细胞视频

SI3：利用M1网络形变分支中的MOE模块生成视频的帧间形变偏移量；

对于推理主流程的SI3阶段所述利用M1网络形变分支中MOE模块的第一支路提取输入视频的帧间形变偏移量，其具体结构如图16所示，推理流程如图8所示。

推理过程中，MOE模块主要分为三部分：共享卷积层、形变提取层和第一池化层。

第一，MOE模块中共享卷积层(卷积核为3×3，步长为1，填充为1)旨在升高所承接的特征维度，以此提取更丰富的语义信息，且将升高维度的输出记作b1支路。

第二，形变信息提取部分用于在推理过程提取细胞形变场。b1支路利用补帧策略将承接数据进行分流，将分流方向分别记作b11和b12支路。其中b11支路由串联的“Depthwise卷积层-ReLU层-Pointwise卷积层”组成，用于获取细胞关于Δx和Δy两个方向的形变场。具体的，Depthwise卷积的卷积核大小为2×3×3，步长为(1,1,1)，填充为(0,1,1)，Pointwise卷积的卷积核大小为1×1，步长为1，填充为1。而对于b12支路，主要利用一个加法器融合b11支路所得的形变场，并且利用两个串联的卷积(卷积核为3×3，步长为1，填充为1)分别用于提取特征和克服外观影响。

第三，平均池化层(第一池化层)用于对所述形变信息提取部分得到的特征进行下采样，降低特征尺度。

对推理主流程SI3阶段所述利用M1网络形变分支中的MOE模块生成视频的帧间形变偏移量的具体推理流程如图8所示，主要分为U1至U4四个步骤。

SI4：判断当前模块是否为第三个MOE模块，若是则形变信息提取完成，从而进入SI6阶段，若不是则需继续提取形变信息，进入SI5阶段；

SI5：由于当前模块并非最后一个MOE模块，所以先保存当前MOE模块得到的形变信息，然后回到SI3进入下一个MOE模块，继续提取形变信息；

SI6：由于此时是最后一个MOE模块，所以将之前保存的形变信息进行整合，一起输入到M2网络，然后进入SI7；

SI7：根据输入的形变信息对视频进行分类。

S300：利用视频分类网络的特征融合模块对每一所述MOE模块输出的所述细胞形变信息进行融合，得到融合形变信息；将所述融合形变信息输入到所述视频分类网络的时序建模模块，得到细胞形变时序信息；将所述细胞形变时序信息输入到所述视频分类网络的分类模块进行细胞形变动态分类，得到所述细胞形变动态分类结果。

对于推理主流程SI7所述根据输入的形变信息对视频进行分类，其具体推理流程如图17所示，主要分为六步：

SI71：对输入的形变信息(第一个MOE模块输出的细胞形变信息)、(第二个MOE模块输出的细胞形变信息)和/>(第三个MOE模块输出的细胞形变信息)通过下采样融合模块进行自顶向下的融合。首先，F⁽¹⁾将进行2倍下采样，将其尺度与F⁽²⁾统一，然后经过一个卷积核为1×1的二维卷积与MOE2模块得到的特征F⁽²⁾相加得到第一中间融合特征/>同理，对/>进行2倍下采样后将其尺度与F⁽³⁾统一，然后经过一个1×1的二维卷积与MOE3模块得到的特征F⁽³⁾相加得到第二中间融合特征由此，得到三个特征F⁽¹⁾、/>和/>作为SI72阶段的输入。

SI72：本阶段通过二维的“卷积层-平均池化层”分别对三个输入进行操作，最终将尺度统一为二维的“卷积层-平均池化层”中，卷积层采用卷积核为3×3，步长为1、填充为1的二维卷积，且输入维度等于输出维度，平均池化层窗口大小为2×2，则经过一个“卷积层-平均池化层”，特征维度保持不变同时尺度减半。对于输入特征F⁽¹⁾和F₂ ⁽²⁾将分别经过两组和一组“卷积层-平均池化层”，得到新的特征图/>和对于输入特征/>由于/>其本身尺度即/>所以本阶段不对/>进行额外操作直接送入SI73阶段。

SI73：对SI72阶段得到的三个尺度统一的特征和/>在通道维度上进行拼接，得到新的特征(即融合形变信息)作为SI74阶段的输入。

SI74：对特征进行时序建模，由于本发明是根据视频中细胞的形变程度对视频进行分类，且在细胞视频中，细胞存在时而形变活跃时而不活跃的特殊情况，而非总处于同一种状态中，所以需要对提取的特征在时间维上进行建模，进一步分析细胞的状态。通过一个时序建模模块对特征进行时序建模，其结构如图12(c)所示。在时序建模模块中，由三个连续的三维“卷积层-ReLU层-最大池化层”组成，其中卷积层采用卷积核为3×3×3，步长为(1,1,1)，填充为(1,1,1)的三维卷积，最大池化采用不重叠的2×2×2窗口。通过三组“卷积层-ReLU层-最大池化层”，不断升高通道维度，同时减小特征图尺寸，最终得到输出送入SI75阶段。

SI75：首先，将SI74阶段提取的特征在L/8维上求取平均，得到然后在/>上进行最大池化，最终得到

/>

SI76：对特征形状进行重塑，送入全连接层得到最终预测结果。

步骤SI71至步骤SI73是以三个MOE模块为例进行说明：当设置N个MOE模块时，则步骤SI71至步骤SI73具体包括：

(1)将第1个所述MOE模块输出的所述细胞形变信息进行下采样经过一个1x1卷积层后与第2个所述MOE模块提取的所述细胞形变信息进行尺度统一，将第1个所述MOE模块输出的经尺度统一后的所述细胞形变信息与第2个所述MOE模块提取的所述细胞形变信息融合得到第1中间融合特征。

(2)对第i中间融合特征进行下采样后经过一个所述1x1卷积层后与第i+2个所述MOE模块输出的所述细胞形变信息进行尺度统一，将尺度统一后的所述第i中间融合特征与第i+2个所述MOE模块输出的所述细胞形变信息融合得到第i+1中间融合特征；i＝1，2，…，N-2；N表示MOE模块的数量。

(3)判断第i+2个所述MOE模块是否为最后一个所述MOE模块，得到第三判断结果。

(4)若所述第三判断结果为否，则令i＝i+1，返回步骤“对第i中间融合特征进行下采样后经过一个所述1x1卷积层后与第i+2个所述MOE模块输出的所述细胞形变信息进行尺度统一”。

(5)若所述第三判断结果为是，则将第一个所述MOE模块输出的所述细胞形变信息、所述第1中间融合特征至第N-1中间融合特征进行尺度统一，得到N个尺度统一的特征。

(6)将N个所述尺度统一的特征在通道维度上进行拼接，得到所述融合形变信息。

本发明具有如下技术效果：

1.本发明提出来一种深度网络结构来提取偏移场，该网络结构在细胞形变动态分类的任务中可以显式提取显微视频中的细胞形变场。这种结构有别于当前面向细胞形变分类的主流深度网络，这些主流深度网络直接对显微细胞视频提取特征图，这些特征图中隐含了和分类任务相关的细胞形变场信息。然而，本发明提出的偏移场提取网络结构由多级形变提取模块(MOE)组成(图4中的左侧)，MOE模块主要由四部分组成：共享的二维卷积层、形变信息提取部分、计算损失函数部分和池化层(图6所示)。本发明更加直接地构建了细胞形变场，可以采用更加简单的网络结构完成细胞形变场作为紧凑型分类特征，从而实现以更小的运算量完成较高精度的细胞形变分类。上述提出网络结构对应于发明内容中的训练主流程中的负责形变提取的M1网络，其详细结构对应技术方案中的图4和图5。

2.本发明提出的偏移场提取深度网络结构，相比于现存的通用型运动场提取网络(如FlowNet)，在设计网络结构时考虑了细胞形变过程中可能存在的外观变化，通过MOE模块中添加额外卷积来克服外观变化的影响。上述外观变化网络结构对应于发明内容中的推理主流程中第3步中的额外卷积层(第三卷积层)，其详细结构对应技术方案中的图6和图7。此外，本发明提出的偏移场提取网络与后续的细胞分类网络需要进行端到端学习，使其更加适合细胞形变分类这一具体任务。而通用型运动场提取网络为了适应各种任务，其所提取的运动场与细胞形变分类适配度较低，同时其网络结构也较为复杂。

3.本发明还提出了如何训练上述偏移场提取深度网络结构，首先，偏移场提取网络以多级偏移场提取模块(MOE)构建多尺度，每一级偏移场提取模块内部的双支路通过L1损失直接训练偏移场。另外，本发明还构建了重建网络分支，通过引入重建损失来增加训练网络的损失，减缓医学图像领域存在的小样本问题。最后，本发明将偏移场提取网络和细胞视频分类网络进行联合，通过交叉熵损失函数进一步对偏移场提取网络进行调优。基于上述三种损失共同对偏移场提取网络进行反向传播优化可以更加高效地完成偏移场提取网络的训练。其详细结构和训练过程对应于发明内容中的训练主流程，在技术方案中对应图2和图3。

4.发明了一种补帧策略(对应流程图9)，避免了数据在偏移场提取网络的各级形变提取模块之间传递时，出现特征图丢失帧的情况，保证了网络设计过程中，各级形变提取模块在结构上尽量保持一致。

实施例2

本实施例提供一种基于形变场提取的细胞形变动态分类***，所述***包括：视频获取子***，用于获取待分类的细胞视频。

形变信息提取子***，用于利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息；所述形变分支包括多个串联连接的MOE模块；每一所述MOE模块包括共享卷积层、形变提取层、和池化层；所述形变提取层包括第一支路；所述第一支路的输入为所述共享卷积层的输出；所述第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；所述第一卷积层的输入为所述第一分流支路和所述第二分流支路的叠加结果；在所述第一分流支路上包括Depthwise卷积层、第一ReLU层和Pointwise卷积层；所述第一分流支路和所述第二分流支路是依据补帧策略对所述第一支路的输入进行分流得到；所述池化层的输入为所述第一支路的输出；所述池化层的输出为所属所述MOE模块的输出。

实施例3

本实施例提供一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行实施例1的基于形变场提取的细胞形变动态分类方法。可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例1的基于形变场提取的细胞形变动态分类方法。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于形变场提取的细胞形变动态分类方法，其特征在于，所述方法包括：

获取待分类的细胞视频；

利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息；所述形变分支包括多个串联连接的MOE模块；每一所述MOE模块包括共享卷积层、形变提取层和第一池化层；所述形变提取层包括第一支路；所述第一支路的输入为所述共享卷积层的输出；所述第一支路包括第一分流支路、第二分流支路以及串联连接的第一卷积层和第二卷积层；所述第一卷积层的输入为所述第一分流支路和所述第二分流支路的叠加结果；在所述第一分流支路上包括第三卷积层和第一激活层；所述第一池化层的输入为所述第一支路的输出；每一所述MOE模块的输出包括所包含的所述第一池化层输出的细胞视频特征和所包含的所述第一分流支路输出的细胞形变信息；

将所述融合形变信息输入到所述视频分类网络的时序建模模块，得到细胞形变时序信息；所述时序建模模块包括：多个串联连接的时序建模单元；每一所述时序建模单元包括依次串联的第六卷积层、第三激活层和第二池化层；

将所述细胞形变时序信息输入到所述视频分类网络的分类模块进行细胞形变动态分类，得到所述细胞形变动态分类结果；所述分类模块包括依次串联的第三池化层和全连接层；

其中，利用视频分类网络的特征融合模块对每一所述MOE模块输出的所述细胞形变信息进行融合，得到融合形变信息，具体包括：

将第1个所述MOE模块输出的所述细胞形变信息进行下采样经过一个1x1卷积层后与第2个所述MOE模块提取的所述细胞形变信息进行尺度统一，将第1个所述MOE模块输出的经尺度统一后的所述细胞形变信息与第2个所述MOE模块提取的所述细胞形变信息融合得到第1中间融合特征；

对第i中间融合特征进行下采样后经过一个所述1x1卷积层后与第i+2个所述MOE模块输出的所述细胞形变信息进行尺度统一，将尺度统一后的所述第i中间融合特征与第i+2个所述MOE模块输出的所述细胞形变信息融合得到第i+1中间融合特征；i＝1，2，…，N-2；N表示MOE模块的数量；

判断第i+2个所述MOE模块是否为最后一个所述MOE模块，得到第三判断结果；

若所述第三判断结果为否，则令i＝i+1，返回步骤“对第i中间融合特征进行下采样后经过一个所述1x1卷积层后与第i+2个所述MOE模块输出的所述细胞形变信息进行尺度统一”；

若所述第三判断结果为是，则将第一个所述MOE模块输出的所述细胞形变信息、所述第1中间融合特征至第N-1中间融合特征进行尺度统一，得到N个尺度统一的特征；

将N个所述尺度统一的特征在通道维度上进行拼接，得到所述融合形变信息。

2.根据权利要求1所述的方法，其特征在于，对所述形变分支提取网络进行训练时，所述形变提取层还包括第二支路；所述第二支路包括第四卷积层；所述第一支路和所述第二支路的输入分别为所述共享卷积层的两个输出；

所述形变分支中的所述MOE模块还包括计算损失函数层；所述计算损失函数层，用于根据所述第一支路的输出和所述第二支路的输出计算第一损失函数并反向传播优化所述形变提取网络；

对所述形变分支提取网络进行训练时，所述第一池化层的输入为所述第一支路的输出和所述第二支路的输出；所述第一池化层的输出为所述第一支路的输出和所述第二支路的输出经过池化操作后的结果；

对所述形变分支提取网络进行训练时，所述形变分支提取网络还包括重建分支；所述重建分支包括多个串联连接的RV模块；每一所述RV模块包括依次串联连接的第五卷积层、第二激活层和上采样层；

3.根据权利要求2所述的方法，其特征在于，利用形变提取网络的形变分支提取所述待分类的细胞视频中的细胞形变信息之前，还包括：对所述形变提取网络进行训练，具体为：

将细胞视频样本输入到所述形变分支中，得到所述细胞形变信息和所述细胞视频特征；每一所述MOE模块输出的所述细胞形变信息用于作为输入对所述视频分类网络进行训练；

将所述细胞视频特征输入到所述重建分支中，得到所述重建细胞视频；

计算所述细胞视频样本与所述重建细胞视频的第二损失函数；

根据第二损失函数的结果反向传播训练所述形变分支和所述重建分支。

4.根据权利要求3所述的方法，其特征在于，将细胞视频样本输入到所述形变分支中，得到所述细胞形变信息和所述细胞视频特征，具体包括：

对所述细胞视频样本进行复制得到复制视频，将所述细胞视频样本和所述复制视频输入到第一个所述MOE模块中的所述共享卷积层中；将当前所述共享卷积层的两个输出分别作为当前所述MOE模块中的所述第一支路的输入和所述第二支路的输入；

将当前所述第一支路的输入应用补帧策略进行分流，得到所述第一分流支路和所述第二分流支路；

将当前所述第一分流支路经过所述第三卷积层和所述第一激活层后，再与当前所述第二分流支路进行叠加，将叠加的结果输入到所述第一卷积层和所述第二卷积层，得到所述第一支路的输出；

将当前所述第二支路的输入经过第四卷积层后得到所述第二支路的输出；

根据当前所述第一支路的输出和当前所述第二支路的输出计算所述第一损失函数，并反向传播优化所述形变提取网络；

将当前所述第一支路的输出和当前所述第二支路的输出输入到所述第一池化层；

判断当前所述MOE模块是否为最后一个所述MOE模块，得到第一判断结果；

若所述第一判断结果为是，则输出最后一个所述MOE模块中所述第一支路输出的和所有所述MOE模块的所述第一损失函数；

若所述第一判断结果为否，则将当前所述MOE模块输出的所述细胞视频特征输入到下一个所述MOE模块的所述共享卷积层中，并返回步骤“将当前所述共享卷积层的输出分别作为当前所述MOE模块中的所述第一支路的输入和所述第二支路的输入”，直至遍历每一个所述MOE模块，得到每一所述MOE模块输出的所述细胞形变信息和所述细胞视频特征。

5.根据权利要求4所述的方法，其特征在于，将当前所述第一支路的输入应用补帧策略进行分流，得到所述第一分流支路和所述第二分流支路，具体包括：

删除所述新的细胞视频的最后一帧得到所述第二分流支路。

6.根据权利要求4所述的方法，其特征在于，将所述细胞视频特征输入到所述重建分支中，得到所述重建细胞视频，具体包括：

将最后一个所述MOE模块中所述第一支路输出的所述细胞视频特征依次经过第一个所述RV模块的所述第五卷积层、所述第二激活层和所述上采样层；

判断当前所述RV模块是否最后一个所述RV模块，得到第二判断结果；

若所述第二判断结果为是，则得到所述重建细胞视频；

若所述第二判断结果为否，则将当前所述RV模块的输出作为下一个所述RV模块的输入，并返回步骤“判断当前所述RV模块是否最后一个所述RV模块，得到第二判断结果”。

7.一种基于形变场提取的细胞形变动态分类***，其特征在于，所述***包括：

视频获取子***，用于获取待分类的细胞视频；

分类子***，用于利用视频分类网络的特征融合模块对每一所述MOE模块输出的所述细胞形变信息进行融合，得到融合形变信息；将所述融合形变信息输入到所述视频分类网络的时序建模模块，得到细胞形变时序信息；将所述细胞形变时序信息输入到所述视频分类网络的分类模块进行细胞形变动态分类，得到所述细胞形变动态分类结果；

将N个所述尺度统一的特征在通道维度上进行拼接，得到所述融合形变信息；

其中，所述时序建模模块包括：多个串联连接的时序建模单元；每一所述时序建模单元包括依次串联的第六卷积层、第三激活层和第二池化层；所述分类模块包括依次串联的第三池化层和全连接层。