CN109711411B

CN109711411B - 一种基于胶囊神经元的图像分割识别方法

Info

Publication number: CN109711411B
Application number: CN201811505408.9A
Authority: CN
Inventors: 于慧敏; 黄伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2020-10-30
Anticipated expiration: 2038-12-10
Also published as: CN109711411A

Abstract

本发明公开了一种基于胶囊神经元的协同分割识别方法。该方法使用胶囊神经元搭建的网络，建模和学习了目标的形状知识，并基于此类网络搭建了一个协同分割与识别的模型。相比于经典标量神经元，胶囊神经元能够逐层解析和捕捉目标低层局部实例到高层局部实例的几何关系，一直解析到目标整体。因此它能够将目标和背景干扰的特征进行解缠；而目标的特征则可进一步用于目标的重构和生成。本发明基于胶囊神经元于胶囊网络的这种性质，搭建了“编码器‑解码器”的网络拓扑结构，能够有效学习和利用目标的先验知识和信息，将其应用到协同分割与识别模型中。该方法的可拓展性较强，编码器和解码器网络能够替换为其他合适的神经网络，以满足不同的需要。

Description

一种基于胶囊神经元的图像分割识别方法

技术邻域

本发明属于图像分割、自动识别和目标表示邻域，特别地涉及一种基于胶囊神经元的图像分割识别方法。模型有效利用了胶囊神经元特有的性质。

背景技术

在目标分割与目标识别互相协同的模型和技术方法中，目标的有效表达是一个关键问题。合适的模型和表达方法，以及如何基于先验知识产生可参考的目标物体，对于协同过程的建立具有重要作用。除此以外，模型的可拓展性也是在实际应用过程中需要考量的一点，某些情况下我们需要针对不同应用对模型进行不同程度的拓展或缩减，以满足资源性能方面的不同要求。

近几年来，深度学习与深度神经网络在诸多计算机视觉和图像处理的任务上发挥极大的作用。卷积神经网络是目前深度神经网络中最常用的一种，由于其较强的可拓展性、卓越的学习能力和表达能力受到研究界和工业界的青睐。胶囊神经元为Hinton教授最近所提出的神经单元，主要是为了解决卷积神经网络在推理过程中丢失特征位置信息的问题。胶囊神经元着重于捕捉目标局部到目标整体的几何关系，试图保持这种关系并且传播其关联信息。所以胶囊神经元能够在诸多干扰中解析出目标及其特征，而过滤掉大部分干扰。

胶囊神经元的特性对于协同目标分割与识别任务是非常有帮助的，一方面能够从分割结果中解析出真正的目标并提取其特征，而过滤掉分割过程中的大部分干扰，这些特征可用于重建或生成真正的目标。另一方面，基于胶囊的深度神经网络同样具有较好的可拓展性。

本发明将基于胶囊神经单元搭建一个编码器-解码器架构的网络，并将其引入到协同目标分割与识别的模型中，实现对目标形状知识的学习、表达和生成，进而实现分割任务和识别任务的互相协同。

发明内容

本发明的目的在于提供了一种基于胶囊神经元的图像分割识别方法。该方法利用基于胶囊神经元的深度神经网络，对目标形状进行学习、建模和表达。其中包括深度神经网络包括两个基本模块：编码器，解码器。编码器使用了胶囊神经单元，其作用是提取当前分割结果中的目标特征并识别；解码器的作用是基于提取到的目标特征和识别结果，生成出一个供分割模型参考的目标形状。这两个模块使得两个任务互相交流，互相传递信息，协同工作以获得更好的性能，并且使分割过程和识别过程更具解释性。

本发明采用如下技术方案：一种基于胶囊神经元的图像的分割识别方法，包括如下步骤：

步骤1：基于包含有L种不同类别的两元组数据{目标形状m_i，目标类别标签y_i}，其中i＝1，...，N为样本编号，m_i∈{0，1}^H×W，H，W分别为图像m_i的长、宽，使用胶囊神经元建立和训练一个编码器网络Enc，用于学习、提取每个目标形状m_i的特征

其中D为编码器网络顶层胶囊神经元的维度；同时，基于提取到的特征V_i，训练一个用于生成目标形状的解码器网络Dec；

步骤2：对于待分割识别的图像

其中有且仅有一个目标，C分别为图像I的通道数，利用基于图像数据的能量函数E(q，t)＝E_data(I，q)对I进行初步分割，按照能量最优的原则，分割得到初始的结果q∈[0，1]^H×W，像素点位置x的值q(x)表征该像素属于目标的概率；

步骤3：使用编码器网络Enc对初始的结果q进行解析和识别，获得其目标形状特征V，识别目标类别标签t＝arg_lmax||v_l||，其中v_l为目标特征V中的第l行，||v_l||为其模长。胶囊神经元的特性决定了||v_l||∈[0，1]，因此||v_l||也表示目标属于第l类的概率；

步骤4：基于V和识别结果t，使用解码器网络Dec产生目标的参考形状

更新步骤2中的能量函数如下：

E(q，t)＝α×E_data(I，q)+(1-α)×E_shape(q，t)

E_shape(q，t)为参考形状

与前述q的损失函数，α为权重；利用更新后的能量函数，按照能量最优的原则，获得更新后的分割结果q。

步骤5：重复步骤2，3，4，直到q收敛或达到最大迭代次数，输出分割的结果q与识别的目标类别标签t。

本发明的有益效果是：

(1)使用胶囊神经单元建立的网络来解析目标分割结果，能够捕捉目标局部到目标整体的几何关系，在执行协同任务的过程中过滤多余干扰信息；

(2)胶囊网络提取到的特征具有较强的语义信息，每一维特征都可以表征目标的一个属性，这给识别过程的带来了可解释性；

(3)协同模型中的“编码器-解码器”结构的网络具有较好的可拓展性，可以替换为其他合适的神经网络模块，拓展了协同模型的应用范围。

附图说明

图1为本发明的流程图；

图2为待分割识别图像；

图3～图7为迭代1、20、40、60、80次获得的分割识别结果，其中L＝30；

图8～图12为迭代1、20、40、60、80次过程中生成的参考形状。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说，没有这些细节部分的描述可以完全理解本发明。

参考图1所示为本发明实施例的基于胶囊神经元的协同分割与识别模型的步骤流程图。

给定训练用数据集{目标形状m_i，目标类别标签y_i}，测试用目标图像I_test，按照以下方法处理：

1.训练形状表达模型和外观表达模型

(1.1)基于数据集D₀＝{目标形状m_i，目标类别标签y_i}，将目标形状进行适当扩充(即数据集增广)，对部分训练形状进行不同程度的位移、形变、旋转和透视变换，产生更多训练用形状。其与其标签定义为数据集

将所有目标形状图片

归一化到80×80大小。

(1.2)将D₁中的样本对

输入到“编码器-解码器”网络中进行形状学习，建立形状识别模型Enc和形状生成模型Dec；

(1.3)编码器-解码器网络结构为：

基于损失

对网络进行训练。

2.对测试图像I_test，比如图2

(2.1)本实施例采用如下方法建立图像数据能量项，f(x)＝-logp(I(x)|q(x)≥τ)，g(x)＝-logp(I(x)|q(x)＜τ)，其中T为前景概率置信度阈值，I(x)为像素点x的图像数据(例如灰度值)。p(I(x)|q(x)≥τ)表示前景区域的像素颜色分布，p(I(x)|q(x)＜τ)为背景区域的像素颜色分布。数据项因此为E_data(I；q)＝∑_xq(x)f(x)+(1-q(x))g(x)；对能量函数E(q，t)＝E_data(I，q)，按照能量最优的原则，分割得到初始的结果q⁰；

(2.2)使用编码器网络Enc对目标形状q进行解析和识别，获得其目标形状特征V，识别目标类别标签t＝arg_lmax||v_l||，其中v_l为目标特征V中的第l行，||v_l||为其模长。胶囊神经元的特性决定了||v_l||∈[0，1]，因此||v_l||也表示目标属于第l类的概率；

(2.3)基于V和识别结果t，使用解码器网络Dec产生目标的参考形状

更新(2.1)中的能量函数如下：

E(q，t)＝α×E_data(I，q)+(1-α)×E_shape(q，t)

E_shape(q，t)为参考形状

(2.4)重复步骤2.1～2.3，直到q收敛或达到最大迭代次数，输出分割的目标q与识别的目标类别标签t。迭代过程如下：

(a)在第k次优化迭代过程中，使用Enc对第k-1次的分割结果q^k-1进行形状提取和识别，获得目标特征V^k和识别结果t^k；

(b)基于目标特征V^k和识别结果t^k，除了V^k中满足max||v_l||的第t行，其他都是干扰信息的特征，所以将除了第t行以外的所有其他行置为0，然后将V^k展开成一个向量，作为生成模型Dec的输入，生成参考形状

(c)基于参考形状

定义的损失函数为：

(d)对两个能量项进行加权，获得最终能量

E(q，t)＝α×E_data(q)+(1-α)×E_shape(q，t)

加入边缘约束项

基于SplitBregman方法，总能量可以转化成如下形式：

其中r_data(x)＝f(x)-g(x)，

图8～图12为迭代1、20、40、60、80次过程中生成的参考形状，从图中可以看出，由于迭代初始的分割和识别的置信度不是很高，所以生成的目标参考形状略显粗糙，但是胶囊网络还是从中解析出了大致的目标，过滤了部分干扰信息，保留了目标的大致轮廓；随着迭代的进行，生成的参考形状越来越精细，越来越具体，并且与实际测试图像中的目标区域越来越一致。

同时，识别过程中提取的特征具有很强的解释性，一方面是由于提取到的特征能够被用于重建目标形状；另一方面，由于胶囊神经元本身具有的性质，每一维特征都表示目标的某种形变属性。

而由于胶囊神经元只是深度神经网络中一种特殊的神经单元，编码器网络和解码器网络模块也自然具有可拓展性，可减少或增加网络的规模和层数，所以本方法中的“编码器-解码器”模块可以替换为其他合适的网络模块，以满足不同的资源约束和应用需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于胶囊神经元的图像的分割识别方法，其特征在于，包括如下步骤：

步骤1：基于包含有L种不同类别的两元组数据{目标形状m_i，目标类别标签y_i}，其中i＝1,…,N为样本编号，m_i∈{0,1}^H×W，H,W分别为图像m_i的长、宽，使用胶囊神经元建立和训练一个编码器网络Enc，用于学习、提取每个目标形状m_i的特征

步骤2：对于待分割识别的图像

其中有且仅有一个目标，C分别为图像I的通道数，利用基于图像数据的能量函数E_data(I,q)对I进行初步分割，按照能量最优的原则，分割得到初始的分割结果q⁰∈[0,1]^H×W，像素点位置x的值q(x)表征该像素属于目标的概率；

步骤3：使用编码器网络Enc对分割结果q⁰进行解析和识别，获得其目标形状特征V，识别目标类别标签t＝arg max||v_l||，其中v_l为目标特征V中的第l行，||v_l||为其模长；胶囊神经元的特性决定了||v_l||∈[0,1]，因此||v_l||也表示目标属于第l类的概率；

更新能量函数如下：

E(q⁰,t)＝α×E_data(I,q⁰)+(1-α)×E_shape(q⁰,t)

E_shape(q⁰,t)为参考形状

与初始的分割结果q⁰的损失函数，α为权重；利用更新后的能量函数，按照能量最优的原则，获得更新后的分割结果

步骤5：按照步骤3-4对更新后的分割结果

进行迭代优化，直到

收敛或达到最大迭代次数，输出最终的分割结果q′与识别的目标类别标签t。