CN109711411B - 一种基于胶囊神经元的图像分割识别方法 - Google Patents

一种基于胶囊神经元的图像分割识别方法 Download PDF

Info

Publication number
CN109711411B
CN109711411B CN201811505408.9A CN201811505408A CN109711411B CN 109711411 B CN109711411 B CN 109711411B CN 201811505408 A CN201811505408 A CN 201811505408A CN 109711411 B CN109711411 B CN 109711411B
Authority
CN
China
Prior art keywords
target
capsule
shape
network
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811505408.9A
Other languages
English (en)
Other versions
CN109711411A (zh
Inventor
于慧敏
黄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811505408.9A priority Critical patent/CN109711411B/zh
Publication of CN109711411A publication Critical patent/CN109711411A/zh
Application granted granted Critical
Publication of CN109711411B publication Critical patent/CN109711411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于胶囊神经元的协同分割识别方法。该方法使用胶囊神经元搭建的网络,建模和学习了目标的形状知识,并基于此类网络搭建了一个协同分割与识别的模型。相比于经典标量神经元,胶囊神经元能够逐层解析和捕捉目标低层局部实例到高层局部实例的几何关系,一直解析到目标整体。因此它能够将目标和背景干扰的特征进行解缠;而目标的特征则可进一步用于目标的重构和生成。本发明基于胶囊神经元于胶囊网络的这种性质,搭建了“编码器‑解码器”的网络拓扑结构,能够有效学习和利用目标的先验知识和信息,将其应用到协同分割与识别模型中。该方法的可拓展性较强,编码器和解码器网络能够替换为其他合适的神经网络,以满足不同的需要。

Description

一种基于胶囊神经元的图像分割识别方法
技术邻域
本发明属于图像分割、自动识别和目标表示邻域,特别地涉及一种基于胶囊神经元的图像分割识别方法。模型有效利用了胶囊神经元特有的性质。
背景技术
在目标分割与目标识别互相协同的模型和技术方法中,目标的有效表达是一个关键问题。合适的模型和表达方法,以及如何基于先验知识产生可参考的目标物体,对于协同过程的建立具有重要作用。除此以外,模型的可拓展性也是在实际应用过程中需要考量的一点,某些情况下我们需要针对不同应用对模型进行不同程度的拓展或缩减,以满足资源性能方面的不同要求。
近几年来,深度学习与深度神经网络在诸多计算机视觉和图像处理的任务上发挥极大的作用。卷积神经网络是目前深度神经网络中最常用的一种,由于其较强的可拓展性、卓越的学习能力和表达能力受到研究界和工业界的青睐。胶囊神经元为Hinton教授最近所提出的神经单元,主要是为了解决卷积神经网络在推理过程中丢失特征位置信息的问题。胶囊神经元着重于捕捉目标局部到目标整体的几何关系,试图保持这种关系并且传播其关联信息。所以胶囊神经元能够在诸多干扰中解析出目标及其特征,而过滤掉大部分干扰。
胶囊神经元的特性对于协同目标分割与识别任务是非常有帮助的,一方面能够从分割结果中解析出真正的目标并提取其特征,而过滤掉分割过程中的大部分干扰,这些特征可用于重建或生成真正的目标。另一方面,基于胶囊的深度神经网络同样具有较好的可拓展性。
本发明将基于胶囊神经单元搭建一个编码器-解码器架构的网络,并将其引入到协同目标分割与识别的模型中,实现对目标形状知识的学习、表达和生成,进而实现分割任务和识别任务的互相协同。
发明内容
本发明的目的在于提供了一种基于胶囊神经元的图像分割识别方法。该方法利用基于胶囊神经元的深度神经网络,对目标形状进行学习、建模和表达。其中包括深度神经网络包括两个基本模块:编码器,解码器。编码器使用了胶囊神经单元,其作用是提取当前分割结果中的目标特征并识别;解码器的作用是基于提取到的目标特征和识别结果,生成出一个供分割模型参考的目标形状。这两个模块使得两个任务互相交流,互相传递信息,协同工作以获得更好的性能,并且使分割过程和识别过程更具解释性。
本发明采用如下技术方案:一种基于胶囊神经元的图像的分割识别方法,包括如下步骤:
步骤1:基于包含有L种不同类别的两元组数据{目标形状mi,目标类别标签yi},其中i=1,...,N为样本编号,mi∈{0,1}H×W,H,W分别为图像mi的长、宽,使用胶囊神经元建立和训练一个编码器网络Enc,用于学习、提取每个目标形状mi的特征
Figure BDA0001899318550000021
其中D为编码器网络顶层胶囊神经元的维度;同时,基于提取到的特征Vi,训练一个用于生成目标形状的解码器网络Dec;
步骤2:对于待分割识别的图像
Figure BDA0001899318550000022
其中有且仅有一个目标,C分别为图像I的通道数,利用基于图像数据的能量函数E(q,t)=Edata(I,q)对I进行初步分割,按照能量最优的原则,分割得到初始的结果q∈[0,1]H×W,像素点位置x的值q(x)表征该像素属于目标的概率;
步骤3:使用编码器网络Enc对初始的结果q进行解析和识别,获得其目标形状特征V,识别目标类别标签t=arglmax||vl||,其中vl为目标特征V中的第l行,||vl||为其模长。胶囊神经元的特性决定了||vl||∈[0,1],因此||vl||也表示目标属于第l类的概率;
步骤4:基于V和识别结果t,使用解码器网络Dec产生目标的参考形状
Figure BDA0001899318550000031
更新步骤2中的能量函数如下:
E(q,t)=α×Edata(I,q)+(1-α)×Eshape(q,t)
Eshape(q,t)为参考形状
Figure BDA0001899318550000032
与前述q的损失函数,α为权重;利用更新后的能量函数,按照能量最优的原则,获得更新后的分割结果q。
步骤5:重复步骤2,3,4,直到q收敛或达到最大迭代次数,输出分割的结果q与识别的目标类别标签t。
本发明的有益效果是:
(1)使用胶囊神经单元建立的网络来解析目标分割结果,能够捕捉目标局部到目标整体的几何关系,在执行协同任务的过程中过滤多余干扰信息;
(2)胶囊网络提取到的特征具有较强的语义信息,每一维特征都可以表征目标的一个属性,这给识别过程的带来了可解释性;
(3)协同模型中的“编码器-解码器”结构的网络具有较好的可拓展性,可以替换为其他合适的神经网络模块,拓展了协同模型的应用范围。
附图说明
图1为本发明的流程图;
图2为待分割识别图像;
图3~图7为迭代1、20、40、60、80次获得的分割识别结果,其中L=30;
图8~图12为迭代1、20、40、60、80次过程中生成的参考形状。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说,没有这些细节部分的描述可以完全理解本发明。
参考图1所示为本发明实施例的基于胶囊神经元的协同分割与识别模型的步骤流程图。
给定训练用数据集{目标形状mi,目标类别标签yi},测试用目标图像Itest,按照以下方法处理:
1.训练形状表达模型和外观表达模型
(1.1)基于数据集D0={目标形状mi,目标类别标签yi},将目标形状进行适当扩充(即数据集增广),对部分训练形状进行不同程度的位移、形变、旋转和透视变换,产生更多训练用形状。其与其标签定义为数据集
Figure BDA0001899318550000041
Figure BDA0001899318550000042
将所有目标形状图片
Figure BDA0001899318550000043
归一化到80×80大小。
(1.2)将D1中的样本对
Figure BDA0001899318550000044
输入到“编码器-解码器”网络中进行形状学习,建立形状识别模型Enc和形状生成模型Dec;
(1.3)编码器-解码器网络结构为:
Figure BDA0001899318550000045
Figure BDA0001899318550000051
基于损失
Figure BDA0001899318550000052
对网络进行训练。
2.对测试图像Itest,比如图2
(2.1)本实施例采用如下方法建立图像数据能量项,f(x)=-logp(I(x)|q(x)≥τ),g(x)=-logp(I(x)|q(x)<τ),其中T为前景概率置信度阈值,I(x)为像素点x的图像数据(例如灰度值)。p(I(x)|q(x)≥τ)表示前景区域的像素颜色分布,p(I(x)|q(x)<τ)为背景区域的像素颜色分布。数据项因此为Edata(I;q)=∑xq(x)f(x)+(1-q(x))g(x);对能量函数E(q,t)=Edata(I,q),按照能量最优的原则,分割得到初始的结果q0
(2.2)使用编码器网络Enc对目标形状q进行解析和识别,获得其目标形状特征V,识别目标类别标签t=arglmax||vl||,其中vl为目标特征V中的第l行,||vl||为其模长。胶囊神经元的特性决定了||vl||∈[0,1],因此||vl||也表示目标属于第l类的概率;
(2.3)基于V和识别结果t,使用解码器网络Dec产生目标的参考形状
Figure BDA0001899318550000053
更新(2.1)中的能量函数如下:
E(q,t)=α×Edata(I,q)+(1-α)×Eshape(q,t)
Eshape(q,t)为参考形状
Figure BDA0001899318550000054
与前述q的损失函数,α为权重;利用更新后的能量函数,按照能量最优的原则,获得更新后的分割结果q。
(2.4)重复步骤2.1~2.3,直到q收敛或达到最大迭代次数,输出分割的目标q与识别的目标类别标签t。迭代过程如下:
(a)在第k次优化迭代过程中,使用Enc对第k-1次的分割结果qk-1进行形状提取和识别,获得目标特征Vk和识别结果tk
(b)基于目标特征Vk和识别结果tk,除了Vk中满足max||vl||的第t行,其他都是干扰信息的特征,所以将除了第t行以外的所有其他行置为0,然后将Vk展开成一个向量,作为生成模型Dec的输入,生成参考形状
Figure BDA0001899318550000061
(c)基于参考形状
Figure BDA0001899318550000062
定义的损失函数为:
Figure BDA0001899318550000063
(d)对两个能量项进行加权,获得最终能量
E(q,t)=α×Edata(q)+(1-α)×Eshape(q,t)
加入边缘约束项
Figure BDA0001899318550000064
基于SplitBregman方法,总能量可以转化成如下形式:
Figure BDA0001899318550000065
其中rdata(x)=f(x)-g(x),
Figure BDA0001899318550000066
图8~图12为迭代1、20、40、60、80次过程中生成的参考形状,从图中可以看出,由于迭代初始的分割和识别的置信度不是很高,所以生成的目标参考形状略显粗糙,但是胶囊网络还是从中解析出了大致的目标,过滤了部分干扰信息,保留了目标的大致轮廓;随着迭代的进行,生成的参考形状越来越精细,越来越具体,并且与实际测试图像中的目标区域越来越一致。
同时,识别过程中提取的特征具有很强的解释性,一方面是由于提取到的特征能够被用于重建目标形状;另一方面,由于胶囊神经元本身具有的性质,每一维特征都表示目标的某种形变属性。
而由于胶囊神经元只是深度神经网络中一种特殊的神经单元,编码器网络和解码器网络模块也自然具有可拓展性,可减少或增加网络的规模和层数,所以本方法中的“编码器-解码器”模块可以替换为其他合适的网络模块,以满足不同的资源约束和应用需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于胶囊神经元的图像的分割识别方法,其特征在于,包括如下步骤:
步骤1:基于包含有L种不同类别的两元组数据{目标形状mi,目标类别标签yi},其中i=1,…,N为样本编号,mi∈{0,1}H×W,H,W分别为图像mi的长、宽,使用胶囊神经元建立和训练一个编码器网络Enc,用于学习、提取每个目标形状mi的特征
Figure FDA0002564419990000011
其中D为编码器网络顶层胶囊神经元的维度;同时,基于提取到的特征Vi,训练一个用于生成目标形状的解码器网络Dec;
步骤2:对于待分割识别的图像
Figure FDA0002564419990000012
其中有且仅有一个目标,C分别为图像I的通道数,利用基于图像数据的能量函数Edata(I,q)对I进行初步分割,按照能量最优的原则,分割得到初始的分割结果q0∈[0,1]H×W,像素点位置x的值q(x)表征该像素属于目标的概率;
步骤3:使用编码器网络Enc对分割结果q0进行解析和识别,获得其目标形状特征V,识别目标类别标签t=arg max||vl||,其中vl为目标特征V中的第l行,||vl||为其模长;胶囊神经元的特性决定了||vl||∈[0,1],因此||vl||也表示目标属于第l类的概率;
步骤4:基于V和识别结果t,使用解码器网络Dec产生目标的参考形状
Figure FDA0002564419990000013
更新能量函数如下:
E(q0,t)=α×Edata(I,q0)+(1-α)×Eshape(q0,t)
Eshape(q0,t)为参考形状
Figure FDA0002564419990000014
与初始的分割结果q0的损失函数,α为权重;利用更新后的能量函数,按照能量最优的原则,获得更新后的分割结果
Figure FDA0002564419990000015
步骤5:按照步骤3-4对更新后的分割结果
Figure FDA0002564419990000016
进行迭代优化,直到
Figure FDA0002564419990000017
收敛或达到最大迭代次数,输出最终的分割结果q′与识别的目标类别标签t。
CN201811505408.9A 2018-12-10 2018-12-10 一种基于胶囊神经元的图像分割识别方法 Active CN109711411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811505408.9A CN109711411B (zh) 2018-12-10 2018-12-10 一种基于胶囊神经元的图像分割识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811505408.9A CN109711411B (zh) 2018-12-10 2018-12-10 一种基于胶囊神经元的图像分割识别方法

Publications (2)

Publication Number Publication Date
CN109711411A CN109711411A (zh) 2019-05-03
CN109711411B true CN109711411B (zh) 2020-10-30

Family

ID=66255596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811505408.9A Active CN109711411B (zh) 2018-12-10 2018-12-10 一种基于胶囊神经元的图像分割识别方法

Country Status (1)

Country Link
CN (1) CN109711411B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298844B (zh) * 2019-06-17 2021-06-29 艾瑞迈迪科技石家庄有限公司 X光造影图像血管分割与识别方法及装置
CN110570394B (zh) * 2019-08-01 2023-04-28 深圳先进技术研究院 医学图像分割方法、装置、设备及存储介质
CN111161280B (zh) * 2019-12-18 2022-10-04 浙江大学 一种基于神经网络的轮廓演化分割方法
CN113065394B (zh) * 2021-02-26 2022-12-06 青岛海尔科技有限公司 用于图像识别物品的方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN108921227A (zh) * 2018-07-11 2018-11-30 广东技术师范学院 一种基于capsule理论的青光眼医学影像分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN104537676B (zh) * 2015-01-12 2017-03-22 南京大学 一种基于在线学习的渐进式图像分割方法
US10902598B2 (en) * 2017-01-27 2021-01-26 Arterys Inc. Automated segmentation utilizing fully convolutional networks
EP3923237A1 (en) * 2017-02-22 2021-12-15 The United States of America as represented by The Secretary Department of Health and Human Services Detection of prostate cancer in multi-parametric mri using random forest
US20200085382A1 (en) * 2017-05-30 2020-03-19 Arterys Inc. Automated lesion detection, segmentation, and longitudinal identification
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN108921227A (zh) * 2018-07-11 2018-11-30 广东技术师范学院 一种基于capsule理论的青光眼医学影像分类方法

Also Published As

Publication number Publication date
CN109711411A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109711411B (zh) 一种基于胶囊神经元的图像分割识别方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN108304826A (zh) 基于卷积神经网络的人脸表情识别方法
CN108304357B (zh) 一种基于字体流形的中文字库自动生成方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
Mittelman et al. Weakly supervised learning of mid-level features with Beta-Bernoulli process restricted Boltzmann machines
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN112307714A (zh) 一种基于双阶段深度网络的文字风格迁移方法
CN107358172B (zh) 一种基于人脸朝向分类的人脸特征点初始化方法
Xu et al. Face expression recognition based on convolutional neural network
CN109325513B (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
Al-Zubaidi et al. Two-dimensional optical character recognition of mouse drawn in Turkish capital letters using multi-layer perceptron classification
CN114743133A (zh) 一种轻量化的小样本视频分类识别方法及***
CN112163605A (zh) 一种基于生成注意力网络的多域图像翻译方法
CN111160161A (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
CN113269235B (zh) 一种基于无监督学习的装配体变化检测方法及设备
CN106599901B (zh) 基于深度玻尔兹曼机的协同目标分割与行为识别方法
CN113128624B (zh) 一种基于多尺度字典的图网络人脸恢复方法
CN112488238B (zh) 一种基于对抗自编码器的混合异常检测方法
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.
CN114581829A (zh) 基于强化学习的连续手语识别方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant