CN104067314A

CN104067314A - 人形图像分割方法

Info

Publication number: CN104067314A
Application number: CN201480000254.1A
Authority: CN
Inventors: 谭铁牛; 黄永祯; 王亮; 吴子丰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Watrix Technology Beijing Co Ltd
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2014-09-24
Anticipated expiration: 2034-05-23
Also published as: US10096121B2; US20170200274A1; WO2015176305A1; CN104067314B

Abstract

本发明涉及一种人形图像分割方法，方法包括：对训练人形图像的所有第一像素点，提取多尺度上下文信息；将所有第一像素点的所有尺度的图像块送入同一个卷积神经网络，形成多通道的卷积神经网络群，每一个通道对应一个尺度的图像块；采用反向传播算法来训练神经网络群，得到人形图像分割训练模型数据；对测试人形图像的所有第二像素点，提取多尺度上下文信息；每一个第二像素点的不同尺度的图像块送入与人形图像分割训练模型相对应的神经网络通道，如果第一概率大于第二概率，则第二像素点属于人形区域内，反之则第二像素点属于人形区域外。本发明人形图像分割方法，图像分割速度快，精确度高。

Description

人形图像分割方法

技术领域

本发明涉及模式识别领域，尤其涉及一种基于多尺度上下文深度学习的人形图像分割方法。

背景技术

在图像目标分割方法中，现有的分割方法是建立每一个像素点与其临近像素点的关系，并采用图模型来建模该关系。当邻近像素点个数太少时(例如基于图模型的方法考虑邻近几个或十几个像素点)，则无法形成有语义的分割；而当考虑的邻近像素点个数较多时，计算复杂度非常高，而且很可能模型难以收敛。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种人形图像分割方法，采用人形区域内像素点的多尺度上下文信息来表达人形目标；通过多通道深度学习网络来描述人形局部区域的不同尺度上下文信息。

为实现上述目的，本发明提供了一种人形图像分割方法，所述方法包括：

步骤S1，对训练人形图像的所有第一像素点，提取多尺度上下文信息；

步骤S2，将所有所述第一像素点的所有尺度的图像块送入同一个卷积神经网络，形成多通道的卷积神经网络群，每一个通道对应一个尺度的图像块；

步骤S3，采用反向传播算法来训练所述神经网络群，得到人形图像分割训练模型数据；

步骤S4，对测试人形图像的所有第二像素点，提取多尺度上下文信息；

步骤S5，每一个所述第二像素点的不同尺度的图像块送入与人形图像分割训练模型相对应的神经网络通道，所有所述神经网通道在全连接层融合在一起，在全连接层的最后一层的第一节点输出第一值，第二节点输出第二值，所述第一值表示所述第二像素点属于人形区域内的第一概率，所述第二值表示所述第二像素点属于人形区域外的概率；如果所述第一概率大于所述第二概率，则所述第二像素点属于人形区域内，反之则所述第二像素点属于人形区域外。

进一步的，所述步骤S1具体包括：对训练人形图像的人形区域内和区域外的所有第一像素点，以所述第一像素点为中心提取不同尺度的图像块。

进一步的，所述步骤S2中所述多通道的卷积神经网络群在全连接层融合在一起；所述全连接层的最后一层为输出层，并包括第一节点和第二节点，所有人形区域内的像素点的输出对应所述第一节点，所有人形区域外的像素点的输出对应所述第二节点。

进一步的，所述步骤S4具体包括：对测试人形图像的所有第二像素点，以所述像第二素点为中心提取不同尺度的图像块。

本发明人形图像分割方法，图像分割速度快，精确度高。

附图说明

图1为本发明人形图像分割方法的流程图；

图2为本发明人形图像分割方法的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

深度学习理论是在语音识别、图像目标分类与检测等领域都取得了非常好的结果。并且基于该理论的技术很容易被扩展成不同类型的应用。

一种基于多尺度上下文深度学习的人形图像分割方法采用深度学习技术来描述每一个像素点与周围大范围像素点(可以超过一万个像素点)的关系，并且采用卷积神经网络来建模这些关系，取得了非常好的人形图像分割结果。

图1为本发明人形图像分割方法的流程图，如图所示，本发明具体包括如下步骤：

步骤101，对训练人形图像的所有第一像素点，提取多尺度上下文信息；

具体的，对训练人形图像的人形区域内和区域外的所有第一像素点，以所述第一像素点为中心提取不同尺度的图像块。

步骤102，将所有第一像素点的所有尺度的图像块送入同一个卷积神经网络，形成多通道的卷积神经网络群，每一个通道对应一个尺度的图像块；

因为第一像素点可能有多个，而每一个第一像素点提取的图像块的尺度也会不同，在将图像块送入卷积神经网络的时候，因为每一个通道对应一个尺度的图像块，所以每一个通道对应的图像块的尺度也不同，而进入该通道的图像块的尺度是相同的。

步骤102中所述多通道的卷积神经网络群在全连接层融合在一起；所述全连接层的最后一层为输出层，并包括第一节点和第二节点，所有人形区域内的像素点的输出对应所述第一节点，所有人形区域外的像素点的输出对应所述第二节点。

例如，每一个通道的深度神经网络的参数配置为：第一层有48个5×5的卷积子，步长为1，带有3×3步长为2的空间聚集层；第二层有128个5×5的卷积子，步长为1，带有3×3步长为2的空间聚集层；第三层有192个卷积子，步长为1；第四层有192个卷积子，步长为1；第五层有128个卷积子，步长为1，带有3×3步长为2的空间聚集层。全连接层的参数配置为：第六层有1024个节点；第七层有1024个节点；第八层中有两个节点第一节点和第二节点，分别对应人形区域内和人形区域外。

步骤103，采用反向传播(back-propagation，BP)算法来训练所述神经网络群，得到人形图像分割训练模型数据；

该BP算法主要用于多层模型的训练，其主体是激励传播以及权重更新两个环节的反复迭代，直至达到收敛条件时停止。在激励传播阶段，先将训练样本送入网络获得激励响应，然后将响应与训练样本对应的目标输出求差，从而获得输出层与监督层的误差。在权重更新阶段，先将已知误差与本层响应对前一层响应的函数的导数相乘，从而获得两层之间权重矩阵的梯度，然后沿这个梯度的反方向以某个比例调整权重矩阵。随后，将该梯度当作前一层的误差从而计算前一层的权重矩阵。以此类推完成对整个模型的更新。

参见图2所示，为本发明人形图像分割方法的示意图，步骤101、102和103为训练阶段，首先需要有一定量(比如5000张图像)的样本标注用于训练模型。在本实施例中，样本指的是对行人区域的每一个像素点标注为1，对其他区域标注为0。

具体的，对5000张图像的每一个像素点提取三个尺度(比如224*224,112*112,56*56)上下文信息，即以该像素点为中心提取三个尺度的图像块。送入网络之前，先将这些图像块缩放至56×56的大小。所有像素点的相同尺度图像块送入同一个卷积神经网络，形成三通道的卷积神经网络群。所有通道在全连接层融合在一起。在神经网络群的最后一层(输出层)，行人区域的像素点对应一个节点即第一节点，行人背景区域的像素点对应另一个节点即第二节点。

步骤104，对测试人形图像的所有第二像素点，提取多尺度上下文信息；

具体的，对测试人形图像的所有第二像素点，以所述像第二素点为中心提取不同尺度的图像块

步骤105，每一个所述第二像素点的不同尺度的图像块送入与人形图像分割训练模型相对应的神经网络通道，所有所述神经网通道在全连接层融合在一起，在全连接层的最后一层的第一节点输出第一值，第二节点输出第二值，所述第一值表示所述第二像素点属于人形区域内的第一概率，所述第二值表示所述第二像素点属于人形区域外的概率；如果所述第一概率大于所述第二概率，则所述第二像素点属于人形区域内，反之则所述第二像素点属于人形区域外。

对测试图片的所有第二像素点判定完后，即完成人形图像分割。

步骤104和105为测试阶段，将任何一张带有行人的图片进行行人区域分割，具体的，输入一张测试图像，对其每一个像素点提取三个尺度(224*224,112*112,56*56)上下文信息，即以该像素点为中心提取三个尺度的图像块。送入网络之前，先将这些图像块缩放至56×56的大小。每一个像素点的不同尺度图像块送入与训练好的模型中相对应的神经网络通道，所有通道在全连接层融合在一起，在全连接层的最后一层两个节点上会分别输出一个值，表示该像素点属于行人和背景的概率。如果属于行人的概率大于属于背景的概率，则判定该像素点属于行人，反之则判定该像素点属于背景。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人形图像分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：对训练人形图像的人形区域内和区域外的所有第一像素点，以所述第一像素点为中心提取不同尺度的图像块。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中所述多通道的卷积神经网络群在全连接层融合在一起；所述全连接层的最后一层为输出层，并包括第一节点和第二节点，所有人形区域内的像素点的输出对应所述第一节点，所有人形区域外的像素点的输出对应所述第二节点。

4.根据权利要求1所述的方法，其特征在于，所述步骤S4具体包括：对测试人形图像的所有第二像素点，以所述像第二素点为中心提取不同尺度的图像块。