CN104881681A

CN104881681A - 基于混合图模型的图像序列类别标注方法

Info

Publication number: CN104881681A
Application number: CN201510268996.9A
Authority: CN
Inventors: 黄文琦; 龚小谨; 刘济林
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2015-09-02
Anticipated expiration: 2035-05-22
Also published as: CN104881681B

Abstract

本发明公开了一种基于混合图模型的图像序列类别标注方法，包括：对图像序列进行超像素分割，对超像素进行特征描述；对连续两帧图像进行帧间超像素的最近邻匹配；基于单帧图像超像素间空间域的邻接关系和多帧图像超像素间时间域的匹配关系，使用混合图模型对图像序列类别标注问题进行全局优化建模；该全局优化问题使用线性方法求解，得到连续多帧图像超像素的类别标签；本发明构建的混合图模型与以往图模型相比，既可以描述单帧图像中超像素之间的一阶的、对称的关系，也可以描述连续两帧图像超像素之间的高阶的、非对称的关系，并通过线性方法求解，有效地赋予了图像序列每个超像素一个时域上一致性更好、准确率更高的类别标签。

Description

基于混合图模型的图像序列类别标注方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于混合图模型的图像序列类别标注方法。

背景技术

基于概率图模型的图像序列类别标注是计算机视觉领域的重要研究问题，是自主车环境感知、智慧城市交通***构建等应用的关键支撑技术，其目的是赋予图像序列中的每个像素点一个类别标签。图像序列类别标注属于标签问题，概率图模型是对这一类标签问题进行全局优化的有效工具。基于概率图模型的标签类问题的关键思想是，将需要求解的标签视为随机变量，通过最小化整个概率场的能量，得到随机变量的全局最优解。

传统的方法中一般使用简单图模型来构建标签随机变量的随机场。简单图模型由顶点和简单构成，其中顶点代表随机变量，简单边连接两个顶点并用于描述两个随机变量之间的关系，边的权重定义为随机场的势能函数值。简单图模型易于求解，但是只能描述两两随机变量之间对称的关系，因此适合在单帧图像中使用。在序列的图像中，多个超像素在时间域上存在着高阶的、非对称的关系，因此不能用简单边进行很好地描述。超图中的超边可以用于描述多个变量之间高阶的、非对称的关系，但是传统的超图模型基于谱聚类的方法求解，适用于求解聚类的问题，尚未应用于图像序列的类标标注问题。

发明内容

本发明的目的在于针对传统简单图模型对变量间关系描述的局限性、传统超图模型求解方法的局限性，提供一种基于混合图模型的图像序列类别标注方法，该方法使用混合图模型描述了序列图像中超像素之间的关系，其中简单边描述单帧图像中超像素之间一阶的、对称的关系，超边描述图像帧间超像素之间高阶的、非对称的关系，最后图像序列的类别标注全局优化问题转化为对混合图模型的随机场能量最小化问题，通过线性优化方法进行求解，该方法获得了相比简单图模型的方法更准确、时序一致性更高的结果。

本发明的目的是通过以下技术方案来实现的：一种基于混合图模型的图像序列类别标注方法，包括如下步骤：

(1)输入图像序列，使用SLIC算法(Simple Linear Iterative Clustering)对图像序列中每一帧图像进行超像素分割，获得超像素p，将得到的第t帧图像的第i个超像素记为p_i ^t；

(2)使用Kernel描述符对步骤1中获得的超像素进行特征描述，得到超像素的特征向量，将超像素p_i ^t的特征向量记为f_i ^t；

(3)采用KNN算法(k-nearest neighbor)对步骤1中连续两帧图像的超像素进行时间域的匹配；

(4)构建基于混合图模型的全局优化问题，该混合图模型由顶点、两种简单边和一种超边组成；该混合图模型的顶点的集合记为每一个顶点v表示一个超像素的类别标签；该混合图模型的第一种简单边代表顶点的先验信息，该先验信息用势能函数E_E(f_c)描述；该混合图模型的第二种简单边代表单帧图像空间域上邻接的顶点之间对称的、成对的关系，这种关系用势能函数E_S(f_c)描述；该混合图模型的超边代表连续帧图像时间域上匹配的顶点之间不对称的、高阶的关系，这种关系用势能函数E_H(f_c)描述；

所述势能函数E_E(f_c)的定义为：

E_{E} (f_{c}) = \underset{&Exists; seed &Element; v}{Σ} {| f_{c} (v) - {\overset{&OverBar;}{f}}_{c} (v) |}^{2}, - - - (1)

其中，表示的是存在类别种子点的超像素v，种子点通过人工标注部分像素点类别标签的方法获得；f_c是一个维的列向量，由f_c(v),组成，其中f_c(v)为分类函数，其值表示顶点v属于类别c的置信度，取值范围在[0,1]之间；表示超像素v属于类别c的置信度的观测值，该观测值通过卷积递归神经网络分类器获得，c∈{1,2,...,C}，C表示类别总数；

所述势能函数E_S(f_c)的定义为：

E_{S} (f_{c}) = \underset{v &Element; ν}{Σ} \underset{u &Element; N (v)}{Σ} e_{S} (u, v), - - - (2)

其中，e_S(u,v)为一条第二种简单边，即单帧图像内相邻两个超像素u,v之间的关系，定义为：

e_S(u,v)＝w_s(u,v)·||f_c(u)-f_c(v)||²， (3)

其中f_c(u)∈[0,1]为超像素u属于类别c的置信度，该置信度通过递归卷积神经网络学习获得，w_s(u,v)为超像素u,v之间简单边的权重：

w_{s} (u, v) = \exp (- \frac{{| | f_{v} - f_{u} | |}^{2}}{{σ_{s}}^{2}}), - - - (4)

σ_s是根据实验经验设置的常数；

所述势能函数E_H(f_c)的定义为：

E_{H} (f_{c}) = \underset{e &Element; ϵ_{H}}{Σ} e_{H} (e), - - - (5)

其中，ε_H表示混合图模型中超边的集合，e_H(e)为一条超边e∈ε_H描述的帧间时域上匹配的多个超像素之间的关系，定义为：

e_{H} (e) = \underset{u, v &Element; ν}{Σ} \frac{w_{H} (e) H (u, e) H (v, e)}{δ (e)} \times {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2}, - - - (6)

其中，每一条超边e∈ε_H的权重为w_H(e)，定义为：

w_{H} (e) = \underset{u &Element; M (v)}{Σ} w_{s} (u, v), - - - (7)

M(v)表示在时序上与超像素v匹配的超像素的集合，Η为关联矩阵，该矩阵的大小为Η(v,e)的定义为：

H (v, e) = \{\begin{matrix} 1, & v &Element; e \\ 0, & v &NotElement; e \end{matrix}, - - - (8)

Η(u,e)的定义为：

H (u, e) = \{\begin{matrix} 1, & u &Element; e \\ 0, & u &NotElement; e \end{matrix}, - - - (9)

d(v)为超图中顶点的度，定义为：

d (v) = \underset{e &Element; ϵ_{H}}{Σ} w_{H} (e) \cdot H (v, e), - - - (10)

d(u)为超图中顶点u∈V的度，定义为：

d (u) = \underset{e &Element; E_{H}}{Σ} w_{H} (e) \cdot H (u, e), - - - (11)

δ(e)为超边e∈ε_H的度，定义为：

该混合图模型的全局优化问题描述如下：

\arg \min_{f_{c}} E_{E} (f_{c}) + λ_{1} E_{S} (f_{c}) + λ_{2} E_{H} (f_{c}), - - - (13)

其中，λ₁和λ₂为调整三项势能函数之间比例关系的权重；

(5)对每一个类别c求解公式(13)中的向量f_c，得到顶点属于类别c的置信度，具体包括以下子步骤：

(5.1)将全局优化函数，公式(13)矩阵化为：

其中，S为种子点标识矩阵，它是一个维的对角矩阵，定义如下

S (i, i) = \{\begin{matrix} 1, & &Exists; seeds &Element; v_{i} \\ 0, & otherwise \end{matrix}, - - - (15)

该对角矩阵仅在存在目标假设种子点的超像素_i对应的位置S(i,i)值为1，其它位置值为0，W_s是一个的稀疏矩阵，其每一行代表一对空间相邻的两个超像素u,v之间的差运算，分别用与作为对应超像素点u,v位置的权重，是超图的拉普拉斯矩阵，I是一个的单位阵，Θ＝D_v ^-1/2HW_HD_e ^-1H^TD_v ^-1/2，D_v是一个的对角阵，每个对角线上的元素为超图中对应的顶点的度d(v)，D_e是一个|ε_H|×|ε_H|的对角阵，每个对角线上的元素为超图中对应的超边的度δ(e)，W_H是一个|ε_H|×|ε_H|的对角阵，每个对角线上的元素为超图中对应的超边的权重w_H(e)；

(5.2)对全局优化函数公式(14)中的每个类别c的置信度f_c，进行线性优化，利用一阶导数等于零得到f_c的全局最优解：

(6)将步骤5中所有类别c∈{1,2,...,C}求解得到的向量用矩阵F＝(f₁,f₂,...,f_C)表示，每个顶点的类别标签由该顶点的类别置信度最大值决定，如下所示：

L = \arg \max_{c} F, - - - (17)

其中，L为每个顶点类别标签组成的列向量。

进一步地，所述步骤1中，所述采用SLIC算法对图像序列中每一帧图像进行超像素分割具体按照以下步骤进行：

(1.1)对一张包含N个像素点的图片，设置需要分割的超像素个数为K，初始化图片的超像素为K个大小为S＝N/K的矩形图像块，第k个超像素的中心为C_k＝[l_k,a_k,b_k,x_k,y_k]^T，其中是l_k,a_k,b_k是位置x_k,y_k处像素点的CIELAB颜色空间数值，k∈{1,2,...,K}；

(1.2)将超像素中心移动到初始点3×3的邻域内颜色梯度最小的位置，对每个像素点i设置标签初始值l(i)＝-1，距离初始值为d(i)＝∞，迭代次数初始值为T＝0；

(1.3)对每一个超像素的中心点C_k，计算该点2S×2S邻域内每个像素点i到该中心点C_k的距离D，其定义如下：

D＝|[l_i,a_i,b_i,x_i,y_i]^T-C_k|， (18)

若D＜d(i)，则设置距离d(i)＝D且标签l(i)＝k，从而得到新的超像素分割，其中第k个超像素由所有标记为标签k的像素点构成；

(1.4)对每个超像素k重新计算超像素的中心点C_k；

(1.5)T＝T+1；

(1.6)重复步骤1.3到1.5，直至T＝δ，其中δ为阈值。

进一步地，所述步骤2中，使用Kernel描述符对每个超像素进行特征描述，得到1200维的超像素特征向量。

进一步地，所述步骤3中，采用KNN算法对连续两帧图像的超像素进行时间域的匹配，具体为：基于特征向量，对当前帧的每个超像素k，在连续的前一帧和下一帧中分别寻找与特征向量f_k欧式距离最近的5个特征向量对应的超像素，作为当前帧超像素k时域上的匹配超像素。

本发明具有的有益效果是：本发明使用简单边和超边结合构建混合图模型描述序列图像超像素之间的关系，有效地描述了单帧内超像素之间一阶、对称的关系，以及时序上帧间超像素之间高阶、非对称的关系，提高了序列图像类别标注的准确性和时序一致性。同时，本发明提出的算法可以使用线性优化高效求解。本发明在时序图像的标签问题，例如类别标注、深度恢复等问题中广泛适用。

附图说明

图1为实施例1采用简单图模型方法与本发明方法进行序列图像类别标注后的图像对比图；(a)为待标注序列图像，(b)简单图模型方法类别标注后的序列图像，(c)本发明方法类别标注后的序列图像，(d)序列图像类别标注真实值；

图2为实施例2采用简单图模型方法与本发明方法进行序列图像类别标注后的图像对比图；(a)为待标注序列图像，(b)简单图模型方法类别标注后的序列图像，(c)本发明方法类别标注后的序列图像，(d)序列图像类别标注真实值。

具体实施方式

下面结合附图与实施例对本发明进行进一步说明。

本发明一种基于混合图模型的序列图像类别标注方法，包括如下步骤：

(1)输入图像序列，为了降低计算量，每次输入图像序列中连续的三帧图像，每帧图像为彩色图像，由红、蓝、绿三个颜色通道组成，像素分辨率为375×1242，使用SLIC算法对图像序列中每一帧图像进行超像素分割，获得超像素p，将得到的第t帧图像的第i个超像素记为p_i ^t，SLIC算法步骤如下：

D＝|[l_i,a_i,b_i,x_i,y_i]^T-C_k|， (18)

(1.4)对每个超像素k重新计算超像素的中心点C_k；

(1.5)T＝T+1；

(1.6)重复步骤1.3到1.5，直至T＝δ，其中δ为阈值；

(2)使用Kernel描述符对步骤1中获得的超像素进行特征描述，得到超像素的1200维的特征向量，将超像素p_i ^t的特征向量记为f_i ^t；

(3)采用KNN算法(k-nearest neighbor)对步骤1中连续两帧图像的超像素进行时间域的匹配，即基于特征向量，对当前帧的每个超像素k，在连续的前一帧和下一帧中分别寻找与特征向量f_k欧式距离最近的5个特征向量对应的超像素，作为当前帧超像素k时域上的匹配超像素；

所述势能函数E_E(f_c)的定义为：

E_{E} (f_{c}) = \underset{&Exists; seed &Element; v}{Σ} {| f_{c} (v) - {\overset{&OverBar;}{f}}_{c} (v) |}^{2}, - - - (1)

所述势能函数E_S(f_c)的定义为：

E_{S} (f_{c}) = \underset{v &Element; ν}{Σ} \underset{u &Element; N (v)}{Σ} e_{S} (u, v), - - - (2)

e_S(u,v)＝w_s(u,v)·||f_c(u)-f_c(v)||²， (3)

w_{s} (u, v) = \exp (- \frac{{| | f_{v} - f_{u} | |}^{2}}{{σ_{s}}^{2}}), - - - (4)

σ_s是根据实验经验设置的常数；

所述势能函数E_H(f_c)的定义为：

E_{H} (f_{c}) = \underset{e &Element; ϵ_{H}}{Σ} e_{H} (e), - - - (5)

e_{H} (e) = \underset{u, v &Element; ν}{Σ} \frac{w_{H} (e) H (u, e) H (v, e)}{δ (e)} \times {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2}, - - - (6)

其中，每一条超边e∈ε_H的权重为w_H(e)，定义为：

w_{H} (e) = \underset{u &Element; M (v)}{Σ} w_{s} (u, v), - - - (7)

H (v, e) = \{\begin{matrix} 1, & v &Element; e \\ 0, & v &NotElement; e \end{matrix}, - - - (8)

Η(u,e)的定义为：

H (u, e) = \{\begin{matrix} 1, & u &Element; e \\ 0, & u &NotElement; e \end{matrix}, - - - (9)

d(v)为超图中顶点的度，定义为：

d (v) = \underset{e &Element; ϵ_{H}}{Σ} w_{H} (e) \cdot H (v, e), - - - (10)

d(u)为超图中顶点u∈V的度，定义为：

d (u) = \underset{e &Element; E_{H}}{Σ} w_{H} (e) \cdot H (u, e), - - - (11)

δ(e)为超边e∈ε_H的度，定义为：

该混合图模型的全局优化问题描述如下：

\arg \min_{f_{c}} E_{E} (f_{c}) + λ_{1} E_{S} (f_{c}) + λ_{2} E_{H} (f_{c}), - - - (13)

其中，λ₁和λ₂为调整三项势能函数之间比例关系的权重；

(5.1)将全局优化函数，公式(13)矩阵化为：

S (i, i) = \{\begin{matrix} 1, & &Exists; seeds &Element; v_{i} \\ 0, & otherwise \end{matrix}, - - - (15)

L = \arg \max_{c} F, - - - (17)

其中，L为每个顶点类别标签组成的列向量。

实施例1

对待标注图像序列图1(a)分别利用简单图模型和本发明方法进行处理，由结果对比图可以看出，本发明方法有效地提高了序列图像类别标注的准确性和时序一致性。

实施例2

对待检测图像图2(a)分别利用简单图模型和本发明方法进行处理，由结果对比图可以看出，本发明方法有效地提高了序列图像类别标注的准确性和时序一致性。

表1为利用简单图模型和本发明方法在KITTI数据集上的准确率(Prec.)，召回率(Rec.)，F标准(FM)评价数值结果，该数值越高，表明该方法得到的标注结果越好。从表1可以看出，本发明方法比简单图模型方法在定量指标上取得更好的效果。

表1 图像序列实验结果对比数据

Claims

1.一种基于混合图模型的图像序列类别标注方法，其特征在于，包括如下步骤：

(1)输入图像序列，使用SLIC算法对图像序列中每一帧图像进行超像素分割，获得超像素p，将得到的第t帧图像的第i个超像素记为p_i ^t；

(3)采用KNN算法对步骤1中连续两帧图像的超像素进行时间域的匹配；

(4)构建基于混合图模型的全局优化问题，该混合图模型由顶点、两种简单边和一种超边组成；该混合图模型的顶点的集合记为ν，每一个顶点v表示一个超像素的类别标签；该混合图模型的第一种简单边代表顶点ν的先验信息，该先验信息用势能函数E_E(f_c)描述；该混合图模型的第二种简单边代表单帧图像空间域上邻接的顶点之间对称的、成对的关系，这种关系用势能函数E_S(f_c)描述；该混合图模型的超边代表连续帧图像时间域上匹配的顶点之间不对称的、高阶的关系，这种关系用势能函数E_H(f_c)描述；

所述势能函数E_E(f_c)的定义为：

E_{E} (f_{c}) = \underset{&Exists; seed &Element; v}{Σ} {| f_{c} (v) - {\overset{&OverBar;}{f}}_{c} (v) |}^{2}, - - - (1)

其中，表示的是存在类别种子点的超像素v，种子点通过人工标注部分像素点类别标签的方法获得；f_c是一个|ν|维的列向量，由f_c(v),v∈ν组成，其中f_c(v)为分类函数，其值表示顶点v属于类别c的置信度，取值范围在[0,1]之间；表示超像素v属于类别c的置信度的观测值，该观测值通过卷积递归神经网络分类器获得，c∈{1,2,...,C}，C表示类别总数；

所述势能函数E_S(f_c)的定义为：

E_{S} (f_{c}) = \underset{v &Element; ν}{Σ} \underset{u &Element; N (v)}{Σ} e_{S} (u, v), - - - (2)

e_S(u,v)＝w_s(u,v)·||f_c(u)-f_c(v)||²， (3)

w_{s} (u, v) = \exp (- \frac{{| | f_{v} - f_{u} | |}^{2}}{{σ_{s}}^{2}}), - - - (4)

σ_s是根据实验经验设置的常数；

所述势能函数E_H(f_c)的定义为：

E_{H} (f_{c}) = \underset{e &Element; ϵ_{H}}{Σ} e_{H} (e), - - - (5)

e_{H} (e) = \underset{u, v &Element; ν}{Σ} \frac{w_{H} (e) H (u, e) H (v, e)}{δ (e)} \times {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2}, - - - (6)

其中，每一条超边e∈ε_H的权重为w_H(e)，定义为：

w_{H} (e) = \underset{u &Element; M (v)}{Σ} w_{s} (u, v), - - - (7)

M(v)表示在时序上与超像素v匹配的超像素的集合，Η为关联矩阵，该矩阵的大小为|ν|×|ε_H|，Η(v,e)的定义为：

H (v, e) = \{\begin{matrix} 1, & v &Element; e \\ 0, & v &NotElement; e \end{matrix}, - - - (8)

Η(u,e)的定义为：

H (u, e) = \{\begin{matrix} 1, & u &Element; e \\ 0, & u &NotElement; e \end{matrix}, - - - (9)

d(v)为超图中顶点v∈ν的度，定义为：

d (v) = \underset{e &Element; ϵ_{H}}{Σ} w_{H} (e) \cdot H (v, e), - - - (10)

d(u)为超图中顶点u∈V的度，定义为：

d (u) = \underset{e &Element; E_{H}}{Σ} w_{H} (e) \cdot H (u, e), - - - (11)

δ(e)为超边e∈ε_H的度，定义为：

δ (e) = \underset{v &Element; ν}{Σ} H (v, e) . - - - (12)

该混合图模型的全局优化问题描述如下：

\underset{f_{c}}{\arg \min E_{E}} (f_{c}) + λ_{1} E_{S} (f_{c}) + λ_{2} E_{H} (f_{c}), - - - (13)

其中，λ₁和λ₂为调整三项势能函数之间比例关系的权重；

(5)对每一个类别c求解公式(13)中的向量f_c，得到顶点v∈ν属于类别c的置信度，具体包括以下子步骤：

(5.1)将全局优化函数，公式(13)矩阵化为：

其中，S为种子点标识矩阵，它是一个|ν|×|v|维的对角矩阵，定义如下

S (i, i) = \{\begin{matrix} 1, & &Exists; seeds &Element; v_{i} \\ 0, & otherwise, \end{matrix} - - - (15)

该对角矩阵仅在存在目标假设种子点的超像素_i对应的位置S(i,i)值为1，其它位置值为0，W_s是一个K×|ν|的稀疏矩阵，其每一行代表一对空间相邻的两个超像素u,v之间的差运算，分别用与作为对应超像素点u,v位置的权重，是超图的拉普拉斯矩阵，I是一个|ν|×|ν|的单位阵，Θ＝D_v ^-1/2HW_HD_e ^-1H^TD_v ^-1/2，D_v是一个|ν|×|ν|的对角阵，每个对角线上的元素为超图中对应的顶点的度d(v)，D_e是一个|ε_H|×|ε_H|的对角阵，每个对角线上的元素为超图中对应的超边的度δ(e)，W_H是一个|ε_H|×|ε_H|的对角阵，每个对角线上的元素为超图中对应的超边的权重w_H(e)；

(6)将步骤5中所有类别c∈{1,2,...,C}求解得到的向量用矩阵F＝(f₁,f₂,...,f_C)表示，每个顶点v∈ν的类别标签由该顶点的类别置信度最大值决定，如下所示：

L = \underset{c}{\arg \max F}, - - - (17)

其中，L为每个顶点类别标签组成的列向量。

2.根据权利要求1所述的一种基于混合图模型的图像序列类别标注方法，其特征在于，所述步骤1中，所述采用SLIC算法对图像序列中每一帧图像进行超像素分割具体按照以下步骤进行：

D＝|[l_i,a_i,b_i,x_i,y_i]^T-C_k|， (18)

(1.4)对每个超像素k重新计算超像素的中心点C_k；

(1.5)T＝T+1；

(1.6)重复步骤1.3到1.5，直至T＝δ，其中δ为阈值。

3.根据权利要求1所述的一种基于混合图模型的图像序列类别标注方法，其特征在于，所述步骤2中，使用Kernel描述符对每个超像素进行特征描述，得到1200维的超像素特征向量。

4.根据权利要求1所述的一种基于混合图模型的图像序列类别标注方法，其特征在于，所述步骤3中，采用KNN算法对连续两帧图像的超像素进行时间域的匹配，具体为：基于特征向量，对当前帧的每个超像素k，在连续的前一帧和下一帧中分别寻找与特征向量f_k欧式距离最近的5个特征向量对应的超像素，作为当前帧超像素k时域上的匹配超像素。