CN110866922B

CN110866922B - 基于强化学习和迁移学习的图像语义分割模型及建模方法

Info

Publication number: CN110866922B
Application number: CN201911132553.1A
Authority: CN
Inventors: 韩佳琪; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-05-16
Anticipated expiration: 2039-11-19
Also published as: CN110866922A

Abstract

本发明涉及图像的语义分割技术领域，更具体地，涉及一种基于强化学习和迁移学习的图像语义分割模型及建模方法，包括顺次通信连接的用于对原始图像进行预处理的预处理模块、用于强化学习中的环境部分的感知模块、用于强化学习中的智能体部分的像素类别决策模块。本发明将图像语义分割看成一种序列决策的过程，顺序地决定各像素的类别而不是一次性生成整张图像的分割结果，能够有效利用像素与像素之间的关系，减少训练时间，提高图像分割效果的精确性。

Description

基于强化学习和迁移学习的图像语义分割模型及建模方法

技术领域

本发明涉及图像的语义分割技术领域，更具体地，涉及一种基于强化学习和迁移学习的图像语义分割模型及建模方法。

背景技术

图像分割是计算机视觉领域的一项基本而富有挑战性的工作，已成为图像理解的重要组成部分。图像分割的目标是从输入图像中提取有意义的目标对象，将目标对象与背景完全分离出来，即进行像素级的分类，找到目标对象的轮廓分界线。传统的图像分割方法是利用图像的灰度、纹理、形状等基本特征，采用数字图像处理、拓补学、数学等方面的原理进行分割。随着机器学习、深度学习的发展，图像分割模型的效果已经远超传统的分割方法，产生了很多研究成果，但是还没有形成一个通用的标准方法，以适应各种各样的数据集。

目前常用来解决图像分割问题的技术大多以全卷积网络FCN为基础。FCN是通过反卷积与上采样，得到与输入图像相同尺寸的特征图，从而进行像素级的分类，解决了语义级的图像分割问题。基于区域选择的模型也逐渐由目标检测延伸到图像分割领域，例如MaskR-CNN模型是以Faster R-CNN模型为基础，在原本的候选框坐标回归和分类这两个分支上，增加了一个分支用来进行语义分割，这样不仅完成了目标检测与目标分类，还完成了像素级的图像语义分割。但这些基于或部分利用FCN思想的网络，由于上采样，模型对图像的细节不够敏感，语义分割比较模糊，并且没有充分考虑像素与像素之间的关系，即判断某个像素为某类别时对判断周围像素的影响，缺乏空间上的一致性。

发明内容

本发明的目的在于克服像素与像素之间缺乏空间上的一致性的不足，提供一种基于强化学习和迁移学习的图像语义分割模型及建模方法，将图像语义分割看成一种序列决策的过程，顺序地决定各像素的类别而不是一次性生成整张图像的分割结果，能够有效利用像素与像素之间的关系，减少训练时间，提高图像分割效果的精确性。

为解决上述技术问题，本发明采用的技术方案是：

提供一种基于强化学习和迁移学习的图像语义分割模型，包括：预处理模块，用于对原始图像进行预处理；感知模块，用于强化学习中的环境部分；像素类别决策模块，用于强化学习中的智能体部分；所述预处理模块、感知模块、像素类别决策模块顺次通信连接。

本发明包括一种基于强化学习和迁移学习的图像语义分割模型，预处理模块对原始图像进行预处理，包括调整图像大小到固定尺寸；感知模块作为强化学习中的环境部分，包含状态生成子模块和奖励生成子模块；奖励生成子模块包括分割效果奖励和分割比例奖励；像素类别决策模块作为强化学习中的智能体部分，包含图像特征提取子模块和像素类别选择模块；基于强化学习框架，感知模块会将状态输入到像素类别决策模块，由像素类别决策模块选择动作，然后感知模块会对此动作做出评价反馈给像素类别决策模块，以此对像素类别决策模块中的卷积神经网络进行训练。

进一步地，所述感知模块包括：状态生成子模块，用于根据精细或粗略等级生成不同的状态；奖励生成子模块，用于生成奖励；所述状态生成子模块与奖励生成子模块、预处理模块通信连接。

进一步地，所述奖励生成子模块生成的奖励包括分割效果奖励和分割比例奖励。

进一步地，所述像素类别决策模块包括：图像特征提取子模块，用于对输入的状态提取特征；像素类别选择子模块，用于根据Q值选择像素类别决策作为动作输出；所述图像特征提取子模块与像素类别选择子模块、状态生成子模块通信连接，所述像素类别选择子模块与状态生成子模块通信连接。

进一步地，所述图像特征提取子模块包括特征提取网络和经验回放存储器Ω；所述特征提取网络为卷积神经网络，其输出层的节点对应每个像素类别选择动作的Q值，所述经验回放存储器Ω用于对所述特征提取网络的参数进行训练。

本发明还包括一种基于强化学习和迁移学习的图像语义分割模型的建模方法，包括以下步骤：

S1.通过所述预处理模块对图像数据集进行预处理，将原始图像剪裁成固定大小，并随机旋转，得到数据集<图像X，标注图像Y>，划分训练集和测试集；

S2.利用迁移学习对所述图像特征提取子模块的卷积神经网络参数θ进行初始化；

S3.利用强化学习的深度Q网络框架，使用所述训练集，对所述图像特征提取子模块的卷积神经网络进行训练；

S4.使用步骤S3中训练好的参数对测试集图像的分割结果进行预测。

进一步地，在步骤S2中，还需将所述卷积神经网络在类似领域的大规模的图像数据集上进行预训练，并保留卷积层与池化层的参数作为初始化，全连接层则随机初始化。

进一步地，所述步骤S3的具体步骤如下：

所述步骤S3的具体步骤如下：

S31.从训练集采样得到原始图像x与标注图像y，对于训练集的每张图像x_i，所述状态生成子模块将原始图像与初始像素类别决策矩阵拼接，生成得到初始状态s₁；

S32.使用分级策略，确定本轮次的分块大小m，每个分块内的像素在类别决策时选择同一个动作，且每张图像每轮次的分块大小m逐渐减小，使每张图像从粗略到精细进行分割；

S33.当进入第一轮次时，直接执行步骤S34；当进入第n(n≥2)轮次时，判断每个分块是否处于边界或图像的最后一个分块；若是，则执行步骤S34，否则保留当前分块在上一轮的类别决策，直接将状态移动到下一分块，重复执行步骤S33；

S34.所述像素类别选择子模块根据ε-greedy策略选择动作a，以ε的概率随机选择动作a_τ，以1-ε的概率根据所述图像特征提取子模块输出的Q值选择动作a_τ＝max_aQ(s_τ，a；θ)；其中，s_τ表示当前状态，θ表示所述图像特征提取子模块的卷积神经网络参数；

S35.在步骤S34之后，所述状态生成子模块根据当前状态s_τ与像素类别选择动作a_τ得到新状态s_τ+1；

S36.在步骤S35之后，所述奖励生成子模块根据新状态s_τ+1的像素类别决策部分与图像x_i对应的标注图像y_i，生成奖励r_τ；所述奖励r_τ包括分割效果奖励r_base_τ和分割比例奖励r_ratio_τ；

S37.在步骤S36之后，将(s_τ，a_τ，r_τ，s_τ+1)存储在经验回放存储器Ω中；若经验回放存储器Ω中的记录达到一定数量后，每个训练步骤从经验回放存储器Ω中采样，采样的每条记录记为(s_j，a_j，r_j，s_j+1)；对于每条记录，计算目标值y_j和损失函数L(θ)，并更新卷积神经网络参数θ，然后执行步骤S38；若所述经验回放存储器Ω中的记录没有达到一定数量，则执行步骤S38；

S38.判断目前该分块是否为本图像的最后一个分块，若是，则进入步骤S39；否则，将状态移动到下一分块，然后回到步骤S33；

S39.若分块大小m不等于1，则回到步骤S32，进入下一轮次；若分块大小m等于1，则使用下一张图像从步骤S31开始训练模型。

进一步地，在步骤S37中，所述目标值y_j的计算公式为：

式中，r_j表示第j条记录的奖励值，s_j+1表示第j条记录的新状态，γ表示折扣因子，θ表示卷积神经网络参数，Q(s，a；θ)表示卷积神经网络输出的Q值；

所述损失函数L(θ)的计算公式为：

L(θ)＝(y_j-Q(s_j，a_j；θ))²；

式中，y_j表示目标值，Q(s_j，a_j；θ)表示第j条记录经过卷积神经网络输出的Q值。

进一步地，所述步骤S4的具体步骤如下：

S41.对于所述测试集的每张图像x_test_i，所述状态生成子模块将原始图像与初始像素类别决策矩阵拼接，得到初始状态s_test₁；

S42.使用所述分级策略，确定本轮次的分块大小m；

S43.当进入第一轮次时，直接执行步骤S44；当进入第n(n≥2)轮次时，判断每个分块是否处于边界或图像的最后一个分块；若是，则执行步骤S44，否则保留当前分块在上一轮次的类别决策，直接将状态移动到下一分块，重复执行步骤S43；

S44.所述像素类别选择子模块根据图像特征提取子模块输出的Q值选择动作a_test_τ＝max_aQ(s_test_τ，a；θ)；

S45.在步骤S44之后，所述状态生成子模块根据当前状态s_test_τ与像素类别选择动作a_test_τ得到新状态s_test_τ+1；

S46.在步骤S45之后，判断目前该分块是否为本图像的最后一个分块，若是，则进入步骤S47；否则，将状态移动到下一分块，然后回到步骤S43；

S47.若分块大小m不等于1，则回到步骤S42，进入下一轮次；若分块大小m等于1，则得到预测的图像语义分割结果并输出。

本发明还包括一种基于强化学习和迁移学习的图像语义分割模型的建模方法，将对每个像素的类别决策视为一种强化学习中的动作，将每一步像素类别决策的情况构建为强化学习中的状态，基于深度Q网络架构构建整个强化学习框架。预处理模块用于对原始图像进行预处理；状态子模块将图像与当前像素类别决策矩阵进行拼接，生成状态，并且使用了分级策略，通过设置分块大小来控制当前轮次的精细或粗略等级，每一轮次的分块大小逐渐减小，使得分割效果从粗略到精细；奖励生成子模块生成的奖励包含两部分：分割效果奖励和分割比例奖励；图像特征提取子模块以卷积神经网络结构为基础，将状态作为输入，输出层节点对应了每个像素类别选择动作的Q值；卷积神经网络使用迁移学习进行预训练，得到的卷积层与池化层的参数保留作为初始化，而全连接层随机初始化；像素类别选择子模块使用随机策略或根据Q值选择像素类别决策作为动作输出。

与现有技术相比，本发明的有益效果是：

本发明利用强化学***滑精确，还避免了逐个像素判定导致训练时间过长的现象出现。

附图说明

图1为本发明一种基于强化学习和迁移学习的图像语义分割模型的示意图。

图2为本发明一种基于强化学习和迁移学习的图像语义分割模型的建模方法的流程图。

图3为本发明实施例1中训练图像特征提取子模块的卷积神经网络的流程图。

图4为本发明实施例2中对测试集的图像预测分割结果的流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示为本发明一种基于强化学习和迁移学习的图像语义分割模型的实施例，包括：预处理模块，用于对原始图像进行预处理；感知模块，用于强化学习中的环境部分；像素类别决策模块，用于强化学习中的智能体部分；预处理模块、感知模块、像素类别决策模块顺次通信连接。

另外，感知模块包括：状态生成子模块，用于根据精细或粗略等级生成不同的状态；奖励生成子模块，用于生成奖励；状态生成子模块与奖励生成子模块、预处理模块通信连接。

其中，奖励生成子模块生成的奖励包括分割效果奖励和分割比例奖励。

其中，像素类别决策模块包括：图像特征提取子模块，用于对输入的状态提取特征；像素类别选择子模块，用于根据Q值选择像素类别决策作为动作输出；图像特征提取子模块与像素类别选择子模块、状态生成子模块通信连接，像素类别选择子模块与状态生成子模块通信连接。

其中，图像特征提取子模块包括特征提取网络和经验回放存储器Ω；特征提取网络为卷积神经网络，其输出层的节点对应每个像素类别选择动作的Q值，经验回放存储器Ω中存储的记录用于对特征提取网络的参数进行训练，存储的记录包括正例和负例，从经验回放存储器Ω中采样时正例和负例各占一半，以避免过多的错误像素类别决策对网络训练产生的不利影响。

实施例2

如图2至图3所示为本发明一种基于强化学习和迁移学习的图像语义分割模型的建模方法，包括以下步骤：

S1.通过预处理模块对图像数据集进行预处理，包括调整整个图像大小到固定尺寸，将原始图像剪裁成固定大小，L×L×3，其中L为图像边长，3为像素通道数，并随机旋转以进行图像增强；然后得到数据集<图像X，标注图像Y>，并将整个数据集的80％作为训练集，20％作为测试集；

S2.利用迁移学习对图像特征提取子模块的卷积神经网络参数θ进行初始化；首先找到一个类似领域的大规模的图像数据集作为源数据集，如ImageNet数据集，利用本发明的模型进行图像分割的数据集作为目标数据集；将卷积神经网络的输出层节点个数暂时改为源数据集的分类类别数量，然后将卷积神经网络在源数据集上训练一段时间，记录得到的卷积层与池化层的参数并保留，作为本模型卷积神经网络参数的初始化，而全连接层随机初始化；

S3.利用强化学习的深度Q网络框架，使用步骤S1的训练集，在感知模块与像素类别决策模块的交互中，对图像特征提取子模块的卷积神经网络进行训练；

其中，步骤S3的具体步骤如下：

S31.从训练集采样得到原始图像x与标注图像y，对于训练集的每张图像x_i，状态生成子模块将当前图像x_i(大小为L×L×3)，与当前像素类别决策矩阵(大小为L×L×6)在第3维拼接，生成得到初始状态s_τ(大小为L×L×6)；

其中，当前像素类别决策矩阵的构建方式为：每个像素对应取值范围为{(0，0，0)，(1，1，1)，(2，2，2)，…，(K，K，K)}，K表示图像中的目标对象与背景的总类别数，(0，0，0)表示当前像素类别还没有进行判定，(k，k，k)表示当前像素类别判定为第k类。每个像素的取值为3维，是为了使像素类别决策矩阵与图像矩阵处在相同的状态空间中；对于训练集的每张图像，使用分级策略遍历像素判定类别，每次判定时，状态生成子模块生成当前状态，输入到图像特征提取子模块的卷积神经网络中；像素类别选择子模块根据网络的输出层判断选择哪种动作并输出；状态生成子模块根据动作得到下一个状态的图像；

S32.使用分级策略，确定本轮次的分块大小m，每个分块内的像素在类别决策时选择同一个动作，即每个分块内的像素选择同一类别；且每张图像每轮次的分块大小m逐渐减小，具体地，若前一轮次分块大小为m_τ，则下一轮次分块大小为

直到最终m_τ＝1为止，使每张图像从粗略到精细进行分割；

S33.当进入第一轮次时，直接执行步骤S34；当进入第n(n≥2且n为自然数)轮次时，即从第二轮次开始，判断每个分块是否处于边界或图像的最后一个分块；若是，则执行步骤S34，否则保留当前分块在上一轮的类别决策，直接将状态移动到下一分块，重复执行步骤S33；

具体地，判断是否处于边界的具体方式为：若前一轮次的分块被上下左右及对角线方向的8个相同类别的分块所包围，则该分块不是位于边界，可以不进行精细划分；若分块位于整张图像的边界，则少于8个，需要在本轮次划分为小分块进行类别决策；

S34.像素类别选择子模块根据ε-greedy策略选择动作a，以ε的概率随机选择动作a_τ，以1-ε的概率根据图像特征提取子模块输出的Q值选择动作a_τ＝max_aQ(s_τ，a；θ)；其中，s_τ表示当前状态，θ表示图像特征提取子模块的卷积神经网络参数；

S35.在步骤S34之后，状态生成子模块根据当前状态s_τ与像素类别选择动作a_τ得到新状态s_τ+1；

具体地，生成新状态的方法为：在当前状态的像素类别决策矩阵中，根据a_τ更新此次类别判定的分块内的像素，而原始图像部分不变；

S36.在步骤S35之后，奖励生成子模块根据新状态s_τ+1的像素类别决策部分与图像x_i对应的标注图像y_i，生成奖励r_τ；奖励r_τ包括分割效果奖励r_base_τ和分割比例奖励r_ratio_τ；

其中，分割效果奖励r_base_τ根据当前分块(大小为m×m)内的像素类别决策状态图像与目标标注图像之间的交并比(Intersection-over-Union，IoU)来设置，分割比例奖励r_ratio_τ按照图像中目标对象的面积占整张图像面积的比例来设置；

具体地，分割效果奖励r_base_τ与分割比例奖励r_ratio_τ的计算方式如下：

r_τ＝r_base_τ+r_ratio_τ，

其中，Union_τ表示IoU_τ的分母，n_k，τ-1表示前一个状态的像素类别决策矩阵中预测为第k类的像素个数，n_{k，ground_truth}表示真实标注图像中第k类的像素个数，n_total表示当前图像的像素总个数；r_ratio_τ的设计表明，对于一幅图像，当预测的第k类像素占整张图像的比例小于真实标注图像的第k类像素占整张图像的比例，将当前处理的分块内的像素预测为第k类会得到相对较大的奖励；而当预测的第k类像素占整张图像的比例大于真实标注图像的第k类像素占整张图像的比例，将当前处理的分块内的像素预测为第k类会得到相对较小的奖励，避免预测的每个类别的比例与真实标注图像的比例相差太大；

S37.在步骤S36之后，如果r_τ≥0，就将记录(s_τ，a_τ，r_τ，s_τ+1)存储在特征提取子模块的正例经验回放存储器Ω_pos中；如果r_τ＜0，就将记录(s_τ，a_τ，r_τ，s_τ+1)存储在特征提取子模块的负例经验回放存储器Ω_neg中；如果经验回放存储器Ω_pos和Ω_neg中的记录都达到mini_batch_size的数量，分别从正例经验回放存储器Ω_pos和负例经验回放存储器Ω_neg中采样相同数量的记录，整合在一起，采样的每条记录记为(s_j，a_j，r_j，s_j+1)，对于每条记录，计算目标值y_j和损失函数L(θ)，更新卷积神经网络参数θ，然后执行步骤S38；如果经验回放存储器Ω_pos或Ω_neg中的记录没有达到mini_batch_size的数量，则直接执行步骤S38；

其中，目标值y_j的计算公式为：

损失函数L(θ)的计算公式为：

L(θ)＝(y_j-Q(s_j，a_j；θ))²；

式中，y_j表示目标值，Q(s_j，a_j；θ)表示第j条记录经过卷积神经网络输出的Q值；

实施例3

本实施例与实施例2类似，所不同之处在于，如图4所示，本实施例中步骤S4的具体步骤如下：

S41.对于测试集的每张图像x_test_i，状态生成子模块将原始图像与初始像素类别决策矩阵拼接，得到初始状态s_test₁；

S42.使用分级策略，确定本轮次的分块大小m；

S43.当进入第一轮次时，直接执行步骤S44；当进入第n(n≥2且n为自然数)轮次时，即从第二轮次开始，判断每个分块是否处于边界或图像的最后一个分块；若是，则执行步骤S44，否则保留当前分块在上一轮次的类别决策，直接将状态移动到下一分块，重复执行步骤S43；

S44.像素类别选择子模块根据图像特征提取子模块输出的Q值选择动作a_test_τ＝max_aQ(s_test_τ，a；θ)；

S45.在步骤S44之后，状态生成子模块根据当前状态s_test_τ与像素类别选择动作a_test_τ得到新状态s_test_τ+1；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习和迁移学习的图像语义分割的建模方法，其特征在于，包括以下步骤：

S1.通过预处理模块对图像数据集进行预处理，将原始图像剪裁成固定大小，并随机旋转，得到数据集<图像X，标注图像Y＞，划分训练集和测试集；

S2.利用迁移学习对图像特征提取子模块的卷积神经网络参数θ进行初始化；

S3.利用强化学习的深度Q网络框架，使用所述训练集，对所述图像特征提取子模块的卷积神经网络进行训练；其中，所述步骤S3的具体步骤如下：

S31.从训练集采样得到原始图像x与标注图像y，对于训练集的每张图像x_i，状态生成子模块将原始图像与初始像素类别决策矩阵拼接，生成得到初始状态s₁；

S34.像素类别选择子模块根据ε-greedy策略选择动作a，以ε的概率随机选择动作a_τ，以1-ε的概率根据所述图像特征提取子模块输出的Q值选择动作a_τ＝max_aQ(s_τ，a；θ)；其中，s_τ表示当前状态，θ表示所述图像特征提取子模块的卷积神经网络参数；

S36.在步骤S35之后，奖励生成子模块根据新状态s_τ+1的像素类别决策部分与图像x_i对应的标注图像y_i，生成奖励r_τ；所述奖励r_τ包括分割效果奖励r_base_τ和分割比例奖励r_ratio_τ；

S39.若分块大小m不等于1，则回到步骤S32，进入下一轮次；若分块大小m等于1，则使用下一张图像从步骤S31开始训练模型；

S4.使用步骤S3中训练好的参数对测试集图像的分割结果进行预测；其中，所述步骤S4的具体步骤如下：

S42.使用所述分级策略，确定本轮次的分块大小m；

S44.所述像素类别选择子模块根据图像特征提取子模块输出的Q值选择动作a_test_τ＝max_a Q(s_test_τ，a；θ)；

2.根据权利要求1所述的基于强化学习和迁移学习的图像语义分割的建模方法，其特征在于，在步骤S2中，还需将所述卷积神经网络在类似领域的大规模的图像数据集上进行预训练，并保留卷积层与池化层的参数作为初始化，全连接层则随机初始化。

3.根据权利要求1所述的基于强化学习和迁移学习的图像语义分割的建模方法，其特征在于，在步骤S37中，所述目标值y_j的计算公式为：

所述损失函数L(θ)的计算公式为：

L(θ)＝(y_j-Q(s_j，a_j；θ))²；

4.一种应用于权利要求1至3任一项所述的基于强化学习和迁移学习的图像语义分割的建模方法的模型，其特征在于，包括：

预处理模块，用于对原始图像进行预处理；

感知模块，用于强化学习中的环境部分；

像素类别决策模块，用于强化学习中的智能体部分；

所述预处理模块、感知模块、像素类别决策模块顺次通信连接。

5.根据权利要求4所述的基于强化学习和迁移学习的图像语义分割模型，其特征在于，所述感知模块包括：

状态生成子模块，用于根据精细或粗略等级生成不同的状态；

奖励生成子模块，用于生成奖励；

所述状态生成子模块与奖励生成子模块、预处理模块通信连接。

6.根据权利要求5所述的基于强化学习和迁移学习的图像语义分割模型，其特征在于，所述奖励生成子模块生成的奖励包括分割效果奖励和分割比例奖励。

7.根据权利要求6所述的基于强化学习和迁移学习的图像语义分割模型，其特征在于，所述像素类别决策模块包括：

图像特征提取子模块，用于对输入的状态提取特征；

像素类别选择子模块，用于根据Q值选择像素类别决策作为动作输出；

所述图像特征提取子模块与像素类别选择子模块、状态生成子模块通信连接，所述像素类别选择子模块与状态生成子模块通信连接。

8.根据权利要求7所述的基于强化学习和迁移学习的图像语义分割模型，其特征在于，所述图像特征提取子模块包括特征提取网络和经验回放存储器Ω；所述特征提取网络为卷积神经网络，其输出层的节点对应每个像素类别选择动作的Q值，所述经验回放存储器Ω用于对所述特征提取网络的参数进行训练。