CN108596184B - 图像语义分割模型的训练方法、可读存储介质及电子设备 - Google Patents
图像语义分割模型的训练方法、可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN108596184B CN108596184B CN201810375579.8A CN201810375579A CN108596184B CN 108596184 B CN108596184 B CN 108596184B CN 201810375579 A CN201810375579 A CN 201810375579A CN 108596184 B CN108596184 B CN 108596184B
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- image
- training
- difficult sample
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种图像语义分割的训练方法包括:将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含特征图及预测的语义分割结果;将特征图输入到困难样本挖掘单元中,以计算出训练图像的困难样本;依据预测语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将预测语义分割结果中预测错误的像素作为参考困难样本;依据预测语义分割结果和预先标注的语义分割信息、困难样本和参考困难样本,对基础图像语义分割模型及困难样本挖掘单元的参数进行修正。本发明还提供了一种应用该图像语义分割的训练方法的可读存储介质及电子设备。本发明图像语义分割模型的训练方法、可读存储介质及电子设备可提高语义分割结果的准确率。
Description
技术领域
本发明涉及计算机视觉与图像处理领域,尤其是涉及一种基于像素级困难样本挖掘的图像语义分割模型的训练方法、可读存储介质及电子设备。
背景技术
图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等),可应用于例如无人驾驶等领域。
目前,用于图像语义分割的较主流的解决方案主要基于卷积神经网络(Convolutional Neural Networks,简称CNN),该网络学习图像的语义特征表示。比如全卷积网络(Fully Convolutional Networks,简称为FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络,以端到端的方式将任意大小的输入图像转换为像素级的分类结果,为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab和DilatedNet把全卷积网络中普通卷积替换为扩散卷积使得语义分割预测时结合更多的上下文和场景信息。
然而,这些模型还存在各种各样的问题,特别是对于复杂的对象和多样的场景。例如全卷积网络忽略了图像的全局信息和潜在有用的场景语义上下文信息,因此容易将一些物体的某些部分错误地标注为其他物体。最近一些学者尝试融合更多的上下文信息和全局信息来解决这些容易预测错误的区域,例如DeepLab和DilatedNet扩大了滤波器的感受野以融合更多的上下文,但遗漏了详细的信息,会把同一个物体预测成多个标签;ParseNet则融合了全局平均池化的特征以使这部分区域与全局标签统一,但对于场景复杂包含大量标签的图像则没有太大变化;DenseCRF基于全卷积网络的预测结果和图像的颜色纹理信息来进行后处理,合并颜色纹理相近但标签不同的区域,但容易把原本预测正确的区域合并为错误的区域。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
鉴于以上内容,有必要提供一种可提高语义分割结果的准确率的图像语义分割模型的训练方法、可读存储介质及电子设备。
一种图像语义分割的训练方法,包括:
将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;
将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本;
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测语义分割结果中预测错误的像素作为参考困难样本;及
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息、所述计算得到的困难样本和参考困难样本,对所述基础图像语义分割模型及所述困难样本挖掘单元的参数进行修正。
进一步地,所述图像语义分割的训练方法还包括:
判断所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件;
当所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果未满足预设的收敛条件时,
执行所述将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;或
执行依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测语义分割结果中预测错误的像素作为参考困难样本。
进一步地,在所述的图像语义分割的训练方法中,所述将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果包括:
通过卷积模块及卷积层对所述训练图像进行卷积操作,以生成对应的特征图;
通过反卷积层对所述特征图进行上采样,以生成与训练图像相同尺寸图像。
进一步地,在所述的图像语义分割的训练方法中,所述困难样本挖掘单元接收所述卷积模块生成的特征图,以计算出所述训练图像的困难样本。
进一步地,在所述的图像语义分割的训练方法中,所述将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本包括:
通过预设卷积层对所述特征图进行卷积操作生成目标特征图,以将所述特征图上的每个像素分为困难样本与非困难样本;
对卷积后的目标特征图的每个像素选取最大值所在的标号,得到所述困难样本图。
进一步地,在所述的图像语义分割的训练方法中,所述对所述基础图像语义分割模型和所述困难样本挖掘单元的参数进行修正包括:
通过交叉熵损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差;
利用反向传播算法,并依据所述误差更新所述基础图像语义分割模型和所述困难样本挖掘单元的参数。
进一步地,在所述的图像语义分割的训练方法中,所述判断所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件包括:
判断通过交叉熵损失函数计算的所述预测语义分割结果与所述预先标注的语义分割信息之间的误差的值是否小于一预设阈值;
当所述预测语义分割结果与所述预先标注的语义分割信息之间的误差的值是小于预设阈值时,判定所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件。
进一步地,在所述的图像语义分割的训练方法中,所述判断所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件包括:
判断迭代次数达到预定值;
当迭代次数达到所述预定值时,判定所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现如下步骤:
将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;
将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本;
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测语义分割结果中预测错误的像素作为参考困难样本;及
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息、所述计算得到的困难样本和参考困难样本,对所述基础图像语义分割模型及所述困难样本挖掘单元的参数进行修正。
一种电子设备,包括存储器及处理器,所述存储器存储若干被所述处理器执行的程序,所述处理器执行所述程序时实现如下步骤:
将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;
将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本;
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测语义分割结果中预测错误的像素作为参考困难样本;及
依据所述训练图像的所述预测语义分割结果和预先标注的语义分割信息、所述计算得到的困难样本和参考困难样本,对所述基础图像语义分割模型及所述困难样本挖掘单元的参数进行修正。
本发提供一种图像语义分割的训练方法、可读存储装置及电子设备,可通过对图像语义分割模型进行像素级的困难样本的挖掘,使模型更关注像素级的困难样本并对其进行修正,以得到具有较高像素准确率的语义分割结果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供图像语义分割模型的训练方法的较佳实施方式的流程图。
图2是本发明提供的一种示例性的图像语义分割模型的示意图。
图3是本发明应用图像语义分割模型的训练方法的电子设备的较佳实施方式的方框图。
主要元件符号说明
如下具体实施例将结合上述附图进一步说明本发明。
具体实施例
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
下面结合附图和具体的实施方式对本发明作进一步说明。
本发明旨在提供一种图像语义分割的训练方法、可读存储装置及电子设备,通过对图像语义分割模型进行像素级的困难样本的挖掘,使模型更关注像素级的困难样本并对其进行修正,以得到具有较高像素准确率的语义分割结果。为此,本发明的具体实施方式提供了一种图像语义分割模型的训练方法、可读存储装置及电子设备。
请参考图1,本发明图像语义分割的训练方法的较佳实施方式包括如下步骤:
步骤S200,将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果。
请一并参阅图2,其为图像语义分割模型的训练***的较佳实施方式的示意图,所述训练***可包括图像语义分割模型100(例如FCN、DilatedNet、DeepLab等图像语义分割模型)及困难样本挖掘单元10。所述图像语义分割模型100可接收训练图像集合,并对所述训练图像集合进行图像语义分割后得到包含语义信息的特征图及预测的语义分割结果。
可以理解地,所述训练图像集合可包括若干训练图像P0,所述训练图像P0可预先采用相关的软件进行图像的语义分割信息的标注,以得到对应所述训练图像P0的语义分割信息O0。本实施方式中,所述训练图像P0的语义分割信息的标注可为像素级别的,即可标注所述训练图像P0中每个像素所属的类别信息。例如,在给出一个人骑摩托车的照片,语义分割信息的标注可将照片中的人的每个像素标注为红色、摩托车的每个像素标注为绿色,而照片的背景中的每个像素可标注为黑色。
具体地,对于每一训练图像P0,输入到图像语义分割模型100中,通过所述图像语义分割模型100对训练图像P0进行特征提取和语义分割,得到所述训练图像P0所对应的包含了语义信息的特征图FM和预测的语义分割结果O1。
本实施方式中,所述图像语义分割模型100可为FCN(全卷积网络)模型。当然,也可是其它常用的图像语义分割模型,例如DilatedNet、DeepLab等,在此不作限制。
较佳地,所述图像语义分割模型100可包括卷积模块102、卷积层104及反卷积层106,其中,所述卷积模块102可包括第一至第五卷积模块,每个卷积模块之后也可接一池化层(图未示),所述卷积层104可包括第一至第三卷积层。所述第一至第五卷积模块依次连接,所述第一至第三卷积层依次连接,所述第一卷积层连接于所述第一卷积模块,所述第三卷积层连接于所述反卷积层106。所述卷积模块102及卷积层104用于对训练图像P0进行卷积操作,以生成对应的特征图,所述反卷积层106可用于对所述卷积层104输出的特征图进行上采样,以生成与训练图像相同尺寸的包含预测的语义分割结果的图像。
所述训练图像P0输入后,先经过5个卷积模块102,再经过所述3个卷积层104和所述1个反卷积层106,最后得到FCN的语义分割结果O1(即FCN输出的包含预测语义分割结果信息的特征图)。可以理解地,每个所述卷积模块102可包含2至3层,每个所述卷积模块102内的每个卷积层之后又接一个非线性响应ReLU层(激活函数层)。所述3个卷积层104中的前两个卷积层也各接一个非线性响应ReLU层(即第一卷积层后连接一非线性响应ReLU层,第二卷积层后连接一非线性响应ReLU层),最后一个卷积层104则直接连所述反卷积层106(即第三卷积层104直接连接所述反卷积层106)。
训练的时候,FCN模型中最后两个非线性响应ReLU层之后可以添加Dropout层使训练结果不容易过拟合。但在训练好之后,正式使用来进行图像语义分割预测的时候,不需要Dropout层。
本实施方式中,所述特征图FM可取自图像语义分割模型100中倒数第二个卷积层的输出结果(如第四卷积模块102输出的结果)。在前述具体的实施例中,可取FCN模型中的倒数第二个卷积模块后作为分界线,分界线前端是特征提取器,用于提取特征图,分界线后端是像素分类器。即倒数第二个卷积层的输出结果作为特征图。本发明并不对基础图像语义分割模型有过多约束,只需提取出合理的具有语义信息的特征图即可。
步骤S202,将对应所述训练图像的所述特征图输入到困难样本挖掘单元10中,以通过所述困难样本挖掘单元10计算出所述训练图像P0的像素级困难样本。
当得到训练图像P0的包含语义信息的特征图FM后,再将特征图FM输入到所述困难样本挖掘单元10中,通过所述困难样本挖掘单元10对特征图进行像素级困难样本挖掘,得到像素级的困难样本HP。
经过前述训练后满足预设收敛条件的图像语义分割模型,可用于对任意待分割图像进行图像语义分割,此时困难样本挖掘单元10可以移除。
具体挖掘过程可包括:
S2021,对所述特征图FM进行一次或多次的卷积操作,最后一个卷积层(预设卷积层)的输出通道数为2,即通过一次或多次的卷积操作把特征图FM上每个像素分为困难样本与非困难样本的两个类。
较佳地,所述困难样本挖掘单元10可以包含三个卷积层,如包含第四至第六卷积层,其中:第四卷积层有4096个内核大小为7×7的滤波器,第五卷积层有4096个内核大小为1×1的滤波器,第六卷积层(即预设卷积层)有2个内核大小为1×1的滤波器。所述第四及第五卷积层后各接一个非线性响应ReLU层。当然,所述困难样本挖掘单元10也可以不包含三个卷积层,还可以是其它形式,只需最后一个卷积层包含2个滤波器即可,亦即输出通道数为2。
在本实施方式中,特征图FM可表示为W×H×C的三维矩阵,其中W、H、C分别为特征图的宽、高和通道数,故,所述困难样本挖掘单元10进行一次或多次的卷积操作后得到表示为W×H×2的三维矩阵的新的特征图FM2(目标特征图)。
S2023,对卷积后特征图FM2的每个像素选取最大值所在的标号,得到困难样本HP,其中第1类为困难样本,第2类为非困难样本。这里亦可交换困难样本与非困难样本的表示顺序,本发明不作限制。
步骤S204,依据所述训练图像的所述预测语义分割结果O1和预先标注的语义分割信息O0,统计预测错误的像素,将所述预测语义分割结果O1中预测错误的像素作为参考困难样本HP0。
可以理解地,通过遍历所述特征图FM2中预测语义分割结果O1内每个像素,判断其与所述特征图FM中预先标注的语义分割信息O0内对应位置上的分割信息是否相同,若不相同则为预测错误的像素。
较佳地,由所述反卷积层106的上采样后得到的图像的大小可与所述训练图像P0相同,因此,获取所述参考困难样本HP0时,可判断所述特征图FM2中第一像素的预测语义分割结果O1是否与所述特征图FM中第一像素的预先标注的语义分割信息O0相同,其中,所述特征图FM2中第一像素在所述特征图FM2中位置与所述特征图FM中第一像素在特征图FM中的位置相同。因而,当所述特征图FM2中第一像素的预测语义分割结果O1与所述特征图FM中第一像素的预先标注的语义分割信息O0不相同,则将所述特征图FM2中第一像素设置为预测错误的像素;当所述特征图FM2中第一像素的预测语义分割结果O1与所述特征图FM中第一像素的预先标注的语义分割信息O0相同时,则对所述特征图FM2及特征图FM中后续的像素进行判断,如此,可将所述预测语义分割结果O1中预测错误的像素选择出来作为参考困难样本HP0。
步骤S206,依据所述训练图像的所述预测语义分割结果O1和预先标注的语义分割信息O0、所述计算得到的困难样本HP和参考困难样本HP0,对所述基础图像语义分割模型和所述困难样本挖掘单元的参数进行修正。
较佳地,参数修正的方法可以采用交叉熵损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差,并利用反向传播算法,依据所述误差更新所述基础图像语义分割模型和所述困难样本挖掘单元的参数。
步骤S208,判断所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件;当所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件时,本流程结束;当所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果未满足预设的收敛条件,返回执行步骤S200,以进行迭代训练。
可以理解地,利用训练图像集中的不同训练图像来不断地迭代训练所述图像语义分割模型100,当所述交叉熵损失函数计算的所述预测语义分割结果与所述预先标注的语义分割信息之间的误差的值小于预设阈值,或者迭代次数达到预定值时,可认为训练结果收敛,训练结束,得到训练好的所述图像语义分割模型,可直接用于对待处理图像进行图像语义分割预测。当所述交叉熵损失函数计算的所述预测语义分割结果与所述预先标注的语义分割信息之间的误差的值不小于所述预设阈值,或者迭代次数未达到预定值时,则继续进行迭代训练。
在其他实施方式中,步骤S202通过所述困难样本挖掘单元10计算出所述训练图像P0的像素级困难样本后可直接执行步骤S210,如此,可优先判断所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件;当所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件时,本流程结束;当所述基础图像语义分割模型和所述困难样本挖掘单元的训练结果未满足预设的收敛条件,则可执行步骤S204。
经过前述训练后满足预设收敛条件的图像语义分割模型,可用于对任意待分割图像进行图像语义分割,此时困难样本挖掘单元10可以移除。
继续以图2为例对上述图像语义分割过程进行说明:
在使用训练好的所述图像语义分割模型时,输入的图像P0即为待分割图像,该待分割的图像输入FCN中,得到待分割图像的预测语义分割结果O0。
在优选的实施例中,输入的待分割图像P0还可预先进行一些图像预处理,比如:缩放、旋转、平移、减均值等,但不限于此。另外,还可对预测语义分割结果O0进行一些譬如修正等后处理操作,例如进行包括但不限于DenseCRF的修正处理。
为了验证本发明提出的基于像素级困难样本挖掘的图像语义分割模型训练方法的有效性,下面将与原来训练方法进行对比。其中原来训练方法指不包含困难样本挖掘单元只有基础图像语义分割模型时的常用训练方法,数据集则使用公开常用的数据集SIFTFlow和PASCAL-Context,评价标准采用广泛使用的平均交并比(Mean IoU)和总体像素准确率(Pixel Accuracy),所得结果如下表1所示:
表1
平均交并比表示先对每个分割类别计算预先标注的语义分割信息与预测语义分割结果的交并比,再按类别取平均值。预先标注的语义分割信息与预测语义分割结果的交并比则指二者的交集与二者的并集之比,亦即正确预测的像素数量除以预测或标注为该类别的像素数量。总体像素准确率则指所有正确预测的像素数量除以所有像素数量。从表1中可以看出本发明提出的训练方法比原来训练方法的预测效果要好,语义分割准确率更高。
请参阅图3,本发明图像语义分割模型的训练***417应用于电子设备40的较佳实施方式的方框图。所述电子设备40可包括计算处理装置417,如手机、平板电脑、计算机等具有数据处理功能的电子设备。
所述电子设备40是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备40可以是,但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、智能式穿戴式设备等。
所述电子设备40所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等,如所述电子设备40可网络接口409接入互联网、广域网、城域网、局域网、虚拟专用网络。
所述存储器405可以是不同类型存储设备或计算机可读存储介质,用于存储各类数据。例如,可以是电子设备40的内存,还可以是可外接于该电子设备40的存储卡,如闪存、SM卡(Smart Media Card,智能媒体卡)、SD卡(Secure Digital Card,安全数字卡)等。存储器405用于存储各类数据,例如,所述电子设备40中安装的包括信息处理的应用(Applications)、应用上述信息处理方法而设置、获取的数据等信息。
所述处理器401用于执行所述计算处理方法以及所述电子设备40内安装的各类软件,例如操作***、信息处理软件等。所述处理器401包含但不限于处理器(CentralProcessing Unit,CPU)、微控制单元(Micro Controller Unit,MCU)等用于解释计算机指令以及处理计算机软件中的数据的装置,可以包括一个或者多个微处理器、数字处理器。所述显示屏403可以是触摸屏等其他用于显示画面的设备。
所述电子设备40包括的计算处理装置417可以包括一个或多个的模块,所述一个或多个模块可以被存储在电子设备40的存储器405中并可以被配置成由一个或多个处理器(本实施例为一个处理器401)执行,以完成本发明。例如,参阅图3所示,所述计算处理装置417包括存储器405、输入输出接口407、显示屏403及通过总线411与所述存储器405、输入输出接口407与显示屏403进行数据交换的处理器401。其中,所述输入输出接口407可连接于鼠标及/或键盘(图未示)。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在处理器中的执行过程。
本实施例中,所述显示屏403可为具有触摸功能的显示屏,进而为用户的操作提供便利。所述存储器405可存储有若干程序代码,以被所述处理器401执行,进而实现所述训练***417的功能。
本实施方式中,所述训练***417可包括所述图像语义分割模型100及所述困难样本挖掘单元100。所述训练***417可实现步骤S200-步骤S208所述的功能,以通过对图像语义分割模型进行像素级的困难样本的挖掘,使模型更关注像素级的困难样本并对其进行修正,以得到具有较高像素准确率的语义分割结果。步骤S200-步骤S208已在上述部分已描述,故在此不再赘述。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种图像语义分割的训练方法,其特征在于,所述训练方法包括:
将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;
将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本;
依据所述训练图像的所述预测的语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测的语义分割结果中预测错误的像素作为参考困难样本;及
依据所述训练图像的所述预测的语义分割结果和预先标注的语义分割信息、所述困难样本和参考困难样本,对所述图像语义分割模型及所述困难样本挖掘单元的参数进行修正。
2.如权利要求1所述的图像语义分割的训练方法,其特征在于,所述图像语义分割的训练方法还包括:
判断所述图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件;
当所述图像语义分割模型和所述困难样本挖掘单元的训练结果未满足预设的收敛条件时,
执行所述将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果;或
执行依据所述训练图像的所述预测的语义分割结果和预先标注的语义分割信息,统计预测错误的像素,将所述预测的语义分割结果中预测错误的像素作为参考困难样本。
3.如权利要求1所述的图像语义分割的训练方法,其特征在于,所述将预先标注语义分割信息的训练图像输入到图像语义分割模型中,得到包含语义信息的特征图及预测的语义分割结果包括:
通过卷积模块及卷积层对所述训练图像进行卷积操作,以生成对应的特征图;
通过反卷积层对所述特征图进行上采样,以生成与训练图像相同尺寸图像。
4.如权利要求3所述的图像语义分割的训练方法,其特征在于,所述困难样本挖掘单元接收所述卷积模块生成的特征图,以计算出所述训练图像的困难样本。
5.如权利要求1所述的图像语义分割的训练方法,其特征在于,所述将对应所述训练图像的所述特征图输入到困难样本挖掘单元中,以通过所述困难样本挖掘单元计算出所述训练图像的困难样本包括:
通过预设卷积层对所述特征图进行卷积操作生成目标特征图,以将所述特征图上的每个像素分为困难样本与非困难样本;
对卷积后的目标特征图的每个像素选取最大值所在的标号,得到所述困难样本。
6.如权利要求1所述的图像语义分割的训练方法,其特征在于,所述对所述图像语义分割模型和所述困难样本挖掘单元的参数进行修正包括:
通过交叉熵损失函数计算所述预测的语义分割结果与所述预先标注的语义分割信息之间的误差;
利用反向传播算法,并依据所述误差更新所述图像语义分割模型和所述困难样本挖掘单元的参数。
7.如权利要求2所述的图像语义分割的训练方法,其特征在于,所述判断所述图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件包括:
判断通过交叉熵损失函数计算的所述预测的语义分割结果与所述预先标注的语义分割信息之间的误差的值是否小于一预设阈值;
当所述预测的语义分割结果与所述预先标注的语义分割信息之间的误差的值是小于预设阈值时,判定所述图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件。
8.如权利要求2所述的图像语义分割的训练方法,其特征在于,所述判断所述图像语义分割模型和所述困难样本挖掘单元的训练结果是否满足预设的收敛条件包括:
判断迭代次数达到预定值;
当迭代次数达到所述预定值时,判定所述图像语义分割模型和所述困难样本挖掘单元的训练结果满足预设的收敛条件。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现如权利要求1-8中任一项所述的图像语义分割的训练方法的步骤。
10.一种电子设备,包括存储器及处理器,所述存储器存储若干被所述处理器执行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的图像语义分割的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810375579.8A CN108596184B (zh) | 2018-04-25 | 2018-04-25 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810375579.8A CN108596184B (zh) | 2018-04-25 | 2018-04-25 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596184A CN108596184A (zh) | 2018-09-28 |
CN108596184B true CN108596184B (zh) | 2021-01-12 |
Family
ID=63609427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810375579.8A Active CN108596184B (zh) | 2018-04-25 | 2018-04-25 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596184B (zh) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299716B (zh) * | 2018-08-07 | 2021-07-06 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、图像分割方法、装置、设备及介质 |
US10504027B1 (en) * | 2018-10-26 | 2019-12-10 | StradVision, Inc. | CNN-based learning method, learning device for selecting useful training data and test method, test device using the same |
CN109635694B (zh) * | 2018-12-03 | 2023-02-10 | 广东工业大学 | 一种行人检测方法、装置、设备及计算机可读存储介质 |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN109712148A (zh) * | 2018-12-19 | 2019-05-03 | 上海勘察设计研究院(集团)有限公司 | 基于盾构隧道影像的管片接缝位置自动识别方法 |
CN111368837B (zh) * | 2018-12-25 | 2023-12-05 | 中移(杭州)信息技术有限公司 | 一种图像质量评价方法、装置、电子设备及存储介质 |
CN109784265A (zh) * | 2019-01-09 | 2019-05-21 | 银河水滴科技(北京)有限公司 | 一种轨面语义分割方法及装置 |
CN109740689B (zh) * | 2019-01-09 | 2023-12-01 | 贵州宽凳智云科技有限公司 | 一种图像语义分割的错误标注数据筛选方法及*** |
CN109740609B (zh) * | 2019-01-09 | 2021-02-09 | 银河水滴科技(北京)有限公司 | 一种轨距检测方法及装置 |
CN109815902B (zh) * | 2019-01-24 | 2021-04-27 | 北京邮电大学 | 一种行人属性区域信息获取方法、装置及设备 |
CN111489359B (zh) * | 2019-01-25 | 2023-05-30 | 银河水滴科技(北京)有限公司 | 一种图像分割方法及装置 |
CN110009573B (zh) * | 2019-01-29 | 2022-02-01 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及存储介质 |
CN111507343B (zh) * | 2019-01-30 | 2021-05-18 | 广州市百果园信息技术有限公司 | 语义分割网络的训练及其图像处理方法、装置 |
CN111626313B (zh) * | 2019-02-28 | 2023-06-02 | 银河水滴科技(北京)有限公司 | 一种特征提取模型训练方法、图像处理方法及装置 |
CN110070076B (zh) * | 2019-05-08 | 2021-05-18 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN110188754B (zh) | 2019-05-29 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 图像分割方法和装置、模型训练方法和装置 |
CN110245710B (zh) * | 2019-06-18 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 语义分割模型的训练方法、语义分割方法及装置 |
CN110378438A (zh) * | 2019-08-07 | 2019-10-25 | 清华大学 | 标签容错下的图像分割模型的训练方法、装置及相关设备 |
CN110414488A (zh) * | 2019-08-20 | 2019-11-05 | 河海大学 | 基于浮游藻类指数和深度学习的蓝藻水华遥感监测方法 |
CN110766007B (zh) * | 2019-10-28 | 2023-09-22 | 深圳前海微众银行股份有限公司 | 证件遮挡检测方法、装置、设备及可读存储介质 |
CN110837811B (zh) * | 2019-11-12 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN111210451B (zh) * | 2019-11-29 | 2023-05-16 | 苏州优纳医疗器械有限公司 | 一种在全数字切片图像中提取幽门螺杆菌形态的方法 |
CN111079683B (zh) * | 2019-12-24 | 2023-12-12 | 天津大学 | 基于卷积神经网络的遥感图像云雪检测方法 |
CN111312224B (zh) * | 2020-02-20 | 2023-04-21 | 北京声智科技有限公司 | 语音分割模型的训练方法、装置和电子设备 |
CN111312223B (zh) * | 2020-02-20 | 2023-06-30 | 北京声智科技有限公司 | 语音分割模型的训练方法、装置和电子设备 |
CN113534251A (zh) * | 2020-04-22 | 2021-10-22 | 中国石油天然气股份有限公司 | 基于卷积神经网络的地震数据断裂识别方法及装置 |
CN113935389A (zh) * | 2020-06-29 | 2022-01-14 | 华为技术有限公司 | 数据标注的方法、装置、计算设备和存储介质 |
CN111667027B (zh) * | 2020-07-03 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 多模态图像的分割模型训练方法、图像处理方法及装置 |
CN112232346B (zh) * | 2020-09-02 | 2024-06-18 | 北京迈格威科技有限公司 | 语义分割模型训练方法及装置、图像语义分割方法及装置 |
CN112200815B (zh) * | 2020-10-12 | 2023-06-27 | 徐州医科大学附属医院 | 基于语义分割网络PSPNet的甲状腺结节超声图像的分割方法 |
CN112396620A (zh) * | 2020-11-17 | 2021-02-23 | 齐鲁工业大学 | 一种基于多阈值的图像语义分割方法及*** |
CN112529009B (zh) * | 2020-12-07 | 2023-09-12 | 苏州律点信息科技有限公司 | 一种图像特征的挖掘方法、装置、存储介质及电子设备 |
CN112784095A (zh) * | 2021-01-18 | 2021-05-11 | 北京洛塔信息技术有限公司 | 困难样本数据挖掘方法、装置、设备和存储介质 |
CN112766171B (zh) * | 2021-01-21 | 2023-01-31 | 京东科技信息技术有限公司 | 一种喷淋方法、装置、***及介质 |
CN112733860B (zh) * | 2021-01-27 | 2021-09-10 | 上海微亿智造科技有限公司 | 用于二分类分割网络难样本挖掘的方法及*** |
CN113688915B (zh) * | 2021-08-24 | 2023-07-25 | 北京玖安天下科技有限公司 | 一种面向内容安全的困难样本挖掘方法及装置 |
CN113674300B (zh) * | 2021-08-24 | 2022-10-28 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及***、设备、介质 |
CN113763413B (zh) * | 2021-09-30 | 2023-11-24 | 深圳大学 | 一种图像分割模型的训练方法、图像分割方法及存储介质 |
CN113888567B (zh) * | 2021-10-21 | 2024-05-14 | 中国科学院上海微***与信息技术研究所 | 一种图像分割模型的训练方法、图像分割方法及装置 |
CN114119976B (zh) * | 2021-11-30 | 2024-05-14 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
CN114596440B (zh) * | 2022-03-22 | 2023-08-04 | 小米汽车科技有限公司 | 语义分割模型的生成方法、装置、电子设备及存储介质 |
GB202204202D0 (en) * | 2022-03-24 | 2022-05-11 | Supponor Tech Limited | Image processing method and apparatus |
CN114677567B (zh) * | 2022-05-27 | 2022-10-14 | 成都数联云算科技有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN115641434B (zh) * | 2022-12-26 | 2023-04-14 | 浙江天铂云科光电股份有限公司 | 电力设备定位方法、***、终端及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090003706A1 (en) * | 2007-06-28 | 2009-01-01 | Microsoft Corporation | Combining online and offline recognizers in a handwriting recognition system |
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
EP3188086A1 (en) * | 2015-12-30 | 2017-07-05 | Facebook, Inc. | Identifying entities using a deep-learning model |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN107563446A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种微操作***目标检测方法 |
-
2018
- 2018-04-25 CN CN201810375579.8A patent/CN108596184B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090003706A1 (en) * | 2007-06-28 | 2009-01-01 | Microsoft Corporation | Combining online and offline recognizers in a handwriting recognition system |
EP3188086A1 (en) * | 2015-12-30 | 2017-07-05 | Facebook, Inc. | Identifying entities using a deep-learning model |
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN107563446A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种微操作***目标检测方法 |
Non-Patent Citations (3)
Title |
---|
Fully Convolutional Instance-aware Semantic Segmentation;Yi Li等;《2017 IEEE Conference on computer vision and pattern recognition》;20170726;第2359-2367页 * |
Semantic Segmentation with Second-Order Pooling;Jo~ao Carreira等;《European conference on computer vision》;20121030;第430-443页 * |
改进的基于区域卷积神经网络的微操作***目标检测方法;彭刚等;《模式识别与人工智能》;20180215;第31卷(第02期);第142-149页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108596184A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596184B (zh) | 图像语义分割模型的训练方法、可读存储介质及电子设备 | |
CN107545262B (zh) | 一种在自然场景图像中检测文本的方法及装置 | |
CN108345887B (zh) | 图像语义分割模型的训练方法及图像语义分割方法 | |
US10929648B2 (en) | Apparatus and method for data processing | |
CN108446698B (zh) | 在图像中检测文本的方法、装置、介质及电子设备 | |
WO2018036293A1 (zh) | 图像分割方法、装置及全卷积网络*** | |
CN108053410B (zh) | 运动目标分割方法及装置 | |
CN109522874A (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
CN110032314B (zh) | 一种长截屏方法、装置、存储介质和终端设备 | |
CN111080670B (zh) | 图像提取方法、装置、设备及存储介质 | |
EP3846122B1 (en) | Method and apparatus for generating background-free image, device, and medium | |
CN109348731A (zh) | 一种图像匹配的方法及装置 | |
CN112102340A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN108989704B (zh) | 图像生成方法和装置、终端设备 | |
JP2023501820A (ja) | フェイスパーシング方法および関連デバイス | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、***及存储介质 | |
WO2021179751A1 (zh) | 图像处理方法和*** | |
CN111462098A (zh) | 待侦测物体阴影面积重叠的检测方法、装置、设备及介质 | |
CN108520532B (zh) | 识别视频中物体运动方向的方法及装置 | |
CN111967478B (zh) | 一种基于权重翻转的特征图重构方法、***、存储介质及终端 | |
CN113259605A (zh) | 基于预测前景蒙版预测的视频抠图方法、***和存储介质 | |
WO2020248848A1 (zh) | 智能化异常细胞判断方法、装置及计算机可读存储介质 | |
US9613427B2 (en) | Information processing method and electronic device | |
WO2018053710A1 (zh) | 数字图像的形态学处理方法和数字图像处理装置 | |
CN115810152A (zh) | 基于图卷积的遥感图像变化检测方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |