CN111507343A - 语义分割网络的训练及其图像处理方法、装置 - Google Patents

语义分割网络的训练及其图像处理方法、装置 Download PDF

Info

Publication number
CN111507343A
CN111507343A CN201910091543.1A CN201910091543A CN111507343A CN 111507343 A CN111507343 A CN 111507343A CN 201910091543 A CN201910091543 A CN 201910091543A CN 111507343 A CN111507343 A CN 111507343A
Authority
CN
China
Prior art keywords
semantic segmentation
pixel
loss function
value
function value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910091543.1A
Other languages
English (en)
Other versions
CN111507343B (zh
Inventor
王俊东
梁德澎
张树业
张壮辉
梁柱锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201910091543.1A priority Critical patent/CN111507343B/zh
Priority to PCT/CN2020/073121 priority patent/WO2020156303A1/zh
Publication of CN111507343A publication Critical patent/CN111507343A/zh
Application granted granted Critical
Publication of CN111507343B publication Critical patent/CN111507343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种语义分割网络的训练及其图像处理方法、装置,训练方法包括:获取训练数据集,所述训练数据集包括训练图像、与训练图像配对的标注语义分割图;将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图;根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值;根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整,通过分类损失函数值和一致性损失函数值对语义分割网络进行监督学***稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高了用户的视觉体验。

Description

语义分割网络的训练及其图像处理方法、装置
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质。
背景技术
随着深度学习的发展,基于深度学习的图像语义分割取得了极大的进步。图像语义分割处理的目的是为输入图像的每个像素预测一个准确的物体类别标签,从而实现对图像进行语义级别理解,其在道路分割、医学影像、自动抠图、无人机、自动监控等场景具有重要的应用价值。
目前,基于全卷积神经网络的语义分割网络采用编码器和解码器的架构,通过提取和融合不同层次的特征,最终为每个像素分配一个语义类别,但语义分割网络采用的损失函数简单地将语义分割问题当作一个像素级的分类任务,导致语义分割网络输出的语义分割图存在如图1所示在视觉上不平稳和明暗交替的现象,甚至会出现密集的棋盘效应,极大地影响了用户的视觉体验。
发明内容
本发明实施例提供一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质,以解决现有的语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,以使得通过语义分割网络对图像语义分割后可以获得较高质量的语义分割图,从而提高用户的视觉体验。
第一方面,本发明实施例提供了一种语义分割网络的训练方法,包括:
获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
第二方面,本发明实施例提供了一种基于语义分割网络的图像处理方法,包括:
获取目标图像;
将所述目标图像输入预先训练的语义分割网络中,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过以下方式训练:
获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
第三方面,本发明实施例提供了一种语义分割网络的训练装置,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,用于将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
第四方面,本发明实施例提供了一种基于语义分割网络的图像处理装置,包括:
目标图像获取模块,用于获取目标图像;
图像处理模块,用于将所述目标图像输入预先训练的语义分割网络中进程处理,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过以下模块训练:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,用于将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
第五方面,本发明实施例提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述程序时执行本发明任一实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
本发明实施例将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图,并根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,进一步根据分类损失函数值和一致性损失函数值对语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学***稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高用户的视觉体验。
附图说明
图1是现有技术中的语义分割网络输出的语义分割图的示意图;
图2A是本发明实施例一提供的一种语义分割网络的训练方法的流程图;
图2B是本发明实施例一的语义分割网络的架构示意图;
图2C是本发明实施例一中空洞卷积的卷积核示意图;
图2D是本发明实施例一的语义分割网络和现有的语义分割网络输出的语义分割图的对比示意图;
图3A是本发明实施例二提供的一种语义分割网络的训练方法的流程图;
图3B是本发明实施例二中像素的邻域的示意图;
图4是本发明实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图;
图5是本发明实施例四提供的一种语义分割网络的训练装置的结构框图;
图6是本发明实施例五提供的一种基于图像语义分割网络的图像处理装置的结构框图;
图7是本发明实施例六提供的一种设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图2A为本发明实施例一提供的一种语义分割网络的训练方法的流程图,本发明实施例可适用于训练语义分割网络以对图像进行处理的情况,该方法可以由语义分割网络的训练装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,具体地,如图2A所示,该方法可以包括如下步骤:
S101、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。
具体地,训练数据集可以包括训练图像以及与训练图像配对的标注语义分割图,其中,训练图像可以是BMP、JPG、PNG、TIF等存储格式的图像,标注的语义分割图可以是对训练图像中每个像素进行分类和标注的图像,分类可以是根据训练图像的语义信息,对每个像素进行分类,例如训练图像中每个像素属于图像中的人物上的像素或者其它物体上的像素,标注可以是为每个像素属于不同分类添加标签值。
在实际应用中,可以从预先存储的图像数据库中获取训练数据集以及与训练图像配对的标注语义分割图。
S102、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图。
具体地,如图2B所示,本发明实施例的语义分割网络可以为全卷积神经网络,全卷积神经网络采用编码器-解码器架构。编码器通过池化层逐渐减少空间维度,比如,编码器可以进行三次下采样,提取出输入的训练图像的高层语义特征。解码器在高层语义特征上逐步通过反卷积层上采样,逐渐恢复训练图像的细节和空间维度,最终输出与输入训练图像分辨率一致的语义分割图。
如图2C所示,全卷积神经网络中可以采用空洞卷积核,如图2C中所示,图a中为现有的卷积核的示意图,图b为空洞卷积核的示意图,图a中卷积核A是连续的,图b中卷积核B存在空洞c,通过空洞卷积核可以增加高层特征图每个节点对底层特征图的感受和覆盖范围,即增加了卷积核的感受野,以达到不增加计算量的情况下增加感受野范围,使得每个节点的高层特征可以包含更多的上下文信息,提高了预测的准确性。
S103、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。
本发明实施例中,分类损失函数值可以监督语义分割网络学***滑,避免了出现视觉上明暗起伏的情况,使得语义分割网络可以输出高质量的语义分割图,从而提高了用户的视觉体验。
S104、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
在实际应用中,语义分割网络的训练是通过训练图像和标注语义分割图进行多次迭代的过程,每次迭代后根据输出的预测语义分割图和标注语义分割图计算分类损失函数值和一致性损失函数值,当分类损失函数值和一致性损失函数值表示的误差小于预设值时,结束对语义分割网络训练,否则对语义分割网络的参数进行调整,比如调整语义分割网络各个卷积层的权重、偏置等网络参数。
本发明实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,进一步根据分类损失函数值和一致性损失函数值对语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学***稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高用户的视觉体验。
实施例二
图3A为本发明实施例二提供的一种语义分割网络的训练方法的流程图,本发明实施例在实施例一的基础上进行优化,具体地,如图3A所示,该方法可以包括如下步骤:
S201、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图,所述标注语义分割图包括像素的标签值。
S202、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图,所述预测语义分割图包括像素的预测值。
S203、采用所述像素的标签值和所述预测值,计算所述分类损失函数值。
在本发明实施例中,可以通过最小均方差损失函数计算分类损失函数值,具体地,针对预测语义分割图中的每个像素,根据像素的标签值和预测值计算每个像素的均方值,并对所有像素的均方值求和以得到分类损失函数值。
具体地,可以通过以下公式计算分类损失函数值:
Figure BDA0001963409760000071
其中,MSE为分类损失函数值,N为预测语义分割图的像素的数量,pi为像素i的预测值,yi为像素i的标签值。
S204、采用所述像素的标签值和所述预测值,计算所述一致性损失函数值。
在本发明的一种优选实施例中,步骤S204可以包括如下子步骤:
S2041,针对所述预测语义分割图中的每个中心像素,确定所述中心像素的邻域,所述邻域包括邻域像素,所述中心像素为待计算所述一致性损失函数值的像素。
在本发明实施例中,可以预先设置邻域的窗口大小,然后根据不同的空洞因子生成不同的邻域,该邻域中包括待计算一致性损失函数值的像素的邻域像素。
如图3B所示,邻域的窗口大小为3x3,邻域的位置会根据空洞因子不同而不同,假设空洞因子为1和2,则对于中心像素i可以生成两个邻域,如图3B中的3B-1所示,该邻域的空洞因子为1,窗口大小为3x3,则中心像素i的邻域为相邻的8个邻域像素j,同理,空洞因子为2时,则中心像素i的邻域为相隔1个像素的8个邻域像素j,设置不同的空洞因子可以生成不同数量的邻域。
上述示例虽然说明了窗口大小和空洞因子的取值,在实际应用中本领域技术人员可以根据训练图像的大小设置其它窗口大小、不同数量的空洞因子和空洞因子的数量,本发明实施例对确定邻域的方式不加以限制。
通过增加空洞确定中心像素的邻域,可以使得该像素能够获取到不同范围的邻域从而可以获取到不同邻域像素对该中心像素的约束,提高了像素的一致性损失函数值的准确性。
S2042,针对每个邻域,计算所述中心像素与所述邻域像素的损失值,得到第一损失值。
具体地,可以根据中心像素的预测值和邻域像素的预测值,计算中心像素与邻域像素的距离,并获取中心像素的标签值和邻域像素的标签值;在中心像素的标签值和邻域像素的标签值相等时,采用距离和预设的第一调节因子计算第一损失值,在中心像素的标签值和邻域像素的标签值不相等时,采用距离和预设的第二调节因子计算第一损失值;其中,第一调节因子为中心像素的标签值和邻域像素的标签值相等时需要调整距离的惩罚阈值,第二调节因子为中心像素的标签值和邻域像素的标签值不相等时需要调整距离的惩罚阈值。
以下结合示例对计算第一损失值进行说明:
本示例中,一致性损失函数如下:
Figure BDA0001963409760000081
其中lij为以中心像素i为中心的邻域中,邻域像素j对中心像素i的一致性损失函数值,
Figure BDA0001963409760000082
表示中心像素i和邻域像素j之间的相似性,n可以为1或者2,δ为第一调节因子,γ为第二调节因子,δ小于或等于γ,默认δ取值为0.1,γ取值为1.0,Yi和Yj分别表示中心像素i和邻域像素j的标签值,若Yi=Yj,表示中心像素i和邻域像素j属于相同语义类别,若Yi≠Yj表示中心像素i和邻域像素j属于不同语义类别。
在中心像素i和邻域像素j的标签值相等时,即Yi=Yj,中心像素i和邻域像素j属于同个语义类别时,一致性损失函数为:
Figure BDA0001963409760000083
pi和pj分别表示中心像素i的预测值和和邻域像素j的预测值,
Figure BDA0001963409760000084
表示中心像素i和邻域像素j之间的预测值的距离,第一调节因子δ为调节中心像素i和邻域像素j的距离的惩罚阈值,在距离大于第一调节因子δ时进行惩罚,在距离大于第一调节因子δ时不惩罚,在距离大于第一调节因子δ时,距离越大,说明中心像素i和邻域像素j的预测值相差越大,则惩罚越大,反之惩罚减少;当距离小于第一调节因子δ时,说明中心像素i和邻域像素j的预测值已经足够接近,一致性损失函数不进行惩罚,即当中心像素i和邻域像素j属于相同语义类别,一致性损失函数的目标为减少中心像素i和邻域像素j的距离。
在中心像素i和邻域像素j的标签值不相等时,即Yi≠Yj,中心像素i和邻域像素j属于不同语义类别时,一致性损失函数为:
Figure BDA0001963409760000091
pi和pj分别表示中心像素i的预测值和和邻域像素j的预测值,
Figure BDA0001963409760000092
表示中心像素i和邻域像素j之间的预测值的距离,第二调节因子γ为调节中心像素i和邻域像素j的距离的惩罚阈值,在距离小于第二调节因子γ时进行惩罚,在距离大于第二调节因子γ时不惩罚,在距离小于第二调节因子γ时,距离越小,说明中心像素i和邻域像素j的预测值相差越小,则惩罚越大,反之惩罚减少;当距离大于第二调节因子γ时,说明中心像素i和邻域像素j的预测值相差已经足够大,一致性损失函数不进行惩罚,即当中心像素i和邻域像素j属于不相同语义类别,一致性损失函数的目标为增大中心像素i和邻域像素j的距离。
S2043,对所述第一损失值求和,得到所述中心像素在所述邻域内的第二损失值。
具体地,中心像素i的邻域包括多个邻域像素j,则依次计算该邻域范围内中心像素i和多个邻域像素j的一致性损失函数值得到多个第一损失值,对多个第一损失值求和后可以得到该邻域内中心像素i的一致性损失函数值。
S2044,对所述中心像素在邻域内的所述第二损失值求和,得到所述中心像素的一致性损失函数值。
在本发明实施例中,根据固定的邻域大小和不同的空洞因子,一个中心像素可以有多个邻域,例如,有取值为1,2,5的三个空洞因子,则该中心像素具有三个邻域,对中心像素在三个邻域内的第二损失值求和即可以得到像素的一致性损失函数值,遍历预测语义分割图的每个像素可得到多个像素的一致性损失函数值,即对于一个像素,一致性损失函数值为:
Figure BDA0001963409760000101
其中,M表示不同的邻域集,Ni为像素i的一个邻域,lij为像素i在邻域Ni内的一致性损失函数值。
本发明实施例中,对于预测语义分割图中的每个像素,取该像素的邻域计算一致性损失函数值减少了数据处理量,提高了数据处理效率。
S205、基于所述分类损失函数值和所述一致性损失函数值计算梯度。
具体地,每个像素的损失函数值包括分类损失函数值和一致性损失函数值,则步骤S205可以包括如下子步骤:
S2051,针对每一个像素,计算所述分类损失函数值对所述像素的第一梯度。
本发明实施例中,分类损失函数可以为最小均方差损失函数,则对公式1求偏导可以得到像素的第一梯度计算公式:
Figure BDA0001963409760000102
其中,
Figure BDA0001963409760000103
为对最小均方差损失函数求偏导后得到最小均方差损失函数对像素k的第一梯度,pk为像素k的预测值,yk为像素k的标签值。
S2052,计算所述像素的所述一致性损失函数值对所述像素的第二梯度。
具体地,针对每个待计算梯度像素,计算待计算梯度像素的邻域中每个邻域像素与待计算梯度像素的梯度,得到第三梯度,计算待计算梯度像素作为邻域像素时邻域的中心像素对待计算梯度像素的梯度,得到第四梯度,最后对第三梯度和第四梯度求和,得到待计算梯度像素的第二梯度。
如公式2为一致性损失函数的计算公式,在本发明实施例中,可以采用L1距离或者L2距离计算一致性损失函数,即公式2中n为1或者2。
当n=1时,
Figure BDA0001963409760000104
简化为|pi-pj|,即L1距离,公式2简化为:
Figure BDA0001963409760000105
对上述公式3求偏导得到如下梯度计算公式:
Figure BDA0001963409760000111
Figure BDA0001963409760000112
其中,
Figure BDA0001963409760000113
为一致性损失函数lij对像素i的预测值pi的梯度计算公式,
Figure BDA0001963409760000114
为一致性损失函数lij对像素j的预测值pj的梯度计算公式。
当n=2时,
Figure BDA0001963409760000115
简化为
Figure BDA0001963409760000116
即L2距离,则公式2简化为:
Figure BDA0001963409760000117
对上述公式6求偏导得到如下梯度计算公式:
Figure BDA0001963409760000118
Figure BDA0001963409760000121
其中,
Figure BDA0001963409760000122
为一致性损失函数lij对像素i的预测值pi的梯度计算公式,
Figure BDA0001963409760000123
为一致性损失函数lij对像素j的预测值pj的梯度计算公式。
则对于预测语义分割图像的一个像素k,一致性损失函数值对于像素k的梯度为:
Figure BDA0001963409760000124
其中,
Figure BDA0001963409760000125
Figure BDA0001963409760000126
表示以像素k为中心的邻域Nk内,邻域像素j与中心像素k的梯度;
Figure BDA0001963409760000127
Figure BDA0001963409760000128
表示在包含像素k的像素i(i≠k)的邻域Ni内,像素i对作为邻域像素k作用的梯度;
即一致性损失函数值对于像素k的梯度由
Figure BDA0001963409760000129
Figure BDA00019634097600001210
累加计算,即像素k为中心像素时,邻域像素对其有作用,当像素k作为其他中心像素的邻域像素时,也会对像素k有作用。
在实际应用中,本领域技术人员可以根据实际情况采用L1距离或者L2距离计算一致性损失函数值并相应的计算梯度,即取n为1或者2,本发明实施例对此不加以限制。
S2053,对所述第一梯度和所述第二梯度求和,得到所述像素的梯度。
具体地,每个像素的梯度包括分类损失函数值对像素的梯度和一致性损失函数值对像素的梯度,即对于像素k:
Figure BDA0001963409760000131
对于预测语义分割图,针对每个像素可以通过分类损失函数值计算第一梯度
Figure BDA0001963409760000132
通过一致性损失函数值计算第二梯度
Figure BDA0001963409760000133
然后对第一梯度和第二梯度求和得到像素的梯度。
S206、判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件。
具体地,针对每个像素,计算分类损失函数值和像素的一致性损失函数值的和值得到像素的总损失函数值,判断总损失函数值是否小于预设值;若是,则确定分类损失函数值和一致性损失函数值满足预设的迭代条件;若否,则确定分类损失函数值和一致性损失函数值不满足预设的迭代条件。
在实际应用中,每个像素具有一个总损失函数值,可以判断每个像素的总损失函数值是否满足预设迭代条件,也可以为每个像素设置权重,通过权重和总损失函数值计算最终的总损失函数值,以判断总损失函数值是否满足预设迭代条件,本发明实施例对此不加以限制。
S207、结束训练所述语义分割网络。
在总损失函数值满足预设迭代条件时,说明语义分割网络输出的预测语义分割图与标注语义分割图的误差较小,语义分割网络的精度达到要求,可以停止对语义分割网络进行训练。
S208、采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
如果总损失函数值不满足预设迭代条件时,说明语义分割网络的精度还不足,则在全卷积神经网络进行后向传播过程中,采用每个像素的梯度与预设学习率对全卷积神经网络的网络参数进行更新,具体地,可以通过以下公式更新网络参数:
Figure BDA0001963409760000141
θi为网络参数,
Figure BDA0001963409760000142
为梯度,
Figure BDA0001963409760000143
为学习率。
初始学习率
Figure BDA0001963409760000144
可以设置为0.001,之后随着迭代次数的增加逐渐减少学习率,可选地,学习率的可以根据如下公式进行更新:
Figure BDA0001963409760000145
其中,epoch_num为一个迭代周期。
本发明实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,进一步根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学***稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高用户的视觉体验。
进一步地,在训练过程,根据像素的邻域计算像素的一致性损失函数值,无需计算所有像素之间的一致性损失函数值,极大的提升了训练效率,同时在测试中,无需使用一致性损失函数值,不会增加原有语义分割网络的计算开销。
实施例三
图4为本发明实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图,本发明实施例可适用于对图像进行语义分割处理的情况,该方法可以由基于图像语义分割网络的图像处理装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,具体地,如图4所示,该方法可以包括如下步骤:
S301、获取目标图像。
在本发明实施例中,目标图像可以是待添加视频特效的图像。例如,可以是视频直播或者录制短视频过程中,用户选择美瞳、添加贴图、瘦脸等添加视频特效的操作时,视频直播APP检测到用户的操作,从摄像头采集到的视频帧中截取一帧包含人脸的图像作为目标图像,目标图像还可以是人脸认证时通过人脸认证装置采集到待认证人脸的人脸图像,还可以是用户对存储在本地的图像进行图像处理时的图像,本发明实施例对获取目标图像的方式不加以限制。
S302、将所述目标图像输入预先训练的语义分割网络中进行处理,以生成所述目标图像的语义分割图。
本发明实施例中,语义分割网络通过以下步骤训练:
S3021、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
S3022、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
S3023、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
S3024、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
S3021-S3024可参考实施例一和实施例二中的相关步骤,在此不再详述。
本发明实施例在获取目标图像后,可以将目标图像输入语义分割网络中提取到语义分割图,通过该语义分割图可以对图像进行相关处理,在本发明的一个应用示例中,可以根据语义分割图实现视频中对目标对象的跟踪处理,例如,对视频中的人物进行追踪处理。
本发明实施例在训练语义分割网络时,在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,进一步根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学***稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对目标图像处理后可以获得目标图像的高质量语义分割图,从而提高了用户的视觉体验。
实施例四
图5是本发明实施例四提供的一种语义分割网络的训练装置的结构框图,本发明实施例的语义分割网络的训练装置具体可以包括如下模块:
训练数据获取模块401,用于获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块402,用于将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块403,用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块404,用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
所述标注语义分割图包括像素的标签值,所述预测语义分割图包括像素的预测值,所述损失函数值确定模块403包括:
分类损失函数值子模块,用于采用所述像素的标签值和所述预测值,计算所述分类损失函数值;
一致性损失函数值计算子模块,用于采用所述像素的标签值和所述预测值,计算所述一致性损失函数值。
可选地,所述分类损失函数值子模块包括:
均方值计算单元模块,用于针对所述预测语义分割图中的每个像素,根据所述像素的标签值和预测值计算每个像素的均方值;
均方值求和单元,用于对所有像素的均方值求和以得到所述分类损失函数值。
可选地,所述一致性损失函数值计算子模块包括:
邻域确定单元,用于针对所述预测语义分割图中的每个中心像素,确定所述中心像素的邻域,所述邻域包括邻域像素,所述中心像素为待计算所述一致性损失函数值的像素;
第一损失值计算单元,用于针对每个邻域,计算所述中心像素与所述邻域像素的损失值,得到第一损失值;
第一损失值求和单元,用于对所述第一损失值求和,得到所述中心像素在所述邻域内的第二损失值;
一致性损失函数值计算单元,用于对所述中心像素在邻域内的所述第二损失值求和,得到所述中心像素的一致性损失函数值。
可选地,所述邻域确定单元包括:
邻域大小确定子单元,用于根据预设窗口大小确定所述邻域的大小;
邻域确定子单元,用于根据预设空洞因子和所述邻域的大小确定所述邻域。
可选地,所述第一损失值计算单元包括:
距离计算子单元,用于根据所述中心像素的预测值和所述邻域像素的预测值,计算所述中心像素与所述邻域像素的距离;
标签值获取子单元,用于获取所述中心像素的标签值和所述邻域像素的标签值;
第一计算子单元,用于当所述中心像素的标签值和所述邻域像素的标签值相等时,采用所述距离和预设的第一调节因子计算所述第一损失值;
第二计算子单元,用于当所述中心像素的标签值和所述邻域像素的标签值不相等时,采用所述距离和预设的第二调节因子计算所述第一损失值;
其中,所述第一调节因子为所述中心像素的标签值和所述邻域像素的标签值相等时需要调整所述距离的惩罚阈值,所述第二调节因子为所述中心像素的标签值和所述邻域像素的标签值不相等时需要调整所述距离的惩罚阈值。
可选地,所述参数调整模块404包括:
梯度计算子模块,用于基于所述分类损失函数值和所述一致性损失函数值计算梯度;
迭代条件判断子模块,用于判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件;
训练结束子模块,用于结束训练所述语义分割网络的;
参数更新子模块,用于采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
可选地,所述梯度计算子模块包括:
第一梯度计算子模块,用于针对每一个像素,计算所述分类损失函数值对所述像素的第一梯度;
第二梯度计算子模块,用于计算所述像素的所述一致性损失函数值对所述像素的第二梯度;
梯度求和子模块,用于对所述第一梯度和所述第二梯度求和,得到所述像素的梯度。
可选地,所述迭代条件判断子模块包括:
总损失函数值计算单元,用于针对每个像素,计算所述分类损失函数值和所述像素的一致性损失函数值的和值,得到所述像素的总损失函数值;
损失函数值判断子单元,用于判断所述总损失函数值是否小于预设值;
满足预设迭达条件确定单元,用于确定所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件;
不满足预设迭达条件确定单元,用于确定所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件。
可选地,所述第二梯度计算子模块包括:
第三梯度计算单元,用于针对每个待计算梯度像素,计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度,得到第三梯度;
第四梯度计算单元,用于计算所述待计算梯度像素作为邻域像素时邻域的中心像素对所述待计算梯度像素的梯度,得到第四梯度;
梯度求和单元,用于对所述第三梯度和所述第四梯度求和,得到所述待计算梯度像素的第二梯度。
可选地,所述语义分割网络为全卷积神经网络,所述参数更新子模块包括:
参数更新单元,用于在所述全卷积神经网络进行后向传播过程中,采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。
本发明实施例所提供的语义分割网络的训练装置可执行本发明任意实施例所提供的语义分割网络的训练方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6是本发明实施例五提供的一种基于语义分割网络的图像处理装置的结构框图,本发明实施例的基于语义分割网络的图像处理装置具体可以包括如下模块:
目标图像获取模块501,用于获取目标图像;
图像处理模块502,用于将所述目标图像输入预先训练的语义分割网络中进程处理,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过以下模块训练:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,用于将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
本发明实施例所提供的基于语义分割网络的图像处理装置可执行本发明任意实施例所提供的基于语义分割网络的图像处理方法,具备执行方法相应的功能模块和有益效果。
实施例六
参照图7,示出了本发明一个示例中的一种设备的结构示意图。如图7所示,该设备具体可以包括:处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个,图7中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个,图7中以一个存储器61为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的语义分割网络的训练方法对应的程序指令/模块(例如,上述语义分割网络的训练装置中的训练数据获取模块401、预测语义分割图生成模块402、损失函数值确定模块403和参数调整模块404),或如本发明任意实施例所述的基于语义分割网络的图像处理方法对应的程序指令/模块(例如,上述基于语义分割网络的图像处理装置中的目标图像获取模块501和图像处理模块502)。存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示屏62为具有触摸功能的显示屏62,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏62用于根据处理器60的指示显示数据,还用于接收作用于显示屏62的触摸操作,并将相应的信号发送至处理器60或其他装置。可选的,当显示屏62为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏62的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器50或者其他设备。
通信装置65,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。
输入装置63可用于接收输入的数字或者字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是,输入装置63和输出装置64的具体组成可以根据实际情况设定。
处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
具体地,实施例中,处理器60执行存储器61中存储的一个或多个程序时,具体实现本发明实施例提供的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如上述方法实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
需要说明的是,对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。
值得注意的是,上述语义分割网络的训练装置和/或基于语义分割网络的图像处理装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种语义分割网络的训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
2.如权利要求1所述的训练方法,其特征在于,所述标注语义分割图包括像素的标签值,所述预测语义分割图包括像素的预测值,所述根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值,包括:
采用所述像素的标签值和所述预测值,计算所述分类损失函数值;
采用所述像素的标签值和所述预测值,计算所述一致性损失函数值。
3.如权利要求2所述的训练方法,其特征在于,所述采用所述像素的标签值和所述预测值,计算所述分类损失函数值,包括:
针对所述预测语义分割图中的每个像素,根据所述像素的标签值和预测值计算每个像素的均方值;
对所有像素的均方值求和以得到所述分类损失函数值。
4.如权利要求3所述的方法,其特征在于,所述采用所述像素的标签值和所述预测值,计算所述一致性损失函数值,包括:
针对所述预测语义分割图中的每个中心像素,确定所述中心像素的邻域,所述邻域包括邻域像素,所述中心像素为待计算所述一致性损失函数值的像素;
针对每个邻域,计算所述中心像素与所述邻域像素的损失值,得到第一损失值;
对所述第一损失值求和,得到所述中心像素在所述邻域内的第二损失值;
对所述中心像素在邻域内的所述第二损失值求和,得到所述中心像素的一致性损失函数值。
5.如权利要求4所述的训练方法,其特征在于,所述针对所述预测语义分割图中的每个中心像素,确定所述中心像素的邻域,包括:
根据预设窗口大小确定所述邻域的大小;
根据预设空洞因子和所述邻域的大小确定所述邻域。
6.如权利要求5所述的训练方法,其特征在于,所述针对每个邻域,计算所述中心像素与所述邻域像素的损失值,得到第一损失值,包括:
根据所述中心像素的预测值和所述邻域像素的预测值,计算所述中心像素与所述邻域像素的距离;
获取所述中心像素的标签值和所述邻域像素的标签值;
当所述中心像素的标签值和所述邻域像素的标签值相等时,采用所述距离和预设的第一调节因子计算所述第一损失值;
当所述中心像素的标签值和所述邻域像素的标签值不相等时,采用所述距离和预设的第二调节因子计算所述第一损失值;
其中,所述第一调节因子为所述中心像素的标签值和所述邻域像素的标签值相等时需要调整所述距离的惩罚阈值,所述第二调节因子为所述中心像素的标签值和所述邻域像素的标签值不相等时需要调整所述距离的惩罚阈值。
7.如权利要求1至6任一项所述的训练方法,其特征在于,所述根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整,包括:
基于所述分类损失函数值和所述一致性损失函数值计算梯度;
判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件;
若是,则结束训练所述语义分割网络的;
若否,采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
8.如权利要求7所述的训练方法,其特征在于,所述基于所述分类损失函数值和所述一致性损失函数值计算梯度,包括:
针对每一个像素,计算所述分类损失函数值对所述像素的第一梯度;
计算所述像素的所述一致性损失函数值对所述像素的第二梯度;
对所述第一梯度和所述第二梯度求和,得到所述像素的梯度。
9.如权利要求8所述的训练方法,其特征在于,所述判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件,包括:
针对每个像素,计算所述分类损失函数值和所述像素的一致性损失函数值的和值,得到所述像素的总损失函数值;
判断所述总损失函数值是否小于预设值;
若是,则确定所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件;
若否,则确定所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件。
10.如权利要求8所述的训练方法,其特征在于,所述计算所述像素的所述一致性损失函数值对所述像素的第二梯度,包括:
针对每个待计算梯度像素,计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度,得到第三梯度;
计算所述待计算梯度像素作为邻域像素时邻域的中心像素对所述待计算梯度像素的梯度,得到第四梯度;
对所述第三梯度和所述第四梯度求和,得到所述待计算梯度像素的第二梯度。
11.如权利要求8所述的训练方法,其特征在于,所述语义分割网络为全卷积神经网络,所述采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,包括:
在所述全卷积神经网络进行后向传播过程中,采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。
12.一种基于语义分割网络的图像处理方法,其特征在于,包括:
获取目标图像;
将所述目标图像输入预先训练的语义分割网络中,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过权利要求1至11任一项所述的语义分割网络的训练方法训练。
13.一种语义分割网络的训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,用于将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
14.一种基于语义分割网络的图像处理装置,其特征在于,包括:
目标图像获取模块,用于获取目标图像;
图像处理模块,用于将所述目标图像输入预先训练的语义分割网络中进程处理,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过权利要求13所述的语义分割网络的训练装置训练。
15.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器运行所述程序时执行如权利要求1-11中任一项所述的语义分割网络的训练方法的步骤和/或权利要求12所述的基于语义分割网络的图像处理方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的语义分割网络的训练方法的步骤和/或权利要求12所述的基于语义分割网络的图像处理方法的步骤。
CN201910091543.1A 2019-01-30 2019-01-30 语义分割网络的训练及其图像处理方法、装置 Active CN111507343B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910091543.1A CN111507343B (zh) 2019-01-30 2019-01-30 语义分割网络的训练及其图像处理方法、装置
PCT/CN2020/073121 WO2020156303A1 (zh) 2019-01-30 2020-01-20 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910091543.1A CN111507343B (zh) 2019-01-30 2019-01-30 语义分割网络的训练及其图像处理方法、装置

Publications (2)

Publication Number Publication Date
CN111507343A true CN111507343A (zh) 2020-08-07
CN111507343B CN111507343B (zh) 2021-05-18

Family

ID=71841158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910091543.1A Active CN111507343B (zh) 2019-01-30 2019-01-30 语义分割网络的训练及其图像处理方法、装置

Country Status (2)

Country Link
CN (1) CN111507343B (zh)
WO (1) WO2020156303A1 (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132841A (zh) * 2020-09-22 2020-12-25 上海交通大学 医疗图像切割方法及装置
CN112418480A (zh) * 2020-10-14 2021-02-26 上海眼控科技股份有限公司 气象图像预测方法、装置、计算机设备和存储介质
CN112465836A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112785601A (zh) * 2021-01-07 2021-05-11 重庆兆琨智医科技有限公司 一种图像分割方法、***、介质及电子终端
CN112862840A (zh) * 2021-03-04 2021-05-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN112990218A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 图像语义分割模型的优化方法、装置和电子设备
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及***
CN113516201A (zh) * 2021-08-09 2021-10-19 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN113705574A (zh) * 2021-10-27 2021-11-26 海门市三德体育用品有限公司 基于图像处理的健身房设施布局优化方法及***
CN113723231A (zh) * 2021-08-17 2021-11-30 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
CN113743410A (zh) * 2021-02-09 2021-12-03 京东数字科技控股股份有限公司 图像处理方法、装置和计算机可读存储介质
CN114067118A (zh) * 2022-01-12 2022-02-18 湖北晓雲科技有限公司 一种航空摄影测量数据的处理方法
CN114119976A (zh) * 2021-11-30 2022-03-01 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN114648638A (zh) * 2022-04-02 2022-06-21 北京百度网讯科技有限公司 语义分割模型的训练方法、语义分割方法与装置
CN114898098A (zh) * 2022-06-27 2022-08-12 北京航空航天大学 脑组织图像分割方法
CN115049817A (zh) * 2022-06-10 2022-09-13 湖南大学 一种基于跨图像一致性的图像语义分割方法及其***
CN115984309A (zh) * 2021-12-10 2023-04-18 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN116385278A (zh) * 2022-12-30 2023-07-04 南京航空航天大学 一种低光照图像视觉特征自监督表示方法和***
CN116543162A (zh) * 2023-05-09 2023-08-04 山东建筑大学 基于特征差值与上下文感知一致性的图像分割方法及***
WO2023201681A1 (zh) * 2022-04-22 2023-10-26 北京航空航天大学杭州创新研究院 面向粗标签的语义分割模型的训练方法和装置
CN117253044A (zh) * 2023-10-16 2023-12-19 安徽农业大学 一种基于半监督交互学习的农田遥感图像分割方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN112036275B (zh) * 2020-08-19 2023-02-03 华东师范大学 一种基于渐进式功能增强网络的物理模型材料识别方法
CN112258563A (zh) * 2020-09-23 2021-01-22 成都旷视金智科技有限公司 图像对齐方法、装置、电子设备及存储介质
CN112200815B (zh) * 2020-10-12 2023-06-27 徐州医科大学附属医院 基于语义分割网络PSPNet的甲状腺结节超声图像的分割方法
CN112508029A (zh) * 2020-12-03 2021-03-16 苏州科本信息技术有限公司 一种基于目标框标注的实例分割方法
CN112488020B (zh) * 2020-12-10 2023-09-19 西安交通大学 基于无人机航拍数据的水环境污染情况检测评估装置
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法
CN112669342B (zh) * 2020-12-25 2024-05-10 北京达佳互联信息技术有限公司 图像分割网络的训练方法及装置、图像分割方法及装置
CN112651974A (zh) * 2020-12-29 2021-04-13 上海联影智能医疗科技有限公司 图像分割方法及***、电子设备及存储介质
CN112686318B (zh) * 2020-12-31 2023-08-29 广东石油化工学院 一种基于球面嵌入、球面对齐和球面校准的零样本学习机制
CN113066051B (zh) * 2021-02-23 2024-08-16 江苏优普纳科技有限公司 一种坡口缺陷检测方法、计算设备及可读存储介质
CN112950642A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 点云实例分割模型的训练方法、装置、电子设备和介质
CN113052180A (zh) * 2021-03-23 2021-06-29 中国人民解放军战略支援部队信息工程大学 融合语义流场的编解码网络港口影像分割方法
CN113096138B (zh) * 2021-04-13 2023-04-28 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
CN113012074B (zh) * 2021-04-21 2023-03-24 山东新一代信息产业技术研究院有限公司 一种适用于低照度环境的智能图像处理方法
CN113205096B (zh) * 2021-04-26 2022-04-15 武汉大学 一种基于注意力的联合图像与特征自适应的语义分割方法
CN113239930B (zh) * 2021-05-14 2024-04-05 广州广电运通金融电子股份有限公司 一种玻璃纸缺陷识别方法、***、装置及存储介质
CN113240698B (zh) * 2021-05-18 2022-07-05 长春理工大学 一种多类分割损失函数在实现脊椎组织影像多类分割中的应用方法
CN113378833B (zh) * 2021-06-25 2023-09-01 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113569853B (zh) * 2021-06-25 2024-04-09 北京机械设备研究所 一种基于多任务学习的特征点提取与语义分割方法
CN113409340A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 语义分割模型训练方法、语义分割方法、装置及电子设备
CN113470029B (zh) * 2021-09-03 2021-12-03 北京字节跳动网络技术有限公司 训练方法及装置、图像处理方法、电子设备和存储介质
CN113781511B (zh) * 2021-09-17 2024-04-05 深圳市赛为智能股份有限公司 传送带边缘磨损检测方法、装置、计算机设备及存储介质
CN113706564B (zh) * 2021-09-23 2023-07-18 苏州大学 基于多种监督方式的睑板腺分割网络的训练方法及装置
CN114092481B (zh) * 2021-11-19 2024-05-31 长春理工大学 一种基于U-Net的红外图像语义分割方法
CN114092815B (zh) * 2021-11-29 2022-04-15 自然资源部国土卫星遥感应用中心 一种大范围光伏发电设施遥感智能提取方法
CN114299430A (zh) * 2021-12-27 2022-04-08 北京达佳互联信息技术有限公司 视频解析模型的训练方法、装置、视频解析方法及装置
CN114494973B (zh) * 2022-02-14 2024-03-29 中国科学技术大学 视频语义分割网络的训练方法、***、设备及存储介质
GB202204202D0 (en) * 2022-03-24 2022-05-11 Supponor Tech Limited Image processing method and apparatus
CN114820463A (zh) * 2022-04-06 2022-07-29 合众新能源汽车有限公司 点云检测和分割方法、装置,以及,电子设备
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN115019038B (zh) * 2022-05-23 2024-04-30 杭州海马体摄影有限公司 一种相似图像像素级语义匹配方法
CN114677567B (zh) * 2022-05-27 2022-10-14 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN115063591B (zh) * 2022-07-26 2022-11-29 之江实验室 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN115658903B (zh) * 2022-11-01 2023-09-05 百度在线网络技术(北京)有限公司 文本分类方法、模型训练方法、相关装置及电子设备
CN116229063B (zh) * 2023-01-08 2024-01-26 复旦大学 基于类别色彩化技术的语义分割网络模型及其训练方法
CN116385823B (zh) * 2023-03-20 2023-12-01 深圳市大数据研究院 类别语义一致性表示的半监督分割模型生成方法及***
CN116757546B (zh) * 2023-07-05 2023-12-12 安徽如柒信息科技有限公司 一种基于工业互联网的生产监测预警***
CN117197636A (zh) * 2023-11-07 2023-12-08 江苏玫源新材料有限公司 一种基于计算机辅助的汽车覆盖件回弹智能预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218810A (zh) * 2013-03-27 2013-07-24 华北电力大学 一种电力塔杆图像语意分割方法
CN104463867A (zh) * 2014-12-08 2015-03-25 南华大学 一种基于信息量的快速sift提取方法
CN107330973A (zh) * 2017-07-03 2017-11-07 深圳市唯特视科技有限公司 一种基于多视角监督的单视角重建方法
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218810A (zh) * 2013-03-27 2013-07-24 华北电力大学 一种电力塔杆图像语意分割方法
CN104463867A (zh) * 2014-12-08 2015-03-25 南华大学 一种基于信息量的快速sift提取方法
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
CN107330973A (zh) * 2017-07-03 2017-11-07 深圳市唯特视科技有限公司 一种基于多视角监督的单视角重建方法
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIWOON AHN等: "Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
李阳等: "基于中心一致性敏感直方图的图像联合分割算法", 《计算机科学》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132841B (zh) * 2020-09-22 2024-04-09 上海交通大学 医疗图像切割方法及装置
CN112132841A (zh) * 2020-09-22 2020-12-25 上海交通大学 医疗图像切割方法及装置
CN112418480A (zh) * 2020-10-14 2021-02-26 上海眼控科技股份有限公司 气象图像预测方法、装置、计算机设备和存储介质
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112465836A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112465836B (zh) * 2020-12-09 2022-06-10 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112785601A (zh) * 2021-01-07 2021-05-11 重庆兆琨智医科技有限公司 一种图像分割方法、***、介质及电子终端
CN113743410A (zh) * 2021-02-09 2021-12-03 京东数字科技控股股份有限公司 图像处理方法、装置和计算机可读存储介质
CN113743410B (zh) * 2021-02-09 2024-04-09 京东科技控股股份有限公司 图像处理方法、装置和计算机可读存储介质
CN112862840A (zh) * 2021-03-04 2021-05-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN112862840B (zh) * 2021-03-04 2023-07-04 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN112990218A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 图像语义分割模型的优化方法、装置和电子设备
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及***
CN113516201B (zh) * 2021-08-09 2023-10-31 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN113516201A (zh) * 2021-08-09 2021-10-19 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN113723231A (zh) * 2021-08-17 2021-11-30 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
CN113705574A (zh) * 2021-10-27 2021-11-26 海门市三德体育用品有限公司 基于图像处理的健身房设施布局优化方法及***
CN114119976A (zh) * 2021-11-30 2022-03-01 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN114119976B (zh) * 2021-11-30 2024-05-14 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN115984309A (zh) * 2021-12-10 2023-04-18 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN115984309B (zh) * 2021-12-10 2024-03-15 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN114067118B (zh) * 2022-01-12 2022-04-15 湖北晓雲科技有限公司 一种航空摄影测量数据的处理方法
CN114067118A (zh) * 2022-01-12 2022-02-18 湖北晓雲科技有限公司 一种航空摄影测量数据的处理方法
CN114648638A (zh) * 2022-04-02 2022-06-21 北京百度网讯科技有限公司 语义分割模型的训练方法、语义分割方法与装置
WO2023201681A1 (zh) * 2022-04-22 2023-10-26 北京航空航天大学杭州创新研究院 面向粗标签的语义分割模型的训练方法和装置
CN115049817A (zh) * 2022-06-10 2022-09-13 湖南大学 一种基于跨图像一致性的图像语义分割方法及其***
CN114898098B (zh) * 2022-06-27 2024-04-19 北京航空航天大学 脑组织图像分割方法
CN114898098A (zh) * 2022-06-27 2022-08-12 北京航空航天大学 脑组织图像分割方法
CN116385278B (zh) * 2022-12-30 2023-10-10 南京航空航天大学 一种低光照图像视觉特征自监督表示方法和***
CN116385278A (zh) * 2022-12-30 2023-07-04 南京航空航天大学 一种低光照图像视觉特征自监督表示方法和***
CN116543162A (zh) * 2023-05-09 2023-08-04 山东建筑大学 基于特征差值与上下文感知一致性的图像分割方法及***
CN116543162B (zh) * 2023-05-09 2024-07-12 山东建筑大学 基于特征差值与上下文感知一致性的图像分割方法及***
CN117253044A (zh) * 2023-10-16 2023-12-19 安徽农业大学 一种基于半监督交互学习的农田遥感图像分割方法
CN117253044B (zh) * 2023-10-16 2024-05-24 安徽农业大学 一种基于半监督交互学习的农田遥感图像分割方法

Also Published As

Publication number Publication date
CN111507343B (zh) 2021-05-18
WO2020156303A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN111507343B (zh) 语义分割网络的训练及其图像处理方法、装置
US11798132B2 (en) Image inpainting method and apparatus, computer device, and storage medium
RU2770752C1 (ru) Способ и устройство для обучения модели распознавания лица и устройство для определения ключевой точки лица
Yang et al. Dense depth posterior (ddp) from single image and sparse range
WO2020192471A1 (zh) 一种图像分类模型训练的方法、图像处理的方法及装置
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
KR20190099914A (ko) 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
US11790492B1 (en) Method of and system for customized image denoising with model interpretations
CN110111351B (zh) 融合rgbd多模态信息的行人轮廓跟踪方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
US11468571B2 (en) Apparatus and method for generating image
WO2022236824A1 (zh) 目标检测网络构建优化方法、装置、设备、介质及产品
CN112052759B (zh) 一种活体检测方法和装置
CN112242002B (zh) 基于深度学习的物体识别和全景漫游方法
CN114897738A (zh) 一种基于语义不一致性检测的图像盲修复方法
WO2022201803A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN115168720A (zh) 内容交互预测方法以及相关设备
CN109740527B (zh) 一种视频帧中图像处理方法
CN113240699B (zh) 图像处理方法及装置,模型的训练方法及装置,电子设备
KR102562052B1 (ko) 전자 장치 및 그 제어 방법
JP2020064364A (ja) 学習装置、画像生成装置、学習方法、及び学習プログラム
KR20220118010A (ko) 그림자 영역 검출을 위한 학습 장치 및 학습 방법
CN116977256A (zh) 缺陷检测模型的训练方法、装置、设备及存储介质
US20220180548A1 (en) Method and apparatus with object pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221215

Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 511400 floor 5-13, West Tower, building C, 274 Xingtai Road, Shiqiao street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right