CN108830277A - 语义分割模型的训练方法、装置、计算机设备和存储介质 - Google Patents

语义分割模型的训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108830277A
CN108830277A CN201810362207.1A CN201810362207A CN108830277A CN 108830277 A CN108830277 A CN 108830277A CN 201810362207 A CN201810362207 A CN 201810362207A CN 108830277 A CN108830277 A CN 108830277A
Authority
CN
China
Prior art keywords
mask
parameter
semantic segmentation
category object
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810362207.1A
Other languages
English (en)
Other versions
CN108830277B (zh
Inventor
王健宗
王晨羽
马进
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810362207.1A priority Critical patent/CN108830277B/zh
Priority to US16/759,383 priority patent/US11398034B2/en
Priority to PCT/CN2018/095673 priority patent/WO2019200758A1/zh
Priority to SG11202002078UA priority patent/SG11202002078UA/en
Priority to JP2019570957A priority patent/JP7107976B2/ja
Publication of CN108830277A publication Critical patent/CN108830277A/zh
Application granted granted Critical
Publication of CN108830277B publication Critical patent/CN108830277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种语义分割模型的训练方法、装置、计算机设备和存储介质,其中方法包括:构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;根据上述训练出的参数构建出语义分割模型。本申请大幅度降低训练样本集的标记成本,且降低后续训练样本和训练计算时的压力,提升训练效率。

Description

语义分割模型的训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种语义分割模型的训练方法、装置、计算机设备和存储介质。
背景技术
图像语义分割的意思就是机器自动分割图像并识别出图像中的内容,比如给出一个人骑摩托车的照片,从照片中将摩托车和人分别分割出来。对图像进行语义分割时,需要得到分割掩码(segmentation mask)来对图像进行分割;目前无法根据边界框去推导出分割掩码,因此,训练时,若要实现对图像进行分割,则需要在所有实例上标记有分割掩码。
现有的语义分割方法要求所有训练实例都必须标记有分割掩码,即对每一个像素进行标注,使得注释新类别的成本十分昂贵,而且将实例分割模型限制在约100个详细注释的类别(即最多在100个类别都标记有分割掩码)。这种语义分割方法成本太高,到100种分类时,在制作训练样本和训练算力两个方面压力都很大,目前最大的实例分割公开数据集只有80个类别。因此,成本太高,不适合推广使用。
发明内容
本申请的主要目的为提供一种语义分割模型的训练方法、装置、计算机设备和存储介质,克服训练语义分割模型时成本高的缺陷。
为实现上述目的,本申请提供了一种语义分割模型的训练方法,包括以下步骤:
构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至所述深度网络模型以及所述权重传递函数中,构建出语义分割模型。
进一步地,所述将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型的步骤之后,包括:
将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果。
进一步地,所述将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果的步骤,包括:
将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框;
根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数;
根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
进一步地,所述深度网络模型为Mask-RCNN网络模型。
进一步地,所述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
进一步地,所述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU。
进一步地,所述第二类别物体的数量多于所述第一类别物体的数量。
本申请还提供了一种语义分割模型的训练装置,包括:
第一构建单元,用于构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
训练单元,用于将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
第二构建单元,用于将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至所述深度网络模型以及所述权重传递函数中,构建出语义分割模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的语义分割模型的训练方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的语义分割模型的训练方法、装置、计算机设备和存储介质,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体标记有边界框,无需在所有类别物体上均标记分割掩码,大幅度降低训练样本集的标记成本,且降低后续训练样本和训练计算时的压力,提升训练效率;将训练样本集输入至深度网络模型以及权重传递函数中进行训练,训练出边界框预测掩码参数,便可以根据某一个类别物体的边界框预测出它的掩码参数,从而对该类别物体进行语义分割,分割成本低。
附图说明
图1是本申请一实施例中语义分割模型的训练方法步骤示意图;
图2是本申请另一实施例中语义分割模型的训练方法步骤示意图;
图3是本申请一实施例中语义分割模型的训练装置结构框图;
图4是本申请另一实施例中语义分割模型的训练装置结构框图;
图5是本申请另一实施例中的分割单元结构框图;
图6为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供了一种语义分割模型的训练方法,包括以下步骤:
步骤S1,构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框。
标记边界框就是用一个方框把目标物体注释出来,标记分割掩码(掩码注释)则是把一个物体沿着其轮廓标注出来。相比较而言,边界框注释因为容易标注,所以成本低;而掩码注释难标注,所以标注成本高。
由现有的语义分割现状可知,若要对一张图像进行语义分割,则需要得到该图像中每一个类别物体的分割掩码,而要得到分割掩码,则需要预先训练得到该类别物体对应的掩码参数,掩码参数可通过在训练样本集的图像标注分割掩码并将训练样本集输入至深度网络模型中训练得到。通俗的说,若待语义分割的图像中具有的物体类别是人和树,则需要在训练样本集中注释有人和树的分割掩码,然后进行训练,得到人和树的掩码参数,然后再去待分割图像中对人和树进行分割。也就是说,待语义分割的图像中的类别有多少,则需要在制作训练样本时标注多少种分割掩码。然而,自然界的物体类别多种多样,掩码注释的成本太高,不能对所有类别的物体进行标注(目前最多只能标注80个类别)。
本步骤S1中,所述训练样本集中包括有大量的物体类别,例如,一张图像中具有的物体类别包括:人、树、汽车、火车等大量类别的物体,可以理解的是,训练样本集中的物体类别越多,越有利于后续语义分割模型对图像进行语义分割。应当注意的是,本实施例中的第一类别物体以及第二类别物体并不是单单指分别只有一种类别的物体,其表示的是一系列的物体,即第一类别物体以及第二类别物体的数量都为多种,其只需要满足第一类别物体标记有边界框以及分割掩码,所述第二类别物体只标记有边界框。
在一实施例中,所述第二类别物体的数量远多于所述第一类别物体的数量,少量的第一类别物体,降低训练成本。如在具体的一个实施例中,训练样本集中包括一百种类别的物体,按照步骤S1的构建训练样本集的方法,其只需要对其中20种类别的物体标注有分割掩码以及边界框,而剩下的80种类别的物体只需要标注有边界框,相对于目前的技术中一百种类别的物体全部需要标注有分割掩码以及边界框而言,少标注80种类别物体的分割掩码,大幅度降低标注成本。
本实施例中,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体只标记有边界框。该训练样本集是完整注释数据(带分割掩码的类别)和弱注释数据(仅带边界框的类别)的混合,因此将基于该训练样本集进行训练的任务称为偏监督任务。那么,本申请实施例中的语义分割模型的训练方法实则是一种基于偏监督学习的语义分割训练的方法。偏监督学习训练样本集的主要好处是它允许我们通过利用两种类型的现有数据集来构建一个大规模的实例分割模型。
综上,本实施例中构建的训练样本集中只有部分类别的物体标记有分割掩码,无需在所有类别物体上均标记分割掩码,大幅度降低标记构建训练样本集的成本,且降低后续训练样本和训练计算的压力,从而提升训练效率。
步骤S2,将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数。
本步骤S2中,将上述构建好的训练样本集输入深度网络模型中进行训练,根据第一类别物体标记的边界框以及分割掩码,训练得出其对应的第一边界框参数以及第一掩码参数,根据第二类别物体标记的边界框训练出其对应的第二边界框参数。本实施例中在训练深度网络模型的同时,还训练了一个权重传递函数,权重传递函数被训练成根据图片类别的边界框参数来预测类别的分割掩码参数(即实例分割参数)。权重传递函数可以在MaskR-CNN中使用带有掩码注释的类作为监督学习的数据来进行端到端的训练。在推理时,权重传递函数用于预测每个类别的实例分割参数,从而使语义分割模型能够分割所有目标的类别,包括在训练时没有掩码注释的目标类别(如第二类别物体)。
具体地,上述权重传递函数根据上述第一边界框参数以及第一掩码参数训练出边界框预测掩码参数,该边界框预测掩码参数指的是通过某个类别物体的边界框预测出其对应掩码的一个参数。在训练得出该参数之后,则在对待分割图像进行语义分割时,则可以先预测出其对应的边界框,在通过边界框预测出其掩码参数,从而实现语义分割,具体实现过程将在下述实施例中进行阐述,在此不做过多赘述。
由于上述构建的训练样本集只有部分类别的物体标记有分割掩码,因此,在本步骤的训练过程中,可以大幅度降低训练样本和训练计算时的压力,提升训练效率。
步骤S3,将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型。
上述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数即为本实施例中的语义分割模型的训练参数。若要使用语义分割模型对一张图像进行语义分割,则需要得到该图像中每一个类别物体的分割掩码,而要得到分割掩码,则需要预先训练得到该类别物体对应的掩码参数(即现有语义分割模型中的训练参数);也就是说,若要得到对图像进行语义分割的语义分割模型,则需要先得到掩码参数,而如上述步骤S1中所述的,直接进行掩码注释以获得对应的掩码参数的训练成本较高。因此,本实施例中训练得到的训练参数为上述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数,将上述训练参数对应输入至深度网络模型以及权重传递函数中,便构建出适用于对图像进行语义分割的语义分割模型。
参照图2,在一实施例中,上述将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型的步骤S3之后,包括:
步骤S4,将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果。
具体地,上述将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果的步骤S4,包括:
a、将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框。
本步骤a中,待分割图像输入至语义分割模型中,可以直接预测出待分割图像中第一类别物体以及第二类别物体的边界框。
b、根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数。
本步骤b中,将上述步骤a中预测出的第一类别物体的边界框、第二类别物体的边界框输入至权重传递函数中进行计算,则可以预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数。
c、根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
在上述步骤b中得出待分割图像中第一类别物体以及第二类别物体的掩码参数之后,在本步骤c中则可以得出待分割图像中第一类别物体以及第二类别物体对应的分割掩码,然后根据分割掩码对待分割图像进行图像语义分割。
在一实施例中,所述深度网络模型为Mask-RCNN网络模型。Mask-RCNN网络模型是一种现有模型,Mask R-CNN是在Faster R-CNN上的扩展—-在其已有的用于边框识别的分支上添加一个并行的用于预测目标掩码的分支。Mask R-CNN包括两个分支,一个分支是边界框预测分支,另一个分支是掩码预测分支。在Mask R-CNN中,边界框预测分支的最后一层以及掩码预测分支的最后一层均包含对每个类别执行边界框分类和实例掩码预测任务时所用的类别参数(包括边界框参数、掩码参数)。例如,通过边界框预测分支可以根据边界框预测出其边界框参数,通过掩码预测分支可以根据分割掩码预测出对应的掩码参数。
上述Mask R-CNN方法实质是分别学习某一类别的边界框参数和掩码参数。而在本实施例中,训练Mask-RCNN网络模型的同时,还训练了一个权重传递函数。具体地,在边界框分支的最后一层以及掩码分支的最后一层之间训练上述权重传递函数,将上述训练样本集输入到Mask R-CNN网络中,同时使用权重传递函数进行训练,直到损失函数收敛,则可以训练出本实施例中的语义分割模型的训练参数。
具体地,上述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
在本实施例中,上述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU,该激活函数具有非线性、可微性、单调性等特点。
在一实施例中,使用语义分割模型对待分割图像进行语义分割之后,即把物体轮廓描绘出来之后,使用不同的RGB颜色对不同类别的物体进行标注,以进行突出显示,且在相邻物体之间填充差异性较大的RGB颜色;或者可以根据物体轮廓以及场景,识别该物体的类别,并从数据库中调用相应(相近/相似)的图片填充在该分割出的物体上。
在另一实施例中,使用语义分割模型对待分割图像进行语义分割之后,即把物体轮廓描绘出来之后,将每一个物体对应的部分单独截取出来,生成一个新的图层,即将每一个物体对应生成一张图片。最后还可以选择一个与图层相应的背景与图层进行合成。
综上所述,为本申请实施例中提供的语义分割模型的训练方法,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体只标记有边界框,无需在所有类别物体上均标记分割掩码,大幅度降低训练样本集的标记成本,且降低后续训练样本和训练计算时的压力,提升训练效率;将训练样本集输入至深度网络模型以及权重传递函数中进行训练,训练出边界框预测掩码参数,便可以根据某一个类别物体的边界框预测出它的掩码参数,从而对该类别物体进行语义分割,分割成本低。
参照图3,本申请实施例中还提供了一种语义分割模型的训练装置,包括:
第一构建单元10,用于构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
标记边界框就是用一个方框把目标物体注释出来,标记分割掩码(掩码注释)则是把一个物体沿着其轮廓标注出来。相比较而言,边界框注释因为容易标注,所以成本低;而掩码注释难标注,所以标注成本高。
由现有的语义分割现状可知,若要对一张图像进行语义分割,则需要得到该图像中每一个类别物体的分割掩码,而要得到分割掩码,则需要预先训练得到该类别物体对应的掩码参数,掩码参数可通过在训练样本集的图像标注分割掩码并将训练样本集输入至深度网络模型中训练得到。通俗的说,若待语义分割的图像中具有的物体类别是人和树,则需要在训练样本集中注释有人和树的分割掩码,然后进行训练,得到人和树的掩码参数,然后再去待分割图像中对人和树进行分割。也就是说,待语义分割的图像中的类别有多少,则需要在制作训练样本时标注多少种分割掩码。然而,自然界的物体类别多种多样,掩码注释的成本太高,不能对所有类别的物体进行标注(目前最多只能标注80个类别)。
本实施例中,第一构建单元10构建的所述训练样本集中包括有大量的物体类别,例如,一张图像中具有的物体类别包括:人、树、汽车、火车等大量类别的物体,可以理解的是,训练样本集中的物体类别越多,越有利于后续语义分割模型对图像进行语义分割。应当注意的是,本实施例中的第一类别物体以及第二类别物体并不是单单指分别只有一种类别的物体,其表示的是一系列的物体,即第一类别物体以及第二类别物体的数量都为多种,其只需要满足第一类别物体标记有边界框以及分割掩码,所述第二类别物体只标记有边界框。
在一实施例中,所述第二类别物体的数量远多于所述第一类别物体的数量,少量的第一类别物体,降低训练成本。如在具体的一个实施例中,训练样本集中包括一百种类别的物体,按照第一构建单元10构建训练样本集的过程,其只需要对其中20种类别的物体标注有分割掩码以及边界框,而剩下的80种类别的物体只需要标注有边界框,相对于目前的技术中一百种类别的物体全部需要标注有分割掩码以及边界框而言,少标注80种类别物体的分割掩码,大幅度降低标注成本。
本实施例中,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体只标记有边界框。该训练样本集是完整注释数据(带分割掩码的类别)和弱注释数据(仅带边界框的类别)的混合,因此将基于该训练样本集进行训练的任务称为偏监督任务。那么,本申请实施例中的语义分割模型的训练方法实则是一种基于偏监督学习的语义分割训练的方法。偏监督学习训练样本集的主要好处是它允许我们通过利用两种类型的现有数据集来构建一个大规模的实例分割模型。
综上,本实施例中构建的训练样本集中只有部分类别的物体标记有分割掩码,无需在所有类别物体上均标记分割掩码,大幅度降低标记构建训练样本集的成本,且降低后续训练样本和训练计算的压力,从而提升训练效率。
训练单元20,用于将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
在本实施例中,训练单元20将上述第一构建单元10构建好的训练样本集输入深度网络模型中进行训练,根据第一类别物体标记的边界框以及分割掩码,训练得出其对应的第一边界框参数以及第一掩码参数,根据第二类别物体标记的边界框训练出其对应的第二边界框参数。本实施例中在训练深度网络模型的同时,还训练了一个权重传递函数,权重传递函数被训练成根据图片类别的边界框参数来预测类别的分割掩码参数(即实例分割参数)。权重传递函数可以在Mask R-CNN中使用带有掩码注释的类作为监督学习的数据来进行端到端的训练。在推理时,权重传递函数用于预测每个类别的实例分割参数,从而使语义分割模型能够分割所有目标的类别,包括在训练时没有掩码注释的目标类别(如第二类别物体)。
具体地,上述权重传递函数根据上述第一边界框参数以及第一掩码参数训练出边界框预测掩码参数,该边界框预测掩码参数指的是通过某个类别物体的边界框预测出其对应掩码的一个参数。在训练得出该参数之后,则在对待分割图像进行语义分割时,则可以先预测出其对应的边界框,在通过边界框预测出其掩码参数,从而实现语义分割,具体实现过程将在下述实施例中进行阐述,在此不做过多赘述。
由于上述构建的训练样本集只有部分类别的物体标记有分割掩码,因此,在本步骤的训练过程中,可以大幅度降低训练样本和训练计算时的压力,提升训练效率。
第二构建单元30,用于将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型。
上述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数即为本实施例中的语义分割模型的训练参数。若要使用语义分割模型对一张图像进行语义分割,则需要得到该图像中每一个类别物体的分割掩码,而要得到分割掩码,则需要预先训练得到该类别物体对应的掩码参数(即语义分割模型中的训练参数);也就是说,若要得到对图像进行语义分割的语义分割模型,则需要先得到掩码参数,而如上述实施例所述的,直接进行掩码注释以获得对应的掩码参数的训练成本较高。因此,本实施例中训练得到的训练参数为上述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数,将上述参数对应输入至深度网络模型以及权重传递函数中,便构建出适用于对图像进行语义分割的语义分割模型。
参照图4,在一实施例中,上述语义分割模型的训练装置还包括:
分割单元40,用于将待分割图像输入至所述语义分割模型中输出待分割图像的语义分割结果。
具体地,参照图5,上述分割单元40包括:
第一预测模块401,用于将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框;
第一预测模块401待分割图像输入至语义分割模型中,可以直接预测出待分割图像中第一类别物体以及第二类别物体的边界框。
第二预测模块402,用于根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数;
第二预测模块402将上述第一预测模块401预测出的第一类别物体的边界框、第二类别物体的边界框输入至权重传递函数中进行计算,则可以预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数。
分割模块403,用于根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
在上述第二预测模块402得出待分割图像中第一类别物体以及第二类别物体的掩码参数之后,分割模块403则可以得出待分割图像中第一类别物体以及第二类别物体对应的分割掩码,然后根据分割掩码对待分割图像进行图像语义分割。
在一实施例中,所述深度网络模型为Mask-RCNN网络模型。Mask-RCNN网络模型是一种现有模型,Mask R-CNN是在Faster R-CNN上的扩展—-在其已有的用于边框识别的分支上添加一个并行的用于预测目标掩码的分支。Mask R-CNN包括两个分支,一个分支是边界框预测分支,另一个分支是掩码预测分支。在Mask R-CNN中,边界框预测分支的最后一层以及掩码预测分支的最后一层均包含对每个类别执行边界框分类和实例掩码预测任务时所用的类别参数(包括边界框参数、掩码参数)。例如,通过边界框预测分支可以根据边界框预测出其边界框参数,通过掩码预测分支可以根据分割掩码预测出对应的掩码参数。
上述Mask R-CNN方法实质是分别学习某一类别的边界框参数和掩码参数。而在本实施例中,训练Mask-RCNN网络模型的同时,还训练了一个权重传递函数。具体地,在边界框分支的最后一层以及掩码分支的最后一层之间训练上述权重传递函数,将上述训练样本集输入到Mask R-CNN网络中,同时使用权重传递函数进行训练,直到损失函数收敛,则可以训练出本实施例中的语义分割模型的训练参数。
具体地,上述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
在本实施例中,上述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU,该激活函数具有非线性、可微性、单调性等特点。
在一实施例中,使用语义分割模型对待分割图像进行语义分割之后,即把物体轮廓描绘出来之后,使用不同的RGB颜色对不同类别的物体进行标注,以进行突出显示,且在相邻物体之间填充差异性较大的RGB颜色;或者可以根据物体轮廓以及场景,识别该物体的类别,并从数据库中调用相应(相近/相似)的图片填充在该分割出的物体上。
在另一实施例中,使用语义分割模型对待分割图像进行语义分割之后,即把物体轮廓描绘出来之后,将每一个物体对应的部分单独截取出来,生成一个新的图层,即将每一个物体对应生成一张图片。最后还可以选择一个与图层相应的背景与图层进行合成。
综上所述,为本申请实施例中提供的语义分割模型的训练装置,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体只标记有边界框,无需在所有类别物体上均标记分割掩码,大幅度降低训练样本集的标记成本,且降低后续训练样本和训练计算时的压力,提升训练效率;将训练样本集输入至深度网络模型以及权重传递函数中进行训练,训练出边界框预测掩码参数,便可以根据某一个类别物体的边界框预测出它的掩码参数,从而对该类别物体进行语义分割,分割成本低。
参照图6,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语义分割模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义分割模型的训练方法。
上述处理器执行上述语义分割模型的训练方法的步骤:构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型。
在一实施例中,上述处理器将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型的步骤之后,包括:
将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果。
在一实施例中,上述处理器将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果的步骤,包括:
将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框;
根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数;
根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
在一实施例中,上述深度网络模型为Mask-RCNN网络模型。
在一实施例中,上述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
在一实施例中,上述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU。
在一实施例中,上述第二类别物体的数量多于所述第一类别物体的数量。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语义分割模型的训练方法,具体为:构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型。
在一实施例中,上述处理器将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型的步骤之后,包括:
将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果。
在一实施例中,上述处理器将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果的步骤,包括:
将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框;
根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数;
根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
在一实施例中,上述深度网络模型为Mask-RCNN网络模型。
在一实施例中,上述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
在一实施例中,上述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU。
在一实施例中,上述第二类别物体的数量多于所述第一类别物体的数量。
综上所述,为本申请实施例中提供的语义分割模型的训练方法、装置、计算机设备和存储介质,构建的训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,第二类别物体只标记有边界框,无需在所有类别物体上均标记分割掩码,大幅度降低训练样本集的标记成本,且降低后续训练样本和训练计算时的压力,提升训练效率;将训练样本集输入至深度网络模型以及权重传递函数中进行训练,训练出边界框预测掩码参数,便可以根据某一个类别物体的边界框预测出它的掩码参数,从而对该类别物体进行语义分割,分割成本低。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语义分割模型的训练方法,其特征在于,包括以下步骤:
构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至所述深度网络模型以及所述权重传递函数中,构建出语义分割模型。
2.根据权利要求1所述的语义分割模型的训练方法,其特征在于,所述将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至深度网络模型以及权重传递函数中,构建出语义分割模型的步骤之后,包括:
将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果。
3.根据权利要求2所述的语义分割模型的训练方法,其特征在于,所述将待分割图像输入至所述语义分割模型中以输出待分割图像的语义分割结果的步骤,包括:
将所述待分割图像输入至所述语义分割模型中,通过所述第一边界框参数预测出待分割图像中第一类别物体的边界框,以及通过所述第二边界框参数预测出待分割图像中第二类别物体的边界框;
根据所述第一类别物体的边界框、第二类别物体的边界框以及所述边界框预测掩码参数,分别预测出所述待分割图像中第一类别物体以及第二类别物体的掩码参数;
根据所述待分割图像中第一类别物体以及第二类别物体的掩码参数对所述待分割图像中的第一类别物体以及第二类别物体进行图像语义分割。
4.根据权利要求1-3中任一项所述的语义分割模型的训练方法,其特征在于,所述深度网络模型为Mask-RCNN网络模型。
5.根据权利要求4所述的语义分割模型的训练方法,其特征在于,所述权重传递函数的表达式为:
其中,τ为传递函数,ωcls为类的权重,ωbox为边界框的权重,ωdet为合并向量,θ为类别不可知的学习参数,ωseg为边界框预测掩码参数。
6.根据权利要求5所述的语义分割模型的训练方法,其特征在于,所述权重传递函数为两层全连接神经网络,其中两层全连接层的神经元个数分别是5120以及256,其使用的激活函数为LeakyReLU。
7.根据权利要求1所述的语义分割模型的训练方法,其特征在于,所述第二类别物体的数量多于所述第一类别物体的数量。
8.一种语义分割模型的训练装置,其特征在于,包括:
第一构建单元,用于构建训练样本集,所述训练样本集中包括第一类别物体以及第二类别物体,其中第一类别物体标记有边界框以及分割掩码,所述第二类别物体标记有边界框;
训练单元,用于将所述训练样本集输入至深度网络模型中进行训练,训练出所述第一类别物体的第一边界框参数、第一掩码参数以及第二类别物体的第二边界框参数;将所述第一边界框参数以及第一掩码参数输入至权重传递函数中进行训练,训练出边界框预测掩码参数;
第二构建单元,用于将所述第一边界框参数、第一掩码参数、第二边界框参数以及边界框预测掩码参数输入至所述深度网络模型以及所述权重传递函数中,构建出语义分割模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810362207.1A 2018-04-20 2018-04-20 语义分割模型的训练方法、装置、计算机设备和存储介质 Active CN108830277B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810362207.1A CN108830277B (zh) 2018-04-20 2018-04-20 语义分割模型的训练方法、装置、计算机设备和存储介质
US16/759,383 US11398034B2 (en) 2018-04-20 2018-07-13 Method and apparatus for training semantic segmentation model, computer device, and storage medium
PCT/CN2018/095673 WO2019200758A1 (zh) 2018-04-20 2018-07-13 语义分割模型的训练方法、装置、计算机设备和存储介质
SG11202002078UA SG11202002078UA (en) 2018-04-20 2018-07-13 Method and apparatus for training semantic segmentation model, computer device, and storage medium
JP2019570957A JP7107976B2 (ja) 2018-04-20 2018-07-13 セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810362207.1A CN108830277B (zh) 2018-04-20 2018-04-20 语义分割模型的训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108830277A true CN108830277A (zh) 2018-11-16
CN108830277B CN108830277B (zh) 2020-04-21

Family

ID=64154509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810362207.1A Active CN108830277B (zh) 2018-04-20 2018-04-20 语义分割模型的训练方法、装置、计算机设备和存储介质

Country Status (5)

Country Link
US (1) US11398034B2 (zh)
JP (1) JP7107976B2 (zh)
CN (1) CN108830277B (zh)
SG (1) SG11202002078UA (zh)
WO (1) WO2019200758A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978893A (zh) * 2019-03-26 2019-07-05 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质
CN110070034A (zh) * 2019-04-19 2019-07-30 北京朗镜科技有限责任公司 模型训练方法、节识别方法、装置、设备及介质
CN111047609A (zh) * 2020-03-13 2020-04-21 北京深睿博联科技有限责任公司 肺炎病灶分割方法和装置
CN111080612A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 一种货车轴承破损检测方法
CN111223102A (zh) * 2018-11-23 2020-06-02 银河水滴科技(北京)有限公司 一种图像分割模型训练方法、图像分割方法及装置
CN111402278A (zh) * 2020-02-21 2020-07-10 华为技术有限公司 分割模型训练方法、图像标注方法及相关装置
CN111488854A (zh) * 2020-04-23 2020-08-04 福建农林大学 一种道路交通标志自动识别与分类方法
CN112102300A (zh) * 2020-09-18 2020-12-18 青岛商汤科技有限公司 计数方法及装置、电子设备和存储介质
CN112184802A (zh) * 2019-07-05 2021-01-05 杭州海康威视数字技术股份有限公司 标定框的调整方法、装置及存储介质
CN112784701A (zh) * 2021-01-04 2021-05-11 北京小米松果电子有限公司 一种视频语义分割方法、装置及存储介质
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
CN113673529A (zh) * 2021-08-16 2021-11-19 连城凯克斯科技有限公司 语义分割模型训练方法、硅熔融状态检测方法及电子设备
WO2021245896A1 (ja) * 2020-06-05 2021-12-09 日本電信電話株式会社 分割認識方法、分割認識装置及びプログラム
CN113920075A (zh) * 2021-09-29 2022-01-11 广州鲁邦通物联网科技股份有限公司 一种基于物体识别的简易缺陷检测方法和***
WO2022241807A1 (zh) * 2021-05-20 2022-11-24 广州广电运通金融电子股份有限公司 一种车辆车身颜色识别方法、存储介质和终端

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7096361B2 (ja) * 2018-12-14 2022-07-05 富士フイルム株式会社 ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置
CN114556252A (zh) * 2019-10-10 2022-05-27 索尼集团公司 信息处理装置、信息处理方法和程序
CN111292329B (zh) * 2020-01-15 2023-06-06 北京字节跳动网络技术有限公司 视频分割网络的训练方法、装置及电子设备
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111415330A (zh) * 2020-02-27 2020-07-14 苏州杰锐思智能科技股份有限公司 基于深度学习的铜箔外观缺陷检测方法
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN112926399A (zh) * 2021-01-28 2021-06-08 上海商汤智能科技有限公司 目标对象检测方法、装置、电子设备和存储介质
CN113409255A (zh) * 2021-06-07 2021-09-17 同济大学 一种基于Mask R-CNN的斑马鱼形态学分类方法
CN113947771B (zh) * 2021-10-15 2023-06-27 北京百度网讯科技有限公司 图像识别方法、装置、设备、存储介质以及程序产品
WO2023224436A1 (en) * 2022-05-20 2023-11-23 Samsung Electronics Co., Ltd. Systems and methods for encoding temporal information for video instance segmentation and object detection
CN115527180B (zh) * 2022-11-03 2023-05-23 北京贝能达信息技术股份有限公司 一种基于图像识别技术的车厢拥挤度识别***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN107273870A (zh) * 2017-07-07 2017-10-20 郑州航空工业管理学院 一种监控场景下融合上下文信息的行人位置检测方法
CN107609525A (zh) * 2017-09-19 2018-01-19 吉林大学 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
US9881207B1 (en) * 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US9858525B2 (en) * 2015-10-14 2018-01-02 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
CN106780512B (zh) * 2016-11-30 2020-01-17 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN107403183A (zh) * 2017-07-21 2017-11-28 桂林电子科技大学 整合目标检测和图像分割为一体的智能分割方法
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US10157331B1 (en) * 2018-03-08 2018-12-18 Capital One Services, Llc Systems and methods for image preprocessing to improve accuracy of object recognition
US10311335B1 (en) * 2018-09-05 2019-06-04 StradVision, Inc. Method and device for generating image data set to be used for learning CNN capable of detecting obstruction in autonomous driving circumstance, and testing method, and testing device using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
US9881207B1 (en) * 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks
CN107273870A (zh) * 2017-07-07 2017-10-20 郑州航空工业管理学院 一种监控场景下融合上下文信息的行人位置检测方法
CN107609525A (zh) * 2017-09-19 2018-01-19 吉林大学 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡秀华等: "一种利用物体性检测的目标跟踪算法", 《西安电子科技大学学报(自然科学版)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223102B (zh) * 2018-11-23 2024-03-01 银河水滴科技(北京)有限公司 一种图像分割模型训练方法、图像分割方法及装置
CN111223102A (zh) * 2018-11-23 2020-06-02 银河水滴科技(北京)有限公司 一种图像分割模型训练方法、图像分割方法及装置
CN109978893A (zh) * 2019-03-26 2019-07-05 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质
CN110070034A (zh) * 2019-04-19 2019-07-30 北京朗镜科技有限责任公司 模型训练方法、节识别方法、装置、设备及介质
CN112184802A (zh) * 2019-07-05 2021-01-05 杭州海康威视数字技术股份有限公司 标定框的调整方法、装置及存储介质
CN112184802B (zh) * 2019-07-05 2023-10-20 杭州海康威视数字技术股份有限公司 标定框的调整方法、装置及存储介质
CN111080612A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 一种货车轴承破损检测方法
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
CN111402278A (zh) * 2020-02-21 2020-07-10 华为技术有限公司 分割模型训练方法、图像标注方法及相关装置
CN111402278B (zh) * 2020-02-21 2023-10-27 华为云计算技术有限公司 分割模型训练方法、图像标注方法及相关装置
CN111047609A (zh) * 2020-03-13 2020-04-21 北京深睿博联科技有限责任公司 肺炎病灶分割方法和装置
CN111488854A (zh) * 2020-04-23 2020-08-04 福建农林大学 一种道路交通标志自动识别与分类方法
WO2021245896A1 (ja) * 2020-06-05 2021-12-09 日本電信電話株式会社 分割認識方法、分割認識装置及びプログラム
JPWO2021245896A1 (zh) * 2020-06-05 2021-12-09
JP7323849B2 (ja) 2020-06-05 2023-08-09 日本電信電話株式会社 分割認識方法、分割認識装置及びプログラム
CN112102300A (zh) * 2020-09-18 2020-12-18 青岛商汤科技有限公司 计数方法及装置、电子设备和存储介质
CN112784701A (zh) * 2021-01-04 2021-05-11 北京小米松果电子有限公司 一种视频语义分割方法、装置及存储介质
CN112784701B (zh) * 2021-01-04 2023-11-24 北京小米松果电子有限公司 一种视频语义分割方法、装置及存储介质
WO2022241807A1 (zh) * 2021-05-20 2022-11-24 广州广电运通金融电子股份有限公司 一种车辆车身颜色识别方法、存储介质和终端
CN113673529A (zh) * 2021-08-16 2021-11-19 连城凯克斯科技有限公司 语义分割模型训练方法、硅熔融状态检测方法及电子设备
CN113920075A (zh) * 2021-09-29 2022-01-11 广州鲁邦通物联网科技股份有限公司 一种基于物体识别的简易缺陷检测方法和***

Also Published As

Publication number Publication date
CN108830277B (zh) 2020-04-21
WO2019200758A1 (zh) 2019-10-24
SG11202002078UA (en) 2020-04-29
US11398034B2 (en) 2022-07-26
JP2020524858A (ja) 2020-08-20
JP7107976B2 (ja) 2022-07-27
US20200294240A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
CN108830277A (zh) 语义分割模型的训练方法、装置、计算机设备和存储介质
CN108509596B (zh) 文本分类方法、装置、计算机设备和存储介质
Bang et al. Explaining a black-box by using a deep variational information bottleneck approach
CN109583325A (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN106528826A (zh) 一种基于深度学习的多视图外观专利图像检索方法
CN108073941A (zh) 一种基于深度学习的图像语义生成方法
CN107209873A (zh) 用于深度卷积网络的超参数选择
CN109409198A (zh) Au检测模型训练方法、au检测方法、装置、设备及介质
CN107451654A (zh) 卷积神经网络的加速运算方法、服务器及存储介质
JP7303844B2 (ja) データ拡張システム、データ拡張方法、及びプログラム
CN110033018A (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN112989927A (zh) 一种基于自监督预训练的场景图生成方法
CN106991445A (zh) 一种基于深度学习的超声造影肿瘤自动识别与检测方法
CN108304364A (zh) 关键词提取方法和装置
CN109683871A (zh) 基于图像目标检测方法的代码自动生成装置及方法
CN116229080B (zh) 半监督域适应图像语义分割方法、***、设备及存储介质
CN113569627B (zh) 人体姿态预测模型训练方法、人体姿态预测方法及装置
CN106022294A (zh) 一种面向智能机器人的人机交互方法及装置
CN107301417A (zh) 一种无监督多层神经网络的车辆品牌识别的方法及装置
CN113032585A (zh) 一种基于文档结构和外部知识的文档级实体关系抽取方法
Li et al. Deeplayout: A semantic segmentation approach to page layout analysis
CN113420827A (zh) 语义分割网络训练和图像语义分割方法、装置及设备
CN108846387A (zh) 一种交警手势识别方法及装置
CN106960434A (zh) 一种基于被包围状态和贝叶斯模型的图像显著性检测方法
CN109681165A (zh) 用于油田采油中的注水策略优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant