CN109409371A - 用于图像的语义分割的***和方法 - Google Patents

用于图像的语义分割的***和方法 Download PDF

Info

Publication number
CN109409371A
CN109409371A CN201810685965.7A CN201810685965A CN109409371A CN 109409371 A CN109409371 A CN 109409371A CN 201810685965 A CN201810685965 A CN 201810685965A CN 109409371 A CN109409371 A CN 109409371A
Authority
CN
China
Prior art keywords
exposure mask
pixel
network
feature
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810685965.7A
Other languages
English (en)
Other versions
CN109409371B (zh
Inventor
穆斯塔法·坎依
李之仲
李正元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109409371A publication Critical patent/CN109409371A/zh
Application granted granted Critical
Publication of CN109409371B publication Critical patent/CN109409371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种用于检测输入图像中的对象的实例的方法和***。检测图像中的对象的实例的方法包括:从输入图像提取多个核心实例特征;根据核心实例特征计算多尺度分辨率下的多个特征图;根据核心实例特征计算检测框;针对检测框的每个检测框计算特征图的多尺度分辨率下的分割掩膜;合并多尺度分辨率下的多个分割掩膜,以针对在图像中检测到的每个对象生成实例掩膜;通过由辅助网络计算像素级度量来细化所述实例掩膜的置信度得分;以及输出所述实例掩膜作为检测到的实例。

Description

用于图像的语义分割的***和方法
相关申请的交叉引用
本申请要求于2017年8月18日在美国专利和商标局提交的美国临时专利申请No.62/547,740的优先权和利益,其全部公开内容通过引用并入本文。
技术领域
本公开一般地涉及计算机视觉。具体地,本公开涉及用于图像的语义分割的***和方法。
背景技术
图像识别***提供一种计算机应用,其检测并识别来自数字图像或视频帧的一个或多个对象。基于深度学习的***和方法已经在视觉理解方面实现越来越精确的表现。但是,可能很难在图像中检测到相对较小、杂乱或被其他对象遮挡的对象。其他典型的***可能无法检测此类实例,也可能无法检测整个对象的一部分,也可能无法将对象的不同部分组合到整个对象中。例如,***可能将被遮挡的第一用户的面部和第二用户的肩部错误地检测为同一用户。
发明内容
本公开的实施例的方面涉及用于输入图像的语义分割的***和方法。
根据本公开的一个实施例,用于检测输入图像中的对象的实例的方法包括:从所述输入图像提取多个核心实例特征;根据所述核心实例特征计算多尺度分辨率下的多个特征图;根据所述核心实例特征计算多个检测框,每个检测框对应于在所述图像中检测到的对象;针对所述检测框的每个检测框计算所述特征图的多尺度分辨率下的多个分割掩膜;合并所述多尺度分辨率下的所述多个分割掩膜,以针对在所述输入图像中检测到的每个对象生成实例掩膜,所述实例掩膜与置信度得分相关联;通过由辅助网络计算像素级度量来细化所述实例掩膜的置信度得分;以及输出所述实例掩膜作为所述输入图像中的对象的检测到的实例。
可以通过将所述输入图像提供至完全卷积实例语义分割网络来提取所述多个核心实例特征。
可以通过将所述核心实例特征提供至特征金字塔网络来计算多尺度分辨率下的特征图。
所述特征金字塔网络可以通过以下步骤来产生所述多个特征图中的特征图:对来自所述完全卷积实例语义分割网络的所述核心实例特征进行上采样;将卷积核应用于先前特征图以产生卷积的先前特征图;以及将上采样的核心实例特征和卷积的先前特征图进行组合来生成所述特征图。
所述特征金字塔网络可以通过使用最近邻技术来对所述核心实例特征进行上采样。
所述特征金字塔网络可以通过使用去卷积层和插值卷积核来对所述核心实例特征进行上采样。
合并所述多尺度分辨率下的所述多个分割掩膜以生成所述实例掩膜可以包括:计算交集与自身之比度量并移除其中交集与自身之比度量超过阈值的实例。
可以通过将所述核心实例特征提供至区域建议网络来计算所述检测框。
所述方法还可以包括:针对所述输入图像的每个像素计算所属边界框,所属边界框中的每一个指定该像素所属的实例的边界框位置;针对所述输入图像中的每个像素计算多个密度度量;以及根据所述密度度量对所述实例掩膜进行过滤,以最小化根据所述实例掩膜和所述密度度量计算出的差分掩膜差异。
针对所述输入图像的每个像素计算所属边界框可以包括:计算表示该像素的所属边界框的四个特征矢量,所述四个特征矢量包括最顶像素、最底像素、最左像素和最右像素。
细化所述实例掩膜的置信度得分可以包括:根据所述图像中检测到的对象的所属边界框来计算平均边界框;计算所述实例掩膜和所述平均边界框之间的交并比度量;以及基于所述交并比度量来缩放所述实例掩膜的置信度得分。
根据所述密度度量对所述实例掩膜进行过滤可以包括:针对所述图像中的每个像素计算像素密度差异;针对每个实例掩膜计算差分掩膜差异;以及最小化生存掩膜集合的差分掩膜差异。
可以通过以下操作来最小化所述生存掩膜集合的差分掩膜差异:使用贪婪搜索通过迭代地切换具有更大差分掩膜差异的实例掩膜的生存状态来更新生存掩膜集合,直到所述差分掩膜差异被最小化为止。
根据本公开的一个实施例,一种用于检测输入图像中的对象的实例的***包括:核心实例特征提取网络,其被配置为从所述输入图像生成多个核心实例特征;多尺度分辨率特征图计算器,其被配置为根据所述核心实例特征计算多尺度分辨率下的多个特征图;检测框计算器,其被配置为根据所述核心实例特征计算多个检测框,每个检测框对应于在所述图像中检测到的对象;分割掩膜预测网络,其被配置为针对所述检测框中的每个检测框计算所述特征图的多尺度分辨率下的多个分割掩膜;金字塔分割网络,其被配置为合并所述多尺度分辨率下的所述多个分割掩膜,以针对在所述输入图像中检测到的每个对象生成实例掩膜,所述实例掩膜与置信度得分相关联;基于区域建议网络(RPN)的得分细化模块,其被配置为通过计算像素级度量来细化所述实例掩膜的置信度得分;以及输出模块,其被配置为输出所述实例掩膜作为所述输入图像中的对象的检测到的实例。
所述核心实例特征提取网络可以包括完全卷积实例语义分割网络。
所述多尺度分辨率特征图计算器可以包括特征金字塔网络。
所述特征金字塔网络可以被配置为通过以下步骤生成所述多个特征图中的特征图:对来自所述完全卷积实例语义分割网络的所述核心实例特征进行上采样;将卷积核应用于先前特征图以产生卷积的先前特征图;以及将上采样的核心实例特征和卷积的先前特征图进行组合来生成所述特征图。
所述特征金字塔网络可以被配置为使用最近邻技术对所述核心实例特征进行上采样。
所述特征金字塔网络可以被配置为使用去卷积层和插值卷积核对所述核心实例特征进行上采样。
所述金字塔分割网络可以被配置为:通过计算交集与自身之比度量并移除其中交集与自身之比度量超过阈值的实例来合并所述多尺度分辨率下的所述多个分割掩膜以生成所述实例掩膜。
所述检测框计算器可以包括区域建议网络(RPN)。
所述的***,还可以包括:所属边界框预测网络,其被配置为针对所述输入图像的每个像素计算所属边界框,所属边界框中的每一个指定该像素所属的实例的边界框位置;密度预测网络,其被配置为针对所述输入图像中的每个像素计算多个密度度量;以及基于密度的过滤模块,其被配置为根据所述密度度量对所述实例掩膜进行过滤,以最小化根据所述实例掩膜和所述密度度量计算出的差分掩膜差异。
所述所属边界框预测网络可以被配置为:通过计算表示所述输入图像的每个像素的所属边界框的四个特征矢量来计算该像素的所属边界框,所述四个特征矢量包括最顶像素、最底像素、最左像素和最右像素。
所述基于RPN的得分细化模块可以被配置为通过以下步骤来细化所述实例掩膜的置信度得分:根据所述图像中检测到的对象的所属边界框来计算平均边界框;计算所述实例掩膜和所述平均边界框之间的交并比度量;以及基于所述交并比度量来缩放所述实例掩膜的置信度得分。
所述基于密度的过滤模块可以被配置为通过以下步骤根据所述密度度量对所述实例掩膜进行过滤:针对所述图像中的每个像素计算像素密度差异;针对每个实例掩膜计算差分掩膜差异;以及最小化生存掩膜集合的差分掩膜差异。
可以通过以下操作来最小化所述生存掩膜集合的差分掩膜差异:使用贪婪搜索通过迭代地切换具有更大差分掩膜差异的实例掩膜的生存状态来更新生存掩膜的集合,直到所述差分掩膜差异被最小化为止。
附图说明
图1A示出根据一个实施例的利用多神经网络用于实例语义分割的本***的示例性框图。
图1B是根据本公开的一个实施例的用于语义分割的方法的流程图。
图2A示出根据本公开的一个实施例的图像的位置回归目标图的示例性示图。
图2B示出根据本公开的一个实施例的根据两个输入图像计算的四个特征的两个示例。
图3是根据本公开的一个实施例的用于细化对象分割掩膜得分的方法的流程图。
图4示出根据本公开的一个实施例的用于密度预测的示例性示图。
图5是根据本公开的一个实施例的用于基于密度的过滤的方法的流程图。
图6(a)示出没有FPN层的比较FCIS架构的示例性示图。
图6(b)示出根据本公开的一个实施例的在FCIS中并入FPN的架构的示例性示图。
图6(c)示出根据本公开的一个实施例的使用FPN多尺度聚合的示例性示图。
图7示出根据本公开的各个实施例的使用不同级别的FPN特征的结果的示例。
具体实施方式
根据一个实施例,本公开描述用于快速且准确的实例语义分割的***和方法。本***和方法针对图像中的对象类的每个实例提供基于对类的像素级标注的实例分割,并且以图像中属于对象的每个实例的特定像素的掩膜的形式产生每个对象检测,产生对象类别的分类,并产生检测的置信度得分。
例如,街景的图像的语义分割可以用标签“汽车”对与场景中的每辆“汽车”相关联的所有像素进行标记,用标签“自行车”对与自行车上的人相关联的所有像素进行标记,并且可以用标签“行人”对与在场景中步行的人相关联的所有像素进行标记。此外,语义分割***可以针对图像中的对象的每个单独实例(例如,场景中的汽车的每个实例)生成单独的实例掩膜,该单独的实例掩膜标识与对象的单独实例相对应的图像的像素。例如,如果语义分割***在图像中检测到三辆汽车和两个行人,则输出五个单独的实例掩膜:每辆车一个实例掩膜,每个行人一个实例掩膜。
本公开描述一种***和方法,该***和方法通过以下操作而以与对比技术相比更高的精确度来执行实例分割:即,推断关于每个像素位置的附加“完整性”信息并且使用该信息来指导对对象的检测,其中所述附加“完整性”信息指示对象的完整性。本公开的实施例进一步利用可以有效地以不同尺度提取图像的分层特征并且以统一的方式聚集这些分层特征的结构或体系结构。本公开的实施例利用并聚集不同尺度的信息,这改善了关于较小物体和在拥挤场景中的性能。可以使用标注的训练数据(例如,使用受监督的学习过程)来训练本公开的实施例。通过多任务学习,训练过程可以是端到端的,其中由附加的深度神经网络提供的附加信息指示实例掩膜具有完整的独立对象,这在杂乱和遮挡的情况下提高性能。
根据一个实施例,本公开的实施例通过以下方式利用关于对象的“完整性”的信息,例如,通过赞成检测整个对象(例如,通过提高检测整个对象的置信度得分),同时阻止将对象的部分视为一个实体(例如,通过降低检测部分对象的置信度得分)或者将多个对象或者属于不同对象的部分的联合视为一个实体。本公开的实施例通过有效地提取不同尺度的信息并聚集这种信息来进一步改进关于小对象(例如,构成整个输入图像的一小部分的对象)的性能。本公开的一些实施例包括实例分割模块,其检测图像中的对象并产生相应类别、所属像素和置信度得分。本公开的实施例还包括预测关于对象完整性的信息的神经网络层,以及利用它们来改善实例分割性能的技术。本公开的实施例还可以减少产生虚假检测的可能性。
根据一个实施例的实例分割***使用像素级的所属边界框位置信息来评估每个实例分割与其相关联的像素的一致性,以便过滤掉错误的检测。本公开的实施例进一步使用实例密度预测来评估检测完整性并进行调整以改善拥挤场景中的检测和对小物体的检测。本公开的实施例还提供来自不同尺度下的特征的实例语义分割掩膜的有效融合。
在下文中,将参照附图更详细地描述示例实施例,其中相同的附图标记始终表示相同的元件。然而,本公开可以以各种不同的形式来实施,并且不应该被解释为仅限于本文所示的实施例。相反,提供这些实施例作为示例,以使得本公开将是全面和完整的,并且将向本领域技术人员充分传达本公开的方面和特征。因此,可能不会描述对于本领域普通技术人员来说完全理解本公开的方面和特征所不需要的过程、元件和技术。除非另有说明,否则在整个附图和书面描述中,相同的附图标记表示相同的元件,并且因此将不重复其描述。在附图中,为了清楚起见,可能会夸大元件、层和区域的相对尺寸。
图1A示出根据一个实施例的利用多个神经网络用于语义分割的本***的示例性框图。图1B是根据本公开的一个实施例的用于语义分割的方法的流程图。
如图1A和图1B所示,根据一个实施例,用于实例语义分割的***10包括完全卷积实例语义分割(FCIS)核心网络100,其在2100处对来自输入图像20(例如,包含一个或多个对象的场景的位图图像,例如街道的照片)的初始图像进行处理以提取核心神经网络特征102。根据本公开的一个实施例,核心神经网络是提取输入图像的不同级别的表示的完全卷积神经网络。完全卷积神经网络的特点是速度快,可以应用于任何输入图像。这与具有完全连接层的网络(例如,掩膜递归(recurrent)卷积神经网络(Mask-RCNN))相反,其往往较慢,具有较多参数并且需要针对输入图像大小进行调整。
核心神经网络特征102被提供给特征金字塔网络(FPN)200和区域建议网络(RPN)300两者。
FPN 200在2200处生成输入图像的较高分辨率特征图210、230和250,并且可以应用上采样以在多个分辨率或尺度下生成特征图。通常,通过最大或平均池化(pooling)而在核心完全卷积核(例如,FCIS核心网络100)中对特征图进行下采样,以改善经训练的表示的质量并且管理或约束深度神经网络(例如,在包含许多隐藏层的神经网络中)的计算复杂度的增加。根据本公开的实施例的一些方面,FPN 200包括最终表示,其具有比FCIS核心网络100的输出更高的分辨率并且也包含来自高级别表示的信息。因此,在一个实施例中,FPN200使用最近邻法对第一特征图210进行上采样以生成更高分辨率的第二特征图220,将卷积核变换应用于具有相同上采样分辨率的第一特征图210,然后将这两个表示组合成上采样的特征图的分辨率下的第三特征图230。然后可以进一步对第三特征图230进行上采样以生成第四特征图240,并且在卷积表示之后与具有类似分辨率的另一个核组合以生成第五特征图250。这可以重复,直到达到最终特征图的期望分辨率,其限制为输入图像的分辨率。该网络被称为特征“金字塔”,因为特征图的大小在每个级别增加(例如,级别210、230和250的特征图)。应该理解的是,在不偏离本公开的范围的情况下,可以有任何数量或级别的特征图。
在一些实施例中,FPN由去卷积层执行上采样而不是最近邻上采样。在一个实施例中,通过训练过程,去卷积层学习插值卷积核以通过简单地***零来在上采样之后与特征图进行卷积。
本公开的实施例不仅将具有最高分辨率的最终表示视为FPN的输出,而且将金字塔的所有级别(例如,特征图210、230和250)视为不同的多尺度表示的提供者,其中每个表示是当前尺度下的表示和较小尺度下的表示的组合。如分开的箭头201、203和205所示,多分辨率特征图210、230和250(多尺度分辨率下的特征图)被提供给分割掩膜预测网络400,其在下面更详细地描述。
在2300处,RPN 300生成对应于各个特征的位置的多个检测框或边界框(RPNBBoxes)302。每个检测框由多个框坐标限定,其标识与图像中的一个对象相对应的感兴趣区域(例如,RPN针对其在图像中检测到的每个对象生成检测框)。实例语义分割的质量取决于不会错过任何检测的相当准确的RPN。但是,查全率高(不错过检测)通常也会导致多错误检测。
多分辨率特征图210、230和250以及边界框302被提供给分割掩膜预测网络400或分割掩膜头部,其在2400处在来自FPN 200的特征图210、230和250的各个分辨率下针对每个对象类生成或预测分割掩膜。分割掩膜头部是完全卷积深度神经网络,其被训练为针对来自RPN 300的每个边界框302并且针对每个对象类预测分割掩膜。分割掩膜预测网络400(或分割掩膜头部)被配置为根据与RPN边界框对应的裁剪后的特征图(例如,由RPN边界框所裁剪的特征图的一部分)预测分割掩膜,可以通过一次性预测进行预测或者在将与RPN对应的特征图裁剪池化成各单元的固定大小的网格之后针对每个网格单元进行预测。分割掩膜头部400进一步被配置为针对每个类(例如,将由实例语义分割***10检测的每个对象类,其中类可以包括例如人、狗、猫、汽车、垃圾、家具等)提供像素级分类得分,并且还可以提供落入掩膜内部或外部的像素级得分。在每个掩膜上聚合像素级得分以产生掩膜的置信度得分。根据本公开的一个实施例,实例语义分割***10通过聚集不同尺度的所有中间特征图来提供分割掩膜预测(而不是使用单个特征或者针对每个感兴趣的区域仅选择一个单独的金字塔尺度来提供分割掩膜预测)。在图1A所示的实施例中,三个尺度下的特征显示为410、430和450,其表示来自由FPN 200计算的不同特征图210、230和250的具有不同特征尺度的特征图。
通常,后阶段特征图(例如,第三特征图230和第五特征图250)具有较大的感受野并且还具有比前阶段特征图(例如,第一特征图210)更高的分辨率。因此,后阶段特征图可能更适合于检测某些类型的对象,例如非常小的对象或需要更大的全局视图来理解它们的语义的对象。然而,前阶段特征图(例如,来自级别210)对于噪声可能更稳健,因为它们具有比更高级别特征图更低的分辨率,并且可能更适合于识别大对象。本公开的一些实施例包括在FPN上的掩膜预测头部470,其从各层和各RPN边界框取得多尺度特征图以针对来自各个FPN尺度(例如,来自FPN 210、230和250的分辨率尺度/级别)并在各个RPN边界框302内的各个类(连同分类得分或置信度得分)预测分割掩膜。
然后将分割掩膜402提供给金字塔分割网络500以在2500处生成针对特定对象的分割掩膜502,其是根据分割掩膜预测网络400生成的不同分辨率(例如,以多分辨率特征图410、430和450的不同分辨率)下的各个掩膜生成的。根据一个实施例,本***学习在FPN的多个尺度下预测的分割掩膜的组合。对于每个类,每个掩膜和RPN框由像素级得分定义。
本公开的各个实施例可以使用不同的方法来组合在不同尺度下估计的FPN分割掩膜。一种方法是学***均组合取每个边界框内的特定类的所有FPN分割掩膜,并将每个像素的得分指定为所组合的各个FPN掩膜的平均得分。而最大组合为掩膜中每个像素分配最大得分。非最大抑制组合选择其像素的聚合得分最大的FPN分割掩膜作为生存掩膜,并消除所有其他掩膜。在所有情况下,金字塔分割网络的输出掩膜通常应该比直接从核心完全卷积网络的单个输出预测的掩膜更精确。它比对不同尺度的输入图像多次运行实例语义分割网络要快得多。
根据一个实施例,本***提供金字塔分割网络,以防止基于与同一类的其他检测完全重叠的检测的误判。本***包括被称为交集与自身之比(IoS)的度量,其消除了几乎完全包含在其他检测中的检测:IoS=(与其他检测的相交区域)/自身区域;如果IoS=1,则意味着该检测完全包含在另一个检测中并且可以安全地丢弃。因此,本***可以丢弃IoS超过某个阈值的检测,其中阈值是小于1但接近1的值(由此表明在另一个区域中有很大程度的包含)。
由FPN 200产生的诸如第三特征图250的较高分辨率特征图也被提供给所属边界框(BBBox)预测网络600和密度预测网络800。BBBox预测网络600和密度预测网络800在这里可以被称为“辅助网络”。
在2600处,BBBox预测网络600针对输入图像20中的每个像素计算所属边界框(例如,像素坐标),其包含该像素是其一部分的对象。更详细地,根据一个实施例,BBBox预测网络被训练为针对每个像素产生它所属的(最主要的)实例掩膜的边界框的坐标。为了简化训练,通过回归到真实标准图(而不是通过直接回归到边界框的坐标)来训练BBBox预测网络600以输出四个特征图,每个特征图具有与输入图像20相同的大小,其中特征图的每个像素分别表示它与其所属边界框的顶边、底边、左边和右边的距离。这样,根据本公开的一个实施例的BBBox预测网络600不预测边界框,而是预测由其四个角(实例中最顶部的像素、最底部的像素、最左侧的像素和最右侧的像素)定义的多边形。该多边形可以提供不一定为矩形的对象的实例的更准确表示。所属边界框在此可以被称为矩形或多边形预测。
根据一个实施例,BBBox预测网络600直接针对每个像素预测所属实例位置。在图像中的每个像素处,预测定义其所属实例的边界框位置的矢量。在一些实施例中,矢量包括左上角和右下角的坐标,这给这些实施例的边界框带来矩形形状。这样,BBBox预测网络600针对每个像素计算边界框602,表示为具有原始图像的分辨率的4通道图。
在一个实施例中,通过在原始神经网络内的基础层的顶部(在最终卷积层上或者在特征金字塔网络200的层上)添加计算头部层来实现BBBox预测网络600。新的完全卷积层可以被构造为头部。最终的输出是4通道图,所述4通道图具有与被上采样回图像的分辨率的基层相同的分辨率。
在用于训练BBBox预测网络600的训练过程期间,如下地计算真实标准位置。令ok表示第k真实标准对象,令bbox(ok)表示ok的边界框坐标,并且令tij表示像素i∈ok的绝对位置目标。为便于讨论,假设存在四个通道(顶坐标、左坐标、底坐标、右坐标),其中这四个通道定义实例ok的边界框坐标,其中j属于{1,2,3,4}。
对于背景像素(例如,不对应于诸如车辆或人的对象的像素),不对预测应用损失,而是由BBBox预测网络600针对背景像素填充零。
然而,卷积神经网络(CNN)是平移不变的,所以神经元不知道它所观察的感受野的偏移,但是需要该信息来预测绝对坐标。这是通过添加xy坐标图作为特征的一部分来解决的。在一个实施例中,训练过程回归到缩放的相对位置目标
其为每个像素到其所属边界框的顶边、底边、左边和右边的距离。这里,缩放因子λpos可以设为10/w(其中w是图像的宽度),以使得目标足够小以便网络可以回归到该目标。在经验上,由于权重初始化尺度,网络往往会产生小值,因此很难回归到800这样的值。因为像素坐标y(i)、x(i)和λpos对于所有i都是已知的,所以tij可以从中恢复。图2A示出根据本公开的一个实施例的图像的位置回归目标图的示例性示图。具体而言,图2A示出四组图像1010、1020、1030和1040。四组图像1010、1020、1030和1040中的每一组分别包括输入图像1012、1022、1032和1042。四组图像1010、1020、1030和1040中的每一组还包括图像1014、1024、1034和1044,其描绘到边界框的底部的距离(其中较亮的部分指示较大的距离而较暗的部分指示较小的距离)。另外,四组图像中的每一组包括图像1016、1026、1036和1046,其示出到边界框的左侧的距离(其中较亮的部分指示较小的距离而较暗的部分指示较大的距离)。图2B示出根据本公开的一个实施例的根据两个相应的输入图像1052和1062计算的四个特征的两个示例1050和1060。每行中的前四幅图像描绘根据输入图像(最右侧显示的图像)计算的四个特征(到边界框的最顶侧、最左侧、最底侧和最右侧的距离)。对于第一行1050,图像1059、1058、1056和1054分别描绘到边界框的最顶侧、最左侧、最底侧和最右侧的距离,其中在图像1059和1058中较亮的部分表示较小的距离而较暗的部分指示较大距离,而在图像1056和1054中较亮的部分表示较大距离而较暗的部分指示较小距离。类似地,对于第二行1060,图像1069、1068、1066和1064分别描绘到最顶侧、最左侧、最底侧和最右侧的距离。
根据一个实施例,本***对图使用L2回归来训练网络,因为不是所有像素在度量和结果质量中都是同等重要的,并且对于所有像素使用相同的权重将相比于较小的杂乱的对象更多地集中于较大的对象。在一些实施例中,不常见的类被加权得更多(与每个类中的实例的数量成反比)。在一些实施例中,来自较小对象的像素被加权得更多(与对象中像素的数量成反比)。在一些实施例中,具有较大位置值的回归被加权得较少,使得100像素对象中错位20个像素的位置受到的惩罚的量与1000像素对象中错位200个像素相同(与物体长度或高度成反比)。
测试性能时,确定预测并将其转换回tij。然后,对于来自先前操作的每个检测ok,由BBBox预测网络600计算的掩膜对其像素i∈ok迭代以计算RPN bbox(ok)与tij(i∈ok)之间的一致性级别。在各种实施例中,这可以通过例如计算所有边界框的交并比(IoU)来完成,其中|ok|表示检测实例ok中的像素数量
或通过计算平均的边界框的IoU来完成
根据一个实施例,将该一致性得分与阈值进行比较,并且如果其低于阈值,则减小ok的检测置信度。
由BBBox预测网络600计算的边界框(BBBoxes)602被提供给基于区域建议网络(RPN)的得分细化模块700,其在2700处基于分割掩膜502和边界框602之间的一致性水平调整由金字塔分割网络500生成的分割掩膜502中的置信度来生成调整后的分割掩膜702。
图3是根据本公开的一个实施例的用于细化对象分割掩膜得分的方法的流程图。更具体地,由金字塔分割网络500生成的每个实例分割掩膜502的得分基于与该实例分割掩膜相关联的RPN边界框302与来自BBBox预测网络600的预测的所属边界框602之间的一致性程度来细化。如上所述,原始图像20的每个像素具有与其相关联的由BBBox预测网络600计算的预测BBBox。在2710处,基于RPN的得分细化模块700对被分类为处于分割掩膜502内的所有像素的预测BBBox进行平均以产生平均的预测BBBox。在2730处,基于RPN的得分细化模块700计算平均的预测BBBox和与该掩膜相关联的RPN BBBox之间的交并比(IoU)度量(多个预测BBBox之间的交集的面积除以它们的并集的面积)。在2750处,基于RPN的得分细化模块700与掩膜的对应IoU度量成比例地缩放掩膜的得分,以生成实例掩膜的细化得分。较大的IoU度量指示RPN和与该掩膜相关的BBBox网络结果之间的一致性,并且该掩膜的置信度增加。
在2800处,密度预测网络(DPN)800根据高分辨率特征图204(例如,第三特征图250)计算密度度量802,密度度量802针对每个像素,依照邻域中重叠实例的数量(例如,该像素处不可见或被遮挡的对象的数量)来指示实例(该像素是其一部分)的大小的度量和该像素的像素邻域的拥挤度的度量。更详细地,密度预测网络800的分层密度预测网络810被训练为使用分层特征812计算每个像素的度量,其中该度量以重叠实例的数量来指示该像素所属实例的大小的度量以及它的邻域的拥挤度的度量。属于较小对象实例和/或拥挤区域中的像素将具有较大的密度,因为可能有许多重叠的包含给定像素的边界框,如由密度预测模块830(其也可被认为是分层密度预测网络810的最终层)基于分层特征812所计算的。密度预测网络800被训练为针对每个像素p预测其所属实例的大小的倒数的总和:
其中size(I)指在输入图像20中检测到的对象的实例的估计大小(例如,以像素的数量而言)。等同地,针对像素i的像素级密度图d可如下所示:
其中size(ok)是对象ok中的像素的数量。通常,可以通过回归到真实标准密度图来训练密度预测网络800。每个像素p的预测的所属边界框的面积也可以用来细化其对size(I)的估计。
根据一个实施例,本***进一步修改检测到的对象掩膜的置信度得分以更好地匹配对某个区域中存在多少对象的估计。典型的FCIS(例如FCIS核心网络100)在杂乱的对象上表现较差。但是,FCIS会检测遮挡图案和小尺度图案。虽然网络可能难以确定哪个对象是遮挡物以及哪个对象是被挡物(被遮挡的对象),但网络可以粗略估计在任何特定区域内有多少对象。如此,在一些实施例中,在估计之后,本***通过改变检测的置信度得分来减少或消除预测密度图与根据检测计算的密度之间的任何差异。
通常,可以通过为每个实例对象分配均匀分布在其像素上的质量1来调整置信度得分。当物体重叠时,重叠区域中像素的密度是所有密度的总和。以这种方式,当密度较高时,可以推断该区域中是由于具有较小尺寸的对象、由于遮挡还是由于彼此重叠的对象而存在更多的实例。此外,图像的密度图的总和是其内的对象的总数。
图4示出根据本公开的一个实施例的用于密度预测的示例性示图。图4(a)描绘真实标准实例及其对应的边界框。本***确定并预测图像的像素密度,其中每个实例的质量为1。这可以用于引导检测置信度以符合对象完整性。
可以计算整个图像的密度,或者可以通过对属于一个类别的对象进行排他性总计来分别计算每个类别的密度。预测每类密度需要更多的计算能力,但是提供了比一次计算所有类的密度更精确的结果。可以根据真实标准来计算密度以得到真实标准密度(参见图4(b)),或者可以根据所选择的检测来计算密度(例如,通过利用(render)置信度高于某个阈值的检测的掩膜(参见图4(c)和图4(d))。
根据一个实施例,本***通过添加与FCIS得分图平行的另一个头部来直接从网络预测像素级密度。在一些实施例中,预测可以是回归,或者在其他实施例中是量化值分类。在预测为回归的情况下,因为密度变化很大,可以将密度回归到密度的对数值log(di)。当没有物体时,密度将为零,并且不能将其回归到log(0)——本***使用小于每张图像1个对象的密度值作为这些像素的代表性回归目标(例如,可以使用log(0.25/(640×1280))≈-15.00)。
在2900处,在获得调整后的分割掩膜702和密度度量802两者之后,根据一个实施例的基于密度的过滤模块900利用检测置信度阈值对检测置信度进行阈值化,以产生最终分割图并使其结果可视化。更详细地,基于密度的过滤模块900可基于所计算的密度度量802来过滤调整后的掩膜实例702,以便减少或最小化这些计算之间的差异。
一般地,用于检测图像中的对象的实例的方法通常是过度检测的,并且因此,根据本公开的一些实施例,只有那些满足(例如,超过)阈值C(例如,就置信度得分而言,例如0.7的阈值)的检测实例将作为输出最终实例掩膜和它们各自的置信度得分902被返回(例如,通过在显示装置上显示检测到的类以供用户查看来可视化,或提供给控制算法以控制例如自主车辆),并且评估性能的度量将更多地集中于高置信度的检测。
根据本公开的一个实施例,为了考虑调整后的掩膜实例702中的过度检测,可以根据密度度量802去除(或“切换至关闭”)一些调整后的掩膜实例702。对此,在一些实施例中,基于密度的过滤模块900计算剩余检测的像素级密度,并从预测密度减去像素密度以获得每个像素的“差异”。对于每个像素,差异图是基于置信度得分满足阈值C而被过滤的输出检测的密度图与密度预测之间的不匹配。可以通过以下方式减小差异图的绝对值的总和:将那些过滤后的输出检测的置信度得分从高于阈值0.7(开启)的值切换或修改至低于0.7的值(关闭),或反之亦然:
onoff:{ok∈detections}→{1,0}
当在2900处应用阈值时,来自所有类的生存掩膜共同定义整个图像(例如,输入图像20的所有像素)的生存分割图,根据其计算如上所定义的像素密度。图5是根据本公开的一个实施例的用于基于密度的过滤的方法的流程图。
在2910处,基于密度的过滤模块900针对图像的各个像素计算像素密度差异,其中将单个像素的密度差异定义为计算的像素密度与通过密度预测网络800预测的像素密度之间的差异。将掩膜密度差异(MDD)定义为包含在对应于该掩膜的图像区域内所包含的所有像素的像素密度差异的总和。切换掩膜密度差异(TMDD)是在其生存状态已经切换(如果其是非生存的则切换至生存,反之亦然)后的掩膜密度差异MDD。差分掩膜差异(DMD)被定义为掩膜密度差异和切换掩膜密度差异之间的差(DMD=MDD-TMDD)。基于密度的过滤调整预测的实例分割掩膜的得分,以减小来自DPN 800的预测的掩膜密度与来自生存分割图的实际计算的掩膜密度之间的差异。
因此,在2930处,基于密度的过滤模块900计算每个实例掩膜702的DMD。在2950处,基于密度的过滤模块900切换具有最大DMD的掩膜的生存状态。然后针对与该切换的掩膜重叠的所有实例掩膜重新计算DMD,并找到具有最大DMD的掩膜,并且切换其生存状态,依此类推,直到DMD被最小化为止。
在一个实施例中,这种最小化是通过贪婪搜索来执行的,即,将导致优化功能最大程度降低的检测切换至开启或关闭。这样,在2970处,基于密度的过滤模块900确定DMD是否已经最小化(例如,当没有可以进一步减小MDD的切换时)。如果否,则处理在2930处继续以重新计算DMD并在2950处切换另一个掩膜。另一方面,如果DMD最小化,则在2990处,基于密度的过滤模块900重新分配置信度得分以匹配切换的生存状态。在贪婪搜索收敛后,可以通过在[0,0.7](例如要切换至关闭的实例掩膜)和[0.7,1](例如要切换至开启的实例掩膜)之间的简单双射线性映射来改变与切换不一致的置信度得分的置信度。
然后输出满足阈值置信度得分的所得到的生存掩膜实例的集合作为每个类的最终掩膜,同时输出这些掩膜各自的置信度得分。
如上所述,本公开的一些实施例包括具有FCIS的特征金字塔架构。特征金字塔状结构已被用于其他领域。一种具体的架构,即特征金字塔网络(FPN),通过仅使用最终的最大尺度而在对象检测中获得有竞争力结果,并且进一步用于掩膜递归卷积神经网络(Mask-RCNN)中。
本公开的实施例的方面涉及在一次正向传递中有效地产生或训练特征金字塔,其中多尺度上的特征在所有金字塔层上行为类似,并且都具有作为识别网络中的顶层的高级别信息,同时也被用于与FCIS一起对各种不同尺寸的输入图像进行操作(例如,基本上独立于输入图像的尺寸进行操作)。
图6(a)示出没有FPN层的比较FCIS架构的示例性示图。图6(b)示出根据本公开的一个实施例的在FCIS中并入FPN 6200的架构的示例性示图。图6(c)示出根据本公开的一个实施例的使用FPN多尺度聚合的示例性示图。
根据本公开的一个实施例,用FPN 6200构建FCIS的方法首先从公共的预先训练的神经网络(例如,ResNet-101)开始,并且将预先训练的神经网络的卷积层根据它们的空间分辨率(或者等价地,根据在图像尺度上的相邻特征图像素之间的跨度(stride))分成各组。例如,conv1组的跨度为2,而conv5组的跨度为32。每组的顶层分别被称为{C1,……,C5}。然后,顶层卷积输出迭代地经过上采样和横向连接以分别产生金字塔输出{P5,……,P1}。首先(例如,使用最近的邻居)对每个较粗糙的金字塔层Pn+1进行两次上采样,然后使相应的卷积层Cn输出经历一次1×1卷积,并将结果添加到经上采样的Pn+1,其提供Pn输出。最后,对金字塔输出{P5,……,P1}中的每一个执行预测(例如,区域建议、感兴趣区域(RoI)的池化)。
根据一个实施例,本***将FPN 6200适配到本框架中(参见图6(b))。将RPN 6300的各个区域建议框池化成k×k单元的网格。针对这些k2单元中的每一个并针对每一类预测两个掩膜。第一掩膜预测表示背景的像素。第二掩膜预测表示前景的像素。总的来说,这导致2k2个位置敏感的得分图,因为每个得分图都取决于k×k网格中单元的位置。因此,当使用FCIS型框架时,对于每个类别,最终输出具有专用于每个网格位置(内部和外部)的2k2个通道。这些得分图通过在C5层顶部添加1×1卷积层来预测,由于扩张卷积,该卷积层具有16而不是32的跨度。在本公开的一些实施例中,还应用FPN技术来构建P3金字塔层或者{P3,P2}两个金字塔层(如图6(b)所示)或{P3,P2,P1}金字塔层中的全部。这些层比FCIS的特征图有更小的跨度(8,4和2)。在一些实施例中,卷积层可以被放置在最精细的金字塔层上,以获得更高分辨率的得分图。所有超参数(例如,权重初始化、特征图中的通道数量等)与FCIS保持相同。
尽管RPN还可以使用不同尺度的FPN特征,但是在一些实施例中,为了简化计算,仅对金字塔最精细的层执行得分图计算(其类似于RoI池化),而RPN的输入保持不变。
在各种实施例中,可以以不同的方式使用特征金字塔层。一种方式是仅使用最精细的层,如图6(b)所示,其中仅使用P2。另一种方式是基于对象大小或检测大小选择性地使用特定层。在又一实施例中,应用所有金字塔层上的头部(参见例如图6(c),其中P2和P3两者均被使用)。头部共享相同的权重,将每个特征金字塔层作为输入,并产生不同大小的得分图作为输出。Mask-RCNN或FCIS中的池化层会生成固定大小的得分图或特征图(例如21×21),并可应用于所有不同大小的输出图,以针对每个感兴趣区域和每个尺度获得一个固定大小的图。本***通过应用平均缩减或最大缩减来在不同尺度上进行聚合,以针对每个感兴趣区域获得一组图,其将具有与从单个金字塔尺度获得的维度相同的维度。然后应用流水线的其余部分,例如柔性最大(softmax)和损耗层或随后的卷积层。
图7示出根据本公开的各种实施例的使用不同级别的FPN特征的结果的示例。更详细地,每行示出用于四个不同语义分割***的输出检测边界框:基线***(标记为“org.feat map”)以及使用不同金字塔层的***(标记为“FPN P1”、“FPN P2”和“FPN P3”)。如图7所示,FPN P2提供比仅包含FCIS的基线***(例如,在“org.feat map”中描绘的)更准确的结果,并且比由FPN P3和FPN P1产生的结果更准确。例如,在org.feat map、FPN P3和FPN P1各自的输出7000、7003和7001中,包含前景中的椅子的轮廓还延伸以包括在后面的背景中并位于前景中的椅子的左侧的椅子。另一方面,FPN P2的输出7002显示对前景椅子和背景椅子的分别检测。图像7100、7103、7102和7101分别描绘基线***、FPN P3、FPN P2和FPN P1针对不同输入图像的输出。如7100中所示,基线***在图像中仅检测到一把椅子,而FPN P3、FPN P2和FPN P1都检测到两把单独的椅子,如7103、7102和7101所示。
应该理解的是,尽管在这里可以使用术语“第一”、“第二”、“第三”等来描述各种元件、部件、区域、层和/或部分,但是这些元件、部件、区域、层和/或部分不应被这些术语限制。这些术语用于将一个元件、部件、区域、层或部分与另一个元件、部件、区域、层或部分区分开。因此,所讨论的第一元件、第一部件、第一区域、第一层或第一部分可以被称为第二元件、第二部件、第二区域、第二层或第二部分,而不脱离本公开的范围。
本文所使用的术语仅用于描述特定实施例的目的,而不旨在作为本公开的限制。如本文所使用的,除非上下文另外明确指出,否则单数形式“一”和“一个”也旨在包括复数形式。还应理解的是,当在本说明书中使用时,术语“包括”、“包含”、“涵盖”和/或“含有”指定所提及的特征、整体、步骤、操作、元件和/或部件的存在,但是不排除一个或多个其他特征、整体、步骤、操作、元件和/或部件和/或其组合的存在或添加。如本文所使用的,术语“和/或”包括一个或多个相关的列出项的任何和所有组合。诸如“至少……中的一个”之类的表述当在元素列表之前时,修饰整个元素列表而不是修饰该列表的单个元素。
如本文所使用的,术语“基本上”、“约”和类似术语被用作近似术语而不是程度术语,并且旨在说明本领域的普通技术人员将认识到的测量值或计算值中的固有偏差。此外,当描述本公开的实施例时,使用“可以”是指“本公开的一个或多个实施例”。如本文所使用的,术语“使用”可以被认为与术语“利用”同义。而且,术语“示例性”旨在指代示例或说明。
这里描述的根据本公开的实施例的电子或电气装置和/或任何其他相关装置或部件可以利用任何合适的硬件(例如,通用中央处理单元和/或专用集成电路)、固件(例如,现场可编程门阵列)、软件(例如,要由通用中央处理单元和/或诸如图形处理单元或矢量处理器的更专用处理单元执行的机器可读指令)或者软件、固件和硬件的组合来实施。例如,这些装置的各种组件可以形成在一个集成电路(IC)芯片上或形成在分开的IC芯片上。此外,可以在柔性印刷电路膜、带载封装(TCP)、印刷电路板(PCB)上实施这些装置的各种组件或者在一个基板上形成这些装置的各种组件。此外,这些装置的各种组件可以是在一个或多个计算装置中在一个或多个处理器上运行的进程或线程,其执行计算机程序指令并与其他***组件进行交互以执行本文所述的各种功能。计算机程序指令存储在可以使用标准存储器装置(例如,随机存取存储器(RAM))在计算装置中实现的存储器中。计算机程序指令也可以存储在其他非暂时性计算机可读介质中,例如CD-ROM、闪存驱动器等。而且,本领域技术人员应该认识到,可以将各种计算装置的功能组合或集成到单个计算装置中,或者可以将特定计算装置的功能分布在一个或多个其他计算装置上而不偏离本公开的示例性实施例的范围。
一般而言,深度神经网络包括布置成层的多个神经元。输入数据(例如,在这种情况下为输入图像)被提供给神经元的输入层并在神经元的输出层产生输出数据。在深度神经网络的情况下,在输入层和输出层之间存在多于一个的神经元“隐藏层”,其中一般而言,一层中的神经元接收来自前一层的输入并将其输出提供给下一层,其中每个神经元产生输出,该输出是它接收的输入的总和的数学函数(例如,逻辑函数)。
层的神经元之间的连接与权重相关联,其中在发送神经元和接收神经元之间进行每个连接。沿连接传输的值在提供给接收神经元之前按连接的权重进行缩放。
训练神经网络的过程通常涉及向神经网络提供训练数据(例如,样本输入图像和样本输入图像的期望输出)并更新神经网络的权重,直到神经网络根据样本输入图像产生与期望输出相匹配或近似的输出。训练神经网络的方法包括例如后向传播算法。
如上所述,可以在通用计算机***上执行训练神经网络。此外,诸如图形处理单元之类的矢量处理器和/或通用计算机***上的矢量运算(例如,单指令多数据或SIMD指令)也可用于训练神经网络,因为训练过程经常是可并行化的。在一些情况下,诸如现场可编程门阵列(FPGA)的可编程硬件或诸如ASIC的专用硬件可用于训练神经网络。训练过程的结果包括用于神经网络各层之间的连接的一组权重。
当操作经训练的神经网络时,连接的权重通常固定为在训练过程期间计算的值。将输入数据(例如,输入图像)提供给神经元的输入层(其执行计算),将输出与训练后的权重相乘,并将输出传递到下一神经元层(该过程可称为前向传播)。
因为连接的权重通常是固定的,所以部署在生产***中的神经网络通常将其权重预先设置为训练值。因此,部署在嵌入式***上的经训练的神经网络通常可以具有固定的(例如,存储在存储器中的)神经网络权重,并且部署在FPGA上的经训练的神经网络可以将其权重设置好(例如,编程到表示神经元的元素之间的连接)。类似地,ASIC可以使用例如神经形态硬件来实现神经网络,在所述神经形态硬件中使用电路元件(例如,具有与权重相一致的电阻值的电阻器)来设置权重。
除非另外定义,否则这里使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解的是,诸如在通用字典中定义的那些术语应该被解释为具有与其在相关技术和/或本说明书的上下文中的含义相一致的含义,并且不应该被解释为理想化或过于正式的意义,除非在此明确地如此定义。
尽管已经说明和描述了本公开的某些实施例,但是本领域的普通技术人员应该理解,可以对所描述的实施例进行某些修改和改变而不脱离如通过所附权利要求及其等同物所定义的本公开的范围。

Claims (26)

1.一种用于检测输入图像中的对象的实例的方法,所述方法包括:
从所述输入图像提取多个核心实例特征;
根据所述核心实例特征计算多尺度分辨率下的多个特征图;
根据所述核心实例特征计算多个检测框,所述检测框中的每一个对应于在所述图像中检测到的对象;
针对所述检测框的每个检测框计算所述特征图的多尺度分辨率下的多个分割掩膜;
合并所述多尺度分辨率下的所述多个分割掩膜,以针对在所述输入图像中检测到的每个对象生成实例掩膜,所述实例掩膜与置信度得分相关联;
通过由辅助网络计算像素级度量来细化所述实例掩膜的置信度得分;以及
输出所述实例掩膜作为所述输入图像中的对象的检测到的实例。
2.根据权利要求1所述的方法,其中,通过将所述输入图像提供至完全卷积实例语义分割网络来提取所述多个核心实例特征。
3.根据权利要求2所述的方法,其中,通过将所述核心实例特征提供至特征金字塔网络来计算多尺度分辨率下的特征图。
4.根据权利要求3所述的方法,其中,所述特征金字塔网络通过以下步骤来产生所述多个特征图中的特征图:
对来自所述完全卷积实例语义分割网络的所述核心实例特征进行上采样;
将卷积核应用于先前特征图以产生卷积的先前特征图;以及
将上采样的核心实例特征和卷积的先前特征图进行组合来生成该特征图。
5.根据权利要求4所述的方法,其中,所述特征金字塔网络通过使用最近邻技术来对所述核心实例特征进行上采样。
6.根据权利要求4所述的方法,其中,所述特征金字塔网络通过使用去卷积层和插值卷积核来对所述核心实例特征进行上采样。
7.根据权利要求1所述的方法,其中,合并所述多尺度分辨率下的所述多个分割掩膜以生成所述实例掩膜包括:计算交集与自身之比度量并移除其中所述交集与自身之比度量超过阈值的实例。
8.根据权利要求1所述的方法,其中,通过将所述核心实例特征提供至区域建议网络来计算所述检测框。
9.根据权利要求1所述的方法,还包括:
针对所述输入图像的每个像素计算所属边界框,所述所属边界框中的每一个指定该像素所属的实例的边界框位置;
针对所述输入图像中的每个像素计算多个密度度量;以及
根据所述密度度量对所述实例掩膜进行过滤,以最小化根据所述实例掩膜和所述密度度量计算出的差分掩膜差异。
10.根据权利要求9所述的方法,其中,针对所述输入图像的每个像素计算所属边界框包括:计算表示该像素的所属边界框的四个特征矢量,所述四个特征矢量包括最顶像素、最底像素、最左像素和最右像素。
11.根据权利要求9所述的方法,其中,细化所述实例掩膜的置信度得分包括:
根据所述图像中检测到的对象的所属边界框来计算平均边界框;
计算所述实例掩膜和所述平均边界框之间的交并比度量;以及
基于所述交并比度量来缩放所述实例掩膜的置信度得分。
12.根据权利要求9所述的方法,其中,根据所述密度度量对所述实例掩膜进行过滤包括:
针对所述图像中的每个像素计算像素密度差异;
针对每个实例掩膜计算差分掩膜差异;以及
最小化生存掩膜集合的差分掩膜差异。
13.根据权利要求12所述的方法,其中,通过以下操作来最小化所述生存掩膜集合的差分掩膜差异:使用贪婪搜索通过迭代地切换具有更大差分掩膜差异的实例掩膜的生存状态来更新所述生存掩膜集合,直到所述差分掩膜差异被最小化为止。
14.一种用于检测输入图像中的对象的实例的***,所述***包括:
核心实例特征提取网络,其被配置为从所述输入图像生成多个核心实例特征;
多尺度分辨率特征图计算器,其被配置为根据所述核心实例特征计算多尺度分辨率下的多个特征图;
检测框计算器,其被配置为根据所述核心实例特征计算多个检测框,所述检测框中的每一个对应于在所述图像中检测到的对象;
分割掩膜预测网络,其被配置为针对所述检测框中的每个检测框计算所述特征图的多尺度分辨率下的多个分割掩膜;
金字塔分割网络,其被配置为合并所述多尺度分辨率下的所述多个分割掩膜,以针对在所述输入图像中检测到的每个对象生成实例掩膜,所述实例掩膜与置信度得分相关联;
基于区域建议网络的得分细化模块,其被配置为通过计算像素级度量来细化所述实例掩膜的置信度得分;以及
输出模块,其被配置为输出所述实例掩膜作为所述输入图像中的对象的检测到的实例。
15.根据权利要求14所述的***,其中,所述核心实例特征提取网络包括完全卷积实例语义分割网络。
16.根据权利要求15所述的***,其中,所述多尺度分辨率特征图计算器包括特征金字塔网络。
17.根据权利要求16所述的***,其中,所述特征金字塔网络被配置为通过以下步骤生成所述多个特征图中的特征图:
对来自所述完全卷积实例语义分割网络的所述核心实例特征进行上采样;
将卷积核应用于先前特征图以产生卷积的先前特征图;以及
将上采样的核心实例特征和卷积的先前特征图进行组合来生成该特征图。
18.根据权利要求17所述的***,其中,所述特征金字塔网络被配置为使用最近邻技术对所述核心实例特征进行上采样。
19.根据权利要求17所述的***,其中,所述特征金字塔网络被配置为使用去卷积层和插值卷积核对所述核心实例特征进行上采样。
20.根据权利要求14所述的***,其中,所述金字塔分割网络被配置为:通过计算交集与自身之比度量并移除其中所述交集与自身之比度量超过阈值的实例来合并所述多尺度分辨率下的所述多个分割掩膜以生成所述实例掩膜。
21.根据权利要求14所述的***,其中,所述检测框计算器包括区域建议网络。
22.根据权利要求14所述的***,还包括:
所属边界框预测网络,其被配置为针对所述输入图像的每个像素计算所属边界框,所述所属边界框中的每一个指定该像素所属的实例的边界框位置;
密度预测网络,其被配置为针对所述输入图像中的每个像素计算多个密度度量;以及
基于密度的过滤模块,其被配置为根据所述密度度量对所述实例掩膜进行过滤,以最小化根据所述实例掩膜和所述密度度量计算出的差分掩膜差异。
23.根据权利要求22所述的***,其中,所述所属边界框预测网络被配置为:通过计算表示所述输入图像的每个像素的所属边界框的四个特征矢量来计算该像素的所属边界框,所述四个特征矢量包括最顶像素、最底像素、最左像素和最右像素。
24.根据权利要求22所述的***,其中,所述基于RPN的得分细化模块被配置为通过以下步骤来细化所述实例掩膜的置信度得分:
根据所述图像中检测到的对象的所属边界框来计算平均边界框;
计算所述实例掩膜和所述平均边界框之间的交并比度量;以及
基于所述交并比度量来缩放所述实例掩膜的置信度得分。
25.根据权利要求22所述的方法,其中,所述基于密度的过滤模块被配置为通过以下步骤根据所述密度度量对所述实例掩膜进行过滤:
针对所述图像中的每个像素计算像素密度差异;
针对每个实例掩膜计算差分掩膜差异;以及
最小化生存掩膜集合的差分掩膜差异。
26.根据权利要求25所述的***,其中,通过以下操作来最小化所述生存掩膜集合的差分掩膜差异:使用贪婪搜索通过迭代地切换具有更大差分掩膜差异的实例掩膜的生存状态来更新所述生存掩膜集合,直到所述差分掩膜差异被最小化为止。
CN201810685965.7A 2017-08-18 2018-06-28 用于图像的语义分割的***和方法 Active CN109409371B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762547740P 2017-08-18 2017-08-18
US62/547,740 2017-08-18
US15/862,602 US10679351B2 (en) 2017-08-18 2018-01-04 System and method for semantic segmentation of images
US15/862,602 2018-01-04

Publications (2)

Publication Number Publication Date
CN109409371A true CN109409371A (zh) 2019-03-01
CN109409371B CN109409371B (zh) 2023-04-14

Family

ID=65361247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810685965.7A Active CN109409371B (zh) 2017-08-18 2018-06-28 用于图像的语义分割的***和方法

Country Status (3)

Country Link
US (1) US10679351B2 (zh)
KR (1) KR102613517B1 (zh)
CN (1) CN109409371B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902643A (zh) * 2019-03-07 2019-06-18 浙江啄云智能科技有限公司 基于深度学习的智能安检方法、装置、***及其电子设备
CN109948616A (zh) * 2019-03-26 2019-06-28 北京迈格威科技有限公司 图像检测方法、装置、电子设备及计算机可读存储介质
CN110032980A (zh) * 2019-04-18 2019-07-19 天津工业大学 一种基于深度学习的器官检测与识别定位方法
CN110070056A (zh) * 2019-04-25 2019-07-30 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110111340A (zh) * 2019-04-28 2019-08-09 南开大学 基于多路割的弱监督实例分割方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110705380A (zh) * 2019-09-12 2020-01-17 北京地平线机器人技术研发有限公司 用于实现目标对象属性识别的方法、装置、介质以及设备
CN111091576A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN111340813A (zh) * 2020-02-25 2020-06-26 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111415373A (zh) * 2020-03-20 2020-07-14 北京以萨技术股份有限公司 基于孪生卷积网络的目标跟踪与分割方法、***及介质
CN111563452A (zh) * 2020-05-06 2020-08-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
CN111627029A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 图像实例分割结果的获取方法及装置
CN112508027A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN112804533A (zh) * 2021-02-08 2021-05-14 上海交通大学 基于分块信息掩膜的hevc视频隐写分析网络方法及***
CN113066048A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种分割图置信度确定方法及装置
WO2021184972A1 (zh) * 2020-03-20 2021-09-23 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN113695256A (zh) * 2021-08-18 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种电网异物检测识别方法及装置
CN114092744A (zh) * 2021-11-26 2022-02-25 山东大学 一种颈动脉超声图像斑块分类检测方法及***
WO2022257254A1 (zh) * 2021-06-10 2022-12-15 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
WO2024078512A1 (en) * 2022-10-10 2024-04-18 Alibaba Damo (Hangzhou) Technology Co., Ltd. Pre-analysis based image compression methods

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568627B2 (en) 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
US10192129B2 (en) 2015-11-18 2019-01-29 Adobe Systems Incorporated Utilizing interactive deep learning to select objects in digital visual media
CN108701210B (zh) * 2016-02-02 2021-08-17 北京市商汤科技开发有限公司 用于cnn网络适配和对象在线追踪的方法和***
KR20200129168A (ko) * 2017-09-27 2020-11-17 구글 엘엘씨 고해상도 이미지 세분화를 위한 종단간 네트워크 모델
SG11201913332WA (en) * 2018-02-09 2020-01-30 Beijing Sensetime Technology Development Co Ltd Instance segmentation methods and apparatuses, electronic devices, programs, and media
US10671855B2 (en) 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN108830277B (zh) * 2018-04-20 2020-04-21 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
US11244195B2 (en) * 2018-05-01 2022-02-08 Adobe Inc. Iteratively applying neural networks to automatically identify pixels of salient objects portrayed in digital images
CN111819580A (zh) * 2018-05-29 2020-10-23 谷歌有限责任公司 用于密集图像预测任务的神经架构搜索
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
US10475182B1 (en) * 2018-11-14 2019-11-12 Qure.Ai Technologies Private Limited Application of deep learning for medical imaging evaluation
US11562171B2 (en) 2018-12-21 2023-01-24 Osaro Instance segmentation by instance label factorization
US11282208B2 (en) 2018-12-24 2022-03-22 Adobe Inc. Identifying target objects using scale-diverse segmentation neural networks
US10467500B1 (en) * 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
US11080867B2 (en) * 2019-01-03 2021-08-03 United States Of America As Represented By The Secretary Of The Army Motion-constrained, multiple-hypothesis, target- tracking technique
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10387752B1 (en) * 2019-01-22 2019-08-20 StradVision, Inc. Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10453197B1 (en) * 2019-02-18 2019-10-22 Inception Institute of Artificial Intelligence, Ltd. Object counting and instance segmentation using neural network architectures with image-level supervision
US20220092387A1 (en) * 2019-02-25 2022-03-24 Google Llc Systems and Methods for Producing an Architecture of a Pyramid Layer
CN113592004A (zh) * 2019-02-25 2021-11-02 深圳市商汤科技有限公司 分配方法及装置、电子设备和存储介质
ES2943287T3 (es) 2019-02-26 2023-06-12 Identy Inc Método para verificar la identidad de un usuario identificando un objeto dentro de una imagen que tiene una característica biométrica del usuario y separando una porción de la imagen que comprende la característica biométrica de otras porciones de la imagen
KR102190527B1 (ko) * 2019-02-28 2020-12-14 현대모비스 주식회사 자동 영상 합성 장치 및 방법
US10915786B2 (en) * 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
US10872258B2 (en) * 2019-03-15 2020-12-22 Huawei Technologies Co., Ltd. Adaptive image cropping for face recognition
KR102073873B1 (ko) * 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
CN110084234B (zh) * 2019-03-27 2023-04-18 东南大学 一种基于实例分割的声呐图像目标识别方法
CN110084124B (zh) * 2019-03-28 2021-07-09 北京大学 基于特征金字塔网络的特征增强目标检测方法
CN110110599B (zh) * 2019-04-03 2023-05-09 天津大学 一种基于多尺度特征融合的遥感图像目标检测方法
CN110175503A (zh) * 2019-04-04 2019-08-27 财付通支付科技有限公司 长度获取方法、装置、保险理赔***、介质及电子设备
CN111797846B (zh) * 2019-04-08 2022-06-21 四川大学 一种基于特征金字塔网络的反馈式目标检测方法
CN110175525B (zh) * 2019-04-28 2021-01-26 浙江大学 一种耐盐黄秋葵品种快速筛选方法
CN110059769B (zh) * 2019-04-30 2022-11-18 福州大学 用于街景理解的基于像素重排重建的语义分割方法及***
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及***
KR102167835B1 (ko) * 2019-05-08 2020-10-20 주식회사 카카오 영상 처리 방법 및 장치
EP3973445A1 (en) * 2019-05-20 2022-03-30 Flir Commercial Systems, Inc. Neural network and classifier selection systems and methods
DE102019207408A1 (de) * 2019-05-21 2020-11-26 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines neuronalen Netzes
CN110119728B (zh) * 2019-05-23 2023-12-05 哈尔滨工业大学 基于多尺度融合语义分割网络的遥感图像云检测方法
CN110222636B (zh) * 2019-05-31 2023-04-07 中国民航大学 基于背景抑制的行人属性识别方法
CN118196828A (zh) * 2019-06-06 2024-06-14 华为技术有限公司 物体识别方法及装置
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects
SG10201905273VA (en) * 2019-06-10 2019-08-27 Alibaba Group Holding Ltd Method and system for evaluating an object detection model
CN110222787B (zh) * 2019-06-14 2022-10-14 合肥工业大学 多尺度目标检测方法、装置、计算机设备及存储介质
CN110211205B (zh) * 2019-06-14 2022-12-13 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和存储介质
TWI738009B (zh) * 2019-06-20 2021-09-01 和碩聯合科技股份有限公司 物件偵測系統及物件偵測方法
KR20210000013A (ko) 2019-06-24 2021-01-04 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN110516527B (zh) * 2019-07-08 2023-05-23 广东工业大学 一种基于实例分割的视觉slam回环检测改进方法
CN110532955B (zh) * 2019-08-30 2022-03-08 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
US11906660B2 (en) 2019-08-30 2024-02-20 Nvidia Corporation Object detection and classification using LiDAR range images for autonomous machine applications
CN110825899B (zh) * 2019-09-18 2023-06-20 武汉纺织大学 融合颜色特征和残差网络深度特征的服装图像检索方法
CN110717921B (zh) * 2019-09-26 2022-11-15 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
CN110705558B (zh) * 2019-09-29 2022-03-08 郑州阿帕斯科技有限公司 图像实例分割方法和装置
CN112699713B (zh) * 2019-10-23 2024-05-28 阿里巴巴集团控股有限公司 一种语义线段信息的检测方法及装置
CN110992367B (zh) * 2019-10-31 2024-02-02 北京交通大学 对带有遮挡区域的图像进行语义分割的方法
CN112785595B (zh) * 2019-11-07 2023-02-28 北京市商汤科技开发有限公司 目标属性检测、神经网络训练及智能行驶方法、装置
CN111414882B (zh) * 2019-11-07 2023-04-28 天津大学 一种基于多级分辨率平衡网络的红外目标检测方法
US10984290B1 (en) 2019-11-15 2021-04-20 Zoox, Inc. Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding
US11120280B2 (en) 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
CN111008634B (zh) * 2019-11-22 2023-08-22 北京精英路通科技有限公司 一种基于实例分割的字符识别方法及字符识别装置
US11526967B2 (en) 2019-11-25 2022-12-13 Samsung Electronics Co., Ltd. System and method for precise image inpainting to remove unwanted content from digital images
CN111027547B (zh) * 2019-12-06 2022-08-09 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
US11891067B2 (en) * 2019-12-11 2024-02-06 Electronics And Telecommunications Research Institute Vehicle control apparatus and operating method thereof
CN111046950B (zh) * 2019-12-11 2023-09-22 北京迈格威科技有限公司 一种图像处理方法、装置、存储介质和电子装置
CN111192279B (zh) * 2020-01-02 2022-09-02 上海交通大学 基于边缘检测的物体分割方法、电子终端及存储介质
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
RU2742701C1 (ru) * 2020-06-18 2021-02-09 Самсунг Электроникс Ко., Лтд. Способ интерактивной сегментации объекта на изображении и электронное вычислительное устройство для его реализации
US20210233246A1 (en) * 2020-01-28 2021-07-29 Embodied Intelligence Inc. Confidence-based segmentation of multiple units
KR102204956B1 (ko) * 2020-01-30 2021-01-19 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
JP7322358B2 (ja) * 2020-01-30 2023-08-08 富士通株式会社 情報処理プログラム、情報処理方法、及び情報処理装置
KR102288312B1 (ko) * 2020-02-13 2021-08-10 인하대학교 산학협력단 블랙 아이스를 검출하는 방법 및 장치
US11481862B2 (en) * 2020-02-26 2022-10-25 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for real-time, simultaneous object detection and semantic segmentation
CN111429473B (zh) * 2020-02-27 2023-04-07 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN113327190A (zh) 2020-02-28 2021-08-31 阿里巴巴集团控股有限公司 图像、数据处理的方法和装置
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
KR102361444B1 (ko) * 2020-03-06 2022-02-11 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
CN111415364B (zh) * 2020-03-29 2024-01-23 中国科学院空天信息创新研究院 一种计算机视觉中图像分割样本的转换方法、***及存储介质
CN111444973B (zh) * 2020-03-31 2022-05-20 西安交通大学 一种无人零售购物台商品检测方法
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN111598882B (zh) * 2020-05-19 2023-11-24 联想(北京)有限公司 器官检测方法、装置及计算机设备
KR102497361B1 (ko) 2020-05-20 2023-02-10 한국전자통신연구원 객체 검출 시스템 및 방법
CN111462128B (zh) * 2020-05-28 2023-12-12 南京大学 一种基于多模态光谱图像的像素级图像分割***及方法
CN111709328B (zh) * 2020-05-29 2023-08-04 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN111640125B (zh) * 2020-05-29 2022-11-18 广西大学 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111797712B (zh) * 2020-06-16 2023-09-15 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN111931580A (zh) * 2020-07-09 2020-11-13 陕西师范大学 一种口罩佩戴检测方法
CN111738229B (zh) * 2020-08-05 2020-11-24 江西小马机器人有限公司 一种指针表盘刻度的自动读取方法
US11335004B2 (en) 2020-08-07 2022-05-17 Adobe Inc. Generating refined segmentation masks based on uncertain pixels
US11651477B2 (en) * 2020-08-07 2023-05-16 Adobe Inc. Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
US11393100B2 (en) 2020-08-07 2022-07-19 Adobe Inc. Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
KR20220020161A (ko) 2020-08-11 2022-02-18 재단법인대구경북과학기술원 불확실성 인지 기반의 객체 검출 방법, 이를 이용한 전자 장치 및 차량에 탑재된 시스템
CN112115977B (zh) * 2020-08-24 2024-04-02 重庆大学 基于尺度不变性与特征融合的目标检测算法
CN112232346B (zh) * 2020-09-02 2024-06-18 北京迈格威科技有限公司 语义分割模型训练方法及装置、图像语义分割方法及装置
CN112085756B (zh) * 2020-09-23 2023-11-07 清华大学苏州汽车研究院(相城) 一种基于残差网络的道路图像多尺度边缘检测模型及方法
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法
CN112053439B (zh) * 2020-09-28 2022-11-25 腾讯科技(深圳)有限公司 图像中实例属性信息确定方法、装置、设备及存储介质
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
CN112215128B (zh) * 2020-10-09 2024-04-05 武汉理工大学 融合fcos的r-cnn城市道路环境识别方法及装置
CN112150462B (zh) * 2020-10-22 2023-12-22 北京百度网讯科技有限公司 确定目标锚点的方法、装置、设备以及存储介质
CN112381835A (zh) * 2020-10-29 2021-02-19 中国农业大学 基于卷积神经网络的作物叶片分割方法及装置
CN112270279B (zh) * 2020-11-02 2022-04-12 重庆邮电大学 一种基于多维的遥感图像微小目标检测方法
CN112446300B (zh) * 2020-11-05 2024-01-12 五邑大学 车流密度分析的方法、***及计算机存储介质
KR102526086B1 (ko) 2020-11-05 2023-04-25 서울대학교산학협력단 클래스 의존적 도메인 유사화 학습 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN112308082B (zh) * 2020-11-05 2023-04-07 湖南科技大学 基于双通道卷积核与多帧特征融合动态视频图像分割方法
KR102380573B1 (ko) * 2020-11-06 2022-03-31 국민대학교산학협력단 종단간 지연을 최소화하기 위한 객체검출 장치 및 방법, 그리고 이를 이용한 첨단 운전자 보조장치
CN116783620A (zh) * 2020-11-16 2023-09-19 伟摩有限责任公司 根据点云的高效三维对象检测
US11544828B2 (en) * 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的***及方法
US11748865B2 (en) 2020-12-07 2023-09-05 International Business Machines Corporation Hierarchical image decomposition for defect detection
CN112465800B (zh) * 2020-12-09 2022-07-29 北京航空航天大学 一种使用分类注意力模块校正分类错误的实例分割方法
CN112560853B (zh) * 2020-12-14 2024-06-11 中科云谷科技有限公司 图像处理的方法、装置及存储介质
US11676279B2 (en) 2020-12-18 2023-06-13 Adobe Inc. Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations
CN112528913A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种基于图像的砂石颗粒物粒径检测分析***
CN112989919B (zh) * 2020-12-25 2024-04-19 首都师范大学 一种从影像中提取目标对象的方法及***
CN114764890A (zh) * 2020-12-30 2022-07-19 富泰华工业(深圳)有限公司 人行通道环境评估方法、装置及电子设备
CN112614136B (zh) * 2020-12-31 2024-05-14 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) 一种红外小目标实时实例分割方法及装置
KR20220098504A (ko) * 2021-01-04 2022-07-12 오드컨셉 주식회사 이미지 분류를 통한 이미지 퀄리티 연산 방법 및 장치
CN112418202A (zh) * 2021-01-11 2021-02-26 上海恒能泰企业管理有限公司 一种基于MaskRCNN的变电设备异常识别定位方法及***
US11461880B2 (en) * 2021-01-12 2022-10-04 Adobe Inc. Generating image masks from digital images utilizing color density estimation and deep learning models
CN112863187B (zh) * 2021-01-18 2022-04-15 阿波罗智联(北京)科技有限公司 感知模型的检测方法、电子设备、路侧设备和云控平台
CN115210773A (zh) * 2021-01-25 2022-10-18 京东方科技集团股份有限公司 利用对象实时检测模型实时检测对象的方法及优化方法
US11961314B2 (en) * 2021-02-16 2024-04-16 Nxp B.V. Method for analyzing an output of an object detector
CN112584108B (zh) * 2021-03-01 2021-06-04 杭州科技职业技术学院 用于无人机巡检的线路物理损伤监控方法
CN112949500A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于空间特征编码改进的YOLOv3车道线检测方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112949635B (zh) * 2021-03-12 2022-09-16 北京理工大学 一种基于特征增强和IoU感知的目标检测方法
US11875510B2 (en) * 2021-03-12 2024-01-16 Adobe Inc. Generating refined segmentations masks via meticulous object segmentation
US11620737B2 (en) * 2021-03-22 2023-04-04 Samsung Electronics Co., Ltd. System and method for indoor image inpainting under multimodal structural guidance
CN112686344B (zh) * 2021-03-22 2021-07-02 浙江啄云智能科技有限公司 一种快速过滤背景图片的检测模型及其训练方法
US20240104761A1 (en) * 2021-03-30 2024-03-28 Carnegie Mellon University System and Method for Using Non-Axis Aligned Bounding Boxes for Retail Detection
CN112927245B (zh) * 2021-04-12 2022-06-21 华中科技大学 一种基于实例查询的端到端实例分割方法
CN113128386B (zh) * 2021-04-13 2024-02-09 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
CN113096140B (zh) * 2021-04-15 2022-11-22 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质
CN113177133B (zh) * 2021-04-23 2024-03-29 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质
CN113344094A (zh) * 2021-06-21 2021-09-03 梅卡曼德(北京)机器人科技有限公司 图像掩膜生成方法、装置、电子设备和存储介质
CN113537004B (zh) * 2021-07-01 2023-09-01 大连民族大学 图像的双金字塔多元特征提取网络、图像分割方法、***和介质
CN114067110A (zh) * 2021-07-13 2022-02-18 广东国地规划科技股份有限公司 一种实例分割网络模型的生成方法
CN113642608B (zh) * 2021-07-14 2023-12-01 浙江工商大学 一种基于卷积神经网络的人形靶分割方法
WO2023287276A1 (en) * 2021-07-16 2023-01-19 Petroliam Nasional Berhad (Petronas) Geographic data processing methods and systems for detecting encroachment by objects into a geographic corridor
CN113763326B (zh) * 2021-08-04 2023-11-21 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113393459A (zh) * 2021-08-09 2021-09-14 旻投电力发展有限公司 基于实例分割的红外图像光伏组件视觉识别方法
CN113610818A (zh) * 2021-08-11 2021-11-05 杭州小影创新科技股份有限公司 一种基于位置可控的人头分割方法
CN113420839B (zh) * 2021-08-23 2021-11-02 齐鲁工业大学 用于堆叠平面目标物体的半自动标注方法及分割定位***
CN113744224A (zh) * 2021-08-26 2021-12-03 成都盛锴科技有限公司 一种轨道车辆走行部焊缝的检测方法及其***
CN113837190A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于Transformer的端到端实例分割方法
CN113723553A (zh) * 2021-09-07 2021-11-30 中国科学院软件研究所 一种基于选择性密集注意力的违禁物品检测方法
US20230084623A1 (en) * 2021-09-10 2023-03-16 Argo AI, LLC Attentional sampling for long range detection in autonomous vehicles
WO2023058999A1 (ko) * 2021-10-08 2023-04-13 고려대학교 산학협력단 관심객체 검출장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램
CN113920411B (zh) * 2021-10-09 2024-06-14 成都信息工程大学 基于改进SOLOv2的校园场景图像分割方法
US12020400B2 (en) 2021-10-23 2024-06-25 Adobe Inc. Upsampling and refining segmentation masks
CN114155518A (zh) * 2021-11-08 2022-03-08 西安西光产业发展有限公司 基于深度语义分割网络和图像矫正的高速路遮光板倾斜识别方法
US12008792B1 (en) * 2021-12-10 2024-06-11 Amazon Technologies, Inc. Independently determining adjustments to bounding shapes for detected objects in image data
CN114240991A (zh) * 2021-12-16 2022-03-25 浙江大学 一种rgb图像的实例分割方法
US11983920B2 (en) * 2021-12-20 2024-05-14 International Business Machines Corporation Unified framework for multigrid neural network architecture
CN114445632A (zh) * 2022-02-08 2022-05-06 支付宝(杭州)信息技术有限公司 图片处理方法及装置
CN114332140B (zh) * 2022-03-16 2022-07-12 北京文安智能技术股份有限公司 一种交通道路场景图像的处理方法
CN115063446A (zh) * 2022-05-12 2022-09-16 福州大学 一种辅助驾驶***的城市街景实例分割方法
CN115222946B (zh) * 2022-09-19 2022-11-25 南京信息工程大学 一种单阶段实例图像分割方法、装置以及计算机设备
CN115229804B (zh) * 2022-09-21 2023-02-17 荣耀终端有限公司 组件贴合方法和装置
US11869212B1 (en) * 2023-02-07 2024-01-09 Deeping Source Inc. Method for training video object detection model using training dataset and learning device using the same
CN116071374B (zh) * 2023-02-28 2023-09-12 华中科技大学 一种车道线实例分割方法及***
CN116152807B (zh) * 2023-04-14 2023-09-05 广东工业大学 一种基于U-Net网络的工业缺陷语义分割方法及存储介质
CN117635982B (zh) * 2023-12-07 2024-06-04 哈尔滨航天恒星数据***科技有限公司 一种基于深度学习的面向遥感图像的路网匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640468A (en) * 1994-04-28 1997-06-17 Hsu; Shin-Yi Method for identifying objects and features in an image
CN101520894A (zh) * 2009-02-18 2009-09-02 上海大学 基于区域显著性的显著对象提取方法
CN102750690A (zh) * 2012-05-29 2012-10-24 武汉大学 一种基于边缘约束的分形网络演化影像分割方法
CN105930868A (zh) * 2016-04-20 2016-09-07 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
US20160358337A1 (en) * 2015-06-08 2016-12-08 Microsoft Technology Licensing, Llc Image semantic segmentation
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172441A (ja) 2007-01-10 2008-07-24 Omron Corp 検出装置および方法、並びに、プログラム
KR101394242B1 (ko) * 2011-09-23 2014-05-27 광주과학기술원 영상 감시 장치 및 영상 감시 방법
WO2013065220A1 (ja) 2011-11-02 2013-05-10 パナソニック株式会社 画像認識装置、画像認識方法、及び集積回路
WO2016037300A1 (en) 2014-09-10 2016-03-17 Xiaoou Tang Method and system for multi-class object detection
US10417555B2 (en) * 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
JP6639113B2 (ja) 2015-06-05 2020-02-05 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US9858525B2 (en) * 2015-10-14 2018-01-02 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
US9858496B2 (en) 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106372577A (zh) 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640468A (en) * 1994-04-28 1997-06-17 Hsu; Shin-Yi Method for identifying objects and features in an image
CN101520894A (zh) * 2009-02-18 2009-09-02 上海大学 基于区域显著性的显著对象提取方法
CN102750690A (zh) * 2012-05-29 2012-10-24 武汉大学 一种基于边缘约束的分形网络演化影像分割方法
US20160358337A1 (en) * 2015-06-08 2016-12-08 Microsoft Technology Licensing, Llc Image semantic segmentation
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN105930868A (zh) * 2016-04-20 2016-09-07 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘丹;刘学军;王美珍;: "一种多尺度CNN的图像语义分割算法" *
张亚亚;张立民;刘小伟;徐涛;: "基于语义网的遥感图像分类" *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902643A (zh) * 2019-03-07 2019-06-18 浙江啄云智能科技有限公司 基于深度学习的智能安检方法、装置、***及其电子设备
CN109948616A (zh) * 2019-03-26 2019-06-28 北京迈格威科技有限公司 图像检测方法、装置、电子设备及计算机可读存储介质
CN109948616B (zh) * 2019-03-26 2021-05-25 北京迈格威科技有限公司 图像检测方法、装置、电子设备及计算机可读存储介质
CN110032980A (zh) * 2019-04-18 2019-07-19 天津工业大学 一种基于深度学习的器官检测与识别定位方法
CN110032980B (zh) * 2019-04-18 2023-04-25 天津工业大学 一种基于深度学习的器官检测与识别定位方法
CN110070056A (zh) * 2019-04-25 2019-07-30 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110111340B (zh) * 2019-04-28 2021-05-14 南开大学 基于多路割的弱监督实例分割方法
CN110111340A (zh) * 2019-04-28 2019-08-09 南开大学 基于多路割的弱监督实例分割方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110705380A (zh) * 2019-09-12 2020-01-17 北京地平线机器人技术研发有限公司 用于实现目标对象属性识别的方法、装置、介质以及设备
CN110705380B (zh) * 2019-09-12 2022-05-24 北京地平线机器人技术研发有限公司 用于实现目标对象属性识别的方法、装置、介质以及设备
CN111340813A (zh) * 2020-02-25 2020-06-26 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111091576A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN111091576B (zh) * 2020-03-19 2020-07-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN111415373A (zh) * 2020-03-20 2020-07-14 北京以萨技术股份有限公司 基于孪生卷积网络的目标跟踪与分割方法、***及介质
WO2021184972A1 (zh) * 2020-03-20 2021-09-23 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN111563452A (zh) * 2020-05-06 2020-08-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
CN111563452B (zh) * 2020-05-06 2023-04-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
CN111627029A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 图像实例分割结果的获取方法及装置
CN112508027B (zh) * 2020-11-30 2024-03-26 北京百度网讯科技有限公司 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN112508027A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN112804533B (zh) * 2021-02-08 2022-04-26 上海交通大学 基于分块信息掩膜的hevc视频隐写分析网络方法及***
CN112804533A (zh) * 2021-02-08 2021-05-14 上海交通大学 基于分块信息掩膜的hevc视频隐写分析网络方法及***
WO2022179604A1 (zh) * 2021-02-27 2022-09-01 华为技术有限公司 一种分割图置信度确定方法及装置
CN113066048A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种分割图置信度确定方法及装置
WO2022257254A1 (zh) * 2021-06-10 2022-12-15 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
CN113695256A (zh) * 2021-08-18 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种电网异物检测识别方法及装置
CN114092744A (zh) * 2021-11-26 2022-02-25 山东大学 一种颈动脉超声图像斑块分类检测方法及***
CN114092744B (zh) * 2021-11-26 2024-05-17 山东大学 一种颈动脉超声图像斑块分类检测方法及***
WO2024078512A1 (en) * 2022-10-10 2024-04-18 Alibaba Damo (Hangzhou) Technology Co., Ltd. Pre-analysis based image compression methods

Also Published As

Publication number Publication date
CN109409371B (zh) 2023-04-14
US10679351B2 (en) 2020-06-09
US20190057507A1 (en) 2019-02-21
KR20190019822A (ko) 2019-02-27
KR102613517B1 (ko) 2023-12-13

Similar Documents

Publication Publication Date Title
CN109409371A (zh) 用于图像的语义分割的***和方法
Shen et al. Detection of stored-grain insects using deep learning
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
Zhong et al. An adaptive subpixel mapping method based on MAP model and class determination strategy for hyperspectral remote sensing imagery
CN109461157A (zh) 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN107944442A (zh) 基于改进卷积神经网络的对象检测装置及方法
Gu et al. Blind image quality assessment via learnable attention-based pooling
CN107624189A (zh) 用于生成预测模型的方法和设备
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
Grinciunaite et al. Human pose estimation in space and time using 3d cnn
Ji et al. Graph model-based salient object detection using objectness and multiple saliency cues
CN110765833A (zh) 一种基于深度学习的人群密度估计方法
CN106570874A (zh) 一种结合图像局部约束与对象全局约束的图像标记方法
Yang et al. From center to surrounding: An interactive learning framework for hyperspectral image classification
CN109255382A (zh) 用于图片匹配定位的神经网络***,方法及装置
Wang et al. An efficient attention module for instance segmentation network in pest monitoring
Moghaddam et al. Jointly human semantic parsing and attribute recognition with feature pyramid structure in EfficientNets
Ye et al. Remote sensing image instance segmentation network with transformer and multi-scale feature representation
Dornaika et al. Object-centric contour-aware data augmentation using superpixels of varying granularity
Byvshev et al. Are 3D convolutional networks inherently biased towards appearance?
Zhang et al. An object counting network based on hierarchical context and feature fusion
CN113096080A (zh) 图像分析方法及***
Sujatha et al. Enhancing Object Detection with Mask R-CNN: A Deep Learning Perspective
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant