CN107958460A

CN107958460A - 实例级语义分割***

Info

Publication number: CN107958460A
Application number: CN201710585415.3A
Authority: CN
Inventors: B·普赖斯; S·科恩; 杨济美
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-10-18
Filing date: 2017-07-18
Publication date: 2018-04-24
Anticipated expiration: 2037-07-18
Also published as: DE102017006558A1; GB2555896A; US20180108137A1; GB201711693D0; US10424064B2; DE102017006558B4; GB2555896B; CN107958460B; AU2017206291A1; AU2017206291B2

Abstract

本公开的实施例涉及实例级语义分割***。某些方面包含通过确定针对数字视觉媒体的每个像素的得分来对数字视觉媒体中的对象进行语义分割，该得分表示每个像素与关联于数字视觉媒体内的边界框的对象相对应的可能性。至少部分地基于包括针对数字视觉媒体的每个像素的得分的共同概率图，确定实例级标签，其产生与对象相对应的数字视觉媒体的像素中的每个像素的标签。在一些方面中，通过由神经网络训练的预测模型来确定与每个边界框相对应的每个像素的得分。

Description

实例级语义分割***

技术领域

本公开总体上涉及用于数字图像处理的计算机实现的方法和***，并且更特别地涉及在实例级的数字媒体的语义分割。

背景技术

随着数字照相机、智能电话和其他技术的进步，采集、访问和利用图像和视频的能力已经稳固提升。例如，商业现在常规地利用数字视觉媒体，以用于演示、广告、招聘、推销和其他目的(特别地用于在线平台)。类似地，个体现在常规地利用数字视觉媒体，以用于通信、娱乐或雇佣目的。

数字视觉媒体的使用中的增加的激增已经导致用于处理这样的数字视觉媒体(例如，数字图像或视频的修改或操纵)的***和方法的使用中的增加。例如，数字图像可以包括用户试图选择并且移动、修改、复制、粘贴或调整大小的特征或对象(例如，人、宠物、汽车等)。响应于该用户需求，已经开发允许用户标识、选择以及标记数字视觉媒体(例如，数字图像)内的对象的一些数字对象选择***。在一些这样的***中，数字视觉媒体中的对象的标识可以涉及至少部分自动化的过程。

在一个示例中，传统***采用用于检测(即，标识介质中的对象)和分割(例如，将介质划分为与对象相对应的段)的方法，其包括生成针对对象的实例的若干边界框。边界框包括定义与对象的至少部分的位置相对应的像素集合的矩形(或正方形)。给定边界框，计算分割。该方法考虑了针对给定对象实例的多个分割。方法还常常返回针对单个对象实例的多个重叠候选，其中不同的类别标签应用到由分割所确定的实例中的每个实例。不同的类别标签可能导致对象的错误标记。因此，该方法达不到产生图像的基于实际实例的分割。

在另一示例中，传统***采用标记给定对象类别的所有像素的语义分割方法。例如，给定包括三个人的数字图像，在没有将一个人对象与另一个人对象区分的情况下，***将与三个人相对应的所有像素标记为类别“人”。类似地，如果图像中的一个人正接触另一人(例如，两个人对象重叠)，则传统***未提供将他们彼此分离的方式，这产生与这两人(而不是作为个体目标对象的每个人)相对应的表示(例如，图像掩模)。

因此，现有分割方案算法可能呈现缺点，诸如(但不限于)上文所描述的那些缺点。

发明内容

本公开的一个示例性方面包含实例级的数字视觉媒体中的目标对象的语义分割。例如，处理设备接收与数字视觉媒体中的目标对象集合相对应的边界框集合。对于边界框中的每个边界框而言，处理设备确定针对数字视觉媒体的每个像素的得分。得分表示每个像素与对应于边界框的目标对象相对应的可能性。处理设备至少部分地基于包括数字视觉媒体中的每个像素的得分的共同概率图，来产生数字视觉媒体的、与目标对象相对应的像素中的每个像素的标签的实例级标签。

本公开的另一示例性方面包含自动地分割数字视觉媒体。例如，处理设备接收具有与数字视觉媒体内的对象相对应的第一边界框的数字视觉媒体。处理设备基于第一边界框，来生成与数字视觉媒体内的对象相对应的附加边界框集合。第一边界框和附加边界框组合形成边界框集合。处理还生成与边界框集合相对应的距离图集合。处理设备将数字视觉媒体与距离图集合中的每个距离图相连结以生成训练对集合。神经网络被训练，以基于训练对，来对数字视觉媒体的、与对象相对应的像素进行分割。

这些说明性特征不是用于限制或定义本公开内容，而是提供辅助其理解的示例。在详细描述中讨论了附加方面，并且在那里提供进一步的描述。

附图说明

在参考附图阅读以下详细描述时，本公开的这些和其他特征、实施例和优点变得更好地理解。本专利或申请文件包含按颜色执行的至少一个附图。在请求并且支付必要的费用时，具有(一幅或多幅)彩色附图的该专利或专利申请公开的副本将由专利局提供。

图1是根据本公开的方面的描绘用于数字视觉媒体的语义分割的网络环境的示例的框图。

图2是根据本公开的方面的描绘用于训练神经网络以分割数字视觉媒体的过程的示例的流程图。

图3是根据本公开的方面的描绘用于采用分割模型的神经网络的示例的框图。

图4是根据本公开的方面的描绘通过经训练的神经网络分割图像的示例的流程图。

图5是根据本公开的方面的描绘用于数字视觉媒体中的目标对象的实例级标记的过程的示例的流程图。

图6图示了根据本公开的方面而分割并且标记的图像的示例。

图7是根据本公开的方面的描绘用于确定准确实例级分割的过程的示例的流程图。

图8是根据本公开的方面的针对真相实例描绘的输出实例的视觉图示的绘图。

图9图示了根据本公开的实施例的使用度量比较分割过程的表示的示例。

图10是根据本公开的方面的用于数字视觉媒体的语义分割的示例计算***的框图。

具体实施方式

某些方面包含采用以下技术的***、方法和计算机可读介质：用于根据数字视觉媒体中的边界框来分割数字视觉媒体并且在像素级别恰当地标记目标对象的每个实例。如上文所解释的，用于图像分割的传统方案可能产生针对给定对象实例的多个段。在此所描述的某些方面通过训练神经网络以使用与对象相关联的边界框检测和分割对象，来产生与对象实例相对应的单个段。边界框可以包括多边形框，其围绕对象、与对象重叠或以其他方式与数字视觉媒体中的对象相关联，以定义可以与媒体中的对象的位置相关联的像素集合。在一个方面中，通过***使用神经网络采用分割，神经网络通过针对目标对象的随机化的边界框集合而被训练。神经网络包括卷积编码器-解码器网络，并且将边界框应用到神经网络以构建与目标对象相对应的二进制掩码。一旦神经网络被训练，包括与目标对象相对应的边界框的数字视觉媒体(例如，图像)就被输入到神经网络。***确定与边界框中的每个边界框的每个像素与相应的目标对象相对应的可能性相对应的得分。得分创建针对边界框中的每个边界框的概率图。基于与每个边界框相关联的类别得分(例如，与像素属于某个类别的可能性相对应的值)，权重被应用到针对每个边界框的概率图。共同概率图根据针对边界框中的每个边界框的概率图被确定，以产生数字视觉媒体中的目标对象的实例级标记。在一些方面中，像素被标记为优化(诸如密集条件随机场)的一部分。

在一个示例中，卷积神经网络被训练以接收与目标对象相对应的边界框，并且确定针对目标对象的准确的分割。基于用户输入接收边界框，或从先验图像处理方法(例如，检测算法)接收边界框。利用用于目标对象的变化的准确性的边界框来训练神经网络。例如，实现神经网络的创新装置或其他适合的***生成针对目标对象的附加边界框。基于给定边界框，利用随机尺寸来生成附加边界框。***然后生成与边界框中的每个边界框相对应的距离图，并且将数字视觉媒体与距离图中的每个距离图相连结，以创建用于输入到神经网络的训练对。***使用训练对训练网络以创建目标对象的二进制掩码。

因此，神经网络的分割模型被训练以具有用于边界框的放置和尺寸的高容差。特别地，能够有限关于目标对象与相应的边界框之间的位置关系，来确定目标对象的期望分割。例如，目标对象可以全部在边界框内、部分在边界框内或在边界框外。分割模型的分割这些场景中的每个场景中的目标对象的能力归因于在神经网络上采用的训练策略。经训练的神经网络随后接收边界框并且产生数字视觉媒体的单个分割。在一些方面中，这提供超过传统***的改进，其采用产生多个重叠和冗余分割的基于检测的实例分割方法。

与传统实例分割方法(例如，使用基于检索的方法的***)不同，根据本公开的方面的实例级分割方法允许根据与目标对象相关联的类别和实例二者来标记目标对象的像素。特别地，基于类别得分减少边界框的数目并且将权重应用到边界框允许***预测与目标对象相关联的类别，并且进一步在视觉媒体中的、具有相同类别的多个目标对象进行区分。

现在转到附图，图1是在其中可以实践本公开的一个或多个方面的网络环境100的示图。环境100包括用户设备(诸如用户设备102A-102N)。用户设备中的每个用户设备经由网络106被连接到创新装置108或者市场装置、或者二者。用户设备的用户使用由创新装置108经由网络106所支持的各种产品、应用或服务。

用户设备与各种用户相对应。用户的示例包括但不限于使用创新工具生成、编辑、跟踪或管理创新内容的创新专业人员或业余爱好者、使用市场工具生成、编辑、跟踪或管理在线内容或管理在线市场过程的市场专业人员、终端用户、管理员、使用图像工具创建、编辑、跟踪或管理图像的用户、广告主、出版商、开发商、内容所有者、内容管理者、内容创建者、内容查看者、内容消费者、设计者、编辑、这些用户的任何组合、或使用数字工具创建、编辑、跟踪或管理数字体验的任何其他用户。

如在此所描述的，数字工具包括被用于电子地执行功能或工作流的工具。数字工具的示例包括但不限于创建工具、内容编辑工具、内容发布工具、内容跟踪工具、内容管理工具、内容打印工具、内容消费工具、这些工具的任何组合、或可以被用于创建、编辑、管理、生成、跟踪、消耗或执行与内容有关的任何其他功能或工作流的任何其他工具。数字工具包括创新装置108。如在此所描述的，数字体验包括可以通过电子设备消费的体验。数字体验的示例包括内容创建、内容编辑、内容跟踪、内容发布、内容公布、内容打印、内容管理、内容察看、内容消费、这些体验的任何组合、或可以与内容有关执行的任何其他工作流或功能。如在此所描述的，内容包括电子内容。内容的示例包括但不限于图像、视频、网站、网页、用户接口、菜单项、工具菜单、杂志、幻灯片、动画、社会张贴、评论、博客、数据馈送、音频、广告、向量图形、位图、文档、一个或多个内容的任何组合、或任何其他电子内容。

用户设备的示例包括但不限于个人计算机(PC)、平板计算机、台式计算机、处理单元、这些设备的任何组合、或具有一个或多个处理器的任何其他适合的设备。每个用户设备包括由创新装置108所支持的至少一个应用。将理解到，现在将使用用户设备102A作为示例解释以下描述，并且可以使用任何其他用户设备。网络106的示例包括但不限于因特网、局域网(“LAN”)、无线区域网络、有线区域网络、广域网等。

创新装置108包括用于向用户提供一个或多个数字体验的一个或多个引擎。可以使用一个或多个服务器、一个或多个处理设备、具有对应的应用编程接口的一个或多个平台、云基础设施等来实现创新装置108。另外，还可以使用一个或多个服务器、一个或多个处理设备、具有对应的应用编程接口的一个或多个平台、云基础设施等来实现每个引擎。创新装置108还包括数据存储单元112。数据存储单元112可以被实现为一个或多个数据库或一个或多个数据服务器。数据存储单元112包括由创新装置108的引擎使用的数据。

用户设备102A的用户访问网页或应用商店以探索由创新装置108所支持的应用。创新装置108将应用提供为软件即服务(SaaS)或可以被安装在用户设备102A上的独立应用、或作为组合。用户通过提供用户细节并且通过创建登录细节来利用创新装置108创建账户。备选地，响应于接收到用户细节，创新装置108可以自动地创建针对用户的登录细节。在一些方面中，用户还被提示安装应用管理器。应用管理器使得用户能够管理由创新装置108所支持的各种应用的安装并且管理与应用相关联的其他功能(诸如更新、订阅账户等)。用户细节由用户管理引擎116接收并且被存储为数据存储单元112中的用户数据118。在一些方面中，用户数据118还包括在其下存储用户细节的账户数据120。

基于由用户选择的账户或订阅的类型，用户或者可以选择试验账户或者可以做出支付。备选地，支付可以基于由用户所选择的产品或产品数目。基于用户的支付细节，用户操作简档122由权利引擎124生成。用户操作简档122被存储在数据存储单元112中并且指示用户对各种产品或服务的权限。用户操作简档122还指示用户的类型(即，免费、试验、学生、打折或已支付)。

在一些方面中，用户管理引擎116和权利引擎124可以是执行这两个引擎的功能的一个单个引擎。

用户然后经由应用下载管理引擎126安装由创新装置108所支持的各种应用。存在于数据存储单元112中的应用安装器或应用程序128由应用下载管理引擎126获取，并且直接地或经由应用管理器可用于用户。在一个方面中，所有应用程序128经由应用管理器的接口被获取并且被提供给用户。在另一方面中，用户基于用户的操作简档合格的应用程序128被显示给用户。用户然后选择应用程序128或用户想要下载的应用。应用程序128然后由应用管理器经由应用下载管理引擎126被下载在用户设备102A上。在用户操作简档122中还更新关于下载的对应的数据。应用程序128是数字工具的示例。应用下载管理引擎126还管理向用户设备102A提供更新的过程。

在一个方面中，在应用程序的下载、安装和发起时，要求用户提供登录细节。由用户管理引擎116和权利引擎124再一次做出检查以确保用户被授权使用应用程序。在另一方面中，当用户已经登录到应用管理器中时，直接访问权被提供给应用程序。

用户使用一个或多个应用程序128创建一个或多个项目或资产。另外，用户还具有每个应用程序内的工作空间。如在此所使用的，工作空间包括应用程序的设置、工具的设置、或由应用程序提供的用户接口的设置、以及特定于应用程序的任何其他设置或特性。每个用户具有工作空间。工作空间、项目或资产然后通过同步引擎132被存储为数据存储单元112中的应用程序数据130。应用程序数据130可以特定于用户或可以基于权限管理与其他用户共享。

应用程序数据130包括一个或多个资产140。资产140可以是用户想要与其他用户共享或用户想要在市场上提供的共享资产。资产140还可以跨越多个应用程序128被共享。每个资产包括元数据142。元数据142的示例包括但不限于字体、颜色、大小、形状、坐标、这些中的任一个的组合等。另外，在一个方面中，每个资产还包括文件。文件的示例包括但不限于图像144、文本146、视频148、字体150、文档152、这些中的任一个的组合等。在另一方面中，资产仅包括元数据142。应用程序数据130还包括项目数据154和工作空间数据156。在一个方面中，项目数据154包括资产140。在另一方面中，资产140是独立资产。类似地，在一个方面中，工作空间数据156可以是项目数据154的一部分，而在另一方面中，其可以是独立数据。

分割引擎103被用于操纵资产140中的一个或多个资产。例如，分割引擎103采用神经网络或其他适合的装置来分割数字视觉媒体(例如，图像144、视频148)并且标记数字视觉媒体内的、实例或像素级的目标对象。特别地，给定来自检测算法的边界框，根据一些方面的分割103确定准确的分割、将多个和潜在地基于重叠检测的分割转换为媒体的实例级标记，并且使用被配置为处理基于检测的方法和基于语义分割的方法二者的输出的评价度量来评价结果的准确性。例如，在不要求任意联合交点(intersection-over-union)阈值或检测得分的情况下，评价度量构建结果和真相实例的一一映射。如在此所使用的，“段”或“分割”指代将数字视觉媒体划分为多个区域或像素集合的过程。在一些方面中，分割的目标是将图像的表示简化或改变为更有意义并且更易于分析(例如，图像或视频中的对象或边界的位置)的一些东西。在一些方面中，分割的结果是标识视觉媒体中的对象或边界的像素集合(例如，掩模)。在进一步的方面中，分割引擎103还采用神经网络或其他适合的手段，以基于与对象(例如，“汽车”、“人”、“公共汽车”等)相关联的种类或类别，对所标识的对象进行分类或标记。例如，分割引擎103基于被分配给对象的类别，标识和标记所标识的对象的每个实例或像素。在另一示例中，分割引擎103采用神经网络或其他适合的手段在相同视觉媒体内的对象之间进行区分并且具有与对象相关联的相同类别(例如，“汽车1”对比“汽车2”、“人1”对比“人2”)。

用户可以具有一个或多个用户设备。应用程序数据130由来自任何设备(即，包括未被用于创建资产140的设备)的用户可访问。这通过同步引擎132实现，其将应用程序数据130存储在数据存储单元112中并且使应用程序数据130用于由用户或其他用户经由任何设备可访问。在来自任何其他设备的用户或由任何其他用户访问应用程序数据之前，如果尚未登录，则用户或其他用户可能需要为认证提供登录细节。否则，如果用户或其他用户已登录，那么实时提供应用程序数据130的新创建的资产或更新。工作空间数据156使得同步引擎132能够基于权限管理数据来向任何其他设备上的用户或其他用户提供相同工作空间配置。

在各个方面中，可以实现各种类型的同步。例如，用户可以使用第一应用程序从用户设备102A挑选字体或颜色，并且可以将字体或颜色使用在任何其他设备上的第二应用程序中。如果用户与其他用户共享字体或颜色，那么其他用户也可以使用字体或颜色。在一些方面中，该同步实时发生。类似地，可以执行任何类型的应用程序数据130的同步。

分割

图2是根据本公开的方面的用于训练神经网络以分割数字视觉媒体的示例过程的流程图200。

在块202中，接收真相图像，其包括与真相图像内的目标对象相对应的边界框。在一些方面中，真相图像由神经网络接收。例如，创新装置108的分割引擎103采用神经网络接收视觉媒体输入并且生成表示视觉媒体内的目标对象的像素的掩模。边界框可以由用户或其他实体手动地添加到真相图像、由创新装置108或其他***自动地添加到真相图像或由其他适合的装置添加。

在块204中，针对真相图像，随机地生成附加边界框。在一些方面中，使用用于根据原始边界框生成多个边界框的抖动操作或其他适合的手段来生成附加的边界框。在一个示例中，抖动操作包括将随机噪声添加到真相图像上的、表示边界框的像素，以便创建具有变化的大小和形状的附加的随机边界框。与利用真相图像接收的边界框类似，附加的边界框与真相图像内的目标对象相对应。例如，真相图像可以包括狗的照片。边界框中的每个边界框可以与狗的照片相对应。

在块206中，针对边界框中的每个边界框，生成真相图像的距离图。在一些方面中，通过确定从真相图像的每个像素到相应的边界框的距离来生成距离图。确定对相应的边界框的放置不灵敏。例如，给定真相图像内的边界框之一，图像的、沿着边界框的像素被定义为集合S_e，边界框内的像素被定义为集合S_i，并且边界框外的像素被定义为集合S_o。创建具有与真相图像相同宽度和高度的距离图D。使用以下关系来确定图像的每个像素的位置处的距离图：

其中|p_i-p_j|表示真相图像的像素的位置p_i与边界框的像素的位置p_j之间的欧几里德距离。在一些方面中，在数据存储单元112或其他适合的存储设备中的数据存储的效率的0与255之间截断D的值。

在块208中，真相图像与针对每个边界框的距离图相连结或被组合以生成训练对集合。例如，在真相图像包含五个边界框的情况下，产生与五个边界框中的每个边界框相对应的五个距离图，真相图像与五个距离图中的每个距离图相连结以创建五个训练对。在一些方面中，连结操作由创新装置108的分割引擎103进行应用，其中距离图与真相图像的通道相连结。

在块210中，训练对被用于训练神经网络300。在一些方面中，训练对中的每个训练对被输入到神经网络中。

图3是根据本公开的方面的描绘可训练以采用分割模型的神经网络300的示例的框图。使用图2中所描述的过程所生成的训练对被输入到神经网络中，以预测与真相图像内的目标对象相对应的二进制实例掩模。在一些方面中，二进制实例掩模与真相图像相比较，以确定二进制实例掩模。神经网络300被调整为校正任何不准确。

神经网络300是卷积编码器-解码器网络(“CEDN”)，其包括卷积编码器302和卷积解码器304。卷积编码器包括形成卷积层306和最大池化层308的序列的神经元的网络。卷积编码器302中的卷积层306中的每个卷积层306包括可学习的过滤器或内核集合。跨越所连结的真相图像和距离图的尺寸(例如，宽度和高度)来卷积被定位在第一卷积层306中的过滤器。在先前层306的输出上卷积后续层中的过滤器。在一些示例中，在过滤器的条目与训练对之间计算点积以产生过滤器的二维激活图，其使得过滤器在其看到训练对中的空间位置处的特定类型的特征(例如，边界框)时进行激活。第一卷积层306处的过滤器具有四个通道以贯穿训练更新卷积编码器302的参数。最大池化层308执行非线性下采样。例如，最大池化层308将输入划分为非重叠矩形集合，并且输出针对非重叠矩形的每个子区域的最大值。最大池化层减少输入的空间大小，以减少网络中的参数和计算的量。在一些方面中，卷积编码器302利用分类网络(例如，VGG-16参数)被初始化，其中第一卷积层306中的过滤器的额外通道利用零被初始化。

卷积解码器304包括具有解卷积层310和非池化层312的网络以重建图像的细节。可以从粗到细应用重建。卷积解码器304利用高斯随机变量被初始化。在每个训练时期的开始，以与随机地拖曳的训练对相对应的数据对训练对进行重新采样。

图4示出了根据本公开的方面的通过经训练的神经网络300分割图像的流程图。真相图像400包括两只狗的图像。真相图像400的目标对象包括几乎被定位在与真相图像400一起接收到的边界框402内的狗之一。根据真相图像402生成距离图404。在一些方面中，使用图2的块206中所描述的过程生成距离图404。距离图404包括与真相图像400的边界框402相对应的边界框406。真相图像400和距离图404被连结以形成被输入神经网络300中的训练对。训练对被输入到卷积编码器302和卷积解码器304网络以生成二进制掩模408。二进制掩模408表示真相图像400中的、与边界框402相对应的目标对象(例如，狗)的像素。在附加和备选方面中，与二进制掩模(例如，0和1)相反，网络的输出可以包括在连续的间隔(例如，0到1)期间与真相图像400的前景的概率相对应的图。在一些方面中，可以针对与真相图像400的目标对象所生成的每个边界框相对应的每个训练对，来重复过程。

实例级标记

图5是根据本公开的方面的用于数字视觉媒体中的目标对象的实例级标记的示例过程的流程图500。虽然结合图2中所描述的分割过程来描述过程，但是在不脱离本公开的范围的情况下，实例标记过程可以被应用到基于其他已知方法而分割的数字视觉媒体。在块502中，接收针对目标对象集合的边界框集合和对应的目标信息。在一些方面中，边界框被包括在数字视觉媒体(例如，图像)上并且与图像中的一个或多个目标对象相对应。在一些方面中，根据用于检测数字视觉媒体内的目标对象的检测算法或其他手段来确定边界框。在另一示例中，边界框中的一个或多个边界框重叠。目标信息包括与数字视觉媒体相对应的信息或数字视觉媒体内的目标对象。在一些方面中，对象信息包括与对应于边界框的目标对象相对应的类别标签或类别得分。例如，每个边界框包括标识与边界框相关联的图像类别的类别标签。在另一示例中，类别得分表示边界框中的像素与所标识的类别内的对象相对应的可能性。在其他方面中，类别得分是根据备选过程而被确定，诸如实现对象建议算法以返回边界框以及，实现分离的分类算法以确定类别和与边界框相对应的伴随的类别得分。

在一些方面中，减少接收到的集合中的边界框的数目。例如，使用非最大抑制(“NMS”)操作来减少边界框中的一些边界框。在一些方面中，分割引擎103包括用于采用操作的指令。例如，非最大值抑制操作大体适用于确定重叠的边界框，应用重叠阈值以确定边界框中的任一个边界框是否以重叠阈值或以上的比例或百分比进行重叠，并且将这样的边界框丢弃作为冗余。

在块504中，针对数字视觉媒体的每个边界框内的每个像素确定像素得分。针对每个像素的像素得分或概率对应于像素与关联于每个边界框的目标对象相对应的可能性。在一些方面中，基于图4的过程中所讨论的训练，由神经网络确定像素得分。针对每个像素的得分组成前景概率图。例如，前景概率图包括：针对边界框内的每个像素，对应于像素与目标对象相对应的可能性的百分比。在一些方面中，还使用像素得分确定针对每个边界框的背景概率图。背景概率图包括：针对边界框内的每个像素，对应于像素与背景相对应的可能性的百分比(例如，数字视觉媒体的、不是目标对象的边界框中的任何部分)。在这方面中，前景概率图和背景概率图中的每个像素的百分比应当被归一化或被缩放，使得百分比值的和等于一(例如，100％)。百分比图可以被表示为具有与数字视觉媒体中(或数字视觉媒体的边界框内)的像素相对应的条目的二维矩阵。

在一些方面中，权重被应用到剩余的边界框集合。可以使用被包括在与边界框一起接收到的对象信息中的类别得分来应用权重。权重可以被用于更新概率图。例如，以下关系可以被用于针对每个边界框应用权重，以确定加权前景和背景概率图：

其中是前景概率图，是背景概率图，s_i是针对与边界框相对应的目标对象的类别得分，是加权前景概率图，并且是加权背景概率图。

在块506中，确定共同概率图。共同概率图与概率图的积相对应。例如，在一些方面中，基于针对边界框中的每个边界框的前景概率图的积，确定共同前景概率图。在另一示例中，基于针对边界框中的每个边界框的背景概率图的积，确定共同背景概率图。例如，基于以下关系，使用针对剩余的边界框中的每个边界框的背景概率图来确定P^bc：

其中N是剩余集合中的边界框的数目。在一些方面中，归一化针对每个边界框的共同背景概率图和加权前景概率图。

基于共同概率图，确定目标对象的每个像素的实例级标签。在一些方面中，可以使用完全连接的条件随机场(“CRF”)模型来确定实例级标签。特别地，可以采用以下对象关系：

其中l是针对所有像素的标签分配，并且一元潜在性被定义为其中P(l_i)是标签l_i的概率图的像素i处的归一化概率。在一些示例中，成对潜在性将具有以下形式：

其中w是线性组合权重，μ(l_i，l_j)是标签与相邻标签的兼容性(例如，紧邻另一人站立的人可以产生高兼容性，游泳池旁边的汽车的可能性可能产生低兼容性)，并且θ_α，θ_β是控制内核的有效区域的超参数。在一些方面中，成对潜在性惩罚具有类似或相同颜色的附近像素之间的标签不一致。惩罚减少误警报检测。CRF模型基于有效的平均场近似而被优化。

每个像素被分配实例级标签l_i。像素的种类标签与关联于像素在其中的原始边界框的检测标签相对应。

图6图示了根据本公开的方面而分割并且标记的图像的示例。图像600A、图像600B表示用于输入到经训练的神经网络(例如，图3和图4的神经网络300)中的图像。图像600A是多辆汽车的图像。每辆汽车表示图像600A中的目标对象并且包括与每辆汽车相对应的边界框集合。图像600B图示了具有减少数目的边界框的汽车。在一些示例中，使用如在图5的块504中所描述的NMS操作来减少边界框的数目。表示600C是表示在如在图5的块510中所描述的实例级处而分割并且标记的图像600A中的汽车的像素的输出掩模。每辆汽车在分割中是可区分的，尽管标记具有相同种类。表示600D是被用于验证表示600C的准确性的汽车的真相图像的掩模。

图像602A是房间中的沙发的图像。沙发表示图像602A中的目标对象。与沙发相对应的边界框集合被包括在图像602A上。图像602B图示了具有减少数目的边界框的沙发。表示602C是表示图像602A中的沙发的像素的输出掩模。表示602D是被用于验证表示600C的准确性的沙发的真相图像的掩模。如由表示600C、602C的比较看到，与表示600D、602D相比较，***被训练以准确地标识图像600A、600B中的目标对象。

实例级分割的准确性

图7是根据本公开的方面的用于确定准确性实例级分割的过程的示例的流程图。在一些方面中，过程可以被应用到使用在此所描述的方法之一所确定的输出实例和视觉媒体的真相实例。但是，在不脱离本公开的范围的情况下，过程可以被应用到使用针对实例级分割的任何已知方法而确定的输出实例。

在块702中，针对真相实例，使用一一匹配来描绘输出实例的节点。输出实例的节点与被包括在图像中的目标对象的像素(如根据本公开所分割的(例如，图6的表示600C))相对应。真相实例的节点与被包括在真相图像中的目标对象的像素(例如，图6的表示600D)相对应。一一映射被应用以确定输出实例中的目标对象与真相实例中的目标对象之间的对应的节点是否相同。

在一些方面中，使用联合交点(IOU)值测量对应的节点之间的相似性或差异。针对每个对应的节点对确定联合焦点值。

图8是根据本公开的方面的提供针对真相实例描绘的输出实例的简化视觉图示的绘图800。输出实例与由根据在此所公开的方法的分割所确定的段相对应。通过节点A-E在绘图800的侧802表示像素。真相实例与真相实例的段相对应。通过节点X-Z在绘图800的侧804上表示真相实例的像素。对于一一映射而言，绘图800的每侧的节点的数目必须相等。由于侧802包括表示输出实例的像素的更多节点，因而适当的数目的节点被添加以使得侧804上的节点数等于侧802上的节点数目。例如，针对绘图800的每侧上的五个节点，附加节点N1-N2被添加到侧804。节点N1-N2是与零像素相对应的空对象。

在一些方面中，绘图800表示双边图形G＝(U,V,E)，其中U是图形中的、表示所预测的段(例如，输出实例)的顶点集合，V表示真相段(例如，真相实例)，以及E表示U与V之间的边缘集合(例如，由虚线箭头所图示的U与V之间的可能映射)。对于双射而言：f:U→V，双射f*被确定为使用以下关系来最大化跨越映射段或对应的节点的联合交点：

其中u和f*(u)分别表示输出和真相实例中的节点或像素。在一些方面中，基于用于解决分配问题的Hungarian算法或其他适合的手段来最小化双射f*。

返回图7，做出关于针对目标对象的类别一致性是否应当在度量中实施或者度量是否是类别不可知的并且不应当考虑的确定，如在块704中所描述的。如果度量被确定为类别独立的(例如，未考虑类别)，则过程转到将所有输出实例映射(map)到真相实例(例如，侧802的节点A-E中的每个节点到图8的侧804的对应的节点X-Z和N1-N2中的每个节点)，如在块706中所描述的。对于每对对应的实例或节点而言，联合交点值归因于基于实例之间的差异或相似性的度量的对。如果度量被确定为要求类别被正确地标记(例如，考虑类别)，则过程转到将输出实例映射到真相实例，其中联合交点针对其中类别不匹配的对应节点被设定为零，如在块708中所描述的。

转到块710，做出关于匹配的合计得分是大小相关(例如，考虑目标对象的输出和真相表示的大小)或大小无关的(例如，未考虑大小)的确定。在一些方面中，大小相关得分惩罚对于缺少比更小对象更大的对象的输出实例，而大小无关得分惩罚缺少大和小对象的输出实例。

如果得分被确定为大小无关的，则得分被确定为针对每个映射的联合交点得分的归一化和，如在块712中所描述的。返回图8的绘图800，为了说明，得分包括用于对应的节点A/X、B/Y、C/Z、D/N1和E/N2的联合交点得分的归一化和。以下关系表示针对每个映射的联合交点得分的归一化和：

返回图7，如果得分被确定为大小相关的，得分是通过区域的大小加权的联合交点得分的和，如在块714中所描述的。以下关系表示针对每个映射的联合交点得分的加权和：

当通过大小而对得分进行加权时，关系还可以被简化为交点和除以联合和：

在块716中，得分被调整为分别惩罚错误肯定和错误否定或查准率和查全率评价。在一些方面中，错误肯定对应于错误标记的对象(例如，具有不正确的种类标签的目标对象)。错误否定对应于缺少的对象(例如，目标对象未给定标签，或被认为是背景)。在不使用联合交点阈值(例如，其中仅计算大于阈值的映射的数目)的情况下，确定匹配测量结果，并且采集查准率(例如，错误肯定)和查全率(例如，错误否定)二者。以下关系表示确定匹配测量结果的标准方式：

其中P和R分别是查准率和查全率值，并且m是匹配的数目(例如，联合交点值的和)。

图9图示了根据本公开的方面的使用图7中所描述的度量来比较分割过程的表示的示例。表示900A、902A对应于根据Hariharan,B.,Arbelaez,P.,Girshick,R.,Malik,J.在2005年的In:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition上的第447-456页发表的Hypercolumns for object segmentation andfine-grained localization中所描述的所谓的Hypercolumn方法的分割过程的结果。图像中的目标对象(例如，如由边界框所定义的)附近的对象的轮廓概要表示使用Hypercolumn方法而得到的分割结果。

表示900B、902B对应于根据本公开的各方面的分割过程的结果。目标对象的轮廓概要使用根据本公开的各方面的过程来表示分割结果。表示900A、902B和表示900A、902B中的每一个与表示900C、902C相比较以评价过程结果的准确性。如由图9的表示所指示的，如由表示900B、900C所图示的，根据本公开的各方面产生的分割结果最紧密地匹配真相图像的分割。

适合的计算***可以被编程为执行在此所描述的操作。例如，图10是根据本公开的方面的用于数字视觉媒体的语义分割的示例计算***的框图。用户设备102A-102N、创新装置108、其组件或其他适合的***中的每一个实现所图示的组件中的一些或全部。虽然这些组件被图示为属于相同计算***1000，但是计算***1000可以是分布式的。

计算***1000至少包括处理器1002、存储器1004、存储设备1006、输入/输出***设备1008、通信***设备1010和接口总线1012。接口总线1012被配置为在计算***1000的各种组件之间传递、传输和传送数据、控制和命令。存储器1004和存储设备1006包括计算机可读存储介质，诸如RAM、ROM、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器、CD-ROM、光学存储设备、磁性存储设备、电子非易失性计算机存储装置(例如闪速存储器)以及其他有形存储介质。这样的计算机可读存储介质中的任一个可以被配置为存储实现本公开的各方面的指令或程序代码。存储器1004和存储设备1006还包括计算机可读信号介质。计算机可读信号介质包括具有在其中实现的计算机可读程序代码的传播数据信号。这样的传播信号采取各种形式中的任一种，包括但不限于电磁、光学或其任何组合。计算机可读信号介质包括任何计算机可读介质，其不是计算机可读存储介质并且其可以传递、传播或传输程序，以用于结合计算***1000使用。

此外，存储器1004包括操作***、程序和应用。处理器1002被配置为执行所存储的指令，并且包括例如逻辑处理单元、微处理器、数字信号处理器和其他处理器。存储器1004和/或处理器1002可以被虚拟化并且可以被托管在例如云网络或数据中心的另一计算***内。输入和输出***设备1008包括用户接口(诸如键盘、屏幕、麦克风、扬声器、其他输入/输出设备)、计算组件(诸如图形处理单元、串行端口、并行端口、通用串行总线)、以及其他输入/输出***设备。输入/输出***设备1008通过被耦合到接口总线1012的端口中的任一个端口被连接到处理器1002。通信***设备1010被配置为促进通过通信网络在计算***1000与其他计算设备之间的通信，并且包括例如网络接口控制器、调制解调器、无线和有线接口卡、天线和其他通信***设备。

虽然已经相对于其特定实施例详细描述本主题，但是将理解到，本领域的技术人员在实现前述内容的理解时可以容易地产生对这样的实施例的变更、变型和等同。因此，应当理解，本公开已经出于示例而不是限制的目的而进行呈现，并且不排除包括对本主题的这样的修改、变型和/或添加，如对于本领域的普通技术人员而言将容易理解的。实际上，可以以各种其他形式实现在此所描述的方法和***；此外，在不脱离本公开的精神的情况下，可以做出以在此所描述的方法和***的形式的各种省略、替换和变化。所附的权利要求书和其等价方案旨在涵盖如将落在本公开的范围和精神的这样的形式或修改。

除非另外特别说明，否则将理解到，贯穿本说明书，利用术语(诸如“处理”、“计算”、“运算”、“确定”和“标识”等)的讨论指代计算设备(诸如一个或多个计算机或一个或多个类似电子计算设备)的动作或过程，其操纵或转换被表示为存储器、寄存器或其他信息存储设备、传输设备或计算平台的显示设备内的物理电子或磁量的数据。

在此所讨论的一个或多个***不限于任何特定硬件架构或配置。计算设备可以包括提供在一个或多个输入上调整的结果的组件的任何适合的布置。适合的计算设备包括访问所存储的软件的基于多用途微处理器的计算机***，其将计算***从通用计算装置编程或配置为实现本主题的一个或多个实施例的专用计算装置。任何适合的编程、脚本或其他类型的语言或语言的组合可以被用于以软件实现在此所包含的教导，以在编程或配置计算设备中使用。

可以在这样的计算设备的操作中执行在此所公开的方法的方面。以上示例中所呈现的块的顺序可以发生变化——例如，块可以被重新排序、被组合和/或被分解为子块。可以并行执行某些块或过程。

除非另外特别说明或在如使用的上下文内理解，否则在此使用的条件语言(诸如尤其“能够”、“能”、“可能”、“可以”、“例如”等)通常旨在传达某些示例包括(虽然其他示例不包括)某些特征、元素或步骤。因此，这样的条件语言通常不旨在隐含：特征、元素或步骤以针对一个或多个示例所要求的任何方式，或一个或多个示例必要地包括以下逻辑，其用于在具有或没有作者输入或提示的情况下决定这些特征、元素或步骤是被包括还是将在任何特定示例中被执行。

术语“包括”、“包含”、“具有”等同义并且以开放式方式包括性地被使用，并且不排除附加元素、特征、动作、操作等。而且，术语“或者”以其包括性意义(而非以其排他性意义)被使用，使得当例如被用于连接一系列元素时，术语“或者”意味着列表中的元素中的一个、一些或全部。在此“适于”或“被配置为”的使用被意味着作为不排除适于或被配置为执行附加任务或步骤的设备的开放式或包括性语言。此外，“基于”的使用意味着是开放式并且包括性的，因为“基于”一个或多个记载条件或值的过程、步骤、计算或其他动作可以实际上基于所记载的之外的那些的附加条件或值。类似地，“至少部分地基于”的使用意味着是开放式并且包括性的，因为“至少部分地基于”一个或多个记载条件或值的过程、步骤、计算或其他动作可以实际上基于所记载的之外的那些的附加条件或值。在此包括的标题、列表和编号仅为了便于解释并且不旨在是限制性的。

上文所描述的各种特征和过程可以相互独立使用或可以以各种方式进行组合。所有可能组合和子组合旨在落在本公开的范围内。另外，在一些实现中，可以省略某些方法或过程块。在此所描述的方法和过程还不限于任何特定顺序，并且可以以适当的其他顺序执行与其有关的块或状态。例如，可以以除了特别公开的顺序之外的顺序执行所描述的块或状态，或者多个块或状态可以被组合在单个块或状态中。可以以串行、并行或某种其他方式执行示例块或状态。块或状态可以被添加到所公开的示例，或者从所公开的示例被移除。类似地，在此所描述的示例***和组件可以与所描述的不同地被配置。例如，与所公开的示例相比较，可以添加、移除或重新布置元素。

Claims

1.一种用于数字视觉媒体中的一个或多个对象的语义分割的计算机实现的方法，包括：

由处理设备接收与所述数字视觉媒体内的目标对象集合潜在地相对应的边界框集合；

针对所述边界框集合中的每个边界框，由所述处理设备确定针对所述数字视觉媒体的、与所述边界框集合相对应的每个像素的像素得分，所述像素得分表示每个像素与关联于所述边界框集合的所述目标对象集合相对应的可能性；以及

由所述处理设备至少部分地基于包括针对每个像素的所述像素得分的共同概率图，确定实例级标签，所述实例级标签包括针对所述数字视觉媒体的、与所述目标对象集合相对应的所述像素中的每个像素的标签。

2.根据权利要求1所述的计算机实现的方法，其中所述目标对象集合中的至少两个目标对象具有相同的类别，并且其中确定所述实例级标签包括：将对应于所述至少两个目标对象中的第一对象的所述像素与所述数字视觉媒体的、对应于所述至少两个目标对象中的第二对象的所述像素进行区分。

3.根据权利要求1所述的计算机实现的方法，其中确定所述像素得分包括采用由神经网络训练的预测模型。

4.根据权利要求3所述的计算机实现的方法，其中所述方法还包括训练所述神经网络，所述训练包括：

由所述处理设备接收训练视觉媒体，所述训练视觉媒体具有与所述训练视觉媒体内的训练目标对象相对应的第一边界框；

由所述处理设备基于所述第一边界框来生成与所述训练视觉媒体内的所述训练目标对象相对应的多个边界框，所述第一边界框和所述多个边界框一起形成训练边界框集合；

由所述处理设备生成多个距离图，所述多个距离图中的每个距离图与所述训练边界框集合中的相应边界框相对应；

由所述处理设备将所述训练视觉媒体与所述多个距离图中的每个距离图相连结以生成多个训练对；以及

由所述处理设备基于所述多个训练对中的至少一个训练对来训练所述神经网络，以分割所述训练视觉媒体的、与所述训练目标对象相对应的像素。

5.根据权利要求4所述的计算机实现的方法，其中所述神经网络是卷积编码器-解码器网络，其包括：

卷积编码器网络，其具有一个或多个卷积层和一个或多个池化层，所述一个或多个卷积层用于训练过滤器以识别所述一个或多个目标对象的一个或多个特征，所述一个或多个池化层用于操纵所述至少一个训练对的空间大小；以及

卷积解码器网络，其具有一个或多个解卷积层和一个或多个非池化层，所述一个或多个非池化层用于重建所述数字视觉媒体的细节，

其中基于所述至少一个训练对来训练所述神经网络包括：将所述至少一个训练对输入到所述卷积编码器和所述卷积解码器以生成与所述训练目标对象相对应的二进制实例掩模。

6.根据权利要求1所述的计算机实现的方法，其中所述边界框集合基于对象检测算法而被接收，其中接收所述边界框集合包括：接收与所述边界框集合相关联的类别得分。

7.根据权利要求1所述的计算机实现的方法，其中所述边界框集合基于对象检测算法而被接收，其中与所述边界框集合相对应的类别得分基于分类算法而被接收。

8.根据权利要求1所述的计算机实现的方法，其中所述共同概率图基于针对所述边界框集合中的每个边界框的多个概率图而被生成，其中所述多个概率图中的每个概率图基于与每个边界框相对应的类别得分而被加权。

9.根据权利要求1所述的计算机实现的方法，其中确定所述实例级标签包括：使用所述共同概率图的概率来标识与所述目标对象集合中的至少一个目标对象相对应的相邻像素之间的兼容性，所述兼容性使用条件随机场模型而被标识。

10.一种用于数字视觉媒体中的一个或多个对象的语义分割的计算***，所述计算***包括：

用于存储多个数字媒体的装置，所述数字媒体包括具有边界框集合的数字视觉媒体，所述边界框集合包括与所述数字视觉媒体内的目标对象潜在地相对应的至少一个边界框；以及

用于针对所述边界框集合中的每个边界框确定针对所述数字视觉媒体的、与所述边界框集合中的每个边界框相对应的每个像素的像素得分的装置，所述像素得分表示每个像素与关联于所述至少一个边界框的所述目标对象相对应的可能性，所述装置被通信地耦合到用于存储所述多个数字媒体的所述装置；以及

用于至少部分地基于包括针对每个像素的所述像素得分的共同概率图来确定针对所述数字视觉媒体的、与所述边界框集合中的每个边界框相对应的像素的实例级标签的装置。

11.根据权利要求10所述的计算***，其中所述数字视觉媒体包括所述数字视觉媒体内的第二目标对象，所述第二目标对象与所述目标对象分离并且具有与所述目标对象匹配的类别，

其中用于确定所述实例级标签的所述装置包括：用于将对应于所述目标对象的所述像素与对应于所述第二对象的所述像素进行区分的装置。

12.根据权利要求10所述的计算***，其中用于确定所述像素得分的所述装置包括神经网络和由所述神经网络训练的预测模型。

13.根据权利要求12所述的计算***，还包括用于通过执行包括以下各项的操作来训练所述神经网络的装置：

基于具有训练目标对象和与所述训练目标对象相对应的第一边界框的训练视觉媒体，生成与所述训练目标对象相对应的多个边界框，所述第一边界框和所述多个边界框一起形成训练边界框集合；

生成多个距离图，所述多个距离图中的每个距离图与所述训练边界框集合中的相应边界框相对应；

将所述训练视觉媒体与所述多个距离图中的每个距离图相连结以生成多个训练对；以及

14.根据权利要求13所述的计算***，其中所述神经网络是卷积编码器-解码器网络，其包括：

卷积编码器网络，其具有一个或多个卷积层和一个或多个池化层，所述一个或多个卷积层用于训练过滤器以识别所述目标对象的一个或多个特征，所述一个或多个池化层用于操纵所述至少一个训练对的空间大小；以及

卷积解码器网络，其具有一个或多个解卷积层和一个或多个非池化层，所述一个或多个非池化层用于重建所述数字视觉媒体的细节。

15.根据权利要求13所述的计算***，其中用于训练所述神经网络的所述装置包括用于执行训练所述神经网络以通过以下对所述像素进行分割的所述操作的装置：将所述至少一个训练对输入到所述神经网络的卷积编码器和卷积解码器以生成与所述训练目标对象相对应的二进制实例掩模。

16.根据权利要求10所述的计算***，其中所述共同概率图基于针对所述边界框集合中的每个边界框的多个概率图而被生成，其中所述多个概率图中的每个概率图基于与每个边界框相对应的类别得分而被加权。

17.根据权利要求10所述的计算***，其中用于确定所述实例级标签的所述装置包括：用于使用所述共同概率图的概率来标识与所述一个或多个目标对象中的至少一个目标对象相对应的相邻像素之间的兼容性的装置，所述兼容性使用条件随机场模型而被标识。

18.一种非暂态计算机可读介质，其具有被存储在其上的、由处理设备可执行的程序代码，所述程序代码包括：

用于接收数字视觉媒体的程序代码，所述数字视觉媒体具有与所述数字视觉媒体内的对象相对应的第一边界框；

用于基于所述第一边界框来生成与所述数字视觉媒体内的所述对象相对应的多个边界框的程序代码，所述第一边界框和所述多个边界框一起形成边界框集合；

用于生成多个距离图的程序代码，所述多个距离图中的每个距离图与所述边界框集合中的相应边界框相对应；

用于将所述数字视觉媒体与所述多个距离图中的每个距离图相连结以生成多个训练对的程序代码；以及

用于基于所述训练对来训练神经网络以对所述数字视觉媒体的、与所述对象相对应的像素进行分割的程序代码。

19.根据权利要求18所述的非暂态计算机可读介质，其中所述程序代码还包括用于通过以下各项对由经训练的神经网络接收到的输入视觉媒体内的目标对象集合进行语义分割的程序代码：

接收与所述目标对象集合潜在地相对应的一个或多个边界框；

针对所述一个或多个边界框中的每个边界框，确定针对所述输入视觉媒体的每个像素的得分，所述得分表示每个像素与所述目标对象集合相对应的可能性；以及

至少部分地基于包括针对所述输入视觉媒体的每个像素的所述得分的共同概率图，确定实例级标签，所述实例级标签产生针对所述输入视觉媒体的、与所述目标对象集合相对应的所述像素中的每个像素的标签。

20.根据权利要求18所述的非暂态计算机可读介质，其中用于生成所述多个距离图的所述程序代码包括：针对每个距离图，用于确定从所述训练视觉媒体的每个像素到所述相应边界框的距离的程序代码，其中所述多个数字图具有与所述训练视觉媒体匹配的尺寸。