CN111742345A

CN111742345A - 通过着色的视觉跟踪

Info

Publication number: CN111742345A
Application number: CN201980014226.8A
Authority: CN
Inventors: 阿比纳夫·什里瓦斯塔瓦; 阿里礼萨·法蒂; 塞尔吉奥·瓜达拉马科塔多; 凯文·帕特里克·墨菲; 卡尔·马丁·冯德日奇克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-13
Filing date: 2019-06-12
Publication date: 2020-10-02
Also published as: WO2019241346A1; US11335093B2; US20210089777A1; EP3740935A1; EP3740935B1

Abstract

用于执行视觉跟踪的方法、***和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括接收：(i)一个或多个参考视频帧，(ii)参考视频帧中的多个参考像素的每一个参考像素的相应参考标签，以及(iii)目标视频帧。使用着色机器学习模型处理参考视频帧和目标视频帧，以生成(i)目标视频帧中的多个目标像素和(ii)参考视频帧中的参考像素的每一个之间的相应像素相似性度量。确定目标视频帧中的每一个目标像素的相应目标标签，包括：组合(i)参考视频帧中的参考像素的参考标签，以及(ii)像素相似性度量。

Description

通过着色的视觉跟踪

技术领域

本说明书涉及使用机器学习模型来处理数据。

背景技术

机器学习模型接收输入，并基于接收到的输入生成输出，例如，预测输出。一些机器学习模型是参数模型，并且基于接收到的输入和模型的参数的值生成输出。

一些机器学习模型是采用多层模型来为接收到的输入生成输出的深度模型。例如，深度神经网络是深度机器学习模型，该深度机器学习模型包括输出层和一个或多个隐藏层，每个隐藏层将非线性变换应用于接收到的输入以生成输出。

发明内容

本说明书描述了一种***，该***被实现为在一个或多个位置中的一个或多个计算机上执行视觉跟踪的计算机程序。

根据第一方面，提供了一种方法，该方法包括：包括：接收：(i)一个或多个参考视频帧，(ii)参考视频帧中的多个参考像素中的每个参考像素的相应参考标签，以及(iii)目标视频帧；使用着色机器学习模型处理参考视频帧和目标视频帧，以生成(i)目标视频帧中的多个目标像素和(ii)参考视频帧中的参考像素的每个之间的相应的像素相似性度量，其中，训练着色机器学习模型以生成像素相似性度量，其中，通过组合以下各项来定义目标视频帧中的目标像素中的每个目标像素的相应估计颜色：(i)参考视频帧中的参考像素中的每个参考像素的实际颜色，以及(ii)像素相似性度量；以及，确定目标视频帧中的每个目标像素的相应的目标标签，包括：组合(i)参考视频帧中的参考像素的参考标签，以及(ii)像素相似性度量。

参考视频帧中的参考像素可以包括参考视频帧中的像素的适当子集。

参考视频帧和目标视频帧可以在被着色机器学习模型处理之前被脱色。

着色机器学习模型可以包括嵌入神经网络，并且其中，使用着色机器学习模型来处理参考视频帧和目标视频帧以生成在(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素的每个之间的相应像素相似性度量可以包括：提供参考视频帧和目标视频帧作为对于嵌入神经网络的输入；根据嵌入神经网络参数的当前值来处理输入，以生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个的相应嵌入；以及，使用嵌入生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个之间的相应像素相似性度量。

嵌入神经网络可以包括一个或多个卷积神经网络层。

使用嵌入生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个之间的相应像素相似性度量可以包括：使用目标像素的嵌入和参考像素的嵌入之间的相似性度量来生成目标像素和参考像素之间的像素相似性度量。

像素的标签可以包括针对多个可能类别中的每一个可能类别指示所述像素对应于该类别的相应可能性的数据。

像素的标签可以包括对于多个可能的关键点中的每一个关键点指示像素对应于该关键点的相应可能性的数据。

可以通过多个操作来训练着色机器学习模型，该多个操作包括：获得多个训练示例，其中，每个训练示例包括：(i)一个或多个训练参考视频帧，(ii)训练目标视频帧，以及(iii)训练参考视频帧和训练目标视频帧中的每个像素的实际颜色；使用着色机器学习模型对训练参考视频帧和训练目标视频帧进行处理，以生成(i)训练目标视频帧中的每个像素与(ii)训练参考视频帧中的每个像素之间的相应相似性度量；通过组合以下各项来确定训练目标视频帧中的每个像素的估计颜色：(i)训练参考视频帧中的每个像素的实际颜色，以及(ii)相似性度量；以及，基于以下两者之间的差异来调整嵌入神经网络参数的当前值：(i)训练目标视频帧中每个像素的实际颜色，以及(ii)训练目标视频帧中每个像素的估计颜色。

调整嵌入神经网络参数的当前值可以包括：确定损失函数的梯度，其中，该损失函数取决于以下两者之间的差：(i)训练目标视频帧中的每个像素的实际颜色，以及(ii)训练目标视频帧中的每个像素的估计颜色；以及，使用梯度调整嵌入神经网络参数的当前值。

一个或多个参考视频帧中的参考像素的参考标签可以是使用着色机器学习模型先前已经确定的。

可以使用目标标签来跟踪参考视频帧中的对象到目标视频帧的位置。

根据第二方面，提供一种***，包括：数据处理装置；以及，存储器，该存储器与数据处理装置进行数据通信并且存储使数据处理装置执行第一方面的相应方法的操作的指令。

根据第三方面，提供了一个或多个非暂时性计算机存储介质，该非暂时性计算机存储介质存储指令，当该指令被一个或多个计算机执行时，使该一个或多个计算机执行第一方面的相应方法的操作。

本说明书中描述的主题可以在特定实施例中实现，以实现以下优点中的一个或多个。可以训练本说明书中描述的***，以使用原始未标记的彩***数据执行视觉跟踪。因此，可以利用容易获得的大量未标记的彩***数据(例如，在视频共享网站上)来训练本说明书中描述的***。相反，必须使用手动标记的视频数据来训练某些常规的视觉跟踪***(例如，在人已经手动标记视频帧的像素的情况下)。手动标记视频数据是乏味、耗时且困难的(例如，因为许多视频帧速率超过每秒24帧，从而需要手动标记至少24个视频帧以获得一秒的手动标记数据)。因此，在本说明书中描述的***通过使得存储在存储器中的未标记的彩***数据能够直接用作训练数据(即，用于训练要在视觉跟踪中使用的着色机器学习模型)，使得能够更有效地利用计算资源，特别是存储器资源。此外，与一些常规***(例如，基于光流方法的***)相比，本说明书中描述的***可以更有效地(例如，以更高的精度)执行视觉跟踪。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例视觉跟踪***。

图2是用于使用视觉跟踪***从参考视频帧到目标视频帧跟踪对象的位置的示例数据流的图示。

图3示出了示出在执行视频分割时各种跟踪***作为时间的函数的性能的曲线图。

图4示出了在执行视频分割时各种“无监督”和“监督”跟踪***的性能。

图5是用于执行视觉跟踪的示例过程的流程图。

图6是用于训练着色机器学习模型的示例过程的流程图。

在各个附图中，相同的附图标号和名称指示相同的元件。

具体实施方式

本说明书描述了一种***，该***被实现为在一个或多个位置中的一个或多个计算机上的计算机程序，该***以视频帧序列执行视觉跟踪。视觉跟踪是指在给定对象(或其他兴趣点)在一个或多个其他视频帧中的位置的情况下确定对象(或其他兴趣点)在视频帧中的位置。

该***可以学习以使用未标记的视频在没有人工监督的情况下进行视觉跟踪，即，在人没有手动注释视频帧上的像素标签或跟踪视频帧上的数据的情况下。特别地，该***通过学习以通过从视频中的一个或多个“参考”视频帧中复制颜色来为视频中的灰度“目标”视频帧着色，来自动学习跟踪视觉区域。通过学习以这种方式执行着色，***学习了一种“指向”机制，该“指向”机制从目标视频帧中的像素指向参考视频帧中的相应像素，以复制正确的颜色。一旦对***进行了训练，学习到的指向机制就可以充当可用于执行视觉跟踪的跨时间的***。

在下面更详细地描述这些特征和其他特征。

图1示出了示例视觉跟踪***100。视觉跟踪***100是被实现为在实现以下描述的***、组件和技术的一个或多个位置中的一个或多个计算机上的计算机程序的***的示例。

视觉跟踪***100被配置为接收输入，该输入包括(i)一个或多个参考视频帧102，(ii)来自参考视频帧102的像素的相应参考标签104，以及(iii)目标视频帧106。***100处理输入以为来自目标视频帧106的像素生成相应的目标标签108。参考视频帧102和目标视频帧106可以是来自视频(例如，描述自然世界或计算机生成的视频的视频)的连续视频帧。

在一些实施方式中，针对多个可能类别中的每个可能类别，用于像素的标签(例如，参考标签104或目标标签108)指示像素对应于该类别的相应可能性。例如，类别可以包括多个不同的对象(例如，人、汽车和动物等)和背景类别。可以将标签表示为表示像素对应于可能类别中的每个可能类别的可能性的数值向量。在一些实施方式中，针对多个可能关键点中的每一个可能的关键点，用于像素的标签指示像素对应于该关键点的相应可能性。例如，关键点可以包括人体姿势关键点(例如，头部、肩膀和肘部的位置等)。可以将标签表示为表示像素对应于可能关键点中的每个可能关键点的可能性的数值向量。

通过从参考视频帧102的参考标签104生成目标视频帧106的目标标签108，***100可以执行视觉跟踪。视觉跟踪是指在给定对象(或其他兴趣点)在参考视频帧102中的位置的情况下，确定对象(或其他兴趣点)在目标视频帧106中的位置。例如，***100可以在给定特定人在参考视频帧102中的位置(例如，如由参考标签104所定义的)的情况下，通过确定特定人在目标视频帧106中的位置(例如，如由目标标签108所定义的)来执行视觉跟踪104。

参考标签104可以通过手动注释生成，即，通过人将各个的标签分配给参考视频帧102的像素来生成(例如，使用非自动或半自动注释过程)。在某些情况下，***100接收参考视频帧和用于视频的初始视频帧的相应参考标签，并且迭代地确定视频的每个后续视频帧的目标标签。更具体地，在确定目标视频帧106的目标标签108之后，***可以将目标视频帧确定为参考视频帧并且将相应的目标标签确定为参考标签。此后，***100可以使用新确定的参考视频帧和参考标签来生成后续视频帧的目标标签。以这种方式，***100可以通过视频的每个视频帧在视觉上跟踪对象(例如，如前所述的特定人)的位置。

通常，参考视频帧102和目标视频帧106可以是彩***帧，即其中每个像素与定义该像素的颜色的数据相关联的视频帧。例如，参考视频帧102和目标视频帧106可以是RGB视频帧，其中，每个像素与红色通道、绿色通道和蓝色通道的相应强度相关联。在处理参考视频帧102和目标视频帧106之前，***100例如通过将参考视频帧102和目标视频帧106转换为非彩色格式来部分或完全将参考视频帧102和目标视频帧106“脱色”。例如，在处理参考视频帧102和目标视频帧106之前，***100可以将它们转换为灰度格式。

为了生成目标视频帧106的目标标签108，***100使用着色机器学习模型110处理脱色的参考视频帧102和脱色的目标视频帧106，以生成目标视频帧106的像素和参考视频帧102的像素之间的相应像素相似性度量112。来自目标视频帧106的目标像素与来自参考视频帧102的参考像素之间的像素相似性度量112可以被表示为数字。如稍后将更详细描述的，***100包括着色训练子***114，该着色训练子***114训练着色机器学习模型110以生成像素相似性度量112，该像素相似性度量112可以用于使用来自参考视频帧102的像素的颜色对脱色的目标视频帧106“着色”。

着色机器学习模型110通过提供脱色的参考视频帧102和脱色的目标视频帧106作为嵌入神经网络116的输入，来生成像素相似性度量112。嵌入神经网络116被配置为根据嵌入神经网络参数的当前值处理输入，以生成来自参考视频帧102的像素中的每个像素的相应嵌入(即，参考像素嵌入118)和目标视频帧106的像素中的每个像素的嵌入(即，目标像素嵌入120)。像素的嵌入是指像素作为数值的有序集合(例如，作为数值的向量或矩阵)的表示。***100使用参考像素嵌入118和目标像素嵌入120来生成像素相似性度量112。例如，对于来自目标视频帧106的给定目标像素和来自参考视频帧102的给定参考像素，***100可以基于参考像素嵌入118和目标像素嵌入120之间的相似性度量(例如，内积)来生成目标像素和参考像素之间的像素相似性度量112。

***100提供像素相似性度量112和参考标签104作为对标签传播引擎122的输入，该标签传播引擎122被配置为使用像素相似性度量112和参考标签104生成目标标签108。例如，标签传播引擎122可以通过根据像素相似性度量112将参考标签104从参考视频帧102“传播”到目标视频帧106来生成目标视频帧106的目标标签108。更具体地，标签传播引擎122可以生成来自目标视频帧106的给定目标像素的目标标签108，作为参考标签104的线性组合，其中，参考标签104由像素相似性度量112加权。

参考图5更详细地描述了用于通过确定目标视频帧106的目标标签108来执行视觉跟踪的示例过程。

为了使***100能够有效地生成目标视频帧106的目标标签108，***100包括被配置为训练嵌入神经网络116的着色训练子***114。训练子***114通过多个训练迭代训练嵌入神经网络116，以从嵌入神经网络参数的初始值确定嵌入神经网络参数的训练值。训练子***114可以不需要人工监督(例如，不需要人手动地在视频数据上手动注释像素标签)的情况下，在大量易于获得的未标记的彩***数据上训练嵌入神经网络116。

在每个训练迭代中，训练子***114获得以颜色格式表示的参考视频帧102和目标视频帧106(例如，作为RGB视频帧)。更具体地，来自参考视频帧102的每个参考像素与参考颜色124相关联，并且来自目标视频帧106的每个目标像素与目标颜色130相关联。例如，当颜色格式是RGB颜色格式时，可以将与参考像素相关联的参考颜色124(或与目标像素相关联的目标颜色130)表示为三维向量，其不同维度分别对应于红色、绿色和蓝色通道。由训练子***114获得的参考视频帧102和目标视频帧106不必与像素标签(例如，参考标签104或目标标签108)相关联。

训练子***114使参考视频帧102和目标视频帧106脱色(例如，通过将它们转换为灰度)，并使用着色机器学习模型110对其进行处理，以生成像素相似性度量112。训练子***114提供像素相似性度量112和参考颜色124作为对颜色传播引擎128的输入，该颜色传播引擎128被配置为处理该输入以生成来自目标视频帧106的像素的估计目标颜色126。估计目标颜色126包括来自目标视频帧106的每个目标像素的估计颜色(例如，如前所述，以RGB格式表示)。颜色传播引擎128被配置为类似于标签传播引擎122进行操作，也就是说，通过根据像素相似性度量112将参考颜色124从参考视频帧102传播到目标视频帧106以“着色”目标视频帧106。例如，颜色传播引擎128可以生成目标视频帧106的给定目标像素的估计目标颜色126，作为参考颜色124的线性组合，其中，参考颜色124被像素相似性度量112加权。

在生成估计目标颜色126之后，训练子***114调整嵌入神经网络参数的当前值，以使***100更准确地使目标视频帧106着色。更具体地，训练子***114基于以下之间的差来调整嵌入神经网络参数的当前值：(i)目标视频帧106中的目标像素的(实际)目标颜色130，以及(ii)目标视频帧106中的目标像素的估计目标颜色126。训练子***114使用损失函数134相对于嵌入神经网络参数的当前值的梯度132来调整嵌入神经网络参数的当前值。损失函数134取决于目标像素的实际目标颜色130和目标像素的估计目标颜色126之间的误差。

像素相似性度量112可以作为从目标视频帧106的目标像素到参考视频帧102的参考像素的“指针”来操作，其中，从目标像素到参考像素的指针的强度由相应像素相似性度量112的大小确定。通过训练***100对来自参考视频帧102的目标视频帧106进行着色，训练子***114使着色机器学习模型110学习生成像素相似性度量112，该像素相似性度量112从目标视频帧106中的目标像素“指向”参考视频帧102中的右参考像素。一旦训练了着色机器学习模型110，就使用所学习的“指向”机制从参考视频帧102向目标视频帧106传播参考标签104，从而实现视觉跟踪。

参照图6更详细地描述了用于训练着色机器学习模型的示例过程。

图2是用于使用视觉跟踪***100从参考视频帧202到目标视频帧204跟踪对象的位置的示例数据流200的图示。

***100通过使参考视频帧202和目标视频帧204脱色(例如，通过将它们转换为相应的灰度视频帧)开始。

***100使用嵌入神经网络206处理参考视频帧202和目标视频帧204，以生成与参考视频帧202和目标视频帧204的像素相对应的嵌入。嵌入神经网络206是卷积神经网络(CNN)，即包括一个或多个卷积神经网络层的神经网络。

在处理输入视频帧(例如，参考帧202或目标帧204)之后，嵌入神经网络206的输出可以表示为数值的三维(3D)矩阵，具有两个“空间”维度和一个“通道”维度。通过在相应空间位置(即沿着通道维度)处提取嵌入神经网络输出的一部分来确定与特定空间位置(例如，由输入视频帧中的(x，y)坐标定义)处的输入视频帧的像素对应的嵌入。在某些情况下，嵌入神经网络输出的空间维度可以与输入视频帧相同，例如，输入视频帧可以具有256×256的空间维度，并且嵌入神经网络输出可以具有带有200个通道的256×256的空间维度。在某些其他情况下，嵌入神经网络输出的空间维度可以大于或小于输入视频帧的空间维度，例如，输入视频帧可以具有256×256的空间维度，并且嵌入神经网络输出可以具有带有200个通道的50×50的空间维度。

嵌入神经网络206可以具有任何适当的神经网络架构。在一个示例中，嵌入神经网络架构可以包括ResNet-18神经网络架构，其后是五层3D卷积神经网络。可以提供输入视频帧中的每个像素的空间位置(例如，被表示为范围[-1，1]中的相应2D向量)作为嵌入神经网络的中间输入。

为了从参考帧202到目标帧204跟踪对象208(即，在图2中被示为三角形)的位置，***100确定与来自目标帧204的像素相对应的嵌入与对应于来自参考帧202的像素的嵌入之间的相应相似性度量。在此示例中，***100可基于参考帧202中的对象208的嵌入f_i与目标帧204中的嵌入f_j之间的相似性度量来识别对象208在目标帧204中的位置。***100训练嵌入网络206以生成可用于通过基于参考帧202的参考颜色214生成目标帧204的预测颜色212使目标帧204着色的嵌入210。

图3和图4示出了通过使用本说明书中描述的视觉跟踪***来执行视频分割任务可以实现的性能提升的示例。在视频分割任务中，提供视频中一个或多个初始视频帧的语义分割，并且跟踪***将语义分割传播到视频中的其余视频帧。视频帧的语义分割指定了与视频帧的每个像素相对应的标签。

图3示出了曲线图300，该曲线图示出了在执行视频分割时各种跟踪***作为时间(即，视频帧号)的函数的性能。跟踪***302是指本说明书中描述的跟踪***。跟踪***304使用光流技术来执行跟踪。跟踪***306通过将视频帧中的每个像素与前一视频帧中相同空间位置处的对应像素相关联来执行跟踪。曲线图300的水平轴标识被分割的视频帧的帧号，而垂直轴标识每个跟踪***在分割视频帧时的平均性能。跟踪***在分割视频帧时的性能可以确定为：(i)视频帧的实际分割，和(ii)跟踪***确定的视频帧的分割之间的重叠。可以理解的是，本说明书中描述的跟踪***302优于每个基线跟踪方法。

图4示出了各种“无监督”和“监督”跟踪***在执行视频分割时的性能。基于每个视频帧的实际分割和估计分割之间的重叠，在表400的“分割”列中评估性能，并基于每个视频帧的实际分割和估计分割中的各个区域的边界之间的相似性，在“边界”列中评估性能。有监督的跟踪方法是指利用所标记的图像(例如，与已知跟踪数据或语义分割相关联的图像)的优势进行训练的跟踪方法。无监督的跟踪方法(诸如本说明书中描述的跟踪方法)是在不使用所标记的图像的情况下训练了的。在某些情况下，可以预期有监督的跟踪方法的性能为无监督的跟踪方法的性能的上界。

“身份”跟踪方法402通过将视频帧中的每个像素与前一视频帧中相同空间位置处的对应像素相关联来执行跟踪(如前所述)。“单图像着色”跟踪方法404以与本说明书中所述***类似的方式执行跟踪，除了像素嵌入是作为被训练以执行单图像着色(即通过处理灰度图像以生成彩色图像)的神经网络的中间输出而生成的。“光流(粗到细)”跟踪方法406使用光流技术来执行跟踪，并参考Liu,C.等的：“Beyond pixels:exploring newrepresentations and applications for motion analysis(超越像素：探索用于运动分析的新表示和应用)”，麻省理工学院博士学位论文(2009年)来描述。“光流(FlowNet2)”跟踪方法408使用光流技术来执行跟踪，并参考Ilg,E.等：“Flownet 2.0:Evolution ofoptical flow estimation with deep networks(Flownet 2.0：利用深层网络的光流估计的演进)”,，关于计算机视觉和模式识别(CVPR)的IEEE会议，第2卷(2017)来描述。“我们的”跟踪方法410是指本说明书中描述的跟踪方法。“完全监督的”跟踪方法412是指参照例如Yang,L.等的：“Efficient video object segmentation via network modulation(经由网络调制的有效视频对象分割)”,arXiv:1802.01218(2018)描述的完全监督跟踪方法。可以理解的是，在本说明书中描述的跟踪方法实现了比任何其他无监督跟踪方法都更接近完全监督的跟踪方法的性能。

图5是用于执行视觉跟踪的示例过程500的流程图。为了方便起见，将过程500描述为由位于一个或多个位置中的一个或多个计算机的***执行。例如，根据本说明书适当编程的视觉跟踪***(例如，图1的视觉跟踪***100)可以执行过程500。

该***接收：(i)一个或多个参考视频帧，(ii)参考视频帧中的多个参考像素中的每一个参考像素的相应参考标签，以及(iii)目标视频帧(502)。通常，参考视频帧和目标视频帧是从同一视频中取出的。参考视频帧可以在视频中的目标视频帧之前、跟随视频中的目标视频帧或两者的组合，即，一些参考视频帧可以在目标视频帧之前，而其余参考视频帧可以跟随目标视频帧。该***可以接收参考视频帧中的每个像素的参考标签，或者仅接收参考视频帧中的像素的适当子集(例如，仅与参考视频帧中描绘的特定对象相对应的像素)的参考标签。参考标签可能已经由人通过手动注释确定，或者可能先前已经使用过程500生成。通常，***通过移除定义像素的颜色的一些或全部数据(例如，通过将视频帧转换为灰度格式)来使参考视频帧和目标视频帧脱色。

该***使用着色机器学习模型处理参考视频帧和目标视频帧，以生成(i)目标视频帧中的多个目标像素和(ii)参考视频帧中的多个参考像素中的每一个之间的相应像素相似性度量(504)。特别地，***提供参考视频帧和目标视频帧作为对嵌入神经网络的相应的输入，该嵌入神经网络被配置为处理输入视频帧以生成定义输入视频帧中的每一个像素的相应嵌入的输出。该***可以将来自目标视频帧的目标像素j和来自参考视频帧的参考像素i之间的像素相似性度量A_ij确定为：

其中，

是参考像素i的嵌入的转置，f_j是目标像素j的嵌入，T是温度参数(例如T＝0.5或T＝1)，并且总和超过每一个参考像素k。训练着色机器学习模型(特别是嵌入神经网络)以生成像素相似性度量，该像素相似性度量具有以下特性：可以通过组合以下各项来有效地估计每一个目标像素的颜色：(i)参考像素的实际颜色，和(ii)像素相似性度量。参照图6更详细地描述对着色机器学习模型的训练。

***基于(i)参考像素的参考标签和(ii)参考像素与目标像素之间的像素相似性度量，确定目标视频帧中的每一个目标像素的相应目标标签(506)。例如，***可以将目标视频帧中的目标像素j的目标标签确定为：

其中，A_ij表示目标像素j与参考像素i之间的像素相似性度量(如参考等式(1)所述)，l_i表示参考像素i的参考标签，并且总和超过参考视频中的每一个参考像素i。

在一些实施方式中，参考标签指示每一个参考像素是否包括在特定对象中，并且通过确定目标标签，***从参考视频帧到目标视频帧“跟踪”对象。在一些其他实施方式中，参考标签通过指示每个参考像素的相应类别(例如，对象类别)来定义参考视频帧的语义分割，并且***通过确定目标标签将语义分割传播到目标视频帧。

图6是用于训练着色机器学习模型的示例过程600的流程图。为了方便起见，将过程600描述为由位于一个或多个位置中的一个或多个计算机的***执行。例如，根据该规范适当编程的视觉跟踪***(例如，图1的视觉跟踪***100)可以执行过程600。

***获得一个或多个训练示例(602)。每个训练示例包括：(i)一个或多个训练参考视频帧，(ii)训练目标视频帧，以及(iii)训练参考视频帧和训练目标视频帧中的像素中的每一个像素的实际颜色。该***可以例如通过从包括多个训练示例的训练数据的集合中随机采样预先确定的数量的训练示例来获得训练示例。

可以以多种方式中的任一种来表示训练参考视频帧和训练目标视频帧中的像素的颜色。在一个示例中，像素的颜色可以被“连续地”表示为例如可以假设可能值的连续范围中的值的红色、绿色和蓝色值的3D向量。在另一示例中，像素的颜色可以被“离散地”表示为例如指示来自可能的参考颜色值的预先确定的集合中的特定“参考”颜色值的单热向量。可以通过例如使用k均值或期望最大化聚类技术，对表示图像或视频的集合中的像素的颜色的向量的集合进行聚类，来确定可能的参考颜色值的集合。可以确定像素对应于最接近其实际颜色的参考颜色。

***使用着色机器学习模型来处理训练参考视频帧和训练目标视频帧，以生成(i)训练目标视频帧中的每一个像素和(ii)训练参考视频帧中的每一个像素之间的相应像素相似性度量(604)。参考图5的步骤504，更详细地描述了用于使用着色机器学习模型的嵌入神经网络来生成这种相似性度量的示例过程。

该***通过组合：(i)训练参考视频帧中的每一个像素的实际颜色和(ii)像素相似性度量来确定训练目标视频帧中的每个像素的估计颜色(606)。例如，***可以将训练目标视频帧中的目标像素j的估计颜色

确定为：

其中，A_ij表示目标像素j和参考像素i之间的像素相似性度量，c_i表示参考像素i的颜色，并且总和超过训练参考视频帧中的每个参考像素i。

***基于以下两者之间的差异来调整着色机器学习模型的嵌入神经网络参数的当前值(608)：(i)训练目标视频帧中的每一个像素的实际颜色和(ii)训练目标视频帧中的每一个像素的估计的颜色。例如，***可以使用损失函数相对于嵌入神经网络参数的当前值的梯度来调整嵌入神经网络参数的当前值。损失函数可以是例如训练目标视频帧的像素的实际颜色和估计颜色之间的交叉熵损失。***可以使用例如反向传播技术来确定梯度。***可以使用梯度来使用任何适当的梯度下降优化算法(例如，RMSprop或Adam)的更新规则来调整嵌入神经网络参数的当前值。

本说明书结合***和计算机程序组件使用术语“配置的”。对于要被配置为执行特定操作或动作的一个或多个计算机的***，意味着该***已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使***执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时使该装置执行该操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其结构等同物)中或在它们的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂时性存储介质上的计算机程序指令的一个或多个模块，以用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储器设备或它们中的一个或多个的组合。可替选地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以用于传输给合适的接收器设备以供数据处理装置执行。

术语“数据处理装置”是指数据处理硬件，并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或被描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，该任何形式的编程语言包括编译或解释语言或者声明性或过程性语言，并且该计算机程序可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程、对象或其他单元。程序可以但不必对应于文件***中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于所讨论的程序的单个文件中或者在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或在位于一个站点处或跨多个站点分布并且通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛地用于指代被编程以执行一个或多个特定功能的基于软件的***、子***或过程。通常，引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下，一台或多台计算机将专用于特定引擎；在其他情况下，可以在同一台计算机或多台计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)或由专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机包括例如可以基于通用和专用微处理器或两者以及任何种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘或光盘，或者计算机还可操作地耦合到该一个或多个大容量存储设备以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，该另一个设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，这里仅举了几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，例如包括：半导体存储设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在计算机上，该计算机具有：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)；以及用户可以通过其向计算机提供输入的键盘和例如鼠标或轨迹球的指示设备。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，该任何形式包括声音、语音或触觉输入。另外，计算机可以通过下述方式与用户交互：向用户使用的设备发送文档和从用户使用的设备接收文档；例如，通过响应于从用户设备上的web浏览器接收到的请求，将网页发送到该web浏览器。而且，计算机可以通过将文本消息或其他形式的消息发送到个人设备(例如，运行消息传送应用的智能手机)，并作为回应从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，该专用硬件加速器单元用于处理机器学习训练或生产的公共和计算密集部分，即推断、工作负载。

可以使用机器学习帧(例如，TensorFlow帧、Microsoft认知工具包帧、ApacheSinga帧或Apache MXNet帧)来实现和部署机器学习模型，

本说明书中描述的主题的实施例可以实现在计算***中，该计算***包括诸如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如具有图形用户界面、Web浏览器或app的客户端计算机的前端组件，或者包括一个或多个这样的后端、中间件或前端组件的任何组合，用户可以通过该图形用户界面、Web浏览器或app与本说明书中描述的主题的实现交互。***的组件可以通过任何形式或介质的数字数据通信——例如，通信网络——互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)(例如，因特网)。

计算***可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实现细节，但是这些不应被解释为对任何发明的范围或可以要求保护的范围的限制，而是作为特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管特征可以在上面被描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变型。

类似地，虽然在附图中描绘了操作并且以特定顺序在权利要求中叙述了操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作，或者执行所有示出的操作，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解的是，所描述的程序组件和***通常可以集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种方法，包括：

接收：(i)一个或多个参考视频帧，(ii)所述参考视频帧中的多个参考像素中的每一个参考像素的相应参考标签，以及(iii)目标视频帧；

使用着色机器学习模型处理所述参考视频帧和所述目标视频帧，以生成(i)所述目标视频帧中的多个目标像素和(ii)所述参考视频帧中的所述参考像素的每一个之间的相应像素相似性度量，

其中，所述着色机器学习模型被训练以生成像素相似性度量，其中，通过组合(i)所述参考视频帧中的所述参考像素中的每个参考像素的实际颜色以及(ii)所述像素相似性度量来定义所述目标视频帧中的每个目标像素的相应估计颜色；以及

确定所述目标视频帧中的每个目标像素的相应目标标签，包括：

组合(i)所述参考视频帧中的所述参考像素的所述参考标签以及(ii)所述像素相似性度量。

2.根据权利要求1所述的方法，其中，所述参考视频帧中的所述参考像素包括所述参考视频帧中的像素的适当子集。

3.根据权利要求1-2中的任一项所述的方法，其中，所述参考视频帧和所述目标视频帧在被所述着色机器学习模型处理之前被脱色。

4.根据权利要求1-3中的任一项所述的方法，其中，所述着色机器学习模型包括嵌入神经网络，并且其中，使用所述着色机器学习模型来处理所述参考视频帧和所述目标视频帧以生成(i)所述目标视频帧中的所述目标像素和(ii)所述参考视频帧中的所述参考像素的每一个之间的相应像素相似性度量包括：

提供所述参考视频帧和所述目标视频帧作为对所述嵌入神经网络的输入；

根据嵌入神经网络参数的当前值来处理所述输入，以生成(i)所述目标视频帧中的所述目标像素和(ii)所述参考视频帧中的所述参考像素中的每一个的相应嵌入；以及

使用所述嵌入生成(i)所述目标视频帧中的所述目标像素和(ii)所述参考视频帧中的所述参考像素中的每一个之间的所述相应像素相似性度量。

5.根据权利要求4中的任一项所述的方法，其中，所述嵌入神经网络包括一个或多个卷积神经网络层。

6.根据权利要求4-5中的任一项所述的方法，其中，使用所述嵌入生成(i)所述目标视频帧中的所述目标像素和(ii)所述参考视频帧中的所述参考像素中的每一个之间的所述相应像素相似性度量包括：

使用目标像素的嵌入和参考像素的嵌入之间的相似性度量来生成所述目标像素和所述参考像素之间的像素相似性度量。

7.根据权利要求1-6中的任一项所述的方法，其中，像素的标签包括针对多个可能类别中的每一个可能类别指示所述像素对应于所述类别的相应可能性的数据。

8.根据权利要求1-6中的任一项所述的方法，其中，像素的标签包括针对多个可能的关键点中的每一个可能的关键点指示所述像素对应于所述关键点的相应可能性的数据。

9.根据权利要求4至8中的任一项所述的方法，其中，通过多个操作来训练所述着色机器学习模型，所述多个操作包括：

获得多个训练示例，其中，每个训练示例包括：(i)一个或多个训练参考视频帧，(ii)训练目标视频帧，以及(iii)所述训练参考视频帧和所述训练目标视频帧中的每个像素的实际颜色；

使用所述着色机器学习模型对所述训练参考视频帧和所述训练目标视频帧进行处理，以生成(i)所述训练目标视频帧中的每个像素和(ii)所述训练参考视频帧中的每个像素之间的相应相似性度量；

通过组合(i)所述训练参考视频帧中的每个像素的实际颜色和(ii)所述相似性度量来确定在所述训练目标视频帧中的每个像素的估计颜色；以及

基于(i)所述训练目标视频帧中的每个像素的所述实际颜色与(ii)所述训练目标视频帧中的每个像素的所述估计颜色之间的差异来调整所述嵌入神经网络参数的所述当前值。

10.根据权利要求9所述的方法，其中，调整所述嵌入神经网络参数的所述当前值包括：

确定损失函数的梯度，其中，所述损失函数取决于(i)所述训练目标视频帧中的每个像素的所述实际颜色与(ii)所述训练目标视频帧中的每个像素的所述估计颜色之间的差；以及

使用所述梯度调整所述嵌入神经网络参数的所述当前值。

11.根据权利要求1至10中的任一项所述的方法，其中，一个或多个所述参考视频帧中的所述参考像素的所述参考标签是先前使用所述着色机器学习模型确定的。

12.根据权利要求1至11中的任一项所述的方法，进一步包括：使用所述目标标签来跟踪所述参考视频帧中的对象到所述目标视频帧的位置。

13.一种***，包括：

数据处理装置；以及

存储器，所述存储器与所述数据处理装置进行数据通信，并且存储使所述数据处理装置执行权利要求1至12中的任一项所述的相应方法的操作的指令。

14.一个或多个非暂时性计算机存储介质，所述非暂时性计算机存储介质存储指令，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求1至12中的任一项所述的相应方法的操作。