CN111563601A

CN111563601A - 使用联合语义向量进行表示学习

Info

Publication number: CN111563601A
Application number: CN201911176726.XA
Authority: CN
Inventors: 刘星昱; 金海琳; 李俊荣
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2019-02-13
Filing date: 2019-11-26
Publication date: 2020-08-21
Also published as: GB2581422B; DE102019008142A1; GB201918277D0; US11062460B2; US20200258241A1; AU2019280047B9; US11836932B2; US20210319566A1; AU2019280047A1; AU2019280047B2; GB2581422A

Abstract

本公开的实施例涉及使用联合语义向量进行表示学习。本文公开了用于学习视频中的运动的技术。在一个实现中，人工神经网络从视频中提取特征。对应关系提议(CP)模块针对特征中的至少一些特征，基于给定特征与其他特征的语义相似度来执行针对视频中的对应特征的搜索。然后，CP模块至少基于给定特征与一个或多个对应特征的语义相似度以及给定特征与一个或多个对应特征的时空距离，针对每个特征生成联合语义向量。人工神经网络能够使用针对从视频中提取的特征生成的联合语义向量来标识视频中的运动。

Description

使用联合语义向量进行表示学习

技术领域

本公开的各方面涉及机器学习和人工智能领域，并且具体地涉及人工神经网络中的表示学习。

背景技术

机器学习已发展到这样的程度，其中人工神经网络以与人类相同甚至超越人类的置信度来常规地执行学习(或识别)任务。例如，机器学习现在能够进行高度准确的图像分类、对象检测、语义分割和图像解析。然而，学习视频中的运动仍然是困难的领域。

视频可以被认为是随时间变化的图像序列。为了成功地对视频中的运动表示进行建模，机器学习模型既识别视频的静态图像中的特征，又识别多个帧中特征的对应关系。先前的解决方案涉及从构成视频的图像中提取特征(诸如，对象、边缘等)的第一步骤。在第二步骤中，标识特征之间的对应关系。例如，可以确定一帧中的对象对应于其他帧中的一个或多个对象。这种关系可以以几种方式来表示，诸如，对象之间的时间距离或对象之间的特征空间中的距离。然后，将提取的数据(特征及其对应关系)馈送到能够识别数据中运动(或其他模式)的人工神经网络中。

为了识别数据中的模式，在训练阶段期间利用已知结果的数据来配置人工神经网络。在高度简化的示例中，人工神经网络由神经元层组成。这些层以各种方式彼此连接，并且神经元响应各种输入而激发。第一层的输入是正在分析的数据，诸如，描述视频的数据量。最后一层的输出表示神经网络已学习或识别的内容。在它们之间是执行附加处理的中间或“隐藏”层。

每个神经元具有基于其输入来告知神经元激发(或不激发)的规则。对输入进行加权，并且可以基于反馈过程更改权重。在视频数据的情况下，人工神经网络第一层的输入是填充有视频数据属性的数字或符号描述的向量。隐藏层的输入是第一层中神经元的输出。在隐藏层内，来自一个层的输出是到后面一层的输入。人工神经网络的最后一层将最后隐藏层的输出作为输入，并且其自身输出的值将标识在信号传递通过神经元各层时所学习到的内容。

在神经网络的训练阶段期间，基于神经网络产生的结果与神经网络输入的正确分类之间的差异来改变与神经元相关联的权重。随着时间的流逝，在经过多个反馈周期后，权重被配置为使得神经网络可以准确识别新数据。权重和神经元的最终配置被认为是所检查主题内容的模型，诸如，面部识别模型、语音识别模型或者在视频运动的情况下是运动表示模型。

识别视频中的运动的各种方法以不同的方式对特征之间的对应关系进行建模。例如，一种方法通过它们之间的时间关系来描述跨帧的特征的对应关系，而另一方法对跨图像的像素流进行建模，而又一方法对特征对之间的特征空间中的距离进行建模。不幸的是，由于视频中特征(例如，对象)的挑战性行为，当以快速运动或低帧速率呈现时，这些方法难以解决。例如，特征可能不会出现在每个帧中，并且即使它们确实出现，也可能会在相距很远的帧中找到。在另一示例中，特征可能会在帧之间变形或改变其姿势，从而进一步抑制了模型的性能。

在第一方法中，卷积神经网络用于提取视频中的特征，每个特征都可以由语义向量描述。卷积神经网络的工作原理是将隐藏层中的神经元集中在有限的接受字段上。在完全连接的神经网络中，一个层中的每个神经元都连接到另一层中的每个神经元，而在卷积神经网络中，每个神经元仅连接到其他层中数目有限的神经元。这允许无论特征位于图像中的何处，卷积神经网络都可以标识特定特征，并且因此非常适合特征提取。

返回第一方法，卷积神经网络标识出现在视频每一帧中的对象、边缘或其他这样的元素。它们对应的语义向量描述了特征的数字或符号特性。然后使用递归神经网络来检测特征之间的时间关系。然而，由于***的梯度问题和消失的梯度问题，递归神经网络在基准上的表现很差，并且难以训练。

第二方法还采用卷积神经网络来识别视频中的特征，并与光流分支耦合来对跨帧的对应关系进行建模。然后，将卷积神经网络和光流分析的结果发送到深度神经网络。因为光流分支捕获像素级流，而不是特征级对应关系，所以该技术在基准数据上效果不佳。

最后，已利用仅RGB输入，采用三维卷积神经网络来联合地和隐式地以静态外观学习动态变化。该方法能够识别视频中特征的短距离运动。然而，卷积功能在本地操作，并且因此无法学习快速移动的对象或低帧速率发生的远距离运动。

已提出了用于克服该问题的非局部神经网络，其中，通过其成对特征距离对所识别的特征进行全局重新加权。与三维卷积神经网络耦合，非局部神经网络可以学习远距离运动，但不是很有效。相反，重新加权的特征产生过多的噪声，从而导致容易出错的运动分类。

因此，可以理解，尽管机器学习技术相对于许多类型的识别任务已取得了令人印象深刻的结果，但是识别视频中的运动仍然是艰巨的挑战。更普遍地，在许多类型的数据集(类似于视频)中识别行为仍然是一个挑战。例如，一些动态数据集可以被可视化为一系列变化的图像。识别这样的数据集中的动态行为可能与识别视频中的运动一样有问题且困难。

发明内容

本文公开了对对应关系提议的增强，其更一般地改进了视频中的运动的学习和动态数据中的行为的学习。在一个实现中，对应关系提议模块(CP模块)关注视频中语义上相似的特征对，并考虑视频中特征对的位置信息。CP模块产生联合语义向量，联合语义向量具有针对在其中隐式编码的特征对的语义和位置信息。联合语义向量被馈送到人工神经网络，人工神经网络然后可以使用联合语义向量作为输入来识别视频中的运动。对语义上相似的特征对的关注以及位置信息的添加表示相对于先前解决方案的进步，并且相对于针对流行基准的其他方法的性能，使视频中的运动学学习到到了改进。

在一个实现中，人工神经网络从视频中提取特征。CP模块基于给定特征与其他特征的语义相似度来执行对视频中的对应特征的搜索。然后，CP模块至少基于给定特征与一个或多个对应特征的语义相似度以及给定特征与一个或多个对应特征的时空距离，针对每个特征生成联合语义向量。人工神经网络使用由CP模块生成的联合语义向量来标识视频中的运动。

提供本发明内容以简化形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。可以理解，本概述并不旨在标识所要求保护的主题内容的关键特征或必要特征，也不旨在用于限制所要求保护的主题内容的范围。

附图说明

参考以下附图可以更好地理解本公开的许多方面。附图中的组件不必按比例绘制，而是将重点放在清楚地说明本公开的原理上。此外，在附图中，贯穿若干视图，相同的附图标记指代对应的部分。尽管结合这些附图描述了若干实施例，但是本公开不限于本文公开的实施例。相反，其意图是涵盖所有备选、修改和等同形式。

图1图示了一个实现中的学习架构。

图2图示了一个实现中的学习过程。

图3图示了一个实现中的对应关系提议模块。

图4图示了一个实现中的另一学习过程。

图5图示了一个实现中的操作场景。

图6图示了一个实现中的学习架构。

图7图示了一个实现中的另一学习架构。

图8图示了适用于实现以下关于附图所讨论的各种操作环境、模块、架构、过程、场景和序列的计算***。

具体实施方式

本文公开了对应关系提议(CP)模块，对应关系提议(CP)模块可以***到人工神经网络中来增强神经网络用于对视频中的运动、动作或其他这样的动态行为进行分类的数据、图像数据等。CP模块通过产生联合语义向量来增强视频中的运动学习，联合语义向量同时具有关于其中编码有所提取特征的语义和时空信息。另外，CP模块基于对应特征与给定特征的语义相似度，选择在产生联合语义向量时要考虑的该对应特征。人工神经网络将联合语义向量作为输入，并输出视频中表示的一个或多个已学习的运动。

将时空信息包括在联合语义向量中表示相对于学习视频中的运动的问题的先前方法方面的进步。在标识对应特征时考虑语义相似度表示另一进步。两个策略的组合允许人工神经网络比以前的解决方案更准确地识别视频中的远距离运动。这是因为时空信息允许人工神经网络考虑对应关系对的每个特征在其相应的帧中的位置。另外，基于与给定特征的语义相似度来选择对应特征(其与给定特征形成对应关系对)，使得其他帧中可能与给定特征相同的可能特征的字段变窄。联合语义向量中隐式编码的语义(外观)和时空(运动)信息表示丰富的数据集，当在操作的训练阶段和学习阶段期间将数据集馈送到人工神经网络中时，提高了神经网络识别视频中的运动的能力。

在一个实现中，主人工神经网络从视频中提取特征，并为每个特征提供语义和位置信息。特征的示例包括对象、边缘、像素或可以从视频中提取的其他这样的元素。语义信息以数字或符号方式描述了给定特征的一个或多个属性，诸如例如，其颜色分量、长度、面积、圆度、梯度大小、梯度方向、纹理或灰度强度。位置信息通过特征在帧中的空间位置及其在视频中的时间位置来描述特征。因此，位置信息描述了给定特征的时空位置。

CP模块执行两个主功能：特征分组(grouping)和运动嵌入。即，CP模块为从视频中提取的每个特征找到对应特征集合并将其分组，然后针对每个特征生成联合语义向量，联合语义向量具有在其中编码的特征的外观和运动。CP模块基于给定特征与其他特征的语义相似度来搜索对应特征。在一些情况下，搜索是对前k个最相似特征的最近邻搜索。

对应特征各自通过其语义信息和时空信息来描述。语义信息可以以语义向量表示，语义向量包括描述特征的特性的数字或符号。

时空信息可以是根据可以在其中找到特征的视频中的高度(H)、宽度(W)和帧(T)来描述的视频中特征的位置。在一些情况下，语义和时空信息可以在视频表示张量中进行组合，视频表示张量由CP模块视为具有T×H×W个点的特征的点云。

CP模块使用针对对应特征的语义信息和时空信息来为每个给定特征生成联合语义向量。因此，所得到的联合语义向量具有在其中编码的其对应特征的外观和运动。

为了生成联合语义向量，CP模块标识给定特征与通过相似度搜索找到的其对应特征的配对。CP模块为每个配对生成级联向量，级联向量由对中每个特征的语义向量以及两者之间的时空位移组成。换言之，每个级联向量包括两个语义向量和时空位移信息。在备选方案中，每个级联向量可以包括两个语义向量之间的距离而不是两个语义向量本身。因此，CP模块产生对应于特征对的级联向量集合。

可以将级联向量馈送到与从视频中提取了特征的主神经网络不同的一个或多个内部神经网络。主神经网络从视频中提取了特征，而内部神经网络被训练以逼近集合函数。在一些情况下，内部神经网络是多层感知器(MLP)神经网络。内部神经网络将级联向量作为输入、对向量执行集合函数并输出潜在的联合语义向量。

输出的每个潜在的联合语义向量对应于被提供作为输入的级联向量之一，并且包括从级联向量学习到的运动的数字或符号语义表示。因此，产生了与作为输入被提供给内部神经网络的多个级联向量相对应的多个潜在的联合语义向量。

然后，通过池化操作来将潜在的联合语义向量聚合，池化操作的示例包括最大池化、平均池化等。池化操作的输出是表示视频中特征的运动的联合语义向量。CP模块以这种方式为视频中的每个特征产生联合语义向量。

CP模块的最终输出因此是与由主人工神经网络从视频提取的特征相对应的联合语义向量集合。联合语义向量作为输入被馈送到主人工神经网络。已经对这样的数据进行训练的人工神经网络可以响应于联合语义向量，根据由神经网络中的神经元产生的信号，对视频中的运动进行识别和分类。例如，人工神经网络可以从由CP模块生成的联合语义向量中识别篮球的运球、罐子的滚动或人的姿势。

图1图示了一个实现中的学习架构100。学习架构100包括人工神经网络101(在本文中称为神经网络101)。神经网络101包括由层103和层105表示的各个层。神经网络101还包括***在层103和层105之间的对应关系提议(CP)模块104。学习架构100可以以硬件、软件或固件来实现，并且在一个或多个物理或虚拟计算***上，图8中的计算***801是其代表。

神经网络101代表能够学习视频数据中的运动的任何类型的人工神经网络。神经网络101的示例包括但不限于卷积神经网络(CNN)、3D CNN和任何其他类型的深度学习人工神经网络。

神经网络101将视频数据107作为输入，并提供从视频数据107学习到的运动的指示109作为输出。例如，视频数据107可以包括在场景中移动的对象、人的姿势等的表示，神经网络101能够识别和分类(即，学习)这些表示。视频数据107可以包括视频中像素的红-绿-蓝(RGB)值或诸如色相饱和度值(HSV)和色相饱和度明度(HSL)值的RGB值的备选表示。在一些情况下，视频数据107主要包括RGB值。例如，视频数据107的至少一半可以是RGB值。在一些情况下，视频数据107仅包括RGB值。还可以理解，神经网络101也可能能够将任何类型的动态数据作为输入并识别数据中表示的各种动态行为。

神经网络101的层103代表能够将视频数据作为输入并从视频中提取特征的一个或多个神经元层。神经网络101的层105代表能够将联合语义向量作为输入、从联合语义向量中提取(或学习)运动并输出所学习到的运动的指示的一个或多个神经元层。

CP模块104将由层103提取的特征作为输入，并生成待输出到层105的联合语义向量。在一些实现中，将由层103提取的特征以视频表示张量呈现给CP模块104。在这样的实例中，CP模块104将所得的联合语义向量添加回视频表示张量，并将经修改的视频表示张量馈送到层105。在一些场景中，联合语义向量替换与和联合语义向量相对应的特征相关联的原始语义向量。

视频数据107代表层103可以从中提取特征的一个或多个视频段。视频数据107包括具有可以由层103发现的特征的帧108。可以根据在视频中找到给定特征的高度(H)、宽度(W)和帧(T)来限定视频中每个特征的位置。

指示109代表学习架构100的最终结果，诸如，对视频数据107中对象或实体的运动的描述。即，神经网络101可能能够描述特定特征是什么以及视频中运动的性质。指示109可以是报告、消息、数据库条目、过程间消息、过程内消息、显示的信息、记录的数据或任何其他类型的指示的形式。

CP模块104代表能够从如本文所述的视频中提取的特征中产生联合语义向量的任何(多个)硬件和/或软件元素。CP模块104采用学习过程200来提取神经网络101的其他部分可以从中学习运动的联合语义向量。学习过程200可以在任何硬件、软件应用、模块、组件或可以包括CP模块104的其他此类编程元素的上下文中的程序指令中实现。程序指令指示(多个)底层的物理或虚拟计算***按照对学习过程200(顺带参考图2中的步骤)所描述的进行操作。

在操作中，CP模块104从层103接收视频表示张量(步骤201)。CP模块104的输入和输出均是形状为THW×C的视频表示张量，其中T表示帧数、H×W表示空间维度、并且C表示通道数。

CP模块104将视频表示张量视为点云，点云的数据点对应于由层103从视频数据107提取的特征。根据从视频中提取的特征之一的时空位置来限定张量中的每个点。在该示例中，特征的时空位置由其视频中的THW坐标表示。另外，为每个点提供表示特征的可描述维度的语义向量。许多维度是可能的并且取决于层103的配置。在一些情况下，语义向量可以包括主要从输入到人工神经网络101的红绿蓝(RGB)值中导出的信息。

CP模块104针对张量中表示的每个特征，执行张量中其他特征的基于向量的相似度搜索(步骤203)。相似度搜索考虑了视频中其他特征的语义向量，但可以将与给定特征相同帧中的那些特征排除。

针对每个特征的相似度搜索的结果是可以与给定特征相关联的对应特征组。在给定特征及其对应特征之间可以形成各种特征对。作为示例，相似度搜索可以标识具有与给定特征的语义向量最相似的语义向量的前k个特征。因此，可以在给定特征与每个对应特征之间形成k个特征对。

CP模块104针对在给定特征及其对应特征之间形成的每个特征对生成级联向量(步骤205)。级联向量包括给定特征的语义向量、对应(或成对)特征的语义向量以及两者之间的时空位移。在一些实现中，级联向量可以包括两个语义向量之间的距离(或差异)，而不是向量本身。

将级联向量馈送到一个或多个内部神经网络中，内部神经网络被训练来逼近集合函数。与由神经网络101表示的主人工神经网络不同的内部神经网络将级联向量作为输入并产生潜在的联合语义向量(步骤207)。在一些情况下，CP模块104产生的级联向量的数目与存在的内部神经网络的数目之间存在一对一的对应关系。以这种方式，可以将级联向量并行地馈送到内部神经网络中。

内部神经网络的输出通过池化操作(例如，最大池化操作)聚合，池化操作的输出成为给定特征的联合语义向量(步骤209)。CP模块104将联合语义向量添加到原始视频表示张量或新的视频表示张量(步骤211)。CP模块104然后将视频表示张量(其中包括联合语义向量)馈送到神经网络101的层105(步骤213)。神经网络101的一个或多个层(包括层105)继续对联合语义向量及其产生的信号进行处理，以达到在视频数据107中识别的运动的指示109。

图3图示了一个实现中的CP模块300及其操作的更详细视图。CP模块300包括分组层301和嵌入层303。分组层301代表CP模块300的能够标识针对从视频提取的每个特征的对应特征集合的任何一个或多个硬件、软件或固件元件。嵌入层303代表CP模块300的能够产生级联向量并且从级联向量中导出联合语义向量的任何一个或多个硬件、软件或固件元件。

分组层301将视频表示张量311作为输入，并针对每个特征选择其在张量中的k个最可能的对应特征。视频表示张量311被分组层301视为三维点云，在三维点云中，其点(根据它们在点云中的THW坐标限定)表示通过神经网络从视频中提取的特征。分组层301对每个特征执行语义相似度搜索，这导致与给定特征相关联的特征组。搜索可以仅基于语义相似度，以确保可以跨任意长的时空范围标识对应关系。可以排除同一帧内的特征，以确保帧之间的时间一致性。例如，对应关系集313在其中心处包括一个特征/点，并在其周围包括8个不同的特征/点。该其他8个点中的每个点表示视频的不同帧中相对于集合中心处的特征/点、具有相同或相似语义向量的特征。

每个特征/点都位于与对应关系集313的中心特征/点相距一定距离的位置，可以通过从中心特征的THW坐标中减去它们的THW坐标来计算该距离。然后，位移是表示从中心特征到组中每个特征的距离和方向的向量。

嵌入层303将所标识的对应关系组作为输入，并针对每个特征产生联合语义向量315作为输出。在其间，嵌入层303从与对应关系组中的特征相关联的语义向量生成级联向量。另外，嵌入层303从级联向量生成潜在的联合语义向量，并且从潜在的联合语义向量生成联合语义向量315(“g”)。所得到的特征的联合语义向量可以混合回原始或不同的视频表示张量中，并馈送到一个或多个神经网络。

图4图示了一个实现中的学习过程400，学习过程400是CP模块300的元素可以采用的另一学习过程的示例。学习过程400也可以在硬件、软件应用、模块、组件或部署在CP模块300的各个元素中的其他此类编程元素的任何的上下文中的程序指令中实现。程序指令指示(多个)底层的物理或虚拟计算***按学习过程400(顺带参考图4中的步骤)所描述的进行操作。

在操作中，分组层301从人工神经网络接收视频表示张量311(步骤401)。对于张量中的每个特征(或点)，分组层301执行k最近邻搜索来标识具有与给定特征的语义向量最相似的语义向量的前k个元素(步骤403)。

在一些实现中，步骤403包括计算形状为THW×THW的张量的特征空间成对的负L₂距离矩阵(步骤403A)，这可以通过矩阵多重运算来有效地完成。负L₂距离可以被用作在给定特征对与张量中的其他特征之间进行比较的度量。

接下来，分组模块301将形状为HW×HW的T对角线块矩阵中的特征值设置为负∞(步骤403B)。该步骤用于排除与给定特征在同一帧内的特征通过相似度搜索被选择为潜在的对应特征排除。最后，分组模块301沿矩阵的行维度应用幅角(arg)前k(top-k)运算(步骤403C)，该运算输出形状为THW×k的张量，其中第i行是第i特征的k个最近邻者的索引。

在找到特征的最近邻者之后，嵌入层303针对给定特征与其对应特征的相应特征的每个配对产生级联向量(步骤405)。配对各自由产生配对的给定特征以及与特征最相似的前k个特征中的不同特征组成。每个级联向量包括对应的对中两个特征的两个语义向量，以及一个特征相对于另一个特征的时空位移。可以通过将对应的坐标值(例如，t-t、h-h和w-w)彼此相减来计算位移。

接下来，嵌入层303将级联向量馈送到一个或多个内部神经网络中(步骤407)。在一些实现中，内部神经网络可以是具有共享权重并经过训练以逼近集合函数的多层感知器。内部神经网络根据内部神经网络中级联向量产生的信号，输出潜在的联合语义向量。

在将级联向量馈送到内部神经网络中之后，嵌入层303对内部神经网络的聚合输出执行最大池化操作(步骤409)。对潜在的联合语义向量执行最大池化操作，以选择最能提供有关给定特征的对应关系的信号。由于通过将语义向量和位移混合在馈送到内部神经网络的级联向量中而发生的纠缠表示，所得到的联合语义向量在其中具有隐式编码的外观和运动。

嵌入层303将所得到的特征的联合语义向量添加回到视频表示张量中(步骤411)，并将经修改的视频表示张量馈送到主神经网络中(步骤413)。主神经网络将经修改的视频表示张量作为输入，这在主神经网络的各个剩余层中产生信号。信号最终产生来自主神经网络的输出，输出对从中提取特征的视频段中找到的运动进行分类。

图5图示了增强运动学习的另一实现中的操作场景500。操作场景500图示了与针对从视频提取的单个特征生成联合语义向量有关的过程。对于从视频中提取的许多或所有特征，将重复操作场景500，以产生许多联合语义向量，将其作为输入提供给卷积神经网络。然后，卷积神经网络将能够标识视频中发生的运动。

在操作中，分组层基于从视频中提取的其他特征的k最近邻(k-NN)搜索来标识特征的对应关系组501。对应关系组501以i⁰表示的特征503为中心，特征503具有坐标[tⁱ⁰,hⁱ⁰,wⁱ⁰]和语义向量fⁱ⁰。

对应关系组501在THW空间中包括五个其他特征，发现它们是最类似于特征503的前k个特征，由它们相应的坐标和语义向量表示如下：1)特征i¹，具有坐标[tⁱ¹,hⁱ¹,wⁱ¹]，以及语义向量fⁱ¹；2)特征i²，具有坐标[tⁱ²,hⁱ²,wⁱ²]和语义向量fⁱ²；3)特征i³，具有坐标[tⁱ³,hⁱ³,wⁱ³]和语义向量fⁱ³；4)特征i⁴，具有坐标[tⁱ⁴,hⁱ⁴,wⁱ⁴]和语义向量f⁴；以及5)特征i⁵，具有坐标[tⁱ⁵,hⁱ⁵,wⁱ⁵]和语义向量f⁵。

嵌入层将对应关系组501作为输入，并产生与特征503和其对应特征中的每个特征的配对相对应的级联向量511-515。级联向量各自包括两个语义向量和时空位移信息。例如，级联向量511包括语义向量fⁱ⁰和fⁱ¹以及由[tⁱ⁰,hⁱ⁰,wⁱ⁰]-[tⁱ¹,hⁱ¹,wⁱ¹]产生的位移；级联向量512包括语义向量fⁱ⁰和fⁱ²以及由[tⁱ⁰,hⁱ⁰,wⁱ⁰]-[tⁱ²,hⁱ²,wⁱ²]产生的位移；依次类推，直到级联向量515，其包括语义向量fⁱ⁰和fⁱ⁵以及由[tⁱ⁰,hⁱ⁰,wⁱ⁰]-[tⁱ⁵,hⁱ⁵,wⁱ⁵]产生的位移。

嵌入层将级联向量511-515馈送到由MLP 521-525表示的MLP型神经网络。例如，级联向量511被馈送到MLP 521；级联向量512被馈送到MLP 522；以及级联向量515被馈送到MLP 525。训练MLP521-525以逼近集合函数。因此，它们各自将集合函数应用于它们相应的级联向量，以输出潜在的联合语义向量。

嵌入层在最大池化操作530中聚合潜在的联合语义向量。最大池化操作530用于从由MLP 521-525产生的潜在的联合语义向量中提取最重要的信号。最大池化操作的结果是由gⁱ⁰表示的联合语义向量531。

图6图示了一个实现中的学习架构600。学习架构600包括卷积神经网络601、CP模块602和卷积神经网络607。卷积神经网络601和卷积神经网络607可以代表分离的神经网络或同一神经网络的不同层。CP模块602包括分组层603和嵌入层605。学习架构600可以以硬件、软件或固件并在由图8中的计算***801代表的一个或多个物理或虚拟计算***上实现。

在操作中，卷积神经网络601从视频中提取特征，并以视频表示张量(VRT)向CP模块602提供每个特征的语义和时空信息。特征的示例包括对象、边缘、像素或可以从视频中提取的其他此类元素。语义信息以数字或符号方式描述了给定特征的一个或多个属性，诸如例如，其颜色分量、长度、面积、圆度、梯度大小、梯度方向、纹理或灰度强度。时空信息通过特征在帧中的空间位置及其在视频中的时间位置来描述特征。

CP模块602中的分组层603针对从视频提取的每个特征搜索对应特征集合。将k个特征传递到嵌入层605。

嵌入层605针对由给定特征及其对应特征形成的特征对生成级联向量。级联向量包括VRT中所包括的配对中的两个特征的语义信息以及时空信息(或它们之间的差异/位移)。

嵌入层605然后将级联向量馈送到经训练以逼近集合函数的MLP神经网络中。MLP神经网络的输出通过最大池化函数进行聚合，这产生由“g”表示的联合语义向量。可以将联合语义向量添加到原始视频表示张量，从而得到经修改的视频表示张量(VRT’)。然后可以将VRT’馈送到卷积神经网络607中。卷积神经网络607响应由VRT’产生的信号，以输出视频中由其神经元层识别的运动指示。

图7图示了一个实现中的另一学习架构700。学习架构700包括由CNN 701、CNN 705和CNN 709表示的多个卷积神经网络(或同一卷积神经网络的不同层)。CP模块703被***在CNN 701和CNN 705之间。CP模块707被***在CNN 705和CNN 709之间。最后，CP模块711被***到CNN 709之后。

在操作中，CNN 701从视频中提取特征，并在视频表示张量VRT(f)中向CP模块703提供每个特征的语义和时空信息。如上所述，特征的示例包括可以从视频中提取的对象、边缘、像素或其他此类元素。语义信息以数字或符号方式描述了给定特征的一个或多个属性，例如诸如，其颜色分量、长度、面积、圆度、梯度大小、梯度方向、纹理或灰度强度。时空信息通过特征在帧中的空间位置及其在视频中的时间位置来描述特征。

CP模块703如以上关于CP模块602所描述的那样操作。即，CP模块703针对VRT(f)中的每个特征标识对应特征的k-NN集合。CP模块703然后从对应关系对中产生级联向量、将级联向量馈送到MLP中并且在最大池化函数中聚合由MLP输出的潜在向量。最大池化函数的输出是由“g”表示的联合语义向量。将针对VRT(f)中的特征产生的所得到的联合语义向量添加回其VRT——替换与这些特征相关联的原始语义向量——从而产生VRT(g)。

CNN 705将VRT(g)作为输入，并从中提取具有与CNN 701不同关注点的特征。结果是VRT(f’)，其由CNN 705提供给CP模块707。换言之，由于CNN 705的关注点相对于CNN 701有所不同，并且因为它们的输入不同，所以VRT(f’)中表示的特征中的至少一些不同于VRT(f)中表示的特征。

CP模块707如以上关于CP模块602所描述的那样操作。即，CP模块707针对VRT(f’)中的每个特征标识对应特征的k-NN集合。CP模块707然后从对应关系对中产生级联向量、将级联向量馈送到MLP中并在最大池化函数中聚合由MLP输出的潜在向量。最大池化函数的输出是以“g’”表示的联合语义向量。将针对VRT(f’)中的特征产生的所得到的联合语义向量添加返回VRT(f’)，从而得到VRT(g’)。

CNN 709将VRT(g’)作为输入，并从中提取具有与CNN 705不同关注点的特征。结果是VRT(f”)，CNN 709将VRT(f”)提供给CP模块711。由于CNN 709的关注点相对于CNN 705不同，并且因为它们的输入不同，所以VRT(f”)中表示的特征中的至少一些特征与VRT(f’)中表示的特征不同。

CP模块711如以上关于CP模块602所描述的那样操作。即，CP模块711针对VRT(f”)中的每个特征标识对应特征的k-NN集合。CP模块711然后从对应关系对中产生级联向量、将级联向量馈送到MLP中并在最大池化函数中聚合由MLP输出的潜在向量。最大池化函数的输出是由“g””表示的联合语义向量。将针对VRT(f”)中的特征产生的所得到的联合语义向量添加返回VRT(f”)，从而得到VRT(g”)。

该过程可以在CP模块711之后终止，其中将VRT(g”)发送到CNN的剩余层中。可选地，过程可以继续一个或多个迭代，直到将视频表示张量发送到剩余层。CNN的剩余层响应于由视频表示张量产生的信号，以输出各层在视频中识别的运动的指示。

在一些实现中，本文所公开的对应关系模块可以被***到CNN架构中并与卷积层交织。这样的架构允许对来自卷积层的静态图像特征和由对应关系模块提取的运动信号进行混合并联合学习。

在特定示例中，可以将对应关系模块***C2D ResNet架构中，其中模块刚好位于残差(residual)块之后。可以完全放弃时间维度，这在前向馈送期间保持时间大小T不变。然而，可以依靠对应关系模块来捕获时间信息。尽管本文的讨论关注于特征空间，但是可以在任何度量空间(诸如，仅时间空间、时空空间、特征空间或时空特征空间)上确定由对应关系模块找到的最近邻者。

可以使用预训练的ImageNet模型来将架构的C2D部分初始化。除了最后一批归一化层的gamma参数利用全零来进行初始化，可以利用MSRA初始化将对应关系模块中的MLP随机初始化。这样确保了在训练开始时标识映射，使得可以使用预训练的图像特征提取器。

从前述内容中可以理解，本文讨论的对应关系提议模块针对张量中的每个特征计算对应关系对，并将所提议的对馈送到共享神经网络中，随后进行最大池化，以学习新的特征张量。以这种方式，模块可以有效地捕获视频中的运动对应关系信息。所提议的对应关系模块可以与现有的基于帧或基于片段的架构集成。另外，所提议的对应关系模块已针对标准视频识别基准进行了测试，并获得了出色的性能。

图8图示了代表其中可以实现本文所公开的各种模块、过程、程序和场景的任何***或***集合的计算***801。计算***801的示例包括但不限于服务器计算机、云计算平台和数据中心设备以及任何其他类型的物理或虚拟服务器机器、容器及其任何变型或组合。其他示例包括台式计算机、膝上型计算机、平板计算机、物联网(IoT)设备、可穿戴设备及其任何其他它们的物理或虚拟组合或变型。

计算***801可以被实现为单个装置、***或设备或者可以以分布式方式被实现为多个装置、***或设备。计算***801包括但不限于处理***802、存储***803、软件805、通信接口***807和用户接口***809(可选)。处理***802与存储***803、通信接口***807和用户接口***809可操作地耦合。

处理***802从存储***803加载并执行软件805。软件805包括并实现学习过程806，学习过程806代表关于前面的附图讨论的学习过程。当由处理***802执行以提供增强的表示学习时，软件805指示处理***802针对至少在前述实现中讨论的各种过程、操作场景和序列如本文所述进行操作。计算***801可以可选地包括出于简洁目的未讨论的附加设备、特征或功能性。

仍然参考图8，处理***802可以包括微处理器以及从存储***803检索并执行软件805的其他电路装置。处理***802可以在单个处理设备内实现，但也可以分布在协作执行程序指令的多个处理设备或子***中。处理***802的示例包括通用中央处理单元、图形处理单元、专用处理器和逻辑设备以及任何其他类型的处理设备、其组合或变型。

存储***803可以包括可由处理***802读取并能够存储软件805的任何计算机可读存储介质。存储***803可以包括以用于存储信息(诸如，计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘、闪存、虚拟存储器和非虚拟存储器、盒式磁带、磁带、磁盘存储装置或其他磁性存储设备或任何其他合适的存储介质。在任何情况下，计算机可读存储介质都不是传播的信号。

除了计算机可读存储介质之外，在一些实现中，存储***803还可以包括在其上可以在内部或外部通信的软件805中的至少一些的计算机可读通信介质。存储***803可以被实现为单个存储设备，但是还可以被实现为跨多个存储设备或子***，该多个存储设备或子***位于同一位置或相对于彼此分布。存储***803可以包括能够与处理***802或可能的其他***通信的附加元件(诸如，控制器)。

软件805(包括学习过程806)可以在程序指令中实现，并且除了其他功能外，当由处理***802执行时，可以指示处理***802如关于本文所示的各种操作场景、序列和过程所描述的那样进行操作。例如，软件805可以包括用于实现学习过程以学习如本文所述的视频中的运动的程序指令。

特别地，程序指令可以包括协作或以其他方式交互以执行本文描述的各种过程和操作场景的各种组件或模块。各种组件或模块可以体现在编译或解译的指令中，或体现在指令的某些其他变型或组合中。各种组件或模块可以以同步或异步的方式、串行或并行地、在单线程环境或多线程中或者根据任何其他合适的执行范例、变型或其组合来执行。软件805可以包括附加的过程、程序或组件，诸如，操作***软件、虚拟化软件或其他应用软件。软件805还可以包括固件或可由处理***802执行的某种其他形式的机器可读处理指令。

通常，当将软件805加载到处理***802中并执行时，软件805可以将合适的装置、***或设备(由计算***801代表)总体上从通用计算***转换为被设计用于提供运动学习的专用***。实际上，存储***803上的编码软件805可以转换存储***803的物理结构。物理结构的特定转换可以取决于此描述的不同实现中的各种因素。这样的因素的示例可以包括但不限于：用于实现存储***803的存储介质的技术以及计算机存储介质是否被表征为主存储装置或辅助存储装置以及其他因素。

例如，如果计算机可读存储介质被实现为基于半导体的存储器，则当程序指令在其中进行编码时，软件805可以诸如通过变换构成半导体存储器的晶体管、电容器、或其他分立电路元件的状态来变换半导体存储器的物理状态。关于磁性或光学介质，可能发生类似的变换。在不脱离本说明书的范围的情况下，物理介质的其他变换是可能的，提供前述示例仅是为了便于本讨论。

通信接口***807可以包括允许通过通信网络(未示出)与其他计算***(未示出)进行通信的通信连接和设备。一起允许***间通信的连接和设备的示例可以包括网络接口卡、天线、功率放大器、RF电路装置、收发器和其他通信电路装置。连接和设备可以通过通信介质(诸如，金属、玻璃、空气或任何其他合适的通信介质)进行通信，以与其他计算***或***网络交换通信。前述介质、连接和设备是众所周知的，并且在此无需过多讨论。

计算***801和其他计算***(未示出)之间的通信可以通过一个或多个通信网络并且根据各种通信协议、协议的组合或其变型发生。示例包括内联网、互联网、互联网、局域网、广域网、无线网络、有线网络、虚拟网络、软件定义的网络、数据中心总线和底板、或任何其他类型的网络、网络的组合或其变型。前述通信网络和协议是众所周知的，在这里不需要过多讨论。

所包括的描述和附图描绘了特定的实施例，以教导本领域技术人员如何制作和使用最佳模式。为了教导发明原理，已经简化或省略了一些常规方面。本领域技术人员将理解来自落入本公开范围内的这些实施例的变型。本领域技术人员还将理解，可以以各种方式组合上述特征来形成多个实施例。结果，本发明不限于上述特定实施例，而是仅由权利要求书及其等同物限制。

Claims

1.一种人工神经网络中的机器学习方法，所述方法包括：

在人工神经网络中，从视频中提取特征以及与所述特征相关联的语义向量；

至少针对从所述视频中提取的所述特征中的一个特征：

至少基于与所述特征相关联的所述语义向量，针对所述视频中的对应特征执行相似度搜索；以及

至少基于与所述一个特征相关联的语义向量、与所述对应特征中的至少一个对应特征相关联的语义向量以及所述一个特征与所述对应特征中的所述至少一个对应特征的时空距离，生成联合语义向量；以及

在所述人工神经网络中，至少基于针对所述一个特征标识的所述联合语义向量，标识所述视频中的运动。

2.根据权利要求1所述的方法，其中针对所述视频中的所述对应特征执行所述相似度搜索包括基于所述语义向量来执行最近邻搜索。

3.根据权利要求2所述的方法，其中执行所述最近邻搜索包括：排除所述视频中与给定特征相同的帧中的那些特征。

4.根据权利要求3所述的方法，其中所述视频包括所述视频中的像素的红绿蓝(RGB)值。

5.根据权利要求4所述的方法，其中执行所述最近邻搜索包括：比较关联于所述一个特征的所述语义向量与所述语义向量中的其他语义向量，以标识所述特征中与所述一个特征最相似的前k个特征。

6.根据权利要求5所述的方法，其中标识至少针对所述一个特征的所述联合语义向量包括：

标识所述一个特征与所述对应特征中的每个对应特征的配对，其中所述配对中的每个配对包括所述一个特征以及相对于所述配对的每个其他配对中的对应特征不同的所述对应特征；

生成级联向量，其中所述级联向量中的每个级联向量对应于所述配对中的不同的一个配对，其中所述级联向量中的每个级联向量包括与所述一个特征相关联的所述语义向量、与对应配对中的所述对应特征相关联的语义向量以及所述一个特征与所述对应特征的所述时空距离；

基于所述级联向量生成潜在向量；以及

对所述潜在向量执行最大池化操作，以产生所述联合语义向量。

7.根据权利要求6所述的方法，其中所述人工神经网络包括卷积神经网络，并且其中基于所述级联向量来生成所述潜在向量包括将所述级联向量馈送到多层感知器(MLP)神经网络中。

8.一种在人工神经网络中增强机器学习的方法，所述方法包括：

在人工神经网络中生成特征张量，所述特征张量包括从图像数据中提取的特征以及所述特征在所述图像数据中的位置；

至少针对所述特征张量中的一个特征：

基于所述一个特征与所述特征张量中的其他特征的语义相似度，针对所述图像数据中的对应特征执行搜索；

至少基于所述一个特征与所述对应特征中的一个或多个对应特征的所述语义相似度以及所述一个特征与所述对应特征中的所述一个或多个对应特征的时空距离，生成联合语义向量；

将所述联合语义向量添加到所述特征张量；以及

将其中包括所述联合语义向量的所述特征张量馈送到所述人工神经网络中。

9.根据权利要求8所述的方法，其中针对所述图像数据中的所述对应特征执行所述搜索包括：基于所述一个特征与所述其他特征的所述语义相似度来执行最近邻搜索，以及排除所述图像数据中与给定特征相同的图像中的那些特征。

10.根据权利要求9所述的方法：

其中所述特征张量还包括与所述特征相关联的语义向量；并且

其中执行所述最近邻搜索包括执行将关联于所述一个特征的语义向量与关联于所述其他特征的所述语义向量进行的比较，以标识与所述一个特征最相似的前k个特征。

11.根据权利要求10所述的方法，其中针对所述特征中的每个特征生成所述联合语义向量包括：

基于所述级联向量来生成潜在向量；以及

12.根据权利要求11所述的方法，还包括：在所述人工神经网络中处理所述特征张量，以从所述图像数据中提取运动。

13.根据权利要求12所述的方法，

其中所述人工神经网络包括卷积神经网络；并且其中基于所述级联向量生成所述潜在向量包括将所述级联向量馈送到多层感知器(MLP)神经网络中。

14.根据权利要求13所述的方法，其中所述图像数据包括视频，并且其中所述特征包括所述视频中的对象。

15.一种计算装置，包括：

一个或多个计算机可读存储介质；以及

存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令在由处理***执行时指示所述计算装置至少：

生成视频表示张量，所述视频表示张量包括从视频中提取的特征以及所述特征在所述视频中的位置；

至少针对从所述视频中提取的所述特征中的一个特征：

基于所述一个特征与其他特征的语义相似度，针对所述视频中的对应特征执行搜索；

至少基于所述一个特征与所述对应特征中的一个或多个对应特征的所述语义相似度以及所述一个特征与所述对应特征中的所述一个或多个对应特征的时空距离，生成联合语义向量；以及

将所述联合语义向量添加到所述视频表示张量。

16.根据权利要求15所述的计算装置，其中针对所述视频中的所述对应特征的所述搜索包括最近邻搜索，并且其中所述最近邻搜索排除所述视频中与给定特征相同的帧中的那些特征。

17.根据权利要求16所述的计算装置，

其中所述视频表示张量还包括与所述特征相关联的语义向量；并且

其中所述最近邻搜索包括将关联于所述一个特征的语义向量与关联于所述其他特征的所述语义向量进行的比较，以标识与所述一个特征最相似的前k个特征。

18.根据权利要求17所述的计算装置，其中为了生成针对所述一个特征的所述联合语义向量，所述程序指令指示所述计算***：

生成输入，其中所述输入中的每个输入对应于所述配对中的不同的一个配对，其中所述输入中的每个输入包括与所述一个特征相关联的所述语义向量、与对应配对中的所述对应特征相关联的语义向量以及所述一个特征与所述对应特征的所述时空距离；

将所述输入馈送到多层感知器(MLP)神经网络，以产生输出；以及

对所述MLP神经网络的所述输出执行最大池化操作，以产生所述联合语义向量。

19.根据权利要求18所述的计算装置，其中：

所述视频包括所述视频中的像素的红绿蓝(RGB)值；并且

与所述给定特征最相似的所述前k个特征包括与所述给定特征最相似的前8个特征。

20.根据权利要求19所述的计算装置，其中所述人工神经网络包括卷积神经网络。