CN116074575A

CN116074575A - 用于真实世界视频问题回答的变换器

Info

Publication number: CN116074575A
Application number: CN202211312200.1A
Authority: CN
Inventors: 吴波; 淦创; 陈振方; 王大阔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-11-01
Filing date: 2022-10-25
Publication date: 2023-05-05
Also published as: US20230136515A1; JP2023067804A; US12051243B2

Abstract

处理器可以接收按顺序包括多个视频帧的视频和关于视频的问题。对于多个视频帧中的视频帧，处理器可将视频帧解析为对象及对象之间的关系，且创建表示对象的节点和表示关系的边的子图，其中对于多个视频帧中的每一视频帧执行解析及创建，其中可创建多个子图。处理器可通过学习子图的节点之间的关系来创建连接子图的超图，其中创建超边以表示多个子图中子图的至少节点与另一子图的至少节点之间的关系。处理器可基于超图来生成对问题的回答。

Description

用于真实世界视频问题回答的变换器

技术领域

本申请总体上涉及计算机和计算机应用，并且更具体地涉及机器学习、在线聊天、人机通信、机器人理解、以及自主视觉推理、机器的视觉问答。

背景技术

人类可以知道如何在各情景(situation)中快速行动并且潜意识地作出可行决定。这种能力可以是以逻辑为中心的，但不与周围情景隔离或离开，因为现实世界中的认知通常不与上下文(context)分离。这种情境化(situated)推理对于当前的现有技术方法不是容易的。机器从真实世界情景学习的能力和理由可帮助机器智能地执行自动化动作。

发明内容

给出本公开的发明内容以帮助理解视觉问答的计算机***和方法，而不是旨在限制本公开或本发明。应理解，本公开的各个方面和特征可有利地在一些情况下单独地使用，或在其他情况下与本公开的其他方面和特征组合使用。因此，可以对计算机***和/或其操作方法进行变化和修改以实现不同的效果。

在一方面，一种计算机实现的方法可以包括接收按顺序包括多个视频帧的视频。该方法还可以包括接收关于视频的问题。该方法还可包括：对于多个视频帧中的视频帧，将视频帧解析为至少对象和对象之间的关系；以及创建节点和边的子图，其中节点表示对象，并且边表示关系。可对多个视频帧中的每一视频帧执行解析和创建，其中可创建多个子图。该方法还可包括通过学习子图的节点之间的关系来创建连接子图中的至少一些子图的超图，其中创建超边以表示多个子图中的一个子图的至少一个节点与另一子图的至少一个节点之间的关系。该方法还可包括基于超图来生成对问题的回答。

在一方面，一种***可包括处理器和与该处理器耦合的存储器设备。该处理器可被配置为接收按顺序包括多个视频帧的视频。处理器还可以被配置为接收关于视频的问题。还处理器还可被配置为对于多个视频帧中的视频帧，将视频帧解析为至少对象和对象之间的关系，以及创建表示对象的节点和表示关系的边的子图。该处理器可被配置为对于多个视频帧中的每一视频帧执行解析和创建，其中可创建多个子图。该处理器还可被配置为通过学习子图的节点之间的关系来创建连接子图中的至少一些子图的超图，其中创建超边以表示多个子图中的一个子图的至少一个节点与另一子图的至少一个节点之间的关系。该处理器还可被配置为基于超图来生成对问题的回答。

还可提供存储可由机器执行以执行本文描述的一个或多个方法的指令程序的计算机可读存储介质。

下面参考附图详细描述各种实施例的其他特征以及结构和操作。在附图中，相同的附图标记表示相同或功能相似的元件。

附图说明

图1是示出实施例中的***架构的示图。

图2示出了实施例中的变换器的进一步细节。

图3示出了一个或多个示例超图，在实施例中，变换器可以建立或学习这些超图；

图4示出了实施例中的表示的超图令牌序列的示例结构。

图5是示出实施例中的情景抽象和图初始化的示图。

图6是示出实施例中的方法的流程图。

图7是示出在一个实施例中可使视频问题回答自动化的***的组件的图。

图8示出了可以实现根据一个实施例的***的示例计算机或处理***的示意图。

图9示出了在一个实施例中的云计算环境。

图10示出了本公开的一个实施例中的云计算环境提供的一组功能抽象层。

具体实施方式

在一个或多个实施例中，可以提供用于允许机器通过机器学习的方式相应地从周围场景或情景和原因捕捉当前知识的***、方法和技术。例如，机器可以例如使用相机或类似设备来捕捉例如可以表现为视频或类似视觉数据的视觉周围情景以及来自其的原因。在实施例中，诸如机器人的机器被训练成能够从给定的视觉环境(例如，给定的视频)中推理出例如回答关于给定的视觉环境或给定的视频的问题。例如，机器可以被训练成动态地理解情景，并根据它的理解在当前情景下进行推理。以此方式，例如，机器或机器人可自主地学习作用于情景和/或有效地理解现实世界中的人类动作。例如，机器或机器人可基于周围情景学习推理动作，诸如移动或抬升对象。简要地，情景描述实体、事件、时刻和环境。可以通过视频的方式提供情景，该视频可以包括多个连续的和/或重叠的动作和交互。

在一实施例中，可经由视频来提供位于现实世界的推理，其中***或机器从动态情景捕捉当前知识作为结构化表示并回答问题。***或机器学习动态真实世界情景下的原因以回答问题。在实施例中，经由视频提供的情景可以基于注释由层级图表示。在实施例中，可以在这样的图上迭代地执行情境化推理。例如，在实施例中，现实世界视频中的给定情景可以由连接所提取的原子实体和关系(例如，动作、人、对象和关系)的超图表示。在实施例中，情景下的关系可以包括：人-对象收缩关系(person-object contractingrelationship)和空间关系、对象-对象空间关系、和/或动作-动作时间关系。

在实施例中，可以提供基于变换的问答架构和/或***。这样的架构和/或***可以通过一组视频解析器(例如，对象检测器、关系检测器、人类姿态检测器、动作检测器)将输入视频中的人类、对象和/或人类-对象关系识别为一组基本实体；由情景令牌序列生成器和堆叠的情境化动作变换器深度网络对来自视频的作为上下文的抽象情景图执行自下而上的抽象和推理；通过组合问题和选项的语言编码器来将问题/选项一起表示为整个问答嵌入；以及通过问答头基于问答嵌入和池化情景嵌入来预测可能的回答。在实施例中，问题的类型可以包括交互、序列、预测和可行性。

在实施例中，视觉抽象和推理***、方法、模型和/或引擎也可以被称为或者可以包括情境化动作变换器、解开视觉感知、情景抽象，并且可以提供问答能力。在实施例中，情景图编码器将实体连接到结构化情景表示(情景图)。***和/或方法可以通过分层堆叠将所连接的图转换成令牌序列。在实施例中，堆叠的情景图变换器和/或图序列解码器学习通过模拟实体之间的隐式状态转变过程来预测输入情景图中的掩蔽(未看见)实体令牌(token)和动作令牌。超图生成器可以通过连接预测的动作(现有实体和预测的缺失实体)来构建输出动作超图。

在实施例中，用于现实世界视频问答的情境化动作变换器的架构可以包括多个变换器层，这些变换器层可以从视频情景识别基本实体和关系，对抽象情景图执行自下而上推理并且预测可能的回答。例如，***或基于变换的问答架构可以通过一组视频解析器(例如，对象检测器、关系检测器、人类姿态检测器、动作检测器)将输入视频中的人类、对象或人-对象关系识别为一组基本实体。***可以通过情景令牌序列生成器和堆叠的深度网络(也称为情境化动作变换器(SAT))对来自视频的作为上下文的抽象情景图执行自下而上的抽象和推理。在实施例中，***可以通过组合问题和选项的语言编码器来将问题和/或选项一起表示为整个问答嵌入。在实施例中，***可以基于问答嵌入和池化的情景嵌入通过问答头预测可能的回答。该***可应用于在线聊天、人机通信、和/或其他。

在实施例中，一个或多个处理器可以自动地或自主地执行视频问题回答，例如，给定视频场景(例如，其可以包括一个或多个视频帧)和问题，自动地或自主地回答问题。例如，机器人(bot)或机器人(robot)可以具有经训练以回答关于视频场景的问题的模型。在实施例中，该模型例如从用户接收包括视频帧和一个或多个问题的视频作为输入。这样的视频可以是来自真实世界的周围环境的场景或视像，例如来自与用户通信并且经由其相机或类似的视觉捕捉设备来捕捉周围视觉的机器人。根据视频内容(例如，来自现实世界的视频)，模型可回答一个或多个问题或输出对关于视频的一个或多个问题的回答。在实施例中，包括多层架构的变换器可以学习执行这种视频问答。例如，人和机器人可以通信地交互。例如，用户可以在与机器人通信时使用自然语言(例如，使用人类口头或书面语言)与机器人通信，以说句子、短语、词语和/或问问题。机器人可以经由其相机或类似设备看到场景或周围情景，看到场景或周围情景中的对象和动作(例如，正在执行的动作)。该模型帮助机器人能够理解动作的过程、视频中的周围环境的情景，例如，使得机器人可以与用户通信，例如，回答诸如但不限于正在做什么、将做什么、和/或已经完成的问题。该模型可以帮助机器人智能地评估周围情景并且回答问题和/或与用户通信。

图1是示出实施例中的***架构的示图。所示出的组件包括计算机实现的组件，例如，在一个或多个硬件处理器上实现和/或运行，或者与一个或多个硬件处理器耦合。例如，一个或多个硬件处理器可以包括诸如可编程逻辑设备、微控制器、存储器设备和/或其他硬件组件之类的组件，这些组件可以被配置为执行本公开中所描述的相应任务。耦合的存储器设备可以被配置为选择性地存储可由一个或多个硬件处理器执行的指令。

处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、另一合适的处理组件或设备、或其一个或多个组合。处理器可以与存储器设备耦合。存储器设备可包括随机存取存储器(RAM)、只读存储器(ROM)或另一存储器设备，并且可存储用于实现与本文描述的方法和/或***相关联的不同功能的数据和/或处理器指令。处理器可以执行存储在存储器中或者从另一个计算机设备或介质接收的计算机指令。

在实施例中，***可包括视频解析器104或可解析给定视频102a并提取对象和关系的类似组件或功能。例如，视频解析器104可以接收视频102a，该视频102a可以包括多个视频帧。视频102a可以包括视频帧或片段的时间序列。该***还可包括学习或构建超图的变换器106(也称为基于变换器的模型或情境化动作变换器)、连接对象的结构以及对象之间的交互。例如，模型106可以将视频102a中的视觉转换成超图。在实施例中，超图包括连接的子图，其中每个子图表示视频帧。在实施例中，可基于由视频解析器104标识或提取的对象、人和/或关系来构建与每个视频帧相关联的初始图或情景图。与视频帧相关联的图可称为子图。最初可分离子图，例如，子图之间没有连接。变换器106可进一步学习子图的节点之间以及子图之间的更固有的连接，从而产生超图。在实施例中，变换器106可以通过情景令牌序列生成器和堆叠的情境化动作变换器深度网络对来自视频的作为上下文的抽象情景图执行自下而上的抽象和推理。可包括节点实例、子图边和超图边的情景图可被认为是对视频的视觉内容的抽象。一个情景图可包含多个子图，其中子图对应于视频帧。例如，每一子图对应于视频中的视频帧。在实施例中，功能(例如，其可以被称为情景令牌序列生成器)可以通过连接的节点和边来构建初始情景图，但是其还没有超边。堆叠的情景动作变换器深度网络可以是动作转变模型、具有变换器架构的深度神经网络模型。

该***还可包括池化组件108，该池化组件108可以是神经网络，其将超图编码成向量，例如固定长度的视觉嵌入向量。例如，池化组件108可以是将超图结构变换成视觉嵌入向量的神经网络层。在实施例中，该池化层可计算输入的均值以将一个或多个输入超图转换成统一表示的嵌入向量。

该***还可以包括语言编码器110，其将接收到的问题或言语102b编码成向量或嵌入向量，例如语言嵌入向量。举例而言，问题或言语102b可以是：“Which object is theperson able to take after putting down the bottle？”在实施例中，例如，可选地，候选答案或选项还可以作为输入的一部分提供给例如语言编码器110，诸如“Table”、“Bottle”、“Book”、“Chair”。在实施例中，语言编码器110可以通过组合问题和选项的语言编码器来将问题和选项(例如，如果提供候选选项)一起表示为整个问答嵌入。

该***还可以包括问答组件112(例如，被称为问答头)，问答组件112从池化组件108(例如，神经网络)取得视觉表示(例如，视觉嵌入向量)，并从语言编码器110取得语言表示(例如，语言嵌入向量)，并基于这些表示输出回答114。例如，问答组件112可以基于问答嵌入和池化的情景嵌入来预测一个或多个可能的回答。

在实施例中，图1中所示的架构包括神经符号框架。在实施例中，可以采用神经符号推理，其可以解开视觉感知、执行情景抽象、语言理解和符号推理。

视频解析器104可以是视觉感知模块，该视觉感知模块可以包括一组检测器，该检测器可以从视频关键帧输入获得以人为中心的和/或以对象为中心的交互。在实施例中，视频解析器104可使用一组视频解析器(对象检测器、关系检测器、人类姿态检测器、动作检测器等)来将输入视频中的人类、对象或人-对象关系识别为基本实体的集合。给定输入视频或视频片段，视频解析器104可以输出情景数据类型。在实施例中，视频解析器104可使用边界框地面真实来定位视频中的对象/人。在实施例中，可以使用对象检测器(例如，基于区域的卷积神经网络(R-CNN)、更快的R-CNN和/或其他)来检测对象。在实施例中，诸如深度神经网络的技术可以用于提取每个对象或人的视觉表示。诸如视觉和模式识别、自然语言处理和姿态解析器的现有技术可用于检测关系和提取关系表示，以及用于提取运动的骨架表示。在实施例中，对于具有问题中的查询动作(例如，可行性或序列)的任务，可以采用现有的预训练的动作识别器来将视频中看到的动作识别为前提条件。在实施例中，视频解析器104可在来自训练集的视频帧上训练以获得外观、识别、边界框位置的特征。视频解析器104感知针对视觉场景或情景的实体、关系以及人类和/或对象交互。在实施例中，当前场景或情景被发送到变换器106，以学习情景抽象并以超图(也称为情景超图)的形式预测未来情景。

图2示出了实施例中的变换器(也称为基于变换器的模型)106的进一步细节。在实施例中，变换器可以以超图的形式处理和预测当前和未来情景。在实施例中，图编码器202在情景超图上执行动态状态转变。状态转变是动作转变模型中自关注(self-attention)机制的关注更新过程。例如，最初，情景超图可能不是完整的或不具有完整的部分，诸如超边。变换器生成并输出完整的超图。图编码器202通过连接所检测的实体或关系来构造“初始”图，并且将图编码至结构化图令牌序列206。在实施例中，图编码器202将实体连接至结构化情景表示(情景图)，并且通过分层堆叠将所连接的图转换成令牌序列206。例如，图编码器202遵循自我监督学习的范例。图编码器202将令牌序列作为输入，并预测序列中的被掩蔽令牌。在实施例中，序列206描述情景图的自顶向下结构并暗示情景片段、子图片段和实体令牌。情景片段可以是针对序列中的情景标记的离散片段令牌。考虑到给定t个情景片段<s⁰,...,s^T>，时间t中的每个情景片段包括多个谓词令牌和一组三元组令牌。每个谓词表示出现的原子动作a_j，其中存在连接情景s_t中的连接情景子图的超边关系。三元组令牌<h_i,o_i,r_i>表示人类-关系-对象交互。动作谓词可以是原子动作动词和对象名词的组合(例如，拿书，坐在椅子上)。在实施例中，每个情景片段可用零令牌填充达固定长度。为了指示图实体、超边、片段和情景，图编码器202可以对以下每个令牌的多种类型的嵌入向量求和：令牌嵌入、类型或超边嵌入、情景嵌入、位置嵌入和片段嵌入。

图变换器208可以通过学习给定情景下的输入数据类型(例如，给定视频中的对象)之间的关系来动态地预测动作状态或关系。在实施例中，模型架构包括具有下游任务预测器的多层堆叠的变换器。对于堆叠的变换器，在实施例中，图变换器208可使用堆叠的变换器块来计算具有多个头的输入令牌序列的自关注分数。在实施例中，堆叠的变换器可以包括来自变换器(BERT)模型的双向编码器表示。关注描述了情景图或子图中的两个节点之间的每个潜在关系的“连接”(例如，动作超边或人类-关系-对象三元组)。在实施例中，因为变换器的自关注内部结构与令牌对相对应，所以输入令牌上的整个关注执行动态关系建模。在实施例中，相邻的节点连接被求和成单个节点。聚集的效应可存储在时间t的当前状态中且应用于在当前步骤中或下一时间t+1的状态中对缺失信息的预测。这样的动态关注建模可以处理作为隐式连接的所有可能的关系，并且甚至当关系未知或者一些视觉线索不可靠时也可以提供鲁棒建模。在实施例中，此模型还可被采用来预测若干未看见情景以用于预测问题或可行性问题。例如，图变换器生成预测的令牌序列210。

图序列解码器212可执行以下自我监督任务：动作类型预测、人-对象关系类型预测和掩蔽令牌建模(对于对象或人)。例如，动作类型预测和人-对象关系类型预测可以使用分类器，以使用多层感知器(MLP)、人工神经网络来预测动作超边或关系，具有在对应的情景下所有状态的池化的全局表示。经掩蔽的令牌建模可以通过重构它们的嵌入向量来增强表示鲁棒性。图序列解码器212输出超图。在实施例中，堆叠的图变换器208和图序列解码器212学习通过模拟实体之间的隐式状态转变过程来预测输入情景图中的被掩蔽实体令牌和动作令牌。在实施例中，210的所有输出令牌可以是图序列解码器212的输入，其中，图序列解码器212包括池化操作加上MLP的多个层。超图生成器可以通过连接预测的动作(现有实体和预测的缺失实体)来构建输出动作超图。缺失的实体可能是视频中的不可见实例。

图3示出了示例超图，在实施例中，变换器可建立或学习该超图，例如在图1中的116处所示。例如，现实世界视频中的给定情景可以由连接所提取的原子实体和关系(例如，动作、人、对象和关系)的超图表示。例如，在实施例中，可以学习超图以表示或描述视觉中的动态过程，例如在现实世界情景中。超图可以表示情景内(例如，视频帧或片段内)的动作和内部关系及其分层结构。例如，视频可包含具有人和对象节点以及表示帧内关系(人-对象或对象-对象)的边的一组子图。每个动作超边可以连接多个子图。在些实施例中，多个动作可重叠，且子图中的节点可被共享。在实施例中，视频中的动态过程可以被提取为一组连续的和重叠的超图。形式上，超图H可以是一对H＝(X，E)，其中X是在视频帧中出现的对象或人的一组节点，E是动作的一组非空的超边子图S_i。在实施例中，超图结构将动作描述为超边。这样的结构可以反映来自真实世界情景和符号表示的分层抽象。

返回参见图2，在实施例中，图编码器202可将对应于视频的情景图(具有若干子图的初始超图)变换成结构化令牌序列(称为超图令牌序列)。在实施例中，为了指示图实体、超边、片段和情景，图编码器202可以对以下每个令牌的多种类型的嵌入向量求和，例如：1)令牌嵌入：对象外观、人类姿态、关系类或谓词类，2)类型或超边嵌入：指示动作谓词、人(Per)、对象(Obj)或关系(Rel)，3)情景嵌入：记录情景帧时序，4)位置嵌入：对象和人边界框，以及5)片段嵌入。分离令牌可以用于标记令牌序列中的片段的边界。令牌表示情境化超图中的实体节点、边或超边。还可以存在分离令牌。在一方面中，情景对应于整个给定视频；片段对应于视频中的视频帧。在实施例中，通过实现示例，***可设置可指定视频中的情景图的最大数量、单个情景图(例如，子图)中的动作和关系的最大数量的参数。在实施例中，超图令牌序列可被表示为行-列数据结构(例如，多维向量)。每个情景列可以是结构化情景子图，并且相关联的情景子图可以共享相同的动作并且可以通过动作超边来连接。每行可以表示特定的嵌入令牌类型。情景列可具有多个列，多个列中的每一列可表示与子图相关联的嵌入(例如，人、对象、动作或关系嵌入)。图4示出了实施例中的表示的超图令牌序列的示例结构。

返回参考图1，语言编码器110可以将各个问题或者言语解析为程序语句形式的功能程序。功能程序可以包括一系列嵌套操作。例如，可存在经定义以建构逐步推理程序的不同类型的原子操作(例如，查询函数)。在实施例中，***可以使用基于关注的Seq2Seq模型来将输入问题解析成对应的程序。在实施例中，可以使用两个模型来单独地解析问题和选择。在实施例中，每个模型可包括双向长短期存储器(LSTM)编码器加LSTM解码器。在实施例中，作为示例，***可以使用256个隐藏单元的两个隐藏层和嵌入层来获得用于编码器和解码器两者的300维字向量。

在实施例中，问答组件(在实施例中，在架构中也被称为问答头)112可通过在分立图(例如，所生成的超图)上运行功能程序来回答给定问题102b，这显式地传导了所得回答的符号推理。例如，在实施例中，问答组件或头112起到推理引擎的作用。在实施例中，问答组件或头112将语言编码器110的程序或输出和所预测的情景超图116当作符号和分立的输入，并在该超图上运行程序中的功能操作。在实施例中，预定义的操作可以基于结构化情景超图中的实体和关系来实现。每个操作输入某些实体或关系并且输出预测作为下一推理步骤的输入或最终答案预测。在实施例中，采用超图116作为输入，推理从问题中的提示(对象、运动或其他基本数据类型)开始作为初始查询，然后迭代地通过所有操作并最终输出回答114。在实施例中，答案可以是从输入候选选项(例如，多项选择)中选择的答案。在另一实施例中，答案被提供给开放式问题(例如，没有候选选项或非多重选择)。

图5是示出实施例中的情景抽象和图初始化的示图。视频502可具有多个帧502a、502b、502c、502d、502e、502f。视频502中的情景可包括前提条件、处理(原子动作)和结束。情景分解可包括从视频帧提取或分解实体(例如，人类、对象、动作、关系)。关系可以是：关注或接触(人-对象关系)、时间(动作-动作关系)和空间(人-对象、对象-对象关系)。可以用例如与视频帧相关联的节点(例如，表示对象、人)和表示关系的边来建立图，例如，如在504、506和508处所示。例如，情境化视频问答可以包括提供例如以一系列视频帧示出人的活动的视频，以及诸如“how does the person take the book to the door？”的问题。答案可以是“put down the bottle,take the book and pass by the table”。在实施例中，还可给出诸如“put down the bottle,take the book and pass by the table”、“walkstraight,take the book and put down the phone”、“take the table,sit on thedoor and put down the can”、“close the door,take the bottle,open the book”的候选答案选项，自动机器可从该候选答案选项中选择正确答案。

在实施例中，诸如机器人(bot)或机器人(robot)的机器可被训练来学习推理动作，例如学习对某些事件进行动作或基于给定情景进行动作，从而有效地理解现实世界环境中的人类动作。基于给定或当前情景起作用的机器、机器人(bot)或机器人(robot)的实例可以包括但不限于：例如从桌子、架子或另抓取物品或对象，在仓库中移动对象(如箱子)，以及提升对象。在实施例中，可将任务给予机器以针对表示真实世界环境的视频中的动作推理来评估或回答问题。

图6是示出实施例中的方法的流程图。该方法可以在一个或多个计算机处理器和/或硬件处理器上实现或者由其运行。在602，可接收视频。视频可包括例如按顺序(诸如按时间顺序)的多个视频帧。在604处，还可以接收关于视频的问题。例如，可接收关于视频中正在发生什么和/或视频中可能发生什么的问题和/或关于视频的另一问题。通过示例的方式，问题的类型可以包括但不限于：问题的类型：交互问题、序列问题、预测问题以及可行性问题。每个问题可以与来自不同场景和地点的动作为中心的情景相关联，并且情景可以涉及多个动作。

在606处，可以将视频中的视频帧解析为对象和对象之间的关系。在实施例中，对象可包括出现在视频帧中的人和/或项目。可以创建节点和边的子图。节点表示从视频帧解析的对象，并且边表示出现在视频帧中的对象之间的关系。可针对视频中的每个单独的视频帧执行子图的这种解析和创建。在具有多个视频帧的视频中，可创建多个对应的子图。

在608，创建超图，该超图包括表示视频中的视频帧的子图。超图还包括连接子图中的至少一些的一条或多条边或连接。这种边或连接可通过学习子图的节点之间的关系来创建。边(也称为超边)表示多个子图中的一个子图中的至少一个节点与另一子图中的至少一个节点之间的关系。在实施例中，超图提供具有当前知识和视频中的动态改变的实体和关系的结构化表示。

在610处，基于超图，可以生成对关于视频的问题的回答。在一方面中，自动机器(诸如机器人(bot)或机器人(robot))可与询问关于视频的问题的用户交互或通信，视频可表示当前视觉环境。例如，机器可以从动态情景捕捉当前的知识作为结构化表示。机器可以在与用户交互时回答这样的问题。

在实施例中，超图可被编码为视觉嵌入向量。在实施例中，神经网络可学习来预测子图的节点之间的关系。在实施例中，可以将问题编码为语言嵌入向量。在实施例中，双向长短期存储器(LSTM)编码器和解码器可解析问题。在实施例中，将子图变换成结构化令牌序列。这样的令牌序列可以转换成视觉嵌入向量。

图7是示出在一个实施例中可使视频问题回答自动化的***的组件的图。诸如中央处理单元(CPU)、图形处理单元(GPU)和/或现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或另一处理器的一个或多个硬件处理器702可以与存储器设备704耦合，并且生成预测模型并推荐通信机会。存储器设备704可包括随机存取存储器(RAM)、只读存储器(ROM)或另一存储器设备，并且可存储用于实现与本文描述的方法和/或***相关联的不同功能的数据和/或处理器指令。一个或多个处理器702可执行存储在存储器704中或从另一个计算机设备或介质接收的计算机指令。存储器设备704可以例如存储用于一个或多个硬件处理器702的功能的指令和/或数据，并且可以包括操作***和指令和/或数据的其他程序。一个或多个硬件处理器702可以接收包括视频和关于视频的问题的输入。一个或多个硬件处理器702可将视频帧解析为至少对象及对象之间的关系，且创建表示对象的节点和表示关系的边的子图，其中对于多个视频帧中的每一视频帧执行解析和创建，其中创建多个子图，例如对应于视频帧的子图。一个或多个硬件处理器702可以通过学习子图的节点之间的关系来创建连接子图中的至少一些子图的超图，其中创建超边以表示多个子图中的一个子图的至少一个节点与另一子图的至少一个节点之间的关系。一个或多个硬件处理器702可以基于超图来生成对问题的回答。在一个方面，视频数据和问题数据可以被存储在存储设备706中或者经由网络接口708从远程设备接收，并且可以被临时加载到存储器设备704中以用于构建或生成可以预测关系和创建一个或多个超图的模型。所学习的模型可被存储在存储器设备704上，例如用于由一个或多个硬件处理器702运行。一个或多个硬件处理器702可以与接口设备(诸如用于例如经由网络与远程***通信的网络接口708)和用于与输入和/或输出设备(诸如键盘、鼠标、显示器和/或其他设备)通信的输入/输出接口710)耦合。

图8示出了可以实施一个实施例中的***的示例计算机或处理***的示意图。计算机***仅是合适的处理***的一个示例，并且不旨在对本文描述的方法的实施例的使用范围或功能提出任何限制。所示的处理***可以与许多其他通用或专用计算***环境或配置一起操作。适于与图8所示的处理***一起使用的众所周知的计算***、环境和/或配置的示例可以包括但不限于个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持式或膝上型设备、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品、网络PC、小型计算机***、大型计算机***和包括上述任何***或设备的分布式云计算环境等。

可以在由计算机***运行的计算机***可执行指令(诸如程序模块)的一般上下文中描述计算机***。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机***可在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机***存储介质中。

计算机***的组件可以包括但不限于一个或多个处理器或处理单元12、***存储器16和将包括***存储器16的不同***组件耦合到处理器12的总线14。处理器12可包括执行本文描述的方法的模块30。模块30可被编程到处理器12的集成电路中，或从存储器16、存储设备18或网络24或其组合加载。

总线14可以表示若干类型的总线结构中的任何一种中的一个或多个，包括存储器总线或存储器控制器、***总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及***组件互连(PCI)总线。

计算机***可以包括各种计算机***可读介质。这样的介质可以是可由计算机***访问的任何可用介质，并且其可以包括易失性和非易失性介质、可移动和不可移动介质。

***存储器16可包括易失性存储器形式的计算机***可读媒体，例如随机存取存储器(RAM)和/或高速缓冲存储器或其他。计算机***可以进一步包括其他可移动/不可移动、易失性/非易失性计算机***存储介质。仅通过示例的方式，存储***18可以被提供用于从不可移动、非易失性磁介质(例如，“硬盘驱动器”)中读取和向其写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线14。

计算机***还可与一个或一个以上外部设备26(诸如，键盘、指向设备、显示器28等)通信；和/或使计算机***能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这种通信可经由输入/输出(I/O)接口20发生。

此外，计算机***可经由网络适配器22与一个或多个网络24(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网))通信。如图所示，网络适配器22通过总线14与计算机***的其他部件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机***结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器和数据归档存储***等。

提前理解的是，虽然本公开可以包括关于云计算的描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储装置、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与服务的提供商的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云***通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作***、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作***和应用。消费者不管理或控制底层云基础设施，而是具有对操作***、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注点(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图9，描述了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机***54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图9中所示的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图10，示出了由云计算环境50(图9)提供的一组功能抽象层。应当事先理解，图10中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作***74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或***。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和***管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；交易处理95；以及视频问答处理96。

本发明可以是任何可能的技术细节集成度的***、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储媒体可为可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的部件(mean)。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的***、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式运行，或者这些方框有时可以以相反的顺序运行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的***来实现。

本文中使用的术语仅用于描述具体实施例的目的，而并非旨在限制本发明。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。如本文中使用的，术语“或”是包括性的算子并且可以意指“和/或”，除非上下文另有显式或明确指示。还应当理解，当在本文中使用时，术语“包括(comprise)”、“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(includes)”、“包括(including)”和/或“具有(having)”可以指定所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。如本文中使用的，短语“在实施例中”不一定指相同的实施例，尽管它可以指相同的实施例。如本文中使用的，短语“在一个实施例中”不一定指相同的实施例，尽管它可以指相同的实施例。如本文中使用的，短语“在另一实施例中”不一定指不同的实施例，尽管它可以指不同的实施例。此外，实施例和/或实施例的部件可以彼此自由组合，除非它们相互排斥。

以下权利要求中的所有部件或步骤加功能元件(如果有的话)的对应的结构、材料、动作和等同物旨在包括用于与如具体要求保护的其他要求保护的元件组合执行所述功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本发明的描述，但并不旨在是详尽的或限于所公开形式的本发明。在不背离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有适合于预期的特定用途的各种修改的各种实施例。

Claims

1.一种计算机实现方法，包括：

接收按顺序包括多个视频帧的视频；

接收关于所述视频的问题；

对于所述多个视频帧中的视频帧，

将所述视频帧解析为至少对象和所述对象之间的关系；以及

创建表示对象的节点和表示所述关系的边的子图，

其中对于所述多个视频帧中的每一视频帧执行所述解析和创建，其中创建多个子图；

通过学习所述子图中的节点之间的关系来创建连接所述子图中的至少一些子图的超图，其中创建超边以表示所述多个子图中的一个子图的至少一个节点与另一子图的至少一个节点之间的关系；以及

基于所述超图来生成对所述问题的回答。

2.根据权利要求1所述的计算机实现的方法，其中，所述超图被编码为视觉嵌入向量。

3.根据权利要求1所述的计算机实现的方法，其中，所述问题被编码为语言嵌入向量。

4.根据权利要求1所述的计算机实现的方法，其中，神经网络学习以预测所述子图的节点之间的关系。

5.根据权利要求4所述的计算机实现的方法，其中，所述关系包括动作关系。

6.根据权利要求1所述的计算机实现的方法，其中，双向长短期存储器(LSTM)编码器和解码器解析所述问题。

7.根据权利要求1所述的计算机实现的方法，其中，所述子图被变换成结构化令牌序列。

8.一种***，包括：

处理器；以及

存储器设备，所述存储器设备与所述处理器耦合；

所述处理器被配置为执行根据权利要求1-7中任一项所述的方法。

9.一种包括程序指令的计算机程序产品，所述程序指令可由设备读取以使所述设备执行根据权利要求1-7中任一项所述的方法。