CN113392686A

CN113392686A - 视频分析方法、装置及存储介质

Info

Publication number: CN113392686A
Application number: CN202011073795.0A
Authority: CN
Inventors: 单瀛; 蔡佳音; 袁春
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-09-14

Abstract

本申请涉及一种视频分析方法、装置及存储介质，该视频分析方法包括：获取待分析视频、以及与待分析视频相关的待解答问题；确定待分析视频对应的至少一种视频特征信息；确定待解答问题对应的问题特征信息；将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息；根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息，从而在对视频进行语义理解分析时，能够以问题为指导对视频进行有针对性的记忆，进而提高对长时视频的记忆效果。

Description

视频分析方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种视频分析方法、装置及存储介质。

背景技术

视频问答(VideoQA)旨在对视频的时空内容进行高级推理，并针对自然语言所描绘的给定视频相关问题推断正确答案。

目前，对于视频问答任务所采用的技术方案是利用已训练的深度学习模型提取视频的表示向量，再通过注意力机制或者记忆模型来对视频和问题这两个模态的特征进行融合和记忆，最后经过一个分类器生成答案。

但是，现有的记忆模块会记忆大量与问题无关的视频信息，进而导致对长时视频信息的记忆效果差的问题。

发明内容

本申请的目的在于提供一种视频分析方法、装置及存储介质，以提高对长时视频的记忆效果。

本申请实施例提供了一种视频分析方法，包括：

获取待分析视频、以及与待分析视频相关的待解答问题；

确定待分析视频对应的至少一种视频特征信息；

确定待解答问题对应的问题特征信息；

将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息；

根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息。

本申请实施例还提供了一种视频分析装置，包括：

获取模块，用于获取待分析视频、以及与待分析视频相关的待解答问题；

第一确定模块，用于确定待分析视频对应的至少一种视频特征信息；

第二确定模块，用于确定待解答问题对应的问题特征信息；

第三确定模块，用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息；

第四确定模块，用于根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息。

其中，已训练的视频记忆模型包括第一子模型和第二子模型，第一确定模块具体包括：

提取单元，用于从待分析视频中提取多个视频帧；

第一确定单元，用于确定每一视频帧对应的至少一种视频特征信息；

第三确定模块具体包括：

第二确定单元，用于按照时间顺序依次将多个视频帧对应的所述至少一种视频特征信息输入第一子模型中进行处理，以得到每一视频帧对应的第一记忆内容；

第三确定单元，用于根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型，从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。

其中，第三确定单元具体用于：

按照时间顺序从多个视频帧中确定当前视频帧，并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息；

将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理，以使第二子模型从当前视频帧对应的至少一种视频特征信息中，确定出与待解答问题相关的第一目标特征信息；

将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息，并利用剩余视频帧更新当前视频帧，之后返回执行将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理的步骤。

其中，至少一种视频特征信息包括动态特征信息和静态特征信息，第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息，从当前视频帧对应的至少一种视频特征信息中，确定出与待解答问题相关的第一目标特征信息，具体包括：

根据当前视频帧对应的动态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息，从当前视频帧对应的动态特征信息中，确定出与待解答问题相关的目标动态特征信息；

根据当前视频帧对应的静态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息，从当前视频帧对应的静态特征信息中，确定出与待解答问题相关的目标静态特征信息；

根据第一历史记忆内容、第一历史特征信息和问题特征信息，确定当前视频帧对应的与待解答问题相关的目标全局特征信息。

其中，第四确定模块具体包括：

第四确定单元，用于将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理，以从问题特征信息中确定出与待分析视频相关的第二目标特征信息；

第五确定单元，用于根据第一目标特征信息和第二目标特征信息，确定待解答问题对应的答案信息。

其中，问题特征信息包含多个单词特征信息，已训练的问题记忆模型包括第三子模型和第四子模型，第四确定单元具体包括：

第一确定子单元，用于按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理，以得到每一单词特征信息对应的第二记忆内容；

第二确定子单元，用于根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型，从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。

其中，第二确定子单元具体用于：

按照单词顺序从多个单词特征信息中确定当前单词特征信息，并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别分别作为第二历史记忆内容和第二历史特征信息；

将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理，以使第四子模型从当前单词特征信息中，确定出与待分析视频相关的第二目标特征信息；

将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息，并利用剩余单词特征信息更新当前单词特征信息，之后返回执行将当前单词特征信息、问题特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理的步骤。

其中，第五确定单元具体包括：

第三确定子单元，用于根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵，并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵；

第四确定子单元，用于将第一目标特矩阵输入已训练的第一自注意力模型中进行处理，以得到第一目标特征信息的第一语义远程依赖信息，并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理，以得到第二目标特征信息的第二语义远程依赖信息；

第五确定子单元，用于根据第一语义远程依赖信息和第二语义远程依赖信息，确定待解答问题对应的答案信息。

本申请实施例还提供了一种计算机可读存储介质，存储介质中存储有多条指令，指令适于由处理器加载以执行上述任一项视频分析方法。

本申请实施例还提供了一种服务器，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一项视频分析方法中的步骤。

本申请提供的视频分析方法、装置及存储介质，通过获取待分析视频、以及与待分析视频相关的待解答问题，然后确定待分析视频对应的至少一种视频特征信息，并确定待解答问题对应的问题特征信息，接着将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息，接着根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息，从而在对视频进行语义理解分析时，能够以问题为指导对视频进行有针对性的记忆，进而提高对长时视频的记忆效果。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1是本申请实施例提供的视频分析***的场景示意图；

图2是本申请实施例提供的视频分析方法的流程示意图；

图3是本申请实施例提供的待分析视频的截图；

图4是本申请实施例提供的视频分析方法的另一流程示意图；

图5是本申请实施例提供的视频分析方法的执行流程示意图。

图6是本申请实施例提供的视频记忆模型的结构示意图；

图7是本申请实施例提供的问题记忆模型的结构示意图；

图8是本申请实施例提供的对待分析视频和待解答问题进行有针对性记忆的效果示意图；

图9是本申请实施例提供的视频分析装置的结构示意图；

图10是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的视频分析方法可以通过计算机视觉技术对视频内容进行语义理解分析。其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，计算机视觉就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体涉及一种视频分析方法、装置及存储介质。

请参阅图1，图1为本申请实施例提供的视频分析***的场景示意图，该视频分析***可以包括本申请实施例提供的任一种视频分析装置，该视频分析装置具体可以集成在服务器，比如视频服务器中，其中服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

该服务器可以获取待分析视频、以及与待分析视频相关的待解答问题；确定待分析视频对应的至少一种视频特征信息；确定待解答问题对应的问题特征信息；将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息；根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息。

此外，上述视频分析***还可以包括与服务器通过网络连接的终端，该终端可以是智能手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等具有视频播放功能的设备。

具体地，如图1所示，终端可以播放视频V1，并在视频播放过程中接收用户输入的针对播放的视频V1所提出的问题(比如，“在抬起对手之后猛击对手的脸之前，人在做什么？”)，以触发服务器对该播放的视频V1进行分析，之后，上述终端可以接收服务器发送的答案(比如，“投掷”)，并向用户提供该答案。

如图2所示，图2是本申请实施例提供的视频分析方法的流程示意图，该视频分析方法具体流程可以如下：

S101.获取待分析视频、以及与待分析视频相关的待解答问题。

其中，待解答问题可以是用户使用终端观看待分析视频时在该终端上输入的针对该待分析视频所提出的问题，且具体可以是用自然语言描述的问题，比如，如图3所示，对于待分析视频V2，与该待分析视频V2相关的待解答问题可以为“女人抱着什么？”。上述待分析视频可以是存储于终端本地或服务器上的完整的已有视频。可以理解的是，上述待分析视频中包含有与上述待解答问题的答案相关的内容，也即，通过计算机视觉技术对待分析视频进行语义理解，能够得到该待解答问题对应的答案，比如，由图3(也即，待分析视频V2中的一帧图像)可知，上述待解答问题“女人抱着什么？”对应的答案为“猫”。

S102.确定待分析视频对应的至少一种视频特征信息。

其中，如图4所示，上述S102可以具体包括：

S1021.从待分析视频中提取多个视频帧。

具体地，由于一个视频的帧数非常多，每帧图像都处理容易造成不必要的冗余，而且处理量也会过大。所以，上述视频分析装置可以按照预设时间间隔(比如，1秒)或预设帧间隔(比如，60帧)从待分析视频中提取多个视频帧，其中，每一视频帧可以为静态图像。例如，以待分析视频的总时长为3分钟为例，上述视频分析装置可以从待分析视频的第一帧开始，每间隔1秒从该待分析视频中提取一帧，以得到181个视频帧。可以理解的是，上述视频帧的采样时间间隔或采样帧间隔应该大小适当，以在不影响待分析视频的语义理解准确性的情况下，提高视频分析的效率。

S1022.确定每一视频帧对应的至少一种视频特征信息。

具体地，上述至少一种视频特征信息可以包括动态特征信息和静态特征信息，其中，静态特征信息用于表征一个视频帧本身的特征，动态特征信息用于表征待分析视频中的其他视频帧到该视频帧的过程的动态特征。

在一个具体实施例中，如图4所示，上述S1022可以包括：

S1-1.利用动态特征提取网络从每一视频帧中提取原始动态特征信息，并对原始动态特征信息进行编码处理，以得到对应的动态特征信息。

具体地，如图5所示，上述视频分析装置可以将从待分析视频中提取得到的多个视频帧F输入动态特征提取网络(比如，已训练的C3D网络)中进行处理，得到每一视频帧F对应的原始动态特征信息f^m _t，并按照时间顺序将上述多个视频帧F对应的原始动态特征信息f^m _t进行排序，得到该待分析视频的原始动态特征信息序列F^m，F^m＝(f^m ₁，f^m ₂，...，f^m _N)。接着，上述视频分析装置可以将该原始动态特征信息序列F^m输入由长短期记忆网络(LSTM)构成的第一编码器B1中进行编码，以得到待分析视频对应的动态特征信息序列I^m，I^m＝(i^m ₁，i^m ₂，...，i^m _N)，第t个视频帧对应动态特征信息序列I^m中的第t个动态特征信息i^m _t。其中，N等于取样的帧数，上标m代表提取的为视频的动态特征，t为位于[1,N]区间中的自然数，C3D网络为3维卷积网络。

S1-2.利用静态特征提取网络从每一视频帧中提取原始动态特征信息，并对原始静态特征信息进行编码处理，以得到对应的静态特征信息。

具体地，如图5所示，上述视频分析装置可以将从待分析视频中提取得到的多个视频帧F输入静态特征提取网络(比如，已训练的ResNet网络或VGG网络)中进行处理，得到每一视频帧F对应的原始静态特征信息f^a _t，并按照时间顺序将上述多个视频帧F对应的原始动态特征信息f^a _t进行排序，得到该待分析视频的原始静态特征信息序列F^a，F^a＝(f^a ₁，f^a ₂，...，f^a _N)。接着，上述视频分析装置可以将该原始静态特征信息序列F^a输入由长短期记忆网络(LSTM)构成的第二编码器B2中进行编码，以得到待分析视频对应的静态特征信息序列I^a，I^a＝(i^a ₁，i^a ₂，...，i^a _N)，第t个视频帧对应静态特征信息序列I^a中的第t个动态特征信息i^a _t。其中，N等于取样的帧数，上标a代表提取的为视频的静态特征，t为位于[1,N]区间中的自然数，ResNet网络为残差网络，VGG网络是一种深度卷积神经网络。

S103.确定待解答问题对应的问题特征信息。

其中，如图4所示，上述S103可以具体包括：

S1031.将待解答问题中的每个单词转换为对应的词向量，以得到待解答问题对应的问题嵌入表示。

具体地，如图5所示，上述视频分析装置可以根据待解答问题的单词顺序将上述待解答问题转换为一个单词序列C，C＝(c₁，c₂，...，c_T)，待解答问题中第t个单词对应单词序列C中的第t个单词c_t。接着，可以使用单词映射的方法利用嵌入层将该单词序列C中的每个单词ct映射到其语义表达，并使用已训练的GloVe模型对该语义表达进行初始化，以得到300-D(300个维度)的词向量q_t，进而得到待解答问题对应的问题嵌入表示Q，Q＝(q₁，q₂，...，q_T)。其中，T是待解答问题中的单词数，t为位于[1,N]区间中的自然数。

S1032.对问题嵌入表示进行编码处理，以得到待处理问题对应的问题特征信息。

具体地，可以将上述问题嵌入表示Q输入由长短期记忆网络构成的第三编码器B3中进行编码，以得到待处理问题对应的问题特征信息I^q＝(i^q ₁，i^q ₂，...，i^q _N)。可以理解的是，上述问题特征信息I^q包含多个单词特征信息i^q _t，单词特征信息i^q _t与待解答问题中的第t个单词相对应。其中，T是待解答问题中的单词数，t为位于[1,N]区间中的自然数。

S104.将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息。

其中，上述至少一种视频特征信息可以包括动态特征信息i^m _t和静态特征信息i^a _t，且每种视频特征信息均是通过利用对应的特征提取网络从相应视频帧中提取原始视频特征信息，并对该原始视频特征信息进行编码处理后得到的。上述问题特征信息可以包括多个单词特征信息i^q _t，且每一单词特征信息i^q _t均是通过将待解答问题中对应的单词转换为相应的词向量，并对该词向量进行编码处理后得到的。上述已训练的视频记忆模型可以包括第一子模型以及与第一子模型连接的第二子模型，上述S104可以具体包括：

S1041.按照时间顺序依次将多个视频帧对应的至少一种视频特征信息输入第一子模型中进行处理，以得到每一视频帧对应的第一记忆内容。

具体地，上述S1041可以具体包括：

S2-1.按照时间顺序从多个视频帧中确定当前视频帧，并获取上一视频帧对应的第一目标特征信息和第一记忆内容分别作为第一历史特征信息和第一历史记忆内容。

具体地，如图6所示，上述视频记忆模型还可以包括视频内存层M^v和至少一个隐藏层h^m/h^a/h^v，其中，内存层M^v＝(m₁，m₂，...，m_S)，也即视频内存层M^v具有S个内存状态。在本实施例中，在当前视频帧为上述从待分析视频中提取得到的多个视频帧中时间顺序排在第一位的视频帧，也即，上述多个视频帧中不存在时间顺序位于当前视频帧之前的视频帧时，上述视频分析装置可以将该视频记忆模型中至少一个隐藏层h^m，h^a和h^v的状态参数初始值，也即，

和

作为当前视频帧的上一视频帧对应的第一目标特征信息，将该视频记忆模型中内存层M^v的状态参数初始值，也即，M₀，作为当前视频帧的上一视频帧对应的第一记忆内容。并且，上述内存层M^v和至少一个隐藏层h^m，h^a和h^v的状态参数初始值可通过对上述视频记忆模型进行预训练而得到。

S2-2.将当前视频帧对应的至少一种视频特征信息、第一历史特征信息和第一历史记忆内容输入第一子模型进行处理，以使第一子模型确定当前视频帧对应的第一记忆内容。

具体地，在得到当前视频帧对应的第一记忆内容之后，还可以利用当前视频帧对应的第一记忆内容对上述视频记忆模型中内存层M^v的多个状态参数值进行更新，以将第一记忆内容存储于上述内存层M^v中。

S2-3.将当前视频帧对应的第一目标特征信息和第一记忆内容分别更新为第一历史特征信息和第一历史记忆内容，并利用剩余视频帧更新当前视频帧，之后返回执行上述S2-2。

如此，上述S2-2和S2-3能够形成循环，且每循环一次，均会得到更新后的当前视频帧对应的第一记忆内容，直至得到所有视频帧对应的第一记忆内容。

S1042.根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型，从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。

具体地，上述S1042可以具体包括：

S3-1.按照时间顺序从多个视频帧中确定当前视频帧，并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息。

其中，上述S3-1的具体实施例方式可以参见上述S2-1的具体实施方式，故在此不再赘述。

S3-2.将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理，以使第二子模型从当前视频帧对应的至少一种视频特征信息中，确定出与待解答问题相关的第一目标特征信息。

具体地，在得到当前视频帧对应的第一目标特征信息之后，还可以利用当前视频帧对应的第一目标特征信息对上述视频记忆模型中各个隐藏层h^m/h^a/h^v的状态参数值进行更新，以将第一目标特征信息存储于上述至少一个隐藏层h^m/h^a/h^v中。

S3-3.将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息，并利用剩余视频帧更新当前视频帧，之后返回执行上述S3-2。

如此，上述S3-2和S3-3能够形成循环，且每循环一次，均会从更新后的当前视频帧对应的视频特征信息中，确定出与待解答问题相关的第一目标特征信息，直至得到所有视频帧对应的第一目标特征信息。

其中，上述利用剩余视频帧更新当前视频帧，可以理解为利用剩余视频帧中时间顺序排在当前视频帧后一位的视频帧对当前视频帧进行更新。

在一个具体实施例中，上述至少一种视频特征信息可以包括动态特征信息和静态特征信息，相应地，上述第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息，上述第二子模型从当前视频帧对应的至少一种视频特征信息中，确定出与待解答问题相关的第一目标特征信息，可以具体包括：

根据当前视频帧对应的动态特征信息、第一历史记忆内容、问题特征信息和第一历史特征信息，从当前视频帧对应的动态特征信息中，确定出与待解答问题相关的目标动态特征信息；

根据当前视频帧对应的静态特征信息、第一历史记忆内容、问题特征信息和第一历史特征信息，从当前视频帧对应的静态特征信息中，确定出与待解答问题相关的目标静态特征信息；

根据第一历史记忆内容、问题特征信息和第一历史特征信息，确定当前视频帧对应的与待解答问题相关的目标全局特征信息。

具体地，在得到当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息之后，还可以利用当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息分别对上述视频记忆模型中隐藏层h^m、隐藏层h^a和隐藏层h^v的状态参数值进行更新，以将目标动态特征信息存储于上述隐藏层h^m中，将目标静态特征信息存储于上述隐藏层h^a中，以及将目标全局特征信息存储于上述隐藏层h^v中。其中，目标全局特征信息可以用于表征上述待分析视频的动态特征信息和静态特征信息的融合语义信息。

相应地，上述第一子模型确定当前视频帧对应的第一记忆内容，可以具体包括：

根据第一历史特征信息中所包含的目标动态特征信息和当前视频帧对应的动态特征信息，确定当前视频帧对应的动态特征记忆内容。

根据第一历史特征信息中所包含的目标静态特征信息和当前视频帧对应的静态特征信息，确定当前视频帧对应的静态特征记忆内容。

根据当前视频帧对应的动态特征记忆内容和静态特征记忆内容、第一历史特征信息中所包含的目标全局特征信息以及第一历史记忆内容，确定当前视频帧对应的第一记忆内容。

具体举例，在第二子模型中，可以通过计算公式(1)～(4)来计算得到当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息，其中，计算公式如下：

r_t＝β_t·M_t-1 (1)

其中，·表示内积，

是可学习的权重。β_t是由当前视频帧的上一视频帧对应的目标动态特征信息

目标静态特征信息

和目标全局特征信息

所决定的读取权重。在一个实施例中，d可以为512。FC表示全连接层，使用tanh(双曲正切函数)作为非线性激活函数。r_t表示从上述视频记忆模型的内存层M^v中读取的内容，具体为内存层M^v中多个内存状态的加权和。接着，基于当前读取的内容r_t、以及当前输入的动态特征信息

静态特征信息

和问题特征信息i^q，利用计算公式(3)和(4)计算当前视频帧对应的目标动态特征信息

(也即，当前时刻t的隐藏层h^m的状态参数值)、目标静态特征信息

(也即，当前时刻t的隐藏层h^a的状态参数值)和目标全局特征信息

(也即，当前时刻t的隐藏层h^v的状态参数值)。

其中，

表示

或

σ表示sigmoid函数。在本实施例中，通过在每个时间步将问题指导包括在隐藏层的状态参数值更新操作中，经过问题(文本)增强的视频记忆模块可以存储与问题最相关的视频内容，进而提高视频信息的存储效率。

相应地，在第一子模型中，可以通过计算公式(5)～(10)来计算得到当前视频帧对应的第一记忆内容M_t(也即，当前时刻t的内存层M^v的状态参数值)，其中，计算公式如下：

其中，c_t是由上一视频帧对应的目标动态特征信息

和目标静态特征信息

所决定的内容向量，W是可学习的参数，b是偏差。内容向量c_t将用于计算当前视频帧对应的写入权重

在对内存层M^v的状态参数值进行更新时，需要考虑上述待分析视频的动态特征信息和静态特征信息分别占了多少比重，也就是计算

如计算公式(7)所示。

是由c_t经过一个softmax函数得到的位于0和1之间的一个权重。

在对内存层M^v的状态参数值进行更新时，同样需要考虑上一视频帧对应的第一记忆内容(也即，上一时刻(t-1)的内存层M^v的状态参数值)有多少在当前时刻t需要保留，这个比率就是μ。μ是由g经过一个softmax函数得到的位于0和1之间的一个权重。g是由上一视频帧对应的目标全局特征信息

以及计算公式(5)和(6)中的c_t所决定的。

最终，当前视频帧对应的第一记忆内容M_t(也即，当前时刻t的内存层M^v的状态参数值)可由计算公式(10)计算得到。

S105.根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息。

其中，如图4所示，上述S105可以具体包括：

S1051.将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理，以从问题特征信息中确定出与待分析视频相关的第二目标特征信息。

其中，上述问题特征信息可以包含多个单词特征信息，上述已训练的问题记忆模型可以包括第三子模型以及与第三子模型连接的第四子模型，上述S1051可以具体包括：

S4-1.按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理，以得到每一单词特征信息对应的第二记忆内容。

具体地，上述S4-1可以具体包括：

S4-1-1.按照单词顺序从多个单词特征信息中确定当前单词特征信息，并获取上一单词特征信息对应的第二目标特征信息和第二记忆内容分别作为第二历史特征信息和第二历史记忆内容。

具体地，如图7所示，上述问题记忆模型还可以包括问题内存层M^q和隐藏层h^q，其中，内存层M^q＝(m₁，m₂，...，m_S)，也即问题内存层M^q具有S个内存状态。在本实施例中，在当前单词特征信息为上述多个单词特征信息中单词顺序排在第一位的单词特征信息，也即，上述多个单词特征信息中不存在单词顺序位于当前单词特征信息之前的单词特征信息时，上述视频分析装置可以将该问题记忆模型中隐藏层h^q的状态参数初始值，也即，

作为当前单词特征信息的上一单词特征信息对应的第二目标特征信息，将该问题记忆模型中内存层M^q的状态参数初始值，也即，M^q ₀，作为当前单词特征信息的上一单词特征信息对应的第二记忆内容。并且，上述状态参数初始值可通过对上述视频记忆模型进行预训练而得到。

S4-1-2.将当前单词特征信息、第二历史特征信息和第二历史记忆内容输入第三子模型进行处理，以使第三子模型确定当前单词特征信息对应的第二记忆内容。

具体地，在得到上述当前单词特征信息对应的第二记忆内容之后，还可以利用当前单词特征信息对应的第二记忆内容对上述问题记忆模型中内存层M^q的多个状态参数值进行更新，以将该第二记忆内容存储于上述内存层M^q中。

S4-1-3.将当前单词特征信息对应的第二目标特征信息和第二记忆内容分别更新为第二历史特征信息和第二历史记忆内容，并利用剩余单词特征信息更新当前单词特征信息，之后返回执行上述S4-1-2。

如此，上述S4-1-2和S4-1-3能够形成循环，且每循环一次，均会得到更新后的当前单词特征信息对应的第二记忆内容，直至得到所有单词特征信息对应的第二记忆内容。

S4-2.根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型，从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。

具体地，上述S4-2可以具有包括：

S4-2-1.按照单词顺序从多个单词特征信息中确定当前单词特征信息，并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别作为第二历史记忆内容和第二历史特征信息。

其中，上述S4-2-1的具体实施例方式可以参见上述S4-1-1的具体实施方式，故在此不再赘述。

S4-2-2.将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理，以使第四子模型从当前单词特征信息中，确定出与待分析视频相关的第二目标特征信息。

具体地，在得到上述当前单词特征信息对应的第二目标特征信息之后，还可以利用当前单词特征信息对应的第二目标特征信息对上述问题记忆模型中隐藏层h^q的状态参数值进行更新，以将第二目标特征信息存储于该隐藏层h^q中。

S4-2-3.将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息，并利用剩余单词特征信息更新当前单词特征信息，之后返回执行上述S4-2-2。

如此，上述S4-2-2和S4-2-3能够形成循环，且每循环一次，均会从更新后的当前单词特征信息中确定出与待分析视频相关的第二目标特征信息，直至得到所有单词特征信息对应的第二目标特征信息。

其中，上述利用剩余单词特征信息更新当前单词特征信息，可以理解为利用剩余单词特征信息中单词顺序排在当前单词特征信息后一位的单词特征信息对当前单词特征信息进行更新，其中，单词顺序可以理解为待解答问题中各个单词出现的先后顺序，比如待解答问题“这个人在做什么”，该待解答问题包括“这”、“个”、“人”、“在”、“干”、“什”和“么”这七个单词，按照出现的先后顺序，有前往后依次可以为“这”、“个”、“人”、“在”、“干”、“什”和“么”。

具体举例，在第四子模型中，可以通过计算公式(11)～(13)来计算得到当前单词特征信息对应的第二目标特征信息

其中，计算公式如下：

其中，·表示内积，

是可学习的权重。

是由当前单词特征信息的上一单词特征信息对应的第二目标特征信息

和当前时刻t输入的当前单词特征信息

所决定的读取权重。r_t表示从上述问题记忆模型的内存层M^q中读取的内容，具体为内存层M^q中多个内存状态的加权和。接着，基于上一单词特征信息对应的第二目标特征信息

当前读取的内容r_t、以及当前时刻t输入的当前单词特征信息

动态特征信息i^m和静态特征信息i^a，利用计算公式(13)计算当前单词特征信息

对应的第二目标特征信息

(也即，当前时刻t的隐藏层h^q的状态参数值)。

相应地，在第三子模型中，可以计算公式(14)～(16)来计算得到当前单词特征信息

对应的第二记忆内容

(也即，当前时刻t的内存层M^q的状态参数值)，其中，计算公式如下：

其中，

是由当前时刻t输入的当前单词特征信息

以及上一单词特征信息对应的第二目标特征信息

所决定的内容向量。内容向量

将用于计算当前单词特征信息对应的写入权重α_t，i，如计算公式(15)所示。

上述问题记忆模型的内存层M^q中所有内存状态的写入权重α_t，i取决于当前时刻t的内容向量

和上一单词特征信息对应的第二目标特征信息。

最终，当前单词特征信息

对应的第二记忆内容

(也即，当前时刻t的内存层M^q的状态参数值)可由计算公式(16)计算得到，其中，

S为内存层M^q所包含的内存状态的数量。

可以理解的是，上述实施例中的视频记忆模型和问题记忆模型以跨模态信息为指导，能够分别实现对长时视频和问题长句进行有针对性地记忆的功能，进而能够对长视频理解和问题长句理解起到积极的作用。例如，如图8所示，待分析视频为摔跤比赛视频，且在该待分析视频中，男人首先举起对手，然后将他摔倒在地并挥拳。图8示出的视频的记忆权重表明，上述视频记忆模型可以在待解答问题“What is a man doing after lifting hisopponent before punches his face？”的引导下有针对性地记忆待分析视频中与该待解答问题相关的信息(例如，“lifting his opponent”和“punches his face”)，其中，待分析视频的视频帧在视频的记忆权重条上对应的颜色越深说明该视频帧的记忆内容越多。相应地，图8示出的问题的记忆权重表明，上述问题记忆模型可以在待分析视频的若干视频帧的引导下有针对性地记忆待解答问题中与该待分析视频相关的信息，其中，待解答问题的各个单词在问题的记忆权重条上对应的颜色越深说明该单词的记忆内容越多。

基于上述分析可知，本实施例提供的视频记忆模型和问题记忆模型可以并不限于应用于视频问答领域。在一些实施例中，上述视频记忆模型和问题记忆模型还可以应用于很多涉及到视频理解以及跨模态信息分析的领域(例如，视频检索、视频理解、视频文本匹配等领域)中。在另一些实施例中，上述视频记忆模型和问题记忆模型也可以应用于搜索推荐等领域，以实现根据文字进行视频内容的搜索，或者根据视频进行对应文本的搜索。

S1052.根据第一目标特征信息和第二目标特征信息，确定待解答问题对应的答案信息。

其中，上述S1052可以具体包括：

S5-1.根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵，并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵。

具体地，当第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息时，可以将上述视频记忆模型中的隐藏层h^v连接到第一目标特征矩阵V_id，以得到包括所有的视频帧所对应的目标全局特征信息(也即，各个时刻的隐藏层h^v的状态参数值)的第一目标特征矩阵V_id。相应地，还可以将上述问题记忆模型中的隐藏层h^q连接到第二目标特征矩阵T_ex，以得到包括所有单词特征信息所对应的第二目标特征信息(也即，各个时刻的隐藏层h^q的状态参数值)的第二目标特征矩阵T_ex。

S5-2.将第一目标特矩阵输入已训练的第一自注意力模型中进行处理，以得到第一目标特征信息的第一语义远程依赖信息，并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理，以得到第二目标特征信息的第二语义远程依赖信息。

具体地，上述第一自注意力模型和第二自注意力模型可以为如等式(17)所示的基于放缩点积注意力机制的自注意力模型。

其中，Q、K和V分别表示查询(query)、键(key)和值(value)。

在一个实施例中，上述第一自注意力模型可以如等式(18)所示。

V₀＝Attention(V_idW^q，V_idW^k，V_idW^v) (18)

上述第二自注意力模型可以如等式(19)所示。

其中，W是可学习的参数。具体地，上述第一自注意力模型的目的是从视频记忆模型中提取所关注视频特征信息的语义远程依赖关系，以得到对应的第一语义远程依次信息，上述第二自注意力模型的目的问题记忆模型中提取所关注问题特征信息的语义远程依赖关系，以得到对应的第二语义远程依次信息。如此，通过将基于放缩点积注意力机制的自注意力模型用作非局部网络模型，能够更好地提取记忆模型所输出的特征信息的全局依赖性关系。例如，如图8所示，上述第一自注意力模型和第二自注意力模型会分别关注视频记忆模型和问题记忆模型所输出的特征信息的全局依赖性关系，以对应得到视频的自注意力权重和问题的自注意力权重，进而确定正确的答案“throw”，其中，待分析视频的视频帧在视频的自注意力权重条上对应的颜色越深说明该视频帧越重要，待解答问题的各个单词在问题的自注意力权重条上对应的颜色越深说明该单词越重要。

S5-3.根据第一语义远程依赖信息和第二语义远程依赖信息，确定待解答问题对应的答案信息。

其中，上述S5-3可以具体包括：

S5-3-1.使用已训练的互注意力模型对第一语义远程依赖信息和第二语义远程依赖信息进行融合，得到最终特征信息。

具体地，可以通过下面的计算公式(20)计算得到待分析视频到待解答问题的注意力A：

同样，可以通过下面的计算公式(21)计算得到待解答问题到待分析视频的注意力B：

其中，S为权重矩阵，

其中

接着，可以利用如等式(22)所示的已训练的互注意力模型来产生用于答案预测的最终特征信息O。

O＝Concat(V₀，A，V₀⊙A，V₀⊙B) (22)

其中，V是可学习的参数，⊙表示元素之间的乘积，Concat为拼接函数。

S5-3-2.将最终特征信息输入已训练的分类模型中，以得到待解答问题对应的答案。

其中，上述分类模型可以是一个softmax分类器。并且，具体实施时，可以通过使用铰链损失函数(用于待解答问题为多项选择问题的情况)或交叉熵损失函数(用于待解答问题为开放式问题的情况)来优化上述分类模型。

需要说明的是，本实施例示例了以问题为指导对视频进行有针对性的记忆这一种实施方式，但对视频进行有针对性的记忆并不仅限于以问题为指导这一种实施方式，在一些实施例中，还可以以其他与视频问答任务相关的信息为指导对视频进行有针对性的记忆。并且，本实施例中提供的视频记忆模型和问题记忆模型均能有效地从待分析视频和待解答问题中学习全局上下文感知信息，与现有的记忆模型相比，均具有更大的存储阈值，也即，更强的存储能力。

由上可知，本实施例提供的视频分析方法，通过获取待分析视频、以及与待分析视频相关的待解答问题，然后确定待分析视频对应的至少一种视频特征信息，并确定待解答问题对应的问题特征信息，接着将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息，接着根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息，从而在对视频进行语义理解分析时，能够以问题为指导对视频进行有针对性的记忆，进而提高对长时视频的记忆效果。

在上述实施例所述方法的基础上，本实施例将从视频分析装置的角度进一步进行描述，请参阅图9，图9具体描述了本申请实施例提供的视频分析装置，其可以包括：获取模块610、第一确定模块620、第二确定模块630、第三确定模块640和第四确定模块650，其中：

(1)获取模块610

获取模块610，用于获取待分析视频、以及与待分析视频相关的待解答问题。

(2)第一确定模块620

第一确定模块620，用于确定待分析视频对应的至少一种视频特征信息。

其中，第一确定模块620具体包括：

提取单元，用于从待分析视频中提取多个视频帧；

第一确定单元，用于确定每一视频帧对应的至少一种视频特征信息。

(3)第二确定模块630

第二确定模块630，用于确定待解答问题对应的问题特征信息。

(4)第三确定模块640

第三确定模块640，用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息。

其中，上述已训练的视频记忆模型可以包括第一子模型和第二子模型，上述第三确定模块640可以具体包括：

具体地，上述第三确定单元可以用于执行：

将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息，并利用剩余视频帧更新当前视频帧，之后上述第三确定单元返回重新执行将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理。

在一个具体实施例中，上述至少一种视频特征信息可以包括动态特征信息和静态特征信息，第一目标特征信息可以包括目标动态特征信息、目标静态特征信息和目标全局特征信息，上述第二子模型在执行从当前视频帧对应的至少一种视频特征信息中，确定出与待解答问题相关的第一目标特征信息时，可以具体执行：

(5)第四确定模块650

第四确定模块650，用于根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息。

其中，第四确定模块650可以具体包括：

在一个实施例中，上述问题特征信息壳体包含多个单词特征信息，上述已训练的问题记忆模型可以包括第三子模型和第四子模型，上述第四确定单元可以具体包括：

具体地，上述第二确定子单元可以用于执行：

按照单词顺序从多个单词特征信息中确定当前单词特征信息，并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别作为第二历史记忆内容和第二历史特征信息；

将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息，并利用剩余单词特征信息更新当前单词特征信息，之后上述第二确定子单元返回重新执行将当前单词特征信息、问题特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理。

在另一个实施例中，上述第五确定单元可以具体包括：

具体实施时，以上各个子单元、单元和模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个子单元、单元和模块的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例提供的视频分析装置，包括获取模块，用于获取待分析视频、以及与待分析视频相关的待解答问题；第一确定模块，用于确定待分析视频对应的至少一种视频特征信息；第二确定模块，用于确定待解答问题对应的问题特征信息；第三确定模块，用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理，以从视频特征信息中确定出与待解答问题相关的第一目标特征信息；第四确定模块，用于根据第一目标特征信息和问题特征信息，确定待解答问题对应的答案信息，从而在对视频进行语义理解时，能够以问题为指导对视频进行有针对性的记忆，进而提高对长时视频的记忆效果。

相应的，本申请实施例还提供一种服务器，该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群，如图10所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency，RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解，图10中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

RF电路403可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器401处理；另外，将涉及上行的数据发送给基站。通常，RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源404(比如电池)，优选的，电源404可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元405可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元405还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该服务器还可包括显示单元406，该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待分析视频、以及与待分析视频相关的待解答问题；

确定待分析视频对应的至少一种视频特征信息；

确定待解答问题对应的问题特征信息；

该服务器可以实现本申请实施例所提供的任一种视频分析装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本申请实施例所提供的一种视频分析方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分析方法，其特征在于，包括：

获取待分析视频、以及与所述待分析视频相关的待解答问题；

确定所述待分析视频对应的至少一种视频特征信息；

确定所述待解答问题对应的问题特征信息；

将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理，以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息；

根据所述第一目标特征信息和所述问题特征信息，确定所述待解答问题对应的答案信息。

2.根据权利要求1所述的视频分析方法，其特征在于，所述已训练的视频记忆模型包括第一子模型和第二子模型，所述确定所述待分析视频对应的至少一种视频特征信息，具体包括：

从所述待分析视频中提取多个视频帧；

确定每一所述视频帧对应的至少一种视频特征信息；

所述将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理，以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息，具体包括：

按照时间顺序依次将所述多个视频帧对应的所述至少一种视频特征信息输入所述第一子模型中进行处理，以得到每一所述视频帧对应的第一记忆内容；

根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型，从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息。

3.根据权利要求2所述的视频分析方法，其特征在于，所述根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型，从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息，具体包括：

按照所述时间顺序从所述多个视频帧中确定当前视频帧，并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息；

将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理，以使所述第二子模型从所述当前视频帧对应的所述至少一种视频特征信息中，确定出与所述待解答问题相关的第一目标特征信息；

将所述当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为所述第一历史记忆内容和所述第一历史特征信息，并利用剩余视频帧更新所述当前视频帧，之后返回执行所述将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理的步骤。

4.根据权利要求3所述的视频分析方法，其特征在于，所述至少一种视频特征信息包括动态特征信息和静态特征信息，所述第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息，所述从所述当前视频帧对应的所述至少一种视频特征信息中，确定出与所述待解答问题相关的第一目标特征信息，具体包括：

根据所述当前视频帧对应的所述动态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息，从所述当前视频帧对应的所述动态特征信息中，确定出与所述待解答问题相关的目标动态特征信息；

根据所述当前视频帧对应的所述静态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息，从所述当前视频帧对应的所述静态特征信息中，确定出与所述待解答问题相关的目标静态特征信息；

根据所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息，确定所述当前视频帧对应的与所述待解答问题相关的目标全局特征信息。

5.根据权利要求2所述的视频分析方法，其特征在于，所述根据所述第一目标特征信息和所述问题特征信息，确定所述待解答问题对应的答案信息，具体包括：

将所述至少一种视频特征信息和所述问题特征信息输入已训练的问题记忆模型中进行处理，以从所述问题特征信息中确定出与所述待分析视频相关的第二目标特征信息；

根据所述第一目标特征信息和所述第二目标特征信息，确定所述待解答问题对应的答案信息。

6.根据权利要求5所述的视频分析方法，其特征在于，所述问题特征信息包含多个单词特征信息，所述已训练的问题记忆模型包括第三子模型和第四子模型，所述将所述至少一种视频特征信息和所述问题特征信息输入已训练的问题记忆模型中进行处理，以从所述问题特征信息中确定出与所述待分析视频相关的第二目标特征信息，具体包括：

按照所述待解答问题的单词顺序依次将所述多个单词特征信息输入所述第三子模型中进行处理，以得到每一所述单词特征信息对应的第二记忆内容；

根据所述多个单词特征信息、所述至少一种视频特征信息、所述第二记忆内容和所述第四子模型，从每一所述单词特征信息中确定出与所述待分析视频相关的第二目标特征信息。

7.根据权利要求6所述的视频分析方法，其特征在于，所述根据所述多个单词特征信息、所述至少一种视频特征信息、所述第二记忆内容和所述第四子模型，从每一所述单词特征信息中确定出与所述待分析视频相关的第二目标特征信息，具体包括：

按照所述单词顺序从所述多个单词特征信息中确定当前单词特征信息，并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别分别作为第二历史记忆内容和所述第二历史特征信息；

将所述当前单词特征信息、所述至少一种视频特征信息、所述第二历史记忆内容和所述第二历史特征信息输入所述第四子模型进行处理，以使所述第四子模型从所述当前单词特征信息中，确定出与所述待分析视频相关的第二目标特征信息；

将所述当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为所述第二历史记忆内容和所述第二历史特征信息，并利用剩余单词特征信息更新所述当前单词特征信息，之后返回执行所述将所述当前单词特征信息、所述问题特征信息、所述第二历史记忆内容和所述第二历史特征信息输入所述第四子模型进行处理的步骤。

8.根据权利要求6所述的视频分析方法，其特征在于，所述根据所述第一目标特征信息和所述第二目标特征信息，确定所述待解答问题对应的答案信息，具体包括：

根据所述多个视频帧对应的所述第一目标特征信息得到第一目标特征矩阵，并根据所述多个单词特征信息对应的所述第二目标特征信息得到第二目标特征矩阵；

将所述第一目标特矩阵输入已训练的第一自注意力模型中进行处理，以得到所述第一目标特征信息的第一语义远程依赖信息，并将所述第二目标特矩阵输入已训练的第二自注意力模型中进行处理，以得到所述第二目标特征信息的第二语义远程依赖信息；

根据所述第一语义远程依赖信息和所述第二语义远程依赖信息，确定所述待解答问题对应的答案信息。

9.一种视频分析装置，其特征在于，包括：

获取模块，用于获取待分析视频、以及与所述待分析视频相关的待解答问题；

第一确定模块，用于确定所述待分析视频对应的至少一种视频特征信息；

第二确定模块，用于确定所述待解答问题对应的问题特征信息；

第三确定模块，用于将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理，以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息；

第四确定模块，用于根据所述第一目标特征信息和所述问题特征信息，确定所述待解答问题对应的答案信息。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-8任一项所述的视频分析方法中的步骤。