CN113392686A - 视频分析方法、装置及存储介质 - Google Patents

视频分析方法、装置及存储介质 Download PDF

Info

Publication number
CN113392686A
CN113392686A CN202011073795.0A CN202011073795A CN113392686A CN 113392686 A CN113392686 A CN 113392686A CN 202011073795 A CN202011073795 A CN 202011073795A CN 113392686 A CN113392686 A CN 113392686A
Authority
CN
China
Prior art keywords
video
characteristic information
question
feature information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011073795.0A
Other languages
English (en)
Inventor
单瀛
蔡佳音
袁春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202011073795.0A priority Critical patent/CN113392686A/zh
Publication of CN113392686A publication Critical patent/CN113392686A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种视频分析方法、装置及存储介质,该视频分析方法包括:获取待分析视频、以及与待分析视频相关的待解答问题;确定待分析视频对应的至少一种视频特征信息;确定待解答问题对应的问题特征信息;将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息,从而在对视频进行语义理解分析时,能够以问题为指导对视频进行有针对性的记忆,进而提高对长时视频的记忆效果。

Description

视频分析方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种视频分析方法、装置及存储介质。
背景技术
视频问答(VideoQA)旨在对视频的时空内容进行高级推理,并针对自然语言所描绘的给定视频相关问题推断正确答案。
目前,对于视频问答任务所采用的技术方案是利用已训练的深度学习模型提取视频的表示向量,再通过注意力机制或者记忆模型来对视频和问题这两个模态的特征进行融合和记忆,最后经过一个分类器生成答案。
但是,现有的记忆模块会记忆大量与问题无关的视频信息,进而导致对长时视频信息的记忆效果差的问题。
发明内容
本申请的目的在于提供一种视频分析方法、装置及存储介质,以提高对长时视频的记忆效果。
本申请实施例提供了一种视频分析方法,包括:
获取待分析视频、以及与待分析视频相关的待解答问题;
确定待分析视频对应的至少一种视频特征信息;
确定待解答问题对应的问题特征信息;
将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;
根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
本申请实施例还提供了一种视频分析装置,包括:
获取模块,用于获取待分析视频、以及与待分析视频相关的待解答问题;
第一确定模块,用于确定待分析视频对应的至少一种视频特征信息;
第二确定模块,用于确定待解答问题对应的问题特征信息;
第三确定模块,用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;
第四确定模块,用于根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
其中,已训练的视频记忆模型包括第一子模型和第二子模型,第一确定模块具体包括:
提取单元,用于从待分析视频中提取多个视频帧;
第一确定单元,用于确定每一视频帧对应的至少一种视频特征信息;
第三确定模块具体包括:
第二确定单元,用于按照时间顺序依次将多个视频帧对应的所述至少一种视频特征信息输入第一子模型中进行处理,以得到每一视频帧对应的第一记忆内容;
第三确定单元,用于根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型,从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。
其中,第三确定单元具体用于:
按照时间顺序从多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息;
将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理,以使第二子模型从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息;
将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息,并利用剩余视频帧更新当前视频帧,之后返回执行将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理的步骤。
其中,至少一种视频特征信息包括动态特征信息和静态特征信息,第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息,从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息,具体包括:
根据当前视频帧对应的动态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的动态特征信息中,确定出与待解答问题相关的目标动态特征信息;
根据当前视频帧对应的静态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的静态特征信息中,确定出与待解答问题相关的目标静态特征信息;
根据第一历史记忆内容、第一历史特征信息和问题特征信息,确定当前视频帧对应的与待解答问题相关的目标全局特征信息。
其中,第四确定模块具体包括:
第四确定单元,用于将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理,以从问题特征信息中确定出与待分析视频相关的第二目标特征信息;
第五确定单元,用于根据第一目标特征信息和第二目标特征信息,确定待解答问题对应的答案信息。
其中,问题特征信息包含多个单词特征信息,已训练的问题记忆模型包括第三子模型和第四子模型,第四确定单元具体包括:
第一确定子单元,用于按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理,以得到每一单词特征信息对应的第二记忆内容;
第二确定子单元,用于根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型,从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。
其中,第二确定子单元具体用于:
按照单词顺序从多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别分别作为第二历史记忆内容和第二历史特征信息;
将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理,以使第四子模型从当前单词特征信息中,确定出与待分析视频相关的第二目标特征信息;
将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息,并利用剩余单词特征信息更新当前单词特征信息,之后返回执行将当前单词特征信息、问题特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理的步骤。
其中,第五确定单元具体包括:
第三确定子单元,用于根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵,并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵;
第四确定子单元,用于将第一目标特矩阵输入已训练的第一自注意力模型中进行处理,以得到第一目标特征信息的第一语义远程依赖信息,并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理,以得到第二目标特征信息的第二语义远程依赖信息;
第五确定子单元,用于根据第一语义远程依赖信息和第二语义远程依赖信息,确定待解答问题对应的答案信息。
本申请实施例还提供了一种计算机可读存储介质,存储介质中存储有多条指令,指令适于由处理器加载以执行上述任一项视频分析方法。
本申请实施例还提供了一种服务器,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一项视频分析方法中的步骤。
本申请提供的视频分析方法、装置及存储介质,通过获取待分析视频、以及与待分析视频相关的待解答问题,然后确定待分析视频对应的至少一种视频特征信息,并确定待解答问题对应的问题特征信息,接着将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息,接着根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息,从而在对视频进行语义理解分析时,能够以问题为指导对视频进行有针对性的记忆,进而提高对长时视频的记忆效果。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是本申请实施例提供的视频分析***的场景示意图;
图2是本申请实施例提供的视频分析方法的流程示意图;
图3是本申请实施例提供的待分析视频的截图;
图4是本申请实施例提供的视频分析方法的另一流程示意图;
图5是本申请实施例提供的视频分析方法的执行流程示意图。
图6是本申请实施例提供的视频记忆模型的结构示意图;
图7是本申请实施例提供的问题记忆模型的结构示意图;
图8是本申请实施例提供的对待分析视频和待解答问题进行有针对性记忆的效果示意图;
图9是本申请实施例提供的视频分析装置的结构示意图;
图10是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的视频分析方法可以通过计算机视觉技术对视频内容进行语义理解分析。其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,计算机视觉就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体涉及一种视频分析方法、装置及存储介质。
请参阅图1,图1为本申请实施例提供的视频分析***的场景示意图,该视频分析***可以包括本申请实施例提供的任一种视频分析装置,该视频分析装置具体可以集成在服务器,比如视频服务器中,其中服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
该服务器可以获取待分析视频、以及与待分析视频相关的待解答问题;确定待分析视频对应的至少一种视频特征信息;确定待解答问题对应的问题特征信息;将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
此外,上述视频分析***还可以包括与服务器通过网络连接的终端,该终端可以是智能手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等具有视频播放功能的设备。
具体地,如图1所示,终端可以播放视频V1,并在视频播放过程中接收用户输入的针对播放的视频V1所提出的问题(比如,“在抬起对手之后猛击对手的脸之前,人在做什么?”),以触发服务器对该播放的视频V1进行分析,之后,上述终端可以接收服务器发送的答案(比如,“投掷”),并向用户提供该答案。
如图2所示,图2是本申请实施例提供的视频分析方法的流程示意图,该视频分析方法具体流程可以如下:
S101.获取待分析视频、以及与待分析视频相关的待解答问题。
其中,待解答问题可以是用户使用终端观看待分析视频时在该终端上输入的针对该待分析视频所提出的问题,且具体可以是用自然语言描述的问题,比如,如图3所示,对于待分析视频V2,与该待分析视频V2相关的待解答问题可以为“女人抱着什么?”。上述待分析视频可以是存储于终端本地或服务器上的完整的已有视频。可以理解的是,上述待分析视频中包含有与上述待解答问题的答案相关的内容,也即,通过计算机视觉技术对待分析视频进行语义理解,能够得到该待解答问题对应的答案,比如,由图3(也即,待分析视频V2中的一帧图像)可知,上述待解答问题“女人抱着什么?”对应的答案为“猫”。
S102.确定待分析视频对应的至少一种视频特征信息。
其中,如图4所示,上述S102可以具体包括:
S1021.从待分析视频中提取多个视频帧。
具体地,由于一个视频的帧数非常多,每帧图像都处理容易造成不必要的冗余,而且处理量也会过大。所以,上述视频分析装置可以按照预设时间间隔(比如,1秒)或预设帧间隔(比如,60帧)从待分析视频中提取多个视频帧,其中,每一视频帧可以为静态图像。例如,以待分析视频的总时长为3分钟为例,上述视频分析装置可以从待分析视频的第一帧开始,每间隔1秒从该待分析视频中提取一帧,以得到181个视频帧。可以理解的是,上述视频帧的采样时间间隔或采样帧间隔应该大小适当,以在不影响待分析视频的语义理解准确性的情况下,提高视频分析的效率。
S1022.确定每一视频帧对应的至少一种视频特征信息。
具体地,上述至少一种视频特征信息可以包括动态特征信息和静态特征信息,其中,静态特征信息用于表征一个视频帧本身的特征,动态特征信息用于表征待分析视频中的其他视频帧到该视频帧的过程的动态特征。
在一个具体实施例中,如图4所示,上述S1022可以包括:
S1-1.利用动态特征提取网络从每一视频帧中提取原始动态特征信息,并对原始动态特征信息进行编码处理,以得到对应的动态特征信息。
具体地,如图5所示,上述视频分析装置可以将从待分析视频中提取得到的多个视频帧F输入动态特征提取网络(比如,已训练的C3D网络)中进行处理,得到每一视频帧F对应的原始动态特征信息fm t,并按照时间顺序将上述多个视频帧F对应的原始动态特征信息fm t进行排序,得到该待分析视频的原始动态特征信息序列Fm,Fm=(fm 1,fm 2,...,fm N)。接着,上述视频分析装置可以将该原始动态特征信息序列Fm输入由长短期记忆网络(LSTM)构成的第一编码器B1中进行编码,以得到待分析视频对应的动态特征信息序列Im,Im=(im 1,im 2,...,im N),第t个视频帧对应动态特征信息序列Im中的第t个动态特征信息im t。其中,N等于取样的帧数,上标m代表提取的为视频的动态特征,t为位于[1,N]区间中的自然数,C3D网络为3维卷积网络。
S1-2.利用静态特征提取网络从每一视频帧中提取原始动态特征信息,并对原始静态特征信息进行编码处理,以得到对应的静态特征信息。
具体地,如图5所示,上述视频分析装置可以将从待分析视频中提取得到的多个视频帧F输入静态特征提取网络(比如,已训练的ResNet网络或VGG网络)中进行处理,得到每一视频帧F对应的原始静态特征信息fa t,并按照时间顺序将上述多个视频帧F对应的原始动态特征信息fa t进行排序,得到该待分析视频的原始静态特征信息序列Fa,Fa=(fa 1,fa 2,...,fa N)。接着,上述视频分析装置可以将该原始静态特征信息序列Fa输入由长短期记忆网络(LSTM)构成的第二编码器B2中进行编码,以得到待分析视频对应的静态特征信息序列Ia,Ia=(ia 1,ia 2,...,ia N),第t个视频帧对应静态特征信息序列Ia中的第t个动态特征信息ia t。其中,N等于取样的帧数,上标a代表提取的为视频的静态特征,t为位于[1,N]区间中的自然数,ResNet网络为残差网络,VGG网络是一种深度卷积神经网络。
S103.确定待解答问题对应的问题特征信息。
其中,如图4所示,上述S103可以具体包括:
S1031.将待解答问题中的每个单词转换为对应的词向量,以得到待解答问题对应的问题嵌入表示。
具体地,如图5所示,上述视频分析装置可以根据待解答问题的单词顺序将上述待解答问题转换为一个单词序列C,C=(c1,c2,...,cT),待解答问题中第t个单词对应单词序列C中的第t个单词ct。接着,可以使用单词映射的方法利用嵌入层将该单词序列C中的每个单词ct映射到其语义表达,并使用已训练的GloVe模型对该语义表达进行初始化,以得到300-D(300个维度)的词向量qt,进而得到待解答问题对应的问题嵌入表示Q,Q=(q1,q2,...,qT)。其中,T是待解答问题中的单词数,t为位于[1,N]区间中的自然数。
S1032.对问题嵌入表示进行编码处理,以得到待处理问题对应的问题特征信息。
具体地,可以将上述问题嵌入表示Q输入由长短期记忆网络构成的第三编码器B3中进行编码,以得到待处理问题对应的问题特征信息Iq=(iq 1,iq 2,...,iq N)。可以理解的是,上述问题特征信息Iq包含多个单词特征信息iq t,单词特征信息iq t与待解答问题中的第t个单词相对应。其中,T是待解答问题中的单词数,t为位于[1,N]区间中的自然数。
S104.将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息。
其中,上述至少一种视频特征信息可以包括动态特征信息im t和静态特征信息ia t,且每种视频特征信息均是通过利用对应的特征提取网络从相应视频帧中提取原始视频特征信息,并对该原始视频特征信息进行编码处理后得到的。上述问题特征信息可以包括多个单词特征信息iq t,且每一单词特征信息iq t均是通过将待解答问题中对应的单词转换为相应的词向量,并对该词向量进行编码处理后得到的。上述已训练的视频记忆模型可以包括第一子模型以及与第一子模型连接的第二子模型,上述S104可以具体包括:
S1041.按照时间顺序依次将多个视频帧对应的至少一种视频特征信息输入第一子模型中进行处理,以得到每一视频帧对应的第一记忆内容。
具体地,上述S1041可以具体包括:
S2-1.按照时间顺序从多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一目标特征信息和第一记忆内容分别作为第一历史特征信息和第一历史记忆内容。
具体地,如图6所示,上述视频记忆模型还可以包括视频内存层Mv和至少一个隐藏层hm/ha/hv,其中,内存层Mv=(m1,m2,...,mS),也即视频内存层Mv具有S个内存状态。在本实施例中,在当前视频帧为上述从待分析视频中提取得到的多个视频帧中时间顺序排在第一位的视频帧,也即,上述多个视频帧中不存在时间顺序位于当前视频帧之前的视频帧时,上述视频分析装置可以将该视频记忆模型中至少一个隐藏层hm,ha和hv的状态参数初始值,也即,
Figure BDA0002716039970000091
Figure BDA0002716039970000092
作为当前视频帧的上一视频帧对应的第一目标特征信息,将该视频记忆模型中内存层Mv的状态参数初始值,也即,M0,作为当前视频帧的上一视频帧对应的第一记忆内容。并且,上述内存层Mv和至少一个隐藏层hm,ha和hv的状态参数初始值可通过对上述视频记忆模型进行预训练而得到。
S2-2.将当前视频帧对应的至少一种视频特征信息、第一历史特征信息和第一历史记忆内容输入第一子模型进行处理,以使第一子模型确定当前视频帧对应的第一记忆内容。
具体地,在得到当前视频帧对应的第一记忆内容之后,还可以利用当前视频帧对应的第一记忆内容对上述视频记忆模型中内存层Mv的多个状态参数值进行更新,以将第一记忆内容存储于上述内存层Mv中。
S2-3.将当前视频帧对应的第一目标特征信息和第一记忆内容分别更新为第一历史特征信息和第一历史记忆内容,并利用剩余视频帧更新当前视频帧,之后返回执行上述S2-2。
如此,上述S2-2和S2-3能够形成循环,且每循环一次,均会得到更新后的当前视频帧对应的第一记忆内容,直至得到所有视频帧对应的第一记忆内容。
S1042.根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型,从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。
具体地,上述S1042可以具体包括:
S3-1.按照时间顺序从多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息。
其中,上述S3-1的具体实施例方式可以参见上述S2-1的具体实施方式,故在此不再赘述。
S3-2.将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理,以使第二子模型从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息。
具体地,在得到当前视频帧对应的第一目标特征信息之后,还可以利用当前视频帧对应的第一目标特征信息对上述视频记忆模型中各个隐藏层hm/ha/hv的状态参数值进行更新,以将第一目标特征信息存储于上述至少一个隐藏层hm/ha/hv中。
S3-3.将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息,并利用剩余视频帧更新当前视频帧,之后返回执行上述S3-2。
如此,上述S3-2和S3-3能够形成循环,且每循环一次,均会从更新后的当前视频帧对应的视频特征信息中,确定出与待解答问题相关的第一目标特征信息,直至得到所有视频帧对应的第一目标特征信息。
其中,上述利用剩余视频帧更新当前视频帧,可以理解为利用剩余视频帧中时间顺序排在当前视频帧后一位的视频帧对当前视频帧进行更新。
在一个具体实施例中,上述至少一种视频特征信息可以包括动态特征信息和静态特征信息,相应地,上述第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息,上述第二子模型从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息,可以具体包括:
根据当前视频帧对应的动态特征信息、第一历史记忆内容、问题特征信息和第一历史特征信息,从当前视频帧对应的动态特征信息中,确定出与待解答问题相关的目标动态特征信息;
根据当前视频帧对应的静态特征信息、第一历史记忆内容、问题特征信息和第一历史特征信息,从当前视频帧对应的静态特征信息中,确定出与待解答问题相关的目标静态特征信息;
根据第一历史记忆内容、问题特征信息和第一历史特征信息,确定当前视频帧对应的与待解答问题相关的目标全局特征信息。
具体地,在得到当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息之后,还可以利用当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息分别对上述视频记忆模型中隐藏层hm、隐藏层ha和隐藏层hv的状态参数值进行更新,以将目标动态特征信息存储于上述隐藏层hm中,将目标静态特征信息存储于上述隐藏层ha中,以及将目标全局特征信息存储于上述隐藏层hv中。其中,目标全局特征信息可以用于表征上述待分析视频的动态特征信息和静态特征信息的融合语义信息。
相应地,上述第一子模型确定当前视频帧对应的第一记忆内容,可以具体包括:
根据第一历史特征信息中所包含的目标动态特征信息和当前视频帧对应的动态特征信息,确定当前视频帧对应的动态特征记忆内容。
根据第一历史特征信息中所包含的目标静态特征信息和当前视频帧对应的静态特征信息,确定当前视频帧对应的静态特征记忆内容。
根据当前视频帧对应的动态特征记忆内容和静态特征记忆内容、第一历史特征信息中所包含的目标全局特征信息以及第一历史记忆内容,确定当前视频帧对应的第一记忆内容。
具体举例,在第二子模型中,可以通过计算公式(1)~(4)来计算得到当前视频帧对应的目标动态特征信息、目标静态特征信息和目标全局特征信息,其中,计算公式如下:
rt=βt·Mt-1 (1)
Figure BDA0002716039970000121
其中,·表示内积,
Figure BDA0002716039970000122
是可学习的权重。βt是由当前视频帧的上一视频帧对应的目标动态特征信息
Figure BDA0002716039970000123
目标静态特征信息
Figure BDA0002716039970000124
和目标全局特征信息
Figure BDA0002716039970000125
所决定的读取权重。在一个实施例中,d可以为512。FC表示全连接层,使用tanh(双曲正切函数)作为非线性激活函数。rt表示从上述视频记忆模型的内存层Mv中读取的内容,具体为内存层Mv中多个内存状态的加权和。接着,基于当前读取的内容rt、以及当前输入的动态特征信息
Figure BDA0002716039970000126
静态特征信息
Figure BDA0002716039970000127
和问题特征信息iq,利用计算公式(3)和(4)计算当前视频帧对应的目标动态特征信息
Figure BDA0002716039970000128
(也即,当前时刻t的隐藏层hm的状态参数值)、目标静态特征信息
Figure BDA0002716039970000129
(也即,当前时刻t的隐藏层ha的状态参数值)和目标全局特征信息
Figure BDA00027160399700001210
(也即,当前时刻t的隐藏层hv的状态参数值)。
Figure BDA00027160399700001211
Figure BDA00027160399700001212
其中,
Figure BDA00027160399700001213
表示
Figure BDA00027160399700001214
Figure BDA00027160399700001215
σ表示sigmoid函数。在本实施例中,通过在每个时间步将问题指导包括在隐藏层的状态参数值更新操作中,经过问题(文本)增强的视频记忆模块可以存储与问题最相关的视频内容,进而提高视频信息的存储效率。
相应地,在第一子模型中,可以通过计算公式(5)~(10)来计算得到当前视频帧对应的第一记忆内容Mt(也即,当前时刻t的内存层Mv的状态参数值),其中,计算公式如下:
Figure BDA00027160399700001216
Figure BDA00027160399700001217
其中,ct是由上一视频帧对应的目标动态特征信息
Figure BDA00027160399700001218
和目标静态特征信息
Figure BDA00027160399700001219
所决定的内容向量,W是可学习的参数,b是偏差。内容向量ct将用于计算当前视频帧对应的写入权重
Figure BDA00027160399700001220
Figure BDA00027160399700001221
在对内存层Mv的状态参数值进行更新时,需要考虑上述待分析视频的动态特征信息和静态特征信息分别占了多少比重,也就是计算
Figure BDA0002716039970000131
如计算公式(7)所示。
Figure BDA0002716039970000132
是由ct经过一个softmax函数得到的位于0和1之间的一个权重。
Figure BDA0002716039970000133
Figure BDA0002716039970000134
在对内存层Mv的状态参数值进行更新时,同样需要考虑上一视频帧对应的第一记忆内容(也即,上一时刻(t-1)的内存层Mv的状态参数值)有多少在当前时刻t需要保留,这个比率就是μ。μ是由g经过一个softmax函数得到的位于0和1之间的一个权重。g是由上一视频帧对应的目标全局特征信息
Figure BDA0002716039970000135
以及计算公式(5)和(6)中的ct所决定的。
Figure BDA0002716039970000136
最终,当前视频帧对应的第一记忆内容Mt(也即,当前时刻t的内存层Mv的状态参数值)可由计算公式(10)计算得到。
S105.根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
其中,如图4所示,上述S105可以具体包括:
S1051.将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理,以从问题特征信息中确定出与待分析视频相关的第二目标特征信息。
其中,上述问题特征信息可以包含多个单词特征信息,上述已训练的问题记忆模型可以包括第三子模型以及与第三子模型连接的第四子模型,上述S1051可以具体包括:
S4-1.按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理,以得到每一单词特征信息对应的第二记忆内容。
具体地,上述S4-1可以具体包括:
S4-1-1.按照单词顺序从多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二目标特征信息和第二记忆内容分别作为第二历史特征信息和第二历史记忆内容。
具体地,如图7所示,上述问题记忆模型还可以包括问题内存层Mq和隐藏层hq,其中,内存层Mq=(m1,m2,...,mS),也即问题内存层Mq具有S个内存状态。在本实施例中,在当前单词特征信息为上述多个单词特征信息中单词顺序排在第一位的单词特征信息,也即,上述多个单词特征信息中不存在单词顺序位于当前单词特征信息之前的单词特征信息时,上述视频分析装置可以将该问题记忆模型中隐藏层hq的状态参数初始值,也即,
Figure BDA0002716039970000141
作为当前单词特征信息的上一单词特征信息对应的第二目标特征信息,将该问题记忆模型中内存层Mq的状态参数初始值,也即,Mq 0,作为当前单词特征信息的上一单词特征信息对应的第二记忆内容。并且,上述状态参数初始值可通过对上述视频记忆模型进行预训练而得到。
S4-1-2.将当前单词特征信息、第二历史特征信息和第二历史记忆内容输入第三子模型进行处理,以使第三子模型确定当前单词特征信息对应的第二记忆内容。
具体地,在得到上述当前单词特征信息对应的第二记忆内容之后,还可以利用当前单词特征信息对应的第二记忆内容对上述问题记忆模型中内存层Mq的多个状态参数值进行更新,以将该第二记忆内容存储于上述内存层Mq中。
S4-1-3.将当前单词特征信息对应的第二目标特征信息和第二记忆内容分别更新为第二历史特征信息和第二历史记忆内容,并利用剩余单词特征信息更新当前单词特征信息,之后返回执行上述S4-1-2。
如此,上述S4-1-2和S4-1-3能够形成循环,且每循环一次,均会得到更新后的当前单词特征信息对应的第二记忆内容,直至得到所有单词特征信息对应的第二记忆内容。
S4-2.根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型,从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。
具体地,上述S4-2可以具有包括:
S4-2-1.按照单词顺序从多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别作为第二历史记忆内容和第二历史特征信息。
其中,上述S4-2-1的具体实施例方式可以参见上述S4-1-1的具体实施方式,故在此不再赘述。
S4-2-2.将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理,以使第四子模型从当前单词特征信息中,确定出与待分析视频相关的第二目标特征信息。
具体地,在得到上述当前单词特征信息对应的第二目标特征信息之后,还可以利用当前单词特征信息对应的第二目标特征信息对上述问题记忆模型中隐藏层hq的状态参数值进行更新,以将第二目标特征信息存储于该隐藏层hq中。
S4-2-3.将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息,并利用剩余单词特征信息更新当前单词特征信息,之后返回执行上述S4-2-2。
如此,上述S4-2-2和S4-2-3能够形成循环,且每循环一次,均会从更新后的当前单词特征信息中确定出与待分析视频相关的第二目标特征信息,直至得到所有单词特征信息对应的第二目标特征信息。
其中,上述利用剩余单词特征信息更新当前单词特征信息,可以理解为利用剩余单词特征信息中单词顺序排在当前单词特征信息后一位的单词特征信息对当前单词特征信息进行更新,其中,单词顺序可以理解为待解答问题中各个单词出现的先后顺序,比如待解答问题“这个人在做什么”,该待解答问题包括“这”、“个”、“人”、“在”、“干”、“什”和“么”这七个单词,按照出现的先后顺序,有前往后依次可以为“这”、“个”、“人”、“在”、“干”、“什”和“么”。
具体举例,在第四子模型中,可以通过计算公式(11)~(13)来计算得到当前单词特征信息对应的第二目标特征信息
Figure BDA0002716039970000151
其中,计算公式如下:
Figure BDA0002716039970000152
Figure BDA0002716039970000153
其中,·表示内积,
Figure BDA0002716039970000154
是可学习的权重。
Figure BDA0002716039970000155
是由当前单词特征信息的上一单词特征信息对应的第二目标特征信息
Figure BDA0002716039970000156
和当前时刻t输入的当前单词特征信息
Figure BDA0002716039970000157
所决定的读取权重。rt表示从上述问题记忆模型的内存层Mq中读取的内容,具体为内存层Mq中多个内存状态的加权和。接着,基于上一单词特征信息对应的第二目标特征信息
Figure BDA0002716039970000158
当前读取的内容rt、以及当前时刻t输入的当前单词特征信息
Figure BDA0002716039970000159
动态特征信息im和静态特征信息ia,利用计算公式(13)计算当前单词特征信息
Figure BDA00027160399700001510
对应的第二目标特征信息
Figure BDA0002716039970000161
(也即,当前时刻t的隐藏层hq的状态参数值)。
Figure BDA0002716039970000162
相应地,在第三子模型中,可以计算公式(14)~(16)来计算得到当前单词特征信息
Figure BDA0002716039970000163
对应的第二记忆内容
Figure BDA0002716039970000164
(也即,当前时刻t的内存层Mq的状态参数值),其中,计算公式如下:
Figure BDA0002716039970000165
其中,
Figure BDA0002716039970000166
是由当前时刻t输入的当前单词特征信息
Figure BDA0002716039970000167
以及上一单词特征信息对应的第二目标特征信息
Figure BDA0002716039970000168
所决定的内容向量。内容向量
Figure BDA0002716039970000169
将用于计算当前单词特征信息对应的写入权重αt,i,如计算公式(15)所示。
Figure BDA00027160399700001610
Figure BDA00027160399700001611
上述问题记忆模型的内存层Mq中所有内存状态的写入权重αt,i取决于当前时刻t的内容向量
Figure BDA00027160399700001612
和上一单词特征信息对应的第二目标特征信息。
Figure BDA00027160399700001613
最终,当前单词特征信息
Figure BDA00027160399700001614
对应的第二记忆内容
Figure BDA00027160399700001615
(也即,当前时刻t的内存层Mq的状态参数值)可由计算公式(16)计算得到,其中,
Figure BDA00027160399700001616
S为内存层Mq所包含的内存状态的数量。
可以理解的是,上述实施例中的视频记忆模型和问题记忆模型以跨模态信息为指导,能够分别实现对长时视频和问题长句进行有针对性地记忆的功能,进而能够对长视频理解和问题长句理解起到积极的作用。例如,如图8所示,待分析视频为摔跤比赛视频,且在该待分析视频中,男人首先举起对手,然后将他摔倒在地并挥拳。图8示出的视频的记忆权重表明,上述视频记忆模型可以在待解答问题“What is a man doing after lifting hisopponent before punches his face?”的引导下有针对性地记忆待分析视频中与该待解答问题相关的信息(例如,“lifting his opponent”和“punches his face”),其中,待分析视频的视频帧在视频的记忆权重条上对应的颜色越深说明该视频帧的记忆内容越多。相应地,图8示出的问题的记忆权重表明,上述问题记忆模型可以在待分析视频的若干视频帧的引导下有针对性地记忆待解答问题中与该待分析视频相关的信息,其中,待解答问题的各个单词在问题的记忆权重条上对应的颜色越深说明该单词的记忆内容越多。
基于上述分析可知,本实施例提供的视频记忆模型和问题记忆模型可以并不限于应用于视频问答领域。在一些实施例中,上述视频记忆模型和问题记忆模型还可以应用于很多涉及到视频理解以及跨模态信息分析的领域(例如,视频检索、视频理解、视频文本匹配等领域)中。在另一些实施例中,上述视频记忆模型和问题记忆模型也可以应用于搜索推荐等领域,以实现根据文字进行视频内容的搜索,或者根据视频进行对应文本的搜索。
S1052.根据第一目标特征信息和第二目标特征信息,确定待解答问题对应的答案信息。
其中,上述S1052可以具体包括:
S5-1.根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵,并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵。
具体地,当第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息时,可以将上述视频记忆模型中的隐藏层hv连接到第一目标特征矩阵Vid,以得到包括所有的视频帧所对应的目标全局特征信息(也即,各个时刻的隐藏层hv的状态参数值)的第一目标特征矩阵Vid。相应地,还可以将上述问题记忆模型中的隐藏层hq连接到第二目标特征矩阵Tex,以得到包括所有单词特征信息所对应的第二目标特征信息(也即,各个时刻的隐藏层hq的状态参数值)的第二目标特征矩阵Tex
S5-2.将第一目标特矩阵输入已训练的第一自注意力模型中进行处理,以得到第一目标特征信息的第一语义远程依赖信息,并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理,以得到第二目标特征信息的第二语义远程依赖信息。
具体地,上述第一自注意力模型和第二自注意力模型可以为如等式(17)所示的基于放缩点积注意力机制的自注意力模型。
Figure BDA0002716039970000171
其中,Q、K和V分别表示查询(query)、键(key)和值(value)。
在一个实施例中,上述第一自注意力模型可以如等式(18)所示。
V0=Attention(VidWq,VidWk,VidWv) (18)
上述第二自注意力模型可以如等式(19)所示。
Figure BDA0002716039970000181
其中,W是可学习的参数。具体地,上述第一自注意力模型的目的是从视频记忆模型中提取所关注视频特征信息的语义远程依赖关系,以得到对应的第一语义远程依次信息,上述第二自注意力模型的目的问题记忆模型中提取所关注问题特征信息的语义远程依赖关系,以得到对应的第二语义远程依次信息。如此,通过将基于放缩点积注意力机制的自注意力模型用作非局部网络模型,能够更好地提取记忆模型所输出的特征信息的全局依赖性关系。例如,如图8所示,上述第一自注意力模型和第二自注意力模型会分别关注视频记忆模型和问题记忆模型所输出的特征信息的全局依赖性关系,以对应得到视频的自注意力权重和问题的自注意力权重,进而确定正确的答案“throw”,其中,待分析视频的视频帧在视频的自注意力权重条上对应的颜色越深说明该视频帧越重要,待解答问题的各个单词在问题的自注意力权重条上对应的颜色越深说明该单词越重要。
S5-3.根据第一语义远程依赖信息和第二语义远程依赖信息,确定待解答问题对应的答案信息。
其中,上述S5-3可以具体包括:
S5-3-1.使用已训练的互注意力模型对第一语义远程依赖信息和第二语义远程依赖信息进行融合,得到最终特征信息。
具体地,可以通过下面的计算公式(20)计算得到待分析视频到待解答问题的注意力A:
Figure BDA0002716039970000182
同样,可以通过下面的计算公式(21)计算得到待解答问题到待分析视频的注意力B:
Figure BDA0002716039970000183
其中,S为权重矩阵,
Figure BDA0002716039970000184
其中
Figure BDA0002716039970000185
接着,可以利用如等式(22)所示的已训练的互注意力模型来产生用于答案预测的最终特征信息O。
O=Concat(V0,A,V0⊙A,V0⊙B) (22)
其中,V是可学习的参数,⊙表示元素之间的乘积,Concat为拼接函数。
S5-3-2.将最终特征信息输入已训练的分类模型中,以得到待解答问题对应的答案。
其中,上述分类模型可以是一个softmax分类器。并且,具体实施时,可以通过使用铰链损失函数(用于待解答问题为多项选择问题的情况)或交叉熵损失函数(用于待解答问题为开放式问题的情况)来优化上述分类模型。
需要说明的是,本实施例示例了以问题为指导对视频进行有针对性的记忆这一种实施方式,但对视频进行有针对性的记忆并不仅限于以问题为指导这一种实施方式,在一些实施例中,还可以以其他与视频问答任务相关的信息为指导对视频进行有针对性的记忆。并且,本实施例中提供的视频记忆模型和问题记忆模型均能有效地从待分析视频和待解答问题中学习全局上下文感知信息,与现有的记忆模型相比,均具有更大的存储阈值,也即,更强的存储能力。
由上可知,本实施例提供的视频分析方法,通过获取待分析视频、以及与待分析视频相关的待解答问题,然后确定待分析视频对应的至少一种视频特征信息,并确定待解答问题对应的问题特征信息,接着将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息,接着根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息,从而在对视频进行语义理解分析时,能够以问题为指导对视频进行有针对性的记忆,进而提高对长时视频的记忆效果。
在上述实施例所述方法的基础上,本实施例将从视频分析装置的角度进一步进行描述,请参阅图9,图9具体描述了本申请实施例提供的视频分析装置,其可以包括:获取模块610、第一确定模块620、第二确定模块630、第三确定模块640和第四确定模块650,其中:
(1)获取模块610
获取模块610,用于获取待分析视频、以及与待分析视频相关的待解答问题。
(2)第一确定模块620
第一确定模块620,用于确定待分析视频对应的至少一种视频特征信息。
其中,第一确定模块620具体包括:
提取单元,用于从待分析视频中提取多个视频帧;
第一确定单元,用于确定每一视频帧对应的至少一种视频特征信息。
(3)第二确定模块630
第二确定模块630,用于确定待解答问题对应的问题特征信息。
(4)第三确定模块640
第三确定模块640,用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息。
其中,上述已训练的视频记忆模型可以包括第一子模型和第二子模型,上述第三确定模块640可以具体包括:
第二确定单元,用于按照时间顺序依次将多个视频帧对应的所述至少一种视频特征信息输入第一子模型中进行处理,以得到每一视频帧对应的第一记忆内容;
第三确定单元,用于根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型,从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。
具体地,上述第三确定单元可以用于执行:
按照时间顺序从多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息;
将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理,以使第二子模型从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息;
将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息,并利用剩余视频帧更新当前视频帧,之后上述第三确定单元返回重新执行将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理。
在一个具体实施例中,上述至少一种视频特征信息可以包括动态特征信息和静态特征信息,第一目标特征信息可以包括目标动态特征信息、目标静态特征信息和目标全局特征信息,上述第二子模型在执行从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息时,可以具体执行:
根据当前视频帧对应的动态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的动态特征信息中,确定出与待解答问题相关的目标动态特征信息;
根据当前视频帧对应的静态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的静态特征信息中,确定出与待解答问题相关的目标静态特征信息;
根据第一历史记忆内容、第一历史特征信息和问题特征信息,确定当前视频帧对应的与待解答问题相关的目标全局特征信息。
(5)第四确定模块650
第四确定模块650,用于根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
其中,第四确定模块650可以具体包括:
第四确定单元,用于将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理,以从问题特征信息中确定出与待分析视频相关的第二目标特征信息;
第五确定单元,用于根据第一目标特征信息和第二目标特征信息,确定待解答问题对应的答案信息。
在一个实施例中,上述问题特征信息壳体包含多个单词特征信息,上述已训练的问题记忆模型可以包括第三子模型和第四子模型,上述第四确定单元可以具体包括:
第一确定子单元,用于按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理,以得到每一单词特征信息对应的第二记忆内容;
第二确定子单元,用于根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型,从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。
具体地,上述第二确定子单元可以用于执行:
按照单词顺序从多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别作为第二历史记忆内容和第二历史特征信息;
将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理,以使第四子模型从当前单词特征信息中,确定出与待分析视频相关的第二目标特征信息;
将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息,并利用剩余单词特征信息更新当前单词特征信息,之后上述第二确定子单元返回重新执行将当前单词特征信息、问题特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理。
在另一个实施例中,上述第五确定单元可以具体包括:
第三确定子单元,用于根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵,并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵;
第四确定子单元,用于将第一目标特矩阵输入已训练的第一自注意力模型中进行处理,以得到第一目标特征信息的第一语义远程依赖信息,并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理,以得到第二目标特征信息的第二语义远程依赖信息;
第五确定子单元,用于根据第一语义远程依赖信息和第二语义远程依赖信息,确定待解答问题对应的答案信息。
具体实施时,以上各个子单元、单元和模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个子单元、单元和模块的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例提供的视频分析装置,包括获取模块,用于获取待分析视频、以及与待分析视频相关的待解答问题;第一确定模块,用于确定待分析视频对应的至少一种视频特征信息;第二确定模块,用于确定待解答问题对应的问题特征信息;第三确定模块,用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;第四确定模块,用于根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息,从而在对视频进行语义理解时,能够以问题为指导对视频进行有针对性的记忆,进而提高对长时视频的记忆效果。
相应的,本申请实施例还提供一种服务器,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群,如图10所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图10中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待分析视频、以及与待分析视频相关的待解答问题;
确定待分析视频对应的至少一种视频特征信息;
确定待解答问题对应的问题特征信息;
将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;
根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
该服务器可以实现本申请实施例所提供的任一种视频分析装置所能实现的有效效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本申请实施例所提供的一种视频分析方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种视频分析方法,其特征在于,包括:
获取待分析视频、以及与所述待分析视频相关的待解答问题;
确定所述待分析视频对应的至少一种视频特征信息;
确定所述待解答问题对应的问题特征信息;
将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理,以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息;
根据所述第一目标特征信息和所述问题特征信息,确定所述待解答问题对应的答案信息。
2.根据权利要求1所述的视频分析方法,其特征在于,所述已训练的视频记忆模型包括第一子模型和第二子模型,所述确定所述待分析视频对应的至少一种视频特征信息,具体包括:
从所述待分析视频中提取多个视频帧;
确定每一所述视频帧对应的至少一种视频特征信息;
所述将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理,以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息,具体包括:
按照时间顺序依次将所述多个视频帧对应的所述至少一种视频特征信息输入所述第一子模型中进行处理,以得到每一所述视频帧对应的第一记忆内容;
根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型,从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息。
3.根据权利要求2所述的视频分析方法,其特征在于,所述根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型,从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息,具体包括:
按照所述时间顺序从所述多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息;
将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理,以使所述第二子模型从所述当前视频帧对应的所述至少一种视频特征信息中,确定出与所述待解答问题相关的第一目标特征信息;
将所述当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为所述第一历史记忆内容和所述第一历史特征信息,并利用剩余视频帧更新所述当前视频帧,之后返回执行所述将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理的步骤。
4.根据权利要求3所述的视频分析方法,其特征在于,所述至少一种视频特征信息包括动态特征信息和静态特征信息,所述第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息,所述从所述当前视频帧对应的所述至少一种视频特征信息中,确定出与所述待解答问题相关的第一目标特征信息,具体包括:
根据所述当前视频帧对应的所述动态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,从所述当前视频帧对应的所述动态特征信息中,确定出与所述待解答问题相关的目标动态特征信息;
根据所述当前视频帧对应的所述静态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,从所述当前视频帧对应的所述静态特征信息中,确定出与所述待解答问题相关的目标静态特征信息;
根据所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,确定所述当前视频帧对应的与所述待解答问题相关的目标全局特征信息。
5.根据权利要求2所述的视频分析方法,其特征在于,所述根据所述第一目标特征信息和所述问题特征信息,确定所述待解答问题对应的答案信息,具体包括:
将所述至少一种视频特征信息和所述问题特征信息输入已训练的问题记忆模型中进行处理,以从所述问题特征信息中确定出与所述待分析视频相关的第二目标特征信息;
根据所述第一目标特征信息和所述第二目标特征信息,确定所述待解答问题对应的答案信息。
6.根据权利要求5所述的视频分析方法,其特征在于,所述问题特征信息包含多个单词特征信息,所述已训练的问题记忆模型包括第三子模型和第四子模型,所述将所述至少一种视频特征信息和所述问题特征信息输入已训练的问题记忆模型中进行处理,以从所述问题特征信息中确定出与所述待分析视频相关的第二目标特征信息,具体包括:
按照所述待解答问题的单词顺序依次将所述多个单词特征信息输入所述第三子模型中进行处理,以得到每一所述单词特征信息对应的第二记忆内容;
根据所述多个单词特征信息、所述至少一种视频特征信息、所述第二记忆内容和所述第四子模型,从每一所述单词特征信息中确定出与所述待分析视频相关的第二目标特征信息。
7.根据权利要求6所述的视频分析方法,其特征在于,所述根据所述多个单词特征信息、所述至少一种视频特征信息、所述第二记忆内容和所述第四子模型,从每一所述单词特征信息中确定出与所述待分析视频相关的第二目标特征信息,具体包括:
按照所述单词顺序从所述多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别分别作为第二历史记忆内容和所述第二历史特征信息;
将所述当前单词特征信息、所述至少一种视频特征信息、所述第二历史记忆内容和所述第二历史特征信息输入所述第四子模型进行处理,以使所述第四子模型从所述当前单词特征信息中,确定出与所述待分析视频相关的第二目标特征信息;
将所述当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为所述第二历史记忆内容和所述第二历史特征信息,并利用剩余单词特征信息更新所述当前单词特征信息,之后返回执行所述将所述当前单词特征信息、所述问题特征信息、所述第二历史记忆内容和所述第二历史特征信息输入所述第四子模型进行处理的步骤。
8.根据权利要求6所述的视频分析方法,其特征在于,所述根据所述第一目标特征信息和所述第二目标特征信息,确定所述待解答问题对应的答案信息,具体包括:
根据所述多个视频帧对应的所述第一目标特征信息得到第一目标特征矩阵,并根据所述多个单词特征信息对应的所述第二目标特征信息得到第二目标特征矩阵;
将所述第一目标特矩阵输入已训练的第一自注意力模型中进行处理,以得到所述第一目标特征信息的第一语义远程依赖信息,并将所述第二目标特矩阵输入已训练的第二自注意力模型中进行处理,以得到所述第二目标特征信息的第二语义远程依赖信息;
根据所述第一语义远程依赖信息和所述第二语义远程依赖信息,确定所述待解答问题对应的答案信息。
9.一种视频分析装置,其特征在于,包括:
获取模块,用于获取待分析视频、以及与所述待分析视频相关的待解答问题;
第一确定模块,用于确定所述待分析视频对应的至少一种视频特征信息;
第二确定模块,用于确定所述待解答问题对应的问题特征信息;
第三确定模块,用于将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理,以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息;
第四确定模块,用于根据所述第一目标特征信息和所述问题特征信息,确定所述待解答问题对应的答案信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-8任一项所述的视频分析方法中的步骤。
CN202011073795.0A 2020-10-09 2020-10-09 视频分析方法、装置及存储介质 Pending CN113392686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011073795.0A CN113392686A (zh) 2020-10-09 2020-10-09 视频分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011073795.0A CN113392686A (zh) 2020-10-09 2020-10-09 视频分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113392686A true CN113392686A (zh) 2021-09-14

Family

ID=77616518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011073795.0A Pending CN113392686A (zh) 2020-10-09 2020-10-09 视频分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113392686A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质

Similar Documents

Publication Publication Date Title
US11977851B2 (en) Information processing method and apparatus, and storage medium
CN108009521B (zh) 人脸图像匹配方法、装置、终端及存储介质
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN110472002B (zh) 一种文本相似度获取方法和装置
CN110135497B (zh) 模型训练的方法、面部动作单元强度估计的方法及装置
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN113821720A (zh) 一种行为预测方法、装置及相关产品
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN112203115B (zh) 一种视频识别方法和相关装置
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN114357278A (zh) 一种话题推荐方法、装置及设备
CN112995757B (zh) 视频剪裁方法及装置
CN112862021B (zh) 一种内容标注方法和相关装置
KR102353687B1 (ko) 영어 학습 서비스를 제공하는 서버 및 그 동작 방법
CN111611369B (zh) 基于人工智能的交互方法和相关装置
CN112907255A (zh) 一种用户分析方法和相关装置
CN113392686A (zh) 视频分析方法、装置及存储介质
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质
CN117011741A (zh) 视频检测模型的训练方法、装置、设备及存储介质
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN110750193B (zh) 一种基于人工智能的场景拓扑确定方法和装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN111723783A (zh) 一种内容识别方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination