CN116361511A

CN116361511A - 一种复合语义的视频检索方法、装置、设备及存储介质

Info

Publication number: CN116361511A
Application number: CN202310325087.9A
Authority: CN
Inventors: 梁超; 何姜杉; 李星翰; 宋维晞; 张玥
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-30

Abstract

本发明公开了一种复合语义的视频检索方法、装置、设备及存储介质，其中该方法包括步骤：提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景；将视觉特征向量和文本特征向量融合得到融合特征；将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量；将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。本申请通过引入多模态融合方法有效地提升了信息的利用率，同时也提高了检索的准确率。

Description

一种复合语义的视频检索方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种复合语义的视频检索方法、装置、设备及存储介质。

背景技术

随着多媒体技术的高速发展与互联网的普及，视频数据规模迅速增长，面对形式各样、数量庞大的视频数据，人工浏览手动查找视频内容的效率低下，因此通过机器高效寻找符合期望的视频，即视频检索，成为了当下迫切的问题。

近年来，深度学习技术在视频检索领域得到广泛应用，针对单一模态以及单一语义，如人物、行为、场景等，视频检索性能取得了长足进展。随着用户需求的不断提升，用户的查询内容趋于细致，检索需要定位到某一具体的，由人物、地点、动作等单一语义构成的复合语义上，因此面向复合语义的视频检索逐渐成为主流。当前的视频检索技术难以直接满足复合语义视频检索的需要。其原因主要在于以下两点：(1)视频包含了图像、文本、音频等多模态信息，但目前的视频检索主要是基于视觉特征进行相似度排序，视频中所包含的音频和文本信息在很大程度上被忽略，但是对于复合语义的视频检索而言，人物的台词，声纹和背景环境声等同样蕴含了重要的语义信息，仅仅开展基于视觉的单模态视频检索难以充分挖掘所要检索的视频内容。(2)目前复合语义视频检索研究主要利用不同技术对单语义实例进行检索，然后根据独立检索结果进行分数融合(如加权、过滤、乘积融合)。该策略的问题在于，各单一语义检索分支相互独立，仅仅依靠融合不同检索分支的分数获取复合语义检索结果，忽略了复合检索各语义之间的关联性和相互影响，难以保证复合语义检索的质量。

因此，如何提高复合语义检索的精度，是目前亟需解决的技术问题。

发明内容

本发明主要目的在于提供一种复合语义的视频检索方法、装置、设备及存储介质，通过引入多模态融合方法有效地提升了信息的利用率，进一步提高了检索的准确率。

第一方面，本申请提供了一种复合语义的视频检索方法，该方法包括步骤：

提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景；

将视觉特征向量和文本特征向量融合得到融合特征；

将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量；

将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

结合上述第一方面，作为一种可选的实现方式，对人物、行为和场景语义状态向量两两进行张量积运算，得到三个组合语义状态向量；

对三个组合语义状态向量进行量子观测，得到概率向量；

对三个概率向量进行最大池化层处理，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

结合上述第一方面，作为一种可选的实现方式，根据公式:

W(|φ_k>)＝max{P_mn(|φ_k>)},计算最终语义得分，其中|ψ_m>，|ψ_n>分别表示第m类和第n类语义状态向量，|ψ_mn>表示第m类语义状态向量与第n类语义状态向量的组合，/>

表示张量积运算，P_mn(|φ_k>)表示该组合状态向量|ψ_mn>坍缩至基本向量|φ_k>的概率，W(|φ_k>)表示对应的基本状态的语义得分。

结合上述第一方面，作为一种可选的实现方式，根据得到的视觉状态向量和文本状态向量，利用向量的逐点乘法得到视觉状态向量和文本状态向量所对应的干扰项；

将所述视觉状态向量、文本状态向量和对应的干扰项作为模态特征，输入预设多模态融合网络中进行模态融合，得到融合特征。

结合上述第一方面，作为一种可选的实现方式，根据公式

计算模态融合后的视频特征，其中f_vision为视觉特征，f_text为文本特征，f_fusion为模态融合后的视频特征，⊙为向量的逐点乘法，α，β，/>

是超参数。

结合上述第一方面，作为一种可选的实现方式，对视频进行预处理，所述预处理包括：场景分割、镜头分割和关键帧提取；

利用C3D模型提取处理后的视频中视觉的人物特征向量、行为特征向量和场景特征向量，利用BERT模型提取对应时刻文本的人物特征向量、行为特征向量和场景特征向量，其中文本包括剧本和台词。

结合上述第一方面，作为一种可选的实现方式，利用卷积神经网络将视觉特征向量和对应时刻文本特征向量映射到对应的d维希尔伯特语义空间，转化为共同空间的视觉状态向量和文本状态向量。

第二方面，本申请提供了一种复合语义的视频检索装置，该装置包括：

提取单元，其用于提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景；

融合单元，其用于将视觉特征向量和文本特征向量融合得到融合特征；

处理单元，其用于将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量；

计算单元，其用于将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

第三方面，本申请还提供了一种电子设备，所述电子设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现第一方面任一项所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行第一方面任一项所述的方法。

本申请提供的一种复合语义的视频检索方法、装置、设备及存储介质，其中该方法包括步骤：提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景；将视觉特征向量和文本特征向量融合得到融合特征；将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量；将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。本申请通过引入多模态融合方法有效地提升了信息的利用率，同时也提高了检索的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1为本申请实施例中提供的一种复合语义的视频检索方法流程图；

图2为本申请实施例中提供的一种复合语义的视频检索装置示意图；

图3为本申请实施例中提供的复合语义融合处理示意图；

图4为本申请实施例中提供的一种电子设备示意图；

图5为本申请实施例中提供的一种计算机可读程序介质示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。附图所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本申请实施例提供了一种复合语义的视频检索方法、装置、设备及存储介质，通过引入多模态融合方法有效地提升了信息的利用率，同时也提高了检索的准确率。

为达到上述技术效果，本申请的总思路如下：

一种复合语义的视频检索方法，该方法包括步骤：

S101：提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景。

S102：将视觉特征向量和文本特征向量融合得到融合特征。

S103：将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量。

S104：将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果

以下结合附图对本申请的实施例作进一步详细说明。

参照图1，图1所示为本发明提供的一种复合语义的视频检索方法流程图，如图1所示，该方法包括步骤：

步骤S101:提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景。

具体而言，对采集的视频进行场景分割、镜头分割和关键帧提取的预处理，利用C3D模型提取处理后的视频中视觉的人物特征向量、行为特征向量和场景特征向量，利用BERT模型提取对应时刻文本的人物特征向量、行为特征向量和场景特征向量，其中文本包括剧本和台词。

方便理解举例进行说明，首先对视频进行预处理，完成场景分割、镜头分割和关键帧提取，在得到的关键帧上，利用C3D模型提取视觉的人物、行为、场景特征向量，利用BERT模型提取对应时刻文本(包括剧本和台词等)的人物、行为、场景特征向量。

一实施例中，在提取视频的视觉特征向量以及对应时刻的文本特征向量之后，利用卷积神经网络将视觉特征向量和对应时刻文本特征向量映射到对应的d维希尔伯特语义空间，转化为共同空间的视觉状态向量和文本状态向量。

可以理解的是，利用CNN将得到的视觉和文本特征向量同时映射到对应的希尔伯特语义空间，得到三组(人物、行为、场景)共同空间的状态向量。需要说明的是，在这一过程中，将ReLU作为激活函数，以保证所有的特征值

为非负数，其中m为视觉特征和文本特征的维度，即得到状态向量：/>

最后，对状态向量作归一化处理/>

其中CNN代表的是神经网络，X表示视觉向量、文本向量和干扰项的融合。m可以取值1、2、3，分别对应语义向量人物、行为、场景。CNN(X)表示在经过网络后得到的输出，即语义状态向量，ReLU是机器学习中常用的激活函数，是神经网络中特有的结构。

需要说明的是，向量是多维空间中的一种表示方式，两个向量之间可以进行张量积运算得到新的向量，而新向量所包含两个旧向量的所有信息。除此之外还有其他的运算，不同的运算表示两种信息之间进行了新的交互。通过建模语义空间，视频中的内容投影至空间中，并用向量对信息进行编码表示。

特征向量：可以分成“特征”和“向量”来理解：“特征”说明该向量是包含独特的语义信息的，如针对人物信息的向量称作人物特征向量，包含行为信息的向量称作行为特征向量。

状态向量可以理解的是，量子计算中描述量子***状态的数学工具。只有将所熟悉的数学表示形式转换为量子计算独有的状态向量表示，才可以按照量子计算的规则来进行后续运算。

步骤S102:将视觉特征向量和文本特征向量融合得到融合特征。

具体而言，利用一种基于量子干涉模型的多模态融合网络融合视觉特征和文本特征，可以理解的是，根据得到的视觉状态向量和文本状态向量，利用向量的逐点乘法得到视觉状态向量和文本状态向量所对应的干扰项；将所述视觉状态向量、文本状态向量和对应的干扰项作为模态特征，输入预设多模态融合网络中进行模态融合，得到融合特征。

需要说明的是，多模态即为多媒体模态(Multimedia modalities)是指多种不同的媒体元素，如图像、音频、视频、文本等，可以携带一定大小的信息。在本文中主要指的是视觉和文本模态。

还需要说明的是，将视觉状态向量和文本向量作为网络的输入，其分别是一种模态特征向量。虽然干扰项并不属于哪一种模态，但仍然将其也作为一种模态特征向量输入，有证据表明网络输入包含处理过的高层信息(本文中的干扰项)能够有效提升模型效果。

方便理解举例说明，将得到三组(人物、行为、场景)共同空间的状态向量，得到两个状态向量对应的干扰项，将一组视觉状态向量、文本状态向量和对应的干扰项分别看作一种模态特征，输入多模态融合网络，得到融合特征。需要说明的是，这里的一组实际上是在三组中按顺序一组一组地进行相同地处理(根据向量的逐点乘法)。

一实施例中，将得到的视觉和文本特征作为模态输入，通过公式：

是超参数。

还需说明的是，干扰项是包含两个不同模态(视觉和文本)信息的融合，通过两个模态的状态向量进行指定运算得到，反映的是两个模态中的共同特征。方便理解举例说明，例如一段视频的视觉表示和文本表示，文本表示包含了视频中人物的台词信息，它可以对应到视觉表示中人物嘴巴的张开闭合、人物肢体语言的动作等。取文本表示和视觉表示做一定运算整合，创建一个新的向量表示使其同时带有文本信息和视觉信息，这个向量就叫做干扰项。它可以理解成视频中任务说话时的嘴巴形状信息，既包含视觉形状，同时也能在一定程度上反映人物所说的台词信息。

步骤S103:将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量。

具体而言，将得到的融合特征输入多层感知机，获取包含了视频语义信息的向量。其中多层感知机由一个隐藏层，一个输出层构成，不同语义对应不同的多层感知机，其数学表达式如下：

m∈{character,action,scene}

t＝1,2,3...

其中通过模型得到t时刻语义m的标签如下公式：

上述公式中X_t为t时刻的融合特征向量，

为t时刻语义m的隐藏层向量，/>

为t时刻语义m的输出层向量，/>

为归一化后的t时刻语义m的概率向量，/>

分别为语义m的隐藏层权重和偏置，/>

分别为语义m的输出层权重和偏置。/>

是用于训练多层感知机的交叉熵损失，/>

是样本语义的独热编码。

需要说明的是，语义状态向量：语义一共有三种语义：人物、行为、场景，是在基本模态信息上经过高级抽象处理形成的信息，状态向量则是量子计算里的数学表示。

步骤S104:将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

具体而言，对人物、行为和场景语义状态向量两两进行张量积运算，得到三个组合语义状态向量，对三个组合语义状态向量进行多次量子观测，得到概率向量，对三个概率向量进行最大池化层处理，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

可以理解的是，将得到的三个语义状态向量，两两进行张量积运算，得到三个新的组合语义(人物-行为，人物-场景，行为-场景)状态向量，对得到的三个组合语义状态向量进行多次量子观测，得到三个概率向量，将得到的三个概率向量列为矩阵，经过行最大池化层，得到最终反映语义得分的向量。

方便理解举例说明，将得到的不同语义的状态向量进行语义融合(人物、行为、场景语义状态向量)首先取三个语义状态向量两两进行量子计算中定义的张量积运算，得到三个新的组合语义状态向量。其次将三个新的组合语义状态向量进行多次量子观测操作：根据最终可能的语义组合编码基向量|φ_k>，分别得到组合语义状态向量坍缩至基向量的概率，将其列成k×3的矩阵；之后将该矩阵经过行最大池化层，得到最终反映语义得分的向量。

根据公式:

W(|φ_k>)＝max{P_mn(|φ_k>)},计算最终语义得分，其中|ψ_n>，|ψ_n>分别表示第m类和第n类语义状态向量，|ψ_mn>表示第m类语义状态向量与第n类语义状态向量的组合，/>

表示张量积运算，P_mn(|φ_k>)表示该组合状态向量|ψ_mn>坍缩至基本向量|φ_k>的概率，W(|φ_k>)表示对应的基本状态的语义得分，其中，(m≠n)。

需要说明的是，得分向量表示的是每个视频对应的语义信息，而用户在进行视频检索的时候会输入一些查询语句，语句中就会包含语义信息。将用户查投影到设置的语义空间中，通过计算用户查询向量和每个视频得分向量之间的“距离”，我们就能得到一个初始的排序结果。而做出的贡献主要在于视频表示向量包含更多信息，并且可解释，这可以提高最后的排序结果。可以理解的是，通过建模更加复杂的语义空间表示视频内容，将用户的查询输入投影到我们建模的空间内，通过计算查询输入与各个视频向量的距离从而精确地检索到用户需要的视频。

可以理解的是，与现有技术相比，本发明优点包括：针对复合语义视频检索问题，引入多模态融合方法；基于量子计算的相关理论，在多模态融合以及复合语义融合问题上做出了改进，有效地提升了信息的利用率，进一步提高了检索准确率。

参照图2，图2所示为本发明提供的一种复合语义的视频检索装置示意图，如图2所示，该装置包括：

提取单元201：其用于提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景。

融合单元202：其用于将视觉特征向量和文本特征向量融合得到融合特征。

处理单元203：其用于将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量。

计算单元204：其用于将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。

进一步地，一种可能的实施方式中，计算单元204，还用于对人物、行为和场景语义状态向量两两进行张量积运算，得到三个组合语义状态向量；

对三个组合语义状态向量进行量子观测，得到概率向量；

进一步地，一种可能的实施方式中，计算单元204，还用于根据公式:

进一步地，一种可能的实施方式中，融合单元202，还用于根据得到的视觉状态向量和文本状态向量，利用向量的逐点乘法得到视觉状态向量和文本状态向量所对应的干扰项；

进一步地，一种可能的实施方式中，计算单元204，还用于根据公式

是超参数。

进一步地，一种可能的实施方式中，提取单元201，还用于对视频进行预处理，所述预处理包括：场景分割、镜头分割和关键帧提取；

进一步地，一种可能的实施方式中，提取单元201，还包括转换单元，其用于利用卷积神经网络将视觉特征向量和对应时刻文本特征向量映射到对应的d维希尔伯特语义空间，转化为共同空间的视觉状态向量和文本状态向量。

参照图3，图3所示为本发明提供的复合语义融合处理示意图，如图3所示：

首先对视频进行预处理，完成场景分割、镜头分割和关键帧提取，在得到的关键帧上，利用C3D模型提取视觉的人物、行为、场景特征向量，利用BERT模型提取对应时刻文本(包括剧本和台词等)的人物、行为、场景特征向量。

根据得到的视觉特征和文本特征，通过向量的逐点乘法得到两个状态向量对应的干扰项，将得到的视觉特征和文本特征以及两者对应的干扰项，分别看作一种模态特征，输入多模态融合网络，得到融合特征，需要说明的是，利用CNN将得到的视觉和文本特征向量同时映射到对应的希尔伯特语义空间，得到三组(人物、行为、场景)共同空间的状态向量，将一组视觉状态向量、文本状态向量和对应的干扰项分别看作一种模态特征，输入多模态融合网络，得到融合特征，可以理解的是，这里的一组实际上是在三组中按顺序一组一组地进行相同地处理。(根据向量的逐点乘法得到两个状态向量对应的干扰项，将视觉状态向量、文本状态向量和对应的干扰项分别看作一种模态特征，输入多模态融合网络)将得到的融合特征输入多层感知机获取三个(人物、行为、场景)包含了视频语义信息的向量，即人物语义状态向量、行为语义状态向量和场景语义状态向量。将得到的人物语义状态向量、行为语义状态向量和场景语义状态向量两两进行张量积运算，得到三个新的组合语义(人物-行为，人物-场景，行为-场景)状态向量。将三个新的组合语义状态向量进行多次量子观测操作：根据最终可能的语义组合编码基向量|φ_k>，分别得到组合语义状态向量坍缩至基向量的概率，将其列成k×3的矩阵，之后将该矩阵经过行最大池化层，得到最终反映语义得分的向量。

可以理解的是，对视频进行预处理，提取出对应片段的视觉特征和文本特征，通过使用基于量子干涉的多模态融合模型以及基于量子多体***的复合语义融合模型来得到最后得分向量，将其应用于检索中，以提升检索精度。

下面参照图4来描述根据本发明的这种实施方式的电子设备400。图4显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同***组件(包括存储单元420和处理单元410)的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)421和/或高速缓存存储单元422，还可以进一步包括只读存储单元(ROM)423。

存储单元420还可以包括具有一组(至少一个)程序模块425的程序/实用工具424，这样的程序模块425包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的方案，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品500，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

综上所述，本申请提供的一种复合语义的视频检索方法、装置、设备及存储介质，其中该方法包括步骤：提取视频的视觉特征向量以及对应时刻的文本特征向量，所述特征包括人物、行为和场景；将视觉特征向量和文本特征向量融合得到融合特征；将所述融合特征输入多层感知机，得到人物、行为和场景语义状态向量；将人物、行为和场景语义状态向量进行语义融合，得到反映语义得分的向量，以作为多模态复合语义视频检索结果。本申请通过引入多模态融合方法有效地提升了信息的利用率，同时也提高了检索的准确率。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

本发明是参照根据本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。