CN115952317A

CN115952317A - 视频处理方法、装置、设备、介质及程序产品

Info

Publication number: CN115952317A
Application number: CN202210823046.8A
Authority: CN
Inventors: 黄靖佳; 李毅男; 冯佳时
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2023-04-11

Abstract

本公开提供一种视频处理方法、装置、设备、存储介质及程序产品。该方法包括：获取输入文本；基于第一模型的多模态融合特性对所述输入文本进行特征提取得到具有多模态特性的文本特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；基于所述具有多模态特性的文本特征在视频特征集合中搜索与所述文本特征相匹配的目标视频特征；输出与目标视频特征对应的目标视频。

Description

视频处理方法、装置、设备、介质及程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频处理方法、装置、设备、介质及程序产品。

背景技术

目前对视频进行搜索的场景中，常常需要依赖于对视频数据的标注或标签。例如将用户输入的关键字与视频数据的标签或标注进行文字匹配，以得到与关键字相匹配的标签或标注，再将相匹配的标签或标注所对应的视频作为搜索结果返回给用户；或者，基于视频的标签或标注搜索与视频对应的文字等。然而，视频数据的标签或标注往往不能够全面的表述视频数据中的内容，或者有些标注或标签并不准确，甚至有些视频数据没有标签或标注，这些情况都将导致视频数据的搜索任务过度依赖外界对该视频数据的描述，这些描述的不全面性和不准确行都导致基于文本对视频数据进行搜索时，或者基于视频对文本进行搜索时，所得到的搜索结果准确率不高，从而影响用户的体验。

发明内容

本公开提出一种视频处理方法、装置、设备、存储介质及程序产品，以在一定程度上解决视频数据的搜索结果准确度不高的技术问题。

本公开第一方面，提供了一种视频处理方法，包括：

获取输入文本；

基于第一模型的多模态融合特性对所述输入文本进行特征提取得到具有多模态特性的文本特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；

基于所述具有多模态特性的文本特征在视频特征集合中搜索与所述文本特征相匹配的目标视频特征；

输出与目标视频特征对应的目标视频。

本公开第二方面，提供了一种视频处理方法，包括：

获取待处理的视频数据；

基于第一模型的多模态融合特性对所述视频数据进行特征提取得到具有多模态特性的视频特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；

基于所述具有多模态特性的视频特征在文本特征集合中搜索与所述视频特征相匹配的目标文本特征；

基于所述目标文本特征生成目标文本并输出。

本公开第三方面，提供了一种视频处理装置，包括：

第一获取模块，用于获取输入文本；

第一模型模块，用于基于第一模型的多模态融合特性对所述输入文本进行特征提取得到具有多模态特性的文本特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；基于所述具有多模态特性的文本特征在视频特征集合中搜索与所述文本特征相匹配的目标视频特征；输出与目标视频特征对应的目标视频。

本公开第四方面，提供了一种视频处理装置，包括：

第二获取模块，用于获取待处理的视频数据；

第二模型模块，用于基于第一模型的多模态融合特性对所述视频数据进行特征提取得到具有多模态特性的视频特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；基于所述具有多模态特性的视频特征在文本特征集合中搜索与所述视频特征相匹配的目标文本特征；以及基于所述目标文本特征生成目标文本并输出。

本公开第五方面，提供了一种电子设备，其特征在于，包括一个或者多个处理器、存储器；和一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被所述一个或多个处理器执行，所述程序包括用于执行根据第一方面或第二方面所述的方法的指令。

本公开第六方面，提供了一种包含计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行第一方面或第二方面所述的方法。

本公开第七方面，提供了一种计算机程序产品，包括计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行第一方面所述的方法。

从上面所述可以看出，本公开提供的一种视频处理方法、装置、设备、介质及程序产品，基于第一模型对输入文本进行特征提取后得到具有多模态特性的文本特征，并在视频特征集合中进行匹配，得到目标视频特征，进而得到对应的目标视频；或基于第一模型对视频数据进行特征提取后得到具有多模态特性的视频特征，并在文本特征集合中进行匹配，得到目标文本特征，从而得到对应的目标文本。能够不依赖于视频数据的标签或标注，而是基于视频数据本身的多模态特征，提高根据文本在视频中进行搜索的准确度，或根据视频在文本中进行搜索的准确度。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的视频处理架构的示意图。

图2为本公开实施例的示例性电子设备的硬件结构示意图。

图3为本公开实施例的多模态模型的模型架构的示意图

图4为本公开实施例的特征对齐训练的示意图。

图5为本公开实施例的排序训练的示意图。

图6为本公开实施例的视频处理方法的示意性流程图。

图7为本公开实施例的视频处理方法的示意性流程图。

图8为本公开实施例的视频处理装置的示意图。

图9为本公开实施例的视频处理装置的示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

基于文本对视频进行搜索可以是指根据文本在视频集合中搜索得到与文本相关联的目标视频，例如根据用户输入的关键字在应用程序所提供的视频数据库中搜索与关键字相关联的视频。基于视频对文本进行搜索可以是指根据视频在文本集合中搜索与该视频向匹配的文字，例如生成关于该视频的描述文本(例如摘要、标题等)，或生成针对该视频的提问的答案。对于处理上视频搜索任务时，现有的数据处理模型常常需要依赖于对视频数据的标注或标签。然而，视频数据的标签或标注往往不能够全面的表述视频数据中的内容，或者有些视频数据没有标签或标注，这些情况都将导致数据处理模型所得到的搜索结果准确率不高。因此，如何使得提高数据处理模型在处理视频数据的搜索任务时的准确度成为了亟需解决的技术问题。

鉴于此，本公开实施例提供了一种视频处理方法、装置、设备、存储介质及程序产品。基于第一模型对输入文本进行特征提取后得到具有多模态特性的文本特征，并在视频特征集合中进行匹配，得到目标视频特征，进而得到对应的目标视频；或基于第一模型对视频数据进行特征提取后得到具有多模态特性的视频特征，并在文本特征集合中进行匹配，得到目标文本特征，从而得到对应的目标文本。能够不依赖于视频数据的标签或标注，而是基于视频数据本身的多模态特征，提高根据文本在视频中进行搜索的准确度，或根据视频在文本中进行搜索的准确度。

图1示出了本公开实施例的视频处理架构的示意图。参考图1，该视频处理架构100可以包括服务器110、终端120以及提供通信链路的网络130。服务器110和终端120之间可通过有线或无线的网络130连接。其中，服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、安全服务、CDN等基础云计算服务的云服务器。

终端120可以是硬件或软件实现。例如，终端120为硬件实现时，可以是具有显示屏并且支持页面显示的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。终端120设备为软件实现时，可以安装在上述所列举的电子设备中；其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块，在此不做具体限定。

需要说明的是，本申请实施例所提供的视频处理方法可以由终端120来执行，也可以由服务器110来执行。应了解，图1中的终端、网络和服务器的数目仅为示意，并不旨在对其进行限制。根据实现需要，可以具有任意数目的终端、网络和服务器。

图2示出了本公开实施例所提供的示例性电子设备200的硬件结构示意图。如图2所示，电子设备200可以包括：处理器202、存储器204、网络模块206、***接口208和总线210。其中，处理器202、存储器204、网络模块206和***接口208通过总线210实现彼此之间在电子设备200的内部的通信连接。

处理器202可以是中央处理器(Central Processing Unit，CPU)、图像处理器、神经网络处理器(NPU)、微控制器(MCU)、可编程逻辑器件、数字信号处理器(DSP)、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路。处理器202可以用于执行与本公开描述的技术相关的功能。在一些实施例中，处理器202还可以包括集成为单一逻辑组件的多个处理器。例如，如图2所示，处理器202可以包括多个处理器202a、202b和202c。

存储器204可以配置为存储数据(例如，指令、计算机代码等)。如图2所示，存储器204存储的数据可以包括程序指令(例如，用于实现本公开实施例的视频处理方法的程序指令)以及要处理的数据(例如，存储器可以存储其他模块的配置文件等)。处理器202也可以访问存储器204存储的程序指令和数据，并且执行程序指令以对要处理的数据进行操作。存储器204可以包括易失性存储装置或非易失性存储装置。在一些实施例中，存储器204可以包括随机访问存储器(RAM)、只读存储器(ROM)、光盘、磁盘、硬盘、固态硬盘(SSD)、闪存、存储棒等。

网络模块206可以配置为经由网络向电子设备200提供与其他外部设备的通信。该网络可以是能够传输和接收数据的任何有线或无线的网络。例如，该网络可以是有线网络、本地无线网络(例如，蓝牙、WiFi、近场通信(NFC)等)、蜂窝网络、因特网、或上述的组合。可以理解的是，网络的类型不限于上述具体示例。在一些实施例中，网络模块306可以包括任意数量的网络接口控制器(NIC)、射频模块、接收发器、调制解调器、路由器、网关、适配器、蜂窝网络芯片等的任意组合。

***接口208可以配置为将电子设备200与一个或多个***装置连接，以实现信息输入及输出。例如，***装置可以包括键盘、鼠标、触摸板、触摸屏、麦克风、各类传感器等输入设备以及显示器、扬声器、振动器、指示灯等输出设备。

总线210可以被配置为在电子设备200的各个组件(例如处理器202、存储器204、网络模块206和***接口208)之间传输信息，诸如内部总线(例如，处理器-存储器总线)、外部总线(USB端口、PCI-E总线)等。

需要说明的是，尽管上述电子设备200的架构仅示出了处理器202、存储器204、网络模块206、***接口208和总线210，但是在具体实施过程中，该电子设备200的架构还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述电子设备200的架构中也可以仅包含实现本公开实施例方案所必需的组件，而不必包含图中所示的全部组件。

视频数据中可以包括图像、声音或文字等多模态数据，相比于视频数据的标注或标签这类单一的文本模态，视频数据中本身就包含更丰富的信息。基于视频数据中的这些多模态数据能够有助于实现诸如视频检索、视频问答等视频语言理解任务，提高数据处理的准确度。然而，在面向不同的视频处理任务时，目前通常倾向于针对不同的具体任务采用不同的模型架构，这就使得模型设计的局限性较大。针对一个任务设计的模型往往难以迁移到另一个任务中，同一个视频处理模型无法在不同的任务中均保证良好的效率和性能。

目前，视频-文本预训练旨在利用大规模视频-文本样本训练具备强泛化性的多模态模型，以便更好地解决视频-文本检索、视频问答等具有很强挑战性的视频语言理解任务。在面向不同的下游任务时，当前的方法倾向于采用不同的模型架构。例如，在设计面向视频-文本检索任务的预训练模型时，出于对应用阶段的运行效率的考虑，通常采用两个相互独立的编码器构建预训练模型并强化不同模态间的特征对齐；在设计面向视频问答任务的预训练模型时，考虑到该任务对视频-文本的融合表征有着很高的要求，通常采用一个跨模态编码器来提升模型的多模态融合能力。这种下游任务导向的模型设计局限性较大，难以同时迁移到多项不同的下游任务中，使得这些预训练模型在不同的现实场景中的作用大打折扣。

虽然有些能够兼顾多种下游任务的预训练模型，但是这些预训练模型还存在一些问题。例如，一些预训练模型将单模态编码器和跨模态编码器相结合，并将跨模态编码器应用于检索或者问答任务。然而这类预训练模型在迁移至检索任务时，需要通过穷举的方式将查询和库中的数据一一匹配，并利用跨模态编码器对所有的匹配进性表征学习。这一过程的计算复杂度很高，例如复杂度为O(NM)，其中N和M分别为查询和底库数据的数量。这使得此类预训练模型难以在现实的大规模检索任务中进行应用。另外一些预训练模型则是将单模态编码器和跨模态编码器简单地叠加，并在迁移到下游任务时，分别采用其中不同的模块。相较于前一类预训练模型，此类一些预训练模型能够充分发挥模型的灵活性，其在检索任务中的复杂度为O(N+M)，保证了其在下游任务中的高效率。然而，这类预训练模型仅仅通过简单的叠加，在训练时无法使得两类编码器协同进步的，即模型的跨模态对齐能力和跨模态融合能力不能互相促进，导致这类预训练模型和针对各下游任务独立训练的模型相比，其性能会出现衰退。因此，本公开实施例还提供了一种多模态数据模型的预训练方法，使得经过预训练后的预训练模型能够兼顾多种下游任务的高效率和高性能。在此基础上，再针对下游任务进行进一步的训练得到多模态数据模型，该多模态数据模型能够在处理视频数据的搜索任务时提高搜索的准确度。

参见图3，图3示出了根据本公开实施例的多模态数据模型的模型架构的示意图。图3中，多模态数据模型300可以包括视频编码器310、文本编码器320和多模态编码器330。视频编码器310的输入可以为展开的视频块序列。其中，视频块序列可以包括多个视频块包，每个视频块包对应于视频中的一个视频帧。视频块包可以是视频帧按照预设尺寸分割成的多个视频块的集合。视频编码器310的输出为视频块对应的视频向量表示(Embedding)序列。文本编码器320的输入为文本词条(Token)，输出为输入的文本词条对应的文本向量表示。多模态编码器330的输入包括视频编码器310输出的视频向量表示序列和文本编码器320输出的文本向量表示融合而成的多模态向量表示序列，输出为经由自注意力机制建模的融合特征序列。

可以基于第一训练样本对初始的多模态数据模型进行预训练以得到基于多模态数据的预训练模型。在一些实施例中，第一训练样本可以包括至少一个视频文本对、与所述视频文本对中的视频样本对应的视频掩码样本以及与所述视频文本对中的文本样本对应的文本掩码样本。例如，视频文本对<V，T>包括视频样本V和对应的文本样本T，文本样本T可以用于描述视频样本V的内容。可以将预先标注或匹配有对应文本的视频作为视频文本对。

在一些实施例中，可以基于视频样本和预设的视频掩码策略得到视频掩码样本。进一步地，基于视频样本和预设的视频掩码策略得到视频掩码样本，包括：在所述视频样本的每个视频块包中随机选择第一预设比例的视频块进行掩盖，以生成所述视频掩码样本。例如，可以随机选择视频样本311中每个视频帧在空间域上第一预设比例的视频块作为掩码区域，将这些掩码区域的像素值设置为0，即设置为黑色，从而得到部分区域被掩盖的视频样本作为视频掩码样本312，如图3所示。

在一些实施例中，可以基于本文样本和预设的文本掩码策略得到文本掩码样本。进一步地，基于本文样本和预设的文本掩码策略得到文本掩码样本，包括：随机选择所述文本样本中第二预设比例的预设类型词语进行掩盖，以生成所述文本掩码样本。其中，预设类型词语可以包括动词、名词或形容词中的至少一种。由于文本样本具有语义特性，为了防止文本样本语义出现反转，所以助动词不会被掩盖，这样可以保证文本样本具有准确的语义特性，有利于进一步提高预训练模型的准确性。例如，图3中，文本样本321为“A black swanis swimming in a pond”，包含8个词语，其中第二预设比例(例如30％)约为2个，则可以随机对文本样本321中2个预设类型词语进行掩盖，得到文本“Ablack swan[mask]swimmingin a[mask]”作为文本掩码样本322。

应了解，第一预设比例的视频块数量和第二预设比例的词语数量可能不为整数，可以根据需要取整数(例如四舍五入)以进行掩盖，在此不做限制。

图3中，可以将视频样本311和视频掩码样本312输入视频编码器310进行特征提取，得到对应的视频特征序列Ve和视频掩码特征序列Vm。可以将文本样本321和文本掩码样本322输入文本编码器320进行特征提取，得到对应的文本特征序列Te和文本掩码特征序列Tm。其中，由于视频掩码特征序列Vm和文本掩码特征序列Tm是经过掩码操作后所提取得到的特征，其所包含的特征信息并不完整，所以视频掩码特征序列Vm和文本掩码特征序列Tm属于伪特征样本，而视频特征序列Ve和文本特征序列Te属于正特征样本。可以将伪特征样本和正特征样本分别交叉匹配得到两个伪正特征样本对<Ve，Tm>和<Vm，Te>，将该伪正特征样本对均输入至多模态编码器330，得到第一融合模态特征序列M_Tmf和第二融合模态特征序列M_Vmf。

为了促进预训练模型中多模态对齐和多模态融合能力的协同进步，可以利用基于视频特征序列Ve和视频掩码特征序列Vm、文本特征序列Te和文本掩码特征序列Tm、第一融合模态特征序列M_Tmf、第二融合模态特征序列M_Vmf的三模态特征对齐训练。其中，三模态分别指的是文本模态、视频模态和融合模态，文本模态可以指文本特征序列Te和文本掩码特征序列Tm，视频模态可以指视频特征序列Ve和视频掩码特征序列Vm、融合模态可以指融合模态特征序列M_Tmf、M_Vmf。多模态的特征对齐(Alignment)是用于确定来自同一个实例的不同模态特征之间的对应关系，该对应关系可以是时间维度的，例如视频、语音、字幕三种不同模态的信息基于时间对齐。多模态特征融合(Multimodal Fusion)是用于联合不同模态特征以进行目标任务(例如预测、分类或回归等)。如图4所示，图4示出了根据本公开实施例的特征对齐训练的示意图。

第一训练样本中可以包括N(N为正整数)个视频文本对，以及对应的N个视频掩码样本Vm、N个文本掩码样本Tm，那么将会对应得到N个训练特征样本，每个训练特征样本包括视频特征序列Ve、视频掩码特征序列Vm、文本特征序列Te、文本掩码特征序列Tm和融合模态特征序列M_Tmf、M_Vmf。可以将训练特征样本分批次对预训练模型进行训练，每个批次的训练特征样本的数量可以是B个，B为正整数。例如，每个批次的训练特征样本可以包括B个正样本特征对<Ve，Te>，以及B个伪正特征样本对<Ve，Tm>和B个伪正特征样本对<Vm，Te>。

在一些实施例中，计算所述第一伪正特征样本对的第一特征对齐损失函数，可以包括：

基于所述第一融合特征、所述视频特征、所述文本特征和所述文本掩码特征，计算所述第一伪正特征样本对以所述视频特征为锚点的第一子损失函数和所述第一伪正特征样本对以所述文本特征为锚点的第二子损失函数；

基于所述第一子损失函数和所述第二子损失函数之和得到所述第一特征对齐损失函数。

具体地，对于第一伪正特征样本对<Ve，Tm>，可以计算该批次第一伪正特征样本对<Ve，Tm>基于三模态的第一特征对齐损失函数L′_T，其中，第一特征对齐损失函数L′_T可以是伪正特征样本对<Ve，Tm>以视觉特征Ve为锚点的第一子损失函数L′_t2v，与伪正特征样本对<Ve，Tm>以文本特征Te为锚点的第二子损失函数L′_t2v之和。

在一些实施例中，第一子损失函数包括：

针对第i个训练特征样本，

基于第i个正样本特征对<Veⁱ，Teⁱ>的第一度量函数s(Veⁱ，Teⁱ)与温度系数τ的第一比值，计算第i个正样本特征对<Veⁱ，Teⁱ>基于所述第一比值的第一指数函数；以及基于所述第一指数函数与第一中间函数Z’计算第i个正样本特征对<Veⁱ，Teⁱ>的第一对数函数log(Veⁱ，Teⁱ)；

基于第i个伪正样本特征对<Veⁱ，Tmⁱ>的第二度量函数s(Veⁱ，Tmⁱ)与温度系数τ的第二比值，计算第i个伪正样本特征对<Veⁱ，Tmⁱ>基于所述第二比值的第二指数函数；以及基于第二指数函数与第一中间函数Z’计算第i个伪正样本特征对<Veⁱ，Teⁱ>的第二对数函数log(Veⁱ，Teⁱ)；

基于第i个特征对<Veⁱ，M_Tmf ⁱ>的第三度量函数s(Veⁱ，M_Tmf ⁱ)与温度系数τ的第三比值，计算第i个特征对<Veⁱ，M_Tmf ⁱ>基于所述第三比值的第三指数函数；以及基于第三指数函数与第一中间函数Z’计算第i个特征对<Veⁱ，M_Tmf ⁱ>的第三对数函数log(Veⁱ，M_Tmf ⁱ)；

基于所述第一对数函数log(Veⁱ，Teⁱ)、所述第二对数函数log(Veⁱ，Teⁱ)和所述第三对数函数log(Veⁱ，M_Tmf ⁱ)计算第i个训练特征样本的第一单个样本损失函数；

基于所有B个训练特征样本的第一单个样本损失函数计算得到所述第一子损失函数。

其中，i可以为正整数。在一些实施例中，基于所述第一指数函数与第一中间函数Z’计算第i个正样本特征对<Veⁱ，Teⁱ>的第一对数函数，进一步包括：计算所述第一指数函数与第一中间函数Z’之和为第一和；以自然常数e为底，所述第一指数函数与所述第一和的比值为真数，得到所述第一对数函数。在一些实施例中，基于所述第二指数函数与第二中间函数Z’计算第i个正样本特征对<Veⁱ，Tmⁱ>的第二对数函数，进一步包括：计算所述第二指数函数与第二中间函数Z’之和为第二和；以自然常数e为底，所述第二指数函数与所述第二和的比值为真数，得到所述第二对数函数。在一些实施例中，基于所述第三指数函数与第一中间函数Z’计算第i个正样本特征对<Veⁱ，M_Tmf ⁱ>的第三对数函数，进一步包括：计算所述第三指数函数与第一中间函数Z’之和为第三和；以自然常数e为底，所述第三指数函数与所述第三和的比值为真数，得到所述第三对数函数。

在一些实施例中，基于所有B个训练特征样本的第一单个样本损失函数计算得到所述第一子损失函数，包括：计算所有B个第一单个样本损失函数之和的负数，得到所述第一子损失函数。

在一些实施例中，第一中间函数Z’可以包括：

基于特征对<Veⁱ，Te^j>的第四度量函数是s(Veⁱ，Te^j)与温度系数τ的第四比值，计算特征对<Veⁱ，Te^j>基于所述第四比值的第四指数函数；

基于特征对<Veⁱ，Tm^j>的第五度量函数s(Veⁱ，Tm^j)与温度系数τ的第五比值，计算特征对<Veⁱ，Tm^j>基于所述第五比值的第五指数函数；

基于特征对<Veⁱ，M_Tmf ^j>的第六度量函数s(Veⁱ，M_Tmf ^j)与温度系数τ的第六比值，计算特征对<Veⁱ，M_Tmf ^j>基于所述第六比值的第六指数函数；其中，i与j不同(j可以是正整数)；

基于所述第四指数函数、所述第五指数函数和第六指数函数之和得到第一中间子函数；

基于所有B个训练特征样本的第一中间子函数之和计算得到所述第一中间函数。

在一些实施例中，第二子损失函数包括：

针对第i个训练特征样本，

以自然常数e为底，所述第一指数函数与B个第四指数函数之和的比值为真数，计算第四对数函数；以自然常数e为底，所述第二指数函数与B个第五指数函数之和的比值为真数，计算第五对数函数；

以自然常数e为底，所述第三指数函数与B个第六指数函数之和的比值为真数，计算第六对数函数；

基于所述第四对数函数、所述第五对数函数和所述第六对数函数之和的负数得到所述第二子损失函数。

在一些实施例中，计算所述第二伪正特征样本对的第二特征对齐损失函数，可以包括：

基于所述第二融合特征、所述视频特征、所述文本特征和所述视频掩码特征，计算所述第二伪正特征样本对以所述视频特征为锚点的第三子损失函数和所述第二伪正特征样本对以所述文本特征为锚点的第四子损失函数；

基于所述第三子损失函数和所述第四子损失函数之和得到所述第二特征对齐损失函数。

具体地，与第一伪正特征样本对<Ve，Tm>相似地，对于第二伪正特征样本对<Vm，Te>，也可以计算该批次训练中第二伪正特征样本对<Vm，Te>基于三模态的第二特征对齐损失函数L′_V包括伪正特征样本对<Vm，Te>以视觉特征Ve为锚点的第三子损失函数L″_v2t，与伪正特征样本对<Vm，Te>以文本特征Te为锚点的第四子损失函数L″_t2v之和。

在一些实施例中，第三子损失函数包括：

针对第i个训练特征样本，

基于第i个正样本特征对<Teⁱ，Veⁱ>的第七度量函数s(Teⁱ，Veⁱ)与温度系数τ的第七比值，计算第i个正样本特征对<Veⁱ，Teⁱ>基于所述第七比值的第七指数函数；基于特征对<Teⁱ，Ve^j>的第八度量函数是s(Teⁱ，Ve^j)与温度系数τ的第八比值，计算特征对<Teⁱ，Ve^j>基于所述第八比值的第八指数函数；以及以自然常数e为底，所述第七指数函数与B个第八指数函数之和的比值为真数，计算第七对数函数；

基于第i个伪正样本特征对<Teⁱ，Vmⁱ>的第九度量函数s(Teⁱ，Vmⁱ)与温度系数τ的第九比值，计算第i个伪正样本特征对<Teⁱ，Vmⁱ>基于所述第九比值的第九指数函数；基于特征对<Teⁱ，Vm^j>的第十度量函数是s(Teⁱ，Vm^j)与温度系数τ的第九比值，计算特征对<Teⁱ，Vm^j>基于所述第九比值的第九指数函数；以及以自然常数e为底，所述第九指数函数与B个第十指数函数之和的比值为真数，计算第八对数函数；

基于第i个特征对<Teⁱ，M_vmf ⁱ>的第十一度量函数s(Teⁱ，M_vmf ⁱ)与温度系数τ的第十一比值，计算第i个特征对<Teⁱ，M_vmf ⁱ>基于所述第十一比值的第十一指数函数；基于特征对<Teⁱ，M_vmf ^j>的第十二度量函数是s(Teⁱ，M_vmf ^j)与温度系数τ的第十二比值，计算特征对<Teⁱ，M_vmf ^j>基于所述第十二比值的第十二指数函数；以及以自然常数e为底，所述第十一指数函数与B个第十二指数函数之和的比值为真数，计算第九对数函数；

基于所述第七对数函数、所述第八对数函数和所述第九对数函数之和的负数得到所述第三子损失函数。

在一些实施例中，第四子损失函数包括：

基于所述第七指数函数与第二中间函数Z”计算第i个正样本特征对<Teⁱ，Veⁱ>的第十对数函数log’(Teⁱ，Veⁱ)；

基于所述第九指数函数与第二中间函数Z”计算第i个伪正样本特征对<Teⁱ，Vmⁱ>的第十一对数函数log’(Teⁱ，Vmⁱ)；

基于所述第十一指数函数与第二中间函数Z”计算第i个特征对<Teⁱ，M_vmf ^j>的第十二对数函数log’(Teⁱ，M_vmf ^j)；

基于所述第十对数函数log’(Teⁱ，Veⁱ)、所述第十一对数函数log’(Veⁱ，Vmⁱ)和所述第十二对数函数log’(Teⁱ，M_vmf ^j)计算第i个训练特征样本的第二单个样本损失函数；

基于所有B个训练特征样本的第二单个样本损失函数计算得到所述第四子损失函数。

其中，i可以为正整数。在一些实施例中，基于所述第七指数函数与第二中间函数Z”计算第i个正样本特征对<Teⁱ，Veⁱ>的第十对数函数log’(Teⁱ，Veⁱ)，进一步包括：计算所述第七指数函数与第二中间函数Z”之和为第四和；以自然常数e为底，所述第七指数函数与所述第四和的比值为真数，得到所述第十对数函数。在一些实施例中，基于所述第九指数函数与第二中间函数Z”计算第i个伪正样本特征对<Teⁱ，Vmⁱ>的第十一对数函数log’(Teⁱ，Vmⁱ)，进一步包括：计算所述第九指数函数与第二中间函数Z”之和为第五和；以自然常数e为底，所述第九指数函数与所述第五和的比值为真数，得到所述第十一对数函数。在一些实施例中，基于所述第十一指数函数与第二中间函数Z”计算第i个特征对<Veⁱ，M_Tmf ⁱ>的第十二对数函数log’(Teⁱ，M_vmf ^j)，进一步包括：计算所述第十一指数函数与第二中间函数Z”之和为第六和；以自然常数e为底，所述第十一指数函数与所述第六和的比值为真数，得到所述第十二对数函数。

在一些实施例中，基于所有B个训练特征样本的第二单个样本损失函数计算得到所述第四子损失函数，包括：计算所有B个第二单个样本损失函数之和的负数，得到所述第四子损失函数。.

在一些实施例中，第二中间函数Z”可以包括：

基于特征对<Teⁱ，Vm^j>的第十度量函数s(Veⁱ，Tm^j)与温度系数τ的第十三比值，计算特征对<Veⁱ，Tm^j>基于所述第十三比值的第十三指数函数；

基于特征对<Teⁱ，M_vmf ^j>的第十一度量函数s(Teⁱ，M_vmf ^j)与温度系数τ的第十四比值，计算特征对<Teⁱ，M_vmf ^j>基于所述第十四比值的第十四指数函数；其中，i与j不同(j可以是正整数)；

基于所述第四指数函数、所述第十三指数函数和第十四指数函数之和得到第二中间子函数；

基于所有B个训练特征样本的第二中间子函数之和计算得到所述第二中间函数。那么，可以基于两个伪正特征样本对<Ve，Tm>和伪正特征样本对<Vm，Te>基于三模态的特征对齐损失函数可以计算得到基于三模态的特征对齐的总损失函数L_TmA’，包括第一特征对齐损失函数L′_T与第二特征对齐损失函数L′_V之和。

由于视频掩码样本和文本掩码样本相较于完整的视频样本和文本样本是存在部分信息缺失的，因此由视频掩码样本和文本掩码样本所得到的伪正特征样本对之间的语义一致性相较于由完整的视频样本和文本样本得到的视频文本特征对之间的语义一致性是更弱的。这就要求信息完整的正样本特征对<Ve，Te>之间的相似度要高于伪正特征样本对<Ve，Tm>、<Vm，Te>，从而是预训练模型能够意识到伪正特征样本对相对于正样本特征对具有一定的语义缺失，从而强化预训练模型对于不同模态间的信息融合能力和细粒度感知能力。因此，可以对样本特征序列进行排序训练。如图5所示，图5示出了根据本公开实施例的排序训练的示意图。

在一些实施例中，可以计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数。

进一步地，在一些实施例中，计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数，包括：

基于第一预设值、所述第一伪正特征样本对的第一度量函数和所述正样本特征对的正样本度量函数得到第一相关度函数；

基于第二预设值与所述第一相关度函数的最大值函数得到所述第一相关度损失函数。

具体地，对于第一伪正特征样本对<Ve，Tm>，排序训练的第一相关度损失函数L_{rank<Ve，Tm>}可以包括：

计算正特征样本对<Ve，Te>的度量函数s(Ve，Te)与温度系数的十五比值；以及计算第一伪正特征样本对<Ve，Tm>的度量函数s(Ve，Tm)与温度系数的十六比值；

计算所述十五比值与所述十六比值的第一差值，并计算所述第一差值与第一预设值λ之和的负数，得到第一相关度函数；

基于所述第二预设值(例如0)和所述第一相关度函数的最大值函数得到所述第一相关度损失函数。

在一些实施例中，可以计算所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数。

进一步地，在一些实施例中，计算所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数，包括：

基于所述第一预设值、所述第二伪正特征样本对的第二度量函数和所述正样本特征对的度量正样本度量函数得到第二相关度函数；

基于所述第二预设值与所述第二相关度函数的最大值函数得到所述第二相关度损失函数。

具体地，对于第二伪正特征样本对<Vm，Te>，排序训练的第二相关度损失函数L_{rank<Vm，Te>}可以包括：

计算正特征样本对<Te，Ve>的度量函数s(Te，Ve)与温度系数的十七比值；以及计算第二伪正特征样本对<Vm，Te>的度量函数s(Vm，Te)与温度系数的十八比值；

计算所述十七比值与所述十八比值的第二差值，并计算所述第二差值与第一预设值λ之和的负数，得到第二相关度函数；

基于所述第二预设值(例如0)和所述第二相关度函数的最大值函数得到所述第二相关度损失函数。

那么，此时可以基于所述第一相关度损失函数和所述第二相关度损失函数计算排序训练的总相关度损失函数L_rank包括第一相关度损失函数L_{rank<Ve，Tm>}和第二相关度损失函数L_{rank<Vm，Te>}之和。

进一步地，可以基于预训练中的特征对齐的总损失函数和排序训练阶段的总相关度损失函数计算整个预训练过程中的总损失函数L＝L_TmA’+L_rank。

根据预训练过程的总损失函数来调整预训练模型的参数，以使得总损失函数最小化，从而得到训练好的预训练模型。

可见，根据本公开实施例，采用基于三模态对齐的预训练方法，显式地加强了单模态编码器(例如图3中的视频编码器310和文本编码器320)与多跨模态编码器330间的联系、促进了二者间的协同进步，在预训练中实现模型的多模态对齐能力与多模态融合能力的互相促进，能够兼顾不同下游任务并同时保证高效率和高性能的预训练模型。相比于传统预训练模型针对单一任务设计和训练的传统预训练模型，根据本公开实施例的基于多模态的预训练模型能够在不降低计算效率的情况下，在诸如视频检索、视频问答等不同的下游视频文本任务上取得更高的准确率。

经过上述预训练阶段后得到预训练模型，在此基础上还可以针对不同的下游任务来有针对性地对预训练模型进行训练，得到用于不同下游任务的多模态数据模型。

在一些实施例中，还可以包括：基于所述第二训练样本对所述预训练模型进行训练得到所述第一模型。

进一步地，在一些实施例中，基于所述第二训练样本对所述预训练模型进行训练得到所述第一模型，可以进一步包括：

获取所述第二训练样本，所述第二训练样本包括至少一个视频-文本训练对，每个视频-文本训练对包括视频训练样本和对应的文本训练样本；

基于所述第二训练样本对所述预训练模型进行训练直至满足目标训练要求，得到所述第一模型。

其中，对于不同的视频处理任务，第二训练样本所包含的内容可以不同。例如，对于视频检索任务，第一模型可以基于第一文本信息在包括多个视频数据的视频集合中进行检索，得到相应的视频检索结果。那么，该视频检索任务所对应的第二训练样本可以包括至少一个视频-关联信息对，每个视频-关联信息对包括视频训练样本和对应的关联信息；其中，关联信息可以指描述对应的视频训练样本的文本信息。对于视频信息生成任务，第一模型可以基于视频数据生成与该视频数据相关联的第二文本信息(例如摘要、标题、简介等)。那么，该视频信息生成任务所对应的第二训练样本可以包括至少一个视频-文本信息对，每个视频-文本信息对包括视频训练样本和对应的诸如摘要、标题、简介等文本信息。对于视频问答任务，第一模型可基于关于视频数据的提问信息和视频数据，得到针对该提问信息的文本回答结果。那么，该视频问答任务所对应的第二训练样本可以包括至少一个视频-问答信息对，每个视频-问答信息对包括视频训练样本、针对该视频训练样本的提问信息和对应的答案信息。可见，由于根据本公开实施例的视频处理方法得到的预训练模型，能够兼顾不同下游任务并同时保证高效率和高性能，将其用于不同的视频任务时同样可以得到高性能的第一模型。

可以将训练好的第一模型用于不同的视频处理中，包括基于文本对视频进行搜索，或基于视频对文本进行搜索。

根据本公开实施例，还提供了一种视频处理方法，其特征在于，包括：

获取输入文本；

输出与目标视频特征对应的目标视频。

在一些实施例中，所述第一模型的多模态融合特性基于所述第一模型对第一训练特征样本进行融合得到的融合模态特征确定；其中，所述第一训练特征样本由包括视频模态和文本模态的第一训练样本进行特征提取后得到。

其中，第一模型的预训练过程中，第一模型对第一训练特征样本进行特征融合得到融合模态特征，使得第一模型具有将视频模态和文本模态进行融合的多模态融合特性。在后续数据处理过程中，第一模型在对任何模态(例如文本模态、视频模态等)的数据进行特征提取时，可以得到具有多模态特性的数据特征。

具体来说，输入文本可以是有用户确定的。例如在应用程序APP1中，可以经由本地或网络向用户提供N1个视频数据，用户希望从中搜索自己感兴趣的视频。用户可以在对应的搜索栏中输入关键字文本KeyA，则应用程序APP1可以调用部署其中的第一模型对关键字文本KeyA进行特征提取，得到关键字文本KeyA的文本特征FeatureA，该文本特征FeatureA可以是特征向量。第一模型基于该文本特征FeatureA在视频特征集合中进行搜索匹配，该视频特征集合可以是对N1个视频数据进行特征提取后得到的视频特征的集合。搜索匹配可以是计算文本特征FeatureA与视频特征集合中视频特征的距离(例如欧氏距离、关联度等)，从而得到与文本特征FeatureA相匹配的目标视频特征。第一模型则可以将该目标视频特征所对应的目标视频返回，呈现在应用程序APP1中以向用户输出该目标视频。根据本公开实施例的视频处理方法，采用第一模型基于关键字文本对视频进行搜索，能够得到准确度更高的搜索结果。

获取待处理的视频数据；

基于所述目标文本特征生成目标文本并输出。

具体地，对于待处理的视频数据Video，用户希望针对该视频数据Video自动生成对应的摘要信息。第一模型可以对该视频数据Video进行特征提取得到对应的视频特征FeatureB，该视频特征FeatureB可以是特征向量。第一模型基于该视频特征FeatureB在文本特征集合中进行搜索匹配，该文本特征集合可以是对预设文本进行特征提取后得到的文本特征的集合。经过搜索匹配后可以得到与视频特征FeatureB相匹配的一个或多个目标文本特征，基于该一个或多个目标文本特征所对应的目标预设文本，可以形成关于视频数据Video的目标文本作为摘要信息。根据本公开实施例的视频处理方法，采用第一模型基于视频生成相关的文本信息，能够提高文本信息的准确度。

再例如，对于待处理的视频数据Video’，用户针对该视频数据Video’提出问题Q1，希望得到该问题Q1的答案。第一模型可以对该视频数据Video’进行特征提取得到对应的视频特征FeatureC，以及对问题Q1进行特征提取得到文本特征FeatureD。第一模型基于该视频特征FeatureB和文本特征FeatureD在文本特征集合中进行搜索匹配，得到与视频特征FeatureB和文本特征FeatureD相匹配的一个或多个目标文本特征。基于该一个或多个目标文本特征形成目标文本，作为针对问题Q1的答案返回给用户。可见，根据本公开实施例的视频处理方法，采用第一模型基于视频和提问信息生成对应的答案，能够提高答***度。

参见图6，图6示出了根据本公开实施例的视频处理方法的流程示意图。图6中，视频处理方法600可以包括如下步骤。

步骤S610，获取输入文本；

步骤S620，基于第一模型的多模态融合特性对所述输入文本进行特征提取得到具有多模态特性的文本特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；

步骤S630，基于所述具有多模态特性的文本特征在视频特征集合中搜索与所述文本特征相匹配的目标视频特征；

步骤S640，输出与目标视频特征对应的目标视频。

在一些实施例中，方法600还包括：

所述第一模型需要基于第一训练样本对初始模型进行预训练，具体包括：

获取第一训练样本；

基于所述第一训练样本进行特征提取后得到第一训练特征样本(例如图3中的视频特征序列Ve、视频掩码特征序列Vm、文本特征序列Te和文本掩码特征序列Tm)，并将所述第一训练特征样本进行融合，得到融合模态特征(例如图3中的第一融合模态特征序列M_Tmf和第二融合模态特征序列M_Vmf)；

基于所述第一训练特征样本和所述融合模态特征对所述第一模型进行预训练，得到预训练模型。

在一些实施例中，获取第一训练样本包括：

获取至少一个视频文本对，所述视频文本对包括视频样本和文本样本；

在所述视频样本的每个视频块包中随机选择第一预设比例的视频块进行掩盖，以生成所述视频掩码样本(例如图3中的视频掩码样本312)；

随机选择所述文本样本中第二预设比例的预设类型文本进行掩盖，以生成所述文本掩码样本(例如图3中的文本掩码样本322)；

基于所述至少一个视频文本对、所述视频掩码样本和所述文本掩码样本得到所述第一训练样本。

在一些实施例中，方法600还包括：

所述第一模型基于第二训练样本对所述预训练模型进行训练得到，具体包括：

在一些实施例中，所述融合模态特征包括第一融合模态特征(例如图3中的第一融合模态特征序列M_Tmf)和第二融合模态特征(例如图3中的第二融合模态特征序列M_Vmf)；

基于所述第一训练样本进行特征提取后得到第一训练特征样本，并将所述第一训练特征样本进行融合，得到融合模态特征，进一步包括：

分别对所述视频样本进行特征提取得到视频特征(例如图3中的视频特征序列Ve)，对所述文本样本进行特征提取得到文本特征(例如图3中的文本特征序列Te)，对所述视频掩码样本进行特征提取得到视频掩码特征(例如图3中的视频掩码特征序列Vm)，对所述文本掩码样本进行特征提取得到文本掩码特征(例如图3中的文本掩码特征序列Tm)；

基于所述视频特征和所述文本掩码特征进行多模态特征融合得到所述第一融合模态特征(例如图3中的第一融合模态特征序列M_Tmf)；以及

基于所述文本特征和所述视频掩码特征进行多模态特征融合，得到第二融合模态特征(例如图3中的第二融合模态特征序列M_Vmf)。

在一些实施例中，所述基于所述第一训练特征样本和所述融合模态特征对初始模型进行预训练，得到所述预训练模型，还包括：

基于所述视频特征和所述文本掩码特征得到第一伪正特征样本对(例如图3中的第一伪正特征样本对<Ve，Tm>)，基于所述文本特征和所述视频掩码特征得到第二伪正特征样本对(例如图3中的第二伪正特征样本对<Vm，Te>)，以及基于所述视频特征和所述文本特征得到正样本特征对(例如正样本特征对<Ve，Te>)；

计算所述第一伪正特征样本对的第一特征对齐损失函数(例如第一特征对齐损失函数L_T’)和所述第二伪正特征样本对的第二特征对齐损失函数(例如第二特征对齐损失函数L_V’)；

计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数(例如第一相关度损失函数L_{rank<Ve，Tm>})和所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数(例如第二相关度损失函数L_{rank<Vm，Te>})；

基于所述第一特征对齐损失函数、所述第二特征对齐损失函数、所述第一相关度损失函数和所述第二相关度损失函数得到所述预训练的总损失函数(例如总损失函数L)。

在一些实施例中，计算所述第一伪正特征样本对的第一特征对齐损失函数和所述第二伪正特征样本对的第二特征对齐损失函数，包括：

基于所述第一融合特征、所述视频特征、所述文本特征和所述文本掩码特征，计算所述第一伪正特征样本对以所述视频特征为锚点的第一子损失函数(例如第一子损失函数L′_v2t)和所述第一伪正特征样本对以所述文本特征为锚点的第二子损失函数(例如第二子损失函数L′_t2v)；

基于所述第一子损失函数和所述第二子损失函数之和得到所述第一特征对齐损失函数(例如第一特征对齐损失函数L_T’)；以及

基于所述第二融合特征、所述视频特征、所述文本特征和所述视频掩码特征，计算所述第二伪正特征样本对以所述视频特征为锚点的第三子损失函数(例如第三子损失函数L″_v2t)和所述第二伪正特征样本对以所述文本特征为锚点的第四子损失函数(例如第四子损失函数L″_t2v)；

基于所述第三子损失函数和所述第四子损失函数之和得到所述第二特征对齐损失函数(例如第二特征对齐损失函数L_V’)。

在一些实施例中，计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数和所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数，包括：

基于第一预设值(例如第一预设值λ)、所述第一伪正特征样本对的第一度量函数(例如s(Ve，Tm))和所述正样本特征对的正样本度量函数(例如s(Ve，Te))得到第一相关度函数(例如)；

基于第二预设值(例如0)与所述第一相关度函数的最大值函数得到所述第一相关度损失函数(例如第一相关度损失函数L_{rank<Ve，Tm>})；以及

基于所述第一预设值(例如第一预设值λ)、所述第二伪正特征样本对的第二度量函数(例如s(Vm，Te))和所述正样本特征对的度量正样本度量函数(例如s(Te，Ve))得到第二相关度函数；

基于所述第二预设值(例如0)与所述第二相关度函数的最大值函数得到所述第二相关度损失函数(例如第二相关度损失函数L_{rank<Vm，Te>})。

参见图7，图7示出了根据本公开实施例的视频处理方法的流程示意图。图7中，视频处理方法700可以包括如下步骤。

在步骤S710，获取待处理的视频数据；

在步骤S720，基于第一模型的多模态融合特性对所述视频数据进行特征提取得到具有多模态特性的视频特征；其中，所述第一模型具有将视频模态和文本模态进行融合的多模态融合特性；

在步骤S730，基于所述具有多模态特性的视频特征在文本特征集合中搜索与所述视频特征相匹配的目标文本特征；

在步骤S740，基于所述目标文本特征生成目标文本并输出。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一技术构思，与上述任意实施例方法相对应的，本公开还提供了一种视频处理装置，参见图8，所述视频处理装置包括：

第一获取模块，用于获取输入文本；

基于同一技术构思，与上述任意实施例方法相对应的，本公开还提供了一种视频处理装置，参见图9，所述视频处理装置包括：

第二获取模块，用于获取待处理的视频数据；

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的视频处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取输入文本；

输出与目标视频特征对应的目标视频。

2.根据权利要求1所述的方法，其特征在于，所述第一模型的多模态融合特性基于所述第一模型对第一训练特征样本进行融合得到的融合模态特征确定；其中，所述第一训练特征样本由包括视频模态和文本模态的第一训练样本进行特征提取后得到。

3.根据权利要求1所述的方法，其特征在于：

获取第一训练样本；

基于所述第一训练样本进行特征提取后得到第一训练特征样本，并将所述第一训练特征样本进行融合，得到融合模态特征；

基于所述第一训练特征样本和所述融合模态特征对所述初始模型进行预训练，得到所述预训练模型。

4.根据权利要求3的方法，其特征在于，所述获取第一训练样本包括：

在所述视频样本的每个视频块包中随机选择第一预设比例的视频块进行掩盖，以生成所述视频掩码样本；

随机选择所述文本样本中第二预设比例的预设类型文本进行掩盖，以生成所述文本掩码样本；

5.根据权利要求3的方法，其特征在于，还包括：

6.根据权利要求3的方法，其特征在于，所述融合模态特征包括第一融合模态特征和第二融合模态特征；

对所述视频样本进行特征提取得到视频特征，对所述文本样本进行特征提取得到文本特征，对所述视频掩码样本进行特征提取得到视频掩码特征，对所述文本掩码样本进行特征提取得到文本掩码特征；

基于所述视频特征和所述文本掩码特征进行多模态特征融合得到所述第一融合模态特征；以及

基于所述文本特征和所述视频掩码特征进行多模态特征融合，得到第二融合模态特征。

7.根据权利要求6的方法，其特征在于，所述基于所述第一训练特征样本和所述融合模态特征对初始模型进行预训练，得到所述预训练模型，还包括：

基于所述视频特征和所述文本掩码特征得到第一伪正特征样本对，基于所述文本特征和所述视频掩码特征得到第二伪正特征样本对，以及基于所述视频特征和所述文本特征得到正样本特征对；

计算所述第一伪正特征样本对的第一特征对齐损失函数和所述第二伪正特征样本对的第二特征对齐损失函数；

计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数和所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数；

基于所述第一特征对齐损失函数、所述第二特征对齐损失函数、所述第一相关度损失函数和所述第二相关度损失函数得到所述预训练的总损失函数；

基于所述总损失函数调整所述初始模型的模型参数，以使所述总损失函数最小化，得到所述预训练模型。

8.根据权利要求7的方法，其特征在于，计算所述第一伪正特征样本对的第一特征对齐损失函数和所述第二伪正特征样本对的第二特征对齐损失函数，包括：

基于所述第一子损失函数和所述第二子损失函数之和得到所述第一特征对齐损失函数；以及

9.根据权利要求7的方法，其特征在于，计算所述第一伪正特征样本对与所述正样本特征对的第一相关度损失函数和所述第二伪正特征样本与所述正样本特征对的第二相关度损失函数，包括：

基于第二预设值与所述第一相关度函数的最大值函数得到所述第一相关度损失函数；以及

10.一种视频处理方法，其特征在于，包括：

获取待处理的视频数据；

基于所述目标文本特征生成目标文本并输出。

11.一种视频处理装置，其特征在于，包括：

第一获取模块，用于获取输入文本；

12.一种视频处理装置，其特征在于，包括：

第二获取模块，用于获取待处理的视频数据；

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。

14.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至9任一所述方法。

15.一种计算机程序产品，包括计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行权利要求1至9任一所述的方法。