CN114996515A

CN114996515A - 视频特征提取模型的训练方法、文本生成方法及装置

Info

Publication number: CN114996515A
Application number: CN202210615076.XA
Authority: CN
Inventors: 林和政; 吴翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-02

Abstract

本公开关于一种视频特征提取模型的训练方法、文本生成方法及装置，属于计算机技术领域。本公开实施例中，利用样本视频的图像信息、文本信息以及该样本视频的文本标签、图像标签，来对视频特征提取模型进行模型训练，提供了一种基于双训练任务的模型训练方法，在以文本生成任务为主任务而图像重建任务为辅任务的情况下，由于该样本视频的图像标签表示图像重建特征，因此在模型训练的过程中，能够提升视频特征提取模型针对图像特征的提取能力，进而获取到高质量的图像特征，在获取到高质量的图像特征的基础上，也就能够训练出文本生成能力较优的视频特征提取模型，提升了视频特征提取模型的训练效果。

Description

视频特征提取模型的训练方法、文本生成方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频特征提取模型的训练方法、文本生成方法及装置。

背景技术

随着计算机技术和互联网技术的飞速发展，视频处理技术逐渐成为新兴的研究热点。在视频处理技术中，通常需要提取能够表征视频内容的视频特征，进而利用该视频特征来进行视频推荐、视频分类或视频搜索等处理过程。

目前，在对视频进行特征提取之前，通常会根据多个样本视频的图像信息以及该多个样本视频的类别标签，训练一个视频分类模型，进而利用所训练得到的视频分类模型对视频中的图像进行处理，以获得该视频的类别特征。然而，上述视频分类模型，特征提取能力较弱，不利于后续视频推荐、视频分类或视频搜索的处理过程。

发明内容

本公开提供一种视频特征提取模型的训练方法、文本生成方法及装置，能够训练出文本生成能力较优的视频特征提取模型，提升了视频特征提取模型的训练效果。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频特征提取模型的训练方法，该方法包括：

获取样本视频的图像信息、文本信息、图像标签以及文本标签，该图像标签表示图像重建特征，该文本标签表示该样本视频的内容描述文本；

将该图像信息与该文本信息输入视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该样本视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征；

通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果；

基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练。

本公开实施例中，利用样本视频的图像信息、文本信息以及该样本视频的文本标签、图像标签，来对视频特征提取模型进行模型训练，其中，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到样本视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该样本视频的文本特征，还能够对样本视频的图像特征和文本特征进行特征融合，以便后续基于融合特征，一方面，能够对样本视频进行图像重建，以获得高质量的图像特征，另一方面，还能够生成该样本视频的内容描述文本，如此，提供了一种基于双训练任务的模型训练方法，在以文本生成任务为主任务而图像重建任务为辅任务的情况下，由于该样本视频的图像标签表示图像重建特征，因此在模型训练的过程中，能够提升视频特征提取模型针对图像特征的提取能力，进而获取到高质量的图像特征，在获取到高质量的图像特征的基础上，也就能够训练出文本生成能力较优的视频特征提取模型，提升了视频特征提取模型的训练效果。

在一些实施例中，该样本视频的图像信息的获取过程包括下述至少一项：

获取该样本视频的封面图像；或，获取该样本视频内的至少一帧图像。

本公开实施例中，通过获取样本视频的封面图像或样本视频所包括的图像帧，均能够快速获取到样本视频的图像信息，在确保获取图像信息的效率的同时，还丰富了图像信息的类型，提升了获取图像信息的灵活性。

在一些实施例中，该样本视频的文本信息的获取过程包括下述至少一项：

获取该样本视频的描述信息；获取该样本视频的标题信息；获取该样本视频的字幕信息；获取该样本视频的文字识别结果，该文字识别结果为对该样本视频内的至少一帧图像进行文字识别所得到的结果；获取该样本视频的音频识别结果，该音频识别结果为对该样本视频的背景音频进行音频识别所得到的结果。

本公开实施例中，通过获取样本视频的描述信息、标题信息、字幕信息、文字识别结果或音频识别结果，均能够快速获取到样本视频的文本信息，在确保获取文本信息的效率的同时，还丰富了文本信息的类型，提升了获取文本信息的灵活性。

在一些实施例中，该内容描述文本为内容类目描述文本、内容形式描述文本、内容主题描述文本以及内容详情描述文本中的至少一类。

本公开实施例中，通过设置多种类型的内容描述文本，一方面，能够生成更具有表达能力的内容描述文本，另一方面，该多种类型的内容描述文本能够从不同的维度对视频的内容进行描述，丰富了所生成的内容描述文本的类型，能够更加充分完整的表征视频。

在一些实施例中，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征包括下述任一项：

通过该特征融合子模型所包括的自注意力层，对该图像特征与该文本特征进行处理，得到该样本视频的融合特征；

通过该特征融合子模型所包括的深度置信网络，对该图像特征与该文本特征进行处理，得到该样本视频的融合特征。

本公开实施例中，通过在特征融合子模型中设置自注意力层或深度置信网络，进而利用自注意力机制或深度置信网络来进行特征融合，能够获得更具备视频表征能力的特征，提高了特征融合的准确性。

在一些实施例中，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果包括：

通过该文本生成子模型所包括的自注意力层，对该融合特征进行处理，得到该文本训练结果。

本公开实施例中，通过在文本生成子模型中设置自注意力层，进而利用自注意力机制来生成内容描述文本，提高了文本生成的准确性。

在一些实施例中，该文本训练结果包括多个类型的内容描述文本；

通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到该文本训练结果之前，该方法还包括：

在该融合特征上，添加各个类型的类型标识；

通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到该文本训练结果包括：

将添加该类型标识后的融合特征输入该文本生成子模型，通过该文本生成子模型，分别基于各个类型标识对应的处理机制，对该融合特征进行处理，得到该多个类型的内容描述文本。

本公开实施例中，通过在融合特征上添加各个类型的类型标识，以便视频特征提取模型中的文本生成子模型能够基于各个类型的类型标识，来触发生成样本视频的多个类型的内容描述文本，确保文本生成的顺利进行。

在一些实施例中，该文本信息的数量为多个；

通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征之前，该方法还包括：

对多个该文本信息进行拼接，得到拼接后的该文本信息；

基于拼接后的该文本信息，执行该通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征的步骤。

本公开实施例中，在文本信息的数量为多个的情况下，通过对文本信息进行拼接，以得到拼接后的文本信息，进而利用拼接后的文本信息来进行提取文本特征的过程，参考了多种类型的文本信息，提高了提取文本特征的准确性。

在一些实施例中，对多个该文本信息进行拼接，得到拼接后的该文本信息之后，该方法还包括：

从拼接后的该文本信息中，提取前目标数量的字符；

基于所提取的字符，执行该通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征的步骤。

本公开实施例中，在拼接后的文本信息中，提取前目标数量的字符，以便基于所提取的一定数量的字符，来进行后续提取文本特征的过程，在确保输入充足的文本信息的基础上，减小了视频特征提取模型的运算量，提高了提取文本特征的效率。

在一些实施例中，基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练包括：

在模型训练的第i次迭代过程中，基于该第i次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，确定该第i次迭代过程的模型损失值，该i为大于1的正整数；

基于该第i次迭代过程的模型损失值，调整第i-1次迭代过程所确定的该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，重复上述训练的迭代过程，直至训练满足目标条件。

本公开实施例中，在模型训练的任一次迭代过程中，均利用本次迭代过程的模型损失值来对视频特征提取模型中的各个子模型进行模型参数的调整，以提升视频特征提取模型的文本生成能力，从而训练出文本生成能力较高的视频特征提取模型。

在一些实施例中，基于该第i次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，确定该第i次迭代过程的模型损失值包括：

基于该第i次迭代过程的图像训练结果与该样本视频的图像标签，确定该第i次迭代过程的图像重建损失值，该图像重建损失值表示该图像训练结果与该图像标签之间的差异；

基于该第i次迭代过程的文本训练结果与该样本视频的文本标签，确定该第i次迭代过程的文本生成损失值，该文本生成损失值表示该文本训练结果与该文本标签之间的差异；

基于该图像重建损失值与该文本生成损失值，确定该第i次迭代过程的模型损失值。

在一些实施例中，基于该图像重建损失值与该文本生成损失值，确定该第i次迭代过程的模型损失值包括：

基于该图像重建损失值、该图像重建损失值对应的权重系数、该文本生成损失值以及该文本生成损失值对应的权重系数，进行加权求和，得到该第i次迭代过程的模型损失值。

本公开实施例中，针对视频特征提取模型的图像重建任务和文本生成任务，分别设置有各个任务对应的权重系数，进而利用各个任务的损失值以及各个任务对应的权重系数，来确定模型损失值，提高了确定模型损失值的准确性。

基于该第i次迭代过程的文本训练结果与该样本视频的文本标签，确定该第i次迭代过程的文本生成损失值包括：

对于任一类型，基于该第i次迭代过程在该类型上的文本训练结果与该样本视频在该类型上的文本标签，确定该第i次迭代过程在该类型上的损失值；

基于该第i次迭代过程在该多个类型上的损失值以及该视频特征提取网络在该多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值。

本公开实施例中，针对文本生成所涉及的各个类型，分别设置有各个类型对应的权重系数，进而利用各个类型对应的损失值以及各个类型对应的权重系数，来确定文本生成损失值，提高了确定文本生成损失值的准确性。

在一些实施例中，基于该第i次迭代过程在该多个类型上的损失值以及该视频特征提取网络在多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值之前，该方法还包括：

对于任一类型，基于该第i次迭代过程在该类型上的正确文本数量以及总文本数量，确定该第i次迭代过程在该类型上的正确比例，该正确比例表示在该第i次迭代过程中正确文本数量占总文本数量的比例；

基于该第i次迭代过程在该类型上的正确比例，确定该视频特征提取网络在该类型上的权重系数，其中，该正确比例与该权重系数成负相关。

本公开实施例中，针对文本生成所涉及的各个类型，分别按照各个类型所对应的正确比例，来确定各个类型对应的权重系数，由于正确比例表示正确文本数量占总文本数量的比例，且由于正确比例与权重系数之间成负相关，因此，在计算文本生成损失值的情况下，为正确比例大的类型设置较小的权重系数，为正确比例小的类型设置较大的权重系数，提高了确定权重系数的准确性，也就提高了确定文本生成损失值的准确性。

根据本公开实施例的第二方面，提供一种基于视频特征提取模型的文本生成方法，该视频特征提取模型基于上述第一方面或该第一方面中任一实施例所示的训练方法训练得到，该方法包括：

获取目标视频的图像信息与文本信息；

将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该目标视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该目标视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该目标视频的融合特征；

通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，输出满足文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本。

本公开实施例中，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到目标视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该目标视频的文本特征，还能够对目标视频的图像特征和文本特征进行特征融合，以便后续基于融合特征进行处理，能够输出满足文本生成条件的多个字符，进而基于所输出的多个字符能够自动生成该目标视频的内容描述文本，提供了一种基于文本生成的视频特征提取模型，所生成的内容描述文本包含了丰富的信息量，能够更好的表征该目标视频，提升了视频表征的准确性。

在一些实施例中，该方法还包括：

通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到该目标视频的原始图像大小的图像重建特征。

根据本公开实施例的第三方面，提供一种视频特征提取模型的训练装置，该装置包括：

获取单元，被配置为执行获取样本视频的图像信息、文本信息、图像标签以及文本标签，该图像标签表示图像重建特征，该文本标签表示该样本视频的内容描述文本；

输入单元，被配置为执行将该图像信息与该文本信息输入视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该样本视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征；

处理单元，被配置为执行通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果；

训练单元，被配置为执行基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练。

在一些实施例中，该获取单元，被配置为执行下述至少一项：

在一些实施例中，该输入单元包括处理子单元，被配置为执行下述任一项：

在一些实施例中，该处理单元包括文本生成子单元，被配置为执行：

该装置还包括添加单元，被配置为执行在该融合特征上，添加各个类型的类型标识；

该处理单元包括文本生成子单元，还被配置为执行将添加该类型标识后的融合特征输入该文本生成子模型，通过该文本生成子模型，分别基于各个类型标识对应的处理机制，对该融合特征进行处理，得到该多个类型的内容描述文本。

在一些实施例中，该文本信息的数量为多个；

该装置还包括拼接单元，被配置为执行对多个该文本信息进行拼接，得到拼接后的该文本信息；

该输入单元，还被配置为执行基于拼接后的该文本信息，执行该通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征的步骤。

在一些实施例中，该输入单元，还被配置为执行：

从拼接后的该文本信息中，提取前目标数量的字符；

在一些实施例中，该训练单元，包括：

确定子单元，被配置为执行在模型训练的第i次迭代过程中，基于该第i次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，确定该第i次迭代过程的模型损失值，该i为大于1的正整数；

调整子单元，被配置为执行基于该第i次迭代过程的模型损失值，对第i-1次迭代过程所确定的视频特征提取模型的模型参数进行调整，重复上述训练的迭代过程，直至训练满足目标条件。

在一些实施例中，该确定子单元，包括：

图像重建损失值确定子单元，被配置为执行基于该第i次迭代过程的图像训练结果与该样本视频的图像标签，确定该第i次迭代过程的图像重建损失值，该图像重建损失值表示该图像训练结果与该图像标签之间的差异；

文本生成损失值确定子单元，被配置为执行基于该第i次迭代过程的文本训练结果与该样本视频的文本标签，确定该第i次迭代过程的文本生成损失值，该文本生成损失值表示该文本训练结果与该文本标签之间的差异；

模型损失值确定子单元，被配置为执行基于该图像重建损失值与该文本生成损失值，确定该第i次迭代过程的模型损失值。

在一些实施例中，该模型损失值确定子单元，被配置为执行：

该文本生成损失值确定子单元，被配置为执行：

在一些实施例中，该装置还包括确定单元，被配置为执行：

根据本公开实施例的第四方面，提供一种基于视频特征提取模型的文本生成装置，该视频特征提取模型基于上述第一方面或该第一方面中任一实施例所示的训练方法训练得到，该装置包括：

获取单元，被配置为执行获取目标视频的图像信息与文本信息；

输入单元，被配置为执行将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该目标视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该目标视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该目标视频的融合特征；

处理单元，被配置为执行通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，输出满足文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本。

在一些实施例中，该处理单元，还被配置为执行：

根据本公开实施例的第五方面，提供一种计算机设备，该计算机设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述第一方面或该第一方面中任一实施例所示的视频特征提取模型的训练方法，或上述第二方面或该第二方面中任一实施例所示的基于视频特征提取模型的文本生成方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行上述第一方面或该第一方面中任一实施例所示的视频特征提取模型的训练方法，或上述第二方面或该第二方面中任一实施例所示的基于视频特征提取模型的文本生成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面或该第一方面中任一实施例所示的视频特征提取模型的训练方法，或上述第二方面或该第二方面中任一实施例所示的基于视频特征提取模型的文本生成方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频特征提取模型的训练方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频特征提取模型的训练方法的流程图；

图3是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成方法的流程图；

图4是根据一示例性实施例示出的一种视频特征提取模型的训练方法的流程图；

图5是根据一示例性实施例示出的一种视频特征提取模型的框架；

图6是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成方法的流程图；

图7是根据一示例性实施例示出的一种视频特征提取模型的训练装置的框图；

图8是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成装置的框图；

图9是根据一示例性实施例示出的一种终端的框图；

图10是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开实施例所涉及的图像信息和文本信息都是在充分授权的情况下获取的。

在一些实施例中，终端提供有权限询问页面，该权限询问页面用于询问用户是否授予视频的图像信息和文本信息的获取权限，在该权限询问页面中，显示同意授权控件和拒绝授权控件，在检测到用户对该同意授权控件的触发操作的情况下，利用本公开实施例所提供的视频特征提取模型的训练方法来获取样本视频的图像信息和文本信息，进而基于该样本视频的图像信息和文本信息，来对视频特征提取模型进行模型训练。

图1是根据一示例性实施例示出的一种视频特征提取模型的训练方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。终端101具有通信功能，可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102与终端101通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

在一些实施例中，本公开实施例所提供的视频特征提取模型的训练方法由终端101执行，例如，终端101响应于对该视频特征提取模型的训练操作，利用本公开实施例所提供的视频特征提取模型的训练方法，对该视频特征提取模型进行模型训练；在又一些实施例中，本公开实施例所提供的视频特征提取模型的训练方法由终端101和服务器102共同执行，例如，终端101响应于对该视频特征提取模型的训练数据的上传操作，向服务器102发送该视频特征提取模型的训练数据，则服务器102接收终端101所上传的训练数据，利用本公开实施例所提供的视频特征提取模型的训练方法，对该视频特征提取模型进行模型训练。

需要说明的是，本公开实施例所提供的视频特征提取模型，可以应用在视频推荐、视频分类或视频搜索的场景中。在一些实施例中，利用本公开实施例所训练的视频特征提取模型，获取视频的内容描述文本，进而利用所获取的内容描述文本来实现视频推荐、视频分类或视频搜索的功能。

图2是根据一示例性实施例示出的一种视频特征提取模型的训练方法的流程图，如图2所示，该方法由计算机设备执行，该计算机设备可提供为上述图1所示出的终端或服务器，示意性地，该方法包括以下步骤：

在步骤201中，计算机设备获取样本视频的图像信息、文本信息、图像标签以及文本标签，该图像标签表示图像重建特征，该文本标签表示该样本视频的内容描述文本。

在步骤202中，计算机设备将该图像信息与该文本信息输入视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该样本视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征。

在步骤203中，计算机设备通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果。

在步骤204中，计算机设备基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练。

本公开实施例提供的技术方案，利用样本视频的图像信息、文本信息以及该样本视频的文本标签、图像标签，来对视频特征提取模型进行模型训练，其中，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到样本视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该样本视频的文本特征，还能够对样本视频的图像特征和文本特征进行特征融合，以便后续基于融合特征，一方面，能够对样本视频进行图像重建，以获得高质量的图像特征，另一方面，还能够生成该样本视频的内容描述文本，如此，提供了一种基于双训练任务的模型训练方法，在以文本生成任务为主任务而图像重建任务为辅任务的情况下，由于该样本视频的图像标签表示图像重建特征，因此在模型训练的过程中，能够提升视频特征提取模型针对图像特征的提取能力，进而获取到高质量的图像特征，在获取到高质量的图像特征的基础上，也就能够训练出文本生成能力较优的视频特征提取模型，提升了视频特征提取模型的训练效果。

在该融合特征上，添加该各个类型的类型标识；

在一些实施例中，该文本信息的数量为多个；

对多个该文本信息进行拼接，得到拼接后的该文本信息；

从拼接后的该文本信息中，提取前目标数量的字符；

在一些实施例中，基于该第i次迭代过程在该多个类型上的损失值以及该视频特征提取网络在该多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值之前，该方法还包括：

图3是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成方法的流程图，如图3所示，该方法由计算机设备执行，该计算机设备可提供为上述图1所示出的终端或服务器，示意性地，该方法包括以下步骤：

在步骤301中，计算机设备获取目标视频的图像信息与文本信息。

在步骤302中，计算机设备将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该目标视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该目标视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该目标视频的融合特征。

在步骤303中，计算机设备通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，输出满足文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本。

本公开实施例提供的技术方案，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到目标视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该目标视频的文本特征，还能够对目标视频的图像特征和文本特征进行特征融合，以便后续基于融合特征进行处理，能够输出满足文本生成条件的多个字符，进而基于所输出的多个字符能够自动生成该目标视频的内容描述文本，提供了一种基于文本生成的视频特征提取模型，所生成的内容描述文本包含了丰富的信息量，能够更好的表征该目标视频，提升了视频表征的准确性。

在一些实施例中，该方法还包括：

上述图2至图3所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图4是根据一示例性实施例示出的一种视频特征提取模型的训练方法的流程图，参见图4，该方法包括：

在步骤401中，计算机设备获取样本视频的图像信息、文本信息、图像标签以及文本标签，该图像标签表示图像重建特征，该文本标签表示该样本视频的内容描述文本。

本公开实施例中，采用样本视频来指代用于训练该视频特征提取模型的训练视频，在一些实施例中，样本视频的数量为多个。应理解地，样本视频的图像信息、文本信息、图像标签以及文本标签作为训练数据集而获取。

在一些实施例中，计算机设备获取样本视频的图像信息的过程包括下述至少一项：获取该样本视频的封面图像；或，获取该样本视频内的至少一帧图像。

其中，该至少一帧图像的数量可以为一帧、两帧或两帧以上，如三帧。在一些实施例中，计算机设备获取该至少一帧图像的过程为：从该样本视频所包括的多帧图像中，随机抽取预设数量的图像，例如随机抽取三帧图像；或，从该样本视频所包括的多帧图像中，均匀抽取预设数量的图像，例如等间隔抽取三帧图像；从该样本视频所包括的多帧图像中，抽取关键帧。当然，计算机设备还能够基于其他方式，来获取该样本视频内的至少一帧图像，本公开实施例对此不加以限定。

在上述实施例中，通过获取样本视频的封面图像或样本视频所包括的图像帧，均能够快速获取到样本视频的图像信息，在确保获取图像信息的效率的同时，还丰富了图像信息的类型，提升了获取图像信息的灵活性。

在一些实施例中，计算机设备获取样本视频的文本信息的过程包括下述至少一项：获取该样本视频的描述信息；获取该样本视频的标题信息；获取该样本视频的字幕信息；获取该样本视频的文字识别结果；获取该样本视频的音频识别结果。

其中，描述信息为用于描述该样本视频的视频主题的信息，如主题描述信息或话题描述信息(caption)；或者，描述信息为用于描述该样本视频的视频内容的信息，如内容描述信息(hashtag)。标题信息是指该样本视频的视频标题(title)。在一些实施例中，描述信息和标题信息为样本视频的发布者所设置的信息，例如，样本视频的发布者在发布该样本视频时，该发布者所对应的终端提供有描述信息录入框和标题信息录入框，通过该描述信息录入框和标题信息录入框，发布者能够对该样本视频的描述信息和标题信息进行设置，进而，计算机设备在获取到该样本视频的同时，还能够获取到该样本视频的描述信息和标题信息。

字幕信息是指样本视频内的图像所包括的字幕(text)，在一些实施例中，计算机设备利用字幕提取工具，提取该样本视频的字幕信息。文字识别结果为对该样本视频内的至少一帧图像进行文字识别所得到的结果，在一些实施例中，计算机设备利用OCR(OpticalCharacter Recognition，光学字符识别)技术，对该样本视频所包括的多帧图像进行文字识别，得到该样本视频的文字识别结果。音频识别结果为对该样本视频的背景音频进行音频识别所得到的结果，在一些实施例中，计算机设备利用ASR(Automatic SpeechRecognition，自动语音识别)技术，对该样本视频的背景音频进行音频识别，得到该样本视频的音频识别结果。

在上述实施例中，通过获取样本视频的描述信息、标题信息、字幕信息、文字识别结果或音频识别结果，均能够快速获取到样本视频的文本信息，在确保获取文本信息的效率的同时，还丰富了文本信息的类型，提升了获取文本信息的灵活性。

图像标签表示该样本视频经图像重建后的图像重建特征，其中，图像重建是指对视频中的图像进行图像恢复或图像复原，以得到完整的图像特征。文本标签表示该样本视频的内容描述文本，该内容描述文本是指用于描述该样本视频的内容的语句。

在一些实施例中，内容类目描述文本包括多级类目描述文本，例如，一级类目描述文本和二级类目描述文本，其中，一级类目描述文本是指用于描述视频的一级类目的语句，二级类目描述文本是指用于描述视频的二级类目的语句。应理解地，一级类目是指视频的总分类，二级类目是指视频在一级类目的基础上的子分类，其中二级类目相对于一级类目为树形结构，也就是说，一级类目下会包括多个二级类目。示例地，一级类目可以是生活类，二级类目可以是生活记录、好物分享或健康养生等等，或者，一级类目可以是美妆类，二级类目可以是美妆教学、美妆测评、护肤保养等等。

内容形式描述文本是指用于描述视频的内容形式的语句，该内容形式表示该视频的表现形式(或称作拍摄形式)。示例地，内容形式可以是纪录片形式、情景短剧形式或街头采访形式等等。内容主题描述文本是指用于描述视频的内容主题的语句，该内容主题表示视频的内容主题，例如，视频主题可以是视频话题。内容详情描述文本是指用于描述视频的内容详情的语句，例如，用于描述视频的画面内容的语句。

在上述实施例中，通过设置多种类型的内容描述文本，一方面，能够生成更具有表达能力的内容描述文本，另一方面，该多种类型的内容描述文本能够从不同的维度对视频的内容进行描述，丰富了所生成的内容描述文本的类型，能够更加充分完整的表征视频。

在步骤402中，计算机设备将该图像信息与该文本信息输入视频特征提取模型。

本公开实施例中，视频特征提取模型提供有图像重建和文本生成的功能。在一些实施例中，视频特征提取模型为基于自注意力机制(Self Attention Mechanism)的编码器(Encoder)-解码器(Decoder)架构。其中，自注意力机制是一种基于特征之间的依赖关系来学习特征含义的机制，在自注意力机制中，对于每一个输入的特征，根据该特征与其邻近特征来计算两者的相似性或相关性，如计算两者的向量点积、计算两者的向量相似性或者通过再引入额外的神经网络来求值等，得到该特征与其邻近特征的计算分值，再利用如softmax函数(一种激活函数)的计算方式对该计算分值进行数值转换，如此，一方面，能够将计算分值转化为元素权重之和为1的概率分布，实现了归一化，另一方面，通过softmax函数的内在机制，能够更加突出重要元素的权重，进而，利用各个元素的权重进行加权求和，输出自注意力分值。

示例地，图5是根据一示例性实施例示出的一种视频特征提取模型的框图，参见图5，视频特征提取模型包括图像特征提取子模型、特征融合子模型、图像重建子模型以及文本生成子模型，其中，视频特征提取模型的编码器包括特征融合子模型，视频特征提取模型的解码器包括文本生成子模型。下面基于图5所示出的视频特征提取模型，对本公开实施例提供的视频特征提取模型的训练方法进行说明。

在步骤403中，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该样本视频的图像特征。

本公开实施例中，图像特征提取子模型提供有提取视频的图像特征的功能。在一些实施例中，图像特征提取子模型为Resnet(残差网络)或ViT(Vision Transformer，视觉转换器)或Swin Tiny模型等。

在一些实施例中，计算机设备将该图像信息与该文本信息输入视频特征提取模型之后，通过该视频特征提取模型，将该图像信息输入该视频特征提取模型的图像特征提取子模型，通过图像特征提取子模型对该图像信息进行特征提取，能够得到预定维数的图像特征，如512维度(或其他数量维度)的图像特征。

在步骤404中，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征。

其中，嵌入层用于将数值转换为具有固定大小的向量。在一些实施例中，计算机设备将该图像信息与该文本信息输入视频特征提取模型之后，通过该视频特征提取模型，将该文本信息输入该视频特征提取模型的特征融合子模型，通过特征融合子模型的嵌入层对该文本信息进行处理，能够得到预定维数的文本特征，如512维度(或其他数量维度)的文本特征。需要说明的是，文本特征的维数与图像特征的维数相同。

在一些实施例中，文本信息的数量为多个(如两个或两个以上)，相应地，在对该文本信息进行特征提取之前，该方法还包括：对多个文本信息进行拼接，得到拼接后的该文本信息，基于拼接后的文本信息，执行上述步骤404。示例地，以步骤401所示出的五个文本信息为例，对该样本视频的描述信息、标题信息、字幕信息、文字识别结果以及音频识别结果进行拼接，得到拼接后的文本信息，再将该拼接后的文本信息输入上述文本特征提取子模型，以执行上述步骤404。在该实施例中，在文本信息的数量为多个的情况下，通过对文本信息进行拼接，以得到拼接后的文本信息，进而利用拼接后的文本信息来进行提取文本特征的过程，参考了多种类型的文本信息，提高了提取文本特征的准确性。

进一步地，在一些实施例中，在得到拼接后的文本信息之后，该方法还包括：从拼接后的该文本信息中，提取前目标数量的字符，基于所提取的字符，执行上述步骤404。其中，目标数量为预先设定的固定数量，如200。在该实施例中，在拼接后的文本信息中，提取前目标数量的字符，以便基于所提取的一定数量的字符，来进行后续提取文本特征的过程，在确保输入充足的文本信息的基础上，减小了视频特征提取模型的运算量，提高了提取文本特征的效率。

在步骤405中，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征。

其中，特征融合子模型提供有对图像特征和文本特征进行特征融合的功能，以输出更具备视频表征能力的特征。在一些实施例中，该特征融合层提供为自注意力层，如基于自注意力机制的变换层(Transformer layer)，相应地，通过该特征融合子模型所包括的自注意力层，对该图像特征与该文本特征进行处理，得到该样本视频的融合特征；在另一些实施例中，该特征融合层提供为深度置信网络，相应地，通过该特征融合子模型所包括的深度置信网络，对该图像特征与该文本特征进行处理，得到该样本视频的融合特征。在该实施例中，通过在特征融合子模型中设置自注意力层深度置信网络，进而利用自注意力机制深度置信网络来进行特征融合，能够获得更具备视频表征能力的特征，提高了特征融合的准确性。当然，在另一些实施例中，还能够在该特征融合子模型中设置其他具备特征融合功能的网络层来实现特征融合的功能，本公开实施例对此不作限定。

在本公开实施例中，特征融合子模型包括嵌入层(Embedding层)和特征融合层(如多层自注意力层或深度置信网络)，以便利用该特征融合子模型的嵌入层来提取样本视频的文本特征，进而结合图像特征提取子模型所输出的图像特征，再利用该特征融合子模型的特征融合层来进行特征融合，如此，由于构建了图像特征提取子模型和特征融合子模型的单流架构，能够更加充分的融合不同模态的特征，提高了特征融合的准确性。

在步骤406中，通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果。

其中，图像重建子模型提供有对视频进行图像重建处理的功能，以输出该视频的图像重建特征，在一些实施例中，图像重建子模型提供有对视频中的图像进行图像复原的功能，以输出原始图像大小的图像重建特征。图像复原是对已退化的图像(或称作已降质的图像)进行重建的处理，以将已退化的图像复原为原始图像。原始图像大小为视频中图像的大小，在一些实施例中，原始图像大小基于图像中的水平像素、垂直像素以及图像中的颜色信息来确定。如此，通过将样本视频的图像特征复原为原始图像大小的图像重建特征，以获得高质量的图像重建特征，进而后续利用高质量的图像重建特征来进行模型训练的过程。图像训练结果为模型训练过程中所得到的图像重建特征。在一些实施例中，图像重建子模型包括多个MLP网络(多层神经网络)或其他具备图像重建功能的网络层，本公开实施例对此不作限定。

在一些实施例中，从特征融合子模型所输出的融合特征中，提取前预设数量的图像特征，将所提取的图像特征输入该视频特征提取模型的图像重建子模型，进而通过该视频特征提取模型的图像重建子模型，对所提取的图像特征进行处理，输出该样本视频的图像重建特征，也即得到了该图像训练结果。其中，预设数量是指图像特征的数量，需要说明的是，由于特征融合子模型的特征融合层包括多层自注意力层，而自注意力层在输入一定数量特征的前提下，能够输出相同数量的特征，如此，按照预设数量来提取图像特征，能够提取出充足的图像特征，且，由于图像特征和文本特征经过了特征融合子模型，使得所输出的图像特征已经是融合了文本特征的特征，也即提升了图像重建的准确性。

在步骤407中，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果。

其中，文本生成子模型提供有对视频进行文本生成处理的功能，以输出该视频的内容描述文本。文本训练结果为模型训练过程中所生成的内容描述文本。

在一些实施例中，文本生成子模型包括多层自注意力层，相应地，通过该视频特征提取模型，将该融合特征输入视频特征提取模型的文本生成子模型，通过该文本生成子模型所包括的自注意力层，对该融合特征进行处理，得到该文本训练结果。在一些实施例中，通过该文本生成子模型所包括的多层自注意力层，对该融合特征进行处理，输出自注意力分值达到文本生成条件的多个字符，基于所输出的多个字符生成该样本视频的内容描述文本，也即得到了该文本训练结果。示例地，文本生成条件可以是自注意力分值达到分值阈值。

基于步骤401所示出的多种类型的内容描述文本，在一种可选的实施例中，该文本生成子模型提供有执行多个类型的文本生成任务的功能，对于任一类型，通过该文本生成子模型所包括的多层自注意力层，分别按照该多个类型对应的文本生成任务的处理机制，对该融合特征进行处理，以生成样本视频的多个类型的内容描述文本。进一步地，针对任一类型，通过该文本生成子模型所包括的多层自注意力层，对融合特征中的第一段特征序列进行处理，输出第一段特征序列中自注意力分值达到文本生成条件的字符；基于第一段特征序列中输出的特征，继续对融合特征中的第二段特征序列进行处理，输出第二段特征序列中自注意力分值达到文本生成条件的字符；基于第一段特征序列中输出的特征与第二段特征序列中输出的特征，继续对融合特征中的第三段特征序列进行处理，输出第三段特征序列中自注意力分值达到文本生成条件的字符，进而，基于已输出的字符，重复执行上述处理过程和输出过程，输出下一段特征序列中自注意力分值达到文本生成条件的字符，得到该文本生成子模型所输出的多个字符，按照该多个字符的输出时序进行拼接，得到该样本视频的内容描述文本，也即得到了上述文本训练结果。

在上述实施例中，通过在文本生成子模型中设置自注意力层，进而利用自注意力机制来生成内容描述文本，提高了文本生成的准确性。

在一些实施例中，文本生成子模型还提供有mask机制，该mask机制是指将一段特征序列中不需要关注的特征遮挡起来，以避免对视频特征提取模型的影响，提高了自注意力机制的准确性。

在一些实施例中，在文本生成子模型用于执行多个类型的文本生成任务的情况下，在将该融合特征输入文本生成子模型之前，该方法还包括：在该融合特征上，添加各个类型的类型标识，基于添加该类型标识后的融合特征，执行上述步骤407。其中，类型标识用于指示对应类型的文本生成任务。在一些实施例中，通过视频特征提取模型，将添加该类型标识后的融合特征输入文本生成子模型，通过该文本生成子模型，分别基于各个类型标识对应的处理机制，对该融合特征进行处理，得到该多个类型的内容描述文本。在该实施例中，通过在融合特征上添加各个类型的类型标识，以便视频特征提取模型中的文本生成子模型能够基于各个类型的类型标识，来触发生成样本视频在各个类型上的内容描述文本，确保文本生成的顺利进行。

需要说明的是，上述步骤406至步骤407以先输出图像训练结果再输出文本训练结果为例，在另一些实施例中，计算机设备还能够先输出文本训练结果再输出图像训练结果，或者，计算机设备还能够同时输出图像训练结果和文本训练结果，本公开实施例对步骤406和步骤407的执行次序不作限定。

在步骤408中，计算机设备基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练。

针对上述步骤402至步骤408，在一些实施例中，计算机设备在模型训练的第一次迭代过程中，将该样本视频的图像信息与文本信息输入初始的视频特征提取模型，触发该视频特征提取模型执行上述步骤402至步骤407的处理过程，得到第一次迭代过程的图像训练结果和文本训练结果，基于该第一次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，对该初始的视频特征提取模型中该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数进行调整；在调整后的视频特征提取模型不满足目标条件的情况下，基于调整后的该模型参数进行下一次迭代过程，进而，在模型训练的第i次迭代过程中，将该样本视频的图像信息与文本信息输入第i-1次迭代过程所确定的视频特征提取模型，触发该视频特征提取模型执行上述步骤402至步骤407的处理过程，进而得到第i次迭代过程的图像训练结果和文本训练结果，基于该第i次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，调整该第i-1次迭代过程所确定的该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，在调整后的视频特征提取模型不满足目标条件的情况下，基于调整后的该模型参数进行第i+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件，该i为大于1的正整数。

在一些实施例中，训练满足的目标条件为视频特征提取模型的训练迭代次数达到目标次数，该目标次数为预先设定的训练迭代次数，如1000次；或者，训练满足的目标条件为模型损失值满足目标阈值条件，如损失值小于0.00001。本公开实施例对目标条件的设置不加以限定。

针对上述对视频特征提取模型的模型参数进行调整的过程，在一些实施例中，在模型训练的第i次迭代过程中，基于该第i次迭代过程的图像训练结果、文本训练结果以及该样本视频的图像标签、文本标签，确定该第i次迭代过程的模型损失值；基于该第i次迭代过程的模型损失值，对第i-1次迭代过程所确定的视频特征提取模型的模型参数进行调整。下面基于步骤408A至步骤408C，对计算机设备确定该第i次迭代过程的模型损失值的过程进行说明：

在步骤408A中，计算机设备基于该第i次迭代过程的图像训练结果与该样本视频的图像标签，确定该第i次迭代过程的图像重建损失值，该图像重建损失值表示该图像训练结果与该图像标签之间的差异。

在一些实施例中，计算机设备基于该第i次迭代过程的图像训练结果与该样本视频的图像标签，确定该第i次迭代过程的MSELoss(Mean Square Eerror Loss，均方误差损失)值，将所确定的MSELoss值作为图像重建损失值。

在步骤408B中，计算机设备基于该第i次迭代过程的文本训练结果与该样本视频的文本标签，确定该第i次迭代过程的文本生成损失值，该文本生成损失值表示该文本训练结果与该文本标签之间的差异。

在一些实施例中，在该文本训练结果包括多个类型的内容描述文本的情况下，对于任一类型，基于该第i次迭代过程在该类型上的文本训练结果与该样本视频在该类型上的文本标签，确定该第i次迭代过程在该类型上的损失值；基于该第i次迭代过程在该多个类型上的损失值以及该视频特征提取网络在该多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值。

在一些实施例中，对于任一类型，计算机设备基于该第i次迭代过程在该类型上的文本训练结果与该样本视频在该类型上的文本标签，确定该第i次迭代过程在该类型上的CEloss(Cross Entropy Loss，交叉熵损失)值，基于该第i次迭代过程在该多个类型上的CEloss值以及该视频特征提取网络在该多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值。

针对上述CEloss值，在一些实施例中，计算机设备确定CEloss值的过程包括：对于任一类型，计算机设备基于该第i次迭代过程在该类型上的文本训练结果、该样本视频在该类型上的文本标签、样本视频的数量以及CEloss公式(1)，确定该第i次迭代过程在该类型上的交叉熵损失值。

式中，CEloss表示交叉熵损失值；m表示训练数据集中样本视频的数量；y_k表示该视频特征提取模型针对第k个样本视频的文本训练结果；p表示该视频特征提取模型针对第k个样本视频的文本训练结果的正确概率，例如，正确概率可以是文本训练结果与文本标签之间的相似度。

针对上述多个类型对应的权重系数，在一些实施例中，计算机设备确定权重系数的过程包括：对于任一类型，基于该第i次迭代过程在该类型上的正确文本数量以及总文本数量，确定该第i次迭代过程在该类型上的正确比例，该正确比例表示在该第i次迭代过程中正确文本数量占总文本数量的比例，基于该第i次迭代过程在该类型上的正确比例，确定该视频特征提取网络在该类型上的权重系数，其中，该正确比例与该权重系数成负相关。

其中，正确文本数量是指模型训练过程中所生成的正确文本训练结果的数量，例如，正确概率达到概率阈值的文本训练结果的数量。总文本数量是指模型训练过程中所生成的文本训练结果的总数量。

在一些实施例中，计算机设备基于该第i次迭代过程在该类型上的正确文本数量、该第i次迭代过程在该类型上的总文本数量以及下述权重系数公式(2)，确定该视频特征提取网络在该类型上的权重系数。

W＝1-(correct/total) (2)

式中，W表示该视频特征提取网络在该类型上的权重系数；correct表示在该类型上的正确文本数量；total表示在该类型上的总文本数量。

在上述实施例中，针对文本生成所涉及的各个类型，分别按照各个类型所对应的正确比例，来确定各个类型对应的权重系数，由于正确比例表示正确文本数量占总文本数量的比例，且由于正确比例与权重系数之间成负相关，因此，在计算文本生成损失值的情况下，为正确比例大的类型设置较小的权重系数，为正确比例小的类型设置较大的权重系数，提高了确定权重系数的准确性，也就提高了确定文本生成损失值的准确性。

针对该第i次迭代过程，在一些实施例中，基于上述CEloss公式(1)，计算得到该多个类型对应的交叉熵损失值，基于上述权重系数公式(2)，计算得到该多个类型对应的权重系数之后，基于该多个类型对应的交叉熵损失值、该多个类型对应的权重系数以及下述损失值公式(3)，进行加权求和，得到该第i次迭代过程的文本生成损失值。

式中，loss_文本生成表示文本生成损失值；n表示多个类型的数量；W_s表示类型s所对应的权重系数；CEloss_s表示类型s所对应的交叉熵损失值。

在上述实施例中，针对文本生成所涉及的各个类型，分别设置有各个类型对应的权重系数，进而利用各个类型上的交叉熵损失值以及各个类型对应的权重系数，来确定文本生成损失值，提高了确定文本生成损失值的准确性。

在步骤408C中，计算机设备基于该图像重建损失值与该文本生成损失值，确定该第i次迭代过程的模型损失值。

在一些实施例中，基于该图像重建损失值、该图像重建损失值对应的权重系数、该文本生成损失值以及该文本生成损失值对应的权重系数，进行加权求和，得到该第i次迭代过程的模型损失值。

在一些实施例中，基于该图像重建损失值、该图像重建损失值对应的权重系数、该文本生成损失值、该文本生成损失值对应的权重系数以及下述损失值公式(4)，进行加权求和，得到该第i次迭代过程的模型损失值。

Totalloss＝W_图像重建*loss_图像重建+W_文本生成*loss_文本生成 (4)

式中，Totalloss表示模型损失值；W_图像重建表示图像重建损失值对应的权重系数；loss_图像重建表示图像重建损失值；W_文本生成表示文本生成损失值对应的权重系数；loss_文本生成表示文本生成损失值。

在上述实施例中，在模型训练的任一次迭代过程中，均利用本次迭代过程的模型损失值来对视频特征提取模型中的各个子模型进行模型参数的调整，以提升视频特征提取模型的文本生成能力，从而训练出文本生成能力较高的视频特征提取模型。

在上述实施例中，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到样本视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该样本视频的文本特征，还能够对样本视频的图像特征和文本特征进行特征融合，以便后续基于融合特征，一方面，能够对样本视频进行图像重建，以获得高质量的图像特征，另一方面，还能够生成该样本视频的内容描述文本，提供了一种结合图像重建任务和文本生成任务的视频特征提取模型的训练方法，提升了视频特征提取模型的训练效果。

在上述图4所示出的方案中，提供了一种视频特征提取模型的训练方法，在一些实施例中，基于上述训练方法所训练出的视频特征提取模型，能够实现一种基于视频特征提取模型的文本生成方法，图6是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成方法的流程图，参见图6，该方法包括：

在步骤601中，计算机设备获取目标视频的图像信息与文本信息。

本公开实施例中，采用目标视频来指代待进行文本生成的视频。在一些实施例中，以计算机设备提供为终端为例，该目标视频为终端本地所存储的视频，或终端所下载的视频等；在另一些实施例中，以计算机设备提供为服务器为例，该目标视频为服务器所关联的视频数据库中的视频，或终端所上传的视频等。本公开实施例对目标视频的来源不作限定。

在一些实施例中，计算机设备获取目标视频的图像信息的过程包括下述至少一项：获取该目标视频的封面图像；或，获取该目标视频内的至少一帧图像。需要说明的是，关于获取该目标视频的图像信息的过程参见步骤401中获取样本视频的图像信息的过程，不再赘述。

在一些实施例中，计算机设备获取目标视频的文本信息的过程包括下述至少一项：获取该目标视频的描述信息；获取该目标视频的标题信息；获取该目标视频的字幕信息；获取该目标视频的文字识别结果；获取该目标视频的音频识别结果。需要说明的是，关于获取该目标视频的文本信息的过程参见步骤401中获取样本视频的文本信息的过程，不再赘述。

在步骤602中，计算机设备将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该目标视频的图像特征。

需要说明的是，关于获取该目标视频的图像特征的过程参见步骤403中获取样本视频的图像特征的过程，不再赘述。

在步骤603中，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该目标视频的文本特征。

需要说明的是，关于获取该目标视频的文本特征的过程参见步骤404中获取样本视频的文本特征的过程，不再赘述。

在步骤604中，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该目标视频的融合特征。

需要说明的是，关于获取该目标视频的融合特征的过程参见步骤405中获取样本视频的融合特征的过程，不再赘述。

在步骤605中，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，输出满足该文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本。

需要说明的是，关于获取该目标视频的内容描述文本的过程参见步骤407中获取样本视频的文本训练结果的过程，不再赘述。

在上述实施例中，计算机设备将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型对该图像信息与该文本信息进行处理，输出满足文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本，提供了一种基于图像信息和文本信息来进行文本生成的模型，参考了图像模态和文本模型的多模态信息，增加了视频特征提取模型所参考的信息量，一方面，丰富了视频特征提取模型所生成的内容描述文本，另一方面，提升了视频特征提取模型进行文本生成的准确性。其中，模态是指信息的表示方式或表示形式，应理解地，每一种信息的媒介或者形式均可以称作一种模态，例如，信息的媒介，如图像、文本、音频等等。在另一些实施例中，计算机设备还能够利用其他模态的信息来进行上述文本生成的过程，例如，目标视频的发布信息等等。

在一些实施例中，该方法还包括：通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到该目标视频的原始图像大小的图像重建特征。需要说明的是，关于获取该目标视频的图像重建特征的过程参见步骤406中获取样本视频的图像训练结果的过程，不再赘述。

本公开实施例提供的技术方案，通过在视频特征提取模型中构建图像特征提取子模型，能够精确地提取到目标视频的图像特征，通过在视频特征提取模型中构建特征融合子模型，不仅能够获取到该目标视频的文本特征，还能够对目标视频的图像特征和文本特征进行特征融合，以便后续基于融合特征，一方面，能够对目标视频进行图像重建，以获得高质量的图像特征，另一方面，还能够生成该目标视频的内容描述文本，提供了一种结合图像重建任务和文本生成任务的视频特征提取模型，能够更好的表征该目标视频，提升了视频表征的准确性。

图7是根据一示例性实施例示出的一种视频特征提取模型的训练装置的框图。参见图7，该装置包括获取单元701，输入单元702、处理单元703和训练单元704。

获取单元701，被配置为执行获取样本视频的图像信息、文本信息、图像标签以及文本标签，该图像标签表示图像重建特征，该文本标签表示该样本视频的内容描述文本；

输入单元702，被配置为执行将该图像信息与该文本信息输入视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该样本视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该样本视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该样本视频的融合特征；

处理单元703，被配置为执行通过该视频特征提取模型的图像重建子模型对该融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，得到文本训练结果；

训练单元704，被配置为执行基于该图像训练结果、该文本训练结果以及该样本视频的图像标签、文本标签，调整该图像特征提取子模型、该特征融合子模型、该图像重建子模型以及该文本生成子模型的模型参数，以对该视频特征提取模型进行训练。

在一些实施例中，该获取单元701，被配置为执行下述至少一项：

在一些实施例中，该输入单元702包括处理子单元，被配置为执行下述任一项：

在一些实施例中，该处理单元703包括文本生成子单元，被配置为执行：

该处理单元703包括文本生成子单元，还被配置为执行将添加该类型标识后的融合特征输入该文本生成子模型，通过该文本生成子模型，分别基于各个类型标识对应的处理机制，对该融合特征进行处理，得到该多个类型的内容描述文本。

在一些实施例中，该文本信息的数量为多个；

在一些实施例中，该输入单元，还被配置为执行：

从拼接后的该文本信息中，提取前目标数量的字符；

在一些实施例中，该训练单元704，包括：

在一些实施例中，该确定子单元，包括：

该文本生成损失值确定子单元，被配置为执行：

对于任一类型，基于该第i次迭代过程在该类型上的文本训练结果与该样本视频在该类型上的描述文本标签，确定该第i次迭代过程在该类型上的损失值；

基于该第i次迭代过程在该多个类型上的交叉熵损失值以及该视频特征提取网络在该多个类型上的权重系数，进行加权求和，得到该第i次迭代过程的文本生成损失值。

在一些实施例中，该装置还包括确定单元，被配置为执行：

图8是根据一示例性实施例示出的一种基于视频特征提取模型的文本生成装置的框图。参见图8，该装置包括获取单元801、输入单元802和处理单元803。

获取单元801，被配置为执行获取目标视频的图像信息与文本信息；

输入单元802，被配置为执行将该图像信息与该文本信息输入该视频特征提取模型，通过该视频特征提取模型的图像特征提取子模型对该图像信息进行特征提取，得到该目标视频的图像特征，通过该视频特征提取模型的特征融合子模型的嵌入层对该文本信息进行处理，得到该目标视频的文本特征，通过该特征融合子模型的特征融合层对该图像特征与该文本特征进行特征融合，得到该目标视频的融合特征；

处理单元803，被配置为执行通过该视频特征提取模型的文本生成子模型对该融合特征进行处理，输出满足文本生成条件的多个字符，基于该多个字符生成该目标视频的内容描述文本。

在一些实施例中，该处理单元803，还被配置为执行：

需要说明的是：上述实施例提供的视频特征提取模型的训练装置在特征提取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频特征提取模型的训练装置与视频特征提取模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例所提到的计算机设备可提供为一种终端。图9示出了本公开一个示例性实施例提供的终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器901所执行以实现本公开中方法实施例提供的视频特征提取模型的训练方法或基于视频特征提取模型的文本生成方法中终端执行的过程。

在一些实施例中，终端900还可选包括有：***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地，***设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

***设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器914用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器914采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器914采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器915，也称距离传感器，通常设置在终端900的前面板。接近传感器915用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器915检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器915检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例所提到的计算机设备可提供为一种服务器。图10是根据一示例性实施例示出的一种服务器的框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1001和一个或多个的存储器1002，其中，该一个或多个存储器1002中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的视频特征提取模型的训练方法中服务器执行的过程。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器1002，上述程序代码可由服务器1000的处理器1001执行以完成上述视频特征提取模型的训练方法。可选地，计算机可读存储介质可以是ROM(Read-Only Memory，只读内存)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact-Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的视频特征提取模型的训练方法。

在一些实施例中，本公开实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频特征提取模型的训练方法，其特征在于，所述方法包括：

获取样本视频的图像信息、文本信息、图像标签以及文本标签，所述图像标签表示图像重建特征，所述文本标签表示所述样本视频的内容描述文本；

将所述图像信息与所述文本信息输入视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述样本视频的图像特征，通过所述视频特征提取模型的特征融合子模型的嵌入层对所述文本信息进行处理，得到所述样本视频的文本特征，通过所述特征融合子模型的特征融合层对所述图像特征与所述文本特征进行特征融合，得到所述样本视频的融合特征；

通过所述视频特征提取模型的图像重建子模型对所述融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过所述视频特征提取模型的文本生成子模型对所述融合特征进行处理，得到文本训练结果；

基于所述图像训练结果、所述文本训练结果以及所述样本视频的图像标签、文本标签，调整所述图像特征提取子模型、所述特征融合子模型、所述图像重建子模型以及所述文本生成子模型的模型参数，以对所述视频特征提取模型进行训练。

2.根据权利要求1所述的视频特征提取模型的训练方法，其特征在于，所述内容描述文本为内容类目描述文本、内容形式描述文本、内容主题描述文本以及内容详情描述文本中的至少一类。

3.根据权利要求1所述的视频特征提取模型的训练方法，其特征在于，所述通过所述特征融合子模型的特征融合层对所述图像特征与所述文本特征进行特征融合，得到所述样本视频的融合特征包括下述任一项：

通过所述特征融合子模型所包括的自注意力层，对所述图像特征与所述文本特征进行处理，得到所述样本视频的融合特征；

通过所述特征融合子模型所包括的深度置信网络，对所述图像特征与所述文本特征进行处理，得到所述样本视频的融合特征。

4.根据权利要求1所述的视频特征提取模型的训练方法，其特征在于，所述通过所述视频特征提取模型的文本生成子模型对所述融合特征进行处理，得到文本训练结果包括：

通过所述文本生成子模型所包括的自注意力层，对所述融合特征进行处理，得到所述文本训练结果。

5.一种基于视频特征提取模型的文本生成方法，其特征在于，所述视频特征提取模型基于上述权利要求1至4中任一项所述的训练方法训练得到，所述方法包括：

获取目标视频的图像信息与文本信息；

将所述图像信息与所述文本信息输入所述视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述目标视频的图像特征，通过所述视频特征提取模型的特征融合子模型的嵌入层对所述文本信息进行处理，得到所述目标视频的文本特征，通过所述特征融合子模型的特征融合层对所述图像特征与所述文本特征进行特征融合，得到所述目标视频的融合特征；

通过所述视频特征提取模型的文本生成子模型对所述融合特征进行处理，输出满足文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本。

6.一种视频特征提取模型的训练装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取样本视频的图像信息、文本信息、图像标签以及文本标签，所述图像标签表示图像重建特征，所述文本标签表示所述样本视频的内容描述文本；

输入单元，被配置为执行将所述图像信息与所述文本信息输入视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述样本视频的图像特征，通过所述视频特征提取模型的特征融合子模型的嵌入层对所述文本信息进行处理，得到所述样本视频的文本特征，通过所述特征融合子模型的特征融合层对所述图像特征与所述文本特征进行特征融合，得到所述样本视频的融合特征；

处理单元，被配置为执行通过所述视频特征提取模型的图像重建子模型对所述融合特征中的图像特征进行图像复原，得到原始图像大小的图像训练结果，通过所述视频特征提取模型的文本生成子模型对所述融合特征进行处理，得到文本训练结果；

训练单元，被配置为执行基于所述图像训练结果、所述文本训练结果以及所述样本视频的图像标签、文本标签，调整所述图像特征提取子模型、所述特征融合子模型、所述图像重建子模型以及所述文本生成子模型的模型参数，以对所述视频特征提取模型进行训练。

7.一种基于视频特征提取模型的文本生成装置，其特征在于，所述视频特征提取模型基于上述权利要求1至4中任一项所述的训练方法训练得到，所述装置包括：

输入单元，被配置为执行将所述图像信息与所述文本信息输入所述视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述目标视频的图像特征，通过所述视频特征提取模型的特征融合子模型的嵌入层对所述文本信息进行处理，得到所述目标视频的文本特征，通过所述特征融合子模型的特征融合层对所述图像特征与所述文本特征进行特征融合，得到所述目标视频的融合特征；

处理单元，被配置为执行通过所述视频特征提取模型的文本生成子模型对所述融合特征进行处理，输出满足文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本。

8.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至4中任一项所述的视频特征提取模型的训练方法，或权利要求5所述的基于视频特征提取模型的文本生成方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至4中任一项所述的视频特征提取模型的训练方法，或权利要求5所述的基于视频特征提取模型的文本生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的视频特征提取模型的训练方法，或权利要求5所述的基于视频特征提取模型的文本生成方法。