CN110234018A

CN110234018A - 多媒体内容描述生成方法、训练方法、装置、设备及介质

Info

Publication number: CN110234018A
Application number: CN201910616904.XA
Authority: CN
Inventors: 王柏瑞; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-09-13
Anticipated expiration: 2039-07-09
Also published as: CN110234018B

Abstract

本申请公开了多媒体内容的描述生成方法、训练方法、装置、设备及介质，属于人工智能领域。该方法包括：调用描述生成模型对多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，帧特征序列包括在至少两个多媒体帧中对应的模态特征；调用描述生成模型对至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；高级帧特征序列包括在至少两个多媒体帧中对应的融合后的模态特征；调用描述生成模型对高级帧特征序列进行解码，得到多媒体内容的自然语言描述。可以解决只将模态特征进行直接级联来进行简单融合，忽略了不同模态特征之间的关联性，导致最终生成的自然语言描述忽略了部分语义信息。

Description

多媒体内容描述生成方法、训练方法、装置、设备及介质

技术领域

本申请涉及人工智能领域，特别涉及多媒体内容描述生成方法、训练方法、装置、设备及介质。

背景技术

视频内容描述(Video Captioning)是根据视频内容自动生成自然语言描述的任务。其中，自然语言描述是指自然语言形式的描述文字。

相关技术中提供了一种多媒体内容的描述生成方法，计算机设备采用卷积神经网络对待描述的视频进行特征提取，得到至少两种模态特征。计算机设备将至少两种模态特征进行直接级联，得到融合后的模态特征。采用注意力机制将融合后的模态特征变换为视频级别特征，最后对该视频级别特征进行解码，得到该视频的自然语言描述。

在相关技术中，只将至少两种模态特征进行直接级联来进行简单融合，是一种较为简单的融合方式，忽略了不同模态特征之间的关联性，导致最终生成的自然语言描述忽略了部分语义信息。

发明内容

本申请实施例提供了多媒体内容的描述生成方法、训练方法、装置、设备及介质。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种多媒体内容的描述生成方法，所述方法包括：

调用描述生成模型对多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，所述帧特征序列包括在至少两个多媒体帧中对应的模态特征；

调用所述描述生成模型对所述至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；所述高级帧特征序列包括在至少两个多媒体帧中对应的融合后的模态特征；

调用所述描述生成模型对所述高级帧特征序列进行解码，得到所述多媒体内容的自然语言描述。

根据本申请实施例的另一个方面，提供了一种多媒体内容的描述生成模型的训练方法，所述方法包括：

获取训练样本，所述训练样本包括样本多媒体内容以及所述样本多媒体内容对应的样本描述；

调用描述生成模型对所述样本多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，所述帧特征序列包括在至少两个多媒体帧中对应的模态特征；

调用所述描述生成模型对所述高级帧特征序列进行解码，得到所述样本多媒体内容的自然语言描述；

根据所述自然语言描述和所述样本描述计算得到误差损失；

根据所述误差损失采用反向传播算法对所述描述生成模型进行端到端的训练。

根据本申请实施例的另一个方面，提供了一种多媒体内容的描述生成装置，所述装置包括：

编码模块，用于调用编码模块对多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，所述帧特征序列包括在至少两个多媒体帧中对应的模态特征；

融合模块，用于调用特征交叉模块对所述至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；所述高级帧特征序列包括在至少两个多媒体帧中对应的融合后的模态特征；

解码模块，用于调用解码模块对所述高级帧特征序列进行解码，得到所述多媒体内容的自然语言描述。

根据本申请实施例的另一个方面，提供了一种多媒体内容的描述生成模型的训练装置，所述装置包括：

获取模块，用于获取训练样本，所述训练样本包括样本多媒体内容以及所述样本多媒体内容对应的样本描述；

编码模块，用于对所述样本多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，所述帧特征序列包括在至少两个多媒体帧中对应的模态特征；

融合模块，用于对所述至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；所述高级帧特征序列包括在至少两个多媒体帧中对应的融合后的模态特征；

解码模块，用于对所述高级帧特征序列进行解码，得到所述样本多媒体内容的自然语言描述；

计算模块，用于根据所述自然语言描述和所述样本描述计算得到误差损失；

训练模块，用于根据所述误差损失采用反向传播算法对所述编码模块、所述融合模块和所述解码模块进行端到端的训练。

根据本申请实施例的另一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述实施例所述的多媒体内容的描述生成方法，或者，如前述实施例所述的多媒体内容的描述生成模型的训练方法。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如前述实施例所述的多媒体内容的描述生成方法，或者，如前述实施例所述的多媒体内容的描述生成模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请通过采用编码器对多媒体进行多模态特征提取，得到至少两种模态特征的帧特征序列，通过特征交叉模块将至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到多媒体在同一帧对应的不同模态之间的帧特征序列之间的相互影响的结果，能有效发掘并加强不同模态特征的内部联系，从而提高多媒体描述生成的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的多媒体内容的描述生成***的结构框图；

图2是本申请一个示例性实施例提供的多媒体内容的描述生成方法的流程图；

图3是本申请一个示例性实施例提供的多媒体内容的描述生成方法的示意图；

图4是本申请另一个示例性实施例提供的多媒体内容的描述生成方法的流程图；

图5是本申请另一个示例性实施例提供的多媒体内容的描述生成方法的示意图；

图6是本申请另一个示例性实施例提供的多媒体内容的描述生成模型的训练方法流程图；

图7是本申请另一个示例性实施例提供的多媒体内容的描述生成方法的结构图；

图8是本申请另一示例性实施例提供的多媒体内容的描述生成方法的结构图；

图9是本申请一示例性实施例提供的多媒体内容的描述生成装置的结构示意图；

图10是本申请一示例性实施例提供的多媒体内容的描述生成模型的训练装置的结构示意图；

图11是本申请一个实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例涉及的若干个名词进行简介：

神经网络模型：是由多个处理单元(称为神经元)广泛地互相连接而形成的复杂网络***。神经网络模型用于模拟和反映人脑功能的许多基本特征，是一个高度复杂的非线性动力学习***。

编码器：用于提取视频的不同模态，并获取每个模态中视频帧的模态特征的神经网络模型。

残差式交叉门：是一种用于在视频内容的不同模态下，对同一帧的模态特征进行特征提取，得到视频的同一帧状态下不同模态中该帧状态下的模态特征，以获取不同模态特征之间的影响结果。

注意力机制(Attention Mechanism)：是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。注意力机制被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。

解码器：在为每一帧的多个模态特征进行残差式交叉融合的基础上，采用神经网络根据融合后的模态特征生成自然语言，得到用于描述该模态特征对应的视频的自然语言。

图1示出了本申请一个示例性实施例提供的多媒体内容的描述生成***的结构框图。该***包括：终端10和服务器20。

终端10通过无线网络或有线网络与服务器20相连。终端10可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP4播放器和膝上型便携计算机中的至少一种。终端10安装和运行有支持多媒体播放的应用程序。其中，多媒体是包含视频内容的信息。例如，可以是有声视频、无声视频等，本申请以视频为例对本方案进行阐述。应用程序可以是视频社交应用程序、即时通讯应用程序、团队视频应用程序、基于话题或频道或圈子进行人群聚合的社交类应用程序、基于购物的社交类应用程序、浏览器程序、视频程序中的任意一种。示意性的，终端10是用户使用的终端。

终端10通过无线网络或有线网络与服务器20相连。

服务器20包括一台服务器、多台服务器、云计算平台或虚拟化中心中的至少一种。服务器20用于为支持内容推荐的应用程序提供后台服务。可选地，服务器20承担主要计算工作，终端10承担次要计算工作；或者，服务器20承担次要计算工作，终端10承担主要计算工作；或者，服务器20、终端10两者之间采用分布式计算架构进行协同计算。

可选地，服务器20包括：编码器201、残差式交叉门202、融合部分203和解码器204。编码器201用于接收终端10发送的视频，将该视频分为多个模态，并提取视频中特定视频帧对应的每个模态中的模态特征。示例性的，视频分为4个模态，每个模态中包括由帧特征序列组成的模态特征，其中，帧特征序列是视频在该模态中某一帧或某几帧位置处对应的特征构成的。例如，帧特征序列包括：帧特征1，帧特征2、帧特征3、帧特征4……帧特征n，n个帧特征按顺序排列组成帧特征序列，该帧特征序列组成对应模态中模态特征。

编码器201中包括n个卷积神经网络，每个卷积神经网络用于提取一种模态特征。例如，编码器201中包括2个卷积神经网络，分别为第一卷积神经网络和第二卷积神经网络。其中，第一卷积神经网络用于提取视频的动态特征，第二卷积神经网络用于提取视频的静态特征。

残差式交叉门202用于将不同模态的模态特征进行交叉，得到不同模态特征之间的相互影响结果。其中，残差式交叉门202中的融合部分203用于将多个交叉后的模态特征进行融合，生成高级帧特征序列。

解码器204用于根据高级帧特征序列生成用于描述该视频的自然语言。

终端10可以泛指多个终端中的一个，本实施例仅以终端10来举例说明。终端10的类型包括：智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP4播放器和膝上型便携计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少，比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

图2示出了一个示例性实施例提供的多媒体内容的描述生成方法的流程图。该多媒体内容的描述生成方法应用于设置有编码器201、残差式交叉门202和解码器204的计算机设备中。其中，多媒体内容的描述生成方法包括以下步骤：

步骤101，服务器调用编码器对视频进行多模态特征提取，得到至少两种模态特征的帧特征序列，帧特征序列包括在至少两个视频帧中对应的模态特征。

编码器201中包括用于提取视频不同模态特征的卷积神经网络，当需要提取视频的n种模态特征时，设置n个卷积神经网络，每个卷积神经网络对应提取该视频的一种模态的模态特征。

服务器20利用多个卷积神经网络在视频的所有帧或部分帧的位置提取视频的模态特征，得到视频在不同模态中的模态特征。其中，每种模态中的模态特征组成一组帧特征序列。

示例性的，以多个卷积神经网络在视频的所有帧的位置提取视频的模态特征为例。结合图3，视频包括90帧，编码器201中包括第一卷积神经网络和第二卷积神经网络。其中，第一卷积神经网络用于提取视频的动态特征，第二卷积神经网络用于提取视频的静态特征。编码器201在第一帧处采用两个卷积神经网络对视频的第1帧画面内容进行特征提取，分别得到第1帧处的动态特征和静态特征。重复上述步骤，依次提取剩余89帧的模态特征，得到视频的动态的帧特征序列和静态的帧特征序列。

在另一个可能的实施方式中，两个卷积神经网络只对视频的一部分帧的位置提取模态特征。其中，两个卷积神经网络提取模态特征的位置相同。例如，当第一卷积神经网络在视频的第1/3/4/5帧处提取模态特征时，第二卷积神经网络也在视频的第1/3/4/5帧处提取模态特征。也即，在视频的第1/3/4/5帧的位置分别采用第一卷积神经网络和第二卷积神经网络对视频进行模态特征的提取。

需要说明的是，以上采用两个卷积神经网络对视频进行模态特征提取只是示例性的举例描述，本实施例对此不作限定，卷积神经网络的数量也可以是多个，例如3个、4个或5个等，卷积神经网络的数量由技术人员根据实际需要进行设定。

步骤102，服务器调用残差式交叉门对至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；高级帧特征序列包括在至少两个视频帧中对应的融合后的模态特征。

残差式交叉门202是用于提取不同特征之间相互影响结果的神经网络。本实施例中，采用非线性神经网络构建残差式交叉门融合模块。由于不同模态提取的模态特征都是在视频的同一帧位置，残差式交叉门融合模块在提取模态特征的位置对至少两种模态特征进行融合，得到融合后的高级帧特征序列，该高级帧特征序列包括至少两个视频帧中对应的融合后的模态特征。

步骤103，调用解码器对高级帧特征序列进行解码，得到视频的自然语言描述。

将高级帧特征序列输入至解码器203中，对高级帧特征序列中的每个融合后的模态特征进行解码，得到该视频对应的自然语言描述。

综上所述，本申请实施例提供的方法，通过采用编码器对视频进行多模态特征提取，得到至少两种模态特征的帧特征序列，通过残差式交叉门将至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到视频在同一帧对应的不同模态之间的帧特征序列之间的相互影响的结果，能够发现并加强不同模态特征的内部联系，从而提高视频描述生成的准确性。

结合图4，图4是本申请另一示例性实施例提供的多媒体内容的描述生成方法的流程图。该多媒体内容的描述生成方法包括以下步骤：

步骤201，调用n个卷积神经网络分别对视频中的视频帧进行特征提取，得到视频帧中的模态特征。

每个卷积神经网络用于提取该卷积神经网络对应的视频的一种模态。例如，当提取该视频中动态模态和静态模态中的模态特征时，分别采用用于提取动态模态特征的第一卷积神经网络和用于提取静态模态特征的第二卷积神经网络。本实施例中，编码器201用于提取模态特征的卷积神经网络为inception_resnet_V2，对视频每一帧提取动态特征和静态特征。示例性的，该特征为1536维度的特征向量，但本实施例对此不作限定。

步骤202，对属于同一类型的模态特征按照视频帧在视频中的时间先后顺序进行组合，得到每种模态特征的帧特征序列。

重复步骤201，对视频的多个帧进行特征提取，得到该视频的多个帧特征。

在一个可选实施例中，编码器201还包括：第一循环神经网络。该第一循环神经网络用于在得到每种模态特征的帧特征序列之后，调用第一循环神经网络提取模态特征的帧特征序列中的时序特征，得到含有时序特征的帧特征序列。

示例性的，结合图3，该时序特征的获取方法包括：使用基于长短期记忆单元(LongShort-Term Memory，LSTM)的循环神经网络作为时序编码器，从多模态卷积神经网络特征序列提取时序信息，该过程可以表示为：

其中，LSTM⁽¹⁾表示长短期记忆单元在模态1的卷积神经网络特征序列的一般计算过程，表示LSTM⁽¹⁾在输入第i帧卷积神经网络特征后的隐藏状态，表示LSTM⁽¹⁾在输入第i帧卷积神经网络特征后的隐藏状态的记忆细胞状态，其中作为对应于模态1第i帧图像的嵌入时序信息的模态特征。最终得到嵌入了时序信息的模态1特征序列对于模态2，经过和上式相似的运算后得到模态2的特征序列

在一个可选实施例中，编码器201还包括：第一循环神经网络。该第一循环神经网络用于在得到每种模态特征的帧特征序列之后，通过服务器调用第一循环神经网络提取模态特征的帧特征序列中的时序特征，得到含有时序特征的帧特征序列。

步骤203，对于视频中的第i个视频帧，调用交叉门处理部分计算第i个视频帧中任意两个模态特征之间的影响结果；

结合图3和图5，卷积神经网络提取视频的模态1和模态2的模态特征，其中，模态1的模态特征CNN1中包括第i-1帧的模态特征和第i帧的模态特征；模态2的模态特征CNN2中包括第i-1帧的模态特征和第i帧的模态特征。其中，调用交叉门处理部分计算第i个视频帧中任意两个模态特征之间的影响结果，包括：对于视频中的第i个视频帧，调用交叉门处理部分计算第i个视频帧中第一模态特征对第二模态特征的影响结果，以及计算第i个视频帧中第二模态特征对第一模态特征的影响结果。

对于每一帧的多个模态特征，经过残差式交叉门计算得到多个模态特征之间互相影响后的结果。

残差式交叉门的运算过程可表示如下：

Gating<x，y>＝(σ(wx+b)y+y)

其中，x和y代表残差式交叉门运算函数的两个输入变量，y对x进行影响。σ表示非线性激活函数ReLU，w和b表式改模块中可学习参数。

示例性的，多个模态特征之间互相影响的计算过程包括：

通过计算两个模态特征的相互影响结果，能够得到在同一帧对应的多个模态特征之间的关联特点和相互影响结果，提高该帧对应的模态特征在描述视频时的准确程度。

步骤204，调用融合部分根据影响结果，对第i个视频帧所对应的至少两个模态特征进行融合，得到融合后的模态特征。

在得到各个模态特征的相互影响结果后，采用交叉门的融合部分将上一部分得到的多个模态特征的相互影响结果和进行融合：

其中w_f和b_f是融合部分的可学习参数，x_i是融合后第i帧图像的特征向量。

步骤205，对融合后的模态特征按照视频帧在视频中的时间先后顺序进行组合，得到高级帧特征序列。

重复步骤204，将所有帧对应的模态特征进行融合，并根据视频帧在视频中的时间先后顺序进行融合，得到高级帧特征序列X＝{x₁，x₂，…，x_m}。示例性的，服务器根据时序特征对各个融合后的模态特征进行排序。

步骤206，调用时间注意力模块对高级帧特征序列进行注意力计算，得到在第t个解码时刻下每一个视频帧对应的融合后的模态特征的权重。

得到高级帧特征序列后，利用基于时间注意力机制的时间注意力模块对高级帧特征序列X＝{x₁，x₂，…，x_m}进行整合处理：

其中表示在第t个解码时刻帧特征x_i的动态权重，满足条件其中，0<t<m。

其中，基于时间注意力机制的时间注意力模块用于使解码器动态选择关键帧特征，从高级帧特征序列中的多个模态特征中确定出对视频描述具有关键性影响的一个或几个模态特征。

步骤207，调用时间注意力模块对每一个视频帧对应的融合后的模态特征的权重进行整合，得到第t个解码时刻的权重和。

由于不同的模态特征在表达视频内容时的重要程度不同，因此，在一段视频中，将对该视频影响比重较大的模态特征赋予较高的权重。

步骤208，调用第二循环神经网络集合权重和，对每一个视频帧对应的融合后的模态特征和第t-1个解码时刻的隐藏状态进行解码，得到词典中每个单词的概率分布，将概率最大的单词输出为本次解码输出。

词典是用于提供候选自然语言的词库。

解码器预测单词的过程可以表示如下:

h_t，c_t＝LSTM([E(s_t-1)，φ_t(X)]，h_t-1)

P(s_t|s_＜t，V；θ)＝Softmax(W_sh_t+b_s)

其中h_t表示解码器当前时刻的隐藏状态，c_t表示解码器当前时刻的记忆细胞状态，h_t-1表示解码器上一时刻的隐藏状态，E(s_t-1)表示将上一时刻的单词s_t-1映射到向量空间。W_s，b_s为可学习参数，V表示输入视频，θ表示整个网络中的参数。采用Softmax函数将解码器当前时刻的隐藏状态转化为每个单词的概率分布，从中预测最有可能的单词。

步骤209，当满足解码终止条件时，将每个解码时刻输出的单词进行顺序输出，得到视频的自然语言描述。

编码和解码的终止条件包括：视频播放结束，或接收到终止指令。

综上所述，本实施例提供的方法，通过在编码器和解码器之间设置残差式交叉门，残差式交叉门接收编码器输出的多个模态的模态特征，通过计算得到同一帧对应的多个不同模态特征之间的关联性，根据相互关联后的模态特征生成用于描述该视频的自然语言，能够有效提高自然描述语言的准确性。

同时，通过设置基于时间注意力机制的时间注意力模块，计算出高级帧特征序列中具有关键性作用的模态特征，并将具有关键性作用的模态特征赋予较高的权重，使得解码器得出的自然语言能够准确的描述视频内容。

本申请还提供了一种多媒体内容的描述生成模型的训练方法，该方法用于对上述能够生成视频内容的描述的模型进行训练，该描述生成模型包括编码器、残差式交叉门和解码器。结合图6，该训练方法至少包括以下几个步骤：

步骤301，获取训练样本，该训练样本包括样本视频以及样本视频对应的样本描述。

训练样本包括至少一个样本视频，每个样本视频包括与该视频一一对应的样本描述。

步骤302，调用编码器对样本视频进行多模态特征提取，得到至少两种模态特征的帧特征序列，帧特征序列包括在至少两个视频帧中对应的模态特征。

步骤303，调用残差式交叉门对至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；该高级帧特征序列包括在至少两个视频帧中对应的融合后的模态特征。

步骤304，调用解码器对高级帧特征序列进行解码，得到样本视频的自然语言描述。

步骤302至步骤304的内容与前述的图2所在实施例的内容相同，本实施例在此不再赘述。

步骤305，根据自然语言描述和样本描述计算得到误差损失。

将得到的自然语言描述和样本描述进行比较，得到误差损失。

示例性的，误差损失的计算方法可以通过最小化模型损失函数，误差损失的计算过程可以表示为：

其中，表示模型的损失函数，N表示训练数据个数，V^k和S^k表示第k个视频以及其对应的自然语言描述。P(S^k|V^k；θ)表示对第k个视频生成自然语言描述的概率，可以表示为：

其中，V^k表示第k个视频，S^k是表示第k个视频对应的自然语言描述，表示对V^k生成自然语言描述S^k的过程中，在当前时刻(第t帧)预测的单词。表示在当前时刻之前，已经预测的单词，θ表示网络参数。

步骤306，根据误差损失采用反向传播算法对编码器、残差式交叉门和解码器进行端到端的训练。

重复步骤301至步骤306，对该模型进行优化。

综上所述，本实施例提供的训练方法，通过对样本视频进行模态特征提取，并根据提取到的模态特征生成自然语言，将生成的自然语言与样本描述进行比较，调整模型中的各项模态特征的权重，通过端到端的训练，能够有效提高模型生成自然语言的准确程度。

上述实施方式中的多媒体内容的描述生成方法至少可以运用于视频搜索和视频分类的场景中。

本申请的各个实施例提供的多媒体内容的描述生成方法，可以应用于安装有目标应用程序的终端中，该目标应用程序是具有视频接收或发送功能的应用程序，该终端可以是智能手机、平板电脑、个人计算机或便携式计算机等等。比如，该目标应用程序是游戏、社交类应用程序、即时通信应用程序、视频播放应用程序等等，本申请实施例对此不做限定。

以下结合图7对将该方法应用于视频搜索场景进行阐述，结合图8对将该方法应用于视频分类场景进行阐述。

一、视频搜索场景

终端10通过自然语言描述在服务器20中搜索相关的视频内容。服务器20中的视频内容通过前述实施例的多媒体内容的描述生成方法得到每个视频对于的自然语言描述，终端10通过文字搜索服务器20中的自然语言描述，并将该自然语言描述对应的视频内容推送个终端10。

例如，终端10通过有线网络或无线网络与服务器20连接后，搜索关键词为“老虎吃鸡”对应的视频，服务器20中存储有多个视频内容以及与该视频内容对应的自然语言描述。示例性的，服务器中包含的视频包括：视频A21，视频A21对应的自然语言描述1为：蔡某某、张某某在篮球场打篮球；视频B22，视频B22对应的自然语言描述2为：李某某在铺有红毯的场景中颁奖；视频C23，视频C23的自然语言描述3为：两只东北虎在动物园中追逐一只鸡，在一棵树下将鸡捕获。

服务器20接收到将关键词“老虎吃鸡”后，通过模糊搜索，与多个视频对应的自然语言描述进行比较，根据相关度进行排序，将视频内容按照相关度由高到低的顺序向终端10推送，最终将视频C23推送给终端10。

二、视频分类场景

结合图8，在视频分类景下，本申请实施例提供的多媒体内容的描述生成方法可以实现成为应用程序中的一个多媒体内容的描述生成模型30。例如，当终端向服务器20上传视频A21、视频B22和视频C23，多媒体内容的描述生成模型30对每个视频进行特征提取，从而获得用于描述该视频的自然语言描述，根据该自然语言描述对视频进行分类，将视频内容存储在对应的类别下，分类后视频A和视频B均属于娱乐相关，因此被存储在类型1对应的存储区间内；视频C属于记录片类型，因此被存储在类型2对应的存储区间内。示例性的，分类标准可以是按照视频中人物角色的姓名、视频类型(动漫、电影、电视剧)或视频内容(科学、教育、娱乐)。

需要说明的是，上述视频的自然语言描述的内容只是示例性的举例说明，真实场景中会包括更多细节特征的自然语言描述。

上述仅以几种可能的应用场景为例进行示意性说明，本申请实施例提供的方法还可以应用于其他需要视频内容的描述生成的应用场景，本申请实施例并不对具体应用场景进行限定。

本申请还提供了一种视频内容的描述生成装置，结合图9，该装置包括：

编码模块501，用于调用编码器对视频进行多模态特征提取，得到至少两种模态特征的帧特征序列，帧特征序列包括在至少两个视频帧中对应的模态特征；融合模块502，用于调用特征交叉模块对至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；高级帧特征序列包括在至少两个视频帧中对应的融合后的模态特征；解码模块503，用于调用解码器对高级帧特征序列进行解码，得到视频的自然语言描述。

融合模块502，用于对于视频中的第i个视频帧，调用交叉门处理部分计算第i个视频帧中第一模态特征对第二模态特征的影响结果，以及计算第i个视频帧中第二模态特征对第一模态特征的影响结果。

编码模块501，还用于调用n个卷积神经网络分别对视频中的视频帧进行特征提取，得到视频帧中的模态特征；对属于同一类型的模态特征按照视频帧在视频中的时间先后顺序进行组合，得到每种模态特征的帧特征序列；调用循环神经网络提取模态特征的帧特征序列中的时序特征，得到含有时序特征的帧特征序列。

解码模块503，还用于调用时间注意力模块对高级帧特征序列进行注意力计算，得到在第t个解码时刻下每一个视频帧对应的融合后的模态特征的权重；调用时间注意力模块对每一个视频帧对应的融合后的模态特征的权重进行整合，得到第t个解码时刻的权重和；调用第二循环神经网络集合权重和，对每一个视频帧对应的融合后的模态特征和第t-1个解码时刻的隐藏状态进行解码，得到词典中每个单词的概率分布，将概率最大的单词输出为本次解码输出；当满足解码终止条件时，将每个解码时刻输出的单词进行顺序输出，得到视频的自然语言描述。

本申请还公开了一种多媒体内容的描述生成模型的训练装置，该描述生成模型包括：

获取模块601，用于获取训练样本，训练样本包括样本视频以及样本视频对应的样本描述；编码模块602，用于调用编码器对样本视频进行多模态特征提取，得到至少两种模态特征的帧特征序列，帧特征序列包括在至少两个视频帧中对应的模态特征；融合模块603，用于调用特征交叉模块对至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列；高级帧特征序列包括在至少两个视频帧中对应的融合后的模态特征；解码模块604，用于调用解码器对高级帧特征序列进行解码，得到样本视频的自然语言描述；计算模块605，用于根据自然语言描述和样本描述计算得到误差损失；训练模块606，用于根据误差损失采用反向传播算法对编码器、特征交叉模块和解码器进行端到端的训练。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述实施例提供的多媒体内容的描述生成方法，或者，如前述实施例提供的多媒体内容的描述生成模型的训练方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如前述实施例提供的多媒体内容的描述生成方法，或者，如前述实施例提供的多媒体内容的描述生成模型的训练方法。

图11示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的多媒体内容的描述生成方法。具体来讲：

服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的***存储器804，以及连接***存储器804和中央处理单元801的***总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)806，和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在***总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性地，本申请的真正范围和精神由上述的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多媒体内容的描述生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述描述生成模型包括融合模块，所述融合模块包括交叉门处理部分和融合部分；

所述调用所述描述生成模型对所述至少两种模态特征的帧特征序列中属于同一帧的模态特征进行融合，得到高级帧特征序列，包括：

对于所述多媒体内容中的第i个多媒体帧，调用所述交叉门处理部分计算所述第i个多媒体帧中任意两个模态特征之间的影响结果；

调用所述融合部分根据所述影响结果，对所述第i个多媒体帧所对应的至少两个模态特征进行融合，得到融合后的模态特征；

对所述融合后的模态特征按照所述多媒体帧在所述多媒体内容中的时间先后顺序进行组合，得到所述高级帧特征序列。

3.根据权利要求2所述的方法，其特征在于，所述模态特征包括第一模态特征和第二模态特征；

所述对于所述多媒体内容中的第i个多媒体帧，调用所述交叉门处理部分计算所述第i个多媒体帧中任意两个模态特征之间的影响结果，包括：

对于所述多媒体内容中的第i个多媒体帧，调用所述交叉门处理部分计算所述第i个多媒体帧中所述第一模态特征对所述第二模态特征的影响结果，以及计算所述第i个多媒体帧中所述第二模态特征对所述第一模态特征的影响结果。

4.根据权利要求1至3任一所述的方法，其特征在于，所述描述生成模型包括编码模块，所述编码模块包括n个卷积神经网络，每个所述卷积神经网络用于提取一种模态特征；

所述调用所述描述生成模型对多媒体内容进行多模态特征提取，得到至少两种模态特征的帧特征序列，包括：

调用所述n个卷积神经网络分别对所述多媒体内容中的多媒体帧进行特征提取，得到所述多媒体帧中的模态特征；

对属于同一类型的模态特征按照所述多媒体帧在所述多媒体内容中的时间先后顺序进行组合，得到每种所述模态特征的帧特征序列。

5.根据权利要求4所述的方法，其特征在于，所述编码模块还包括：第一循环神经网络；

所述对属于同一类型的模态特征按照所述多媒体帧在所述多媒体内容中的时间先后顺序进行组合，得到每种所述模态特征的帧特征序列之后，还包括：

调用所述第一循环神经网络提取所述模态特征的帧特征序列中的时序特征，得到含有所述时序特征的帧特征序列。

6.根据权利要求1至3任一所述的方法，其特征在于，所述描述生成模型包括解码模块，所述解码模块包括：时间注意力模块和第二循环神经网络；

所述调用所述描述生成模型对所述高级帧特征序列进行解码，得到所述多媒体内容的自然语言描述，包括：

调用所述时间注意力模块对所述高级帧特征序列进行注意力计算，得到在第t个解码时刻下每一个多媒体帧对应的融合后的模态特征的权重；

调用所述时间注意力模块对所述每一个多媒体帧对应的融合后的模态特征的权重进行整合，得到所述第t个解码时刻的权重和；

调用所述第二循环神经网络集合所述权重和，对所述每一个多媒体帧对应的融合后的模态特征和第t-1个解码时刻的隐藏状态进行解码，得到词典中每个单词的概率分布，将概率最大的单词输出为本次解码输出；

当满足解码终止条件时，将每个解码时刻输出的单词进行顺序输出，得到所述多媒体内容的自然语言描述。

7.根据权利要求1至3任一所述的方法，其特征在于，所述描述生成模型是通过端到端训练方式得到的。

8.一种多媒体内容的描述生成模型的训练方法，其特征在于，所述方法包括：

根据所述自然语言描述和所述样本描述计算得到误差损失；

9.一种多媒体内容的描述生成装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述融合模块，用于对于所述多媒体内容中的第i个多媒体帧，调用所述交叉门处理部分计算所述第i个多媒体帧中所述第一模态特征对所述第二模态特征的影响结果，以及计算所述第i个多媒体帧中所述第二模态特征对所述第一模态特征的影响结果。

11.根据权利要求10所述的装置，其特征在于，所述装置包括：

所述编码模块，还用于调用所述n个卷积神经网络分别对所述多媒体内容中的多媒体帧进行特征提取，得到所述多媒体帧中的模态特征；对属于同一类型的模态特征按照所述多媒体帧在所述多媒体内容中的时间先后顺序进行组合，得到每种所述模态特征的帧特征序列。

12.根据权利要求9至11任一所述的装置，其特征在于，

所述解码模块，还用于调用所述时间注意力模块对所述高级帧特征序列进行注意力计算，得到在第t个解码时刻下每一个多媒体帧对应的融合后的模态特征的权重；调用所述时间注意力模块对所述每一个多媒体帧对应的融合后的模态特征的权重进行整合，得到所述第t个解码时刻的权重和；调用所述第二循环神经网络集合所述权重和，对所述每一个多媒体帧对应的融合后的模态特征和第t-1个解码时刻的隐藏状态进行解码，得到词典中每个单词的概率分布，将概率最大的单词输出为本次解码输出；当满足解码终止条件时，将每个解码时刻输出的单词进行顺序输出，得到所述多媒体内容的自然语言描述。

13.一种多媒体内容的描述生成模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的多媒体内容的描述生成方法，或者，如权利要求8所述的多媒体内容的描述生成模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-7任一项所述的多媒体内容的描述生成方法，或者，如权利要求8所述的多媒体内容的描述生成模型的训练方法。