CN111177461A

CN111177461A - 一种根据当前场景及其描述信息生成下一场景的方法

Info

Publication number: CN111177461A
Application number: CN201911390030.7A
Authority: CN
Inventors: 陈艺勇; 夏侯建兵; 林凡; 谢伟业
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19

Abstract

本发明公开了一种根据当前场景及其描述信息生成下一场景的方法,涉及视频制作编辑领域，包括以下步骤：S1，通过机器学习训练，生成描述信息生成模型、描述信息翻译模型和图片生成模型；S2，采用描述信息生成模型抽取当前场景的图片或视频的高维特征，将其转换成自然语言的描述，该自然语言的描述即为当前场景的描述信息；S3，采用描述信息翻译模型，通过少量单词建立当前场景和下一场景之间的上下文关系，并根据所述上下文关系，由当前场景的描述信息生成下一场景的描述信息；S4，采用图片生成模型，根据下一场景的描述信息和当前场景的的图片或视频的高维特征构建下一场景。

Description

一种根据当前场景及其描述信息生成下一场景的方法

技术领域

本发明涉及视频制作编辑领域，尤其涉及一种根据当前场景的图片或视频片段及其描述信息生成下一场景的图片或视频片段的方法。

背景技术

现有方法只考虑通过图像的特征来生成下一场景图片，没有加上图像的描述信息，很多时候图像的描述信息也保存着大量信息，并且更加的多样化。

现有方法大多只从训练数据提取与下一场景较为接近的图片，更没有对已有的数据进行重新组合以得到更符合结果的图片。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提供一种根据图片及其描述信息生成下一场景图片的方法，以实现帧间插图，可提高动画制作编辑等视频编辑的效率。

具体方案如下：

一种根据当前场景及其描述信息生成下一场景的方法，包括以下步骤：

S1，通过机器学习训练，生成描述信息生成模型、描述信息翻译模型和图片生成模型；

S2，采用描述信息生成模型抽取当前场景的图片或视频的高维特征，将其转换成自然语言的描述，该自然语言的描述即为当前场景的描述信息；

S3，采用描述信息翻译模型，通过少量单词建立当前场景和下一场景之间的上下文关系，并根据所述上下文关系，由当前场景的描述信息生成下一场景的描述信息；

S4，采用图片生成模型，根据下一场景的描述信息和当前场景的的图片或视频的高维特征构建下一场景。

进一步的，所述图片生成模型包括布局构成器和实体检索器，所述布局构成器根据描述信息的文本中的实体及实体在描述信息的文本中的上下文联系，得到实体在下一场景的图片或视频中的位置及比例；所述实体检索器用于在目标数据库中查找目标图片或视频，该图片或视频与描述信息中的实体相匹配，并且与迄今为止构建的图片或视频一致，将检索到的具有所述实体的图片或视频放置在布局构成器预测的位置中。

与现有技术相比，本发明的优点是：通过少量单词建立当前场景和下一场景之间的上下文关系，并根据所述上下文关系，由当前场景的描述信息生成下一场景的描述信息；利用已有的数据进行重新组合以得到更符合结果的图片或视频。

附图说明

图1是本发明的根据当前场景及其描述信息生成下一场景的工作流程图；

图2是图片及其描述信息的一个示例；

图3是由本发明的工作流程的一个示例；

图4是描述信息生成模型；

图5是描述信息翻译模型；

图6是布局构成器结构图；

图7是实体检索器的第一部分；

图8是实体检索器的第二部分。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，本发明公开了一种根据当前场景及其描述信息生成下一场景的方法，包括以下步骤：

其中，图片生成模型包括布局构成器和实体检索器，所述布局构成器根据描述信息的文本中的实体及实体在描述信息的文本中的上下文联系，得到实体在下一场景的图片或视频中的位置及比例；所述实体检索器用于在目标数据库中查找目标图片或视频，该图片或视频与描述信息中的实体相匹配，并且与迄今为止构建的图片或视频一致，将检索到的具有所述实体的图片或视频放置在布局构成器预测的位置中。

下一场景的图片或视频融合了当前场景本身的图形特征与描述信息的特征，可以产生更加丰富、更加准确的图片。在通过描述信息生成下一场景图片时，通过对数据集中的实体标注信息，结合描述信息信息和图像特征可以将现有的图像数据进行重组以增加图像的多样性。

在步骤S1中，通过机器学习训练，生成描述信息生成模型、描述信息翻译模型、图片生成模型。

一、训练描述信息生成模型：

在训练描述信息生成模型时，首先需要准备训练数据集。在本实施例中，采用《摩登原始人》动画剧集作为原始数据集，每100帧抽取一张图片，并对每张图片标注其各个实体(包括人物、物体、动作等)的位置并给出一句自然语言描述的该图片的句子，即描述信息，如图2所示，描述信息由若干单词组成。在训练时，由抽取的相邻两张图片构成一个训练样例。

如图2所示，给出了《摩登原始人》动画剧集中的一张图片。我们可以将图用如下描述信息描述。

描述信息：Barney walks into the dining room and takes an apple in hishand.

其中，描述信息中包含的实体有：Barney、walks、dining room、apple

每个实体的位置信息：

Barney：[24,43,60,88]

walks：[24,43,60,88]

dining room：[0,88,128,128]

apple：[47,62,60,78]

其中位置信息的前两个数为左上角像素点的位置，后两个数为右下角像素点的位置。

将描述信息的单词构建成词汇表，词汇表中的单词用词向量(词向量表示通过一个数字组成的向量来表示一个词)表示，在本实施例中，词向量采用one-hot向量(one-hot向量又称为独热编码、一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候只有一位有效)表示。

通过训练，获得一实体数据库，实体数据库的每条记录是图像以及它对应的语句描述，每条语句的词汇片段其实对应了一些特定的但是未知的图像区域。通过推断出这些词汇片段和图像区域的对应关系，然后使用他们来生成一个描述信息生成模型。

在本实施例中，描述信息生成模型为CNN-RNN架构，如图4所示，使用CNN(深度神经网络模型)提取当前场景图片的高维特征，用于推断语句的词汇片段与图像区域的对应关系；RNN(递归神经网络模型)用于将图像与语句片段关联起来。

卷积神经网络CNN部分：

在本实施例中，卷积神经网络CNN采用基于ImageNet数据集预训练的残差网络分类模型Resnet101模型，由于该模型用在图像分类数据集，去掉最后一层全连接层，输出结果的尺寸为4096。在具体应用中，也可以选用其它层数的残差网络分类模型，如Resnet34或Resnet50等。

采用Adam梯度下降算法(Adam算法即自适应时刻估计方法(Adaptive MomentEstimation)，能计算每个参数的自适应学***方梯度的指数衰减平均值，而且保持了先前梯度M(t)的指数衰减平均值)，最后一层全连接层的学习率设置为0.01，其他的层设置为0.001，总共进行40次迭代，并且每经过10次迭代之后，将学习率对应地设置为之前的1/10。为了加速计算并防止过拟合，采用dropout的训练方式，dropout的概率设置为0.5。在输入图像之前，首先将图像缩放至128*128大小，并进行随机反转再输入卷积神经网络CNN。

递归神经网络RNN部分：

采用长短期记忆人工神经网络(LSTM)作为递归神经网络(RNN)单元，训练时，将CNN输出的V_att及当前单词的one-hot向量拼接后，再作为递归神经网络的输入，而该当前场景的描述信息则作为标签。

设最后生成的单词序列为{S1,…,SL}，P_t(S_t)为生成该单词的概率，可以得到损失函数为：

其中，N为训练样例的总数，L⁽ⁱ⁾是第i个训练样例生成的描述信息的长度，θ表示所有的可训练参数，

是正则化项。

训练时，图像描述数据的输入以开始标记作为第一个输入，采用批量训练的方式，批处理的大小选择32，使用SGD算法(随机梯度下降算法)对损失函数进行迭代优化。

描述信息模型使用时，先将图片缩放至128*128，在通过训练后的卷积神经网络得到图片的高维特征表达，在每个时间步，都会将该高维特征与单词拼接作为LSTM的输入。在第一个时间步，输入开始标记作为第一个单词，之后的时间步，将上一个时间步输出的单词作为当前时间步的输入，直到输出结束标记，则生成结束。为了避免不生成结束标记或者结束标记太晚出现，限制生成的描述信息的长度，将描述信息的长度设置为16，即每个描述信息最多有16个单词。

二、训练描述信息翻译模型

如图5所示，描述信息翻译模型采用RNN-RNN架构，RNN单元使用LSTM单元，LSTM单元的层数选择3，隐含层维度选择500。将当前场景的描述信息作为第一个RNN的输入，将最后输出的隐藏状态向量用来初始化下一个RNN的隐藏状态向量，并将上一个输出的单词作为第一个RNN的输入。损失函数同样为：

描述信息翻译模型使用时，先将当前场景的描述信息输入第一个RNN，将最后输出的隐藏状态向量和最后一个单词作为第二个RNN的输入，直到第二个RNN输出结束标志或者超过16个单词。

三、训练图片生成模型

在图片生成模型中，需要将描述信息和场景进行映射，涉及的参数定义如下：

T：描述信息的文本，长度为|T|。

T中的n个实体；

实体E_i在T中的位置；

实体E_i在图片中的位置及比例信息；

l_i：实体E_i在图片的标注框，记为{x_i,y_i,w_i,h_i}；

S_i：实体E_i的比例信息；

V_i-1：根据实体E_i-1生成的图片；

训练数据，M代表总的训练数据数。

训练布局构成器：

如图6所示，布局构成器负责根据描述信息的文本T中的实体E_i和上下文联系得到实体E_i在图片中的位置及比例信息(l_i,S_i)以构成精确的布局和保持场景一致性。

布局构成器被设置为按顺序根据描述信息文本T中的实体E_i及根据前一个实体E_i-1构造的部分图片V_i-1作为输入，得到该实体E_i在图片中的位置及比例信息(l_i,S_i)。

令C_i＝(V_i-1,T,e_i)可以得到最大似然函数(极大似然估计)为：

P(l_i|C_i；θ_loc，θ_sc)＝P_loc(x_i，y_i|C_i；θ_loc)P_sc(w_i，h_i|C_i；x_i，y_i，θ_sc)

其中，C_i为当前输入，由上一轮构造的图片和当前实体单词组成；θ_loc和θ_sc为模型中需要学习的参数。使用C_i作为输入，然后计算图片中实体E_i所在位置的概率分布P_loc和实体在图片中所占的大小P_sc。

使用LSTM将描述信息的文本T编码为嵌入式向量，LSTM单元的层数选择2，隐含层维度选择100，将LSTM输出的隐含层状态作为实体的编码向量，维度为100。

初始化一张空白图片，将该128*128*3的图片作为CNN的输入。CNN的结构主要为4层卷积层：第1层卷积核为3*3*64，步长为2；第2层卷积核为3*3*128，步长为2；第3层卷积核为3*3*256，步长为1；第4层卷积核为3*3*512，步长为1；经过四层卷积层，可得到32*32*512的特征图。

将LSTM得到的实体编码向量复制为32*32*100的矩阵，与CNN得到的特征图拼接在一起得到32*32*612，作为多层感知机的输入。多层感知机采用四层全连接层：第一层为32*32*256，第二层为32*32*128，第三层为32*32*1，第四层为128*128*1。最后得到128*128*1的矩阵，对其用softmax函数(归一化指数函数，实际上是有限项离散概率分布的梯度对数归一化)处理，得到每一帧实体所在位置的概率分布即P_loc。

上一步在第三层全连接层输出的32*32*1，分别对CNN得到的特征图和复制后的实体编码向量做平均池化处理得到32*32*2的向量，将拼接后的32*32*3作为多层感知机的输入。多层感知机采用三层全连接层：第一层为256，第二层为128，第三层为2；最后得到的1*2向量即μ，表示实体的长和宽。

根据计算后的P_loc和μ得到实体的位置，将训练数据图片中的实体复制到空白图片中，得到的图片作为下一个实体的输入图片。

训练采用Adam优化算法，学习率为0.001，批处理大小为30。

通过以上训练，在输入一张图片与一个实体后，可以得到该实体在图片上的位置与其占据的大小。

训练实体检索器：

如图7和图8所示，实体检索器的任务是在目标数据库中查找目标图片，目标图片与描述信息中的实体E_i相匹配，并且与迄今为止构建的目标图片一致，将检索到具有先前实体E_i-1的图片并将其放置在布局构成器预测的位置P_loc中。

在输入到第i个实体E_i时，先将实体E_i输入到布局构成器，得到实体E_i的位置和比例信息(l_i,S_i)。

使用LSTM单元将描述信息的文本T编码为嵌入式向量，LSTM单元的层数选择2，隐含层维度选择64，将LSTM输出的隐含层状态作为实体E_i的编码向量，维度为64。

将构造的部分图片V_i-1输入到CNN(网络结构和布局构成器相同，但参数不共享)中，得到图片V_i-1的特征图(32*32*512)，将每个特征图与对应的布局构成器的位置信息做ROI pooling，得到降维的特征图。将特征图展开为1维向量，与描述信息的文本T的嵌入式向量拼接在一起，作为多层感知机的输入。多层感知机由两层全连接层组成：第一层维度为256，第二层为128。得到维度为128的向量，即为查询向量q。

将该图片对应的下一场景及实体E_i的位置和比例信息(l_i,S_i)也输入到上述的网络(结构相同，但参数不共享)中，但不需要将特征图与描述信息的文本的嵌入式向量相拼接，同样得到得到128维向量，即为嵌入式向量r。

损失函数采用三元组损失函数，距离判断采用欧式距离。在每次训练中迭代中，设批处理大小为B，则有

q和r为计算得到的视频的F维嵌入式向量，选定第b样例作为锚示例，δ_b表示除b外的样例集合。损失函数为：

训练采用Adam优化算法(Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重)，学习率为0.001。批处理大小为30，α设置为0.1。

通过以上训练，在输入图片和以及实体的位置及大小信息后，可以在训练数据库中找到最相似的图片，用该图片对应的部分来填充输入图片。

四、从描述信息生成图片：

初始化一张空白图片；将描述信息的文本T的单词依次输入实体检索器的第一部分，当检测到该单词为实体信息后，将其与空白图片作为布局构造器的输入，得到实体E_i的位置及比例信息(l_i,S_i)；将实体的位置和比例信息(l_i,S_i)及空白图片作为实体检索器第一部分的输入，得到实体的查询向量q；将训练数据库中的图片输入实体检索器的第二部分得到图片的嵌入式向量r；将查询向量q分别与嵌入式向量r计算欧式距离，将距离最小的图片中的实体按照布局构成器的位置及比例信息复制到空白图片，得到构造的部分图片V_i-1；将上一步得到的图片作为下一次迭代的输入。

为便于理解，图3给出了根据当前场景的图片及其描述信息生成下一场景的图片的一个示例,其中A给出了当前场景的图片：棕色的海豹在空中飞翔，手中拿着卷起的纸，生成当前场景的描述信息：“The brown seal is flying in the air a rolled up pape.”，下一场景是海豹拿起卷起的纸做成的号筒吹号，通过增加了吹号相关的单词，建立当前场景和下一场景的上下文联系，形成下一场景的描述信息：“A brown seal is floating inthe air and blows through a blow horn.”再根据下一场景的描述信息生成下一场景B。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种根据当前场景及其描述信息生成下一场景的方法，其特征在于，包括以下步骤：

S4，采用图片生成模型，根据下一场景的描述信息和当前场景的图片或视频的高维特征构建下一场景。

2.如权利要求1所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于，所述图片生成模型包括布局构成器和实体检索器，所述布局构成器根据描述信息的文本中的实体及实体在描述信息的文本中的上下文联系，得到实体在下一场景的图片或视频中的位置及比例；所述实体检索器用于在目标数据库中查找目标图片或视频，该图片或视频与描述信息中的实体相匹配，并且与迄今为止构建的图片或视频一致，将检索到的具有所述实体的图片或视频放置在布局构成器预测的位置中。

3.如权利要求2所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于：所述S4中，具体包括以下步骤：

初始化一张空白图片；

所述实体检索器分为第一部分和第二部分，所述实体检索器的第一部分用于输出查询向量q；所述实体检索器的第二部分用于输出嵌入式向量r；

将上一场景的描述信息的文本依次输入实体检索器的第一部分，实体检索器的第一部分检测文本中的单词，当检测到的单词为实体信息后，将其与空白图片作为布局构成器的输入，得到实体的位置及比例信息；将实体的位置和比例信息及空白图片作为实体检索器的输入，得到实体的查询向量q；

将训练数据库中的图片输入实体检索器的第二部分得到图片的嵌入式向量r；

将查询向量q分别与嵌入式向量r计算欧式距离，将距离最小的图片中的实体按照布局构成器的位置及比例信息复制到空白图片，得到构造的部分图片；

将上一步得到的图片作为下一次迭代的输入。

4.如权利要求2所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于：所述布局构成器的训练包括：

令C_i＝(V_i-1,T,e_i)，得到最大似然函数为：

P(l_i|C_i；θ_loc,θ_sc)＝P_loc(x_i,y_i|C_i；θ_loc)P_sc(w_i,h_i|C_i；x_i,y_i,θ_sc)

其中，C_i为当前输入，由上一轮构造的图片和当前实体单词组成；θ_loc和θ_sc为模型中需要学习的参数；使用C_i作为输入，然后计算图片中实体E_i所在位置的概率分布P_loc和实体在图片中所占的大小P_sc。

5.如权利要求1所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于：所述描述信息生成模型采用CNN-RNN架构，所述CNN用于提取当前场景的高维特征，所述高维特征与单词拼接作为RNN的输入，输出当前场景的描述信息。

6.如权利要求5所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于：所述CNN采用基于ImageNet数据集预训练的Resnet101模型，所述RNN采用LSTM单元作为RNN单元，所述LSTM为长短期记忆人工神经网络。

7.如权利要求1所述的根据当前场景及其描述信息生成下一场景的方法，其特征在于：

所述描述信息翻译模型采用RNN-RNN架构，RNN单元使用LSTM单元，所述LSTM单元的层数为至少3层；将上个场景的描述信息作为第一个RNN的输入，将最后输出的隐藏状态向量用来初始化下一个RNN的隐藏状态向量，并将上一个输出的单词作为第一个RNN的输入。