CN111143617A

CN111143617A - 一种图片或视频文本描述自动生成方法及***

Info

Publication number: CN111143617A
Application number: CN201911278455.9A
Authority: CN
Inventors: 陈建海; 何钦铭; 袁嘉琪; 翁海琴; 陈清源; 董博宇; 张耀予
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-12

Abstract

本发明公开了一种图片或视频文本描述自动生成方法及***，包括：搜集图片或视频广告，获得广告图片或视频及其对应的文本描述；提取广告图片或视频的特征向量，建立广告图片或视频及其对应的特征向量、文本描述之间的映射关系，构建图片或视频广告数据集；构建生成对抗网络，所述生成对抗网络包括生成器和判别器；以图片或视频的特征向量为输入，采用图片广告数据集和视频广告数据集对生成对抗网络进行训练；提取目标图片或视频的特征向量，输入至训练好的生成器，获得目标图片或视频的文本描述。本发明使得机器生成更具创意的广告词成为可能。

Description

一种图片或视频文本描述自动生成方法及***

技术领域

本发明涉及机器学习和自然语言处理领域，尤其涉及一种面向广告业务的智能图片或视频文本描述自动生成方法及***。

背景技术

在各种应用领域，一张图片能带有文本描述标注是很有价值的。如果基于一张图片能自动生成有创意、吸引人的语句，那么广告业务将更加便捷，将省去一定的资源与人力来进行广告词的编写。随着深度学习技术的发展，使用机器为图像自动生成准确的文本描述成为了可能。随着其准确性的逐步提高，取代人力标注使用机器自动实现可以尝试投入具体的应用。

目前，图片文本描述生成主要还是用Encoder-Decoder模型，并在准确性上取得了很好的成绩。但在具体应用时，机器的实现有可能过于注重准确性，而缺乏真实的人类语言多样性的特点，这可能不能满足某些应用领域。如要实现广告词的生成，其更加注重语句的创意，单单准确地描述一张图片不能达到广告词吸引人的目的，我们更需要能体现多样性的技术。

同时，生成对抗网络(GAN)的提出，在计算机视觉领域引起了很大的反响，它已经在图像生成领域取得了很好的效果，但在文本生成方面的应用还十分困难。将其用于图片文本描述生成，准确性上有待提高，但不同的是，它可以更加展现出语言描述的多样性，更加适用于广告业务领域。

目前为止，GAN在这方面的应用还处于发展的阶段，它当前主要是通过使用强化学习的方法来解决生成序列遇到的问题，即GAN生成离散数据时无法通过原有的损失函数对生成器进行优化。但显然，该方面的技术还不成熟，同时也缺少具体应用领域的实施。

发明内容

本发明提供了一种面向广告业务的图片或视频文本描述自动生成方法，利用人工智能算法，实现了基于图片广告以及视频广告自动生成对应的广告词，生成的广告词更具有多样性、自然性，节省广告业务方面的资源。

具体技术方案如下：

一种图片或视频文本描述自动生成方法，包括以下步骤：

(1)搜集图片或视频广告，获得广告图片或视频及其对应的文本描述，构建成图片或视频广告数据资料库；

(2)提取广告图片或视频的特征向量，建立广告图片或视频及其对应的特征向量、文本描述之间的映射关系，构建图片或视频广告数据集；

(3)构建生成对抗网络，所述生成对抗网络包括生成器和判别器；以图片或视频的特征向量为输入，采用图片广告数据集和视频广告数据集对生成对抗网络进行训练；

(4)提取目标图片或视频的特征向量，输入至训练好的生成器，获得目标图片或视频的文本描述。

步骤(1)中，利用网络爬虫从互联网电商网站抓取商品的广告图片及其对应的商品文本描述，构建图片广告数据资料库。

步骤(1)中，利用网络爬虫从互联网上抓取时长小于30秒的广告视频及其对应的文本描述，构建视频广告数据资料库。

抓取到的广告视频数据资料中，部分原始视频文件内容与其对应的广告词文件内容相关性较小，需要对广告视频进行人工校对和筛选，保留视频内容与其文本描述内容相关性较高的视频数据。

优选的，通过正则表达式匹配提出广告视频的文本描述中的无关信息。

步骤(2)中，利用ResNet(Residual Neural Network)网络提取广告图片的特征向量。

步骤(2)中，构建图片广告数据集包括以下步骤：

(a-1)将图片广告数据资料库中的广告图片大小调整为224×224；优选的，采用OpenCV视觉库调整广告图片的大小；

(a-2)下载并加载预先训练好的ResNet网络，在ResNet网络的输出层添加一层全连接神经网络，构成残差网络；优选的，将最终输出维度调整为1008；

(a-3)将调整后的广告图片输入步骤(a-2)的残差网络中，获得广告图片的特征向量；

(a-4)建立广告图片及其对应的特征向量、文本描述之间的映射关系，构建视频广告数据集。

步骤(2)中，构建视频广告数据集包括以下步骤：

(b-1)截取视频广告数据资料库中的广告视频的视频帧，调整视频帧大小为128×171；所述的视频帧包括16帧非重叠的图像；

(b-2)下载3D ConvNet模型并加载，添加一层全连接神经网络；优选的，将输出的视频特征向量的维度调整为2048；

(b-3)将调整后的广告视频帧输入至步骤(b-2)的网络中，获得广告视频的特征向量；

(b-4)建立广告视频及其对应的特征向量、文本描述之间的映射关系，构建视频广告数据集。

优选的，所述的生成对抗网络包括生成器和判别器；所述生成器采用循环神经网络结构，以广告图片或视频的特征向量为输入，以文本序列为输出；所述判别器采用循环神经网络结构，以生成器输出的文本序列为输入，计算输出奖励值并返回给生成器，以对生成器进行优化。

步骤(3)中，所述的生成对抗网络基于SeqGAN网络模型建立。

由于生成器的离散输出，很难通过梯度优化的方式来进行更新。所以在SeqGAN模型中，采用强化学习的方式，生成器的目标是使其生成能最大化判别器返回的奖励的值。

SeqGAN仅仅局限于生成的文本较短的情况，而广告词可能更需要长文本生成能力，这主要是判别器能反馈的信息只是一个简单的奖励的值，信息量有限，不足以保留过程中的句法结构和文本语意，无法有效地帮助生成器学习更新。

另一种技术方案为，步骤(3)中，所述的生成对抗网络基于LeakGAN网络模型建立。

可以采用LeakGAN的网络模型来提供一个长文本生成的能力，它增加了来自判别器的信息量，在最终判别的奖励值以外提供更多的指导信息。同时基于真实的文本是遵照语意结构和词性之类的语言层次写成的，通过把整个文本生成按照层次结构分解成多个子任务，使得模型能更加轻松地进行学习。

优选的，采用蒙特卡洛树搜索将生成器生成的文本序列补全。

由于判别器计算奖励需要对一个完整的文本序列评分，所以每次生成器生成的不完整的文本序列，要用蒙特卡洛树搜索的方式将每一个动作的各种可能性补全。

步骤(3)中，对生成对抗网络进行训练包括：先分别对生成器和判别器进行预训练，再对生成对抗网络进行对抗训练。

对生成器和判别器进行预训练包括：

(A-1)随机初始化生成器和判别器两个网络的参数；

(A-2)通过最大似然估计(maximum likelihood estimation)计算生成器当前生成的文本序列的损失函数，以指导生成器更新其参数直至达到预设要求，完成生成器的预训练；

(A-3)用预训练完的生成器生成文本序列，以该文本序列和真实文本描述为输入，用最小化交叉熵预训练判别器。

对生成对抗网络进行对抗训练包括：

(B-1)采用预训练完成的生成器生成文本序列，并采用蒙特卡洛树搜索补全该文本序列，之后输入至判别器，计算得到奖励值，将奖励值反馈给生成器，生成器通过强化学习进行参数更新，以使得奖励值最大化；

(B-2)采用参数更新后的生成器生成的文本描述作为负样本，将对应的真实的文本描述作为正样本，判别器基于正样本和负样本计算损失函数，以指导自身参数的更新。

基于相同的发明构思，本发明还提供了一种图片或视频文本描述自动生成***，包括：

数据搜集模块，搜集图片广告，获得广告图片和对应的文本描述，提取广告图片的特征向量，建立广告图片及其对应的特征向量、文本描述之间的映射关系，构建图片广告数据集；搜集视频广告，获得广告视频和对应的文本描述，提取广告视频的特征向量，建立广告视频及其对应的特征向量、文本描述之间的映射关系，构建视频广告数据集；

网络训练模块，构建生成对抗网络，所述生成对抗网络包括生成器和判别器；以图片或视频的特征向量为输入，采用图片广告数据集和视频广告数据集对生成对抗网络进行训练；

文本描述生成模块，读取目标图片或视频，提取目标图片或视频的特征向量，输入至训练好的生成器，获得目标图片或视频的文本描述。

优选的，所述的数据搜集模块包括：

图片广告搜集单元，从电商网站上爬取商品图片和对应的文本描述；

图片特征向量提取单元，提取广告图片的特征向量，建立广告图片及其对应的特征向量、文本描述之间的映射关系，构建图片广告数据集；

视频广告搜集单元，从视频网站上爬取广告视频，并获取对应的文本描述；

视频特征向量提取单元，截取广告视频中非重叠的帧，提取广告视频的特征向量，建立广告视频及其对应的特征向量、文本描述之间的映射关系，构建视频广告数据集。

与现有的技术相比，本发明的有益效果如下：

本发明将基于对抗网络的文本描述生成模型应用到广告词的生成中，生成的广告词更具有多样性、自然性，使得机器生成更具创意的广告词成为可能，节省广告业务方面的资源。

附图说明

图1为本发明实施例的广告词生成***的架构示意图；

图2为本发明实施例的广告词生成***的工作流程示意图；

图3为搜集广告数据资料的工作流程示意图，其中(a)为图片广告数据资料，(b)为视频广告数据资料；

图4为建立广告数据集工作流程示意图，其中(a)为图片广告数据集，(b)为视频广告数据集；

图5为本发明的生成对抗网络模型结构示意图；图6为整个神经网络训练的具体流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明一种实施方式的广告词生成***，包括数据搜集模块、网络训练模块和广告词生成模块。其工作流程如图2所示，具体如下：

(S1)数据搜集模块在网络上用网络爬虫爬取广告数据，然后提取特征值建立映射关系，从而搭建起广告数据资料库用于网络模型的训练和优化，其中广告数据包括图片和视频以及对应的广告词。

以图片广告数据资料来源于电商网站Amazon的衣物类商品信息为例，建立图片广告数据集的过程如图3中(a)所示：首先，通过Amazon电商网站的搜索引擎功能选取站内的衣物类型商品；通过网络爬虫的配置来筛选商品为衣物类的商品信息，构建商品信息列表；最后从列表中抓取商品图片与对应的商品描述，存储在文件中，建立映射关系。

以视频广告数据资料的来源于YouTube网站英文广告视频为例，建立视频广告数据集的过程如图3中(b)所示：首先，通过YouTube网站内的搜索引擎找到英文短视频广告，再通过网络爬虫配置来筛选时长为30秒以内的视频得到视频列表；从列表中一一选取广告视频，发送请求使用网站的字幕生成功能获得字幕文件；根据先前存储的视频列表与字幕文件列表将获得的视频文件与字幕文件重新命名存储在文件中，建立映射关系；最后，通过正则表达式来匹配剔除字幕文件中的无关信息，只保留广告词。

提取图片广告的特征，流程如图4中(a)所示：图片输入部分是经过处理后的像素大小为224×224的图片数据，将图片数据输入预先训练好的分类网络(ResNet分类网络)之后输出特征向量，将该特征向量输入一层全连接神经网络调整其输出维度为1008，最后将广告图片、该广告图片的图像特征值、该广告图片对应的广告词存储在文件中建立映射关系，图片广告数据集的建立完成。

提取视频广告的特征，流程图如图4中(b)所示：首先使用OpenCV工具从每个视频文件中截取非重叠的16帧图片，将所得每帧图片的像素大小调整为128×171，最后将视频帧的输入格式设置为3×16×128×171，将视频帧数据输入3DConvNet中，经过卷积神经网络提取出特征向量，将该特征向量作为最后一层全连接神经网络的输入，得到2048个维度的特征向量，最后将视频文件、该视频文件的特征向量以及该视频文件对应的字幕文件存储在文件中并建立映射关系，视频广告数据集的建立完成。

(S2)建立好广告数据集后，通过网络训练模块构建并训练生成对抗网络模型。首先基于SeqGAN模型构建生成对抗网络模型，要建立好网络性，整个训练时采用的神经网络结构如图5所示，由于采用了生成对抗网络模型，整个神经网络分为生成器和判别器两部分，又为了解决文本序列生成中离散数据等问题，采用了强化学习的方式，又应用到了蒙特卡洛树搜索的方法：

生成器和判别器都会读取广告数据集中的特征向量作为输入，这些特征向量已经在构建数据集的过程中对原始数据完成了提取，故可以提高整个网络训练的效率。生成器主要采用循环神经网络的结构，可以基于输入的图片特征，来生成一段文本序列；判别器同样基于RNN结构，它会基于生成器输出的文本序列，计算一个奖励值返回给生成器以优化。

生成器会读取图像特征向量作为输入，通过一种循环神经网络LSTM(Long Short-Term Memory)来生成文本序列。由于判别器需要对一个完整的序列评分，所以每次生成器生成的不完整的序列时，要用蒙特卡洛树搜索的方式将每一个动作的各种可能性补全，然后再将其输入到判别器进行判别。

判别器在生成器训练时会有图像特征向量和对应的生成器生成的文本作为输入，判别器同样会有一个LSTM的网络结构，它会对生成的文本进行编码，再将编码结果通过全连接的神经网络，计算得到一个奖励值来反馈给生成器，以指导生成器优化。

判别器在自己训练时，会有生成器生成文本数据以及广告数据集中的真实文本数据作为输入，来计算自己分辨真实数据和生成数据时的损失函数，以指导自己进行优化。

对整个神经网络训练的具体流程如图6所示，除了基于之前介绍的网络结构的对抗训练外，在这之前还有个预训练的过程，以提高之后对抗网络训练的效率，故整个过程分预训练和对抗训练两步：

(1-1)随机初始化生成器和判别器两个网络的参数；

(1-2)通过最大似然估计(maximum likelihood estimation)的方式来计算生成器当前生成序列的损失函数，不通过判别器反馈的奖励值，以指导生成器更新其参数；

(1-3)用预训练完的生成器来生成一些数据，用这些数据和真实数据作为输入，用最小化交叉熵的方式来预训练判别器。

(2)对抗训练会分别对生成器和判别器的参数进行更新，会重复地分别让生成器和判别器进行多次训练，以使最后达到最好的效果。

(2-1)用当前的生成器生成一段序列，其中不完整的句子用蒙特卡洛树搜索来进行补全。将完整的句子输入到判别器，用判别器计算一个奖励值反馈给生成器，生成器通过强化学习中Policy gradient的方式进行参数的更新，以使能得到的奖励值最大化，从而提高了其生成数据的能力，整个过程重复多次已达到较好的效果。

(2-2)用当前的生成器生成一段完整的文本描述样例作为负的输入，再将数据集中真实的文本描述作为正的输入，判别器基于两者计算损失函数来指导自己进行参数的更新，以提高自己分辨真实数据和生成数据的能力，整个过程重复多次已达到较好的效果。

(S3)训练得到一定效果后，将训练好的生成器投入到设计实现的***进行使用，即广告词生成模块，整个子模块执行流程包括：

(1)采用训练好的卷积神经网络(CNN)来提取图片特征，获取一个图片的特征向量，用于输入给我们之前训练好的图像文本描述生成器；

(2)生成器读取图片特征，利用训练好的LSTM结构，将其转换为每个单词用词向量表示的一段句子，最后将其转换为一段与人类语言描述相同的句子；

(3)将最后生成的文本描述，输出给用户；

(4)鉴于我们的神经网络后续还可继续进行训练，以优化其生成句子的效果，我们的***可以获取用户使用时的反馈，同时可以从中获取新的数据来丰富我们的数据集，以能更进一步提高我们生成器的能力。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种图片或视频文本描述自动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图片或视频文本描述自动生成方法，其特征在于，步骤(2)中，利用ResNet网络提取广告图片的特征向量。

3.根据权利要求1所述的图片或视频文本描述自动生成方法，其特征在于，步骤(2)中，构建图片广告数据集包括以下步骤：

(a-1)将图片广告数据资料库中的广告图片大小调整为224×224；

(a-2)下载并加载预先训练好的ResNet网络，在ResNet网络的输出层添加一层全连接神经网络，构成残差网络；

4.根据权利要求1所述的图片或视频文本描述自动生成方法，其特征在于，步骤(2)中，构建视频广告数据集包括以下步骤：

(b-2)下载3D ConvNet模型并加载，添加一层全连接神经网络；

5.根据权利要求1所述的图片或视频文本描述自动生成方法，其特征在于，所述的生成对抗网络包括生成器和判别器；所述生成器采用循环神经网络结构，以广告图片或视频的特征向量为输入，以文本序列为输出；所述判别器采用循环神经网络结构，以生成器输出的文本序列为输入，计算输出奖励值并返回给生成器，以对生成器进行优化。

6.根据权利要求1或5所述的图片或视频文本描述自动生成方法，其特征在于，所述的生成对抗网络基于SeqGAN网络模型建立。

7.根据权利要求1或5所述的图片或视频文本描述自动生成方法，其特征在于，所述的生成对抗网络基于LeakGAN网络模型建立。

8.根据权利要求1所述的图片或视频文本描述自动生成方法，其特征在于，步骤(3)中，对生成对抗网络进行训练包括：先分别对生成器和判别器进行预训练，再对生成对抗网络进行对抗训练；

对生成器和判别器进行预训练包括：

(A-1)随机初始化生成器和判别器两个网络的参数；

(A-3)用预训练完的生成器生成文本序列，以该文本序列和真实文本描述为输入，用最小化交叉熵预训练判别器；

对生成对抗网络进行对抗训练包括：

9.一种图片或视频文本描述自动生成***，其特征在于，包括：

10.根据权利要求9所述的图片或视频文本描述自动生成***，其特征在于，所述的数据搜集模块包括：