CN112291614A

CN112291614A - 一种视频生成方法及装置

Info

Publication number: CN112291614A
Application number: CN201910677074.1A
Authority: CN
Inventors: 詹振; 李丽
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-01-29

Abstract

本申请实施例提供了一种视频生成方法及装置，可以获取与事件关键词对应的文字和文字对应的图片，而后，将事件关键词对应的文字转换为视频的语音，并将文字对应的图片转换为所述视频的视频帧，从而生成与事件关键词对应的视频。也就是说，可以不必采用录制视频的方式生成与事件关键词例如热门事件关键词相关的视频，而是利用与事件关键词对应的文字和文字对应的图片，生成与事件关键词对应的视频。而获取事件关键词对应的文字和文字对应的图片、以及根据事件关键词对应的文字和文字对应的图片生成事件关键词对应的视频等步骤所花费的时间比较短，相比录制视频而言，生成视频的效率更高，可以在热门事件发生之后很快生成与热门事件相关的视频。

Description

一种视频生成方法及装置

技术领域

本申请涉及互联网领域，特别是涉及一种视频生成方法及装置。

背景技术

随着科学技术的发展，出现了很多视频网站以及播放视频的应用程序。为了吸引更多的用户观看前述视频网站以及吸引更多用户使用该播放视频的应用程序，前述视频网站和播放视频的应用程序可以播放热门事件的视频。

可以理解的是，若要播放热门事件的视频，首先要生成该热门事件的视频。目前的生成热门事件的视频的方式，大多是直接进行视频的录制。

可以理解的是，录制视频需要一定的时间，而且，录制视频之后还要进行视频剪辑等等，从而导致不能在热门事件发生之后，很快的生成热门事件的视频，从而导致不能在热门事件发生之后尽快播报该热门事件的视频。

发明内容

本申请所要解决的技术问题是传统的生成热门事件的视频的方式，不能在热门事件发生之后，很快的生成热门事件的视频，从而导致不能在热门事件发生之后尽快播报该热门事件的视频，提供一种视频生成方法及装置。

第一方面，本申请实施例提供了一种视频生成方法，所述方法包括：

获取事件关键词对应的文字和与所述文字对应的图片；

将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

可选的，所述方法还包括：

按照预设规则获取素材；

从所述素材中提取候选关键词；

若所述候选关键词对应的搜索量和/或点击量符合预设条件，将所述候选关键词确定为所述事件关键词。

可选的，所述获取事件关键词对应的文字和所述文字对应的图片包括：

获取所述事件关键词对应的至少一组文字和每组文字分别对应的图片；

所述将所述事件关键词对应的文字转换为视频的语音包括：

将所述至少一组文字中的每组文字分别转换为对应的视频的语音；

所述将所述文字对应的图片转换为所述视频的视频帧包括：

确定所述至少一组文字中每组文字分别对应的视频的语音的播放时长；

根据所述播放时长，确定所述至少一组文字中每组文字对应的图片分别对应的视频帧。

可选的，所述将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频包括：

获取所述至少一组文字中每组文字对应的时间信息；

根据所述至少一组文字中每组文字对应的时间信息，将所述事件关键词对应的文字转换为视频的语音，并将所述文字的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

可选的，所述至少一组文字包括多组文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

根据所述多组文字之间的逻辑关系，将所述事件关键词对应的多组文字转换为视频的语音。

可选的，所述方法还包括：

获取与所述事件关键词对应的图片；

对所述事件关键词对应的图片进行识别，得到所述事件关键词对应的图片的图片内容；

确定所述事件关键词对应的图片的图片内容与所述文字之间的关联程度；

若所述关联程度大于或等于第一阈值，则将所述事件关键词对应的图片确定为所述文字对应的图片。

可选的，所述事件关键词对应的文字包括多组；

在获取事件关键词对应的多组文字之后，所述将所述事件关键词对应的文字转换为视频的语音包括：

确定所述多组文字中每组文字与所述事件关键词在内容上的关联程度；

所述将所述事件关键词对应的文字转换为视频的语音，包括：

将所述多组文字中对应关联程度大于或等于第二阈值的文字转换为视频的语音。

可选的，所述方法还包括：

确定所述文字中表示时间的词；

若所述表示时间的词不为预设格式，则获取所述文字的发表时间，并根据所述文字的发表时间确定符合所述预设格式的词，并将所述符合预设格式的词替换所述表示时间的词，得到替换后的文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

将所述替换后的文字转换为视频的语音。

可选的，所述方法还包括：

将所述事件关键词对应的文字转换为所述视频的字幕。

第二方面，本申请实施例提供了一种视频生成装置，所述装置包括：

第一获取单元，用于获取事件关键词对应的文字和与所述文字对应的图片；

生成单元，用于将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

可选的，所述装置还包括：

第二获取单元，用于按照预设规则获取素材；

提取单元，用于从所述素材中提取候选关键词；

第一确定单元，用于若所述候选关键词对应的搜索量和/或点击量符合预设条件，将所述候选关键词确定为所述事件关键词。

可选的，所述第一获取单元，具体用于：

所述生成单元，具体用于：

将所述至少一组文字中的每组文字分别转换为对应的视频的语音；确定所述至少一组文字中每组文字分别对应的视频的语音的播放时长；根据所述播放时长，确定所述至少一组文字中每组文字对应的图片分别对应的视频帧，以生成所述事件关键词对应的视频。

可选的，所述生成单元，具体用于：

获取所述至少一组文字中每组文字对应的时间信息；

可选的，所述至少一组文字包括多组文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

可选的，所述装置还包括：

第三获取单元，用于获取与所述事件关键词对应的图片；

识别单元，用于对所述事件关键词对应的图片进行识别，得到所述事件关键词对应的图片的图片内容；

第二确定单元，用于确定所述事件关键词对应的图片的图片内容与所述文字之间的关联程度；

第三确定单元，用于若所述关联程度大于或等于第一阈值，则将所述事件关键词对应的图片确定为所述文字对应的图片。

可选的，所述事件关键词对应的文字包括多组；

可选的，所述装置还包括：

第四确定单元，用于确定所述文字中表示时间的词；

替换单元，用于若所述表示时间的词不为预设格式，则获取所述文字的发表时间，并根据所述文字的发表时间确定符合所述预设格式的词，并将所述符合预设格式的词替换所述表示时间的词，得到替换后的文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

将所述替换后的文字转换为视频的语音。

可选的，所述装置还包括：

转换单元，用于将所述事件关键词对应的文字转换为所述视频的字幕。

第三方面，本申请实施例提供了一种视频生成设备，所述设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取事件关键词对应的文字和与所述文字对应的图片；

第四方面，本申请实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行以上第一方面任意一项所述的视频生成方法。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供了一种视频生成方法，具体地，考虑到在实际应用中，事件例如热门事件发生后，网络上往往会出现一些与该热门事件相关的图片和文字。因此，在本申请实施例中，可以获取与事件关键词对应的文字和该文字对应的图片，而后，将该事件关键词对应的文字转换为视频的语音，并将该文字对应的图片转换为所述视频的视频帧，从而生成与所述事件关键词对应的视频。也就是说，利用本申请实施例提供的方案，可以不必采用录制视频的方式生成与事件关键词例如热门事件关键词相关的视频，而是利用与事件关键词对应的文字和该文字对应的图片，生成与事件关键词对应的视频。而获取事件关键词对应的文字和该文字对应的图片、以及根据事件关键词对应的文字和该文字对应的图片生成事件关键词对应的视频等步骤所花费的时间比较短，相比录制视频而言，生成视频的效率更高。与传统技术相比，本申请实施例提供的方案，可以在热门事件发生之后很快生成与热门事件相关的视频。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频生成方法的流程示意图；

图2为本申请实施例提供的一种确定事件关键词的方法的流程示意图；

图3为本申请实施例提供的一种确定事件关键词的方法的流程示意图；

图4为本申请实施例提供的一种视频生成装置的结构示意图；

图5为本申请实施例提供的一种视频生成装置的结构示意图；

图6为本申请实施例提供的一种视频生成设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前的生成热门事件的视频的方式，大多是直接进行视频的录制。但是录制视频需要一定的时间，而且，录制视频之后还要进行视频剪辑等等，从而导致不能在热门事件发生之后，很快生成热门事件的视频。鉴于此，本申请实施例提供了一种视频生成方法及装置，能够在热门事件发生后很快生成与热门事件相关的视频。

下面结合附图，详细说明本申请的各种非限制性实施方式。

示例性方法

参见图1，该图为本申请实施例提供的一种视频生成方法的流程示意图。

本申请实施例提供的视频生成方法，可以由服务器执行，所述服务器可以为用于生成与事件关键词对应的视频的专用服务器，所述服务器也可以为还具备其它数据处理功能的服务器，本申请实施例不具体限定。

本申请实施例提供的视频生成方法，例如可以包括如下步骤S101-S102。

S101：获取事件关键词对应的文字和与所述文字对应的图片。

本申请实施例提及的事件关键词，可以为与热门事件相关的关键词，也可以为与其它事件例如待研究事件相关的关键词，本申请实施例不做具体限定。

在本申请实施例中，所述事件关键词可以包括若干个字符，所述字符例如可以为中文字符，也可以为英文字符，还可以为韩文字符等等，本申请实施例不做具体限定。可以理解的是，当所述字符为中文字符时，所述事件关键词可以包括若干个汉字，当所述字符为英文字符时，所述事件关键词可以包括若干个英文单词，当所述字符为韩文字符时，所述事件关键词可以包括若干个韩文文字。

本申请实施例不具体限定所述事件关键词所包括的字符的具体数目，所述事件关键词所包含的字符的具体数目，可以根据所述事件关键词对应的事件确定。需要说明的是，在本申请实施例中，可以通过网络获取事件关键词对应的文字和所述文字对应的图片。作为一种示例，可以以所述事件关键词为搜索关键词，利用网络爬虫爬取与事件关键词对应的文字和所述文字对应的图片。本申请实施例不具体限定所述网络爬虫爬取的范围，所述网络爬虫爬取的范围可以包括万维网，所述网络爬虫爬取的范围还可以包括相应的社交应用程序上发布的内容。本申请实施例不具体限定所述社交应用程序，所述社交应用程序例如可以为微博、论坛以及社区等等。

S102：将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

获取所述事件关键词对应的文字和所述文字对应的图片之后，可以利用该事件关键词对应的文字和所述文字对应的图片，生成所述事件关键词对应的视频。可以理解的是，视频包括语音和视频帧两部分，视频帧中包括图片。故而在本申请实施例中，可以将所述事件关键词对应的文字转换为视频的语音，将所述文字对应的图片转换为所述视频的视频帧，并合成所述视频帧和所述语音，从而得到所述事件关键词对应的视频。

本申请实施例不具体限定将事件关键词对应的文字转换为语音的具体实现方式，作为一种示例，可以利用相应的语音生成工具将该事件关键词对应的文字转换为语音。

本申请实施例不具体限定将所述文字对应的图片转换为所述视频的视频帧的实现方式，作为一种示例，可以根据前述转换得到的语音的播放时长，确定所述文字对应的图片在所述视频帧中出现的时长，从而将所述文字对应的图片转换为所述视频的视频帧。例如，所述语音的播放时长为5分钟，则可以确定所述文字对应的图片在所述视频帧中出现的时长为5分钟，进一步地将所述文字对应的图片转换为所述视频的视频帧。

通过以上描述可知，利用本申请实施例提供的视频生成方法，可以不必采用录制视频的方式生成与事件关键词例如热门事件关键词相关的视频，而是利用与事件关键词对应的文字和该文字对应的图片，生成与事件关键词对应的视频。而获取事件关键词对应的文字和该文字对应的图片、以及根据事件关键词对应的文字和该文字对应的图片生成事件关键词对应的视频等步骤所花费的时间比较短，相比录制视频而言，生成视频的效率更高。与传统技术相比，本申请实施例提供的方案，可以在热门事件发生之后很快生成与热门事件相关的视频。

而且，一般而言，S101获取的事件关键词对应的文字和所述文字对应的图片在内容上是相关的，因此，利用所述事件关键词对应的文字和所述文字对应的图片所生成的视频，视频帧在播放的过程中，会相应播放与所述视频帧中的图片相关的语音，视频帧与语音之间的相关性强，可以带来比较好的用户观看体验。

如前文所述，前述事件关键词可以是与热门事件相关的关键词。考虑到在实际应用中，为了能够在热门事件发生之后尽快播报该热门事件的视频，本申请实施例提供的方法，还可以自动确定所述事件关键词，以便于在事件发酵成热门事件之前，生成该热门事件对应的视频。从而使得能够在该事件发酵成为热门事件时，第一时间播放与该事件相关的视频。

参见图2，该图为本申请实施例提供的一种确定事件关键词的方法的流程示意图。本申请实施例提供的确定事件关键词的方法，例如可以通过如下步骤S201-S203实现。

S201：按照预设规则获取素材。

S202：从所述素材中提取候选关键词。

在本申请实施例中，考虑到实际应用中，许多网站以及应用程序都设置有热门事件专栏，而这些热门事件专栏所提及的事件，发酵成为热门事件的可能性比较高。鉴于此，在本申请实施例的一种实现方式中，S201在具体实现时，可以利用数据挖掘技术从预设网站的热门专栏和/或预设应用程序的热门专栏中获取素材。

获取到素材之后，可以将所述素材中与事件相关的关键词，确定为候选关键词。本申请实施例不具体限定确定候选关键词的具体实现方式，作为一种示例，考虑到一般而言，素材所涉及的内容中，标题与事件之间的联系程度是比较紧密的，因此，可以从所述素材的标题中，提取所述候选关键词。

S203：若所述候选关键词对应的搜索量和/或点击量符合预设条件，将所述候选关键词确定为所述事件关键词。

考虑到并非所有热门专栏提及的事件，都可能成为热门事件。在本申请实施例中，确定候选关键词之后，可以进一步从确定的候选关键词中确定出能够成为热门事件的可能性比较高的事件对应的候选关键词，即进一步从确定的候选关键词中确定出事件关键词。

可以理解的是，在实际应用中，用户对热门事件的关注度比较高。而用户对一个事件的关注度，可以通过用户对该事件对应的关键词的搜索量和点击量来体现。鉴于此，在本申请实施例中，可以通过候选关键词对应的搜索量和/或点击量，从所述候选关键词中确定出事件关键词。其中，一个候选关键词的搜索量，可以是用户在搜索引擎中搜索该候选关键词的量；一个候选关键词的点击量，可以是用户点击与该候选关键词对应的网页、以及在社交网站发布与该候选关键词的消息等的数量。

鉴于此，在本申请实施例中，若所述候选关键词对应的搜索量和/或点击量符合预设条件，则将所述候选关键词确定为所述事件关键词。在本申请实施例中，所述候选关键词对应的搜索量和/或点击量符合预设条件，表示用户对所述候选关键词对应的事件的关注度比较高。本申请实施例不具体限定所述候选关键词对应的搜索量和/或点击量符合预设条件，作为一种示例，所述候选关键词对应的搜索量和/或点击量符合预设条件，例如可以为所述候选关键词对应的搜索量和/或点击量大于或者等于预设阈值，关于所述预设阈值的具体取值，可以根据实际情况确定，本申请实施例不做具体限定。

如前文所述，可以通过网络获取事件关键词对应的文字和所述文字对应的图片。可以理解的是，利用网络获取事件关键词对应的文字和所述文字对应的图片时，可以获取到来自各种渠道的与所述关键词对应的文字和所述文字对应的图片。例如，可以获取到来自各新闻网站的与所述关键词对应的文字和所述文字对应的图片；也可以获取到各个社交应用程序上发布的与所述关键词对应的文字和所述文字对应的图片。鉴于此，在本申请实施例中，前述S101“获取事件关键词对应的文字和所述文字对应的图片”在具体实现时，可以为获取所述事件关键词对应的至少一组文字和每组文字分别对应的图片。

需要说明的是，在本申请实施例中，可以将从某一渠道获取到的与所述事件关键词对应的文字和图片，定义为一组所述事件关键词对应的文字和所述文字对应的图片。本申请实施例不具体限定所述渠道所涵盖的范围，作为一种示例，可以将一个网页定义为一个渠道；作为又一种示例，可以将一个网站定义为一个渠道；作为再一种示例，可以将一个在社交应用程序定义为一个渠道，等等。

当获取的事件关键词对应的文字与所述文字对应的图片，包括所述事件关键词对应的至少一组文字和每组文字分别对应的图片时，前述S102中“将所述事件关键词对应的文字转换为视频的语音”在具体实现时，可以将所述至少一组文字中的每组文字分别转换为对应的视频的语音。可以理解的是，在实际应用中，所述至少一组文字和每组文字分别对应的图片中，由于一组文字和该组文字对应的图片可能是从同一渠道例如同一网页获取的，因此，该一组文字和该组文字对应的图片之间的内容相关性是比较高的。鉴于此，在本申请实施例中，生成所述事件关键词对应的视频时，可以使得一组文字对应的语音和该组文字对应的图片对应的视频帧对应播放，从而使得所述视频的视频帧和所述视频的语音在内容具备比较高的相关性。具体地，前述S102中的“所述将所述文字对应的图片转换为所述视频的视频帧”在具体实现时，可以确定所述至少一组文字中每组文字分别对应的视频的语音的播放时长，而后，根据所述播放时长，确定所述至少一组文字中每组文字对应的图片分别对应的视频帧。举例说明，所述事件关键词对应的文字和所述文字对应的图片，包括3组文字和该3组文字分别对应的图片，具体地，第一组文字对应的语音的播放时长为第一时长，第二组文字对应的语音的播放时长为第二时长，第三组文字对应的语音的播放时长为第三时长。则可以确定第一组文字对应的图片对应的视频帧的播放时长为第一时长，进一步生成播放时长为第一时长的与第一组文字对应的语音对应的视频帧；确定第二组文字对应的图片对应的视频帧的播放时长为第二时长，进一步生成播放时长为第二时长的与第二组文字对应的语音对应的视频帧；确定第三组文字对应的图片对应的视频帧的播放时长为第三时长，进一步生成播放时长为第三时长的与第三组文字对应的语音对应的视频帧。

可以理解的是，在实际应用中，当前述事件关键词对应的文字和所述文字对应的图片，包括至少一组文字和每组文字分别对应的图片时，为了使得生成的与事件关键词对应的视频的语音在播放时，能够按照一定的时间顺序描述该事件发生的过程，故而在本申请实施例中，可以获取所述至少一组文字中每组文字对应的时间信息，并根据所述至少一组文字中每组文字对应的时间信息，将所述事件关键词对应的文字转换为视频的语音，并将所述文字的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

在本申请实施例中，获取所述至少一组文字中每组文字对应的时间信息，是为了按照时间顺序描述所述事件发生的过程。在本申请实施例中，考虑到所述至少一组文字中每组文字的发表信息，在一定程度上能够表示所述事件关键词对应的事件的发展顺序，故而所述至少一组文字中每组文字对应的时间信息，可以包括所述至少一组文字对应的发表时间。另外，考虑到所述至少一组文字中的每组文字，均可能是描述某一时间段内所述事件关键词对应的事件的信息，故而在本申请实施例的又一种实现方式中，所述至少一组文字中每组文字对应的时间信息，也可以包括所述至少一组文字中每组文字中所包括的描述时间的信息。

在本申请实施例中，获取所述至少一组文字中每组文字对应的时间信息之后，可以按照时间顺序对所述至少一组文字对应的语音进行排序，例如，按照所述每组文字对应的时间信息所描述的时间，按照时间从早到晚的顺序对所述至少一组文字对应的语音进行排序，并按照所述排列顺序，确定所述至少一组文组中每组文字对应的语音在所述视频中的播放顺序，从而使得所生成的视频能够按照所述事件关键词对应的事件的发展顺序，描述该事件发生的过程。

当然，在本申请实施例中，也可以按照其它顺序对所述至少一组文字对应的语音进行排序，例如按照所述每组文字对应的时间信息所描述的时间，按照时间从晚到早的顺序对所述至少一组文字对应的语音进行排序。进一步地，按照所述排列顺序，确定所述至少一组文组中每组文字对应的语音在所述视频中的播放顺序，从而使得所生成的视频能够以倒叙的方式，描述该事件发生的过程。

在本申请实施例的一种实现方式中，当所述事件关键词对应的文字包括多组文字时，为了使得最后生成的视频在播放的过程中，所述视频的语音的逻辑关系比较严谨，在本申请实施例的又一种实现方式中，可以根据所述多组文字之间的逻辑关系，将所述事件关键词对应的多组文字转换为视频的语音。本申请实施例中提及的文字之间的逻辑关系，例如可以包括从因到果、从主到次、从整体到部分、从概括到具体、从现象到本质以及从具体到一般中的任意一项或者多项。

在本申请实施例的一种实现方式中，可以对所述多组文字中的每组文字进行分析，提取所述多组文字中的每组文字中的体现逻辑关系的连接词，而后根据所述多组文字中每组文字中体现逻辑关系的连接词，确定所述多组文字之间的逻辑关系，而后，根据所述多组文字之间的逻辑关系，将所述事件关键词对应的多组文字转换为所述视频的语音，使得所述多组文字对应的语音在所述视频中的播放顺序，符合所述事件关键词对应的多组文字之间的逻辑关系。

举例说明，所述事件关键词对应的文字包括两组文字，其中，第一组文字和第二组文字之间的逻辑关系为从因到果之间的关系。故而在本申请实施例中，可以根据第一组文字和第二组文字之间的逻辑关系，将第一组文字转换为第一语音，将第二组文字转换为第二语音，第一语音和所述第二语音在所述视频中的播放顺序为先播放第一语音再播放第二语音。

在本申请实施例的又一种实现方式中，可以利用预先训练好的逻辑关系确定模型，确定所述多组文字之间的逻辑关系。具体地，可以将所述多组文字输入所述逻辑关系确定模型中，得到该逻辑关系确定模型的输出的结果。可以理解的是，该逻辑关系确定模型输入的结果，即为所述多组文字之间的逻辑关系。

需要说明的是，在本申请实施例中，所述逻辑关系确定模型，可以是基于训练文字和训练文字所携带的标签训练得到的，其中，训练文字可以包括多组文字，该训练文字的标签，用于表示所述训练文字中的多组文字之间的逻辑关系。本申请实施例不具体限定所述逻辑关系确定模型，作为一种示例，该逻辑关系确定模型，可以为深度学习模型，例如，该逻辑关系确定模型，可以为卷积神经网络(Convolutional Neural Networks，CNN)模型；又如，该逻辑关系确定模型，可以为循环神经网络(Recurrent Neural Network，RNN)模型；再如，该逻辑关系确定模型，可以为深度神经网络(Deep Neural Network，DNN)模型，等等。此处不再一一列举说明。

如前文所述，可以根据所述事件关键词对应的文字转换得到的语音的播放时长，将所述文字对应的图片转换为所述视频的视频帧。在本申请实施例的一种实现方式中，为了提升用户观看所述视频时的观看体验，一张图片不宜连续出现在多帧连续播放的视频帧中。鉴于此，在本申请实施例的一种实现方式中，若所述文字转换得到的语音对应的播放时时长，与所述文字对应的图片之间的比例，大于或者等于一定的比例阈值，则在一定程度上表示在前述语音的播放时长内，视频帧中包括的图片的数目比较少，即一张图片可能会出现在很多帧连续播放的视频帧中。例如，所述文字转换得到的语音对应的播放时长为120秒，而所述文字对应的图片为2张，则在该播放时长内，可能前60秒播放的视频帧中包括的图片均是第一张图片，后60秒播放的视频帧中包括的图片均是第二张图片。对于这种情况，在本申请实施例中，可以通过图3所示的步骤S301-S304新增所述事件关键词对应的文字对应的图片。图3为本申请实施例提供的一种确定事件关键词对应的文字对应的图片的方法的流程示意图。

S301：获取与所述事件关键词对应的图片。

需要说明的是，在本申请实施例中，可以通过网络获取与所述事件关键词对应的图片，例如可以以所述事件关键词为搜索关键词，搜索与所述事件关键词对应的图片，从而得到与所述事件关键词对应的图片。

S302：对所述事件关键词对应的图片进行识别，得到所述事件关键词对应的图片的图片内容。

需要说明的是，本申请实施例不具体限定对所述事件关键词对应的图片进行图片识别的具体实现方式，作为一种示例，可以提取所述事件关键词对应的图片的图片特征，根据提取的图片特征，确定所述事件关键词对应的图片的图片内容。

S303：确定所述事件关键词对应的图片的图片内容与所述事件关键词对应的文字之间的关联程度。

在本申请实施例中，不具体限定确定所述事件关键词对应的图片的图片内容与所述文字之间的关联程度的具体实现方式，作为一种示例，可以预先训练能够确定图片内容与所述事件关键词对应的文字之间的关联程度的模型，从而利用训练得到的模型，确定所述图片内容与所述事件关键词对应的文字之间的关联程度。在本申请实施例中，所述模型例如可以为卷积神经网络(Convolutional Neural Networks，CNN)模型。在本申请实施例中，例如可以根据携带有标签的图片内容和对应的文字，训练所述CNN模型，其中，所述标签用于表征所述图片内容与所述文字之间的关联程度。为了进一步提升训练得到的CNN模型用于确定前述图片内容与所述事件关键词对应的文字之间的关联程度的准确性，在训练所述CNN模型时，作为训练数据输入的图片内容例如还可以包括该图片的在获取到该图片的网页中的位置，图片的大小以及图片与获取到该图片的网页中的正文之间的位置关系等等。

S304：若所述关联程度大于或者等于第一阈值，则将所述事件关键词对应的图片确定为所述事件关键词对应的文字对应的图片。

需要说明的是，所述关联程度大于或者等于第一阈值，表示所述事件关键词对应的图片与所述事件关键词对应的文字之间的关联程度比较高，因此，可以将所述事件关键词对应的图片中，对应关联程度大于或者等于第一阈值的图片，确定为所述事件关键词对应的文字所对应的图片。本申请实施例不具体限定所述第一阈值，所述第一阈值的具体取值可以根据实际情况确定。

需要说明的是，在实际应用中，除了可以利用前述步骤S301-S304新增所述事件关键词对应的文字对应的图片之外，还可以采用其它方法新增所述事件关键词对应的文字对应的图片。例如，在一种可能的实现方式中，还可以识别出所述事件关键词对应的文字中的实体，而后获取与所述识别得到的实体相关的图片，并将获取到的与所述实体相关的图片确定为与所述事件关键词对应的文字对应的图片。本申请实施例不具体限定所述实体，所述实体例如可以包括人名以及事物名等等中的一项或者多项。本申请实施例不具体限定获取与所述识别得到的实体相关的图片的实现方式，作为一种示例，可以以所述识别得到的实体作为搜索关键词，搜索得到与所述识别得到的实体相关的图片。

如前文所述，可以通过网络获取事件关键词对应的文字，在本申请实施例中，考虑到当获取到所述事件关键词对应的文字包括多组时，该多组文字与所述事件关键词之间的关联程度可能存在差异，可能其中若干组文字与所述事件关键词之间的关联程度比较高，而另外的文字与所述事件关键词之间的关联程度比较低。在本申请实施例中，为了使得所生成的视频的语音与所述事件关键词之间的关联程度比较高，故而可以对获取的多组文字进一步进行筛选，最终将筛选得到的与所述事件关键词之间的关联程度比较高的文字转换为所述视频的语音。具体地，在本申请实施例中，可以确定所述多组文字中每组文字与所述事件关键词在内容上的关联程度，在将所述事件关键词对应的文字转换为所述视频的语音时，可以将所述多组文字中对应关联程度大于或者等于第二阈值的文字转换为视频的语音。

需要说明的是，在本申请实施例中，可以分别计算所述多组文字中每组文字与所述事件关键词之间的距离，根据所述距离确定所述多组文字中每组文字与所述事件关键词之间的关联程度。一般而言，一组文字与所述事件关键词之间距离越大，表示该组文字与所述事件关键词之间的关联程度越小。本申请实施例不具体限定计算一组文字与所述事件关键词之间的距离的具体实现方式，作为一种示例，可以确定所述事件关键词对应的词嵌入向量，并确定所述一组文字对应的词嵌入向量，计算所述事件关键词对应的词嵌入向量和该组文字对应的词嵌入向量之间的距离，得到该组文字与所述事件关键词之间的距离。

在本申请实施例中，一组文字与所述事件关键词之间的关联程度大于或者等于所述第二阈值，表示该组文字与所述事件关键词之间的关联程度比较高。本申请实施例不具体限定所述第二阈值的具体取值，所述第二阈值的具体取值，可以根据实际情况确定。

如前文所述，可以通过网络获取事件关键词对应的文字对应的图片，考虑到在实际应用中，所获取到的图片中，可能也包括一些与所述事件关键词对应的文字无关的图片，例如包括一些无关的广告图。鉴于此，在本申请实施例中，S101在获取到与所述事件关键词对应的文字对应的图片之后，可以进一步确定所获取到的图片的图片内容与所述事件关键词对应的文字之间的关联程度，若关联程度比较高，则将该图片确定为所述事件关键词对应的文字对应的图片。关于确定所获取到的图片的图片内容与所述事件关键词对应的文字之间的关联程度的具体实现，可以参考前文对于S303的描述部分，此处不再详述。

可以理解的是，在实际应用中，所述与事件关键词对应的文字中，可能包括表示时间的词，而这些表示时间的词中，可能一些词并不是用预设格式表示的，而是采用其它格式表示的。

本申请实施例不具体限定所述预设格式，所述预设格式例如可以为绝对时间格式，绝对时间格式例如可以为*年*月*日、*年*月*日上午、*年*月*日下午、*年*月*日*时*分、*月*日、*月*日上午、*月*日下午以及*月*日*时*分等等。本申请实施例也不具体限定其它格式，所述其它格式例如可以为相对时间格式。所述相对时间格式例如可以为“今天上午”、“昨天上午”、“昨天下午3时”以及“今天15时30分”等等。

可以理解的是，若所述事件关键词对应的文字中，包括不是用预设格式表示时间的词，则在播放所述视频时，可能会存在一些错误。因为利用本申请实施例提供的方案生成的视频的发布时间，可能与所述事件关键词对应的文字的发布时间不一致，因此，若对所述事件关键词对应的文字转换为视频的语音时，未考虑这些不是用预设格式例如绝对时间格式来描述时间的词，则可能会引入一些错误。故而在本申请实施例中，若所述表示时间的词不为预设格式，还可以获取所述事件关键词对应的文字的发表时间，根据所述事件关键词对应的文字的发表时间，确定与所述表示时间的词对应的符合预设格式的词，并将所述符合预设格式的词替换所述不符合预设格式的表示时间的词，得到替换后的文字。相应的，在将所述事件关键词对应的文字转换为视频的语音时，可以将所述替换后的文字转换为所述视频的语音，从而避免由于表示时间的词不是预设格式，而引入相应的错误。

举例说明，所述事件关键词对应的文字中，包括“今天上午11时”这样不是采用预设格式描述时间的词，则可以获取所述事件关键词对应的文字的发表时间，获取到所述事件关键词对应的发表时间为2019年6月3号之后，可以根据所述事件关键词对应的发表时间，将描述时间的词“今天上午11时”，转换为“2019年6月3号上午11时”，并利用“2019年6月3号上午11时”替换所述事件关键词对应的文字中的“今天上午11时”，进一步地，将所述替换后的所述事件关键词对应的文字转换为所述视频的语音。

可以理解的是，在实际应用中，用户在观看视频时，可能不方便听语音。例如，用户在乘车过程中，环境噪声太大，视频语音听不清楚。为了使得用户在不方便听语音的场景中也能正常观看视频，在本申请实施例的一种实现方式中，还可以将所述事件关键词对应的文字转换为所述视频的字幕，在播放所述视频时，可以同步显示所述字幕，从而使得用户可以通过字幕了解所述视频帧所显示的具体内容。

需要说明的是，在本申请实施例中，所述字幕体现的内容可以与前述所述视频的语音完全对应，即在播放所述视频时，语音和语音对应的字幕同步播放。当然，所述字幕所体现的内容也可以与所述视频的语音不完全对应，只要所述字幕是根据所述事件关键词对应的文字确定的即可。可以理解的是，若所述字幕所体现的内容也可以与所述视频的语音不完全对应，当用户不方便听语音时，可以根据所述字幕了解所述视频帧所显示的具体内容。当用户方便听语音时，可以根据所述语音和所述字幕了解所述视频帧所显示的内容，而由于字幕所体现的内容也可以与所述视频的语音不完全对应，故而用户可以了解更多所述视频帧所显示的内容。

示例性设备

基于以上实施例提供的方法，本申请实施例还提供了一种视频生成装置，以下结合附图介绍该装置。

参见图4，该图为本申请实施例提供的一种视频生成装置的结构示意图。

图4所述的视频生成装置400，例如可以具体包括：第一获取单元401和生成单元402。

第一获取单元401，用于获取事件关键词对应的文字和与所述文字对应的图片；

生成单元402，用于将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频。

可选的，所述装置还包括：

第二获取单元，用于按照预设规则获取素材；

提取单元，用于从所述素材中提取候选关键词；

可选的，所述第一获取单元401，具体用于：

所述生成单元402，具体用于：

可选的，所述生成单元402，具体用于：

获取所述至少一组文字中每组文字对应的时间信息；

可选的，所述至少一组文字包括多组文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

可选的，所述装置还包括：

第三获取单元，用于获取与所述事件关键词对应的图片；

可选的，所述事件关键词对应的文字包括多组；

可选的，所述装置还包括：

第四确定单元，用于确定所述文字中表示时间的词；

所述将所述事件关键词对应的文字转换为视频的语音包括：

将所述替换后的文字转换为视频的语音。

可选的，所述装置还包括：

由于所述装置400是与以上方法实施例提供的方法对应的装置，所述装置400的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置400的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。

通过以上描述可知，利用本申请实施例提供的视频生成装置，可以不必采用录制视频的方式生成与事件关键词例如热门事件关键词相关的视频，而是利用与事件关键词对应的文字和该文字对应的图片，生成与事件关键词对应的视频。而获取事件关键词对应的文字和该文字对应的图片、以及根据事件关键词对应的文字和该文字对应的图片生成事件关键词对应的视频等步骤所花费的时间比较短，相比录制视频而言，生成视频的效率更高。与传统技术相比，本申请实施例提供的方案，可以在热门事件发生之后很快生成与热门事件相关的视频。

图5是根据一示例性实施例示出的一种视频生成装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或5G，或它们的组合。在一个示例性实施例中，通信部件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明实施例中视频生成设备的结构示意图。该视频生成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视频生成设备中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在视频生成设备600上执行存储介质630中的一系列指令操作。

视频生成设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作***661，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频生成设备的处理器执行时，使得视频生成设备能够执行一种视频生成方法，所述方法包括：

获取事件关键词对应的文字和与所述文字对应的图片；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取事件关键词对应的文字和与所述文字对应的图片；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照预设规则获取素材；

从所述素材中提取候选关键词；

3.根据权利要求1所述的方法，其特征在于，所述获取事件关键词对应的文字和所述文字对应的图片包括：

所述将所述事件关键词对应的文字转换为视频的语音包括：

所述将所述文字对应的图片转换为所述视频的视频帧包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述事件关键词对应的文字转换为视频的语音，并将所述文字对应的图片转换为所述视频的视频帧，以生成所述事件关键词对应的视频包括：

获取所述至少一组文字中每组文字对应的时间信息；

5.根据权利要求3所述的方法，其特征在于，所述至少一组文字包括多组文字；

所述将所述事件关键词对应的文字转换为视频的语音包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述事件关键词对应的图片；

7.根据权利要求1所述的方法，其特征在于，所述事件关键词对应的文字包括多组；

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种视频生成设备，其特征在于，所述设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取事件关键词对应的文字和与所述文字对应的图片；

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任意一项所述的视频生成方法。