CN114666663A

CN114666663A - 用于生成视频的方法和装置

Info

Publication number: CN114666663A
Application number: CN202210358798.1A
Authority: CN
Inventors: �田�浩; 卢大明; 陈曦; 王健宇
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-06-24
Also published as: CN111798879A; US20200320307A1; CN111798879B; US10885344B2; JP2020174342A; JP6967059B2

Abstract

本申请实施例公开了用于生成视频的方法和装置。该方法的一具体实施方式包括：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；生成与所述解说词中的每个段落对应的语音；基于所述目标新闻簇包括的视频和图像，确定与所述解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与所述解说词中的每个段落对应的候选素材资源序列；以及按照所述解说词中各段落从前到后的顺序，将与各段落对应的语音和视频分别连接起来得到第一音频和第一视频，分别作为与所述解说词对应的视频中的音频和视频部分，其中，段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频。

Description

用于生成视频的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于生成视频的方法和装置。

背景技术

随着网络技术的发展，世界各地的各类新闻可以通过各种媒体发布给用户。对于同一个新闻事件，各种媒体(例如新闻类网站或者新闻类应用)会编辑出不同的新闻，不同媒体发出的新闻的侧重点会存在一定的差异，但是报道同一新闻事件的各个新闻中也会存在或多或少的重合信息。

对于用户来说，可能需要阅读多篇新闻报道才能从中提取出自己想要的信息，这就会导致用户的获取新闻的效率较低。为了帮助用户提高新闻获取的效率，可以对同一新闻事件的多篇新闻进行聚合，去除多篇新闻中的冗余信息，提取针对新闻事件的解说词。

发明内容

本申请实施例提出了用于生成视频的方法和装置。

第一方面，本申请实施例提供了一种用于生成视频的方法，该方法包括：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

第二方面，本申请实施例提供了一种用于生成视频的装置，该装置包括：解说词确定单元，被配置成确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；语音生成单元，被配置成利用语音合成技术，生成与解说词中的每个段落对应的语音；素材资源集合确定单元，被配置成基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；素材资源序列确定单元，被配置成确定与解说词中的每个段落对应的候选素材资源序列；视频生成单元，被配置成基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

第三方面，本申请实施例提供了一种服务器，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。

第五方面，本申请实施例提供了另一种服务器，包括：接口；存储器，其上存储有一个或多个程序；以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

为了提高用户获取新闻的效率，现有技术中往往会为新闻簇生成解说词，用户需要阅读文字形式的解说词来获取新闻摘要，没有为解说词生成对应的视频。而本申请实施例提供的用于生成视频的方法和装置，通过首先确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；然后，利用语音合成技术，生成与解说词中的每个段落对应的语音；再基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；接着，确定与解说词中的每个段落对应的候选素材资源序列；最后，基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频，实现了为目标新闻簇生成解说词和解说词对应的视频。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性***架构图；

图2A是根据本申请的用于生成视频的方法的一个实施例的流程图；

图2B是根据本申请的步骤201的一个实施例的分解流程图；

图2C是根据本申请的步骤2012的一个实施例的分解流程图；

图2D是根据本申请的步骤203的一个实施例的分解流程图；

图2E是根据本申请的步骤2033的一个实施例的分解流程图；

图2F是根据本申请的步骤204的一个实施例的分解流程图；

图2G是根据本申请的步骤2041的一个实施例的分解流程图；

图2H是根据本申请的步骤20412的一个实施例的分解流程图；

图2I是根据本申请的步骤205的一个实施例的分解流程图；

图2J是根据本申请的步骤205的又一个实施例的分解流程图；

图3是根据本申请的用于生成视频的方法的一个应用场景的示意图；

图4A是根据本申请的用于生成视频的方法的又一个实施例的流程图；

图4B是根据本申请的步骤401的一个实施例的分解流程图；

图5是根据本申请的强化学习网络训练步骤的一个实施例的分解流程图；

图6是根据本申请的用于生成视频的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的服务器的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于生成视频的方法或用于生成视频的装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的新闻类网站提供支持的后台网站服务器。后台网站服务器可以对接收到的新闻类页面请求等数据进行分析等处理，并将处理结果(例如新闻类网页页面数据)反馈给终端设备。

需要说明的是，本申请实施例所提供的用于生成视频的方法一般由服务器105执行，相应地，用于生成视频的装置一般设置于服务器105中。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供新闻网页页面服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2A，其示出了根据本申请的用于生成视频的方法的一个实施例的流程200。该用于生成视频的方法，包括以下步骤：

步骤201，确定目标新闻簇的解说词。

在本实施例中，用于生成视频的方法的执行主体(例如图1所示的服务器)可以首先本地或者远程地从与上述执行主体网络连接的电子设备获取目标新闻簇。这里，目标新闻簇由针对同一新闻事件的至少一个新闻组成。

这里，新闻事件是指最近第三预设时长内(例如，三个月之内)发生的事件。

这里，新闻可以是各种形式的针对新闻事件的电子数据，且新闻均可以对应标记有对应的生成时间。新闻可以包括以下至少一项：文本、图像、音频和视频。例如，新闻可以是网页，新闻也可以是各种文档，文档中可以包括以下至少一项：文本、图像、音频和视频。新闻还可以仅仅是文本、图像或者视频。

实践中，所获取的新闻可以标记有对应的新闻事件。这样，上述执行主体可以首先获取最近第一预设时长内(例如，一天之内)所生成的新闻，然后将所获取的至少一个新闻按照对应的新闻事件的不同组成不同的新闻簇。

可以理解的是，当所获取的新闻没有标记对应的新闻事件时，上述执行主体可以首先获取最近第一预设时长内(例如，一天之内)所生成的新闻，然后对所获取的新闻采用各种实现方式进行聚类，将聚类到同一类别的新闻组成一个新闻簇，不同聚类的新闻属于不同的新闻簇，继而可以得到至少一个新闻簇。例如，实践中，新闻一般都会有新闻标题，上述执行主体可以对所获取的各个新闻的新闻标题进行聚类，将新闻标题的聚类作为该新闻标题对应的新闻的聚类。

然后，上述执行主体(例如图1所示的服务器)可以采用各种实现方式确定目标新闻簇的解说词。其中，上述解说词可以包括至少一个段落。

在本实施例的一些可选的实现方式中，步骤201可以包括如图2B所示的步骤2011到步骤2012。请参考图2B，其示出了根据本申请的步骤201的一个实施例的分解流程图：

步骤2011，对于目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分。

这里，上述执行主体可以采用各种实现方式，对于目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分。

在一些实现方式中，步骤2011可以如下进行：

首先，提取该新闻在至少一种特征下的特征值。

例如，至少一种特征可以包括但不限于以下特征：新闻所包括的文字字数、新闻所包括的不同词语的词语数量、新闻所包括的图像数量、新闻所包括的视频数量、新闻被阅读的次数、新闻被转发的次数、目标新闻簇中各个新闻所包括的文字字数之和、目标新闻簇中各个新闻所包括的不同词语的词语数量之和、目标新闻簇中各个新闻所包括的图像数量之和、目标新闻簇中各个新闻所包括的视频数量之和、目标新闻簇中各个新闻被阅读的次数之和、目标新闻簇中各个新闻被转发的次数之和。

其次，基于所提取的至少一种特征值，确定该新闻的适合生成解说词的得分。

这里，可以采用各种实现方式基于上述所提取的至少一种特征值，确定该新闻的适合生成解说词的得分。

例如，可以将上述所提取的至少一种特征值，按照为每种特征预先设定的权重进行加权求和，并将加权求和的结果确定为该新闻的适合生成解说词的得分。

又例如，还可以首先确定以下比值：

(1)新闻所包括的文字字数与目标新闻簇中各个新闻所包括的文字字数之和的比值；

(2)新闻所包括的不同词语的词语数量与目标新闻簇中各个新闻所包括的不同词语的词语数量之和的比值；

(3)新闻所包括的图像数量与目标新闻簇中各个新闻所包括的图像数量之和的比值；

(4)新闻所包括的视频数量与目标新闻簇中各个新闻所包括的视频数量之和的比值；

(5)新闻被阅读的次数与目标新闻簇中各个新闻被阅读的次数之和的比值；

(6)新闻被转发的次数与目标新闻簇中各个新闻被转发的次数之和的比值。

然后，可以将上述所确定的每个比值，按照为该比值预先确定的权重进行加权求和，并将加权求和的结果确定为该新闻的适合生成解说词的得分。

在一些实现方式中，步骤2011也可以如下进行：

将该新闻所包括的文本输入预先训练的得分计算模型，得到该新闻的适合生成解说词的得分。

这里，得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。

作为示例，得分计算模型可以是技术人员基于大量的对文本进行特征提取所得到的特征向量和该文本适合生成解说词的得分标注结果的统计而预先制定的、存储有多个特征向量与适合生成解说词的得分的对应关系的对应关系表；也可以是技术人员基于对大量数据的统计而预先设置并存储至上述电子设备中的、对文本进行特征提取所得到的特征向量中的一个或多个数值进行数值计算以得到用于表征该文本适合生成解说词的得分的计算公式。

在一些实现方式中，上述电子设备可以预先按照以下得分计算模型训练步骤训练得到得分计算模型：

首先，可以获取第一训练样本集。

这里，第一训练样本可以包括历史新闻所包括的文本和历史新闻对应的适合生成解说词的标注得分。例如，可以通过人工针对历史新闻标注适合生成解说词的标注得分。

其次，可以确定初始得分计算模型的模型结构以及初始化初始得分计算模型的模型参数。

这里，得分计算模型训练步骤的执行主体可以与用于生成视频的方法的执行主体相同或者不同。如果相同，则得分计算模型训练步骤的执行主体可以在训练得到得分计算模型后将训练好的得分计算模型的模型结构信息和模型参数的参数值存储在本地。如果不同，则得分计算模型训练步骤的执行主体可以在训练得到得分计算模型后将训练好的得分计算模型的模型结构信息和模型参数的参数值发送给用于生成视频的方法的执行主体。

这里，由于得分计算模型可以包括各种类型的计算模型，对于不同类型的计算模型，所需要确定的模型结构信息也不相同。

可选地，初始得分计算模型可以包括卷积神经网络。由于卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成，则这里需要确定卷积神经网络类型的初始特征提取模型包括哪些层(例如，卷积层，池化层，激励函数层等等)，层与层之间的连接顺序关系，以及每个层都包括哪些参数(例如，权重weight、偏置bias、卷积的步长)等等。其中，卷积层可以用于提取特征。针对每个卷积层可以确定有多少个卷积核，每个卷积核的大小，每个卷积核中的各个神经元的权重，每个卷积核对应的偏置项，相邻两次卷积之间的步长，是否需要填充，填充多少像素点和填充用的数值(一般是填充为0)等等。而池化层可以用于对输入的信息进行下采样(Down Sample)，以压缩数据和参数的量，减少过拟合。针对每个池化层可以确定该池化层的池化方法(例如，取区域平均值或者取区域最大值)。激励函数层用于对输入的信息进行非线性计算。针对每个激励函数层可以确定具体的激励函数。例如，激活函数可以是ReLU以及ReLU各种变种激活函数、Sigmoid函数、Tanh(双曲正切)函数、Maxout函数等等。

然后，可以初始化初始得分计算模型的模型参数。实践中，可以将初始得分计算模型的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权重过大而进入饱和状态，从而导致训练失败，“不同”用来保证模型可以正常地学习。

接着，可以将第一训练样本集中的第一训练样本中的历史新闻所包括的文本和历史新闻对应的适合生成解说词的得分分别作为初始得分计算模型的输入和期望输出，利用机器学习方法训练初始得分计算模型。

具体地，可以首先将第一训练样本集中的第一训练样本中的历史新闻所包括的文本输入初始得分计算模型，得到历史新闻所包括的文本对应的得分。然后，可以计算所得到的得分与该第一训练样本中的标注得分之间的差异。最后，可以基于计算所得的差异，调整初始得分计算模型的模型参数，并在满足预设的第一训练结束条件的情况下，结束训练。例如，这里预设的第一训练结束条件可以包括以下至少一项：训练时间超过第四预设时长，训练次数超过第一预设次数，计算所得的差异小于第一预设差异阈值。

这里，可以采用各种实现方式基于所得到的得分与该第一训练样本中的标注得分之间的差异调整初始得分计算模型的模型参数。例如，可以采用随机梯度下降(SGD，Stochastic Gradient Descent)、牛顿法(Newton's Method)、拟牛顿法(Quasi-NewtonMethods)、共轭梯度法(Conjugate Gradient)、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。

最后，可以将训练得到的初始得分计算模型确定为预先训练的得分计算模型。

步骤2012，基于目标新闻，生成目标新闻簇的解说词。

在步骤2011已经确定了目标新闻簇中的每个新闻的适合生成解说词的得分，这里，上述执行主体可以首先将目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻。然后，可以采用各种实现方式，基于目标新闻，生成目标新闻簇的解说词。

在一些实现方式中，步骤2012可以如下进行：对目标新闻所包括的文本进行摘要提取，并将摘要提取所得到的摘要文本确定为目标新闻簇的解说词。

在一些实现方式中，步骤2012也可以包括如图2C所示的步骤20121到步骤20124。请参考图2C，其示出了根据本申请的步骤2012的一个实施例的分解流程图：

步骤20121，将目标新闻中所包括的文本确定为目标文本。

这里，上述执行主体可以首先将目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻。然后，可以将目标新闻中所包括的文本确定为目标文本。

步骤20122，删除目标文本中所包括的不适合解说文本。

这里，上述执行主体可以删除目标文本中所包括的不适合解说文本。其中，不适合解说文本可以为预先确定的不适合解说文本集合中的文本。实践中，不适合解说文本集合可以是技术人员基于对大量历史新闻中所提取的不适合解说的文本(例如，“本报记者讯”，“请看上图”，“请看下图”，“来自前方记者的报道”，“来自前方记者的重大新闻”，“前方记者发来报道”，“新闻记者采访了现场观众”等)的统计而预先制定的文本集合。

经过步骤20122，可以减少目标文本中的无效信息，继而可以增加最后所生成的解说词的有效信息内容比例。

步骤20123，将目标文本中所包括的书面语替换为相同语义的口语。

这里，上述执行主体可以采用各种实现方式将目标文本中所包括的书面语替换为相同语义的口语。这里，上述书面语和口语可以分别为预先确定的书面语和口语对应关系表中的书面语和对应的口语。实践中，上述书面语和口语对应关系表可以是由技术人员基于对大量语料中所提取的书面语和对应相同语义的口语的统计而预先制定的对应关系表。

经过步骤20123，目标文本中的书面语被替换为口语，可以使得目标文本更适合解说使用。

步骤20124，将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词。

在一些实现方式中，上述执行主体可以直接将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词。

在一些实现方式中，步骤20124也可以如下进行：

首先，按照预设最快语速和预设最长音频时长确定解说词最多字数。

这里，预设最快语速用于表征如果要为解说词生成对应的语音，那么所生成的语音单位时间(例如，1秒)内所包括的最多字数。

这里，预设最长音频时长用于表征如果要为解说词生成对应的语音，那么所生成的语音的最长播放时长。例如，如果要为解说词生成对应的短视频，那么预设最长音频时长可以为90秒。

这里，预设最快语速和预设最长视频时长可以是由技术人员预先确定的，当然也可以提供修改预设最快语速和预设最长视频时长的界面，以对预设最快语速和预设最长视频时长进行修改。

有了预设最快语速和预设最长音频时长，即可以将预设最快语速和预设最长音频时长的乘积确定为解说词最多字数。

其次，对目标文本进行摘要提取。

这里，可以采用各种实现方式对目标文本进行摘要提取，且所提取的摘要文本的字数少于所确定的解说词最多字数。

最后，将所提取的摘要文本确定为目标新闻簇的解说词。

这里，可以将所提取的字数少于解说词最多字数的摘要文本确定为目标新闻簇的解说词。

按照上述实现方式确定的解说词的字数可以满足预设最快语速和预设最长音频时长的要求。

需要说明的是，对文本进行摘要提取是目前广泛研究和应用的现有技术，在此不再赘述。

采用图2C所示的可选实现方式实现的步骤2012，可以使得目标新闻所包括的文本减少不适合解说的文本比例，继而增加适合解说的文本比例，以及通过将书面语替换为口语，目标新闻所包括的文本更适合生成符合人类讲话习惯的解说词。

步骤202，利用语音合成技术，生成与解说词中的每个段落对应的语音。

这里，上述执行主体可以利用语音合成技术，生成与目标新闻簇的解说词中的每个段落对应的语音。

需要说明的是，语音合成技术是目前广泛研究和应用的现有技术，在此不再赘述。

步骤203，基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合。

在本实施例中，上述执行主体可以采用各种实现方式，基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合。

在本实施例的一些可选的实现方式中，步骤203可以如下进行：将目标新闻簇所包括的视频和图像确定为与解说词对应的候选素材资源集合。

在本实施例的一些可选的实现方式中，步骤203也可以包括如图2D所示的步骤2031到步骤2033。请参考图2D，其示出了根据本申请的步骤203的一个实施例的分解流程图：

步骤2031，将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合。

步骤2032，将目标新闻簇所包括的各个图像确定为目标图像集合。

步骤2033，基于目标视频集合和目标图像集合，确定与解说词对应的候选素材资源集合。

这里，候选素材资源可以为视频或图像。

在一些实现方式中，步骤2033可以包括如图2E所示的步骤20331到步骤20333。请参考图2E，其示出了根据本申请的步骤2033的一个实施例的分解流程图：

步骤20331，对于目标视频集合中的每个目标视频，将该目标视频输入预先训练的生动视频检测模型，得到与该目标视频对应的生动视频检测结果。

需要说明的是，上述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系。这里，生动视频检测模型可以通过如下生动视频检测模型训练步骤预先训练得到的：

首先，可以获取第二训练样本集。

这里，生动视频检测模型训练步骤的执行主体可以与用于生成视频的方法的执行主体相同或者不同。如果相同，则生动视频检测模型训练步骤的执行主体可以在训练得到生动视频检测模型后将训练好的生动视频检测模型的模型结构信息和模型参数的参数值存储在本地。如果不同，则生动视频检测模型训练步骤的执行主体可以在训练得到生动视频检测模型后将训练好的生动视频检测模型的模型结构信息和模型参数的参数值发送给用于生成视频的方法的执行主体。

这里，第二训练样本可以包括历史新闻视频和用于表征历史视频是否是生动视频的标注结果。实践中，可以通过人工针对历史新闻视频是否是生动视频的标注结果。

这里，所谓生动视频即为用户感兴趣并希望观看的视频，而非生动视频为用户不感兴趣并不希望观看的视频。

例如，对于主持人坐在演播室中说道：“今天是2019年2月1日，星期五”这个视频频段可以标注为非生动视频，对于某国家领导人走下飞机并会见另外一个国家的领导人的视频片段可以标注为生动视频等等。

其次，可以确定初始生动视频检测模型的模型结构以及初始化生动视频检测模型的模型参数。

这里，由于生动视频检测模型可以包括各种类型的模型，对于不同类型的模型，所需要确定的模型结构信息也不相同。

可选地，初始生动视频检测模型可以包括神经网络，则这里需要确定初始生动视频检测模型哪些层(例如，卷积层，池化层，激励函数层等等)，层与层之间的连接顺序关系，以及每个层都包括哪些参数(例如，权重weight、偏置bias、卷积的步长)等等。

然后，可以初始化初始生动视频检测模型的模型参数。实践中，可以将初始生动视频检测模型的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权重过大而进入饱和状态，从而导致训练失败，“不同”用来保证模型可以正常地学习。

接着，可以将第二训练样本集中的第二训练样本中的历史新闻视频和历史新闻视频对应的标注结果分别作为初始生动视频检测模型的输入和期望输出，利用机器学习方法训练初始生动视频检测模型。

具体地，可以首先将第二训练样本集中的第二训练样本中的历史新闻视频输入初始生动视频检测模型，得到历史新闻视频是否是生动视频的实际生动视频检测结果。然后，可以计算所得到的实际生动视频检测结果与该第二训练样本中的标注结果之间的差异。最后，可以基于计算所得的差异，调整初始生动视频检测模型的模型参数，并在满足预设的第二训练结束条件的情况下，结束训练。例如，这里预设的第二训练结束条件可以包括以下至少一项：训练时间超过第五预设时长，训练次数超过第二预设次数，计算所得的差异小于第二预设差异阈值。

这里，可以采用各种实现方式基于计算所得到的实际生动视频检测结果与该训练样本中的标注结果之间的差异调整初始生动视频检测模型的模型参数。例如，可以采用随机梯度下降、牛顿法、拟牛顿法、共轭梯度法、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。

最后，可以将训练得到的初始生动视频检测模型确定为预先训练的生动视频检测模型。

步骤20332，将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除。

即，这里删除了目标视频集合中的非生动视频，保留了目标视频集合中的生动视频。

步骤20333，合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。

按照图2E所示的实现方式所得到的候选素材资源集合中的视频中去掉了非生动视频，保留了生动视频。由于候选素材资源集合中素材资源数量减少了，可以减少后续在确定与解说词中的每个段落对应的候选素材序列所需要的计算机的资源(例如CPU资源、存储资源和I/O资源)消耗。

在一些实现方式中，上述执行主体还可以在执行步骤20333之前执行以下步骤20334：

步骤20334，将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。

这里，对于目标视频集合中播放时长小于预设最短候选视频时长的视频，该视频所体现的内容太少，那么该视频可能没有存在价值，需要将该视频从目标视频集合中删除，以减少候选素材资源集合中素材资源数量，可以减少后续在确定与解说词中的每个段落对应的候选素材序列所需要的计算机的资源(例如CPU资源、存储资源和I/O资源)消耗。

在本实施例的一些可选的实现方式中，步骤203还可以如下进行：

首先，将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合。

其次，将目标新闻簇所包括的各个图像确定为目标图像集合。

接着，将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。

最后，合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。

步骤204，确定与解说词中的每个段落对应的候选素材资源序列。

在本实施例中，上述执行主体可以采用各种实现方式，对于解说词中的每个段落，从步骤203所确定的候选素材资源集合中选取候选素材资源生成与该段落对应的候选素材资源序列。

在本实施例的一些可选的实现方式中，步骤204可以包括如图2F所示的步骤2041到步骤2042。请参考图2F，其示出了根据本申请的步骤204的一个实施例的分解流程图：

步骤2041，对于解说词中的每个段落，确定该段落与候选素材资源集合中每个候选素材资源的匹配度。

这里，上述执行主体可以采用各种实现方式，对于解说词中的每个段落，确定该段落与候选素材资源集合中每个候选素材资源的匹配度。

具体地，由于候选素材资源可以为视频或图像，这里可以采用各种计算文本与视频之间匹配度的方法计算解说词中的每个段落与候选素材资源集合中的视频之间的匹配度，以及可以采用各种计算文本与图像之间匹配度的方法计算解说词中的每个段落与候选素材资源集合中的图像之间的匹配度，本申请对此不做具体限定。

在本实施例的一些可选的实现方式中，步骤2041可以包括如图2G所示的步骤20411到步骤20413。请参看图2G，其示出了根据本申请的步骤2041的一个实施例的分解流程图：

步骤20411，对于解说词中的每个段落，确定与该段落对应的语义向量。

这里，可以采用各种实现方式确定段落对应的语义向量，即将段落表示成向量形式以便于计算。

例如，可以采用词袋模型来生成段落对应的语义向量。具体而言，设V是词袋模型中词典所包括的词语数目，那么，对于段落P而言，设P中所包括的词典中第1个词到第V个词的数目分别为x₁到x_V，那么段落P对应的向量即为{x₁，x₂，…，x_V}。

又例如，还可以对段落进行分词处理，得到段落对应的分词序列，再对所得到的分词序列中的每个分词，在预先确定的词向量表中查询与该分词对应的词向量，然后再根据所得到的分词序列中的每个分词对应的词向量确定与该段落对应的语义向量。例如，可以将所得到的分词序列中的各个分词对应的词向量的均值向量确定为该段落对应的语义向量。又例如，还可以将所得到的分词序列中的各个分词对应的词向量的各维取值的中间值所对应的向量确定为该段落对应的语义向量。这里，词向量表用于表征词和词向量之间的对应关系。词向量表可以是预先训练得到的。例如，可以采用基于统计的方法或者基于语言模型的方法训练得到词向量表。

例如，基于统计的方法可以是共现矩阵法，其通过统计一个事先指定大小的窗口内的词语共现次数，以词语周边的共现词的次数做为当前词语的词向量。具体来说，可以通过从大量的语料文本中构建共现矩阵来定义该语料文本中所出现的词语中每个词语对应的词向量，继而得到词向量表。

又例如，基于统计的方法也可以是奇异值分解法。由于共现矩阵法存在高维和稀疏性的问题，奇异值分解法就是对共现矩阵法得到的矩阵，进行奇异值分解，得到矩阵正交矩阵，再对正交矩阵进行归一化即得到矩阵来定义该语料文本中所出现的词语中每个词语对应的词向量，继而得到词向量表。

基于语言模型生成词向量表是通过训练神经网络语言模型(NNLM，NeuralNetwork Language Model)，词向量表作为语言模型的附带产出。NNLM背后的基本思想是对出现在上下文环境里的词进行预测，这种对上下文环境的预测本质上也是一种对共现统计特征的学习。作为示例，采用NNLM生成词向量的方法可以包括但不限于以下各种方法：Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等。

步骤20412，对于候选素材资源集合中的每个候选素材资源，确定与该候选素材资源对应的语义向量。

这里，可以采用各种实现方式确定与候选素材资源对应的语义向量。

在一些实现方式中，步骤20412可以包括如图2H所示的步骤204121到步骤204123。请参考图2H，其示出了根据本申请的步骤20412的一个实施例的分解流程图：

步骤204121，确定该候选素材资源为图像还是视频。

如果确定该候选素材资源为图像，则转到步骤204122。

如果确定该候选素材资源为视频，则转到步骤204122’。

步骤204122，对该图像候选素材资源进行语义分割，得到该图像候选素材资源对应的至少一个语义标注结果。

这里，可以在步骤204121中确定该候选素材资源为图像的情况下，采用各种实现方式对该图像候选素材资源进行语义分割，得到该图像候选素材资源对应的至少一个语义标注结果，其中，每个语义标注结果可以是一个词语或者短语。例如，如果该图像候选素材资源是一张描述一只狮子在草原上追逐羚羊的图像，那么，对该图像进行语义分割所得到的至少一个语义标注结果可以为{“狮子”，“草原”，“羚羊”}。

需要说明的是，如何对图像进行语义分割是目前广泛研究和应用的现有技术，在此不再赘述。

步骤204123，根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量。

步骤204122中已经得到了至少一个语义标注结果，这里，可以首先确定步骤204122中所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量。然后，可以根据至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量，例如可以采用均值向量或者中值向量的方法。

这里，确定每个语义标注结果对应的词向量的方法可以参考步骤20411中的相关描述。

经过步骤204123，就完成了步骤20412。

步骤204122’，对该视频候选素材资源进行下采样，得到至少一个样本图像。

这里，可以在步骤204121中确定该候选素材资源为视频的情况下，采用各种实现方式对该视频候选素材资源进行下采样，得到至少一个样本图像。例如，可以在该候选素材资源中每隔第一预设数目(例如，10)帧图像采样第二预设数目(例如，1)帧图像，得到至少一个样本图像。

步骤204123’，对于至少一个样本图像中的每个样本图像，对该样本图像进行语义分割，得到该样本图像对应的至少一个语义标注结果，以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量。

这里，步骤204123’中对每个样本图像进行语义分割，以及对每个样本图像，根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量的具体操作与步骤204123描述的相应具体操作基本相同，在此不再赘述。

步骤204124’，根据各样本图像对应的语义向量，确定与该候选素材资源对应的语义向量。

由于已经在步骤204123’中得到了每个样本图像对应的语义向量，这里可以根据步骤204123’所得到的各样本图像对应的语义向量，确定与该候选素材资源对应的语义向量。例如，可以将各样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。又例如，也可以将将各样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。

经过步骤204124’，就完成了步骤20412。

步骤20413，将解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度，确定为相应段落与相应候选素材资源之间的匹配度。

这里，可以采用各种计算向量与向量之间的相似度的方法计算解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度。例如，可以通过计算向量之间的欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦相似度、汉明距离、杰卡德距离、杰卡德相似系数、相关系数、相关距离和信息熵等，确定向量之间的相似度。

步骤2042，基于解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度，确定与解说词中的每个段落对应的候选素材资源序列。

这里，上述执行主体可以采用各种实现方式基于步骤2041中所确定的解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度，确定与解说词中的每个段落对应的候选素材资源序列。其中，图片的播放时长为预设图片播放时长。

需要说明的是，这里，视频类型的候选素材资源的播放时长是视频类型的候选素材资源的固有属性，是不变的。而对于图像类型的候选素材资源，这里，可以将每个图像类型的候选素材资源的播放时长设定为固定不变的预设图片播放时长(例如，3秒钟)。这样所有的候选素材资源都可以具有固定的播放时长属性。

在一些实现方式中，步骤2042可以如下进行：

对于解说词中的每个段落，利用第一预设优化算法，以与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与该段落对应的候选素材资源序列与该段落的匹配度最大为优化目标，确定与该段落对应的候选素材资源序列。

即，分别对于解说词中的每个段落，从步骤203中所确定的候选素材资源集合中选取顺序排列的候选素材资源组成与该段落对应的候选素材资源序列，而且所选取的与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长。

这里，候选素材资源序列的播放时长是候选素材资源序列中各候选素材资源的播放时长之和。而段落对应的播放时长是由段落中的字数以及预设语速所确定的。例如，设预设语速为每秒钟N个字，段落中的字数为M个字，则段落对应的播放时长为L秒，其中，L为M除以N所得到的比值。

这里，第一预设优化算法可以是各种可以解决带有约束条件和优化目标的优化算法。例如，第一预设优化算法可以包括但不限于：动态规划算法和路径最短优化算法。

在一些实现方式中，步骤2042也可以如下进行：

利用第二预设优化算法，以与解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标，确定与解说词中各段落对应的候选素材资源序列。

相比于上述可选实现方式，这里的优化目标与上述可选实现方式的优化目标不同。上述可选实现方式中分别对每个段落进行优化，以每个段落与该段落对应的候选素材资源序列的匹配度最大为优化目标。而这里的可选实现方式则对解说词中的各个段落总体进行优化，以解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标。

这里，第二预设优化算法也可以是各种可以解决带有约束条件和优化目标的优化算法。例如，第二预设优化算法可以包括但不限于：动态规划算法和路径最短优化算法。

在一些实现方式中，步骤2042中所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源可以互不相同。这样，在后续为解说词生成对应的视频中不会出现重复的图像或者视频，可以增加所生成的视频的可读性和生动性。可以理解的是，如果步骤2042中所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同，那么对于上述两种可选实现方式中的约束条件中需要加入所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同这个约束条件。

步骤205，基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

在本实施例中，上述执行主体可以基于与解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

在一些实现方式中，步骤205可以如下进行：

首先，可以按照解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第一音频。

其次，可以按照解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第一视频。

这里，段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频。

最后，将所得到的第一音频和第一视频分别确定为与解说词对应的视频中的音频部分和视频部分。

在一些实现方式中，步骤205也可以包括如图2I所示的步骤2051到步骤2056。请参考图2I，其示出了根据本申请的步骤205的一个实施例的分解流程图：

步骤2051，对于解说词中的每个段落，将该段落输入预先训练的视频提前播放时间确定模型，得到与该段落对应的视频提前播放时长。

这里，视频提前播放时长确定模型用于表征文本和文本对应的视频提前播放时长之间的对应关系。

实践中，人工剪辑的新闻视频中通常都是在主持人讲话之前，视频已经开始播放一小段时间。为了使得针对解说词生成的视频更符合人类观看习惯，更像人工剪辑的新闻视频，可以预先基于大量的第三训练样本训练视频提前播放时间确定模型，这里第三训练样本可以包括样本新闻视频中所包括的文本和该样本新闻视频中视频先于解说词语音的标注时长。训练视频提前播放时间确定模型的步骤可以与上述训练得分计算模型的步骤或者训练生动视频检测模型的步骤基本相同，在此不再赘述。

步骤2052，对于解说词中除最后一个段落以外的每个段落，按照该段落在解说词中从前到后的顺序，执行段落视频剪辑步骤。

这里，段落视频剪辑步骤可以包括以下操作：

第一，将该段落的下一个段落对应的视频提前播放时长确定为视频剪除时长。

第二，顺序连接与该段落对应的候选素材资源序列中的各候选素材资源，得到与该段落对应的视频。

第三，将与该段落对应的视频尾部剪除视频剪除时长的视频。

即，该方案是采用将解说词中除第一个段落以外的每个段落，将该段落对应的视频提前播放，并覆盖掉该段落的前一个段落的视频的尾部，而视频提前播放和视频覆盖的时长就是步骤2051中所确定的该段落对应的视频提前播放时长。

步骤2053，顺序连接解说词中的最后一个段落对应的候选素材资源序列中的各候选素材资源，得到与最后一段段落对应的视频。

步骤2054，按照解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第二视频。

步骤2055，按照解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第二音频。

步骤2056，将所得到的第二音频和第二视频分别确定为与解说词对应的视频中的音频和视频部分。

在本实施例的一些可选实现方式中，步骤205也可以包括如图2J所示的步骤2051’到步骤2055’。请参考图2J，其示出了根据本申请的步骤205的又一个实施例的分解流程图：

步骤2051’，对于解说词中的每个段落，将该段落输入预先训练的视频提前播放时间确定模型，得到与该段落对应的视频提前播放时长。

这里，步骤2051’的具体操作与步骤2051的操作基本相同，在此不再赘述。

步骤2052’，对于解说词中除最后一个段落以外的每个段落，按照该段落在解说词中从前到后的顺序，执行段落音频延长步骤。

这里，段落音频延长步骤可以包括以下操作：

第一，将该段落的下一个段落对应的视频提前播放时长确定为音频延长时长。

第二，将与该段落对应的语音尾部添加所确定的音频延长时长的无声播放时长。

即，该方案是采用将解说词中除第一个段落以外的每个段落，将该段落对应的视频提前播放，并在该段落的前一个段落的音频的尾部增加无声播放时长，而视频提前播放和音频延长的时长就是步骤2051’中所确定的该段落对应的视频提前播放时长。

步骤2053’，按照解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第三音频。

步骤2054’，按照解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第三视频。

步骤2055’，将所得到的第三音频和第三视频分别确定为与解说词对应的视频中的音频和视频部分。

继续参见图3，图3是根据本实施例的用于生成视频的方法的应用场景的一个示意图。在图3的应用场景中，对新闻类网站提供支持的服务器301可以首先确定目标新闻簇302的解说词303；然后，服务器301可以利用语音合成技术，生成与解说词303中的每个段落对应的语音304；接着，服务器301可以基于目标新闻簇302包括的视频和图像，确定与解说词对应的候选素材资源集合305；而后，服务器301可以确定与解说词303中的每个段落对应的候选素材资源序列306；最后，服务器301可以基于解说词303中的每个段落对应的语音304和候选素材资源序列306，生成与解说词对应的视频307。

本申请的上述实施例提供的方法通过首先确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；然后，利用语音合成技术，生成与解说词中的每个段落对应的语音；再基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；接着，确定与解说词中的每个段落对应的候选素材资源序列；最后，基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。从而实现了为目标新闻簇生成带有解说词的视频。

进一步参考图4A，其示出了用于生成视频的方法的又一个实施例的流程400。该用于生成视频的方法的流程400，包括以下步骤：

步骤401，确定目标新闻簇。

在本实施例中，用于生成视频的方法的执行主体(例如图1所示的服务器)可以采用各种实现方式确定目标新闻簇，其中，目标新闻簇由针对同一新闻事件的至少一个新闻组成。

在本实施例的一些可选的实现方式中，步骤401可以包括如图4B所示的步骤4011到步骤4012。请参考图4B，其示出了根据本申请的步骤401的一个实施例的分解流程图：

步骤4011，获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇。

这里，上述执行主体(例如图1所示的服务器)可以本地或者远程地从与上述执行主体网络连接的电子设备获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇，其中，每个新闻簇中的各个新闻针对同一个新闻事件，不同新闻簇所针对的新闻事件不同。

步骤4012，基于至少一个新闻簇确定目标新闻簇。

这里，上述执行主体(例如图1所示的服务器)可以采用各种实现方式基于至少一个新闻簇确定目标新闻簇。

这里，目标新闻簇可以是一个新闻簇，也可以是至少两个新闻簇。

当目标新闻簇为一个新闻簇时，上述执行主体可以将所确定的一个新闻簇作为目标新闻簇执行后续步骤402到步骤408。

当所确定的目标新闻簇为至少两个新闻簇时，上述执行主体可以将所确定的至少两个新闻簇中每个新闻簇分别作为目标新闻簇执行步骤402到步骤408。即，假设所确定的目标新闻簇为N个新闻簇，N为大于等2的正整数，那么上述执行主体可以对于所确定的N个新闻簇中的每个新闻簇，均以该新闻簇作为目标新闻簇执行步骤402到步骤408。

在一些实现方式中，步骤4012可以如下进行：

首先，将步骤4011所确定的至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序。

这里，第二预设时长可以与第一预设时长相同，也可以与第一预设时长不同。

其次，将至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为目标新闻簇。

这里，预设排序范围可以是各种形式的。例如，预设排序范围可以是比例或者百分比形式。作为示例，预设排序范围可以是前10％到前20％之间。又例如，排序范围还可以是排序序号范围。作为示例，预设排序范围可以是排序序号的前10名到前20名之间。

实践中，按照预设排序范围所确定的目标新闻簇可以去掉至少一个新闻簇中的最近第二预设时长内生成的新闻数目最多的以及最少的新闻簇，即目标新闻簇针对的不是最热的新闻事件也不是最冷的新闻事件，而是中等热度的新闻事件。对于最火的新闻事件，由于大多数人都已经知道这件新闻事件，用户阅读为最火的新闻事件所生成的解说词和解说词对应的视频的概率会比较低，因此，不为最火的新闻事件对应的新闻簇生成解说词和解说词对应的视频，可以减少资源(例如CPU资源、存储资源和I/O资源)消耗。反之，对于最冷的新闻事件，表明大家对这个新闻事件没有兴趣，基本没有人知道这件新闻事件，即使为最冷的新闻事件生成解说词和解说词对应的视频，用户也会不感兴趣，继而用户阅读为最冷的新闻事件所生成的解说词和解说词对应的视频的概率也会比较低，因此，不为最冷的新闻事件对应的新闻簇生成解说词和解说词对应的视频，也可以减少资源(例如CPU资源、存储资源和I/O资源)消耗。可以理解的是，这里的最热的新闻事件或者最冷的新闻事件可以是至少一个新闻事件。

在一些实现方式中，步骤4012还可以如下进行：

将至少一个新闻簇中的每个优质新闻簇确定为目标新闻簇。

这里，优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。例如，预设最少图像数目和预设最少视频数目可以为5。

这里，预设最少图像数目和预设最少视频数目可以是由技术人员根据对大量历史新闻的统计分析而预先设定的数目。预设最少图像数目和预设最少视频数目也可以根据需要被重新设定。

实践中，如果新闻簇中的新闻所包括的图像数目比较多且所包括的视频的数目也比较多，表明该新闻簇比较生动有趣，容易引起用户的阅读兴趣，为这样的新闻簇生成解说词和解说词对应的视频也会引起用户的兴趣，继而增加用户阅读为优质新闻簇生成的解说词和解说词对应的视频的概率。因此，只为优质新闻簇的新闻簇生成解说词和解说词对应的视频，可以减少资源(例如CPU资源、存储资源和I/O资源)消耗。

在一些实现方式中，步骤4012也可以如下进行：

首先，对于至少一个新闻簇中的每个新闻簇，基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度。

这里，可以采用各种实现方式确定新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度。这里，新闻簇对应的新闻事件主题表征了新闻簇中的各个新闻所表达的语义。实践中，新闻事件主题可以包括至少一个词语或短语，而所确定的新闻事件主题的当前出现频度是指所确定的新闻事件主题在该新闻簇的各个新闻中的出现频度。

例如，可以通过使用LDA(文档主题生成模型，Latent Dirichlet Allocation)，基于步骤4011中所确定的该新闻簇中的各个新闻，确定该新闻簇中的各个新闻对应的新闻事件主题，并将所确定的新闻事件主题的概率分布值确定为所确定的新闻事件主题的当前出现频度。

其次，确定至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值。

这里，该新闻事件的历史出现频度可以是基于历史新闻中与该新闻簇对应的新闻事件主题相同的历史新闻而确定的。

最后，将至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为目标新闻簇。

这里，如果新闻簇对应的新闻事件主题的频度差值大于预设频度差值阈值，表明该新闻簇对应的新闻事件本来是不突出的，但受到了突然的关注，那么该新闻簇就应该被重视起来，为这样的新闻簇生成解说词和解说词对应的视频可以会有更多的用户阅读。

需要说明的是，上述执行主体还可以结合使用上述第一种、第二种以及第三种可选实现方式中的至少两种实现方式来确定目标新闻簇。

步骤402，确定目标新闻簇的解说词。

步骤403，利用语音合成技术，生成与解说词中的每个段落对应的语音。

步骤404，基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合。

步骤405，确定与解说词中的每个段落对应的候选素材资源序列。

在本实施例中，步骤402、步骤403、步骤404和步骤405的具体操作与图2A所示的实施例中步骤201、步骤202、步骤203和步骤204的操作基本相同，在此不再赘述。

步骤406，对于解说词中的每个段落，执行单色素材资源检测步骤。

在本实施例中，上述执行主体可以对于解说词中的每个段落，执行以下单色素材资源检测步骤：对于与该段落对应的候选素材资源序列中的每个素材资源，响应于确定该素材资源为视频且该视频素材资源中存在单色图像帧，将该素材资源中的单色图像帧删除；响应于确定该素材资源为图像且该图像素材资源为单色图像，将该素材资源从与该段落对应的候选素材资源序列中删除。

这里，单色图像或者单色图像帧中存在一种像素值，单色图像或者单色图像帧的各个像素点中像素值为该像素值的像素点的数目与单色图像或者单色图像帧的所包括的像素点数目的比值超过预设比值，例如，预设比值可以为0.8。例如，黑色图像中所有像素点的像素值均用于表示黑色。

实践中，由于单色图像或者单色图像帧所携带的信息有限或者不携带信息，那么保留单色图像或者单色图像帧，后续所生成的解说词对应的视频将基本不会携带有用信息，为此需要将单色图像或者单色图像帧删除。

步骤407，对于解说词中的每个段落，执行对齐检测步骤。

在本实施例中，由于步骤406中可能删除了解说词中段落对应的候选素材资源序列中的单色图像或者单色图像帧，那么可能造成解说词中段落对应的语音的时长比该段落对应的候选素材序列的播放时长要长，为此，上述执行主体可以执行以下对齐检测步骤。其中，对齐检测步骤可以包括以下操作：响应于确定该段落对应的语音的播放时长大于该段落对应的候选素材资源序列的播放时长，延长该段落对应的候选素材资源序列中图像类型的候选素材资源的播放时长，或者从候选素材资源集合中选取候选素材资源添加到该段落对应的候选素材资源序列中，以使得该段落对应的语音的播放时长等于该段落对应的候选素材资源序列的播放时长。

经过步骤407，对于解说词中的每个段落，该段落对应的语音的播放时长均等于该段落对应的候选素材资源序列的播放时长。

步骤408，基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

在本实施例中，步骤408的具体操作与图2A所示的实施例中步骤205的操作基本相同，在此不再赘述。

步骤409，将与解说词对应的视频发送给终端设备。

在本实施例中，上述执行主体可以将步骤408中所生成的与解说词对应的视频发送给终端设备。这里，终端设备可以是与上述执行主体网络连接的电子设备。这样，上述终端设备可以响应于接收到上述执行主体发送的视频，呈现所收到的视频，继而实现了在终端设备上呈现目标新闻簇的解说词对应的视频。用户在终端设备上通过收看到所呈现的目标新闻簇的解说词对应的视频，就可以快速了解目标新闻簇所针对的新闻事件，而不需用户通过阅读文字来了解目标新闻簇所针对的新闻事件，提高了用户获取新闻事件信息的效率。

在本实施例的一些可选的实现方式中，上述执行主体还可以在执行步骤409之后，执行以下步骤410到步骤415：

步骤410，获取从确定目标新闻簇的解说词到生成与解说词对应的视频过程中的至少一个参数的当前取值。

即，这里上述执行主体需要获取步骤401到步骤408的执行过程中所涉及的至少一个参数的当前取值。例如，至少一个参数可以包括以下至少一项：第一预设时长，第二预设时长,第三预设时长，预设最快语速，预设最长音频时长，预设最长视频时长，预设最短候选视频时长，第一预设优化算法，第二预设优化算法，预设图像播放时长，预设排序范围，预设最少图像数目，预设最少视频数目，预设频度差值阈值，预设比值。

步骤411，确定与解说词对应的视频的视频评价分数。

这里，上述执行主体可以采用各种实现方式确定与解说词对应的视频的视频评价分数。这里，与解说词对应的视频的视频评价分数反映了用户对与解说词对应的视频的各方面进行评价的综合分数，例如，视频评价分数可以反映以下至少一项：用户是否愿意观看该视频、所生成的视频与解说词的匹配程度，所生成的视频与人工剪辑的视频的匹配程度，所生成的视频与新闻簇所针对的新闻事件的匹配程度。

在一些实现方式中，可以在上述执行主体或者与上述执行主体网络连接的其他电子设备(例如，图1所示的终端设备)上为用户提供针对按照至少一个参数的当前取值生成的与目标新闻簇的解说词对应的视频进行评价的用户界面。然后上述执行主体可以本地或者远程地从上述电子设备接收用户在上述用户界面上针对按照至少一个参数的当前取值生成的与目标新闻簇的解说词对应的视频输入的评价分数。这样，上述执行主体可以获取至少一个用户观看按照至少一个参数的当前取值生成的与解说词对应的视频的视频评价分数，再将所获取的各视频评价分数的均值确定为簇按照至少一个参数的当前取值生成的与解说词对应的视频的视频的视频评价分数。

在一些实现方式中，步骤411也可以如下进行：

首先，获取至少一个用户观看与解说词对应的视频的观看行为信息。其中，观看行为信息用于表征用户观看与解说词对应的视频的过程中的各种行为。

在一些实现方式中，观看行为信息可以包括以下至少一项：视频标识、用户标识、用户画像信息、是否打开视频标识、视频观看总时长、关闭视频时的视频播放时间。其中，视频标识用于唯一指示按照至少一个参数的当前取值生成的与解说词对应的视频。用户标识用于唯一指示观看按照至少一个参数的当前取值生成的与解说词对应的视频的用户。用户画像信息用于描述用户的各种相关信息。例如，用户画像信息可以包括但不限于用户的性别、年龄、兴趣爱好、出生地、工作地点、生活地点、职业、消费习惯、生活习惯等等。是否打开视频标识用于指示用户标识所指示的用户是否打开了视频标识所指示的视频。视频观看总时长用于指示用户标识所指示的用户观看视频标识所指示的视频的总时长。关闭视频时的视频播放时间用于指示用户标识所指示的用户关闭视频标识所指示的视频时该视频的当前播放时间。

然后，对于所获取的每个观看行为信息，确定与该观看行为信息对应的视频评价分数。

这里，可以采用各种实现方式对于所获取的每个观看行为信息，确定与该观看行为信息对应的视频评价分数。

在一些实现方式中，可以为观看行为信息所包括的视频评价有关的每一项预设对应的权重，然后计算观看行为信息中与视频评价有关的每一项的取值和对应权重的加权求和结果，并将加权求和结果确定为该观看行为信息对应的视频评价分数。例如，当是否打开视频标识为0表示用户没有打开视频，当是否打开视频标识为1表示用户打开了视频，可以设置与是否打开视频标识对应的权重使得是否打开视频标识与视频评价分数正相关。又例如，也可以设置与视频观看总时长对应的权重使得视频观看总时长与视频评价分数正相关，还可以设置与关闭视频时的视频播放时间对应的权重使得关闭视频时的视频播放时间与视频评价分数正相关。又例如，当观看行为信息可以包括是否转发标识、是否点赞标识等用于表明用户喜欢该视频继而作出了相应的喜欢该视频的操作时，也可类似于是否打开视频标识一样，当是否转发标识为0表示用户没有转发视频，当是否转发标识为1表示用户转发了视频，可以设置与是否转发标识对应的权重使得是否转发标识与视频评价分数正相关。同样的操作也可以应用于是否点赞标识，在此不再赘述。

在一些实现方式中，还可以将视频观看总时长与视频标识所指示的视频的总时长的比值确定为与该观看行为信息对应的视频评价分数。

最后，将所确定的各个视频评价分数的平均值确定为按照至少一个参数的当前取值生成的与解说词对应的视频的视频评价分数。

步骤412，对至少一个参数的当前取值进行特征提取，得到特征表示。

这里，上述执行主体可以采用各种实现方式对至少一个参数的当前取值进行特征提取，得到特征表示。这里，特征表示可以是各种形式的，例如特征表示可以是向量形式的，即特征向量。实践中，特征表示相对于至少一个参数的当前取值呈现维数更低以及可计算的特点。

可以理解的是，由于从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频过程中的所涉及的参数不同，相应的对至少一个参数的当前取值进行特征提取的方法也可以不同。例如，可以采用主成分分析(Principal Component Analysis，PCA)、独立分量分析(Independent Component Analysis，ICA)和线性判别分析(LinearDiscriminant Analysis，LDA)等方法进行特征提取。

步骤413，将特征表示和所确定的视频评价分数输入预先训练的评价网络，得到预测视频评价分数。

这里，评价网络可以为人工神经网络(Artificial Neural Network，ANN)。需要说明的是，上述评价网络用于表征特征表示和视频评价分数与预测视频评价分数之间的对应关系。

步骤414，将特征表示和预测视频评价分数输入预先训练的行动网络，得到当前行动信息。

这里，上述行动网络也可以为人工神经网络。需要说明的是，上述行动网络用于表征特征表示和视频评价分数二者与行动信息之间的对应关系，这里，行动信息用于指示如何调整从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频过程中的至少一个参数的当前取值。

在一些实现方式中，上述行动网络和评价网络可以是通过强化学习网络训练步骤预先训练得到的。请参考图5，图5示出了根据本申请的预先训练行动网络和评价网络的强化学习网络训练步骤的一个实施例的流程500。该强化学习网络训练步骤可以包括以下步骤501到步骤505：

步骤501，确定初始行动网络的网络结构以及初始化初始行动网络的网络参数。

这里，强化学习网络训练步骤的执行主体可以与用于生成视频的方法的执行主体相同或者不同。如果相同，则强化学习网络训练步骤的执行主体可以在训练得到行动网络和评价网络后将训练好的行动网络和评价网络的网络结构信息和网络参数的参数值存储在本地。如果不同，则强化学习网络训练步骤的执行主体可以在训练得到行动网络和评价网络后将训练好的行动网络和评价网络的网络结构信息和网络参数的参数值发送给用于生成视频的方法的执行主体。

这里，强化学习网络训练步骤的执行主体可以首先确定初始行动网络的网络结构。这里，初始行动网络可以为人工神经网络，则这里可以确定初始行动网络包括哪些层，层与层之间的连接顺序关系，以及每层都包括哪些神经元，每个神经元对应的权重和偏置，每层的激活函数等等。可以理解的是，初始行动网络可以包括各种类型的神经网络，对于不同类型的神经网络所需要确定的网络结构也不相同。

然后，强化学习网络训练步骤的执行主体可以初始化初始行动网络的网络参数。实践中，可以将初始行动网络的各个网络参数(例如，权重参数和偏置参数)用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权重过大而进入饱和状态，从而导致训练失败，“不同”用来保证网络可以正常地学习。

步骤502，确定初始评价网络的网络结构以及初始化初始评价网络的网络参数。

这里，强化学习网络训练步骤的执行主体可以首先确定初始评价网络的网络结构。然后，强化学习网络训练步骤的执行主体可以初始化初始评价网络的网络参数。

这里，初始评价网络也可以为人工神经网络，关于如何确定人工神经网络的网络结构和初始化人工神经网络的网络参数可以参考步骤501中的相关说明，在此不再赘述。

步骤503，初始化至少一个参数的当前取值。

这里，强化学习网络训练步骤的执行主体可以对从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频过程中的至少一个参数的当前取值进行初始化。

步骤504，执行参数调整步骤直到满足第三预设训练结束条件。

这里，强化学习网络训练步骤的执行主体可以执行参数调整步骤直到满足第三预设训练结束条件，而参数调整步骤可以包括子步骤5041到子步骤5046：

子步骤5041，对至少一个参数的当前取值进行特征提取，得到样本特征表示。

子步骤5042，获取与至少一个参数的当前取值对应的标注视频评价分数。

这里，强化学习网络训练步骤的执行主体可以本地或者远程地从与强化学习网络训练步骤的执行主体网络连接的其他电子设备获取与至少一个参数的当前取值对应的标注视频评价分数。这里，与至少一个参数的当前取值对应的标注视频评价分数可以是由人工在观看按照至少一个参数的当前取值生成的目标新闻簇的解说词对应的视频之后，对所观看的视频进行标注的视频评价分数。

子步骤5043，将样本特征表示和标注视频评价分数输入初始评价网络，得到样本预测视频评价分数。

这里，可以将子步骤5041中所得到的样本特征表示和子步骤5042中所得到的标注视频评价分数输入初始评价网络，得到样本预测视频评价分数。

子步骤5044，将样本特征表示和样本预测视频评价分数输入初始行动网络，得到预测行动信息。

这里，可以将子步骤5041中所得到的样本特征表示和子步骤5043中所得到的样本预测视频评价分数输入初始行动网络，得到预测行动信息。

子步骤5045，根据预测行动信息调整至少一个参数的当前取值。

这里，由于行动信息用于指示如何调整从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频的过程中的至少一个参数的当前取值，则这里可以根据子步骤5044中所得到的预测行动信息，调整至少一个参数的当前取值。

子步骤5046，根据样本预测视频评价分数和所获取的标注视频评价分数之间的差异调整评价网络的网络参数，以及以最大化所获取的标注视频评价分数为优化目标，调整行动网络的网络参数。

这里，可以采用各种实现方式根据样本预测视频评价分数和所获取的标注视频评价分数之间的差异调整评价网络的网络参数，以及以最大化所获取的标注视频评价分数为优化目标，调整行动网络的网络参数。

例如，可以采用随机梯度下降、牛顿法、拟牛顿法、共轭梯度法、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。

例如，这里第三预设训练结束条件可以包括以下至少一项：训练时间超过第六预设时长，训练次数超过第三预设次数，样本预测视频评价分数和所获取的标注视频评价分数之间的差异小于第三预设差异阈值。

步骤505，将初始行动网络和初始评价网络分别确定为预先训练的行动网络和评价网络。

按照上述步骤501到步骤505，可以训练得到行动网络和评价网络。

经过步骤414，就得到了当前行动信息。

步骤415，根据当前行动信息，调整至少一个参数的当前取值。

由于行动信息用于指示如何调整从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频过程中的至少一个参数的当前取值，那么步骤414中所得到的当前行动信息中也包括了如何调整从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频过程中的至少一个参数的当前取值的信息，则这里上述执行主体可以采用各种实现方式，根据当前行动信息，调整至少一个参数的当前取值。例如，当前行动信息可以指示将某个参数的当前取值增加多少数值，减少多少数值，乘以一个系数，或者直接设置成多少等等。

在执行完步骤415后，上述执行主体可以转到步骤401继续执行，按照调整后的至少一个参数的参数值，重新执行从确定目标新闻簇的解说词到生成与目标新闻簇的解说词对应的视频的过程。而由于已经在步骤415中对至少一个参数的参数值进行了调整，调整后的参数相对于调整前更加优化了，而由行动网络和评价网络的优化目标可以指导，按照调整后的参数所生成的目标新闻簇的解说词对应的视频的视频评价分数相对于按照调整前的参数所生成的目标新闻簇的解说词对应的视频的视频评价分数会更高。

从图4A中可以看出，与图2A对应的实施例相比，本实施例中的用于生成视频的方法的流程400多出了确定目标新闻簇，单色素材资源检测，对齐检测，以及将与解说词对应的视频发送给终端设备的步骤。由此，本实施例描述的方案可以在终端设备呈现所收到的目标新闻簇对应的视频。用户在终端设备上收看到所呈现的目标新闻簇的解说词对应的视频，就可以快速了解目标新闻簇所针对的新闻事件，而不需用户通过阅读文字来了解目标新闻簇所针对的新闻事件，提高了用户通过终端设备获取新闻事件的效率，也就是扩展了终端设备的呈现信息的功能。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于生成视频的装置的一个实施例，该装置实施例与图2A所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于生成视频的装置600包括：解说词确定单元601、语音生成单元602、素材资源集合确定单元603、素材资源序列确定单元604和视频生成单元605。其中，解说词确定单元601，被配置成确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；语音生成单元602，被配置成利用语音合成技术，生成与上述解说词中的每个段落对应的语音；素材资源集合确定单元603，被配置成基于上述目标新闻簇包括的视频和图像，确定与上述解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；素材资源序列确定单元604，被配置成确定与上述解说词中的每个段落对应的候选素材资源序列；视频生成单元605，被配置成基于上述解说词中的每个段落对应的语音和候选素材资源序列，生成与上述解说词对应的视频。

在本实施例中，用于生成视频的装置600的解说词确定单元601、语音生成单元602、素材资源集合确定单元603、素材资源序列确定单元604和视频生成单元605的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203、步骤204和步骤205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：目标新闻簇确定单元(图中未示出)，被配置成在确定目标新闻簇的解说词之前，确定目标新闻簇。

在本实施例的一些可选的实现方式中，上述目标新闻簇确定单元(图中未示出)可以包括：新闻簇获取模块(图中未示出)，被配置成获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇；目标新闻簇确定模块(图中未示出)，被配置成基于上述至少一个新闻簇确定上述目标新闻簇。

在本实施例的一些可选的实现方式中，上述目标新闻簇确定模块(图中未示出)可以进一步被配置成：将上述至少一个新闻簇中的每个新闻簇确定为上述目标新闻簇。

在本实施例的一些可选的实现方式中，上述目标新闻簇确定模块(图中未示出)也可以进一步被配置成：将上述至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序；将上述至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为上述目标新闻簇。

在本实施例的一些可选的实现方式中，上述目标新闻簇确定模块(图中未示出)还可以进一步被配置成：将上述至少一个新闻簇中的每个优质新闻簇确定为上述目标新闻簇，其中，优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。

在本实施例的一些可选的实现方式中，上述目标新闻簇确定模块(图中未示出)还可以进一步被配置成：对于上述至少一个新闻簇中的每个新闻簇，基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度；确定上述至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值；将上述至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为上述目标新闻簇。

在本实施例的一些可选的实现方式中，上述解说词确定单元601可以包括：得分确定模块(图中未示出)，被配置成对于上述目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分；目标新闻确定模块(图中未示出)，被配置成将上述目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻；解说词生成模块(图中未示出)，被配置成基于上述目标新闻，生成上述目标新闻簇的解说词。

在本实施例的一些可选的实现方式中，上述解说词生成模块(图中未示出)可以进一步被配置成：将上述目标新闻中所包括的文本确定为目标文本；删除上述目标文本中所包括的不适合解说文本，其中，不适合解说文本为预先确定的不适合解说文本集合中的文本；将上述目标文本中所包括的书面语替换为相同语义的口语；将对上述目标文本提取摘要所得到的摘要文本确定为上述目标新闻簇的解说词。

在本实施例的一些可选的实现方式中，上述将对上述目标文本提取摘要所得到的摘要文本确定为上述目标新闻簇的解说词，可以包括：按照预设最快语速和预设最长音频时长确定解说词最多字数；对上述目标文本进行摘要提取，且所提取的摘要文本的字数少于上述解说词最多字数；将所提取的摘要文本确定为上述目标新闻簇的解说词。

在本实施例的一些可选的实现方式中，上述得分确定模块(图中未示出)可以进一步被配置成：提取该新闻在至少一种特征下的特征值；基于所提取的至少一种特征值，确定该新闻的适合生成解说词的得分。

在本实施例的一些可选的实现方式中，上述得分确定模块(图中未示出)还可以进一步被配置成：将该新闻所包括的文本输入预先训练的得分计算模型，得到该新闻的适合生成解说词的得分，其中，上述得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。

在本实施例的一些可选的实现方式中，上述素材资源集合确定单元603可以进一步被配置成：将上述目标新闻簇所包括的视频和图像确定为与上述解说词对应的候选素材资源集合。

在本实施例的一些可选的实现方式中，上述素材资源集合确定单元603可以包括：目标视频集合确定模块(图中未示出)，被配置成将对上述目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合；目标图像集合确定模块(图中未示出)，被配置成将上述目标新闻簇所包括的各个图像确定为目标图像集合；素材资源集合确定模块(图中未示出)，被配置成基于上述目标视频集合和上述目标图像集合，确定与上述解说词对应的候选素材资源集合，候选素材资源为视频或图像。

在本实施例的一些可选的实现方式中，上述素材资源集合确定模块(图中未示出)可以进一步被配置成：合并上述目标视频集合和上述目标图像集合得到与上述解说词对应的候选素材资源集合。

在本实施例的一些可选的实现方式中，上述素材资源集合确定模块(图中未示出)也可以进一步被配置成：对于上述目标视频集合中的每个目标视频，将该目标视频输入预先训练的生动视频检测模型，得到与该目标视频对应的生动视频检测结果，其中，上述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系；将上述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除；合并上述目标视频集合和上述目标图像集合得到与上述解说词对应的候选素材资源集合。

在本实施例的一些可选的实现方式中，上述素材资源集合确定模块(图中未示出)可以进一步被配置成：在将上述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后，将上述目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。

在本实施例的一些可选的实现方式中，图像在与上述解说词对应的视频中的播放时长可以为预设图像播放时长；以及上述素材资源序列确定单元604可以包括：匹配度确定模块(图中未示出)，被配置成对于上述解说词中的每个段落，确定该段落与上述候选素材资源集合中每个候选素材资源的匹配度；素材资源序列确定模块(图中未示出)，被配置成基于上述解说词中各段落与各上述候选素材资源之间的匹配度、各上述候选素材资源的播放时长以及上述解说词中各段落的文本长度，确定与上述解说词中的每个段落对应的候选素材资源序列。

在本实施例的一些可选的实现方式中，上述匹配度确定模块(图中未示出)可以进一步被配置成：对于上述解说词中的每个段落，确定与该段落对应的语义向量；对于上述候选素材资源集合中的每个候选素材资源，确定与该候选素材资源对应的语义向量；将上述解说词中的每个段落对应的语义向量与上述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度，确定为相应段落与相应候选素材资源之间的匹配度。

在本实施例的一些可选的实现方式中，上述将上述解说词中的每个段落对应的语义向量与上述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度，确定为相应段落与相应候选素材资源之间的匹配度，可以包括：响应于确定该候选素材资源为图像，对该图像候选素材资源进行语义分割，得到该图像候选素材资源对应的至少一个语义标注结果，以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量；响应于确定该候选素材资源为视频，对该视频候选素材资源进行下采样，得到至少一个样本图像；对于上述至少一个样本图像中的每个样本图像，对该样本图像进行语义分割，得到该样本图像对应的至少一个语义标注结果，以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量；根据各上述样本图像对应的语义向量，确定与该候选素材资源对应的语义向量。

在本实施例的一些可选的实现方式中，上述素材资源序列确定模块(图中未示出)可以进一步被配置成：对于上述解说词中的每个段落，利用第一预设优化算法，以与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与该段落对应的候选素材资源序列与该段落的匹配度最大为优化目标，确定与该段落对应的候选素材资源序列。

在本实施例的一些可选的实现方式中，上述素材资源序列确定模块(图中未示出)也进一步被配置成：利用第二预设优化算法，以与上述解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与上述解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标，确定与上述解说词中各段落对应的候选素材资源序列。

在本实施例的一些可选的实现方式中，上述解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同。

在本实施例的一些可选的实现方式中，上述视频生成单元605可以进一步被配置成：按照上述解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第一音频；按照上述解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第一视频，其中，段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频；将所得到的第一音频和第一视频分别确定为与上述解说词对应的视频中的音频和视频部分。

在本实施例的一些可选的实现方式中，上述视频生成单元605也可以进一步被配置成：对于上述解说词中的每个段落，将该段落输入预先训练的视频提前播放时间确定模型，得到与该段落对应的视频提前播放时长，其中，上述视频提前播放时长确定模型用于表征文本和文本对应的视频提前播放时长之间的对应关系；对于上述解说词中除最后一个段落以外的每个段落，按照该段落在上述解说词中从前到后的顺序，执行以下段落视频剪辑步骤：将该段落的下一个段落对应的视频提前播放时长确定为视频剪除时长；顺序连接与该段落对应的候选素材资源序列中的各候选素材资源，得到与该段落对应的视频；将与该段落对应的视频尾部剪除上述视频剪除时长的视频；顺序连接上述解说词中的最后一个段落对应的候选素材资源序列中的各候选素材资源，得到与最后一段段落对应的视频；按照上述解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第二视频；以及按照上述解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第二音频；将所得到的第二音频和第二视频分别确定为与上述解说词对应的视频中的音频和视频部分。

在本实施例的一些可选的实现方式中，上述视频生成单元605还可以进一步被配置成：对于上述解说词中的每个段落，将该段落输入预先训练的视频提前播放时间确定模型，得到与该段落对应的视频提前播放时长，其中，上述视频提前播放时长确定模型用于表征文本和文本对应的视频提前播放时长之间的对应关系；对于上述解说词中除最后一个段落以外的每个段落，按照该段落在上述解说词中从前到后的顺序，执行以下段落音频延长步骤：将该段落的下一个段落对应的视频提前播放时长确定为音频延长时长；将与该段落对应的语音尾部添加所确定的音频延长时长的无声播放时长；按照上述解说词中各段落从前到后的顺序，将与各段落对应的语音连接起来，得到第三音频；按照上述解说词中各段落从前到后的顺序，将与各段落对应的视频连接起来，得到第三视频，其中，段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频；将所得到的第三音频和第三视频分别确定为与上述解说词对应的视频中的音频和视频部分。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：单色素材资源检测单元(图中未示出)，被配置成：在基于上述解说词中的每个段落对应的语音和候选素材资源序列，生成与上述解说词对应的视频之前，对于上述解说词中的每个段落，执行以下单色素材资源检测步骤：对于与该段落对应的候选素材资源序列中的每个素材资源，响应于确定该素材资源为视频且该视频素材资源中存在单色图像帧，将该素材资源中的单色图像帧删除；响应于确定该素材资源为图像且该图像素材资源为单色图像，将该素材资源从与该段落对应的候选素材资源序列中删除。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：对齐检测单元(图中未示出)，被配置成：在基于上述解说词中的每个段落对应的语音和候选素材资源序列，生成与上述解说词对应的视频之前，对于上述解说词中的每个段落，执行以下对齐检测步骤：响应于确定该段落对应的语音的播放时长大于该段落对应的候选素材资源序列的播放时长，延长该段落对应的候选素材资源序列中图像类型的候选素材资源的播放时长，或者从上述候选素材资源集合中选取候选素材资源添加到该段落对应的候选素材资源序列中，以使得该段落对应的语音的播放时长等于该段落对应的候选素材资源序列的播放时长。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：视频发送单元(图中未示出)，被配置成：在基于上述解说词中的每个段落对应的语音和候选素材资源序列，生成与上述解说词对应的视频之后，将与上述解说词对应的视频发送给终端设备。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：参数当前取值获取单元(图中未示出)，被配置成获取从确定目标新闻簇的解说词到生成与上述解说词对应的视频过程中的至少一个参数的当前取值；视频评价分数确定单元(图中未示出)，被配置成确定与上述解说词对应的视频的视频评价分数；特征提取单元(图中未示出)，被配置成对上述至少一个参数的当前取值进行特征提取，得到特征表示；第一输入单元(图中未示出)，被配置成将上述特征表示和所确定的视频评价分数输入预先训练的评价网络，得到预测视频评价分数；第二输入单元(图中未示出)，被配置成将上述特征表示和上述预测视频评价分数输入预先训练的行动网络，得到当前行动信息；参数调整单元(图中未示出)，被配置成根据上述当前行动信息，调整上述至少一个参数的当前取值。

在本实施例的一些可选的实现方式中，上述装置600还可以包括：视频再次生成单元(图中未示出)，被配置成按照上述至少一个参数的当前取值，再次执行从确定目标新闻簇的解说词到生成与上述解说词对应的视频的过程。

需要说明的是，本申请实施例提供的用于生成视频的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明，在此不再赘述。

下面参考图7，其示出了适于用来实现本申请实施例的服务器的计算机***700的结构示意图。图7示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括一个或多个中央处理单元(CPU，CentralProcessing Unit)701，其可以根据存储在只读存储器(ROM，Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM，Random Access Memory)703中的程序而执行各种适当的行动和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O，Input/Output)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括解说词确定单元、语音生成单元、素材资源集合确定单元、素材资源序列确定单元和视频生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，解说词确定单元还可以被描述为“确定目标新闻簇的解说词的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

作为又一方面，本申请实施例还提供了另一种服务器，包括：接口；存储器，其上存储有一个或多个程序；以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

作为又一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；利用语音合成技术，生成与解说词中的每个段落对应的语音；基于目标新闻簇包括的视频和图像，确定与解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；确定与解说词中的每个段落对应的候选素材资源序列；基于解说词中的每个段落对应的语音和候选素材资源序列，生成与解说词对应的视频。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于生成视频的方法，包括：

确定目标新闻簇的解说词，其中，目标新闻簇中的各个新闻针对同一个新闻事件；

生成与所述解说词中的每个段落对应的语音；

基于所述目标新闻簇包括的视频和图像，确定与所述解说词对应的候选素材资源集合，其中，候选素材资源为视频或图像；

确定与所述解说词中的每个段落对应的候选素材资源序列；以及

按照所述解说词中各段落从前到后的顺序，将与各段落对应的语音和视频分别连接起来得到第一音频和第一视频，分别作为与所述解说词对应的视频中的音频和视频部分，其中，段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频。

2.根据权利要求1所述的方法，其中，在确定目标新闻簇的解说词之前，所述方法还包括：

确定目标新闻簇。

3.根据权利要求2所述的方法，其中，所述确定目标新闻簇，包括：

获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇；

基于所述至少一个新闻簇确定所述目标新闻簇。

4.根据权利要求3所述的方法，其中，所述基于所述至少一个新闻簇确定所述目标新闻簇，包括：

将所述至少一个新闻簇中的每个新闻簇确定为所述目标新闻簇。

5.根据权利要求3所述的方法，其中，所述基于所述至少一个新闻簇确定所述目标新闻簇，包括：

将所述至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序；

将所述至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为所述目标新闻簇。

6.根据权利要求3所述的方法，其中，所述基于所述至少一个新闻簇确定所述目标新闻簇，包括：

将所述至少一个新闻簇中的每个优质新闻簇确定为所述目标新闻簇，其中，优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。

7.根据权利要求3所述的方法，其中，所述基于所述至少一个新闻簇确定所述目标新闻簇，包括：

对于所述至少一个新闻簇中的每个新闻簇，基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度；

确定所述至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值；

将所述至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为所述目标新闻簇。

8.根据权利要求1所述的方法，其中，所述确定目标新闻簇的解说词，包括：

对于所述目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分；

将所述目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻；

将所述目标新闻中所包括的文本确定为目标文本；

删除所述目标文本中所包括的不适合解说文本，其中，不适合解说文本为预先确定的不适合解说文本集合中的文本；

将所述目标文本中所包括的书面语替换为相同语义的口语；

将对所述目标文本提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词。

9.根据权利要求8所述的方法，其中，所述将对所述目标文本提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词，包括：

按照预设最快语速和预设最长音频时长确定解说词最多字数；

对所述目标文本进行摘要提取，且所提取的摘要文本的字数少于所述解说词最多字数；

将所提取的摘要文本确定为所述目标新闻簇的解说词。

10.根据权利要求8所述的方法，其中，所述对于所述目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分，包括：

提取该新闻在至少一种特征下的特征值；

基于所提取的至少一种特征值，确定该新闻的适合生成解说词的得分。

11.根据权利要求8所述的方法，其中，所述对于所述目标新闻簇中的每个新闻，确定该新闻的适合生成解说词的得分，包括：

将该新闻所包括的文本输入预先训练的得分计算模型，得到该新闻的适合生成解说词的得分，其中，所述得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。

12.根据权利要求1所述的方法，其中，所述基于所述目标新闻簇包括的视频和图像，确定与所述解说词对应的候选素材资源集合，包括：

将所述目标新闻簇所包括的视频和图像确定为与所述解说词对应的候选素材资源集合。

13.根据权利要求1所述的方法，其中，所述基于所述目标新闻簇包括的视频和图像，确定与所述解说词对应的候选素材资源集合，包括：

将对所述目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合；

将所述目标新闻簇所包括的各个图像确定为目标图像集合；

基于所述目标视频集合和所述目标图像集合，确定与所述解说词对应的候选素材资源集合，候选素材资源为视频或图像。

14.根据权利要求13所述的方法，其中，所述基于所述目标视频集合和所述目标图像集合，确定与所述解说词对应的候选素材资源集合，包括：

合并所述目标视频集合和所述目标图像集合得到与所述解说词对应的候选素材资源集合。

15.根据权利要求13所述的方法，其中，所述基于所述目标视频集合和所述目标图像集合，确定与所述解说词对应的候选素材资源集合，包括：

对于所述目标视频集合中的每个目标视频，将该目标视频输入预先训练的生动视频检测模型，得到与该目标视频对应的生动视频检测结果，其中，所述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系；

将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除；

16.根据权利要求15所述的方法，其中，在将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后，所述方法还包括：

将所述目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。

17.根据权利要求1所述的方法，其中，

所述确定与所述解说词中的每个段落对应的候选素材资源序列，包括：

对于所述解说词中的每个段落，确定该段落与所述候选素材资源集合中每个候选素材资源的匹配度；

基于所述解说词中各段落与各所述候选素材资源之间的匹配度、各所述候选素材资源的播放时长以及所述解说词中各段落的文本长度，确定与所述解说词中的每个段落对应的候选素材资源序列，

其中，所述候选素材资源集合中的图像在与所述解说词对应的视频中的播放时长为预设图像播放时长。

18.根据权利要求17所述的方法，其中，所述对于所述解说词中的每个段落，确定该段落与所述候选素材资源集合中每个候选素材资源的匹配度，包括：

对于所述解说词中的每个段落，确定与该段落对应的语义向量；

对于所述候选素材资源集合中的每个候选素材资源，确定与该候选素材资源对应的语义向量；

将所述解说词中的每个段落对应的语义向量与所述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度，确定为相应段落与相应候选素材资源之间的匹配度。

19.根据权利要求18所述的方法，其中，所述将所述解说词中的每个段落对应的语义向量与所述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度，确定为相应段落与相应候选素材资源之间的匹配度，包括：

响应于确定该候选素材资源为图像，对该图像候选素材资源进行语义分割，得到该图像候选素材资源对应的至少一个语义标注结果，以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量；

响应于确定该候选素材资源为视频，对该视频候选素材资源进行下采样，得到至少一个样本图像；

对于所述至少一个样本图像中的每个样本图像，对该样本图像进行语义分割，得到该样本图像对应的至少一个语义标注结果，以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量；

根据各所述样本图像对应的语义向量，确定与该候选素材资源对应的语义向量。

20.根据权利要求17所述的方法，其中，所述基于所述解说词中各段落与各所述候选素材资源之间的匹配度、各所述候选素材资源的播放时长以及所述解说词中各段落的文本长度，确定与所述解说词中的每个段落对应的候选素材资源序列，包括：

对于所述解说词中的每个段落，利用第一预设优化算法，以与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与该段落对应的候选素材资源序列与该段落的匹配度最大为优化目标，确定与该段落对应的候选素材资源序列。

21.根据权利要求17所述的方法，其中，所述基于所述解说词中各段落与各所述候选素材资源之间的匹配度、各所述候选素材资源的播放时长以及所述解说词中各段落的文本长度，确定与所述解说词中的每个段落对应的候选素材资源序列，包括：

利用第二预设优化算法，以与所述解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件，以与所述解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标，确定与所述解说词中各段落对应的候选素材资源序列。

22.根据权利要求20或21所述的方法，其中，所述解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同。

23.根据权利要求1所述的方法，其中，在得到所述第一音频和所述第一视频之前，所述方法包括：

对于所述解说词中的每个段落，将该段落输入预先训练的视频提前播放时间确定模型，得到与该段落对应的视频提前播放时长，其中，所述视频提前播放时长确定模型用于表征文本和文本对应的视频提前播放时长之间的对应关系；

对于所述解说词中除最后一个段落以外的每个段落，按照该段落在所述解说词中从前到后的顺序，执行以下段落视频剪辑步骤：将该段落的下一个段落对应的视频提前播放时长确定为视频剪除时长；顺序连接与该段落对应的候选素材资源序列中的各候选素材资源，得到与该段落对应的视频；将与该段落对应的视频尾部剪除所述视频剪除时长的视频；

顺序连接所述解说词中的最后一个段落对应的候选素材资源序列中的各候选素材资源，得到与最后一段段落对应的视频。

24.根据权利要求1所述的方法，其中，在得到所述第一音频和所述第一视频之前，所述方法包括：

对于所述解说词中除最后一个段落以外的每个段落，按照该段落在所述解说词中从前到后的顺序，执行以下段落音频延长步骤：将该段落的下一个段落对应的视频提前播放时长确定为音频延长时长；将与该段落对应的语音尾部添加所确定的音频延长时长的无声播放时长。

25.根据权利要求1所述的方法，其中，在得到所述第一音频和所述第一视频之前，所述方法还包括：

对于所述解说词中的每个段落，执行以下单色素材资源检测步骤：对于与该段落对应的候选素材资源序列中的每个素材资源，响应于确定该素材资源为视频且该视频素材资源中存在单色图像帧，将该素材资源中的单色图像帧删除；响应于确定该素材资源为图像且该图像素材资源为单色图像，将该素材资源从与该段落对应的候选素材资源序列中删除。

26.根据权利要求25所述的方法，其中，在得到所述第一音频和所述第一视频之前，所述方法还包括：

对于所述解说词中的每个段落，执行以下对齐检测步骤：响应于确定该段落对应的语音的播放时长大于该段落对应的候选素材资源序列的播放时长，延长该段落对应的候选素材资源序列中图像类型的候选素材资源的播放时长，或者从所述候选素材资源集合中选取候选素材资源添加到该段落对应的候选素材资源序列中，以使得该段落对应的语音的播放时长等于该段落对应的候选素材资源序列的播放时长。

27.根据权利要求1所述的方法，其中，在得到所述第一音频和所述第一视频之后，所述方法还包括：

将与所述解说词对应的视频发送给终端设备。

28.根据权利要求1所述的方法，其中，所述方法还包括：

获取从确定目标新闻簇的解说词到生成与所述解说词对应的视频过程中的至少一个参数的当前取值；

确定与所述解说词对应的视频的视频评价分数；

对所述至少一个参数的当前取值进行特征提取，得到特征表示；

将所述特征表示和所确定的视频评价分数输入预先训练的评价网络，得到预测视频评价分数；

将所述特征表示和所述预测视频评价分数输入预先训练的行动网络，得到当前行动信息；

根据所述当前行动信息，调整所述至少一个参数的当前取值。

29.根据权利要求28所述的方法，其中，所述方法还包括：

按照所述至少一个参数的当前取值，再次执行从确定目标新闻簇的解说词到生成与所述解说词对应的视频的过程。

30.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-29中任一所述的方法。

31.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-29中任一所述的方法。

32.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-29中任一项所述的方法。