CN113923475B

CN113923475B - 一种视频合成方法及视频合成器

Info

Publication number: CN113923475B
Application number: CN202111161929.9A
Authority: CN
Inventors: 司马华鹏; 华冰涛; 汤毅平; 汪成; 靳超超
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-14
Anticipated expiration: 2041-09-30
Also published as: CN113923475A

Abstract

本申请提供了一种视频合成方法及视频合成器，通过视频合成器可以自动匹配目标文本与视频素材，以快速确定目标视频素材。同时，视频合成器在确定目标视频素材时，综合考虑了目标文本中对应不同内容类别的文本与视频素材的标签的匹配度，以及目标文本的文本摘要与视频素材的描述文本的匹配度，以确保所确定的目标视频素材与目标文本的内容准确对应，进而可以保证由目标视频素材合成的目标视频可以准确展示待处理文本所要表达的内容。

Description

一种视频合成方法及视频合成器

技术领域

本申请涉及视频合成技术领域，尤其涉及一种视频合成方法及视频合成器。

背景技术

视频，即动态影像，其可以向用户直观、动态地展示图像作品，相较于文本的呈现形式，视频更加易于用户观赏和理解。在制作视频时，可以以某一段文本作为待处理文本，由视频创作者根据该待处理文本对应的内容从已有的视频素材中挑选对应的目标视频素材，并将这些目标视频素材按照一定的顺序合成为一个视频，该合成后的视频即为与该待处理文本对应的目标视频，该目标视频可以对应展示该待处理文本的内容，从而可以通过该目标视频向用户更加直观地展示该待处理文本的内容。

目前，相关技术中，视频创作者制作视频的过程中，往往需由人工挑选待处理文本对应的目标视频素材并完成合成处理，该方式需耗费相当的人力与时间成本。同时，部分视频创作者通过预设软件自动收集对应的目标视频素材并完成合成处理；然而，上述目标视频素材的收集过程多通过单一标签进行简单匹配，虽然可在一定程度上提升视频素材收集的效率，但其选取的目标视频素材与待处理文本之间的匹配度极低，进而造成合成后目标视频与待处理文本之间并不对应。

针对相关技术中，对于待处理文本进行目标视频合成的效率与效果并不理想的问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请提供了一种视频合成方法及视频合成器，以至少可以解决技术问题如何提高目标视频的合成效率，以及目标视频与待处理文本的匹配度。

第一方面，本申请提供了一种视频合成方法，所述方法包括：

获取待生成相应视频的待处理文本，所述待处理文本包括至少一个目标文本，其中，不同的所述目标文本对应不同的文本内容；

获取所述目标文本中的第一文本和第二文本，以及所述目标文本的文本摘要，其中，所述第一文本是指所述目标文本中与所述待处理文本所属目标领域中预设的核心类别对应的文本，所述第二文本是指所述目标文本中与所述目标领域中预设的非核心类别对应的文本；

获取所述目标领域对应的视频素材库，所述视频素材库包括多个视频素材，其中，每个视频素材具有相应的标签和描述文本；

根据所述第一文本与每个所述视频素材的标签的文本相似度、所述第二文本与每个所述视频素材的标签的概率相似度、以及所述文本摘要与每个所述视频素材的描述文本的句子相似度，从所述视频素材库中提取目标视频素材；

根据各所述目标文本对应的目标视频素材，生成与所述待处理文本对应的目标视频。

在一种实现方式中，所述获取所述目标文本中的第一文本包括：

获取所述目标领域的领域词表，所述领域词表包括在所述目标领域内与所述核心类别对应的全部文本内容；

通过命名实体识别模型提取所述目标文本中与所述核心类别对应的实体名词；

根据所述领域词表纠正所述实体名词中的错误实体名词，得到所述第一文本。

在一种实现方式中，所述获取所述目标文本中的第二文本包括：

获取与所述非核心类别对应的分类模型，所述分类模型对应多个分类标签；

将所述目标文本输入所述分类模型，获得所述目标文本被分类至每个所述分类标签的分类概率；

确定并提取第二文本，所述第二文本是指所述分类概率最高的所述分类标签。

在一种实现方式中，所述获取所述目标文本的文本摘要包括：

将所述目标文本划分为多个句子；

提取所述目标文本的文本摘要，所述文本摘要包括N个句子，其中，所述N个句子属于所述多个句子，且由所述N个句子构成的第一向量与由所述多个句子构成的第二向量之间的向量相似度大于或者等于预设的向量相似度阈值。

在一种实现方式中，所述根据所述第一文本与每个所述视频素材的标签的文本相似度、所述第二文本与每个所述视频素材的标签的概率相似度、以及所述文本摘要与每个所述视频素材的描述文本的句子相似度，从所述视频素材库中提取目标视频素材包括：

获取所述目标文本被分类至每个所述分类标签的分类概率；

确定与所述视频素材的标签相同的目标分类标签；

将所述目标文本被分类至所述目标分类标签的分类概率，确定为所述第二文本与所述视频素材的标签的概率相似度。

在一种实现方式中，所述目标视频素材的标签与所述第一文本的文本相似度大于或者等于预设的文本相似度阈值、所述目标视频素材的标签与所述第二文本的概率相似度大于或者等于预设的概率相似度阈值，且所述目标视频素材的描述文本与所述文本摘要的句子相似度大于或者等于预设的句子相似度阈值。

获取所述视频素材的候选标签，其中，所述候选标签与所述第一文本的文本相似度大于或者等于预设的文本相似度阈值；

计算所述候选标签与所述第一文本的关联占比，所述关联占比是指所述候选标签在所述第一文本中的占比与所述候选标签在所述视频素材与所述核心类别对应的标签中的占比的权重加和；

计算所述标签占比和所述第二文本与所述视频素材的标签的概率相似度的权重加和，得到第一相似度；

计算所述第一相似度和所述文本摘要与所述视频素材的描述文本的句子相似度的权重加和，得到第二相似度；

确定所述目标视频素材，其中，所述目标视频素材对应的第二相似度大于或者等于预设的相似度阈值。

在一种实现方式中，所述从所述视频素材库中提取目标视频素材包括：

计算所述第一文本与每个所述视频素材的标签的文本相似度；

构建候选视频素材库，所述候选视频素材库包括多个候选视频素材，其中，所述候选视频素材的标签与所述第一文本的文本相似度大于或者等于所述预设的文本相似度阈值；

根据所述第二文本与每个所述候选视频素材的标签的概率相似度、以及所述文本摘要与每个所述候选视频素材的描述文本的句子相似度，从所述候选视频素材库中提取所述目标视频素材。

在一种实现方式中，所述根据各所述目标文本对应的目标视频素材，生成与所述待处理文本对应的目标视频包括：

按照每个所述目标文本在所述待处理文本中对应的位置对各所述目标文本进行排序，得到文本序列；

按照文本序列对各所述目标文本对应的目标视频素材进行拼接，得到所述目标视频。

第二方面，本申请还提供了一种视频合成器，所述视频合成器响应于视频合成指令，采用如第一方面所述的视频合成方法，生成与待处理的文本对应的目标视频。

由上述方案可知，通过视频合成器可以自动匹配目标文本与视频素材，以快速确定目标视频素材。同时，视频合成器在确定目标视频素材时，综合考虑了目标文本中对应不同内容类别的文本与视频素材的标签的匹配度，以及目标文本的文本摘要与视频素材的描述文本的匹配度，以确保所确定的目标视频素材与目标文本的内容准确对应，进而可以保证由目标视频素材合成的目标视频可以准确展示待处理文本所要表达的内容。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种视频合成的交互示意图；

图2为本申请提供的一种视频合成方法的流程示意图；

图3为本申请提供的一种分类模型的示意图；

图4为本申请提供的一种视频合成的交互示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频创作者为了令文本信息更加生动、形象，会通过视频合成器来合成与文本信息对应的视频，通过向他人展示该视频，以展示文本信息的内容。视频合成器可以是用于合成视频的应用程序(Application，App)，或者是由网页提供的视频合成功能，视频创作者在视频合成器中输入文本信息之后，通过视频合成器对该文本信息的处理，可以得到合成后的视频，该视频所呈现的内容与文本信息的内容相对应。在一些实施例中，视频合成器可以集成在视频创作者所持有的终端设备(如手机、计算机、平板电脑等)上，例如，视频合成器可以是终端设备上的处理器，或者，视频合成器也可以集成于一个外接于视频创作者所持有的终端设备(如手机、计算机、平板电脑、蓝牙耳机、相机、智能穿戴设备等)的设备(如服务器、云端服务器、手机、平板电脑等)上。

示例地，视频创作者想要上传一段文本A，例如一段评述三国赤壁之战对各个势力影响的文章，该文章的第一部分描述了赤壁之战的交战过程，第二部分介绍了曹军战后的情况，第三部分介绍了孙刘联军战后的情况。可见文本A的篇幅较长，如果用户直接阅读文本A，不仅耗时较长，而且不够直观、生动，难以准确掌握该文本所要表达的内容。由此，视频创作者可以以视频的形式展示文本A。图1以视频合成App作为视频合成器作为示例，示例性示出了视频创作者合成视频的流程，视频创作者通过点击用于视频合成App的图标以进入文本输入界面，如图1中a所示，视频创作者在该文本输入界面输入文本A(包括第一部分、第二部分和第三部分)，视频合成App响应于合成指令，如图1所示，视频合成App可以自动获取视频素材库，该视频素材库包括海量视频素材，其中，这些视频素材中包括对应展示赤壁之战的交战过程的视频素材1，对应展示曹军在赤壁之战之后的情况的视频素材2，以及对应展示孙刘联军在赤壁之战之后的情况的视频素材3。视频合成App可以从视频素材库中选择与文本A中各部分内容对应的视频素材，即视频素材1、视频素材2和视频素材3。视频合成App按照第一文本、第二文本和第三文本在文本A中的文本顺序，拼接视频素材1、视频素材2和视频素材3，得到与文本A对应的视频。在播放该视频时，如图1中b所示，首先展示视频素材1，然后展示视频素材2，最后展示视频素材3。这样，视频创作者可以通过视频合成App自动确定与文本内容对应的视频素材，并通过拼接各个视频素材以得到与文本内容对应的视频，以有效提高视频的合成效率。

为了保证上述过程中视频合成器所确定的视频素材的准确性，视频合成器可以参考图2所示的流程生成目标视频，具体如下：

S101、获取待生成相应视频的待处理文本，所述待处理文本包括至少一个目标文本，其中，不同的所述目标文本对应不同的文本内容。

在本申请中，可以将待生成相应视频的文本信息称为待处理文本，可以将生成的与待处理文本对应的视频称为目标视频，可以将用于指示视频合成器将目标文本生成目标视频的指令称为视频生成指令，可以将用于构成目标视频的视频素材称为目标视频素材。

待处理文本可以为视频创作者实时输入的文本信息，也可以为视频合成器从网络或者本地获取的文本信息等。以视频创作者实时输入的文本信息为例进行描述，视频创作者可以通过多种方式向视频合成器输入目标文本，示例地，视频创作者可以通过终端设备上的键盘、虚拟键盘或者该终端设备外接的输入设备(键盘等)等向视频合成器输入文本格式的文本信息，或者视频创作者可以通过终端设备上的麦克风、终端设备外接的音频输入设备(蓝牙耳机等)等向视频合成器输入语音格式的文本信息，或者视频创作者可以通过终端设备上的相机、终端设备外接的摄像设备等向视频合成器输入图片格式的文本信息。以视频合成器从网络或者本地获取文本信息为例进行说明，视频合成器可以根据视频生成指令或者文本获取指令等，从网络或者本地获取待处理文本，例如，视频合成器接收到视频生成指令，该视频生成指令用于指示生成与“桃园三结义”相关的目标视频，则视频合成器根据该视频生成指令，首先从网络或者本地获取与“桃园三结义”相关的文本信息，以确定待生成目标视频的具体文本内容，然后，再以获取到的文本信息作为待处理文本，生成对应的目标视频。又如，视频合成器接收到文本获取指令，该文本获取指令用于指示获取与“桃园三结义”相关的文本信息，则视频合成器根据该文本获取指令从网络或者本地获取与“桃园三结义”相关的文本信息，并将所获取到的文本信息作为待处理文本。

视频生成指令可以是视频创作者向视频合成器发送的，例如，视频创作者在向视频合成器输入待处理文本之后，再次向视频合成器输入视频生成指令，以令视频创作者可以控制视频合成器在视频创作者需要得到目标视频时，生成目标视频。或者，视频创作者向视频合成器发送视频生成指令，并在该视频生成指令中同时携带待处理文本，这样，可以减少视频创作者与视频合成器之间的交互次数，以简化视频创作者操作。又或者，视频合成器可以以获取到待处理文本作为视频生成指令，即视频合成器获取到待处理文本后，自动启动视频合成流程，无需额外的视频生成指令，以提高视频合成器的自动化。

由于视频合成器所获取的待处理文本具有丰富的格式，需要首先对待处理文本的格式进行统一，以便于后续生成目标视频，通常，语义分析等方式都是针对文本格式进行，由此，视频合成器可以将待处理文本的格式统一为文本格式，具体如下：

S1021、视频合成器识别待处理文本的格式。

S1022、视频合成器判断待处理文本的格式是否符合预设格式。

S1023、如果待处理文本的格式符合预设格式，则视频合成器直接采用待处理文本的格式。

S1024、如果待处理文本的格式不符合预设格式，则视频合成器将待处理文本的格式转换为预设格式。

上述待处理文本的格式可以为文本格式、语音格式、图片格式等，而根据现有语义分析、模型等针对的格式类型，预设格式可以设定为文本格式。也就是说，如果待处理文本的格式是文本格式，则可以继续对该待处理文本进行后续处理，如果待处理文本的格式为语音格式、图片格式等，则需要先将这些格式转化为文本格式，例如通过语音识别，将语音格式的待处理文本转化为文本格式的待处理文本，通过图片识别，将图片格式的待处理文本转化为文本格式的待处理文本。

可以将视频创作者输入的文本信息或者视频合成器从网络或者本地获取到的文本信息直接作为待处理文本进行处理，在一些实施例中，为了提高后续针对待处理文本确定目标视频素材的准确性，可以先对视频创作者输入的文本信息或者视频合成器从网络或者本地获取到的文本信息进行预处理，并将处理后的文本信息作为待处理文本。

在一些实施例中，可以先对视频创作者输入的文本信息或者视频合成器从网络或者本地获取到的文本信息进行筛选，剔除无效信息之后得到目标文本，以降低文本信息所携带的无效信息对确定目标视频素材准确性的影响。示例地，文本信息为“只见张飞在战场上骑马”，通过语义分析等文本处理方式，可以识别“只见”、“在”、“上”均为无效信息，即这些信息的有无并不会影响所在文本信息的整体语义，因此，可以将这些无效信息剔除，以得到待处理文本“张飞战场骑马”，由此，不仅能够保证待处理文本的语义准确性，还可以缩减文本信息的数据量，以减少待处理文本在传输、处理过程中所占用的资源。

每一个视频素材仅对应展示一个事件，因此，为了提高所确定的目标视频素材的准确性，首先要确保待处理文本对应的文本内容(事件)的单一性。在一些实施例中，如果待处理文本包含多个文本内容，则可以先对待处理文本进行划分，以得到多个子文本，不同的子文本对应不同的文本内容。然后以每一个子文本为目标文本来确定对应的目标视频素材。这样，以对应独立事件的每个子文本为目标文本，来确定相应的目标视频素材，可以有效降低对应不同事件的子文本之间的语义影响，从而增加对每个目标文本进行分析的准确度，以提高所确定的目标视频素材的准确度。

S102、获取所述目标文本中的第一文本和第二文本，以及所述目标文本的文本摘要，其中，所述第一文本是指所述目标文本中与所述待处理文本所属目标领域中预设的核心类别对应的文本，所述第二文本是指所述目标文本中与所述目标领域中预设的非核心类别对应的文本。

在本实施例中，文本按照不同的维度，可以对应至不同的领域，例如按照文学题材划分，则可以分为诗词领域、小说领域、音乐领域、电影领域等。又如，按照文本名称划分，则可以分为三国演义领域、红楼梦领域、西游记领域、水浒传领域等。在本实施例中，待处理文本所属的领域可以称为目标领域。

在本实施例中，目标文本的文本内容按照内容类别可以分为第一文本和第二文本，其中，第一文本是指与核心类别对应的文本内容，第二文本是指与非核心类别对应的文本内容。由上文可知，根据文本信息与领域的对应关系，可以确定目标文本对应的目标领域。每一个领域都有其对应的核心类别和非核心类别，其中，核心类别可以反映一个领域的核心内容，例如，三国演义领域的核心内容是“刘备、关羽、张飞”等，则其对应的核心类别是人物；而诗词领域的核心内容是“沁园春、卜算子等”，则其对应的核心类别是词牌名。非核心类别可以反映一个领域的非核心内容，例如，三国演义领域的非核心内容是“战场、负荆请罪、生气”等，则其对应的非核心类别是场景、事件、情感等。诗词领域的非核心内容是“悯农，锄禾日当午，汗滴禾下土，举头望明月，低头思故乡”等，则其对应的非核心类别是人物、场景、情感等。

在一些实施例中，核心类别和非核心类别可以由人为设定，例如，目标文本为“张飞在战场上骑马飞奔”，人为设定核心类别为“人物”，非核心类别为“地点”、“事件”，则通过人为识别，可以提取到第一文本为“张飞”，第二文本为“战场”、“骑马飞奔”，但是，通过人为识别，会耗费大量的人力，且提取的主观性较强，难以保证所提取到的第一文本和第二文本的准确性。

基于此，可以采用提取模型提取第一文本和第二文本，示例地，可以采用命名实体识别(Named Entity Recognition，NER)模型识别并提取与核心类别对应的第一文本，NER模型可以为BERT-BLSTM-CRF模型等，NER模型可以识别到目标文本中的实体名词，即第一文本，如可以识别到与核心类别对应的实体名词，即第一文本为“张飞”。可以采用分类模型识别并提取与非核心类别对应的第二文本，分类模型可以为BLSTM-CNN模型等，分类模型可以通过分类算法对目标文本所描述的事件、情绪等进行分类，以确定与目标文本对应的分类标签(分类模型中预先训练的标签，例如与“事件”类别对应的分类标签包括“骑马飞奔”、“打仗”、“谈话”等，与“情绪”类别对应的分类标签包括“开心”、“不开心”、“愤怒”等)，即第二文本，如可以识别到与非核心类别对应的分类标签，即第二文本为“战场”、“骑马飞奔”。

在一些实施例中，可以按照如下方法来识别目标文本中第二文本：

S2001、利用文本素材训练分类模型；

S2002、将目标文本输入指定分类类别的分类模型，得到第二文本，所述指定分类类别属于非核心类别。

示例地，分类模型对应的指定分类类别为“情绪”，则通过该分类模型可以提取到目标文本中的情绪。具体地，分类模型包括多个分类标签，这些标签与训练该分类模型的文本素材中的情绪相对应，例如，“开心”、“不开心”、“愤怒”、“兴奋”等。将目标文本输入分类模型之后，通过分类计算，可以得到该目标文本被归类到每个分类标签的概率，例如，目标文本“张飞在战场上痛快地杀敌”被分类到“开心”、“不开心”、“愤怒”、“兴奋”的概率分别为0.3、0.12、0.13、0.45，则可以将该目标文本所表示的情绪分类为“兴奋”，即第二文本为“兴奋”。

但是，上述通过NER模型识别第一文本的方式由于NER模型本身的不准确性，也可能出现识别错误，例如，目标文本为“在军营里整理衣物，让曹操去看吧”，通过NER模型对于核心类别“人物”所识别的第一文本，容易得到“曹操去”，显然，该第一文本是错误的。

为了提高第一文本的识别准确性，在一些实施例中，可以按照如下方法来识别目标文本中的第一文本：

S2011、获取目标领域的领域词表，所述领域词表根据所述目标领域内与所述核心类别对应的全部文本内容获得。

确定目标领域的核心类别和非核心类别之后，可以通过爬取等方式，从该目标领域对应的全部文本素材中提取与核心类别和非核心类别对应的词语，文本素材可以来自本地或者网络，本实施例中不做限定。示例地，目标领域为三国演义领域，核心类别为“人物”，与目标领域对应的文本素材为“曹操，字孟德”、“张辽突围孙权的围攻”等，可以获得与核心类别对应的词语，如“曹操”、“张辽”、“孙权”等。通过上述过程获得词语，可以组建为对应于三国演义领域的词表，即领域词表。

在一些实施例中，视频合成器可以实时构建与目标领域对应的核心类别和非核心类别的领域词表。为了节省视频合成器的处理时间，在一些实施例中，可以预先构建各个领域的领域词表，形成领域、类别与领域词表的对应关系(第三对应关系)，这样，当确定目标领域之后，视频合成器可以直接根据第三对应关系，获取目标领域对应的各个类别的领域词表。

S2012、通过命名实体识别模型识别所述目标文本中的实体名词。

可以通过命名实体识别(Named Entity Recognition，NER)模型，例如spacy、hanlp等从目标文本中识别并提取实体名词，示例地，通过将核心类别和目标文本输入NER模型，可以得到目标文本中的实体名词，这些实体名词与核心类别对应。示例地，目标文本为“张飞在战场上骑马飞奔”，核心类别为“人物”，则通过NER模型，可以提取到实体名词“张飞”。又如，目标文本为“在军营里整理衣物，让曹操去看吧”，核心类别为“人物”，则通过NER模型，可以提取到实体名词“曹操去”。

S2013、根据领域词表，纠正实体名词，得到第一文本。

由上文可知，通过NER模型等识别得到的实体名词，准确性相对较低，为了提高这些NER模型等识别到的实体名词的准确性，需要对这些实体名词进行正确性的判断。由领域词表构建的过程可知，领域词表包含可以涵盖目标领域中与核心类别对应的词语，因此，可以以领域词表作为判断实体名词准确性的基准，具体如下：

S20131、通过匹配实体名词与领域词表中的各个词语，确定错误实体名词。

S20132、判断错误实体名词的错误类型。

S20133、如果错误类型为部分错误，则将错误实体名词替换为领域词表中对应的词语。

S20134、如果错误类型为全部错误，则将错误实体名词剔除。

示例地，领域词表为“张飞、曹操、张辽”，如果识别到的实体名词为“张飞”，该实体名词与领域词表中的“张飞”完全匹配，则该实体名词识别正确。如果识别到的实体名词为“曹操在”、“白水”，该实体名词与领域词表中的各个词语不完全匹配，则该实体名词识别错误，为错误实体名词。进一步地，判断上述两个错误实体名词的错误类型，将“曹操在”与“张飞”、“曹操”、“张辽”分别进行匹配，其中，“曹操在”与“曹操”部分匹配，则可以确定“曹操在”的错误类型为部分错误。在一些实施例中，如果错误实体名词相较于领域词表中的词语缺少部分字符，也可以识别为部分匹配，即部分错误。将“白水”与“张飞”、“曹操”、“张辽”分别进行匹配，其中，“白水”与领域词表中的每个词语均完全不匹配，则可以确定“白水”的错误类型为全部错误。

此时，可以将“白水”从识别到的实体名词中剔除，以避免“白水”对后续筛选目标视频素材的过程产生影响。将“曹操在”替换为“曹操”，以将该部分错误的错误实体名词纠正为正确的实体名词。

在一些实施例中，上述修正过程可以通过NER模型完成，此时的NER模型为训练为带有修正功能的实体名词识别模型，可以参考图3所提供的模型，在该模型中，可以根据领域词表对错误实体名词所在的文本进行标注，例如，错误实体名词为“曹操在”，其所在的文本为“在军营里整理衣物，让曹操去看吧”，对该文本进行标注，标签为“BIO”，即将对应于人物的字符标注为B(begin)I(in)，将对应于非人物的字符标注为O(other)，则标注结果为“OOOOOOOOOOBIOOO”，该NER模型可以根据标签，将“曹操在”纠正为“曹操”。

可见，通过上述过程可以提高识别目标文本中第一文本的准确性。

在本实施例中，文本摘要是指目标文本中可以代表目标文本的语义的一个或多个句子，这些句子构成的向量与目标文本的向量之间的相似度符合向量相似度阈值，示例地，目标文本为“刘备、关羽、张飞在桃园结义，三人虽为异姓，既结为兄弟，则同心协力，救困扶危，上报国家，下安黎庶。”其中，最能够代表目标文本的语义的一个句子为“刘备、关羽、张飞在桃园结义”，则该目标文本的文本摘要为“刘备、关羽、张飞在桃园结义”。

通过上述过程，视频合成器可以自动、准确地获得待处理文本中各目标文本的第一文本、第二文本以及文本摘要。

S103、获取所述目标领域对应的视频素材库，所述视频素材库包括多个视频素材，其中，每个视频素材具有相应的标签和描述文本。

在本实施例中，视频素材库中的视频素材可以是来自网络或者本地所提供的全部视频素材，视频素材可以为针对某一影视剧采用镜头切割的方案所得到的多个视频，例如，针对三国影视剧中的某一集视频通过镜头切割的方式，以涉及的人物/事件为线索，将该集视频切割为多个视频片段，将该多个视频片段作为多个视频素材。视频素材可以为多种格式，例如动态图片格式、静态图片格式、视频格式等。

网络和本地所提供的全部视频素材的数量庞大，因此，直接从网络和本地所提供的全部视频素材中筛选目标视频素材的工作量巨大，且无效视频素材的干扰性较大。视频素材有其对应的领域，视频素材对应的领域可以按照不同维度进行划分，例如，按照视频素材所对应的文学题材划分，则领域可以分为诗词领域、小说领域、音乐领域、电影领域等，又如，按照名称划分，则领域可以分为三国演义领域、红楼梦领域、西游记领域、水浒传领域等。对应相同领域的视频素材可以组成一个视频素材库，在视频素材库、视频素材和领域之间构建对应关系(第一对应关系)。相应的，上文也阐述了不同的文本也具有对应的领域，由此，也可以在文本信息与领域之间构建对应关系(第二对应关系)。这样，根据第一对应关系和第二对应关系，可以确定与待处理文本对应的目标领域所对应的视频素材库，由此，可以更大程度地缩小用于匹配目标文本的视频素材的数量，从而减少运算量，而且可以提高目标视频素材的确定效率，进而提高合成目标视频的效率，以提高视频创作者的体验感。

在一些实施例中，视频素材除了具体的视频内容以外，还带有描述文本和标签。其中，描述文本通常为短句形式，一个视频素材可以具有一个或多个描述文本，每个描述文本的字符数量相对较长，描述文本包括多个词语，通过多个词语的词义，以每个词语在短句中对应的句子成分，由该多个词语共同完成对视频素材的视频内容的整体描述。标签通常为词语形式，一个视频素材可以具有一个或多个标签，每个视频素材的标签均经过消歧处理(如通过比较各个视频素材的内容相似度，将内容相似度大于或者等于阈值的视频素材所对应的标签统一为同一组标签，以及将各个视频素材对应的标签中复现数量较少的标签剔除，和/或，通过比较同一个视频素材对应的各个标签之间的相似度，将相似度过高的多个标签统一为同一个标签等)，以保证每个视频素材的标签的准确性，以及精简性。其中，每个标签的字符数量相对较短，标签之间无排列顺序的影响，标签之间也无词义的影响，各个标签独立存在，每个标签仅描述视频素材中与其对应的部分视频内容，多个标签对应描述的部分视频内容组合在一起可以构成整体视频素材的视频内容。示例地，视频素材1的视频内容是“张飞在战场上骑马飞奔”，其对应的描述文本为“张飞在战场上骑马飞奔”，其对应的标签为“张飞”、“战场”、“骑马”。视频素材2的视频内容是“刘备、关羽和张飞在桃园结义”，其对应的描述文本为“刘备、关羽和张飞桃园结义”，其对应的标签为“刘备”、“关羽”、“张飞”、“桃园”、“结义”。如果直接利用目标文本的全部文本内容与视频素材的标签进行匹配，可以发现，其匹配的过程本质上是，比较文本与文本之间每一个分词的文本相似度，由上述对标签的描述可知，标签无法准确代表视频素材的整体内容，如果采用文本与视频素材的标签匹配的方式来确定目标视频素材，则容易出现文本与标签的文本相似度较高，但是，文本内容与该标签对应的视频素材的内容完全不同的问题，例如，视频素材1的标签是“张飞”、“战场”、“骑马”，视频素材2的标签是“赵云”、“战场”、“骑马”，目标文本是“张飞在战场上骑马”，则分别计算目标文本分别与视频素材1的标签和视频素材2的标签的文本相似度，可以得到目标文本与两者的文本相似度均符合预设的相似度阈值，此时，视频合成器判定视频素材1与视频素材2均为目标视频素材，显然，视频素材2中的人物与目标文本中的人物不同，即视频素材2不能反映目标文本的内容。可见，通过这种匹配方式所选取的目标视频素材并不准确。为了提高所确定的目标视频素材的准确度，可以按照如S104所示的方法来确定目标视频素材。

S104、根据所述第一文本与每个所述视频素材的标签的文本相似度、所述第二文本与每个所述视频素材的标签的概率相似度、以及所述文本摘要与每个所述视频素材的描述文本的句子相似度，从所述视频素材库中提取目标视频素材。

S1041、视频合成器计算每个视频素材的标签与目标文本的第一文本的文本相似度。

第一文本代表目标文本的核心内容，与第一文本相匹配的视频素材，说明该视频素材的视频内容与目标文本的核心内容是高度匹配的，即视频素材的视频内容一定包含了第一文本。可以通过计算标签与第一文本的文本相似度来进行匹配，当标签与第一文本的文本相似度大于或者等于预设的文本相似度阈值时，则可以认为该标签与第一文本相匹配，否则，该标签与第一文本不匹配。如果一个视频素材带有多个标签，其中，每个标签与第一文本的文本相似度均可以按照上述方法进行计算。在一些实施例中，预设的文本相似度阈值包括第一文本相似度阈值和第二文本相似度阈值，其中，第一文本相似度阈值对应于第一文本与每一个标签的文本相似度；第二文本相似度阈值对应于符合第一文本相似度阈值的标签数量，即视频素材对应的全部标签中，大于或者等于第一文本相似度阈值的标签的数量大于或者等于第二文本相似度阈值时，该视频素材的标签与第一文本相匹配。其中，第二文本相似度阈值N满足：1≤N≤M，M为视频素材的标签总数量，可见，N的取值越高，与第一文本相匹配的标签的数量越多，由此所确定的视频素材越准确。

示例地，第一文本为“张飞”，视频素材1带有标签“张飞”，通过第一文本与标签的匹配，视频素材1的标签与第一文本的匹配度大于匹配度阈值，则说明视频素材1所展示的视频内容一定包含了目标文本中的第一文本，即与人物“张飞”相关的内容。

S1042、视频合成器确定每个视频素材的标签与目标文本的第二文本的概率相似度。

第二文本代表目标文本的非核心内容，需要说明的是，非核心内容并非是指目标文本中不重要的内容，相反地，目标文本的非核心内容与核心内容相结合能够更加精准地描述目标文本所要表达的语义。示例地，目标文本1为“张飞在战场上兴奋地骑马飞奔”，其核心内容(第一文本)为“张飞”，目标文本2为“张飞在草原上兴奋地骑马飞奔”，其核心内容(第一文本)为“张飞”，显然，仅凭借核心内容(第一文本)是无法区分两个目标文本的真正语义的，而目标文本1的非核心内容(第二文本)为“战场”、“兴奋地”、“骑马飞奔”，目标文本2的非核心内容(第二文本)为“草原”、“兴奋地”、“骑马飞奔”，显然，两个目标文本通过结合各自的第一文本和第二文本可以得到各自更加完整的语义，即目标文本1的语义是“张飞在战场上兴奋地骑马飞奔”，突出地点“战场”，而目标文本2的语义是“张飞在草原上兴奋地骑马飞奔”，突出地点“草原”。可见，第二文本是区分两个目标文本的关键。由此，不仅要计算视频素材的标签与第一文本的匹配度，为了更加完善语义匹配，还需要计算视频素材的标签与第二文本的匹配度。在本实施例中，第二文本与视频素材的标签的概率相似度是指第二文本被划分到分类模型中每个类别标签的概率。

示例地，第二文本为“战场”，通过分类模型可以得到第二文本被分类到分类标签“战场”、“户外”和“室内”的概率分别为0.857、0.143、0，视频素材1带有标签“战场”，视频素材2带有标签“户外”，视频素材3带有标签“室内”，相应的，第二文本与视频素材1的标签的概率相似度为0.857，第二文本与视频素材2的标签的概率相似度为0.143，第二文本与视频素材3的标签的概率相似度为0。

在一些实施例中，非核心类别的种类较多，相应的，目标文本的第二文本通常会包括多个词语，例如，非核心类别包括“场景”、“情感”、“事件”，目标文本为“张飞在战场上兴奋地骑马”，相应的，第二文本为“战场”、“兴奋”、“骑马”。由此，通过上述分类过程，可以得到目标文本中各第二文本被归类到同一个视频素材的各个相应非核心类别的标签的概率。

S1043、视频合成器计算每个视频素材的描述文本与目标文本的文本摘要的句子相似度。

由上文对视频素材的描述文本，以及目标文本的文本摘要的描述可知，描述文本可以较为准确地描述视频素材的整体视频内容，文本摘要可以较为准确地描述目标文本的整体文本内容。由此，通过计算两者的句子相似度，可以反应视频素材与目标文本在整体内容上的相似度。具体地，首先分别生成与视频素材的描述文本对应的第一句向量，以及与目标文本的文本摘要对应的第二句向量，然后通过计算第一句向量与第二句向量之间的余弦相似度，得到描述文本与文本摘要之间的句子相似度。

示例地，视频素材的描述文本为“张飞在战场上骑马杀敌”，目标文本为“张飞在战场上骑马飞奔”，通过计算两者的句子相似度，如果句子相似度大于或者等于相似度阈值，则说明该视频素材可以较为准确地反应目标文本的整体文本内容。

由上述三个具体的匹配过程可知，每个匹配过程具有不同的匹配侧重点，为了避免仅通过匹配一个方面所带来的匹配误差，综合考虑上述三个匹配过程的结果，即只有标签与第一文本的匹配度大于或者等于匹配度阈值，标签与第二文本的概率相似度大于或者等于概率相似度阈值，且描述文本与文本摘要的句子相似度大于或者等于句子相似度阈值的视频素材才会被筛选为目标视频素材。

示例地，目标文本为“刘备、关羽、张飞在桃园结义，三人虽为异姓，既结为兄弟，则同心协力，救困扶危，上报国家，下安黎庶。”，第一文本为“刘备”、“关羽”、“张飞”，第二文本为“桃园”、“结义”、“结为兄弟”、“同心协力”、“救困扶危”、“上报国家”、“下安黎庶”，文本摘要为“刘备、关羽、张飞在桃园结义”。视频素材1的标签为“刘备”、“关羽”、“张飞”、“结义”，描述文本为“刘、关、张桃园三结义”。示例地，计算标签与第一文本的匹配度P1为1，计算标签与第二文本的概率相似度P2为0.8，计算文本摘要与描述文本的句子相似度P3为1。如果设定匹配度阈值为0.8，概率相似度阈值为0.7，句子相似度阈值为0.7，通过对比可知，P1＞0.8，P2＞0.7，P3＞0.7，由此，视频素材1是目标文本的目标视频素材。

在一些实施例中，为了进一步提高第一文本、第二文本、文本摘要之间的关联性，可以综合计算匹配度、概率相似度和句子相似度，以得到目标文本与视频素材之间的内容匹配度。

将上述过程得到的第一文本和第二文本相关联，可以共同计算得到目标文本与视频素材的第一相似度。具体的，第一相似度满足如下公式：A1＝xa*score(a)+xb*score(b)，其中，A1代表第一相似度，score(a)代表第一文本与视频素材的标签之间的占比，score(a)满足公式score(a)＝k1*C/A+k2*C/B，其中，A表示目标文本中出现第一文本的总数量，B表示视频素材的标签中出现与核心类别对应的标签的总数量，C表示目标文本的第一文本与视频素材的标签中出现与核心类别对应的标签的交集数量，k1和k2为系数，且k1+k2＝1，可以根据实际侧重点设定k1与k2的数值，例如，更加侧重体现目标文本，则可以设定k1＞k2，如果更加侧重体现视频素材，则可以设定k1＜k2。score(b)代表每个第二文本被归类到视频素材的标签中相应非核心类别的标签的概率，xa和xb分别为与score(a)和score(b)对应的权重值，xa和xb的值可以根据需要自行设定，但是需要保证xa+xb＝1。

示例地，第一文本为“张飞”、第二文本为“战场”、“兴奋”、“骑马”，则score(a)具体为score(person)，score(b)具体为score(place)、score(emotion)和score(event)，为人物分配权重值x0，为场景分配权重值x1，为情感分配权重值x2，为事件分配权重值x3，其中，x0+x1+x2+x3＝1。由此，A1＝x0*score(person)+x1*score(place)+x2*score(emotion)+x3*score(event)。如果x0＝0，x1＝0.1，x2＝0.2，x3＝0.7，针对视频素材1，通过上述计算得到：score(person)＝0.4、score(place)＝0.1、score(emotion)＝0.9、score(event)＝0.1，则目标文本与视频素材1的标签的第一相似度为A1＝0*0.4+0.1*0.1+0.2*0.9+0.7*0.1＝0.26。

进一步地，将第一文本、第二文本和文本摘要相关联，可以共同计算得到目标文本与视频素材的第二相似度，即目标文本与视频素材的内容匹配度。具体的，第二相似度满足如下公式：A2＝Q1*A1+Q2*P3，其中，A2代表第二相似度(内容匹配度)，A1代表第一相似度，P3代表文本摘要与描述文本的句子相似度，Q1和Q2分别为与A1和P3对应的权重值，其中，Q1+Q2＝1，0≤Q1≤1，0≤Q2≤1，权重值Q1和Q2可以自行设定，例如，如果比较侧重于视频素材的细节信息，则可以设定Q1＞Q2，如果比较侧重于视频素材的整体信息，则可以设定Q2＞Q1。相应的，设定内容匹配度阈值，如果A3大于或者等于该内容匹配度阈值，则可以确定该视频素材为目标视频素材，否则，该视频素材不是目标视频素材。

上述筛选目标视频素材的过程，需要将目标文本与目标视频素材库中的每个视频素材进行匹配。通常，目标视频素材库中也会包含数量较为庞大的视频素材，由此，上述筛选目标视频素材的过程也需要庞大的计算量，耗费较长的匹配时间。由此，可以以目标视频素材库为基础，构建一个视频素材数量较少的候选视频素材库，再对该候选视频素材库内的候选视频素材进行匹配，具体如下：

S2021、计算所述第一文本与每个所述视频素材的标签的文本相似度。

S2022、构建候选视频素材库，所述候选视频素材库包括多个候选视频素材，其中，所述候选视频素材的标签与所述第一文本的文本相似度大于或者等于所述预设的文本相似度阈值。

S2023、根据所述第二文本与每个所述候选视频素材的标签的概率相似度、以及所述文本摘要与每个所述候选视频素材的描述文本的句子相似度，从所述候选视频素材库中提取所述目标视频素材。

由上文可知，目标文本的第一文本代表目标文本的核心文本内容，如果第一文本与视频素材相匹配，则说明该视频素材一定包含与目标文本相关的视频内容，而不会是与目标文本完全不相关的视频内容。从而，可以以第一文本与视频素材的标签的匹配度作为筛选条件，筛选出目标视频素材库中的候选视频素材。如果目标视频素材库中的视频素材数量较多，则可以设定相对较高的匹配度，以有效控制候选视频素材的数量，并提高候选视频素材与目标文本的文本内容的贴合度。如果目标视频素材库中的视频素材数量较少，则可以设定相对较低的匹配度，以减少第一文本与各视频素材匹配度的计算量。这样，在获得候选视频素材库之后，只需要对候选视频素材库中的各个候选视频素材进行匹配即可，可以有效减少运算量，提高目标视频素材的识别效率。其中，通过计算视频素材的标签与第一文本的匹配度获得候选视频素材的过程，以及后续计算候选视频素材与目标文本的内容匹配度的过程，均可以参考上文中相应的匹配过程，此处不再赘述。

在一些实施例中，可以对由上述过程确定的目标视频素材进行进一步筛选，以提高所确定的目标视频素材的准确度，例如，对匹配度、概率相似度和句子相似度分别符合预设阈值的视频素材，分别按照从高到低排序，取综合排序最高的X个目标视频素材作为最终使用的目标视频素材。或者，将视频素材按照内容匹配度从高到低排序，取排序最高的X个目标视频素材作为最终使用的目标视频素材。

S105、根据各所述目标文本对应的目标视频素材，生成与所述待处理文本对应的目标视频。

如果待处理文本包括多个目标文本，则得到每个目标文本对应的目标视频素材之后，需要将这些目标视频素材合成为对应于待处理文本的目标视频，每个目标视频素材在该目标视频中具有固定的位置，其位置与目标文本在文本信息中对应的位置相一致。示例地，待处理文本包括目标文本1和目标文本2，其中，目标文本1位于目标文本2之前，目标文本1对应目标视频素材1，目标文本2对应目标视频素材2，拼接目标视频素材1与目标视频素材2得到对应于待处理文本的目标视频，其中，目标视频素材1位于目标视频素材2之前，这样，目标视频素材1先于目标视频素材2显示，以匹配目标文本1在目标文本2之前的文本顺序。

通过S101～S105得到目标视频之后，显示该目标视频。示例地，如果视频合成器所在的终端设备具有视频显示功能，则可以直接在该终端设备上显示目标视频；如果视频合成器所在的终端设备不具有视频显示功能，则可以在该终端设备外接一具有视频显示功能的设备，视频合成器所在的终端设备可以将目标视频推送至外接的设备，以通过该设备显示目标视频；如果视频合成器不仅需要在自身所在的终端设备显示目标视频，还可以将目标视频共享到与该终端设备连接，且具有视频显示功能的其它设备上同时显示；如果视频合成器集成于云端服务器，则视频合成器需要将目标视频发送至具有显示功能的终端设备上进行显示。目标视频的显示方式可以视频合成器以及用于显示目标视频的终端设备的具体形式适应性改变，此处不一一列举。

图4示例性示出了S101～S105的交互过程，以视频合成器集成于手机10为例，视频创作者通过在手机10上进行相应的操作，例如点击手机10上的App图标，以进入视频合成器，此时，如图4中a所示，手机10上显示视频合成器中的文本输入界面20，视频创作者可以直接在其上输入目标文本“张飞在战场上骑马”。

视频合成器根据目标文本“张飞在战场上骑马”可以确定目标领域为三国演义领域，进一步地，视频合成器可以根据目标领域三国演义领域确定对应的核心类别和非核心类别，例如核心类别为“人物”，非核心类别为“场景”、“情绪”、“事件”。视频合成器根据核心类别和非核心类别可以确定目标文本“张飞在战场上骑马”中的第一文本和第二文本，具体的，视频合成器获取与核心类别对应的领域词表，该领域词表包括“张飞”、“刘备”、“关羽”，视频合成器可以通过NER模型识别目标文本“张飞在战场上骑马”中的实体名词，例如识别到“张飞在”，并利用上述获得领域词表对所识别到的实体名词进行纠正，得到纠正后的实体名词“张飞”，并将“张飞”作为第一文本。视频合成器使用相应的分类模型从目标文本中提取第二文本，例如通过场景分类模型可以提取到第二文本“战场”，通过事件分类模型可以提取到第二文本“骑马”。视频合成器可以获取目标文本“张飞在战场上骑马”的文本摘要为“张飞在战场上骑马”。

视频合成器获取与目标领域“三国演义领域”对应的视频素材库，该视频素材库包括视频素材1(关于张飞在战场上骑马厮杀的视频)和视频素材2(关于刘关张在桃园结义的视频)。其中，视频素材1包括标签“张飞”、“战场”、“骑马”、“打仗”，描述文本为“张飞在战场上厮杀”；视频素材2包括标签“刘备”、“关羽”、“张飞”、“桃园”、“结义”，描述文本为“刘关张桃园结义”。

视频合成器分别计算目标文本的第一文本与各视频素材的标签的文本相似度，示例地，“张飞”与视频素材1的标签中“张飞”的文本相似度P1＝1，“张飞”与视频素材2的标签中“张飞”的文本相似度P2＝1，假设匹配度阈值为0.8，则视频合成器可以确定候选视频素材库包括候选视频素材(视频素材1和视频素材2)。

视频合成器进一步将候选视频素材(视频素材1和视频素材2)与目标文本进行匹配，以计算目标文本与视频素材的内容匹配度为例，可以根据公式A1＝x0*score(person)+x1*score(place)+x2*score(emotion)+x3*score(event)，计算目标文本与各视频素材的第一相似度。其中，根据公式score(person)＝k1*C/A+k2*C/B，分别计算目标文本与视频素材1的候选标签和视频素材2的候选标签的关联占比，其中，视频素材1的候选标签为“张飞”，视频素材2的候选标签为“张飞”。设定k1＝0.3，k2＝0.7，视频素材1中与核心类别对应的标签为“张飞”，视频素材2中与核心类别对应的标签为“刘备”、“关羽”、“张飞”，则可以计算得到目标文本的第一文本“张飞”与视频素材1的候选标签“张飞”的关联占比score(person)＝1，与视频素材2的候选标签“张飞”的关联占比score(person)＝0.53。通过分类模型(分类类别为场景的分类模型、分类类别为事件的分类模型)可以得到，目标文本被归类到“战场”的概率为0.85，被归类到“桃园”的概率为0.15，则第二文本“战场”与视频素材1的标签“战场”的概率相似度score(place)＝0.85，与视频素材2的标签“桃园”的概率相似度score(place)＝0.15。通过分类模型可以得到，目标文本被归类到“打仗”的概率为0.6，被归类到“结义”的概率为0.4，则目标文本的第二文本“骑马”与视频素材1的标签“打仗”的概率相似度score(event)＝0.6，与视频素材2的标签“结义”的概率相似度score(event)＝0.4。而由于没有对应于情绪的第二文本，因此，第二文本对应于视频素材1和视频素材2的score(emotion)均为0。设定x0＝0，x1＝0.1，x2＝0.2，x3＝0.7，则目标文本与视频素材1的第一相似度为0.505，与视频素材2的第一相似度为0.295。

进一步地，根据公式A2＝Q1*A1+Q2*P3计算目标文本与视频素材1和视频素材2的第二相似度。目标文本的文本摘要为“张飞在战场上骑马”，视频素材1的描述文本为“张飞在战场厮杀”，视频素材2的描述文本为“刘关张桃园结义”。分别计算“张飞在战场上骑马”与“张飞在战场厮杀”的句子相似度P3＝0.8，以及与“刘关张桃园结义”的句子相似度P3＝0.01。设定Q1＝0.6，Q2＝0.4，则目标文本与视频素材1的第二相似度为0.623，与视频素材2的第二相似度为0.181。假设相似度阈值为0.6，则可以确定视频素材1为目标文本对应的目标视频素材，视频合成器提取视频素材1作为目标视频，如图4中b所示，将视频素材1显示于手机10上。

由上述方案可知，通过视频合成器可以通过自动匹配目标文本与视频素材，以快速确定目标视频素材。同时，视频合成器在确定目标视频素材时，综合考虑了目标文本中对应不同内容类别的文本与视频素材的标签的匹配度，以及目标文本的文本摘要与视频素材的描述文本的匹配度，以确保所确定的目标视频素材与目标文本的内容准确对应，进而可以保证由目标视频素材合成的目标视频可以准确展示待处理文本所要表达的内容。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

获取所述目标文本中的第一文本和第二文本，以及所述目标文本的文本摘要，其中，所述第一文本是指所述目标文本中与所述待处理文本所属目标领域中预设的核心类别对应的文本，所述获取所述目标文本中的第一文本包括：获取所述目标领域的领域词表，所述领域词表包括在所述目标领域内与所述核心类别对应的全部文本内容；通过命名实体识别模型提取所述目标文本中与所述核心类别对应的实体名词；根据所述领域词表纠正所述实体名词中的错误实体名词，得到所述第一文本；所述第二文本是指所述目标文本中与所述目标领域中预设的非核心类别对应的文本，所述获取所述目标文本中的第二文本包括：获取与所述非核心类别对应的分类模型，所述分类模型对应多个分类标签；将所述目标文本输入所述分类模型，获得所述目标文本被分类至每个所述分类标签的分类概率；确定并提取第二文本，所述第二文本是指所述分类概率最高的所述分类标签；

所述获取所述目标文本的文本摘要包括：将所述目标文本划分为多个句子，提取所述目标文本的文本摘要；所述文本摘要包括N个句子，其中，所述N个句子是指目标文本中可以代表目标文本的语义的一个或多个句子，且由所述N个句子构成的第一向量与由所述多个句子构成的第二向量之间的向量相似度大于或者等于预设的向量相似度阈值；

获取所述视频素材的候选标签，其中，所述候选标签与所述第一文本的文本相似度大于或者等于预设的文本相似度阈值；计算所述候选标签与所述第一文本的关联占比，所述关联占比是指所述候选标签在所述第一文本中的占比与所述候选标签在所述视频素材与所述核心类别对应的标签中的占比的权重加和；计算所述关联占比和所述第二文本与所述视频素材的标签的概率相似度的权重加和，得到第一相似度；计算所述第一相似度和所述文本摘要与所述视频素材的描述文本的句子相似度的权重加和，得到第二相似度；从所述视频素材库中提取目标视频素材，其中，所述目标视频素材对应的第二相似度大于或者等于预设的相似度阈值；其中，所述第二文本与所述视频素材的标签的概率相似度的获取过程包括：获取所述目标文本被分类至每个所述分类标签的分类概率；确定与所述视频素材的标签相同的目标分类标签；将所述目标文本被分类至所述目标分类标签的分类概率，确定为所述第二文本与所述视频素材的标签的概率相似度；

2.根据权利要求1所述的方法，其特征在于，所述目标视频素材的标签与所述第一文本的文本相似度大于或者等于预设的文本相似度阈值、所述目标视频素材的标签与所述第二文本的概率相似度大于或者等于预设的概率相似度阈值，且所述目标视频素材的描述文本与所述文本摘要的句子相似度大于或者等于预设的句子相似度阈值。

3.根据权利要求1所述的方法，其特征在于，所述从所述视频素材库中提取目标视频素材包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各所述目标文本对应的目标视频素材，生成与所述待处理文本对应的目标视频包括：

5.一种视频合成器，其特征在于，所述视频合成器响应于视频合成指令，采用如权利要求1-4中任一所述的视频合成方法，生成与待处理的文本对应的目标视频。