CN114860994A

CN114860994A - 视频和剧情文本的对齐方法、装置、设备及存储介质

Info

Publication number: CN114860994A
Application number: CN202210425148.4A
Authority: CN
Inventors: 于洋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-05

Abstract

本申请涉及一种视频和剧情文本的对齐方法、装置、设备及存储介质；其中，所述方法包括：获取所述剧情文本以及获取至少一个视频片段；其中，所述剧情文本和至少一个所述视频片段对应于同一个多媒体内容标识；将所述剧情文本划分成至少一个分句；其中，每个所述分句至少反映一段视频剧情；对于每个所述分句，从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段；对于每个所述分句，从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，并存储所述分句与所述目标视频区间之间的对应关系。本申请用以解决现有技术中，视频制作效率低的技术问题。

Description

视频和剧情文本的对齐方法、装置、设备及存储介质

技术领域

本申请涉及多媒体智能处理技术领域，尤其涉及一种视频和剧情文本的对齐方法、装置、设备及存储介质。

背景技术

目前，一般来说视频剪辑都是由有经验的视频剪辑师来完成，通过操作相关制作软件或工具，以纯手工方式、逐行逐句地完成所有文本校对与视频时间轴对齐的工作。

因此，目前这种传统视频的制作方法操作复杂、浪费人力、耗费时间，导致视频制作效率低。

发明内容

本申请提供了一种视频和剧情文本的对齐方法、装置、设备及存储介质，用以解决现有技术中，视频制作效率低的技术问题。

第一方面，本申请提供了一种视频和剧情文本的对齐方法，包括：

获取所述剧情文本以及获取至少一个视频片段；其中，所述剧情文本和至少一个所述视频片段对应于同一个多媒体内容标识；

将所述剧情文本划分成至少一个分句；其中，每个所述分句至少反映一段视频剧情；

对于每个所述分句，从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段；

对于每个所述分句，从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，并存储所述分句与所述目标视频区间之间的对应关系。

可选的，所述获取至少一个视频片段，包括：

获取所述剧情文本对应的完整视频；

按照预设时长，将所述完整视频划分成所述至少一个视频片段。

可选的，所述将所述剧情文本划分成至少一个分句，包括：

获取语义分割模型；

对所述剧情文本进行语义分割，得到所述至少一个分句。

可选的，所述从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段，包括：

提取所述分句的第一特征；

对于每个所述视频片段，提取所述视频片段的第二特征；计算所述第一特征和所述第二特征在同一特征空间的相似度；

从各所述相似度中，确定最大相似度；将所述最大相似度对应的视频片段作为与所述分句匹配的目标视频片段。

可选的，所述从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，包括：

获取所述目标视频片段对应的至少一个时间区间，得到时间区间集合；

利用动态时间弯折算法，从所述时间区间集合中，提取与所述分句在时间上匹配的目标时间区间；

从所述目标视频片段中，提取所述目标时间区间对应的视频区间，作为所述目标视频区间。

可选的，所述存储所述分句与所述目标视频区间之间的对应关系之后，还包括：

基于所述对应关系，读取所述所述目标视频区间对应的所述分句；

在所述目标视频区间的画面上显示所述分句。

第二方面，本申请提供了一种视频和剧情文本的对齐装置，包括：

获取模块，用于获取所述剧情文本以及获取至少一个视频片段；其中，所述剧情文本和至少一个所述视频片段对应于同一个多媒体内容标识；

分句模块，用于将所述剧情文本划分成至少一个分句；其中，每个所述分句至少反映一段视频内容；

检索模块，用于对于每个所述分句，从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段；

筛选模块，用于对于每个所述分句，从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，并存储所述分句与所述目标视频区间之间的对应关系。

可选的，检索模块，用于提取所述分句的第一特征；对于每个所述视频片段，提取所述视频片段的第二特征；计算所述第一特征和所述第二特征在同一特征空间的相似度；从各所述相似度中，确定最大相似度；将所述最大相似度对应的视频片段作为与所述分句匹配的目标视频片段。

第三方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中所存储的程序，实现第一方面所述视频和剧情文本的对齐方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的视频和剧情文本的对齐方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请实施例提供的该方法，以剧情文本中的各个分句为粒度，对于每个分句，从至少一个视频片段中，选取与分句在同一特征空间相似度最大的视频片段，作为与分句匹配的目标视频片段，并从目标视频片段中，筛选出与每个分句从时间上匹配的目标视频区间，存储分句与目标视频区间之间的对应关系。通过该方法，可以有效对齐视频和剧情文本，提高对齐的准确率，可用性强，能够用来全自动的制作剧情解说向的视频摘要，提高视频制作的效率；还可以根据剧情文本，从大量视频片段中，检索到目标视频片段和目标视频区间，给视频剪辑人员提供素材，提高视频制作的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本申请实施例提供的一种视频和剧情文本的对齐方法的流程示意图；

图2为本申请实施例提供的一种视频和剧情文本的对齐装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

为了解决现有技术中，视频制作效率低的技术问题，本申请实施例提供了一种视频和剧情文本的对齐方法，如图1所示，本申请实施例提供的视频和剧情文本的对齐方法，具体包括如下步骤：

步骤101，获取剧情文本以及获取至少一个视频片段；其中，剧情文本和至少一个视频片段对应于同一个多媒体内容标识；

在本申请实施例中，剧情文本可以是剧情简介，也可以是比较详细的剧情描述，例如：该剧情描述可以是场景环境、人物心理、旁白、人物语言等的有序集合。

其中，至少一个视频片段可以是从网络上预先获取的至少一个视频片段，还可以是通过一个完整视频划分成的至少一个视频片段。剧情文本和视频片段是针对同一个多媒体内容标识的，例如：都是针对同一个电视剧的。

其中，对于将一个完整视频划分成至少一个视频片段可以通过如下步骤实现：首先，获取剧情文本对应的完整视频；按照预设时长，将完整视频划分成至少一个视频片段。

为了便于理解，举例说明将完整视频划分成至少一个视频片段的方法。例如：该完整视频为一集视频，一集视频的时长为45分钟，预设时长设定为5分钟，则按照预设时长，将该完整视频平均切分成9个5分钟的片段。

其中，在具体实现时，预设时长可以根据实际需要设定，例如：5分钟，当然，也可以是其他预设时长。

步骤102，将剧情文本划分成至少一个分句；其中，每个分句至少反映一段视频剧情；

其中，可以对剧情文本进行语义分割，得到至少一个分句。在一个具体实施例中，可以利用语义分割模型实现，具体的，将剧情文本划分成至少一个分句，包括：获取语义分割模型；将剧情文本输入到语义分割模型中，得到至少一个分句。

其中，语义分割模型可以是Bert(Bidirectional Encoder Representation fromTransformers，基于转换器的双向编码表征)模型；当然也可以是其他语义分割模型。利用语义分割模型将剧情文本切分成小短句，即分句，每个小短句可以反映一定的视频区间，小短句是对齐的最小单元，即每个小短句都会有一个对应的目标视频区间。

在具体实现时，以剧情文本为一整集的剧情简介为例，一方面由于有的剧情简介本身标点的粒度较粗，直接使用剧情简介中的句号来分句的话，会出现一句话太长导致匹配得到的视频区间也很长，粒度过粗的问题，另一方面，如果单纯的基于标点符号进行划分，得到的小短句，可能无法反映一定的视频内容。因此，要用训练好的细粒度语义切分模型对剧情简介进行重新分句，每一个小短句都尽量较短，同时还能反应一定的视频内容。

具体的，在利用语义分割模型对剧情文本进行分句时，可以利用预先标注好的剧情简介的分句结果来训练语义分割模型，其中，预先标注好的剧情简介的分句结果在标注时，结合视频内容进行标注，使得标注得到的分句结果尽量较短，且还能反映一定的视频内容。

例如：原句为：柳青鸾担心在宫中是新面孔容易被发现，无心施了幻术让宫中的人都觉得柳青鸾眼熟，两人在宫里走着，遇到的人确实都与两人相熟。经过语义分割模型切分后，得到的至少一个分句为：

柳青鸾担心在宫中是新面孔容易被发现。

无心施了幻术让宫中的人都觉得柳青鸾眼熟。

两人在宫里走着，遇到的人确实都与两人相熟。

步骤103，对于每个分句，从至少一个视频片段中，选取与分句在同一特征空间相似度最大的视频片段，作为与分句匹配的目标视频片段；

具体的，从至少一个视频片段中，选取与分句在同一特征空间相似度最大的视频片段，作为与分句匹配的目标视频片段，包括：

提取分句的第一特征；对于每个视频片段，提取视频片段的第二特征；计算第一特征和第二特征在同一特征空间的相似度；从各相似度中，确定最大相似度；将最大相似度对应的视频片段作为与分句匹配的目标视频片段。

对于步骤103，在具体实现时，选取与分句匹配的目标视频片段时，可以利用视频片段检索模型，计算得到每个分句各自对应的目标视频片段；其中，视频片段检索模型可以是多模态模型，多模态模型在图文匹配方面表现优异。

在具体实现时，首先要训练得到多模态模型，其中，对多模态模型进行训练的过程主要分为两大部分：第一部分，利用多组预训练数据对初始多模态模型进行预训练，得到预训练多模态模型；第二部分，利用标注数据对预训练多模态模型进行微调，最终得到多模态模型。

最近两年出现了基于Transformer结构的多模态模型，通过海量无标注数据进行预训练，然后使用少量有标注数据进行微调即可。

对多模态模型进行训练的过程具体包括：

首先要利用多组预训练数据，训练初始多模态模型，得到预训练多模态模型；其中，每组预训练数据包括：第一文本和第一文本对应的第一视频；其中，第一文本和第一视频具有场景对应关系；获取多个第二文本以及第二文本各自对应的第二视频；其中，第二视频标注有第二文本对应的标注时间区间；对于每个第二文本各自对应的第二视频进行如下操作：利用第二文本、与第二文本对应的第二视频以及标注时间区间，对预训练多模态模型进行训练，得到多模态模型。

目前，主流的多模态模型为基于Bert的多模态模型，例如：VL-Bert(通用视觉-语言预训练，Visual-Linguistic BERT，简称VL-BERT)模型，将图片、文本等不同模态的输入一视同仁；当然，也可以采用其他多模态模型。为了让多模态模型能够较好的对齐文本和视频两个模态，需要使用CLIP提取特征，CLIP的模型结构采用的是经典的双塔结构，对于图片域和文本域有着不同的图片编码器(Image Encoder)和文本编码器(Text Encoder)，得到文本和视频两个特征后，利用它们之间的对应关系训练初始多模态模型，得到预训练多模态模型。

预训练完成后，利用标注数据(利用第二文本、与第二文本对应的第二视频以及标注时间区间)对预训练多模态模型进行训练，得到多模态模型。

经过步骤102后，得到至少一个分句，在步骤103中，目的是为了给每个分句都匹配到目标视频片段，以及在目标视频片段里所对应的时间区间(又叫候选时间区间)。

为了便于理解，这里举例说明，经过步骤102后，得到3个小短句；检索的视频范围是：将一集45分钟时长的完整视频，切分成的9个5分钟的片段，多模态模型预测每个小短句对应的目标视频频段，以及在该目标视频片段中对应的时间区间集合。例如：某个小短句为：柳青鸾担心在宫中是新面孔容易被发现；切分好的9个5分钟视频片段分别为片段1、片段2……、片段9；利用多模态模型，学习到与该小短句对应的目标视频片段为片段1，对应片段1里的时间区间集合为：273s-284s、271s-284s。

步骤104，对于每个分句，从目标视频片段中，筛选出与分句从时间上匹配的目标视频区间，并对应存储分句与目标视频区间。

对于获取目标视频区间，在具体实现时，获取目标视频片段对应的至少一个时间区间，得到时间区间集合；可以利用动态时间弯折算法，从时间区间集合中，提取与分句在时间上匹配的目标时间区间；从目标视频片段中，提取目标时间区间对应的视频区间，作为目标视频区间。

其中，在具体实现时，可以将目标视频片段按照预设时长划分成多段子片段，对于每段子片段，提取每段子片段的第三特征，将第三特征和第一特征映射到同一特征空间，并进行特征融合，得到融合后的特征；基于各融合后的特征进行分类，得到与分句对应的子片段，确定每个子片段的时间区间，得到目标视频片段对应的至少一个时间区间，即时间区间集合。在具体实现时，可以将分句和目标视频片段输入到多模态模型中，从而识别得到时间区间集合。

对于动态时间弯折算法(又叫动态时间弯曲算法，Dynamic Time Warping)，其目的在于寻求两个不同的模板(剧情文本和完整视频)之间的时间对应关系，在本申请实施例中，即寻找剧情文本与完整视频之间的时间对应关系，或者说，是某个分句与目视频区间之间的对应关系。动态时间完整算法基于一个重要的假设：剧情文本的文本顺序和视频的时间轴大体上应该是对应的，也就是说：剧情文本的第一句话对应的一般是在视频的开头，剧情文本的最后一句话对应的一般是在视频的结尾，在某一句后面的分句，一般来说在视频上的顺序也是在后面的。

对上述得到的时间区间集合，利用动态时间弯折算法，从中过滤掉顺序上不匹配的时间区间，得到最佳匹配的时间区间，即目标时间区间。

其中，存储分句与目标视频区间之间的对应关系，可以存储在本地数据库中，也可以存储在云端服务器中，为视频制作提供素材基础。

在一个具体实施例中，存储分句与目标视频区间之间的对应关系之后，还包括：基于对应关系，读取目标视频区间对应的分句；在目标视频区间相应的画面上显示分句。

在制作视频文件时，可以从本地数据库或者云端服务器中，读取该对应关系，根据该对应关系查到目标视频区间对应的分句，在目标视频区间的画面上显示该分句，由此，不仅能够帮助计算机或用户更好、更快的理解视频，还能够快速的完成视频制作。

本申请实施例中，以剧情文本中的各个分句为粒度，对于每个分句，从至少一个视频片段中，选取与分句在同一特征空间相似度最大的视频片段，作为与分句匹配的目标视频片段，并从目标视频片段中，筛选出与每个分句从时间上匹配的目标视频区间，存储分句与目标视频区间之间的对应关系。通过该方法，可以有效对齐视频和剧情文本，提高对齐的准确率，可用性强，能够用来全自动的制作剧情解说向的视频摘要，提高视频制作的效率；还可以根据剧情文本，从大量视频片段中，检索到目标视频片段和目标视频区间，给视频剪辑人员提供素材，提高视频制作的效率。

基于同一构思，本申请实施例中提供了一种视频和剧情文本的对齐装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述。如图2所示，该装置主要包括：

获取模块201，用于获取所述剧情文本以及获取至少一个视频片段；其中，所述剧情文本和至少一个所述视频片段对应于同一个多媒体内容标识；

分句模块202，用于将所述剧情文本划分成至少一个分句；其中，每个所述分句至少反映一段视频内容；

检索模块203，用于对于每个所述分句，从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段；

筛选模块204，用于对于每个所述分句，从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，并存储所述分句与所述目标视频区间之间的对应关系。

在一个具体实施例中，获取模块201，用于获取所述剧情文本对应的完整视频；按照预设时长，将所述完整视频划分成所述至少一个视频片段。

在一个具体实施例中，分句模块202，用于对所述剧情文本进行语义分割，得到所述至少一个分句。

在一个具体实施例中，检索模块203，用于提取所述分句的第一特征；对于每个所述视频片段，提取所述视频片段的第二特征；计算所述第一特征和所述第二特征在同一特征空间的相似度；从各所述相似度中，确定最大相似度；将所述最大相似度对应的视频片段作为与所述分句匹配的目标视频片段。

在一个具体实施例中，筛选模块204，用于获取所述目标视频片段对应的至少一个时间区间，得到时间区间集合；利用动态时间弯折算法，从所述时间区间集合中，提取与所述分句在时间上匹配的目标时间区间；从所述目标视频片段中，提取所述目标时间区间对应的视频区间，作为所述目标视频区间。

在一个具体实施例中，本申请实施例提供的视频和剧情文本的对齐装置还包括：制作模块，用于在存储所述分句与所述目标视频区间之间的对应关系之后，基于所述对应关系，读取所述所述目标视频区间对应的所述分句；在所述目标视频区间的画面上显示所述分句。

在本申请实施例中，以剧情文本中的各个分句为粒度，从至少一个视频片段中，检索出至少一个分句各自匹配的目标视频片段，并从目标视频片段中，筛选出与每个分句从时间上匹配的目标视频区间，存储分句与目标视频区间之间的对应关系。通过该方法，可以有效对齐视频和剧情文本，提高对齐的准确率，可用性强，能够用来全自动的制作剧情解说向的视频摘要，提高视频制作的效率；还可以根据剧情文本，从大量视频片段中，检索到目标视频片段和目标视频区间，给视频剪辑人员提供素材，提高视频制作的效率。

基于同一构思，本申请实施例中还提供了一种电子设备，如图3所示，该电子设备主要包括：处理器301、存储器302和通信总线303，其中，处理器301和存储器302通过通信总线303完成相互间的通信。其中，存储器302中存储有可被处理器301执行的程序，处理器301执行存储器302中存储的程序，实现如下步骤：

上述电子设备中提到的通信总线303可以时外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线303可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器302可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器301的存储装置。

上述的处理器301可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等，还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的一种视频和剧情文本的对齐方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频和剧情文本的对齐方法，其特征在于，包括：

2.根据权利要求1所述的视频和剧情文本的对齐方法，其特征在于，所述获取至少一个视频片段，包括：

获取所述剧情文本对应的完整视频；

3.根据权利要求1所述的视频和剧情文本的对齐方法，其特征在于，所述将所述剧情文本划分成至少一个分句，包括：

对所述剧情文本进行语义分割，得到所述至少一个分句。

4.根据权利要求1所述的视频和剧情文本的对齐方法，其特征在于，所述从所述至少一个视频片段中，选取与所述分句在同一特征空间相似度最大的视频片段，作为与所述分句匹配的目标视频片段，包括：

提取所述分句的第一特征；

5.根据权利要求4所述的视频和剧情文本的对齐方法，其特征在于，所述从所述目标视频片段中，筛选出与所述分句从时间上匹配的目标视频区间，包括：

6.根据权利要求1～5任意一项所述的视频和剧情文本的对齐方法，其特征在于，所述存储所述分句与所述目标视频区间之间的对应关系之后，还包括：

在所述目标视频区间的画面上显示所述分句。

7.一种视频和剧情文本的对齐装置，其特征在于，包括：

8.根据权利要求7所述的视频和剧情文本的对齐装置，其特征在于，检索模块，用于提取所述分句的第一特征；对于每个所述视频片段，提取所述视频片段的第二特征；计算所述第一特征和所述第二特征在同一特征空间的相似度；从各所述相似度中，确定最大相似度；将所述最大相似度对应的视频片段作为与所述分句匹配的目标视频片段。

9.一种电子设备，包括：处理器、存储器和通信总线，其中，处理器和存储器通过通信总线完成相互间的通信；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中所存储的程序，实现权利要求1至6任一项所述的视频和剧情文本的对齐方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的视频和剧情文本的对齐方法。