CN118200683A

CN118200683A - 一种多模态对齐方法、装置、电子设备及存储介质

Info

Publication number: CN118200683A
Application number: CN202410373438.8A
Authority: CN
Inventors: 周晨
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-06-14

Abstract

本发明实施例提供了一种多模态对齐方法、装置、电子设备及存储介质，包括：获取剧情文本，获取与剧情文本关联的视频；在视频中，确定与剧情文本的文本语义匹配的第一对齐信息，第一对齐信息包括剧情文本对应的初始视频片段，以及初始视频片段对应的时间信息；提取视频中视频帧的视觉特征；基于视觉特征，将视频划分为至少两个目标视频片段；基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息。通过本发明实施例提供的多模态对齐方法、装置、电子设备及存储介质，能够提高文本与视频内容匹配的准确度。

Description

一种多模态对齐方法、装置、电子设备及存储介质

技术领域

本发明涉及多媒体应用技术领域，特别是涉及一种多模态对齐方法、装置、电子设备及存储介质。

背景技术

在现代的数字媒体环境中，视频内容的提取和合成成为越来越重要的应用。其中，通过多模态对齐算法为一句话匹配相应的视频剧情是一个典型的应用，这对于视频制作人员来说是极其有用的工具，例如，在制作视频解说的场景中为解说方案寻找相应的视频画面。

但是，现有的多模态对齐算法对于文本与视频内容匹配的准确度还有待提高。

发明内容

本发明实施例的目的在于提供一种多模态对齐方法、装置、电子设备及存储介质，以提高文本与视频内容匹配的准确度。具体技术方案如下：

第一方面，提供了一种多模态对齐方法，包括：

获取剧情文本，获取与剧情文本关联的视频；

在所述视频中，确定与所述剧情文本的文本语义匹配的第一对齐信息，所述第一对齐信息包括所述剧情文本对应的初始视频片段，以及所述初始视频片段对应的时间信息；

提取所述视频中视频帧的视觉特征；

基于所述视觉特征，将所述视频划分为至少两个目标视频片段；

基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息。

可选地，所述视觉特征包括：颜色特征，和/或，亮度特征；

所述基于所述视觉特征，将所述视频划分为至少两个目标视频片段，包括：

基于所述颜色特征，和/或，所述亮度特征，确定第一分割点；

基于所述第一分割点，将所述视频划分为至少两个目标视频片段。

可选地，所述视觉特征包括：颜色特征，和/或，亮度特征；

识别所述视频的转场点；

基于所述转场点，确定第二分割点；

基于所述第一分割点和所述第二分割点，将所述视频划分为至少两个目标视频片段。

可选地，所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息，包括：

针对每一目标视频片段，计算所述目标视频片段的时间信息与所述初始视频片段的时间信息的时间交集，并选取最大的时间交集；

将最大的时间交集对应的目标视频片段的时间信息；作为第二对齐信息的时间信息；或者，

将最大的时间交集对应的目标视频片段的时间信息，与所述初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

针对每一目标视频片段，计算所述目标视频片段的时间信息与所述初始视频片段的时间信息的时间交集，并选取时间交集大于预设时长所对应的目标视频片段；

将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息；或者，

将时间交集大于预设时长所对应的目标视频片段的时间信息，与所述初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

可选地，当时间交集大于预设时长所对应的目标视频片段有多个时，所述将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息，包括：

将时间交集大于预设时长所对应的多个目标视频片段的时间信息进行组合，作为第二对齐信息的时间信息；

所述将时间交集大于预设时长所对应的目标视频片段的时间信息，与所述初始视频片段的时间信息的交集，作为第二对齐信息的时间信息，包括：

将时间交集大于预设时长所对应的多个目标视频片段的时间信息，分别与所述初始视频片段的时间信息的交集进行组合，作为第二对齐信息的时间信息，并将时间交集大于预设时长所对应的多个目标视频片段进行组合，得到拼接视频。

可选地，在所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息之后，所述方法还包括：

将多句剧情文本对应所述第二对齐信息的视频片段进行组合，得到目标视频。

第二方面，提供了一种多模态对齐装置，包括：

获取模块，用于获取剧情文本，获取与剧情文本关联的视频；

确定模块，用于在所述视频中，确定与所述剧情文本的文本语义匹配的第一对齐信息，所述第一对齐信息包括所述剧情文本对应的初始视频片段，以及所述初始视频片段对应的时间信息；

提取模块，用于提取所述视频中视频帧的视觉特征；

划分模块，用于基于所述视觉特征，将所述视频划分为至少两个目标视频片段；

调整模块，用于基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的多模态对齐方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的多模态对齐方法。

本发明实施例中，获取剧情文本，获取与剧情文本关联的视频；在所述视频中，确定与所述剧情文本的文本语义匹配的第一对齐信息，所述第一对齐信息包括所述剧情文本对应的初始视频片段，以及所述初始视频片段对应的时间信息；提取所述视频中视频帧的视觉特征；基于所述视觉特征，将所述视频划分为至少两个目标视频片段；基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息。通过视频的视觉特征对视频进行划分，并基于初始对齐信息中所述初始视频片段的时间信息分别与划分得到的目标视频片段的时间信息的时间交集，对与所述剧情文本的文本语义匹配的初始对齐信息进行调整，如此，能够提高文本与视频内容匹配的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中多模态对齐方法的流程图；

图2为本发明实施例中应用多模态对齐方法的示意图；

图3为本发明实施例中多模态对齐装置的结构示意图；

图4为本发明实施例中电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1为本发明实施例提供的多模态对齐方法的流程图，参考图1，本发明实施例提供的多模态对齐方法包括：

S101，获取剧情文本，获取与剧情文本关联的视频；

S102，在视频中，确定与剧情文本的文本语义匹配的第一对齐信息，第一对齐信息包括剧情文本对应的初始视频片段，以及初始视频片段对应的时间信息；

S103，提取视频中视频帧的视觉特征；

S104，基于视觉特征，将视频划分为至少两个目标视频片段；

S105，基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息。

本发明实施例中，通过视频的视觉特征对视频进行划分，并基于初始对齐信息中初始视频片段的时间信息分别与划分得到的目标视频片段的时间信息的时间交集，对与剧情文本的文本语义匹配的初始对齐信息进行调整，如此，能够提高文本与视频内容匹配的准确度。

S101中，剧情文本可以为解说文案。例如，制作解说视频过程中，有一段剧情文案以及一段视频如一个电影、一集电视剧，将剧情文案划分为多个解说文案，为每一个解说文案寻找对应的视频画面，或者说，为每一个解说文案寻找对应的视频片段。

获取与剧情文本关联的视频，可以获取视频内容与剧情文本关联的视频。例如，待利用一剧情文本为一视频进行解说时，该视频可以理解为与该剧情文本关联的视频。

S102，在与剧情文本关联的视频中，确定与剧情文本的文本语义匹配的第一对齐信息，可以包括：将剧情文本通过剧情匹配算法分配对应的视频片段，这里分配的视频片段即为初始视频片段。其中，剧情匹配算法可以采用已有的剧情匹配算法，本发明实施例不对此作限制。

其中，第一对齐信息中包括的初始视频片段对应的时间信息可以是该初始视频片段对应的时间范围，例如，可以是初始视频片段在视频中开始的时间点至结束的时间点的时间范围。

这里得到的第一对齐信息也可以理解为初始对齐信息，后续对该初始对齐信息进行调整。

S103中，视觉特性可以用于表征场景的稳定性。例如，大多数影视剧中讲述一段完整故事的视频通常在同一场景下完成，而这些场景在颜色、光线等视觉特性上通常保持相对稳定。本发明实施例中可以通过图像处理技术提取视频中视频帧的视觉特征表征视频的视觉特征。

视觉特征可以包括：颜色特征，和/或，亮度特征。

颜色特征和亮度特征是图像中比较常用的特征，本发明实施例对提取视频帧的颜色特征以及提取视频帧的亮度特征的方式不作限制。

具体地，可以通过提取颜色直方图的方式，提取视频帧中每个视频帧的颜色直方图作为颜色特征。其中，提取颜色直方图的方式可以采用图像处理技术中任意的提取方式，本发明实施例不对此作限制。

具体地，可以通过提取亮度直方图的方式，提取视频中每个视频帧的亮度直方图作为亮度特征。其中，提取亮度直方图的方式可以采用图像处理技术中任意的提取方式，本发明实施例不对此作限制。

例如对于任一视频帧，将该视频帧划分为多个区块；分别统计视频帧和各个区块的亮度直方图特征；将视频帧和各个区块的亮度直方图特征转换为一维数组，作为提取出的亮度特征。

基于上述方式提取视频中视频帧的视觉特征之后，即可执行S104：基于视觉特征，将视频划分为至少两个目标视频片段。

一种可实现方式中，S104包括：

基于颜色特征，和/或，亮度特征，确定第一分割点；基于第一分割点，将视频划分为至少两个目标视频片段。

其中，第一分割点可以有一个，也可以有多个。

具体地，从视频中第二帧开始，依次将当前视频帧与前一视频帧的颜色特征，和/或，亮度特征进行比较，若一视频帧与其前一视频帧的颜色特征，和/或，亮度特征的差异大于预设差异值，则将该视频帧作为第一分割点，或者，也可以将该视频帧的时间信息作为第一分割点。其中，预设差异值可以根据经验或实际需求来确定。

将当前视频帧与前一视频帧的颜色特征，和/或，亮度特征进行比较，若一视频帧与其前一视频帧的颜色特征，和/或，亮度特征的差异大于预设差异值，则将该视频帧作为第一分割点，可以包括如下方式：

第1种，将当前视频帧与前一视频帧的颜色特征进行比较，若一视频帧与其前一视频帧的颜色特征的差异大于预设差异值，则将该视频帧作为第一分割点；

这种情况下，预设差异值可以包括预设颜色差异值；

例如，若通过颜色直方图表示视频帧的颜色特征，则可以针对视频帧中各像素点，计算当前视频帧对应的颜色直方图中该像素点的颜色特征值与前一视频帧对应的颜色直方图中该像素点的颜色特征值之间的颜色特征值差异，对所有像素点的颜色特征值差异进行统计，如求平均值、求方差等，并将得到的统计值与预设颜色差异值进行比较，若该统计值大于预设颜色差异值，则将当前视频帧作为第一分割点。

第2种，将当前视频帧与前一视频帧的亮度特征进行比较，若一视频帧与其前一视频帧的亮度特征的差异大于预设差异值，则将该视频帧作为第一分割点；

这种情况下，预设差异值可以包括预设亮度差异值；

例如，若通过亮度直方图表示视频帧的亮度特征，则可以针对视频帧中各像素点，计算当前视频帧对应的亮度直方图中该像素点的亮度特征值与前一视频帧对应的亮度直方图中该像素点的亮度特征值之间的亮度特征值差异，对所有像素点的亮度特征值差异进行统计，如求平均值、求方差等，并将得到的统计值与预设亮度差异值进行比较，若该统计值大于预设亮度差异值，则将当前视频帧作为第一分割点。

第3种，将当前视频帧与前一视频帧的颜色特征和亮度特征进行比较，若一视频帧与其前一视频帧的颜色特征和亮度特征的差异大于预设差异值，则将该视频帧作为第一分割点。

例如，根据第1种方式针对视频帧中各像素点，计算当前视频帧对应的颜色直方图中该像素点的颜色特征值与前一视频帧对应的颜色直方图中该像素点的颜色特征值之间的颜色特征值差异，对所有像素点的颜色特征值差异进行统计，如求平均值、求方差等，得到颜色特征对应的统计值，并根据第2种方式针对视频帧中各像素点，计算当前视频帧对应的亮度直方图中该像素点的亮度特征值与前一视频帧对应的亮度直方图中该像素点的亮度特征值之间的亮度特征值差异，对所有像素点的亮度特征值差异进行统计，如求平均值、求方差等，得到亮度特征对应的统计值，然后，计算颜色特征对应的统计值和亮度特征对应的统计值的平均值，若该平均值大于预设差异值，则将该视频帧作为第一分割点。

另一种可实现方式中，还可以包括：识别视频的转场点；基于转场点，确定第二分割点；

这种情况下，S104可以包括：基于颜色特征，和/或，亮度特征，确定第一分割点；识别视频的转场点；基于转场点，确定第二分割点；基于第一分割点和第二分割点，将视频划分为至少两个目标视频片段。

其中，识别视频的转场点，并基于转场点，确定第二分割点的该步骤，可以在基于颜色特征，和/或，亮度特征，确定第一分割点这个步骤之前执行，也可以在基于颜色特征，和/或，亮度特征，确定第一分割点之后执行，或者与基于颜色特征，和/或，亮度特征，确定第一分割点同步执行均可，本发明实施例不对步骤之间的顺序进行限制。

基于第一分割点和第二分割点，将视频划分为至少两个目标视频片段，可以包括：先基于第一分割点将所述视频划分，再基于第二分割点对基于第一分割点划分得到的结果进行划分，得到至少两个目标视频片段；或者，也可以先基于第二分割点将所述视频划分，再基于第一分割点对基于第二分割点划分得到的结果进行划分，得到至少两个目标视频片段；或者，直接同时利用第一分割点和所述第二分割点，将所述视频划分为至少两个目标视频片段，只要实现基于所述第一分割点和所述第二分割点，将所述视频划分为至少两个目标视频片段的手段均可，本发明实施例不对步骤之间的执行顺序作限制。

其中，第二分割点可以有一个，也可以有多个。

一般情况下，不同场景之间一般有明显的转场点，为了可以利用场景的不同对视频进行划分，本发明实施例可以提取视频的转场点，在利用视觉特征划分视频的过程中，可以结合转场点，如此能够更加准确地基于场景的不同对视频进行划分。

一种可实现方式中，可以利用已有的转场检测算法得到视频的转场点，并将得到的转场点直接作为第二分割点。

可以理解，转场点场景发生转变的视频帧，若上第一分割点为视频帧，则可以直接将转场点作为第二分割点，若上述第一分割点为是视频帧的时间信息，则将转场点的时间信息作为第二分割点。

本发明实施例中根据转场点和视觉特性把视频划分至少两个目标视频片段，可以理解为划分为多个场景，每个场景或者每个目标视频片段的画面在颜色和亮度等视觉特性上相对稳定。

在将视频划分为至少两个目标视频片段之后，可以利用划分得到的至少两个目标视频片段对初始对齐信息进行调整。

一种可实现方式中，S105包括：

针对每一目标视频片段，计算目标视频片段的时间信息与初始视频片段的时间信息的时间交集，并选取最大的时间交集；将最大的时间交集对应的目标视频片段的时间信息；作为第二对齐信息的时间信息；或者，将最大的时间交集对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

下面以包括2个目标视频片段：A和B为例进行说明。需要说明的是，这里仅是为了便于说明及理解，实际应用过程中，目标视频片段的数量可以更多。另外，至少两个目标视频片段的时长可以相同，也可以不同，或者，也可以部分相同，部分不相同，本发明实施例不对此作限制。

例如，目标视频片段A的时间信息为[1s，10s]，表示目标视频片段A从视频的第1秒开始至视频的第10秒，目标视频片段B的时间信息为[10s，35s]，表示目标视频片段B从视频的第10秒开始至视频的第35秒，第一对齐信息包括的初始视频片段的时间信息为[5s，25s]，表示初始视频片段从视频的第5秒开始至视频的第25秒；

计算目标视频目标视频片段A的时间信息与初始视频片段的时间信息的时间交集为[5s，10s]，目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集为[10s，25s]，目标视频目标视频片段A的时间信息与初始视频片段的时间信息的时间交集[5s，10s]的时长是5s，目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集为[10s，25s]的时长是15s，比较5s<15s，则查找出其中最大的时间交集即是目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集：[10s，25s]。

如此，将目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集：[10s，25s]；作为第二对齐信息的时间信息；或者，将目标视频片段B的时间信息为[10s，35s]，作为第二对齐信息的时间信息。

在实际应用过程中，有可能存在各目标视频片段的时间信息与初始视频片段的时间信息的时间交集的时长相同。

例如，包括目标视频片段C和D，目标视频片段C的时间信息为[1s，15s]，目标视频片段D的时间信息为[15s，35s]，第一对齐信息包括的初始视频片段的时间信息为[5s，25s]；计算目标视频目标视频片段C的时间信息与初始视频片段的时间信息的时间交集为[5s，15s]，目标视频目标视频片段D的时间信息与初始视频片段的时间信息的时间交集为[15s，25s]，目标视频目标视频片段C的时间信息与初始视频片段的时间信息的时间交集[5s，15s]的时长是10s，目标视频目标视频片段D的时间信息与初始视频片段的时间信息的时间交集为[15s，25s]的时长是10s，比较目标视频目标视频片段C的时间信息与初始视频片段的时间信息的时间交集和目标视频目标视频片段D的时间信息与初始视频片段的时间信息的时间交集，则可以得出目标视频目标视频片段C的时间信息与初始视频片段的时间信息的时间交集和目标视频目标视频片段D的时间信息与初始视频片段的时间信息的时间交集的时长相同。

如此，当初步剧情匹配结果，也即获取的文本对应的初始视频片段中包含多个场景的视频片段，则可以利用最大的时间交集对应的目标视频片段的时间信息或者将最大的时间交集对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集替换之前的初始视频片段的时间信息，或者。或者说，将初始视频片段中场景所占时间比较短或者场景所占比例低的场景的视频片段剔除。如此能一定程度降低为文本寻找到的视频片段中包含无关画面。

在各目标视频片段的时间信息与初始视频片段的时间信息的时间交集的时长相同这种情况下，可以认为无法利用目标视频片段进行调整，则可以保持第一对齐信息不变，或者，可以认为初始对齐信息准确率较低，则可以将第一对齐信息调整为空，也即调整后的第二对齐信息为空。

另一种可实现方式中，S105包括：

针对每一目标视频片段，计算目标视频片段的时间信息与初始视频片段的时间信息的时间交集，并选取时间交集大于预设时长所对应的目标视频片段；将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息；或者，将时间交集大于预设时长所对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

其中，预设时长可以根据实际需求或经验确定。

假设预设时长为10s，且这里仍以包括上述目标视频片段A和B为例进行说明，目标视频片段A的时间信息为[1s，10s]，目标视频片段B的时间信息为[10s，35s]，第一对齐信息包括的初始视频片段的时间信息为[5s，25s]；

计算目标视频目标视频片段A的时间信息与初始视频片段的时间信息的时间交集为[5s，10s]，目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集为[10s，25s]，目标视频目标视频片段A的时间信息与初始视频片段的时间信息的时间交集[5s，10s]的时长是5s，将该时长5s与预设时长10s比较，其小于预设时长；目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集为[10s，25s]的时长是15s，将该时长15s与预设时长10s比较，其大于预设时长，如此，可以选取时间出交集大于预设时长所对应的目标视频片段为目标视频片段B；

将目标视频目标视频片段B的时间信息与初始视频片段的时间信息的时间交集：[10s，25s]；作为第二对齐信息的时间信息；或者，可以目标视频片段B的时间信息为[10s，35s]，作为第二对齐信息的时间信息。

如此，一种可实现方式中，当初步剧情匹配结果，也即获取的文本对应的初始视频片段中包含多个场景的视频片段，则可以利用时间交集大于预设时长所对应的目标视频片段的时间信息，或者，利用时间交集大于预设时长所对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集替换之前的初始视频片段的时间信息。或者说，将初始视频片段中场景所占时间比较短或者场景所占比例低的场景的视频片段剔除。如此能一定程度降低为文本寻找到的视频片段中包含无关画面。

当所有目标视频片段的时间信息与初始视频片段的时间信息的时间交集均小于预设时长，则可以认为无法利用目标视频片段进行调整，则可以保持第一对齐信息不变，或者，可以认为初始对齐信息准确率较低，则可以将第一对齐信息调整为空，也即调整后的第二对齐信息为空。

再一种可实现方式中，S105包括：

当时间交集大于预设时长所对应的目标视频片段有多个时，将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息，包括：

将时间交集大于预设时长所对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息，包括：

将时间交集大于预设时长所对应的多个目标视频片段的时间信息，分别与初始视频片段的时间信息的交集进行组合，作为第二对齐信息的时间信息，并将时间交集大于预设时长所对应的多个目标视频片段进行组合，得到拼接视频。

一个例子中，假设预设时长为10s，初始目标视频片段的时间信息为[5s，35s]，目标视频片段包括3个，目标视频片段E、F和G，目标视频片段E的时间信息为[1s，17s]，目标视频片段F的时间信息为[17s，20s]，目标视频片段G的时间信息为[20s，40s]；

计算目标视频目标视频片段E的时间信息与初始视频片段的时间信息的时间交集为[5s，17s]，时长为12s，其大于预设时长10s；目标视频目标视频片段F的时间信息与初始视频片段的时间信息的时间交集为[17s，20s]，时长为3s，其小于预设时长10s；目标视频目标视频片段G的时间信息与初始视频片段的时间信息的时间交集为[20s，35s]，时长为15s，其大于预设时长10s。

目标视频目标视频片段E的时间信息与初始视频片段的时间信息的时间交集，和目标视频目标视频片段G的时间信息与初始视频片段的时间信息的时间交集，均大于预设时长，可以将目标视频目标视频片段E的时间信息[1s，17s]与目标视频目标视频片段G的时间信息[20s，40s]进行组合，作为第二对齐信息的时间信息。或者，可以将目标视频目标视频片段E的时间信息与初始视频片段的时间信息的时间交集[5s，17s]，与目标视频目标视频片段G的时间信息与初始视频片段的时间信息的时间交集[20s，35s]进行组合，作为第二对齐信息的时间信息。

还有一种可实现方式中，当有多于1个目标视频片段的时间信息与初始视频片段的时间信息的时间交集的时长均大于预设时长，则可以从其中选取最大的时间交集，并将最大的时间交集对应的目标视频片段的时间信息；作为第二对齐信息的时间信息；或者，将最大的时间交集对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。进一步，若时间交集的时长均大于预设时长的多个目标视频片段的时间信息与初始视频片段的时间信息的时间交集的时长相同这种情况下，可以认为无法利用目标视频片段进行调整，则可以保持第一对齐信息不变，或者，可以认为初始对齐信息准确率较低，则可以将第一对齐信息调整为空，也即调整后的第二对齐信息为空。

本发明实施例提供的多模态对齐方法可以应用于生成混剪视频的场景中。

一种可选地实施例中，在基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息之后，还可以包括：将多句剧情文本对应第二对齐信息的视频片段进行组合，得到目标视频。

对于多句剧情文本中每一剧情文本，均可以采用上述实施例中提供的多模态对齐方法对其初始对齐信息进行调整，如此，可以将各剧情文本对应的调整后的对齐信息的视频片段进行组合，得到目标视频，该目标视频可以理解为混剪视频。

本发明实施例提供的多模态对齐方法可以应用于解说视频的制作过程中，参照图2，对本发明实施例提供的多模态对齐方法应用于制作解说视频的场景下进行详细说明。

第1步，获取剧情文本，具体为获取解说文案；

第2步，通过剧情匹配算法得到解说文案对应的初始剧情匹配结果，也即，得到解说文案对应的第一对齐信息，第一对齐信息包括解说文案对应的初始视频片段，以及初始视频片段对应的时间信息。

例如，通过剧情匹配算法得到多个解说文案分别对应的n个视频检索片段。每一解说文案对应的视频检索片段可以理解为解说文案对应的初始视频片段。

通过剧情匹配算法确定初始视频片段的过程也可以理解为：执行剧情匹配，为已知解说文案寻找对应的视频片段，这一步采用已有的剧情匹配算法，匹配结果可能并非十分精确。

例如，现有的剧情匹配算法在为解说文案寻找相应视频画面时的准确度和细致度。这些算法通常依赖于时序信息，在确定每一句话所匹配的视频帧时往往无法达到精细的帧级别，导致在实际应用中，例如视频解说等场景，可能会出现一些与解说文案不完全相关或者无法精确匹配的画面，影响观众的观看体验。

第3步，获取原始视频，并获取原始视频的视觉特性和转场点。

原始视频即与剧情文本关联的视频。

具体地，可以通过两个分支，一个分支确定原始视频的转场点，也即检测视频转场点；另一个分支提取原始视频的视觉特性，如通过颜色、亮度等特征提取算法提取原始视频的颜色、亮度等特征。

提取视频视觉特征，也即从获得的视频片段中，通过图像处理技术提取颜色和亮度等视觉特性，这些特性表征了视频景别的稳定性。

检测视频转场点，也即识别出视频转场点，视频转场点可以作为分离不同镜头的依据。具体可以通过转场检测算法识别出视频转场点。

第4步，结果修正。

如果初步剧情匹配结果中出现了多个场景或者颜色、亮度特性发生显著变化的部分，这时可以通过剔除或者替换这部分内容，以保证剧情匹配效果的稳定性。

在得到初始剧情匹配结果，提取到视频的颜色、亮度等视觉特性以及转场点之后，可以结合颜色、亮度等视觉特性以及转场点对初始剧情匹配结果进行修正。

具体地，可以基于颜色特征，和/或，亮度特征，确定第一分割点，识别视频的转场点；基于转场点，确定第二分割点，基于第一分割点和第二分割点，将视频划分为至少两个目标视频片段；进而后续基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息。具体地对视频进行划分得到至少两个目标视频片段以及基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息的过程在上述实施例中已经进行了详细说明，这里不再赘述。

考虑到每个场景的画面在颜色和亮度等视觉特性上相对稳定，一种可实现方式中，基于颜色特征，和/或，亮度特征，确定第一分割点，识别视频的转场点；基于转场点，确定第二分割点，基于第一分割点和第二分割点，将视频划分为至少两个目标视频片段也可以理解为对视频进行场景划分，其中，识别出视频转场点，视频转场点可以作为分离不同镜头的依据。

利用颜色相似性和转场点信息，将视频划分为多个场景，然后在每个场景内进行更细致的剧情匹配。这样，如果初步的剧情匹配结果包含了多个场景的画面，可以根据场景特性的稳定性，将无关的、颜色亮度特性有显著差异的画面排除，从而得到更为准确和细致的剧情匹配结果。在每一个确定的场景内进行逐一的剧情匹配。在相同的场景内，可以通过细化的帧级别剧情匹配，进一步提高剧情的匹配度和浏览体验。

例如，在一部影视作品中，一段完整故事的发生通常在同一场景下，这个场景的颜色和亮度等视觉特性相对稳定。因此，可以利用这个特性，通过视频颜色相似性和转场点信息来矫正初步的剧情匹配结果(也即上述初始对齐信息)，如此以对剧情匹配的结果进行更为精细化的矫正，以提高匹配的准确度和细致度。

本发明实施例利用视频中同一场景在颜色、光线等视觉特性上通常保持相对稳定这个特性，先提取视频中视频帧的视觉特征；基于视觉特征，将视频划分为至少两个目标视频片段，进而基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，对初始对齐信息进行调整。简单理解，通过视频颜色相似性和转场点信息来矫正初步的剧情匹配结果，也即，对剧情匹配的结果进行更为精细化的矫正，以提高匹配的准确度和细致度，并进一步提升观看体验。

其中，根据视觉特性和转场点，对原始视频进行场景划分，得到场景划分时间的该过程也可以理解为利用视觉特性对转场点进行进一步优化，使得场景划分的更准确。

本发明实施例中对视频进行场景划分，并基于划分得到的至少两个目标视频片段对初始对齐信息进行调整也可以理解为实现场景内剧情匹配：在每一个确定的场景内进行逐一的剧情匹配。在相同的场景内，可以通过细化的帧级别剧情匹配，以提高剧情匹配的精度，进一步提高剧情的匹配度和浏览体验。

在现代的数字媒体环境中，视频内容的提取和合成成为越来越重要的应用。其中，通过自动剧情匹配算法为一句话匹配相应的视频剧情是一个典型的例子，这对于视频制作人员来说是极其有用的工具，尤其在制作视频解说时。然而，现有的剧情匹配算法通常需要依赖时序信息，并且难以做到帧级别的精度。这会导致在视频解说或其他同类任务中出现一些无关的画面，进一步影响观看体验。再者，为一句话匹配视频剧情时，常常需要非常精细的画面才能确保匹配程度和观看体验。简单理解，现有的剧情匹配算法通常需要依赖时序信息，并且难以做到帧级别的精度。这会导致在视频解说或其他同类任务中出现一些无关的画面，进一步影响观看体验。

考虑到大多数影视剧中讲述一段完整故事的视频通常在同一场景下完成，而这些场景在颜色、光线等视觉特性上通常保持相对稳定。因此，如何利用这一特性，来提高剧情匹配的精度，并最终提升观看体验，成为了一大挑战。

在这个背景下，本发明实施例考虑利用图像颜色相似性和视频转场点信息来矫正初步的剧情匹配结果，期望使剧情匹配的结果更为精细化，进一步提升下游任务的效果。

第5步，将经过筛选和修正的视频片段重新组合，应用于下游任务。

也可以理解为，将修正后的剧情匹配结果应用于下游任务，例如视频解说等，旨在增强观众的观看体验和剧情理解。

总的来讲，考虑到为一句话匹配视频剧情时，常常需要非常精细的画面才能确保匹配程度和观看体验。此外，大多数影视剧中讲述一段完整故事的视频通常在同一场景下完成，而这些场景在颜色、光线等视觉特性上通常保持相对稳定。利用图像颜色相似性和视频转场点信息来矫正初步的剧情匹配结果，期望利用图像颜色相似性和视频转场点信息使剧情匹配的结果更为精细化，进一步提升下游任务的效果。本发明实施例中基于图像颜色相似性和视频转场点信息，来矫正剧情匹配的结果，以达到更为精细化的匹配效果。如通过图像处理技术提取视频画面的颜色特征，将颜色相似性作为一个参数引入到剧情匹配算法中。此外，检测视频转场点，将视频划分为多个场景，从而有助于提高剧情匹配的精度。

本发明实施例中可以采用采用已有的剧情匹配算法，为每一句解文案寻找合适的视频片段。接着，利用图像处理技术，提取视频中的颜色、亮度等视觉特性，这些特性可以辅助确定视频的不同场景。

其次，利用已有模型检测视频的转场点，这是因为在现实的影视作品中，不同场景之间通常会有明显的转场点。而在同一场景下，视频的颜色和亮度等视觉特性相对稳定。基于此，可以利用颜色相似性和转场点信息，将视频划分为多个场景，然后在每个场景内进行更细致的剧情匹配。这样，如果初步的剧情匹配结果包含了多个场景的画面，可以根据场景特性的稳定性，将无关的、颜色亮度特性有显著差异的画面排除，从而得到更为准确和细致的剧情匹配结果。

最后，可以将经过筛选和修正的视频片段重新组合，应用于下游任务。也即，对多个解说文案对应的初始视频片段进行修正后得到的多个修正后视频片段(目标视频片段)重新组合，应用于下游任务。

本发明实施例基于图像颜色相似性和视频转场点信息，来矫正剧情匹配的结果，以达到更为精细化的匹配效果，提升匹配的准确度和细致度，可以有效提高下游任务如视频解说等的效果，增强观众的观看体验。

参照图3，本发明实施例提供了一种多模态对齐装置，包括：

获取模块301，用于获取剧情文本，获取与剧情文本关联的视频；

确定模块302，用于在视频中，确定与剧情文本的文本语义匹配的第一对齐信息，第一对齐信息包括剧情文本对应的初始视频片段，以及初始视频片段对应的时间信息；

提取模块303，用于提取视频中视频帧的视觉特征；

划分模块304，用于基于视觉特征，将视频划分为至少两个目标视频片段；

调整模块305，用于基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息。

可选地，视觉特征包括：颜色特征，和/或，亮度特征；

划分模块304，具体用于基于颜色特征，和/或，亮度特征，确定第一分割点；基于第一分割点，将视频划分为至少两个目标视频片段。

可选地，划分模块304，具体用于基于颜色特征，和/或，亮度特征，确定第一分割点；识别视频的转场点；基于转场点，确定第二分割点；基于第一分割点和第二分割点，将视频划分为至少两个目标视频片段。

可选地，调整模块305，具体用于针对每一目标视频片段，计算目标视频片段的时间信息与初始视频片段的时间信息的时间交集，并选取最大的时间交集；将最大的时间交集对应的目标视频片段的时间信息；作为第二对齐信息的时间信息；或者，将最大的时间交集对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

可选地，调整模块305，具体用于针对每一目标视频片段，计算目标视频片段的时间信息与初始视频片段的时间信息的时间交集，并选取时间交集大于预设时长所对应的目标视频片段；将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息；或者，将时间交集大于预设时长所对应的目标视频片段的时间信息，与初始视频片段的时间信息的交集，作为第二对齐信息的时间信息。

可选地，调整模块305，具体用于将时间交集大于预设时长所对应的多个目标视频片段的时间信息进行组合，作为第二对齐信息的时间信息；或者，将时间交集大于预设时长所对应的多个目标视频片段的时间信息，分别与初始视频片段的时间信息的交集进行组合，作为第二对齐信息的时间信息，并将时间交集大于预设时长所对应的多个目标视频片段进行组合，得到拼接视频。

可选地，该装置还包括：

组合模块，用于在基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集，将第一对齐信息调整为第二对齐信息之后，将多句剧情文本对应第二对齐信息的视频片段进行组合，得到目标视频。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现上述多模态对齐方法的方法步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的多模态对齐方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多模态对齐方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态对齐方法，其特征在于，包括：

获取剧情文本，获取与剧情文本关联的视频；

提取所述视频中视频帧的视觉特征；

2.根据权利要求1所述的方法，其特征在于，所述视觉特征包括：颜色特征，和/或，亮度特征；

3.根据权利要求1所述的方法，其特征在于，所述视觉特征包括：颜色特征，和/或，亮度特征；

识别所述视频的转场点；

基于所述转场点，确定第二分割点；

4.根据权利要求1所述的方法，其特征在于，所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息，包括：

6.根据权利要求5所述的方法，其特征在于，当时间交集大于预设时长所对应的目标视频片段有多个时，所述将时间交集大于预设时长所对应的目标视频片段的时间信息，作为第二对齐信息的时间信息，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集，将所述第一对齐信息调整为第二对齐信息之后，所述方法还包括：

8.一种多模态对齐装置，其特征在于，包括：

提取模块，用于提取所述视频中视频帧的视觉特征；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。