CN114143613B

CN114143613B - 一种视频字幕时间对齐方法、***及存储介质

Info

Publication number: CN114143613B
Application number: CN202111470116.8A
Authority: CN
Inventors: 程梓益
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-07-21
Anticipated expiration: 2041-12-03
Also published as: CN114143613A

Abstract

本申请公开了一种视频字幕时间对齐方法、***及存储介质。该方法包括首先获取带字幕的原始视频以及描述文本，其中，描述文本的内容与原始视频中字幕的内容相对应；根据预设的取帧间隔时间截取原始视频中的字幕区域得到字幕区域图像集；将字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果；将OCR识别结果与描述文本每个段落通过公共子串算法进行匹配，确定出OCR识别结果在每个段落的首句和尾句；根据每个段落的首句和尾句分别对应的时间戳确定描述文本各个段落在原始视频中的持续时间。可以看出，本申请实施例提供的技术方案提高视频字幕与描述文本进行时间匹配的准确性。

Description

一种视频字幕时间对齐方法、***及存储介质

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频字幕时间对齐方法、***及存储介质。

背景技术

随着互联网技术和多媒体技术的不断发展，视频作为信息的载体之一，受到众多用户的青睐。为了更好地展示视频内容，在用户观看视频的时候，通常会同步显示与视频所对应的字幕，并且与视频字幕相对应的还会有描述文本，然而描述文本通常分为几段甚至十几段文本。

现有技术在对描述文本中的段落与视频字幕进行时间匹配时，常见的做法是用OCR识别视频中当前帧的文字并记录当前时间，然后与对应的文本匹配，但是因为错别字，生僻字的存在，以及视频背景的干扰，使得常见的做法不能自动化地完成该任务。

发明内容

基于此，本申请实施例提供了一种视频字幕时间对齐方法、***及存储介质，可以提高视频字幕与描述文本进行时间匹配的准确性。

第一方面，提供了一种视频字幕时间对齐方法，该方法包括：

获取带字幕的原始视频以及描述文本，所述描述文本的内容与所述原始视频中字幕的内容相对应；

根据预设的取帧间隔时间截取所述原始视频中的字幕区域得到字幕区域图像集，其中，所述字幕区域图像集包括在所述原始视频中对应的时间戳；

将所述字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果；

将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的首句和尾句；

根据所述每个段落的首句和尾句分别对应的时间戳确定所述描述文本各个段落在原始视频中的持续时间。

可选地，将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的首句，包括：

将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的首子串，所述首子串用于表征第一个连续的公共子串；

当所述首子串在所述目标段落中的起始字符范围内时，将所述首子串对应的OCR识别结果与所述起始字符范围内的字符进行字符比较；

当字符比较得到的子串小于首句阈值时，则将当前字符比较得到的子串作为所述目标段落中的首句；

遍历所述描述文本的各个段落，确定出所述OCR识别结果在每个段落的首句。

可选地，将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的首子串之后，还包括：

当所述首子串在所述目标段落中的结束字符范围内时，则将所述首子串对应的OCR识别结果的时间戳作为目标段落下一段的开始时间。

可选地，将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的尾句，包括：

将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的尾子串，所述尾子串用于表征最后一个连续的公共子串；

当所述尾子串在所述目标段落中的结束字符范围内时，将所述尾子串对应的OCR识别结果与所述结束字符范围内的字符进行字符比较；

当字符比较得到的子串小于尾句阈值时，则将当前字符比较得到的子串作为所述目标段落中的尾句；

遍历所述描述文本的各个段落，确定出所述OCR识别结果在每个段落的尾句。

可选地，将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的尾子串之后，还包括：

当所述尾子串在所述目标段落中的起始字符范围内时，则将所述尾子串对应的OCR识别结果的时间戳作为目标段落上一段的结束时间。

可选地，将所述字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果，包括：

对所述OCR识别结果进行检查，将包含中文且置信度大于预设阈值的OCR识别结果进行匹配并进行保存。

可选地，根据所述描述文本的首句和尾句分别对应的时间戳确定所述描述文本在原始视频中对应的持续时间，还包括：

当首句对应的时间戳与尾句对应的时间戳存在重合时，将时间范围合并后的持续时间作为输出结果。

可选地，所述描述文本中包括错别字和/或生僻字。

第二方面，提供了一种视频字幕时间对齐装置，该装置包括：

获取模块，用于获取带字幕的原始视频以及描述文本，所述描述文本的内容与所述原始视频中字幕的内容相对应；

截取模块，用于根据预设的取帧间隔时间截取所述原始视频中的字幕区域得到字幕区域图像集，其中，所述字幕区域图像集包括在所述原始视频中对应的时间戳；

识别模块，用于将所述字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果；

匹配模块，用于将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的首句和尾句；

确定模块，用于根据所述每个段落的首句和尾句分别对应的时间戳确定所述描述文本各个段落在原始视频中的持续时间。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的视频字幕时间对齐方法。

本申请实施例提供的技术方案中，首先获取带字幕的原始视频以及描述文本，其中，描述文本的内容与原始视频中字幕的内容相对应；根据预设的取帧间隔时间截取原始视频中的字幕区域得到字幕区域图像集；将字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果；将OCR识别结果与描述文本每个段落通过公共子串算法进行匹配，确定出OCR识别结果在每个段落的首句和尾句；根据每个段落的首句和尾句分别对应的时间戳确定描述文本各个段落在原始视频中的持续时间。可以看出，本申请实施例提供的技术方案解决了由于错别字，生僻字以及视频背景干扰的存在而产生的视频字幕时间匹配问题，提高视频字幕与描述文本进行时间匹配的准确性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种视频字幕时间对齐方法的步骤流程图；

图2为本申请实施例提供的一种带字幕的原始视频示意图；

图3为本申请实施例提供的一种描述文本示意图；

图4为本申请实施例提供的一种包含错别字的字幕区域图像示意图；

图5为本申请可选的一种实施例提供的步骤流程图；

图6为本申请实施例提供的一种视频字幕时间对齐***的框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种视频字幕时间对齐方法进行详细介绍。

首先介绍本申请实施例所在的应用场景：给一个视频和一个描述文本，文本内容与视频中的字幕对应，但文本中有错别字，文本已经分了段，每段200字左右，目的是自动标记每一段文本在视频中的持续时间。

请参考图1，其示出了本申请实施例提供的一种视频字幕时间对齐方法的流程图，该方法可以包括以下步骤：

步骤101，获取带字幕的原始视频以及描述文本。

其中，描述文本的内容与原始视频中字幕的内容相对应。

在本申请实施例中，获取带字幕的原始视频以及描述文本如图2和图3所示，文本内容和视频的字幕对应，其中LF表示文本编辑器显示的换行符，如图4，文本中有很多错别字，如图中的“分”应该对应字幕的“峰”，由于错别字的存在现有文本匹配方法进行匹配时可能存在匹配不成功的情况。

步骤102，根据预设的取帧间隔时间截取原始视频中的字幕区域得到字幕区域图像集。

步骤103，将字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果。

其中，字幕区域图像集包括在原始视频中对应的时间戳，预设的取帧间隔时间可以是一秒。

在本申请实施例中，输入一个完整的带字幕的原始视频，每隔一秒取一帧，每帧截取字幕区域，输入OCR识别，对于OCR的输出结果，检查是否包含中文且置信度大于0.99，保存所有的历史OCR结果用于去重。

步骤104，将OCR识别结果与描述文本每个段落通过公共子串算法进行匹配，确定出OCR识别结果在每个段落的首句和尾句。

在本申请实施例中，将OCR识别的结果与当前的文本段落匹配，需要检查OCR结果是否在文本中并且确定具***置，本申请使用公共子串算法来进行匹配。

其中，公共子串算法原理如下：输入字符串A和字符串B，依次将A中的每一个字符和B中的字符进行比较，找出所有连续的子串。比如输入A＝’ACCBCDC’，B＝’ACGSBCDEF’，输出‘AC’和‘BCD’。

在本申请实施例中，将OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的首子串，首子串用于表征第一个连续的公共子串；当首子串在目标段落中的起始字符范围内时，将首子串对应的OCR识别结果与起始字符范围内的字符进行字符比较；当字符比较得到的子串小于首句阈值时，则将当前字符比较得到的子串作为目标段落中的首句；遍历描述文本的各个段落，确定出OCR识别结果在每个段落的首句。

在一个可选的实施例中，当OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的首子串之后，当首子串在目标段落中的结束字符范围内时，则将首子串对应的OCR识别结果的时间戳作为目标段落下一段的开始时间。

在本申请实施例中，将OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的尾子串，尾子串用于表征最后一个连续的公共子串；当尾子串在目标段落中的结束字符范围内时，将尾子串对应的OCR识别结果与结束字符范围内的字符进行字符比较；当字符比较得到的子串小于尾句阈值时，则将当前字符比较得到的子串作为目标段落中的尾句；遍历描述文本的各个段落，确定出OCR识别结果在每个段落的尾句。

在一个可选的实施例中，将OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的尾子串之后，当尾子串在目标段落中的起始字符范围内时，则将尾子串对应的OCR识别结果的时间戳作为目标段落上一段的结束时间。

步骤105，根据每个段落的首句和尾句分别对应的时间戳确定描述文本各个段落在原始视频中的持续时间。

其中，当首句对应的时间戳与尾句对应的时间戳存在重合时，将时间范围合并后的持续时间作为输出结果。

如图5，以下给出本申请可选的一种实施例提供的基于公共子串算法的视频字幕匹配方法流程，其中在公共子串算法中设置当起始字符范围与结束字符范围均为25个字符，首句阈值与尾句阈值均为4个字符：

(1)，输入一个完整的视频，每隔一秒取一帧，每帧截取字幕区域，输入OCR识别，对于OCR的输出结果，检查是否包含中文且置信度大于0.99，保存所有的历史OCR结果用于去重。

(2)，将OCR识别的结果与当前的文本段落匹配，需要检查OCR结果是否在文本中并且确定具***置。这里用公共子串算法来进行匹配，

(3)，对于公共子串算法的输出结果，只取第一个和最后一个，然后分别查找这两个公共子串在文本中的位置，如果这两个子串都不在文本的开头25个字符或者结尾25个字符范围内则认为该条OCR结果无用，丢弃之；

(4)，如果第一个子串在文本开头25个字符范围内，则认为该条OCR结果可能有用，进一步将该OCR结果与文本开头25个字符求公共子串，然后取第一个公共子串，如果它在文本开头25字符中的起始位置小于4则认为该OCR结果匹配到了该段文本的第一句；

(5)，与(4)类似地，如果最后一个子串在文本结尾25个字符范围内，则认为该条OCR结果可能有用，进一步将该OCR结果与文本结尾25个字符求公共子串，然后取最后一个公共子串，如果它的结尾距离文本的结束位置小于4则认为该OCR结果匹配到了该段文本的最后一句；

(6)，在(4)和(5)的基础上，如果匹配到文本的第一句，则记录当前时间作为开始时间，如果匹配到文本的最后一句，则读取下一段文本；如果匹配到了第二段文本的开头，则认为上一段文本已经结束，记录当前时间作为上一段文本的结束时间，同时该时间也是当前这段文本的开始时间。

(7)，对于最终的结果，再进行一个后处理过程，先把完全重复的内容合并，再把同一段文本对应的多个时间范围合并，得到最终的输出结果。

综上可以看出，本申请实现了基于公共子串算法的视频字幕时间对齐任务，该方法具有较高的鲁棒性，能够很好的处理OCR被视频背景干扰以及错别字，生僻字的情况。

请参考图6，其示出了本申请实施例提供的一种视频字幕时间对齐***200的框图。如图6所示，该***200可以包括：获取模块201、截取模块202、识别模块203、匹配模块204与确定模块205。

获取模块201，用于获取带字幕的原始视频以及描述文本，描述文本的内容与原始视频中字幕的内容相对应；

截取模块202，用于根据预设的取帧间隔时间截取原始视频中的字幕区域得到字幕区域图像集，其中，字幕区域图像集包括在原始视频中对应的时间戳；

识别模块203，用于将字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果；

匹配模块204，用于将OCR识别结果与描述文本每个段落通过公共子串算法进行匹配，确定出OCR识别结果在每个段落的首句和尾句；

确定模块205，用于根据每个段落的首句和尾句分别对应的时间戳确定描述文本各个段落在原始视频中的持续时间。

关于视频字幕时间对齐***的具体限定可以参见上文中对于视频字幕时间对齐方法的限定，在此不再赘述。上述视频字幕时间对齐***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述视频字幕时间对齐方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频字幕时间对齐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的首句，包括：

3.根据权利要求2所述的方法，其特征在于，将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的首子串之后，还包括：

4.根据权利要求1所述的方法，其特征在于，将所述OCR识别结果与所述描述文本每个段落通过公共子串算法进行匹配，确定出所述OCR识别结果在每个段落的尾句，包括：

5.根据权利要求4所述的方法，其特征在于，将所述OCR识别结果与目标段落进行字符比较，找出所有连续的公共子串，选取其中的尾子串之后，还包括：

6.根据权利要求1所述的方法，其特征在于，将所述字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述描述文本的首句和尾句分别对应的时间戳确定所述描述文本在原始视频中对应的持续时间，还包括：

8.根据权利要求1所述的方法，其特征在于，所述描述文本中包括错别字和/或生僻字。

9.一种视频字幕时间对齐***，其特征在于，所述***包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述的视频字幕时间对齐方法。