CN117201876A

CN117201876A - 字幕生成方法、装置、电子设备、存储介质及程序

Info

Publication number: CN117201876A
Application number: CN202210615156.5A
Authority: CN
Inventors: 郑鑫; 邓乐来; 陈柯宇
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-08
Also published as: WO2023232073A1

Abstract

本公开涉及一种字幕生成方法、装置、电子设备、存储介质及程序，该方法通过对待处理视频进行音频提取及语音识别，获取音频数据对应的文本数据；获取文本数据基于语法分析确定的多个切分位置及文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息；基于多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息将文本数据进行切分为多个文本片段；根据各文本片段的语义及各字符对应的音频片段的时间戳信息进行合并得到多个语义通顺且满足预设单条字幕句长要求的合并片段；基于合并片段生成字幕数据。通过结合文本维度及音频维度的特征进行切分及合并，能够更好的控制单条字幕的句长，使字幕的辅助理解效果大幅提升。

Description

字幕生成方法、装置、电子设备、存储介质及程序

技术领域

本公开涉及多媒体技术领域，尤其涉及一种字幕生成方法、装置、电子设备、存储介质及程序。

背景技术

字幕是指基于视频中的对话、说明信息以及其他信息等生成的，用于展示在视频帧图像中的文字内容。由于字幕能够辅助用户理解视频内容，因此，为视频生成字幕极其重要。

目前，为视频生成字幕通常是在视频生成之后，从视频中提取音频，对提取的音频进行语音识别，获得音频对应的文本，之后，再对文本进行标点恢复，得到文本片段，按照文本片段所对应的时间，将文本片段显示在相应的视频帧图像中。采用该方式，无法较好地控制文本片段(即单条字幕)的长度，大大降低了字幕的主观体验。

发明内容

为了解决上述技术问题，本公开提供了一种字幕生成方法、装置、电子设备、存储介质及程序。

第一方面，本公开实施例提供了一种字幕生成方法，包括：

提取待处理视频中的音频数据，并对所述音频数据进行语音识别，获取所述音频数据对应的文本数据；

获取所述文本数据基于语法分析确定的多个切分位置以及所述文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息；

根据所述多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对所述文本数据进行切分得到多个文本片段；所述文本片段中各字符分别对应的音频片段属于同一发音对象，且所述文本片段对应的音频片段中空白片段的时长小于预设时长；

根据各所述文本片段的语义以及各所述字符对应的音频片段的时间戳信息，对所述多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段；

根据所述多个合并片段，生成所述待处理视频对应的字幕数据。

在一些实施例中，所述根据各所述文本片段的语义以及所述文本片段对应的音频片段的时间戳信息进行合并，包括：

根据相邻的所述文本片段合并后是否满足所述预设单条字幕句长要求，确定相邻的所述文本片段是否可以合并；

根据相邻所述文本片段分别对应的语义合并后是否通顺，确定相邻的所述文本片段是否可以合并；

若所述文本片段与前后相邻两个文本片段均可以合并，则将音频片段之间的停顿时长短的两个相邻所述文本片段进行合并。

在一些实施例中，所述预设单条字幕句长要求包括：每秒字符数CPS要求和/或单条字幕在视频中的最大显示时长要求。

在一些实施例中，所述根据所述多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对所述文本数据进行切分得到多个文本片段，包括：

将所述文本数据输入至文本处理模块，获取所述文本处理模块输出的所述多个文本片段；

其中，所述文本处理模块包括：基于所述多个切分位置进行分割的子模块、基于各所述字符对应的音频片段的发音对象信息进行文本分割的子模块、以及基于各所述字符对应的音频片段的时间戳信息进行文本分割的子模块。

在一些实施例中，所述字幕数据为文本格式字幕(SubRip Text，SRT)文件。

在一些实施例中，所述方法还包括：将所述字幕数据与所述待处理视频进行融合，获取有字幕的目标视频。

第二方面，本公开实施例提供了一种字幕生成装置，包括：

音频处理模块，用于提取待处理视频中的音频数据，并对所述音频数据进行语音识别，获取所述音频数据对应的文本数据；

获取模块，用于获取所述文本数据基于语法分析确定的多个切分位置以及所述文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息；

文本切分模块，用于所述多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对所述文本数据进行切分得到多个文本片段；所述文本片段中各字符分别对应的音频片段属于同一发音对象，且所述文本片段对应的音频片段中空白片段的时长小于预设时长；

合并模块，用于根据各所述文本片段的语义以及各所述字符对应的音频片段的时间戳信息，对所述多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段；

生成模块，用于根据所述多个合并片段，生成所述待处理视频对应的字幕数据。

第三方面，本公开实施例还提供一种电子设备，包括：存储器和处理器；所述存储器被配置为存储计算机程序指令；所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如第一方面以及第一方面任一项所述的字幕生成方法。

第四方面，本公开实施例还提供一种可读存储介质，包括：计算机程序指令；所述计算机程序指令被电子设备执行，使得所述电子设备实现如第一方面以及第一方面任一项所述的字幕生成方法。

第五方面，本公开实施例还提供一种计算机程序产品，包括：电子设备执行所述计算机程序产品，使得所述电子设备实现如第一方面以及第一方面任一项所述的字幕生成方法。

本公开实施例提供一种字幕生成方法、装置、电子设备、存储介质及程序，其中，该方法通过对待处理视频进行音频提取，并对提取的音频数据进行语音识别，获取音频数据对应的文本数据；通过得到文本数据基于语法分析确定的多个切分位置以及文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息；基于多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，将文本数据进行切分得到多个符合要求的文本片段；再根据各文本片段的语义以及各字符对应的音频片段的时间戳信息，对多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段；根据多个合并片段，生成所述待处理视频对应的字幕数据。本公开的方法通过结合文本维度以及音频维度的特征进行切分以及合并，能够更好的控制单条字幕的句长以及单条字幕在视频中的显示时长，使得字幕的辅助理解效果大幅提升。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所述字幕生成方法的流程图；

图2为本公开一实施例提供的字幕生成方法的流程图；

图3为本公开一实施例提供的字幕生成方法的流程图；

图4为本公开另一实施例提供的字幕生成方法的流程图；

图5为本公开另一实施例提供的字幕生成方法的流程图；

图6为本公开一实施例提供的字幕生成装置的结构示意图；

图7为本公开一实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，为视频生成字幕，通常包括以下过程：从视频中提取音频，对音频数据做语音识别，获得音频数据对应的文本数据，再对文本数据进行标点恢复，得到切分后的文本片段；再根据这些文本片段所对应的视频片段的时间，生成字幕数据，将字幕数据与视频进行融合，从而得到带字幕的视频。采用该方式，在进行文本数据的片段化处理时，依赖于标点恢复的结果，使得单条字幕的句长无法得到较好地控制，从而影响字幕的排版以及字幕在视频中的显示时长，降低字幕的主观体验，无法起到较好的辅助理解效果。

例如，单条字幕的句长较长，即单条字幕数据包含的字符数量较多，电子设备的显示屏幕尺寸有限，该条字幕需要折叠显示，即需要通过多行显示；然而，字幕所占行数较多时，字幕的遮挡区域会扩大，可能遮挡较多的视频画面，影响用户观看视频内容；此外，单条字幕的句长较长，单条字幕在视频中的显示时长会增加，也会影响用户观看视频内容。

又如，一些短句且语速较快，单条字幕的句长较短，即单条字幕数据包含的字符数量较少，但各字符的发音时长较短，因此，字幕在视频中的显示时长较短，用户可能来不及详细看字幕内容，无法达到字幕的辅助理解的目的。

又如，相同的文本，停顿时长不同，可能表达不同的语义，通过标点恢复得到的字幕可能无法准确表达相同文本在不同音频位置的语义。

基于此，本公开提供一种字幕生成方法，通过提取待处理视频中的音频数据，并对音频数据进行语音识别，获得相应的文本数据；通过得到文本数据基于语法分析确定的多个切分位置以及文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息；基于多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，将文本数据进行切分得到多个符合要求的文本片段；再根据各文本片段的语义以及各字符对应的音频片段的时间戳信息，对多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段；根据多个合并片段，生成所述待处理视频对应的字幕数据。本公开的方法通过结合文本维度以及音频维度的特征进行切分以及合并，能够更好的控制单条字幕的句长以及单条字幕在视频中的显示时长，使得字幕的辅助理解效果大幅提升。此外，在合并以及切分的过程中充分考虑了字符对应的音频片段之间的空白时长，使得表达不同含义的相同语音内容是按照不同的方式进行切分以及合并的，因此，该方法还能够有效降低歧义的发生。

示例性地，本实施例提供的字幕生成方法可以由电子设备执行。电子设备可以是平板电脑、手机(如折叠屏手机、大屏手机等)、可穿戴设备、车载设备、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等物联网(the internet of things，IOT)设备，本公开对电子设备的具体类型不作任何限制。其中，本公开对电子设备的操作***的类型不做限定。例如，Android***、Linux***、Windows***、iOS***等。

基于前述描述，本公开以实施例将以电子设备为例，结合附图和应用场景，对本公开提供的字幕生成方法进行详细阐述。

图1为本公开一实施例提供的字幕生成方法的流程图。请参阅图1所示，本实施例的方法包括：

S101、提取待处理视频中的音频数据，并对所述音频数据进行语音识别，获取音频数据对应的文本数据。

待处理视频为要添加字幕的视频，电子设备可以获取待处理视频，其中，待处理视频可以是用户通过电子设备录制的，也可以是从网络上下载的，或者，还可以是用户通过视频处理类软件制作的，本公开对于获取待处理视频的实现方式不做限定。且本公开对于待处理视频中的视频内容、时长、存储格式、清晰度等等参数均不做限定。

电子设备能够提取待处理视频中的音频数据，并将音频数据转换为文本数据。示例性地，电子设备可以通过语音识别模型将音频数据转换为文本数据，本公开对于语音识别模型的参数不做限定，例如，语音识别模型可以为深度神经网络模块、卷积神经网络模型等等。或者，电子设备也可以利用其他现有的语音识别工具或者方式将音频数据转换为文本数据。本公开对于电子设备进行语音识别的实现方式不做限定。

其中，文本数据可以包括连续的字符序列，例如，文本数据包括“今天我很高兴我和爸爸妈妈去了游乐场”，其中不包含标点符号。需要说明的是，由于音频数据可以对应一种或多种语言种类，因此，在生成的文本数据中也可以包括一种或多种语言种类分别对应的字符。

当然，在语音识别时，也可以尽量将音频转换为一种语言，方便后续进行片段化处理。例如，针对音频片段获得语音识别结果为“哈喽”，或者，也可以获得语音识别结果为“hello”，由于整个文本数据中中文字符比例较高，因此，若以提高字幕中语言种类一致性为目的，则可以选择前者，若以增加字幕的趣味性为目的，则可以选择后者。

S102、获取文本数据基于语法分析确定的多个切分位置以及文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息。

电子设备可以通过语法分析的模型对文本数据进行分析，得到多个切分位置。其中，语法分析可以包括：标点位置分析、语法特性分析等等，通过语法分析能够得到多个分句位置，分句位置即为切分位置。

电子设备可以通过对音频数据进行发音对象识别，将不同发音对象对应的音频片段识别出来，之后，再结合不同发音对象对应的音频片段与文本数据之间的对应关系，得到各字符对应的音频片段的发音对象信息。

电子设备可以通过对音频数据进行切分，得到每个字符对应的音频片段的时间戳信息，时间戳信息可以包括起始时间和结束时间。

S103、根据多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对文本数据进行切分得到多个文本片段。

其中，切分得到的文本片段中各字符分别对应的音频片段属于同一发音对象，且文本片段对应的音频片段中空白片段的时长小于预设时长。

将文本数据切分为多个文本片段可以通过文本处理模块实现，文本处理模块可以包括多个子模块，每个子模块用于根据前述一个或多个维度的特征对输入的文本数据进行切分处理，在文本数据经过多个子模块处理之后则可以将文本数据分割为多个第一文本片段。

其中，通过文本处理模块进行文本数据的切分后文中通过图2以及图3所示实施例进行示例说明。

S104、根据各文本片段的语义以及各字符对应的音频片段的时间戳信息，对多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段。

其中，文本片段的语义可以通过对文本片段进行语义分析获得，基于语义能够判断相邻的文本片段所要表达的内容是否连续通顺，进而可以作为合并依据指导文本片段的合并，避免将语义不通顺的文本片段合并在一起，给用户带来不好的体验。

通过各字符对应的音频片段的时间戳信息能够得到文本片段之间的停顿时长。具体地，可以根据前一个文本片段的最后一个字符对应的音频片段的结束时间以及后一个文本片段的第一个字符对应的音频片段的起始时间确定相邻文本片段之间的停顿时长。在合并过程中，可以趋向于将文本片段之间的停顿时长更短的两个相邻文本片段进行合并。其中，停顿时长更短可以表明音频数据中想要表达的内容的连续性更强，合并在一起更加完整地表达音频数据中的内容，从而更有利于用户理解。

此外，在合并的过程中，还需要判断多个文本片段合并是否满足预设单条字幕句长要求，进而控制字幕句长，也控制了字幕在屏幕上的显示时长。

结合上述三个方面进行文本片段的合并，便能够得到语义通顺、且符合预设字幕句长要求的合并片段。

例如，文本片段1、文本片段2和文本片段3为连续的三个第一文本片段。其中，基于语义确定文本片段1和文本片段2可以合并，文本片段2和文本片段3可以合并，且文本片段1和文本片段2之间的停顿时长为t1，文本片段2和文本片段3之间的停顿时长为t2，t1小于t2，则文本片段1和文本片段2合并更加合理；此外，文本片段1和文本片段2合并之后能够满足预设单条字幕句长要求，因此，满足合并的条件；则可以将文本片段1与文本片段2合并。

需要说明的是，文本片段1和文本片段2合并所获得的合并片段可能是最终获得的单条字幕对应的合并片段，也可能需要将合并片段再与相邻的文本片段3合并之后才能获得单条字幕对应的合并片段。

S105、根据多个合并片段，生成待处理视频对应的字幕数据。

每个合并片段对应一条字幕，将多个合并片段按照顺序，转换预设格式的字幕文件，从而得到待处理视频对应的字幕数据。

其中，字幕数据可以但不限于为SRT文件。

本实施例提供的方法，通过结合文本维度以及音频维度的特征对文本数据进行分割以及对分割得到的文本片段进行合并，能够更好的控制单条字幕的句长以及单条字幕在视频中的显示时长，且不影响语义理解，使得字幕的辅助理解效果大幅提升；此外，该方法还能够有效降低歧义的发生。

结合图1所示实施例的描述可知，电子设备可以通过文本处理模块(也可以理解为文本处理模型)实现对文本数据进行切分时，文本处理模块中各子模块的连接顺序可以灵活设置。图2和图3分别示例性地示出了两种不同的方式。

假设在图2以及图3所示实施例中，文本处理模块包括：基于标点分析对进行文本数据分割的第一分割模块、基于语法特性进行文本数据分割的第二分割模块、基于音频数据对应的发音对象信息进行分割的第三分割模块以及基于文本数据中各字符分别对应的音频片段的时间戳信息进行分割的第四分割模块。

图2为本公开一实施例提供的文本处理模块的结构示意图。请参阅图2所示，第一分割模块的输出端与第二分割模块的输入端连接，第二分割模块的输出端与第三分割处理模块的输入端连接，第三模块的输出端与第四分割模块的输入端连接。结合图2所示实施例中文本处理模块的结构，文本处理模块包括的各分割模块可以理解为串行的方式连接。

其中，第一分割模块用于接收文本数据作为输入，对文本数据进行标点分析(也可以理解为标点恢复处理)得到的多个标点符号的分句位置，基于这些分句位置可将文本数据分割为文本片段；将第一分割模块输出的文本片段输入至第二分割模块，对文本片段进行语法特性分析确定多个分割位置，可以基于多个分割位置对第一分割模块的文本片段进行再次分割或者调整，得到多个文本片段；将第二分割模块输出的文本片段以及音频数据输入至第三分割模块，第三分割模块对音频数据进行发音对象识别，确定不同发音对象对应的音频片段的起始位置和结束位置，再基于不同发音对象对应的音频片段，确定文本数据中的分割位置，基于确定的分割位置对文本片段再次进行分割即可使切分后的文本片段对应单个发音对象；接着，第四分割模块根据各字符分别对应的音频片段的起始时间和结束时间，确定相邻字符的停顿时长，并基于相邻字符的停顿时长和预设时长比较，将停顿时长小于预设时长的相邻字符划分为一个文本片段，将停顿时长大于或等于预设时长的相邻字符切分至不同的两个文本片段中。在此基础上，文本处理模块包括的最后一个子模块(即第四分割模块)输出多个文本片段即为文本数据对应的最终的切分结果。

本申请对于预设时长的取值大小不做限定，例如，可以为0.4秒、0.5秒、0.6秒等等，预设时长可以根据大量的音频数据中各字符分别对应的音频片段之间的停顿时长进行统计分析获得。

作为一种可能的实施方式，文本处理模块包括的各分割模块可以分别利用相应的机器学习模型实现，例如，第一分割模块可以基于预先训练好的标点恢复处理模型实现，第二分割模块可以基于预先训练好的语法特性分析模型实现，发音对象分割模处理模块可以基于预先训练好的音频处理模型实现，停顿时长分割模块可以基于预先训练好的字符处理模型实现。本公开对于各分割模块所采用的机器学习模型的类型以及模型参数等等不做限定。

图3为本公开一实施例提供的文本处理模块的结构示意图。请参阅图3所示，文本处理模块包括的各分割模块采用并行的方式连接，第一分割模块和第二分割模块分别接收原始的文本数据作为输入；第三分割模块接收音频数据以及原始的文本数据作为输入；第四分割模块接收原始的文本数据作为输入，且文本数据包括的各字符携带时间戳信息。文本处理模块包括的各分割模块分别基于各自的输入，确定分割位置，以对文本数据进行分割，之后，再基于各分割模块分别输出的文本数据的分割结果进行融合，从而获得多个文本片段。

文本处理模块中各分割模块的处理方式可参照图2所示实施例的描述，简明起见，此处不再赘述。

需要说明的是，文本处理模块包括的各分割模块的连接方式并不限于上述图2以及图3示例，还可以采用其他方式实现。示例性地，可以将串行的连接方式和并行的连接方式相结合，如，第一分割模块和第二分割模块采用串行的方式连接，第三分割模块和第四分割模块采用串行的方式连接，第一分割模块和第二分割模块作为一个整体与第三分割模块和第四分割模块作为另一个整体并行连接。

此外，还需要说明的是，文本处理模块包括的各分割模块的连接顺序可以根据场景不同灵活调整，例如，在发音对象较多的场景中，可以先基于发音对象进行分割处理，之后，再基于标点分析、语法特性分析以及各字符对应的音频片段的时间戳信息进行分割处理。

图4为本公开一实施例提供的字幕生成方法的流程图。其中，图4所示实施例主要用于示例性地介绍电子设备如何进行文本片段的合并。请参阅图4所示，在合并文本片段时，电子设备可以通过调用合并模块实现。合并模块包括：指标模块、语义分析模块、停顿时长比较模块以及文本拼接模块。

指标模块可以判断输入的两个文本片段进行合并是否满足预设字幕句长要求。其中，预设字幕句长要求主要为单条字幕在视频中的留存时间的要求，为了方便确定生成的单条字幕是否满足要求，预设字幕要求可以为预设每秒对应的最大字符数(CPS)，或者，预设单条字幕在视频中的最大显示时长，上述两个指标也可以较好地体现单条字幕在视频中的留存时间。

此外，语义分析模块可以基于输入的两个文本片段分别对应的语义确定是否可以合并，并向文本拼接模块输出指示文本片段是否可以合并的标识信息，例如，语义分析模块输出标识1则表示可以合并，输出标识0则表示不可以合并。

停顿时长比较模块，用于根据文本片段包括的各字符分别对应的音频片段的时间戳信息确定相邻的多个文本片段之间的停顿时长对比结果。

文本拼接模块结合前述指标模块、语义分析模块、停顿时长比较模块分别输出的结果或者指示信息确定合并方案，将符合预设字幕句长要求、语义通顺且文本片段之间停顿时长较短的文本片段进行拼接，从而获得多个合并片段。

在实现过程中，指标模块和语义分析模块可以交互数据，例如，指标模块可以将判断结果输出给语义分析模块，语义分析模块可以针对符合预设字幕句长要求的文本片段组合进行判断，对于不符合预设字幕句长要求的文本片段组合不判断语义是否连续通顺，从而减小语义化分析模块的工作量，提高字幕生成效率。

假设文本数据经过切分之后，获得N个文本片段，分别为文本片段1、文本片段2至文本片段N。

示例性地，电子设备可以依次确定文本片段1和文本片段2、文本片段2和文本片段3合并是否符合预设字幕句长要求。若基于语义特征确定文本片段1和文本片段2可以合并、文本片段2和文本片段3也可以合并，但文本片段1和文本片段2之间的停顿时长段，则将文本片段1和文本片段2合并，获得合并片段1。之后，电子设备可以根据预设字幕句长要求以及文本片段的语义确定合并片段1和文本片段3是否可以合并，若可以合并，则将合并片段1和文本片段3合并，获得新的合并片段1。或者，电子设备也可以根据预设字幕句长要求以及文本片段的语义确定文本片段3和文本片段4是否可以合并，若可以合并，则将文本片段3和文本片段4合并，获得合并片段2。电子设备可以对比新的合并片段1与文本片段3合并获得的合并片段的字幕效果以及文本片段3与文本片段4合并获得的合并片段的字幕效果，并确定文本片段3最终的合并方案。

以此类推，可以获得每个文本片段的合并方案。

需要说明的是，确定两个文本片段合并是否符合预设字幕句长要求、基于两个文本片段的语义确定是否可以合并以及对比前后相邻的文本片段对应的音频片段之间的停顿时长三者可以并行执行，之后，再结合三者分别输出的判断结果进行合并。

还需要说明的是，上述合并可以经过多轮的处理过程，例如，第一轮合并处理获得的合并片段的句长均较短，则可以将第一轮获得的合并片段作为输入，再执行一轮合并处理，获得单条字幕句长无限逼近预设字幕句长要求。

另一种可能的实施方式，由于文本片段1至文本片段N包括的字符数量较少，可能需要多轮合并，则可以在第1至第m1轮合并过程中，基于预设字幕句长要求、文本片段的语义以及文本片段对应的音频片段之间的停顿时长进行合并，在后续第m1+1至第M轮合并过程中根据预设字幕句长要求以及文本片段的语义特征进行合并。

在一些情况下，电子设备也可以根据上述预设字幕句长要求结合文本片段的语义以及文本片段对应的音频片段之间的停顿时长特征，得到中不同的合并结果，即能够得到多个版本的字幕数据，再根据多个版本的字幕数据分别呈现的字幕效果，从中选择字幕效果较佳的字幕数据。其中，可以将多个版本的字幕数据均呈现给用户，使得用户能够预览各种字幕数据分别呈现的字幕效果，基于用户操作选择符合用户预期的字幕数据作为最终版本的字幕数据。

通过本公开提供的方法，对多个文本片段进行合并，能够获得句长合适的单条字幕，保证单条字幕在视频中具有合适的显示时长，提高字幕的辅助理解效果。例如，通过本公开提供的方案，能够将字符数量较多的单个语句分为多个语句，分别由多个单条字幕呈现，避免单条字幕较长，字幕需要多行显示排版混乱，且显示时间较长的问题；对于短句且语速较快的情况下，可以将短句对应的字符与相邻的语句的字符进行组合，增加短句对应的字幕在视频中的留存时长，保证用户有足够的时间清楚看到字幕中的内容；且本公开提供的方法通过文本片段对应的音频片段之间的停顿时长，确定文本片段与内容连续性更强的文本片段进行合并，能够有效降低歧义的发生，保证字幕数据准确表达音频数据的内容。

图5为本公开另一实施例提供的字幕生成方法的流程图。请参阅图5所示，本实施例的方法在图1所示实施例的基础上，步骤S104之后，还包括：

S106、将字幕数据与待处理视频进行融合，获取有字幕的目标视频。

待处理视频的视频数据即为待处理视频中连续的视频帧图像，针对字幕数据包括的各单条字幕，按照预先设定的字幕的显示样式，将各单条字幕分别叠加在相应显示时间段的视频帧图像中，从而获得带有字幕的目标视频。

其中，单条字幕所对应的显示时间段可以根据该条字幕包括的第一个字符对应的音频片段的起始时间以及最后一个字符对应的音频片段的结束时间确定，再基于单条字幕数据所对应的起始时间和结束时间，确定相应显示时间段内的视频帧图像，将单条字幕按照预先设定的显示样式叠加在相应显示时间段内的所有视频帧图像中；通过对字幕数据中的每条字幕执行上述处理，从而得到带字幕的目标视频。

通过本实施例提供的方法得到的目标视频中的字幕句长更加适合用户阅读，能够极大幅度提升用户体验。

示例性地，本公开实施例还提供一种字幕生成装置。

图6为本公开一实施例提供的字幕生成装置的结构示意图。请参阅图6所示，本实施例提供的装置600，包括：

音频处理模块601，用于提取待处理视频中的音频数据，并对所述音频数据进行语音识别，获取所述音频数据对应的文本数据。

获取模块602，用于获取所述文本数据基于语法分析确定的多个切分位置以及所述文本数据包括的各字符对应的音频片段的发音对象信息和时间戳信息。

文本切分模块603，用于所述多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对所述文本数据进行切分得到多个文本片段；所述文本片段中各字符分别对应的音频片段属于同一发音对象，且所述文本片段对应的音频片段中空白片段的时长小于预设时长。

合并模块604，用于根据各所述文本片段的语义以及各所述字符对应的音频片段的时间戳信息，对所述多个文本片段进行合并，得到多个语义通顺且满足预设单条字幕句长要求的合并片段。

生成模块605，用于根据所述多个合并片段，生成所述待处理视频对应的字幕数据。

作为一种可能的实施方式，合并模块604，具体用于根据相邻的所述文本片段合并后是否满足所述预设单条字幕句长要求，确定相邻的所述文本片段是否可以合并；根据相邻所述文本片段分别对应的语义合并后是否通顺，确定相邻的所述文本片段是否可以合并；以及，若所述文本片段与前后相邻两个文本片段均可以合并，则将音频片段之间的停顿时长短的两个相邻所述文本片段进行合并。

作为一种可能的实施方式，所述预设单条字幕句长要求包括：每秒字符数CPS要求和/或单条字幕在视频中的最大显示时长要求。

作为一种可能的实施方式，文本切分模块603，具体用于将所述文本数据输入至文本处理模块，获取所述文本处理模块输出的所述多个文本片段；其中，所述文本处理模块包括：基于所述多个切分位置进行分割的子模块、基于各所述字符对应的音频片段的发音对象信息进行文本分割的子模块、以及基于各所述字符对应的音频片段的时间戳信息进行文本分割的子模块。

作为一种可能的实施方式，字幕数据为文本格式字幕SRT文件。

作为一种可能的实施方式，装置600还包括：融合模块606，用于将所述字幕数据与所述待处理视频进行融合，获取有字幕的目标视频。

本实施例提供的字幕生成装置可以用于执行前述任一方法实施例的技术方案，其实现原理以及技术效果类似，可参照前述方法实施例的详细描述，简明起见，此处不再赘述。

示例性地，本公开还提供一种电子设备。

图7为本公开一实施例提供的电子设备的结构示意图。请参阅图7所示，本实施例提供的电子设备700包括：存储器701和处理器702。

其中，存储器701可以是独立的物理单元，与处理器702可以通过总线703连接。存储器701、处理器702也可以集成在一起，通过硬件实现等。

存储器701用于存储程序指令，处理器702调用该程序指令，执行以上任一方法实施例提供的字幕生成方法。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备700也可以只包括处理器702。用于存储程序的存储器701位于电子设备700之外，处理器702通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器702可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器702还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器701可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

本公开还提供一种可读存储介质，包括：计算机程序指令，所述计算机程序指令被电子设备的至少一个处理器执行时，使得所述电子设备实现如上任一方法实施例提供的字幕生成方法。

本公开还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机实现如上任一方法实施例提供的字幕生成方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字幕生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述文本片段的语义以及所述文本片段对应的音频片段的时间戳信息进行合并，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述预设单条字幕句长要求包括：每秒字符数CPS要求和/或单条字幕在视频中的最大显示时长要求。

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个切分位置、各字符对应的音频片段的发音对象信息和时间戳信息，对所述文本数据进行切分得到多个文本片段，包括：

5.根据权利要求1所述的方法，其特征在于，所述字幕数据为文本格式字幕SRT文件。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述字幕数据与所述待处理视频进行融合，获取有字幕的目标视频。

7.一种字幕生成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器被配置为存储计算机程序指令；

所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如权利要求1至6任一项所述的字幕生成方法。

9.一种可读存储介质，其特征在于，包括：计算机程序指令；

所述计算程序指令被电子设备的至少一个处理器执行，使得所述电子设备实现如权利要求1至6任一项所述的字幕生成方法。

10.一种计算机程序产品，其特征在于，电子设备执行所述计算机程序产品，使得所述电子设备实现如权利要求1至6任一项所述的字幕生成方法。