CN113657381A

CN113657381A - 字幕生成方法、装置、计算机设备以及存储介质

Info

Publication number: CN113657381A
Application number: CN202110951249.0A
Authority: CN
Inventors: 郭晋; 段恒昌; 郑伟强
Original assignee: Beijing Lexuebang Network Technology Co Ltd
Current assignee: Beijing Lexuebang Network Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-16

Abstract

本公开提供了一种字幕生成方法、装置、计算机设备以及存储介质，方法包括：获取待生成字幕的目标音频、以及目标音频对应的标准文本；基于目标音频，生成对应的参考字幕文件，其中，参考字幕文件包括字幕文本以及字幕文本的显示时间；确定字幕文本与标准文本是否存在差异，若存在，则确定出差异信息，基于差异信息调整字幕文本，得到目标字幕文本；基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。这样可以及时地确定字幕文本中存在的问题，并能够进一步根据字幕文本相对于标准文本的差异信息来调整字幕文本，从而获得正确的字幕文本，大大提高了字幕文件的准确率。

Description

字幕生成方法、装置、计算机设备以及存储介质

技术领域

本公开涉及音频识别的技术领域，具体而言，涉及一种字幕生成方法、装置、计算机设备以及存储介质。

背景技术

为了直观地展示音视频所表示的内容，通常会为音视频配置对应的字幕。现有技术提供了基于语音识别技术来生成音视频对应的字幕的方案，然而，由于识别准确度的限制，基于语音识别所生成的字幕可能存在少字、多字和错别字等错误。因此，如何及时地发现和纠正基于语音识别所生成的字幕中的错误内容，成为亟需解决的问题。

发明内容

本公开实施例至少提供了一种字幕生成方法、装置、计算机设备以及存储介质。

第一方面，本公开实施例提供了一种字幕生成方法，所述方法包括：

获取待生成字幕的目标音频、以及所述目标音频对应的标准文本；

基于所述目标音频，生成对应的参考字幕文件，其中，所述参考字幕文件包括字幕文本以及所述字幕文本的显示时间；

确定所述字幕文本与所述标准文本是否存在差异，若存在，则确定出差异信息，基于所述差异信息调整所述字幕文本，得到目标字幕文本；

基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。

在一种可能的实施方式中，所述基于所述目标音频，生成对应的参考字幕文件，包括：

基于所述目标音频，生成对应的字幕文本；

基于所述目标音频中与所述字幕文本中每个字对应的音频片段的播放时间，确定出所述字幕文本中每个字的显示时间；

基于所述字幕文本和所述显示时间生成参考字幕文件。

在一种可能的实施方式中，所述确定出差异信息包括：

确定出所述字幕文本与所述标准文本之间的差异内容在所述字幕文本中的位置信息、以及所述差异内容对应的差异类型信息；

其中，所述差异类型信息包括缺失信息、多余信息、以及错误信息中的至少一项。

在一种可能的实施方式中，所述方法还包括：

根据所述位置信息和所述差异类型信息生成差异提示信息；

根据所述差异提示信息对用户进行提示。

在一种可能的实施方式中，所述根据所述差异提示信息对用户进行提示，包括：

展示所述差异提示信息对应的提示文本；

和/或，播放所述差异提示信息对应的提示音视频。

在一种可能的实施方式中，所述方法还包括：

展示所述字幕文本；

基于所述差异类型信息对应的显示形式以及所述位置信息，在所述字幕文本中显示所述差异内容。

在一种可能的实施方式中，所述基于所述差异类型信息对应的显示形式以及所述位置信息，在所述字幕文本中显示所述差异内容，包括：

针对所述差异类型信息为所述缺失信息的情况，根据所述位置信息确定出所述字幕文本中缺少文字的位置，在所述缺少文字的位置处展示预设符号；

针对所述差异类型信息为所述多余信息的情况，根据所述位置信息确定出所述字幕文本中多余文字的位置，以第一显示形式显示所述多余文字；

针对所述差异类型信息为所述错误信息的情况，根据所述位置信息确定出所述字幕文本中错字的位置，以第二显示形式显示所述错字。

在一种可能的实施方式中，所述基于所述差异信息调整所述字幕文本，包括：

针对所述差异类型信息为所述缺失信息的情况，根据所述位置信息确定出所述字幕文本中缺少文字的位置，根据所述缺失信息在缺少文字的位置增加对应的文字；

针对所述差异类型信息为所述多余信息的情况，根据所述位置信息确定出所述字幕文本中多余文字的位置，根据所述多余信息在所述多余文字的位置删除对应的文字；

针对所述差异类型信息为所述错误信息的情况，根据所述位置信息确定出所述字幕文本中错字的位置，根据所述错误信息在所述错字的位置更正对应的文字。

第二方面，本公开实施例提供了一种字幕生成装置，所述装置包括：

数据获取模块，用于获取待生成字幕的目标音频、以及所述目标音频对应的标准文本；

参考文件生成模块，用于基于所述目标音频，生成对应的参考字幕文件，其中，所述参考字幕文件包括字幕文本以及所述字幕文本的显示时间；

目标文本生成模块，用于确定所述字幕文本与所述标准文本是否存在差异，若存在，则确定出差异信息，基于所述差异信息调整所述字幕文本，得到目标字幕文本；

目标文件生成模块，用于基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。

在一种可能的实施方式中，所述参考文件生成模块在用于基于所述目标音频，生成对应的参考字幕文件时，具体用于：

基于所述目标音频，生成对应的字幕文本；

基于所述字幕文本和所述显示时间生成参考字幕文件。

在一种可能的实施方式中，所述目标文本生成模块在用于确定出差异信息时，具体用于：

在一种可能的实施方式中，所述装置还包括第一信息展示模块，所述第一信息展示模块用于：

根据所述位置信息和所述差异类型信息生成差异提示信息；

根据所述差异提示信息对用户进行提示。

在一种可能的实施方式中，所述第一信息展示模块在用于根据所述差异提示信息对用户进行提示时，具体用于：

展示所述差异提示信息对应的提示文本；

和/或，播放所述差异提示信息对应的提示音视频。

在一种可能的实施方式中，所述装置还包括第二信息展示模块，所述第二信息展示模块用于：

展示所述字幕文本；

在一种可能的实施方式中，所述第二信息展示模块在用于基于所述差异类型信息对应的显示形式以及所述位置信息，在所述字幕文本中显示所述差异内容时，具体用于：

在一种可能的实施方式中，所述目标文本生成模块在用于基于所述差异信息调整所述字幕文本时，具体用于：

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的字幕生成方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的字幕生成方法的步骤。

本公开实施例提供的字幕生成方法、装置、计算机设备以及存储介质，在获取到目标音频的参考字幕文件之后，通过比较参考字幕文件的字幕文本与目标音频对应的标准文本的差异，来及时地确定字幕文本中存在的问题，并能够进一步根据字幕文本相对于标准文本的差异信息来调整字幕文本，从而获得正确的字幕文本，大大提高了字幕文件的准确率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的一种字幕生成方法的流程图；

图2为本公开实施例提供的一种字幕生成装置的示意图之一；

图3为本公开实施例提供的一种字幕生成装置的示意图之二；

图4为本公开实施例提供的一种字幕生成装置的示意图之三；

图5为本公开实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，为了直观地展示音频所表示的内容，通常会为音频配置对应的字幕。现有技术提供了基于语音识别技术来生成音频对应的字幕的方案，然而，由于识别准确度的限制，基于语音识别所生成的字幕可能存在错误。因此，如何及时地发现和纠正基于语音识别所生成的字幕中的错误内容，成为亟需解决的问题。

基于上述研究，本公开提供了一种字幕生成方法，在获取到目标音频的参考字幕文件之后，通过比较参考字幕文件的字幕文本与目标音频对应的标准文本的差异，来及时地确定字幕文本中存在的问题，并能够进一步根据字幕文本相对于标准文本的差异信息来调整字幕文本，从而获得正确的字幕文本，大大提高了字幕文件的准确率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种字幕生成方法进行详细介绍，本公开实施例所提供的字幕生成方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备、服务器和其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端设备、终端设备、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该字幕生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开实施例提供的字幕生成方法加以说明。参见图1所示，为本公开实施例提供的一种字幕生成方法的流程图，所述方法包括步骤S110～S130，其中：

S110：获取待生成字幕的目标音频、以及目标音频对应的标准文本。

在该步骤中，需要确定标准文本所包含的文本内容与目标音频所包含的语音内容是一致的。若不一致，说明标准文本定位出现失误，应该发起提醒，再次从数据库中拉取相应的标准文本。

目标音频可以是教育机构提供的用于辅助学习的教材音频，例如，目标音频可以诗词音频、散文音频、外语音频、课文音频和儿歌音频等。例如，目标音频所包含的语音内容为“白日依山尽黄河入海流”，则标准文本所包含的文本内容也应当为“白日依山尽黄河入海流”。

可选地，可以通过录制指定人员(例如专业的朗读者)针对标准文本的朗读音频，将朗读音频作为目标音频。目标音频可以预先存储在终端设备的预设位置，终端设备在该预设位置处获取目标音频；终端设备可以通过实时地录制用户(例如专业的朗读者)针对标准文本的朗读音频以得到目标音频；目标音频也可以预先存储在终端设备之外的其他的指定设备(如服务器)中，终端设备可以在该指定设备处下载得到目标音频。

在一些可能的实施方式中，目标音频还可以为用户(例如学员、学生)根据标准文本录制的音频，以便后续需要实现对用户读音的评测和分析等，对此不做赘述。

可选地，标准文本可以预先存储在终端设备的预设位置，终端设备在该预设位置处获取标准文本；终端设备可以响应于用户的针对标准文本的输入操作，获得标准文本；标准文本也可以预先存储在终端设备之外的其他的指定设备(如服务器)中，终端设备可以在该指定设备处下载得到标准文本。

S120：基于目标音频，生成对应的参考字幕文件。

字幕文件可以是歌词(Lyric，LRC)文件，参考字幕文件可以包括字幕文本以及字幕文本的显示时间。在本公开实施例中，针对字幕文本的显示时间，终端设备能够以单个字的粒度来确定字幕文本中每个字的显示时间。

需要说明的是，每个字的显示时间包括这个字的显示时间点以及持续时间，例如显示时间点为：2分3秒5厘秒，持续时间为3秒1厘秒，对此不做赘述。当然，也可以仅仅包括这个字的显示时间点，然后将该显示时间点与下一显示时间点(下一个字的显示时间点)之间的时间段作为这个字的持续时间，此处不再赘述。

可选地，终端设备可以基于目标音频，生成对应的字幕文本；基于目标音频中与字幕文本中每个字对应的音频片段的播放时间，确定出字幕文本中每个字的显示时间；基于字幕文本和显示时间生成参考字幕文件。

具体地，终端设备可以通过语音识别技术，识别出目标音频所包含的语音内容，生成对应的字幕文本。终端设备可以将目标音频的起始时间作为字幕文本的起始时间，终端设备在目标音频每识别出一个字，将该字对应的音频片段在目标音频中的播放时间，确定该字的显示时间。基于在目标音频每识别出的每个字、以及每个字的显示时间，得到目标音频对应的参考字幕文件。以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，目标音频对应的正确的字幕文件的格式可以为如下形式：

[00:5.60]白[00:6.00]日[00:6.40]依[00:6.80]山[00:7.20]尽

[00:8.00]黄[00:8.40]河[00:8.80]入[00:9.20]海[00:9.60]流

其中，每个字的前面的符号“[]”中的内容，表示该字的显示时间。例如，“白”字的显示时间为字幕文件播放后的第5.6秒，“日”字的显示时间为字幕文件播放后的第6秒。

S130：确定字幕文本与标准文本是否存在差异，若存在，则确定出差异信息，基于差异信息调整字幕文本，得到目标字幕文本。

当字幕文本与标准文本存在差异时，终端设备可以确定出差异信息，并基于差异信息自动调整字幕文本，终端设备也可以响应于用户针对字幕文本的修改操作来调整字幕文本。可选地，在调整字幕文本之后，还可以进一步调整字幕文本对应的显示时间。应当理解，当字幕文本与标准文本相同时，可以将上述步骤S120生成的参考字幕文件确定为目标字幕文件。

在本公开实施例中，差异信息可以包括差异内容在字幕文本中的位置信息、以及差异内容对应的差异类型信息。其中，差异类型信息可以包括字幕文本的缺失信息、多余信息、以及错误信息的中的至少一项。

这里，字幕文本的缺失信息可以指示字幕文本相比于标准文本缺少了哪些文字，位置信息可以指示字幕文本中缺少文字的位置。字幕文本的多余信息可以指示字幕文本相比于标准文本存在哪些多余的文字，位置信息可以指示字幕文本中多余文字的位置。字幕文本的错误信息可以指示字幕文本相比于标准文本存在哪些错字，位置信息可以指示字幕文本中的错字的位置。

在该步骤中，首先确定出上述的位置信息和差异类型信息，之后基于位置信息和差异类型信息来调整字幕文本。字幕文本可能包括多个差异内容，并且各差异内容的差异类型可能是不同的，针对每个差异内容，需要采用与该差异内容的差异类型对应的调整方式来调整字幕文本。可以理解，针对上述的差异类型信息为缺失信息、多余信息和错误信息中的至少一种的情况调整字幕文本之后，即可得到目标字幕文本，下面介绍针对每种差异类型信息的情况所需要执行的调整字幕文本的具体步骤。

针对差异类型信息为缺失信息的情况，根据位置信息确定出字幕文本中缺少文字的位置，根据缺失信息在缺少文字的位置增加对应的文字。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山黄河入海流”。缺失信息可以指示字幕文本相比于标准文本缺少了“尽”字，位置信息指示所缺少的“尽”字在字幕文本中的第四个字符和第五个字符之间(即“山”和“黄”之间)，因此，可以在字幕文本的“山”和“黄”之间增加“尽”字。

另外，还可以根据目标音频中的断句停顿，为字幕增加断句符号，例如增加逗号、顿号或者空格等，如“白日依山尽黄河入海流”，对此不做赘述。

针对差异类型信息为多余信息的情况，根据位置信息确定出字幕文本中多余文字的位置，根据多余信息在多余文字的位置删除对应的文字。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山尽黄河如入海流”。多余信息可以指示字幕文本相比于标准文本存在多余的“如”字，位置信息指示多余的“如”字为字幕文本中的第八个字符，因此，可以在字幕文本中删除第八个字符“如”。

针对差异类型信息为错误信息的情况，根据位置信息确定出字幕文本中错字的位置，根据错误信息在错字的位置更正对应的文字。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山尽黄和入海流”。错误信息可以指示字幕文本相比于标准文本存在错字“和”字，位置信息指示错字“和”为字幕文本中的第七个字符，因此，可以将字幕文本中的“和”修改为“河”。

S140：基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。

可以理解，当差异类型信息为缺失信息时，新增加的文字缺少对应的显示时间，因此可以进一步确定新增加的文字的显示时间。在本公开实施例中，可以基于字幕文本中与新增加的文字相邻的文字的显示时间，来确定给新增加的文字的显示时间，从而得到更正后的目标显示时间。

可选地，针对新增加的文字，可以确定与该新增加的文字相邻的文字的显示时间，基于该相邻的文字的显示时间和预设的时间调整量，得到该新增加的文字的显示时间。例如，可以确定在该新增加的文字的前一个文字的显示时间，将前一个文字的显示时间增加预设时长后，得到新增显示时间，将该新增显示时间作为该新增加的文字的显示时间，从而得到更正后的目标显示时间。或者，可以确定在该新增加的文字的后一个文字的显示时间，将后一个文字的显示时间减少预设时长后，得到新增显示时间，将该新增显示时间作为该新增加的文字的显示时间，从而得到更正后的目标显示时间。

可选地，针对新增加的文字，可以确定与该新增加的文字前后相邻的两个文字的显示时间，基于该前后相邻的两个文字的显示时间，来确定该新增加的文字的显示时间，从而得到更正后的目标显示时间。例如，可以确定在新增加的文字的前一个文字的显示时间、以及该新增加的文字的后一个文字的显示时间；将前一个文字的显示时间与后一个文字的显示时间的中间时间，作为该新增加的文字的显示时间，从而得到更正后的目标显示时间。

可选地，当差异类型信息为多余信息时，在删除多余的文字之后，还可以确定出该多余的文字对应的显示时间的存储位置，并删除该显示时间，从而得到更正后的目标显示时间。

可选地，当差异类型信息为错误信息时，对于更正错字所得到正确的文字，可以进一步确定该正确的文字的显示时间。可选地，可以将字幕文本中被更正的错字所对应的显示时间，确定为该正确的文字的显示时间，从而得到更正后的目标显示时间。

在本公开实施例中，在基于差异信息完成字幕文本的调整之后，还可以在同一个界面展示标准文本和调整后的字幕文本，并将字幕文本中调整过的文字以预设的形式进行显示，例如以高亮方式显示字幕文本中调整过的文字，从而方便用户基于标准文本对调整后的字幕文本进行复检。

在本公开实施例中，在确定字幕文本与标准文本存在差异之后，可以采用相应的方式来提示用户字幕文本与标准文本存在差异。例如，可以根据位置信息和差异类型信息生成差异提示信息；根据差异提示信息对用户进行提示。其中，提示的方式可以包括：展示差异提示信息对应的提示文本、播放差异提示信息对应的提示音视频。

如前文所述，差异类型信息包括字幕文本的缺失信息、字幕文本的多余信息、以及字幕文本的错误信息中的至少一项。差异提示信息的内容可以包括差异类型信息所指示的文字差异情况、以及位置信息所指示的差异文字在字幕文本中的位置。

以差异类型信息为缺失信息为例，假设目标音频所包含的语音内容为“白日依山尽黄河入海流”，字幕文本为“白日依山黄河入海流”。缺失信息可以指示字幕文本相比于标准文本缺少了“尽”字，位置信息指示所缺少的“尽”字在字幕文本中的第四个字符和第五个字符之间(即“山”和“黄”之间)。因此，差异提示信息的内容可以为：字幕文本在“山”和“黄”之间缺少“尽”字。

为了更加灵活和趣味性，还可将差异提示信息通过卡通动画、音视频或者图片等方式展示，对此不做赘述。

在一种可能的实施方式中，在确定字幕文本与标准文本存在差异之后，还可以展示字幕文本；基于差异类型信息对应的显示形式以及位置信息，在字幕文本中显示差异内容。如前文所述，差异类型信息包括字幕文本的缺失信息、字幕文本的多余信息、以及字幕文本的错误信息中的至少一项。针对每个差异内容，需要采用与该差异内容的差异类型对应的显示方式在字幕文本中显示该差异内容。以这种方式展示字幕文本，一方面可以方便用户直观地看到字幕文本的差异内容，另一方面还可以方便用户快速定位到差异内容，以便用户通过人工的方式来调整字幕文本。

针对差异类型信息为缺失信息的情况，根据位置信息确定出字幕文本中缺少文字的位置，在缺少文字的位置处展示预设符号。

可选地，预设符号可以是数字、英文字母、希腊字母和数学符号或其他预设设计好的符号等，例如增加符号、删改符号、删除符号等，但不限于此。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山黄河入海流”。位置信息指示在字幕文本中的第四个字符和第五个字符之间(即“山”和“黄”之间)缺少文字。因此，可以在字幕文本的“山”和“黄”之间展示符号“&”，以便用户直观地定位到字幕文本中缺少文字的位置，以及在符号“&”的位置增加所缺少的文字。

针对差异类型信息为多余信息的情况，根据位置信息确定出字幕文本中多余文字的位置，以第一显示形式显示多余文字。

可选地，第一显示形式可以是以预设的颜色显示文字、在文字所在区域填充预设颜色、以及在文字所在区域展示包含该文字的图框等，但不限于此。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山尽黄河如入海流”。位置信息指示字幕文本中多余的文字为第八个字符对应的文字(即“如”字)，因此，可以将第八个字符对应的文字的颜色显示文红色，以便用户直观地定位到字幕文本中多余文字的位置，以及删除多余文字。

针对差异类型信息为错误信息情况，根据位置信息确定出字幕文本中错字的位置，以第二显示形式显示错字。

可选地，第二显示形式可以是以预设的颜色显示文字、在文字所在区域填充预设颜色、以及在文字所在区域展示包含该文字的图框等，但不限于此。

以目标音频对应的标准文本为“白日依山尽黄河入海流”为例，假设字幕文本为“白日依山尽黄和入海流”。位置信息指示错字幕文本中的错字为第七个字符对应的文字，因此，可以在第七个字符对应的文字所在区域填充蓝色，以便用户直观地定位到字幕文本中错字的位置，以及对错字进行更正。

在应用阶段，可以在播放目标音频时，同步地展示目标字幕文件中的目标字幕文本。具体地，可以根据目标字幕文件中字幕文本和目标显示时间，实时显示与当前播放的目标音频的音频内容对应的文字内容。可选地，还可以预先对字幕文本的每个字进行分组，例如将字幕文本划分成多个句子。针对一个句子中的每个文字，当目标字幕文件播放到该文字的显示时间时，开始持续显示该文字；当目标字幕文件播放到该句子的下一个句子中第一个文字的显示时间时，结束显示该句子中的所有文字，继续依次显示下一个句子中的各个文字。

以目标字幕文件中的字幕文本为“白日依山尽黄河入海流”为例，将字幕文本分成两句，第一个句子为“白日依山尽”，第二个句子为“黄河入海流”。当目标字幕文件播放到第一个句子中的“白”字的显示时间时，开始持续地显示“白”字，同样地，当目标字幕文件播放到第一个句子对应文字的显示时间时，开始持续地显示该对应文字。当目标字幕文件播放到第二个句子中的“黄”字的显示时间时，结束显示第一个句子中的所有文字，开始依次显示第二个句子中的各个文字。

本公开实施例提供的字幕生成方法可以应用于教育领域，如前文所述，目标音频可以是教育机构提供的用于辅助学习的教材音频，例如，目标音频可以诗词音频、散文音频、课文音频、外语音频和儿歌音频等。

以诗词音频为例，基于诗词音频生成包括诗词字幕文本、以及诗词字幕文本中每个字的显示时间的参考诗词字幕文件，确定诗词字幕文本与诗词音频对应的标准诗歌文本是否存在差异，若存在，则确定出差异信息，基于所述差异信息调整诗词字幕文本，得到包含调整后的诗词字幕文本和对应的显示时间的目标诗词字幕文件。

在应用阶段，可以同步地播放诗词音频和目标诗词字幕文件，根据目标诗词字幕文件中诗词字幕文本对应的显示时间，实时显示与当前播放的音频内容对应的文字，以便学生可以高效地进行诗词学习。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与字幕生成方法对应的字幕生成装置，由于本公开实施例中的字幕生成装置解决问题的原理与本公开实施例上述字幕生成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参照图2至图4，图2为本公开实施例提供的一种字幕生成装置的示意图之一，图3为本公开实施例提供的一种字幕生成装置的示意图之二，图4为本公开实施例提供的一种字幕生成装置的示意图之三。如图2所示，字幕生成装置200包括数据获取模块210、参考文件生成模块220、目标文本生成模块230和目标文件生成模块240。

数据获取模块210用于获取待生成字幕的目标音频、以及目标音频对应的标准文本。

参考文件生成模块220用于基于目标音频，生成对应的参考字幕文件，其中，参考字幕文件包括字幕文本以及字幕文本的显示时间。

目标文本生成模块230用于确定字幕文本与标准文本是否存在差异，若存在，则确定出差异信息，基于差异信息调整字幕文本，得到目标字幕文本；

目标文件生成模块240，用于基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。

本公开实施例提供的字幕装置，在获取到目标音频的参考字幕文件之后，通过比较参考字幕文件的字幕文本与目标音频对应的标准文本的差异，来及时地确定字幕文本中存在的问题，并能够进一步根据字幕文本相对于标准文本的差异信息来调整字幕文本，从而获得正确的字幕文本，大大提高了字幕文件的准确率。

在一种可能的实施方式中，参考文件生成模块220在用于基于目标音频，生成对应的参考字幕文件时，具体用于：基于目标音频，生成对应的字幕文本；基于目标音频中与字幕文本中每个字对应的音频片段的播放时间，确定出字幕文本中每个字的显示时间；基于字幕文本和显示时间生成参考字幕文件。

在一种可能的实施方式中，目标文本生成模块230在用于确定出差异信息时，具体用于：确定出字幕文本与标准文本之间的差异内容在字幕文本中的位置信息、以及差异内容对应的差异类型信息；其中，差异类型信息包括缺失信息、多余信息、以及错误信息中的至少一项。

在一种可能的实施方式中，如图3所示，字幕生成装置200还可以包括第一信息展示模块250。第一信息展示模块250用于：根据位置信息和差异类型信息生成差异提示信息；根据差异提示信息对用户进行提示。

在一种可能的实施方式中，第一信息展示模块250在用于根据差异提示信息对用户进行提示时，具体用于：展示差异提示信息对应的提示文本；和/或，播放差异提示信息对应的提示音视频。

在一种可能的实施方式中，如图4所示，字幕生成装置200还可以包括第二信息展示模块260。第二信息展示模块260用于：展示字幕文本；基于差异类型信息对应的显示形式以及位置信息，在字幕文本中显示差异内容。

在一种可能的实施方式中，第二信息展示模块260在用于基于差异类型信息对应的显示形式以及位置信息，在字幕文本中显示差异内容时，具体用于：

在一种可能的实施方式中，目标文本生成模块230在用于基于差异信息调整字幕文本时，具体用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的字幕生成方法，本公开实施例还提供了一种计算机设备500，如图5所示，为本公开实施例提供的计算机设备的结构示意图，计算机设备500包括处理器510、存储器520和总线530。存储器520用于存储执行指令，包括内存521和外部存储器522。这里的内存521也称内存储器，用于暂时存放处理器510中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器510通过内存521与外部存储器522进行数据交换，当计算机设备500运行时，处理器510与存储器520之间通过总线530通信，使得处理器510执行以下指令：

获取用户针对预设文本的原始朗读音频；基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置；根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段；将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的字幕生成方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的字幕生成方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种字幕生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频，生成对应的参考字幕文件，包括：

基于所述目标音频，生成对应的字幕文本；

基于所述字幕文本和所述显示时间生成参考字幕文件。

3.根据权利要求1所述的方法，其特征在于，所述确定出差异信息包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述位置信息和所述差异类型信息生成差异提示信息；

根据所述差异提示信息对用户进行提示。

5.根据权利要求4所述的方法，其特征在于，所述根据所述差异提示信息对用户进行提示，包括：

展示所述差异提示信息对应的提示文本；

和/或，播放所述差异提示信息对应的提示音视频。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

展示所述字幕文本；

7.根据权利要求6所述的方法，其特征在于，所述基于所述差异类型信息对应的显示形式以及所述位置信息，在所述字幕文本中显示所述差异内容，包括：

8.根据权利要求3所述的方法，其特征在于，所述基于所述差异信息调整所述字幕文本，包括：

9.一种字幕生成装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8中任一所述的字幕生成方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8中任意一项所述的字幕生成方法的步骤。