CN110798733A

CN110798733A - 一种字幕生成方法、装置及计算机存储介质、电子设备

Info

Publication number: CN110798733A
Application number: CN201911047803.1A
Authority: CN
Inventors: 崔建伟; 蔡贺; 黄建新; 张歆; 黄伟峰; 朱米春; 杜伟; 王一韩; 闫磊; 钱岳
Original assignee: Central Platform
Current assignee: Central Platform; China Central TV Station
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14

Abstract

一种字幕生成方法、装置及计算机存储介质、电子设备，包括：确定节目的音频文件；将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据；将所述文本数据与所述节目的标准文稿进行匹配；根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。采用本申请中的方案，通过对音频做语音识别实现电视节目字幕和语音内容的自动匹配，使得音频与文本时间码同步，字幕文本具有时码信息。

Description

一种字幕生成方法、装置及计算机存储介质、电子设备

技术领域

本申请涉及节目制作技术，具体地，涉及一种字幕生成方法、装置及计算机存储介质、电子设备。

背景技术

在传媒行业的音视频后期字幕制作环节，电视节目的字幕和语音内容无法自动匹配，但是电视节目播出时需要将音频和字幕同步。目前，在字幕制作时，工作人员需要通过字幕软件进行时间轴拍打，制作字幕的过程包括：

第一步：工作人员需要先将听写好的字幕文件导入字幕软件；

第二步：然后再导入相对应的音视频文件；

第三步：打开时间轴制作；

第四步：拍打确定第一句话时间码的开始时间；

第五步：拍打确定第一句话时间码的结束时间；

第六步：核对第一句话时间码的开始时间和结束时间是否正确；

第七步：重复上述第四、五、六步，拍打第二句话以及后面句子的时间码；

...

第N步：导出srt文件。

从上面过程可以看出，时间码轴环节是最为细小且最为繁琐的环节。工作人员需要一边听音频、一边看视频中人物的口型、一边拍打时间轴，并且在每拍打完一句话的时间轴时候需要重新播放当前音视频片段进行核对。在这种情况下，一旦其中某句话的时间码拍打错误或处于某些原因需要进行修改，将直接影响后面关联的句子的时间轴的修改。

现有技术中存在的问题：

目前传媒行业，特别是广电行业需要播出海量的音视频节目，每一档节目都需要工作人员进行“纯手工”的匹配字幕。以视频的字幕为例，工作人员在进行手工匹配时需要视频、音频、字幕三方同时兼顾，并且需要反复听写、反复校对，过程繁琐且效率低下。而且，如果工作人员发现其中一句需要重新修改时间码，需要重新修改后面受关联影响的时间码。

发明内容

本申请实施例中提供了一种字幕生成方法、装置及计算机存储介质、电子设备，以解决上述技术问题。

根据本申请实施例的第一个方面，提供了一种字幕生成方法，包括如下步骤：

确定节目的音频文件；

将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据；

将所述文本数据与所述节目的标准文稿进行匹配；

根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。

根据本申请实施例的第二个方面，提供了一种字幕生成装置，包括：

音频确定模块，用于确定节目的音频文件；

文本生成模块，用于将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据；

匹配模块，用于将所述文本数据与所述节目的标准文稿进行匹配；

附时码模块，用于根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。

根据本申请实施例的第三个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述字幕生成方法的步骤。

根据本申请实施例的第四个方面，提供了一种电子设备，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如上所述的字幕生成方法。

采用本申请实施例中提供的字幕生成方法、装置及计算机存储介质、电子设备，在确定节目的音频文件之后，通过对音频文件进行语音识别，得到带有时间码信息的文本数据，然后将该文本数据与所述节目的标准文稿进行匹配，并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件，使得音频与字幕文件时间码同步。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例一中字幕生成方法实施的流程示意图；

图2示出了本申请实施例二中字幕生成装置的结构示意图；

图3示出了本申请实施例四中电子设备的结构示意图。

具体实施方式

针对现有技术存在的技术问题，本申请实施例中提供了一种字幕生成方法、装置及计算机存储介质、电子设备，通过对音频做语音识别实现电视节目字幕和语音内容的自动匹配，使得音频与文本时间码(或简称时码)同步，字幕文本具有时码信息。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

图1示出了本申请实施例一中字幕生成方法实施的流程示意图。

如图所示，所述字幕生成方法包括：

步骤101、确定节目的音频文件；

步骤102、将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据；

步骤103、将所述文本数据与所述节目的标准文稿进行匹配；

步骤104、根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。

在节目现场录制时通常可以同时录制主持人和嘉宾等人物的音频文件、或视频文件，并将所述音频文件和/或视频文件存储至计算机中以便后续节目制作之用。

在确定节目的音频文件之后，可以进一步将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据。具体的，可以利用现有的语音转写技术或者语音识别技术将音频文件转写为文字，具体的转写过程本申请在此不做赘述。

通常，在节目录制前会有所述节目的标准文稿，所述标准文稿通常可以包括节目名称、表演形式、表演者、以及按照时间先后顺序组织的具体节目内容。本申请实施例具体实施时，对于“节目名称”、“表演形式”、“表演者”等信息可能不会被录制声音，所以本申请实施例所述的音频文件可以仅对应于所述按照时间先后顺序组织的具体节目内容。

在得到所述音频文件对应的文本数据之后，本申请实施例可以进一步将所述文本数据与该节目的标准文稿进行匹配。由于节目录制时可能人物所说的话没有完全按照标准文稿的内容进行，或者音频文件转写时音频转写错误等原因的存在，可能导致所述音频文件的文本数据与所述节目的标准文稿不完全一致，本申请实施例可以在文本数据与节目的标准文稿中的文字进行匹配，匹配后的结果通常为文本数据与节目的标准文稿中相对应的文字建立关系。例如：音频文件转写得到的文本数据为“我爱背景展览馆”，标准文稿为“我爱北京展览馆”，本申请实施例将所述文本数据中的“我爱”与标准文稿中“我爱”进行匹配、将所述文本数据中的“展览馆”与标准文稿中“展览馆”进行匹配。

最终根据匹配后的结果，将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。例如：所述音频文件转写得到的文本数据的时间码信息为：

我爱背景展览馆

023 031 036 058

附加给所述标准文稿后，得到字幕文件如下：

我爱北京展览馆

023 031 036 058

采用本申请实施例中提供的字幕生成方法，在确定节目的音频文件之后，通过对音频文件进行语音识别，得到带有时间码信息的文本数据，然后将该文本数据与所述节目的标准文稿进行匹配，并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件，使得音频与字幕文件时间码同步。

在一种实施方式中，所述将文本数据与所述节目的标准文稿进行匹配，包括：

确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤；

按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配。

具体实施时，本申请实施例所述的将音频文件转写得到的文本数据与所述节目的标准文稿进行匹配，具体可以指将音频文件转写得到的文本数据中的字符与所述节目的标准文稿中的字符进行匹配。

由于音频文件转写得到的文本数据与所述节目的标准文稿可能存在不一致的字符，因此需要进行一些操作使得所述文本数据中能够进行匹配的字符均可以与标准文稿中对应的字符完成匹配。

所述的需要进行的操作可以有多种方式，例如将所述文本数据全部替换为标准文稿、或者将所述文本数据中部分字符替换为标准文稿中对应位置的字符等。

本申请实施例首先要确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤，然后按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配，得到匹配后的结果。

在一种实施方式中，所述确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤，包括：

对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j])以及对应的操作步骤；其中，1≤i≤所述文本数据的字符总数N，1≤j≤所述标准文稿中的字符总数 M；

i加1，重复执行上一步骤，直至遍历完所述文本数据中所有字符；

确定所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。

具体实施时，假设所述文本数据中有N个字符，匹配过程可以如下：

对于文本数据中的第1个字符，若所述文本数据中的字符串s[1]＝所述标准文稿的字符串t[1]，那么确定操作次数为0，不需要进行操作；

若所述文本数据中的字符串s[1]≠所述标准文稿的字符串t[1]，那么，可以有以下几种情况：

A1)将所述文本数据中的字符串s[1]替换为所述标准文稿的字符串t[1]，确定操作次数为1、操作步骤为将所述文本数据中的第1个字符替换为所述标准文稿的第1个字符；

B1)判断所述文本数据中的字符串s[2]是否等于所述标准文稿的字符串 t[1]；

若所述文本数据中的字符串s[2]＝所述标准文稿的字符串t[1]，则将所述文本数据中的字符串s[1]替换为空字符，确定操作次数为1、操作步骤为将所述文本数据中的第1个字符替换为空字符；

若所述文本数据中的字符串s[2]≠所述标准文稿的字符串t[1]，则又可以包括以下几种情况：

B11)判断所述文本数据中的字符串s[3]是否等于所述标准文稿的字符串 t[1]；

B12)判断所述文本数据中的字符串s[2]是否等于所述标准文稿的字符串 t[2]；

...

C1)判断所述文本数据中的字符串s[1]是否等于所述标准文稿的字符串 t[2]；

在所述文本数据中的字符串s[1]＝所述标准文稿的字符串t[2]时，确定操作次数为1、操作步骤为在所述文本数据的第1个字符前增加一个替补字符；

若所述文本数据中的字符串s[1]≠所述标准文稿的字符串t[2]，则可以继续划分为以下几种情况：

C12)将所述文本数据中的字符串s[1～1]替换为所述标准文稿的字符串 t[1～2]，确定操作次数为2、操作步骤为将所述文本数据中的第1、2个字符替换为所述标准文稿的第1、2个字符；

C22)判断所述文本数据中的字符串s[3]是否等于所述标准文稿的字符串t[1]或t[2]；

...

通过上述动态调整的过程，逐渐将文本数据与标准文稿存在对应关系的字符进行匹配成功。

对于文本数据中的第1个字符，确定所述文本数据中的字符串s[1]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[1,j])以及对应的操作步骤；

对于文本数据中的第2个字符，确定所述文本数据中的字符串s[1～2]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[2,j])以及对应的操作步骤；

...(对于每个字符的操作确定时，标准文稿中的j值可以不同)

最终遍历完所述文本数据中的字符N和/或所述节目的标准文稿中的字符 M，得到所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。

在一种实施方式中，所述对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j]) 以及对应的操作步骤，包括：

若在k个操作步骤内可将s[1～i]可转换为t[1～j-1]，则确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数为k+1，操作步骤包括所述k个操作步骤以及将t[j]加上s[1～i]的步骤；

若在k个操作步骤内可将s[1～i-1]可转换为t[1～j]，则确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数为k+1，操作步骤包括所述k个操作步骤以及将s[i]移除的步骤；

若在k个操作步骤内可将s[1～i-1]可转换为t[1～j-1]且s[i]≠t[j]，则确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数为 k+1，操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤；

若在k个操作步骤内可将s[1～i-1]可转换为t[1～j-1]且s[i]＝t[j]，则确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数为k，操作步骤包括所述k个操作步骤；

根据上述情况确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的最小操作次数min(d[i,j])以及对应的操作步骤。

对于每个字符串的匹配过程中，均可以包括多种情况(即多种操作方式，对应于不同的操作次数和操作步骤)，本申请实施例通过动态规划、或动态调整的过程，最终确定出完成所有字符匹配的最小操作次数和操作步骤。

在一种实施方式中，在确定最小操作次数之后，进一步包括：

对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断；通过发音确定该错误位置的词是否为由于模糊音节导致的错误；

在确定所述错误位置的词为由于模糊音节导致的错误时，根据模糊音节对所述错误位置的词进行修正。

具体实施时，假设标准文稿中的文本为“今年的你很好”，而经过音频转写得到的文本数据为“今年的你和好”，错误的位置为“你”后面，在错误位置的词前后没有匹配记录的关联词为“和”，前后音节(“jin nian de ni”和“hao”) 一致且分别在全文中的位置相对应，此时，本申请实施例对于这种情况按照模糊音节处理“和”这个字(没有匹配记录的词)，确定中间音节“he”是由于模糊音节导致的错误，将“he”改成“hen”。

具体实施时，未有匹配记录的关联词，需要按照顺序进行检索判断。

在一种实施方式中，所述的操作步骤包括对所述文本数据中与所述节目的标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。

具体实施时，增加字符可以指在所述文本数据中与所述节目的标准文稿中的字符不匹配的位置增加一个空字符，例如：在文本数据中缺少标准文稿中的某个字符时，可以在相应位置增加一个空字符代替。

删除字符可以指在文本数据中存在所述标准文稿中没有的字符，此时可以将该字符从所述文本数据中删除。

替换字符可以指文本数据中存在与所述标准文稿中的字符拼音相同、但文字不同的字符，此时可以将所述文本数据中的所述字符替换为标准文稿中的字符。

在一种实施方式中，所述将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据，包括：

将所述音频文件的每帧语音识别成状态序列；

根据所述音频文件中每帧语音的状态序列得到多个音素；

根据所述多个音素生成一个或多个单词；

将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；

根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

具体实施时，本申请实施例可以将语音的每帧识别成状态，再将每帧语音对应的状态组合成音素，接着，再将多个音素组合成单词。

由于语音是一个连续的音频流，通常由大部分的稳定态和部分动态改变的状态混合构成。所述将音频文件的每帧语音识别成状态，可以利用现有技术中的维特比解码等技术对该音频文件进行解码，得到状态序列，所述状态序列可以对应有多个音素。

人类的语言通常包括语音、词汇和语法三部分要素，基本词汇和语法构造决定了每一种语言的基本面貌，本申请实施例侧重于语音的处理。语音可以理解为语言用声音表达出来的形式，即人说话时发出的声音。而声音包括响度、音调和音色三个基本属性，本申请实施例所述的音素可以理解为从音色的角度划分出来的最小的语音单位。

音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音音素，例如：a、o、e等元音；b、p、f等辅音。

通常在汉语中，2～4个音素可以构成一个音节(例如：mei)，一个音节对应一个汉字(例如：美)，即，2～4个音素可以组成一个词语/单词(例如：m、e、i三个音素组成一个词语/单词“美”)。

音频文件通常是按照一个时间轴播放的，在得到所述一个或多个单词之后，可以将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在所述音频文件的时间轴上的相对时间位置，从而根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

实施例二

基于同一发明构思，本申请实施例提供了一种字幕生成装置，该装置解决技术问题的原理与一种字幕生成方法相似，重复之处不再赘述。

图2示出了本申请实施例二中字幕生成装置的结构示意图。

如图所示，所述字幕生成装置包括：

音频确定模块201，用于确定节目的音频文件；

文本生成模块202，用于将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据；

匹配模块203，用于将所述文本数据与所述节目的标准文稿进行匹配；

附时码模块204，用于根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件。

采用本申请实施例中提供的字幕生成装置，在确定节目的音频文件之后，通过对音频文件进行语音识别，得到带有时间码信息的文本数据，然后将该文本数据与所述节目的标准文稿进行匹配，并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件，使得音频与字幕文件时间码同步。

在一种实施方式中，所述匹配模块，包括：

操作确定单元，用于确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤；

匹配单元，用于按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配。

在一种实施方式中，所述操作确定单元，包括：

字符操作子单元，用于对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j]) 以及对应的操作步骤；其中，1≤i≤所述文本数据的字符总数N，1≤j≤所述标准文稿中的字符总数M；i加1，重复执行上一步骤，直至遍历完所述文本数据中所有字符；

操作确定子单元，用于确定所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。

在一种实施方式中，所述字符操作子单元具体用于：

在一种实施方式中，所述装置进一步包括：

模糊音修正模块，用于在确定最小操作次数之后，对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断；通过发音确定该错误位置的词是否为由于模糊音节导致的错误；在确定所述错误位置的词为由于模糊音节导致的错误时，根据模糊音节对所述错误位置的词进行修正。

在一种实施方式中，所述文本生成模块，包括：

第一处理单元，用于将所述音频文件的每帧语音识别成状态序列；

第二处理单元，用于根据所述音频文件中每帧语音的状态序列得到多个音素；

第三处理单元，用于根据所述多个音素生成一个或多个单词；

第四处理单元，用于将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；

第五处理单元，用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

实施例三

基于同一发明构思，本申请实施例还提供一种计算机存储介质，下面进行说明。

所述计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述字幕生成方法的步骤。

采用本申请实施例中提供的计算机存储介质，在确定节目的音频文件之后，通过对音频文件进行语音识别，得到带有时间码信息的文本数据，然后将该文本数据与所述节目的标准文稿进行匹配，并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件，使得音频与字幕文件时间码同步。

实施例四

基于同一发明构思，本申请实施例还提供一种电子设备，下面进行说明。

图3示出了本申请实施例四中电子设备的结构示意图。

如图所示，所述电子设备包括存储器301、以及一个或多个处理器302，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如实施例一所述的字幕生成方法。

采用本申请实施例中提供的电子设备，在确定节目的音频文件之后，通过对音频文件进行语音识别，得到带有时间码信息的文本数据，然后将该文本数据与所述节目的标准文稿进行匹配，并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿，得到带时间码信息的字幕文件，使得音频与字幕文件时间码同步。

实施例五

为了便于本申请的实施，本申请实施例以一具体实例进行说明。

在电视台进行节目字幕制作时，可以包括以下过程：

首先，准备好节目的音频文件和节目的标准文稿。

音频文件和标准文稿通常可以一一对应。

然后，可以开始制作。

步骤1、先将音频文件进行转写，得到带时码的文本数据。

音频文件可以使用离线引擎转写得到该音频文件对应的带时码的文本数据(或称为识别结果)，音频转写具体可以基于深度全序列卷积神经网络，将5 小时以上的长段音频数据转换为文本数据，为后续的处理提供基础。

步骤2、将识别结果与标准文稿匹配

具体的，本申请实施例将识别结果与标准文稿匹配，以标准文稿的文字和断句为准，将识别结果的文字和断句全部转化为标准文稿，按照预设算法处理后的识别结果即等同于附好时码的标准文稿。

本申请实施例的算法可以理解为，利用字符操作，将字符串A转换为字符串B所需要的最少操作数，本次操作即为将识别结果转化为标准文稿。一般来说，两个字符串的最少操作数越小，则它们越相似。如果两个字符串相等，则它们的最少操作数为0(不需要任何操作)。

假设标准文稿的字符串为A、识别结果的字符串为B，将识别结果的字符串B转化为标准文稿的字符串A的最小操作数下，将识别结果的字符串B的文字所携带的时间码附加给标准文稿的字符串A。

具体算法可以为：先通篇比对，再进行增加、删除、替换操作，选择操作步骤最少的方案，在此方案下，将识别结果的时码信息附加给标准文稿。若出现连续的文本不一致时，本申请实施例可以从拼音维度将识别结果的拼音与标准文稿的拼音进行对比，在连续拼音一致时，将识别结果的时码信息附加给匹配后的标准文稿的对应文本部分。

假设使用d[i,j]个步骤表示将串s[1…i]转换为串t[1…j]所需要的最少步骤个数，那么，在最基本的情况下，即在i等于0时，也就是说串s为空，那么对应的d[0,j]就是增加j个字符，使得s转化为t，在j等于0时，也就是说串t为空，那么对应的d[i,0]就是减少i个字符，使得s转化为t。

具体实施时，可以使用一个二维数组保存d[i,j]这个值。

接下来，本申请实施例在此基础上增加一点动态规划的思想，要想得到将 s[1..i]经过最少次数的增加、删除、或者替换操作就转变为t[1..j]，那么就必须在之前可以以最少次数的增加、删除、或者替换操作，使得现在串s和串t只需要再做一次操作或者不做就可以完成s[1..i]到t[1..j]的转换。所谓的“之前” 分为下面三种情况：

1)在k个操作内将s[1…i]转换为t[1…j-1]；

2)在k个操作内将s[1..i-1]转换为t[1..j]；

3)在k个步骤内将s[1…i-1]转换为t[1…j-1]；

针对第1种情况，只需要在最后将t[j]加上s[1..i]就完成了匹配，这样总共就需要k+1个操作。

针对第2种情况，只需要在最后将s[i]移除，然后再做这k个操作，所以总共需要k+1个操作。

针对第3种情况，只需要在最后将s[i]替换为t[j]，使得满足s[1..i]＝＝t[1..j]，这样总共也需要k+1个操作。而如果在第3种情况下，s[i]刚好等于t[j]，那可以仅仅使用k个操作就完成这个过程。

最后，为了保证得到的操作次数总是最少的，本申请实施例可以从上面三种情况中选择消耗最少的一种作为将s[1..i]转换为t[1..j]所需要的最小操作次数。

由于在音频文件中可能有模糊音的存在，因此，在得到最小的操作次数后，还可以进一步对错误位置的词前后未有匹配记录的关联词，基于模糊的音节进行判断，通过发音进行确定该词是否是由于模糊音导致错误，从而对操作次数进行进一步的修正。

具体的，未有匹配记录的关联词，需要按照顺序进行检索判断。

举例说明：

A(标准文稿)：大家过年好今年冬天的雪下得是真大所谓瑞雪兆丰年是个好兆头啊

B(识别结果)：过年好今年冬天的雪下的是真大瑞雪兆丰年啊是个好兆头

第一种匹配方式如下：增加、删除、替换并存(□：代表改错地方)

B(识别结果)：□□过年好今年冬天的雪下□是真大 □□瑞雪兆丰年□ 是个好兆头□

错误数：7

第二种匹配方式如下：纯替换(倾斜字体代表改错地方)

B(识别结果)：

错误数：25，全部替换，原始文字无保留，无法附加时码

本申请实施例最终选择错误数最少的进行修改操作，确定最终结果：

操作步骤数7；未修改位置的时码均保留；输出本申请实施例匹配处理后的结果；

步骤3、附加时间码

在步骤2计算的最少操作步骤数的方案下，将识别结果所包含的文字信息 (时间码)附加给标准文稿，附时码结果如下(有下划线的字为带有时码信息的文字)：

步骤4、人为容差

节目制作人员可以进行整体的偏移修改、细节调整、字幕停留时间延长、应广电要求的文字进行断句优化等操作。

步骤5、输出结果

输出srt+txt字幕文件，进一步可以按照时间码信息播出字幕内容。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种字幕生成方法，其特征在于，包括如下步骤：

确定节目的音频文件；

将所述文本数据与所述节目的标准文稿进行匹配；

2.根据权利要求1所述的方法，其特征在于，所述将文本数据与所述节目的标准文稿进行匹配，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤，包括：

对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j])以及对应的操作步骤；其中，1≤i≤所述文本数据的字符总数N，1≤j≤所述标准文稿中的字符总数M；

4.根据权利要求3所述的方法，其特征在于，所述对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j])以及对应的操作步骤，包括：

若在k个操作步骤内可将s[1～i-1]可转换为t[1～j-1]且s[i]≠t[j]，则确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数为k+1，操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤；

5.根据权利要求2所述的方法，其特征在于，在确定最小操作次数之后，进一步包括：

对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断；

通过发音确定该错误位置的词是否为由于模糊音节导致的错误；

6.根据权利要求2所述的方法，其特征在于，所述的操作步骤包括对所述文本数据中与所述节目的标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。

7.根据权利要求1所述的方法，其特征在于，所述将所述音频文件转写为文字，得到音频文件对应的带有时间码信息的文本数据，包括：

将所述音频文件的每帧语音识别成状态序列；

根据所述音频文件中每帧语音的状态序列得到多个音素；

根据所述多个音素生成一个或多个单词；

8.一种字幕生成装置，其特征在于，包括：

音频确定模块，用于确定节目的音频文件；

9.根据权利要求8所述的装置，其特征在于，所述匹配模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述操作确定单元，包括：

字符操作子单元，用于对于所述文本数据中第i个字符，确定所述文本数据中的字符串s[1～i]＝＝所述标准文稿的字符串t[1～j]时的操作次数min(d[i,j])以及对应的操作步骤；其中，1≤i≤所述文本数据的字符总数N，1≤j≤所述标准文稿中的字符总数M；i加1，重复执行上一步骤，直至遍历完所述文本数据中所有字符；

11.根据权利要求10所述的装置，其特征在于，所述字符操作子单元具体用于：

12.根据权利要求9所述的装置，其特征在于，进一步包括：

13.根据权利要求9所述的装置，其特征在于，所述的操作步骤包括对所述文本数据中与所述节目的标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。

14.根据权利要求8所述的装置，其特征在于，所述文本生成模块，包括：

15.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。

16.一种电子设备，其特征在于，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至7任一所述的方法。