CN104038804A

CN104038804A - 基于语音识别的字幕同步装置和方法

Info

Publication number: CN104038804A
Application number: CN201310069142.9A
Authority: CN
Inventors: 徐�明; 范炜; 谭皓
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2014-09-10
Anticipated expiration: 2033-03-05
Also published as: CN104038804B

Abstract

提供了一种基于语音识别的字幕同步装置和方法，所述字幕同步装置包括：语音识别模块，从音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与对应的文字信息；动态采样调整模块，对生成的文字信息进行语义识别度的评价，并根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；字幕语义对比模块，将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配；字幕同步模块，如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子，则根据语音的时间信息来调整字幕文件的时间信息；字幕显示模块，根据调整后的字幕文件的时间信息来显示字幕。

Description

基于语音识别的字幕同步装置和方法

技术领域

本发明涉及语音识别和字幕同步技术领域。更具体地讲，涉及一种利用语音识别在播放电视节目的时候自动同步与视频对应的字幕的装置和方法。

背景技术

目前，数字电视信号流中对于字幕语言数目的支持有限，不能同时满足不同人群的需求。尤其是在酒店旅馆这样的场所，会有很多不同语言国家的人入住，这些人群在观看数字电视字幕的时候就有其特殊的需要。因此，在播放数字电视视频时存在显示附加的多国语言字幕的需求。同时，由于电视节目中可能会插播广告和紧急通知之类的信息，附加的多国字幕显示需要广告类信息跳转功能，始终与音视频保持同步。

发明内容

本发明通过利用语音识别技术提出了电视节目中存在插播广告时同步显示附加字幕的方案。通过附加语言字幕，采用动态语音采样，合理获得有效音频信息，对附加字幕文进行匹配并调整的显示时间戳，使得附加字幕文能对数字电视节目中存在插播等现象进行有效的调整，保持附加字幕的同步显不。

根据本发明的一方面，提供了一种基于语音识别的字幕同步装置，包括：语音识别模块，从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；动态采样调整模块，对语音识别模块生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；字幕语义对比模块，将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配；字幕同步模块，如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子，则根据语音的时间信息来调整字幕文件的时间信息；字幕显示模块，根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。

根据本发明的一方面，所述字幕同步装置还包括：语言选择模块，根据用户的选择来确定将要显示的字幕的语言。

根据本发明的一方面，当动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的个数在预定范围[m，n]内时，动态采样调整模块确定文字信息具有高语义识别度，其中m、n是自然数。

根据本发明的一方面，如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量低于最小数量m，则动态采样调整模块控制语音识别模块提高采样频率来对语音进行采样；如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量高于最大数量n，则动态采样调整模块控制语音识别模块降低采样频率来对语音进行采样。

根据本发明的一方面，动态采样调整模块考虑语音识别模块生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。

根据本发明的一方面，字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。

根据本发明的一方面，如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子，则通知动态采样调整模块提高语音识别模块的采样频率。

根据本发明的另一方面，提供了一种基于语音识别的字幕同步方法，包括：(a)从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；(b)对生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；(c)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配，以在字幕文件中找到与识别的语音的文字信息对应的句子；(d)根据语音的时间信息来调整字幕文件的时间信息；(e)根据调整后的字幕文件的时间信息来显示字幕。

根据本发明的另一方面，所述字幕同步方法还包括：根据用户的选择来确定将要显示的字幕的语言。

根据本发明的另一方面，在步骤(b)，当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m，n]内时，确定文字信息具有高语义识别度，其中m、n是自然数。

根据本发明的另一方面，在步骤(b)，如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m，则返回步骤(a)并提高采样频率来对语音进行采样；如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n，则返回步骤(a)降低采样频率来对语音进行采样。

根据本发明的另一方面，在步骤(b)，考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。

根据本发明的另一方面，在步骤(c)，采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。

根据本发明的另一方面，如果在步骤(c)没有在字幕文件中找到与识别的语音的文字信息对应的句子，则返回步骤(a)提高语音识别的采样频率。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本发明实施例的基于语音识别的字幕同步装置的框图；

图2是示出根据本发明实施例的基于语音识别的字幕同步方法的流程图。

具体实施方式

下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解，而这些描述将被认为仅为示例性的。因此，本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外，为了清晰和简洁，可省略对公知功能和构造的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面意思，而是仅被发明人所使用以能够清楚且一致地理解本发明。因此，本领域技术人员应该清楚的是，下面提供的对本发明的示例性实施例的描述仅出于示出的目的，而不是出于限制如由权利要求及其等同物限定的本发明的目的。

图1是示出根据本发明实施例的基于语音识别的字幕同步装置100的框图。

如图1所示，根据本发明实施例的基于语音识别的字幕同步装置100包括语言选择模块110、语音识别模块120、动态采样调整模块130、字幕语义对比模块140、字幕同步模块150和字幕显示模块160。根据本发明实施例的字幕同步装置100可集成到数字广播接收装置或视频播放装置之中。

语音选择模块110可根据用户的选择来确定将要显示的字幕语言。例如，当用户通过遥控器等控制装置向字幕同步装置100发送信号，从而选择想要使用的字幕语言。

语音识别模块120从与正在播放的电视节目或其它播放内容的视频流对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息。通过提取前景主声音，可以去除播放的视频中的背景声音，例如，电影或电视节目中的汽车、背景音乐等声音，这样可以提高语音识别的准确度。可采用任何现有技术中的前景主声音提取方法以及语音识别引擎来实现语音识别模块120。

动态采样调整模块130对语音识别模块120生成的文字信息进行语义可识别度评价，并根据评价的结果确定是否需要调整语音识别模块120的采样频率。根据本发明的一实施例，动态采样调整模块130可确定语音识别模块120生成的文字信息中的语音单词的个数是否在预定范围[m，n]内。如果确定文字信息中的语音单词的数量低于最小数量m或者多于最大数量n，则动态采样调整模块130确定语义识别度较低，需要调整采样频率。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量低于最小数量m时，动态采样调整模块130确定需要提高采样频率，从而控制语音识别模块120以提高的采样频率来对语音进行采样。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量高于最大数量n时，动态采样调整模块130确定可以降低采样频率，从而控制语音识别模块120根据降低后的采样频率对语音进行采样。也就是说，当音频中的人物说话语速很快时，在单位时间内获取的语句字符数就会增加，这导致字幕匹配的错误率增加，此时，可确定当前音频的语义识别度低。反之，当音频中人物说话语速很慢时，在单位时间内获取的语句字符数就会减少，同样也会增加字幕匹配的错误率，此时，同样可确定当前的音频语义识别度低。因此，只有控制采样频率并获得合理数量的字符数才能判定语义识别度高。

另外，根据本发明的实施例，在评价语义识别度时，动态采样调整模块130还可考虑语音识别模块120生成的文字信息中的语音单词的语义意义，从而确定是否需要调整采样频率。例如，当语音识别模块120生成的文字信息中的语音单词中包括多个低语义单词(例如，诸如连续多个“啊”的象声词)时，动态采样调整模块130可确定语音识别模块120生成的文字信息的语义识别度较低，并控制语音识别模块120提高采样频率。

接下来，在经过动态采样调整模块130的评估得到较高的语义识别度的文字信息之后，字幕语义对比模块140将文字信息与播放视频的附加多国语言字幕的文字进行语义匹配。这里，字幕语义对比模块140可采用模糊算法，来对附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子。也就是说，字幕语义对比模块140将字幕文件中评分高于预定值的句子中的评分最高的句子确定为与识别的文字信息对应的句子。

下面将举例说明采用模糊算法对句子评分的方式。当然，本领域的技术人员可采用其它方式来查找与字幕文件中的句子的语义匹配的句子。

给出两个字符串ACAATCC和AGCATGC，则对两者进行匹配时进行修改、删除和添加等操作才可以完全匹配。为了更方便近似度的计算，将编辑距离调整为近似度得分，即若匹配则得2分，修改、删除、添加则得-1分。为了得到完全匹配时的近似度得分，可以通过以下递推公式得到一个得分矩阵，其近似度得分即该n阶矩阵S中的S(n，n)值，n为待匹配字符串长度加1。V代表Value(即得分值)，D代表Difference Value(即差值)，S代表String(即待匹配字符串)，T代表Template即模板，i、j分别代表矩阵的行和列，取值从0开始)。

初始值可直接得到：

V(0，0)＝0；

V(0，j)＝V(0，j-1)+D(_，T[j])；***j次

V(i，0)＝V(i-1，0)+D(S[i]，_)；删除i次

其他值可以通过下面递推式来获得：

根据以上的公式，以计算V(1，2)为例，

已知i＝1，j＝2

则：

V(0，1)＝-1，V(0，2)＝-2，V(1，1)＝2；

D(S[1]，T[2])＝-1(即A与AG比较)，

D(S[1]，_)＝-1(即A与_比较)，

D(_，T[2])＝-1(即_与G比较)；

V(1，2)＝V(0，1)+D(S[1]，T[2])＝-2，

V(1，2)＝V(0，2)+D(S[1]，_)＝-3，

V(1，2)＝V(0，1)+D(_，T[2])＝1；

最终可得：

(max)V(1，2)＝1

最终可以得出最短编辑距离对应的最佳得分为7分，即两个字符串的相似性评分为7。

以上仅是举出了用于对字符串评分的方法的一个示例，还可以采用任何已知的方法来对识别的文字信息和字幕文件中的句子之间的相似性进行评价。

如果所有句子的评分均低于预定值，则字幕语义对比模块140确定字幕文件中不存在与识别的文字信息对应的句子。根据本发明的实施例，当字幕语义对比模块140没有在字幕文件中找到与识别的文字信息对应的句子时，字幕语义对比模块140向动态采样调整模块130发出提高采样频率的命令，从而动态采样调整模块130可控制语音识别模块120根据提高的采样频率来继续对语音进行识别。然后，重复语音识别模块120、动态采样调整模块130、字幕语义对比模块140的上述操作，直到找到与字幕文件中的句子的语义相似度较高的语音为止。

如果字幕语义对比模块140找到与采样的语音对应的字幕文件中的句子，则字幕同步模块150根据语音的时间信息来调整字幕文件的时间信息。也就是说，字幕同步模块150根据采样的语音的时间信息和字幕语义对比模块140找到的句子的时间信息之间的偏移值来调整字幕显示的时间信息。

最后，字幕显示模块160根据字幕同步模块150调整后的字幕的时间信息来显示字幕。

应理解，以上描述的各个模块可以进一步组合成更少的模块，或者根据其执行的操作而划分为更多的模块。

下面将参照图2的流程图来描述根据本发明实施例的基于语音识别的字幕同步方法。

首先，在步骤S210，从与视频流对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息。这里，可由用户来选择文字信息的语言类型。

接下来，在步骤S220，对生成的文字信息进行语义可识别度评价。接下来，在步骤S230根据评价的结果确定是否需要调整语音识别的采样频率。根据本发明的实施例，可通过确定语音识别模块120生成的文字信息中的语音单词的个数是否在预定范围[m，n]内来决定是否需要调整语音识别的采样频率。另外，还可考虑文字信息中的语音单词的语义意义来确定是否需要调整采样频率。如果确定需要调整采样频率，则在步骤S235根据语义可识别度的评价结果来调整采样频率，然后返回到步骤S210以再次进行语义可识别度评价。如果确定不需要调整采样频率，则进行到步骤S240。

经过步骤S230的评估得到较高的语义识别度的文字信息之后，在步骤S240将文字信息与播放视频的附加多国语言字幕的文字进行语义匹配。

接下来，在步骤S250确定是否在附加多国语言字幕的文字中找到与识别的文字信息匹配的句子。

如果在步骤S250确定找到了与文字信息匹配的句子，则在步骤S260根据与文字信息对应的语音的时间信息来调整字幕的显示时间。否则，如果没有找到与文字信息匹配的句子，则在步骤S255提高采样频率，然后返回步骤S210提取语音并进行采样和识别。

重复执行以上的操作S210-S255，直到在字幕文件中找到与提取的语音的文字信息对应的句子为止。

最后，在S270，根据调整后的字幕的显示时间来显示字幕。

本发明利用语音识别技术提出了字幕的同步显示的解决方案。通过采用动态语音采样，合理获得有效音频信息，对附加字幕文进行匹配并调整显示时间信息，能在数字电视节目中存在插播等现象对附加字幕的文字进行有效的调整，保持附加字幕的同步显示。

根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带)；光学介质(例如CD-ROM和DVD)；磁光介质(例如，光盘)；以及特别配制用于存储并执行程序指令的硬件装置(例如，只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。

尽管已经参照本发明的示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种基于语音识别的字幕同步装置，包括：

语音识别模块，从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；

动态采样调整模块，对语音识别模块生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；

字幕语义对比模块，将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配；

字幕同步模块，如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子，则根据语音的时间信息来调整字幕文件的时间信息；

字幕显示模块，根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。

2.如权利要求1所述的字幕同步装置，还包括：

语言选择模块，根据用户的选择来确定将要显示的字幕的语言。

3.如权利要求1所述的字幕同步装置，其中，当动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的个数在预定范围[m，n]内时，动态采样调整模块确定文字信息具有高语义识别度，其中m、n是自然数。

4.如权利要求3所述的字幕同步装置，其中：

如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量低于最小数量m，则动态采样调整模块控制语音识别模块提高采样频率来对语音进行采样；

如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量高于最大数量n，则动态采样调整模块控制语音识别模块降低采样频率来对语音进行采样。

5.如权利要求3或4所述的字幕同步装置，其中，动态采样调整模块考虑语音识别模块生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。

6.如权利要求1所述的字幕同步装置，其中，字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。

7.如权利要求1所述的字幕同步装置，其中，如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子，则通知动态采样调整模块提高语音识别模块的采样频率。

8.一种基于语音识别的字幕同步方法，包括：

(a)从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；

(b)对生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；

(c)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配，以在字幕文件中找到与识别的语音的文字信息对应的句子；

(d)根据语音的时间信息来调整字幕文件的时间信息；

(e)根据调整后的字幕文件的时间信息来显示字幕。

9.如权利要求8所述的字幕同步方法，还包括：

根据用户的选择来确定将要显示的字幕的语言。

10.如权利要求8所述的字幕同步方法，其中，在步骤(b)，当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m，n]内时，确定文字信息具有高语义识别度，其中m、n是自然数。

11.如权利要求3所述的字幕同步方法，其中，在步骤(b)，

如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m，则返回步骤(a)并提高采样频率来对语音进行采样；

如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n，则返回步骤(a)降低采样频率来对语音进行采样。

12.如权利要求10或11所述的字幕同步方法，其中，在步骤(b)，考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。

13.如权利要求8所述的字幕同步方法，其中，在步骤(c)，采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。

14.如权利要求8所述的字幕同步方法，其中，如果在步骤(c)没有在字幕文件中找到与识别的语音的文字信息对应的句子，则返回步骤(a)提高语音识别的采样频率。