CN104038804A - 基于语音识别的字幕同步装置和方法 - Google Patents

基于语音识别的字幕同步装置和方法 Download PDF

Info

Publication number
CN104038804A
CN104038804A CN201310069142.9A CN201310069142A CN104038804A CN 104038804 A CN104038804 A CN 104038804A CN 201310069142 A CN201310069142 A CN 201310069142A CN 104038804 A CN104038804 A CN 104038804A
Authority
CN
China
Prior art keywords
captions
module
word message
subtitle
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310069142.9A
Other languages
English (en)
Other versions
CN104038804B (zh
Inventor
徐�明
范炜
谭皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201310069142.9A priority Critical patent/CN104038804B/zh
Publication of CN104038804A publication Critical patent/CN104038804A/zh
Application granted granted Critical
Publication of CN104038804B publication Critical patent/CN104038804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了一种基于语音识别的字幕同步装置和方法,所述字幕同步装置包括:语音识别模块,从音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与对应的文字信息;动态采样调整模块,对生成的文字信息进行语义识别度的评价,并根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;字幕语义对比模块,将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配;字幕同步模块,如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子,则根据语音的时间信息来调整字幕文件的时间信息;字幕显示模块,根据调整后的字幕文件的时间信息来显示字幕。

Description

基于语音识别的字幕同步装置和方法
技术领域
本发明涉及语音识别和字幕同步技术领域。更具体地讲,涉及一种利用语音识别在播放电视节目的时候自动同步与视频对应的字幕的装置和方法。
背景技术
目前,数字电视信号流中对于字幕语言数目的支持有限,不能同时满足不同人群的需求。尤其是在酒店旅馆这样的场所,会有很多不同语言国家的人入住,这些人群在观看数字电视字幕的时候就有其特殊的需要。因此,在播放数字电视视频时存在显示附加的多国语言字幕的需求。同时,由于电视节目中可能会插播广告和紧急通知之类的信息,附加的多国字幕显示需要广告类信息跳转功能,始终与音视频保持同步。
发明内容
本发明通过利用语音识别技术提出了电视节目中存在插播广告时同步显示附加字幕的方案。通过附加语言字幕,采用动态语音采样,合理获得有效音频信息,对附加字幕文进行匹配并调整的显示时间戳,使得附加字幕文能对数字电视节目中存在插播等现象进行有效的调整,保持附加字幕的同步显不。
根据本发明的一方面,提供了一种基于语音识别的字幕同步装置,包括:语音识别模块,从与播放视频对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息;动态采样调整模块,对语音识别模块生成的文字信息进行语义识别度的评价,并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;字幕语义对比模块,将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配;字幕同步模块,如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子,则根据语音的时间信息来调整字幕文件的时间信息;字幕显示模块,根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。
根据本发明的一方面,所述字幕同步装置还包括:语言选择模块,根据用户的选择来确定将要显示的字幕的语言。
根据本发明的一方面,当动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的个数在预定范围[m,n]内时,动态采样调整模块确定文字信息具有高语义识别度,其中m、n是自然数。
根据本发明的一方面,如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量低于最小数量m,则动态采样调整模块控制语音识别模块提高采样频率来对语音进行采样;如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量高于最大数量n,则动态采样调整模块控制语音识别模块降低采样频率来对语音进行采样。
根据本发明的一方面,动态采样调整模块考虑语音识别模块生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
根据本发明的一方面,字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分,从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
根据本发明的一方面,如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子,则通知动态采样调整模块提高语音识别模块的采样频率。
根据本发明的另一方面,提供了一种基于语音识别的字幕同步方法,包括:(a)从与播放视频对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息;(b)对生成的文字信息进行语义识别度的评价,并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;(c)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配,以在字幕文件中找到与识别的语音的文字信息对应的句子;(d)根据语音的时间信息来调整字幕文件的时间信息;(e)根据调整后的字幕文件的时间信息来显示字幕。
根据本发明的另一方面,所述字幕同步方法还包括:根据用户的选择来确定将要显示的字幕的语言。
根据本发明的另一方面,在步骤(b),当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m,n]内时,确定文字信息具有高语义识别度,其中m、n是自然数。
根据本发明的另一方面,在步骤(b),如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m,则返回步骤(a)并提高采样频率来对语音进行采样;如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n,则返回步骤(a)降低采样频率来对语音进行采样。
根据本发明的另一方面,在步骤(b),考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
根据本发明的另一方面,在步骤(c),采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分,从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
根据本发明的另一方面,如果在步骤(c)没有在字幕文件中找到与识别的语音的文字信息对应的句子,则返回步骤(a)提高语音识别的采样频率。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明实施例的基于语音识别的字幕同步装置的框图;
图2是示出根据本发明实施例的基于语音识别的字幕同步方法的流程图。
具体实施方式
下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解,而这些描述将被认为仅为示例性的。因此,本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外,为了清晰和简洁,可省略对公知功能和构造的描述。
在下面的描述和权利要求中使用的术语和词语不限于书面意思,而是仅被发明人所使用以能够清楚且一致地理解本发明。因此,本领域技术人员应该清楚的是,下面提供的对本发明的示例性实施例的描述仅出于示出的目的,而不是出于限制如由权利要求及其等同物限定的本发明的目的。
图1是示出根据本发明实施例的基于语音识别的字幕同步装置100的框图。
如图1所示,根据本发明实施例的基于语音识别的字幕同步装置100包括语言选择模块110、语音识别模块120、动态采样调整模块130、字幕语义对比模块140、字幕同步模块150和字幕显示模块160。根据本发明实施例的字幕同步装置100可集成到数字广播接收装置或视频播放装置之中。
语音选择模块110可根据用户的选择来确定将要显示的字幕语言。例如,当用户通过遥控器等控制装置向字幕同步装置100发送信号,从而选择想要使用的字幕语言。
语音识别模块120从与正在播放的电视节目或其它播放内容的视频流对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息。通过提取前景主声音,可以去除播放的视频中的背景声音,例如,电影或电视节目中的汽车、背景音乐等声音,这样可以提高语音识别的准确度。可采用任何现有技术中的前景主声音提取方法以及语音识别引擎来实现语音识别模块120。
动态采样调整模块130对语音识别模块120生成的文字信息进行语义可识别度评价,并根据评价的结果确定是否需要调整语音识别模块120的采样频率。根据本发明的一实施例,动态采样调整模块130可确定语音识别模块120生成的文字信息中的语音单词的个数是否在预定范围[m,n]内。如果确定文字信息中的语音单词的数量低于最小数量m或者多于最大数量n,则动态采样调整模块130确定语义识别度较低,需要调整采样频率。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量低于最小数量m时,动态采样调整模块130确定需要提高采样频率,从而控制语音识别模块120以提高的采样频率来对语音进行采样。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量高于最大数量n时,动态采样调整模块130确定可以降低采样频率,从而控制语音识别模块120根据降低后的采样频率对语音进行采样。也就是说,当音频中的人物说话语速很快时,在单位时间内获取的语句字符数就会增加,这导致字幕匹配的错误率增加,此时,可确定当前音频的语义识别度低。反之,当音频中人物说话语速很慢时,在单位时间内获取的语句字符数就会减少,同样也会增加字幕匹配的错误率,此时,同样可确定当前的音频语义识别度低。因此,只有控制采样频率并获得合理数量的字符数才能判定语义识别度高。
另外,根据本发明的实施例,在评价语义识别度时,动态采样调整模块130还可考虑语音识别模块120生成的文字信息中的语音单词的语义意义,从而确定是否需要调整采样频率。例如,当语音识别模块120生成的文字信息中的语音单词中包括多个低语义单词(例如,诸如连续多个“啊”的象声词)时,动态采样调整模块130可确定语音识别模块120生成的文字信息的语义识别度较低,并控制语音识别模块120提高采样频率。
接下来,在经过动态采样调整模块130的评估得到较高的语义识别度的文字信息之后,字幕语义对比模块140将文字信息与播放视频的附加多国语言字幕的文字进行语义匹配。这里,字幕语义对比模块140可采用模糊算法,来对附加多国语言字幕的文字进行字符评分,从而找出字幕文件中得分最高的句子。也就是说,字幕语义对比模块140将字幕文件中评分高于预定值的句子中的评分最高的句子确定为与识别的文字信息对应的句子。
下面将举例说明采用模糊算法对句子评分的方式。当然,本领域的技术人员可采用其它方式来查找与字幕文件中的句子的语义匹配的句子。
给出两个字符串ACAATCC和AGCATGC,则对两者进行匹配时进行修改、删除和添加等操作才可以完全匹配。为了更方便近似度的计算,将编辑距离调整为近似度得分,即若匹配则得2分,修改、删除、添加则得-1分。为了得到完全匹配时的近似度得分,可以通过以下递推公式得到一个得分矩阵,其近似度得分即该n阶矩阵S中的S(n,n)值,n为待匹配字符串长度加1。V代表Value(即得分值),D代表Difference Value(即差值),S代表String(即待匹配字符串),T代表Template即模板,i、j分别代表矩阵的行和列,取值从0开始)。
初始值可直接得到:
V(0,0)=0;
V(0,j)=V(0,j-1)+D(_,T[j]);***j次
V(i,0)=V(i-1,0)+D(S[i],_);删除i次
其他值可以通过下面递推式来获得:
根据以上的公式,以计算V(1,2)为例,
已知i=1,j=2
则:
V(0,1)=-1,V(0,2)=-2,V(1,1)=2;
D(S[1],T[2])=-1(即A与AG比较),
D(S[1],_)=-1(即A与_比较),
D(_,T[2])=-1(即_与G比较);
V(1,2)=V(0,1)+D(S[1],T[2])=-2,
V(1,2)=V(0,2)+D(S[1],_)=-3,
V(1,2)=V(0,1)+D(_,T[2])=1;
最终可得:
(max)V(1,2)=1
最终可以得出最短编辑距离对应的最佳得分为7分,即两个字符串的相似性评分为7。
以上仅是举出了用于对字符串评分的方法的一个示例,还可以采用任何已知的方法来对识别的文字信息和字幕文件中的句子之间的相似性进行评价。
如果所有句子的评分均低于预定值,则字幕语义对比模块140确定字幕文件中不存在与识别的文字信息对应的句子。根据本发明的实施例,当字幕语义对比模块140没有在字幕文件中找到与识别的文字信息对应的句子时,字幕语义对比模块140向动态采样调整模块130发出提高采样频率的命令,从而动态采样调整模块130可控制语音识别模块120根据提高的采样频率来继续对语音进行识别。然后,重复语音识别模块120、动态采样调整模块130、字幕语义对比模块140的上述操作,直到找到与字幕文件中的句子的语义相似度较高的语音为止。
如果字幕语义对比模块140找到与采样的语音对应的字幕文件中的句子,则字幕同步模块150根据语音的时间信息来调整字幕文件的时间信息。也就是说,字幕同步模块150根据采样的语音的时间信息和字幕语义对比模块140找到的句子的时间信息之间的偏移值来调整字幕显示的时间信息。
最后,字幕显示模块160根据字幕同步模块150调整后的字幕的时间信息来显示字幕。
应理解,以上描述的各个模块可以进一步组合成更少的模块,或者根据其执行的操作而划分为更多的模块。
下面将参照图2的流程图来描述根据本发明实施例的基于语音识别的字幕同步方法。
首先,在步骤S210,从与视频流对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息。这里,可由用户来选择文字信息的语言类型。
接下来,在步骤S220,对生成的文字信息进行语义可识别度评价。接下来,在步骤S230根据评价的结果确定是否需要调整语音识别的采样频率。根据本发明的实施例,可通过确定语音识别模块120生成的文字信息中的语音单词的个数是否在预定范围[m,n]内来决定是否需要调整语音识别的采样频率。另外,还可考虑文字信息中的语音单词的语义意义来确定是否需要调整采样频率。如果确定需要调整采样频率,则在步骤S235根据语义可识别度的评价结果来调整采样频率,然后返回到步骤S210以再次进行语义可识别度评价。如果确定不需要调整采样频率,则进行到步骤S240。
经过步骤S230的评估得到较高的语义识别度的文字信息之后,在步骤S240将文字信息与播放视频的附加多国语言字幕的文字进行语义匹配。
接下来,在步骤S250确定是否在附加多国语言字幕的文字中找到与识别的文字信息匹配的句子。
如果在步骤S250确定找到了与文字信息匹配的句子,则在步骤S260根据与文字信息对应的语音的时间信息来调整字幕的显示时间。否则,如果没有找到与文字信息匹配的句子,则在步骤S255提高采样频率,然后返回步骤S210提取语音并进行采样和识别。
重复执行以上的操作S210-S255,直到在字幕文件中找到与提取的语音的文字信息对应的句子为止。
最后,在S270,根据调整后的字幕的显示时间来显示字幕。
本发明利用语音识别技术提出了字幕的同步显示的解决方案。通过采用动态语音采样,合理获得有效音频信息,对附加字幕文进行匹配并调整显示时间信息,能在数字电视节目中存在插播等现象对附加字幕的文字进行有效的调整,保持附加字幕的同步显示。
根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带);光学介质(例如CD-ROM和DVD);磁光介质(例如,光盘);以及特别配制用于存储并执行程序指令的硬件装置(例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。
尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (14)

1.一种基于语音识别的字幕同步装置,包括:
语音识别模块,从与播放视频对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息;
动态采样调整模块,对语音识别模块生成的文字信息进行语义识别度的评价,并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;
字幕语义对比模块,将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配;
字幕同步模块,如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子,则根据语音的时间信息来调整字幕文件的时间信息;
字幕显示模块,根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。
2.如权利要求1所述的字幕同步装置,还包括:
语言选择模块,根据用户的选择来确定将要显示的字幕的语言。
3.如权利要求1所述的字幕同步装置,其中,当动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的个数在预定范围[m,n]内时,动态采样调整模块确定文字信息具有高语义识别度,其中m、n是自然数。
4.如权利要求3所述的字幕同步装置,其中:
如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量低于最小数量m,则动态采样调整模块控制语音识别模块提高采样频率来对语音进行采样;
如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量高于最大数量n,则动态采样调整模块控制语音识别模块降低采样频率来对语音进行采样。
5.如权利要求3或4所述的字幕同步装置,其中,动态采样调整模块考虑语音识别模块生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
6.如权利要求1所述的字幕同步装置,其中,字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分,从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
7.如权利要求1所述的字幕同步装置,其中,如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子,则通知动态采样调整模块提高语音识别模块的采样频率。
8.一种基于语音识别的字幕同步方法,包括:
(a)从与播放视频对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息;
(b)对生成的文字信息进行语义识别度的评价,并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;
(c)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配,以在字幕文件中找到与识别的语音的文字信息对应的句子;
(d)根据语音的时间信息来调整字幕文件的时间信息;
(e)根据调整后的字幕文件的时间信息来显示字幕。
9.如权利要求8所述的字幕同步方法,还包括:
根据用户的选择来确定将要显示的字幕的语言。
10.如权利要求8所述的字幕同步方法,其中,在步骤(b),当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m,n]内时,确定文字信息具有高语义识别度,其中m、n是自然数。
11.如权利要求3所述的字幕同步方法,其中,在步骤(b),
如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m,则返回步骤(a)并提高采样频率来对语音进行采样;
如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n,则返回步骤(a)降低采样频率来对语音进行采样。
12.如权利要求10或11所述的字幕同步方法,其中,在步骤(b),考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
13.如权利要求8所述的字幕同步方法,其中,在步骤(c),采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分,从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
14.如权利要求8所述的字幕同步方法,其中,如果在步骤(c)没有在字幕文件中找到与识别的语音的文字信息对应的句子,则返回步骤(a)提高语音识别的采样频率。
CN201310069142.9A 2013-03-05 2013-03-05 基于语音识别的字幕同步装置和方法 Active CN104038804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310069142.9A CN104038804B (zh) 2013-03-05 2013-03-05 基于语音识别的字幕同步装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310069142.9A CN104038804B (zh) 2013-03-05 2013-03-05 基于语音识别的字幕同步装置和方法

Publications (2)

Publication Number Publication Date
CN104038804A true CN104038804A (zh) 2014-09-10
CN104038804B CN104038804B (zh) 2017-09-29

Family

ID=51469372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310069142.9A Active CN104038804B (zh) 2013-03-05 2013-03-05 基于语音识别的字幕同步装置和方法

Country Status (1)

Country Link
CN (1) CN104038804B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104202425A (zh) * 2014-09-19 2014-12-10 武汉易象禅网络科技有限公司 一种实时在线数据传输***及课程数据远程传输方法
CN105374366A (zh) * 2015-10-09 2016-03-02 广东小天才科技有限公司 一种穿戴设备识别语义的方法与***
CN105741841A (zh) * 2014-12-12 2016-07-06 深圳Tcl新技术有限公司 语音控制方法及电子设备
CN105848005A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 一种视频字幕的显示方法和装置
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译***
CN106604125A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN108259963A (zh) * 2018-03-19 2018-07-06 成都星环科技有限公司 一种tv端播放器
CN108289244A (zh) * 2017-12-28 2018-07-17 努比亚技术有限公司 视频字幕处理方法、移动终端及计算机可读存储介质
CN108366182A (zh) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN108366305A (zh) * 2018-02-07 2018-08-03 深圳佳力拓科技有限公司 一种不带字幕的码流通过语音识别显示字幕的方法及***
CN108449629A (zh) * 2018-03-31 2018-08-24 湖南广播电视台广播传媒中心 一种音频的语音与文字同步方法及剪辑方法和剪辑***
CN109195007A (zh) * 2018-10-19 2019-01-11 深圳市轱辘汽车维修技术有限公司 视频生成方法、装置、服务器及计算机可读存储介质
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110557668A (zh) * 2019-09-06 2019-12-10 常熟理工学院 基于小波蚁群的声音和字幕精确对准***
CN110619868A (zh) * 2019-08-29 2019-12-27 深圳市优必选科技股份有限公司 一种语音助手优化方法、语音助手优化装置及智能设备
CN110689220A (zh) * 2019-08-20 2020-01-14 国网山东省电力公司莱芜供电公司 一种实现调度自动化的自动对点机
CN110798733A (zh) * 2019-10-30 2020-02-14 中央电视台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN111758264A (zh) * 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音
CN113689865A (zh) * 2021-08-24 2021-11-23 广东优碧胜科技有限公司 采样率切换方法、装置、电子设备以及语音***
CN114333918A (zh) * 2020-09-27 2022-04-12 广州市久邦数码科技有限公司 一种有声读物字幕匹配方法和装置
CN115474066A (zh) * 2021-06-11 2022-12-13 北京有竹居网络技术有限公司 一种字幕处理方法、装置、电子设备和存储介质
CN116471436A (zh) * 2023-04-12 2023-07-21 央视国际网络有限公司 信息的处理方法及装置、存储介质、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6199041B1 (en) * 1998-11-20 2001-03-06 International Business Machines Corporation System and method for sampling rate transformation in speech recognition
CN1797542A (zh) * 2004-09-07 2006-07-05 Lg电子株式会社 移动通信终端上用于语音识别的基带调制解调器及其方法
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别***应用采样速率转化提高识别率的方法
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及***
CN101808202A (zh) * 2009-02-18 2010-08-18 联想(北京)有限公司 实现影音文件中声音与字幕同步的方法、设备和计算机
CN102708861A (zh) * 2012-06-15 2012-10-03 天格科技(杭州)有限公司 基于支持向量机的不良语音识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6199041B1 (en) * 1998-11-20 2001-03-06 International Business Machines Corporation System and method for sampling rate transformation in speech recognition
CN1797542A (zh) * 2004-09-07 2006-07-05 Lg电子株式会社 移动通信终端上用于语音识别的基带调制解调器及其方法
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别***应用采样速率转化提高识别率的方法
CN101808202A (zh) * 2009-02-18 2010-08-18 联想(北京)有限公司 实现影音文件中声音与字幕同步的方法、设备和计算机
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及***
CN102708861A (zh) * 2012-06-15 2012-10-03 天格科技(杭州)有限公司 基于支持向量机的不良语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩纪庆,张磊,郑铁然: "语音信号处理", 《语音信号处理 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104202425A (zh) * 2014-09-19 2014-12-10 武汉易象禅网络科技有限公司 一种实时在线数据传输***及课程数据远程传输方法
CN105741841A (zh) * 2014-12-12 2016-07-06 深圳Tcl新技术有限公司 语音控制方法及电子设备
CN106373561B (zh) * 2015-07-24 2021-11-30 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN105374366A (zh) * 2015-10-09 2016-03-02 广东小天才科技有限公司 一种穿戴设备识别语义的方法与***
CN105848005A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 一种视频字幕的显示方法和装置
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译***
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN106604125B (zh) * 2016-12-29 2019-06-14 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
CN106604125A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN108289244A (zh) * 2017-12-28 2018-07-17 努比亚技术有限公司 视频字幕处理方法、移动终端及计算机可读存储介质
CN108366305A (zh) * 2018-02-07 2018-08-03 深圳佳力拓科技有限公司 一种不带字幕的码流通过语音识别显示字幕的方法及***
CN108366182A (zh) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN117201889A (zh) * 2018-02-26 2023-12-08 谷歌有限责任公司 预先录制的视频的自动语音翻译配音
US11582527B2 (en) * 2018-02-26 2023-02-14 Google Llc Automated voice translation dubbing for prerecorded video
KR20200118894A (ko) * 2018-02-26 2020-10-16 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
CN111758264A (zh) * 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音
CN108259963A (zh) * 2018-03-19 2018-07-06 成都星环科技有限公司 一种tv端播放器
CN108449629A (zh) * 2018-03-31 2018-08-24 湖南广播电视台广播传媒中心 一种音频的语音与文字同步方法及剪辑方法和剪辑***
CN108449629B (zh) * 2018-03-31 2020-06-05 湖南广播电视台广播传媒中心 一种音频的语音与文字同步方法及剪辑方法和剪辑***
CN109195007B (zh) * 2018-10-19 2021-09-07 深圳市轱辘车联数据技术有限公司 视频生成方法、装置、服务器及计算机可读存储介质
CN109195007A (zh) * 2018-10-19 2019-01-11 深圳市轱辘汽车维修技术有限公司 视频生成方法、装置、服务器及计算机可读存储介质
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110689220A (zh) * 2019-08-20 2020-01-14 国网山东省电力公司莱芜供电公司 一种实现调度自动化的自动对点机
CN110619868A (zh) * 2019-08-29 2019-12-27 深圳市优必选科技股份有限公司 一种语音助手优化方法、语音助手优化装置及智能设备
CN110619868B (zh) * 2019-08-29 2021-12-17 深圳市优必选科技股份有限公司 一种语音助手优化方法、语音助手优化装置及智能设备
CN110557668A (zh) * 2019-09-06 2019-12-10 常熟理工学院 基于小波蚁群的声音和字幕精确对准***
CN110557668B (zh) * 2019-09-06 2022-05-03 常熟理工学院 基于小波蚁群的声音和字幕精确对准***
CN110798733A (zh) * 2019-10-30 2020-02-14 中央电视台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN114333918A (zh) * 2020-09-27 2022-04-12 广州市久邦数码科技有限公司 一种有声读物字幕匹配方法和装置
CN115474066A (zh) * 2021-06-11 2022-12-13 北京有竹居网络技术有限公司 一种字幕处理方法、装置、电子设备和存储介质
CN113689865A (zh) * 2021-08-24 2021-11-23 广东优碧胜科技有限公司 采样率切换方法、装置、电子设备以及语音***
CN116471436A (zh) * 2023-04-12 2023-07-21 央视国际网络有限公司 信息的处理方法及装置、存储介质、电子设备
CN116471436B (zh) * 2023-04-12 2024-05-31 央视国际网络有限公司 信息的处理方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN104038804B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN104038804A (zh) 基于语音识别的字幕同步装置和方法
CN108780643B (zh) 自动配音方法和装置
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
US20170270965A1 (en) Method and device for accelerated playback, transmission and storage of media files
US20060136226A1 (en) System and method for creating artificial TV news programs
CN106878805A (zh) 一种混合语种字幕文件生成方法及装置
CN109348145B (zh) 基于字幕生成关联弹幕的方法及设备、计算机可读介质
CN105704538A (zh) 一种音视频字幕生成方法及***
US9767825B2 (en) Automatic rate control based on user identities
CN104246750A (zh) 抄录语音
US20180218748A1 (en) Automatic rate control for improved audio time scaling
RU2007146365A (ru) Способ и устройство для выполнения автоматического дублирования мультимедийного сигнала
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
KR101100191B1 (ko) 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
CN111462553A (zh) 一种基于视频配音和纠音训练的语言学习方法及***
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
US20230107968A1 (en) Systems and methods for replaying a content item
Levin et al. Automated closed captioning for Russian live broadcasting
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
EP3839953A1 (en) Automatic caption synchronization and positioning
CN113345407B (zh) 一种风格语音合成方法、装置、电子设备及存储介质
CN110992984B (zh) 音频处理方法及装置、存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Yu et al. Text2Video: automatic video generation based on text scripts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant