CN103853705A - 计算机汉语语音与外语语音实时语音字幕翻译方法 - Google Patents

计算机汉语语音与外语语音实时语音字幕翻译方法 Download PDF

Info

Publication number
CN103853705A
CN103853705A CN201210495161.3A CN201210495161A CN103853705A CN 103853705 A CN103853705 A CN 103853705A CN 201210495161 A CN201210495161 A CN 201210495161A CN 103853705 A CN103853705 A CN 103853705A
Authority
CN
China
Prior art keywords
chinese
voice
foreign language
code
phonetics codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210495161.3A
Other languages
English (en)
Inventor
苗玉水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGHAI HANLA INFORMATION TECHNOLOGY CO., LTD.
Original Assignee
Shanghai Nenggan Epc System Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Nenggan Epc System Network Co Ltd filed Critical Shanghai Nenggan Epc System Network Co Ltd
Priority to CN201210495161.3A priority Critical patent/CN103853705A/zh
Publication of CN103853705A publication Critical patent/CN103853705A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本技术方案是一种计算机汉语语音与外语语音实时语音字幕翻译方法,属于计算机***人类自然语言信息处理技术领域。在将汉语语音转变成外语语音时,首先通过汉语语音识别模块将汉语普通话语音识别成用26个拉丁字母表示的汉语语音码,再通过机器翻译模块将其翻译成指定的外文,最后将该外文通过外语语音合成模块合成成相应的外语语音输出,同理,对外语语音转换成汉语语音情况也一样。必要时上述用于语音合成的字符信息可以同时通过屏幕显示或硬拷贝或软拷贝的形式与所合成的语音一起同步储存、显示、传输或输出。有了本技术方案以后,汉语信息可以在ASCII***的计算机中进行传输和处理,并方便中外人士用母语的语音进行交流。

Description

计算机汉语语音与外语语音实时语音字幕翻译方法
技术领域
本技术方案属于计算机***人类自然语言信息处理技术领域,该计算机***包括嵌入式和非嵌入式计算机***,为叙述方便以下叙述中将嵌入式和非嵌入式计算机***称为计算机***。 
技术背景
目前市面上的汉语语音与外语翻译都是基于汉字***的语音翻译***,如科大讯飞装在手机上的汉语与外语语音识别翻译***,就是一种嵌入式计算机汉语与外语语音识别翻译***,它也是基于汉字***的一种语音识别翻译***,同理对于台式计算机也一样,它是一种非嵌入式计算机汉语与外语语音识别翻译***,这些***都属于基于带汉字***的计算机***,这些***的出现给使用汉字计算机***的人们带来了很多便利,但是这些***离开计算机自带的汉字***就无法正常运行,我们知道世界上很多地方,比如以美国为代表的西方国家,他们的计算机是不带汉字***的,其计算机自带的字符内码***是代表128个字符的ASCII码***,这样目前基于带汉字***的计算机***基础上运行的汉语与外语语音识别翻译***都无法在上述带纯ASCII***的计算机上运行,这样就使得汉语与以英语为代表的世界各国通过计算机语音翻译方式的语言交流带来了不可逾越的障碍,而且随着世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现,这个矛盾将日益显现和突出。 
发明内容
本技术方案的提出就是为了解决上述出现的矛盾和问题。具体来说本技术方案通过采用以下的一种计算机汉语语音与外语语音实时语音字幕翻译方法来解决上述的矛盾和问题: 
在将汉语语音转变成外语语音时,首先通过汉语语音识别模块将汉语普通话语音识别成用26个拉丁字母表示的汉语语音码,再通过机器翻译模块将上述汉语语音码翻译成用26个拉丁字母表示的指定的外文,最后将上述翻译成的指定的外文,通过外语语音合成模块合成成相应的外语语音输出; 
在将外语语音转变成汉语语音时,首先通过外语语音识别模块将外语语音识别成用26个拉丁字母表示的外文,再通过机器翻译模块将上述外文翻译成汉语语音码,最后将上述翻译成的汉语语音码,通过汉语语音合成模块合成成相应的汉语语音输出; 
必要时上述用于语音合成的字符信息可以同时通过屏幕显示或硬拷贝或软拷贝的形式与所合成的语音一起同步输出。 
上述所述的汉语语音码是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写,并通过得到的语音码的编码直接表达汉语信息,当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空格隔开。 
由于本技术方案采用26个拉丁字母表示的汉语语音码来表达汉语信息,且当直接用 语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,这样就保证了汉语信息的表达连标点符号在内都与ASCII码完全一致,也即与ASCII码100%兼容,这样上述汉语语音识别模块、机器翻译模块、语音合成模块由于处理的汉语信息是用与ASCII码完全一致的汉语语音码来表示的,这样就使得这些模块可以在ASCII码***的计算机中运行,由于组成整个***的模块可以在ASCII码***的计算机中运行,因此,整个***可以在ASCII码***的计算机中运行,这样使得目前的基于带汉字***的计算机***基础上运行的汉语与外语语音识别翻译***无法在带纯ASCII***的计算机上运行的问题得到彻底解决,这样就使得汉语与以英语为代表的世界各国,通过计算机语音翻译方式的语言交流的障碍得以彻底消除。 
有了本技术方案以后,汉语信息可以在汉字内码***和非汉字内码***的ASCII内码***的计算机信息***中畅通无阻地进行传输和处理,而且随着世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现,汉语会更方便进行各种计算机信息处理以及与讲以英语为代表的外语人群的语言语音交流,从而使汉语能够更广更好地传播到世界各地,促进中国文化走向世界。 
除了汉语和外语以语音的形式输出外,所述的汉语语音码需要时可以通过汉语语音码与汉字转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码与汉字、汉语拼音,意义一致的外文对照显示、储存、、通讯、传输、印刷、打印输出。 
具体实施方式
下面结合实施例对本发明的具体实施方式作进一步的说明。 
(一)本技术方案所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法: 
注:括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号,不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表; 
1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式: 
b:(b)    p:(p)    m:(m)    f:(f)    d:(d)    t:(t) 
n:(n)    l:(l)    g:(g)    k:(k)    h:(h) 
j:(zh),(j)    q:(ch),(q)    x:(sh),(x)    r:(r) 
z:(z)    c:(c)    s:(s)    y:(y)    w:(w) 
2、汉语拼音介母(ü)采用26个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式: 
i:(i)u:(u)y:(ü) 
3、韵码的编码,对单韵母除(ü)采用26个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的,比如采用下面的这种字母符号来对汉语拼音的韵母进行编码: 
a:(a)    o:(o)     e:(e)     i:(i)     u:(u)    y:(ü) 
k:(ao)   c:(ai)    s:(an)    x:(ou)    w:(ei)   n:(en) 
z:(ua)   l:(uo)    b:(ang)   d:(ong)   p:(eng) 
q:(ing)  g:(ng)    er:(er) 
r:(i)[只与(zh)、(ch)、(sh)相拼] 
4、调码的编码除采用一个汉语不用的辅音字母v表示汉语拼音的上声(∨)外,其它采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码: 
a:(-)阴平 e:(/)阳平 v:(∨)上声 u:(\)去声 
o:(不标)轻声 
(二)利用上述编码的汉语语音码汉语信息表示采用如下的方法: 
以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式; 
这里由于将独立运用的汉字看作单音节词,因此,本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同,在本发明中采用单词音节编码按词连写后得到单词编码,我们将由若干个单词组成的一组词称为词组,本发明所采用词组的编码同汉语句子的编码相同,由于单词可以表示词组和汉语句子,因此在本发明中所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需要对词组和汉语句子另外制定一套专门的编码,一般在整句整篇以词为单位表示汉语信息时,在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达时也不会产生歧义。 
下面以一句汉语句子的语音与英语句子的语音为例来说明本技术方案的具体实现步骤 
一.首先将汉语语音通过汉语语音识别模块转化成汉语语音码 
当采用汉语语音码汉语语音识别模块来进行汉语语音识别时,该汉语语音识别模块将汉语音节作为识别的基元,通过查找预先储存在计算机***中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码,语音连续输入时便得到连续的汉语音节语音码串,对上述得到汉语音节语音码串通过查词库的方式进行按词切分,对多种单词切分,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写,词与词之间空格的方式表示。 
下面例举用本发明方法对汉语语音进行汉语语音码识别的例子: 
1.汉语语音转换成汉语语音码: 
比如:我们用汉语语音向计算机朗读下列汉语句子: 
“我们每天使用拉丁文。” 
(1)通过查找预先储存在计算机***中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串: 
Wov mno mwv tisa xrv ydu laa dqa wnv.(音节与音节之间有空格) 
或wovmnomwvtisaxrvydulaadqawnv.(音节与音节之间无空格) 
(熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。) 
为了让大家看清楚这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练汉语语音码后声调兼隔音节符能够方便区分出来。 
这样便完成了一个***的复杂性与***的词库规模性无关的纯语音识别过程。 
(2)将语音码串进行单词切分,最终完成以词为单位的语音码转换。 
通过查找预先储存在计算机***中的分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码: 
Wovmno mwvtisa xrvydu laadqawnv. 
二.调用汉语语音码与外文双向转换模块,再将得到的汉语语音码表示的汉语信息转换成以英文为主的外文。 
(注:以上以下文中出现的与汉语语音码对照的汉字是为了方便理解汉语语音码的含义,实际在纯ASCII码***运行中并不出现,以上以下均同) 
比如将上面得到的汉语语音码表示的汉语信息:wovmno mwvtisa xrvydulaadqawnv.调用汉语语音码与英文为主的外语双向翻页模块有: 
1.wovmno mwvtisa xrvydu laadqawnv.(汉语语音码表示的汉语信息) 
我们      每天    使用  拉丁文。(用汉字表示的汉语信息) 
a)查预先储存在计算机***中的标注单词词性的汉语词典建立单词词性串:(句中括号内的部分是词性,以下均同) 
wovmno(人称代词1)+mwvtisa(时间名词1)+xrvydu(动词1)+laadqawnv(名词2).我们(人称代词1)+每天(时间名词1)+使用(动词1)+拉丁文(名词2)。 
b)根据上面得到的句子词性串查预先储存在计算机***中的表得到预先储存在表中的汉语句型: 
(词性和该词所作的句子成分串组成句型,以下均同) 
wovmno(人称代词1作主语)+mwvtisa(时间名词1作时间状语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾语) 
我们(人称代词1作主语)+每天(时间名词1作时间状语)+使用(动词1作谓语)+拉丁文(名词2作宾语) 
c)根据上面得到的汉语句型查表得到预先储存在表中的对应的英语句型: 
wovmno(人称代词1作主语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾语)+mwvtisa(时间名词1作时间状语) 
我们(人称代词1作主语)+使用(动词1作谓语)+拉丁文(名词2作宾语) 
+每天(时间名词1作时间状语) 
此时查预先储存在计算机***中的汉英词库进行单词或词组意思的转换,并按此句型顺序输出便完成汉语翻译成英语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换: 
d)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串:(该词性串也可从得到的目标语言句型中提取得到,以下均同) 
wovmno(人称代词1)+xrvydu(动词1)+laadqawnv(名词2)+mwvtisa(时间名词1). 
我们(人称代词1)+使用(动词1)+拉丁文(名词2)+每天(时间名词1)。 
e)查预先储存在计算机***中的汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出: 
we(人称代词1)use(动词1)latin(名词2)every day(时间名词1). 
we           use       latin         every day. 
这样便完成了汉语翻译成英语的转换。 
最后再通过调用英文语音合成模块,将转化得到的英文句子 
We use lati nevery day. 
转化成英语语音通过扬声器或耳麦或听筒输出,同时在显示屏上也可以输出该句句子We use latin every day.这样就完成了汉语语音到英语语音和字幕的转换。 
同理我们可以完成从英语语音到汉语语音和汉语语音码的字幕转换,比如,我们对计算机朗读一句英语句子: 
We use latin every day. 
首先调用英语语音识别模块,我们得到上述英文句子: 
We use latin every day. 
然后调用汉语英语双向翻译模块我们得到以下翻译步骤和结果: 
1.“we use latin every day.”(我们通过英语语音识别得到的英语句子) 
c)查预先储存在计算机***中的标注单词或词组词性的英语词典建立单词或词组的词性串: 
we(人称代词1)+use(动词1)+latin(名词1)+every day(时间名词2). 
d)根据上面得到的句子词性串查表得到预先储存在表中的英语句型: 
we(人称代词1作主语)+use(动词1作谓语)+latin(名词1作宾语)+everyday(时间名词2作时间状语) 
e)根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型: 
we(人称代词1作主语)+every day(时间名词2作时间状语)+use(动词1作谓语)+latin(名词1作宾语) 
此时查预先储存在计算机***中的汉英-英汉双向词库进行单词或词组意思的转换,并按此句型顺序输出便完成英语翻译成汉语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换: 
f)根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致的词性串: 
we(人称代词1)+every day(时间名词2)+use(动词1)+latin(名词1) 
g)查预先储存在计算机***中的汉英-英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输出: 
wovmno(人称代词1)+mwvtisa(时间名词2)+xrvydu(动词1)+laadqawnv(名词1). 
最后我们得到: 
wovmno mwvtisa xrvydu laadqawnv.(汉语语音码表示的汉语信息) 
这样我们重复汉语译英语的过程就又得到了我们刚才交给***翻译成英语的汉语句 子,说明了该机器翻译方法具有双向可逆性。同理,也可以用上面的方法对复句进行双向翻译,这里就不再累述. 
三.最后计算机再调用汉语语音合成模块将上述汉语语音码转换成汉语语音,并在需要时将翻译得到的汉语语音码表示的汉语句子一并输出,这样就完成了计算机从英语语音到汉语语音和字幕的转换,该汉语语音合成模块将汉语语音码转换成汉语语音的具体有以下步骤完成: 
仍以下的汉语语音码组成的句子为例: 
wovm nomwvtisa xrvydu laadqawnv. 
其意义用汉字表达为: 
“我们每天使用拉丁文。” 
在对汉语语音码表达的汉语信息进行汉语语音合成时,一般根据需要可以采用以下三种方法之一: 
1.通过查汉语语音码与音节汉语语音合成文件对照表进行语音合成的方法: 
查预先储存在计算机***中的汉语语音码与音节汉语语音合成文件对照表后得到与语音码对应的汉语语音的声音文件(为表述方便该声音文件用“相对应的音节汉语拼音.wav”表示,实际情况中是没有汉语拼音符号的,它只是预先储存在计算机***中,可以通过一定的声音播放软件播放的表示相应音节汉语语音的声音文件。 
wov(wǒ.wav)mno(men.wav)mwv(měi.wav)tisa(tiān.wav)xrv(shǐ.wav)ydu(yòng.wav)laa(lā.wav)dqa(dīng.wav)wnv(wěn.wav). 
对查找到的代表该音节汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。 
2.通过查汉语单词语音码和单词汉语语音合成文件对照表进行语音合成的方法: 
查预先储存在计算机***中的汉语单词语音码和单词语音合成文件对照表后得到预先储存在计算机***中的与单词语音码对应的以单词为单位的汉语语音的声音文件(为表述方便该以单词为单位的汉语声音文件用“相对应的以单词为单位的汉语拼音.wav”表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机***中,可以通过一定的声音播放软件播放的表示相应以单词为单位的汉语语音的声音文件) 
wovmno(wǒmen.wav)mwvtisa(měitiān.wav)xrvydu(shǐyòng.wav)laadqawnv(lādīngwěn.wav). 
对查找到的以单词为单位代表该汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。 
3.通过查汉语语音码串和最大匹配语段汉语语音合成文件对照表进行语音合成的方法: 
该方法采用最大匹配法,通过查预先储存在计算机***中的以最大语段为单位的汉语语音码串和语段汉语语音合成文件对照表输出相应的汉语语音。比如通过查预先储存在计算机***中的最大语段为:“wovmno mwvtisa xrvydu我们每天使用”和“hsuyyvlaadqawnv汉语拉丁文”那么汉语语音合成按下面的方式进行: 
Wovmnomwvtisa xrvydu(wǒmenměitiānshǐyòng.wav)hsuyyv laadqawnv(hànyǔlādīngwěn.wav). 
(为表述方便上述该以语段为单位的汉语声音文件用“相对应的以该语段为单位的汉语拼音.wav”表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机***中,可以通过一定的声音播放软件播放的表示相应以该语段为单位的汉语语音的声音文件) 
在上述三种语音合成方法中第一种方法所需要的计算机***语音文件储存空间最小,第三种所需要的计算机***语音文件储存空间最大。 
有时为了校对的方便,我们需要将汉语语音码中的标点符号和移行号朗读出来,这就要对汉语语音码中的标点符号和移行号进行语音合成,为了使得汉语语音码所表达的汉语信息与ASCII码100%兼容,这里我们特别规定汉语语音码中的标点符号和移行号分别与英文的标点符号和移行号相同,在具体语音合成时我们只要将相应的预先储存在计算机***中的标点符号和移行号的声音文件提取出来,用声音播放软件进行播放便可,比如: 
六种点号:句号“.”(jùhào.wav)、问号“?”(wènhào.wav)、感叹号“!” 
(gǎntànhào.wav)、逗号“,”(dòuhào.wav)、冒号“:”(màohào.wav)、分号“;”(fēnhào.wav)。 
七种标号:引号“”(yǐnhào.wav)、括号()(kuòhào.wav)、破折号“-”(pòzhéhào.wav)、省略号…(shěngluèhào.wav)、着重号.(zhuózhònghào.wav)、书名号(())(shūmínghào.wav)、间隔号.(jiàngéhào.wav)。 
一个移行号:移行号“-”(yíhánghào.wav)。 
上面列出了本发明所采用的与英语相同的六种点号、七种标号和一个移行号,括号中的“.wav”文件就是与标点符号或移行号发音相应的语音合成文件,当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音。 
四.得到汉语语音码后,汉语语音码需要时可以通过汉语语音码汉字转换模块转换成汉字,此时整个***必须运行在汉字***的计算机中,汉语语音码或汉字能够单独或者汉语语音码与汉字、汉语拼音,意义一致的外文对照显示、储存、通讯、传输、印刷、打印输出,此时整个***必须运行在汉字***的计算机中。 
通过调用汉语语音码汉字双向转换模块计算机通过以下步骤将汉语语音码转换成汉字: 
通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音,比如: 
wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到wǒmen,再通过wǒmen查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如:wovmno可以转换为wǒmen,再通过wǒmen可以转换成“我们”,这样wovmno和“我们”便直接建立了对应关系,需要时可以不通过汉语拼音wǒmen进行转换,而直接在wovmno和“我们”之间实现双向可逆转换。 
遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行 以词为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道:前面一句中的“ysvlune”代表邮轮,后面一句中的“ysvlune”代表油轮,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。 
上述双向可逆转换的结果既可以单独显示也可以对照显示,比如: 
原句:“我们每天使用汉语拉丁文。”用本发明方法计算机可以可逆地转换为以下几种形式: 
1.“Wǒmen měitiānshǐyònglādīngwěn。” 
2.“wovmno mwvtisa xrvydu laadqawnv.” 
3.“Wǒmen měitiān shǐyònglādīngwěn。” 
     我们   每天      使用        拉丁文。 
4.“wovmno mwvtisa xrvydu laadqawnv.” 
    我们    每天   使用    拉丁文。 
5.“Wǒmenměitiānshǐyònglādīngwěn。” 
“wovmno mwvtisa xrvydu laadqawnv.” 
为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语,也可以在每个对照的单词中***相应的外语单词或少数民族文字,比如在下面的单词中加入相应的英语单词作中文意思的注解: 
“wovmno Wǒmen mwvtisa měitiān xrvydu shǐyòng laadqawnv lādīngwěn。” 
我们We             每天every day         使用use           拉丁文Latine。 
依次类推,用上述方法,计算机对汉语语音和英语语音及其对应字幕实现了双向可逆转换,依次类推,用上述方法,我们还可以实现汉语对其它外语,一种外语对另一种外语的双向可逆语音及其对应字幕的转换,这里就不一一累述。 

Claims (10)

1.一种计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:在将汉语语音转变成外语语音时,首先通过汉语语音识别模块将汉语普通话语音识别成用26个拉丁字母表示的汉语语音码,再通过机器翻译模块将上述汉语语音码翻译成用26个拉丁字母表示的指定的外文,最后将上述翻译成的指定的外文,通过语音合成模块合成成相应的外语语音输出; 
在将外语语音转变成汉语语音时,首先通过外语语音识别模块将外语语音识别成用26个拉丁字母表示的外文,再通过机器翻译模块将上述外文翻译成汉语语音码,最后将上述翻译成的汉语语音码,通过汉语语音合成模块合成成相应的汉语语音输出;必要时上述用于语音合成的字符信息可以同时通过屏幕显示或硬拷贝或软拷贝的形式与所合成的语音一起同步输出。 
2.如权利要求1所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写,并通过得到的语音码的编码直接表达汉语信息,当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空格隔开。 
3.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码是声母全部用辅音拉丁字母表示,用于表示汉语信息的语音码的声母除了(zh)、(ch)、(sh)的声母分别用j、q、x三个辅音拉丁字母表示外,其余的声母用与汉语拼音相同符号的辅音拉丁字母表示。 
4.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:汉语拼音的(zhi)、(chi)、(shi)分别用语音码的jr、qr、xr表示;汉语拼音的(er)用语音码的er来表示,er键盘输入时按E和R两个键位输入。 
5.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码用26个字母中的一个字母表示原来汉语拼音单韵母和介母中的(ü),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号。 
6.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码用y来表示原来汉语拼音单韵母和介母中的(ü)。 
7.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码用辅音字母表示。 
8.如权利要求7所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码用拉丁字母k、c、s、x、w、n、z、l、b、d、p、q、g(无声母韵母)分别表示汉语拼音的(ao)、(ai)、(an)、(ou)、(ei)、(en)、(ua)、(uo)、(ang)、(ong)、(eng)、(ing)、(ng)。 
9.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码其调码用四个元音字母和一个汉语不用的字母v表示,用拉丁字母a、e、v、u、o分别表示汉语拼音的阴平(-)、阳平e:(/)、上声v:(∨)、去声u:(\)、轻声o(不标)。 
10.如权利要求1或2所述的计算机汉语语音与外语语音实时语音字幕翻译方法,其特征是:所述的汉语语音码需要时可以通过汉字转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码与汉字、汉语拼音,意义一致的外文对照显示、储存、通讯、传输、印刷、打印输出。 
CN201210495161.3A 2012-11-28 2012-11-28 计算机汉语语音与外语语音实时语音字幕翻译方法 Pending CN103853705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210495161.3A CN103853705A (zh) 2012-11-28 2012-11-28 计算机汉语语音与外语语音实时语音字幕翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210495161.3A CN103853705A (zh) 2012-11-28 2012-11-28 计算机汉语语音与外语语音实时语音字幕翻译方法

Publications (1)

Publication Number Publication Date
CN103853705A true CN103853705A (zh) 2014-06-11

Family

ID=50861373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210495161.3A Pending CN103853705A (zh) 2012-11-28 2012-11-28 计算机汉语语音与外语语音实时语音字幕翻译方法

Country Status (1)

Country Link
CN (1) CN103853705A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279463A (zh) * 2013-06-19 2013-09-04 江苏华音信息科技有限公司 计算机汉语语音与外语语音实时语音字幕翻译的装置
CN107277646A (zh) * 2017-08-08 2017-10-20 四川长虹电器股份有限公司 一种音视频资源的字幕配置***
CN109102723A (zh) * 2018-02-14 2018-12-28 杨靖 一种基于字母中文的交互式教学***及实现其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118539A (zh) * 2006-08-01 2008-02-06 苗玉水 现代汉语信息全息拉丁化汉语语音码表示法
CN101131689A (zh) * 2006-08-22 2008-02-27 苗玉水 汉语外语句型转换双向机器翻译方法
CN101518055A (zh) * 2006-09-21 2009-08-26 松下电器产业株式会社 字幕生成装置、字幕生成方法及字幕生成程序
CN102170553A (zh) * 2010-02-26 2011-08-31 夏普株式会社 会议***、信息处理装置、会议辅助方法及信息处理方法
CN102479208A (zh) * 2010-11-26 2012-05-30 苗玉水 汉语语音码多样网页信息搜索转换翻译方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118539A (zh) * 2006-08-01 2008-02-06 苗玉水 现代汉语信息全息拉丁化汉语语音码表示法
CN101131689A (zh) * 2006-08-22 2008-02-27 苗玉水 汉语外语句型转换双向机器翻译方法
CN101518055A (zh) * 2006-09-21 2009-08-26 松下电器产业株式会社 字幕生成装置、字幕生成方法及字幕生成程序
CN102170553A (zh) * 2010-02-26 2011-08-31 夏普株式会社 会议***、信息处理装置、会议辅助方法及信息处理方法
US20110213607A1 (en) * 2010-02-26 2011-09-01 Sharp Kabushiki Kaisha Conference system, information processor, conference supporting method and information processing method
JP2011182125A (ja) * 2010-02-26 2011-09-15 Sharp Corp 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
CN102479208A (zh) * 2010-11-26 2012-05-30 苗玉水 汉语语音码多样网页信息搜索转换翻译方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279463A (zh) * 2013-06-19 2013-09-04 江苏华音信息科技有限公司 计算机汉语语音与外语语音实时语音字幕翻译的装置
CN107277646A (zh) * 2017-08-08 2017-10-20 四川长虹电器股份有限公司 一种音视频资源的字幕配置***
CN109102723A (zh) * 2018-02-14 2018-12-28 杨靖 一种基于字母中文的交互式教学***及实现其方法

Similar Documents

Publication Publication Date Title
CN102479208B (zh) 汉语语音码多样网页信息搜索转换翻译方法
CN101118541B (zh) 汉语语音码汉语语音识别方法
CN1191514C (zh) 处理中文文本的***和方法
CN101131689B (zh) 汉语外语句型转换双向机器翻译方法
CN102902660B (zh) 汉语语音码全拼和混拼汉语全息信息处理方法
CN103297710B (zh) 汉语自动实时标注中外文字幕音像录播设备
CN103309855A (zh) 汉语与外语自动实时语音翻译并标注字幕的音像录播设备
CN101123089B (zh) 汉语语音码语音合成方法
CN101118540A (zh) 汉字汉语拼音与汉语语音码双向可逆转换方法
CN103854648A (zh) 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103902531A (zh) 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
CN103853705A (zh) 计算机汉语语音与外语语音实时语音字幕翻译方法
CN102479078A (zh) 汉语语音码计算机汉语编程方法
Liang et al. A Taiwanese text-to-speech system with applications to language learning
Trinh et al. Applying prediction techniques to phoneme-based AAC systems
CN103853709A (zh) 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103854647A (zh) 汉语与外语双向实时语音翻译无线移动通讯设备
CN103279463A (zh) 计算机汉语语音与外语语音实时语音字幕翻译的装置
CN103297709A (zh) 汉语有声影像资料加注汉语字幕的装置
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
Ganjavi et al. ASCII based transcription systems for languages with the Arabic script: The case of Persian
CN101515207A (zh) 全球语言在键盘上的通用有声输入法
Nair et al. Indian text to speech systems: A short survey
CN103853704A (zh) 计算机外语有声影像资料自动加注中外文字幕的方法
CN103853708A (zh) 计算机汉语有声影像资料自动加注汉语字幕的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151021

Address after: 810003 Qinghai city of Xining province Qinghai Biotechnology Industrial Park by the four Road No. 26 building 510 room hatch

Applicant after: QINGHAI HANLA INFORMATION TECHNOLOGY CO., LTD.

Address before: Room 169, building 280, Shuguang Road, Shanghai, Minhang District, 201111, China

Applicant before: Shanghai Nenggan EPC System Network Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140611