CN102549654A - 语音翻译***、控制装置以及控制方法 - Google Patents
语音翻译***、控制装置以及控制方法 Download PDFInfo
- Publication number
- CN102549654A CN102549654A CN2010800463164A CN201080046316A CN102549654A CN 102549654 A CN102549654 A CN 102549654A CN 2010800463164 A CN2010800463164 A CN 2010800463164A CN 201080046316 A CN201080046316 A CN 201080046316A CN 102549654 A CN102549654 A CN 102549654A
- Authority
- CN
- China
- Prior art keywords
- result
- translation
- voice
- phonetic synthesis
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 848
- 238000000034 method Methods 0.000 title claims description 54
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 559
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 559
- 238000012545 processing Methods 0.000 claims abstract description 412
- 230000005540 biological transmission Effects 0.000 claims description 42
- 238000010586 diagram Methods 0.000 description 35
- 238000003860 storage Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003139 buffering effect Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
为了解决语音翻译中不能选择恰当的处理结果或者不能选择恰当的装置的问题,本发明提供控制装置,其从两个以上语音识别装置接收具有语音识别结果和语音识别分数的语音识别处理结果,使用语音识别分数选择最可靠的语音识别结果,将选择的语音识别结果发送给两个以上翻译装置的每一个,从两个以上翻译装置的每一个接收具有语音识别结果的翻译结果和翻译分数的翻译处理结果,使用翻译分数选择最可靠的翻译结果,将选择的翻译结果发送给两个以上语音合成装置的每一个,从两个以上语音合成装置的每一个接收具有语音合成结果和语音合成分数的语音合成处理结果,使用语音合成分数选择语音合成结果,将选择的语音合成结果发送给第二终端装置,通过该控制装置,可以选择恰当的处理结果并选择恰当的装置。
Description
技术领域
本发明涉及一种进行语音翻译的语音翻译***等。
背景技术
现有的语音翻译***中,存在用于提高语音识别的精度、提高翻译处理的精度等,提高各部分处理的精度的技术(例如参照专利文献1,专利文献2)。
专利文献1:日本特开2008-243080号公报(第1页,图1等)
专利文献2:日本特开2009-140503号公报(第1页,图1等)
但是,现有的语音翻译***中,不能在语音翻译中选择利用多个语音识别装置、多个翻译装置或者多个语音合成装置的处理结果,也不能在多个语音识别装置、多个翻译装置或者多个语音合成装置中分别选择恰当的装置。
发明内容
第一发明的语音翻译***,具有:控制装置、两个以上语音识别装置、两个以上翻译装置、以及两个以上语音合成装置,其中,控制装置具备:语音接收部,其从接受第一用户的语音的第一终端装置接收语音信息;语音识别委托部,其将语音信息发送给两个以上语音识别装置的每一个;语音识别处理结果接收部,与语音信息的发送对应地,从两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;翻译委托部,其将语音识别结果选择部所选择的语音识别结果发送给两个以上翻译装置的每一个;翻译处理结果接收部,与语音识别结果的发送对应地,从两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;语音合成委托部,其将翻译结果选择部所选择的翻译结果发送给两个以上语音合成装置的每一个;语音合成处理结果接收部,其与翻译结果的发送对应地,从两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用语音合成处理结果接收部所接收的两个以上语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,语音识别装置具备:语音识别对象语音接收部,其从控制装置接收语音信息;语音识别部,其通过对语音信息进行语音识别处理,取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及语音识别处理结果发送部,其将语音识别处理结果发送给控制装置,翻译装置具备:语音识别结果接收部,其从控制装置接收语音识别结果;翻译部,其将语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及翻译处理结果发送部,其将翻译部所取得的翻译处理结果发送给控制装置,语音合成装置具备:翻译结果接收部,其从控制装置接收翻译结果;语音合成部,其通过对翻译结果进行语音合成处理,取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及语音合成处理结果发送部,其将语音合成处理结果发送给控制装置。
通过这样的结构,在语音翻译中可以选择利用多个语音识别装置、多个翻译装置、多个语音合成装置的处理结果。
另外,第二发明的语音翻译***,相对于第一发明,控制装置进一步具备:语音识别装置选择部,其根据语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置;翻译装置选择部,其根据翻译结果选择部所进行的一次以上的翻译结果的选择处理,从两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置;以及语音合成装置选择部,其根据语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,在语音识别装置选择部选择了语音识别装置后,语音识别委托部仅向选择的语音识别装置发送语音,在翻译装置选择部选择了翻译装置后,翻译委托部仅向选择的翻译装置发送语音识别结果,在语音合成装置选择部选择了语音合成装置后,语音合成委托部仅向选择的语音合成装置发送翻译结果。
通过这样的结构,在语音翻译中,可以从多个语音识别装置中自动选择一个语音识别装置,可以从多个翻译装置中自动选择一个翻译装置,还可以从多个语音合成装置中自动选择一个语音合成装置。
另外,第三发明的语音翻译***,具有:控制装置、两个以上语音识别装置、翻译装置、以及语音合成装置,其中,控制装置具备:语音识别处理结果接收部,其从两个以上语音识别装置的每一个接收语音识别处理结果,该语音识别处理结果具有语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用语音识别处理结果接收部所接收的两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;以及翻译委托部,其将语音识别结果选择部所选择的语音识别结果发送给翻译装置,语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对语音接收部所接收的语音信息进行语音识别处理,并取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及语音识别处理结果发送部,其将语音识别部所取得的语音识别处理结果发送给控制装置,翻译装置具备:语音识别结果接收部,其从控制装置接收语音识别结果;翻译部,其将语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将翻译部所取得的翻译结果直接或者间接发送给语音合成装置,语音合成装置具备:翻译结果接收部,其接收翻译结果;语音合成部,其对翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
通过这样的结构,在语音翻译中,可以从多个语音识别装置的处理结果中选择利用一个处理结果。
另外,第四发明的语音翻译***,相对于第三发明,控制装置进一步具备语音识别装置选择部,其根据语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置,在语音识别装置选择部选择了语音识别装置后,语音识别委托部仅向选择的语音识别装置发送语音。
通过这样的结构,在语音翻译中,可以从多个语音识别装置中自动选择利用一个语音识别装置。
另外,第五发明的语音翻译***,具有:控制装置、语音识别装置、两个以上翻译装置、以及语音合成装置,其中,控制装置具备:翻译处理结果接收部,其从两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;以及语音合成委托部,其将翻译结果选择部所选择的翻译结果直接或者间接发送给语音合成装置,语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对语音接收部所接收的语音信息进行语音识别处理,并取得具有语音识别结果的语音识别处理结果;以及语音识别处理结果发送部,其将语音识别部所取得的语音识别处理结果直接或者间接发送给翻译装置,翻译装置具备:语音识别结果接收部,其接收语音识别结果;翻译部,其将语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及翻译处理结果发送部,其将翻译部所取得的翻译处理结果发送给控制装置,语音合成装置具备:翻译结果接收部,其从控制装置接收翻译结果;语音合成部,其对翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
通过这样的结构,在语音翻译中,可以从多个翻译装置的处理结果中选择利用一个处理结果。
另外,第六发明的语音翻译***,相对于第五发明,控制装置进一步具备翻译装置选择部,其根据翻译结果选择部所进行的一次以上的翻译结果的选择处理,从两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置,翻译委托部在翻译装置选择部选择了翻译装置后,仅向选择的翻译装置发送语音识别结果。
通过这样的结构,在语音翻译中,可以从多个翻译装置中自动选择利用一个翻译装置。
另外,第七发明的语音翻译***,具有:控制装置、语音识别装置、翻译装置、以及两个以上语音合成装置,其中,控制装置具备:语音合成处理结果接收部,其从两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对语音接收部所接收的语音信息进行语音识别处理,并取得语音识别结果;以及语音识别处理结果发送部,其将语音识别部所取得的语音识别结果直接或者间接发送给翻译装置,翻译装置具备:语音识别结果接收部,其接收语音识别结果;翻译部,其将语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将翻译部所取得的翻译结果直接或者间接发送给语音合成装置,语音合成装置具备:翻译结果接收部,其接收翻译结果;语音合成部,其对翻译结果进行语音合成处理,并取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及语音合成处理结果发送部,其将语音合成处理结果发送给控制装置。
通过这样的结构,在语音翻译中,可以从多个语音合成装置的处理结果中选择利用一个处理结果。
另外,第八发明的语音翻译***,相对于第七发明,控制装置进一步具备语音合成装置选择部,其根据语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,在语音合成装置选择部选择了语音合成装置后,语音合成委托部仅向选择的语音合成装置发送翻译结果。
通过这样的结构,在语音翻译中,可以从多个语音合成装置中自动选择利用一个语音合成装置。
发明效果
根据本发明的语音翻译***,在语音翻译中,可以从具有相同作用的多个服务器组的处理结果中选择恰当的处理结果、也可以选择恰当的服务器。其结果是,可以实现高质量的语音翻译。
附图说明
图1是实施方式1中的语音翻译***的示意图。
图2是表示该语音翻译***的结构的方框图。
图3是表示其控制装置的结构的方框图。
图4是表示其语音识别装置的结构的方框图。
图5是表示其翻译装置的结构的方框图。
图6是表示其语音合成装置的结构的方框图。
图7是说明该控制装置的动作的流程图。
图8是说明该语音识别装置的动作的流程图。
图9是说明该翻译装置的动作的流程图。
图10是说明该语音合成装置的动作的流程图。
图11是表示其语音翻译控制信息的例子的图。
图12是表示其语音翻译控制信息的例子的图。
图13是表示其语音识别模型选择信息管理表的图。
图14是表示其翻译模型选择信息管理表的图。
图15是表示其语音合成模型选择信息管理表的图。
图16是表示其第一终端装置的输入画面的图。
图17是表示其多个语音识别处理结果的例子的图。
图18是表示其多个翻译处理结果的例子的图。
图19是表示其多个语音合成处理结果的例子的图。
图20是表示其语音翻译控制信息的例子的图。
图21是表示实施方式2中的控制装置的结构的方框图。
图22是说明其语音翻译***的动作的流程图。
图23是说明其语音翻译***的动作的流程图。
图24是说明其语音识别装置选择处理的动作的流程图。
图25是表示其语音识别分数组的图。
图26是表示其语音翻译控制信息的格式的图。
图27是上述实施方式中的计算机***的外观图。
图28是表示该计算机***的结构的方框图。
具体实施方式
下面,参照附图说明语音翻译***等的实施方式。而且,实施方式中标以相同标记的构成要件进行同样的动作,因此,有时省略再次说明。
(实施方式1)
本实施方式中,对选择并利用多个语音识别装置、多个翻译装置、多个语音合成装置14的处理结果的语音翻译***进行说明。
图1是本实施方式1中的语音翻译***的示意图。语音翻译***具有:第一终端装置10、控制装置11、两个以上语音识别装置12、两个以上翻译装置13、两个以上语音合成装置14、第二终端装置15。
在语音翻译***中,例如,作为第一终端装置10的用户(用户A)的日本人用日语表达“ぉはょうござぃます”(早上好)的情况下,语音识别装置12对日语“ぉはょうござぃます”进行语音识别。此后,翻译装置13将语音识别结果翻译成例如英语“Good morning”。接着,语音合成装置14根据英文“Good morning”制作出“Good morning”的语音信息。此后,从以英语为母语的用户B的第二终端装置15输出语音“Good morning”。此后,在语音翻译***中,控制装置11从多个语音识别装置12中的多个语音识别结果中选择一个语音识别结果。另外,控制装置11从多个翻译装置13中的多个翻译结果中选择一个翻译结果。另外,控制装置11从多个语音合成装置14中的多个语音合成结果中选择一个语音合成结果。
另外,第一终端装置10以及第二终端装置15例如是通话的终端(包括电话移动电话)。这里,主要以第一终端装置10作为发话侧的终端,以第二终端装置15作为被发话侧的终端进行说明,但是,两者当然可以替换。另外,通常,第一终端装置10和第二终端装置15作为发话侧的终端、被发话侧的终端,依次连续替换,从而第一终端装置10的用户A和第二终端装置15的用户B进行会话。另外,以第一终端装置10以及第二终端装置15具有同样的功能(下述构成要件)进行说明,当然也可以分别具有另一装置所不具有的功能。另外,下面以第一终端装置10的用户(讲话者)作为用户A、以第二终端装置15的用户(讲话者)作为用户B进行说明。
图2是本实施方式中的语音翻译***的方框图。另外,图3是控制装置11的方框图。另外,图4是语音识别装置12的方框图。另外,图5是翻译装置13的方框图。并且,图6是语音合成装置14的方框图。
第一终端装置10具有:第一语音翻译控制信息存储部100、第一语音接受部101、第一语音发送部102、第一语音翻译控制信息发送部103、第一语音接收部104、第一语音输出部105。
控制装置11具有:语音翻译控制信息接收部1100、语音接收部1101、语音识别委托部1102、语音识别处理结果接收部1103、语音识别结果选择部1104、翻译委托部1105、翻译处理结果接收部1106、翻译结果选择部1107、语音合成委托部1108、语音合成处理结果接收部1109、语音合成结果选择部1110、语音合成结果发送部1111。
语音识别装置12具有:语音识别对象语音接收部121、语音识别部122、语音识别处理结果发送部123。
翻译装置13具有:语音识别结果接收部131、翻译部132、翻译处理结果发送部133。
语音合成装置14具有:翻译结果接收部141、语音合成部142、语音合成处理结果发送部143。
第二终端装置15具有:第二语音翻译控制信息存储部150、第二语音接受部151、第二语音发送部152、第二语音翻译控制信息发送部153、第二语音接收部154、第二语音输出部155。
下面,对各构成要件的功能、实现手段等进行说明。其中,第一终端装置10的构成要件的功能和对应的第二终端装置15的构成要件的功能相同(例如,第一语音接受部101和第二语音接受部151的功能相同),因此,仅对第一终端装置10的构成要件进行说明。
构成第一终端装置10的第一语音翻译控制信息存储部100能存储语音翻译控制信息。语音翻译控制信息是在进行语音翻译时利用的信息。语音翻译控制信息具有供语音识别装置12、翻译装置13、语音合成装置14等装置分别进行语音识别、翻译以及语音合成或发送处理结果的信息。语音翻译控制信息也可以包括例如确定进行语音识别的语音识别装置的信息即语音识别装置标识符(例如,IP地址或MAC地址等)、确定进行翻译的翻译装置的翻译装置标识符(例如,IP地址或MAC地址等)、或确定进行语音合成的语音合成装置的信息即语音合成装置标识符(例如,IP地址或MAC地址等)等。另外,语音翻译控制信息也可以包括例如表示原语言的信息(例如“日语”“Japanese”)或表示目标语言的信息(例如“英语”“English”)等。另外,语音翻译控制信息也可以包括例如确定第一终端装置10的信息即第一终端装置标识符(例如,电话号码或IP地址等)、确定通话源的用户即用户A的信息即第一用户标识符(已登录的用户A的ID)、确定第二终端装置15的信息即第二终端装置标识符(例如,电话号码或IP地址等)、确定通话目的地的用户即用户B的信息即第二用户标识符(已登录的用户B的ID)等。另外,语音翻译控制信息也可以包括例如讲话者属性。讲话者属性是讲话者的属性值。讲话者属性例如是讲话者的性别、年龄、语速、讲话者分类(关于讲话者使用的语言,考虑到所使用单词的难易、语法的正确与否等的熟练度)等。讲话者分类是表示使用的单词的难易程度的信息、表示使用的措词的郑重程度的信息、表示语法的正确程度的信息、以及表示它们的复合的程度的信息、表示是否是母语的信息等。另外,讲话者属性也可以包括讲话者的感情(高兴、悲伤等)等。而且,当然不管讲话者属性的内容如何。
第一语音接受部101,从第一终端装置10的用户(用户A)接受语音。
第一语音发送部102发送由第一语音接受部101所接受的语音构成的语音信息。语音的发送目的地通常是控制装置11,但是,也可以是两个以上语音识别装置12的每一个。
第一语音翻译控制信息发送部103将第一语音翻译控制信息存储部100中存储的语音翻译控制信息发送给控制装置11。而且,第一语音翻译控制信息发送部103也可以将语音翻译控制信息发送给语音识别装置12或翻译装置13或语音合成装置14。
第一语音接收部104接收对由第二终端装置15的用户B发声的语音构成的语音信息进行语音翻译的结果、即语音信息。该语音信息通常是被翻译成第一终端装置10的用户A可以理解的语言的语音的信息。该语音信息通常是从第二终端装置15经由控制装置11、语音识别装置12、翻译装置13以及语音合成装置14发送来的信息。
第一语音输出部105输出第一语音接收部104所接收的语音信息。这里,输出通常是向扬声器的语音输出。
控制装置11的语音翻译控制信息接收部1100从第一终端装置10接收语音翻译控制信息。
参照图3,语音接收部1101从接受第一用户(用户A)的语音的第一终端装置10接收语音信息。
语音识别委托部1102将语音接收部1101所接收的语音信息,发送给两个以上语音识别装置12的每一个。语音识别委托部1102也可以将语音翻译控制信息接收部1100所接收的语音翻译控制信息,与语音信息一起发送给两个以上语音识别装置12的每一个。
语音识别处理结果接收部1103,与语音信息的发送对应地,从两个以上语音识别装置12的每一个接收语音识别处理结果。语音识别处理结果具有语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数。而且,语音识别结果通常是字符串。另外,语音识别分数是表示语音识别处理的置信度的数值或表示置信度的等级的文字等,例如,似然等。另外,语音识别处理结果接收部1103也可以仅从一个语音识别装置12接收语音识别处理结果。
语音识别结果选择部1104使用两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果。最可靠的语音识别结果是指,与语音识别分数最好的语音识别分数成对的语音识别结果。而且,存在多个相同的语音识别分数的情况下,语音识别结果选择部1104例如选择从目前为止选择的语音识别结果多的语音识别装置12发送的语音识别结果。这样的情况下,语音识别结果选择部1104与语音识别装置标识符对应地至少临时存储从语音识别装置12发送的过去的一个以上语音识别分数,并利用这样的过去的一个以上语音识别分数选择语音识别结果。另外,存在多个相同的语音识别分数的情况下,语音识别结果选择部1104也可以选择从上一次的语音识别分数良好的语音识别装置12发送的语音识别结果等。而且,在语音识别处理结果接收部1103仅接收了一个语音识别结果的情况下,语音识别结果选择部1104将该一个语音识别结果交给翻译委托部1105。这样的处理也被认为是语音识别结果的选择。
翻译委托部1105将语音识别结果选择部1104所选择的语音识别结果发送给两个以上翻译装置13的每一个。翻译委托部1105也可以将语音翻译控制信息接收部1100所接收的语音翻译控制信息与语音识别结果一起发送给两个以上翻译装置13的每一个。
翻译处理结果接收部1106对应于语音识别结果的发送,从两个以上翻译装置13的每一个接收具有将语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数的翻译处理结果。翻译分数是表示翻译处理的置信度的数值或表示置信度的等级的文字等,例如,似然等。而且,翻译处理结果接收部1106也可以仅从一个翻译装置13接收翻译处理结果。
翻译结果选择部1107使用翻译处理结果接收部1106所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果。最可靠的翻译结果是与最好的翻译分数成对的翻译结果。而且,存在多个相同的翻译分数的情况下,翻译结果选择部1107例如选择从目前为止选择的翻译结果多的翻译装置13发送的翻译结果。这样的情况下,翻译结果选择部1107与翻译装置标识符对应地至少临时存储从翻译装置13发送的过去的一个以上的翻译分数,并利用这样的过去的一个以上的翻译分数选择翻译结果。另外,存在多个相同的翻译分数的情况下,翻译结果选择部1107也可以选择从上一次的翻译分数良好的翻译装置13发送的翻译结果等。而且,翻译处理结果接收部1106仅接收一个翻译结果的情况下,翻译结果选择部1107将该一个翻译结果交给语音合成委托部1108。这样的处理也被认为是翻译结果的选择。
语音合成委托部1108将翻译结果选择部1107所选择的翻译结果发送给两个以上语音合成装置14的每一个。语音合成委托部1108也可以将语音翻译控制信息接收部1100所接收的语音翻译控制信息与翻译结果一起发送给两个以上翻译装置13的每一个。
语音合成处理结果接收部1109对应于翻译结果的发送从两个以上语音合成装置14的每一个接收具有翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数的语音合成处理结果。语音合成分数是表示语音合成处理的置信度的数值或表示置信度的等级的文字等,例如,似然等。另外,语音合成处理结果接收部1109也可以仅从一个语音合成装置14接收语音合成处理结果。
语音合成结果选择部1110使用语音合成处理结果接收部1109所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果。最可靠的语音合成结果是与最好的语音合成分数成对的语音合成结果。而且,存在多个相同的语音合成分数的情况下,语音合成结果选择部1110选择例如从目前为止选择的语音合成结果多的语音合成装置14发送的语音合成结果。这样的情况下,语音合成结果选择部1110与语音合成装置标识符对应地至少临时存储从语音合成装置14发送的过去的一个以上的语音合成分数,并利用这样的过去的一个以上的语音合成分数选择语音合成结果。另外,存在多个相同的语音合成分数的情况下,语音合成结果选择部1110也可以选择从上一次的语音合成分数良好的语音合成装置14所发送的语音合成结果等。而且,语音合成处理结果接收部1109仅接收一个语音合成结果的情况下,语音合成结果选择部1110将该一个语音合成结果交给语音合成结果发送部1111。这样的处理也被认为是语音合成结果的选择。
语音合成结果发送部1111将语音合成结果选择部1110所选择的语音合成结果发送给第二用户利用的第二终端装置15。
参照图4,语音识别装置12的语音识别对象语音接收部121从控制装置11接收语音信息。语音识别对象语音接收部121也可以与语音信息一起接收语音翻译控制信息。另外,语音识别对象语音接收部121也可以从第一终端装置10接收语音信息。
语音识别部122对语音进行语音识别处理,并取得语音识别处理结果。语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数。语音识别结果通常是字符串。语音识别部122优选使用语音翻译控制信息所记载的讲话者属性进行语音识别处理。即,语音识别部122例如分别与讲话者属性(性别、年龄段等)对应地存储多个语音识别模型,并选择利用与语音翻译控制信息所具有的讲话者属性对应的一个语音识别模型,进行语音识别。语音识别模型例如是隐马尔可夫模型(HMM)的语音模型。其中,语音识别模型并非必须是HMM的语音模型。语音识别模型也可以是基于单高斯分布模型、概率模型(GMM:高斯混合模型)或统计模型等其它模型的语音模型。
语音识别处理结果发送部123将语音识别处理结果发送给控制装置11。语音识别处理结果发送部123也可以将语音识别处理结果发送给一个以上的翻译装置13。另外,语音识别处理结果发送部123优选将语音识别处理结果与语音识别装置标识符一起发送。这样的情况下,语音识别处理结果发送部123预先存储语音识别装置标识符。语音识别装置标识符例如是语音识别装置12的IP地址等。
参照图5,翻译装置13的语音识别结果接收部131从控制装置11接收语音识别结果。语音识别结果接收部131也可以从语音识别装置12接收语音识别结果。语音识别结果接收部131优选在接收语音识别结果的同时接收语音翻译控制信息。
翻译部132将语音识别结果接收部131所接收的语音识别结果翻译成目标语言,并取得翻译处理结果。翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数。翻译结果是表示被翻译成目标语言的句子等的字符串。翻译部132优选使用语音识别结果接收部131所接收的语音翻译控制信息进行翻译处理。即,翻译部132优选例如与多个原语言或目标语言、或者讲话者属性对应地存储着多个翻译模型,并从语音翻译控制信息中包含的原语言或目标语言的信息、或者/以及讲话者属性选择一个翻译模型,并使用该翻译模型进行翻译处理。而且,翻译模型是进行翻译所需的信息(辞典信息),可以包括、也可以不包括所谓语言模型。
翻译处理结果发送部133将翻译部132所取得的翻译处理结果发送给控制装置11。翻译处理结果发送部133也可以将翻译处理结果发送给一个以上的语音合成装置14。
参照图6,语音合成装置14的翻译结果接收部141从控制装置11接收翻译结果。翻译结果接收部141也可以从翻译装置13接收翻译结果。翻译结果接收部141也可以在接收翻译结果的同时,接收语音翻译控制信息。
语音合成部142对翻译结果进行语音合成处理,并取得语音合成处理结果。语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数。语音合成结果是语音输出的对象的语音信息。语音合成部142优选使用语音识别结果接收部131所接收的语音翻译控制信息进行语音合成处理。即,语音合成部142优选例如与目标语言或讲话者属性等对应地存储着多个语音合成模型,并从语音翻译控制信息中包含的目标语言的信息或者/以及讲话者属性选择一个语音合成模型,并使用该语音合成模型进行语音合成处理。而且,语音合成模型是语音合成中所利用的信息(例如,语料库)。
语音合成处理结果发送部143将语音合成处理结果发送给控制装置11。语音合成处理结果发送部143也可以将语音合成处理结果发送给第二终端装置15。
第一终端装置10的第一语音翻译控制信息存储部100优选是非易失性的记录介质,但是,用易失性的记录介质也可以实现。另外,不管第一语音翻译控制信息存储部100中存储语音翻译控制信息的过程如何。例如,可以通过记录介质将语音翻译控制信息存储在第一语音翻译控制信息存储部100中,可以将通过通信线路等发送的语音翻译控制信息存储在第一语音翻译控制信息部100中,或者,也可以将通过输入设备输入的语音翻译控制信息存储在第一语音翻译控制信息存储部100中。
第一语音接受部101例如能够通过麦克风实现。
第一语音发送部102、第一语音翻译控制信息发送部103、语音识别委托部1102、翻译委托部1105、语音合成委托部1108、语音合成结果发送部1111、语音识别处理结果发送部123、翻译处理结果发送部133、语音合成处理结果发送部143通常通过无线或者有线的通信单元实现,但是,也可以通过广播单元实现。
第一语音接收部104、语音翻译控制信息接收部1100、语音接收部1101、语音识别处理结果接收部1103、翻译处理结果接收部1106、语音合成处理结果接收部1109、语音识别对象语音接收部121、语音识别结果接收部131、翻译结果接收部141通常通过无线或者有线的通信单元实现,但是,也可以通过接收广播的单元实现。
第一语音输出部105可以认为包括扬声器等输出设备,也可以认为不包括。第一语音输出部105能够通过输出设备的驱动软件、或者输出设备的驱动软件和输出设备等实现。
控制装置11的语音识别结果选择部1104、翻译结果选择部1107、语音合成结果选择部1110、语音识别部122、翻译部132、语音合成部142通常能够由MPU或存储器等实现。语音识别结果选择部1104等的处理程序通常通过软件实现,该软件记录在ROM等记录介质上。但是,也可以通过硬件(专用电路)实现。
接着,对语音翻译***的动作进行说明。首先,使用图6的流程图对第一终端装置10的动作进行说明。
第一终端装置10的第一语音接受部101在从用户A接受语音时,将语音转换(例如,数字调制)成可发送的语音信息,第一语音发送部102将该语音信息发送给控制装置11。这样的情况下,通常,第一语音发送部102将语音信息与第一终端装置标识符一起发送给控制装置11。另外,第一语音翻译控制信息发送部103,在语音信息的发送的定时,将第一语音翻译控制信息存储部100中存储的语音翻译控制信息发送给控制装置11。并且,第一语音接收部104接收由用户B产生的语音构成的语音信息被语音识别、翻译、语音合成后的语音合成结果,第一语音输出部105对语音合成结果进行语音输出。
接着,使用图7的流程图对控制装置11的动作进行说明。
(步骤S701)语音接收部1101判断是否从第一终端装置10接收了语音信息。如果接收了语音信息,则进入步骤S702,如果没有接收语音信息,则返回步骤S701。而且,这里,语音接收部1101接收了语音信息时,假定语音翻译控制信息接收部1100接收语音翻译控制信息。
(步骤S702)语音识别委托部1102将步骤S701中接收的语音信息发送给两个以上语音识别装置12的每一个。另外,语音识别委托部1102将语音翻译控制信息接收部1100所接收的语音翻译控制信息发送给两个以上语音识别装置12的每一个。而且,假定语音识别委托部1102预先保持着用于与两个以上语音识别装置12的每一个通信的信息、即两个以上语音识别装置标识符。另外,语音识别委托部1102也可以使用语音翻译控制信息(例如,讲话者属性或语音识别装置标识符等)选择一个以上的语音识别装置12,并向该选择的一个以上的语音识别装置12发送语音信息。这样的情况下,语音识别委托部1102对应地存储着具有讲话者属性的条件和语音识别装置标识符。
(步骤S703)语音识别处理结果接收部1103判断是否对应于步骤S702中的语音信息等的发送从两个以上语音识别装置12的每一个接收了语音识别处理结果。如果接收了语音识别处理结果,则进入步骤S704,如果没有接收语音识别处理结果,则返回步骤S703。而且,语音识别处理结果接收部1103通常等待到从所有的语音识别装置12接收语音识别处理结果,但是,也可以在语音信息等的发送后经过了预定的时间时,结束步骤S703中的接收处理。
(步骤S704)语音识别结果选择部1104使用步骤S703中接收的两个以上的语音识别处理结果所具有语音识别分数,选择语音识别分数最大的(最好的)语音识别结果,并配置在存储器上。
(步骤S705)语音识别结果选择部1104判断是否存在多个语音识别分数最大的语音识别结果。即,语音识别结果选择部1104判断在步骤S704中是否选择了多个语音识别结果。在存在多个最大的语音识别分数的语音识别结果的情况下,进入步骤S706,在不存在多个的情况下进入步骤S707。
(步骤S706)语音识别结果选择部1104,使用与相同的语音识别分数成对的多个语音识别结果中、两个以上语音识别装置12中的过去的语音识别分数,选择一个语音识别装置12的语音识别结果。即,例如,语音识别结果选择部1104可以计算每一个语音识别装置12的过去的平均的语音识别分数,并选择该平均的语音识别分数最好的语音识别装置12的语音识别结果,也可以选择时间上的上一次的语音识别分数最好的语音识别装置12的语音识别结果等。
(步骤S707)翻译委托部1105将语音识别结果选择部1104所选择的一个语音识别结果发送给两个以上翻译装置13的每一个。另外,翻译委托部1105将语音翻译控制信息接收部1100所接收的语音翻译控制信息发送给两个以上翻译装置13的每一个。而且,假定翻译委托部1105预先保持着与两个以上翻译装置13的每一个通信所需的信息、即两个以上翻译装置标识符。另外,翻译委托部1105也可以使用语音翻译控制信息(例如,讲话者属性或翻译装置标识符等),选择一个以上的翻译装置13,并将语音识别结果发送给该选择的一个以上的翻译装置13。这样的情况下,翻译委托部1105对应地存储着具有讲话者属性的条件和翻译装置标识符。
(步骤S708)翻译处理结果接收部1106判断是否与步骤S707中的语音识别结果等的发送对应地从两个以上翻译装置13的每一个接收了翻译处理结果。如果接收了翻译处理结果,则进入步骤S709,如果没有接收翻译处理结果,则返回步骤S708。而且,翻译处理结果接收部1106通常等待到从所有的翻译装置13接收翻译处理结果为止,但是,也可以在语音识别结果等的发送后经过了预定的时间的情况下,结束步骤S708中的接收处理。
(步骤S709)翻译结果选择部1107使用步骤S708中接收的两个以上的翻译处理结果所具有的翻译分数,选择翻译分数最大的(最好的)翻译结果,并配置在存储器上。
(步骤S710)翻译结果选择部1107判断是否存在多个翻译分数最大的翻译结果。即,翻译结果选择部1107判断在步骤S709中是否选择了多个翻译结果。在存在多个最大的翻译分数的翻译结果的情况下,进入步骤S711,在不存在多个的情况下进入步骤S712。
(步骤S711)翻译结果选择部1107使用与相同的翻译分数成对的多个翻译结果中、两个以上翻译装置13中的过去的翻译分数,选择一个翻译装置13的翻译结果。即,例如,翻译结果选择部1107可以计算每个翻译装置13的过去的平均的翻译分数,并选择该平均的翻译分数最好的翻译装置13的翻译结果,也可以选择时间上上一次的翻译分数最好的翻译装置13的翻译结果等。
(步骤S712)语音合成委托部1108将翻译结果选择部1107所选择的一个翻译结果发送给两个以上语音合成装置14的每一个。另外,语音合成委托部1108将语音翻译控制信息接收部1100所接收的语音翻译控制信息发送给两个以上语音合成装置14的每一个。而且,假定语音合成委托部1108预先保持着与两个以上语音合成装置14的每一个通信所需的信息、即两个以上语音合成装置标识符。另外,语音合成委托部1108也可以使用语音翻译控制信息(例如,讲话者属性或语音合成装置标识符等)选择一个以上的语音合成装置14,并将翻译结果发送给该选择的一个以上的语音合成装置14。这样的情况下,语音合成委托部1108对应地存储着具有讲话者属性的条件和语音合成装置标识符。
(步骤S713)语音合成处理结果接收部1109判断是否以与步骤S712中的翻译结果等的发送对应地,从两个以上语音合成装置14的每一个接收了语音合成处理结果。如果接收了语音合成处理结果,则进入步骤S714,如果没有接收语音合成处理结果,则返回步骤S713。而且,语音合成处理结果接收部1109通常等待到从所有的语音合成装置14接收语音合成处理结果为止,但是,也可以在翻译结果等的发送后经过了预定的时间的情况下,结束步骤S713中的接收处理。
(步骤S714)语音合成结果选择部1110使用步骤S713中接收的两个以上的语音合成处理结果所具有的语音合成分数,选择语音合成分数最大的(最好的)语音合成结果,并配置在存储器上。
(步骤S715)语音合成结果选择部1110判断是否存在多个语音合成分数最大的语音合成结果。即,语音合成结果选择部1110判断在步骤S714中是否选择了多个语音合成结果。在存在多个最大的语音合成分数的语音合成结果的情况下,进入步骤S716,在不存在多个的情况下进入步骤S717。
(步骤S716)语音合成结果选择部1110使用与相同的语音合成分数成对的多个语音合成结果中、两个以上语音合成装置14中的过去的语音合成分数,选择一个语音合成装置14的语音合成结果。即,例如,语音合成结果选择部1110可以计算每个语音合成装置14的过去的平均的语音合成分数,并选择该平均的语音合成分数最好的语音合成装置14的语音合成结果,也可以选择时间上上一次的语音合成分数最好的语音合成装置14的语音合成结果等。
(步骤S717)语音合成结果发送部1111将语音合成结果选择部1110所选择的一个语音合成结果发送给户B利用的第二终端装置15。返回步骤S701。
而且,图7的流程图中,存在多个与最大的分数对应的语音识别结果、翻译结果、语音合成结果的情况下,使用过去的分数选择了一个语音识别结果、翻译结果、语音合成结果,但是,也可以随机选择一个语音识别结果、翻译结果、语音合成结果。
另外,图7的流程图中,优选至少临时存储各语音识别装置的语音识别分数、各翻译装置的翻译分数、各语音合成装置的语音合成分数。
并且,图7的流程图中,通过电源关闭或处理结束的中断来结束处理。
接着,对于语音识别装置12的动作,使用图8的流程图进行说明。
(步骤S801)语音识别对象语音接收部121判断是否从控制装置11接收了语音信息和语音翻译控制信息。如果接收了语音信息等,则进入步骤S802,如果没有接收,则返回步骤S801。
(步骤S802)语音识别部122取得步骤S801中接收的语音翻译控制信息。
(步骤S803)语音识别部122,使用步骤S802中取得的语音翻译控制信息选择语音识别模型。例如,对应地存储着包括讲话者属性(例如,性别、年龄段、讲话者水平等)的条件和语音识别模型,语音识别部122选择与和语音翻译控制信息中的讲话者属性一致的条件成对的语音识别模型。而且,语音识别模型包括例如语音模型和语言模型。
(步骤S804)语音识别部122取得步骤S801中接收的语音信息。
(步骤S805)语音识别部122使用步骤S803中选择的语音识别模型,对步骤S804中取得的语音信息进行语音识别处理。此后,语音识别部122取得语音识别结果(通常为字符串)和语音识别分数(例如似然)。
(步骤S806)语音识别部122根据步骤S805中取得的语音识别结果和语音识别分数,构成语音识别处理结果。
(步骤S807)语音识别处理结果发送部123将语音识别处理结果与语音识别装置标识符一起发送给控制装置11。而且,语音识别处理结果发送部123预先保持着语音识别装置标识符。返回步骤S801。
而且,图8的流程图中,语音识别处理结果发送部123也可以将语音识别处理结果等发送给一个以上的翻译装置13。
另外,图8的流程图中,通过电源关闭或处理结束的中断来结束处理。
接着,对翻译装置13的动作,使用图9的流程图进行说明。
(步骤S901)语音识别结果接收部131判断是否从控制装置11接收了语音识别结果和语音翻译控制信息。如果接收了语音识别结果等,则进入步骤S902,如果没有接收,则返回步骤S901。而且,语音识别结果接收部131也可以从语音识别装置12接收语音识别结果等。
(步骤S902)翻译部132取得步骤S901中接收的语音翻译控制信息。
(步骤S903)翻译部132使用步骤S902中取得的语音翻译控制信息选择翻译模型。例如,对应地存储着包括原语言、目标语言和/或讲话者属性(例如性别、年龄段、讲话者水平等)的条件和翻译模型,翻译部132选择与和语音翻译控制信息中的原语言、目标语言和/或讲话者属性一致的条件成对的翻译模型。
(步骤S904)翻译部132取得步骤S901中接收的语音识别结果。
(步骤S905)翻译部132使用步骤S903中选择的翻译模型,对步骤S904中取得的语音识别结果进行翻译。此后,翻译部132取得翻译结果(通常为表示目标语言的句子的字符串)、翻译分数(例如,似然)。
(步骤S906)翻译部132根据步骤S905中取得的翻译结果和翻译分数,构成翻译处理结果。
(步骤S907)翻译处理结果发送部133将翻译处理结果与翻译装置标识符一起发送给控制装置11。而且,翻译处理结果发送部133预先保持着翻译装置标识符。返回步骤S901。
而且,图9的流程图中,翻译处理结果发送部133也可以将翻译处理结果等发送给一个以上的语音合成装置14。
另外,图9的流程图中,通过电源关闭或处理结束的中断来结束处理。
接着,对语音合成装置14的动作,使用图10的流程图进行说明。
(步骤S1001)翻译结果接收部141判断是否从控制装置11接收了翻译结果和语音翻译控制信息。如果接收了翻译结果等,则进入步骤S1002,如果没有接收,则返回步骤S1001。
(步骤S1002)语音合成部142取得步骤S1001中接收的语音翻译控制信息。
(步骤S1003)语音合成部142使用步骤S1002中取得的语音翻译控制信息选择语音合成模型。例如,对应地存储着包括讲话者属性(例如,性别、年龄段、讲话者水平等)的条件和语音合成模型,语音合成部142选择与和语音翻译控制信息中的讲话者属性一致的条件成对的语音合成模型。
(步骤S1004)语音合成部142取得步骤S1001中接收的翻译结果。
(步骤S1005)语音合成部142使用步骤S1003中选择的语音合成模型,对步骤S1004中取得的翻译结果进行语音合成处理。此后,语音合成部142取得语音合成结果(通常为语音信息)和语音合成分数(例如,似然)。
(步骤S1006)语音合成部142根据步骤S1005中取得的语音合成结果和语音合成分数,构成语音合成处理结果。
(步骤S1007)语音合成处理结果发送部143将语音合成结果与语音合成装置标识符一起发送给控制装置11。而且,语音合成处理结果发送部143预先保持着语音合成装置标识符。返回步骤S1001。
而且,图10的流程图中,语音合成处理结果发送部143也可以将语音合成处理结果等发送给第二终端装置15。
另外,图10的流程图中,通过电源关闭或处理结束的中断来结束处理。
下面,参照语音翻译***的示意图即图1,对本实施方式中的语音翻译***的具体的动作进行说明。
现在,第一终端装置10的用户A是说日语的37岁女性,日语是母语。另外,第二终端装置15的用户B是说英语的38岁男性,英语是母语。
此后,在第一终端装置10的第一语音翻译控制信息存储部100中存储着图11所示的语音翻译控制信息。这里,语音翻译控制信息具有:原语言、表示目标语言的信息、对方终端即第二终端装置的标识符、自身终端即第一终端装置的标识符、用户A的性别、年龄段、讲话者分类的信息。这里,讲话者分类表示对于使用语言,是否是母语。是母语的情况下成为“Y”的属性值,不是母语的情况下成为“N”的属性值。另外,“语速”是讲话的速度,这里,能取得“快”“中等程度”“慢”这三个中的任意一个值。“快”是例如讲话的速度在“5音节/秒”以上的情况,“中等程度”是例如讲话的速度低于“5音节/秒”并在“3音节/秒”以上的情况,“慢”是例如讲话的速度低于“3音节/秒”的情况。其中,不管“语速”分类的种类、分类的方法等如何。
另外,第二终端装置15的第二语音翻译控制信息存储部150中存储着图12所示的语音翻译控制信息。
另外,某一个语音识别装置12的语音识别部122存储着图13所示的语音识别模型选择信息管理表。语音识别模型选择信息管理表存储着一个以上具有“语言”“讲话者属性”“语音识别模型标识符”的属性值的记录。这里,“讲话者属性”具有“性别”“年龄”“语速”等。“语音识别模型标识符”是识别语音识别模型的信息,例如被利用来读出语音识别模型。这里,例如,“语音识别模型标识符”是存储着语音识别模型的文件名等。另外,语音识别部122存储着与语音识别模型标识符对应的多个语音识别模型。
另外,某一个翻译装置13的翻译部132保持着图14所示的翻译模型选择信息管理表。翻译模型选择信息管理表存储着一个以上具有“ID”“原语言”“讲话者属性”“翻译模型标识符”的属性值的记录。这里,“讲话者属性”具有“性别”“年龄”“讲话者分类”等。“翻译模型标识符”是识别翻译模型的信息,例如被利用来读出翻译模型。这里,例如,“翻译模型标识符”是存储有翻译模型的文件名等。另外,翻译部132存储着与翻译模型标识符对应的多个翻译模型。
另外,某一个语音合成装置14的语音合成部142保持着图15所示的语音合成模型选择信息管理表。语音合成模型选择信息管理表存储着一个以上具有“ID”“目标语言”“讲话者属性”“语音合成模型标识符”的属性值的记录。这里,“讲话者属性”具有“性别”“年龄”“讲话者分类”等。作为“讲话者属性”,更优选具有“语速”等。“语音合成模型标识符”是识别语音合成模型的信息,例如被用来读出语音合成模型。这里,例如,“语音合成模型标识符”是存储着语音合成模型的文件名等。另外,语音合成部142存储着与语音合成标识符对应的多个语音合成模型。
这样的状况下,用户A正要给用户B打电话。此后,用户A从第一终端装置10调出输入对方(用户B)电话号码等的画面、即图16的画面。此后,第一终端装置10读出第一语音翻译控制信息存储部100中存储着的语音翻译控制信息(图11),并显示图16的画面。而且,图16的画面中没有显示语速,但是,当然也可以显示。此后,假定用户输入对方的使用语言和对方的电话号码,并按下“拨号”按钮。而且,假定图16中自己的电话号码“080-1111-2256”存储在未图示的记录介质中。
接着,第一终端装置10的未图示的呼叫部呼叫第二终端装置15。此后,开始通话。
接着,第一终端装置10的第一语音接受部101接受用户A的语音“ぉはょうござぃます”(早上好)。此后,第一语音接受部101将语音转换为语音信息。接着,第一语音发送部102将该语音信息“ぉはょうござぃます”发送给控制装置11。另外,第一语音翻译控制信息发送部103将图11的语音翻译控制信息发送给控制装置11。
接着,控制装置11的语音接收部1101从第一终端装置10接收语音信息“ぉはょうござぃます”和图11的语音翻译控制信息。
此后,语音识别委托部1102,将接收的语音信息和语音翻译控制信息发送给两个以上语音识别装置12的每一个。
接着,某一个语音识别装置12的语音识别对象语音接收部121从控制装置11接收语音信息“ぉはょうござぃます”和图11的语音翻译控制信息。
此后,各语音识别部122使用图11的语音翻译控制信息选择语音识别模型。即,语音识别部122将图11的语音翻译控制信息适用于图13的语音识别模型选择信息管理表,并取得与语言“日语”、性别“女性”、年龄“30~39岁”、语速“快”一致的语音识别模型标识符“JR5”。
接着,语音识别部122取得所接收的语音信息“ぉはょうござぃます”。
接着,语音识别部122,使用选择的语音识别模型“JR5”,并对取得的语音信息“ぉはょうござぃます”进行语音识别处理。此后,语音识别部122取得语音识别结果(字符串)即“ぉはょうござぃます”和语音识别分数“0.83”。
接着,语音识别部122根据取得的语音识别结果和语音识别分数,构成语音识别处理结果“0.83:ぉはょうござぃます”。
接着,语音识别处理结果发送部123将语音识别处理结果“0.83:ぉはょうござぃます”与语音识别装置标识符“R01”一起发送给控制装置11。
另外,其它语音识别装置12也和上述一个语音识别装置12同样,将语音识别处理结果和语音识别装置标识符发送给控制装置11。
接着,控制装置11的语音识别处理结果接收部1103以与语音信息等的发送对应地,从两个以上语音识别装置12的每一个接收语音识别处理结果。这里,如图17所示,假定语音识别处理结果接收部1103接收了多个语音识别处理结果。
接着,语音识别结果选择部1104使用所接收的两个以上的语音识别处理结果(图17)所具有的语音识别分数,选择语音识别分数最大的(最好的)语音识别结果,并配置在存储器上。即,语音识别结果选择部1104选择与语音识别装置标识符“R03”对应的语音识别结果“ぉはょうござぃます”,并配置在存储器上。
接着,翻译委托部1105将语音识别结果选择部1104所选择的一个语音识别结果“ぉはょうござぃます”和语音翻译控制信息(图11)发送给两个以上翻译装置13的每一个。
接着,一个翻译装置13的语音识别结果接收部131从控制装置11接收语音识别结果“ぉはょうござぃます”和语音翻译控制信息(图11)。此后,翻译部132取得语音翻译控制信息。
接着,翻译部132使用所取得的语音翻译控制信息选择翻译模型。即,翻译部132将图11的语音翻译控制信息适用于图14的翻译模型选择信息管理表,并取得与语言“日语”、性别“女性”、年龄“30~39岁”、讲话者分类“Y”一致的翻译模型标识符“JT4”。
接着,翻译部132取得所接收的语音识别结果“ぉはょうござぃます”。
接着,翻译部132使用所选择的翻译模型“JT4”,对所取得的语音识别结果“ぉはょうござぃます”进行翻译。此后,翻译部132取得翻译结果“Goodmorning.”(早上好)和翻译分数“0.91”。
接着,翻译部132根据所取得的翻译结果和翻译分数,构成翻译处理结果“0.91:Good morning.”。
接着,翻译处理结果发送部133,将翻译处理结果“0.91:Good morning.”与翻译装置标识符“T01”一起发送给控制装置11。
另外,其它翻译装置13也和上述一个翻译装置13同样,将翻译处理结果和翻译装置标识符发送给控制装置11。
接着,控制装置11的翻译处理结果接收部1106对应于语音识别结果等的发送,从两个以上翻译装置13的每一个接收翻译处理结果。此后,如图18所示,假定翻译处理结果接收部1106接收了多个翻译处理结果。
接着,翻译结果选择部1107使用所接收的两个以上的翻译处理结果所具有的翻译分数,选择翻译分数最大的(最好的)翻译结果,并配置在存储器上。即,翻译结果选择部1107选择翻译装置标识符“T02”的翻译结果“1.00:Good morning.”,并配置在存储器上。
接着,控制装置11的语音合成委托部1108将翻译结果选择部1107所选择的一个翻译结果“Good morning.”发送给两个以上语音合成装置14的每一个。
接着,一个语音合成装置14的翻译结果接收部141从控制装置11接收翻译结果和语音翻译控制信息。此后,语音合成部142取得所接收的语音翻译控制信息。
接着,语音合成部142使用所取得的语音翻译控制信息选择语音合成模型。即,语音合成部142将图11的语音翻译控制信息适用于图15的语音合成模型选择信息管理表,并取得与目标语言“英语”、性别“女性”、年龄“30~39岁”、讲话者分类“Y”一致的语音合成模型标识符“JC9”。
接着,语音合成部142取得所接收的翻译结果“Good morning.”。
接着,语音合成部142使用所选择的语音合成模型“JC9”,对所取得的翻译结果“Good morning.”进行语音合成处理。此后,语音合成部142取得语音合成结果(通常为语音信息)和语音合成分数“0.87”。
接着,语音合成部142根据所取得的语音合成结果和语音合成分数,构成语音合成处理结果。
接着,语音合成处理结果发送部143将语音合成结果与语音合成装置标识符“J01”一起发送给控制装置11。这里,语音合成结果例如是语音信息文件。
另外,其它语音合成装置14也和上述一个语音合成装置14同样,将语音合成处理结果和语音合成装置标识符发送给控制装置11。
接着,控制装置11的语音合成处理结果接收部1109与翻译结果等的发送对应地,从两个以上语音合成装置14的每一个接收语音合成处理结果。此后,如图19所示,假定语音合成处理结果接收部1109接收了多个语音合成处理结果。
接着,语音合成结果选择部1110使用所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择语音合成分数最大的(最好的)语音合成结果,并配置在存储器上。即,语音合成结果选择部1110选择与语音合成装置标识符“J01”对应的语音合成结果。
接着,语音合成结果发送部1111,将语音合成结果选择部1110所选择的一个语音合成结果发送给用户B利用的第二终端装置15。
接着,第二终端装置15的第二语音接收部154接收语音合成结果“Goodmorning”。此后,第二语音输出部155对语音“Good morning”进行语音输出。
通过以上的处理,在到达第二终端装置15之前将用户A产生的“ぉはょうござぃます”转换为“Good morning”的语音,并将“Good morning”语音输出到第二终端装置15。
另外,第二终端装置15的用户B回答“Good morning”而产生“Goodmorning”的语音,通过和上述同样的处理转换为“ぉはょう”,并将语音“ぉはょう”输出到第一终端装置10。
以上,根据本实施方式,可以从具有相同功能的多个服务器组(两个以上语音识别装置12、两个以上翻译装置13、两个以上语音合成装置14)的处理结果(语音识别结果、翻译结果、语音合成结果)选择恰当的处理结果。
另外,根据本实施方式,语音识别、翻译、语音合成的各处理中,可以选择与包括讲话者属性的语音翻译控制信息一致的恰当的模型。其结果是,可以提供高精度的、或者继承了讲话者的属性的网络型语音翻译***。
而且,本实施方式中,从多个语音识别装置的处理结果选择一个处理结果,并且,从多个翻译装置的处理结果选择一个处理结果,并且,从多个语音合成装置的处理结果选择一个处理结果。但是,也可以从多个语音识别装置的处理结果仅选择一个处理结果,而翻译装置和语音合成装置是固定不变的。这样的情况下,语音翻译***具有:控制装置、两个以上语音识别装置、翻译装置、以及语音合成装置,其中,所述控制装置具备:语音识别处理结果接收部,其从所述两个以上语音识别装置的每一个接收语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用所述语音识别处理结果接收部所接收的两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;以及翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给所述翻译装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果发送给所述控制装置,所述翻译装置具备:语音识别结果接收部,其从所述控制装置接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,所述语音合成装置具备:翻译结果接收部,其接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
另外,本实施方式中,也可以从多个翻译装置的处理结果仅选择一个处理结果,而语音识别装置和语音合成装置是固定不变的。这样的情况下,语音翻译***具有:控制装置、语音识别装置、两个以上翻译装置、以及语音合成装置,其中,所述控制装置具备:翻译处理结果接收部,其从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;以及语音合成委托部,其将所述翻译结果选择部所选择的翻译结果直接或者间接发送给所述语音合成装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得具有语音识别结果的语音识别处理结果;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果直接或者间接发送给所述翻译装置,所述翻译装置具备:语音识别结果接收部,其接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及翻译处理结果发送部,其将所述翻译部所取得的翻译处理结果发送给所述控制装置,所述语音合成装置具备:翻译结果接收部,其从所述控制装置接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
另外,本实施方式中,也可以从多个语音合成装置的处理结果仅选择一个处理结果,而语音识别装置和翻译装置是固定不变的。这样的情况下,语音翻译***具有:控制装置、语音识别装置、翻译装置、以及两个以上语音合成装置,其中,所述控制装置具备:语音合成处理结果接收部,其从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别结果;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别结果直接或者间接发送给所述翻译装置,所述翻译装置具备:语音识别结果接收部,其接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,所述语音合成装置具备:翻译结果接收部,其接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及语音合成处理结果发送部,其将所述语音合成处理结果发送给所述控制装置。
另外,本实施方式中,也可以仅利用用户所指定的一个语音识别装置、或者用户所指定的一个翻译装置、或者用户所指定的一个语音合成装置。例如,语音翻译控制信息为图20的情况下,优选为,语音翻译控制信息中指定了语音识别装置,控制装置11仅向被识别为“186.221.1.27”的语音识别装置12发送语音信息,并委托语音识别处理。而且,语音翻译控制信息中有翻译装置的指定的情况下、或者有语音合成装置的指定的情况下也同样如此。
另外,本实施方式中,一个以上语音识别装置12的每一个的语音识别处理结果发送部123也可以将语音识别处理结果中的语音识别分数补记到语音翻译控制信息中,并将语音识别结果和包含语音识别分数的语音翻译控制信息发送给控制装置11。即,语音识别处理结果也可以是具有语音识别结果和包含语音识别分数的语音翻译控制信息的信息。此后,控制装置11的语音识别结果选择部1104使用语音翻译控制信息中包含的语音识别分数选择语音识别结果。这在其它实施方式中也同样如此。
另外,本实施方式中,一个以上翻译装置13的每一个的翻译处理结果发送部133也可以将翻译处理结果中的翻译分数补记到语音翻译控制信息中,并将翻译结果和包含语音识别分数的语音翻译控制信息发送给控制装置11。即,翻译处理结果也可以是具有翻译结果和包含翻译分数的语音翻译控制信息的信息。此后,控制装置11的翻译结果选择部1107使用语音翻译控制信息中包含的翻译分数选择翻译结果。这在其它实施方式中也同样如此。
另外,本实施方式中,一个以上语音合成装置14的每一个的语音合成处理结果发送部143也可以将语音合成处理结果中的语音合成分数补记到语音翻译控制信息中,并将语音合成结果和包含语音合成分数的语音翻译控制信息发送给控制装置11。即,语音合成处理结果也可以是具有语音合成结果和包含语音合成分数的语音翻译控制信息的信息。此后,控制装置11的语音合成结果选择部1110使用语音翻译控制信息中包含的语音合成分数选择语音合成结果。这在其它实施方式中也同样如此。
并且,本实施方式中的处理也可以通过软件实现。此后,也可以通过软件下载等分发该软件。另外,也可以将该软件记录到CD-ROM等记录介质上来分发。而且,这也适于本说明书中的其它实施方式。而且,实现本实施方式中的控制装置11的软件是下面的程序。即,该程序是例如使计算机具有下述部件的功能的程序,即,语音接收部,其从接受第一用户的语音的第一终端装置接收语音信息;语音识别委托部,其将所述语音信息发送给两个以上语音识别装置的每一个;语音识别处理结果接收部,其对应于所述语音信息的发送,从所述两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用所述两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给两个以上翻译装置的每一个;翻译处理结果接收部,其对应于所述语音识别结果的发送,从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;语音合成委托部,其将所述翻译结果选择部所选择的翻译结果发送给两个以上语音合成装置的每一个;语音合成处理结果接收部,其对应于所述翻译结果的发送,从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置。
(实施方式2)
本实施方式中,用户间的一系列的对话中,到满足规定的条件为止,与实施方式1中说明的处理相同,对从满足规定的条件后开始,固定语音识别装置、翻译装置或者语音合成装置,而进行语音翻译处理的语音翻译***进行说明。即,本实施方式中的语音翻译***中,如果决定了分数高的语音识别装置、翻译装置或者语音合成装置,之后,并非对所有的装置进行处理委托,而是对特定的一个装置进行处理委托,这一点和实施方式1中的语音翻译***不同。
本实施方式2中的语音翻译***的示意图和图1相同。实施方式1中说明的语音翻译***和实施方式2中的语音翻译***中,控制装置不同。本语音翻译***具有:第一终端装置10、控制装置21、语音识别装置12、翻译装置13、语音合成装置14、第二终端装置15。
图21是本实施方式中的控制装置21的方框图。控制装置21具有:语音翻译控制信息接收部1100、语音接收部1101、语音识别委托部2102、语音识别处理结果接收部1103、语音识别结果选择部1104、翻译委托部2105、翻译处理结果接收部1106、翻译结果选择部1107、语音合成委托部2108、语音合成处理结果接收部1109、语音合成结果选择部1110、语音合成结果发送部1111、语音识别装置选择部2112、翻译装置选择部2113、语音合成装置选择部2114。
语音识别委托部2102将语音信息发送给两个以上语音识别装置12的每一个。语音识别委托部2102在语音识别装置选择部2112选择了语音识别装置12后,仅向所选择的语音识别装置12发送语音信息。语音识别委托部2102也可以将语音翻译控制信息与语音信息一起发送。
翻译委托部2105将语音识别结果选择部1104所选择的语音识别结果发送给两个以上翻译装置13的每一个。翻译委托部2105在翻译装置选择部2113选择了翻译装置13后,仅向所选择的翻译装置13发送语音识别结果。翻译委托部2105也可以将语音翻译控制信息与语音识别结果一起发送。
语音合成委托部2108将翻译结果选择部1107所选择的翻译结果发送给两个以上语音合成装置14的每一个。语音合成委托部2108在语音合成装置选择部2114选择了语音合成装置14后,仅向所选择的语音合成装置14发送翻译结果。语音合成委托部2108也可以将语音翻译控制信息与翻译结果一起发送。
语音识别装置选择部2112,根据语音识别结果选择部1104中的一次以上的语音识别结果的选择处理,从两个以上语音识别装置12中选择下一次以后进行语音识别处理的语音识别装置12。语音识别装置选择部2112保持着选择语音识别装置12所需的条件、即语音识别装置选择条件。此后,语音识别装置选择部2112在满足语音识别装置选择条件的情况下,从两个以上语音识别装置12中选择进行语音识别处理的一个语音识别装置12。语音识别装置选择条件是使用了过去的语音识别分数的条件。语音识别装置选择条件,例如是选择第一次的语音识别分数最好的语音识别装置12这一条件(语音识别装置选择条件的标记例子“条件:次数=1,max-score(语音识别装置)”)。另外,语音识别装置选择条件,例如是选择第五次以后、语音识别分数的平均值为0.85以上、语音识别分数的平均值最高的语音识别装置12这一条件(语音识别装置选择条件的标记例子“条件:次数=5以上,max-score(average-score>=0.85)”)。另外,语音识别装置选择条件,例如是语音识别分数据算仅有一次超过0.95的情况下选择该语音识别装置12的条件。而且,语音识别装置选择条件,只要是用于为进行语音识别而选择恰当的语音识别装置12的条件就可以。
翻译装置选择部2113,根据翻译结果选择部1107中的一次以上的翻译结果的选择处理,从两个以上翻译装置13中选择下一次以后进行翻译处理的翻译装置13。翻译装置选择部2113保持着用于选择翻译装置13的条件、即翻译装置选择条件。此后,翻译装置选择部2113在满足翻译装置选择条件的情况下,从两个以上翻译装置13中选择进行翻译处理的翻译装置13。翻译装置选择条件是使用了过去的翻译分数的条件。翻译装置选择条件,例如是选择第一次的翻译分数最好的翻译装置13这一条件(翻译装置选择条件的标记例子“条件:次数=1,max-score(翻译装置)”)。另外,翻译装置选择条件,例如是选择第五次以后、翻译分数的平均值为0.85以上、翻译分数的平均值最高的翻译装置13这一条件(翻译装置选择条件的标记例子“条件:次数=5以上,max-score(average-score>=0.85)”)。另外,翻译装置选择条件,例如是翻译分数就算仅有一次超过0.95的情况下选择该翻译装置13这一条件。而且,翻译装置选择条件,只要是用于为进行翻译而选择恰当的翻译装置13的条件就可以。
语音合成装置选择部2114根据语音合成结果选择部1110中的一次以上的语音合成结果的选择处理,从两个以上语音合成装置14中选择下一次以后进行语音合成处理的语音合成装置14。语音合成装置选择部2114保持着用于选择语音合成装置14的条件、即语音合成装置选择条件。此后,语音合成装置选择部2114在满足语音合成装置选择条件的情况下,从两个以上语音合成装置14中选择进行语音合成处理的语音合成装置14。语音合成装置选择条件是使用了过去的语音合成分数的条件。语音合成装置选择条件,例如是选择第一次的语音合成分数最好的语音合成装置14这一条件(语音合成装置选择条件的标记例子“条件:次数=1,max-score(语音合成装置)”)。另外,语音合成装置选择条件,例如是选择第五次以后、语音合成分数的平均值为0.85以上、语音合成分数的平均值最高的语音合成装置14这一条件(语音合成装置选择条件的标记例子“条件:次数=5以上,max-score(average-score>=0.85)”)。另外,语音合成装置选择条件,例如是语音合成分数就算仅有一次超过0.95的情况下选择该语音合成装置14这一条件。而且,语音合成装置选择条件,只要是用于为进行语音合成而选择恰当的语音合成装置14的条件就可以。
语音识别委托部2102、翻译委托部2105、语音合成委托部2108通常通过无线或者有线的通信单元实现,但是,也可以通过广播单元实现。
语音识别装置选择部2112、翻译装置选择部2113和语音合成装置选择部2114,通常,能够由MPU或存储器等实现。语音识别结果选择部2112等的处理程序通常通过软件实现,该软件记录在ROM等记录介质上。但是,也可以通过硬件(专用电路)实现。
接着,使用图22,图23的流程图,对语音翻译***的控制装置21的动作进行说明。而且,图22,图23的流程图中,对和图7的流程图相同的步骤,省略说明。
(步骤S2201)语音识别委托部2102判断是否已将委托语音识别的语音识别装置12决定为一个语音识别装置12。而且,在已决定为一个语音识别装置12的情况下,例如,在预定的缓冲存储器中存储着一个语音识别装置标识符。已决定为一个语音识别装置12的情况下,进入步骤S2202,未决定的情况下,进入步骤S702。一个语音识别装置12通常按每个第一终端装置10的用户、按第一终端装置10的用户的一系列的对话来决定。
(步骤S2202)语音识别委托部2102向一个语音识别装置12发送语音信息。而且,语音识别委托部2102,通常从缓冲存储器读出一个语音识别装置标识符,并使用该一个语音识别装置标识符向一个语音识别装置12发送语音信息。
(步骤S2203)语音识别装置选择部2112将语音识别处理结果接收部1103所接收的各语音识别装置12的语音识别分数,与语音识别装置标识符对应地临时存储在缓冲存储器等记录介质中。
(步骤S2204)语音识别装置选择部2112进行选择语音识别装置12的处理。使用图24的流程图,对这样的语音识别装置选择处理进行说明。
(步骤S2205)翻译委托部2105判断是否已将委托翻译的翻译装置13决定为一个翻译装置13。而且,已决定为一个翻译装置13的情况下,例如,在预定的缓冲存储器中存储着一个翻译装置标识符。已决定为一个翻译装置13的情况下,进入步骤S2206,未决定的情况下,进入步骤S707。而且,一个翻译装置13通常按每个第一终端装置10的用户、按第一终端装置10的用户的一系列的对话来决定。
(步骤S2206)翻译委托部2105向一个翻译装置13发送语音识别结果。而且,翻译委托部2105通常从缓冲存储器读出一个翻译装置标识符,并使用该一个翻译装置标识符向一个翻译装置13发送语音识别结果。
(步骤S2207)翻译装置选择部2113将翻译处理结果接收部1106所接收的各翻译装置13的翻译分数,与翻译装置标识符对应地临时存储在缓冲存储器等记录介质中。
(步骤S2208)翻译装置选择部2113进行选择翻译装置13的处理。使用图24的流程图,对这样的翻译装置选择处理进行说明。
(步骤S2209)语音合成委托部2108判断是否已将委托语音合成的语音合成装置14决定为一个语音合成装置14。而且,已决定为一个语音合成装置14的情况下,例如在预定的缓冲存储器中存储着一个语音合成装置标识符。已决定为一个语音合成装置14的情况下,进入步骤S2210,未决定的情况下,进入步骤S712。而且,一个语音合成装置14通常按每个第一终端装置10的用户、按第一终端装置10的用户的一系列的对话来决定。
(步骤S2210)语音合成委托部2108向一个语音合成装置14发送翻译结果。而且语音合成委托部2108通常从缓冲存储器读出一个语音合成装置标识符,并使用该一个语音合成装置标识符向一个语音合成装置14发送翻译结果。
(步骤S2211)语音合成装置选择部2114将语音合成处理结果接收部1109所接收的各语音合成装置14的语音合成分数,与语音合成装置标识符对应地临时存储在缓冲存储器等记录介质中。
(步骤S2212)语音合成装置选择部2114进行选择语音合成装置14的处理。使用图24的流程图,对这样的语音合成装置选择处理进行说明。而且,翻译装置选择处理、语音识别装置选择处理、语音合成装置选择处理是同样的处理,因此一同进行说明。
而且,图22、图23的流程图中,通过电源关闭或处理结束的中断来结束处理。
接着,使用图24的流程图,对语音识别装置选择处理、翻译装置选择处理、语音合成装置选择处理进行说明。而且,下面对选择语音识别装置的情况进行说明。
(步骤S2401)语音识别装置选择部2112取得目前为止的处理次数。目前为止的处理次数是指用户A和用户B的一系列对话中的、例如用户A的语音信息的语音识别处理次数。
(步骤S2402)语音识别装置选择部2112将1代入计数器i。
(步骤S2403)语音识别装置选择部2112判断预先存储的条件中是否存在第i个条件。如果存在第i个条件,则进入步骤S2404,如果不存在第i个条件,则进入步骤S2413。而且,所谓条件,例如是语音识别装置选择条件。
(步骤S2404)语音识别装置选择部2112读出第i个条件。
(步骤S2405)语音识别装置选择部2112将1代入计数器j。
(步骤S2406)语音识别装置选择部2112判断是否存在进行语音识别处理的第j个语音识别装置12。如果存在第j个语音识别装置12,则进入步骤S2407,如果不存在,则进入步骤S2412。
(步骤S2407)语音识别装置选择部2112读出对第j个语音识别装置12的目前为止的处理的分数。
(步骤S2408)语音识别装置选择部2112将步骤S2407中读出的分数、步骤S2401中取得的目前为止的处理次数等中的必要的信息,适用于第j个语音识别装置12的第i个条件。而且,这里的第i个条件也有可能并非是第i个条件中的所有条件。例如,所有的装置中的最大分数等包含在条件中的情况下,这样的判断在步骤S2413中进行。
(步骤S2409)语音识别装置选择部2112判断第j个语音识别装置12是否符合第i个条件。如果第j个语音识别装置12符合第i个条件,则进入步骤S2410,如果不符合,则跳到步骤S2411。
(步骤S2410)语音识别装置选择部2112临时存储第j个语音识别装置12的语音识别装置标识符、分数等。
(步骤S2411)语音识别装置选择部2112将计数器j增量1。
(步骤S2412)语音识别装置选择部2112将计数器i增量1。
(步骤S2413)语音识别装置选择部2112从由步骤S2410中存储的语音识别装置标识符来识别的语音识别装置12中,决定最终符合条件的最好的语音识别装置12。例如,语音识别装置选择部2112适用所适用的条件,并选择与条件所采用的分数有关的条件(例如,分数的平均值、分数的分散值或最近的分数的值等)最优异的语音识别装置12。
(步骤S2414)语音识别装置选择部2112将步骤S2413中决定的语音识别装置12的语音识别装置标识符存储在缓冲存储器中。返回上位处理。
而且,图24的流程图中,存储的条件可以是多个,当然也可以是一个。
下面,对本实施方式中的语音翻译***的具体的动作进行说明。语音翻译***的示意图与图1相同。
现在,语音识别装置选择部2112存储着语音识别装置选择条件“条件:次数=5以上,max-score(average-score>=0.85)”。这样的语音识别装置选择条件是选择第五次以后、语音识别分数的平均值为0.85以上、语音识别分数的平均值最高的语音识别装置12的条件。
另外,翻译装置选择部2113存储着“条件:次数=1,max-score(翻译装置)”。这样的翻译装置选择条件是选择第一次的翻译分数最好的翻译装置13的条件。
并且,语音合成装置选择部2114存储着“条件:if(语音合成分数>0.95){Select(语音合成装置)}”。这样的语音合成装置选择条件是语音合成分数就算仅有一次超过0.95的情况下选择该语音合成装置14的条件。
这样的状况下,第一终端装置10的用户A和第二终端装置15的用户B进行对话。和实施方式1的具体例同样,第一终端装置10的用户A是说日语的37岁女性,日语是母语。另外,第二终端装置15的用户B是说英语的38岁男性,英语是母语。
此后,和实施方式1的具体例同样,用户A正要给用户B打电话。此后,第一终端装置10的未图示的呼叫部呼叫第二终端装置15。此后,开始通话。
接着,第一终端装置10的第一语音接受部101接受用户A的语音“ぉはょうござぃます”。此后,第一语音接受部101将语音转换为语音信息。接着,第一语音发送部102将该语音信息“ぉはょうござぃます”发送给控制装置11。另外,第一语音翻译控制信息发送部103将图11的语音翻译控制信息发送给控制装置11。
接着,控制装置11的语音接收部1101从第一终端装置10接收语音信息“ぉはょうござぃます”和图11的语音翻译控制信息。
接着,语音识别委托部2102判断没有将委托语音识别的语音识别装置12决定为一个语音识别装置12。
此后,语音识别委托部1102将所接收的语音信息和语音翻译控制信息发送给两个以上语音识别装置12的每一个。
接着,某一个语音识别装置12的语音识别对象语音接收部121从控制装置11接收语音信息“ぉはょうござぃます”和图11的语音翻译控制信息。
此后,各语音识别部122使用图11的语音翻译控制信息选择语音识别模型。即,语音识别部122将图11的语音翻译控制信息适用于图13的语音识别模型选择信息管理表,并取得与语言“日语”、性别“女性”、年龄“30~39岁”、语速“快”一致的语音识别模型标识符“JR5”。
接着,语音识别部122取得所接收的语音信息“ぉはょうござぃます”。
接着,语音识别部122使用所选择的语音识别模型“JR5”,对取得的语音信息“ぉはょうござぃます”进行语音识别处理。此后,语音识别部122,取得语音识别结果(字符串)即“ぉはょうござぃます”、和语音识别分数“0.83”。
接着,语音识别部122根据所取得的语音识别结果和语音识别分数,构成语音识别处理结果“0.83:ぉはょうござぃます”。
接着,语音识别处理结果发送部123将语音识别处理结果“0.83:ぉはょうござぃます”与语音识别装置标识符“R01”一起发送给控制装置11。
另外,其它语音识别装置12也和上述一个语音识别装置12同样,将语音识别处理结果和语音识别装置标识符发送给控制装置11。
接着,控制装置11的语音识别处理结果接收部1103对应于语音信息等的发送,从两个以上语音识别装置12的每一个接收语音识别处理结果。这里,如图17所示,假定语音识别处理结果接收部1103接收了多个语音识别处理结果。
接着,语音识别结果选择部1104使用所接收的两个以上的语音识别处理结果(图17)所具有语音识别分数,选择语音识别分数最大的(最好的)语音识别结果,并配置在存储器上。即,语音识别结果选择部1104选择与语音识别装置标识符“R03”对应的语音识别结果“ぉはょうござぃます”,并配置在存储器上。
接着,语音识别委托部2102判断没有将委托语音识别的语音识别装置12决定为一个语音识别装置12。
此后,语音识别装置选择部2112将语音识别处理结果接收部1103所接收的各语音识别装置12的语音识别分数,与语音识别装置标识符对应地临时存储在缓冲存储器等的记录介质中。
接着,语音识别装置选择部2112将要进行选择语音识别装置12的处理,这里,并不存在满足上述的语音识别装置选择条件的语音识别装置12。
接着,翻译委托部2105判断没有将委托翻译的翻译装置13决定为一个翻译装置13。
接着,翻译委托部1105将语音识别结果选择部1104所选择的一个语音识别结果“ぉはょうござぃます”和语音翻译控制信息(图11)发送给两个以上翻译装置13的每一个。
接着,一个翻译装置13的语音识别结果接收部131从控制装置11接收语音识别结果“ぉはょうござぃます”和语音翻译控制信息(图11)。此后,翻译部132取得语音翻译控制信息。
接着,翻译部132使用所取得的语音翻译控制信息选择翻译模型。即,翻译部132将图11的语音翻译控制信息适用于图14的翻译模型选择信息管理表,并取得与语言“日语”、性别“女性”、年龄“30~39岁”、讲话者分类“Y”一致的翻译模型标识符“JT4”。
接着,翻译部132取得所接收的语音识别结果“ぉはょうござぃます”。
接着,翻译部132,使用所选择的翻译模型“JT4”,对所取得的语音识别结果“ぉはょうござぃます”进行翻译。此后,翻译部132取得翻译结果“Goodmorning.”和翻译分数“0.91”。
接着,翻译部132,根据取得的翻译结果和翻译分数,构成翻译处理结果“0.91:Good morning.”。
接着,翻译处理结果发送部133将翻译处理结果“0.91:Good morning.”与翻译装置标识符“T01”一起发送给控制装置11。
另外,其它翻译装置13也和上述一个翻译装置13同样,将翻译处理结果和翻译装置标识符发送给控制装置11。
接着,控制装置11的翻译处理结果接收部1106对应于语音识别结果等的发送,从两个以上翻译装置13的每一个接收翻译处理结果。此后,如图18所示,假定翻译处理结果接收部1106接收了多个翻译处理结果。
接着,翻译结果选择部1107使用所接收的两个以上的翻译处理结果所具有翻译分数,选择翻译分数最大的(最好的)翻译结果,并配置在存储器上。即,翻译结果选择部1107选择翻译装置标识符“T02”的翻译结果“1.00:Goodmorning.”,并配置在存储器上。
接着,翻译委托部2105判断没有将委托翻译的翻译装置13决定为一个翻译装置13。
此后,翻译装置选择部2113将翻译处理结果接收部1106所接收的各翻译装置13的翻译分数,与翻译装置标识符对应地临时存储在缓冲存储器等记录介质中。这里,翻译装置选择部2113将“(T01,0.91)(T02,1.00)(T03,0.78)......”临时存储在缓冲存储器等记录介质中。
接着,翻译装置选择部2113进行选择翻译装置13的处理。即,翻译装置选择部2113读出所存储的翻译装置选择条件“条件:次数=1,max-score(翻译装置)”。此后,翻译装置选择部2113将“(T01,0.91)(T02,1.00)(T03,0.78)......”适用于翻译装置选择条件“条件:次数=1,max-score(翻译装置)”。此后,翻译装置选择部2113选择翻译分数最好的(T02,1.00)。此后,翻译装置选择部2113将翻译装置标识符(T02)存储在缓冲存储器中。之后,翻译委托部2105仅向由翻译装置标识符(T02)识别的翻译装置13进行翻译的委托。所谓翻译的委托,是语音识别结果等的发送。
接着,语音合成委托部2108判断没有将委托语音合成的语音合成装置14决定为一个语音合成装置14。
接着,控制装置11的语音合成委托部1108将翻译结果选择部1107所选择的一个翻译结果“Good morning.”发送给两个以上语音合成装置14的每一个。
接着,一个语音合成装置14的翻译结果接收部141从控制装置11接收翻译结果和语音翻译控制信息。此后,语音合成部142取得所接收的语音翻译控制信息。
接着,语音合成部142使用所取得的语音翻译控制信息选择语音合成模型。即,语音合成部142将图11的语音翻译控制信息适用于图15的语音合成模型选择信息管理表,并取得与目标语言“英语”、性别“女性”、年龄“30~39岁”、讲话者分类“Y”一致的语音合成模型标识符“JC9”。
接着,语音合成部142取得所接收的翻译结果“Good morning.”。
接着,语音合成部142使用所选择的语音合成模型“JC9”,对所取得的翻译结果“Good morning.”进行语音合成处理。此后,语音合成部142取得语音合成结果(通常为语音信息)和语音合成分数“0.87”。
接着,语音合成部142根据所取得的语音合成结果和语音合成分数,构成语音合成处理结果。
接着,语音合成处理结果发送部143将语音合成结果与语音合成装置标识符“J01”一起发送给控制装置11。这里,语音合成结果例如是语音信息文件。
另外,其它语音合成装置14也和上述一个语音合成装置14同样,将语音合成处理结果和语音合成装置标识符发送给控制装置11。
接着,控制装置11的语音合成处理结果接收部1109与翻译结果等的发送对应地从两个以上语音合成装置14的每一个接收语音合成处理结果。此后,如图19所示,假定语音合成处理结果接收部1109接收了多个语音合成处理结果。
接着,语音合成结果选择部1110使用所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择语音合成分数最大的(最好的)语音合成结果,并配置在存储器上。即,语音合成结果选择部1110选择与语音合成装置标识符“J01”对应的语音合成结果。
接着,语音合成委托部2108判断没有将委托语音合成的语音合成装置14决定为一个语音合成装置14。
接着,语音合成装置选择部2114将语音合成处理结果接收部1109接收的各语音合成装置14的语音合成分数“(J01,0.87)(J02,0.81)(J03,0.66)......”,与语音合成装置标识符对应地临时存储在缓冲存储器等记录介质中。
接着,语音合成装置选择部2114进行选择语音合成装置14的处理。即,语音合成装置选择部2114读出语音合成装置选择条件“条件:if(语音合成分数=0.95){Select(语音合成装置)}”。此后,将语音合成分数“(J01,0.87)(J02,0.81)(J03,0.66)......”适用于语音合成装置选择条件。但是,这里,语音合成装置选择部2114判断所有的语音合成装置14都不满足语音合成装置选择条件。
接着,语音合成结果发送部1111将语音合成结果选择部1110所选择的一个语音合成结果发送给用户B利用的第二终端装置15。
接着,第二终端装置15的第二语音接收部154接收语音合成结果“Goodmorning”。此后,第二语音输出部155对语音“Good morning”进行语音输出。
通过以上的处理,在用户A产生的“ぉはょうござぃます”到达第二终端装置15时将其转换为“Good morning”的语音,并将“Good morning”语音输出到第二终端装置15。
另外,第二终端装置15的用户B回答“Good morning”而产生“Goodmorning”的语音,通过和上述同样的处理转换为“ぉはょう”(早上好),并将语音“ぉはょう”输出到第一终端装置10。
假定用户A和用户B反复进行对话,例如,进行了第五次的用户A的发话。此后,假定语音识别装置选择部2112通过第五次为止的用户A的发话和语音识别处理,存储了图25所示的语音识别分数组。
此后,语音识别装置选择部2112,使用图25所示的语音识别分数组,进行选择语音识别装置12的处理。即,语音识别装置选择部2112,取得目前为止的处理次数“5”。语音识别装置选择部2112读出语音识别装置选择条件“条件:次数=5以上,max-score(average-score>=0.85)”。接着,语音识别装置选择部2112将处理次数“5”和图25所示的语音识别分数组适用于语音识别装置选择条件。
此后,语音识别装置选择部2112判断为:与语音识别装置标识符“R01”对应的分数组的平均值为0.92,符合语音识别装置选择条件。另外判断为:与其它语音识别装置标识符对应的分数组的平均值不足0.85,不符合语音识别装置选择条件。
此后,语音识别装置选择部2112将语音识别装置标识符“R01”存储在缓冲存储器中。之后,语音识别委托部2102仅向由语音识别装置标识符“R01”识别的语音识别装置12发送用户A的语音信息等,并委托进行语音识别处理。
并且,假定用户A和用户B反复进行对话,例如,相对于第10次的用户A的发话的、语音合成装置“J01”的语音合成分数超过了0.95。此后,语音合成装置选择部2114判断语音合成装置“J01”满足语音合成装置选择条件。
此后,语音合成装置选择部2114选择该语音合成装置“J01”。即,语音合成装置选择部2114将语音合成装置标识符“J01”存储在缓冲存储器中。此外,之后,语音合成委托部2108仅向由语音合成装置标识符“J01”识别的语音合成装置14发送翻译结果等,并委托用户A的语音信息的语音合成。
以上,根据本实施方式,可以从具有相同功能的多个服务器组(两个以上语音识别装置12、两个以上翻译装置13、两个以上语音合成装置14)的处理结果(语音识别结果、翻译结果、语音合成结果)选择恰当的处理结果。
另外,根据本实施方式,可以在对话的过程中自动选择恰当的一个语音识别装置12、恰当的一个翻译装置13、或者恰当的一个语音合成装置14,并在选择后,仅委托一个语音识别装置12、一个翻译装置13、或者一个语音合成装置14进行处理。从而,可以减轻控制装置21的负荷,从而高速进行语音翻译处理。
另外,根据本实施方式,在语音识别、翻译、语音合成的各处理中,可以选择符合包括讲话者属性的语音翻译控制信息的恰当的模型。其结果是,可以提供高精度的、或者继承了讲话者的属性的网络型语音翻译***。
而且,根据本实施方式,可以在对话的过程中自动选择恰当的一个语音识别装置12、恰当的一个翻译装置13和恰当的一个语音合成装置14,并在选择后,仅委托一个语音识别装置12、一个翻译装置13和一个语音合成装置14进行处理。但是,装置的自动选择也可以仅是语音识别装置12。这样的情况下,语音翻译***具有:控制装置、两个以上语音识别装置、翻译装置、以及语音合成装置,其中,所述控制装置具备:语音识别处理结果接收部,其从所述两个以上语音识别装置的每一个接收语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用所述语音识别处理结果接收部所接收的两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;以及翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给所述翻译装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果发送给所述控制装置,所述翻译装置具备:语音识别结果接收部,其从所述控制装置接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,所述语音合成装置具备:翻译结果接收部,其接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置,所述控制装置进一步具备语音识别装置选择部,其根据所述语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从所述两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置,所述语音识别委托部,在所述语音识别装置选择部选择了语音识别装置后,仅向该选择的语音识别装置发送所述语音。
另外,装置的自动选择也可以仅是翻译装置13。这样的情况下,语音翻译***具有:控制装置、语音识别装置、两个以上翻译装置、以及语音合成装置,其中,所述控制装置具备:翻译处理结果接收部,其从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;以及语音合成委托部,其将所述翻译结果选择部所选择的翻译结果直接或者间接发送给所述语音合成装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得具有语音识别结果的语音识别处理结果;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果直接或者间接发送给所述翻译装置,所述翻译装置具备:语音识别结果接收部,其接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及翻译处理结果发送部,其将所述翻译部所取得的翻译处理结果发送给所述控制装置,所述语音合成装置具备:翻译结果接收部,其从所述控制装置接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置,所述控制装置进一步具备翻译装置选择部,其根据所述翻译结果选择部所进行的一次以上的翻译结果的选择处理,从所述两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置,所述翻译委托部,在所述翻译装置选择部选择了翻译装置后,仅向该选择的翻译装置发送语音识别结果。
另外,装置的自动选择也可以仅是语音合成装置14。这样的情况下,语音翻译***具有:控制装置、语音识别装置、翻译装置、以及两个以上语音合成装置,其中,所述控制装置具备:语音合成处理结果接收部,其从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,所述语音识别装置具备:语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别结果;以及语音识别处理结果发送部,其将所述语音识别部所取得的语音识别结果直接或者间接发送给所述翻译装置,所述翻译装置具备:语音识别结果接收部,其接收所述语音识别结果;翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,所述语音合成装置具备:翻译结果接收部,其接收所述翻译结果;语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及语音合成处理结果发送部,其将所述语音合成处理结果发送给所述控制装置,所述控制装置进一步具备语音合成装置选择部,其根据所述语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从所述两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,所述语音合成委托部,在所述语音合成装置选择部选择了语音合成装置后,仅向该选择的语音合成装置发送所述翻译结果。
并且,本实施方式中的处理也可以通过软件实现。此后,也可以通过软件下载等分发该软件。另外,也可以将该软件记录到CD-ROM等记录介质上来分发。而且,这也适于本说明书中的其它实施方式。而且,实现本实施方式中的信息处理装置的软件是如下的程序。即,该程序是例如使计算机具有下述部件的功能的程序,即,语音接收部,其从接受第一用户的语音的第一终端装置接收语音信息;语音识别委托部,其将所述语音信息发送给两个以上语音识别装置的每一个;语音识别处理结果接收部,其对应于所述语音信息的发送,从所述两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;语音识别结果选择部,其使用所述两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给两个以上翻译装置的每一个;翻译处理结果接收部,其对应于所述语音识别结果的发送,从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;语音合成委托部,其将所述翻译结果选择部所选择的翻译结果发送给两个以上语音合成装置的每一个;语音合成处理结果接收部,其对应于所述翻译结果的发送,从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置。
另外,上述程序优选是使计算机具有下述部件的功能的程序,即,所述控制装置进一步具备:语音识别装置选择部,其根据所述语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从所述两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置;翻译装置选择部,其根据所述翻译结果选择部所进行的一次以上的翻译结果的选择处理,从所述两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置;以及语音合成装置选择部,其根据所述语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从所述两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,所述语音识别委托部在所述语音识别装置选择部选择了语音识别装置后,仅向该选择的语音识别装置发送所述语音,所述翻译委托部在所述翻译装置选择部选择了翻译装置后,仅向该选择的翻译装置发送所述语音识别结果,所述语音合成委托部在所述语音合成装置选择部选择了语音合成装置后,仅向该选择的语音合成装置发送所述翻译结果。
另外,上述实施方式中,语音翻译控制信息的例子为图11、图12。其中,不管语音翻译控制信息的格式如何。语音翻译控制信息当然也可以是图26所示的XML的格式。将图26所示的语音翻译控制信息的描述语言称为语音翻译用标记语言STML(Speech Translation Markup Language)。图26中记载着用户ID(确定讲话者的用户的信息“Mike”)、语音识别的输出结果的格式或者尺寸(MaxNBest=“2”)、原语言“英语”(language=“en”)、确定翻译对象的信息(这里,Task=“Dictation”)、会话的域(这里是“Travel(旅行)”)、表示输入语音的格式的信息(这里是“ADPCM”)。另外,图26中记载着讲话者属性中的性别(这里是“Male”)、年龄(这里是“30”)和是否是母语(这里是“no”)。另外,图26中记载着表示输出文本的格式的信息(这里是“SurfaceForm”)。并且,语音翻译控制信息中,也可以存在表示输出语音的格式的信息、指定输入输出语音的音质的信息、表示输入文本的格式的信息等。另外,上述的(MaxNBest=“2”)表示输出并发送语音识别结果的上位第2个为止的候补。而且,Nbest的意思是语音识别结果的上位第N个为止的候补。
而且,本说明书中,当然,向一个装置的信息的发送可以是直接向一个装置发送信息,也可以是经由其它装置的间接向一个装置发送信息。
另外,图27表示执行本说明书中描述的程序来实现上述实施方式的语音翻译***中的控制装置等的计算机的外观。上述实施方式能够由计算机硬件以及其上执行的计算机程序来实现。图27是该计算机***340的外观图,图28是表示计算机***340的内部结构的图。
图27中,计算机***340包括计算机341、键盘342、鼠标343、监视器344,该计算机341包括FD驱动器3411和CD-ROM驱动器3412。
图28中,计算机341除了包括FD驱动器3411和CD-ROM驱动器3412外,还包括:MPU3413、与CD-ROM驱动器3412和FD驱动器3411连接的总线3414、与用于存储启动程序等程序的ROM3415连接、用于临时存储应用程序的指令并提供临时存储空间的RAM3416、用于存储应用程序、***程序和数据的硬盘3417。这里,虽然未图示,但是,计算机341还可以进一步包括提供与LAN的连接的网卡。
使计算机***340执行上述实施方式的控制装置等的功能的程序也可以存储在CD-ROM3501或FD3502中并***CD-ROM驱动器3412或FD驱动器3411,并且转移到硬盘3417。作为替换手段,程序也可以通过未图示的网络发送给计算机341,并存储在硬盘3417上。程序在执行时被加载到RAM3416上。也可以从CD-ROM3501、FD3502或网络直接加载程序。
程序不一定包含使计算机341执行上述实施方式的控制装置等的功能的操作***(OS)或者第三方程序等。程序仅包含以控制的形态调用恰当的功能(模块)并获得所期望的结果的指令的部分即可。计算机***340如何工作是公知的,省略其详细说明。
而且,上述程序中不包括:在发送信息的发送步骤或接收信息的接收步骤等中由硬件进行的处理,例如发送步骤中的由调制解调器或接口卡等进行的处理(仅由硬件进行的处理)。
另外,执行上述程序的计算机可以是单个,也可以是多个。即,可以进行集中处理,或者也可以进行分散处理。
另外,上述各实施方式中,一个装置中存在的两个以上的通信单元,当然也可以由物理上的一个介质实现。
另外,上述各实施方式中,各处理(各功能)可以通过由单个装置(***)集中处理来实现,或者,也可以通过由多个装置分散处理来实现。而且,各处理(各功能)由单个装置(***)集中处理的情况下,语音翻译***是一个装置,控制装置、语音识别装置、翻译装置和语音合成装置被包含在一个装置内。这样的情况下,上述装置间的信息的发送以及接收成为信息的交换。即,上述的接收或发送应解释为宽泛的定义。
本发明,并不限于以上的实施方式,能够进行各种变更,这些变更当然也包含在本发明的范围内。
产业上的可利用性
如上所述,本发明的语音翻译***具有:在语音翻译中选择利用多个语音识别装置、多个翻译装置、多个语音合成装置的处理结果,或者分别选择多个语音识别装置、多个翻译装置、多个语音合成装置中的恰当的装置的效果,作为语音翻译***等是有用的。
Claims (11)
1.一种语音翻译***,具有:控制装置、两个以上语音识别装置、两个以上翻译装置、以及两个以上语音合成装置,其中,
所述控制装置具备:
语音接收部,其从接受第一用户的语音的第一终端装置接收语音信息;
语音识别委托部,其将所述语音信息发送给所述两个以上语音识别装置的每一个;
语音识别处理结果接收部,与所述语音信息的发送对应地从所述两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;
语音识别结果选择部,其使用所述两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;
翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给所述两个以上翻译装置的每一个;
翻译处理结果接收部,与所述语音识别结果的发送对应地从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;
翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;
语音合成委托部,其将所述翻译结果选择部所选择的翻译结果发送给所述两个以上语音合成装置的每一个;
语音合成处理结果接收部,与所述翻译结果的发送对应地从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;
语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及
语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,
所述语音识别装置具备:
语音识别对象语音接收部,其从所述控制装置接收语音信息;
语音识别部,其对所述语音信息进行语音识别处理,取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及
语音识别处理结果发送部,其将所述语音识别处理结果发送给所述控制装置,
所述翻译装置具备:
语音识别结果接收部,其从所述控制装置接收语音识别结果;
翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及
翻译处理结果发送部,其将所述翻译部所取得的翻译处理结果发送给所述控制装置,
所述语音合成装置具备:
翻译结果接收部,其从所述控制装置接收翻译结果;
语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及
语音合成处理结果发送部,其将所述语音合成处理结果发送给所述控制装置。
2.如权利要求1所述的语音翻译***,其中,
所述控制装置进一步具备:
语音识别装置选择部,其根据所述语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从所述两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置;
翻译装置选择部,其根据所述翻译结果选择部所进行的一次以上的翻译结果的选择处理,从所述两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置;以及
语音合成装置选择部,其根据所述语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从所述两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,
在所述语音识别装置选择部选择了语音识别装置后,所述语音识别委托部仅向该选择的语音识别装置发送所述语音,
在所述翻译装置选择部选择了翻译装置后,所述翻译委托部仅向该选择的翻译装置发送所述语音识别结果,
在所述语音合成装置选择部选择了语音合成装置后,所述语音合成委托部仅向该选择的语音合成装置发送所述翻译结果。
3.一种语音翻译***,具有:控制装置、两个以上语音识别装置、翻译装置、以及语音合成装置,其中,
所述控制装置具备:
语音识别处理结果接收部,其从所述两个以上语音识别装置的每一个接收语音识别处理结果,该语音识别处理结果具有语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;
语音识别结果选择部,其使用所述语音识别处理结果接收部所接收的两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;以及
翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给所述翻译装置,
所述语音识别装置具备:
语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;
语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别处理结果,该语音识别处理结果具有语音识别结果和表示语音识别处理的可靠度的语音识别分数;以及
语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果发送给所述控制装置,
所述翻译装置具备:
语音识别结果接收部,其从所述控制装置接收所述语音识别结果;
翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及
翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,
所述语音合成装置具备:
翻译结果接收部,其接收所述翻译结果;
语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及
语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
4.如权利要求3所述的语音翻译***,其中,
所述控制装置进一步具备语音识别装置选择部,该语音识别装置选择部根据所述语音识别结果选择部所进行的一次以上的语音识别结果的选择处理,从所述两个以上语音识别装置中选择下一次以后进行语音识别处理的语音识别装置,
在所述语音识别装置选择部选择了语音识别装置后,所述语音识别委托部仅向该选择的语音识别装置发送所述语音。
5.一种语音翻译***,具有:控制装置、语音识别装置、两个以上翻译装置、以及语音合成装置,其中,
所述控制装置具备:
翻译处理结果接收部,其从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;
翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;以及
语音合成委托部,其将所述翻译结果选择部所选择的翻译结果直接或者间接发送给所述语音合成装置,
所述语音识别装置具备:
语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;
语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得具有语音识别结果的语音识别处理结果;以及
语音识别处理结果发送部,其将所述语音识别部所取得的语音识别处理结果直接或者间接发送给所述翻译装置,
所述翻译装置具备:
语音识别结果接收部,其接收所述语音识别结果;
翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译处理结果,该翻译处理结果具有翻译结果和表示翻译处理的可靠度的翻译分数;以及
翻译处理结果发送部,其将所述翻译部所取得的翻译处理结果发送给所述控制装置,
所述语音合成装置具备:
翻译结果接收部,其从所述控制装置接收所述翻译结果;
语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成结果;以及
语音合成处理结果发送部,其将所述语音合成结果直接或者间接发送给第二用户利用的第二终端装置。
6.如权利要求5所述的语音翻译***,其中,
所述控制装置进一步具备翻译装置选择部,该翻译装置选择部根据所述翻译结果选择部所进行的一次以上的翻译结果的选择处理,从所述两个以上翻译装置中选择下一次以后进行翻译处理的翻译装置,
在所述翻译装置选择部选择了翻译装置后,所述翻译委托部仅向该选择的翻译装置发送语音识别结果。
7.一种语音翻译***,具有:控制装置、语音识别装置、翻译装置、以及两个以上语音合成装置,其中,
所述控制装置具备:
语音合成处理结果接收部,其从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;
语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及
语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置,
所述语音识别装置具备:
语音接收部,其从接受第一用户的语音的第一终端装置直接或者间接接收语音信息;
语音识别部,其对所述语音接收部所接收的语音信息进行语音识别处理,并取得语音识别结果;以及
语音识别处理结果发送部,其将所述语音识别部所取得的语音识别结果直接或者间接发送给所述翻译装置,
所述翻译装置具备:
语音识别结果接收部,其接收所述语音识别结果;
翻译部,其将所述语音识别结果接收部所接收的语音识别结果翻译成目标语言,并取得翻译结果;以及
翻译处理结果发送部,其将所述翻译部所取得的翻译结果直接或者间接发送给所述语音合成装置,
所述语音合成装置具备:
翻译结果接收部,其接收所述翻译结果;
语音合成部,其对所述翻译结果进行语音合成处理,并取得语音合成处理结果,该语音合成处理结果具有语音合成结果和表示语音合成处理的可靠度的语音合成分数;以及
语音合成处理结果发送部,其将所述语音合成处理结果发送给所述控制装置。
8.如权利要求7所述的语音翻译***,其中,
所述控制装置进一步具备语音合成装置选择部,该语音合成装置选择部根据所述语音合成结果选择部所进行的一次以上的语音合成结果的选择处理,从所述两个以上语音合成装置中选择下一次以后进行语音合成处理的语音合成装置,
在所述语音合成装置选择部选择了语音合成装置后,所述语音合成委托部仅向该选择的语音合成装置发送所述翻译结果。
9.一种控制装置,其构成权利要求1至8中任一项所述的语音翻译***。
10.一种控制装置,具备:
语音接收部,其从接受第一用户的语音的第一终端装置接收语音信息;
语音识别委托部,其将所述语音信息发送给两个以上语音识别装置的每一个;
语音识别处理结果接收部,其与所述语音信息的发送对应地从所述两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;
语音识别结果选择部,其使用所述两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;
翻译委托部,其将所述语音识别结果选择部所选择的语音识别结果发送给两个以上翻译装置的每一个;
翻译处理结果接收部,其与所述语音识别结果的发送对应地从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;
翻译结果选择部,其使用所述翻译处理结果接收部所接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;
语音合成委托部,其将所述翻译结果选择部所选择的翻译结果发送给两个以上语音合成装置的每一个;
语音合成处理结果接收部,其与所述翻译结果的发送对应地从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;
语音合成结果选择部,其使用所述语音合成处理结果接收部所接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;以及
语音合成结果发送部,其将所述语音合成结果选择部所选择的语音合成结果发送给第二用户利用的第二终端装置。
11.一种控制方法,具备:
语音接收步骤,从接受第一用户的语音的第一终端装置接收语音信息;
语音识别委托步骤,将所述语音信息发送给两个以上语音识别装置的每一个;
语音识别处理结果接收步骤,与所述语音信息的发送对应地从所述两个以上语音识别装置的每一个接收两个以上的语音识别处理结果,该语音识别处理结果具有所述语音信息的语音识别结果和表示语音识别处理的可靠度的语音识别分数;
语音识别结果选择步骤,使用所述两个以上的语音识别处理结果所具有的语音识别分数,选择最可靠的语音识别结果;
翻译委托步骤,将所述语音识别结果选择步骤中选择的语音识别结果发送给两个以上翻译装置的每一个;
翻译处理结果接收步骤,与所述语音识别结果的发送对应地从所述两个以上翻译装置的每一个接收翻译处理结果,该翻译处理结果具有将所述语音识别结果翻译成目标语言的翻译结果和表示翻译处理的可靠度的翻译分数;
翻译结果选择步骤,使用所述翻译处理结果接收步骤中接收的两个以上的翻译处理结果所具有的翻译分数,选择最可靠的翻译结果;
语音合成委托步骤,将所述翻译结果选择步骤中选择的翻译结果发送给两个以上语音合成装置的每一个;
语音合成处理结果接收步骤,与所述翻译结果的发送对应地从所述两个以上语音合成装置的每一个接收语音合成处理结果,该语音合成处理结果具有所述翻译结果的语音合成结果和表示语音合成处理的可靠度的语音合成分数;
语音合成结果选择步骤,使用所述语音合成处理结果接收步骤中接收的两个以上的语音合成处理结果所具有的语音合成分数,选择最可靠的语音合成结果;
语音合成结果发送步骤,将所述语音合成结果选择步骤中选择的语音合成结果发送给第二用户利用的第二终端装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009242586A JP5545467B2 (ja) | 2009-10-21 | 2009-10-21 | 音声翻訳システム、制御装置、および情報処理方法 |
JP2009-242586 | 2009-10-21 | ||
PCT/JP2010/053420 WO2011048826A1 (ja) | 2009-10-21 | 2010-03-03 | 音声翻訳システム、制御装置、および制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102549654A true CN102549654A (zh) | 2012-07-04 |
Family
ID=43900070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800463164A Pending CN102549654A (zh) | 2009-10-21 | 2010-03-03 | 语音翻译***、控制装置以及控制方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8954335B2 (zh) |
EP (1) | EP2492910B1 (zh) |
JP (1) | JP5545467B2 (zh) |
KR (1) | KR101683944B1 (zh) |
CN (1) | CN102549654A (zh) |
WO (1) | WO2011048826A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077718A (zh) * | 2013-01-09 | 2013-05-01 | 华为终端有限公司 | 语音处理方法、***和终端 |
CN104008750A (zh) * | 2013-02-26 | 2014-08-27 | 霍尼韦尔国际公司 | 用于校正口音引起的语音传输问题的***和方法 |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105679314A (zh) * | 2015-12-28 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107111607A (zh) * | 2014-10-17 | 2017-08-29 | 机械地带有限公司 | 用于语言检测的***和方法 |
CN107146615A (zh) * | 2017-05-16 | 2017-09-08 | 南京理工大学 | 基于匹配模型二次识别的语音识别方法及*** |
CN108604446A (zh) * | 2016-01-28 | 2018-09-28 | 谷歌有限责任公司 | 自适应文本转话音输出 |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5333548B2 (ja) * | 2011-08-24 | 2013-11-06 | カシオ計算機株式会社 | 情報処理装置及びプログラム |
KR102014774B1 (ko) * | 2011-12-20 | 2019-10-22 | 주식회사 케이티 | 단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말 |
EP3040985B1 (en) * | 2013-08-26 | 2023-08-23 | Samsung Electronics Co., Ltd. | Electronic device and method for voice recognition |
KR101834546B1 (ko) | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
JP5958504B2 (ja) * | 2014-07-31 | 2016-08-02 | 日本電気株式会社 | コミュニケーション処理装置、コミュニケーション処理システム、コミュニケーション処理方法、及び、コミュニケーション処理プログラム |
JP6273227B2 (ja) * | 2015-03-25 | 2018-01-31 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
JP6090757B2 (ja) * | 2015-04-14 | 2017-03-08 | シントレーディング株式会社 | 通訳配信装置、通訳配信方法、およびプログラム |
US10235129B1 (en) * | 2015-06-29 | 2019-03-19 | Amazon Technologies, Inc. | Joining users to communications via voice commands |
JP6471074B2 (ja) * | 2015-09-30 | 2019-02-13 | 株式会社東芝 | 機械翻訳装置、方法及びプログラム |
US9990916B2 (en) * | 2016-04-26 | 2018-06-05 | Adobe Systems Incorporated | Method to synthesize personalized phonetic transcription |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
JP7130201B2 (ja) * | 2018-01-18 | 2022-09-05 | 株式会社ユピテル | 装置及びプログラム等 |
US11315553B2 (en) | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11200378B2 (en) * | 2018-10-11 | 2021-12-14 | International Business Machines Corporation | Methods and systems for processing language with standardization of source data |
WO2020110808A1 (ja) * | 2018-11-30 | 2020-06-04 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
CN109861904B (zh) * | 2019-02-19 | 2021-01-05 | 天津字节跳动科技有限公司 | 姓名标签显示方法和装置 |
CN109979461B (zh) * | 2019-03-15 | 2022-02-25 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
WO2021155480A1 (en) * | 2020-02-07 | 2021-08-12 | Royal Bank Of Canada | System and method for conversational middleware platform |
US11741964B2 (en) * | 2020-05-27 | 2023-08-29 | Sorenson Ip Holdings, Llc | Transcription generation technique selection |
US11673059B2 (en) * | 2021-05-18 | 2023-06-13 | Roblox Corporation | Automatic presentation of suitable content |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
US20050010422A1 (en) * | 2003-07-07 | 2005-01-13 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
CN1905007A (zh) * | 2005-07-27 | 2007-01-31 | 日本电气株式会社 | 语音识别***和方法 |
CN101154220A (zh) * | 2006-09-25 | 2008-04-02 | 株式会社东芝 | 机器翻译装置和方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
EP1217609A3 (en) * | 2000-12-22 | 2004-02-25 | Hewlett-Packard Company | Speech recognition |
JP2002311983A (ja) * | 2001-04-11 | 2002-10-25 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳電話システム |
US6996525B2 (en) * | 2001-06-15 | 2006-02-07 | Intel Corporation | Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US20050144012A1 (en) * | 2003-11-06 | 2005-06-30 | Alireza Afrashteh | One button push to translate languages over a wireless cellular radio |
JP2005202884A (ja) * | 2004-01-19 | 2005-07-28 | Toshiba Corp | 送信装置、受信装置、中継装置、および送受信システム |
WO2007070558A2 (en) * | 2005-12-12 | 2007-06-21 | Meadan, Inc. | Language translation using a hybrid network of human and machine translators |
JP2007199480A (ja) * | 2006-01-27 | 2007-08-09 | Hitachi Ltd | プログラム及びサーバ |
JP2007323476A (ja) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | 機械翻訳装置及びコンピュータプログラム |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
US7702510B2 (en) * | 2007-01-12 | 2010-04-20 | Nuance Communications, Inc. | System and method for dynamically selecting among TTS systems |
JP2008243080A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声を翻訳する装置、方法およびプログラム |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US8386235B2 (en) * | 2010-05-20 | 2013-02-26 | Acosys Limited | Collaborative translation system and method |
-
2009
- 2009-10-21 JP JP2009242586A patent/JP5545467B2/ja not_active Expired - Fee Related
-
2010
- 2010-03-03 CN CN2010800463164A patent/CN102549654A/zh active Pending
- 2010-03-03 US US13/501,792 patent/US8954335B2/en not_active Expired - Fee Related
- 2010-03-03 EP EP10824678.6A patent/EP2492910B1/en not_active Not-in-force
- 2010-03-03 KR KR1020127009506A patent/KR101683944B1/ko active IP Right Grant
- 2010-03-03 WO PCT/JP2010/053420 patent/WO2011048826A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
US20050010422A1 (en) * | 2003-07-07 | 2005-01-13 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
CN1905007A (zh) * | 2005-07-27 | 2007-01-31 | 日本电气株式会社 | 语音识别***和方法 |
CN101154220A (zh) * | 2006-09-25 | 2008-04-02 | 株式会社东芝 | 机器翻译装置和方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077718A (zh) * | 2013-01-09 | 2013-05-01 | 华为终端有限公司 | 语音处理方法、***和终端 |
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、***和终端 |
CN104008750A (zh) * | 2013-02-26 | 2014-08-27 | 霍尼韦尔国际公司 | 用于校正口音引起的语音传输问题的***和方法 |
CN107111607A (zh) * | 2014-10-17 | 2017-08-29 | 机械地带有限公司 | 用于语言检测的***和方法 |
CN107111607B (zh) * | 2014-10-17 | 2020-10-09 | Mz知识产权控股有限责任公司 | 用于语言检测的***和方法 |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105679314A (zh) * | 2015-12-28 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105679314B (zh) * | 2015-12-28 | 2020-05-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN108604446A (zh) * | 2016-01-28 | 2018-09-28 | 谷歌有限责任公司 | 自适应文本转话音输出 |
CN107146615A (zh) * | 2017-05-16 | 2017-09-08 | 南京理工大学 | 基于匹配模型二次识别的语音识别方法及*** |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN110364146B (zh) * | 2019-08-23 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2011048826A1 (ja) | 2011-04-28 |
US8954335B2 (en) | 2015-02-10 |
EP2492910A1 (en) | 2012-08-29 |
JP5545467B2 (ja) | 2014-07-09 |
KR101683944B1 (ko) | 2016-12-20 |
JP2011090100A (ja) | 2011-05-06 |
US20120221321A1 (en) | 2012-08-30 |
KR20120107933A (ko) | 2012-10-04 |
EP2492910B1 (en) | 2018-11-07 |
EP2492910A4 (en) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102549654A (zh) | 语音翻译***、控制装置以及控制方法 | |
CN102549653B (zh) | 语音翻译***、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 | |
US20030040907A1 (en) | Speech recognition system | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
KR20190071527A (ko) | 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법 | |
CN111402894B (zh) | 语音识别方法及电子设备 | |
CN111837116A (zh) | 用于自动构建或更新对话式ai代理***的分层对话流管理模型的方法、计算机装置及计算机可读存储介质 | |
CN110858481A (zh) | 用于处理用户语音话语的***和用于操作该***的方法 | |
JP2021022928A (ja) | 人工知能基盤の自動応答方法およびシステム | |
EP3550449A1 (en) | Search method and electronic device using the method | |
US20210327415A1 (en) | Dialogue system and method of controlling the same | |
CN111354350B (zh) | 语音处理方法及装置、语音处理设备、电子设备 | |
JP4000828B2 (ja) | 情報システム、電子機器、プログラム | |
CN114860910A (zh) | 智能对话方法及*** | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
KR20230050849A (ko) | 파라미터 값을 식별하는 전자 장치 및 이의 동작 방법 | |
KR20240049061A (ko) | 음성 인식을 수행하는 전자 장치와 이의 동작 방법 | |
JP6790791B2 (ja) | 音声対話装置および対話方法 | |
CN114169333A (zh) | 命名实体确定方法、电子设备及计算机存储介质 | |
CN117708266A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
KR20220137437A (ko) | 전자 장치 및 전자 장치의 동작 방법 | |
JP2021144170A (ja) | 情報処理方法及び情報処理装置 | |
KR20230089505A (ko) | 사용자 데이터를 이용한 음성 인식 서비스를 제공하는 전자 장치 및 이의 동작 방법 | |
KR20230016398A (ko) | 부적절한 대답을 관리하는 전자 장치 및 이의 동작 방법 | |
KR20240045031A (ko) | 서술어를 포함하지 않는 발화를 처리하는 전자 장치, 동작 방법 및 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120704 |