JP4481972B2 - 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム - Google Patents

音声翻訳装置、音声翻訳方法及び音声翻訳プログラム Download PDF

Info

Publication number
JP4481972B2
JP4481972B2 JP2006264203A JP2006264203A JP4481972B2 JP 4481972 B2 JP4481972 B2 JP 4481972B2 JP 2006264203 A JP2006264203 A JP 2006264203A JP 2006264203 A JP2006264203 A JP 2006264203A JP 4481972 B2 JP4481972 B2 JP 4481972B2
Authority
JP
Japan
Prior art keywords
phrase
speech
voice
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006264203A
Other languages
English (en)
Other versions
JP2008083459A (ja
Inventor
建太郎 降幡
哲朗 知野
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006264203A priority Critical patent/JP4481972B2/ja
Priority to US11/896,567 priority patent/US8275603B2/en
Priority to CNA2007101531421A priority patent/CN101154221A/zh
Publication of JP2008083459A publication Critical patent/JP2008083459A/ja
Application granted granted Critical
Publication of JP4481972B2 publication Critical patent/JP4481972B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Description

この発明は、入力された音声から翻訳処理を行う音声翻訳装置、音声翻訳方法及び音声翻訳プログラムに関するものである。
近年、音声認識、機械翻訳および音声合成といった要素技術の研究が進んでいる。そして、これらを組み合わせることで、原言語による音声の入力を受け付けた場合、目的言語の音声が出力される音声翻訳システムが実用化されつつある。
しかし、各要素技術にはまだ多くの技術的課題が残されているので、利用者の発話が常に正しく認識、翻訳されるほど精度の高いシステムの実現は困難である。
例えば、音声認識では、実使用の環境下における周囲の騒音や、ユーザの言いよどみなどにも対処する必要があるが、これら誤りを完全になくすことは難しい。そして、このような音声認識の誤りが生じたテキストを、機械翻訳しても正しい結果は得られない。
他の例としては、機械翻訳では、文脈に応じて訳し分けするための文脈処理技術がまだ未成熟であるため、常に正しく訳出できるわけではない。
そこで、音声認識や機械翻訳等の誤りを検出するためのインターフェースが数多く提案されている。このようなインターフェースは、リアルタイムでユーザ同士が対話する場合、ユーザ間にシステムを介することによる煩わしい操作や待機時間を軽減させるためにも重要な役割を有する。
例えば、特許文献1では、入力された音声から変換されたテキストから、認識誤りが生じているフレーズを自動的に検出し、検出部分を該音声の発話者にテキスト又は音声により提示、訂正させる技術が提案されている。
このような技術により、原言語による発話者に提示されるのは誤りフレーズだけなので、発話内容全体を確認する手間が省かれ、確認に要する時間を短縮させることができる。
特開2000-29492号公報
しかしながら、特許文献1に記載された技術では、原言語話者が発話してから、音声認識結果の音声出力し、ユーザによる訂正発話を再度音声認識した後、目的言語による音声を出力するという一連の流れ自体は変わらないため、相手に伝達されるまでのタイムラグが大きいという問題がある。
また、誤りの自動的検出を行うが、誤りフレーズを全て自動で検出できるわけではない。この場合、原言語話者は誤りに全く気づくことなく、相手に対して目的言語による音声が出力されるため、両者の間で誤解が生じるという問題がある。
本発明は、上記に鑑みてなされたものであって、利用者が音声認識された内容を容易に確認すると共に、音声の入力を受け付けた後、翻訳して出力するまでの時間を短縮して会話を適切に進めることができる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声翻訳装置であって、利用者から第1言語による音声の入力を受け付ける音声入力受付手段と、前記音声入力受付手段により入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識手段と、前記音声認識手段により生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳手段と、前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割手段と、前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割手段と、前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付手段と、前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付手段により対応付けられた前記第1のフレーズとを順次出力する出力手段と、を備え、前記音声入力受付手段は、前記出力手段による前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付け、前記出力手段は、前記音声入力受付手段により音声の入力を受け付けた場合、前記第2のフレーズと前記第1のフレーズとの出力を停止する、ことを特徴とする。
また、本発明は、音声翻訳方法であって、利用者から第1言語による音声の入力を受け付ける第1の音声入力受付ステップと、前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識ステップと、前記音声認識ステップにより生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳ステップと、前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割ステップと、前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割ステップと、前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付ステップと、前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付ステップにより対応付けられた前記第1のフレーズとを順次出力する出力ステップと、前記出力ステップによる前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付ける第2の音声入力受付ステップと、前記第2の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第2のフレーズと前記第1のフレーズとの出力を停止する停止ステップと、を有することを特徴とする。
また、本発明は、入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、利用者から第1言語による音声の入力を受け付ける第1の音声入力受付ステップと、前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識ステップと、前記音声認識ステップにより生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳ステップと、前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割ステップと、前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割ステップと、前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付ステップと、前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付ステップにより対応付けられた前記第1のフレーズとを順次出力する出力ステップと、前記出力ステップによる前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付ける第2の音声入力受付ステップと、前記第2の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第2のフレーズと前記第1のフレーズとの出力を停止する停止ステップと、をコンピュータに実行させることを特徴とする。
本発明によれば、第1のフレーズを確認することで、第2言語の第2のフレーズとして出力されている内容を第1言語で利用者が確認できると共に、第1言語による音声の入力を受け付けた後、当該第2言語に翻訳された第2のフレーズを出力するまでの間に利用者が誤りなどを確認する時間を必要としないので、会話を適切に進めることができるという効果を奏する。さらに、各フレーズの出力時に音声の入力を受け付けた場合に出力を停止することで、利用者間で生じる誤解等を防止することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムの最良な実施の形態を詳細に説明する。
図1は、実施の形態にかかる音声翻訳装置100を使用している状況を概念的に示した説明図である。図1に示すように、日本語話者が、マイク10に対して発話し、ヘッドホン160を介して出力された日本語音声を聞き取る。また、英語話者は、マイク11に対して発話し、音声翻訳装置100が備えているスピーカ150から出力される英語音声を聞き取る。
例えば、日本語話者が日本語で発話した場合、音声翻訳装置100が、当該発話の音声を認識して、英語に翻訳したあと、翻訳された英語の音声をスピーカ150から出力する。さらに、音声翻訳装置100は、英語音声の出力時に、日本語話者の発話内容を音声認識した結果を日本語音声で、ヘッドホン160に対して出力する。これにより、日本語話者は、ヘッドホン160から日本語音声を聞き取ることで、音声認識に誤りがないか確認をすることができる。
つまり、日本語話者は、現在英語話者に対して出力されている英語音声に対応する日本語音声を聞き取り、誤りがないか確認できる。
そして、日本語話者が、誤りを確認した場合、英語話者に対して訂正するために、音声翻訳装置による音声出力時に、音声で割り込むことができる。そして、当該音声翻訳装置は、音声出力時に割り込み音声の入力を受け付けた場合、割り込み音声を翻訳した音声を優先して出力する。
そして、音声翻訳装置は、割り込み音声を翻訳した音声を出力した後、割り込み前の元の音声出力を、中断箇所から再開する。これにより、日本語話者は再度同じ内容を言い直さずにすむため、利便性が向上する。
また、従来の技術を用いて日本語音声と英語音声を同時に出力した場合、即座に割り込んだとしても、日本語と英語の語順が異なるため、割り込みが適切ではないことも多いと考えられる。そこで、本実施の形態にかかる音声翻訳装置では、異なる言語でも、出力される音声の語順が対応するように処理が施されている。これにより、英語話者及び日本語話者は、音声出力中にいつ割り込んでも、誤解などの問題が生じることはない。なお、詳細な処理については、後述する。
なお、本実施の形態では、英語話者と日本語話者が会話する例を用いて説明するが、これらの言語に制限するものではなく、例えば、ドイツ語、フランス語、中国語など、他のあらゆる自然言語を用いても良い。
図2は、実施の形態にかかる音声翻訳装置100の構成を示すブロック図である。本図に示すように、音声翻訳装置100は、音声入力受付部201と、音声認識部202と、機械翻訳部203と、フレーズアライメント部204、音声合成部206、音声出力部205と、フレーズ記憶部207と、制御部208とを備えている。
制御部208は、音声翻訳装置100本体を制御し、他の各要素に対して指示等を行う。詳細については、後述する。
音声入力受付部201は、第1音声入力受付部211と、第2音声入力受付部212とを備え、制御部208の指示に従って、翻訳対象となる言語による発話の入力を受け付ける。公知のアナログ・デジタル変換の手法を用いてPCM(パルスコードモジュレーション)形式などによるデジタル信号に変換する。
第1音声入力受付部211は、マイク10から日本語話者による発話の入力を受け付ける。そして、上述した処理によりデジタル信号に変換された後、後述する音声認識部202の日本語音声認識部261に出力する。
第2音声入力受付部212は、マイク11から英語話者による発話の入力を受け付ける。そして、上述した処理によりデジタル信号に変換された後、後述する音声認識部202の英語音声認識部262に出力する。
また、音声入力受付部201は、第1音声入力受付部211及び第2音声入力受付部212により、両言語の話者からの音声を待ち受けるが、一方の音声入力受付部が話者からの入力音声を検出した場合、他方の音声入力受付部による話者からの発話の受付を停止し、前者の音声のみ入力処理を行う。
音声認識部202は、日本語音声認識部261と、英語音声認識部262とを備え、音声入力受付部201から入力されたデジタル信号を、公知の信号解析、言語解析の手法を用いて音声認識処理を行い、話者の言語で記載されたテキスト(以下、原言語テキストSとする)を生成する。
本実施の形態では、原言語は、一方の話者が利用する翻訳前の言語とする。また、目的言語は、他方の話者が利用できる翻訳された後の言語とする。つまり、音声翻訳装置100は、原言語による発話を目的言語に翻訳する装置とする。また、本実施の形態では主に、原言語が日本語であり、目的言語が英語の例について説明する。
日本語音声認識部261は、第1音声入力受付部211から入力された音声信号に対して音声認識処理を行い、日本語で記載されたテキストを生成する。
英語音声認識部262は、第2音声入力受付部212から入力された音声信号に対して音声認識処理を行い、英語で記載されたテキストを生成する。
機械翻訳部203は、ルール保持部221と、適用履歴記憶部222とを備え、音声認識部202から入力された原言語テキストSの翻訳処理を行い、目的言語で記載されたテキスト(以下、目的言語テキストTとする)を生成する。
例えば、機械翻訳部203は、原言語テキストSが日本語で記載されていれば、英語で記載された目的言語テキストTを生成する。また、機械翻訳部203は、原言語テキストSが英語で記載されていれば、日本語で記載された目的言語テキストTを生成する。このように、機械翻訳部203は、原言語テキストSと意味的に等価な目的言語テキストTを生成する。
また、機械翻訳部203は、ルール保持部221に保持された語彙辞書および構造変換規則を用いて、原言語テキストSから、目的言語テキストTを生成する。なお、この変換手法は、公知の手法を含め、どのような手法を用いても良い。
また、機械翻訳部203は、原言語テキストSを解析した格構造を目的言語の構造に変換するとき使用した構造変換規則を、適用履歴記憶部222に翻訳規則適応履歴Hとして保持する。
図3は、適用履歴記憶部222に記憶された翻訳規則適応履歴Hの例を示した図である。図3に示すように、翻訳規則適応履歴Hは、原言語テキストSを目的言語テキストTに変換する際に使用した翻訳規則を保持している。
そして、機械翻訳部203は、翻訳規則適応履歴Hを、原言語テキストSおよび目的言語テキストTとともにフレーズアライメント部204に出力する。
フレーズアライメント部204では、第1分割部231と、第2分割部232と、対応付け部233とを備え、原言語テキストSと目的言語テキストTとを所定の長さのフレーズ単位で分割し、フレーズ間で対応付けを行う。
第1分割部231は、原言語テキストSをフレーズ単位で分割し、原言語フレーズフレーズ群を生成する。
第2分割部232は、目的言語テキストTをフレーズ単位で分割し、目的言語フレーズ群を生成する。
また、本実施の形態にかかる1フレーズは、1個以上の内容語と0個以上の機能語から構成される文節とする。また、本実施の形態は、1フレーズを当該文節に制限するものではなく、他の処理単位でもよい。
対応付け部233は、各目的言語フレーズに対して、当該目的言語フレーズと意味的に等価な原言語フレーズを対応付ける(アライメントをとる)。
図4は、対応付け部233が行うアライメントの概念を示した説明図である。図4では、原言語テキストSを「(1)太郎は / (2)酒を/ (3)昨晩から / (4)飲んでいる」とし、目的言語テキストTを「(1)Taro / (2)has been drinking / (3)from last evening」としている。そして、これらテキスト中の「/」はフレーズの切れ目を表しており、番号は先頭からの順序を表している。
そして、対応付け部233は、入力された翻訳規則適応履歴Hに従って、該当する単語を含むフレーズ同士を対応付ける。
まず、図3に示す翻訳規則適応履歴Hの規則1は、「酒を飲む」を「drink」に変換することを示している。そこで、対応付け部233は、原言語(日本語)フレーズSP(2)、(4)と、目的言語(英語)フレーズTP(2)とを対応付ける。このように、対応付け部233は、複数の原言語フレーズがひとつの目的言語フレーズと対応する場合、原言語フレーズをひとつにまとめる。例えば、対応付け部233は、図3に示すように原言語フレーズ(2)「酒を」と、(4)「飲んでいる」とを、「酒を飲んでいる」にまとめる。
同様に、対応付け部233は、規則2に従ってSP(1)「太郎は」とTP(1)「Taro」を対応付け、規則3に従ってSP(3)「昨晩から」とTP(3)「from last evening」を対応付ける。
また、翻訳規則適応履歴Hの規則4は「昨晩」と「last evening」との対応を表すが、すでに規則3によって該当フレーズ同士が対応付けられているので、対応付け部233は、当該規則を用いた処理を行わない。
以上により、対応付け部233は、3つのフレーズ対PP((1)Taro,(1)太郎は)、((2)has been drinking,(2)酒を(4)飲んでいる)、((3)from last evening,(3)昨晩から)で構成されるフレーズ対セットPPSETを生成する。
また、フレーズ対PPは、対応付けられた目的言語のフレーズ及び原言語のフレーズの対を示したものとする。そして、フレーズ対セットPPSETは、一回の発話で入力された文等から生成されたフレーズ対PPのまとまりを示している。
フレーズ記憶部207は、フレーズアライメント部204から入力されたフレーズ対セットPPSETを保持する。
図5は、フレーズ記憶部207が保持するデータ構造の例を示した図である。図5に示すようにフレーズ記憶部207は、フレーズ対セット番号と、フレーズ対番号と、原言語フレーズと、目的言語フレーズとを対応付けて保持している。第4図にフレーズ記憶部内のレコードの例を示す。
図5に示すように、フレーズ記憶部207は、フレーズ対セットPPSET1として、3個のフレーズ対PP(1,1)((1)Please arrive,(3)到着してください)、PP(1,2)((2)at Hiya and Hotel,(2)ヒヤッとホテルに)、PP(1,3)((3)by 3 p.m.,(1)午後3時までに)を保持している。
フレーズ対セットPPSET番号は、割り込み発話の階層を示している。例えば、フレーズ対セットPPSET1が第1階層の発話のフレーズ対セットであり、フレーズ対セットPPSET2はフレーズ対セットPPSET1による音声出力中に割り込んだ音声によるフレーズ対セットであることを示している。
また、フレーズ対PP番号は、(フレーズ対セットPPSET番号,目的言語フレーズの目的言語テキストにおける出現順序)を示したものとする。この目的言語フレーズの目的言語テキストにおける出現順序を保持しているのは、目的言語フレーズTPの順序を入れ替えることなく出力する必要があるためである。つまり、各フレーズ対PPは、目的言語フレーズの出現順序に応じて出力される。なお、詳細な処理手順については後述する。
音声合成部206は、日本語音声合成部251と、英語音声合成部252とを備え、制御部208の指示に従って、フレーズ記憶部から先に割り当てた順序に従って、各フレーズを、読み上げ音声の波形を表すデジタル信号を合成する。
日本語音声合成部251は、日本語で表されたフレーズを、日本語の読み上げ音声の波形を示すデジタル信号を合成する。なお、日本語音声合成部251は、原言語が日本語である場合、原言語フレーズからデジタル信号を合成し、原言語が英語である場合、目的言語フレーズからデジタル信号を合成する。
英語音声合成部252は、英語で表されたフレーズを、英語の読み上げ音声の波形を示すデジタル信号を合成する。なお、英語音声合成部252は、原言語が日本語である場合、目的言語フレーズからデジタル信号を合成し、原言語が英語である場合、原言語フレーズからデジタル信号を合成する。
音声出力部205は、第1音声出力部241と、第2音声出力部242とを備え、音声合成部206から入力されたデジタル信号を、公知のデジタル/アナログ変換手段を用いて変換した後、音声を出力する。また、音声出力部205は、目的言語テキストにおけるフレーズ順で目的言語フレーズと、目的言語フレーズと対応付けられた原言語フレーズとを順次、音声として出力する。
第1音声出力部241は、日本語音声合成部251から入力されたデジタル信号を変換して、ヘッドホン160に音声を出力する。また、第2音声出力部242は、英語音声合成部252から入力されたデジタル信号を変換して、スピーカ150に出力する。
次に、本実施の形態にかかる音声翻訳装置100の音声の入力を受け付けてから、音声を出力するまでの処理について説明する。図6は、音声翻訳装置100の音声の入力を受け付けてから、音声を出力するまでの処理手順を示すフローチャートである。
まず、制御部208は、カウンタ変数iに、初期値1を設定する(ステップS601)。次に、音声入力受付部201が、入力音声SAI1を受け付ける(ステップS602)。音声入力受付部201は、入力音声SAI1の入力がない場合(ステップS602:No9)、入力があるまで待機する。なお、SAI1の‘1’はカウンタ変数iの値とする。
そして、音声入力受付部201が入力音声SAI1の入力を受け付けた場合(ステップS602:Yes)、入力音声SAIiに対応するフレーズ対セットPPSETiを生成する(ステップS603)。なお、詳細な処理については後述する。
次に、制御部208は、ポインタJiに初期値‘1’を代入する(ステップS604)。
次に、制御部208は、ポインタJiが、フレーズ対合計要素数Niより大きいか否か判断する(ステップS605)。なお、フレーズ対合計要素数Niとは、処理の対象であるフレーズ対セットPPSETiを構成するフレーズ対の合計数を示している。
そして、制御部208は、ポインタJiが、フレーズ対合計要素数Niより小さいと判断した場合(ステップS605:No)、音声割込フラグに‘False’を代入する(ステップS606)。
そして、フレーズ対PP(i、Ji)の音声出力を行う(ステップS607)。また、処理中に割り込み音声の入力を受け付けた場合、音声割込フラグに‘True’が代入される。なお、詳細な処理手順については後述する。
次に、制御部208は、ポインタJiを‘1’増加させる(ステップS608)。また、ポインタJiが、目的言語フレーズの目的言語テキスト内の順序を示している。つまり、ポインタJiが1ずつ増加することで、目的言語テキストにおけるフレーズ順に、目的言語フレーズの音声出力等が行われることになる。
そして、制御部208は、音声割込フラグが‘True’であるか否か判断する(ステップS609)。音声割込フラグが‘False’の場合(ステップS609:No)、再びポインタJiがフレーズ対合計要素数Niより大きいか否かの判断から開始する(ステップS605)。
また、制御部208は、音声割込フラグが‘True’の場合(ステップS609:Yes)、カウンタ変数iを‘1’増加させる(ステップS610)。その後、再び割り込み音声から、再びフレーズ対セットPPSETiを生成する(ステップS603)。
そして、制御部208が、ポインタJiがフレーズ対合計要素数Niより大きいと判断した場合(ステップS605:Yes)、当該フレーズ対セットPPSETiを用いた処理が終了したものとして、フレーズ対セットPPSETiを削除する(ステップS611)。
そして、制御部208は、カウンタ変数iを‘1’減少させる(ステップS612)。次に、制御部208は、カウンタ変数iが‘1’より小さいか否か判断する(ステップS613)。カウンタ変数iが‘1’以上と判断した場合(ステップS613:No)、制御部208は、再び、ポインタJiがフレーズ対合計要素数Niより大きいか否か判断する(ステップS605)。
また、制御部208は、カウンタ変数iが‘1’より小さいと判断した場合(ステップS613:Yes)、処理を終了する。
本実施の形態にかかる音声翻訳装置100は、音声の入力を受け付けてから、音声を出力するまでの処理を、上述した処理手順で行うことで、フレーズ対セットPPSETiの処理を再帰的に行うこととした。
これにより、入力音声の割り込みが発生した場合、割り込み音声の方を優先して処理した後、中断された元の音声についての処理を再開することができる。
次に、本実施の形態の音声翻訳装置100の入力音声SAIiを受け付けた場合に、フレーズアライメントを行い、フレーズ対セットPPSETiを生成するまでの処理手順について説明する。図7は、本実施の形態の音声翻訳装置100の入力音声SAIiを受け付けた場合に、フレーズ対セットPPSETiを生成するまでの処理手順を示すフローチャートである。
まず、音声認識部202が、音声入力受付部201から入力された入力音声SAIiを音声認識し、原言語テキストSiを生成する(ステップS701)。また、入力音声SAIiの原言語が日本語の場合、日本語音声認識部261が、原言語テキストSiを生成する。また、入力音声SAIiの原言語が英語の場合、英語音声認識部262が、原言語テキストSiを生成する。
そして、機械翻訳部203が、原言語テキストSiを機械翻訳し、目的言語テキストTiを生成する(ステップS702)。
次に、第1分割部231が、原言語テキストSiを、フレーズ単位で分割する(ステップS703)。そして、第2分割部232が、目的言語テキストTiを、フレーズ単位で分割する(ステップS704)。
そして、対応付け部233が、目的言語のフレーズと、原言語のフレーズとをアライメントし、フレーズ対セットPPSETiを生成する(ステップS705)。そして、フレーズアライメント部204は、生成したフレーズ対セットPPSETiを、フレーズ記憶部207に記録する。
次に、本実施の形態の音声翻訳装置100のフレーズ対PP(i、Ji)の音声出力を行う際の処理手順について説明する。図8は、本実施の形態の音声翻訳装置100のフレーズ対PP(i、Ji)の音声出力を行う際の処理手順を示すフローチャートである。なお、後述する説明では、目的言語が英語で、原言語が日本語の例とする。
まず、英語音声合成部252が、フレーズ記憶部207からフレーズ対PP(i,j)の目的言語フレーズを読み込み、読み込んだ目的語(英語)のフレーズの音声合成を行い、目的言語におけるフレーズの音声信号TPAOを生成する(ステップS801)。
次に、日本語音声合成部251が、フレーズ記憶部207からフレーズ対PP(i,j)の原言語フレーズを読み込み、読み込んだ原言語(日本語)のフレーズの音声合成を行い、原言語のフレーズ音声信号SPAOを生成する(ステップS802)。
そして、第2音声出力部242が、生成された目的言語のフレーズ音声信号TPAOをスピーカ150に出力する(ステップS803)。
次に、第1音声出力部241が、生成された原言語のフレーズ音声信号SPAOをヘッドホン160に出力する(ステップS804)。
そして、音声入力受付部201が、話者からの音声による割り込みが発生したか否かを検出する(ステップS805)。なお、この割り込みを行う話者は、日本語話者でも英語話者でも良い。
次に、音声入力受付部201が、音声の割り込みを検出しない場合(ステップS805:No)、制御部208が音声の出力を終了したか否か判断する(ステップS807)。終了していないと判断した場合(ステップS807:No)、継続して音声の合成を行う(ステップS801)。
また、制御部208が、音声の出力が終了したと判断した場合(ステップS807:Yes)、処理を終了する。
また、音声入力受付部201が割り込みによる入力音声SAIi+1を検出した場合(ステップS805:Yes)、制御部208が、第2音声出力部242による目的言語のフレーズ音声信号TPAOの出力、及び第1音声出力部241による原言語のフレーズ音声信号SPAOの出力を中断する(ステップS808)。
そして、制御部208が、音声割込フラグに"True"を代入する(ステップS809)。これにより処理が終了する。
次に、上述した処理を、具体的な例を示して詳細に説明する。状況としては、まず、日本語話者が最初に発話していることとする。そして、音声翻訳装置100が当該発話の音声出力している時に、該発話に対して音声認識誤りが生じ、日本語話者が割り込む場合について説明する。
図9は、音声翻訳装置100に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの例を示した図である。図9に示すように、第1音声入力受付部211が、まず、日本語話者から入力音声SAI1「ごごさんじまでにはいはっとほてるにとうちゃくしてください」の入力を受け付ける。その後に、第1音声入力受付部211が、割り込みで、日本語話者から入力音声「えきのちかくのはいはっとほてるです」の入力を受け付けているものとする。
そして、図9には、音声翻訳装置100が、入力音声から生成された原言語テキスト及び目的言語テキストが示されている。入力順1では、日本語音声認識部261が行う音声認識に誤りが生じ、「はいはっとほてる」が、「ヒヤッとホテル」として認識された例とする。これにより、機械翻訳部203は、目的言語テキストにおいて「Hiya and Hotel」と翻訳している。
そして、日本語話者は、音声出力中にこの音声認識による誤りに気づき、入力順2に示した入力音声SAI2「えきのちかくのはいはっとほてるです」という割り込みを行った例とする。
また、これらにより生成されるフレーズ対セットPPSETiは、図5に示した通りとなる。そして、フレーズ対(1,2)の出力中に、上述した入力音声SAI2による割り込みを受け付けたものとする。
図10は、音声翻訳装置100によりフレーズ対が出力される順序の例を示した説明図である。図10に示す順序で、音声翻訳装置100は、図5に示したフレーズ対セットPPSETiのフレーズ対を出力していくこととする。
図11は、時間経過に従って音声翻訳装置100が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第1の例におけるタイムチャート図である。そして、図11に示したタイムチャートに従って音声フレーズ対を出力するため処理手順を、図6と共に説明する。
まずは、制御部208が、ステップS601において、カウンタ変数i=1を代入する。また、カウンタ変数iは、元の発話に対して割り込まれた階層を表している。つまり、割り込まれていない元の発話が、第1階層となる。そして、この発話に対して割り込んだ発話は、第2階層となる。そして第2階層の発話に対して割り込んだ会話は第3階層となる。以下も同様とする。
つまり、制御部208は、最初の割り込まれていない発話による入力音声を受け付けるため、カウンタ変数iに‘1’をセットする。
そして、音声入力受付部201が、ステップS602において、日本語話者、英語話者の双方からの音声を待ち受ける。また、音声入力受付部201は、最初に検出した話者の音声のみ、入力を受け付ける。
本例では、第1音声入力受付部211が、日本語話者からの最初の発話を検出したものとし、英語話者からの入力受付を停止する。そして、図11の符号1101に示すように、日本語話者がマイク10に対して、入力音声SAI1「ごごさんじまでにはいはっとほてるにとうちゃくしてください」(午後3時までにハイハットホテルに到着してください)を入力したものとする。これにより、ステップS602において、第1音声入力受付部211が、入力音声SAI1の入力を受け付ける。
そして、図6のステップS603において、入力音声SAI1から原言語フレーズと言語フレーズの対(PP)のセット(PPSET1)を生成する。この生成処理は、図7に詳細に示してある。
まず、図7のステップS701において、音声認識部202が、入力音声SAI1から原言語テキストを生成する。この時に「はいはっとほてるに」の部分で「ヒヤッとホテルに」のように認識誤りが生じたとする。これにより、音声認識部202は、原言語テキストS1「午後3時までにヒヤッとホテルに到着してください」を生成する。
そして、ステップS702において、機械翻訳部203が原言語テキストS1から目的言語テキストT1「Please arrive at Hiya and Hotel by 3 p.m.」を生成する。そして、ステップS702において音声認識誤り「ヒヤッとホテルに」が生じているので、機械翻訳部203は、正しくは「at hyhat Hotel」であるところを「at Hiya and Hotel」と翻訳している。
次に、ステップS704において、第1分割部231が原言語テキストS1をフレーズ毎に分割する。そして、ステップS705において、第2分割部232が、目的言語テキストT1をフレーズ毎に分割する。そして、ステップS705において、対応付け部233が、これらフレーズを対応付けたフレーズ対のセットPPSET1を生成し、フレーズ記憶部207に格納する。
格納されたフレーズ対セットPPSET1について、図5を用いて説明する。フレーズ対セットPPSET1は、フレーズ対PP(1,1),PP(1,2),PP(1,3)から構成されている。
各フレーズ対PPは、目的言語フレーズTPおよび原言語フレーズSPのペアとする。例えば、フレーズ対PP(1,1)は、原言語フレーズSP(1,1)「到着してください」と、目的言語フレーズTP(1,1)「Please arrive」のペアとする。このように、目的言語フレーズTP及び原言語フレーズSPは、該当するフレーズ対PPと同じ添え字を付与する。
同様に、フレーズ対PP(1,2)は((2)at Hyatt Hotel,(2)ヒヤッとホテルに)とする。また、フレーズ対PP(1,3)は((3)by 3 p.m.,(1)午後3時までに)とする。
このようにフレーズ対セットPPSETiを生成した後、図6の処理に戻る。そして、制御部208は、ステップS604において、ポインタJ1=1とする。ポインタJiは、次にフレーズ対PP(i,Ji)を音声出力することを示している。
そして、制御部208は、ステップS605において、ポインタJiがフレーズ対合計要素数Niより大きいか否か、つまりフレーズ対PP(i,Ji)がフレーズ記憶部207に存在するかどうか判断する。この場合、制御部208は、ポインタJ1の値‘1’と、フレーズ対セットPPSETiのフレーズ合計要素数‘3’を比較する。つまり、制御部208は、J1<フレーズ対要素数であると判断する(ステップS605:No)。そこで、音声翻訳装置100は、フレーズ対PP(1,1)を出力するために、ステップS606の処理を開始する。
次に、制御部208は、ステップS606において、音声割込フラグに“False”を代入する。音声割込フラグは、後述するステップS607において、該フレーズ対による音声出力中に、話者から割り込み発話がなされたか否かを示している。
そして、ステップS607において、フレーズ対PP(1,1)の目的言語フレーズ「plese arrive」を英語話者に対して、原言語フレーズ「到着してください」を日本語話者に対して出力する。ステップS607の詳細な処理手順を、図8を用いて説明する。
まず、図8のステップS801において、英語音声合成部252が、目的言語フレーズTP(1,1)「Please arrive」から、音声信号を生成する。そして、ステップS802において、日本語音声合成部251が、原言語フレーズSP(1,1)「到着してください」から、音声信号を生成する。
そして、ステップS803において、第2音声出力部242が、生成された英語のフレーズ音声信号TPAO(1,1)「Please arrive」を出力する。次に、ステップS804において、第1音声出力部241が、生成された原言語(日本語)フレーズ音声信号SPAO(1,1)「とうちゃくしてください」を出力する。これは、図11の音声フレーズ対1102が該当する。図11に示すように、「とうちゃくしてください」と「Please arrive」とがほぼ同時に出力される。このように、本実施の形態にかかる音声翻訳装置100は、出力時に対応関係が明確になるように音声出力を行う。
また、原言語(日本語)フレーズ音声信号SPAO(1,1)「とうちゃくしてください」及び目的言語フレーズ音声信号TPAO(1,1)「Please arrive」を、音声フレーズ対PPAO(1,1)とする。
そして、ステップS805において、該音声を出力中、音声入力受付部201では、日本語話者および英語話者からの入力音声を待ち受ける。このように音声入力受付部201による割り込み音声の検出を随時行っている。そして、音声出力が終了するまで今回は割り込みがなかったとする。
これにより図8に示した処理が終了し、図6の処理に戻ることになる。図6のステップS608では、制御部208が、ポインタJ1=2とする。これは次に処理対象となるフレーズ対が、フレーズ対PP(1,2)に変更されたことを示している。
ステップS609では、ステップS607の処理中に、割り込み音声を検出したか否かを、音声割込フラグにより判断する。この段階では、音声割込フラグは“False”なので、制御部208は割り込みがなかったと判断し、未発話のフレーズ対PPを出力するために、ステップS605の処理を開始する。
以降、前回と同様に処理を進める。つまり、制御部208は、ステップS605において、ポインタJ2(=2)<フレーズ対合計要素数N2(=3)であると判断する。そして、制御部208は、ステップS606に進み、音声割込フラグの値を“False”にする。
そして、ステップS607においては、フレーズ対PP(2,2)を音声出力する。以下に、図8を用いて詳細に説明する。
まず、図8のステップS801において、英語音声合成部252が、目的言語フレーズTP(1,2)「at Hiya and Hotel」から、音声信号を生成する。そして、ステップS802において、日本語音声合成部251が、原言語フレーズSP(1,2)「ひやっとほてるに」から、音声信号を生成する。
そして、ステップS803において、第2音声出力部242が、生成された英語のフレーズ音声信号TPAO(1,2)「at Hiya and Hotel」を出力する。次に、ステップS804において、第1音声出力部241が、生成された原言語(日本語)フレーズ音声信号SPAO(1,2)「ひやっとほてるに」を出力する。これは、図11の音声フレーズ対1103が該当する。図11に示すように、これら音声信号はほぼ同時に出力される。
また、これら音声フレーズ対PPAO(1,2)による該出力音声は、前回の音声フレーズ対PPAO(1,1)と異なり、音声認識誤りが生じたフレーズである。したがって、日本語話者は、自身による発話「ハイハットホテルに」が音声翻訳装置100において正しく処理されなかったことを認識する。
そこで、「ひやっとほてるに」を訂正するため、日本語話者が、当該音声出力中に割り込んで、入力音声SAI2「えきのちかくのはいはっとほてるです」(駅の近くのハイハットホテルです)と発話する。これは、図11の符号1104で示した入力音声SAI2が該当する。
これにより、図8のステップS805において、音声入力受付部201が、音声の割り込みを検出する(ステップS805:Yes)。そこで、制御部208が、ステップS808において音声出力部205による音声フレーズ対PPAO(1,2)の出力を中断し、ステップS809において割り込みの有無を示す音声割込フラグを“True”にする。その後、図6に示した処理に戻る。
そして、ステップS609において、制御部208はポインタJ1=3とする。その後、制御部208は、ステップS609において、音声割込フラグの判断を行う。そして、音声割込フラグが“True”なので、割り込み入力音声SAI2が発生したことを認識できる。そこで、制御部208は、入力音声SAI2から、入力音声SAI1と同様にフレーズ対を生成して、音声出力を行うためにステップS610に進む。
そして、制御部208は、ステップS610において、カウンタ変数i=2とする。そして、カウンタ変数i=2の間、制御部208は、割り込み入力音声SAI2の処理を行うことになる。
ステップS603において、割り込み入力音声SAI2から原言語テキストS2「駅の近くのハイハットホテルです」と、目的言語テキストT2「Hyatt Hotel near the station」とを生成する。このように、今回の処理では、「はいはっとほてる」を正しく音声認識し、「ハイハットホテル」を生成したとする。さらに、原言語テキストS2と目的言語テキストT2からフレーズ対セットPPSET2を生成し、フレーズ記憶部207に記録する。
図5に示すように、フレーズ対セットPPSET2は、フレーズ対PP(2,1)((1)Hyatt Hotel,(2)ハイハットホテルです)とフレーズ対PP(2,2)((2)near the station,(1)駅の近くの)とから構成されている。
そして、ステップS604において、制御部208は、ポインタJ2=1とする。また、制御部208は、ステップS605において、ポインタJ2(=1)<フレーズ対合計要素数N2(=2)なので、ステップS606に進む。
次に、制御部208は、ステップS606において、音声割込フラグの値を“False”にする。そして、ステップS607において、フレーズ対PP(2,1)から、音声フレーズ対PPAO(2,1)を生成する。そして、音声フレーズ対PPAO(2,1)に含まれる原言語フレーズ音声信号SPAO(2,1)「はいはっとほてるです」を日本語話者に対して出力する。また、音声フレーズ対PPAO(2,1)に含まれる目的言語フレーズ音声信号TPAO(2,1)「Hyatt Hotel」を英語話者にそれぞれ出力する。これは、図11の音声フレーズ対1105が該当する。
つまり、図11の音声フレーズ対1103で示される、前回の音声フレーズ対PPAO(1,2)では、「ハイハットホテル」の部分が「ひやっとほてる」として音声認識されている。そして、図11の音声フレーズ対1105に示すように、今回は正しく「はいはっとほてる」が出力されている。このように、日本語話者が、音声出力中に割り込み発話を行うことで、英語話者に対して音声認識誤りによる誤解を防止できたことになる。
そして、図8のステップS805において、音声入力受付部201が、音声による割り込みが発生したか否かを検出するが、この段階で音声の割り込みがなかったものとする。
そして、図6のステップS608で、制御部208がポインタJ2を‘1’増加し、ポインタ=2とする。そして、ステップS609において、音声割込フラグの値が“False”なので、ステップS605に戻る。
そして、制御部208が、ステップS605〜ステップS609の処理により、フレーズ対PP(2,2)を処理し、目的言語フレーズ音声信号TPAO「near the station」および原言語フレーズ音声信号SPAO「えきのちかくの」を出力する。これは、図11のフレーズ対1106が該当する。また、これら音声出力時に、割り込み発話もなかったものとする。
これらの処理が終了した後、再びステップS605に戻る。この段階では、ポインタJ2の値が‘3’であり、フレーズ対合計要素数N2が‘2’なので、ステップS611の処理に進むことになる。つまり、制御部208は、フレーズ対PP(2,3)はフレーズ記憶部207に存在せず、フレーズ対セットPPSET2を構成する全てのフレーズ対PPを出力済みと判断する。
そのあと、制御部208は、ステップS611において、フレーズ対セットPPSET2を、フレーズ記憶部207から削除する。そして、制御部208は、ステップS612において、カウンタ変数iの値を‘1’減少させて、割り込み前のフレーズ対セットPPSET1の処理に復帰する。
その後、制御部208は、カウンタ変数iが‘1’より小さいか否か判断する。これは、カウンタ変数iが‘0’以下の場合、フレーズ記憶部207にフレーズ対セットPPSETが格納されていないので、処理を終了するためである。しかし、現段階ではカウンタ変数iが‘1’であるので、ステップS605に戻る。
この段階では、カウンタ変数iが‘1’であり、ポインタJ1が‘3’であり、フレーズ対合計要素数N1が‘3’である。
そして、ステップS605〜ステップS609迄の処理で、割り込みで中断されていた図7の3行目に示す最後の未発話のフレーズ対PP(1,3)((3)by 3p.m.,(1)午後3時までに)を用いた処理を行う。つまり、図11の符号1107に示すように、音声フレーズ対PPAO(1,3)(by 3p.m.,ごごさんじまでに)の出力処理までが行なわれる。
この音声フレーズ対PPAO(1,3)の出力時に割り込みはなかったものとし、ポインタJ1を‘1’増加させた後、ステップS605に戻る。この段階では、カウンタ変数iが‘1’であり、ポインタJ1が‘4’であり、フレーズ対合計要素数N1が‘3’である。つまり、制御部208が、ポインタJ1がフレーズ対合計要素数N1より大きいと判断し、ステップS611に進む。これにより、フレーズ対セットPPSET1の全てのフレーズ対PPについて処理が終了したものとする。
そして、制御部208が、ステップS611において、フレーズ対セットPPSET1を削除する。次に、制御部208が、ステップS612において、カウンタ変数iを‘1’減少させてカウンタ変数i=0とする。そして、ステップS613において、制御部208が、カウンタ変数が‘1’より小さいと判断するので、フレーズ記憶部207にフレーズ対セットPPSETが存在しないものとみなし、処理を終了する。
このような処理手順で進めることで、日本語話者は原言語音声を聞くことで誤りが無いか否か確認できる。また、原言語音声と目的言語音声を対応付けて出力しているので、音声出力中に音声で割り込んでも誤解や混乱が生じることがない。また、誤りを発見した場合又は確認を行いたい場合、英語話者であっても割り込むことができる。そこで、次に日本語話者の音声出力中に、英語話者が割り込む場合について説明する。
状況としては、まず、日本語話者が最初に発話していることとする。そして、音声翻訳装置100が当該発話の音声出力している時に、該発話に対する翻訳誤りが生じる。この翻訳誤りから生じる混乱を解消するため、英語話者が音声で割り込む場合について説明する。
図12は、音声翻訳装置100に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの第2の例を示した図である。図12に示すように、第1音声入力受付部211が、まず、日本語話者から入力音声SAI1「このかうんたーでえんではらってもいいですか」の入力を受け付ける。その後に、第2音声入力受付部212が、割り込みで、英語話者から入力音声「Circle you mean coin」の入力を受け付ける。さらにその後、第1音声入力受付部211が、英語話者の音声出力後に、日本語話者から入力音声「いいえにほんえんです」の入力を受け付ける。
つまり、図12の状況を説明すると、まず、入力順1では、日本語音声認識部261が行う翻訳誤りが生じ、「円」が、「Circle」として翻訳された例とする。
そして、英語話者は、音声出力中に「Circle」の意味がわからないため、入力順2に示した入力音声SAI2「Circle, you mean coin?」という割り込みを行った。
そして、この後、日本語話者が英語話者に対する返答として、入力順3に示した「いいえ日本円です」と発話した。図12はこのような状況を想定している。
図13は、フレーズ記憶部207が保持するデータの第2の例を示した図である。図13に示すように、フレーズ記憶部207は、図12の入力順1〜3で入力された入力音声SAI1〜SAI3から生成されたフレーズ対セットPPSET1〜3が格納される。
図14は、音声翻訳装置100によりフレーズ対が出力される順序の例を示した説明図である。図14に示す順序で、音声翻訳装置100は、図13に示したフレーズ対セットPPSETiのフレーズ対を出力していくこととする。
図15は、時間経過に従って音声翻訳装置100が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第2の例におけるタイムチャート図である。そして、図15に示したタイムチャートに従って音声フレーズ対を出力するため処理手順を、図6と共に説明する。
まずは、制御部208が、ステップS601において、カウンタ変数i=1を代入する。そして、第1音声入力受付部211が、日本語話者からの最初の発話を検出し、英語話者からの入力受付を停止する。そして、図15の符号1501に示すように、日本語話者がマイク10に対して、入力音声SAI1「えんではらってもいいですか」を入力したものとする。これにより、ステップS602において、第1音声入力受付部211が、入力音声SAI1の入力を受け付ける。
そして、日本語音声認識部261は、入力音声SAI1を正しく認識し、原言語テキストS1「円で払ってもいいですか」を生成する。そして、機械翻訳部203が、原言語テキストS1を機械翻訳する。この際、機械翻訳部203が、原言語テキストS1の「円で」を正しくは「by yen」と翻訳すべきところを、「with a circle」と誤って翻訳を行ったものとする。これにより、機械翻訳部203は、目的言語テキストT1「May I pay with a circle?」を生成する。
フレーズアライメント部204が、原言語テキストS1及び目的言語テキストT1のそれぞれをフレーズ毎に分割した後、アライメント処理を行う。これにより、図13に示すフレーズ対セットPPSET1が、フレーズ記憶部207に記録される(以上、ステップS603)。
そして、制御部208は、ステップS604において、ポインタJ1=1とする。そして、ステップS605〜ステップS609までの処理で、音声翻訳装置100は、フレーズ記憶部207に格納されたフレーズ対PP(1,1)から、音声フレーズ対PPAO(1,1)を出力する。この出力された音声フレーズ対は、図15の音声フレーズ対1502が該当する。
この音声フレーズ対1502の出力中に、音声の割り込みはなかったものとして、ステップS605に戻る。この段階では、カウンタ変数iが‘1’であり、ポインタJ1が‘2’であり、フレーズ対合計要素数N1が‘3’である。そこで、音声翻訳装置100は、フレーズ対PP(1,2)の処理を行い、音声フレーズ対PPAO(1,2)を出力する。この出力された音声フレーズ対は、図15の音声フレーズ対1503が該当する。
また、目的言語フレーズTP(1,2)「with a circle」は翻訳誤りである。そこで、この音声フレーズ対1503に含まれる目的言語フレーズ音声信号TPAO(1,2)「with a circle」を聞いた英語話者は、対話の場面(支払いについて会話している)にそぐわないフレーズであると考える。
そこで、当該音声フレーズ対1503による音声出力中に、聞きなおしのために英語話者が、割り込み入力音声SAI2「Circle, you mean coin?」(円って硬貨のことですか?)と言ったものとする。この割り込み入力音声SAI2は、図15の符号1504が該当する。
これにより、第2音声入力受付部212が、割り込み入力音声SAI2の入力を受け付けたことになる。また、図6のステップS609において、音声割込フラグに“True”が代入されたことになる。
そこで、ステップS609において、制御部208は、音声割込フラグが“True”であると判断し、ステップS610に進み、カウンタ変数iを‘2’に設定する。
その後、ステップS603において、入力音声SAI2から、原言語テキストS2「Circle, you mean coin?」及び目的言語テキストT2「円って硬貨のことですか」を生成する。さらに、フレーズアライメント部204が、原言語テキストS2及び目的言語テキストT2のそれぞれをフレーズ毎に分割し、分割したフレーズ毎にアライメント処理を行う。このようにしてフレーズ対セットPPSET2を生成する。生成されたフレーズ対セットPPSET2は、フレーズ記憶部207に記憶される。このフレーズ記憶部207に記憶されたレコードは、図13の第4レコードと第5レコードに示してある。
そして、音声翻訳装置100は、ステップS604からステップS609までの処理を繰り返し行うことで、フレーズ対セットPPSET2のフレーズ対PP(2,1)及びフレーズ対PP(2,2)を用いた音声出力等の処理を行う。これらの処理により出力された音声は、図15の音声フレーズ対1505及び音声フレーズ対1506に該当する。
以上の処理により、音声翻訳装置100は、日本語話者に対して「円って硬貨のことですか?」という、入力音声SAI2の翻訳結果を音声出力した。
そして、日本語話者は、原言語フレーズ音声信号SPAO(1,2)「えんで」を既に聴いている。このため、日本語話者は、音声翻訳装置100により話者自身の発話が正しく音声認識されていることを確認している。なお、この「えんで」は、図15の音声フレーズ対1503に含まれている。
したがって、日本語話者は、話者自身の入力音声SAI1に含まれる「円で」の部分が翻訳誤り等の理由により、英語話者に正しく伝わらなかったと認識できる。
そこで、日本語話者が、入力音声SAI2による音声出力後に、入力音声SAI3「いいえにほんえんです」(いいえ、日本円です)を発話したとする。つまり、「円」を別の表現「日本円」に置き換えて発話することで、「円で」の誤解を解消しようとしている。この入力音声SAI3は、図15の符号1507に示してある。
そして、音声翻訳装置100は、図6のステップS603において、入力音声SAI3の認識処理を行い、原言語テキストS3「いいえ、日本円です」を生成したとする。そして、音声翻訳装置100は、原言語テキストS1に対して「円」を「Circle」と誤った翻訳をしたが、原言語テキストS3から正しく目的言語テキストT3「No, Japanese yen」を生成したとする。この手法は、公知の手法を用いることで実現できるので、説明を省略する。
さらに、音声翻訳装置100は、ステップS603において、原言語テキストS3および目的言語テキストT3から、フレーズ対セットPPSET3を生成する。このフレーズ対セットPPSET3は、図13の第6レコード及び第7レコードが該当する。そして、音声翻訳装置100は、このフレーズ対セットPPSET3を、フレーズ記憶部207に記録する。これによりステップS603の処理が終了する。
そして、音声翻訳装置100はさらに処理を行い、ステップS609の処理を繰り返し行うことで、音声フレーズ対PPAO(3,1)及び音声フレーズ対PPAO(3,2)を出力する。これら出力された音声フレーズ対は、図15の音声フレーズ対1508及び1509が該当する。
そのあと、ステップS605からステップS611〜ステップS613の処理を行うことで、フレーズ対セットPPSET1の処理を再開することになる。
フレーズ対セットPPSET1の音声フレーズ対PPAO(1,2)の出力処理までが既に終了しているので、音声翻訳装置100は、フレーズ対PP(1,3)を用いた処理を行う。つまり、音声翻訳装置100は、ステップS605〜S906の処理を行うことで、音声フレーズ対PPAO(1,3)の出力を行う。この出力された音声フレーズ対は、図15の音声フレーズ対1510が該当する。
このような処理を行うことで、音声翻訳装置100による誤訳が生じたにもかかわらず、英語話者に対して「日本円で払いたい」という日本語話者の意図を伝達させることができる。また、音声翻訳装置100は、これ以上割り込み入力音声はないものとし、図6に示す処理を終了する。
また、上述した実施の形態にかかる音声翻訳装置100においては、原言語音声フレーズを確認することで、目的言語フレーズの目的言語フレーズとして出力されている内容を原言語で利用者が確認できる。また、原言語話者は、音声認識された内容を全て確認できるので、音声翻訳装置100の音声認識の誤りを確実に検出することができる。また、原言語フレーズと目的語フレーズとを同時に出力することで、音声認識された内容を、日本語話者が確認した後、英語話者に対して出力するという処理手順が必要なくなる。
このように、原言語による入力音声を受け付けた後、目的言語に翻訳された目的言語フレーズ群を出力するまでの間に利用者が誤りなどを確認する時間を必要としないので、会話を適切に進めることができる。これによりタイムラグを減少させることができる。
上述した実施の形態に係る音声翻訳装置100によって、原言語の発話者が発話をした後、目的言語のフレーズを音声で出力している時に、当該目的言語フレーズと対応付けられた原言語のフレーズを音声出力することで、原言語発話者が音声認識などの誤りを確認できる。また、原言語話者が発話してから目的言語のフレーズを出力する間に、原言語話者が誤り確認等を行わないため、対話の遅延を防止することができる。
また、音声翻訳装置100は、原言語のフレーズと目的言語のフレーズとを音声出力する時に、原言語発話者及び目的言語話者のいずれかが発話による割り込みを受け付け可能とした。そして、原言語発話者及び目的言語話者は、音声出力中に、翻訳又は音声認識音声誤り等を理由に質問や訂正等のために割り込み発話を行った場合、音声翻訳装置100は、当該割り込んだ発話を優先して翻訳処理を行い、音声出力する。この場合、原言語発話者及び目的言語話者は常に同じ箇所の原言語音声及び目的言語音声を聴いているため、どこに問題が生じたのか推定することができる。これにより、原言語発話者及び目的言語話者の間で生じる誤解等を防止することができる。
また、上述した実施の形態に係る音声翻訳装置100は、割り込み発話が、終了した後に元の音声出力を再開する。このため、話者が再び同じ発話を行わなくとも良いので、話者の負担を軽減させることができる。
以上、具体的な手順を挙げながら、本発明の実施の形態について説明を行った。なお、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。その一例は上記手順中においていくつか述べてきたが、その他、形成可能な実施の形態の一例を以下に挙げる。
また、上述した実施の形態では翻訳手法として、語彙辞書および構造変換規則を用いて変換するトランスファー方式を用いた場合について説明した。しかしながら、上述したトランスファー方式に制限するものではなく、例えば、対訳用例の中から入力テキストとの類似度が高い用例を選び出す用例利用方式などを用いてもよい。
そこで、この変形例ではトランスファー方式以外の方式を用いることとする。この場合、フレーズアライメントとして、上述した方式とは異なる方式を用いることになる。例えば、フレーズアライメントとして、2言語間における単語やフレーズの共起確率を用いる方法など、さまざまな公知の手法が存在するので、これらを用いてもよい。
このような技術の例として、特開2004−38976公報に記載された技術がある。この開示された技術では、2言語辞書を用いて単語間の類似度を計ることによって単語アライメントとっている。次にこれをフレーズアライメントのための目印として、目的言語テキストから原言語フレーズと最も一致度が高いセグメントを抽出する。該手法では、不連続なセグメントも抽出できるように工夫している。このように音声翻訳装置のフレーズアライメント部では、さまざまなフレーズアライメント手法を用いることができる。
また、上述した実施の形態では、音声出力中に、原言語話者及び目的言語話者による割り込みが行われた場合の処理について説明した。しかしながら、原言語話者及び目的言語話者のいずれかが発話するかにより処理を異ならせるものではなかった。そこで、本変形例では、原言語発話者及び目的言語話者のいずれかが発話したかにより処理を変更する例について説明する。
この変形例では、割り込み発話は、音声認識結果や翻訳結果に誤りが生じた際に、当該出力中のフレーズ等に対する訂正や疑問等を示す発話であることを前提とする。そして、原言語話者が割り込むのは、音声認識結果に誤りが生じていることを確認した場合とする。また、目的言語話者だけが割り込むときは、翻訳結果に誤りが生じている場合とする。さらに、原言語話者と目的言語話者の双方が割り込むときは、音声認識結果に誤りが生じている場合とする。
したがって、本変形例にかかる音声翻訳装置では、上述した条件を処理として組み込むことで、割り込んで中断されたフレーズあるいは前後のフレーズの情報を利用して、再発話の音声認識結果の改善や、より良い翻訳候補の選択が可能になる。
このように発話の履歴を用いて、音声認識や翻訳の精度を向上させる手法はすでに数多く考案されている。例えば、特開2003−316386公報では、最初の発話と、訂正発話の一致部分を自動的に検出し、一致部分の発話履歴を用いて処理を行うことで、より適切と判断される認識候補を選択する手法を提案している。
例えば、本変形例の音声翻訳装置に対して、日本語話者から入力音声「午後3時までに早くホテルに到着してください」を受け付けた例について説明する。そして、音声翻訳装置が、入力音声「午後3時までに早くホテルに到着してください」の音声認識を誤り、原言語テキスト「午後3時までに/早く/ホテルに/当社を/ください。」を生成する。さらに、音声翻訳装置は、目的言語テキスト「Give/this company/to the hotel/by 3 p.m./soon.」を生成したとする。
そして、音声翻訳装置は、目的言語(英語)話者および原言語(日本語)話者に対して、音声フレーズ対 (1)(Give, ください)、(2)(this company, 当社を)、(3)(to the hotel, ホテルに)、(4)(by 3 p.m., 午後3時までに)、(5)(soon, 早く)の順で音声出力する。
そして、音声フレーズ対(2)の出力中、日本語話者がフレーズ「当社を」を聴いたときに、「到着してください」の部分が正しく認識されなかったと推測し、割り込み発話「到着してください」を行ったとする。
そして、音声翻訳装置が、割り込み入力音声「到着してください」の入力を受け付けた場合、原言語(日本語)テキストに含まれる「当社を」の前後のフレーズを参照して、割り込み入力音声の認識処理結果を示すテキスト「到着してください」と、元の原言語テキストの類似部分「当社をください」を検出する。
そこで、音声翻訳装置の音声認識部は、前発話における認識処理で用いられた「当社をください」以外の認識候補を優先し、当該部分を新たな認識結果「到着してください」に置換する。
さらに、音声翻訳装置は、上記置換部分のみを再翻訳するのではなく、置換された後の原言語テキスト全体の再翻訳を行い、目的言語テキストを生成する。これにより、音声翻訳装置は、目的言語テキスト「Please arrive at Hyatt Hotel by 3 p.m.」を取得できる。
次に、音声翻訳装置は、再生成された原言語テキスト及び目的言語テキストから生成されたフレーズ対セットのフレーズ(1)(arrive,到着してください)から順に音声出力する。
また、上述した変形例では、音声翻訳装置は元の原言語テキストと、割り込み入力音声の認識結果を示すテキストとの比較を行った。しかしながら、このような比較に制限するものではなく、例えば類似部分の検出を音声信号レベルでマッチングを行っても良い。これにより、さらに精度を向上させることができる。
また、上述した変形例では、誤り箇所が目的言語テキストの文頭で検出する場合について説明したが、誤り箇所が目的原テキストの途中で検出する場合も同様の処理を行うことができる。
また、上述した変形例では、音声翻訳装置が、原言語話者の入力音声に対して音声認識に誤りが生じた例について説明した。しかしながら、当該変形例にかかる音声翻訳装置は、入力音声に翻訳処理で誤訳が生じた際に、目的言語話者が割り込み発話を行う場合にも利用できる。
上述した実施の形態で説明したように、音声翻訳装置は、原言語話者から入力音声「円で」の入力を受け付けた場合に、正しくは「Yen」と翻訳する必要があるにもかかわらず、「circle」と翻訳したものとする。
そして、上述した実施形態と同様に、音声翻訳装置が、音声フレーズ対(with circle,円で)を音声出力した場合に、英語話者が割り込んで「Circle,You mean "coin"?」と発話した時の処理を説明する。
例えば、音声翻訳装置が保持する翻訳辞書において、「円」の対訳候補として優先順位1位“circle” 、優先順位2位“Yen”と複数保持しているものとする。そして、音声翻訳装置は、原言語話者から入力された入力音声の翻訳処理で優先順位1位の「circle」を訳語として選択した。
そして、音声翻訳装置は、英語話者から割り込み発話を検出したので、上述した訳語が誤っていた可能性があると判断する。このため、音声翻訳装置は、次の原言語話者から入力される入力音声に「円」が含まれている場合、優先順位2位の「Yen」を訳語として選択して、音声出力を行う。
また、音声翻訳装置は、さらに、最初の原言語テキストに含まれるフレーズ「円」の対訳候補と、割り込まれたテキストに含まれるフレーズ“coin"との意味的類似度を比較しても良い。
例えば、音声翻訳装置は、“circle”と“coin”とから算出した類似度と、“Yen"
と“coin”とから算出した類似度とを比較し、“coin”との類似度がより高い“Yen”を対訳の選択候補とする。
このような上述した変形例を、音声翻訳装置に組み込むことで、利用者が音声の誤認識や誤訳が生じた場合に、利用者が誤認識や誤訳が生じた箇所を指定せずとも、その後に修正した結果を出力できる。
また、音声翻訳装置に対して、聞き返しをあらわす特定のフレーズ“you mean…”,“it is… ”等を予め登録し、これらのフレーズが入力した場合に誤訳や音声の誤認識が生じたと判断しても良い。
このように、音声翻訳装置が、上述した変形例で示した手法を実現することで、割り込み発話と元発話の一致部分を特定することで誤認識の検出や、類似度等を用いて誤訳の検出を行うことで、音声翻訳装置の翻訳精度を向上させることができる。また、利用者が操作せずとも誤訳、誤認識の修正を行うので利便性が向上する。
なお、上述した実施の形態及び変形例では、音声翻訳装置が音声フレーズ対による音声出力中に割り込み発話を、音声出力中のフレーズに対する翻訳誤りや音声認識誤りによる誤解の解消のための発話としたが、割り込み発話をこのような発話に制限するものではない。
上述した実施の形態では、音声翻訳装置は、入力音声の音声認識結果を原言語話者にフィードバックしていた。しかし、音声翻訳装置は、このようなフィードバックに制限するものではない。
そこで変形例1に係る音声翻訳装置は、入力音声から生成された原言語テキストを翻訳して目的言語テキストを生成した後、さらに目的言語テキストを原言語に再翻訳(トランスレーションバック)し、この再翻訳した結果を、原言語話者に対して出力する際に追加する。
そして、本変形例にかかる音声翻訳装置は、音声認識した結果を発話者に対して音声出力する際、内部で処理したトランスレーションバックした結果と、音声認識結果と差異が大きいフレーズについては、当該出力音声にノイズを混合して出力する。これにより、音声翻訳装置は、利用者が、出力された音声を聴くときに、翻訳誤りが生じている可能性を喚起することができる。
例えば、音声翻訳装置が、原言語話者からの入力音声「円で/払っていいですか?」から、目的言語テキスト「May I pay/with circle?」を生成した場合、この目的言語テキストから生成を逆翻訳し、原言語テキスト「円周で/払っていいですか?」を生成したとする。
そして、音声翻訳装置が、元の音声認識結果「円で/払っていいですか?」と再翻訳された原言語テキスト「円周で/払っていいですか?」とフレーズ毎に比較する。つまり音声翻訳装置が、まず、“円周で”と“円で”とを比較し、“払っていいですか?”と“払っていいですか?”とを比較する。そして、音声翻訳装置は、“円周で”と“円で”との一致度が60%として算出し、“払っていいですか?”と“払っていいですか?”との一致度が100%として算出される。そして、一致度の閾値として70%が設定されているものとする。
そこで、音声翻訳装置は、発話者に対して主の音声認識に基づいて、フレーズ(円で,with circle)を出力するが、当該フレーズは一致度が閾値より下回っているのでノイズを加える。
つまり、逆翻訳結果が元の発話内容と異なる場合でも、翻訳誤り箇所であるとは限らない。また、逆翻訳結果の全てを利用者に対して出力して確認することにした場合、逆翻訳による誤訳が生じるため、利用者の負担が増大するが、効果はそれほど向上するものではない。
そこで、音声翻訳装置は、発話内容として音声認識結果を利用者に対して出力し、逆翻訳した場合の一致度が閾値より低い場合にノイズを付加することとした。これにより、音声翻訳装置は、利用者に対して、当該フレーズの翻訳の確信度を効率的に伝達することができる。
上述した手段により、話者は、音声翻訳装置から音声認識したテキストと共に、逆翻訳結果の情報を同時に受け取ることができる。これにより、利用者は、原言語フレーズを聴いて音声認識結果が正しいと判断した場合でも、当該フレーズのノイズを聴くことで誤訳が生じている可能性があることを認識することができる。
そして、原言語話者が、ノイズが大きいと判断したフレーズについては、翻訳誤りが生じていると判断できる。これにより、原言語話者は、当該フレーズについて別の表現で発話することで、目的言語話者との間で翻訳誤りによる誤解を解消することができる。これにより、非常にスムーズに対話を進めることができる。
上述した実施の形態においては、音声翻訳装置は、原言語と目的言語のフレーズを同時に出力していた。しかしながら、このように出力することに制限するものではなく、例えば、音声翻訳装置は、目的言語フレーズを目的言語話者に対して出力する前に、原言語話者に対して原言語のフレーズを出力してもよい。これにより、原言語話者は、目的言語話者が当該目的言語フレーズを聴く前に、訂正することができる。このように、目的言語のフレーズと、原言語のフレーズの出力に時間差を設けても良い。
また、上述した実施の形態においては、音声翻訳装置は、原言語フレーズと目的語フレーズとを音声で出力した。しかしながら、このような出力手法に制限するものではない。
そこで変形例として、音声翻訳装置が表示部に出力する例について説明する。本変形例において、音声翻訳装置は、小型携帯型端末であり、両面に液晶が備え付けられているものとする。そして、当該音声翻訳装置は、話者から入力音声を受け付けた場合、一方の面に原言語フレーズを表示すると共に、他方の面に目的語フレーズを表示する。そして、原言語話者が、一方の面の原言語フレーズを参照し、目的言語話者が、他方の面の目的言語フレーズを参照する。そして、割り込み等の処理については上述した実施形態と同様に、割り込み音声により受け付けることができる。
このように本変形例における音声翻訳装置は、これら原言語フレーズと目的語フレーズを、上述した実施の形態及び変形例の音声を出力するタイミングと同様のタイミングで表示することで、上述した実施の形態及び変形例と同様の効果を得ることができる。
また、上述した実施の形態においては、音声翻訳装置を使用する人数として、原言語話者と目的語話者の二人を想定していた。しかしながら、上述した実施の形態は、音声翻訳装置を使用する人数を二人に制限するものではなく、多人数対応に拡張してもよい。
また、上述した実施の形態においては、音声翻訳装置は、割り込み入力音声を受け付けた場合、当該入力音声による割り込み階層は何層でも生成することができる。このように割り込み階層が何層も生成された場合、元の発話に再帰的に戻ったとしても、利用者が既に忘れている又はすでに伝達が終了した等の理由により、復帰する利益が減少することもある。
そこで、音声翻訳装置は、自動的に元発話をキャンセルしてもよい。また、音声翻訳装置に元発話をキャンセルするためのボタン等が備え付けられており、話者が手動でキャンセルできるようにしてもよい。
これにより、話者との間の話題が割り込みしている間に変更された場合や、音声翻訳装置が出力した音声で音声認識がおかしかった場合にも対応できる。
図16は、上述した実施の形態にかかる音声翻訳装置のハードウェア構成を示す図である。音声翻訳装置は、ハードウェア構成として、音声翻訳装置における音声翻訳プログラムなどが格納されているROM1602と、ROM1602内のプログラムに従って音声翻訳装置の各部を制御するCPU1601と、音声翻訳装置の制御に必要な種々のデータを記憶するRAM(Randam Access Memory)1603と、話者からの音声信号を入力する音声入力I/F1604と、話者に対して音声信号を出力する音声出力I/F1605と、各部を接続するバス1606を備えている。また、音声翻訳装置は、上述した構成を備えた、一般的なコンピュータに適用することができる。
上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
この場合には、音声翻訳プログラムは、音声翻訳装置において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の音声翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の音声翻訳装置で実行される音声翻訳プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムは、入力された音声から翻訳処理を行う間に生じた誤りを確認する技術として有用である。
実施の形態にかかる音声翻訳装置を使用している状況を概念的に示した説明図である。 前記音声翻訳装置の構成を示すブロック図である。 前記音声翻訳装置の適用履歴記憶部に記憶された翻訳規則適応履歴の例を示した図である。 前記音声翻訳装置の対応付け部が行うアライメントの概念を示した説明図である。 前記音声翻訳装置のフレーズ記憶部が保持するデータ構造の例を示した図である。 前記音声翻訳装置の音声の入力を受け付けてから、音声を出力するまでの処理手順を示すフローチャートである。 前記翻訳装置の入力音声を受け付けた場合に、フレーズ対セットを生成するまでの処理手順を示すフローチャートである。 前記音声翻訳装置のフレーズ対の音声出力を行う際の処理手順を示すフローチャートである。 前記音声翻訳装置に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの例を示した図である。 前記音声翻訳装置によりフレーズ対が出力される順序の例を示した説明図である。 前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第1の例におけるタイムチャート図である。 前記音声翻訳装置に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの第2の例を示した図である。 前記音声翻訳装置のフレーズ記憶部が保持するデータの第2の例を示した図である。 前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第2の例におけるタイムチャート図である。 前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第2の例におけるタイムチャート図である。 音声翻訳装置のハードウェア構成を示す図である。
符号の説明
10 マイク
11 マイク
100 音声翻訳装置
150 スピーカ
160 ヘッドホン
201 音声入力受付部
202 音声認識部
203 機械翻訳部
204 フレーズアライメント部
205 音声出力部
206 音声合成部
207 フレーズ記憶部
208 制御部
211 第1音声入力受付部
212 第1音声入力受付部
221 ルール保持部
222 適用履歴記憶部
231 第1分割部
232 第2分割部
233 対応付け部
241 第1音声出力部
242 第2音声出力部
251 日本語音声合成部
252 英語音声合成部
261 音声認識部
261 日本語音声認識部
262 英語音声認識部
1601 CPU
1602 ROM
1603 RAM
1604 音声入力I/F
1605 音声出力I/F
1606 バス

Claims (7)

  1. 利用者から第1言語による音声の入力を受け付ける音声入力受付手段と、
    前記音声入力受付手段により入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識手段と、
    前記音声認識手段により生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳手段と、
    前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割手段と、
    前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割手段と、
    前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付手段と、
    前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付手段により対応付けられた前記第1のフレーズとを順次出力する出力手段と、を備え
    前記音声入力受付手段は、前記出力手段による前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付け、
    前記出力手段は、前記音声入力受付手段により音声の入力を受け付けた場合、前記第2のフレーズと前記第1のフレーズとの出力を停止する、
    とを特徴とする音声翻訳装置。
  2. 前記出力手段は、前記出力時に入力を受け付けた前記音声から生成された前記第2のフレーズと前記第1のフレーズとを出力した後、出力を停止していた音声から生成された前記第2のフレーズと前記第1のフレーズとを出力すること、
    を特徴とする請求項に記載の音声翻訳装置。
  3. 記出力手段は、前記第2のフレーズと、前記第1のフレーズとをほぼ同時に出力すること、
    を特徴とする請求項1又は2に記載の音声翻訳装置。
  4. 前記第1のフレーズを音声信号に合成する第1音声合成手段と、をさらに備え、
    前記出力手段は、前記音声合成手段により合成された前記第1のフレーズの音声信号を出力すること、
    を特徴とする請求項1乃至のいずれか一つに記載の音声翻訳装置。
  5. 前記第2のフレーズを音声信号に合成する第2音声合成手段と、をさらに備え、
    前記出力手段は、前記第2音声合成手段により合成された前記第2のフレーズの音声信号を出力すること、
    を特徴とする請求項1乃至のいずれか一つに記載の音声翻訳装置。
  6. 利用者から第1言語による音声の入力を受け付ける第1の音声入力受付ステップと、
    前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識ステップと、
    前記音声認識ステップにより生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳ステップと、
    前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割ステップと、
    前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割ステップと、
    前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付ステップと、
    前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付ステップにより対応付けられた前記第1のフレーズとを順次出力する出力ステップと、
    前記出力ステップによる前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付ける第2の音声入力受付ステップと、
    前記第2の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第2のフレーズと前記第1のフレーズとの出力を停止する停止ステップと、
    を有することを特徴とする音声翻訳方法。
  7. 入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、
    利用者から第1言語による音声の入力を受け付ける第1の音声入力受付ステップと、
    前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第1のテキストを生成する音声認識ステップと、
    前記音声認識ステップにより生成された前記第1のテキストを第2言語に翻訳して、第2のテキストを生成する翻訳ステップと、
    前記第1のテキストをフレーズ毎に分割し、第1のフレーズ群を生成する第1分割ステップと、
    前記第2のテキストをフレーズ毎に分割し、第2のフレーズ群を生成する第2分割ステップと、
    前記各第2のフレーズに対して、当該各第2のフレーズと意味的に等価な前記第1のフレーズを、対応付ける対応付ステップと、
    前記第2のテキストにおけるフレーズ順で、前記第2のフレーズと、当該第2のフレーズと前記対応付ステップにより対応付けられた前記第1のフレーズとを順次出力する出力ステップと、
    前記出力ステップによる前記第2のフレーズと、前記第1のフレーズとの出力時に、音声の入力を受け付ける第2の音声入力受付ステップと、
    前記第2の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第2のフレーズと前記第1のフレーズとの出力を停止する停止ステップと、
    をコンピュータに実行させる音声翻訳プログラム。
JP2006264203A 2006-09-28 2006-09-28 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム Active JP4481972B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006264203A JP4481972B2 (ja) 2006-09-28 2006-09-28 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US11/896,567 US8275603B2 (en) 2006-09-28 2007-09-04 Apparatus performing translation process from inputted speech
CNA2007101531421A CN101154221A (zh) 2006-09-28 2007-09-28 执行输入语音翻译处理的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006264203A JP4481972B2 (ja) 2006-09-28 2006-09-28 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2008083459A JP2008083459A (ja) 2008-04-10
JP4481972B2 true JP4481972B2 (ja) 2010-06-16

Family

ID=39255882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006264203A Active JP4481972B2 (ja) 2006-09-28 2006-09-28 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Country Status (3)

Country Link
US (1) US8275603B2 (ja)
JP (1) JP4481972B2 (ja)
CN (1) CN101154221A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484017B2 (en) 2013-09-18 2016-11-01 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009002336A1 (en) * 2007-06-26 2008-12-31 Jeffrey Therese M Enhanced telecommunication system
FR2921735B1 (fr) * 2007-09-28 2017-09-22 Joel Pedre Procede et dispositif de traduction ainsi qu'un casque mis en oeuvre par ledit dispositif
FR2923928B1 (fr) * 2007-11-19 2009-12-04 Bonneton William Systeme d'interpretation simultanee automatique.
JP2009302788A (ja) * 2008-06-11 2009-12-24 Konica Minolta Business Technologies Inc 画像処理装置、同装置による音声案内方法及び音声案内プログラム
CN102227723B (zh) * 2008-11-27 2013-10-09 国际商业机器公司 辅助误译的检测的装置及方法
US20120239377A1 (en) * 2008-12-31 2012-09-20 Scott Charles C Interpretor phone service
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US8775156B2 (en) 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
FR2965136B1 (fr) 2010-09-21 2012-09-21 Joel Pedre Traducteur verbal integre a ërception d'interlocuteur integree
CN102467908B (zh) * 2010-11-17 2016-01-06 英业达股份有限公司 多语语音控制***及其方法
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation
JP5750380B2 (ja) * 2012-02-10 2015-07-22 株式会社東芝 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2013206253A (ja) 2012-03-29 2013-10-07 Toshiba Corp 機械翻訳装置、方法、およびプログラム
US8903726B2 (en) * 2012-05-03 2014-12-02 International Business Machines Corporation Voice entry of sensitive information
EP2929461A2 (en) * 2012-12-06 2015-10-14 Raytheon BBN Technologies Corp. Active error detection and resolution for linguistic translation
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话***
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
JP6327848B2 (ja) * 2013-12-20 2018-05-23 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP6470097B2 (ja) * 2015-04-22 2019-02-13 株式会社東芝 通訳装置、方法およびプログラム
JP2015187738A (ja) * 2015-05-15 2015-10-29 株式会社東芝 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US20170060850A1 (en) * 2015-08-24 2017-03-02 Microsoft Technology Licensing, Llc Personal translator
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
JP2016186646A (ja) * 2016-06-07 2016-10-27 株式会社東芝 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2018008227A1 (ja) 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JP6709997B2 (ja) 2016-09-23 2020-06-17 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
CN107368475B (zh) * 2017-07-18 2021-06-04 中译语通科技股份有限公司 一种基于生成对抗神经网络的机器翻译方法和***
WO2019023893A1 (en) * 2017-07-31 2019-02-07 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR SEGMENTING A PHRASE
CN107886940B (zh) * 2017-11-10 2021-10-08 科大讯飞股份有限公司 语音翻译处理方法及装置
CN110085215B (zh) * 2018-01-23 2021-06-08 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
JP6457706B1 (ja) * 2018-03-26 2019-02-06 株式会社フォルテ 翻訳システム、翻訳方法、及び翻訳装置
EP3579121A1 (en) * 2018-06-05 2019-12-11 Nokia Technologies Oy Audio outputs
US10726211B1 (en) * 2018-06-25 2020-07-28 Amazon Technologies, Inc. Automated system for dynamically generating comprehensible linguistic constituents
WO2020039807A1 (ja) * 2018-08-24 2020-02-27 株式会社Nttドコモ 機械翻訳制御装置
CN109086276B (zh) * 2018-08-27 2022-12-06 Oppo广东移动通信有限公司 数据翻译方法、装置、终端及存储介质
CN110914828B (zh) * 2018-09-19 2023-07-04 深圳市合言信息科技有限公司 语音翻译方法及翻译装置
CN109344411A (zh) * 2018-09-19 2019-02-15 深圳市合言信息科技有限公司 一种自动侦听式同声传译的翻译方法
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
KR102178415B1 (ko) * 2018-12-06 2020-11-13 주식회사 이엠텍 양방향 통역 시스템
US11301645B2 (en) 2020-03-03 2022-04-12 Aziza Foster Language translation assembly
CN112668346B (zh) * 2020-12-24 2024-04-30 中国科学技术大学 翻译方法、装置、设备及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム
JPH04319769A (ja) 1991-04-18 1992-11-10 Toshiba Corp 通訳システム
JPH06124302A (ja) 1992-10-14 1994-05-06 Brother Ind Ltd 機械翻訳システム
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
JPH07129594A (ja) 1993-10-29 1995-05-19 Toshiba Corp 自動通訳システム
JP3367298B2 (ja) * 1994-11-15 2003-01-14 富士ゼロックス株式会社 言語情報提供装置、言語情報提供システムおよび言語情報提供方法
US6292769B1 (en) * 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
US6085162A (en) 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JP2000010977A (ja) 1998-06-18 2000-01-14 Hitachi Ltd 翻訳装置
JP2000029492A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
JP2001222531A (ja) 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声翻訳装置およびフィードバック機能付き音声翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3825645B2 (ja) 2000-03-10 2006-09-27 松下電器産業株式会社 表現変換方法及び表現変換装置
US6697777B1 (en) * 2000-06-28 2004-02-24 Microsoft Corporation Speech recognition user interface
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP3892302B2 (ja) 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7353165B2 (en) 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US20040102201A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for language translation via remote devices
JP3788793B2 (ja) 2003-04-25 2006-06-21 日本電信電話株式会社 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
US7660400B2 (en) * 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
US7698124B2 (en) * 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework
US7451188B2 (en) * 2005-01-07 2008-11-11 At&T Corp System and method for text translations and annotation in an instant messaging session
US20060248012A1 (en) * 2005-04-29 2006-11-02 Stefan Kircher Transmission of messages related to electronic documents
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US8121653B2 (en) * 2005-11-19 2012-02-21 Massachusetts Institute Of Technology Methods and apparatus for autonomously managing communications using an intelligent intermediary
US7913155B2 (en) * 2006-02-15 2011-03-22 International Business Machines Corporation Synchronizing method and system
JP2007220045A (ja) * 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20070225973A1 (en) * 2006-03-23 2007-09-27 Childress Rhonda L Collective Audio Chunk Processing for Streaming Translated Multi-Speaker Conversations
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484017B2 (en) 2013-09-18 2016-11-01 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof

Also Published As

Publication number Publication date
US20080091407A1 (en) 2008-04-17
JP2008083459A (ja) 2008-04-10
CN101154221A (zh) 2008-04-02
US8275603B2 (en) 2012-09-25

Similar Documents

Publication Publication Date Title
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR101689290B1 (ko) 대화에서 정보를 추출하는 장치
US7412387B2 (en) Automatic improvement of spoken language
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
WO2020146873A1 (en) System and method for direct speech translation system
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
US9070363B2 (en) Speech translation with back-channeling cues
US11093110B1 (en) Messaging feedback mechanism
EP1170726A1 (en) Speech recognition correction for devices having limited or no display
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
WO2007022058A9 (en) Processing of synchronized pattern recognition data for creation of shared speaker-dependent profile
JP2007264471A (ja) 音声認識装置および音声認識方法
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2008083855A (ja) 機械翻訳を行う装置、システム、方法およびプログラム
WO2003025904A1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US20090220926A1 (en) System and Method for Correcting Speech
JP2021529337A (ja) 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2011504624A (ja) 自動同時通訳システム
JP2006505002A (ja) 音声認識の方法およびシステム
JP5336805B2 (ja) 音声翻訳装置、方法、およびプログラム
US20150269930A1 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
WO2013083132A1 (en) Translation method and computer programme for assisting the same
EP1899955B1 (en) Speech dialog method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4481972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350