JP7429107B2

JP7429107B2 - 音声翻訳装置、音声翻訳方法及びそのプログラム

Info

Publication number: JP7429107B2
Application number: JP2019196078A
Authority: JP
Inventors: 博基古川; 敦坂口; 剛樹西川
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2019-03-25
Filing date: 2019-10-29
Publication date: 2024-02-07
Anticipated expiration: 2039-10-29
Also published as: CN111739511A; JP2020160429A

Description

本開示は、音声翻訳装置、音声翻訳方法及び音声翻訳方法を用いたプログラムに関する。

例えば特許文献１には、第１言語話者及び第１言語話者の会話相手である第２言語話者が発する音声を音声データに変換して出力する音声入力部と、第１言語話者が音声を発している間に入力される入力スイッチであって、第１言語話者が音声を発していない間も入力される入力スイッチと、入力された音声データを翻訳した翻訳結果を音声に変換して出力する音声出力部とを備える通訳システムが開示されている。

特許第３８９１０２３号公報

しかしながら、特許文献１に開示される技術では、第１話者及び第２話者が会話する際に、第１話者及び第２話者のそれぞれの発話に際し、発話の度に入力スイッチを操作する必要があり、操作が煩わしくなる。第１話者及び第２話者が会話する際に、度々、入力スイッチを操作することとなるため、通訳システムの使用頻度及び使用期間が増大してしまう。

また、第１話者及び第２話者が互いに通訳システムを操作する場合、通訳システムの非所有者は、通常、通訳システムの操作方法を理解していない。このため、通訳システムの操作に手間取ることとなるため、通訳システムの使用期間の増大に拍車がかかる。その結果、従来の通訳システムでは、使用期間の増大によるエネルギーを費やすこととなってしまうという課題がある。

そこで、本開示は、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。

本開示の一態様に係る音声翻訳装置は、第１言語で発話する第１話者と、前記第１話者の会話相手であり、前記第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第１話者及び前記第２話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第１言語から前記第２言語に翻訳した翻訳結果を表示し、かつ、前記第２言語から前記第１言語に翻訳した翻訳結果を表示する表示部と、前記第１話者の発話後に前記第２話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第２言語により出力し、かつ、前記第２話者の発話後に前記第１話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第１言語により出力する発話指示部とを備える。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示の音声翻訳装置等によれば、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。

図１Ａは、実施の形態１における音声翻訳装置の外観と、第１話者が発話したときの第１話者と第２話者との音声翻訳装置の使用場面の一例を示す図である。図１Ｂは、実施の形態１における音声翻訳装置の外観と、第２話者が発話したときの第１話者と第２話者との音声翻訳装置の使用場面の一例を示す図である。図１Ｃは、第１話者と第２話者とが会話をするときの音声翻訳装置の使用場面の別の一例を示す図である。図２は、実施の形態１における音声翻訳装置を示すブロック図である。図３は、実施の形態１における音声翻訳装置の動作を示すフローチャートである。図４は、実施の形態２における音声翻訳装置を示すブロック図である。図５は、実施の形態２における音声翻訳装置の動作を示すフローチャートである。図６は、実施の形態２の変形例における音声翻訳装置の動作を示すフローチャートである。図７は、実施の形態３における音声翻訳装置を示すブロック図である。図８は、実施の形態３における音声翻訳装置の動作を示すフローチャートである。図９は、実施の形態３の変形例における音声翻訳装置を示すブロック図である。図１０は、実施の形態４における音声翻訳装置を示すブロック図である。図１１は、実施の形態４における音声翻訳装置の動作を示すフローチャートである。

本開示の一態様に係る音声翻訳装置は、第１言語で発話する第１話者と、前記第１話者の会話相手であり、前記第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第１話者及び前記第２話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第１言語から前記第２言語に翻訳した翻訳結果を表示し、かつ、前記第２言語から前記第１言語に翻訳した翻訳結果を表示する表示部と、前記第１話者の発話後に前記第２話者に発話を促す内容を、前記表示部を介して前記第２言語により出力し、かつ、前記第２話者の発話後に前記第１話者に発話を促す内容を、前記表示部を介して前記第１言語により出力する発話指示部とを備える。

これによれば、第１話者と第２話者との会話から、それぞれの音声区間を検出することで、検出した音声を第１言語から第２言語に翻訳した翻訳結果を取得したり、検出した音声を第２言語から前記第１言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置では、翻訳をするための入力操作をしなくても、第１話者と第２話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。

また、音声翻訳装置は、第１話者が発話した後に第２話者に発話を促す内容を出力したり、第２話者が発話した後に第１話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置では、第１話者と第２話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第１話者と第２話者とが発話をするタイミングを認識することができる。

これらのように、音声翻訳装置では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置の操作に手間取り難いため、使用期間の増大を抑制することができる。

したがって、音声翻訳装置では、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。

特に、この音声翻訳装置では、操作を簡易にすることができるため、誤操作を抑制することもできる。

本開示の他の態様に係る音声翻訳方法は、第１言語で発話する第１話者と、前記第１話者の会話相手であり、前記第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳方法であって、音声入力部に入力される音から、前記第１話者及び前記第２話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す前記第１言語から前記第２言語に翻訳した翻訳結果を表示し、かつ、前記第２言語から前記第１言語に翻訳した翻訳結果を表示する表示部が表示することと、前記第１話者の発話後に前記第２話者に発話を促す内容を、前記表示部を介して前記第２言語により出力し、かつ、前記第２話者の発話後に前記第１話者に発話を促す内容を、前記表示部を介して前記第１言語により出力することとを含む。

この音声翻訳方法においても、上述の音声翻訳装置と同様の作用効果を奏する。

また、本開示の他の態様に係るプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。

このプログラムにおいても、上述の音声翻訳装置と同様の作用効果を奏する。

本開示の他の態様に係る音声翻訳装置は、さらに、前記第１話者又は前記第２話者が発話して音声認識された場合、再度、当該発話した前記第１話者又は前記第２話者の発話を、優先して音声認識する優先発話入力部を備える。

これによれば、例えば第１話者及び第２話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる（言い直すことができる）。このため、優先発話入力部は、第１話者及び第２話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置は、第１話者及び第２話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。

本開示の他の態様に係る音声翻訳装置は、さらに、前記第１話者と前記第２話者とが会話する音声が入力される音声入力部と、前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、前記音声認識部が変換した前記テキスト文を前記第１言語から前記第２言語に翻訳し、かつ、前記第２言語から前記第１言語に翻訳する翻訳部と、前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える。

これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置は、第１話者と第２話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置は、外部サーバと通信しなくても、第１話者と第２話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置が外部サーバと通信し難い環境下においても適用することができる。

本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部と、取得する信号を、前記第１ビームフォーマ部の出力信号、又は、前記第２ビームフォーマ部の出力信号に切換える入力切換部と、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、前記発話指示部は、前記入力切換部に、前記第１ビームフォーマ部の出力信号を取得するか、前記第２ビームフォーマ部の出力信号を取得するかを切換えさせる。

これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、入力切換部は、話者の方向に適した第１ビームフォーマ部の出力信号及び第２ビームフォーマ部の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置では、第１話者及び第２話者の音声について、周囲ノイズを低減して収音することができる。

本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、当該音声翻訳装置に対する前記第１話者の位置に対応する前記表示部の表示領域に前記第１言語を表示させ、当該音声翻訳装置に対する前記第２話者の位置に対応する前記表示部の表示領域に前記第２言語を表示させる制御部とを備え、前記制御部は、当該音声翻訳装置の表示部から前記第１話者又は前記第２話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる。

これによれば、表示部の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第１言語で発話する第１話者か第２言語で発話する第２話者かを特定することができる。この場合、第１話者の音声を第１言語で音声認識することができ、第２話者の音声を第２言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。

これにより、音声翻訳装置は、第１言語の音声及び第２言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置では、誤翻訳等を抑制することで音声翻訳装置の処理量の増大を抑制することができる。

本開示の他の態様に係る音声翻訳装置において、前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する。

これによれば、表示方向と音源方向とが異なる場合でも、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。

本開示の他の態様に係る音声翻訳装置において、前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。

これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第１話者と第２話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。

本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部と、前記第１ビームフォーマ部の出力信号、及び、前記第２ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える。

これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、音源方向推定部は、話者の方向に適した第１ビームフォーマ部の出力信号及び第２ビームフォーマ部の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。

本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、当該音声翻訳装置の起動時に、前記第１話者に発話を促す内容を、前記表示部を介して前記第１言語により出力し、前記第１話者の発話による音声が前記第１言語から前記第２言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第２話者に発話を促す内容を、前記表示部を介して前記第２言語により出力する。

これによれば、第１言語で第１話者が発話した後に、第２言語で第２話者が発話することを予め登録しておけば、音声翻訳装置の起動時に、第１話者に発話を促す内容を第１言語により出力すれば、第１話者は、発話を開始することができる。このため、音声翻訳装置の起動時に、第２言語で第２話者が発話することによる誤翻訳を抑制することができる。

本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる。

これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置のエネルギー消費の増大を抑制することができる。

本開示の他の態様に係る音声翻訳装置において、前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する。

これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。

特に、音声出力部が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

以下、本開示の一態様に係る音声翻訳装置、音声翻訳方法及びそのプログラムについて、図面を参照しながら具体的に説明する。

（実施の形態１）
＜構成：音声翻訳装置１＞
図１Ａは、実施の形態１における音声翻訳装置１の外観と、第１話者が発話したときの第１話者と第２話者との音声翻訳装置１の使用場面の一例を示す図である。図１Ｂは、実施の形態１における音声翻訳装置１の外観と、第２話者が発話したときの第１話者と第２話者との音声翻訳装置１の使用場面の一例を示す図である。

図１Ａ及び図１Ｂに示すように、音声翻訳装置１は、第１言語で発話する第１話者と、第１話者の会話相手であり、第１言語と異なる第２言語で発話する第２話者とが会話を行うために、第１話者と第２話者との間の会話を双方向に翻訳する装置である。つまり、音声翻訳装置１は、第１話者と第２話者との異なる２つの言語間において、第１話者と第２話者とが発話（発声）したそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する装置である。例えば、音声翻訳装置１は、第１話者が発話する第１言語を第２言語に翻訳して出力し、第２話者が発話する第２言語を第１言語に翻訳して出力する。また、第１言語及び第２言語は、例えば、日本語、英語、フランス語、ドイツ語、中国語等である。

本実施の形態の図１Ａ及び図１Ｂでは、１名の第１話者と、１名の第２話者とが対面しながら会話する様子を例示する。なお、複数の第１話者と複数の第２話者とが会話する際に用いてもよい。

なお、第１話者及び第２話者は、音声翻訳装置１を用いて対面しながら会話したり、図１Ｃに示すように、左右に並んで会話したりしてもよい。図１Ｃは、第１話者と第２話者とが会話をするときの音声翻訳装置１の使用場面の別の一例を示す図である。この場合、音声翻訳装置１は、表示態様を変更してもよい。このような音声翻訳装置１は、図１Ａ、図１Ｂ及び図１Ｃに示すように、縦向き又は横向きにされた状態で用いられる。

音声翻訳装置１は、スマートホン及びタブレット端末等の、第１話者が携帯可能な携帯端末である。

図２は、実施の形態１における音声翻訳装置１を示すブロック図である。

図２に示すように、音声翻訳装置１は、音声入力部２１と、音声検出部２２と、優先発話入力部２４と、発話指示部２５と、音声認識部２３と、翻訳部２６と、表示部２７と、音声出力部２８と、電源部２９とを備える。

［音声入力部２１］
音声入力部２１は、第１話者と第２話者とが会話する際の音声が入力されるマイクロフォンであり、音声検出部２２と通信可能に接続される。つまり、音声入力部２１は、音を取得（収音）し、取得した音から電気信号に変換し、変換した電気信号である音響信号を音声検出部２２に出力する。なお、音声入力部２１が取得した音響信号を記憶部等に記憶してもよい。

なお、音声入力部２１は、アダプタとして構成されてもよい。この場合、音声入力部２１は、音声翻訳装置１にマイクロフォンが装着されることで機能し、マイクロフォンが取得する音響信号を取得する。

［音声検出部２２］
音声検出部２２は、音声入力部２１に入力される音から、第１話者及び第２話者が発話した音声区間を検出する装置であり、音声入力部２１及び音声認識部２３と通信可能に接続される。具体的には、音声検出部２２は、音声入力部２１から取得した音響信号に示される音量から、音量が大きくなった瞬間と、音量が小さくなった瞬間とを音声の区切り目とみなし、音響信号における音声区間の開始時点及び終了時点を検出（終話検出）する。ここで、音声区間は、話者の発話による一話ごとの音声を示すが、一話の音声における開始地点から終了地点までの期間を含んでいてもよい。

音声検出部２２は、音響信号から検出した音声区間、つまり、音響信号から第１話者と第２話者との会話のそれぞれの音声を検出し、検出した音声を示す音声情報を音声認識部２３に出力する。

［発話指示部２５］
発話指示部２５は、第１話者の発話後に第２話者に発話を促す内容を、表示部２７を介して第２言語により出力し、かつ、第２話者の発話後に第１話者に発話を促す内容を第１言語により出力する装置である。つまり、発話指示部２５は、第１話者と第２話者とが会話できるように、それぞれのタイミングで第１話者又は第２話者に発話を促す内容である発話指示テキスト情報を表示部２７に出力する。また、発話指示部２５は、第１話者又は第２話者に発話を促す内容である発話指示音声情報を音声出力部２８に出力する。この場合、発話指示部２５は、表示部２７に出力する発話指示テキスト情報に示される内容と同様の内容である発話指示音声情報を音声出力部２８に出力する。なお、発話指示部２５は、発話指示音声情報を音声出力部２８に出力しなくてもよく、音声による発話を促す内容を出力することは必須ではない。

ここで、発話指示テキスト情報は、第１話者又は第２話者に発話を促す内容を示すテキスト文である。また、発話指示音声情報は、第１話者又は第２話者に発話を促す内容を示す音声である。

また、発話指示部２５は、翻訳部２６が第１言語を第２言語に翻訳、又は、翻訳部２６が第２言語を第１言語に翻訳するための指示コマンドを出力する。例えば第１話者の発話後に第２話者が発話するため、発話指示部２５は、第２話者が発話した音声を第２言語で音声認識するための指示コマンドを音声認識部２３に出力し、音声認識された音声を第２言語から第１言語に翻訳するための指示コマンドを翻訳部２６に出力する。また、第１話者が発話した場合も同様である。

また、発話指示部２５は、第１話者及び第２話者のうちの一方の話者が発話後に、他方の話者に発話を促す内容である発話指示テキスト情報を表示部２７に出力する。一方の話者が発話した音声を、翻訳部２６が翻訳した翻訳結果を出力する時点又は出力した後に、発話指示部２５は、発話指示テキスト情報を表示部２７に出力し、発話指示音声情報を音声出力部２８に出力する。

また、発話指示部２５は、後述する優先発話入力部２４から指示コマンドを取得すると、直近に発話した話者に対して、再度、発話を促す内容である発話指示テキスト情報を表示部２７に出力し、発話指示音声情報を音声出力部２８に出力する。

また、発話指示部２５は、当該音声翻訳装置１の起動時に、第１話者に発話を促す内容を、表示部２７を介して第１言語により出力する。つまり、第１話者が音声翻訳の所有者である場合、発話指示部２５は、第１話者から発話を開始するように促す。また、発話指示部２５は、第１話者の発話による音声が第１言語から第２言語に翻訳されて、表示部２７に翻訳結果が表示された後に、第２話者に発話を促す内容を、表示部２７を介して第２言語により出力する。第１言語の第１話者の発話が第２言語に翻訳された後に、第２話者が第２言語で発話し、発話した第２言語が第１言語に翻訳される。これを繰り返し行うことで、第１話者と第２話者との会話が弾む。

また、発話指示部２５は、翻訳開始後、発話を促すための音声を規定回数、音声出力部２８に出力させる。つまり、第２話者が直ぐに発話をしない、又は、聞き取れない場合等があるため、発話指示部２５は、発話を促すための音声を規定回数出力する。発話指示部２５は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部２７に出力させる。つまり、発話を促すための音声を規定回数出力しても、効果がない場合、電力の消費を抑制するために、発話を促すためのメッセージを表示部２７に表示させる。

発話指示部２５は、音声認識部２３、優先発話入力部２４、翻訳部２６、表示部２７及び音声出力部２８と通信可能に接続される。

［優先発話入力部２４］
優先発話入力部２４は、第１話者又は第２話者が発話して音声認識された場合、再度、当該発話した第１話者又は第２話者の発話を優先して（又は連続して）音声認識部２３に音声認識させることができる装置である。つまり、優先発話入力部２４は、直近に発話した話者であって発話した音声が音声認識された話者に対して、再度、発話した第１話者又は第２話者に発話を行う機会を与えることができる。言い換えれば、優先発話入力部２４は、第１話者及び第２話者の一方の話者が発話した音声を音声認識し終えて、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。

優先発話入力部２４は、音声翻訳装置１の操作者から入力を受付ける操作入力部である。例えば、発話した話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合、音声検出部２２が音声を検出しない区間が規定区間以上となると、音声翻訳装置１が発話を終了したと認識する恐れがある場合等のように、直近に発話した話者が続けて発話したいときがある。このため、優先発話入力部２４は、直近に発話した話者が発話する音声を優先して音声認識部２３に音声認識させ、かつ、翻訳部２６に翻訳させる。これにより、優先発話入力部２４は、発話指示部２５に再度、発話を促す内容である発話指示テキスト情報及び発話指示音声情報を発話指示部２５に出力させるための指示コマンドを、発話指示部２５に出力する。操作者は、第１話者及び第２話者の少なくとも一方であるが、本実施の形態では、主に第１話者である。

本実施の形態では、優先発話入力部２４は、音声翻訳装置１の表示部２７と一体的に設けられるタッチセンサである。この場合、音声翻訳装置１の表示部２７には、優先発話入力部２４としての、一方の話者による操作を受付ける操作ボタンが表示されていてもよい。

本実施の形態では、音声認識部２３が音声認識を第１言語から第２言語に切換えたときに、切換え前の第１言語を優先して音声認識して翻訳させるために、第１言語の優先ボタンである優先発話入力部２４を表示部２７に表示する。また、音声認識部２３が音声認識を第２言語から第１言語に切換えたときに、切換え前の第２言語を優先して音声認識して翻訳させるために、第２言語の優先ボタンである優先発話入力部２４を表示部２７に表示する。このような、優先ボタンは、少なくとも翻訳後に、表示部２７に表示される。

［音声認識部２３］
音声認識部２３は、音声検出部２２が検出した音声区間の音声を音声認識することで、テキスト文に変換する。具体的には、音声認識部２３は、音声検出部２２が検出した音声情報を取得すると、音声情報に示される音声を音声認識する。例えば、音声情報に示される音声が第１言語である場合、当該音声を第１言語で音声認識し、音声情報に示される音声が第２言語である場合、当該音声を第２言語で音声認識する。音声認識部２３は、第１言語で音声を音声認識した場合、音声認識した音声の内容を示す第１テキスト文を生成し、生成した第１テキスト文を翻訳部２６に出力する。また、音声認識部２３は、第２言語で音声を音声認識した場合、音声認識した音声の内容を示す第２テキスト文を生成し、生成した第２テキスト文を翻訳部２６に出力する。

［翻訳部２６］
翻訳部２６は、音声認識部２３が変換したテキスト文を第１言語から第２言語に翻訳し、かつ、第２言語から第１言語に翻訳する翻訳装置である。具体的には、翻訳部２６は、音声認識部２３からテキスト文である第１テキスト文を取得すると、第１言語から第２言語に翻訳する。つまり、翻訳部２６は、第１テキスト文を第２言語に翻訳した第２翻訳テキスト文を生成する。また、翻訳部２６は、音声認識部２３からテキスト文である第２テキスト文を取得すると、第２言語から第１言語に翻訳する。つまり、翻訳部２６は、第２テキスト文を第１言語に翻訳した第１翻訳テキスト文を生成する。

ここで、第１言語で示された第１テキスト文の内容は、第２言語で示された第２翻訳テキスト文の内容と一致する。また、第２言語で示された第２テキスト文の内容は、第１言語で示された第１翻訳テキスト文の内容と一致する。

翻訳部２６は、第２翻訳テキスト文を生成すると、第２翻訳テキスト文の内容を認識し、認識した第２翻訳テキスト文の内容を示す第２言語の翻訳音声を生成する。また、翻訳部２６は、第１翻訳テキスト文を生成すると、第１翻訳テキスト文の内容を認識し、認識した第１翻訳テキスト文の内容を示す第１言語の翻訳音声を生成する。なお、第１翻訳テキスト文及び第２翻訳テキスト文に基づく翻訳音声の生成は、音声出力部２８が行ってもよい。

翻訳部２６は、第２翻訳テキスト文又は第１翻訳テキスト文を生成すると、生成した第２翻訳テキスト文又は第１翻訳テキスト文を表示部２７に出力する。また、翻訳部２６は、第２言語の翻訳音声を生成又は第１言語の翻訳音声を生成すると、生成した第２言語の翻訳音声を生成又は第１言語の翻訳音声を音声出力部２８に出力する。

翻訳部２６は、発話指示部２５、音声認識部２３、表示部２７及び音声出力部２８と通信可能に接続される。

［表示部２７］
表示部２７は、例えば、液晶パネル、又は、有機ＥＬパネル等のモニタであり、発話指示部２５及び翻訳部２６と通信可能に接続される。具体的には、表示部２７は、音声検出部２２が検出した音声区間の音声が音声認識されることで、当該音声が示す第１言語から第２言語に翻訳した翻訳結果を表示し、かつ、第２言語から第１言語に翻訳した翻訳結果を表示するモニタである。表示部２７は、翻訳部２６から取得した第１テキスト文、第２テキスト文、第１翻訳テキスト文及び第２翻訳テキスト文を表示する。また、表示部２７は、これらのテキスト文を表示した後又は同時に、第１話者又は第２話者に発話を促す内容である発話指示テキスト情報を表示する。

なお、表示部２７は、音声翻訳装置１に対する第１話者と第２話者との位置関係に応じて、テキスト文を表示する画面レイアウトを変更する。例えば、図１Ａ及び図１Ｂに示すように、表示部２７は、第１話者が発話すると、第１話者側に位置する表示部２７の表示領域に音声認識された第１テキスト文を表示し、第２話者側に位置する表示部２７の表示領域に翻訳された第２翻訳テキスト文を表示する。また、表示部２７は、第２話者が発話すると、第２話者側に位置する表示部２７の表示領域に音声認識された第２テキスト文を表示し、第１話者側に位置する表示部２７の表示領域に翻訳された第１翻訳テキスト文を表示する。これらの場合、表示部２７は、第１テキスト文と第２翻訳テキスト文との文字の向き、及び、第１翻訳テキスト文と第２テキスト文との文字の向きが逆さまとなって表示する。なお、図１Ｃに示すように、表示部２７は、第１話者と第２話者とが左右に並んで会話する場合、第１テキスト文と第２テキスト文との文字の向きが同一となるように表示する。

［音声出力部２８］
音声出力部２８は、翻訳部２６が翻訳した結果である翻訳音声を翻訳部２６から取得し、取得した翻訳音声を出力するスピーカであり、翻訳部２６及び発話指示部２５と通信可能に接続される。つまり、音声出力部２８は、第１話者が発話した場合、表示部２７に表示される第２翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部２８は、第２話者が発話した場合、表示部２７に表示される第１翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。

また、音声出力部２８は、発話指示音声情報を取得すると、第１話者又は第２話者に、発話指示音声情報に示される発話を促す内容である音声を再生して出力する。音声出力部２８は、第１翻訳テキスト文又は第２翻訳テキスト文の翻訳音声を出力した後に、発話指示音声情報に示される音声を再生して出力する。

［電源部２９］
電源部２９は、例えば一次電池又は二次電池等であり、配線を介して音声入力部２１、音声検出部２２、優先発話入力部２４、発話指示部２５、音声認識部２３、翻訳部２６、表示部２７及び音声出力部２８等と電気的に接続される。電源部２９は、音声検出部２２、優先発話入力部２４、発話指示部２５、音声認識部２３、翻訳部２６、表示部２７及び音声出力部２８等に電力を供給する。

＜動作＞
以上のように構成される音声翻訳装置１が行う動作について、図３を用いて説明する。

図３は、実施の形態１における音声翻訳装置１の動作を示すフローチャートである。

音声翻訳装置１には、第１話者が第１言語による発話を行うことを予め設定し、第２話者が第２言語による発話を行うことを予め設定する。ここでは、第１話者及び第２話者のうちの一方の話者が発話を開始した場合を想定する。第１話者は、音声翻訳装置１を起動させることで、音声翻訳装置１は、第１話者及び第２話者の会話の翻訳を開始する。

まず、図３に示すように、第１話者と第２話者とが会話を行う際、音声を発する前に音声翻訳装置１を起動する。音声翻訳装置１は、音を取得し（Ｓ１１）、取得した音を示す音響信号を生成する。本実施の形態では、一方の話者が発話を開始すると、音声翻訳装置１は、一方の話者が発話した音声を取得する。図１Ａに示すように、一方の話者が第１話者である場合、「何をお探しですか？」と発話すると、音声入力部２１は、この発話した音声を取得する。音声入力部２１は、音を取得し、取得した音を電気信号に変換し、変換した電気信号である音響信号を音声検出部２２に出力する。

次に、音声検出部２２は、音声入力部２１から音響信号を取得すると、音響信号に示される音から一方の話者の音声区間を検出することで（Ｓ１２）、検出した音声を一方の話者の音声として抽出する。一例を挙げると、図１Ａに示すように、音声入力部２１に入力される音から、第１話者の「何をお探しですか？」という音声区間を検出し、検出した音声を抽出する。音声検出部２２は、抽出した一方の話者の音声を示す音声情報を音声認識部２３に出力する。

発話指示部２５は、一方の話者が発話した言語で音声認識するための指示コマンドを音声認識部２３に出力し、音声認識された音声を一方の言語から他方の言語に翻訳するための指示コマンドを翻訳部２６に出力する。つまり、発話指示部２５は、音声認識部２３が一方の話者が発話する言語を認識できるように、音声認識部２３の認識言語を切換えるための指示コマンドを出力する。また、発話指示部２５は、翻訳部２６が音声認識部２３で音声認識された言語に基づいて所望の言語で翻訳できるように、翻訳言語を切換えるための指示コマンドを出力する。

例えば、音声認識部２３は、指示コマンドを取得すると、認識言語を第２言語から第１言語に、又は、認識言語を第１言語から第２言語に切換える。また、翻訳部２６は、指示コマンドを取得すると、翻訳言語を第２言語から第１言語に、又は、第１言語から第２言語に切換える。

次に、音声認識部２３は、指示コマンドと音声情報とを取得すると、音声情報に示される音声を音声認識する（Ｓ１３）。例えば、一方の話者の言語が第１言語であれば、音声認識部２３は、認識言語を第１言語に選択し、選択した第１言語で音声情報に示される音声を音声認識する。つまり、音声認識部２３は、音声情報に示される音声を、第１言語のテキスト文に変換し、変換した第１テキスト文を翻訳部２６に出力する。また、一方の話者の言語が第２言語であれば、音声認識部２３は、認識言語を第２言語に選択し、選択した第２言語で音声情報に示される音声を音声認識する。つまり、音声認識部２３は、音声情報に示される音声を、第２言語のテキスト文に変換し、変換した第２テキスト文を翻訳部２６に出力する。

一例を挙げると、図１Ａに示すように、音声認識部２３は、音声情報に示される音声「何をお探しですか？」を、第１テキスト文「何をお探しですか？」に変換する。

次に、翻訳部２６は、音声認識部２３からテキスト文を取得すると、第１言語及び第２言語のうちの一方の言語から他方の言語に翻訳する（Ｓ１４）。つまり、翻訳部２６は、テキスト文が第１言語の第１テキスト文であれば第２言語に翻訳し、翻訳した結果である第２翻訳テキスト文を生成する。また、翻訳部２６は、テキスト文が第２言語の第２テキスト文であれば第１言語に翻訳し、翻訳した結果である第１翻訳テキスト文を生成する。一例を挙げると、図１Ａに示すように、翻訳部２６は、第１言語の第１テキスト文「何をお探しですか？」を、第２言語に翻訳して、第２翻訳テキスト文「What are you looking for?」を生成する。

次に、翻訳部２６は、生成した第２言語の第２翻訳テキスト文又は第１言語の第１翻訳テキスト文を表示部２７に出力する。表示部２７は、第２翻訳テキスト文又は第１翻訳テキスト文を表示する（Ｓ１５）。一例を挙げると、図１Ａに示すように、表示部２７は、第２翻訳テキスト文「What are you looking for?」を表示する。

また、翻訳部２６は、第２翻訳テキスト文を生成すると、当該第２翻訳テキスト文を音声に変換した第２言語の翻訳音声を生成する。また、翻訳部２６は、第１翻訳テキスト文を生成すると、当該第１翻訳テキスト文を音声に変換した第１言語の翻訳音声を生成する。翻訳部２６は、生成した第２言語の翻訳音声又は第１言語の翻訳音声を音声出力部２８に出力する。音声出力部２８は、第２言語の翻訳音声又は第１言語の翻訳音声を出力する（Ｓ１６）。一例を挙げると、図１Ａに示すように、音声出力部２８は、第２翻訳テキスト文「What are you looking for?」を音声により出力する。なお、ステップＳ１５及びＳ１６の処理は、同一のタイミングであってもよく、処理が反対であってもよい。

次に、発話指示部２５は、優先発話入力部２４から指示コマンドを取得したかどうかを判定する（Ｓ１７）。例えば、一方の話者が再度発話したい場合、音声翻訳装置１の操作者は、優先発話入力部２４を操作する。これにより、優先発話入力部２４は、操作を受付けると、指示コマンドを発話指示部２５に出力する。

発話指示部２５が優先発話入力部２４から指示コマンドを取得した場合（Ｓ１７でＹＥＳ）、音声認識部２３及び翻訳部２６は、一方の話者の音声認識及び翻訳の処理を終了並びに中断、又は、他方の話者の音声を音声認識するための処理に移行していても、一方の話者が発話する音声を音声認識及び翻訳する処理に戻す。発話指示部２５は、直近に発話した音声が音声認識された一方の話者に対して、当該一方の話者が発話する音声を優先して音声認識するために、再度、一方の話者に発話を促す内容である発話指示テキスト情報を表示部２７に出力する。表示部２７は、発話指示部２５から取得した発話指示テキスト情報を表示する（Ｓ１８）。一例を挙げると、表示部２７は、発話指示テキスト情報「もう一度発話して下さい」を表示する。

また、発話指示部２５は、優先発話入力部２４から指示コマンドを取得した場合、一方の話者に発話を促す内容である発話指示音声情報を音声出力部２８に出力する。音声出力部２８は、発話指示部２５から取得した発話指示音声情報を音声により出力する（Ｓ１９）。一例を挙げると、音声出力部２８は、発話指示音声情報「もう一度発話して下さい」を音声により出力する。

この場合、音声翻訳装置１は、他方の話者に対して、「Thank you for your patience.」等を表示したり、音声で出力したりしてもよく、何も出力しなくてもよい。なお、ステップＳ１８、Ｓ１９の処理は同時に行ってもよく、処理が逆転してもよい。

また、発話指示部２５は、発話指示音声情報を規定回数、音声出力部２８に出力させてもよい。発話指示部２５は、規定回数の発話指示音声情報を出力した後に、発話指示音声情報のメッセージを表示部２７に出力させてもよい。

そして、音声翻訳装置１は、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置１は、ステップＳ１１から処理を開始する。

一方、発話指示部２５は、優先発話入力部２４から指示コマンドを取得できない場合（Ｓ１７でＮＯ）、他方の話者に発話を促す内容である発話指示テキスト情報を表示部２７に出力する。例えば、この場合、一方の話者が再度発話する必要がなく、音声が正しく認識された場合である。表示部２７は、発話指示部２５から取得した発話指示テキスト情報を表示する（Ｓ２１）。一例を挙げると、図１Ａに示すように、表示部２７は、発話指示テキスト情報「Your Turn!」を表示する。

また、発話指示部２５は、優先発話入力部２４から指示コマンドを取得できない場合、他方の話者に発話を促す内容である発話指示音声情報を音声出力部２８に出力する。音声出力部２８は、発話指示部２５から取得した発話指示音声情報を音声により出力する（Ｓ２２）。一例を挙げると、音声出力部２８は、発話指示音声情報「Your Turn!」を音声により出力する。なお、ステップＳ２１、Ｓ２２の処理は同時に行ってもよく、処理が逆転してもよい。

また、発話指示部２５は、発話を促すための音声を規定回数、音声出力部２８に出力させてもよい。発話指示部２５は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部２７に出力させてもよい。

このように、第１話者が音声翻訳装置１を最初に操作するだけで、音声翻訳装置１は、第１話者と第２話者との会話を翻訳することができる。

なお、一方の話者の発話に対して他方の話者が発話する場合も同様の処理であるため、その説明を省略する。

＜作用効果＞
次に、本実施の形態における音声翻訳装置１の作用効果について説明する。

以上のように、本実施の形態における音声翻訳装置１は、第１言語で発話する第１話者と、第１話者の会話相手であり、第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳装置１であって、音声入力部２１に入力される音から、第１話者及び第２話者が発話した音声区間を検出する音声検出部２２と、音声検出部２２が検出した音声区間の音声が音声認識されることで、当該音声が示す第１言語から第２言語に翻訳した翻訳結果を表示し、かつ、第２言語から第１言語に翻訳した翻訳結果を表示する表示部２７と、第１話者の発話後に第２話者に発話を促す内容を、表示部２７を介して第２言語により出力し、かつ、第２話者の発話後に第１話者に発話を促す内容を、表示部２７を介して第１言語により出力する発話指示部２５とを備える。

これによれば、第１話者と第２話者との会話から、それぞれの音声区間を検出することで、検出した音声を第１言語から第２言語に翻訳した翻訳結果を取得したり、検出した音声を第２言語から第１言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置１では、翻訳をするための入力操作をしなくても、第１話者と第２話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。

また、音声翻訳装置１は、第１話者が発話した後に第２話者に発話を促す内容を出力したり、第２話者が発話した後に第１話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置１では、第１話者と第２話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第１話者と第２話者とが発話をするタイミングを認識することができる。

これらのように、音声翻訳装置１では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置１の操作に手間取り難いため、使用期間の増大を抑制することができる。

したがって、音声翻訳装置１では、操作を簡易にすることで、音声翻訳装置１のエネルギー消費の増大を抑制することができる。特に、この音声翻訳装置１では、操作を簡易にすることができるため、誤操作を抑制することもできる。

また、本実施の形態における音声翻訳方法は、第１言語で発話する第１話者と、第１話者の会話相手であり、第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳方法であって、音声入力部２１に入力される音から、第１話者及び第２話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す第１言語から第２言語に翻訳した翻訳結果を表示し、かつ、第２言語から第１言語に翻訳した翻訳結果を表示する表示部２７が表示することと、第１話者の発話後に第２話者に発話を促す内容を、表示部２７を介して第２言語により出力し、かつ、第２話者の発話後に第１話者に発話を促す内容を、表示部２７を介して第１言語により出力することとを含む。

この音声翻訳方法においても、上述の音声翻訳装置１と同様の作用効果を奏する。

また、本実施の形態におけるプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。

このプログラムにおいても、上述の音声翻訳装置１と同様の作用効果を奏する。

本実施の形態における音声翻訳装置１は、さらに、第１話者又は第２話者が発話して音声認識された場合、再度、当該発話した第１話者又は第２話者の発話を優先して音声認識する優先発話入力部２４を備える。

これによれば、例えば第１話者及び第２話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部２４を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる（言い直すことができる）。このため、優先発話入力部２４は、第１話者及び第２話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置１は、第１話者及び第２話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。

本実施の形態における音声翻訳装置１は、さらに、第１話者と第２話者とが会話する音声が入力される音声入力部２１と、音声検出部２２が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部２３と、音声認識部２３が変換したテキスト文を第１言語から第２言語に翻訳し、かつ、第２言語から第１言語に翻訳する翻訳部２６と、翻訳部２６が翻訳した結果を音声によって出力する音声出力部２８とを備える。

これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置１は、第１話者と第２話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置１は、外部サーバと通信しなくても、第１話者と第２話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置１が外部サーバと通信し難い環境下においても適用することができる。

本実施の形態における音声翻訳装置１において、発話指示部２５は、当該音声翻訳装置１の起動時に、第１話者に発話を促す内容を、表示部２７を介して第１言語により出力し、第１話者の発話による音声が第１言語から第２言語に翻訳されて、表示部２７に翻訳結果が表示された後に、第２話者に発話を促す内容を、表示部２７を介して第２言語により出力する。

これによれば、第１言語で第１話者が発話した後に、第２言語で第２話者が発話することを予め登録しておけば、音声翻訳装置１の起動時に、第１話者に発話を促す内容を第１言語により出力すれば、第１話者は、発話を開始することができる。このため、音声翻訳装置１の起動時に、第２言語で第２話者が発話することによる誤翻訳を抑制することができる。

本実施の形態における音声翻訳装置１において、発話指示部２５は、翻訳開始後、発話を促すための音声を規定回数、音声出力部２８に出力させ、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部２７に出力させる。

これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置１のエネルギー消費の増大を抑制することができる。

（実施の形態２）
＜構成＞
本実施の形態の音声翻訳装置１ａの構成を、図４を用いて説明する。

図４は、実施の形態２における音声翻訳装置１ａを示すブロック図である。

本実施の形態では、音源方向を推定する点で、実施の形態１と相違する。

本実施の形態における他の構成は、特に明記しない場合は、実施の形態１と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

図４に示すように、音声翻訳装置１ａは、音声検出部２２、優先発話入力部２４、発話指示部２５、音声認識部２３、翻訳部２６、表示部２７、音声出力部２８及び電源部２９の他に、複数の音声入力部２１と、音源方向推定部３１とを備える。

［複数の音声入力部２１］
複数の音声入力部２１は、マイクロフォンアレイを構成する。具体的には、マイクロフォンアレイは、互いに離間して配置された２以上のマイクロフォンユニットからなり、音声を取得し、取得した音声から電気信号に変換した音響信号を取得する。

複数の音声入力部２１は、取得した音響信号を音源方向推定部３１に出力する。また、複数の音声入力部２１のうちの少なくとも一つは、音声検出部２２に音響信号を出力する。本実施の形態では、一つの音声入力部２１が音声検出部２２と通信可能に接続され、音声検出部２２に音響信号を出力する。

本実施の形態では、２つの音声入力部２１が音声翻訳装置１ａに設けられる、一方の音声入力部２１は、他方の音声入力部２１と音声の１／２波長以下となる距離だけ離間した状態で配置される。

［音源方向推定部３１］
音源方向推定部３１は、複数の音声入力部２１に入力される音声を信号処理することにより、音源方向を推定する。具体的には、音源方向推定部３１は、音声検出部２２からの音声情報と、複数の音声入力部２１からの音響信号とを取得すると、マイクロフォンアレイを構成する複数の音声入力部２１のそれぞれに到達した音声の時間差（位相差）を算出し、例えば遅延時間推定法等により音源方向を推定する。つまり、音声検出部２２が音声区間を検出できれば、第１話者又は第２話者の音声が音声入力部２１に入力されたことを意味するため、音源方向推定部３１は、音声情報の取得をトリガとして、音源方向の推定を開始する。

音源方向推定部３１は、推定した結果である音源方向を示す音源方向情報を発話指示部２５に出力する。

［発話指示部２５］
発話指示部２５は、表示部２７に表示させる態様を制御する制御部３１ａを有する。具体的には、制御部３１ａは、音声翻訳装置１ａに対する第１話者の位置に対応する表示部２７の表示領域に第１言語を表示させ、音声翻訳装置１ａに対する第２話者の位置に対応する表示部２７の表示領域に第２言語を表示させる。例えば、図１Ａに示すように、第１話者の位置に対応する表示部２７の表示領域は、日本語で表示されている第１話者側の表示部２７の表示領域である。また、第２話者の位置に対応する表示部２７の表示領域は、英語で表示されている第２話者側の表示部２７の表示領域である。

制御部３１ａは、当該音声翻訳装置１ａの表示部２７から第１話者又は第２話者に向かう表示方向であって、表示部２７のいずれかの表示領域に表示する側の表示方向と、音源方向推定部３１が推定した音源方向とを比較する。制御部３１ａは、表示方向と音源方向とが実質的に一致する場合、音声認識部２３及び翻訳部２６を実行させる。例えば、図１Ａに示すように、第１話者が発話すると、音声翻訳装置１ａに入力された第１話者の音声の内容を示す第１テキスト文が第１話者側（又は第１話者に面する側）の表示領域に表示される。この場合、表示方向は表示部２７から第１話者に向く方向であり、音源方向推定部３１が推定した音源方向も表示部２７から第１話者に向く方向である。

一方、制御部３１ａは、表示方向と音源方向とが異なる場合、音声認識部２３及び翻訳部２６を停止させる。第１話者が発話すると、第１話者の音声の内容を示す第１テキスト文が第１話者側の表示領域に表示されても、音源方向推定部３１が推定した音源方向が表示部２７から第２話者に向く方向である場合、表示方向と推定した音源方向とが一致しない。例えば、第１話者が発話した後に、第１話者が優先発話入力部２４を操作せずに、続けて発話する場合、会話に関係の無い周囲の音を音声入力部２１が収音した場合等である。

また、制御部３１ａが音声認識部２３及び翻訳部２６を停止させる場合、発話指示部２５は、再度、指示した言語による発話を促す内容を出力する。例えば、表示方向と推定した音源方向とが一致しないため、どちらの話者が発話したか判らないため、音声認識部２３は、音声を第１言語で音声認識してよいのか、第２言語で音声認識してよいのか判らない。また、第１話者が発話してもその音声を音声認識することができなかった場合、翻訳を行うこともできない。このため、制御部３１ａは、音声認識部２３及び翻訳部２６を停止させる。

＜動作＞
以上のように構成される音声翻訳装置１ａが行う動作について、図５を用いて説明する。

図５は、実施の形態２における音声翻訳装置１ａの動作を示すフローチャートである。

図５と同様の処理については、同一の符号を付し、説明を適宜省略する。

音声翻訳装置１ａは、音を取得し（Ｓ１１）、取得した音を示す音響信号を生成する。

次に、音源方向推定部３１は、音声検出部２２から音声情報を取得したかどうかを判定する（Ｓ１２ａ）。

音源方向推定部３１が音声検出部２２から音声情報を取得しない場合は（Ｓ１２ａでＮＯ）、音声検出部２２が音響信号から音声を検出できない場合であるため、音源方向推定部３１は、音声情報を取得できない。つまり、第１話者及び第２話者が会話していない場合である。この場合、ステップＳ１２ａの処理を繰り返す。

音源方向推定部３１が音声検出部２２から音声情報を取得した場合（Ｓ１２ａでＹＥＳ）、第１話者及び第２話者の少なくとも一方が発話した場合である。この場合、音源方向推定部３１は、複数の音声入力部２１のそれぞれから取得した音響信号に含まれる音声の時間差（位相差）を算出し、音源方向を推定する（Ｓ３１）。音源方向推定部３１は、推定した結果である音源方向を示す音源方向情報を発話指示部２５に出力する。

次に、音源方向推定部３１の制御部３１ａは、表示方向と、推定した音源方向とが実質的に一致しているかどうかを判定する（Ｓ３２）。

制御部３１ａは、表示方向と音源方向とが異なる場合（Ｓ３２でＮＯ）、音声認識部２３及び翻訳部２６を停止させる。制御部３１ａが音声認識部２３及び翻訳部２６を停止させる場合、発話指示部２５は、再度、指示した言語による発話を促す内容を出力する。

具体的には、発話指示部２５は、一方の話者に発話を促す内容である発話指示テキスト情報を表示部２７に出力する。表示部２７は、発話指示部２５から取得した発話指示テキスト情報を表示する（Ｓ３３）。

また、発話指示部２５は、一方の話者に発話を促す内容である発話指示音声情報を音声出力部２８に出力する。音声出力部２８は、発話指示部２５から取得した発話指示音声情報を音声により出力する（Ｓ３４）。

そして、音声翻訳装置１ａは、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置１ａは、ステップＳ１１から処理を開始する。

制御部３１ａは、表示方向と音源方向とが実質的に一致する場合（Ｓ３２でＹＥＳ）、音声認識部２３及び翻訳部２６を実行させる。そして、音声翻訳装置１ａは、ステップＳ１３に進み、図３と同様の処理を行う。

＜作用効果＞
次に、本実施の形態における音声翻訳装置１ａの作用効果について説明する。

以上のように、本実施の形態における音声翻訳装置１ａにおいて、音声入力部２１は、複数設けられる。また、音声翻訳装置１ａは、さらに、複数の音声入力部２１に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部３１と、当該音声翻訳装置１ａに対する第１話者の位置に対応する表示部２７の表示領域に第１言語を表示させ、当該音声翻訳装置１ａに対する第２話者の位置に対応する表示部２７の表示領域に第２言語を表示させる制御部３１ａとを備える。そして、制御部３１ａは、当該音声翻訳装置１ａの表示部２７から第１話者又は第２話者に向かう表示方向であって、表示部２７のいずれかの表示領域に表示する側の表示方向と、音源方向推定部３１が推定した音源方向とを比較し、表示方向と音源方向とが実質的に一致する場合、音声認識部２３及び翻訳部２６を実行させ、表示方向と音源方向とが異なる場合、音声認識部２３及び翻訳部２６を停止させる。

これによれば、表示部２７の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第１言語で発話する第１話者か第２言語で発話する第２話者かを特定することができる。この場合、第１話者の音声を第１言語で音声認識することができ、第２話者の音声を第２言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。

これにより、音声翻訳装置１ａは、第１言語の音声及び第２言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置１ａでは、誤翻訳等を抑制することで音声翻訳装置１ａの処理量の増大を抑制することができる。

本実施の形態における音声翻訳装置１ａにおいて、制御部３１ａが音声認識部２３及び翻訳部２６を停止させる場合、発話指示部２５は、再度、指示した言語による発話を促す内容を出力する。

これによれば、表示方向と音源方向とが異なる場合でも、発話指示部２５が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置１ａは、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。

本実施の形態における音声翻訳装置１ａにおいても、実施の形態１等と同様の作用効果を奏する。

（実施の形態２の変形例）
本変形例における他の構成は、特に明記しない場合は、実施の形態１と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

このように構成される音声翻訳装置１ａが行う動作について、図６を用いて説明する。

図６は、実施の形態２の変形例における音声翻訳装置１ａの動作を示すフローチャートである。

音声翻訳装置１ａの処理において、ステップＳ１１～Ｓ３１の処理を経たのち、ステップＳ３２でＮＯの場合、制御部３１ａは、表示方向と音源方向との比較をしてから規定期間が経過したかどうかを判定する（Ｓ３２ａ）。

制御部３１ａは、表示方向と音源方向との比較をしてから規定期間が経過していない場合（Ｓ３２ａでＮＯ）、処理をステップＳ３２ａに戻す。

制御部３１ａは、表示方向と音源方向との比較をしてから規定期間が経過している場合（Ｓ３２ａでＹＥＳ）、処理をステップＳ３３に進め、図５と同様の処理を行う。

このように、本変形例における音声翻訳装置１ａにおいて、表示方向と音源方向とが異なる場合、発話指示部２５は、制御部３１ａが比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。

これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第１話者と第２話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置１ａは、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。

本変形例における音声翻訳装置１ａにおいても、実施の形態２と同様の作用効果を奏する。

（実施の形態３）
＜構成＞
本実施の形態の音声翻訳装置１ｂの構成を、図７を用いて説明する。

図７は、実施の形態３における音声翻訳装置１ｂを示すブロック図である。

本実施の形態では、音源方向を推定する点で、実施の形態１等と相違する。

本実施の形態における他の構成は、特に明記しない場合は、実施の形態１等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

音声翻訳装置１ｂは、音声検出部２２、優先発話入力部２４、発話指示部２５、音声認識部２３、翻訳部２６、表示部２７、音声出力部２８、電源部２９及び音源方向推定部３１の他に、複数の音声入力部２１と、第１ビームフォーマ部４１と、第２ビームフォーマ部４２と、入力切換部３２とを備える。

［複数の音声入力部２１］
複数の音声入力部２１は、マイクロフォンアレイを構成する。複数の音声入力部２１のそれぞれは、取得した音響信号を第１ビームフォーマ部４１及び第２ビームフォーマ部４２に出力する。本実施の形態では、２つの音声入力部２１を用いている例を示す。

［第１ビームフォーマ部４１及び第２ビームフォーマ部４２］
第１ビームフォーマ部４１は、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声の音響信号を信号処理することにより、第１話者による音声の音源方向に収音の指向性を制御する。また、第２ビームフォーマ部４２は、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声の音響信号を信号処理することにより、第２話者による音声の音源方向に収音の指向性を制御する。本実施の形態では、第１ビームフォーマ部４１及び第２ビームフォーマ部４２は、複数の音声入力部２１のそれぞれから取得した音響信号を信号処理する。

これにより、第１ビームフォーマ部４１及び第２ビームフォーマ部４２は、所定方向に収音の指向性を制御することで、所定方向以外の音の入力を抑制する。所定方向は、例えば、第１話者及び第２話者がそれぞれ発話する音声のそれぞれの音源方向である。

本実施の形態では、第１ビームフォーマ部４１は、第１話者側に配置され、複数の音声入力部２１のそれぞれと通信可能に接続され、第２ビームフォーマ部４２は、第２話者側に配置され、複数の音声入力部２１のそれぞれと通信可能に接続される。第１ビームフォーマ部４１及び第２ビームフォーマ部４２のそれぞれは、複数の音声入力部２１のそれぞれから取得した音響信号を信号処理した結果である音響処理信号を、入力切換部３２に出力する。

［発話指示部２５］
発話指示部２５は、入力切換部３２に、第１ビームフォーマ部４１の出力信号を取得するか、第２ビームフォーマ部４２の出力信号を取得するかを切換えさせる。具体的には、発話指示部２５は、音源方向推定部３１から推定した結果である音源方向を示す音源方向情報を取得すると、音源方向情報に示される音源方向と、ビームフォーマ部の収音の指向性である所定方向とを比較する。発話指示部２５は、音源方向と所定方向とが実質的に一致する又は近しい方向のビームフォーマ部を選択する。

発話指示部２５は、第１ビームフォーマ部４１及び第２ビームフォーマ部４２から選択したビームフォーマ部の出力信号を出力させるように、入力切換部３２に切換コマンドを出力する。

［入力切換部３２］
入力切換部３２は、第１ビームフォーマ部４１の出力信号、及び、第２ビームフォーマ部４２の出力信号を取得し、音声検出部２２に出力する出力信号を切換える装置である。入力切換部３２は、取得する信号を、第１ビームフォーマ部４１の出力信号、又は、第２ビームフォーマ部４２の出力信号に切換える。具体的には、入力切換部３２は、発話指示部２５からの切換コマンドを取得することで、第１ビームフォーマ部４１の出力信号から第２ビームフォーマ部４２の出力信号、又は、第２ビームフォーマ部４２の出力信号から第１ビームフォーマ部４１の出力信号に切換える。入力切換部３２は、切換コマンドによって、第１ビームフォーマ部４１の出力信号を音声検出部２２に出力したり、第２ビームフォーマ部４２の出力信号を音声検出部２２に出力したりする。

入力切換部３２は、第１ビームフォーマ部４１、第２ビームフォーマ部４２、音声検出部２２及び発話指示部２５と通信可能に接続される。

＜動作＞
以上のように構成される音声翻訳装置１ｂが行う動作について説明する。

図８は、実施の形態３における音声翻訳装置１ｂの動作を示すフローチャートである。

図５等と同様の処理については、同一の符号を付し、説明を適宜省略する。

図８に示すように、音声翻訳装置１ｂの処理において、ステップＳ１１、Ｓ１２ａ、Ｓ３１及びＳ３２の処理を経たのち、制御部３１ａが表示方向と音源方向とが実質的に一致すると判定した場合（Ｓ３２でＹＥＳ）、発話指示部２５は、入力切換部３２に切換コマンドを出力する（Ｓ５１）。

具体的には、第１話者と第２話者とが発話するうえで、２つの音声入力部２１において、第１ビームフォーマ部４１は、第２話者の発話よりも第１話者の発話に対して高い感度を有し、第２ビームフォーマ部４２は、第１話者の発話よりも第２話者の発話に対して高い感度を有する。

このため、表示方向が第１話者側の表示部２７の表示領域であれば、第１ビームフォーマ部４１の方が第１話者の発話に対して高い感度を有するため、発話指示部２５は、第１ビームフォーマ部４１の出力信号を出力させるように、入力切換部３２に切換コマンドを出力する。この場合、入力切換部３２は、切換コマンドを取得すると、第１ビームフォーマ部４１の出力信号を出力する。

また、表示方向が第２話者側の表示部２７の表示領域であれば、第２ビームフォーマ部４２の方が第２話者の発話に対して高い感度を有するため、発話指示部２５は、第２ビームフォーマ部４２の出力信号を出力させるように、入力切換部３２に切換コマンドを出力する。この場合、入力切換部３２は、切換コマンドを取得すると、第２ビームフォーマ部４２の出力信号を出力する。

そして、音声翻訳装置１ｂは、ステップＳ１２に進み、図５と同様の処理を行う。

＜作用効果＞
次に、本実施の形態における音声翻訳装置１ｂの作用効果について説明する。

以上のように、本実施の形態における音声翻訳装置１ｂにおいて、音声入力部２１は、複数設けられる。また、音声翻訳装置１ｂは、さらに、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声を信号処理することにより、第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部４１と、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声を信号処理することにより、第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部４２と、取得する信号を、第１ビームフォーマ部４１の出力信号、又は、第２ビームフォーマ部４２の出力信号に切換える入力切換部３２と、複数の音声入力部２１に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部３１とを備える。そして、発話指示部２５は、入力切換部３２に、第１ビームフォーマ部４１の出力信号を取得するか、第２ビームフォーマ部４２の出力信号を取得するかを切換えさせる。

これによれば、音源方向推定部３１によって、音声翻訳装置１ｂに対する相対的な話者の方向を推定することができる。このため、入力切換部３２は、話者の方向に適した第１ビームフォーマ部４１の出力信号及び第２ビームフォーマ部４２の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置１ｂでは、第１話者及び第２話者の音声について、周囲ノイズを低減して収音することができる。

本実施の形態における音声翻訳装置１ｂにおいても、実施の形態１等と同様の作用効果を奏する。

（実施の形態３の変形例）
本変形例の音声翻訳装置１ｃを、図９を用いて説明する。

図９は、実施の形態３の変形例における音声翻訳装置１ｃを示すブロック図である。

本変形例における他の構成は、特に明記しない場合は、実施の形態１等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

図９に示すように、第１ビームフォーマ部４１及び第２ビームフォーマ部４２は、複数の音声入力部２１のそれぞれと通信可能に接続され、かつ、音源方向推定部３１及び入力切換部３２と通信可能に接続される。

第１ビームフォーマ部４１及び第２ビームフォーマ部４２には、複数の音声入力部２１のそれぞれからの音響信号が入力される。第１ビームフォーマ部４１及び第２ビームフォーマ部４２は、入力されたそれぞれの音響信号を信号処理することにより、信号処理した結果であるそれぞれの音響処理信号を、音源方向推定部３１及び入力切換部３２のそれぞれに出力する。

つまり、本変形例では、複数の音声入力部２１のそれぞれは、第１ビームフォーマ部４１及び第２ビームフォーマ部４２と通信可能に接続され、音源方向推定部３１とは通信可能に接続されていない。

このように、音源方向推定部３１には、第１ビームフォーマ部４１及び第２ビームフォーマ部４２によって、話者による音声の音源方向に収音の指向性を高めた音響信号が入力される。

このような、本変形例における音声翻訳装置１ｃにおいて、音声入力部２１は、複数設けられる。また、音声翻訳装置１ｃは、さらに、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声を信号処理することにより、第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部４１と、複数の音声入力部２１のうちの少なくとも一部の音声入力部２１に入力される音声を信号処理することにより、第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部４２と、第１ビームフォーマ部４１の出力信号、及び、第２ビームフォーマ部４２の出力信号を信号処理することにより、音源方向を推定する音源方向推定部３１とを備える。

これによれば、音源方向推定部３１によって、音声翻訳装置１ｃに対する相対的な話者の方向を推定することができる。このため、音源方向推定部３１は、話者の方向に適した第１ビームフォーマ部４１の出力信号及び第２ビームフォーマ部４２の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。

本変形例における音声翻訳装置１ｃにおいても、上述の実施の形態１等と同様の作用効果を奏する。

（実施の形態４）
＜構成＞
本実施の形態の音声翻訳装置１ｄの構成を、図１０を用いて説明する。

図１０は、実施の形態４における音声翻訳装置１ｄを示すブロック図である。

本実施の形態では、音声翻訳装置１ｄがスコア算出部４３を有する点で、実施の形態１等と相違する。

本実施の形態における構成は、特に明記しない場合は、実施の形態１等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

図１０に示すように、音声翻訳装置１ｄの音声認識部２３は、スコア算出部４３を備える。

［スコア算出部４３］
スコア算出部４３は、音声を音声認識した結果、及び、当該結果の信頼性スコアを算出し、算出した信頼性スコアを、発話指示部２５に出力する。信頼性スコアは、音声検出部２２から取得した音声情報に示される音声を音声認識したときの、音声認識の精度（類似度）を示す。例えば、スコア算出部４３は、音声情報に示される音声を変換したテキスト文と、音声情報に示される音声とを比較し、テキスト文と当該音声との類似度を表す信頼性スコアを算出する。

なお、スコア算出部４３は、音声認識部２３に備えられていなくてもよく、音声認識部２３と独立した別の装置であってもよい。

［発話指示部２５］
発話指示部２５は、音声認識部２３のスコア算出部４３から取得した信頼性スコアを評価することで、音声認識の精度を判定する。具体的には、発話指示部２５は、音声認識部２３のスコア算出部４３から取得した信頼性スコアが閾値以下であるかどうかを判定する。発話指示部２５は、信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部２７及び音声出力部２８の少なくともいずれかを介して出力する。発話指示部２５は、信頼性スコアが閾値よりも高い場合、音声の翻訳を行う。

＜動作＞
以上のように構成される音声翻訳装置１ｄが行う動作について説明する。

図１１は、実施の形態４における音声翻訳装置１ｄの動作を示すフローチャートである。

図と同様の処理については、同一の符号を付し、説明を適宜省略する。

音声翻訳装置１ｄの処理において、ステップＳ１１～Ｓ１３の処理を経たのち、音声認識部２３のスコア算出部４３は、音声認識結果の信頼性スコアを算出し、算出した信頼性スコアを発話指示部２５に出力する（Ｓ６１）。

次に、発話指示部２５は、音声認識部２３のスコア算出部４３から信頼性スコアを取得すると、取得した信頼性スコアが閾値以下であるかどうかを判定する（Ｓ６２）。

発話指示部２５は、信頼性スコアが閾値以下の場合（Ｓ６２でＹＥＳ）、信頼性スコアが閾値以下の音声の翻訳を行わずに、再度、発話を促す内容である発話指示テキスト情報を、表示部２７を介して出力する（Ｓ１８）。そして、音声翻訳装置１ｄは、ステップＳ１９に進み、図３等と同様の処理を行う。

発話指示部２５は、信頼性スコアが閾値よりも高い場合（Ｓ６２でＮＯ）、ステップＳ１４に進み、図３等と同様の処理を行う。

＜作用効果＞
次に、本実施の形態における音声翻訳装置１ｄの作用効果について説明する。

以上のように、本実施の形態における音声翻訳装置１ｄにおいて、音声認識部２３は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、発話指示部２５は、音声認識部２３から取得した信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部２７及び音声出力部２８の少なくともいずれかを介して出力する。

これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部２５が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置１ｄは、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。

特に、音声出力部２８が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。

本実施の形態における音声翻訳装置１ｄにおいても、上述の実施の形態１等と同様の作用効果を奏する。

（その他変形例等）
以上、本開示について、実施の形態１～４及び実施の形態２、４に基づいて説明したが、本開示は、これら実施の形態１～４及び実施の形態２、４等に限定されるものではない。

例えば、上記各実施の形態１～４及び実施の形態２、４に係る音声翻訳装置、音声翻訳方法及びそのプログラムでは、第１話者及び１以上の第２話者のそれぞれの音声を、ネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよく、当該それぞれの音声を認識した第１テキスト文及び第２テキスト文だけをネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよい。

また、上記各実施の形態１～４及び実施の形態２、４の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムにおいて、音声認識部及び翻訳部は、音声翻訳装置に搭載されていなくてもよい。この場合、音声認識部及び翻訳部は、クラウドサーバに搭載されるエンジンであってもよい。音声翻訳装置は、取得した音声情報をクラウドサーバに送信してもよく、音声情報に基づいてクラウドサーバが音声認識と翻訳とを行った結果である、テキスト文と翻訳テキスト文と翻訳音声とを、クラウドサーバから取得してもよい。

また、上記各実施の形態１～４及び実施の形態２、４の変形例に係る音声翻訳方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。

また、上記各実施の形態１～４及び実施の形態２、４の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

なお、上記各実施の形態１～４及び実施の形態２、４の変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態１～４及び実施の形態２、４の変形例は例示された数字に制限されない。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

その他、実施の形態１～４及び実施の形態２、４の変形例に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態１～４及び実施の形態２、４の変形例における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

本開示は、異なる言語を話す複数の話者が会話によって意思の疎通を図るために用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに適用することができる。

１、１ａ、１ｂ、１ｃ、１ｄ音声翻訳装置
２１音声入力部
２２音声検出部
２３音声認識部
２４優先発話入力部
２５発話指示部
２６翻訳部
２７表示部
２８音声出力部
３１音源方向推定部
３１ａ制御部
３２入力切換部
４１第１ビームフォーマ部
４２第２ビームフォーマ部

Claims

第１言語で発話する第１話者と、前記第１話者の会話相手であり、前記第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳装置であって、
音声入力部に入力される音から、前記第１話者及び前記第２話者が発話した音声区間を検出する音声検出部と、
前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第１言語から前記第２言語に翻訳した翻訳結果を表示し、かつ、前記第２言語から前記第１言語に翻訳した翻訳結果を表示する表示部と、
前記第１話者の発話後に前記第２話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第２言語により出力し、かつ、前記第２話者の発話後に前記第１話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第１言語により出力する発話指示部とを備える
音声翻訳装置。
さらに、前記第１話者又は前記第２話者が発話した音声が音声認識された場合、再度、当該音声認識された前記第１話者又は前記第２話者が発話する音声を、優先して音声認識する優先発話入力部を備える
請求項１に記載の音声翻訳装置。
さらに、
前記第１話者と前記第２話者とが会話する音声が入力される音声入力部と、
前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、
前記音声認識部が変換した前記テキスト文を前記第１言語から前記第２言語に翻訳し、かつ、前記第２言語から前記第１言語に翻訳する翻訳部と、
前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える
請求項１又は２に記載の音声翻訳装置。
前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部と、
取得する信号を、前記第１ビームフォーマ部の出力信号、又は、前記第２ビームフォーマ部の出力信号に切換える入力切換部と、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、
前記発話指示部は、前記入力切換部に、前記第１ビームフォーマ部の出力信号を取得するか、前記第２ビームフォーマ部の出力信号を取得するかを切換えさせる
請求項３に記載の音声翻訳装置。
前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、
当該音声翻訳装置に対する前記第１話者の位置に対応する前記表示部の表示領域に前記第１言語を表示させ、当該音声翻訳装置に対する前記第２話者の位置に対応する前記表示部の表示領域に前記第２言語を表示させる制御部とを備え、
前記制御部は、
当該音声翻訳装置の表示部から前記第１話者又は前記第２話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、
前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、
前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる
請求項３に記載の音声翻訳装置。
前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する
請求項５に記載の音声翻訳装置。
前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する
請求項５又は６に記載の音声翻訳装置。
前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第１話者による音声の音源方向に収音の指向性を制御する第１ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第２話者による音声の音源方向に収音の指向性を制御する第２ビームフォーマ部と、
前記第１ビームフォーマ部の出力信号、及び、前記第２ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える
請求項３に記載の音声翻訳装置。
前記発話指示部は、
当該音声翻訳装置の起動時に、前記第１話者に発話を促す内容を、前記表示部を介して前記第１言語により出力し、
前記第１話者の発話による音声が前記第１言語から前記第２言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第２話者に発話を促す内容を、前記表示部を介して前記第２言語により出力する
請求項１～８のいずれか１項に記載の音声翻訳装置。
前記発話指示部は、
翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、
前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる
請求項３～８のいずれか１項に記載の音声翻訳装置。
前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、
前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する
請求項３～８のいずれか１項に記載の音声翻訳装置。
第１言語で発話する第１話者と、前記第１話者の会話相手であり、前記第１言語と異なる第２言語で発話する第２話者とが会話を行うための音声翻訳方法であって、
音声入力部に入力される音から、前記第１話者及び前記第２話者が発話した音声区間を検出することと、
検出した音声区間の音声を音声認識することで、当該音声が示す前記第１言語から前記第２言語に翻訳した翻訳結果を表示し、かつ、前記第２言語から前記第１言語に翻訳した翻訳結果を表示する表示部が表示することと、
前記第１話者の発話後に前記第２話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第２言語により出力し、かつ、前記第２話者の発話後に前記第１話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第１言語により出力することとを含む
音声翻訳方法。
請求項１２に記載の音声翻訳方法をコンピュータに実行させるための
プログラム。