JP7429107B2 - 音声翻訳装置、音声翻訳方法及びそのプログラム - Google Patents

音声翻訳装置、音声翻訳方法及びそのプログラム Download PDF

Info

Publication number
JP7429107B2
JP7429107B2 JP2019196078A JP2019196078A JP7429107B2 JP 7429107 B2 JP7429107 B2 JP 7429107B2 JP 2019196078 A JP2019196078 A JP 2019196078A JP 2019196078 A JP2019196078 A JP 2019196078A JP 7429107 B2 JP7429107 B2 JP 7429107B2
Authority
JP
Japan
Prior art keywords
speech
speaker
voice
language
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019196078A
Other languages
English (en)
Other versions
JP2020160429A (ja
Inventor
博基 古川
敦 坂口
剛樹 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to CN202010185150.XA priority Critical patent/CN111739511A/zh
Priority to US16/824,110 priority patent/US11507759B2/en
Publication of JP2020160429A publication Critical patent/JP2020160429A/ja
Application granted granted Critical
Publication of JP7429107B2 publication Critical patent/JP7429107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、音声翻訳装置、音声翻訳方法及び音声翻訳方法を用いたプログラムに関する。
例えば特許文献1には、第1言語話者及び第1言語話者の会話相手である第2言語話者が発する音声を音声データに変換して出力する音声入力部と、第1言語話者が音声を発している間に入力される入力スイッチであって、第1言語話者が音声を発していない間も入力される入力スイッチと、入力された音声データを翻訳した翻訳結果を音声に変換して出力する音声出力部とを備える通訳システムが開示されている。
特許第3891023号公報
しかしながら、特許文献1に開示される技術では、第1話者及び第2話者が会話する際に、第1話者及び第2話者のそれぞれの発話に際し、発話の度に入力スイッチを操作する必要があり、操作が煩わしくなる。第1話者及び第2話者が会話する際に、度々、入力スイッチを操作することとなるため、通訳システムの使用頻度及び使用期間が増大してしまう。
また、第1話者及び第2話者が互いに通訳システムを操作する場合、通訳システムの非所有者は、通常、通訳システムの操作方法を理解していない。このため、通訳システムの操作に手間取ることとなるため、通訳システムの使用期間の増大に拍車がかかる。その結果、従来の通訳システムでは、使用期間の増大によるエネルギーを費やすこととなってしまうという課題がある。
そこで、本開示は、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。
本開示の一態様に係る音声翻訳装置は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力する発話指示部とを備える。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。
本開示の音声翻訳装置等によれば、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。
図1Aは、実施の形態1における音声翻訳装置の外観と、第1話者が発話したときの第1話者と第2話者との音声翻訳装置の使用場面の一例を示す図である。 図1Bは、実施の形態1における音声翻訳装置の外観と、第2話者が発話したときの第1話者と第2話者との音声翻訳装置の使用場面の一例を示す図である。 図1Cは、第1話者と第2話者とが会話をするときの音声翻訳装置の使用場面の別の一例を示す図である。 図2は、実施の形態1における音声翻訳装置を示すブロック図である。 図3は、実施の形態1における音声翻訳装置の動作を示すフローチャートである。 図4は、実施の形態2における音声翻訳装置を示すブロック図である。 図5は、実施の形態2における音声翻訳装置の動作を示すフローチャートである。 図6は、実施の形態2の変形例における音声翻訳装置の動作を示すフローチャートである。 図7は、実施の形態3における音声翻訳装置を示すブロック図である。 図8は、実施の形態3における音声翻訳装置の動作を示すフローチャートである。 図9は、実施の形態3の変形例における音声翻訳装置を示すブロック図である。 図10は、実施の形態4における音声翻訳装置を示すブロック図である。 図11は、実施の形態4における音声翻訳装置の動作を示すフローチャートである。
本開示の一態様に係る音声翻訳装置は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力する発話指示部とを備える。
これによれば、第1話者と第2話者との会話から、それぞれの音声区間を検出することで、検出した音声を第1言語から第2言語に翻訳した翻訳結果を取得したり、検出した音声を第2言語から前記第1言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置では、翻訳をするための入力操作をしなくても、第1話者と第2話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。
また、音声翻訳装置は、第1話者が発話した後に第2話者に発話を促す内容を出力したり、第2話者が発話した後に第1話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置では、第1話者と第2話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第1話者と第2話者とが発話をするタイミングを認識することができる。
これらのように、音声翻訳装置では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置の操作に手間取り難いため、使用期間の増大を抑制することができる。
したがって、音声翻訳装置では、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。
特に、この音声翻訳装置では、操作を簡易にすることができるため、誤操作を抑制することもできる。
本開示の他の態様に係る音声翻訳方法は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部が表示することと、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力することとを含む。
この音声翻訳方法においても、上述の音声翻訳装置と同様の作用効果を奏する。
また、本開示の他の態様に係るプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。
このプログラムにおいても、上述の音声翻訳装置と同様の作用効果を奏する。
本開示の他の態様に係る音声翻訳装置は、さらに、前記第1話者又は前記第2話者が発話して音声認識された場合、再度、当該発話した前記第1話者又は前記第2話者の発話を、優先して音声認識する優先発話入力部を備える。
これによれば、例えば第1話者及び第2話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる(言い直すことができる)。このため、優先発話入力部は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置は、第1話者及び第2話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。
本開示の他の態様に係る音声翻訳装置は、さらに、前記第1話者と前記第2話者とが会話する音声が入力される音声入力部と、前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、前記音声認識部が変換した前記テキスト文を前記第1言語から前記第2言語に翻訳し、かつ、前記第2言語から前記第1言語に翻訳する翻訳部と、前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える。
これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置は、第1話者と第2話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置は、外部サーバと通信しなくても、第1話者と第2話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置が外部サーバと通信し難い環境下においても適用することができる。
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、取得する信号を、前記第1ビームフォーマ部の出力信号、又は、前記第2ビームフォーマ部の出力信号に切換える入力切換部と、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、前記発話指示部は、前記入力切換部に、前記第1ビームフォーマ部の出力信号を取得するか、前記第2ビームフォーマ部の出力信号を取得するかを切換えさせる。
これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、入力切換部は、話者の方向に適した第1ビームフォーマ部の出力信号及び第2ビームフォーマ部の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置では、第1話者及び第2話者の音声について、周囲ノイズを低減して収音することができる。
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、当該音声翻訳装置に対する前記第1話者の位置に対応する前記表示部の表示領域に前記第1言語を表示させ、当該音声翻訳装置に対する前記第2話者の位置に対応する前記表示部の表示領域に前記第2言語を表示させる制御部とを備え、前記制御部は、当該音声翻訳装置の表示部から前記第1話者又は前記第2話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる。
これによれば、表示部の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第1言語で発話する第1話者か第2言語で発話する第2話者かを特定することができる。この場合、第1話者の音声を第1言語で音声認識することができ、第2話者の音声を第2言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。
これにより、音声翻訳装置は、第1言語の音声及び第2言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置では、誤翻訳等を抑制することで音声翻訳装置の処理量の増大を抑制することができる。
本開示の他の態様に係る音声翻訳装置において、前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する。
これによれば、表示方向と音源方向とが異なる場合でも、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。
本開示の他の態様に係る音声翻訳装置において、前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。
これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第1話者と第2話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、前記第1ビームフォーマ部の出力信号、及び、前記第2ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える。
これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、音源方向推定部は、話者の方向に適した第1ビームフォーマ部の出力信号及び第2ビームフォーマ部の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。
本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、当該音声翻訳装置の起動時に、前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力し、前記第1話者の発話による音声が前記第1言語から前記第2言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力する。
これによれば、第1言語で第1話者が発話した後に、第2言語で第2話者が発話することを予め登録しておけば、音声翻訳装置の起動時に、第1話者に発話を促す内容を第1言語により出力すれば、第1話者は、発話を開始することができる。このため、音声翻訳装置の起動時に、第2言語で第2話者が発話することによる誤翻訳を抑制することができる。
本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる。
これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置のエネルギー消費の増大を抑制することができる。
本開示の他の態様に係る音声翻訳装置において、前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する。
これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。
特に、音声出力部が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
以下、本開示の一態様に係る音声翻訳装置、音声翻訳方法及びそのプログラムについて、図面を参照しながら具体的に説明する。
(実施の形態1)
<構成:音声翻訳装置1>
図1Aは、実施の形態1における音声翻訳装置1の外観と、第1話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。図1Bは、実施の形態1における音声翻訳装置1の外観と、第2話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。
図1A及び図1Bに示すように、音声翻訳装置1は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うために、第1話者と第2話者との間の会話を双方向に翻訳する装置である。つまり、音声翻訳装置1は、第1話者と第2話者との異なる2つの言語間において、第1話者と第2話者とが発話(発声)したそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する装置である。例えば、音声翻訳装置1は、第1話者が発話する第1言語を第2言語に翻訳して出力し、第2話者が発話する第2言語を第1言語に翻訳して出力する。また、第1言語及び第2言語は、例えば、日本語、英語、フランス語、ドイツ語、中国語等である。
本実施の形態の図1A及び図1Bでは、1名の第1話者と、1名の第2話者とが対面しながら会話する様子を例示する。なお、複数の第1話者と複数の第2話者とが会話する際に用いてもよい。
なお、第1話者及び第2話者は、音声翻訳装置1を用いて対面しながら会話したり、図1Cに示すように、左右に並んで会話したりしてもよい。図1Cは、第1話者と第2話者とが会話をするときの音声翻訳装置1の使用場面の別の一例を示す図である。この場合、音声翻訳装置1は、表示態様を変更してもよい。このような音声翻訳装置1は、図1A、図1B及び図1Cに示すように、縦向き又は横向きにされた状態で用いられる。
音声翻訳装置1は、スマートホン及びタブレット端末等の、第1話者が携帯可能な携帯端末である。
図2は、実施の形態1における音声翻訳装置1を示すブロック図である。
図2に示すように、音声翻訳装置1は、音声入力部21と、音声検出部22と、優先発話入力部24と、発話指示部25と、音声認識部23と、翻訳部26と、表示部27と、音声出力部28と、電源部29とを備える。
[音声入力部21]
音声入力部21は、第1話者と第2話者とが会話する際の音声が入力されるマイクロフォンであり、音声検出部22と通信可能に接続される。つまり、音声入力部21は、音を取得(収音)し、取得した音から電気信号に変換し、変換した電気信号である音響信号を音声検出部22に出力する。なお、音声入力部21が取得した音響信号を記憶部等に記憶してもよい。
なお、音声入力部21は、アダプタとして構成されてもよい。この場合、音声入力部21は、音声翻訳装置1にマイクロフォンが装着されることで機能し、マイクロフォンが取得する音響信号を取得する。
[音声検出部22]
音声検出部22は、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出する装置であり、音声入力部21及び音声認識部23と通信可能に接続される。具体的には、音声検出部22は、音声入力部21から取得した音響信号に示される音量から、音量が大きくなった瞬間と、音量が小さくなった瞬間とを音声の区切り目とみなし、音響信号における音声区間の開始時点及び終了時点を検出(終話検出)する。ここで、音声区間は、話者の発話による一話ごとの音声を示すが、一話の音声における開始地点から終了地点までの期間を含んでいてもよい。
音声検出部22は、音響信号から検出した音声区間、つまり、音響信号から第1話者と第2話者との会話のそれぞれの音声を検出し、検出した音声を示す音声情報を音声認識部23に出力する。
[発話指示部25]
発話指示部25は、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を第1言語により出力する装置である。つまり、発話指示部25は、第1話者と第2話者とが会話できるように、それぞれのタイミングで第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。また、発話指示部25は、第1話者又は第2話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。この場合、発話指示部25は、表示部27に出力する発話指示テキスト情報に示される内容と同様の内容である発話指示音声情報を音声出力部28に出力する。なお、発話指示部25は、発話指示音声情報を音声出力部28に出力しなくてもよく、音声による発話を促す内容を出力することは必須ではない。
ここで、発話指示テキスト情報は、第1話者又は第2話者に発話を促す内容を示すテキスト文である。また、発話指示音声情報は、第1話者又は第2話者に発話を促す内容を示す音声である。
また、発話指示部25は、翻訳部26が第1言語を第2言語に翻訳、又は、翻訳部26が第2言語を第1言語に翻訳するための指示コマンドを出力する。例えば第1話者の発話後に第2話者が発話するため、発話指示部25は、第2話者が発話した音声を第2言語で音声認識するための指示コマンドを音声認識部23に出力し、音声認識された音声を第2言語から第1言語に翻訳するための指示コマンドを翻訳部26に出力する。また、第1話者が発話した場合も同様である。
また、発話指示部25は、第1話者及び第2話者のうちの一方の話者が発話後に、他方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。一方の話者が発話した音声を、翻訳部26が翻訳した翻訳結果を出力する時点又は出力した後に、発話指示部25は、発話指示テキスト情報を表示部27に出力し、発話指示音声情報を音声出力部28に出力する。
また、発話指示部25は、後述する優先発話入力部24から指示コマンドを取得すると、直近に発話した話者に対して、再度、発話を促す内容である発話指示テキスト情報を表示部27に出力し、発話指示音声情報を音声出力部28に出力する。
また、発話指示部25は、当該音声翻訳装置1の起動時に、第1話者に発話を促す内容を、表示部27を介して第1言語により出力する。つまり、第1話者が音声翻訳の所有者である場合、発話指示部25は、第1話者から発話を開始するように促す。また、発話指示部25は、第1話者の発話による音声が第1言語から第2言語に翻訳されて、表示部27に翻訳結果が表示された後に、第2話者に発話を促す内容を、表示部27を介して第2言語により出力する。第1言語の第1話者の発話が第2言語に翻訳された後に、第2話者が第2言語で発話し、発話した第2言語が第1言語に翻訳される。これを繰り返し行うことで、第1話者と第2話者との会話が弾む。
また、発話指示部25は、翻訳開始後、発話を促すための音声を規定回数、音声出力部28に出力させる。つまり、第2話者が直ぐに発話をしない、又は、聞き取れない場合等があるため、発話指示部25は、発話を促すための音声を規定回数出力する。発話指示部25は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させる。つまり、発話を促すための音声を規定回数出力しても、効果がない場合、電力の消費を抑制するために、発話を促すためのメッセージを表示部27に表示させる。
発話指示部25は、音声認識部23、優先発話入力部24、翻訳部26、表示部27及び音声出力部28と通信可能に接続される。
[優先発話入力部24]
優先発話入力部24は、第1話者又は第2話者が発話して音声認識された場合、再度、当該発話した第1話者又は第2話者の発話を優先して(又は連続して)音声認識部23に音声認識させることができる装置である。つまり、優先発話入力部24は、直近に発話した話者であって発話した音声が音声認識された話者に対して、再度、発話した第1話者又は第2話者に発話を行う機会を与えることができる。言い換えれば、優先発話入力部24は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えて、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。
優先発話入力部24は、音声翻訳装置1の操作者から入力を受付ける操作入力部である。例えば、発話した話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合、音声検出部22が音声を検出しない区間が規定区間以上となると、音声翻訳装置1が発話を終了したと認識する恐れがある場合等のように、直近に発話した話者が続けて発話したいときがある。このため、優先発話入力部24は、直近に発話した話者が発話する音声を優先して音声認識部23に音声認識させ、かつ、翻訳部26に翻訳させる。これにより、優先発話入力部24は、発話指示部25に再度、発話を促す内容である発話指示テキスト情報及び発話指示音声情報を発話指示部25に出力させるための指示コマンドを、発話指示部25に出力する。操作者は、第1話者及び第2話者の少なくとも一方であるが、本実施の形態では、主に第1話者である。
本実施の形態では、優先発話入力部24は、音声翻訳装置1の表示部27と一体的に設けられるタッチセンサである。この場合、音声翻訳装置1の表示部27には、優先発話入力部24としての、一方の話者による操作を受付ける操作ボタンが表示されていてもよい。
本実施の形態では、音声認識部23が音声認識を第1言語から第2言語に切換えたときに、切換え前の第1言語を優先して音声認識して翻訳させるために、第1言語の優先ボタンである優先発話入力部24を表示部27に表示する。また、音声認識部23が音声認識を第2言語から第1言語に切換えたときに、切換え前の第2言語を優先して音声認識して翻訳させるために、第2言語の優先ボタンである優先発話入力部24を表示部27に表示する。このような、優先ボタンは、少なくとも翻訳後に、表示部27に表示される。
[音声認識部23]
音声認識部23は、音声検出部22が検出した音声区間の音声を音声認識することで、テキスト文に変換する。具体的には、音声認識部23は、音声検出部22が検出した音声情報を取得すると、音声情報に示される音声を音声認識する。例えば、音声情報に示される音声が第1言語である場合、当該音声を第1言語で音声認識し、音声情報に示される音声が第2言語である場合、当該音声を第2言語で音声認識する。音声認識部23は、第1言語で音声を音声認識した場合、音声認識した音声の内容を示す第1テキスト文を生成し、生成した第1テキスト文を翻訳部26に出力する。また、音声認識部23は、第2言語で音声を音声認識した場合、音声認識した音声の内容を示す第2テキスト文を生成し、生成した第2テキスト文を翻訳部26に出力する。
[翻訳部26]
翻訳部26は、音声認識部23が変換したテキスト文を第1言語から第2言語に翻訳し、かつ、第2言語から第1言語に翻訳する翻訳装置である。具体的には、翻訳部26は、音声認識部23からテキスト文である第1テキスト文を取得すると、第1言語から第2言語に翻訳する。つまり、翻訳部26は、第1テキスト文を第2言語に翻訳した第2翻訳テキスト文を生成する。また、翻訳部26は、音声認識部23からテキスト文である第2テキスト文を取得すると、第2言語から第1言語に翻訳する。つまり、翻訳部26は、第2テキスト文を第1言語に翻訳した第1翻訳テキスト文を生成する。
ここで、第1言語で示された第1テキスト文の内容は、第2言語で示された第2翻訳テキスト文の内容と一致する。また、第2言語で示された第2テキスト文の内容は、第1言語で示された第1翻訳テキスト文の内容と一致する。
翻訳部26は、第2翻訳テキスト文を生成すると、第2翻訳テキスト文の内容を認識し、認識した第2翻訳テキスト文の内容を示す第2言語の翻訳音声を生成する。また、翻訳部26は、第1翻訳テキスト文を生成すると、第1翻訳テキスト文の内容を認識し、認識した第1翻訳テキスト文の内容を示す第1言語の翻訳音声を生成する。なお、第1翻訳テキスト文及び第2翻訳テキスト文に基づく翻訳音声の生成は、音声出力部28が行ってもよい。
翻訳部26は、第2翻訳テキスト文又は第1翻訳テキスト文を生成すると、生成した第2翻訳テキスト文又は第1翻訳テキスト文を表示部27に出力する。また、翻訳部26は、第2言語の翻訳音声を生成又は第1言語の翻訳音声を生成すると、生成した第2言語の翻訳音声を生成又は第1言語の翻訳音声を音声出力部28に出力する。
翻訳部26は、発話指示部25、音声認識部23、表示部27及び音声出力部28と通信可能に接続される。
[表示部27]
表示部27は、例えば、液晶パネル、又は、有機ELパネル等のモニタであり、発話指示部25及び翻訳部26と通信可能に接続される。具体的には、表示部27は、音声検出部22が検出した音声区間の音声が音声認識されることで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示するモニタである。表示部27は、翻訳部26から取得した第1テキスト文、第2テキスト文、第1翻訳テキスト文及び第2翻訳テキスト文を表示する。また、表示部27は、これらのテキスト文を表示した後又は同時に、第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示する。
なお、表示部27は、音声翻訳装置1に対する第1話者と第2話者との位置関係に応じて、テキスト文を表示する画面レイアウトを変更する。例えば、図1A及び図1Bに示すように、表示部27は、第1話者が発話すると、第1話者側に位置する表示部27の表示領域に音声認識された第1テキスト文を表示し、第2話者側に位置する表示部27の表示領域に翻訳された第2翻訳テキスト文を表示する。また、表示部27は、第2話者が発話すると、第2話者側に位置する表示部27の表示領域に音声認識された第2テキスト文を表示し、第1話者側に位置する表示部27の表示領域に翻訳された第1翻訳テキスト文を表示する。これらの場合、表示部27は、第1テキスト文と第2翻訳テキスト文との文字の向き、及び、第1翻訳テキスト文と第2テキスト文との文字の向きが逆さまとなって表示する。なお、図1Cに示すように、表示部27は、第1話者と第2話者とが左右に並んで会話する場合、第1テキスト文と第2テキスト文との文字の向きが同一となるように表示する。
[音声出力部28]
音声出力部28は、翻訳部26が翻訳した結果である翻訳音声を翻訳部26から取得し、取得した翻訳音声を出力するスピーカであり、翻訳部26及び発話指示部25と通信可能に接続される。つまり、音声出力部28は、第1話者が発話した場合、表示部27に表示される第2翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部28は、第2話者が発話した場合、表示部27に表示される第1翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。
また、音声出力部28は、発話指示音声情報を取得すると、第1話者又は第2話者に、発話指示音声情報に示される発話を促す内容である音声を再生して出力する。音声出力部28は、第1翻訳テキスト文又は第2翻訳テキスト文の翻訳音声を出力した後に、発話指示音声情報に示される音声を再生して出力する。
[電源部29]
電源部29は、例えば一次電池又は二次電池等であり、配線を介して音声入力部21、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等と電気的に接続される。電源部29は、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等に電力を供給する。
<動作>
以上のように構成される音声翻訳装置1が行う動作について、図3を用いて説明する。
図3は、実施の形態1における音声翻訳装置1の動作を示すフローチャートである。
音声翻訳装置1には、第1話者が第1言語による発話を行うことを予め設定し、第2話者が第2言語による発話を行うことを予め設定する。ここでは、第1話者及び第2話者のうちの一方の話者が発話を開始した場合を想定する。第1話者は、音声翻訳装置1を起動させることで、音声翻訳装置1は、第1話者及び第2話者の会話の翻訳を開始する。
まず、図3に示すように、第1話者と第2話者とが会話を行う際、音声を発する前に音声翻訳装置1を起動する。音声翻訳装置1は、音を取得し(S11)、取得した音を示す音響信号を生成する。本実施の形態では、一方の話者が発話を開始すると、音声翻訳装置1は、一方の話者が発話した音声を取得する。図1Aに示すように、一方の話者が第1話者である場合、「何をお探しですか?」と発話すると、音声入力部21は、この発話した音声を取得する。音声入力部21は、音を取得し、取得した音を電気信号に変換し、変換した電気信号である音響信号を音声検出部22に出力する。
次に、音声検出部22は、音声入力部21から音響信号を取得すると、音響信号に示される音から一方の話者の音声区間を検出することで(S12)、検出した音声を一方の話者の音声として抽出する。一例を挙げると、図1Aに示すように、音声入力部21に入力される音から、第1話者の「何をお探しですか?」という音声区間を検出し、検出した音声を抽出する。音声検出部22は、抽出した一方の話者の音声を示す音声情報を音声認識部23に出力する。
発話指示部25は、一方の話者が発話した言語で音声認識するための指示コマンドを音声認識部23に出力し、音声認識された音声を一方の言語から他方の言語に翻訳するための指示コマンドを翻訳部26に出力する。つまり、発話指示部25は、音声認識部23が一方の話者が発話する言語を認識できるように、音声認識部23の認識言語を切換えるための指示コマンドを出力する。また、発話指示部25は、翻訳部26が音声認識部23で音声認識された言語に基づいて所望の言語で翻訳できるように、翻訳言語を切換えるための指示コマンドを出力する。
例えば、音声認識部23は、指示コマンドを取得すると、認識言語を第2言語から第1言語に、又は、認識言語を第1言語から第2言語に切換える。また、翻訳部26は、指示コマンドを取得すると、翻訳言語を第2言語から第1言語に、又は、第1言語から第2言語に切換える。
次に、音声認識部23は、指示コマンドと音声情報とを取得すると、音声情報に示される音声を音声認識する(S13)。例えば、一方の話者の言語が第1言語であれば、音声認識部23は、認識言語を第1言語に選択し、選択した第1言語で音声情報に示される音声を音声認識する。つまり、音声認識部23は、音声情報に示される音声を、第1言語のテキスト文に変換し、変換した第1テキスト文を翻訳部26に出力する。また、一方の話者の言語が第2言語であれば、音声認識部23は、認識言語を第2言語に選択し、選択した第2言語で音声情報に示される音声を音声認識する。つまり、音声認識部23は、音声情報に示される音声を、第2言語のテキスト文に変換し、変換した第2テキスト文を翻訳部26に出力する。
一例を挙げると、図1Aに示すように、音声認識部23は、音声情報に示される音声「何をお探しですか?」を、第1テキスト文「何をお探しですか?」に変換する。
次に、翻訳部26は、音声認識部23からテキスト文を取得すると、第1言語及び第2言語のうちの一方の言語から他方の言語に翻訳する(S14)。つまり、翻訳部26は、テキスト文が第1言語の第1テキスト文であれば第2言語に翻訳し、翻訳した結果である第2翻訳テキスト文を生成する。また、翻訳部26は、テキスト文が第2言語の第2テキスト文であれば第1言語に翻訳し、翻訳した結果である第1翻訳テキスト文を生成する。一例を挙げると、図1Aに示すように、翻訳部26は、第1言語の第1テキスト文「何をお探しですか?」を、第2言語に翻訳して、第2翻訳テキスト文「What are you looking for?」を生成する。
次に、翻訳部26は、生成した第2言語の第2翻訳テキスト文又は第1言語の第1翻訳テキスト文を表示部27に出力する。表示部27は、第2翻訳テキスト文又は第1翻訳テキスト文を表示する(S15)。一例を挙げると、図1Aに示すように、表示部27は、第2翻訳テキスト文「What are you looking for?」を表示する。
また、翻訳部26は、第2翻訳テキスト文を生成すると、当該第2翻訳テキスト文を音声に変換した第2言語の翻訳音声を生成する。また、翻訳部26は、第1翻訳テキスト文を生成すると、当該第1翻訳テキスト文を音声に変換した第1言語の翻訳音声を生成する。翻訳部26は、生成した第2言語の翻訳音声又は第1言語の翻訳音声を音声出力部28に出力する。音声出力部28は、第2言語の翻訳音声又は第1言語の翻訳音声を出力する(S16)。一例を挙げると、図1Aに示すように、音声出力部28は、第2翻訳テキスト文「What are you looking for?」を音声により出力する。なお、ステップS15及びS16の処理は、同一のタイミングであってもよく、処理が反対であってもよい。
次に、発話指示部25は、優先発話入力部24から指示コマンドを取得したかどうかを判定する(S17)。例えば、一方の話者が再度発話したい場合、音声翻訳装置1の操作者は、優先発話入力部24を操作する。これにより、優先発話入力部24は、操作を受付けると、指示コマンドを発話指示部25に出力する。
発話指示部25が優先発話入力部24から指示コマンドを取得した場合(S17でYES)、音声認識部23及び翻訳部26は、一方の話者の音声認識及び翻訳の処理を終了並びに中断、又は、他方の話者の音声を音声認識するための処理に移行していても、一方の話者が発話する音声を音声認識及び翻訳する処理に戻す。発話指示部25は、直近に発話した音声が音声認識された一方の話者に対して、当該一方の話者が発話する音声を優先して音声認識するために、再度、一方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S18)。一例を挙げると、表示部27は、発話指示テキスト情報「もう一度発話して下さい」を表示する。
また、発話指示部25は、優先発話入力部24から指示コマンドを取得した場合、一方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S19)。一例を挙げると、音声出力部28は、発話指示音声情報「もう一度発話して下さい」を音声により出力する。
この場合、音声翻訳装置1は、他方の話者に対して、「Thank you for your patience.」等を表示したり、音声で出力したりしてもよく、何も出力しなくてもよい。なお、ステップS18、S19の処理は同時に行ってもよく、処理が逆転してもよい。
また、発話指示部25は、発話指示音声情報を規定回数、音声出力部28に出力させてもよい。発話指示部25は、規定回数の発話指示音声情報を出力した後に、発話指示音声情報のメッセージを表示部27に出力させてもよい。
そして、音声翻訳装置1は、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1は、ステップS11から処理を開始する。
一方、発話指示部25は、優先発話入力部24から指示コマンドを取得できない場合(S17でNO)、他方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。例えば、この場合、一方の話者が再度発話する必要がなく、音声が正しく認識された場合である。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S21)。一例を挙げると、図1Aに示すように、表示部27は、発話指示テキスト情報「Your Turn!」を表示する。
また、発話指示部25は、優先発話入力部24から指示コマンドを取得できない場合、他方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S22)。一例を挙げると、音声出力部28は、発話指示音声情報「Your Turn!」を音声により出力する。なお、ステップS21、S22の処理は同時に行ってもよく、処理が逆転してもよい。
また、発話指示部25は、発話を促すための音声を規定回数、音声出力部28に出力させてもよい。発話指示部25は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させてもよい。
そして、音声翻訳装置1は、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1は、ステップS11から処理を開始する。
このように、第1話者が音声翻訳装置1を最初に操作するだけで、音声翻訳装置1は、第1話者と第2話者との会話を翻訳することができる。
なお、一方の話者の発話に対して他方の話者が発話する場合も同様の処理であるため、その説明を省略する。
<作用効果>
次に、本実施の形態における音声翻訳装置1の作用効果について説明する。
以上のように、本実施の形態における音声翻訳装置1は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置1であって、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出する音声検出部22と、音声検出部22が検出した音声区間の音声が音声認識されることで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示する表示部27と、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を、表示部27を介して第1言語により出力する発話指示部25とを備える。
これによれば、第1話者と第2話者との会話から、それぞれの音声区間を検出することで、検出した音声を第1言語から第2言語に翻訳した翻訳結果を取得したり、検出した音声を第2言語から第1言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置1では、翻訳をするための入力操作をしなくても、第1話者と第2話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。
また、音声翻訳装置1は、第1話者が発話した後に第2話者に発話を促す内容を出力したり、第2話者が発話した後に第1話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置1では、第1話者と第2話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第1話者と第2話者とが発話をするタイミングを認識することができる。
これらのように、音声翻訳装置1では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置1の操作に手間取り難いため、使用期間の増大を抑制することができる。
したがって、音声翻訳装置1では、操作を簡易にすることで、音声翻訳装置1のエネルギー消費の増大を抑制することができる。特に、この音声翻訳装置1では、操作を簡易にすることができるため、誤操作を抑制することもできる。
また、本実施の形態における音声翻訳方法は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示する表示部27が表示することと、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を、表示部27を介して第1言語により出力することとを含む。
この音声翻訳方法においても、上述の音声翻訳装置1と同様の作用効果を奏する。
また、本実施の形態におけるプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。
このプログラムにおいても、上述の音声翻訳装置1と同様の作用効果を奏する。
本実施の形態における音声翻訳装置1は、さらに、第1話者又は第2話者が発話して音声認識された場合、再度、当該発話した第1話者又は第2話者の発話を優先して音声認識する優先発話入力部24を備える。
これによれば、例えば第1話者及び第2話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部24を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる(言い直すことができる)。このため、優先発話入力部24は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置1は、第1話者及び第2話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。
本実施の形態における音声翻訳装置1は、さらに、第1話者と第2話者とが会話する音声が入力される音声入力部21と、音声検出部22が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部23と、音声認識部23が変換したテキスト文を第1言語から第2言語に翻訳し、かつ、第2言語から第1言語に翻訳する翻訳部26と、翻訳部26が翻訳した結果を音声によって出力する音声出力部28とを備える。
これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置1は、第1話者と第2話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置1は、外部サーバと通信しなくても、第1話者と第2話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置1が外部サーバと通信し難い環境下においても適用することができる。
本実施の形態における音声翻訳装置1において、発話指示部25は、当該音声翻訳装置1の起動時に、第1話者に発話を促す内容を、表示部27を介して第1言語により出力し、第1話者の発話による音声が第1言語から第2言語に翻訳されて、表示部27に翻訳結果が表示された後に、第2話者に発話を促す内容を、表示部27を介して第2言語により出力する。
これによれば、第1言語で第1話者が発話した後に、第2言語で第2話者が発話することを予め登録しておけば、音声翻訳装置1の起動時に、第1話者に発話を促す内容を第1言語により出力すれば、第1話者は、発話を開始することができる。このため、音声翻訳装置1の起動時に、第2言語で第2話者が発話することによる誤翻訳を抑制することができる。
本実施の形態における音声翻訳装置1において、発話指示部25は、翻訳開始後、発話を促すための音声を規定回数、音声出力部28に出力させ、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させる。
これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置1のエネルギー消費の増大を抑制することができる。
(実施の形態2)
<構成>
本実施の形態の音声翻訳装置1aの構成を、図4を用いて説明する。
図4は、実施の形態2における音声翻訳装置1aを示すブロック図である。
本実施の形態では、音源方向を推定する点で、実施の形態1と相違する。
本実施の形態における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
図4に示すように、音声翻訳装置1aは、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27、音声出力部28及び電源部29の他に、複数の音声入力部21と、音源方向推定部31とを備える。
[複数の音声入力部21]
複数の音声入力部21は、マイクロフォンアレイを構成する。具体的には、マイクロフォンアレイは、互いに離間して配置された2以上のマイクロフォンユニットからなり、音声を取得し、取得した音声から電気信号に変換した音響信号を取得する。
複数の音声入力部21は、取得した音響信号を音源方向推定部31に出力する。また、複数の音声入力部21のうちの少なくとも一つは、音声検出部22に音響信号を出力する。本実施の形態では、一つの音声入力部21が音声検出部22と通信可能に接続され、音声検出部22に音響信号を出力する。
本実施の形態では、2つの音声入力部21が音声翻訳装置1aに設けられる、一方の音声入力部21は、他方の音声入力部21と音声の1/2波長以下となる距離だけ離間した状態で配置される。
[音源方向推定部31]
音源方向推定部31は、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する。具体的には、音源方向推定部31は、音声検出部22からの音声情報と、複数の音声入力部21からの音響信号とを取得すると、マイクロフォンアレイを構成する複数の音声入力部21のそれぞれに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定する。つまり、音声検出部22が音声区間を検出できれば、第1話者又は第2話者の音声が音声入力部21に入力されたことを意味するため、音源方向推定部31は、音声情報の取得をトリガとして、音源方向の推定を開始する。
音源方向推定部31は、推定した結果である音源方向を示す音源方向情報を発話指示部25に出力する。
[発話指示部25]
発話指示部25は、表示部27に表示させる態様を制御する制御部31aを有する。具体的には、制御部31aは、音声翻訳装置1aに対する第1話者の位置に対応する表示部27の表示領域に第1言語を表示させ、音声翻訳装置1aに対する第2話者の位置に対応する表示部27の表示領域に第2言語を表示させる。例えば、図1Aに示すように、第1話者の位置に対応する表示部27の表示領域は、日本語で表示されている第1話者側の表示部27の表示領域である。また、第2話者の位置に対応する表示部27の表示領域は、英語で表示されている第2話者側の表示部27の表示領域である。
制御部31aは、当該音声翻訳装置1aの表示部27から第1話者又は第2話者に向かう表示方向であって、表示部27のいずれかの表示領域に表示する側の表示方向と、音源方向推定部31が推定した音源方向とを比較する。制御部31aは、表示方向と音源方向とが実質的に一致する場合、音声認識部23及び翻訳部26を実行させる。例えば、図1Aに示すように、第1話者が発話すると、音声翻訳装置1aに入力された第1話者の音声の内容を示す第1テキスト文が第1話者側(又は第1話者に面する側)の表示領域に表示される。この場合、表示方向は表示部27から第1話者に向く方向であり、音源方向推定部31が推定した音源方向も表示部27から第1話者に向く方向である。
一方、制御部31aは、表示方向と音源方向とが異なる場合、音声認識部23及び翻訳部26を停止させる。第1話者が発話すると、第1話者の音声の内容を示す第1テキスト文が第1話者側の表示領域に表示されても、音源方向推定部31が推定した音源方向が表示部27から第2話者に向く方向である場合、表示方向と推定した音源方向とが一致しない。例えば、第1話者が発話した後に、第1話者が優先発話入力部24を操作せずに、続けて発話する場合、会話に関係の無い周囲の音を音声入力部21が収音した場合等である。
また、制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。例えば、表示方向と推定した音源方向とが一致しないため、どちらの話者が発話したか判らないため、音声認識部23は、音声を第1言語で音声認識してよいのか、第2言語で音声認識してよいのか判らない。また、第1話者が発話してもその音声を音声認識することができなかった場合、翻訳を行うこともできない。このため、制御部31aは、音声認識部23及び翻訳部26を停止させる。
<動作>
以上のように構成される音声翻訳装置1aが行う動作について、図5を用いて説明する。
図5は、実施の形態2における音声翻訳装置1aの動作を示すフローチャートである。
図5と同様の処理については、同一の符号を付し、説明を適宜省略する。
音声翻訳装置1aは、音を取得し(S11)、取得した音を示す音響信号を生成する。
次に、音源方向推定部31は、音声検出部22から音声情報を取得したかどうかを判定する(S12a)。
音源方向推定部31が音声検出部22から音声情報を取得しない場合は(S12aでNO)、音声検出部22が音響信号から音声を検出できない場合であるため、音源方向推定部31は、音声情報を取得できない。つまり、第1話者及び第2話者が会話していない場合である。この場合、ステップS12aの処理を繰り返す。
音源方向推定部31が音声検出部22から音声情報を取得した場合(S12aでYES)、第1話者及び第2話者の少なくとも一方が発話した場合である。この場合、音源方向推定部31は、複数の音声入力部21のそれぞれから取得した音響信号に含まれる音声の時間差(位相差)を算出し、音源方向を推定する(S31)。音源方向推定部31は、推定した結果である音源方向を示す音源方向情報を発話指示部25に出力する。
次に、音源方向推定部31の制御部31aは、表示方向と、推定した音源方向とが実質的に一致しているかどうかを判定する(S32)。
制御部31aは、表示方向と音源方向とが異なる場合(S32でNO)、音声認識部23及び翻訳部26を停止させる。制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。
具体的には、発話指示部25は、一方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S33)。
また、発話指示部25は、一方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S34)。
そして、音声翻訳装置1aは、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1aは、ステップS11から処理を開始する。
制御部31aは、表示方向と音源方向とが実質的に一致する場合(S32でYES)、音声認識部23及び翻訳部26を実行させる。そして、音声翻訳装置1aは、ステップS13に進み、図3と同様の処理を行う。
<作用効果>
次に、本実施の形態における音声翻訳装置1aの作用効果について説明する。
以上のように、本実施の形態における音声翻訳装置1aにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1aは、さらに、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部31と、当該音声翻訳装置1aに対する第1話者の位置に対応する表示部27の表示領域に第1言語を表示させ、当該音声翻訳装置1aに対する第2話者の位置に対応する表示部27の表示領域に第2言語を表示させる制御部31aとを備える。そして、制御部31aは、当該音声翻訳装置1aの表示部27から第1話者又は第2話者に向かう表示方向であって、表示部27のいずれかの表示領域に表示する側の表示方向と、音源方向推定部31が推定した音源方向とを比較し、表示方向と音源方向とが実質的に一致する場合、音声認識部23及び翻訳部26を実行させ、表示方向と音源方向とが異なる場合、音声認識部23及び翻訳部26を停止させる。
これによれば、表示部27の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第1言語で発話する第1話者か第2言語で発話する第2話者かを特定することができる。この場合、第1話者の音声を第1言語で音声認識することができ、第2話者の音声を第2言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。
これにより、音声翻訳装置1aは、第1言語の音声及び第2言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置1aでは、誤翻訳等を抑制することで音声翻訳装置1aの処理量の増大を抑制することができる。
本実施の形態における音声翻訳装置1aにおいて、制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。
これによれば、表示方向と音源方向とが異なる場合でも、発話指示部25が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置1aは、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。
本実施の形態における音声翻訳装置1aにおいても、実施の形態1等と同様の作用効果を奏する。
(実施の形態2の変形例)
本変形例における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
このように構成される音声翻訳装置1aが行う動作について、図6を用いて説明する。
図6は、実施の形態2の変形例における音声翻訳装置1aの動作を示すフローチャートである。
図5と同様の処理については、同一の符号を付し、説明を適宜省略する。
音声翻訳装置1aの処理において、ステップS11~S31の処理を経たのち、ステップS32でNOの場合、制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過したかどうかを判定する(S32a)。
制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過していない場合(S32aでNO)、処理をステップS32aに戻す。
制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過している場合(S32aでYES)、処理をステップS33に進め、図5と同様の処理を行う。
このように、本変形例における音声翻訳装置1aにおいて、表示方向と音源方向とが異なる場合、発話指示部25は、制御部31aが比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。
これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第1話者と第2話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置1aは、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。
本変形例における音声翻訳装置1aにおいても、実施の形態2と同様の作用効果を奏する。
(実施の形態3)
<構成>
本実施の形態の音声翻訳装置1bの構成を、図7を用いて説明する。
図7は、実施の形態3における音声翻訳装置1bを示すブロック図である。
本実施の形態では、音源方向を推定する点で、実施の形態1等と相違する。
本実施の形態における他の構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
音声翻訳装置1bは、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27、音声出力部28、電源部29及び音源方向推定部31の他に、複数の音声入力部21と、第1ビームフォーマ部41と、第2ビームフォーマ部42と、入力切換部32とを備える。
[複数の音声入力部21]
複数の音声入力部21は、マイクロフォンアレイを構成する。複数の音声入力部21のそれぞれは、取得した音響信号を第1ビームフォーマ部41及び第2ビームフォーマ部42に出力する。本実施の形態では、2つの音声入力部21を用いている例を示す。
[第1ビームフォーマ部41及び第2ビームフォーマ部42]
第1ビームフォーマ部41は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する。また、第2ビームフォーマ部42は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する。本実施の形態では、第1ビームフォーマ部41及び第2ビームフォーマ部42は、複数の音声入力部21のそれぞれから取得した音響信号を信号処理する。
これにより、第1ビームフォーマ部41及び第2ビームフォーマ部42は、所定方向に収音の指向性を制御することで、所定方向以外の音の入力を抑制する。所定方向は、例えば、第1話者及び第2話者がそれぞれ発話する音声のそれぞれの音源方向である。
本実施の形態では、第1ビームフォーマ部41は、第1話者側に配置され、複数の音声入力部21のそれぞれと通信可能に接続され、第2ビームフォーマ部42は、第2話者側に配置され、複数の音声入力部21のそれぞれと通信可能に接続される。第1ビームフォーマ部41及び第2ビームフォーマ部42のそれぞれは、複数の音声入力部21のそれぞれから取得した音響信号を信号処理した結果である音響処理信号を、入力切換部32に出力する。
[発話指示部25]
発話指示部25は、入力切換部32に、第1ビームフォーマ部41の出力信号を取得するか、第2ビームフォーマ部42の出力信号を取得するかを切換えさせる。具体的には、発話指示部25は、音源方向推定部31から推定した結果である音源方向を示す音源方向情報を取得すると、音源方向情報に示される音源方向と、ビームフォーマ部の収音の指向性である所定方向とを比較する。発話指示部25は、音源方向と所定方向とが実質的に一致する又は近しい方向のビームフォーマ部を選択する。
発話指示部25は、第1ビームフォーマ部41及び第2ビームフォーマ部42から選択したビームフォーマ部の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。
[入力切換部32]
入力切換部32は、第1ビームフォーマ部41の出力信号、及び、第2ビームフォーマ部42の出力信号を取得し、音声検出部22に出力する出力信号を切換える装置である。入力切換部32は、取得する信号を、第1ビームフォーマ部41の出力信号、又は、第2ビームフォーマ部42の出力信号に切換える。具体的には、入力切換部32は、発話指示部25からの切換コマンドを取得することで、第1ビームフォーマ部41の出力信号から第2ビームフォーマ部42の出力信号、又は、第2ビームフォーマ部42の出力信号から第1ビームフォーマ部41の出力信号に切換える。入力切換部32は、切換コマンドによって、第1ビームフォーマ部41の出力信号を音声検出部22に出力したり、第2ビームフォーマ部42の出力信号を音声検出部22に出力したりする。
入力切換部32は、第1ビームフォーマ部41、第2ビームフォーマ部42、音声検出部22及び発話指示部25と通信可能に接続される。
<動作>
以上のように構成される音声翻訳装置1bが行う動作について説明する。
図8は、実施の形態3における音声翻訳装置1bの動作を示すフローチャートである。
図5等と同様の処理については、同一の符号を付し、説明を適宜省略する。
図8に示すように、音声翻訳装置1bの処理において、ステップS11、S12a、S31及びS32の処理を経たのち、制御部31aが表示方向と音源方向とが実質的に一致すると判定した場合(S32でYES)、発話指示部25は、入力切換部32に切換コマンドを出力する(S51)。
具体的には、第1話者と第2話者とが発話するうえで、2つの音声入力部21において、第1ビームフォーマ部41は、第2話者の発話よりも第1話者の発話に対して高い感度を有し、第2ビームフォーマ部42は、第1話者の発話よりも第2話者の発話に対して高い感度を有する。
このため、表示方向が第1話者側の表示部27の表示領域であれば、第1ビームフォーマ部41の方が第1話者の発話に対して高い感度を有するため、発話指示部25は、第1ビームフォーマ部41の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。この場合、入力切換部32は、切換コマンドを取得すると、第1ビームフォーマ部41の出力信号を出力する。
また、表示方向が第2話者側の表示部27の表示領域であれば、第2ビームフォーマ部42の方が第2話者の発話に対して高い感度を有するため、発話指示部25は、第2ビームフォーマ部42の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。この場合、入力切換部32は、切換コマンドを取得すると、第2ビームフォーマ部42の出力信号を出力する。
そして、音声翻訳装置1bは、ステップS12に進み、図5と同様の処理を行う。
<作用効果>
次に、本実施の形態における音声翻訳装置1bの作用効果について説明する。
以上のように、本実施の形態における音声翻訳装置1bにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1bは、さらに、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部41と、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部42と、取得する信号を、第1ビームフォーマ部41の出力信号、又は、第2ビームフォーマ部42の出力信号に切換える入力切換部32と、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部31とを備える。そして、発話指示部25は、入力切換部32に、第1ビームフォーマ部41の出力信号を取得するか、第2ビームフォーマ部42の出力信号を取得するかを切換えさせる。
これによれば、音源方向推定部31によって、音声翻訳装置1bに対する相対的な話者の方向を推定することができる。このため、入力切換部32は、話者の方向に適した第1ビームフォーマ部41の出力信号及び第2ビームフォーマ部42の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置1bでは、第1話者及び第2話者の音声について、周囲ノイズを低減して収音することができる。
本実施の形態における音声翻訳装置1bにおいても、実施の形態1等と同様の作用効果を奏する。
(実施の形態3の変形例)
本変形例の音声翻訳装置1cを、図9を用いて説明する。
図9は、実施の形態3の変形例における音声翻訳装置1cを示すブロック図である。
本変形例における他の構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
図9に示すように、第1ビームフォーマ部41及び第2ビームフォーマ部42は、複数の音声入力部21のそれぞれと通信可能に接続され、かつ、音源方向推定部31及び入力切換部32と通信可能に接続される。
第1ビームフォーマ部41及び第2ビームフォーマ部42には、複数の音声入力部21のそれぞれからの音響信号が入力される。第1ビームフォーマ部41及び第2ビームフォーマ部42は、入力されたそれぞれの音響信号を信号処理することにより、信号処理した結果であるそれぞれの音響処理信号を、音源方向推定部31及び入力切換部32のそれぞれに出力する。
つまり、本変形例では、複数の音声入力部21のそれぞれは、第1ビームフォーマ部41及び第2ビームフォーマ部42と通信可能に接続され、音源方向推定部31とは通信可能に接続されていない。
このように、音源方向推定部31には、第1ビームフォーマ部41及び第2ビームフォーマ部42によって、話者による音声の音源方向に収音の指向性を高めた音響信号が入力される。
このような、本変形例における音声翻訳装置1cにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1cは、さらに、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部41と、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部42と、第1ビームフォーマ部41の出力信号、及び、第2ビームフォーマ部42の出力信号を信号処理することにより、音源方向を推定する音源方向推定部31とを備える。
これによれば、音源方向推定部31によって、音声翻訳装置1cに対する相対的な話者の方向を推定することができる。このため、音源方向推定部31は、話者の方向に適した第1ビームフォーマ部41の出力信号及び第2ビームフォーマ部42の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。
本変形例における音声翻訳装置1cにおいても、上述の実施の形態1等と同様の作用効果を奏する。
(実施の形態4)
<構成>
本実施の形態の音声翻訳装置1dの構成を、図10を用いて説明する。
図10は、実施の形態4における音声翻訳装置1dを示すブロック図である。
本実施の形態では、音声翻訳装置1dがスコア算出部43を有する点で、実施の形態1等と相違する。
本実施の形態における構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
図10に示すように、音声翻訳装置1dの音声認識部23は、スコア算出部43を備える。
[スコア算出部43]
スコア算出部43は、音声を音声認識した結果、及び、当該結果の信頼性スコアを算出し、算出した信頼性スコアを、発話指示部25に出力する。信頼性スコアは、音声検出部22から取得した音声情報に示される音声を音声認識したときの、音声認識の精度(類似度)を示す。例えば、スコア算出部43は、音声情報に示される音声を変換したテキスト文と、音声情報に示される音声とを比較し、テキスト文と当該音声との類似度を表す信頼性スコアを算出する。
なお、スコア算出部43は、音声認識部23に備えられていなくてもよく、音声認識部23と独立した別の装置であってもよい。
[発話指示部25]
発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアを評価することで、音声認識の精度を判定する。具体的には、発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアが閾値以下であるかどうかを判定する。発話指示部25は、信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部27及び音声出力部28の少なくともいずれかを介して出力する。発話指示部25は、信頼性スコアが閾値よりも高い場合、音声の翻訳を行う。
<動作>
以上のように構成される音声翻訳装置1dが行う動作について説明する。
図11は、実施の形態4における音声翻訳装置1dの動作を示すフローチャートである。
図と同様の処理については、同一の符号を付し、説明を適宜省略する。
音声翻訳装置1dの処理において、ステップS11~S13の処理を経たのち、音声認識部23のスコア算出部43は、音声認識結果の信頼性スコアを算出し、算出した信頼性スコアを発話指示部25に出力する(S61)。
次に、発話指示部25は、音声認識部23のスコア算出部43から信頼性スコアを取得すると、取得した信頼性スコアが閾値以下であるかどうかを判定する(S62)。
発話指示部25は、信頼性スコアが閾値以下の場合(S62でYES)、信頼性スコアが閾値以下の音声の翻訳を行わずに、再度、発話を促す内容である発話指示テキスト情報を、表示部27を介して出力する(S18)。そして、音声翻訳装置1dは、ステップS19に進み、図3等と同様の処理を行う。
発話指示部25は、信頼性スコアが閾値よりも高い場合(S62でNO)、ステップS14に進み、図3等と同様の処理を行う。
<作用効果>
次に、本実施の形態における音声翻訳装置1dの作用効果について説明する。
以上のように、本実施の形態における音声翻訳装置1dにおいて、音声認識部23は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、発話指示部25は、音声認識部23から取得した信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部27及び音声出力部28の少なくともいずれかを介して出力する。
これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部25が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置1dは、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。
特に、音声出力部28が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。
本実施の形態における音声翻訳装置1dにおいても、上述の実施の形態1等と同様の作用効果を奏する。
(その他変形例等)
以上、本開示について、実施の形態1~4及び実施の形態2、4に基づいて説明したが、本開示は、これら実施の形態1~4及び実施の形態2、4等に限定されるものではない。
例えば、上記各実施の形態1~4及び実施の形態2、4に係る音声翻訳装置、音声翻訳方法及びそのプログラムでは、第1話者及び1以上の第2話者のそれぞれの音声を、ネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよく、当該それぞれの音声を認識した第1テキスト文及び第2テキスト文だけをネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよい。
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムにおいて、音声認識部及び翻訳部は、音声翻訳装置に搭載されていなくてもよい。この場合、音声認識部及び翻訳部は、クラウドサーバに搭載されるエンジンであってもよい。音声翻訳装置は、取得した音声情報をクラウドサーバに送信してもよく、音声情報に基づいてクラウドサーバが音声認識と翻訳とを行った結果である、テキスト文と翻訳テキスト文と翻訳音声とを、クラウドサーバから取得してもよい。
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
なお、上記各実施の形態1~4及び実施の形態2、4の変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態1~4及び実施の形態2、4の変形例は例示された数字に制限されない。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
その他、実施の形態1~4及び実施の形態2、4の変形例に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態1~4及び実施の形態2、4の変形例における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
本開示は、異なる言語を話す複数の話者が会話によって意思の疎通を図るために用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに適用することができる。
1、1a、1b、1c、1d 音声翻訳装置
21 音声入力部
22 音声検出部
23 音声認識部
24 優先発話入力部
25 発話指示部
26 翻訳部
27 表示部
28 音声出力部
31 音源方向推定部
31a 制御部
32 入力切換部
41 第1ビームフォーマ部
42 第2ビームフォーマ部

Claims (13)

  1. 第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、
    音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、
    前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、
    前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力する発話指示部とを備える
    音声翻訳装置。
  2. さらに、前記第1話者又は前記第2話者が発話した音声が音声認識された場合、再度、当該音声認識された前記第1話者又は前記第2話者が発話する音声を、優先して音声認識する優先発話入力部を備える
    請求項1に記載の音声翻訳装置。
  3. さらに、
    前記第1話者と前記第2話者とが会話する音声が入力される音声入力部と、
    前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、
    前記音声認識部が変換した前記テキスト文を前記第1言語から前記第2言語に翻訳し、かつ、前記第2言語から前記第1言語に翻訳する翻訳部と、
    前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える
    請求項1又は2に記載の音声翻訳装置。
  4. 前記音声入力部は、複数設けられ、
    さらに、
    複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
    複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
    取得する信号を、前記第1ビームフォーマ部の出力信号、又は、前記第2ビームフォーマ部の出力信号に切換える入力切換部と、
    複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、
    前記発話指示部は、前記入力切換部に、前記第1ビームフォーマ部の出力信号を取得するか、前記第2ビームフォーマ部の出力信号を取得するかを切換えさせる
    請求項3に記載の音声翻訳装置。
  5. 前記音声入力部は、複数設けられ、
    さらに、
    複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、
    当該音声翻訳装置に対する前記第1話者の位置に対応する前記表示部の表示領域に前記第1言語を表示させ、当該音声翻訳装置に対する前記第2話者の位置に対応する前記表示部の表示領域に前記第2言語を表示させる制御部とを備え、
    前記制御部は、
    当該音声翻訳装置の表示部から前記第1話者又は前記第2話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、
    前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、
    前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる
    請求項3に記載の音声翻訳装置。
  6. 前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する
    請求項5に記載の音声翻訳装置。
  7. 前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する
    請求項5又は6に記載の音声翻訳装置。
  8. 前記音声入力部は、複数設けられ、
    さらに、
    複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
    複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
    前記第1ビームフォーマ部の出力信号、及び、前記第2ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える
    請求項3に記載の音声翻訳装置。
  9. 前記発話指示部は、
    当該音声翻訳装置の起動時に、前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力し、
    前記第1話者の発話による音声が前記第1言語から前記第2言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力する
    請求項1~8のいずれか1項に記載の音声翻訳装置。
  10. 前記発話指示部は、
    翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、
    前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる
    請求項3~8のいずれか1項に記載の音声翻訳装置。
  11. 前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、
    前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する
    請求項3~8のいずれか1項に記載の音声翻訳装置。
  12. 第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、
    音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出することと、
    検出した音声区間の音声を音声認識することで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部が表示することと、
    前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力することとを含む
    音声翻訳方法。
  13. 請求項12に記載の音声翻訳方法をコンピュータに実行させるための
    プログラム。
JP2019196078A 2019-03-25 2019-10-29 音声翻訳装置、音声翻訳方法及びそのプログラム Active JP7429107B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010185150.XA CN111739511A (zh) 2019-03-25 2020-03-17 语音翻译装置、语音翻译方法以及记录介质
US16/824,110 US11507759B2 (en) 2019-03-25 2020-03-19 Speech translation device, speech translation method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962823197P 2019-03-25 2019-03-25
US62/823,197 2019-03-25

Publications (2)

Publication Number Publication Date
JP2020160429A JP2020160429A (ja) 2020-10-01
JP7429107B2 true JP7429107B2 (ja) 2024-02-07

Family

ID=72643263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196078A Active JP7429107B2 (ja) 2019-03-25 2019-10-29 音声翻訳装置、音声翻訳方法及びそのプログラム

Country Status (2)

Country Link
JP (1) JP7429107B2 (ja)
CN (1) CN111739511A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100788A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2002135642A (ja) 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
JP2003288339A (ja) 2001-01-24 2003-10-10 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び媒体
JP2011248140A (ja) 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2018163581A (ja) 2017-03-27 2018-10-18 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100788A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2002135642A (ja) 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
JP2003288339A (ja) 2001-01-24 2003-10-10 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び媒体
JP2011248140A (ja) 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2018163581A (ja) 2017-03-27 2018-10-18 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Also Published As

Publication number Publication date
CN111739511A (zh) 2020-10-02
JP2020160429A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
US20210210071A1 (en) Methods and devices for selectively ignoring captured audio data
JP4837917B2 (ja) 音声に基づく装置制御
US9293134B1 (en) Source-specific speech interactions
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
US9792901B1 (en) Multiple-source speech dialog input
US10079021B1 (en) Low latency audio interface
US11182567B2 (en) Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
US20180217985A1 (en) Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program
US11507759B2 (en) Speech translation device, speech translation method, and recording medium
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
EP3654329B1 (en) In-vehicle device and speech recognition method
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2010206365A (ja) 対話装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
JP7172120B2 (ja) 音声認識装置及び音声認識方法
JP7449070B2 (ja) 音声入力装置、音声入力方法及びそのプログラム
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240126

R151 Written notification of patent or utility model registration

Ref document number: 7429107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151