JP7330066B2

JP7330066B2 - 音声認識装置、音声認識方法及びそのプログラム

Info

Publication number: JP7330066B2
Application number: JP2019197289A
Authority: JP
Inventors: 剛樹西川; 博基古川; 敦坂口
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2019-03-27
Filing date: 2019-10-30
Publication date: 2023-08-21
Anticipated expiration: 2039-10-30
Also published as: JP2020160431A; US11315572B2; US20200312332A1; CN111755000A

Description

本開示は、音声認識装置、音声認識方法及び音声認識方法を用いたプログラムに関する。

例えば特許文献１には、ユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号及びそれ以降に入力される音声信号を出力する音声信号保持手段と、音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、発話区間の時刻情報と、発話タイミングの指示の有無及び時刻情報とを比較し、ユーザの誤操作として検知する誤操作検知手段とを備える音声認識装置が開示されている。

この音声認識装置では、ユーザの誤操作を検知することで、検知した誤操作をユーザに通知することができる。

特許第５３７５４２３号公報

しかしながら、特許文献１に開示される技術において、例えば第１話者が音声認識装置の保有者である場合、第１話者は、自身が所有している音声認識装置の使用方法を理解しているため、自身の発話を音声認識装置に認識させるために、正しい操作を行うことができる。このため、第１話者は、自身が発話する音声の話し始めから終わりまで、音声認識装置に認識させることができる。しかし、第１話者の会話相手の第２話者は音声認識装置の使用方法を知らず、第１話者は第２話者が発話するタイミングを認識することができない。このため、第１話者は、第２話者が発話する音声の話し始めから終わりまでを、音声認識装置に認識させることは困難である。これにより、第２話者が発話した音声の音声認識を十分に行うことができないため、第１話者は、再度、第２話者に対して発話をして貰うように促す必要がある。

そこで、本開示は、上述の事情を鑑みてなされたもので、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。

本開示の一態様に係る音声認識装置は、第１話者と、前記第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識装置であって、前記第１話者及び前記１以上の第２話者の会話のそれぞれの音声を取得する取得部と、前記取得部が取得した前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声を記憶する記憶部と、少なくとも前記第１話者からの操作入力を受付ける入力部と、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、音声ごとに設定される、前記入力部への操作入力を受付けた第１時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、前記第１話者及び前記１以上の第２話者のうちから、前記入力部への操作入力を行った前記第１話者か前記入力部への操作入力を行っていない前記１以上の第２話者かを区別する発話者区別部とを備え、前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示の音声認識装置等によれば、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる。

図１Ａは、実施の形態１における音声認識装置を搭載した音声翻訳装置の外観と、第１話者と第２話者との音声翻訳装置の使用場面の一例を示す図である。図１Ｂは、実施の形態１における別の音声翻訳装置の外観の一例を示す図である。図２は、実施の形態１における音声翻訳装置を示すブロック図である。図３は、第１話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。図４は、第１話者と第２話者とが会話する際の、第１時点と第２時点との時系列を例示した図である。図５は、第２話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。図６は、実施の形態１における音声翻訳装置の発話者区別部における動作を示すフローチャートである。図７は、実施の形態２における音声翻訳装置を示すブロック図である。

そこで、本開示では、第１話者及び１以上の第２話者の会話によるそれぞれ音声が記憶部に記憶されるため、記憶された音声から第１話者か第２話者かを区別することができる。これにより、音声認識部は、区別の処理が行われた第１話者及び第２話者のそれぞれの音声を、記憶部から読み出して音声認識することができる。つまり、第１話者が入力部への操作入力をした後に第１話者が発話すれば、音声認識部は、第１話者が発話した音声を音声認識することができる。また、通常は第１話者の発話が終了した後に第２話者が発話を開始するため、第２話者の発話に応じて第１話者が入力部への操作入力をすることで、音声認識部は、第２話者が発話した音声を音声認識することができる。

したがって、この音声認識装置では、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる。

また、本開示の他の態様に係る音声認識方法は、第１話者と、前記第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識方法であって、前記第１話者及び前記１以上の第２話者の会話のそれぞれの音声を取得することと、取得した前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声を記憶部に記憶することと、少なくとも前記第１話者からの入力部への操作入力を受付けることと、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出することと、音声ごとに設定される、前記入力部への操作入力を受付けた第１時点と前記それぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、前記第１話者及び前記１以上の第２話者のうちから、前記入力部への操作入力を行った前記第１話者か前記入力部への操作入力を行っていない前記１以上の第２話者かを区別することと、前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声は、音声認識することとを含む。

この音声認識方法においても、上述の音声認識装置と同様の作用効果を奏する。

また、本開示の他の態様に係るプログラムは、音声認識方法をコンピュータに実行させるためのプログラムである。

このプログラムにおいても、上述の音声認識装置と同様の作用効果を奏する。

また、本開示の他の態様に係る音声認識装置において、前記発話者区別部は、前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声ごとに設定された前記第１時点と前記第２時点とを比較し、前記第１時点の方が前記第２時点よりも時間が早い時点の場合、前記第１話者及び前記１以上の第２話者のうちから前記第１話者を区別し、前記第２時点の方が前記第１時点よりも時間が早い時点の場合、前記第１話者及び前記１以上の第２話者のうちから前記第２話者を区別する。

これによれば、例えば第１話者が音声認識装置の保有者である場合、第１話者は、所有している音声認識装置の使用方法を理解しているものであるため、入力部に操作入力した後に発話を開始する。つまり、第１話者によって入力部への操作入力を受付けた第１時点は、第１話者が発話を開始した第２時点よりも時間が早くなるため、発話者区別部は、第１話者及び１以上の第２話者のうちから第１話者を区別することができる。また、第１話者は、第２話者が発話するタイミングを認識することができないため、第２話者が発話を開始してから、入力部に操作入力することとなる。つまり、第１話者によって入力部への操作入力を受付けた第１時点は、第１話者が発話を開始した第２時点よりも時間が遅くなるため、発話者区別部は、第１話者及び１以上の第２話者のうちから第２話者を区別することができる。

このように、発話者区別部は、第１時点に直近の発話した話者が第１話者か第２話者かを正確に区別することができる。このため、この音声認識装置では、より確実に第２話者の音声を取得することができるため、第２話者の音声を音声認識することができる。

また、本開示の他の態様に係る音声認識装置において、前記第１話者及び前記１以上の第２話者のうちから前記第１話者が区別された場合、前記音声認識部は、前記第１話者が発話した音声を音声認識し、前記第１話者及び前記１以上の第２話者のうちから第２話者が区別された場合、前記音声認識部は、前記第２話者が発話した音声を音声認識する。

これによれば、発話した話者が第１話者か第２話者かを発話者区別部が区別することで、音声認識部は、第１話者及び第２話者が発話したそれぞれの音声を、より確実に音声認識することができる。

また、本開示の他の態様に係る音声認識装置において、前記発話者区別部は、前記入力部が操作入力を受付けた前記第１時点から前後の期間である規定期間における前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声から、前記第１話者か前記第２話者かを区別する。

これによれば、第１話者か第２話者かを区別するために、第１時点を基点とする規定期間を設けることができる。このため、第１話者が操作入力した第１時点から第１時点よりも規定期間前までの間、又は、当該第１時点から規定期間が経過するまでの間に話者が発話した直近の音声が、第１話者か第２話者かを区別することができる。これにより、第１話者及び第２話者のそれぞれの音声を個別に認識することができる。このため、この音声認識装置では、第１話者か第２話者かを正確に区別することができる。

また、本開示の他の態様に係る音声認識装置において、前記入力部への操作入力を行った前記第１話者が発話した音声の音声認識をした後、前記記憶部は、前記第２話者の音声を記憶するために、前記取得部が取得した前記それぞれの音声の記憶を開始する。

通常、第１話者の発話が終了して第１話者の音声の内容を理解した後に、第２話者が発話を開始する。第１話者が発話した音声を音声認識した後、第２話者が発話する前に録音を開始するため、記憶部は、第２話者が発話した音声を確実に記憶することができる。また、少なくとも第１話者が発話を終了した時点から記憶部が録音を開始するまでの間、音声認識装置は、音声の記憶を中断することができる。このため、記憶部に記憶させるための音声認識装置の電力消費を抑制することができる。

また、本開示の他の態様に係る音声認識装置は、前記音声認識部を有するクラウドサーバと通信可能な通信部を備え、前記通信部は、前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声を前記クラウドサーバに送信し、前記クラウドサーバの前記音声認識部が前記それぞれの音声の開始位置以降の音声を音声認識した結果を受信する。

これによれば、第１話者及び１以上の第２話者が発話したそれぞれの音声を、クラウドサーバが音声認識するため、音声認識装置の処理負担を軽減することができる。

また、本開示の他の態様に係る音声認識装置は、前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声を音声認識する前記音声認識部を備える。

これによれば、音声認識装置が音声認識するため、外部のクラウドサーバに音声を送信する必要もないため、音声認識装置とクラウドサーバとの間の通信量の増加を抑制することができる。

また、本開示の他の態様に係る音声認識装置において、前記入力部は、前記音声認識装置に設けられた１つの操作ボタンである。

これによれば、第１話者は、音声認識装置の操作を簡易に行うことができる。

また、本開示の他の態様に係る音声認識装置において、前記入力部は、前記第１話者及び前記１以上の第２話者のそれぞれが発話する度に、前記第１話者からの操作入力を受付ける。

これによれば、第２話者に対して操作入力を委ねることを極力避け、第１話者が音声認識装置への操作入力を積極的に行うことで、第１話者及び第２話者のうちから一方の話者を確実に区別することができる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

以下、本開示の一態様に係る音声認識装置、音声認識方法及びそのプログラムについて、図面を参照しながら具体的に説明する。

（実施の形態１）
＜構成：音声翻訳装置１＞
図１Ａは、実施の形態１における音声認識装置１０を搭載した音声翻訳装置１の外観と、第１話者と第２話者との音声翻訳装置１の使用場面の一例を示す図である。

図１Ａに示すように、音声翻訳装置１は、第１言語で発話する第１話者と、第２言語で発話する１以上の第２話者との間の会話を認識し、認識した会話を双方向に翻訳する装置である。つまり、音声翻訳装置１は、第１話者と１以上の第２話者との異なる２つの言語間において、第１話者と１以上の第２話者とが発話したそれぞれの音声を認識し、認識した発話内容を相手の言語に翻訳する。第１言語は、第２言語と異なる言語である。第１言語及び第２言語は、日本語、英語、フランス語、ドイツ語、中国語等である。本実施の形態では、１名の第１話者と、１名の第２話者とが対面しながら会話する様子を例示する。

本実施の形態では、第１話者を音声翻訳装置１の所有者とし、音声翻訳装置１への操作入力は、主に第１話者によって行われる。つまり、第１話者は、音声翻訳装置１の操作方法を理解している、音声翻訳装置１の使用者である。

本実施の形態では、第１話者が発話する前に、第１話者が音声翻訳装置１に操作入力を行うことで、音声翻訳装置１は、第１話者が第１言語で発話した音声を認識する。音声翻訳装置１は、第１話者が第１言語で発話した音声を認識すると、認識した当該音声を第１言語である第１テキスト文（文字）で表示し、かつ、第１言語の当該音声を第２言語に翻訳した第２言語である第２テキスト文（文字）を表示するとともに、翻訳した第２言語である第２テキスト文を音声で出力する。このように、音声翻訳装置１は、音声認識された第１テキスト文と、翻訳された第２テキスト文と、翻訳された第２テキスト文の音声とを同時に出力する。

また、本実施の形態では、第２話者が発話した後に、第１話者が音声翻訳装置１に操作入力を行うことで、音声翻訳装置１は、第２話者が第２言語で発話した音声を認識する。音声翻訳装置１は、第２話者が第２言語で発話した音声を認識すると、認識した当該音声を第２言語である第２テキスト文で表示し、かつ、第２言語の当該音声を第１言語に翻訳した第１テキスト文を表示するとともに、翻訳された第１テキスト文を音声で出力する。このように、音声翻訳装置１は、音声認識された第２テキスト文と、翻訳された第１テキスト文と、翻訳された第１テキスト文の音声とを同時に出力する。

第１話者と第２話者は、音声翻訳装置１を用いて対面しながら会話したり、左右に並んで会話したりする。このため、音声翻訳装置１は、表示態様を変更してもよい。

音声翻訳装置１は、スマートホン及びタブレット端末等の、第１話者が携帯可能な携帯端末である。

次に、音声翻訳装置１の具体的な構成について説明する。

図２は、実施の形態１における音声翻訳装置１を示すブロック図である。

図２に示すように、音声翻訳装置１は、音声認識装置１０と、翻訳処理部３２と、表示部３３と、音声出力部３４と、電源部３５とを有する。

［音声認識装置１０］
音声認識装置１０は、第１話者と、第１話者の会話相手である１以上の第２話者とが会話を行うための装置であり、第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話つまり音声を音声認識する装置である。

音声認識装置１０は、入力部２４と、取得部２１と、記憶部２２と、発話開始検出部２３と、発話者区別部２５と、音声認識部２６とを備える。

入力部２４は、少なくとも第１話者からの操作入力を受付ける操作入力部である。具体的には、入力部２４は、第１話者が発話をする際に、発話直前に第１話者からの操作入力を受付けたり、第２話者が発話をする際に、発話直後に第１話者からの操作入力を受付けたりする。つまり、入力部２４は、第１話者及び１以上の第２話者のそれぞれが発話する度に、第１話者からの操作入力を受付ける。入力部２４への操作入力は、第１話者及び１以上の第２話者の会話のそれぞれの音声の音声認識をするかどうかのトリガーとなる。

また、入力部２４は、第１話者からの操作入力によって、記憶部２２への音声の録音を開始するトリガーとなってもよく、記憶部２２への音声の録音を中止又は停止するトリガーとなってもよい。

入力部２４は、操作入力に応じた入力信号を生成し、生成した入力信号を発話開始検出部２３に出力する。また、入力部２４は、第１話者からの操作入力を受付けた第１時点を含む入力信号を生成し、生成した入力信号を発話者区別部２５に出力する。入力信号には、第１時点を示す情報（タイムスタンプ）が含まれる。

例えば、入力部２４は、音声認識装置１０に設けられた１つの操作ボタンである。入力部２４は、音声認識装置１０に２つ以上が設けられていてもよい。なお、本実施の形態では、入力部２４は、音声翻訳装置１の表示部３３と一体的に設けられるタッチセンサである。この場合、図１Ｂに示すように、音声翻訳装置１の表示部３３には、第１話者による操作入力を受付ける操作ボタンである入力部２４が複数表示されていてもよい。図１Ｂは、実施の形態１における別の音声翻訳装置の外観の一例を示す図である。

図１Ａに示すように、取得部２１は、第１話者及び１以上の第２話者の会話のそれぞれの音声を取得する。具体的に、取得部２１は、第１話者及び１以上の第２話者の会話のそれぞれが発話した音声を取得し、取得した話者が発話した音声を含む音を音声信号に変換し、変換した音声信号を記憶部２２に出力する。

取得部２１は、音声を含む音声信号に変換することで、音声信号を取得するマイクロホン部である。なお、取得部２１は、マイクロホンと電気的に接続される入力インターフェイスであってもよい。つまり、取得部２１は、マイクロホンから、音声信号を取得してもよい。複数のマイクロホンから構成されるマイクロホンアレイ部であってもよい。取得部２１は、音声認識装置１０の周囲に存在する話者の音声を収音することができればよいため、話者認識装置１における取得部２１の配置については特に限定されない。

記憶部２２は、取得部２１が取得した第１話者及び１以上の第２話者の会話のそれぞれの音声を記憶する。具体的には、記憶部２２は、取得部２１から取得した音声信号に含まれる音声の音声情報を記憶する。つまり、記憶部２２には、第１話者及び１以上の第２話者の会話のそれぞれが発話した音声を含む音声情報が、自動的に記憶される。

記憶部２２は、音声認識装置１０が起動したとき、つまり音声翻訳装置１が起動したときに、録音を再開する。また、記憶部２２は、音声翻訳装置１の起動後に、最初に第１話者が入力部２４に操作入力をした時点から録音を開始してもよい。つまり、入力部２４への操作入力によって、記憶部２２は音声の録音を開始してもよい。また、記憶部２２は、入力部２４への操作入力によって、音声の録音を中止又は停止してもよい。

また、記憶部２２は、例えば入力部２４への操作入力を行った第１話者が発話した音声についての音声認識をした後に、第２話者の音声を記憶するために、取得部２１が取得した音声の記憶を開始する。つまり、記憶部２２は、少なくとも、第１話者が発話した音声の音声情報の記憶後から当該音声の音声認識後までの間、取得部２１が取得した音を記憶しない。

なお、記憶部２２に記憶される容量には限りがあるため、記憶部２２に記憶された音声情報は、規定容量に達すると、自動的に古い音声データから削除してもよい。つまり、音声情報には、話者の音声と、日時を示す情報（タイムスタンプ）が付加されていてもよい。

また、記憶部２２は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又は半導体メモリ等で構成される。

発話開始検出部２３は、第１話者による入力部２４への操作入力後、記憶部２２に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部への操作入力に応じて音声ごとに検出する検出装置である。具体的には、発話開始検出部２３は、記憶部２２に記憶されるそれぞれの音声において、第１話者による入力部２４への操作入力をした第１時点から規定期間が経過するまでの間に第１話者が発話した音声であって、第１話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部２３は、入力部２４への操作入力完了時の第１時点から規定期間が経過するまでの間に、第１話者が発話した音声の発話開始の第２時点である開始位置を検出する。

また、発話開始検出部２３は、記憶部２２に記憶されるそれぞれの音声において、第１話者による入力部２４への操作入力をした第１時点から第１時点よりも規定期間前までの間に第２話者が発話を開始した音声であって、第２話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部２３は、入力部２４への操作入力完了時の第１時点から第１時点よりも規定期間前までの間に、第２話者が発話した音声の発話開始の第２時点である開始位置を検出する。

発話開始検出部２３は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を、発話者区別部２５及び音声認識部２６に出力する。開始位置情報は、第１話者が発話した音声の発話開始時点である開始位置を示す情報（タイムスタンプ）であり、第２話者が発話した音声の発話開始時点である開始位置を示す情報（タイムスタンプ）である。

発話者区別部２５は、入力部２４から入力信号を取得すると、音声ごとに設定される、第１話者による入力部２４への操作入力を受付けた第１時点と発話開始検出部２３がそれぞれの音声から検出した発話の開始位置の第２時点とに基づいて、入力部２４への操作入力を行った第１話者か、入力部２４への操作入力を行っていない第２話者かを区別する。

具体的には、発話者区別部２５は、第１話者及び１以上の第２話者の会話のそれぞれの音声ごとに設定された第１時点と第２時点とを比較する。より具体的には、発話者区別部２５は、入力部２４から取得した入力信号に含まれる第１時点と、当該第１時点から前後の期間である規定期間内の音声の発話開始位置である第２時点とを比較する。これにより、発話者区別部２５は、第１話者か第２話者かを区別する。

例を挙げれば、発話者区別部２５は、第１時点の方が第２時点よりも時間が早い時点の場合、第１話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第１話者を区別する。また、発話者区別部２５は、第２時点の方が第１時点よりも時間が早い時点の場合、第２話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第２話者を区別する。

また、発話者区別部２５は、入力部２４が第１話者からの操作入力を受付けた第１時点から前後の期間である規定期間における第１話者及び１以上の第２話者が発話したそれぞれの音声から、第１話者か第２話者かを区別する。具体的には、１以上の第１話者と１以上の第２話者とが会話する中で、発話者区別部２５は、入力部２４が操作入力を受付けた第１時点を基点として、第１時点から第１時点よりも規定期間前までの間、又は、当該第１時点から規定期間が経過するまでの間において、話者が発話した直近の音声を、記憶部２２に記憶されているそれぞれの音声の中から選択する。発話者区別部２５は、選択した音声によって、第１話者か第２話者かを区別する。ここで規定期間は、例えば、１秒、２秒等の数秒間であり、例えば１０秒間であってもよい。これにより、発話者区別部２５は、第１話者及び１以上の第２話者のそれぞれが直近に発話したそれぞれの音声ごとの第１時点と第２時点とに基づいて、第１話者か第２話者かを区別する。これは、古すぎる音声に基づいて、発話者区別部２５が第１話者か第２話者かを区別しても、直近に発話した話者が第１話者か第２話者かを正確に区別することができなくなる不具合を避けるためである。

発話者区別部２５は、話者を区別した結果を含む結果情報を、音声認識部２６に出力する。結果情報は、第１話者の発話によって記憶された音声情報が、区別された第１話者であることを示す情報、又は、第２話者の発話によって記憶された音声情報が、区別された第２話者であることを示す情報を含む。

音声認識部２６は、発話者区別部２５から結果情報と、発話開始検出部２３から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部２５によって区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声における開始位置以降の音声を、音声認識する。具体的には、音声認識部２６は、第１話者及び１以上の第２話者のうちから第１話者が区別された場合、区別された第１話者が直近に発話した音声の音声情報に示される当該音声を第１言語で音声認識する。また、音声認識部２６は、第１話者及び１以上の第２話者のうちから第２話者が区別された場合、区別された第２話者が直近に発話した音声の音声情報に示される当該音声を第２言語で音声認識する。音声認識は音声認識部２６が話者の発話した音声の内容を第１言語及び第２言語で認識することである。認識した当該音声の内容を示す第１テキスト文及び第２テキスト文は、音声認識部２６によって生成される。音声認識部２６は、生成した第１テキスト文及び第２テキスト文を翻訳処理部３２に出力する。

［翻訳処理部３２］
翻訳処理部３２は、音声認識部２６から取得したテキスト文に基づいて、テキスト文に示される認識された言語（認識言語）を別の言語に翻訳し、翻訳した別の言語である翻訳言語で示されたテキスト文を生成する。

具体的には、翻訳処理部３２は、音声認識部２６から第１テキスト文を取得すると、第１テキスト文に示される第１言語から第２言語に翻訳し、第２言語に翻訳された第２テキスト文を生成する。翻訳処理部３２は、第２テキスト文の内容を認識し、認識した第２テキスト文の内容を示す第２言語の翻訳音声を生成する。翻訳処理部３２は、生成した第１テキスト文及び第２テキスト文を表示部３３に出力するとともに、生成した第２言語の翻訳音声を示す情報を音声出力部３４に出力する。

また、翻訳処理部３２は、音声認識部２６から第２テキスト文を取得すると、第２テキスト文に示される第２言語から第１言語に翻訳し、第１言語に翻訳された第１テキスト文を生成する。翻訳処理部３２は、第１テキスト文の内容を認識し、認識した第１テキスト文の内容を示す第１言語の翻訳音声を生成する。翻訳処理部３２は、生成した第２テキスト文及び第１テキスト文を表示部３３に出力するとともに、生成した第１言語の翻訳音声を示す情報を音声出力部３４に出力する。

なお、音声翻訳装置１は翻訳処理部３２を有していなくてもよく、クラウドサーバが翻訳処理部３２を有していてもよい。この場合、音声翻訳装置１はネットワークを介してクラウドサーバと通信可能に接続され、音声認識装置１０が音声認識した第１テキスト文又は第２テキスト文をクラウドサーバに送信してもよい。また、音声翻訳装置１は、翻訳された第２テキスト文又は第１テキスト文と、翻訳音声とを受信し、受信した第２テキスト文又は第１テキスト文を表示部３３に出力し、受信した翻訳音声を音声出力部３４に出力してもよい。

［表示部３３］
表示部３３は、例えば、液晶パネル、又は、有機ＥＬパネル等のモニタである。表示部３３は、翻訳処理部３２から取得した第１テキスト文及び第２テキスト文を表示する。

表示部３３は、音声認識装置１０に対する第１話者と第２話者との位置関係に応じて、第１テキスト文及び第２テキスト文を表示する画面レイアウトを変更する。例えば、表示部３３は、第１話者が発話すると、第１話者側に位置する表示部３３の領域に音声認識された第１テキスト文を表示し、第２話者側に位置する表示部３３の領域に翻訳された第２テキスト文を表示する。また、表示部３３は、第２話者が発話すると、第２話者側に位置する表示部３３の領域に音声認識された第２テキスト文を表示し、第１話者側に位置する表示部３３の領域に翻訳された第１テキスト文を表示する。これらの場合、表示部３３は、第１テキスト文と第２テキスト文との文字の向きが逆さまとなって表示する。なお、表示部３３は、第１話者と第２話者とが左右に並んで会話する場合、第１テキスト文と第２テキスト文との文字の向きが同一となるように表示する。

［音声出力部３４］
音声出力部３４は、翻訳処理部３２から取得した翻訳音声を示す情報に示される翻訳音声を出力するスピーカである。つまり、音声出力部３４は、第１話者が発話した場合、表示部３３に表示される第２テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部３４は、第２話者が発話した場合、表示部３３に表示される第１テキスト文と同様の内容の翻訳音声を再生して出力する。

［電源部３５］
電源部３５は、例えば一次電池又は二次電池等であり、配線を介して音声認識装置１０、翻訳処理部３２、表示部３３及び音声出力部３４等と電気的に接続される。電源部３５は、音声認識装置１０、翻訳処理部３２、表示部３３及び音声出力部３４等に電力を供給する。なお、本実施の形態では、電源部３５は、音声翻訳装置１に設けられているが、音声認識装置１０に設けられていてもよい。

＜動作＞
以上のように構成される音声翻訳装置１が行う動作について説明する。

図３は、実施の形態１における音声翻訳装置１の動作を示すフローチャートである。図４は、第１話者と第２話者とが会話する際の、第１時点と第２時点との時系列を例示した図である。図３及び図４では、第１話者と第２話者とが一対一で会話する場合を想定する。また、音声翻訳装置１の所有者を第１話者とし、第１話者が主体的に音声翻訳装置１の操作を行う場合を想定する。また、音声翻訳装置１には、第１話者が第１言語による発話を行うことを予め設定し、第２話者が第２言語による発話を行うことを予め設定する。

図１Ａ、図３及び図４に示すように、まず、第１話者と第２話者とが会話を行う際に、第１話者は、音声を発する前に、入力部２４に対して操作入力する。つまり、入力部２４は、第１話者からの操作入力を受付ける（Ｓ１１）。具体的には、入力部２４は、受付けた操作入力に応じた入力信号を生成し、生成した入力信号を発話開始検出部２３に出力する。また、入力部２４は、第１話者からの操作入力を受付けた第１時点を含む入力信号を生成し、生成した入力信号を発話者区別部２５に出力する。

次に、第１話者は、音声認識装置１０の所有者であり、自身が発話するタイミングを当然に理解しているものであるため、入力部２４に対して操作入力した後に発話を開始する。音声認識装置１０は、第１話者と第２話者とが会話を行う際に、一方の話者が発話した音声を取得する（Ｓ１２）。つまり、一方の話者が発話すると、取得部２１は、一方の話者が発話した音声を取得する。取得部２１は、取得した一方の話者が発話した音声を含む音声信号に変換し、変換した音声信号を記憶部２２に出力する。

次に、記憶部２２は、ステップＳ１２で取得部２１から取得した音声信号に含まれる音声の音声情報を記憶する（Ｓ１３）。つまり、記憶部２２には、一方の話者が発話した直近の音声の音声情報が自動的に記憶される。

次に、発話開始検出部２３は、入力部２４から入力信号を取得すると、ステップＳ１３で記憶部２２に記憶された音声において、発話を開始した開始位置（第２時点）を検出する（Ｓ１４）。具体的には、発話開始検出部２３は、第１話者による入力部２４への操作入力した直後に一方の話者が発話した音声であって、一方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。

発話開始検出部２３は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を発話者区別部２５及び音声認識部２６に出力する。

次に、発話者区別部２５は、入力部２４から入力信号を取得すると、音声ごとに設定される、第１時点と第２時点とに基づいて、一方の話者が、入力部２４への操作入力を行った第１話者か、入力部２４への操作入力を行っていない第２話者かを区別する（Ｓ１５ａ）。具体的には、発話者区別部２５は、第１時点と第２時点とを比較する。つまり、発話者区別部２５は、第１時点が第２時点よりも時間が早い時点かどうかを判定する。

例えば、発話者区別部２５は、第１時点の方が第２時点よりも時間が早い時点の場合、一方の話者である第１話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第１話者を区別する。また、発話者区別部２５は、第２時点の方が第１時点よりも時間が早い時点の場合、他方の話者である第２話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第２話者を区別する。

ここでは、第１時点の方が第２時点よりも時間が早い時点であるため、発話者区別部２５は、第１話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第１話者を区別する。発話者区別部２５は、話者を区別した結果を含む結果情報を、音声認識部２６に出力する。結果情報は、ステップＳ１２の音声情報が、区別された第１話者であることを示す情報を含む。

次に、音声認識部２６は、発話者区別部２５から結果情報と、発話開始検出部２３から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部２５によって区別の処理が行われた第１話者の音声を音声認識する（Ｓ１６）。

具体的には、音声認識部２６は、第１話者が直近に発話したステップＳ１２の音声の音声情報を、発話開始検出部２３を介して記憶部２２から取得する。音声認識部２６は、発話開始検出部２３を介して記憶部２２から取得した音声情報に示される第１話者が発話した当該音声を、音声認識する。

より具体的には、音声認識部２６は、第１話者が発話した音声の内容を第１言語で認識し、認識した当該音声の内容を示す第１テキスト文を生成する。つまり、この第１テキスト文の内容は、第１話者が発話した音声の内容と一致し、第１言語で示される。音声認識部２６は、生成した第１テキスト文を翻訳処理部３２に出力する。

翻訳処理部３２は、音声認識部２６から第１テキスト文を取得すると、第１言語から第２言語に翻訳し、第２言語に翻訳された第２テキスト文を生成する。つまり、第２言語で示された第２テキスト文の内容は、第１言語で示された第１テキスト文の内容と一致する。

翻訳処理部３２は、第２テキスト文の内容を認識し、認識した第２テキスト文の内容を示す第２言語の翻訳音声を生成する。

翻訳処理部３２は、生成した第１テキスト文及び第２テキスト文を表示部３３に出力するとともに、生成した第２言語の翻訳音声を示す情報を音声出力部３４に出力する。

表示部３３は、翻訳処理部３２から取得した第１テキスト文及び第２テキスト文を表示する。具体的には、表示部３３は、第１話者側に位置する画面に第１テキスト文を表示し、第２話者側に位置する画面に第２テキスト文を表示する。表示部３３は、第１話者が第１テキスト文を読めるように、第１話者に対して第１テキスト文の文字の向きを正向きで表示し、第２話者が第２テキスト文を読めるように、第２話者に対して第２テキスト文の文字の向きを正向きで表示する。つまり、第１テキスト文の文字の向きは、第２テキスト文の文字の向きに対して逆さまになっている。

また、音声出力部３４は、翻訳処理部３２から取得した、第２言語の翻訳音声を示す情報に示される第２言語の翻訳音声を出力する。つまり、音声出力部３４は、第１言語から第２言語に翻訳された翻訳音声を出力する。これにより、第２言語の翻訳音声を聞いた第２話者は、第１話者が発話した音声を理解することができる。また、表示部３３には、第２テキスト文で表示されるため、第２話者は、確実に第１話者が発話した音声を文字でも理解することができる。

次に、第２話者が発話する場合について、図５を用いて説明する。図５は、第２話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。図３と同様の処理については適宜説明を省略する。

図１Ａ、図４及び図５に示すように、まず、第１話者は、話者である第２話者が発話するタイミングを認識できないものであるため、第２話者が発話した後に、入力部２４に対して操作入力する。

まず、音声認識装置１０は、第１話者と第２話者とが会話を行う際に、他方の話者が発話した音声を取得する（Ｓ２１）。つまり、他方の話者が発話すると、取得部２１は、他方の話者が発話した音声を取得する。取得部２１は、取得した他方の話者が発話した音声を含む音声信号に変換し、変換した音声信号を記憶部２２に出力する。

次に、他方の話者は、第２言語による音声で発話する。第１話者は、第１話者と第２話者とが会話を行う際において、他方の話者が音声を発した後に、入力部２４に対して操作入力する。つまり、入力部２４は、第１話者からの操作入力を受付ける（Ｓ２２）。具体的には、入力部２４は、受付けた操作入力に応じた入力信号を発話開始検出部２３に出力し、操作入力を受付けた時点（第１時点）を含む入力信号を発話者区別部２５に出力する。

次に、記憶部２２は、ステップＳ２１で取得部２１から取得した音声信号に含まれる音声の音声情報を記憶する（Ｓ１３）。つまり、記憶部２２には、他方の話者が発話した直近の音声の音声情報が自動的に記憶される。

次に、発話開始検出部２３は、第１話者による入力部２４への操作入力した直前に他方の話者が発話した音声であって、他方の話者の発話によって記憶された音声情報に示される音声の開始位置（第２時点）を検出する（Ｓ１４）。

次に、発話者区別部２５は、第１時点と第２時点とを比較し、第１時点が第２時点よりも時間が早い時点かどうかを判定することで、他方の話者が第１話者か第２話者かを区別する（Ｓ１５ｂ）。

ここでは、第２時点の方が第１時点よりも時間が早い時点であるため、発話者区別部２５は、他方の話者である第２話者が発話した音声が音声認識装置１０に入力（記憶部２２に記憶）されたと判定し、第１話者及び第２話者のうちから第２話者を区別する。発話者区別部２５は、話者を区別した結果を含む結果情報を、音声認識部２６に出力する。結果情報は、ステップＳ２１の音声情報が、区別された第２話者であることを示す情報を含む。

次に、音声認識部２６は、発話者区別部２５から結果情報と、発話開始検出部２３から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部２５によって区別の処理が行われた第２話者の音声を音声認識する（Ｓ１６）。

具体的には、音声認識部２６は、第２話者が直近に発話したステップＳ２１の音声の音声情報を、発話開始検出部２３を介して記憶部２２から取得する。音声認識部２６は、発話開始検出部２３を介して記憶部２２から取得した音声情報に示される第２話者が発話した当該音声を、音声認識する。

より具体的には、音声認識部２６は、第２話者が発話した音声の内容を第２言語で認識し、認識した当該音声の内容を示す第２テキスト文を生成する。つまり、この第２テキスト文の内容は、第２話者が発話した音声の内容と一致し、第２言語で示される。音声認識部２６は、生成した第２テキスト文を翻訳処理部３２に出力する。

翻訳処理部３２は、音声認識部２６から第２テキスト文を取得すると、第２言語から第１言語に翻訳し、第１言語に翻訳された第１テキスト文を生成する。つまり、第１言語で示された第１テキスト文の内容は、第２言語で示された第２テキスト文の内容と一致する。

翻訳処理部３２は、第１テキスト文の内容を認識し、認識した第１テキスト文の内容を示す第１言語の翻訳音声を生成する。

翻訳処理部３２は、生成した第２テキスト文及び第１テキスト文を表示部３３に出力するとともに、生成した第１言語の翻訳音声を示す情報を音声出力部３４に出力する。

表示部３３は、翻訳処理部３２から取得した第２テキスト文及び第１テキスト文を表示する（Ｓ１７）。具体的には、表示部３３は、第１話者側に位置する画面に第１テキスト文を表示し、第２話者側に位置する画面に第２テキスト文を表示する。表示部３３には、第１話者が第１テキスト文を読めるように、第１話者に対して第１テキスト文の文字の向きを正向きで表示し、第２話者が第２テキスト文を読めるように、第２話者に対して第２テキスト文の文字の向きを正向きで表示する。つまり、第１テキスト文の文字の向きは、第２テキスト文の文字の向きに対して逆さまになっている。

また、音声出力部３４は、翻訳処理部３２から取得した、第１言語の翻訳音声を示す情報に示される、第１言語の翻訳音声を出力する（Ｓ１８）。つまり、音声出力部３４は、第２言語から第１言語に翻訳された翻訳音声を出力する。これにより、第１言語の翻訳音声を聞いた第１話者は、第２話者が発話した音声を理解することができる。また、表示部３３には、第１テキスト文で表示されるため、第１話者は、確実に第２話者が発話した音声を文字でも理解することができる。

そして、音声翻訳装置１は、処理を終了する。

図６は、実施の形態１における音声翻訳装置１の発話者区別部２５における動作を示すフローチャートである。図６は、図３のステップＳ１５ａ及び図５のステップＳ１５ｂの処理について、具体的に説明するためのフローチャートである。

図３、図５及び図６に示すように、まず、発話者区別部２５は、入力部２４が第１話者からの操作入力を受付けた第１時点を基点とし、第１時点から第１時点よりも規定期間前までの間、又は、当該第１時点から規定期間が経過するまでの間において、話者が発話した直近の音声を、記憶部２２に記憶されているそれぞれの音声の中から選択する（Ｓ３１）。

次に、発話者区別部２５は、第１話者と第２話者とがそれぞれ発話する度に設定される、第１時点と第２時点とを比較し、第１時点が第２時点よりも時間が早い時点かどうかを判定する（Ｓ３２）。

発話者区別部２５は、第１時点の方が第２時点よりも時間が早い時点であると判定した場合（Ｓ３２でＹＥＳ）、第１話者及び第２話者のうちから第１話者を区別する（Ｓ３３）。つまり、第１時点の方が第２時点よりも時間が早い時点の場合とは、第１話者は、自身が発話するタイミングを理解しているため、第１時点の方が第２時点よりも早い時点となる。これにより、発話者区別部２５は、第１時点と第２時点とに基づいて、第１話者及び第２話者のうちから第１話者を区別できる。

発話者区別部２５は、第１話者及び第２話者のうちから第１話者を区別した結果を含む結果情報を、音声認識部２６に出力する。そして、発話者区別部２５は、処理を終了する。

また、発話者区別部２５は、第２時点の方が第１時点よりも時間が早い時点であると判定した場合（Ｓ３２でＮＯ）、第１話者及び第２話者のうちから第２話者を区別する（Ｓ３４）。つまり、第２時点の方が第１時点よりも時間が早い時点の場合とは、第１話者は、第２話者が発話するタイミングを理解できないため、第２話者が発話した後に入力部２４への操作入力を行うこととなるため、第２時点の方が第１時点よりも早い時点となる。これにより、発話者区別部２５は、第１時点と第２時点とに基づいて、第１話者及び第２話者のうちから第２話者を区別できる。

発話者区別部２５は、第１話者及び第２話者のうちから第２話者を区別した結果を含む結果情報を、音声認識部２６に出力する。そして、発話者区別部２５は、処理を終了する。

＜作用効果＞
次に、本実施の形態における音声認識装置１０の作用効果について説明する。

以上のように、本実施の形態における音声認識装置１０は、第１話者と、第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識装置１０であって、第１話者及び１以上の第２話者の会話のそれぞれの音声を取得する取得部２１と、取得部２１が取得した第１話者及び１以上の第２話者の会話のそれぞれの音声を記憶する記憶部２２と、少なくとも第１話者からの操作入力を受付ける入力部２４と、記憶部２２に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部２４への操作入力に応じて音声ごとに検出する発話開始検出部２３と、音声ごとに設定される、入力部２４への操作入力を受付けた第１時点と発話開始検出部２３がそれぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、第１話者及び１以上の第２話者のうちから、入力部２４への操作入力を行った第１話者か入力部２４への操作入力を行っていない１以上の第２話者かを区別する発話者区別部２５とを備える。そして、発話者区別部２５によって区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声における開始位置以降の音声は、音声認識部２６によって音声認識される。

そこで、本実施の形態では、第１話者及び１以上の第２話者の会話によるそれぞれの音声が記憶部２２に記憶されるため、記憶された音声から第１話者か第２話者かを区別することができる。これにより、音声認識部２６は、区別の処理が行われた第１話者及び第２話者の会話のそれぞれの音声を、記憶部２２から読み出して音声認識することができる。つまり、第１話者が入力部２４への操作入力をした後に第１話者が発話すれば、音声認識部２６は、第１話者が発話した音声を音声認識することができる。また、通常は第１話者の発話が終了した後に第２話者が発話を開始するため、第２話者の発話に応じて第１話者が入力部２４への操作入力をすることで、音声認識部２６は、第２話者が発話した音声を音声認識することができる。

したがって、この音声認識装置１０では、確実に第２話者（会話相手）の音声を取得することで、第２話者（会話相手）の音声を音声認識することができる。

また、本実施の形態における音声認識方法は、第１話者と、第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識方法であって、第１話者及び１以上の第２話者の会話のそれぞれの音声を取得することと、取得した第１話者及び１以上の第２話者の会話のそれぞれの音声を記憶部２２に記憶することと、少なくとも第１話者からの入力部２４への操作入力を受付けることと、記憶部２２に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部２４への操作入力に応じて音声ごとに検出することと、音声ごとに設定される、入力部２４への操作入力を受付けた第１時点とそれぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、第１話者及び１以上の第２話者のうちから、入力部２４への操作入力を行った第１話者か入力部２４への操作入力を行っていない１以上の第２話者かを区別することと、区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声における開始位置以降の音声は、音声認識することとを含む。

この音声認識方法においても、上述の音声認識装置１０と同様の作用効果を奏する。

また、本実施の形態におけるプログラムは、音声認識方法をコンピュータに実行させるためのプログラムである。

このプログラムにおいても、上述の音声認識装置１０と同様の作用効果を奏する。

また、本実施の形態における音声認識装置１０において、発話者区別部２５は、第１話者及び１以上の第２話者の会話のそれぞれの音声ごとに設定された第１時点と第２時点とを比較し、第１時点の方が第２時点よりも時間が早い時点の場合、第１話者及び１以上の第２話者のうちから第１話者を区別し、第２時点の方が第１時点よりも時間が早い時点の場合、第１話者及び１以上の第２話者のうちから第２話者を区別する。

これによれば、例えば第１話者が音声認識装置１０の保有者である場合、第１話者は、所有している音声認識装置１０の使用方法を理解しているものであるため、入力部２４に操作入力した後に発話を開始する。つまり、第１話者によって入力部２４への操作入力を受付けた第１時点は、第１話者が発話を開始した第２時点よりも時間が早くなるため、発話者区別部２５は、第１話者及び１以上の第２話者のうちから第１話者を区別することができる。また、第１話者は、第２話者が発話するタイミングを認識することができないため、第２話者が発話を開始してから、入力部２４に操作入力することとなる。つまり、第１話者によって入力部２４への操作入力を受付けた第１時点は、第１話者が発話を開始した第２時点よりも時間が遅くなるため、発話者区別部２５は、第１話者及び１以上の第２話者のうちから第２話者を区別することができる。

このように、発話者区別部２５は、第１時点に直近の発話した話者が第１話者か第２話者かを正確に区別することができる。このため、この音声認識装置１０では、より確実に第２話者の音声を取得することができるため、第２話者の音声を音声認識することができる。

また、本実施の形態における音声認識装置１０において、第１話者及び１以上の第２話者のうちから第１話者が区別された場合、音声認識部２６は、第１話者が発話した音声を音声認識し、第１話者及び１以上の第２話者のうちから第２話者が区別された場合、音声認識部２６は、第２話者が発話した音声を音声認識する。

これによれば、発話した話者が第１話者か第２話者かを発話者区別部２５が区別することで、音声認識部２６は、第１話者及び第２話者が発話したそれぞれの音声を、より確実に音声認識することができる。

また、本実施の形態における音声認識装置１０において、発話者区別部２５は、入力部２４が操作入力を受付けた第１時点から前後の期間である規定期間における第１話者及び１以上の第２話者の会話のそれぞれの音声から、第１話者か第２話者かを区別する。

これによれば、第１話者か第２話者かを区別するために、第１時点を基点とする規定期間を設けることができる。このため、第１話者が操作入力した第１時点から第１時点よりも規定期間前までの間、又は、当該第１時点から規定期間が経過するまでの間に話者が発話した直近の音声が、第１話者か第２話者かを区別することができる。これにより、第１話者及び第２話者のそれぞれの音声を個別に認識することができる。このため、この音声認識装置１０では、第１話者か第２話者かを正確に区別することができる。

また、本実施の形態における音声認識装置１０において、入力部２４への操作入力を行った第１話者が発話した音声の音声認識をした後、記憶部２２は、前記第２話者の音声を記憶するために、取得部２１が取得したそれぞれの音声の記憶を開始する。

通常、第１話者の発話が終了して第１話者の音声の内容を理解した後に、第２話者が発話を開始する。第１話者が発話した音声を音声認識した後、第２話者が発話する前に録音を開始するため、記憶部２２は、第２話者が発話した音声を確実に記憶することができる。また、少なくとも第１話者が発話を終了した時点から記憶部２２が録音を開始するまでの間、音声認識装置１０は、音声の記憶を中断することができる。このため、記憶部２２に記憶させるための音声認識装置１０の電力消費を抑制することができる。

また、本実施の形態における音声認識装置１０は、発話者区別部２５によって区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声における開始位置以降の音声を音声認識する音声認識部２６を備える。

これによれば、音声認識装置１０が音声認識するため、外部のクラウドサーバに音声を送信する必要もないため、音声認識装置１０とクラウドサーバとの間の通信量の増加を抑制することができる。

また、本実施の形態における音声認識装置１０において、入力部２４は、音声認識装置１０に設けられた１つの操作ボタンである。

これによれば、第１話者は、音声認識装置１０の操作を簡易に行うことができる。

また、本実施の形態における音声認識装置１０において、入力部２４は、第１話者及び１以上の第２話者のそれぞれが発話する度に、第１話者からの操作入力を受付ける。

これによれば、第２話者に対して操作入力を委ねることを極力避け、第１話者が音声認識装置１０への操作入力を積極的に行うことで、第１話者及び第２話者のうちから一方の話者を確実に区別することができる。

（実施の形態２）
＜構成＞
本実施の形態の音声翻訳装置１の構成を、図７を用いて説明する。

図７は、実施の形態２における音声翻訳装置１を示すブロック図である。

実施の形態１では、音声認識装置１０が音声認識部２６を有するが、本実施の形態では、音声認識部５１がクラウドサーバ５０に設けられている点で、実施の形態１と相違する。

本実施の形態における他の構成は、特に明記しない場合は、実施の形態１と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。

図７に示すように、音声認識装置１０ａは、入力部２４、取得部２１、記憶部２２、発話開始検出部２３及び発話者区別部２５の他に、通信部２９を備える。

発話者区別部２５は、第１話者及び第２話者のうちから一方の話者を区別すると、話者を区別した結果を含む結果情報を、記憶部２２に出力する。

記憶部２２は、この結果情報を取得すると、区別された話者が直近に発話した音声の音声情報を通信部２９に出力する。

通信部２９は、音声認識部５１を有するクラウドサーバ５０と、ネットワークを介して無線又は有線通信可能な通信モジュールである。

通信部２９は、発話者区別部２５によって区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声をクラウドサーバ５０に送信する。具体的には、通信部２９は、発話者区別部２５が区別した話者が第１時点の直近に発話した音声の音声情報を、発話開始検出部２３を介して記憶部２２から取得し、取得した音声情報を、ネットワークを介してクラウドサーバ５０に送信する。

また、通信部２９は、クラウドサーバ５０の音声認識部５１がそれぞれの音声の開始位置以降の音声を音声認識した結果を受信する。具体的には、通信部２９は、クラウドサーバ５０から、第１話者及び１以上の第２話者のそれぞれの音声を音声認識した結果である、当該音声の内容を示す第１テキスト文及び第２テキスト文を受信し、受信した第１テキスト文及び第２テキスト文を翻訳処理部３２に出力する。

なお、音声翻訳装置１は翻訳処理部３２を有していなくてもよく、クラウドサーバ５０がさらに翻訳処理部３２を有していてもよい。この場合、音声翻訳装置１の音声認識装置１０ａは、ネットワークを介してクラウドサーバ５０と通信可能に接続され、音声認識装置１０ａが第１話者及び１以上の第２話者のそれぞれの音声をクラウドサーバ５０に送信してもよい。また、音声翻訳装置１は、当該音声の内容を示す第１テキスト文、第２テキスト文及び翻訳音声を受信し、受信した第１テキスト文及び第２テキスト文を表示部３３に出力し、受信した翻訳音声を音声出力部３４に出力してもよい。

＜作用効果＞
次に、本実施の形態における音声認識装置１０ａの作用効果について説明する。

以上のように、本実施の形態における音声認識装置１０ａは、音声認識部５１を有するクラウドサーバ５０と通信可能な通信部２９を備え、通信部２９は、発話者区別部２５によって区別の処理が行われた第１話者及び１以上の第２話者のそれぞれの音声をクラウドサーバ５０に送信し、クラウドサーバ５０の音声認識部５１がそれぞれの音声の開始位置以降の音声を音声認識した結果を受信する。

これによれば、第１話者及び１以上の第２話者が発話したそれぞれの音声を、クラウドサーバ５０が音声認識するため、音声認識装置１０ａの処理負担を軽減することができる。

また、本実施の形態において、実施の形態１と同様の作用効果を奏する。

（その他変形例等）
以上、本開示について、実施の形態１、２に基づいて説明したが、本開示は、これら実施の形態１、２等に限定されるものではない。

例えば、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、翻訳開始時に入力部を１度の押下で、第１話者と第２話者との発話に応じた音声認識と、音声認識した言語の翻訳とを自動で行ってもよい。

また、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムにおいて、取得部が取得した音声に基づいて、音声翻訳装置に対する第１話者及び１以上の第２話者の方向を推定してもよい。この場合、マイクロホンアレイ部の取得部を用いて、第１話者及び１以上の第２話者のそれぞれが発話した音声から、音声翻訳装置に対する音源方向を推定してもよい。具体的には、音声認識装置は、取得部におけるそれぞれのマイクロホンに到達した音声の時間差（位相差）を算出し、例えば遅延時間推定法等により音源方向を推定してもよい。

また、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、音声翻訳装置に搭載されていなくてもよい。例えば、音声認識装置と、音声翻訳装置とは別々の独立した装置であってもよい。この場合、音声認識装置は、電源部を有していてもよく、音声翻訳装置は、翻訳処理部、表示部、音声出力部及び電源部を有していてもよい。

また、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムでは、記憶部が記憶した第１話者及び１以上の第２話者のそれぞれの音声を、ネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよく、当該それぞれの音声を認識した第１テキスト文及び第２テキスト文だけをネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよい。この場合、当該それぞれの音声、第１テキスト文及び第２テキスト文等を記憶部から削除してもよい。

また、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、取得部が取得する話者の音声の区間を検出することで、取得部が取得する話者の音声を取得できない期間が所定期間以上検出されれば、自動的に録音を中止又は停止してもよい。

また、上記各実施の形態１、２に係る音声認識方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。

また、上記各実施の形態１、２に係る音声認識装置、音声認識方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

なお、上記各実施の形態１、２において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態１、２は例示された数字に制限されない。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

その他、実施の形態１、２に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態１、２における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

本開示は、異なる言語を話す複数の話者が会話によって意思の疎通を図るために用いられる音声認識装置、音声認識方法及びそのプログラムに適用することができる。

１０、１０ａ音声認識装置
２１取得部
２２記憶部
２３発話開始検出部
２４入力部
２５発話者区別部
２６、５１音声認識部
２９通信部

Claims

第１話者と、前記第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識装置であって、
前記第１話者及び前記１以上の第２話者の会話のそれぞれの音声を取得する取得部と、
前記取得部が取得した前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声を記憶する記憶部と、
少なくとも前記第１話者からの操作入力を受付ける入力部と、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、
音声ごとに設定される、前記入力部への操作入力を受付けた第１時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、前記第１話者及び前記１以上の第２話者のうちから、前記入力部への操作入力を行った前記第１話者か前記入力部への操作入力を行っていない前記１以上の第２話者かを区別する発話者区別部とを備え、
前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される
音声認識装置。
前記発話者区別部は、
前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声ごとに設定された前記第１時点と前記第２時点とを比較し、
前記第１時点の方が前記第２時点よりも時間が早い時点の場合、前記第１話者及び前記１以上の第２話者のうちから前記第１話者を区別し、
前記第２時点の方が前記第１時点よりも時間が早い時点の場合、前記第１話者及び前記１以上の第２話者のうちから前記第２話者を区別する
請求項１に記載の音声認識装置。
前記第１話者及び前記１以上の第２話者のうちから前記第１話者が区別された場合、前記音声認識部は、前記第１話者が発話した音声を音声認識し、
前記第１話者及び前記１以上の第２話者のうちから第２話者が区別された場合、前記音声認識部は、前記第２話者が発話した音声を音声認識する
請求項１又は２に記載の音声認識装置。
前記発話者区別部は、前記入力部が操作入力を受付けた前記第１時点から前後の期間である規定期間における前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声から、前記第１話者か前記第２話者かを区別する
請求項１～３のいずれか１項に記載の音声認識装置。
前記入力部への操作入力を行った前記第１話者が発話した音声の音声認識をした後、前記記憶部は、前記第２話者の音声を記憶するために、前記取得部が取得した前記それぞれの音声の記憶を開始する
請求項１～４のいずれか１項に記載の音声認識装置。
前記音声認識部を有するクラウドサーバと通信可能な通信部を備え、
前記通信部は、前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声を前記クラウドサーバに送信し、前記クラウドサーバの前記音声認識部が前記それぞれの音声の開始位置以降の音声を音声認識した結果を受信する
請求項１～５のいずれか１項に記載の音声認識装置。
前記発話者区別部によって前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声を音声認識する前記音声認識部を備える
請求項１～５のいずれか１項に記載の音声認識装置。
前記入力部は、前記音声認識装置に設けられた１つの操作ボタンである
請求項１～７のいずれか１項に記載の音声認識装置。
前記入力部は、前記第１話者及び前記１以上の第２話者のそれぞれが発話する度に、前記第１話者からの操作入力を受付ける
請求項１～８のいずれか１項に記載の音声認識装置。
第１話者と、前記第１話者の会話相手である１以上の第２話者とが会話を行うための音声認識方法であって、
前記第１話者及び前記１以上の第２話者の会話のそれぞれの音声を取得することと、
取得した前記第１話者及び前記１以上の第２話者の会話の前記それぞれの音声を記憶部に記憶することと、
少なくとも前記第１話者からの入力部への操作入力を受付けることと、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出することと、
音声ごとに設定される、前記入力部への操作入力を受付けた第１時点と前記それぞれの音声から検出した発話の開始位置を示す第２時点とに基づいて、前記第１話者及び前記１以上の第２話者のうちから、前記入力部への操作入力を行った前記第１話者か前記入力部への操作入力を行っていない前記１以上の第２話者かを区別することと、
前記区別の処理が行われた前記第１話者及び前記１以上の第２話者の前記それぞれの音声における開始位置以降の音声は、音声認識することとを含む
音声認識方法。
請求項１０に記載の音声認識方法をコンピュータに実行させるための
プログラム。