JP2011192048A - 発言内容出力システム、発言内容出力装置及び発言内容出力方法 - Google Patents

発言内容出力システム、発言内容出力装置及び発言内容出力方法 Download PDF

Info

Publication number
JP2011192048A
JP2011192048A JP2010058005A JP2010058005A JP2011192048A JP 2011192048 A JP2011192048 A JP 2011192048A JP 2010058005 A JP2010058005 A JP 2010058005A JP 2010058005 A JP2010058005 A JP 2010058005A JP 2011192048 A JP2011192048 A JP 2011192048A
Authority
JP
Japan
Prior art keywords
information
user
identification information
user identification
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010058005A
Other languages
English (en)
Inventor
Kotaro Nagahama
公太郎 永浜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010058005A priority Critical patent/JP2011192048A/ja
Publication of JP2011192048A publication Critical patent/JP2011192048A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるようにするとともに、その発言者の状況も併せて認識できる発言内容出力システムを提供する。
【解決手段】音声検知手段81は、利用者が発言した音声を検知する。利用者識別情報付与手段82は、利用者が発言した音声もしくはその音声の内容を表す情報を含む発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する。利用者識別情報検知手段92は、音声検知装置80を利用する利用者の利用者識別情報を検知する。利用者識別情報判定手段93は、利用者識別情報検知手段92が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する。表示手段91は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する。
【選択図】図30

Description

本発明は、検知された発言者の発言内容を画面上に出力する発言内容出力システム、および発言内容出力システムに適用される発言内容出力装置、音声検知装置、検知情報出力方法、発言内容出力方法、音声検知方法、発言内容出力プログラム及び音声検知プログラムに関する。
発言者が発言した音声を文字情報化して画面上に表示する技術が各種提案されている。
特許文献1には、複数の話者の発言内容を並べて表示する自動翻訳装置が記載されている。特許文献1に記載された自動翻訳装置では、3人以上の複数の人が自由に発言する場合、発言者名を付与した各発言内容の翻訳結果を、発言した順にディスプレイ上に表示する。
また、特許文献2には、翻訳結果をヘッドマウントディスプレイに表示させる翻訳装置が記載されている。特許文献2に記載された翻訳装置では、翻訳対象の文章の言語種を特定して翻訳処理を行い、翻訳結果を相手側のヘッドマウントディスプレイに表示させる。
特開2005−107595号公報(段落0098〜0099,図13) 特開2006−302091号公報(段落0097〜0099)
ヘッドマウントディスプレイを利用したウェアラブルコンピュータシステムでは、利用者が、ヘッドマウントディスプレイを装着して会話を行い、認識された会話の内容がヘッドマウントディスプレイ上に表示される。一対一の2名で会話が行われる場合、発言者は明確であるため、ヘッドマウントディスプレイ上に誰の発言かを明示する必要はない。すなわち、特許文献2に記載された翻訳装置のように、相手が話す内容を認識して翻訳し、その翻訳結果のみを相手のヘッドマウントディスプレイに表示すれば十分である。
しかし、複数の人間がウェアラブルコンピュータシステムを利用して会話を行う場合、複数の人間の発言内容がヘッドマウントディスプレイに表示されることになる。そのため、特許文献2に記載された翻訳装置のように、相手の発言内容を翻訳した結果のみを相手のヘッドマウントディスプレイに表示する方法では、今ヘッドマウントディスプレイ上に表示された内容を誰が発言したのかが不明になってしまうという問題がある。
一方、特許文献1に記載された自動翻訳装置では、ディスプレイ上に表示される各発言内容に発言者名が付与されるため、誰の発言内容かを特定することは可能である。しかし、特許文献1に記載された自動翻訳装置を用いた場合、ディスプレイ上に表示された各発言者の発言内容を見ながら会話を進めることになる。
一般的に、相手と会話をする場合、相手の表情や動作などを確認しながら発言を行うことが多い。このような場合、特許文献1に記載された自動翻訳装置を用いて会話を行おうとすると、表示された発言内容を確認しつつ相手の状況を別途確認するという動作を繰り返さなければならず、スムーズな会話が出来るとは言い難い。そのため、複数の相手の音声をテキスト化して出力する場合、発言者を区別できるようにするとともに、その発言者の状況も併せて認識できるようにすることが会話を行う上で望ましいと言える。
そこで、本発明は、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるようにするとともに、その発言者の状況も併せて認識できる発言内容出力システム、および発言内容出力システムに適用される発言内容出力装置、音声検知装置、検知情報出力方法、発言内容出力方法、音声検知方法、発言内容出力プログラム及び音声検知プログラムを提供することを目的とする。
本発明による発言内容出力システムは、利用者が発言した音声を検知する音声検知装置と、利用者の発言内容を出力する発言内容出力装置とを備え、音声検知装置が、利用者が発言した音声を検知する音声検知手段と、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段とを備え、発言内容出力装置が、音声検知装置の利用者の発言内容情報を表示する画面を有する表示手段と、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知する利用者識別情報検知手段と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、表示手段が、利用者識別情報が一致すると判定された場合、利用者識別情報検知手段が検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。
本発明による発言内容出力装置は、音声を検知する音声検知装置の利用者が発言した音声の内容を表す発言内容情報を表示する画面を有する表示手段と、音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知手段と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、表示手段が、利用者識別情報が一致すると判定された場合、利用者識別情報検知手段が検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。
本発明による音声検知装置は、利用者が発言した音声を検知する音声検知手段と、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信する発言内容情報送信手段とを備えたことを特徴とする。
本発明による検知情報出力方法は、利用者が発言した音声を検知する音声検知装置が、利用者が発言した音声を検知し、音声検知装置が、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与し、利用者の発言内容を出力する発言内容出力装置が、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知し、発言内容出力装置が、検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定し、発言内容出力装置が、利用者識別情報が一致すると判定した場合、検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。
本発明による発言内容出力方法は、音声を検知する音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知し、検知された利用者識別情報と、利用者が発言した音声の内容を表す発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定し、利用者識別情報が一致すると判定した場合、検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。
本発明による音声検知方法は、利用者が発言した音声を検知し、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与し、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信することを特徴とする。
本発明による発言内容出力プログラムは、音声を検知する音声検知装置を利用する利用者の発言内容を表示する画面を有するコンピュータに適用される発言内容出力プログラムであって、音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知処理、利用者識別情報検知処理で検知した利用者識別情報と、利用者が発言した音声の内容を表す発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定処理、および、利用者識別情報が一致すると判定した場合、利用者識別情報検知処理で検知された利用者の位置と発言内容情報とを関連付けて画面に表示する表示処理を実行させることを特徴とする。
本発明による音声検知プログラムは、コンピュータに、利用者が発言した音声を検知する音声検知処理、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与処理、および、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信する発言内容情報送信処理を実行させることを特徴とする。
本発明によれば、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
本発明の第1の実施形態における発言内容出力システムの例を示す説明図である。 第1の実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。 音声認識情報表示装置の構成の一部が一体形成されたメガネの例を示す説明図である。 音声検知装置と発言内容情報出力装置の構成例を示す説明図である。 第1の実施形態におけるコンピュータ25の例を示すブロック図である。 識別マーカ23を生成する処理の例を示す説明図である。 発言内容情報の送信に用いられる通信フォーマット例を示す説明図である。 識別マーカ23の位置に対応するヘッドマウントディスプレイ21上の位置を算出する方法の例を示す説明図である。 算出された表示位置に発言内容情報を表した画像の例を示す説明図である。 発言内容情報を表した画像の例を示す説明図である。 算出された表示位置に発言内容情報と現実の映像とを合成した画像の例を示す説明図である。 別の表示エリアに発言内容情報を表示する例を示す説明図である。 別の表示エリアに発言内容情報を表示する他の例を示す説明図である。 別の表示エリアに発言内容情報を表示するさらに他の例を示す説明図である。 第1の実施形態におけるコンピュータ25a,25bの例を示すブロック図である。 第1の実施形態における動作の例を示すフローチャートである。 発言内容情報を表示する例を示す説明図である。 第1の実施形態の変形例におけるコンピュータ25a’及びコンピュータ25b’の例を示すブロック図である。 第1の実施形態の変形例における動作の例を示すフローチャートである。 第2の実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。 音声検知装置と発言内容出力装置の構成例を示す説明図である。 本実施形態におけるコンピュータ35の例を示すブロック図である。 発言者の位置を検知する方法の例を示す説明図である。 第2の実施形態におけるコンピュータ35a,25bの例を示すブロック図である。 第2の実施形態における動作の例を示すフローチャートである。 第2の実施形態の変形例におけるコンピュータ35a’及びコンピュータ25b’の例を示すブロック図である。 発言内容出力システムの変形例を示す説明図である。 第1及び第2の実施形態の変形例における発言内容出力システムの構成例を示すブロック図である。 第1及び第2の実施形態の変形例におけるコンピュータ35a、コンピュータ25b’及びコンピュータ75cの例を示すブロック図である。 本発明による発言内容出力システムの最小構成例を示すブロック図である。 本発明による発言内容出力装置の最小構成例を示すブロック図である。 本発明による音声検知装置の最小構成例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態における発言内容出力システムの例を示す説明図である。図1に例示する各発言者A〜Cは、発言者の音声を検知する装置(以下、音声検知装置と記す。)と、音声検知装置から発言者の発言内容を表す情報(以下、発言内容情報と記す。)を受信して、その発言内容情報を出力する装置(以下、発言内容出力装置)とを装着している。以下、音声検知装置と発言内容出力装置とをまとめて音声認識情報表示装置と記す。図1に示す例では、各発言者A〜Cが、各音声認識情報表示装置10a〜10cを装着していることを示す。ただし、音声検知装置と発言内容出力装置とは、それぞれが別のハードウェアで実現されていてもよい。
また、図1に示す例では、マイクロフォン(以下、マイクと記す。)24を介して検知された発言者Bの音声の内容を表す発言内容情報が無線通信により発言者A及び発言者Cに送信され、その発言内容情報が発言者Aのヘッドマウントディスプレイ21に表示されたことを示す。なお、図1に示す例では、発言者が3名の場合について説明しているが、発言者は3名に限定されず、4名以上であってもよい。また、発言内容情報の通信方法は、無線通信に限定されない。各音声認識情報表示装置は、有線による通信ネットワークを用いて発言内容情報を送信してもよい。
また、以下の説明では、発言者Bの発言内容が発言者Aのヘッドマウントディスプレイ21に表示される場合について説明する。ただし、ヘッドマウントディスプレイ21に表示する発言内容は、発言者Bの発言内容に限定されない。発言者Cの発言内容についても、発言者Bの場合と同様の方法で、発言者Aのヘッドマウントディスプレイ21に表示すればよい。
図2は、本実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。本実施形態における音声認識情報表示装置10は、ヘッドマウントディスプレイ21と、カメラ22と、識別マーカ23と、マイク24と、コンピュータ25と、イヤホン26とを備えている。
図3は、音声認識情報表示装置の構成の一部が一体形成されたメガネの例を示す説明図である。図3に例示するメガネは、ヘッドマウントディスプレイ21とカメラ22と識別マーカ23とが一体に形成されている。具体的には、メガネフレーム20には、ヘッドマウントディスプレイ21とカメラ22と識別マーカ23とが取り付けられている。また、ヘッドマウントディスプレイ21及びカメラ22は、メガネフレーム20を介してコンピュータ25に接続される。また、ヘッドマウントディスプレイ21は、メガネの一方のレンズ側に取り付けられ、もう一方のレンズ側からは発言者が直接見えるように形成されている。
識別マーカ23は、発言者を識別する情報(以下、発言者識別情報と記す。)を表示する。識別マーカ23は、例えば、メガネフレーム20の正面、右側面及び左側面に設けられる。ただし、識別マーカ23が設けられる位置は、上記位置に限定されない。識別マーカ23と発言者とが同時に認識できる程度の近傍位置に識別マーカ23が設けられていればよい。また、識別マーカの数は、3個に限定されず、1つ以上あればよい。以下の説明では、発言者は、図3に例示するメガネを装着するものとし、そのメガネのメガネフレーム20に識別マーカ23が設けられているものとする。
発言者識別情報は、例えば、バーコードやQRコード(登録商標)で表わされる。ただし、発言者識別情報は、バーコードやQRコードに限定されない。識別マーカ23に表示される発言者識別情報の生成方法については後述する。
マイク24は、発言者が発言した音声を検知する。例えば、図1に示す例では、音声認識情報表示装置10bのマイク24は、発言者Bの音声を検知する。また、音声認識情報表示装置10bのマイク24は、音声認識情報表示装置10aのコンピュータ25に接続され、検知した音声を通知する。
イヤホン26は、スピーカ機能を備える装置である。例えば、イヤホン26は、マイク24が検知した音声を示す電気信号を、再度音声に変換してもよい。
ヘッドマウントディスプレイ21は、他の装置から受信した発言内容情報を出力する出力装置である。例えば、図1に例示する音声認識情報表示装置10aのヘッドマウントディスプレイ21には、音声認識情報表示装置10bから受信した発言内容情報が表示される。具体的には、図1に例示する音声認識情報表示装置10aは、音声認識情報表示装置10bから受信した発言内容情報をヘッドマウントディスプレイ21に出力する。
なお、以下の説明では、発言内容情報を出力する出力装置がヘッドマウントディスプレイである場合について説明する。ただし、発言内容情報を表示する出力装置は、ヘッドマウントディスプレイに限定されない。発言内容を出力する装置として、例えば、カメラ付き腕時計や、PDA(Personal Digital Assistants)、携帯電話機や、携帯ゲーム機器などの携帯端末を用いてもよい。
カメラ22は、他の音声認識情報表示装置を利用する発言者の発言者識別情報を検知する。具体的には、カメラ22は、他の音声認識情報表示装置を利用する発言者近傍の識別マーカ23を検知し、その識別マーカ23に表示されている情報を発言者識別情報として検知する。例えば、発言者識別情報がバーコードやQRコードで表わされている場合、カメラ22は、バーコードリーダなどのハードウェアによって実現される。ただし、カメラ22が検知する対象は、バーコードやQRコードに限定されない。また、カメラ22は、発言者識別情報の検知だけでなく、発言者の映像を撮影してもよい。
また、カメラ22は、発言者の位置を併せて検知する。具体的には、カメラ22は、撮影範囲中に存在する識別マーカ23を検知することにより、発言者の位置を検知する。例えば、カメラ22の撮影範囲の左上隅を基準とした場合、カメラ22は、左上隅からの相対位置で発言者の位置を検知してもよい。
コンピュータ25は、無線通信などの通信ネットワークを介して、他の装置との通信を行う。また、コンピュータ25は、マイク24が発言者の音声を検知すると、その音声の内容を表す発言内容情報を、他の音声認識情報表示装置に送信する。例えば、図1に示す例では、発言者Bが装着する音声認識情報表示装置10bのコンピュータ25が、発言者Aが装着する音声認識情報表示装置10aに発言内容情報を送信する。
また、コンピュータ25は、他の装置から発言内容情報を受信すると、受信した発言内容情報を、ヘッドマウントディスプレイ21に出力させる。なお、コンピュータ25の構成については後述する。
上記説明では、音声認識情報表示装置10が、ヘッドマウントディスプレイ21と、カメラ22と、識別マーカ23と、マイク24と、コンピュータ25と、イヤホン26とを備えている場合について説明した。ただし、ヘッドマウントディスプレイ21、カメラ22、識別マーカ23、マイク24、コンピュータ25及びイヤホン26は、1つの装置に全て含まれていなくてもよい。図4は、音声検知装置と発言内容出力装置とがそれぞれ別のハードウェアで構成されている場合の例を示す説明図である。図4に例示するように、音声検知装置40が、識別マーカ23と、マイク24と、コンピュータ25bと、イヤホン26とを備え、発言内容出力装置41が、ヘッドマウントディスプレイ21と、カメラ22と、コンピュータ25aとを備える構成であってもよい。
すなわち、音声検知装置40のコンピュータ25bが、発言者の発言内容情報を発言内容出力装置41に送信し、発言内容出力装置41のコンピュータ25aが、音声検知装置40から発言内容情報を受信して、ヘッドマウントディスプレイ21に発言内容情報を表示してもよい。
また、音声検知装置や発言内容出力装置は、音声認識情報表示装置10と同様、ヘッドマウントディスプレイによって実現されていてもよい。ただし、音声検知装置や発言内容出力装置は、ヘッドマウントディスプレイに限定されず、例えば、カメラ付き腕時計や、PDA(Personal Digital Assistants)、携帯電話機や、携帯ゲーム機器などの携帯端末により実現されていてもよい。
図5は、本実施形態におけるコンピュータ25の例を示すブロック図である。本実施形態におけるコンピュータ25は、音声認識部302と、翻訳部303と、自装置ID記憶部304と、データ送信部305と、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312とを備えている。
音声認識部302は、マイク24に入力された音声をテキスト情報に変換する。翻訳部303は、テキスト情報を外国語に翻訳する。なお、テキスト情報を翻訳しない場合、コンピュータ25は翻訳部303を備えていなくてもよい。また、音声をテキスト変換する方法及びテキスト情報を外国語に翻訳する方法は広く知られているため、詳細な説明を省略する。なお、翻訳する対象の言語は、予め定めておけばよい。
ここで説明した発言者の音声を表すテキスト情報や、翻訳された情報(以下、翻訳情報と記す。)が、発言内容情報に相当する。なお、発言内容情報は、テキスト情報や翻訳情報以外の情報であってもよい。発言内容情報は、例えば、マイク24に入力された音声であってもよい。発言内容情報には、音声もしくはその音声の内容を表す情報(テキスト情報や翻訳情報)の少なくとも一方が含まれる。
自装置ID記憶部304は、コンピュータ25を一意に識別する識別情報(以下、自装置IDと記す。)を記憶する。自装置ID記憶部304には、自装置IDとして、例えば、そのコンピュータの製造番号などを予め記憶しておいてもよい。自装置ID記憶部304は、例えば、メモリなどにより実現される。
また、自装置ID記憶部304に記憶された自装置IDをもとに、上述の識別マーカ23に表示される発言者識別情報が生成される。図6は、識別マーカ23を生成する処理の例を示す説明図である。図6に例示するように、識別マーカ23に表示する発言者識別情報は、例えば、小型コンピュータの製造番号のような一意に定まる値(例えば、自装置ID)が埋め込まれた一次元バーコードや二次元バーコード、QRコードや画像として生成される。なお、ある値をもとに一次元バーコードや二次元バーコード、QRコードや画像を生成する方法は広く知られているため、ここでは説明を省略する。
また、識別マーカ23の発言者識別情報は、自装置IDをもとに予め生成され、識別マーカ23に表示される。発言者識別情報の内容は、自装置IDと同じ内容であってもよく、所定の規則に基づいて変換された内容であってもよい。以下の説明では、発言者識別情報として、自装置IDを用いる場合について説明する。このように、自装置IDをもとに生成された発言者識別情報が表示される識別マーカ23を発言者が装着することにより、発言者と音声認識情報表示装置とを対応付けることが可能になる。
データ送信部305は、発言内容情報(例えば、翻訳部303が翻訳した翻訳情報や音声認識部302が音声を変換したテキスト情報)に、発言者識別情報を付与する。具体的には、データ送信部305は、自装置ID記憶部304に記憶された自装置IDをもとに生成された発言者識別情報を発言内容情報に付与する。そして、データ送信部305は、発言者識別情報が付与された発言内容情報を、他の音声認識情報表示装置に送信する。
図7は、発言内容情報の送信に用いられる通信フォーマット例を示す説明図である。図7に例示する通信フォーマットは、製造番号や名前など一意に特定できる情報(ここでは、自装置ID)と、MACアドレス、IPアドレスなどのグループキャストアドレス、シーケンス番号などを含む通信ヘッダとを、翻訳データに付加して構成される。データ送信部305は、図7に例示する通信フォーマットに従って、翻訳部303が翻訳した翻訳結果やテキスト情報などの発言内容情報に自装置ID及び通信ヘッダを付与した通信パケットを作成してもよい。ただし、通信パケットのフォーマットは、図7の例に限定されない。発言者識別情報と発言内容情報とを含んでいれば、他のフォーマットであってもよい。そして、データ送信部305は、作成した通信パケットを他のコンピュータに送信する。
マーカ認識部306は、カメラ22が撮影する範囲に識別マーカ23を検知すると、その識別マーカ23に表示された発言者識別情報を抽出する。例えば、マーカ認識部306は、カメラ22によって撮影された範囲に存在する発言者識別情報を、図3に例示するメガネのメガネフレーム20に設けられた識別マーカ23から抽出してもよい。
また、マーカ認識部306は、カメラ22が検知した発言者の位置を併せて抽出する。マーカ認識部306は、例えばカメラ22の撮影範囲の左上隅を基準とした場合、左上隅からの相対位置を発言者の位置として抽出してもよい。
データ受信部312は、他の装置から送信される発言内容情報を受信するインタフェースである。例えば、データ受信部312は、他の音声認識情報表示装置10から送信された通信パケットを受信する。
データ取り出し部310は、データ受信部312が受信した通信パケットの中から、翻訳データもしくはテキスト情報(すなわち、発言内容情報)を取り出す。また、ID取り出し部311は、通信パケットの中から、発言内容情報に付与された発言者識別情報を取り出す。具体的には、ID取り出し部311は、通信パケットを送信してきた相手側の音声認識情報表示装置10を表す自装置IDをその通信パケットの中から取り出す。
表示位置算出部307は、マーカ認識部306が抽出した識別マーカ23に表示された発言者識別情報と、ID取り出し部311が発言内容情報から取り出した発言者識別情報とが一致するか否かを判定する。
そして、表示位置算出部307は、カメラ22が撮影した範囲のどの位置に翻訳データもしくはテキスト情報を表示させるべきかを、検出した識別マーカ23の位置から算出する。具体的には、発言者識別情報が一致すると判定された場合、表示位置算出部307は、カメラ22が撮影した範囲における識別マーカ23の位置に対応するヘッドマウントディスプレイ21上の表示位置を算出する。
一方、発声者がカメラフレーム(すなわち、カメラ22が撮影する範囲)から外れているなど、識別マーカ23から取り出されるどの発言者識別情報も、受信した発言者識別情報と一致しない場合も想定される。このような場合、発言者識別情報が一致しないと判定される。このように、発言者識別情報が一致しないと判定された場合、表示位置算出部307は、ヘッドマウントディスプレイの左上隅など、予め定めた特定の位置を表示位置としてもよい。
このように、発言者識別情報が一致しない場合に、予め定められた特定の位置に翻訳データを表示することで、現在視界に存在する発言者の音声でないことが認識可能になる。
図8は、識別マーカ23の位置に対応するヘッドマウントディスプレイ21上の位置を算出する方法の例を示す説明図である。図8に例示する範囲50は、カメラ22が撮影する範囲を表す。範囲50は、左上を基準としたときに、(0,0)から(X,Y)の座標で表わされる。一方、図8に例示す範囲51は、ヘッドマウントディスプレイ21の表示範囲を表す。範囲51は、左上を基準としたときに、(0,0)から(x,y)の座標で表わされる。
ここで、カメラ22が、座標(X1,Y1)の位置に識別マーカ23を検知したとする。このとき、表示位置算出部307は、ヘッドマウントディスプレイ21上の対応する位置の座標(x1,y1)を、以下の式1を用いて算出してもよい。
x1=(x/X)×X1
y1=(y/Y)×Y1 (式1)
ただし、ヘッドマウントディスプレイ21上の表示位置の算出方法は、上記方法に限定されない。
さらに、表示位置算出部307は、ヘッドマウントディスプレイ21上の表示位置を算出した後、予め定められた距離だけずらした位置(以下、移動距離と記す。)を、ヘッドマウントディスプレイ21上の表示位置としてもよい。例えば、座標に換算したときの移動距離を、X方向−20、Y方向+10と定義しておいた場合、表示位置算出部307は、ヘッドマウントディスプレイ21上の表示位置を算出した後、X方向に−20、Y方向に+10移動させた位置を表示位置としてもよい。
このように、識別マーカ23を検知した位置から所定の距離だけ表示位置をずらすことにより、表示される発言内容情報が人物と重なって見にくくなることを抑制できる。
表示画像合成部309は、算出された表示位置と発言内容情報とを関連付けた画像を作成する。そして、出力部308は、作成された画像をヘッドマウントディスプレイ21に表示させる。具体的には、表示画像合成部309は、算出された表示位置に、発言内容情報を送信した相手側の自装置IDと、データ取り出し部310が取り出した翻訳データとを合成した画像を生成してもよい。また、表示画像合成部309は、カメラ22が撮影した映像と発言内容情報とを合成した画像を作成してもよい。この合成内容は、発言内容情報を表示する表示装置の態様に応じて決定すればよい。
例えば、図3に例示するメガネのように現実の画像が右目側から参照可能な場合や、外界光を透過する(すなわち、外界光透過型の)ヘッドマウントディスプレイを用いる場合、表示画像合成部309は、発言内容情報のみを合成した画像を作成し、出力部308が、ヘッドマウントディスプレイ21にその画像を表示すればよい。このようにすることで、利用者は現実の画像とヘッドマウントディスプレイ21に表示された発言内容情報を示す画像とを重ねて認識することが可能になる。
図9は、算出された表示位置に発言内容情報を表した画像の例を示す説明図である。図9に示す例では、算出された表示位置の座標が(x1,y1)、移動距離が(−20,+10)の場合、表示画像合成部309が、「こんにちは」という内容の発言内容情報を座標(x1−20,y1+10)の位置に表わした画像を生成したことを示す。なお、図9に例示するように、表示画像合成部309は、発言内容情報だけでなく、発言内容情報を分かりやすくするための図形(例えば、吹き出しなど)を合成した画像を生成してもよい。
また、図10は、予め定められた表示位置に発言内容情報を表した画像の例を示す説明図である。図10に示す例では、カメラ22が撮影する範囲から発言者が外れている。そのため、表示位置算出部307は、発言者識別情報が一致しないと判定し、ヘッドマウントディスプレイの左上隅を表示位置とする。このとき、表示画像合成部309は、図10に例示するように、ヘッドマウントディスプレイの左上隅を基点として、発言内容情報を表した画像を生成する。
一方、外界光を透過しない(すなわち、外界光非透過型の)ヘッドマウントディスプレイを用いる場合、表示画像合成部309は、カメラ22が撮影した現実の映像を発言内容情報に重ねた画像を生成し、出力部308が、ヘッドマウントディスプレイ21にその画像を表示してもよい。図11は、算出された表示位置に発言内容情報と現実の映像とを合成した画像の例を示す説明図である。この画像をヘッドマウントディスプレイに表示することで、利用者は現実の画像と発言内容情報を表す画像とを重ねて認識することが可能になる。
なお、上記説明では、算出された表示位置に発言内容情報を表示する場合について説明した。ただし、発言内容情報を表示する方法は、上記方法に限定されない。例えば、表示画像合成部309は、算出された表示位置に発言者を識別する記号(以下、識別記号と記す。)を表す画像を作成し、別の表示エリアに発言内容情報を識別記号と関連付けて表示する画像を作成してもよい。
図12は、別の表示エリアに発言内容情報を表示する画像を作成する例を示す説明図である。図12に示す例のように、表示画像合成部309は、発言者の識別記号61として、文字(例えば、「B」や「C」など)を表す画像を発言者の位置に作成し、ヘッドマウントディスプレイ21上の別の表示エリア52に発言内容情報を識別記号と関連付けて表示する画像を作成してもよい。図12に示す例では、発言内容情報の前に発言者の識別記号を表した画像を別の表示エリア52に表示していることを示す。
また、図13は、別の表示エリアに発言内容情報を表示する画像を作成する他の例を示す説明図である。図13に示す例のように、表示画像合成部309は、発言者の識別記号62として、色(例えば、赤や青など)を表すマークを発言者の位置に作成し、ヘッドマウントディスプレイ21上の別の表示エリア52に発言内容情報をその色で表示する画像を作成してもよい。図13に示す例では、発言者Bを赤色、発言者Cを青色の識別記号62で表し、発言者Bの発言内容情報を赤文字で、発言者Cの発言内容情報を青文字で表示していることを示す。
表示画像合成部309は、例えば、受信した自装置IDを基に、予め定められたルールに基づいて変換した情報をもとに識別記号を決定すればよい。
また、図14は、別の表示エリアに発言内容情報を表示する画像を作成するさらに他の例を示す説明図である。図14に示す例のように、表示画像合成部309は、発言者の識別記号63として、発言者名をヘッドマウントディスプレイ21上の別の表示エリア52に作成し、その発言者の識別記号63に発言内容情報を対応付けて表示する画像を作成してもよい。図14に示す例では、左の発言者「発言者B」が、「お元気ですか」と発言し、右の発言者「発言者C」が、「私は元気です」と発言した場合に、各発言者名と発言を対応付けて表示エリア52に表示していることを示す。
図14に例示する画像を表示する場合、例えば、自装置ID(発言者識別情報)と人名とを対応付けた情報を予めメモリ等に記憶しておき、表示画像合成部309は、受信した自装置IDに対応する人名をメモリから読み取って識別記号を決定すればよい。
このように、カメラ22が検知した発言者識別情報と、受信した通信パケットに含まれる発言者識別情報とが一致する場合、表示位置算出部307、表示画像合成部309及び出力部308は、発言者識別情報により識別される利用者と発言内容情報とを関連付けてヘッドマウントディスプレイ21に表示する。
なお、上記説明では、カメラ22が検知した発言者識別情報と、受信した通信パケットに含まれる発言者識別情報とが一致しない場合、表示位置算出部307が予め定めた特定の位置を表示位置とする場合について説明した。具体的には、この場合、表示位置算出部307が決定した表示位置と発言内容情報とを関連付けた画像を表示画像合成部309が作成し、その画像を出力部308が表示する。ただし、両者が一致しない場合の表示方法は、上記方法に限定されない。
両者が一致しない場合、表示位置算出部307、表示画像合成部309及び出力部308は、発言内容情報を表示する方法とは異なる方法として、予め定められた表示方法に基づいて発言内容情報を処理してもよい。例えば、予め定められた表示方法を「発言内容情報を薄字で表示する」と定めていた場合、表示画像合成部309は、表示位置算出部307が決定した表示位置に薄字の発言内容情報を関連付けた画像を生成してもよい。また、予め定められた表示方法を「発言内容情報を表示しない」と定めていた場合、表示位置算出部307は、表示位置自体を算出しないようにしてもよい。もしくは、この場合、表示画像合成部309が、画像自体を生成しないようにしてもよく、発言内容情報を含まない画像を生成するようにしてもよい。
音声認識部302と、翻訳部303と、データ送信部305と、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311とは、プログラム(発言内容出力プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、音声認識情報表示装置10の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、音声認識部302、翻訳部303、データ送信部305、マーカ認識部306、表示位置算出部307、出力部308、表示画像合成部309、データ取り出し部310及びID取り出し部311として動作してもよい。
また、音声認識部302と、翻訳部303と、データ送信部305と、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311とは、それぞれが専用のハードウェアで実現されていてもよい。
例えば、図4に例示するように、音声検知装置40と発言内容出力装置41とが別のハードウェアで実現されている場合、コンピュータ25a及びコンピュータ25bは、それぞれ、図15に例示する構成であってもよい。図15は、本実施形態におけるコンピュータ25a及びコンピュータ25bの例を示すブロック図である。
すなわち、コンピュータ25aが、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312とを備え、コンピュータ25bが、音声認識部302と、翻訳部303と、自装置ID記憶部304と、データ送信部305とを備える構成であってもよい。コンピュータ25a及びコンピュータ25bが備えている各構成要素の内容は、コンピュータ25が備えている各構成要素の内容と同様である。
次に、動作について説明する。以下の説明では、発言者Bの発言内容を、発言者Aが装着するヘッドマウントディスプレイに出力する場合について説明する。また、以下、発言者Aが装着する音声認識情報表示装置10を「発言者A装置」と記し、発言者Bが装着する音声認識情報表示装置10を「発言者B装置」と記す。また、以下の説明では、発言者Bが装着する音声認識情報表示装置10が、発言者の発言内容を翻訳し、発言者Aが装着する音声認識情報表示装置10に、発言者の音声を表すテキスト情報と翻訳データとを送信する場合について説明する。
図16は、本実施形態における動作の例を示すフローチャートである。まず、発言者B装置のマイク24に発言者Bの音声が入力されると、発言者B装置の音声認識部302は、マイク24に入力された音声を認識し、認識した音声をテキスト情報に変換する(ステップS11)。そして、発言者B装置の翻訳部303は、テキスト情報を他国語に翻訳する(ステップS12)。なお、テキスト情報を他国語に翻訳しない場合、本処理は不要である。
ここで説明した発言者Bの音声を表すテキスト情報や、翻訳された情報(すなわち、翻訳情報)が、発言内容情報に相当する。なお、発言内容情報は、テキスト情報や翻訳情報以外の情報であってもよい。発言内容情報は、例えば、マイク24に入力された音声であってもよい。
発言者B装置のデータ送信部305は、テキスト情報及び翻訳部303が翻訳した翻訳データ(すなわち、発言内容情報)に、コンピュータ25の製造番号などの自装置IDを付与して、通信データフォーマットに基づく通信パケットを作成する(ステップS13)。データ送信部305は、例えば、図7に例示する通信データフォーマットに基づいて通信パケットを作成する。そして、発言者B装置のデータ送信部305は、作成した通信パケットを発言者A装置に送信する(ステップS14)。
発言者A装置は、発言者B装置から通信パケットを受信すると、データ取り出し部310が、通信パケットの中からテキスト情報及び翻訳データ(すなわち、発言内容情報)を取り出し(ステップS21)、ID取り出し部311が、通信パケットの中から自装置ID(すなわち、発言者識別情報)を取り出す(ステップS22)。ここで、取り出された自装置IDは、通信パケットを送信してきたコンピュータ(すなわち、発言者B装置)を識別するIDと言える。
一方、発言者A装置のカメラ22は、撮影範囲に存在する識別マーカ23を検知し(ステップS23)、マーカ認識部306は、検知した識別マーカ23から発言者識別情報を抽出する(ステップS24)。
発言者A装置の表示位置算出部307は、マーカ認識部306が抽出した識別マーカ23に表示された発言者識別情報と、ID取り出し部311が取り出した自装置IDとが一致するか否かを判定する(ステップS25)。
ここで、カメラ22が発言者B装置の識別マーカ23を検知したとする。発言者B装置の識別マーカ23には、例えば、自装置製造番号が埋め込まれたバーコードなどが表示されている。上述の通り、発言者B装置の識別マーカ23に表示される発言者識別情報は、発言者B装置の自装置ID記憶部304に記憶された自装置IDをもとに生成された情報である。なお、自装置IDは、コンピュータの製造番号など一意に識別できる番号である。
この場合、マーカ認識部306が抽出した識別マーカ23に表示された発言者識別情報と、ID取り出し部311が取り出した発言者B装置の自装置IDとは一致する。このように、両者が一致すると判定された場合(ステップS25におけるYes)、発言者A装置の表示位置算出部307は、発言内容情報を表示させる表示位置を算出する(ステップS26)。そして、発言者A装置の表示画像合成部309は、算出された表示位置に発言内容情報を示す画像を作成し(ステップS27)、発言者A装置の出力部308は、作成された画像を発言者A装置のヘッドマウントディスプレイ21に表示させる(ステップS28)。
すなわち、発言者A装置の表示位置算出部307、表示画像合成部309及び出力部308は、受信したID(発言者識別情報)とカメラ22が検知したID(発言者識別情報)が一致したときに、受信したテキスト情報及び翻訳データを、ヘッドマウントディスプレイ21上に表示する。このとき、表示位置算出部307、表示画像合成部309及び出力部308は、識別マーカ23の位置をもとにヘッドマウントディスプレイ21上の位置を算出し、さらにその位置から特定の相対位置だけずらした位置に受信した翻訳データとID情報とを併せて表示してもよい。
図17は、ヘッドマウントディスプレイに発言内容情報を表示する例を示す説明図である。図17に示す例では、発言者として「ヒトA」、「ヒトB」及び「ヒトC」がカメラ22の撮影範囲に存在するものとする。例えば、発言者「ヒトC」の識別マーカ23を認識した位置の座標が、左上隅を基点としたときに(X,Y)であったとする。そして、発言内容情報を表示する識別マーカ23からの相対位置が、(X方向に−20,Y方向に+10)と定められているとする。このとき、表示位置算出部307は、発言内容情報を表示する表示位置(すなわち、発言内容情報表示エリアの左上隅)の座標を(X−20,Y+10)と算出し、出力部308は、その位置にテキスト情報「私は元気です」や翻訳データ「I’m fine Thank you.」を、ID情報「(ヒトC)」と併せて表示すればよい。「ヒトA」及び「ヒトB」についても同様である。
なお、上記説明では、発言内容情報として、テキスト情報及び翻訳情報を両方表示する場合について説明した。ただし、出力する発言内容情報は、テキスト情報だけであってもよく、翻訳情報だけであってもよい。出力する発言内容情報がテキスト情報だけの場合、発言者B装置は、テキスト情報に自装置IDを付与した情報を発言者A装置に送信すればよい。また、出力する発言内容情報が翻訳情報だけの場合、発言者B装置は、翻訳情報に自装置IDを付与した情報を発言者A装置に送信すればよい。
一方、ステップS25において、両者が一致しないと判定された場合(図16におけるステップS25におけるNo)、発言者A装置の表示位置算出部307は、発言内容情報を表示させる表示位置を予め定めた特定位置を表示位置と決定する(ステップS29)。表示位置算出部307は、例えば、ヘッドマウントディスプレイの左上隅を発言内容情報の表示位置と決定してもよい。以降の処理は、ステップS27以降の処理と同様である。
なお、以上のことから、発言者B装置は、音声検知装置に対応し、発言者A装置は、発言内容出力装置に対応するということが出来る。
以上のように、本実施形態によれば、発言者B装置において、マイク24が発言者の音声を検知し、データ送信部305が、検知された発言内容情報に発言者識別情報を付与したあと、発言者識別情報が付与された発言内容情報を発言者A装置に送信する。一方、発言者A装置において、カメラ22及びマーカ認識部306が、発言者Bの位置を検知し、さらに識別マーカ23から発言者Bの発言者識別情報を検知する。発言者A装置の表示位置算出部307は、検知した発言者識別情報と、発言者B装置から受信した発言者識別情報とが一致するか否かを判定する。発言者識別情報が一致する場合、表示位置算出部307、表示画像合成部309及び出力部308は、検知した発言者の位置と発言内容情報とを関連付けてヘッドマウントディスプレイ21に表示する。そのため、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
また、発言者B装置のマイク24が、発言者の音声を検知し、データ送信部305が、その音声の内容を表す発言内容情報に発言者識別情報を付与して、発言者A装置に送信する。そのため、発言者A装置では、受信した発言者識別情報と、カメラ22及びマーカ認識部306が検知した識別マーカ23の発言者識別情報が一致する場合に、その発言者識別情報によって識別される利用者の位置と発言内容情報とを対応付けて画面に表示することができる。よって、発言者A装置に複数の相手の発言内容を表示する場合、発言者Aは、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
例えば、発言内容を翻訳して表示する一般的な装置では、3名以上の話者が存在する場合、ヘッドマウントディスプレイに表示された翻訳情報を見ながら会話しようとすると、混乱をきたす恐れがあった。しかし、本実施形態によれば、表示位置算出部307、表示画像合成部309及び出力部308が、発言者の位置に対応するヘッドマウントディスプレイ21上に音声の情報(すなわち、テキスト情報)を出力する。このように、翻訳された結果を誰が発声したものかを明示する仕組みが存在するため、誰が発声した情報かをディスプレイ上に表示することが可能になる。そのため、会話内容の理解も促進され、通訳された情報を見ながら会話することが自然になる。
また、一般的な翻訳装置では、発言内容を翻訳する場合、発生したタイミングから、音声を翻訳して表示するまでのタイムラグが生じる。そのため、翻訳結果を表示する場合に発言内容が前後することにより、会話が混乱する可能性がある。しかし、本実施形態では、音声の情報(すなわち、テキスト情報)が発言者と関連付けて表示されるため、翻訳処理等で発生するタイムラグによる会話の混乱を抑制できる。
なお、本実施形態における発言内容出力システムを、翻訳情報の出力システムに適用してもよい。この場合、ヘッドマウントディスプレイ21、カメラ22、マイク24(ヘッドセット)と、通信手段を有する小型のコンピュータ25とを組み合わせたウェアラブルコンピュータシステムとして構成できる。具体的には、図3に例示するように、識別マーカ23を正面、右側面、左側面に具備したメガネフレーム20に、ヘッドマウントディスプレイ21とカメラ22が設けられ、さらに、それらが小型コンピュータ25に接続される。また、小型コンピュータ25は、マイク24およびイヤホン26に接続されていて、通信モジュールにより、他の小型コンピュータ25と通信する。
このとき、3名以上の複数の人間が本システムで用いられる装置を装着する。そして、音声認識部302が、マイク24から入力された音声をテキスト情報として認識し、翻訳部303が、認識されたテキスト情報を、指定された任意の言語(他国語)に翻訳する。この翻訳されたテキスト情報が、他者が装着した装置のヘッドマウントディスプレイに表示されることになる。データ送信部305は、他国語に翻訳された情報を、小型コンピュータ25の製造番号などから生成された自装置IDを付与し、通信データフォーマットに基づいて通信パケットを生成する。そして、データ送信部305は、生成した通信パケットを他装置へ一斉配信する。
他装置からデータを受信した小型コンピュータ25では、ID取り出し部311及びデータ取り出し部310が、通信データフォーマットに従ってID部と翻訳データ部を取り出す。一方、カメラ22は、他者の識別マーカ23を撮影し、マーカ認識部306は、識別マーカ23を認識してID(すなわち、発言者識別情報)を抽出する。
受信したIDと認識したIDが一致した場合、表示画像合成部309及び出力部308は、マーカの位置に対する特定の相対位置に、受信ID情報(すなわち、発言者識別情報)と共に受信した翻訳データをヘッドマウントディスプレイ21上に表示する。すなわち、表示画像合成部309及び出力部308は、ヘッドマウントディスプレイ21上に翻訳されたテキストを表示する際、誰が発声した情報なのかを識別する情報を付与した形で表示する。例えば、ヘッドマウントディスプレイ21上でのマーカ位置座標(左上隅を基点)が(X,Y)であるならば、翻訳データを表示する位置座標を(X−20,Y+10)としてもよい。
一方、発声者がカメラフレームから外れているなど、識別マーカ23から取り出されるどのIDも受信したIDと一致しない場合、表示画像合成部309及び出力部308は、ヘッドマウントディスプレイ21の左上隅など特定位置に翻訳データを出力する。
以上の仕組みにより、ヘッドマウントディスプレイ21上の対応する位置に文字情報(翻訳情報)がビジュアルに表示されるため、誰が発声した文字情報かを明確に識別可能になる。
次に、第1の実施形態の変形例について説明する。図18は、第1の実施形態の変形例におけるコンピュータ25a’及びコンピュータ25b’の例を示すブロック図である。本変形例におけるコンピュータ25a’は、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312と、音声認識部302aと、翻訳部303aとを備えている。また、コンピュータ25b’は、自装置ID記憶部304と、データ送信部305とを備えている。
すなわち、コンピュータ25b’が音声認識部302及び翻訳部303を備えず、コンピュータ25a’が音声認識部302a及び翻訳部303aを備える点において、第1の実施形態におけるコンピュータ25a及びコンピュータ25bと異なる。それ以外の構成は、第1の実施形態と同様である。言い換えると、本変形における構成は、コンピュータ25bが備えていた音声認識部302及び翻訳部303を、コンピュータ25aに(音声認識部302a及び翻訳部303aとして)移動させた構成であると言える。
データ送信部305は、マイク24が検出した音声に発言者識別情報を付与する。そして、データ送信部305は、発言者識別情報が付与された音声を含む通信パケットを、他の装置に送信する。
音声認識部302aは、データ取り出し部310が通信パケットの中から取り出した音声(すなわち、発言内容識別情報)をテキスト情報に変換する。そして、翻訳部303aは、音声認識部302aが変換したテキスト情報を翻訳する。この場合、表示画像合成部309は、自装置IDとデータ取り出し部310が翻訳した翻訳データとを合成した画像を生成する。
なお、コンピュータ25bにおける音声認識部302及び翻訳部303の両方をコンピュータ25aに移動させた構成ではなく、コンピュータ25bにおける翻訳部303のみをコンピュータ25aに移動させた構成であってもよい。この場合、コンピュータ25bの音声認識部302が音声をテキスト情報に変換し、コンピュータ25aの翻訳部303aが受け取ったテキスト情報を翻訳してもよい。
次に、動作について説明する。以下の説明では、第1の実施形態と同様に、発言者Bの発言内容を、発言者Aが装着するヘッドマウントディスプレイに出力する場合について説明する。また、以下、発言者Aが装着する音声認識情報表示装置10を「発言者A装置」と記し、発言者Bが装着する音声認識情報表示装置10を「発言者B装置」と記す。また、以下の説明では、発言者B装置が、発言者の発言内容を発言者A装置に送信し、発言者A装置10が発言内容を翻訳する場合について説明する。
図19は、第1の実施形態の変形例における動作の例を示すフローチャートである。なお、第1の実施形態と同様の動作については、図16と同一の符号を付し、詳細な説明を省略する。
まず、発言者B装置のマイク24に発言者Bの音声が入力されると、その音声(すなわち、発言内容情報)に、コンピュータ25の製造番号などの自装置IDを付与して、通信データフォーマットに基づく通信パケットを作成する(ステップS13)。そして、発言者B装置のデータ送信部305は、作成した通信パケットを発言者A装置に送信する(ステップS14)。
発言者A装置は、発言者B装置から通信パケットを受信すると、データ取り出し部310が、通信パケットの中から音声(すなわち、発言内容情報)を取り出し(ステップS21)、ID取り出し部311が、通信パケットの中から自装置ID(すなわち、発言者識別情報)を取り出す(ステップS22)。発言者A装置の音声認識部302aは、取り出された音声をテキスト情報に変換する(ステップS11a)。そして、発言者B装置の翻訳部303aは、変換されたテキスト情報を翻訳する(ステップS12a)。
以降、発言者A装置のカメラ22が、識別マーカ23を検知してから、出力部308が自装置IDと発言内容情報とを対応付けた画像を発言者A装置のヘッドマウントディスプレイ21に表示させるまでの処理は、図16におけるステップS23〜ステップS29までの処理と同様である。
以上のような構成であっても、複数の相手の発言内容を表示する場合に、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
実施形態2.
次に、本発明の第2の実施形態における発言内容出力システムについて説明する。本実施形態における発言内容出力システムも、図1に例示する発言内容出力システムと同様に、各発言者が音声認識情報表示装置を装着し、マイクを介して検知された発言者の音声の内容を表す発言内容情報が無線通信を介して他の発言者に送信される。また、音声認識情報表示装置は、音声検知装置と発言内容出力装置とをまとめた装置である。音声検知装置と発言内容出力装置とは、それぞれが別のハードウェアで実現されていてもよい。
図20は、本実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。なお、第1の実施形態と同様の構成については、図2と同一の符号を付し、説明を省略する。本実施形態における音声認識情報表示装置10は、ヘッドマウントディスプレイ21と、カメラ22と、マイク24と、コンピュータ35と、イヤホン26とを備えている。すなわち、本実施形態における発言内容出力システムは、識別マーカ23を備えていない点において、第1の実施形態と異なる。また、コンピュータ35の構成が、第1の実施形態におけるコンピュータ25の構成と異なる。それ以外の構成については、第1の実施形態と同様である。なお、コンピュータ35の構成については後述する。
また、第1の実施形態と同様、ヘッドマウントディスプレイ21、カメラ22、マイク24、コンピュータ35及びイヤホン26は、1つの装置に全て含まれていなくてもよい。図21は、音声検知装置と発言内容出力装置とがそれぞれ別のハードウェアで構成されている場合の例を示す説明図である。図21に例示するように、音声検知装置42が、マイク24と、コンピュータ25bと、イヤホン26とを備え、発言内容出力装置43が、ヘッドマウントディスプレイ21と、カメラ22と、コンピュータ35aとを備える構成であってもよい。なお、第1の実施形態と同様の構成については、図4と同一の符号を付し、説明を省略する。
図22は、本実施形態におけるコンピュータ35の例を示すブロック図である。本実施形態におけるコンピュータ35は、音声認識部302と、翻訳部303と、自装置ID記憶部304と、データ送信部305と、顔認識部321と、表示位置算出部322と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312と、対応ID記憶部323とを備えている。
対応ID記憶部323は、発言者の顔を表す情報(以下、顔情報と記す。)とその発言者を識別する発言者識別情報とを対応付けて記憶する。対応ID記憶部323は、顔情報として、例えば、顔画像そのものを記憶しておいてもよい。また、対応ID記憶部323は、顔画像だけでなく、例えば、目や鼻、口などの顔を構成する部品の形状や位置など、顔の特徴を表す特徴点を記憶しておいてもよい。発言者識別情報は、自装置ID記憶部304に記憶された自装置IDをもとに生成される情報である。対応ID記憶部323は、例えば、磁気ディスク等により実現される。
顔認識部321は、発言者の顔を認識する。顔認識部321は、カメラ22が撮影した発言者の顔画像そのものを発言者の顔として認識してもよい。また、顔認識部321は、カメラ22が撮影した映像から、発言者の顔の特徴を表す特徴点を認識してもよい。
また、顔認識部321は、発言者の顔をその発言者の位置として検知する。図23は、発言者の位置を検知する方法の例を示す説明図である。顔認識部321が、例えば、図23に示す一点鎖線で囲まれた範囲60に発言者の顔を認識したとする。このとき、顔認識部321は、例えば、範囲60の左上隅を発言者の位置として検知してもよい。ただし、発言者の位置を検知する方法は、上述の方法に限定されない。
表示位置算出部322は、顔認識部321が認識した顔に基づいて、対応する発言者識別情報を対応ID記憶部323から読み取る。そして、表示位置算出部322は、読み取った発言者識別情報と、ID取り出し部311が発言内容情報から取り出した発言者識別情報とが一致するか否かを判定する。そして、表示位置算出部322は、カメラ22が撮影した範囲のどの位置に翻訳データもしくはテキスト情報を表示させるべきか(すなわち、表示位置)を、発言者の位置から算出する。
以降の処理は、第1の実施形態における表示位置算出部307の処理と同様である。また、それ以外の構成については、第1の実施形態と同様である。
音声認識部302と、翻訳部303と、データ送信部305と、顔認識部321と、表示位置算出部322と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311とは、プログラム(発言内容出力プログラム)に従って動作するコンピュータのCPUによって実現される。また、音声認識部302と、翻訳部303と、データ送信部305と、マーカ認識部306と、表示位置算出部307と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311とは、それぞれが専用のハードウェアで実現されていてもよい。
例えば、図21に例示するように、音声検知装置42と発言内容出力装置43とが別のハードウェアで実現されている場合、コンピュータ35a及びコンピュータ25bは、それぞれ、図24に例示する構成であってもよい。図24は、本実施形態におけるコンピュータ35a及びコンピュータ25bの例を示すブロック図である。
すなわち、コンピュータ35aが、顔認識部321と、表示位置算出部322と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312とを備え、コンピュータ25bが、音声認識部302と、翻訳部303と、自装置ID記憶部304と、データ送信部305とを備える構成であってもよい。コンピュータ35a及びコンピュータ25bが備えている各構成要素の内容は、コンピュータ35が備えている各構成要素の内容と同様である。
次に、動作について説明する。図25は、本実施形態における動作の例を示すフローチャートである。発言者B装置が通信パケットを送信し、発言者A装置が通信パケットの中から翻訳データ及び自装置IDを取り出すまでの処理は、図16に例示するステップS11〜S22までの処理と同様である。
発言者A装置のカメラ22が撮影範囲に存在する発言者を検知すると、顔認識部321は、発言者の顔を認識する(ステップS31)。そして、表示位置算出部322は、顔認識部321が認識した顔に基づいて、対応する発言者識別情報を対応ID記憶部323から読み取る(ステップS32)。以降、発言者A装置の表示位置算出部322が、読み取った発言者識別情報と、ID取り出し部311が発言内容情報から取り出した自装置IDとが一致するか否かを判定して、ヘッドマウントディスプレイ21に発言内容情報を示す画像を表示するまでの処理は、図16に例示するステップS25〜S29までの処理と同様である。
以上のように、本実施形態によれば、顔認識部321が発言者の顔情報を認識し、その顔情報に対応する発言者識別情報を表示位置算出部322が対応ID記憶部323から抽出する。このように、発言者の顔情報から発言者識別情報及び位置が検知できることにより、第1の実施形態の効果に加え、識別マーカ23を別途設けるための負担を軽減できる。
次に、第2の実施形態の変形例について説明する。図26は、第2の実施形態の変形例におけるコンピュータ35a’及びコンピュータ25b’の例を示すブロック図である。本変形例におけるコンピュータ35a’は、顔認識部321と、表示位置算出部322と、対応ID記憶部323と、出力部308と、表示画像合成部309と、データ取り出し部310と、ID取り出し部311と、データ受信部312と、音声認識部302aと、翻訳部303aとを備えている。また、コンピュータ25b’は、自装置ID記憶部304と、データ送信部305とを備えている。
すなわち、コンピュータ25b’が音声認識部302及び翻訳部303を備えず、コンピュータ35a’が音声認識部302a及び翻訳部303aを備える点において、第2の実施形態におけるコンピュータ25a及びコンピュータ25bと異なる。それ以外の構成は、第2の実施形態と同様である。言い換えると、本変形における構成は、コンピュータ25bが備えていた音声認識部302及び翻訳部303を、コンピュータ35aに(音声認識部302a及び翻訳部303aとして)移動させた構成であると言える。
データ送信部305、音声認識部302a及び翻訳部303aの機能については、第1の実施形態の変形例と同様である。
なお、コンピュータ25bにおける音声認識部302及び翻訳部303の両方をコンピュータ35aに移動させた構成ではなく、コンピュータ25bにおける翻訳部303のみをコンピュータ35aに移動させた構成であってもよい。この場合、コンピュータ25bの音声認識部302が、音声をテキスト情報に変換し、コンピュータ35aの翻訳部303aが、受け取ったテキスト情報を翻訳してもよい。
また、動作については、第1の実施形態の変形例と同様である。すなわち、発言者B装置から音声を含む通信パケットを受信すると、データ取り出し部310が通信パケットの中から音声を取り出し、音声認識部302aが、取り出された音声をテキスト情報に変換する。そして、発言者B装置の翻訳部303aは、変換されたテキスト情報を翻訳する。以降の処理は、図16におけるステップS23〜ステップS29までの処理と同様である。
以上のような構成であっても、複数の相手の発言内容を表示する場合に、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
次に、第1の実施形態及び第2の実施形態における変形例について説明する。図27は、第1の実施形態及び第2の実施形態における発言内容出力システムの変形例を示す説明図である。本変形例における発言内容出力システムは、複数の音声認識情報表示装置10と、サーバ装置70とを備えている。サーバ装置70は、音声認識情報表示装置10からの通信パケットを受信し、他の音声認識情報表示装置10に必要なデータを送信する装置である。サーバ装置70は、例えば、AP(アクセスポイント)60に設置される。
第1の実施形態及び第2の実施形態における発言内容出力システムは、音声認識情報表示装置10が発言内容情報及び自装置IDを他の音声認識情報表示装置10に送信していた。一方、本変形例における発言内容出力システムは、音声認識情報表示装置10が通信パケットをサーバ装置70に送信し、サーバ装置70が他の音声認識情報表示装置10に通信パケットを送信する点において第1の実施形態及び第2の実施形態と異なる。
図28は、本変形例における発言内容出力システムの構成例を示すブロック図である。なお、第2の実施形態と同様の構成については、図21と同一の符号を付し、説明を省略する。本変形例における発言内容出力システムは、複数の音声認識情報表示装置(より具体的には、音声検知装置44と発言内容出力装置45)と、サーバ装置70とを備えている。音声検知装置44が、マイク24と、コンピュータ25b’と、イヤホン26とを備え、発言内容出力装置45が、ヘッドマウントディスプレイ21と、カメラ22と、コンピュータ35aとを備えている。なお、音声検知装置44は、第1の実施形態における図4に例示する識別マーカ23を備えていてもよい。
サーバ装置70は、コンピュータ75cを備えている。コンピュータ75cは、音声認識情報表示装置(具体的には、音声検知装置44)から受信した音声を翻訳し、翻訳した情報を他の音声認識情報表示装置(具体的には、発言内容出力装置45)に送信する。
図29は、本変形例におけるコンピュータ35a、コンピュータ25b’及びコンピュータ75cの例を示すブロック図である。なお、第1の実施形態における変形例及び第2の実施形態と同様の構成については、図18及び図26と同一の符号を付し、説明を省略する。すなわち、コンピュータ25b’の構成は、図18におけるコンピュータ25b’の構成と同様であり、コンピュータ35aの構成は、図26におけるコンピュータ35aの構成と同様である。
本変形例におけるコンピュータ75cは、音声認識部702cと、翻訳部703cと、データ送信部705cとを備えている。音声認識部702cは、音声検知装置44から受信した通信パケットの中から取り出した音声(すなわち、発言内容識別情報)をテキスト情報に変換する。翻訳部703cは、音声認識部702cが変換したテキスト情報を翻訳する。データ送信部705cは、翻訳情報及び発言者識別情報を発言内容出力装置45に送信する。
なお、サーバ装置70は、受信した通信パケットの内容を他の音声認識情報表示装置10にそのまま送信する装置であってもよい。また、サーバ装置70は、通信パケットに含まれる発言内容情報に加工を施す装置であってもよい。例えば、サーバ装置70の制御部(図示せず)が、通信パケットに含まれるテキスト情報を翻訳して翻訳データを生成してもよい。
また、サーバ装置70は、音声をもとにテキストに変換する処理を行う装置であってもよい。このとき、例えば、発言者Aの音声認識情報表示装置10が、音声を検知して、発言者識別情報を付与したその音声をそのままサーバ装置70に送信し、発言者Bの音声認識情報表示装置10が、送信された音声をもとにサーバ装置70が変換したテキスト情報を受信し、その後の処理(判定処理等)を行ってもよい。
このように、サーバ装置70を経由させて他の音声認識情報表示装置10に通信パケットを送信することで、コンピュータ25(もしくは、コンピュータ35)が行う処理負荷を軽減できる。
次に、本発明による発言内容出力システムの最小構成の例を説明する。図30は、本発明による発言内容出力システムの最小構成例を示すブロック図である。本発明による発言内容出力システムは、利用者(例えば、発言者)が発言した音声を検知する音声検知装置80(例えば、音声検知装置40)と、利用者の発言内容を出力する発言内容出力装置90(例えば、発言内容出力装置41)とを備えている。
音声検知装置80は、利用者が発言した音声を検知する音声検知手段81(例えば、マイク24及び音声認識部302)と、利用者が発言した音声(例えば、マイク24が検知した音声)もしくはその音声の内容を表す情報(例えば、テキスト情報、翻訳情報)を含む発言内容情報に、その利用者を識別する情報である利用者識別情報(例えば、発言者識別情報、自装置ID)を付与する利用者識別情報付与手段82(例えば、データ送信部305)とを備えている。
発言内容出力装置90は、利用者の発言内容情報を表示する画面(例えば、ヘッドマウントディスプレイ21)を有する表示手段91(例えば、表示位置算出部307、表示画像合成部309及び出力部308)と、音声検知装置80を利用する利用者の利用者識別情報(例えば、識別マーカ23に表示された発言者識別情報)を検知する利用者識別情報検知手段92(例えば、カメラ22及びマーカ認識部306)と、利用者識別情報検知手段92が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段93(例えば、表示位置算出部307)とを備えている。
表示手段91は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する(例えば、利用者の位置に発言内容情報を表示する)。
また、図31は、本発明による発言内容出力装置の最小構成例を示すブロック図である。本発明による発言内容出力装置90(例えば、発言内容出力装置41)は、音声を検知する音声検知装置80(例えば、音声検知装置40)の利用者(例えば、発言者)が発言した音声の内容を表す発言内容情報(例えば、音声、テキスト情報、翻訳情報)を表示する画面(例えば、ヘッドマウントディスプレイ21)を有する表示手段91(例えば、表示位置算出部307、表示画像合成部309及び出力部308)と、音声検知装置80を利用する利用者を識別する情報である利用者識別情報(例えば、識別マーカ23に表示された発言者識別情報)を検知する利用者識別情報検知手段92(例えば、カメラ22及びマーカ認識部306)と、利用者識別情報検知手段92が検知した利用者識別情報と、発言内容情報に音声検知装置80が付与した利用者の利用者識別情報(例えば、自装置ID)とが一致するか否かを判定する利用者識別情報判定手段93(例えば、表示位置算出部307)とを備えている。
そして、表示手段91は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する(例えば、利用者の位置に発言内容情報を表示する)。
さらに、図32は、本発明による音声検知装置の最小構成例を示すブロック図である。本発明による音声検知装置80は、利用者(例えば、発言者)が発言した音声を検知する音声検知手段81(例えば、マイク24及び音声認識部302)と、利用者が発言した音声(例えば、マイク24が検知した音声)もしくはその音声の内容を表す情報(例えば、テキスト情報、翻訳情報)を含む発言内容情報に、その利用者を識別する情報である利用者識別情報(例えば、発言者識別情報、自装置ID)を付与する利用者識別情報付与手段82(例えば、データ送信部305)と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者と対応付けて画面に表示する装置99(例えば、発言内容出力装置41)に対して送信する発言内容情報送信手段83(例えば、データ送信部305)とを備えている。
このように、発言内容出力システム、発言内容出力装置及び音声検知装置は、以上のような構成を備えていることから、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。
なお、少なくとも以下に示すような発言内容出力システム、発言内容出力装置、及び、音声検知装置も、上記に示すいずれかの実施形態に開示されている。
(1)利用者(例えば、発言者)が発言した音声を検知する音声検知装置(例えば、音声検知装置40)と、利用者の発言内容を出力する発言内容出力装置(例えば、発言内容出力装置41)とを備え、音声検知装置が、利用者が発言した音声を検知する音声検知手段(例えば、マイク24及び音声認識部302)と、利用者が発言した音声(例えば、マイク24が検知した音声)もしくはその音声の内容を表す情報(例えば、テキスト情報、翻訳情報)を含む発言内容情報に、その利用者を識別する情報である利用者識別情報(例えば、発言者識別情報、自装置ID)を付与する利用者識別情報付与手段(例えば、データ送信部305)とを備え、発言内容出力装置が、利用者の発言内容情報を表示する画面(例えば、ヘッドマウントディスプレイ21)を有する表示手段(例えば、表示位置算出部307、表示画像合成部309及び出力部308)と、音声検知装置を利用する利用者の利用者識別情報(例えば、識別マーカ23に表示された発言者識別情報)を検知する利用者識別情報検知手段(例えば、カメラ22及びマーカ認識部306)と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段(例えば、表示位置算出部307)とを備え、表示手段が、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する(例えば、利用者の位置に発言内容情報を表示する)発言内容出力システム。
(2)発言内容出力装置の表示手段は、発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。
(3)音声検知装置が、発言内容情報を翻訳した翻訳情報を生成する翻訳手段(例えば、翻訳部303)を備え、発言内容出力装置の表示手段が、発言内容情報として少なくとも翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。
(4)発言内容出力装置が、発言内容情報を翻訳した翻訳情報を生成する翻訳手段(例えば、翻訳部303a)を備え、発言内容出力装置の表示手段が、発言内容情報として少なくとも翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。
(5)利用者識別情報検知手段が、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知し、表示手段が、利用者識別情報検知手段が検知した利用者の位置に対応する画面上の位置(例えば、式1により算出される位置)に発言内容情報を表示発言内容出力システム。
(6)表示手段が、利用者識別情報が一致しないと判定された場合、予め定められた表示方法に基づいて発言内容情報を処理する(例えば、画面上の予め定められた位置に発言内容情報を表示する、発言内容情報を表示しない、発言内容情報を薄字で表示する)発言内容出力システム。
(7)音声検知装置が、利用者識別情報を表示するマーカ(例えば、識別マーカ23)を備え、発言内容出力装置の利用者識別情報検知手段が、音声検知装置を利用する利用者が装着するマーカに表示された利用者識別情報を検知する発言内容出力システム。
(8)発言内容出力装置(例えば、発言内容出力装置43)が、利用者の顔を表す情報である顔情報とその利用者を識別する利用者識別情報とを対応付けて記憶する顔情報記憶手段(例えば、対応ID記憶部323)を備え、発言内容出力装置の利用者識別情報検知手段(例えば、顔認識部321、表示位置算出部322)が、音声検知装置(例えば、音声検知装置42)を利用する利用者の顔情報を認識し、顔情報に対応する利用者識別情報を顔情報記憶手段から抽出する発言内容出力システム。
(9)表示手段が、発言内容情報を表示する外界光透過型のヘッドマウントディスプレイ(例えば、ヘッドマウンドディスプレイ21)であり、ヘッドマウントディスプレイが、利用者識別情報により識別される利用者と発言内容情報とを関連付けて表示する発言内容出力システム。
(10)表示手段が、発言内容情報を表示する外界光非透過型のヘッドマウントディスプレイであり、ヘッドマウントディスプレイが、利用者を撮影した画像と発言内容情報とを関連付けて表示する発言内容出力システム。
(11)音声検知装置が、利用者識別情報が付与された発言内容情報を、発言内容出力装置(例えば、発言内容出力装置41)に送信する発言内容情報送信手段(例えば、データ送信部305)を備え、発言内容出力装置の表示手段が、音声検知装置から受信した発言内容情報を画面に表示する発言内容出力システム。
(12)音声検知装置が、発言内容情報を受信して他の装置へ転送する転送手段(例えば、サーバ装置70)に対して、利用者識別情報が付与された発言内容情報を送信する発言内容情報転送手段(例えば、データ送信部305)を備え、発言内容出力装置の表示手段が、転送手段から受信した発言内容情報を画面に表示する発言内容出力システム。
(13)発言内容出力装置の表示手段が、転送手段(例えば、翻訳部703c)が発言内容情報を翻訳した翻訳情報を受信し、発言内容情報として少なくともその翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。
(14)音声を検知する音声検知装置(例えば、音声検知装置40)の利用者(例えば、発言者)が発言した音声の内容を表す発言内容情報(例えば、音声、テキスト情報、翻訳情報)を表示する画面(例えば、ヘッドマウントディスプレイ21)を有する表示手段(例えば、表示位置算出部307、表示画像合成部309及び出力部308)と、音声検知装置を利用する利用者を識別する情報である利用者識別情報(例えば、識別マーカ23に表示された発言者識別情報)を検知する利用者識別情報検知手段(例えば、カメラ22及びマーカ認識部306)と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に音声検知装置が付与した利用者の利用者識別情報(例えば、自装置ID)とが一致するか否かを判定する利用者識別情報判定手段(例えば、表示位置算出部307)とを備え、表示手段が、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する(例えば、利用者の位置に発言内容情報を表示する)発言内容出力装置。
(15)表示手段が、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力装置。
(16)利用者(例えば、発言者)が発言した音声を検知する音声検知手段(例えば、マイク24及び音声認識部302)と、利用者が発言した音声(例えば、マイク24が検知した音声)もしくはその音声の内容を表す情報(例えば、テキスト情報、翻訳情報)を含む発言内容情報に、その利用者を識別する情報である利用者識別情報(例えば、発言者識別情報、自装置ID)を付与する利用者識別情報付与手段(例えば、データ送信部305)と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者と対応付けて画面に表示する装置(例えば、発言内容出力装置41)に対して送信する発言内容情報送信手段(例えば、データ送信部305)とを備えた音声検知装置。
本発明は、検知された発言者の発言内容を画面上に出力する発言内容出力システムに好適に適用される。
10a,10b,10c 音声認識情報表示装置
20 メガネフレーム
21 ヘッドマウントディスプレイ
22 カメラ
23 識別マーカ
24 マイク
25,25a,25b,35,35a コンピュータ
26 イヤホン
40,42 音声検知装置
41,43 発言内容出力装置
52 表示エリア
60 AP(アクセスポイント)
61,62 識別記号
70 サーバ装置
302 音声認識部
303 翻訳部
304 自装置ID記憶部
305 データ送信部
306 マーカ認識部
307,322 表示位置算出部
308 出力部
309 表示画像合成部
310 データ取り出し部
311 ID取り出し部
312 データ受信部
321 顔認識部
323 対応ID記憶部

Claims (24)

  1. 利用者が発言した音声を検知する音声検知装置と、
    前記利用者の発言内容を出力する発言内容出力装置とを備え、
    前記音声検知装置は、
    利用者が発言した音声を検知する音声検知手段と、
    利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段とを備え、
    前記発言内容出力装置は、
    前記音声検知装置の利用者の発言内容情報を表示する画面を有する表示手段と、
    前記音声検知装置を利用する利用者の利用者識別情報を検知する利用者識別情報検知手段と、
    前記利用者識別情報検知手段が検知した利用者識別情報と、前記発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、
    前記表示手段は、前記利用者識別情報が一致すると判定された場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて前記画面に表示する
    ことを特徴とする発言内容出力システム。
  2. 発言内容出力装置の表示手段は、発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項1記載の発言内容出力システム。
  3. 音声検知装置は、
    発言内容情報を翻訳した翻訳情報を生成する翻訳手段を備え、
    発言内容出力装置の表示手段は、発言内容情報として少なくとも前記翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項1または請求項2記載の発言内容出力システム。
  4. 発言内容出力装置は、
    発言内容情報を翻訳した翻訳情報を生成する翻訳手段を備え、
    発言内容出力装置の表示手段は、発言内容情報として少なくとも前記翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項1から請求項3のうちのいずれか1項に記載の発言内容出力システム。
  5. 利用者識別情報検知手段は、音声検知装置を利用する利用者の位置及び当該利用者の利用者識別情報を検知し、
    表示手段は、前記利用者識別情報検知手段が検知した利用者の位置に対応する画面上の位置に発言内容情報を表示する
    請求項1から請求項4のうちのいずれか1項に記載の発言内容出力システム。
  6. 表示手段は、利用者識別情報が一致しないと判定された場合、予め定められた表示方法に基づいて発言内容情報を処理する
    請求項1から請求項5のうちのいずれか1項に記載の発言内容出力システム。
  7. 音声検知装置は、
    利用者識別情報を表示するマーカを備え、
    発言内容出力装置の利用者識別情報検知手段は、前記音声検知装置を利用する利用者が装着する前記マーカに表示された利用者識別情報を検知する
    請求項1から請求項6のうちのいずれか1項に記載の発言内容出力システム。
  8. 発言内容出力装置は、
    利用者の顔を表す情報である顔情報と当該利用者を識別する利用者識別情報とを対応付けて記憶する顔情報記憶手段を備え、
    発言内容出力装置の利用者識別情報検知手段は、音声検知装置を利用する利用者の顔情報を認識し、前記顔情報に対応する利用者識別情報を前記顔情報記憶手段から抽出する
    請求項1から請求項6のうちのいずれか1項に記載の発言内容出力システム。
  9. 表示手段は、発言内容情報を表示する外界光透過型のヘッドマウントディスプレイであり、
    前記ヘッドマウントディスプレイは、利用者識別情報により識別される利用者と発言内容情報とを関連付けて表示する
    請求項1から請求項8のうちのいずれか1項に記載の発言内容出力システム。
  10. 表示手段は、発言内容情報を表示する外界光非透過型のヘッドマウントディスプレイであり、
    前記ヘッドマウントディスプレイは、利用者を撮影した画像と発言内容情報とを関連付けて表示する
    請求項1から請求項8のうちのいずれか1項に記載の発言内容出力システム。
  11. 音声検知装置は、
    利用者識別情報が付与された発言内容情報を、発言内容出力装置に送信する発言内容情報送信手段を備え、
    発言内容出力装置の表示手段は、音声検知装置から受信した発言内容情報を画面に表示する
    請求項1から請求項10のうちのいずれか1項に記載の発言内容出力システム。
  12. 音声検知装置は、
    発言内容情報を受信して他の装置へ転送する転送手段に対して、利用者識別情報が付与された発言内容情報を送信する発言内容情報転送手段を備え、
    発言内容出力装置の表示手段は、前記転送手段から受信した発言内容情報を画面に表示する
    請求項1から請求項10のうちのいずれか1項に記載の発言内容出力システム。
  13. 発言内容出力装置の表示手段は、転送手段が発言内容情報を翻訳した翻訳情報を受信し、発言内容情報として少なくとも当該翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項12記載の発言内容出力システム。
  14. 音声を検知する音声検知装置の利用者が発言した音声の内容を表す発言内容情報を表示する画面を有する表示手段と、
    前記音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知手段と、
    前記利用者識別情報検知手段が検知した利用者識別情報と、前記発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、
    前記表示手段は、前記利用者識別情報が一致すると判定された場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて前記画面に表示する
    ことを特徴とする発言内容出力装置。
  15. 表示手段は、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項14記載の発言内容出力装置。
  16. 利用者が発言した音声を検知する音声検知手段と、
    利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段と、
    利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する発言内容情報送信手段とを備えた
    ことを特徴とする音声検知装置。
  17. 利用者が発言した音声を検知する音声検知装置が、利用者が発言した音声を検知し、
    前記音声検知装置が、利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与し、
    前記利用者の発言内容を出力する発言内容出力装置が、前記音声検知装置を利用する利用者の利用者識別情報を検知し、
    前記発言内容出力装置が、検知した利用者識別情報と、前記発言内容情報に付与された利用者識別情報とが一致するか否かを判定し、
    前記発言内容出力装置が、前記利用者識別情報が一致すると判定した場合、利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて画面に表示する
    ことを特徴とする検知情報出力方法。
  18. 発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項17記載の検知情報出力方法。
  19. 音声を検知する音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知し、
    検知された利用者識別情報と、前記利用者が発言した音声の内容を表す発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定し、
    前記利用者識別情報が一致すると判定した場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて画面に表示する
    ことを特徴とする発言内容出力方法。
  20. 発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
    請求項19記載の発言内容出力方法。
  21. 利用者が発言した音声を検知し、
    利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与し、
    利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する
    ことを特徴とする音声検知方法。
  22. 音声を検知する音声検知装置を利用する利用者の発言内容を表示する画面を有するコンピュータに適用される発言内容出力プログラムであって、
    前記コンピュータに、
    前記音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知処理、
    前記利用者識別情報検知処理で検知した利用者識別情報と、前記利用者が発言した音声の内容を表す発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定処理、および、
    前記利用者識別情報が一致すると判定した場合、当該利用者識別情報により識別される用者と前記発言内容情報とを関連付けて前記画面に表示する表示処理
    を実行させるための発言内容出力プログラム。
  23. コンピュータに、
    表示処理で、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者の位置と関連付けて画面に表示させる
    請求項22記載の発言内容出力プログラム。
  24. コンピュータに、
    利用者が発言した音声を検知する音声検知処理、
    利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与処理、および、
    利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する発言内容情報送信処理
    を実行させるための音声検知プログラム。
JP2010058005A 2010-03-15 2010-03-15 発言内容出力システム、発言内容出力装置及び発言内容出力方法 Pending JP2011192048A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010058005A JP2011192048A (ja) 2010-03-15 2010-03-15 発言内容出力システム、発言内容出力装置及び発言内容出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010058005A JP2011192048A (ja) 2010-03-15 2010-03-15 発言内容出力システム、発言内容出力装置及び発言内容出力方法

Publications (1)

Publication Number Publication Date
JP2011192048A true JP2011192048A (ja) 2011-09-29

Family

ID=44796879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010058005A Pending JP2011192048A (ja) 2010-03-15 2010-03-15 発言内容出力システム、発言内容出力装置及び発言内容出力方法

Country Status (1)

Country Link
JP (1) JP2011192048A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103869470A (zh) * 2012-12-18 2014-06-18 精工爱普生株式会社 显示装置及其控制方法、头戴式显示装置及其控制方法
JP2014120963A (ja) * 2012-12-18 2014-06-30 Seiko Epson Corp 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
WO2015072195A1 (ja) * 2013-11-13 2015-05-21 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
JPWO2014097748A1 (ja) * 2012-12-18 2017-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
JP2018164227A (ja) * 2017-03-27 2018-10-18 株式会社Nttぷらら 映像配信システム及び映像配信方法
WO2022270456A1 (ja) * 2021-06-21 2022-12-29 ピクシーダストテクノロジーズ株式会社 表示制御装置、表示制御方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11142784A (ja) * 1997-11-04 1999-05-28 Shimadzu Corp 位置検出機能付きヘッドマウントディスプレイ
JP2001344617A (ja) * 2000-03-31 2001-12-14 Hitachi Zosen Corp 複合現実感実現システム
JP2003302996A (ja) * 2002-04-11 2003-10-24 Yamagata Univ Research Institute 情報処理システム
JP2005107595A (ja) * 2003-09-26 2005-04-21 Nec Corp 自動翻訳装置
JP2009194857A (ja) * 2008-02-18 2009-08-27 Sharp Corp 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11142784A (ja) * 1997-11-04 1999-05-28 Shimadzu Corp 位置検出機能付きヘッドマウントディスプレイ
JP2001344617A (ja) * 2000-03-31 2001-12-14 Hitachi Zosen Corp 複合現実感実現システム
JP2003302996A (ja) * 2002-04-11 2003-10-24 Yamagata Univ Research Institute 情報処理システム
JP2005107595A (ja) * 2003-09-26 2005-04-21 Nec Corp 自動翻訳装置
JP2009194857A (ja) * 2008-02-18 2009-08-27 Sharp Corp 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103869470A (zh) * 2012-12-18 2014-06-18 精工爱普生株式会社 显示装置及其控制方法、头戴式显示装置及其控制方法
JP2014120963A (ja) * 2012-12-18 2014-06-30 Seiko Epson Corp 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
US9542958B2 (en) 2012-12-18 2017-01-10 Seiko Epson Corporation Display device, head-mount type display device, method of controlling display device, and method of controlling head-mount type display device
JPWO2014097748A1 (ja) * 2012-12-18 2017-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
WO2015072195A1 (ja) * 2013-11-13 2015-05-21 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
CN105684045A (zh) * 2013-11-13 2016-06-15 索尼公司 显示控制装置、显示控制方法和程序
US10460022B2 (en) 2013-11-13 2019-10-29 Sony Corporation Display control device, display control method, and program for displaying an annotation toward a user
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
JP2018164227A (ja) * 2017-03-27 2018-10-18 株式会社Nttぷらら 映像配信システム及び映像配信方法
WO2022270456A1 (ja) * 2021-06-21 2022-12-29 ピクシーダストテクノロジーズ株式会社 表示制御装置、表示制御方法、及びプログラム

Similar Documents

Publication Publication Date Title
EP2574220B1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
JP2011192048A (ja) 発言内容出力システム、発言内容出力装置及び発言内容出力方法
US11825012B2 (en) Server, client terminal, control method, and storage medium
CN108702580A (zh) 具有自动语音转录的听力辅助
EP2842055B1 (en) Instant translation system
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
KR102098734B1 (ko) 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
JP2004289254A (ja) テレビ電話端末
WO2017195775A1 (ja) 手話会話支援システム
KR20200090355A (ko) 실시간 번역 기반 멀티 채널 방송 시스템 및 이를 이용하는 방법
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
KR20200044947A (ko) 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램
CN112289325A (zh) 一种声纹识别方法及装置
US20190371202A1 (en) Speech translation and recognition for the deaf
JP3711418B2 (ja) 顔画像表示装置及び顔画像通信システム
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
JPWO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6846753B2 (ja) コンピュータシステム、Web会議音声補助方法及びプログラム
KR20110066628A (ko) 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법
KR101410321B1 (ko) 무성음성인식 및 발성장치 및 방법
JP2009112027A (ja) テレビ電話端末
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法
WO2023139673A1 (ja) 通話システム、通話装置、通話方法及びプログラムを格納した非一時的なコンピュータ可読媒体
KR20150059460A (ko) 스마트 폰에서 구화술을 구현하는 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130402