JP2011192048A

JP2011192048A - 発言内容出力システム、発言内容出力装置及び発言内容出力方法

Info

Publication number: JP2011192048A
Application number: JP2010058005A
Authority: JP
Inventors: Kotaro Nagahama; 公太郎永浜
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-03-15
Filing date: 2010-03-15
Publication date: 2011-09-29

Abstract

【課題】複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるようにするとともに、その発言者の状況も併せて認識できる発言内容出力システムを提供する。
【解決手段】音声検知手段８１は、利用者が発言した音声を検知する。利用者識別情報付与手段８２は、利用者が発言した音声もしくはその音声の内容を表す情報を含む発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する。利用者識別情報検知手段９２は、音声検知装置８０を利用する利用者の利用者識別情報を検知する。利用者識別情報判定手段９３は、利用者識別情報検知手段９２が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する。表示手段９１は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する。
【選択図】図３０

Description

本発明は、検知された発言者の発言内容を画面上に出力する発言内容出力システム、および発言内容出力システムに適用される発言内容出力装置、音声検知装置、検知情報出力方法、発言内容出力方法、音声検知方法、発言内容出力プログラム及び音声検知プログラムに関する。

発言者が発言した音声を文字情報化して画面上に表示する技術が各種提案されている。

特許文献１には、複数の話者の発言内容を並べて表示する自動翻訳装置が記載されている。特許文献１に記載された自動翻訳装置では、３人以上の複数の人が自由に発言する場合、発言者名を付与した各発言内容の翻訳結果を、発言した順にディスプレイ上に表示する。

また、特許文献２には、翻訳結果をヘッドマウントディスプレイに表示させる翻訳装置が記載されている。特許文献２に記載された翻訳装置では、翻訳対象の文章の言語種を特定して翻訳処理を行い、翻訳結果を相手側のヘッドマウントディスプレイに表示させる。

特開２００５−１０７５９５号公報（段落００９８〜００９９，図１３）特開２００６−３０２０９１号公報（段落００９７〜００９９）

ヘッドマウントディスプレイを利用したウェアラブルコンピュータシステムでは、利用者が、ヘッドマウントディスプレイを装着して会話を行い、認識された会話の内容がヘッドマウントディスプレイ上に表示される。一対一の２名で会話が行われる場合、発言者は明確であるため、ヘッドマウントディスプレイ上に誰の発言かを明示する必要はない。すなわち、特許文献２に記載された翻訳装置のように、相手が話す内容を認識して翻訳し、その翻訳結果のみを相手のヘッドマウントディスプレイに表示すれば十分である。

しかし、複数の人間がウェアラブルコンピュータシステムを利用して会話を行う場合、複数の人間の発言内容がヘッドマウントディスプレイに表示されることになる。そのため、特許文献２に記載された翻訳装置のように、相手の発言内容を翻訳した結果のみを相手のヘッドマウントディスプレイに表示する方法では、今ヘッドマウントディスプレイ上に表示された内容を誰が発言したのかが不明になってしまうという問題がある。

一方、特許文献１に記載された自動翻訳装置では、ディスプレイ上に表示される各発言内容に発言者名が付与されるため、誰の発言内容かを特定することは可能である。しかし、特許文献１に記載された自動翻訳装置を用いた場合、ディスプレイ上に表示された各発言者の発言内容を見ながら会話を進めることになる。

一般的に、相手と会話をする場合、相手の表情や動作などを確認しながら発言を行うことが多い。このような場合、特許文献１に記載された自動翻訳装置を用いて会話を行おうとすると、表示された発言内容を確認しつつ相手の状況を別途確認するという動作を繰り返さなければならず、スムーズな会話が出来るとは言い難い。そのため、複数の相手の音声をテキスト化して出力する場合、発言者を区別できるようにするとともに、その発言者の状況も併せて認識できるようにすることが会話を行う上で望ましいと言える。

そこで、本発明は、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるようにするとともに、その発言者の状況も併せて認識できる発言内容出力システム、および発言内容出力システムに適用される発言内容出力装置、音声検知装置、検知情報出力方法、発言内容出力方法、音声検知方法、発言内容出力プログラム及び音声検知プログラムを提供することを目的とする。

本発明による発言内容出力システムは、利用者が発言した音声を検知する音声検知装置と、利用者の発言内容を出力する発言内容出力装置とを備え、音声検知装置が、利用者が発言した音声を検知する音声検知手段と、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段とを備え、発言内容出力装置が、音声検知装置の利用者の発言内容情報を表示する画面を有する表示手段と、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知する利用者識別情報検知手段と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、表示手段が、利用者識別情報が一致すると判定された場合、利用者識別情報検知手段が検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。

本発明による発言内容出力装置は、音声を検知する音声検知装置の利用者が発言した音声の内容を表す発言内容情報を表示する画面を有する表示手段と、音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知手段と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、表示手段が、利用者識別情報が一致すると判定された場合、利用者識別情報検知手段が検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。

本発明による音声検知装置は、利用者が発言した音声を検知する音声検知手段と、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信する発言内容情報送信手段とを備えたことを特徴とする。

本発明による検知情報出力方法は、利用者が発言した音声を検知する音声検知装置が、利用者が発言した音声を検知し、音声検知装置が、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与し、利用者の発言内容を出力する発言内容出力装置が、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知し、発言内容出力装置が、検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定し、発言内容出力装置が、利用者識別情報が一致すると判定した場合、検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。

本発明による発言内容出力方法は、音声を検知する音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知し、検知された利用者識別情報と、利用者が発言した音声の内容を表す発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定し、利用者識別情報が一致すると判定した場合、検知した利用者の位置と発言内容情報とを関連付けて画面に表示することを特徴とする。

本発明による音声検知方法は、利用者が発言した音声を検知し、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与し、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信することを特徴とする。

本発明による発言内容出力プログラムは、音声を検知する音声検知装置を利用する利用者の発言内容を表示する画面を有するコンピュータに適用される発言内容出力プログラムであって、音声検知装置を利用する利用者の位置及びその利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知処理、利用者識別情報検知処理で検知した利用者識別情報と、利用者が発言した音声の内容を表す発言内容情報に音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定処理、および、利用者識別情報が一致すると判定した場合、利用者識別情報検知処理で検知された利用者の位置と発言内容情報とを関連付けて画面に表示する表示処理を実行させることを特徴とする。

本発明による音声検知プログラムは、コンピュータに、利用者が発言した音声を検知する音声検知処理、利用者が発言した音声の内容を表す発言内容情報に、その利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与処理、および、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者の位置と対応付けて画面に表示する装置に対して送信する発言内容情報送信処理を実行させることを特徴とする。

本発明によれば、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。

本発明の第１の実施形態における発言内容出力システムの例を示す説明図である。第１の実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。音声認識情報表示装置の構成の一部が一体形成されたメガネの例を示す説明図である。音声検知装置と発言内容情報出力装置の構成例を示す説明図である。第１の実施形態におけるコンピュータ２５の例を示すブロック図である。識別マーカ２３を生成する処理の例を示す説明図である。発言内容情報の送信に用いられる通信フォーマット例を示す説明図である。識別マーカ２３の位置に対応するヘッドマウントディスプレイ２１上の位置を算出する方法の例を示す説明図である。算出された表示位置に発言内容情報を表した画像の例を示す説明図である。発言内容情報を表した画像の例を示す説明図である。算出された表示位置に発言内容情報と現実の映像とを合成した画像の例を示す説明図である。別の表示エリアに発言内容情報を表示する例を示す説明図である。別の表示エリアに発言内容情報を表示する他の例を示す説明図である。別の表示エリアに発言内容情報を表示するさらに他の例を示す説明図である。第１の実施形態におけるコンピュータ２５ａ，２５ｂの例を示すブロック図である。第１の実施形態における動作の例を示すフローチャートである。発言内容情報を表示する例を示す説明図である。第１の実施形態の変形例におけるコンピュータ２５ａ’及びコンピュータ２５ｂ’の例を示すブロック図である。第１の実施形態の変形例における動作の例を示すフローチャートである。第２の実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。音声検知装置と発言内容出力装置の構成例を示す説明図である。本実施形態におけるコンピュータ３５の例を示すブロック図である。発言者の位置を検知する方法の例を示す説明図である。第２の実施形態におけるコンピュータ３５ａ，２５ｂの例を示すブロック図である。第２の実施形態における動作の例を示すフローチャートである。第２の実施形態の変形例におけるコンピュータ３５ａ’及びコンピュータ２５ｂ’の例を示すブロック図である。発言内容出力システムの変形例を示す説明図である。第１及び第２の実施形態の変形例における発言内容出力システムの構成例を示すブロック図である。第１及び第２の実施形態の変形例におけるコンピュータ３５ａ、コンピュータ２５ｂ’及びコンピュータ７５ｃの例を示すブロック図である。本発明による発言内容出力システムの最小構成例を示すブロック図である。本発明による発言内容出力装置の最小構成例を示すブロック図である。本発明による音声検知装置の最小構成例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態における発言内容出力システムの例を示す説明図である。図１に例示する各発言者Ａ〜Ｃは、発言者の音声を検知する装置（以下、音声検知装置と記す。）と、音声検知装置から発言者の発言内容を表す情報（以下、発言内容情報と記す。）を受信して、その発言内容情報を出力する装置（以下、発言内容出力装置）とを装着している。以下、音声検知装置と発言内容出力装置とをまとめて音声認識情報表示装置と記す。図１に示す例では、各発言者Ａ〜Ｃが、各音声認識情報表示装置１０ａ〜１０ｃを装着していることを示す。ただし、音声検知装置と発言内容出力装置とは、それぞれが別のハードウェアで実現されていてもよい。

また、図１に示す例では、マイクロフォン（以下、マイクと記す。）２４を介して検知された発言者Ｂの音声の内容を表す発言内容情報が無線通信により発言者Ａ及び発言者Ｃに送信され、その発言内容情報が発言者Ａのヘッドマウントディスプレイ２１に表示されたことを示す。なお、図１に示す例では、発言者が３名の場合について説明しているが、発言者は３名に限定されず、４名以上であってもよい。また、発言内容情報の通信方法は、無線通信に限定されない。各音声認識情報表示装置は、有線による通信ネットワークを用いて発言内容情報を送信してもよい。

また、以下の説明では、発言者Ｂの発言内容が発言者Ａのヘッドマウントディスプレイ２１に表示される場合について説明する。ただし、ヘッドマウントディスプレイ２１に表示する発言内容は、発言者Ｂの発言内容に限定されない。発言者Ｃの発言内容についても、発言者Ｂの場合と同様の方法で、発言者Ａのヘッドマウントディスプレイ２１に表示すればよい。

図２は、本実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。本実施形態における音声認識情報表示装置１０は、ヘッドマウントディスプレイ２１と、カメラ２２と、識別マーカ２３と、マイク２４と、コンピュータ２５と、イヤホン２６とを備えている。

図３は、音声認識情報表示装置の構成の一部が一体形成されたメガネの例を示す説明図である。図３に例示するメガネは、ヘッドマウントディスプレイ２１とカメラ２２と識別マーカ２３とが一体に形成されている。具体的には、メガネフレーム２０には、ヘッドマウントディスプレイ２１とカメラ２２と識別マーカ２３とが取り付けられている。また、ヘッドマウントディスプレイ２１及びカメラ２２は、メガネフレーム２０を介してコンピュータ２５に接続される。また、ヘッドマウントディスプレイ２１は、メガネの一方のレンズ側に取り付けられ、もう一方のレンズ側からは発言者が直接見えるように形成されている。

識別マーカ２３は、発言者を識別する情報（以下、発言者識別情報と記す。）を表示する。識別マーカ２３は、例えば、メガネフレーム２０の正面、右側面及び左側面に設けられる。ただし、識別マーカ２３が設けられる位置は、上記位置に限定されない。識別マーカ２３と発言者とが同時に認識できる程度の近傍位置に識別マーカ２３が設けられていればよい。また、識別マーカの数は、３個に限定されず、１つ以上あればよい。以下の説明では、発言者は、図３に例示するメガネを装着するものとし、そのメガネのメガネフレーム２０に識別マーカ２３が設けられているものとする。

発言者識別情報は、例えば、バーコードやＱＲコード（登録商標）で表わされる。ただし、発言者識別情報は、バーコードやＱＲコードに限定されない。識別マーカ２３に表示される発言者識別情報の生成方法については後述する。

マイク２４は、発言者が発言した音声を検知する。例えば、図１に示す例では、音声認識情報表示装置１０ｂのマイク２４は、発言者Ｂの音声を検知する。また、音声認識情報表示装置１０ｂのマイク２４は、音声認識情報表示装置１０ａのコンピュータ２５に接続され、検知した音声を通知する。

イヤホン２６は、スピーカ機能を備える装置である。例えば、イヤホン２６は、マイク２４が検知した音声を示す電気信号を、再度音声に変換してもよい。

ヘッドマウントディスプレイ２１は、他の装置から受信した発言内容情報を出力する出力装置である。例えば、図１に例示する音声認識情報表示装置１０ａのヘッドマウントディスプレイ２１には、音声認識情報表示装置１０ｂから受信した発言内容情報が表示される。具体的には、図１に例示する音声認識情報表示装置１０ａは、音声認識情報表示装置１０ｂから受信した発言内容情報をヘッドマウントディスプレイ２１に出力する。

なお、以下の説明では、発言内容情報を出力する出力装置がヘッドマウントディスプレイである場合について説明する。ただし、発言内容情報を表示する出力装置は、ヘッドマウントディスプレイに限定されない。発言内容を出力する装置として、例えば、カメラ付き腕時計や、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、携帯電話機や、携帯ゲーム機器などの携帯端末を用いてもよい。

カメラ２２は、他の音声認識情報表示装置を利用する発言者の発言者識別情報を検知する。具体的には、カメラ２２は、他の音声認識情報表示装置を利用する発言者近傍の識別マーカ２３を検知し、その識別マーカ２３に表示されている情報を発言者識別情報として検知する。例えば、発言者識別情報がバーコードやＱＲコードで表わされている場合、カメラ２２は、バーコードリーダなどのハードウェアによって実現される。ただし、カメラ２２が検知する対象は、バーコードやＱＲコードに限定されない。また、カメラ２２は、発言者識別情報の検知だけでなく、発言者の映像を撮影してもよい。

また、カメラ２２は、発言者の位置を併せて検知する。具体的には、カメラ２２は、撮影範囲中に存在する識別マーカ２３を検知することにより、発言者の位置を検知する。例えば、カメラ２２の撮影範囲の左上隅を基準とした場合、カメラ２２は、左上隅からの相対位置で発言者の位置を検知してもよい。

コンピュータ２５は、無線通信などの通信ネットワークを介して、他の装置との通信を行う。また、コンピュータ２５は、マイク２４が発言者の音声を検知すると、その音声の内容を表す発言内容情報を、他の音声認識情報表示装置に送信する。例えば、図１に示す例では、発言者Ｂが装着する音声認識情報表示装置１０ｂのコンピュータ２５が、発言者Ａが装着する音声認識情報表示装置１０ａに発言内容情報を送信する。

また、コンピュータ２５は、他の装置から発言内容情報を受信すると、受信した発言内容情報を、ヘッドマウントディスプレイ２１に出力させる。なお、コンピュータ２５の構成については後述する。

上記説明では、音声認識情報表示装置１０が、ヘッドマウントディスプレイ２１と、カメラ２２と、識別マーカ２３と、マイク２４と、コンピュータ２５と、イヤホン２６とを備えている場合について説明した。ただし、ヘッドマウントディスプレイ２１、カメラ２２、識別マーカ２３、マイク２４、コンピュータ２５及びイヤホン２６は、１つの装置に全て含まれていなくてもよい。図４は、音声検知装置と発言内容出力装置とがそれぞれ別のハードウェアで構成されている場合の例を示す説明図である。図４に例示するように、音声検知装置４０が、識別マーカ２３と、マイク２４と、コンピュータ２５ｂと、イヤホン２６とを備え、発言内容出力装置４１が、ヘッドマウントディスプレイ２１と、カメラ２２と、コンピュータ２５ａとを備える構成であってもよい。

すなわち、音声検知装置４０のコンピュータ２５ｂが、発言者の発言内容情報を発言内容出力装置４１に送信し、発言内容出力装置４１のコンピュータ２５ａが、音声検知装置４０から発言内容情報を受信して、ヘッドマウントディスプレイ２１に発言内容情報を表示してもよい。

また、音声検知装置や発言内容出力装置は、音声認識情報表示装置１０と同様、ヘッドマウントディスプレイによって実現されていてもよい。ただし、音声検知装置や発言内容出力装置は、ヘッドマウントディスプレイに限定されず、例えば、カメラ付き腕時計や、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、携帯電話機や、携帯ゲーム機器などの携帯端末により実現されていてもよい。

図５は、本実施形態におけるコンピュータ２５の例を示すブロック図である。本実施形態におけるコンピュータ２５は、音声認識部３０２と、翻訳部３０３と、自装置ＩＤ記憶部３０４と、データ送信部３０５と、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２とを備えている。

音声認識部３０２は、マイク２４に入力された音声をテキスト情報に変換する。翻訳部３０３は、テキスト情報を外国語に翻訳する。なお、テキスト情報を翻訳しない場合、コンピュータ２５は翻訳部３０３を備えていなくてもよい。また、音声をテキスト変換する方法及びテキスト情報を外国語に翻訳する方法は広く知られているため、詳細な説明を省略する。なお、翻訳する対象の言語は、予め定めておけばよい。

ここで説明した発言者の音声を表すテキスト情報や、翻訳された情報（以下、翻訳情報と記す。）が、発言内容情報に相当する。なお、発言内容情報は、テキスト情報や翻訳情報以外の情報であってもよい。発言内容情報は、例えば、マイク２４に入力された音声であってもよい。発言内容情報には、音声もしくはその音声の内容を表す情報（テキスト情報や翻訳情報）の少なくとも一方が含まれる。

自装置ＩＤ記憶部３０４は、コンピュータ２５を一意に識別する識別情報（以下、自装置ＩＤと記す。）を記憶する。自装置ＩＤ記憶部３０４には、自装置ＩＤとして、例えば、そのコンピュータの製造番号などを予め記憶しておいてもよい。自装置ＩＤ記憶部３０４は、例えば、メモリなどにより実現される。

また、自装置ＩＤ記憶部３０４に記憶された自装置ＩＤをもとに、上述の識別マーカ２３に表示される発言者識別情報が生成される。図６は、識別マーカ２３を生成する処理の例を示す説明図である。図６に例示するように、識別マーカ２３に表示する発言者識別情報は、例えば、小型コンピュータの製造番号のような一意に定まる値（例えば、自装置ＩＤ）が埋め込まれた一次元バーコードや二次元バーコード、ＱＲコードや画像として生成される。なお、ある値をもとに一次元バーコードや二次元バーコード、ＱＲコードや画像を生成する方法は広く知られているため、ここでは説明を省略する。

また、識別マーカ２３の発言者識別情報は、自装置ＩＤをもとに予め生成され、識別マーカ２３に表示される。発言者識別情報の内容は、自装置ＩＤと同じ内容であってもよく、所定の規則に基づいて変換された内容であってもよい。以下の説明では、発言者識別情報として、自装置ＩＤを用いる場合について説明する。このように、自装置ＩＤをもとに生成された発言者識別情報が表示される識別マーカ２３を発言者が装着することにより、発言者と音声認識情報表示装置とを対応付けることが可能になる。

データ送信部３０５は、発言内容情報（例えば、翻訳部３０３が翻訳した翻訳情報や音声認識部３０２が音声を変換したテキスト情報）に、発言者識別情報を付与する。具体的には、データ送信部３０５は、自装置ＩＤ記憶部３０４に記憶された自装置ＩＤをもとに生成された発言者識別情報を発言内容情報に付与する。そして、データ送信部３０５は、発言者識別情報が付与された発言内容情報を、他の音声認識情報表示装置に送信する。

図７は、発言内容情報の送信に用いられる通信フォーマット例を示す説明図である。図７に例示する通信フォーマットは、製造番号や名前など一意に特定できる情報（ここでは、自装置ＩＤ）と、ＭＡＣアドレス、ＩＰアドレスなどのグループキャストアドレス、シーケンス番号などを含む通信ヘッダとを、翻訳データに付加して構成される。データ送信部３０５は、図７に例示する通信フォーマットに従って、翻訳部３０３が翻訳した翻訳結果やテキスト情報などの発言内容情報に自装置ＩＤ及び通信ヘッダを付与した通信パケットを作成してもよい。ただし、通信パケットのフォーマットは、図７の例に限定されない。発言者識別情報と発言内容情報とを含んでいれば、他のフォーマットであってもよい。そして、データ送信部３０５は、作成した通信パケットを他のコンピュータに送信する。

マーカ認識部３０６は、カメラ２２が撮影する範囲に識別マーカ２３を検知すると、その識別マーカ２３に表示された発言者識別情報を抽出する。例えば、マーカ認識部３０６は、カメラ２２によって撮影された範囲に存在する発言者識別情報を、図３に例示するメガネのメガネフレーム２０に設けられた識別マーカ２３から抽出してもよい。

また、マーカ認識部３０６は、カメラ２２が検知した発言者の位置を併せて抽出する。マーカ認識部３０６は、例えばカメラ２２の撮影範囲の左上隅を基準とした場合、左上隅からの相対位置を発言者の位置として抽出してもよい。

データ受信部３１２は、他の装置から送信される発言内容情報を受信するインタフェースである。例えば、データ受信部３１２は、他の音声認識情報表示装置１０から送信された通信パケットを受信する。

データ取り出し部３１０は、データ受信部３１２が受信した通信パケットの中から、翻訳データもしくはテキスト情報（すなわち、発言内容情報）を取り出す。また、ＩＤ取り出し部３１１は、通信パケットの中から、発言内容情報に付与された発言者識別情報を取り出す。具体的には、ＩＤ取り出し部３１１は、通信パケットを送信してきた相手側の音声認識情報表示装置１０を表す自装置ＩＤをその通信パケットの中から取り出す。

表示位置算出部３０７は、マーカ認識部３０６が抽出した識別マーカ２３に表示された発言者識別情報と、ＩＤ取り出し部３１１が発言内容情報から取り出した発言者識別情報とが一致するか否かを判定する。

そして、表示位置算出部３０７は、カメラ２２が撮影した範囲のどの位置に翻訳データもしくはテキスト情報を表示させるべきかを、検出した識別マーカ２３の位置から算出する。具体的には、発言者識別情報が一致すると判定された場合、表示位置算出部３０７は、カメラ２２が撮影した範囲における識別マーカ２３の位置に対応するヘッドマウントディスプレイ２１上の表示位置を算出する。

一方、発声者がカメラフレーム（すなわち、カメラ２２が撮影する範囲）から外れているなど、識別マーカ２３から取り出されるどの発言者識別情報も、受信した発言者識別情報と一致しない場合も想定される。このような場合、発言者識別情報が一致しないと判定される。このように、発言者識別情報が一致しないと判定された場合、表示位置算出部３０７は、ヘッドマウントディスプレイの左上隅など、予め定めた特定の位置を表示位置としてもよい。

このように、発言者識別情報が一致しない場合に、予め定められた特定の位置に翻訳データを表示することで、現在視界に存在する発言者の音声でないことが認識可能になる。

図８は、識別マーカ２３の位置に対応するヘッドマウントディスプレイ２１上の位置を算出する方法の例を示す説明図である。図８に例示する範囲５０は、カメラ２２が撮影する範囲を表す。範囲５０は、左上を基準としたときに、（０，０）から（Ｘ，Ｙ）の座標で表わされる。一方、図８に例示す範囲５１は、ヘッドマウントディスプレイ２１の表示範囲を表す。範囲５１は、左上を基準としたときに、（０，０）から（ｘ，ｙ）の座標で表わされる。

ここで、カメラ２２が、座標（Ｘ１，Ｙ１）の位置に識別マーカ２３を検知したとする。このとき、表示位置算出部３０７は、ヘッドマウントディスプレイ２１上の対応する位置の座標（ｘ１，ｙ１）を、以下の式１を用いて算出してもよい。

ｘ１＝（ｘ／Ｘ）×Ｘ１
ｙ１＝（ｙ／Ｙ）×Ｙ１（式１）

ただし、ヘッドマウントディスプレイ２１上の表示位置の算出方法は、上記方法に限定されない。

さらに、表示位置算出部３０７は、ヘッドマウントディスプレイ２１上の表示位置を算出した後、予め定められた距離だけずらした位置（以下、移動距離と記す。）を、ヘッドマウントディスプレイ２１上の表示位置としてもよい。例えば、座標に換算したときの移動距離を、Ｘ方向−２０、Ｙ方向＋１０と定義しておいた場合、表示位置算出部３０７は、ヘッドマウントディスプレイ２１上の表示位置を算出した後、Ｘ方向に−２０、Ｙ方向に＋１０移動させた位置を表示位置としてもよい。

このように、識別マーカ２３を検知した位置から所定の距離だけ表示位置をずらすことにより、表示される発言内容情報が人物と重なって見にくくなることを抑制できる。

表示画像合成部３０９は、算出された表示位置と発言内容情報とを関連付けた画像を作成する。そして、出力部３０８は、作成された画像をヘッドマウントディスプレイ２１に表示させる。具体的には、表示画像合成部３０９は、算出された表示位置に、発言内容情報を送信した相手側の自装置ＩＤと、データ取り出し部３１０が取り出した翻訳データとを合成した画像を生成してもよい。また、表示画像合成部３０９は、カメラ２２が撮影した映像と発言内容情報とを合成した画像を作成してもよい。この合成内容は、発言内容情報を表示する表示装置の態様に応じて決定すればよい。

例えば、図３に例示するメガネのように現実の画像が右目側から参照可能な場合や、外界光を透過する（すなわち、外界光透過型の）ヘッドマウントディスプレイを用いる場合、表示画像合成部３０９は、発言内容情報のみを合成した画像を作成し、出力部３０８が、ヘッドマウントディスプレイ２１にその画像を表示すればよい。このようにすることで、利用者は現実の画像とヘッドマウントディスプレイ２１に表示された発言内容情報を示す画像とを重ねて認識することが可能になる。

図９は、算出された表示位置に発言内容情報を表した画像の例を示す説明図である。図９に示す例では、算出された表示位置の座標が（ｘ１，ｙ１）、移動距離が（−２０，＋１０）の場合、表示画像合成部３０９が、「こんにちは」という内容の発言内容情報を座標（ｘ１−２０，ｙ１＋１０）の位置に表わした画像を生成したことを示す。なお、図９に例示するように、表示画像合成部３０９は、発言内容情報だけでなく、発言内容情報を分かりやすくするための図形（例えば、吹き出しなど）を合成した画像を生成してもよい。

また、図１０は、予め定められた表示位置に発言内容情報を表した画像の例を示す説明図である。図１０に示す例では、カメラ２２が撮影する範囲から発言者が外れている。そのため、表示位置算出部３０７は、発言者識別情報が一致しないと判定し、ヘッドマウントディスプレイの左上隅を表示位置とする。このとき、表示画像合成部３０９は、図１０に例示するように、ヘッドマウントディスプレイの左上隅を基点として、発言内容情報を表した画像を生成する。

一方、外界光を透過しない（すなわち、外界光非透過型の）ヘッドマウントディスプレイを用いる場合、表示画像合成部３０９は、カメラ２２が撮影した現実の映像を発言内容情報に重ねた画像を生成し、出力部３０８が、ヘッドマウントディスプレイ２１にその画像を表示してもよい。図１１は、算出された表示位置に発言内容情報と現実の映像とを合成した画像の例を示す説明図である。この画像をヘッドマウントディスプレイに表示することで、利用者は現実の画像と発言内容情報を表す画像とを重ねて認識することが可能になる。

なお、上記説明では、算出された表示位置に発言内容情報を表示する場合について説明した。ただし、発言内容情報を表示する方法は、上記方法に限定されない。例えば、表示画像合成部３０９は、算出された表示位置に発言者を識別する記号（以下、識別記号と記す。）を表す画像を作成し、別の表示エリアに発言内容情報を識別記号と関連付けて表示する画像を作成してもよい。

図１２は、別の表示エリアに発言内容情報を表示する画像を作成する例を示す説明図である。図１２に示す例のように、表示画像合成部３０９は、発言者の識別記号６１として、文字（例えば、「Ｂ」や「Ｃ」など）を表す画像を発言者の位置に作成し、ヘッドマウントディスプレイ２１上の別の表示エリア５２に発言内容情報を識別記号と関連付けて表示する画像を作成してもよい。図１２に示す例では、発言内容情報の前に発言者の識別記号を表した画像を別の表示エリア５２に表示していることを示す。

また、図１３は、別の表示エリアに発言内容情報を表示する画像を作成する他の例を示す説明図である。図１３に示す例のように、表示画像合成部３０９は、発言者の識別記号６２として、色（例えば、赤や青など）を表すマークを発言者の位置に作成し、ヘッドマウントディスプレイ２１上の別の表示エリア５２に発言内容情報をその色で表示する画像を作成してもよい。図１３に示す例では、発言者Ｂを赤色、発言者Ｃを青色の識別記号６２で表し、発言者Ｂの発言内容情報を赤文字で、発言者Ｃの発言内容情報を青文字で表示していることを示す。

表示画像合成部３０９は、例えば、受信した自装置ＩＤを基に、予め定められたルールに基づいて変換した情報をもとに識別記号を決定すればよい。

また、図１４は、別の表示エリアに発言内容情報を表示する画像を作成するさらに他の例を示す説明図である。図１４に示す例のように、表示画像合成部３０９は、発言者の識別記号６３として、発言者名をヘッドマウントディスプレイ２１上の別の表示エリア５２に作成し、その発言者の識別記号６３に発言内容情報を対応付けて表示する画像を作成してもよい。図１４に示す例では、左の発言者「発言者Ｂ」が、「お元気ですか」と発言し、右の発言者「発言者Ｃ」が、「私は元気です」と発言した場合に、各発言者名と発言を対応付けて表示エリア５２に表示していることを示す。

図１４に例示する画像を表示する場合、例えば、自装置ＩＤ（発言者識別情報）と人名とを対応付けた情報を予めメモリ等に記憶しておき、表示画像合成部３０９は、受信した自装置ＩＤに対応する人名をメモリから読み取って識別記号を決定すればよい。

このように、カメラ２２が検知した発言者識別情報と、受信した通信パケットに含まれる発言者識別情報とが一致する場合、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８は、発言者識別情報により識別される利用者と発言内容情報とを関連付けてヘッドマウントディスプレイ２１に表示する。

なお、上記説明では、カメラ２２が検知した発言者識別情報と、受信した通信パケットに含まれる発言者識別情報とが一致しない場合、表示位置算出部３０７が予め定めた特定の位置を表示位置とする場合について説明した。具体的には、この場合、表示位置算出部３０７が決定した表示位置と発言内容情報とを関連付けた画像を表示画像合成部３０９が作成し、その画像を出力部３０８が表示する。ただし、両者が一致しない場合の表示方法は、上記方法に限定されない。

両者が一致しない場合、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８は、発言内容情報を表示する方法とは異なる方法として、予め定められた表示方法に基づいて発言内容情報を処理してもよい。例えば、予め定められた表示方法を「発言内容情報を薄字で表示する」と定めていた場合、表示画像合成部３０９は、表示位置算出部３０７が決定した表示位置に薄字の発言内容情報を関連付けた画像を生成してもよい。また、予め定められた表示方法を「発言内容情報を表示しない」と定めていた場合、表示位置算出部３０７は、表示位置自体を算出しないようにしてもよい。もしくは、この場合、表示画像合成部３０９が、画像自体を生成しないようにしてもよく、発言内容情報を含まない画像を生成するようにしてもよい。

音声認識部３０２と、翻訳部３０３と、データ送信部３０５と、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１とは、プログラム（発言内容出力プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、音声認識情報表示装置１０の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、音声認識部３０２、翻訳部３０３、データ送信部３０５、マーカ認識部３０６、表示位置算出部３０７、出力部３０８、表示画像合成部３０９、データ取り出し部３１０及びＩＤ取り出し部３１１として動作してもよい。

また、音声認識部３０２と、翻訳部３０３と、データ送信部３０５と、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１とは、それぞれが専用のハードウェアで実現されていてもよい。

例えば、図４に例示するように、音声検知装置４０と発言内容出力装置４１とが別のハードウェアで実現されている場合、コンピュータ２５ａ及びコンピュータ２５ｂは、それぞれ、図１５に例示する構成であってもよい。図１５は、本実施形態におけるコンピュータ２５ａ及びコンピュータ２５ｂの例を示すブロック図である。

すなわち、コンピュータ２５ａが、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２とを備え、コンピュータ２５ｂが、音声認識部３０２と、翻訳部３０３と、自装置ＩＤ記憶部３０４と、データ送信部３０５とを備える構成であってもよい。コンピュータ２５ａ及びコンピュータ２５ｂが備えている各構成要素の内容は、コンピュータ２５が備えている各構成要素の内容と同様である。

次に、動作について説明する。以下の説明では、発言者Ｂの発言内容を、発言者Ａが装着するヘッドマウントディスプレイに出力する場合について説明する。また、以下、発言者Ａが装着する音声認識情報表示装置１０を「発言者Ａ装置」と記し、発言者Ｂが装着する音声認識情報表示装置１０を「発言者Ｂ装置」と記す。また、以下の説明では、発言者Ｂが装着する音声認識情報表示装置１０が、発言者の発言内容を翻訳し、発言者Ａが装着する音声認識情報表示装置１０に、発言者の音声を表すテキスト情報と翻訳データとを送信する場合について説明する。

図１６は、本実施形態における動作の例を示すフローチャートである。まず、発言者Ｂ装置のマイク２４に発言者Ｂの音声が入力されると、発言者Ｂ装置の音声認識部３０２は、マイク２４に入力された音声を認識し、認識した音声をテキスト情報に変換する（ステップＳ１１）。そして、発言者Ｂ装置の翻訳部３０３は、テキスト情報を他国語に翻訳する（ステップＳ１２）。なお、テキスト情報を他国語に翻訳しない場合、本処理は不要である。

ここで説明した発言者Ｂの音声を表すテキスト情報や、翻訳された情報（すなわち、翻訳情報）が、発言内容情報に相当する。なお、発言内容情報は、テキスト情報や翻訳情報以外の情報であってもよい。発言内容情報は、例えば、マイク２４に入力された音声であってもよい。

発言者Ｂ装置のデータ送信部３０５は、テキスト情報及び翻訳部３０３が翻訳した翻訳データ（すなわち、発言内容情報）に、コンピュータ２５の製造番号などの自装置ＩＤを付与して、通信データフォーマットに基づく通信パケットを作成する（ステップＳ１３）。データ送信部３０５は、例えば、図７に例示する通信データフォーマットに基づいて通信パケットを作成する。そして、発言者Ｂ装置のデータ送信部３０５は、作成した通信パケットを発言者Ａ装置に送信する（ステップＳ１４）。

発言者Ａ装置は、発言者Ｂ装置から通信パケットを受信すると、データ取り出し部３１０が、通信パケットの中からテキスト情報及び翻訳データ（すなわち、発言内容情報）を取り出し（ステップＳ２１）、ＩＤ取り出し部３１１が、通信パケットの中から自装置ＩＤ（すなわち、発言者識別情報）を取り出す（ステップＳ２２）。ここで、取り出された自装置ＩＤは、通信パケットを送信してきたコンピュータ（すなわち、発言者Ｂ装置）を識別するＩＤと言える。

一方、発言者Ａ装置のカメラ２２は、撮影範囲に存在する識別マーカ２３を検知し（ステップＳ２３）、マーカ認識部３０６は、検知した識別マーカ２３から発言者識別情報を抽出する（ステップＳ２４）。

発言者Ａ装置の表示位置算出部３０７は、マーカ認識部３０６が抽出した識別マーカ２３に表示された発言者識別情報と、ＩＤ取り出し部３１１が取り出した自装置ＩＤとが一致するか否かを判定する（ステップＳ２５）。

ここで、カメラ２２が発言者Ｂ装置の識別マーカ２３を検知したとする。発言者Ｂ装置の識別マーカ２３には、例えば、自装置製造番号が埋め込まれたバーコードなどが表示されている。上述の通り、発言者Ｂ装置の識別マーカ２３に表示される発言者識別情報は、発言者Ｂ装置の自装置ＩＤ記憶部３０４に記憶された自装置ＩＤをもとに生成された情報である。なお、自装置ＩＤは、コンピュータの製造番号など一意に識別できる番号である。

この場合、マーカ認識部３０６が抽出した識別マーカ２３に表示された発言者識別情報と、ＩＤ取り出し部３１１が取り出した発言者Ｂ装置の自装置ＩＤとは一致する。このように、両者が一致すると判定された場合（ステップＳ２５におけるＹｅｓ）、発言者Ａ装置の表示位置算出部３０７は、発言内容情報を表示させる表示位置を算出する（ステップＳ２６）。そして、発言者Ａ装置の表示画像合成部３０９は、算出された表示位置に発言内容情報を示す画像を作成し（ステップＳ２７）、発言者Ａ装置の出力部３０８は、作成された画像を発言者Ａ装置のヘッドマウントディスプレイ２１に表示させる（ステップＳ２８）。

すなわち、発言者Ａ装置の表示位置算出部３０７、表示画像合成部３０９及び出力部３０８は、受信したＩＤ（発言者識別情報）とカメラ２２が検知したＩＤ（発言者識別情報）が一致したときに、受信したテキスト情報及び翻訳データを、ヘッドマウントディスプレイ２１上に表示する。このとき、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８は、識別マーカ２３の位置をもとにヘッドマウントディスプレイ２１上の位置を算出し、さらにその位置から特定の相対位置だけずらした位置に受信した翻訳データとＩＤ情報とを併せて表示してもよい。

図１７は、ヘッドマウントディスプレイに発言内容情報を表示する例を示す説明図である。図１７に示す例では、発言者として「ヒトＡ」、「ヒトＢ」及び「ヒトＣ」がカメラ２２の撮影範囲に存在するものとする。例えば、発言者「ヒトＣ」の識別マーカ２３を認識した位置の座標が、左上隅を基点としたときに（Ｘ，Ｙ）であったとする。そして、発言内容情報を表示する識別マーカ２３からの相対位置が、（Ｘ方向に−２０，Ｙ方向に＋１０）と定められているとする。このとき、表示位置算出部３０７は、発言内容情報を表示する表示位置（すなわち、発言内容情報表示エリアの左上隅）の座標を（Ｘ−２０，Ｙ＋１０）と算出し、出力部３０８は、その位置にテキスト情報「私は元気です」や翻訳データ「Ｉ’ｍｆｉｎｅＴｈａｎｋｙｏｕ．」を、ＩＤ情報「（ヒトＣ）」と併せて表示すればよい。「ヒトＡ」及び「ヒトＢ」についても同様である。

なお、上記説明では、発言内容情報として、テキスト情報及び翻訳情報を両方表示する場合について説明した。ただし、出力する発言内容情報は、テキスト情報だけであってもよく、翻訳情報だけであってもよい。出力する発言内容情報がテキスト情報だけの場合、発言者Ｂ装置は、テキスト情報に自装置ＩＤを付与した情報を発言者Ａ装置に送信すればよい。また、出力する発言内容情報が翻訳情報だけの場合、発言者Ｂ装置は、翻訳情報に自装置ＩＤを付与した情報を発言者Ａ装置に送信すればよい。

一方、ステップＳ２５において、両者が一致しないと判定された場合（図１６におけるステップＳ２５におけるＮｏ）、発言者Ａ装置の表示位置算出部３０７は、発言内容情報を表示させる表示位置を予め定めた特定位置を表示位置と決定する（ステップＳ２９）。表示位置算出部３０７は、例えば、ヘッドマウントディスプレイの左上隅を発言内容情報の表示位置と決定してもよい。以降の処理は、ステップＳ２７以降の処理と同様である。

なお、以上のことから、発言者Ｂ装置は、音声検知装置に対応し、発言者Ａ装置は、発言内容出力装置に対応するということが出来る。

以上のように、本実施形態によれば、発言者Ｂ装置において、マイク２４が発言者の音声を検知し、データ送信部３０５が、検知された発言内容情報に発言者識別情報を付与したあと、発言者識別情報が付与された発言内容情報を発言者Ａ装置に送信する。一方、発言者Ａ装置において、カメラ２２及びマーカ認識部３０６が、発言者Ｂの位置を検知し、さらに識別マーカ２３から発言者Ｂの発言者識別情報を検知する。発言者Ａ装置の表示位置算出部３０７は、検知した発言者識別情報と、発言者Ｂ装置から受信した発言者識別情報とが一致するか否かを判定する。発言者識別情報が一致する場合、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８は、検知した発言者の位置と発言内容情報とを関連付けてヘッドマウントディスプレイ２１に表示する。そのため、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。

また、発言者Ｂ装置のマイク２４が、発言者の音声を検知し、データ送信部３０５が、その音声の内容を表す発言内容情報に発言者識別情報を付与して、発言者Ａ装置に送信する。そのため、発言者Ａ装置では、受信した発言者識別情報と、カメラ２２及びマーカ認識部３０６が検知した識別マーカ２３の発言者識別情報が一致する場合に、その発言者識別情報によって識別される利用者の位置と発言内容情報とを対応付けて画面に表示することができる。よって、発言者Ａ装置に複数の相手の発言内容を表示する場合、発言者Ａは、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。

例えば、発言内容を翻訳して表示する一般的な装置では、３名以上の話者が存在する場合、ヘッドマウントディスプレイに表示された翻訳情報を見ながら会話しようとすると、混乱をきたす恐れがあった。しかし、本実施形態によれば、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８が、発言者の位置に対応するヘッドマウントディスプレイ２１上に音声の情報（すなわち、テキスト情報）を出力する。このように、翻訳された結果を誰が発声したものかを明示する仕組みが存在するため、誰が発声した情報かをディスプレイ上に表示することが可能になる。そのため、会話内容の理解も促進され、通訳された情報を見ながら会話することが自然になる。

また、一般的な翻訳装置では、発言内容を翻訳する場合、発生したタイミングから、音声を翻訳して表示するまでのタイムラグが生じる。そのため、翻訳結果を表示する場合に発言内容が前後することにより、会話が混乱する可能性がある。しかし、本実施形態では、音声の情報（すなわち、テキスト情報）が発言者と関連付けて表示されるため、翻訳処理等で発生するタイムラグによる会話の混乱を抑制できる。

なお、本実施形態における発言内容出力システムを、翻訳情報の出力システムに適用してもよい。この場合、ヘッドマウントディスプレイ２１、カメラ２２、マイク２４（ヘッドセット）と、通信手段を有する小型のコンピュータ２５とを組み合わせたウェアラブルコンピュータシステムとして構成できる。具体的には、図３に例示するように、識別マーカ２３を正面、右側面、左側面に具備したメガネフレーム２０に、ヘッドマウントディスプレイ２１とカメラ２２が設けられ、さらに、それらが小型コンピュータ２５に接続される。また、小型コンピュータ２５は、マイク２４およびイヤホン２６に接続されていて、通信モジュールにより、他の小型コンピュータ２５と通信する。

このとき、３名以上の複数の人間が本システムで用いられる装置を装着する。そして、音声認識部３０２が、マイク２４から入力された音声をテキスト情報として認識し、翻訳部３０３が、認識されたテキスト情報を、指定された任意の言語（他国語）に翻訳する。この翻訳されたテキスト情報が、他者が装着した装置のヘッドマウントディスプレイに表示されることになる。データ送信部３０５は、他国語に翻訳された情報を、小型コンピュータ２５の製造番号などから生成された自装置ＩＤを付与し、通信データフォーマットに基づいて通信パケットを生成する。そして、データ送信部３０５は、生成した通信パケットを他装置へ一斉配信する。

他装置からデータを受信した小型コンピュータ２５では、ＩＤ取り出し部３１１及びデータ取り出し部３１０が、通信データフォーマットに従ってＩＤ部と翻訳データ部を取り出す。一方、カメラ２２は、他者の識別マーカ２３を撮影し、マーカ認識部３０６は、識別マーカ２３を認識してＩＤ（すなわち、発言者識別情報）を抽出する。

受信したＩＤと認識したＩＤが一致した場合、表示画像合成部３０９及び出力部３０８は、マーカの位置に対する特定の相対位置に、受信ＩＤ情報（すなわち、発言者識別情報）と共に受信した翻訳データをヘッドマウントディスプレイ２１上に表示する。すなわち、表示画像合成部３０９及び出力部３０８は、ヘッドマウントディスプレイ２１上に翻訳されたテキストを表示する際、誰が発声した情報なのかを識別する情報を付与した形で表示する。例えば、ヘッドマウントディスプレイ２１上でのマーカ位置座標（左上隅を基点）が（Ｘ，Ｙ）であるならば、翻訳データを表示する位置座標を（Ｘ−２０，Ｙ＋１０）としてもよい。

一方、発声者がカメラフレームから外れているなど、識別マーカ２３から取り出されるどのＩＤも受信したＩＤと一致しない場合、表示画像合成部３０９及び出力部３０８は、ヘッドマウントディスプレイ２１の左上隅など特定位置に翻訳データを出力する。

以上の仕組みにより、ヘッドマウントディスプレイ２１上の対応する位置に文字情報（翻訳情報）がビジュアルに表示されるため、誰が発声した文字情報かを明確に識別可能になる。

次に、第１の実施形態の変形例について説明する。図１８は、第１の実施形態の変形例におけるコンピュータ２５ａ’及びコンピュータ２５ｂ’の例を示すブロック図である。本変形例におけるコンピュータ２５ａ’は、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２と、音声認識部３０２ａと、翻訳部３０３ａとを備えている。また、コンピュータ２５ｂ’は、自装置ＩＤ記憶部３０４と、データ送信部３０５とを備えている。

すなわち、コンピュータ２５ｂ’が音声認識部３０２及び翻訳部３０３を備えず、コンピュータ２５ａ’が音声認識部３０２ａ及び翻訳部３０３ａを備える点において、第１の実施形態におけるコンピュータ２５ａ及びコンピュータ２５ｂと異なる。それ以外の構成は、第１の実施形態と同様である。言い換えると、本変形における構成は、コンピュータ２５ｂが備えていた音声認識部３０２及び翻訳部３０３を、コンピュータ２５ａに（音声認識部３０２ａ及び翻訳部３０３ａとして）移動させた構成であると言える。

データ送信部３０５は、マイク２４が検出した音声に発言者識別情報を付与する。そして、データ送信部３０５は、発言者識別情報が付与された音声を含む通信パケットを、他の装置に送信する。

音声認識部３０２ａは、データ取り出し部３１０が通信パケットの中から取り出した音声（すなわち、発言内容識別情報）をテキスト情報に変換する。そして、翻訳部３０３ａは、音声認識部３０２ａが変換したテキスト情報を翻訳する。この場合、表示画像合成部３０９は、自装置ＩＤとデータ取り出し部３１０が翻訳した翻訳データとを合成した画像を生成する。

なお、コンピュータ２５ｂにおける音声認識部３０２及び翻訳部３０３の両方をコンピュータ２５ａに移動させた構成ではなく、コンピュータ２５ｂにおける翻訳部３０３のみをコンピュータ２５ａに移動させた構成であってもよい。この場合、コンピュータ２５ｂの音声認識部３０２が音声をテキスト情報に変換し、コンピュータ２５ａの翻訳部３０３ａが受け取ったテキスト情報を翻訳してもよい。

次に、動作について説明する。以下の説明では、第１の実施形態と同様に、発言者Ｂの発言内容を、発言者Ａが装着するヘッドマウントディスプレイに出力する場合について説明する。また、以下、発言者Ａが装着する音声認識情報表示装置１０を「発言者Ａ装置」と記し、発言者Ｂが装着する音声認識情報表示装置１０を「発言者Ｂ装置」と記す。また、以下の説明では、発言者Ｂ装置が、発言者の発言内容を発言者Ａ装置に送信し、発言者Ａ装置１０が発言内容を翻訳する場合について説明する。

図１９は、第１の実施形態の変形例における動作の例を示すフローチャートである。なお、第１の実施形態と同様の動作については、図１６と同一の符号を付し、詳細な説明を省略する。

まず、発言者Ｂ装置のマイク２４に発言者Ｂの音声が入力されると、その音声（すなわち、発言内容情報）に、コンピュータ２５の製造番号などの自装置ＩＤを付与して、通信データフォーマットに基づく通信パケットを作成する（ステップＳ１３）。そして、発言者Ｂ装置のデータ送信部３０５は、作成した通信パケットを発言者Ａ装置に送信する（ステップＳ１４）。

発言者Ａ装置は、発言者Ｂ装置から通信パケットを受信すると、データ取り出し部３１０が、通信パケットの中から音声（すなわち、発言内容情報）を取り出し（ステップＳ２１）、ＩＤ取り出し部３１１が、通信パケットの中から自装置ＩＤ（すなわち、発言者識別情報）を取り出す（ステップＳ２２）。発言者Ａ装置の音声認識部３０２ａは、取り出された音声をテキスト情報に変換する（ステップＳ１１ａ）。そして、発言者Ｂ装置の翻訳部３０３ａは、変換されたテキスト情報を翻訳する（ステップＳ１２ａ）。

以降、発言者Ａ装置のカメラ２２が、識別マーカ２３を検知してから、出力部３０８が自装置ＩＤと発言内容情報とを対応付けた画像を発言者Ａ装置のヘッドマウントディスプレイ２１に表示させるまでの処理は、図１６におけるステップＳ２３〜ステップＳ２９までの処理と同様である。

以上のような構成であっても、複数の相手の発言内容を表示する場合に、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。

実施形態２．
次に、本発明の第２の実施形態における発言内容出力システムについて説明する。本実施形態における発言内容出力システムも、図１に例示する発言内容出力システムと同様に、各発言者が音声認識情報表示装置を装着し、マイクを介して検知された発言者の音声の内容を表す発言内容情報が無線通信を介して他の発言者に送信される。また、音声認識情報表示装置は、音声検知装置と発言内容出力装置とをまとめた装置である。音声検知装置と発言内容出力装置とは、それぞれが別のハードウェアで実現されていてもよい。

図２０は、本実施形態における発言内容出力システムで用いられる音声認識情報表示装置の例を示す説明図である。なお、第１の実施形態と同様の構成については、図２と同一の符号を付し、説明を省略する。本実施形態における音声認識情報表示装置１０は、ヘッドマウントディスプレイ２１と、カメラ２２と、マイク２４と、コンピュータ３５と、イヤホン２６とを備えている。すなわち、本実施形態における発言内容出力システムは、識別マーカ２３を備えていない点において、第１の実施形態と異なる。また、コンピュータ３５の構成が、第１の実施形態におけるコンピュータ２５の構成と異なる。それ以外の構成については、第１の実施形態と同様である。なお、コンピュータ３５の構成については後述する。

また、第１の実施形態と同様、ヘッドマウントディスプレイ２１、カメラ２２、マイク２４、コンピュータ３５及びイヤホン２６は、１つの装置に全て含まれていなくてもよい。図２１は、音声検知装置と発言内容出力装置とがそれぞれ別のハードウェアで構成されている場合の例を示す説明図である。図２１に例示するように、音声検知装置４２が、マイク２４と、コンピュータ２５ｂと、イヤホン２６とを備え、発言内容出力装置４３が、ヘッドマウントディスプレイ２１と、カメラ２２と、コンピュータ３５ａとを備える構成であってもよい。なお、第１の実施形態と同様の構成については、図４と同一の符号を付し、説明を省略する。

図２２は、本実施形態におけるコンピュータ３５の例を示すブロック図である。本実施形態におけるコンピュータ３５は、音声認識部３０２と、翻訳部３０３と、自装置ＩＤ記憶部３０４と、データ送信部３０５と、顔認識部３２１と、表示位置算出部３２２と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２と、対応ＩＤ記憶部３２３とを備えている。

対応ＩＤ記憶部３２３は、発言者の顔を表す情報（以下、顔情報と記す。）とその発言者を識別する発言者識別情報とを対応付けて記憶する。対応ＩＤ記憶部３２３は、顔情報として、例えば、顔画像そのものを記憶しておいてもよい。また、対応ＩＤ記憶部３２３は、顔画像だけでなく、例えば、目や鼻、口などの顔を構成する部品の形状や位置など、顔の特徴を表す特徴点を記憶しておいてもよい。発言者識別情報は、自装置ＩＤ記憶部３０４に記憶された自装置ＩＤをもとに生成される情報である。対応ＩＤ記憶部３２３は、例えば、磁気ディスク等により実現される。

顔認識部３２１は、発言者の顔を認識する。顔認識部３２１は、カメラ２２が撮影した発言者の顔画像そのものを発言者の顔として認識してもよい。また、顔認識部３２１は、カメラ２２が撮影した映像から、発言者の顔の特徴を表す特徴点を認識してもよい。

また、顔認識部３２１は、発言者の顔をその発言者の位置として検知する。図２３は、発言者の位置を検知する方法の例を示す説明図である。顔認識部３２１が、例えば、図２３に示す一点鎖線で囲まれた範囲６０に発言者の顔を認識したとする。このとき、顔認識部３２１は、例えば、範囲６０の左上隅を発言者の位置として検知してもよい。ただし、発言者の位置を検知する方法は、上述の方法に限定されない。

表示位置算出部３２２は、顔認識部３２１が認識した顔に基づいて、対応する発言者識別情報を対応ＩＤ記憶部３２３から読み取る。そして、表示位置算出部３２２は、読み取った発言者識別情報と、ＩＤ取り出し部３１１が発言内容情報から取り出した発言者識別情報とが一致するか否かを判定する。そして、表示位置算出部３２２は、カメラ２２が撮影した範囲のどの位置に翻訳データもしくはテキスト情報を表示させるべきか（すなわち、表示位置）を、発言者の位置から算出する。

以降の処理は、第１の実施形態における表示位置算出部３０７の処理と同様である。また、それ以外の構成については、第１の実施形態と同様である。

音声認識部３０２と、翻訳部３０３と、データ送信部３０５と、顔認識部３２１と、表示位置算出部３２２と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１とは、プログラム（発言内容出力プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、音声認識部３０２と、翻訳部３０３と、データ送信部３０５と、マーカ認識部３０６と、表示位置算出部３０７と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１とは、それぞれが専用のハードウェアで実現されていてもよい。

例えば、図２１に例示するように、音声検知装置４２と発言内容出力装置４３とが別のハードウェアで実現されている場合、コンピュータ３５ａ及びコンピュータ２５ｂは、それぞれ、図２４に例示する構成であってもよい。図２４は、本実施形態におけるコンピュータ３５ａ及びコンピュータ２５ｂの例を示すブロック図である。

すなわち、コンピュータ３５ａが、顔認識部３２１と、表示位置算出部３２２と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２とを備え、コンピュータ２５ｂが、音声認識部３０２と、翻訳部３０３と、自装置ＩＤ記憶部３０４と、データ送信部３０５とを備える構成であってもよい。コンピュータ３５ａ及びコンピュータ２５ｂが備えている各構成要素の内容は、コンピュータ３５が備えている各構成要素の内容と同様である。

次に、動作について説明する。図２５は、本実施形態における動作の例を示すフローチャートである。発言者Ｂ装置が通信パケットを送信し、発言者Ａ装置が通信パケットの中から翻訳データ及び自装置ＩＤを取り出すまでの処理は、図１６に例示するステップＳ１１〜Ｓ２２までの処理と同様である。

発言者Ａ装置のカメラ２２が撮影範囲に存在する発言者を検知すると、顔認識部３２１は、発言者の顔を認識する（ステップＳ３１）。そして、表示位置算出部３２２は、顔認識部３２１が認識した顔に基づいて、対応する発言者識別情報を対応ＩＤ記憶部３２３から読み取る（ステップＳ３２）。以降、発言者Ａ装置の表示位置算出部３２２が、読み取った発言者識別情報と、ＩＤ取り出し部３１１が発言内容情報から取り出した自装置ＩＤとが一致するか否かを判定して、ヘッドマウントディスプレイ２１に発言内容情報を示す画像を表示するまでの処理は、図１６に例示するステップＳ２５〜Ｓ２９までの処理と同様である。

以上のように、本実施形態によれば、顔認識部３２１が発言者の顔情報を認識し、その顔情報に対応する発言者識別情報を表示位置算出部３２２が対応ＩＤ記憶部３２３から抽出する。このように、発言者の顔情報から発言者識別情報及び位置が検知できることにより、第１の実施形態の効果に加え、識別マーカ２３を別途設けるための負担を軽減できる。

次に、第２の実施形態の変形例について説明する。図２６は、第２の実施形態の変形例におけるコンピュータ３５ａ’及びコンピュータ２５ｂ’の例を示すブロック図である。本変形例におけるコンピュータ３５ａ’は、顔認識部３２１と、表示位置算出部３２２と、対応ＩＤ記憶部３２３と、出力部３０８と、表示画像合成部３０９と、データ取り出し部３１０と、ＩＤ取り出し部３１１と、データ受信部３１２と、音声認識部３０２ａと、翻訳部３０３ａとを備えている。また、コンピュータ２５ｂ’は、自装置ＩＤ記憶部３０４と、データ送信部３０５とを備えている。

すなわち、コンピュータ２５ｂ’が音声認識部３０２及び翻訳部３０３を備えず、コンピュータ３５ａ’が音声認識部３０２ａ及び翻訳部３０３ａを備える点において、第２の実施形態におけるコンピュータ２５ａ及びコンピュータ２５ｂと異なる。それ以外の構成は、第２の実施形態と同様である。言い換えると、本変形における構成は、コンピュータ２５ｂが備えていた音声認識部３０２及び翻訳部３０３を、コンピュータ３５ａに（音声認識部３０２ａ及び翻訳部３０３ａとして）移動させた構成であると言える。

データ送信部３０５、音声認識部３０２ａ及び翻訳部３０３ａの機能については、第１の実施形態の変形例と同様である。

なお、コンピュータ２５ｂにおける音声認識部３０２及び翻訳部３０３の両方をコンピュータ３５ａに移動させた構成ではなく、コンピュータ２５ｂにおける翻訳部３０３のみをコンピュータ３５ａに移動させた構成であってもよい。この場合、コンピュータ２５ｂの音声認識部３０２が、音声をテキスト情報に変換し、コンピュータ３５ａの翻訳部３０３ａが、受け取ったテキスト情報を翻訳してもよい。

また、動作については、第１の実施形態の変形例と同様である。すなわち、発言者Ｂ装置から音声を含む通信パケットを受信すると、データ取り出し部３１０が通信パケットの中から音声を取り出し、音声認識部３０２ａが、取り出された音声をテキスト情報に変換する。そして、発言者Ｂ装置の翻訳部３０３ａは、変換されたテキスト情報を翻訳する。以降の処理は、図１６におけるステップＳ２３〜ステップＳ２９までの処理と同様である。

次に、第１の実施形態及び第２の実施形態における変形例について説明する。図２７は、第１の実施形態及び第２の実施形態における発言内容出力システムの変形例を示す説明図である。本変形例における発言内容出力システムは、複数の音声認識情報表示装置１０と、サーバ装置７０とを備えている。サーバ装置７０は、音声認識情報表示装置１０からの通信パケットを受信し、他の音声認識情報表示装置１０に必要なデータを送信する装置である。サーバ装置７０は、例えば、ＡＰ（アクセスポイント）６０に設置される。

第１の実施形態及び第２の実施形態における発言内容出力システムは、音声認識情報表示装置１０が発言内容情報及び自装置ＩＤを他の音声認識情報表示装置１０に送信していた。一方、本変形例における発言内容出力システムは、音声認識情報表示装置１０が通信パケットをサーバ装置７０に送信し、サーバ装置７０が他の音声認識情報表示装置１０に通信パケットを送信する点において第１の実施形態及び第２の実施形態と異なる。

図２８は、本変形例における発言内容出力システムの構成例を示すブロック図である。なお、第２の実施形態と同様の構成については、図２１と同一の符号を付し、説明を省略する。本変形例における発言内容出力システムは、複数の音声認識情報表示装置（より具体的には、音声検知装置４４と発言内容出力装置４５）と、サーバ装置７０とを備えている。音声検知装置４４が、マイク２４と、コンピュータ２５ｂ’と、イヤホン２６とを備え、発言内容出力装置４５が、ヘッドマウントディスプレイ２１と、カメラ２２と、コンピュータ３５ａとを備えている。なお、音声検知装置４４は、第１の実施形態における図４に例示する識別マーカ２３を備えていてもよい。

サーバ装置７０は、コンピュータ７５ｃを備えている。コンピュータ７５ｃは、音声認識情報表示装置（具体的には、音声検知装置４４）から受信した音声を翻訳し、翻訳した情報を他の音声認識情報表示装置（具体的には、発言内容出力装置４５）に送信する。

図２９は、本変形例におけるコンピュータ３５ａ、コンピュータ２５ｂ’及びコンピュータ７５ｃの例を示すブロック図である。なお、第１の実施形態における変形例及び第２の実施形態と同様の構成については、図１８及び図２６と同一の符号を付し、説明を省略する。すなわち、コンピュータ２５ｂ’の構成は、図１８におけるコンピュータ２５ｂ’の構成と同様であり、コンピュータ３５ａの構成は、図２６におけるコンピュータ３５ａの構成と同様である。

本変形例におけるコンピュータ７５ｃは、音声認識部７０２ｃと、翻訳部７０３ｃと、データ送信部７０５ｃとを備えている。音声認識部７０２ｃは、音声検知装置４４から受信した通信パケットの中から取り出した音声（すなわち、発言内容識別情報）をテキスト情報に変換する。翻訳部７０３ｃは、音声認識部７０２ｃが変換したテキスト情報を翻訳する。データ送信部７０５ｃは、翻訳情報及び発言者識別情報を発言内容出力装置４５に送信する。

なお、サーバ装置７０は、受信した通信パケットの内容を他の音声認識情報表示装置１０にそのまま送信する装置であってもよい。また、サーバ装置７０は、通信パケットに含まれる発言内容情報に加工を施す装置であってもよい。例えば、サーバ装置７０の制御部（図示せず）が、通信パケットに含まれるテキスト情報を翻訳して翻訳データを生成してもよい。

また、サーバ装置７０は、音声をもとにテキストに変換する処理を行う装置であってもよい。このとき、例えば、発言者Ａの音声認識情報表示装置１０が、音声を検知して、発言者識別情報を付与したその音声をそのままサーバ装置７０に送信し、発言者Ｂの音声認識情報表示装置１０が、送信された音声をもとにサーバ装置７０が変換したテキスト情報を受信し、その後の処理（判定処理等）を行ってもよい。

このように、サーバ装置７０を経由させて他の音声認識情報表示装置１０に通信パケットを送信することで、コンピュータ２５（もしくは、コンピュータ３５）が行う処理負荷を軽減できる。

次に、本発明による発言内容出力システムの最小構成の例を説明する。図３０は、本発明による発言内容出力システムの最小構成例を示すブロック図である。本発明による発言内容出力システムは、利用者（例えば、発言者）が発言した音声を検知する音声検知装置８０（例えば、音声検知装置４０）と、利用者の発言内容を出力する発言内容出力装置９０（例えば、発言内容出力装置４１）とを備えている。

音声検知装置８０は、利用者が発言した音声を検知する音声検知手段８１（例えば、マイク２４及び音声認識部３０２）と、利用者が発言した音声（例えば、マイク２４が検知した音声）もしくはその音声の内容を表す情報（例えば、テキスト情報、翻訳情報）を含む発言内容情報に、その利用者を識別する情報である利用者識別情報（例えば、発言者識別情報、自装置ＩＤ）を付与する利用者識別情報付与手段８２（例えば、データ送信部３０５）とを備えている。

発言内容出力装置９０は、利用者の発言内容情報を表示する画面（例えば、ヘッドマウントディスプレイ２１）を有する表示手段９１（例えば、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８）と、音声検知装置８０を利用する利用者の利用者識別情報（例えば、識別マーカ２３に表示された発言者識別情報）を検知する利用者識別情報検知手段９２（例えば、カメラ２２及びマーカ認識部３０６）と、利用者識別情報検知手段９２が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段９３（例えば、表示位置算出部３０７）とを備えている。

表示手段９１は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する（例えば、利用者の位置に発言内容情報を表示する）。

また、図３１は、本発明による発言内容出力装置の最小構成例を示すブロック図である。本発明による発言内容出力装置９０（例えば、発言内容出力装置４１）は、音声を検知する音声検知装置８０（例えば、音声検知装置４０）の利用者（例えば、発言者）が発言した音声の内容を表す発言内容情報（例えば、音声、テキスト情報、翻訳情報）を表示する画面（例えば、ヘッドマウントディスプレイ２１）を有する表示手段９１（例えば、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８）と、音声検知装置８０を利用する利用者を識別する情報である利用者識別情報（例えば、識別マーカ２３に表示された発言者識別情報）を検知する利用者識別情報検知手段９２（例えば、カメラ２２及びマーカ認識部３０６）と、利用者識別情報検知手段９２が検知した利用者識別情報と、発言内容情報に音声検知装置８０が付与した利用者の利用者識別情報（例えば、自装置ＩＤ）とが一致するか否かを判定する利用者識別情報判定手段９３（例えば、表示位置算出部３０７）とを備えている。

そして、表示手段９１は、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する（例えば、利用者の位置に発言内容情報を表示する）。

さらに、図３２は、本発明による音声検知装置の最小構成例を示すブロック図である。本発明による音声検知装置８０は、利用者（例えば、発言者）が発言した音声を検知する音声検知手段８１（例えば、マイク２４及び音声認識部３０２）と、利用者が発言した音声（例えば、マイク２４が検知した音声）もしくはその音声の内容を表す情報（例えば、テキスト情報、翻訳情報）を含む発言内容情報に、その利用者を識別する情報である利用者識別情報（例えば、発言者識別情報、自装置ＩＤ）を付与する利用者識別情報付与手段８２（例えば、データ送信部３０５）と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者と対応付けて画面に表示する装置９９（例えば、発言内容出力装置４１）に対して送信する発言内容情報送信手段８３（例えば、データ送信部３０５）とを備えている。

このように、発言内容出力システム、発言内容出力装置及び音声検知装置は、以上のような構成を備えていることから、複数の相手の発言内容を表示する場合、表示された発言の発言者を区別できるとともに、その発言者の状況も併せて認識できる。

なお、少なくとも以下に示すような発言内容出力システム、発言内容出力装置、及び、音声検知装置も、上記に示すいずれかの実施形態に開示されている。

（１）利用者（例えば、発言者）が発言した音声を検知する音声検知装置（例えば、音声検知装置４０）と、利用者の発言内容を出力する発言内容出力装置（例えば、発言内容出力装置４１）とを備え、音声検知装置が、利用者が発言した音声を検知する音声検知手段（例えば、マイク２４及び音声認識部３０２）と、利用者が発言した音声（例えば、マイク２４が検知した音声）もしくはその音声の内容を表す情報（例えば、テキスト情報、翻訳情報）を含む発言内容情報に、その利用者を識別する情報である利用者識別情報（例えば、発言者識別情報、自装置ＩＤ）を付与する利用者識別情報付与手段（例えば、データ送信部３０５）とを備え、発言内容出力装置が、利用者の発言内容情報を表示する画面（例えば、ヘッドマウントディスプレイ２１）を有する表示手段（例えば、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８）と、音声検知装置を利用する利用者の利用者識別情報（例えば、識別マーカ２３に表示された発言者識別情報）を検知する利用者識別情報検知手段（例えば、カメラ２２及びマーカ認識部３０６）と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段（例えば、表示位置算出部３０７）とを備え、表示手段が、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する（例えば、利用者の位置に発言内容情報を表示する）発言内容出力システム。

（２）発言内容出力装置の表示手段は、発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。

（３）音声検知装置が、発言内容情報を翻訳した翻訳情報を生成する翻訳手段（例えば、翻訳部３０３）を備え、発言内容出力装置の表示手段が、発言内容情報として少なくとも翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。

（４）発言内容出力装置が、発言内容情報を翻訳した翻訳情報を生成する翻訳手段（例えば、翻訳部３０３ａ）を備え、発言内容出力装置の表示手段が、発言内容情報として少なくとも翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。

（５）利用者識別情報検知手段が、音声検知装置を利用する利用者の位置及びその利用者の利用者識別情報を検知し、表示手段が、利用者識別情報検知手段が検知した利用者の位置に対応する画面上の位置（例えば、式１により算出される位置）に発言内容情報を表示発言内容出力システム。

（６）表示手段が、利用者識別情報が一致しないと判定された場合、予め定められた表示方法に基づいて発言内容情報を処理する（例えば、画面上の予め定められた位置に発言内容情報を表示する、発言内容情報を表示しない、発言内容情報を薄字で表示する）発言内容出力システム。

（７）音声検知装置が、利用者識別情報を表示するマーカ（例えば、識別マーカ２３）を備え、発言内容出力装置の利用者識別情報検知手段が、音声検知装置を利用する利用者が装着するマーカに表示された利用者識別情報を検知する発言内容出力システム。

（８）発言内容出力装置（例えば、発言内容出力装置４３）が、利用者の顔を表す情報である顔情報とその利用者を識別する利用者識別情報とを対応付けて記憶する顔情報記憶手段（例えば、対応ＩＤ記憶部３２３）を備え、発言内容出力装置の利用者識別情報検知手段（例えば、顔認識部３２１、表示位置算出部３２２）が、音声検知装置（例えば、音声検知装置４２）を利用する利用者の顔情報を認識し、顔情報に対応する利用者識別情報を顔情報記憶手段から抽出する発言内容出力システム。

（９）表示手段が、発言内容情報を表示する外界光透過型のヘッドマウントディスプレイ（例えば、ヘッドマウンドディスプレイ２１）であり、ヘッドマウントディスプレイが、利用者識別情報により識別される利用者と発言内容情報とを関連付けて表示する発言内容出力システム。

（１０）表示手段が、発言内容情報を表示する外界光非透過型のヘッドマウントディスプレイであり、ヘッドマウントディスプレイが、利用者を撮影した画像と発言内容情報とを関連付けて表示する発言内容出力システム。

（１１）音声検知装置が、利用者識別情報が付与された発言内容情報を、発言内容出力装置（例えば、発言内容出力装置４１）に送信する発言内容情報送信手段（例えば、データ送信部３０５）を備え、発言内容出力装置の表示手段が、音声検知装置から受信した発言内容情報を画面に表示する発言内容出力システム。

（１２）音声検知装置が、発言内容情報を受信して他の装置へ転送する転送手段（例えば、サーバ装置７０）に対して、利用者識別情報が付与された発言内容情報を送信する発言内容情報転送手段（例えば、データ送信部３０５）を備え、発言内容出力装置の表示手段が、転送手段から受信した発言内容情報を画面に表示する発言内容出力システム。

（１３）発言内容出力装置の表示手段が、転送手段（例えば、翻訳部７０３ｃ）が発言内容情報を翻訳した翻訳情報を受信し、発言内容情報として少なくともその翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力システム。

（１４）音声を検知する音声検知装置（例えば、音声検知装置４０）の利用者（例えば、発言者）が発言した音声の内容を表す発言内容情報（例えば、音声、テキスト情報、翻訳情報）を表示する画面（例えば、ヘッドマウントディスプレイ２１）を有する表示手段（例えば、表示位置算出部３０７、表示画像合成部３０９及び出力部３０８）と、音声検知装置を利用する利用者を識別する情報である利用者識別情報（例えば、識別マーカ２３に表示された発言者識別情報）を検知する利用者識別情報検知手段（例えば、カメラ２２及びマーカ認識部３０６）と、利用者識別情報検知手段が検知した利用者識別情報と、発言内容情報に音声検知装置が付与した利用者の利用者識別情報（例えば、自装置ＩＤ）とが一致するか否かを判定する利用者識別情報判定手段（例えば、表示位置算出部３０７）とを備え、表示手段が、利用者識別情報が一致すると判定された場合、その利用者識別情報により識別される利用者と発言内容情報とを関連付けて画面に表示する（例えば、利用者の位置に発言内容情報を表示する）発言内容出力装置。

（１５）表示手段が、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する発言内容出力装置。

（１６）利用者（例えば、発言者）が発言した音声を検知する音声検知手段（例えば、マイク２４及び音声認識部３０２）と、利用者が発言した音声（例えば、マイク２４が検知した音声）もしくはその音声の内容を表す情報（例えば、テキスト情報、翻訳情報）を含む発言内容情報に、その利用者を識別する情報である利用者識別情報（例えば、発言者識別情報、自装置ＩＤ）を付与する利用者識別情報付与手段（例えば、データ送信部３０５）と、利用者識別情報が付与された発言内容情報を、その利用者識別情報によって識別される利用者と対応付けて画面に表示する装置（例えば、発言内容出力装置４１）に対して送信する発言内容情報送信手段（例えば、データ送信部３０５）とを備えた音声検知装置。

本発明は、検知された発言者の発言内容を画面上に出力する発言内容出力システムに好適に適用される。

１０ａ，１０ｂ，１０ｃ音声認識情報表示装置
２０メガネフレーム
２１ヘッドマウントディスプレイ
２２カメラ
２３識別マーカ
２４マイク
２５，２５ａ，２５ｂ，３５，３５ａコンピュータ
２６イヤホン
４０，４２音声検知装置
４１，４３発言内容出力装置
５２表示エリア
６０ＡＰ（アクセスポイント）
６１，６２識別記号
７０サーバ装置
３０２音声認識部
３０３翻訳部
３０４自装置ＩＤ記憶部
３０５データ送信部
３０６マーカ認識部
３０７，３２２表示位置算出部
３０８出力部
３０９表示画像合成部
３１０データ取り出し部
３１１ＩＤ取り出し部
３１２データ受信部
３２１顔認識部
３２３対応ＩＤ記憶部

Claims

利用者が発言した音声を検知する音声検知装置と、
前記利用者の発言内容を出力する発言内容出力装置とを備え、
前記音声検知装置は、
利用者が発言した音声を検知する音声検知手段と、
利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段とを備え、
前記発言内容出力装置は、
前記音声検知装置の利用者の発言内容情報を表示する画面を有する表示手段と、
前記音声検知装置を利用する利用者の利用者識別情報を検知する利用者識別情報検知手段と、
前記利用者識別情報検知手段が検知した利用者識別情報と、前記発言内容情報に付与された利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、
前記表示手段は、前記利用者識別情報が一致すると判定された場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて前記画面に表示する
ことを特徴とする発言内容出力システム。
発言内容出力装置の表示手段は、発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１記載の発言内容出力システム。
音声検知装置は、
発言内容情報を翻訳した翻訳情報を生成する翻訳手段を備え、
発言内容出力装置の表示手段は、発言内容情報として少なくとも前記翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１または請求項２記載の発言内容出力システム。
発言内容出力装置は、
発言内容情報を翻訳した翻訳情報を生成する翻訳手段を備え、
発言内容出力装置の表示手段は、発言内容情報として少なくとも前記翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１から請求項３のうちのいずれか１項に記載の発言内容出力システム。
利用者識別情報検知手段は、音声検知装置を利用する利用者の位置及び当該利用者の利用者識別情報を検知し、
表示手段は、前記利用者識別情報検知手段が検知した利用者の位置に対応する画面上の位置に発言内容情報を表示する
請求項１から請求項４のうちのいずれか１項に記載の発言内容出力システム。
表示手段は、利用者識別情報が一致しないと判定された場合、予め定められた表示方法に基づいて発言内容情報を処理する
請求項１から請求項５のうちのいずれか１項に記載の発言内容出力システム。
音声検知装置は、
利用者識別情報を表示するマーカを備え、
発言内容出力装置の利用者識別情報検知手段は、前記音声検知装置を利用する利用者が装着する前記マーカに表示された利用者識別情報を検知する
請求項１から請求項６のうちのいずれか１項に記載の発言内容出力システム。
発言内容出力装置は、
利用者の顔を表す情報である顔情報と当該利用者を識別する利用者識別情報とを対応付けて記憶する顔情報記憶手段を備え、
発言内容出力装置の利用者識別情報検知手段は、音声検知装置を利用する利用者の顔情報を認識し、前記顔情報に対応する利用者識別情報を前記顔情報記憶手段から抽出する
請求項１から請求項６のうちのいずれか１項に記載の発言内容出力システム。
表示手段は、発言内容情報を表示する外界光透過型のヘッドマウントディスプレイであり、
前記ヘッドマウントディスプレイは、利用者識別情報により識別される利用者と発言内容情報とを関連付けて表示する
請求項１から請求項８のうちのいずれか１項に記載の発言内容出力システム。
表示手段は、発言内容情報を表示する外界光非透過型のヘッドマウントディスプレイであり、
前記ヘッドマウントディスプレイは、利用者を撮影した画像と発言内容情報とを関連付けて表示する
請求項１から請求項８のうちのいずれか１項に記載の発言内容出力システム。
音声検知装置は、
利用者識別情報が付与された発言内容情報を、発言内容出力装置に送信する発言内容情報送信手段を備え、
発言内容出力装置の表示手段は、音声検知装置から受信した発言内容情報を画面に表示する
請求項１から請求項１０のうちのいずれか１項に記載の発言内容出力システム。
音声検知装置は、
発言内容情報を受信して他の装置へ転送する転送手段に対して、利用者識別情報が付与された発言内容情報を送信する発言内容情報転送手段を備え、
発言内容出力装置の表示手段は、前記転送手段から受信した発言内容情報を画面に表示する
請求項１から請求項１０のうちのいずれか１項に記載の発言内容出力システム。
発言内容出力装置の表示手段は、転送手段が発言内容情報を翻訳した翻訳情報を受信し、発言内容情報として少なくとも当該翻訳情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１２記載の発言内容出力システム。
音声を検知する音声検知装置の利用者が発言した音声の内容を表す発言内容情報を表示する画面を有する表示手段と、
前記音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知手段と、
前記利用者識別情報検知手段が検知した利用者識別情報と、前記発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定手段とを備え、
前記表示手段は、前記利用者識別情報が一致すると判定された場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて前記画面に表示する
ことを特徴とする発言内容出力装置。
表示手段は、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１４記載の発言内容出力装置。
利用者が発言した音声を検知する音声検知手段と、
利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与手段と、
利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する発言内容情報送信手段とを備えた
ことを特徴とする音声検知装置。
利用者が発言した音声を検知する音声検知装置が、利用者が発言した音声を検知し、
前記音声検知装置が、利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与し、
前記利用者の発言内容を出力する発言内容出力装置が、前記音声検知装置を利用する利用者の利用者識別情報を検知し、
前記発言内容出力装置が、検知した利用者識別情報と、前記発言内容情報に付与された利用者識別情報とが一致するか否かを判定し、
前記発言内容出力装置が、前記利用者識別情報が一致すると判定した場合、利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて画面に表示する
ことを特徴とする検知情報出力方法。
発言内容情報として少なくとも利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１７記載の検知情報出力方法。
音声を検知する音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知し、
検知された利用者識別情報と、前記利用者が発言した音声の内容を表す発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定し、
前記利用者識別情報が一致すると判定した場合、当該利用者識別情報により識別される利用者と前記発言内容情報とを関連付けて画面に表示する
ことを特徴とする発言内容出力方法。
発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者と関連付けて画面に表示する
請求項１９記載の発言内容出力方法。
利用者が発言した音声を検知し、
利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与し、
利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する
ことを特徴とする音声検知方法。
音声を検知する音声検知装置を利用する利用者の発言内容を表示する画面を有するコンピュータに適用される発言内容出力プログラムであって、
前記コンピュータに、
前記音声検知装置を利用する利用者を識別する情報である利用者識別情報を検知する利用者識別情報検知処理、
前記利用者識別情報検知処理で検知した利用者識別情報と、前記利用者が発言した音声の内容を表す発言内容情報に前記音声検知装置が付与した利用者の利用者識別情報とが一致するか否かを判定する利用者識別情報判定処理、および、
前記利用者識別情報が一致すると判定した場合、当該利用者識別情報により識別される用者と前記発言内容情報とを関連付けて前記画面に表示する表示処理
を実行させるための発言内容出力プログラム。
コンピュータに、
表示処理で、発言内容情報として少なくとも音声検知装置の利用者の音声を表すテキスト情報を利用者識別情報により識別される利用者の位置と関連付けて画面に表示させる
請求項２２記載の発言内容出力プログラム。
コンピュータに、
利用者が発言した音声を検知する音声検知処理、
利用者が発言した音声もしくは当該音声の内容を表す情報を含む発言内容情報に、当該利用者を識別する情報である利用者識別情報を付与する利用者識別情報付与処理、および、
利用者識別情報が付与された前記発言内容情報を、当該利用者識別情報によって識別される利用者と対応付けて画面に表示する装置に対して送信する発言内容情報送信処理
を実行させるための音声検知プログラム。