JP4585380B2

JP4585380B2 - 次発言者検出方法、装置、およびプログラム

Info

Publication number: JP4585380B2
Application number: JP2005164119A
Authority: JP
Inventors: 篤信木村; 彰中山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-03
Filing date: 2005-06-03
Publication date: 2010-11-24
Anticipated expiration: 2025-06-03
Also published as: JP2006338493A

Description

本発明は、複数のユーザが同一の空間、またはネットワークを介して互いに音声通信可能な遠隔の空間において会議する会議システムにおいて、あるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する方法および装置に関する。

没入型仮想共有環境における聴覚障害者支援に対するコミュニケーション支援手法として、相手の発話行為をユーザの視覚内に文字画像で提示する手法がある（非特許文献１、特許文献１）。

また、遠隔会議等において、発話者を特定する手法として、映像に吹き出しを表示する手法の提案がある（非特許文献２）。
特開２００１−２２８７９４号公報「没入型仮想共有環境における聴覚障害者の会話支援インタフェースの開発」電子情報通信学会技術研究報告ＯＩＳ２００４−２２「ビデオ会議における発言表示手法の提案：電子情報通信学会技術研究報告」ＭＶＥ２００１−１３７

これらの技術は、過去の発話や入力済みの会話内容を改めて提示し、利用する手法であり、吹き出し等への文字提示を行う処理は、文字データを入力、あるいはデータベースから読み出す処理の後に行われる。

本発明の目的は、会話の場、特に遠隔コミュニケーションにおいて、次発言権が明示されないために、会話開始の衝突が多くなることを解決する次発言者明示方法および装置を提供することにある。

本発明によれば、次発言者明示方法は、ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示方法であって、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の３次元位置を検出するユーザ位置検出ステップと、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
前記ユーザ頭部の３次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における３次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の３次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する。

本発明は、会議に参加していり各ユーザの視線を元に、次発言権を有するユーザを自動的に検出し、次発言権を示すエフェクトを提示することにより、会話の参加者全体に次発言権を有するユーザを明示する。

会議における次発言者が自動的に検出され、明示されることにより、各ユーザは会議の場において各ユーザが次に話すことを望んでいるユーザを知ることができ、会議の場での各ユーザの会話開始の衝突が少なくなるなど、会議の場での会話が円滑に進む効果がある。

また、会議の場に参加するユーザの興味のない発話をする発言者に対して発話の交代を促す効果や、会話の場で話が発生しないときにいずれかのユーザに次発言権が明示されることにより、会話の場の発話を促す効果もある。

特に遠隔コミュニケーションにおいて、これらの効果は高い。

次に、本発明の実施の形態について図面を参照して説明する。

［第１の実施形態］
図１は本発明の第１の実施形態による次発言者明示装置の構成図である。ここでは、簡単のために、２台の次発言者明示装置１と２がネットワーク３を介して接続される例を示している。

次発言者明示装置１は通信装置１１と音声再生装置１２と収音装置１３と提示装置１４と撮像装置１５と次発言者判定装置１６とを有している。次発言者明示装置２も次発言者明示装置１と同じ構成で、通信装置２１と音声再生装置２２と収音装置２３と提示装置２４と撮像装置２５と次発言者判定装置２６とを有している。

音声再生装置１２は次発言者明示装置２の収音装置２３で収音され、ネットワーク３を経て通信装置１１で受信された音声を再生し、ユーザ３０１に提示する。収音装置１３は提示装置１４周辺の音声を収音し、該音声を通信装置１１、ネットワーク３を介して次発言者明示装置２に送信する。提示装置１４は、次発言者明示装置２の撮像装置２５で撮影され、ネットワーク３を介して通信装置１１で受信された映像や撮像装置１５で撮影された映像や視覚エフェクトを提示する。撮像装置１５は提示装置１４周辺を撮影し、映像を通信装置１１からネットワーク３を介して次発言者明示装置２に送信するもので、提示装置１４の映像提示方向と同じ方向に向けて設置されている。次発言者判定装置１６は次発言者を判定する。

図２は次発言者判定装置１６の構成を示している。次発言者判定装置１６はユーザ位置検出部１０１と視線方向検出部１０２と注視対象検出部１０３と次発言権者判定部１０４とエフェクト提示部１０５と発話音声検出部１０６と発話映像検出部１０７とエフェクト消去部１０８とを有している。図示していないが、次発言者判定装置２６も、次発言者判定装置１６と同じ構成である。

ユーザ位置検出部１０１は、提示装置１４に提示される、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像を元に、次発言者明示装置２と自装置１周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置を検出する。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の３次元位置を推定するキャリブレーションデータを元に、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像におけるユーザ領域より、ユーザ頭部の３次元位置を推定する。なお、各撮像装置に対して、カメラなどの撮像系を２台以上用い、ステレオ画像によりユーザ頭部の３次元位置を検出してもよい。

視線方向検出部１０２は、提示装置１４に提示される、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得でき、該ベクトルを各ユーザの映像上の視線方向とする。なお、各ユーザにユーザの眼球用の撮像装置を装着させることによって正確な視線方向を検出してもよい。

注視対象検出部１０３は、ユーザ位置検出部１０１で検出されたユーザ頭部の３次元位置と、視線方向検出部１０２で検出されたユーザの映像上の視線方向と、提示装置１４の提示面の、撮像装置１５を中心とした座標系における３次元位置、傾き、提示面の大きさにより、ユーザ位置検出部１０１で検出されたユーザ頭部の３次元位置からの視線方向検出部１０２で検出された、ユーザの、映像上の視線方向のベクトルが、提示装置１４の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置１４の提示上の座標位置を取得し、該座標位置とユーザ位置検出部１０１で検出された各ユーザのユーザ位置より、自分を含むどのユーザの映像に対して該ユーザが視線を向けているのかを判定する。

次発言者判定部１０４は、注視対象検出部１０３での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。

エフェクト提示部１０５は、次発言者判定部１０４で次発言権があると判定されたユーザの提示装置１４上の映像に対して、ユーザ位置検出部１０１で得た各ユーザのユーザ位置に重畳させて、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを提示する。

発話音声検出部１０６は、通信装置１１を介して音声再生装置１２で得た音声、もしくは通信装置１１を介さずに収音装置１３で得た音声を用いて、音声より発話の有無を検出する。

発話映像検出部１０７は、通信装置１１を介して提示装置１４で得た映像、もしくは通信装置１１を介さずに撮像装置１５で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。

エフェクト消去部１０８は、発話音声検出部１０６によって発話の有りが所定時間以上検出され、かつ発話映像検出部１０７によって同じ地点において発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部１０５によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。

なお、次発言者判定装置１６の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。

図３は本実施形態における次発言者判定処理を示すフローチャート、図４は本実施形態におけるユーザ位置検出、エフェクト提示の例、図５は本実施形態における視線方向検出、注視位置検出の例を示している。

次に、次発言者判定処理の流れを、他装置のユーザ４０１、自装置のユーザ３０１に注目して説明する。

ユーザ位置検出部１０１は、提示装置１４に提示される、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像を元に、次発言者明示装置２と自装置１周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置４０２を検出する（ステップ２０１）。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の３次元位置を推定するキャリブレーションデータを元に、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像におけるユーザ領域より、ユーザ頭部の３次元位置を推定する。図４において、他地点のユーザ４０１のユーザ位置４０２を検出する例を示す。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ４０１のユーザ位置４０２とする（参考文献：「ディジタル映像処理」八木伸行監修、映像情報メディア学会編、オーム社出版局）。他地点のユーザ４０１のユーザ頭部の３次元位置を推定する例を示す。予め他地点の撮像装置２５を用いて取得される、撮像装置２５に写るユーザ４０１の領域の大きさと領域の位置に対する、そのときの該ユーザ頭部の３次元位置を対応させたデータを、ユーザ頭部の３次元位置を推定するキャリブレーションデータとして保存しておく。ユーザ位置４０２の検出時に得た、ユーザ４０１であるとみなす動物体の領域より、ユーザの領域が近似するキャリブレーションデータを抽出する。該キャリブレーションデータに対応するユーザ頭部の3次元位置を、ユーザ位置４０２に対応するユーザの３次元位置と推定する。キャリブレーションデータ作成の粒度には、作成時のユーザ頭部の３次元位置のデータの粒度が依存する。撮像装置２５の設置位置に大きく影響されるため一概に規定できないが、粒度を高くするほど、正確なユーザ頭部の３次元位置が推定できる。実用的には、次発言者明示装置２を利用する範囲にユーザ４０１がいる場合のキャリブレーションデータのみを保存することでデータ作成コストを省略することができる。

次に、視線方向検出部１０２は、提示装置１４に提示される、次発言者明示装置２の撮像装置２５からの映像と自装置１の撮像装置１５からの映像において、図５に示すように、映像上のユーザの瞳３０２を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳３０２の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳３０２の位置を通るベクトルを取得し、該ベクトルを各ユーザの映像上の視線方向３０３とする（ステップ２０２）。ユーザの視線が撮像装置１５に対して反対を向いている場合のように撮像装置１５でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置１４の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。

次に、注視対象検出部１０３は、ユーザ位置検出部１０１におけるユーザ頭部の３次元位置と、視線方向検出部１０２におけるユーザの映像上の視線方向３０３と、提示装置１４の提示面の、撮像装置１５を中心とした座標系における３次元位置、傾き、提示面の大きさにより、ユーザ位置検出部１０１におけるユーザ頭部の３次元位置からの視線方向検出部１０２におけるユーザの、映像上の視線方向３０３のベクトルが、提示装置１４の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置１４の提示上の座標位置（注視位置）３０４を取得し、注視位置３０４があるユーザのユーザ位置４０２に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する（ステップ２０３）。具体的には、注視対象検出部１０３の注視位置情報が提示装置１４上の該ユーザのユーザ位置に対して、提示装置上で２ｃｍの誤差の範囲内に、１秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。

次に、次発言者判定部１０４は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する（ステップ２０４）。注視対象検出部２０３の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく３分の２以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。

次発言者判定部１０４で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る（ステップ２０５）。次発言者判定部１０４で、次発言者と判定されるユーザがいない場合は、次発言者判定（ステップ２０２，２０３）を繰り返し行う。

次に、エフェクト提示部１０５は、次発言者判定部１０４で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う（ステップ２０６）。図４において、他地点のユーザ４０１が次発言者として判定された場合の例を示す。提示装置１４上で、映像中の該ユーザ４０１の領域の重心である、ユーザ位置検出部１０１によって検出された該ユーザ４０１のユーザ位置４０２に吹き出しエフェクト４０３を重畳させる。重畳させる位置関係は、吹き出しエフェクトの尾４０４の先端がユーザ位置４０２に一致するように重畳することで、吹き出しエフェクト４０３が該ユーザ４０１より発信されたものだと見える位置関係である。

次に、発話音声検出部１０６は、通信装置１１を介して音声再生装置１２で再生する、次発言者明示装置２からの音声、もしくは通信装置１１を介さずに収音装置１３で収音した音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された時点で発話があったとみなす（ステップ２１１）。

発話映像検出部１０７は、通信装置１１を介して提示装置１４で提示する、次発言者明示装置２からの映像、もしくは通信装置１１を介さずに撮像装置１５で撮影した映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす（ステップ２１２）。

エフェクト消去部１０８は、発話音声検出部１０６によってある地点での発話が所定時間以上有ったと検出され、かつ発話映像検出部１０７によって同じ地点で発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部１０５によって重畳されている吹き出しエフェクトを消す（ステップ２１３）。

［第２の実施形態］
本実施形態では、同一空間における会話の場での例について例示する。

図６は本実施形態の次発言者明示装置の全体図、図７は本実施形態の次発言者判定装置３４のブロック図である。

本実施形態の次発言者明示装置４は提示装置３１と撮像装置３２と収音装置３３と次発言権者判定装置３４を有している。

提示装置３１は、周辺にいるユーザ８０１に対して視覚エフェクトを提示し、会話の場の中央に、例えば会議室の会議デスク上に提示され、天井に設置したプロジェクタとデスク上に設置した平面白板より構成される、あるいはデスク上に設置した映像提示デバイスにより構成される。収音装置３３は提示装置３１の周辺の音声を収音する。撮像装置３２は、提示装置３１周辺を撮影し、提示装置３１の映像提示方向と反対方向に向けて、提示装置３１の近傍にいるユーザと提示装置３１の提示内容を撮影可能な位置に設置される。次発言権判定装置３４はユーザ位置検出部６０１と視線方向検出部６０２と注視対象検出部６０３と次発言権者判定部６０４とエフェクト提示部６０５と発話音声検出部６０６と発話映像検出部６０７とエフェクト消去部６０８を有している。

ユーザ位置検出部６０１は、提示装置３１に提示される、撮像装置３２からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する。視線方向検出部６０２は、提示装置３１に提示される、撮像装置３２からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする。注視対象検出部６０３は、ユーザ位置検出部６０１で検出されたユーザ位置と、視線方向検出部６０２で検出された各ユーザの視線方向より、どのユーザに対して視線を向けているのかを検出する。次発言者判定部６０４は、注視対象検出部６０３での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。エフェクト提示部６０５は、次発言者判定部６０４で次発言権があると判定されたユーザの付近で、かつ提示装置３１上の該ユーザの視線方向にある部分に、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを該ユーザから発信されたエフェクトであるように提示する。発話音声検出部６０６は、収音装置３３で得た音声を用いて、音声より発話の有無を検出する。発話映像検出部６０７は、撮像装置３２で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。エフェクト消去部６０８は、発話音声検出部６０６によって発話の有りが所定時間以上検出され、かつ発話映像検出部６０７によって発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部６０５によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。

なお、次発言者判定装置３４の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。

図８は本実施形態における次発言者判定処理を示すフローチャート、図９は本実施形態におけるユーザ位置検出とエフェクト提示の一例を示す図、図１０は本実施形態における視線方向検出の一例を示す図である。

次に、次発言者判定処理の流れを、ユーザ８０１に注目して説明する。

ユーザ位置検出部６０１は、提示装置３１に提示される、撮像装置３２からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する（ステップ７０１）（図９において、ユーザ８０１のユーザ位置８０２を検出する例を示す）。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ８０１のユーザ位置８０２とする（参考文献：「ディジタル映像処理」八木伸行監修、映像情報メディア学会編、オーム社出版局）。

視線方向検出部６０２は、提示装置３１に提示される、撮像装置３２からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする（ステップ７０２）（図１０において、ユーザ９０１のユーザの瞳９０２を検出することによって、ユーザ９０１の視線方向９０３を検出する例を示す）。ユーザの視線が撮像装置３２に対して反対を向いている場合のように撮像装置３２でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置３１の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。

注視対象検出部６０３は、視線方向検出部６０２によって検出されたユーザの視線方向９０３が、ユーザ位置検出部６０１で検出された各ユーザのユーザ位置８０２に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する（ステップ７０３）。具体的には、視線方向検出部６０２によって検出されたユーザの視線方向９０３がユーザ８０１のユーザ位置８０２に対して、あらかじめ計測された提示装置３１の大きさを基準にして１ｍの誤差の範囲内に、１秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。

次発言者判定部６０４は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する（ステップ７０４）。注視対象検出部６０３の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく３分の２以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。

次発言者判定部６０４で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る（ステップ７０５）。次発言者判定部６０４で、次発言者と判定されるユーザがいない場合は、次発言者判定を繰り返し行う。

エフェクト提示部６０５は、次発言者判定部６０４で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う（ステップ７０６）。図９において、ユーザ８０１が次発言者として判定された場合の例を示す。次発言権があると判定されたユーザ８０１の視線方向にある提示装置３１上に、次発言権を持つことを明示する吹き出しエフェクト８０３を提示する。重畳させる位置関係は、吹き出しエフェクトの尾８０４の先端が、ユーザ８０１のユーザ位置８０２に対して提示装置３１上で最も近い位置に一致するように重畳することで、吹き出しエフェクト８０３が該ユーザ８０１より発信されたものだと見える位置関係である。

発話音声検出部６０６は、収音装置３３で収音された音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された地点で発話があったとみなす（ステップ７１１）。

発話映像検出部６０７は、撮像装置３２で撮影された映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす（ステップ７１２）。

エフェクト消去部６０８は、発話音声検出部６０６によって発話有りが所定時間以上検出され、かつ発話映像検出部６０７によって発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部６０５によって重畳されている吹き出しエフェクトを消す（ステップ７１３）。

なお、以上説明した次発言者明示装置の機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。

本発明の第１の実施形態の次発言者明示装置を含むシステムの構成図である。図１の次発言者明示装置のブロック図である。第１の実施形態における次発言者判定処理を示すフローチャートである。第１の実施形態におけるユーザ位置検出、エフェクト提示の一例を示す図である。第１の実施形態における視線方向検出、注視位置検出の一例を示す図である。本発明の第２の実施形態の次発言者明示装置の構成図である。図１の次発言者明示装置のブロック図である。第２の実施形態における次発言者判定処理を示すフローチャートである。第２の実施形態におけるユーザ位置検出、エフェクト提示の一例を示す図である。第２の実施形態における視線方向検出の一例を示す図である。

符号の説明

１，２，４次発言者明示装置
３ネットワーク
１１，２１通信装置
１２，２２音声再生装置
１３，２３，３３収音装置
１４，２４，３１提示装置
１５，２５，３２撮像装置
１６，２６，３４次発言者判定装置
１０１，６０１ユーザ位置検出部
１０２，６０２視線方向検出部
１０３，６０３注視対象検出部
１０４，６０４次発言者判定部
１０５，６０５エフェクト提示部
１０６，６０６発話音声検出部
１０７，６０７発話映像検出部
１０８，６０８エフェクト消去部
２０１〜２０６，２１１〜２１３ステップ
３０１ユーザ
３０２ユーザの瞳
３０３視線方向
３０４注視位置
３０１‘ 映像上のユーザ
３０２‘ 映像上のユーザの瞳
３０３‘ 映像上の視線方向
４０１，８０１ユーザ
４０２，８０２ユーザ位置
４０３，８０３吹き出しエフェクト
４０４，８０４吹き出しエフェクトの尾
９０１ユーザ
９０２ユーザの瞳
９０３視線方向

Claims

ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示方法であって、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の３次元位置を検出するユーザ位置検出ステップと、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
前記ユーザ頭部の３次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における３次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の３次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する次発言者明示方法。
次発言者の発言が検出されたとき、提示されているエフェクトを消去するステップをさらに有する、請求項１に記載の次発言者明示方法。
ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示装置であって、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の３次元位置を検出するユーザ検出手段と、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出手段と、
前記ユーザ頭部の３次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における３次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の３次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出手段と、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定手段と、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示手段とを有する次発言者明示装置。
次発言者の発言が検出されたとき、提示されているエフェクトを消去する手段をさらに有する、請求項３に記載の次発言者明示装置。
コンピュータを、請求項３または４に記載の次発言者明示装置として動作させるためのプログラム。