JP4585380B2 - 次発言者検出方法、装置、およびプログラム - Google Patents

次発言者検出方法、装置、およびプログラム Download PDF

Info

Publication number
JP4585380B2
JP4585380B2 JP2005164119A JP2005164119A JP4585380B2 JP 4585380 B2 JP4585380 B2 JP 4585380B2 JP 2005164119 A JP2005164119 A JP 2005164119A JP 2005164119 A JP2005164119 A JP 2005164119A JP 4585380 B2 JP4585380 B2 JP 4585380B2
Authority
JP
Japan
Prior art keywords
user
video
presentation
next speaker
imaging device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005164119A
Other languages
English (en)
Other versions
JP2006338493A (ja
Inventor
篤信 木村
彰 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005164119A priority Critical patent/JP4585380B2/ja
Publication of JP2006338493A publication Critical patent/JP2006338493A/ja
Application granted granted Critical
Publication of JP4585380B2 publication Critical patent/JP4585380B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、複数のユーザが同一の空間、またはネットワークを介して互いに音声通信可能な遠隔の空間において会議する会議システムにおいて、あるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する方法および装置に関する。
没入型仮想共有環境における聴覚障害者支援に対するコミュニケーション支援手法として、相手の発話行為をユーザの視覚内に文字画像で提示する手法がある(非特許文献1、特許文献1)。
また、遠隔会議等において、発話者を特定する手法として、映像に吹き出しを表示する手法の提案がある(非特許文献2)。
特開2001−228794号公報 「没入型仮想共有環境における聴覚障害者の会話支援インタフェースの開発」電子情報通信学会技術研究報告 OIS2004−22 「ビデオ会議における発言表示手法の提案:電子情報通信学会技術研究報告」 MVE2001−137
これらの技術は、過去の発話や入力済みの会話内容を改めて提示し、利用する手法であり、吹き出し等への文字提示を行う処理は、文字データを入力、あるいはデータベースから読み出す処理の後に行われる。
本発明の目的は、会話の場、特に遠隔コミュニケーションにおいて、次発言権が明示されないために、会話開始の衝突が多くなることを解決する次発言者明示方法および装置を提供することにある。
本発明によれば、次発言者明示方法は、ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示方法であって、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ位置検出ステップと、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する。
本発明は、会議に参加していり各ユーザの視線を元に、次発言権を有するユーザを自動的に検出し、次発言権を示すエフェクトを提示することにより、会話の参加者全体に次発言権を有するユーザを明示する。
会議における次発言者が自動的に検出され、明示されることにより、各ユーザは会議の場において各ユーザが次に話すことを望んでいるユーザを知ることができ、会議の場での各ユーザの会話開始の衝突が少なくなるなど、会議の場での会話が円滑に進む効果がある。
また、会議の場に参加するユーザの興味のない発話をする発言者に対して発話の交代を促す効果や、会話の場で話が発生しないときにいずれかのユーザに次発言権が明示されることにより、会話の場の発話を促す効果もある。
特に遠隔コミュニケーションにおいて、これらの効果は高い。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施形態]
図1は本発明の第1の実施形態による次発言者明示装置の構成図である。ここでは、簡単のために、2台の次発言者明示装置1と2がネットワーク3を介して接続される例を示している。
次発言者明示装置1は通信装置11と音声再生装置12と収音装置13と提示装置14と撮像装置15と次発言者判定装置16とを有している。次発言者明示装置2も次発言者明示装置1と同じ構成で、通信装置21と音声再生装置22と収音装置23と提示装置24と撮像装置25と次発言者判定装置26とを有している。
音声再生装置12は次発言者明示装置2の収音装置23で収音され、ネットワーク3を経て通信装置11で受信された音声を再生し、ユーザ301に提示する。収音装置13は提示装置14周辺の音声を収音し、該音声を通信装置11、ネットワーク3を介して次発言者明示装置2に送信する。提示装置14は、次発言者明示装置2の撮像装置25で撮影され、ネットワーク3を介して通信装置11で受信された映像や撮像装置15で撮影された映像や視覚エフェクトを提示する。撮像装置15は提示装置14周辺を撮影し、映像を通信装置11からネットワーク3を介して次発言者明示装置2に送信するもので、提示装置14の映像提示方向と同じ方向に向けて設置されている。次発言者判定装置16は次発言者を判定する。
図2は次発言者判定装置16の構成を示している。次発言者判定装置16はユーザ位置検出部101と視線方向検出部102と注視対象検出部103と次発言権者判定部104とエフェクト提示部105と発話音声検出部106と発話映像検出部107とエフェクト消去部108とを有している。図示していないが、次発言者判定装置26も、次発言者判定装置16と同じ構成である。
ユーザ位置検出部101は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像を元に、次発言者明示装置2と自装置1周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置を検出する。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の3次元位置を推定するキャリブレーションデータを元に、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像におけるユーザ領域より、ユーザ頭部の3次元位置を推定する。なお、各撮像装置に対して、カメラなどの撮像系を2台以上用い、ステレオ画像によりユーザ頭部の3次元位置を検出してもよい。
視線方向検出部102は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得でき、該ベクトルを各ユーザの映像上の視線方向とする。なお、各ユーザにユーザの眼球用の撮像装置を装着させることによって正確な視線方向を検出してもよい。
注視対象検出部103は、ユーザ位置検出部101で検出されたユーザ頭部の3次元位置と、視線方向検出部102で検出されたユーザの映像上の視線方向と、提示装置14の提示面の、撮像装置15を中心とした座標系における3次元位置、傾き、提示面の大きさにより、ユーザ位置検出部101で検出されたユーザ頭部の3次元位置からの視線方向検出部102で検出された、ユーザの、映像上の視線方向のベクトルが、提示装置14の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置14の提示上の座標位置を取得し、該座標位置とユーザ位置検出部101で検出された各ユーザのユーザ位置より、自分を含むどのユーザの映像に対して該ユーザが視線を向けているのかを判定する。
次発言者判定部104は、注視対象検出部103での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。
エフェクト提示部105は、次発言者判定部104で次発言権があると判定されたユーザの提示装置14上の映像に対して、ユーザ位置検出部101で得た各ユーザのユーザ位置に重畳させて、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを提示する。
発話音声検出部106は、通信装置11を介して音声再生装置12で得た音声、もしくは通信装置11を介さずに収音装置13で得た音声を用いて、音声より発話の有無を検出する。
発話映像検出部107は、通信装置11を介して提示装置14で得た映像、もしくは通信装置11を介さずに撮像装置15で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。
エフェクト消去部108は、発話音声検出部106によって発話の有りが所定時間以上検出され、かつ発話映像検出部107によって同じ地点において発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部105によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。
なお、次発言者判定装置16の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。
図3は本実施形態における次発言者判定処理を示すフローチャート、図4は本実施形態におけるユーザ位置検出、エフェクト提示の例、図5は本実施形態における視線方向検出、注視位置検出の例を示している。
次に、次発言者判定処理の流れを、他装置のユーザ401、自装置のユーザ301に注目して説明する。
ユーザ位置検出部101は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像を元に、次発言者明示装置2と自装置1周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置402を検出する(ステップ201)。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の3次元位置を推定するキャリブレーションデータを元に、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像におけるユーザ領域より、ユーザ頭部の3次元位置を推定する。図4において、他地点のユーザ401のユーザ位置402を検出する例を示す。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ401のユーザ位置402とする(参考文献:「ディジタル映像処理」 八木伸行監修、映像情報メディア学会編、オーム社出版局)。他地点のユーザ401のユーザ頭部の3次元位置を推定する例を示す。予め他地点の撮像装置25を用いて取得される、撮像装置25に写るユーザ401の領域の大きさと領域の位置に対する、そのときの該ユーザ頭部の3次元位置を対応させたデータを、ユーザ頭部の3次元位置を推定するキャリブレーションデータとして保存しておく。ユーザ位置402の検出時に得た、ユーザ401であるとみなす動物体の領域より、ユーザの領域が近似するキャリブレーションデータを抽出する。該キャリブレーションデータに対応するユーザ頭部の3次元位置を、ユーザ位置402に対応するユーザの3次元位置と推定する。キャリブレーションデータ作成の粒度には、作成時のユーザ頭部の3次元位置のデータの粒度が依存する。撮像装置25の設置位置に大きく影響されるため一概に規定できないが、粒度を高くするほど、正確なユーザ頭部の3次元位置が推定できる。実用的には、次発言者明示装置2を利用する範囲にユーザ401がいる場合のキャリブレーションデータのみを保存することでデータ作成コストを省略することができる。
次に、視線方向検出部102は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像において、図5に示すように、映像上のユーザの瞳302を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳302の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳302の位置を通るベクトルを取得し、該ベクトルを各ユーザの映像上の視線方向303とする(ステップ202)。ユーザの視線が撮像装置15に対して反対を向いている場合のように撮像装置15でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置14の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。
次に、注視対象検出部103は、ユーザ位置検出部101におけるユーザ頭部の3次元位置と、視線方向検出部102におけるユーザの映像上の視線方向303と、提示装置14の提示面の、撮像装置15を中心とした座標系における3次元位置、傾き、提示面の大きさにより、ユーザ位置検出部101におけるユーザ頭部の3次元位置からの視線方向検出部102におけるユーザの、映像上の視線方向303のベクトルが、提示装置14の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置14の提示上の座標位置(注視位置)304を取得し、注視位置304があるユーザのユーザ位置402に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する(ステップ203)。具体的には、注視対象検出部103の注視位置情報が提示装置14上の該ユーザのユーザ位置に対して、提示装置上で2cmの誤差の範囲内に、1秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。
次に、次発言者判定部104は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する(ステップ204)。注視対象検出部203の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく3分の2以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。
次発言者判定部104で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る(ステップ205)。次発言者判定部104で、次発言者と判定されるユーザがいない場合は、次発言者判定(ステップ202,203)を繰り返し行う。
次に、エフェクト提示部105は、次発言者判定部104で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う(ステップ206)。図4において、他地点のユーザ401が次発言者として判定された場合の例を示す。提示装置14上で、映像中の該ユーザ401の領域の重心である、ユーザ位置検出部101によって検出された該ユーザ401のユーザ位置402に吹き出しエフェクト403を重畳させる。重畳させる位置関係は、吹き出しエフェクトの尾404の先端がユーザ位置402に一致するように重畳することで、吹き出しエフェクト403が該ユーザ401より発信されたものだと見える位置関係である。
次に、発話音声検出部106は、通信装置11を介して音声再生装置12で再生する、次発言者明示装置2からの音声、もしくは通信装置11を介さずに収音装置13で収音した音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された時点で発話があったとみなす(ステップ211)。
発話映像検出部107は、通信装置11を介して提示装置14で提示する、次発言者明示装置2からの映像、もしくは通信装置11を介さずに撮像装置15で撮影した映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす(ステップ212)。
エフェクト消去部108は、発話音声検出部106によってある地点での発話が所定時間以上有ったと検出され、かつ発話映像検出部107によって同じ地点で発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部105によって重畳されている吹き出しエフェクトを消す(ステップ213)。
[第2の実施形態]
本実施形態では、同一空間における会話の場での例について例示する。
図6は本実施形態の次発言者明示装置の全体図、図7は本実施形態の次発言者判定装置34のブロック図である。
本実施形態の次発言者明示装置4は提示装置31と撮像装置32と収音装置33と次発言権者判定装置34を有している。
提示装置31は、周辺にいるユーザ801に対して視覚エフェクトを提示し、会話の場の中央に、例えば会議室の会議デスク上に提示され、天井に設置したプロジェクタとデスク上に設置した平面白板より構成される、あるいはデスク上に設置した映像提示デバイスにより構成される。収音装置33は提示装置31の周辺の音声を収音する。撮像装置32は、提示装置31周辺を撮影し、提示装置31の映像提示方向と反対方向に向けて、提示装置31の近傍にいるユーザと提示装置31の提示内容を撮影可能な位置に設置される。次発言権判定装置34はユーザ位置検出部601と視線方向検出部602と注視対象検出部603と次発言権者判定部604とエフェクト提示部605と発話音声検出部606と発話映像検出部607とエフェクト消去部608を有している。
ユーザ位置検出部601は、提示装置31に提示される、撮像装置32からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する。視線方向検出部602は、提示装置31に提示される、撮像装置32からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする。注視対象検出部603は、ユーザ位置検出部601で検出されたユーザ位置と、視線方向検出部602で検出された各ユーザの視線方向より、どのユーザに対して視線を向けているのかを検出する。次発言者判定部604は、注視対象検出部603での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。エフェクト提示部605は、次発言者判定部604で次発言権があると判定されたユーザの付近で、かつ提示装置31上の該ユーザの視線方向にある部分に、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを該ユーザから発信されたエフェクトであるように提示する。発話音声検出部606は、収音装置33で得た音声を用いて、音声より発話の有無を検出する。発話映像検出部607は、撮像装置32で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。エフェクト消去部608は、発話音声検出部606によって発話の有りが所定時間以上検出され、かつ発話映像検出部607によって発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部605によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。
なお、次発言者判定装置34の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。
図8は本実施形態における次発言者判定処理を示すフローチャート、図9は本実施形態におけるユーザ位置検出とエフェクト提示の一例を示す図、図10は本実施形態における視線方向検出の一例を示す図である。
次に、次発言者判定処理の流れを、ユーザ801に注目して説明する。
ユーザ位置検出部601は、提示装置31に提示される、撮像装置32からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する(ステップ701)(図9において、ユーザ801のユーザ位置802を検出する例を示す)。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ801のユーザ位置802とする(参考文献:「ディジタル映像処理」 八木伸行監修、映像情報メディア学会編、オーム社出版局)。
視線方向検出部602は、提示装置31に提示される、撮像装置32からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする(ステップ702)(図10において、ユーザ901のユーザの瞳902を検出することによって、ユーザ901の視線方向903を検出する例を示す)。ユーザの視線が撮像装置32に対して反対を向いている場合のように撮像装置32でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置31の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。
注視対象検出部603は、視線方向検出部602によって検出されたユーザの視線方向903が、ユーザ位置検出部601で検出された各ユーザのユーザ位置802に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する(ステップ703)。具体的には、視線方向検出部602によって検出されたユーザの視線方向903がユーザ801のユーザ位置802に対して、あらかじめ計測された提示装置31の大きさを基準にして1mの誤差の範囲内に、1秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。
次発言者判定部604は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する(ステップ704)。注視対象検出部603の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく3分の2以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。
次発言者判定部604で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る(ステップ705)。次発言者判定部604で、次発言者と判定されるユーザがいない場合は、次発言者判定を繰り返し行う。
エフェクト提示部605は、次発言者判定部604で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う(ステップ706)。図9において、ユーザ801が次発言者として判定された場合の例を示す。次発言権があると判定されたユーザ801の視線方向にある提示装置31上に、次発言権を持つことを明示する吹き出しエフェクト803を提示する。重畳させる位置関係は、吹き出しエフェクトの尾804の先端が、ユーザ801のユーザ位置802に対して提示装置31上で最も近い位置に一致するように重畳することで、吹き出しエフェクト803が該ユーザ801より発信されたものだと見える位置関係である。
発話音声検出部606は、収音装置33で収音された音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された地点で発話があったとみなす(ステップ711)。
発話映像検出部607は、撮像装置32で撮影された映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす(ステップ712)。
エフェクト消去部608は、発話音声検出部606によって発話有りが所定時間以上検出され、かつ発話映像検出部607によって発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部605によって重畳されている吹き出しエフェクトを消す(ステップ713)。
なお、以上説明した次発言者明示装置の機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。
本発明の第1の実施形態の次発言者明示装置を含むシステムの構成図である。 図1の次発言者明示装置のブロック図である。 第1の実施形態における次発言者判定処理を示すフローチャートである。 第1の実施形態におけるユーザ位置検出、エフェクト提示の一例を示す図である。 第1の実施形態における視線方向検出、注視位置検出の一例を示す図である。 本発明の第2の実施形態の次発言者明示装置の構成図である。 図1の次発言者明示装置のブロック図である。 第2の実施形態における次発言者判定処理を示すフローチャートである。 第2の実施形態におけるユーザ位置検出、エフェクト提示の一例を示す図である。 第2の実施形態における視線方向検出の一例を示す図である。
符号の説明
1,2,4 次発言者明示装置
3 ネットワーク
11,21 通信装置
12,22 音声再生装置
13,23,33 収音装置
14,24,31 提示装置
15,25,32 撮像装置
16,26,34 次発言者判定装置
101,601 ユーザ位置検出部
102,602 視線方向検出部
103,603 注視対象検出部
104,604 次発言者判定部
105,605 エフェクト提示部
106,606 発話音声検出部
107,607 発話映像検出部
108,608 エフェクト消去部
201〜206,211〜213 ステップ
301 ユーザ
302 ユーザの瞳
303 視線方向
304 注視位置
301‘ 映像上のユーザ
302‘ 映像上のユーザの瞳
303‘ 映像上の視線方向
401,801 ユーザ
402,802 ユーザ位置
403,803 吹き出しエフェクト
404,804 吹き出しエフェクトの尾
901 ユーザ
902 ユーザの瞳
903 視線方向

Claims (5)

  1. ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示方法であって、
    前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ位置検出ステップと、
    前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
    前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
    視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
    次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する次発言者明示方法。
  2. 次発言者の発言が検出されたとき、提示されているエフェクトを消去するステップをさらに有する、請求項1に記載の次発言者明示方法。
  3. ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示装置であって、
    前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ検出手段と、
    前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出手段と、
    前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出手段と、
    視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定手段と、
    次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示手段とを有する次発言者明示装置。
  4. 次発言者の発言が検出されたとき、提示されているエフェクトを消去する手段をさらに有する、請求項に記載の次発言者明示装置。
  5. コンピュータを、請求項3または4に記載の次発言者明示装置として動作させるためのプログラム。
JP2005164119A 2005-06-03 2005-06-03 次発言者検出方法、装置、およびプログラム Expired - Fee Related JP4585380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005164119A JP4585380B2 (ja) 2005-06-03 2005-06-03 次発言者検出方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005164119A JP4585380B2 (ja) 2005-06-03 2005-06-03 次発言者検出方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2006338493A JP2006338493A (ja) 2006-12-14
JP4585380B2 true JP4585380B2 (ja) 2010-11-24

Family

ID=37558980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005164119A Expired - Fee Related JP4585380B2 (ja) 2005-06-03 2005-06-03 次発言者検出方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4585380B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106416233A (zh) * 2014-06-27 2017-02-15 英特尔公司 用于使用兴趣度算法进行视听通信的技术

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8493390B2 (en) * 2010-12-08 2013-07-23 Sony Computer Entertainment America, Inc. Adaptive displays using gaze tracking
JP2019139387A (ja) 2018-02-07 2019-08-22 日本電信電話株式会社 推定装置、推定方法、およびプログラム
CN111654715B (zh) * 2020-06-08 2024-01-09 腾讯科技(深圳)有限公司 直播的视频处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07162532A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 多地点間通信会議コミュニケーション支援装置
JPH10150648A (ja) * 1996-11-15 1998-06-02 Nec Corp テレビ会議システム
JP2001350578A (ja) * 2000-06-06 2001-12-21 Sensor:Kk 視線による入力制御装置及び方法並びに視線により入力させる制御プログラムを記録した記録媒体
JP2003196017A (ja) * 2001-12-25 2003-07-11 Gen Tec:Kk データ入力方法及び同装置等

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07162532A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 多地点間通信会議コミュニケーション支援装置
JPH10150648A (ja) * 1996-11-15 1998-06-02 Nec Corp テレビ会議システム
JP2001350578A (ja) * 2000-06-06 2001-12-21 Sensor:Kk 視線による入力制御装置及び方法並びに視線により入力させる制御プログラムを記録した記録媒体
JP2003196017A (ja) * 2001-12-25 2003-07-11 Gen Tec:Kk データ入力方法及び同装置等

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106416233A (zh) * 2014-06-27 2017-02-15 英特尔公司 用于使用兴趣度算法进行视听通信的技术
US10440071B2 (en) 2014-06-27 2019-10-08 Intel Corporation Technologies for audiovisual communication using interestingness algorithms
CN106416233B (zh) * 2014-06-27 2020-04-10 英特尔公司 用于视听通信的视听服务器、方法、设备
US10972518B2 (en) 2014-06-27 2021-04-06 Intel Corporation Technologies for audiovisual communication using interestingness algorithms
US11863604B2 (en) 2014-06-27 2024-01-02 Intel Corporation Technologies for audiovisual communication using interestingness algorithms

Also Published As

Publication number Publication date
JP2006338493A (ja) 2006-12-14

Similar Documents

Publication Publication Date Title
US10642569B2 (en) Methods and devices for identifying object in virtual reality communication, and virtual reality equipment
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
US20180020313A1 (en) Systems and Methods for Spatial Audio Adjustment
US8411130B2 (en) Apparatus and method of video conference to distinguish speaker from participants
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
CN111936964B (zh) 非中断性nui命令
WO2020015473A1 (zh) 交互方法及装置
CN108307659A (zh) 翻译装置的控制方法、翻译装置以及程序
JP4585380B2 (ja) 次発言者検出方法、装置、およびプログラム
EP3412036B1 (fr) Procédé d&#39;aide au suivi d&#39;une conversation pour personne malentendante
JP2009206924A (ja) 情報処理装置、情報処理システム及び情報処理プログラム
US11909786B2 (en) Systems and methods for improved group communication sessions
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
CN107087208B (zh) 一种全景视频播放方法、***及存储装置
CN112751582A (zh) 用于交互的可穿戴装置、交互方法及设备、存储介质
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP6191333B2 (ja) 情報処理装置、通信システムおよびプログラム
GB2598333A (en) A method and head-mounted unit for assisting a user
CN111144287A (zh) 视听辅助交流方法、装置及可读存储介质
TWI799048B (zh) 環景影像會議系統及方法
US12032155B2 (en) Method and head-mounted unit for assisting a hearing-impaired user
JP2019071515A (ja) 通信装置、通信システムおよびプログラム
JP7292343B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20230267942A1 (en) Audio-visual hearing aid
JP2022112784A (ja) 映像通話装置、及びそれに用いる制御装置、制御方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100825

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100903

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees