JP2009267621A

JP2009267621A - 通信装置

Info

Publication number: JP2009267621A
Application number: JP2008112788A
Authority: JP
Inventors: Yukio Tada; 幸生多田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2009-11-12

Abstract

【課題】複数の通信端末間で通信によって遠隔会議等を行う際に、聴取者が会議等の内容を理解しているのかを認識し易くすることのできる技術を提供する。
【解決手段】端末１０は、マイクロホン１５で収音した音声を表す音声データと撮影部１９で撮影した映像を表す映像データとを、他の端末１０に送信する。また、端末１０は、他の端末１０から映像データと音声データとを受信し、受信した音声データをスピーカ１７から音として放音するとともに、映像データを表示部１３に出力して映像を表示する。このとき、制御部１１は、撮影部１９から出力される映像データを解析して顔画像検出を行うことにより、参加者のうなずき動作を検出する。制御部１１は、うなずき動作の検出の回数や頻度を算出し、算出結果を示すデータを表示部１３等に出力する。
【選択図】図２

Description

本発明は、通信装置に関する。

近年、通信網を介して接続された複数の通信端末を用いて会議を行う遠隔会議システムが普及している。このような遠隔会議システムにおいては、発話者と聴取者が直接対面していないため、発話者が聴取者の反応を感じることが困難であり、自身の声が相手に届いているかを不安に感じる場合がある。特許文献１には、通信会議を円滑に進めることができるように、参加者が自己の感情や動作をボタンで入力すると、離れた場所にいるロボットが入力に応じた動きをするシステムが提案されている。このシステムにおいては、参加者が「うなずく」というボタンを押下すると、離れた場所でロボットがうなずくようになっている。また、特許文献２には、ビデオ映像を表示しているディスプレイを遠隔操作でかたむけて、参加者がうなずいているように見せるシステムが提案されている。このシステムでは、参加者が「うなずく」ボタンを押下すると、離れた場所のディスプレイが傾くようになっている。特許文献１や２に記載の技術によれば、聴取者がうなずいた旨を発話者が認識することができる。

また、特許文献３には、会議参加者の物理現象を記録しておき、索引付けを行うことによって、後に会議映像を見る者にとって有用な会議映像を提供する装置が提案されている。この装置においては、参加者の「うなずき」動作をバックチャネルとして認識し、記録するようになっている。また、特許文献４には、ユーザの言語情報を元にロボットの動きを制御するシステムが提案されている。特許文献４に記載の技術によれば、「うなずき」をユーザ言語情報取得部にて取得し、その結果を元に、「楽しい」動きをロボットに実行させることができる。
特開２００３−２３５０１９号公報特開２００５−０３３８１１号公報特開２００５−２７７４４５号公報特開２００７−０３００５０号公報

しかしながら、上述の特許文献１乃至４に記載の技術では、聴取者がうなずいた旨を認識することができるものの、聴取者が話の内容を理解しているか否かを認識することは困難であった。
本発明は上述した背景に鑑みてなされたものであり、複数の通信端末間で通信によって会議等を行う際に、聴取者が話の内容を理解しているかを認識し易くすることのできる技術を提供することを目的とする。

上記課題を解決するために、本発明は、収音手段によって収音された聴取者の音声を表す音声データ及び撮影手段によって撮影された前記聴取者の映像を表す映像データの少なくともいずれか一方を含むデータを取得するデータ取得手段と、前記データ取得手段により取得されたデータを解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記聴取者のうなずき動作として検出する検出手段と、前記検出手段によって検出されるうなずき動作の検出の頻度を算出する算出手段と、前記算出手段によって算出された頻度を表す頻度データを出力する出力手段とを具備することを特徴とする通信装置を提供する。

本発明の好ましい態様において、前記頻度と理解度との対応関係を記憶する対応関係記憶手段と、前記対応関係記憶手段を参照して、前記算出手段によって算出された頻度に対応する理解度を特定する理解度特定手段とを具備し、前記出力手段は、前記理解度特定手段によって特定された理解度を示す理解度データを出力してもよい。

また、本発明の更に好ましい態様において、前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた時間単位で算出してもよい。

また、本発明の更に好ましい態様において、前記照合パターンを、地域を識別する識別データ毎に記憶する照合パターン記憶手段と、前記地域を識別する識別データを取得する識別データ取得手段と、前記識別データ取得手段により取得された識別データに対応する照合パターンを前記照合パターン記憶手段から読み出す照合パターン読出手段とを具備し、前記検出手段は、前記照合パターン読出手段により読み出された照合パターンを前記解析結果と照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出してもよい。

また、本発明の更に好ましい態様において、前記データ取得手段は、前記データを、通信ネットワークを介して接続された複数の端末からそれぞれ受信し、前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、前記端末毎に算出してもよい。

また、本発明の更に好ましい態様において、前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた単位時間毎に統計する統計手段と、前記統計手段による統計結果に応じて、基準となるうなずき動作のタイミングを基準タイミングとして算出する基準タイミング算出手段と、前記複数の端末のなかから、前記検出手段によって検出されたうなずき動作の検出のタイミングと前記基準タイミング算出手段によって算出された基準タイミングとの差分が予め定められた閾値以上である端末を特定する端末特定手段と、前記端末特定手段による特定結果を示す特定データを出力する特定データ出力手段とを具備してもよい。

また、本発明の更に好ましい態様において、前記データ取得手段は、前記聴取者の映像を表す映像データを含むデータを取得し、前記検出手段は、前記データ取得手段により取得された映像データを解析して顔画像の検出を行う顔画像検出手段と、前記顔画像検出手段により検出された顔画像の位置及び方向を検出することによって顔の動きの検出を行う動き検出手段と、前記動き検出手段によって検出された顔の動きを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出するうなずき動作検出手段とを具備してもよい。

また、本発明の別の好ましい態様において、前記データ取得手段は、前記聴取者の音声を表す音声データを含むデータを取得し、前記検出手段は、前記データ取得手段により取得された音声データを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出してもよい。

本発明によれば、複数の通信端末間で通信によって会議等を行う際に、聴取者が話の内容を理解しているかを認識し易くすることができる。

＜構成＞
図１は、この発明の一実施形態である遠隔会議システム１の構成を示すブロック図である。この遠隔会議システム１は、各地に設置された複数の端末１０ａ，１０ｂ，１０ｃ…が、インターネット等の通信網２０に接続されて構成される。なお、以下の説明においては、説明の便宜上、端末１０ａ，１０ｂ，１０ｃ…を各々区別する必要がない場合には、これらを「端末１０」と称して説明する。遠隔会議の参加者が端末１０を用いて通信を行うことで、遠隔会議が実現される。

図２は、端末１０の構成の一例を示すブロック図である。図において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バスを介して端末１０の各部を制御する。記憶部１２は、制御部１１によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、液晶パネルを備え、制御部１１による制御の下に各種の画像を表示する。操作部１４は、端末１０の利用者による操作に応じた信号を出力する。マイクロホン１５は、収音し、収音した音声を表す音声信号（アナログ信号）を出力する。音声処理部１６は、マイクロホン１５が出力する音声信号（アナログ信号）をＡ／Ｄ変換によりデジタルデータに変換する。また、音声処理部１６は、供給されるデジタルデータをＤ／Ａ変換によりアナログ信号に変換してスピーカ１７に供給する。スピーカ１７は、音声処理部１６から出力されるアナログ信号に応じた強度で放音する。通信部１８は、他の端末１０との間で通信網２０を介して通信を行うための通信手段である。撮影部１９は、撮影し、撮影した映像を表す映像データを出力する。

なお、この実施形態では、マイクロホン１５とスピーカ１７とが端末１０に含まれている場合について説明するが、音声処理部１６に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良い。同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続する構成としてもよい。また、この実施形態では、マイクロホン１５から音声処理部１６へ入力されるオーディオ信号及び音声処理部１６からスピーカ１７へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部１６にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１３や撮影部１９についても同様であり、外部出力端子や外部入力端子を設け、外部モニタや外部撮影装置を接続する構成としても良い。

記憶部１２は、図示のように、カウントテーブル記憶領域１２１を有している。カウントテーブル記憶領域１２１には、会議の参加者がうなずいたときの動作又は音声（以下「うなずき動作」と称する）の検出の回数や頻度を示すカウントデータが、自端末１０に接続されている他の端末１０毎に記憶される。図３は、カウントテーブルの内容の一例を示す図である。図示のように、このテーブルは、「端末ＩＤ」と「カウントデータ」との各項目が互いに関連付けて構成されている。これらの項目のうち、「端末ＩＤ」の項目には、端末１０を識別する端末ＩＤが記憶される。「カウントデータ」の項目には、対応する端末ＩＤの示す端末１０から送信されてくるデータからうなずき動作が検出された回数や頻度を示すカウントデータが記憶される。

＜動作＞
次に、本実施形態の動作について説明する。端末１０は、マイクロホン１５で収音した音声を表す音声データと撮影部１９で撮影した映像を表す映像データとを含むデータ（以下「会議データ」と称する）を、他の端末１０に送信するとともに、他の端末１０から送信されてくる会議データを受信し、受信した会議データに含まれる音声データをスピーカ１７から音として放音するとともに、受信した会議データに含まれる映像データを表示部１３に出力して映像を表示させる。これにより遠隔会議が実現される。

このとき、端末１０の制御部１１は、マイクロホン１５で収音された音声を表す音声データ及び撮影部１９によって撮影された映像を表す映像データのうちの少なくともいずれか一方を解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを参加者のうなずき動作として検出する。この動作例では、制御部１１は、撮影部１９から出力される映像データを解析して顔画像検出を行うことにより、参加者のうなずき動作を検出する。具体的には、まず、制御部１１は、映像データを解析して顔画像の検出を行う。次いで、制御部１１は、検出した顔画像の位置及び方向を検出することによって参加者の顔の動きの検出を行う。次いで、制御部１１は、検出された顔の動きのパターンを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものをうなずき動作として検出する。この照合パターンとしては、うなずき動作における顔の動きの特徴を表すデータを用いればよい。この照合パターンは、端末１０の記憶部１２の所定の記憶領域に予め記憶しておくようにしてもよく、また、所定のサーバ装置等から取得するようにしてもよい。

制御部１１は、うなずき動作が検出された回数をカウントし、カウント結果を示すカウントデータを、カウントテーブル記憶領域１２１に記憶されたテーブルに記憶する。すなわち、制御部１１は、うなずき動作が検出される毎に、カウントテーブル記憶領域１２１に記憶されたカウントデータの値を更新する。

また、制御部１１は、予め定められた単位時間毎に、カウント結果を示すカウントデータを、通信中の他の端末１０に対して送信するとともに、他の端末１０から送信されてくるカウントデータを受信する。制御部１１は、他の端末１０から送信されてくるカウントデータをカウントテーブル記憶領域１２１に記憶されたテーブルに記憶する。すなわち、制御部１１は、他の端末１０からカウントデータを受信する毎に、カウントテーブル記憶領域１２１に記憶された端末１０毎のカウントデータの値を更新する。

また、制御部１１は、遠隔会議が行われている最中において、うなずき動作のカウント結果を表示部１３に表示させる。図４は、表示部１３に表示される画面の一例を示す図である。図４に示す例においては、遠隔会議に参加している参加者（すなわち他の端末１０の利用者）の映像Ａ１，Ａ２，Ａ３，Ａ４がそれぞれ表示されるとともに、各映像Ａ１，Ａ２，Ａ３，Ａ４の近傍に、カウントデータの示す内容を表す画像Ｂ１，Ｂ２，Ｂ３，Ｂ４がそれぞれ表示される。制御部１１は、所定単位時間毎に表示部１３に、カウントデータに対応するデータを表示部１３に出力し、表示部１３は、制御部１１から供給されるデータに応じて表示内容を更新する。すなわち、遠隔会議が行われている最中において、各参加者のうなずき動作の検出の頻度や回数を示す画像が表示されるとともに、その表示がリアルタイムで更新される。

遠隔会議の参加者は、表示部１３に表示される画面を確認することで、どの参加者がどのような頻度でうなずく動作を行っているかを確認することができる。一般的に、うなずき動作は、認知した内容に対して肯定的な理解を示したときに発生するので、おおまかにうなずき回数が参加者の内容理解度に比例すると考えられる。そのため、本実施形態によれば、表示部１３に表示される画面を参照することで、各参加者の理解度を推定することができる。

このように、計測されたうなずき動作のカウント結果は、リアルタイムに他の参加者の端末１０に送信され、各参加者のビデオ映像の脇に表示される。他の端末１０においては、他の端末１０の制御部１１は、受信されたカウントデータに応じた画像を表示する。なお、画像を表示するに代えて、音声メッセージを出力するようにしてもよい。これにより、他の端末１０の利用者は、自身のうなずきの回数や他の参加者のうなずき回数を、遠隔会議の最中に把握することができる。

また、制御部１１は、参加者のうなずき動作のカウント結果を、会議中の時間軸に沿って記憶する。図５は、制御部１１が行うカウント処理の内容の一例を示す図である。図において、横軸は時刻を示し、縦軸はうなずき動作の回数を示す。制御部１１は、検出されるうなずき動作の回数を、予め定められた時間単位で算出し、算出結果を記憶部１２の所定の記憶領域に記憶する。この算出処理は、他の端末１０毎のそれぞれ個別に算出するようにしてもよく、また、複数の端末１０をまとめて全体として算出するようにしてもよい。また、図５に示すような、カウント結果を時間軸に沿って算出した結果を示す画像を、自端末１０又は他の端末１０の表示部１３に表示するようにしてもよい。

さて、遠隔会議を終えると、会議の参加者は、操作部１４を用いて、会議が終了した旨を入力する。制御部１１は、操作部１４から出力される信号に応じて、会議が終了したか否かを判定する。会議が終了したと判定すると、制御部１１は、カウントしたうなずき動作の回数（以下「うなずき回数」という）を集計して、どの参加者のうなずき回数が多かったか、どの時間帯のうなずき回数が高かったか、全体のうなずき回数はどれくらいか、話し手（講師）による理解度の違いはあるのかどうか、を計算する。

図６は、うなずき動作の検出の回数を端末１０毎に算出した場合の統計結果の一例を示す図である。図６に示す例では、うなずき動作の検出回数が、端末１０の利用者毎に統計されている。制御部１１は、利用者の操作に応じて、図６に例示するような画像を表示部１３に表示させる。会議の参加者は、表示される画面をみることで、どの参加者のうなずき回数が多かったか、等を把握することができる。また、図６に示す例に限らず、制御部１１が、所定の時間帯毎のうなずき回数の統計をとるようにしてもよく、また、遠隔講義等を行う場合には、講師（発話者）毎のうなずき回数の統計をとって、どの講師による講義に対するうなずき回数が多いかを算出するようにしてもよい。

このように本実施形態では、端末１０は、参加者の顔のビデオ映像をリアルタイムに信号処理し、顔の位置及び方向の検出・顔の動きの検出を行い、参加者のうなずきの回数をカウントする。カウントした結果はリアルタイムに他の参加者に送信することもできるし、保存した回数を後でチェックすることもできる。このように、参加者のうなずき回数をビデオ映像の処理によって計測し、画面表示などの方法で参加者にフィードバックすることで、会議の理解度や会議参加の積極性を推し量ることができる。参加者は、うなずきの回数をリアルタイムに知ることができる。

また、本実施形態では、うなずきの回数を記録しておき、後で集計することができる。うなずき回数を保存しておき、後で集計することによって、参加者別の理解度の違いや、時間帯別の理解度の違い（ある特定の部分の説明は全体のうなずきが少なければ、その部分は理解されていないとわかる）、話者（講師）別の理解度の違いなどを把握することができる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）上述の実施形態では、本発明に係る通信端末を用いて遠隔会議を行う場合について説明したが、本発明はこれに限らず、例えば、通信ネットワークを介して講義や講演を行う場合においても本発明を適用することができる。

（２）上述の実施形態において、制御部１１が、うなずき動作の回数から理解度を算出するようにしてもよい。この場合は、うなずき頻度と理解度との対応関係を記憶部１２の対応関係記憶領域１２２（図１に鎖線で図示）に記憶しておく。図７は、対応関係記憶領域１２２に記憶された対応関係の内容の一例を示す図である。図７において、横軸はうなずき動作の検出頻度を示し、縦軸は理解度を示す。上述したように、うなずき動作は、認知した内容に対して肯定的な理解を示したときに発生するので、おおまかにうなずき回数が参加者の内容理解度に比例すると考えられる。制御部１１は、対応関係記憶領域１２２に記憶された対応関係を参照して、算出したうなずき頻度に対応する理解度を特定し、特定した理解度を示すデータを表示部１３等に出力する。具体的には、例えば、表示部１３に「理解度ｘｘ％」といったメッセージを表示したり、理解度を示す音声メッセージをスピーカ１７から放音したりしてもよい。このようにすることにより、会議の参加者は、各参加者の理解度を把握し易くなる。

うなずき回数と理解度との対応関係は、図７に例示するものに限らず、例えば、対応関係を示すテーブル等であってもよい。また、制御部１１が、予め定められたアルゴリズムに従ってうなずき回数を理解度に変換するようにしてもよい（例えば、ある一定時間内に５回以上うなずいたら理解度１００％、等）。要は、うなずき回数と理解度との対応関係を参照して、制御部１１が、算出した回数に対応する理解度を特定するようにすればよい。

（３）上述の実施形態において、肯定的な理解をうなずき動作で表現しない国（例えば、インドやブルガリアは、Ｙｅｓを首を横に傾けることで表現する、等）において遠隔会議を実施する場合は、制御部１１が、上述の実施形態に係るうなずき動作以外の顔の動きを検知するようにしてもよい。この場合は、地域（国等）を識別する地域識別データと、その地域において肯定的な理解を示す動作又は音声の特徴を表す照合パターンとを対応付けて記憶部１２の所定の記憶領域（以下「照合パターン記憶領域」という）に予め記憶しておき、端末１０の利用者が、操作部１４を操作して自身の属する地域を識別する地域識別データを入力するようにすればよい。制御部１１は、操作部１４から出力される信号に応じて、入力された地域識別データに対応する照合パターンを照合パターン記憶領域から読み出し、読み出した照合パターンを用いて、他の端末１０から受信される会議データに含まれる映像データ又は音声データからうなずき動作を検出するようにすればよい。このようにすることにより、肯定的な理解をどのような動作によって検出するかを、会議の参加者の地域に応じて切り替えることができる。

（４）上述の実施形態において、うなずきのタイミングをはずす参加者を検出するようにしてもよい。この場合は、例えば、制御部１１が、端末１０毎のうなずき動作の検出タイミングを統計し、統計結果に応じて基準となるうなずき動作のタイミング（以下「基準タイミング」）を算出する。次いで、制御部１１が端末１０のそれぞれについて、うなずき動作が検出されるタイミングと基準タイミングとの差分が予め定められた閾値以上である端末１０を、タイミングがずれている参加者の端末であると特定し、特定結果を示すデータを表示部１３等に出力するようにしてもよい。このようにすることにより、各参加者は、うなずくタイミングが他の人とずれていることを把握することができ、また、どの参加者がずれているかを把握することができる。

（５）上述の実施形態において、参加者のそれぞれでうなずく頻度が異なる場合がある。例えば、頻繁にうなずき動作を行う傾向のある者や、話を理解しているもののそれほど頻繁にうなずかない傾向のある者もいる。そこで、制御部１１が、参加者毎にうなずき動作の検出回数や検出頻度の重み付けを行うようにしてもよい。この場合は、参加者を識別する参加者ＩＤ（又は端末１０を識別する端末ＩＤ）と重み付け係数とを対応付けて記憶部１２の所定の領域に予め記憶しておき、制御部１１が、記憶された対応関係を参照して、端末１０毎の検出されたうなずき回数に重み付け係数を乗算し、重み付けした結果を表示部１３等に表示するようにしてもよい。このようにすることで、参加者毎の理解度をより把握し易くすることができる。

（６）上述の実施形態では、端末１０の制御部１１は、他の端末１０から受信する映像データを画像解析することによって参加者のうなずき動作を検出したが、うなずき動作の検出の態様はこれに限らず、他の端末１０から受信される音声データを音声解析することによってうなずき音声を検出するようにしてもよい。この場合は、例えば、端末１０の記憶部１２にうなずきやあいづちを表す音声（以下「うなずき音声」という）又はうなずき音声の特徴を表す照合パターンを予め記憶しておき、制御部１１が、受信された音声データを記憶部１２に記憶された照合パターンと照合し、両者の一致度に応じてうなずき音声を検出するようにしてもよい。また、うなずき音声の検出の態様としては、例えば、制御部１１が、受信した音声データを音声解析し、単語として認識されなかった箇所をうなずき音声として検出するようにしてもよい。

（７）上述の実施形態では、図４に示すように、各参加者の画像の近傍に、うなずき動作の検出結果を示す画像を表示するようにしたが、表示の態様は上述したものに限らず、例えば、検出結果を示す画像を半透明にして各参加者の画像に重畳して表示するようにしてもよい。また、上述の実施形態においては、端末１０は、表示部１３にカウント結果を示す画像を表示することによってカウント結果を参加者に報知したが、報知の態様はこれに限らず、例えば、音声メッセージを出力することによって報知してもよく、また、カウント結果を示すデータを電子メール形式で受講者のメール端末に送信するといった形態であってもよい。また、カウント結果を示す情報を記録媒体に出力して記憶させるようにしてもよく、この場合、参加者はコンピュータを用いてこの記録媒体から情報を読み出させることで、それらを参照することができる。また、カウント結果を所定の用紙に印刷出力してもよい。要は参加者に対して何らかの手段でメッセージ乃至情報を伝えられるように、カウント結果を示す情報を出力するものであればよい。

また、端末１０が、カウント結果を音で報知する場合において、端末１０毎に音を異ならせるようにしてもよい。このようにすることで、端末１０毎（すなわち参加者毎）の理解度を把握し易くすることができる。また、端末１０が、カウント数に応じて音を異ならせるようにしてもよい。この場合は、例えば、制御部１１が、カウント数が多いほど音圧を大きくするように制御してもよい。

（８）上述の実施形態では、複数の端末１０のそれぞれが、その端末１０の利用者のうなずき回数やうなずき頻度を算出するようにしたが、これに代えて、複数の端末１０と通信ネットワークを介して接続されたサーバ装置が、複数の端末１０のそれぞれに対応する利用者のうなずき回数やうなずき頻度を算出するようにしてもよい。この場合は、サーバ装置の制御部が、通信ネットワークを介して接続された複数の端末１０から会議データを受信し、受信された端末１０毎の会議データをそれぞれ解析して、うなずき動作の検出の頻度を端末１０毎に算出し、算出結果を示すデータを、端末１０のそれぞれに送信するようにすればよい。

（９）上述の実施形態において端末１０の制御部１１によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で端末１０にダウンロードさせることも可能である。

遠隔会議システムの構成の一例を示すブロック図である。端末の構成の一例を示すブロック図である。カウントテーブルの内容の一例を示す図である。表示部に表示される画面の一例を示す図である。制御部が行うカウント処理の内容の一例を示す図である。うなずき動作の検出の回数を端末毎に算出した場合の統計結果の一例を示す図である。うなずき動作の頻度と理解度との対応関係の一例を示す図である。

符号の説明

１…遠隔会議システム、１０…端末、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロホン、１６…音声処理部、１７…スピーカ、１８…通信部、１９…撮影部、２０…通信網、１２１…カウントテーブル記憶領域、１２２…対応関係記憶領域。

Claims

収音手段によって収音された聴取者の音声を表す音声データ及び撮影手段によって撮影された前記聴取者の映像を表す映像データの少なくともいずれか一方を含むデータを取得するデータ取得手段と、
前記データ取得手段により取得されたデータを解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記聴取者のうなずき動作として検出する検出手段と、
前記検出手段によって検出されるうなずき動作の検出の頻度を算出する算出手段と、
前記算出手段によって算出された頻度を表す頻度データを出力する出力手段と
を具備することを特徴とする通信装置。
前記頻度と理解度との対応関係を記憶する対応関係記憶手段と、
前記対応関係記憶手段を参照して、前記算出手段によって算出された頻度に対応する理解度を特定する理解度特定手段と
を具備し、
前記出力手段は、前記理解度特定手段によって特定された理解度を示す理解度データを出力する
ことを特徴とする請求項１に記載の通信装置。
前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた時間単位で算出する
ことを特徴とする請求項１又は２に記載の通信装置。
前記照合パターンを、地域を識別する識別データ毎に記憶する照合パターン記憶手段と、
前記地域を識別する識別データを取得する識別データ取得手段と、
前記識別データ取得手段により取得された識別データに対応する照合パターンを前記照合パターン記憶手段から読み出す照合パターン読出手段と
を具備し、
前記検出手段は、前記照合パターン読出手段により読み出された照合パターンを前記解析結果と照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出する
ことを特徴とする請求項１乃至３のいずれか１項に記載の通信装置。
前記データ取得手段は、前記データを、通信ネットワークを介して接続された複数の端末からそれぞれ受信し、
前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、前記端末毎に算出する
ことを特徴とする請求項１乃至４のいずれか１項に記載の通信装置。
前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた単位時間毎に統計する統計手段と、
前記統計手段による統計結果に応じて、基準となるうなずき動作のタイミングを基準タイミングとして算出する基準タイミング算出手段と、
前記複数の端末のなかから、前記検出手段によって検出されたうなずき動作の検出のタイミングと前記基準タイミング算出手段によって算出された基準タイミングとの差分が予め定められた閾値以上である端末を特定する端末特定手段と、
前記端末特定手段による特定結果を示す特定データを出力する特定データ出力手段と
を具備することを特徴とする請求項５に記載の通信装置。
前記データ取得手段は、前記聴取者の映像を表す映像データを含むデータを取得し、
前記検出手段は、
前記データ取得手段により取得された映像データを解析して顔画像の検出を行う顔画像検出手段と、
前記顔画像検出手段により検出された顔画像の位置及び方向を検出することによって顔の動きの検出を行う動き検出手段と、
前記動き検出手段によって検出された顔の動きを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出するうなずき動作検出手段とを具備する
ことを特徴とする請求項１乃至６のいずれか１項に記載の通信装置。
前記データ取得手段は、前記聴取者の音声を表す音声データを含むデータを取得し、
前記検出手段は、前記データ取得手段により取得された音声データを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出する
ことを特徴とする請求項１乃至６のいずれか１項に記載の通信装置。