JP2001067482A

JP2001067482A - 人物の反応認識装置およびそのためのプログラムを記録したコンピュータ読取可能な記録媒体

Info

Publication number: JP2001067482A
Application number: JP24258199A
Authority: JP
Inventors: Kinzan To; 金山唐; Shinjiro Kawato; 慎二郎川戸; Atsushi Otani; 淳大谷
Original assignee: ATR Media Integration and Communication Research Laboratories
Current assignee: ATR Media Integration and Communication Research Laboratories
Priority date: 1999-08-30
Filing date: 1999-08-30
Publication date: 2001-03-16

Abstract

(57)【要約】【課題】遠隔地にいる多数の人物の、ある話者に対す
る反応を話者に対して的確に伝達することができる人物
の反応認識装置を提供する。【解決手段】表示される映像に対する人物の反応を認
識するための人物の反応認識装置３４は、人物の顔画像
の映像シーケンスを取得するための映像取得部１００
と、取得された映像シーケンスを、映像フレーム間の動
きに基づいて安定静止ユニットと活動検出ユニットとに
分類するための検出・分離サブシステム１０２と、安定
静止ユニットに分類されたフレームシーケンスおよび活
動検出ユニットに分類されたフレームシーケンスから人
物の反応を認識するための判定サブシステム１０４とを
含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、多数地点を結ん
で通信により行なわれる会議、講演、授業等に用いられ
る通信システムに関し、特に、各会場の出席者の反応を
発言者、講演者等に対して的確に理解させるための、聴
衆の反応の調査および評価をするためのシステムに関す
る。

【０００２】

【従来の技術】放送は、ある情報を多数の聴衆に伝える
上で非常に重要な手段である。その典型として、放送を
用いた教育システムがある。放送を用いた教育システム
では、講師が行なう講議を放送し、各地に設けた受講会
場でこの放送を受信してたとえばテレビジョン等を用い
て表示する。受講者はこの受講会場においてこの放送を
見ることにより講議を受講することができる。なお、各
地の受講者は必ずしも複数でなく、一人の場合もあり得
る。

【０００３】一方、近年の通信技術、特にインターネッ
ト技術の発達により、このような放送に類似した方法を
用いて講議を行なうシステムが出現しつつある。これは
特に、講師と受講者との間での双方向通信が可能なの
で、たとえば外国語学習等において有効である。既存の
システムとしては、特開平１１−５５６４３号公報に開
示されたものがある。

【０００４】特開平１１−５５６４３号公報に開示され
たシステムは、講師の側と受講者との間で映像（および
音声）を双方向通信することを前提に、利用者のプライ
バシーを保護するために、利用者の許諾があった場合の
み映像の送信を行なうものである。

【０００５】

【発明が解決しようとする課題】通信を用いない一般的
な講議では、講師が演壇に立ち、聴衆は演壇の前に座る
ことが多い。講師は演壇の上から講議を行なう。この場
合、講師は聴衆の反応を見ることができ、その結果に応
じて途中で講議の内容を変えたり、講議の順序を変えた
りすることができる。たとえば、聴衆が退屈していると
見れば、講師は講議とは直接の関係はないが、聴衆の興
味を引くことができるような話題に切替え、聴衆が再び
講議に集中した段階で講議の内容を本筋に戻すことがで
きる。

【０００６】通信を用いた学習システムでも同様のこと
が可能である。たとえば講師１人に対して生徒が３名程
度であれば、各生徒の画像を講師の前に表示することが
できる。講師は、一般的な講議の場合と同じようにこれ
ら生徒の反応を把握し、生徒の反応に応じて講議の内容
を適切に調整することができる。

【０００７】しかし、通信を用いて多数の聴衆に対して
同じことを行なうのは困難である。なぜなら、インター
ネット等の手段で映像を送信する場合には、受講会場が
多数となると通信量が莫大となり、各受講会場から講師
のもとに映像を送るのは実質的に不可能となるためであ
る。また仮に各受講会場から講師のもとに映像を送るこ
とができたとしても、一般的な講議または講演の場合と
比較して聴衆の数がはるかに多くなることが予想され、
その場合にはそれら聴衆全体の反応を講師に的確に伝え
ることが極めて困難となるからである。

【０００８】また、こうした問題は講議、講演、演説
等、いわゆる一方方向の情報の伝達のときに限らず、た
とえば複数箇所に集まった比較的多数の人物の間でディ
スカッションを行なう場合にも存在する。こうしたディ
スカッションでは、いわゆる仮想空間の技術が用いられ
得るが、仮想空間で主として使用される技術は、出席者
個々の表情等を他の出席者にいかに伝えるか、という技
術であって、上記した問題を解決することはできない。
またディスカッションでは、話者のみならず、聴衆に相
当する人物も話者になりうるので、互いに他の会場にお
ける出席者の反応を的確に把握できれば便利である。

【０００９】さらに、このようにディスカッションの場
合に限らず、講議、講演、演説等の場合にも、聴衆が他
の会場の聴衆の反応を知ることが有益な場合もあるだろ
う。

【００１０】それゆえに本発明の目的は、遠隔地にいる
多数の人物の、ある話者に対する反応を話者に対して的
確に伝達することができる人物の反応認識装置を提供す
ることである。

【００１１】この発明の他の目的は、遠隔地にいる多数
の人物の反応を互いに的確に伝達することができる人物
の反応認識装置を提供することである。

【００１２】

【課題を解決するための手段】請求項１に記載の発明に
かかる人物の反応認識装置は、表示される映像に対する
人物の反応を認識するための反応認識装置であって、人
物の顔画像の映像シーケンスを取得するための映像取得
手段と、取得された映像シーケンスを、映像フレーム間
の動きに基づいて安定静止ユニットと活動検出ユニット
とに分類するための第１の分類手段と、安定静止ユニッ
トに分類されたフレームシーケンスおよび活動検出ユニ
ットに分類されたフレームシーケンスから人物の反応を
認識するための反応認識手段とを含む。

【００１３】この発明によれば、安定静止ユニットと活
動検出ユニットとに基づいて、人物の反応を認識するこ
とができる。この反応を示す情報を映像の送信元に送っ
て統計をとることにより、映像の送信元では通信先に存
在する多くの聴衆の反応を把握することができる。

【００１４】請求項２に記載の発明にかかる人物の反応
認識装置は、請求項１に記載の発明の構成に加えて、第
１の分類手段は、隣接するフレーム間のフレーム間差分
に基づいて、映像シーケンスを静止ユニットと動きユニ
ットとに分類するための第２の分類手段と、静止フレー
ムを、その持続期間に基づいて安定静止ユニットと不安
定静止ユニットとに分類するための第３の分類手段と、
連続する不安定静止ユニットと動きユニットとを活動検
出ユニットとして統合するための統合手段とを含む。

【００１５】請求項３に記載の発明にかかる人物の反応
認識装置は、請求項１に記載の発明の構成に加えて、反
応認識手段は、安定静止ユニット内のフレームから人物
の顔画像の特徴ベクトルを抽出するための第１の特徴ベ
クトル抽出手段と、第１の特徴ベクトル抽出手段の出力
する特徴ベクトルを入力として、特徴ベクトルに対応す
る姿勢情報を出力する、あらかじめ学習済みの第１のニ
ューラルネットワークと、活動検出ユニット内のフレー
ム間差分の情報から人物の顔画像の動きに対応する特徴
ベクトルを抽出するための第２の特徴ベクトル抽出手段
と、第２の特徴ベクトル抽出手段の出力する特徴ベクト
ルを入力として、特徴ベクトルに対応するジェスチャー
情報を出力する、あらかじめ学習済みの第２のニューラ
ルネットワークとを含む。

【００１６】請求項４に記載の発明にかかる人物の反応
認識装置は、請求項３に記載の発明の構成に加えてさら
に、第１のニューラルネットワークと第２のニューラル
ネットワークとのいずれか少なくとも一方は、各々が所
定の反応カテゴリーと関連付けられ、第１または第２の
特徴ベクトル抽出手段の出力する特徴ベクトルを入力と
して、所定の反応カテゴリとの関連度の高さを出力す
る、複数個の１対１ニューラルネットワークを含む。

【００１７】１対１ニューラルネットワークを用いるた
め、新たな反応カテゴリを認識対象として追加するとき
には、その反応カテゴリに対応する１対１ニューラルネ
ットワークを追加すればよく、簡単に機能を拡張でき
る。

【００１８】請求項５に記載の発明にかかる人物の反応
認識装置は、請求項１〜請求項４のいずれかに記載の発
明の構成に加えて、映像取得手段は、ビデオカメラと、
ビデオカメラの出力する映像信号をフレームごとにデジ
タル信号に変換するための映像信号変換手段と、映像信
号変換手段の出力する映像シーケンスに基づいて、各フ
レーム内の人物の顔領域を特定するための顔領域特定手
段とを含む。

【００１９】請求項６に記載の発明にかかる人物の反応
認識装置は、請求項１〜請求項５のいずれかに記載の発
明の構成に加えて、顔領域特定手段は、映像信号変換手
段の出力する映像シーケンスに基づいて、第１の手法に
より各フレーム内の人物の顔領域を特定するための第１
の手段と、映像信号変換手段の出力する映像シーケンス
に基づいて、第２の手法により各フレーム内の人物の顔
領域を特定するための第２の手段と、第１の手段および
第２の手段による顔領域の特定結果を統合して顔領域を
特定する顔領域の統合手段とを含む。

【００２０】複数の手法を用いて顔画像領域を決定する
ので、顔画像領域を確実に決定することができる。

【００２１】請求項７に記載の発明にかかる人物の反応
認識装置は、請求項６に記載の発明の構成に加えて、映
像シーケンスはＲＧＢカラー映像シーケンスであり、第
１の手段はＲＧＢカラー映像シーケンスをｒｇ色空間に
変換した映像中の色分布と所定の色分布パターンとの類
似度に基づいて顔領域を特定するための手段を含む。

【００２２】請求項８に記載の発明にかかる人物の反応
認識装置は、請求項６または請求項７に記載の発明の構
成に加えて、映像シーケンスはＲＧＢカラー映像シーケ
ンスであり、第１の手段はＲＧＢカラー映像シーケンス
をＮＣｂ‐ＮＣｒ色空間に変換した映像中の色分布と所
定の色分布パターンとの類似度に基づいて顔領域を特定
するための手段を含む。

【００２３】請求項９に記載の発明にかかるコンピュー
タ読取可能な記録媒体は、コンピュータを、表示される
映像に対する人物の反応を認識するための反応認識装置
として動作させるためのプログラムを記録したコンピュ
ータ読取可能な記録媒体であって、このプログラムは、
人物の顔画像に対して取得された映像シーケンスを、映
像フレーム間の動きに基づいて安定静止ユニットと活動
検出ユニットとに分類するための第１の分類プログラム
部分と、安定静止ユニットに分類されたフレームシーケ
ンスおよび活動検出ユニットに分類されたフレームシー
ケンスから人物の反応を認識するための反応認識プログ
ラム部分とを含む。

【００２４】請求項１０に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項９に記載の発明の構
成に加えて、第１の分類プログラム部分は、隣接するフ
レーム間のフレーム間差分に基づいて、映像シーケンス
を静止ユニットと動きユニットとに分類するための第２
の分類プログラム部分と、静止フレームを、その持続期
間に基づいて安定静止ユニットと不安定静止ユニットと
に分類するための第３の分類プログラム部分と、連続す
る不安定静止ユニットと動きユニットとを活動検出ユニ
ットとして統合するための統合プログラム部分とを含
む。

【００２５】請求項１１に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項１０に記載の発明の
構成に加えて、反応認識プログラム部分は、安定静止ユ
ニット内のフレームから人物の顔画像の特徴ベクトルを
抽出するための第１の特徴ベクトル抽出プログラム部分
と、第１の特徴ベクトル抽出プログラム部分の出力する
特徴ベクトルを入力として、特徴ベクトルに対応する姿
勢情報を出力する、あらかじめ学習済みの第１のニュー
ラルネットワークプログラム部分と、活動検出ユニット
内のフレーム間差分の情報から人物の顔画像の動きに対
応する特徴ベクトルを抽出するための第２の特徴ベクト
ル抽出プログラム部分と、第２の特徴ベクトル抽出プロ
グラム部分の出力する特徴ベクトルを入力として、特徴
ベクトルに対応するジェスチャー情報を出力する、あら
かじめ学習済みの第２のニューラルネットワークプログ
ラム部分とを含む。

【００２６】請求項１２に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項１１に記載の発明の
構成に加えて、第１のニューラルネットワークプログラ
ム部分と第２のニューラルネットワークプログラム部分
とのいずれか少なくとも一方は、各々が所定の反応カテ
ゴリーと関連付けられ、第１または第２の特徴ベクトル
抽出プログラム部分の出力する特徴ベクトルを入力とし
て、所定の反応カテゴリとの関連度の高さを出力する、
複数個の１対１ニューラルネットワークプログラム部分
を含む。

【００２７】１対１ニューラルネットワークプログラム
部分を用いるため、新たな反応カテゴリを認識対象とし
て追加するときには、その反応カテゴリに対応する１対
１ニューラルネットワークプログラム部分を追加すれば
よく、簡単に機能を拡張できる。

【００２８】請求項１３に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項９〜請求項１２のい
ずれかに記載の発明の構成に加えて、プログラムはさら
に、映像シーケンスに基づいて、各フレーム内の人物の
顔領域を特定して第１の分類プログラム部分に与えるた
めの顔領域特定プログラム部分を含む。

【００２９】請求項１４に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項９〜請求項１３のい
ずれかに記載の発明の構成に加えて、顔領域特定プログ
ラム部分は、映像シーケンスに基づいて、第１の手法に
より各フレーム内の人物の顔領域を特定するための第１
のプログラム部分と、映像シーケンスに基づいて、第２
の手法により各フレーム内の人物の顔領域を特定するた
めの第２のプログラム部分と、第１のプログラム部分お
よび第２のプログラム部分による顔領域の特定結果を統
合して顔領域を特定する顔領域の統合プログラム部分と
を含む。

【００３０】複数の手法を用いて顔画像領域を決定する
ので、顔画像領域を確実に決定することができる。

【００３１】請求項１５に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項１４に記載の発明の
構成に加えて、映像シーケンスはＲＧＢカラー映像シー
ケンスであり、第１のプログラム部分はＲＧＢカラー映
像シーケンスをｒｇ色空間に変換した映像中の色分布と
所定の色分布パターンとの類似度に基づいて顔領域を特
定するためのプログラム部分を含む。

【００３２】請求項１６に記載の発明にかかるコンピュ
ータ読取可能な記録媒体は、請求項１４または請求項１
５に記載の発明の構成に加えて、映像シーケンスはＲＧ
Ｂカラー映像シーケンスであり、第１のプログラム部分
はＲＧＢカラー映像シーケンスをＮＣｂ‐ＮＣｒ色空間
に変換した映像中の色分布と所定の色分布パターンとの
類似度に基づいて顔領域を特定するためのプログラム部
分を含む。

【００３３】

【発明の実施の形態】［説明で使用する式］以下の実施
の形態の説明では、以下の式を用い、各式の式番号を用
いて随時参照する。

【００３４】

【数１】

【００３５】

【数２】

【００３６】

【数３】

【００３７】

【数４】

【００３８】［実施の形態１］［システム全体構成］以下、本発明の実施の形態１にか
かる遠隔放送システムについて説明する。以下に説明す
るシステムは、１箇所において講議をする講師の映像を
複数箇所の受講会場において放送し、この各受講会場の
聴衆の反応を講師に対して提示するシステムである。な
お以下の説明では、説明を簡略化するために、音声に関
する記載はしていないが、講議、講演、ディスカッショ
ン等では音声は不可欠であり、必要に応じて音声を取得
し送受信し再生するための構成が存在することは明らか
である。また、それらを実現するための構成は当業者に
は明白であろう。

【００３９】図１を参照して、この遠隔放送システム２
０は、遠隔の複数地点に設けられ、各地点の聴衆の反応
をまとめ抽象化した、反応を示すデータを生成するため
の複数個の受講会場用システム３４と、講師が行なう講
議の様子をこれら複数個の受講会場にインターネットを
通じて放送するための講師用システム３２と、これら複
数個の受講会場用システム３４および講師用システム３
２を結び、各受講会場用システム３４の前の聴衆の反応
を総合して講師用システム３２に対して送信するための
集計センター３０とを含む。なお、講師用システム３２
から受講会場用システム３４への講議の放送は、インタ
ーネットを通じたもののみでなく、衛星放送または地上
波など通常の電波を用いた放送でもよい。［ハードウェア構成］この遠隔放送システムは、パーソ
ナルコンピュータまたはワークステーション等、コンピ
ュータ上で実行されるソフトウェアにより実現される。
図２に、この遠隔放送システムを実現するために使用さ
れるコンピュータの外観を示す。集計センター３０、講
師用システム３２および受講会場用システム３４はいず
れもほぼ同様のハードウェア構成であり、この図２に示
したものと同じである。以下に、集計センター３０、講
師用システム３２および受講会場用システム３４を代表
してシステム４０として表し、このシステム４０につい
て説明する。

【００４０】図２を参照してこのシステム４０を構成す
るコンピュータ本体６０は、ＣＤ−ＲＯＭ（Compact Di
sc Read-Only Memory ）ドライブ７０およびＦＤ（Flex
ibleDisk ）ドライブ７２を備えたコンピュータ本体６
０と、コンピュータ本体６０に接続された表示装置とし
てのディスプレイ６２と、同じくコンピュータ本体６０
に接続された入力装置としてのキーボード６６およびマ
ウス６８と、コンピュータ本体６０に接続された、人物
（聴衆）の画像を取込むためのビデオカメラ５０と、講
師用システム３２から送信されてきた講師の映像を表示
するための、大画面表示装置８６とを含む。この実施の
形態の装置では、ビデオカメラ５０としてはＣＣＤ（固
体撮像素子）を含むビデオカメラを用い、ビデオカメラ
５０を聴衆の正面において、大画面表示装置８６に表示
される講議に対する聴衆の反応を抽出する処理を行なう
ものとする。なお、簡単のために、以下では撮影される
聴衆の数は１人として説明するが、聴衆が複数いるとき
にも、人数に応じた繰返しを行なうことで容易に対応で
きる。

【００４１】図３に、このシステム４０の構成をブロッ
ク図形式で示す。図３に示されるようにこのシステム４
０を構成するコンピュータ本体６０は、ＣＤ−ＲＯＭド
ライブ７０およびＦＤドライブ７２に加えて、それぞれ
バス９２に接続されたＣＰＵ（Central Processing Uni
t）７６と、ＲＯＭ（Read Only Memory)７８と、ＲＡＭ
（Random Access Memory）８０と、ハードディスク７４
と、ビデオカメラ５０からの画像を取込むための画像取
得回路８８と、バス９２を介して得られる、図１に示す
講師用システム３２から送信された講議の模様を示すデ
ジタルデータ（圧縮されている）を伸長し、ビデオ信号
に変換するためのビデオ出力回路９０とを含んでいる。
ＣＤ−ＲＯＭドライブ７０にはＣＤ−ＲＯＭ８２が装着
される。ＦＤドライブ７２にはＦＤ８４が装着される。

【００４２】既に述べたようにこの遠隔放送システムの
主要部は、コンピュータハードウェアと、ＣＰＵ７６に
より実行されるソフトウェアとにより実現される。一般
的にこうしたソフトウェアはＣＤ−ＲＯＭ８２、ＦＤ８
４等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドラ
イブ７０またはＦＤドライブ７２等により記憶媒体から
読取られてハードディスク７４に一旦格納される。また
は、当該装置がネットワークに接続されている場合に
は、ネットワーク上のサーバから一旦ハードディスク７
４に一旦コピーされる。そうしてさらにハードディスク
７４からコンピュータ本体６０に読出されてＣＰＵ７６
により実行される。なお、ネットワーク接続されている
場合には、ハードディスク７４に格納することなくＲＡ
Ｍ８０に直接ロードして実行するようにしてもよい。

【００４３】図２および図３に示したコンピュータのハ
ードウェア自体およびその動作原理は一般的なものであ
る。したがって、本発明の最も本質的な部分はＣＤ−Ｒ
ＯＭ８２、ＦＤ８４、コンピュータ本体６０等の記憶媒
体に記憶されたソフトウェアである。

【００４４】なお、最近の一般的傾向として、コンピュ
ータのオペレーティングシステムの一部として様々なプ
ログラムモジュールを用意しておき、アプリケーション
プログラムはこれらモジュールを所定の配列で必要な時
に呼び出して処理を進める方式が一般的である。そうし
た場合、当該遠隔放送システムを実現するためのソフト
ウェア自体にはそうしたモジュールは含まれず、当該コ
ンピュータでオペレーティングシステムと協働してはじ
めて遠隔放送システムの構成要素の各機能が実現するこ
とになる。しかし、一般的なプラットフォームを使用す
る限り、そうしたモジュールを含ませたソフトウェアを
流通させる必要はなく、それらモジュールを含まないソ
フトウェア自体およびそれらソフトウェアを記録した記
録媒体（およびそれらソフトウェアがネットワーク上を
流通する場合のデータ信号）が実施の形態を構成すると
考えることができる。［受講会場用システム３４］図４を参照して、本実施の
形態の受講会場用システム３４は、ビデオカメラ５０
と、ビデオカメラ５０から受ける信号をフレームごとに
Ａ／Ｄ（アナログ／デジタル）変換し、記憶するための
映像取得部１００と、映像取得部１００から与えられる
デジタル映像信号に基づいて、映像の各フレームを後述
する「安定静止ユニット」と「活動検出ユニット」とに
分離するための検出・分離サブシステム１０２と、検出
・分離サブシステム１０２によって分離された安定静止
ユニットおよび活動検出ユニットに属する各フレームの
画像に基づいて、この会場の聴衆の反応を判定し、反応
を複数個のカテゴリに分類してカテゴリの情報を出力す
るための判定サブシステム１０４と、判定サブシステム
１０４から出力された各カテゴリの情報を所定時間集計
し、集計した結果を、講議に対するこの会場の聴衆の反
応を示すスコアとして出力することを所定の間隔で繰返
すための集計部１０６と、集計部１０６の出力をインタ
ーネットを通じて集計センター３０に送信し、講師用シ
ステム３２からの講議の映像データを受信するのを始
め、システム内での通信制御を行なうための送受信部１
０８と、送受信部１０８によって受信された講議の映像
データに対してデータ伸長、データ補間等の必要な処理
を行なった上で映像信号に変換し出力するための画像処
理部１１０と、画像処理部１１０からの映像信号を表示
するための、前述した大画面表示装置８６とを含む。

【００４５】以下、この受講会場用システム３４の主要
な機能ブロックの構成についてその詳細を説明する。［検出・分離サブシステム１０２］図５を参照して、検
出・分離サブシステム１０２は、映像取得部１００から
与えられる各フレームの画像の中から、聴衆たる人物の
顔の領域を検出するための顔領域検出部１２０と、顔領
域検出部１２０によって検出された顔領域について、入
力される映像の中に含まれる画像の動きに着目して、映
像を後述する「静止ユニット」と「動きユニット」とに
分類するための映像ストリームユニット分離部１２２
と、映像ストリームユニット分離部１２２によって静止
ユニットに分類されたユニットの継続時間に着目し、あ
るしきい値以上続く静止ユニットを「安定静止ユニッ
ト」に、あるしきい値未満の期間だけ継続する静止ユニ
ットを「不安定静止ユニット」に、それぞれ分類するた
めの静止ユニット分類部１２４と、映像ストリームユニ
ット分離部１２２によって動きユニットとして分類され
たユニットと、静止ユニット分類部１２４によって不安
定静止ユニットに分類されたユニットとを統合して前述
の「活動検出ユニット」として統合するためのユニット
統合部１２６とを含む。

【００４６】静止ユニット、動きユニット、安定静止ユ
ニット、不安定静止ユニットおよび活動検出ユニットに
ついては、図８および図９を参照して後により詳細に説
明する。［顔領域検出部１２０］複雑な背景を含む画像から人物
の顔領域を検出するための技術として多くの技術が提案
されている。それらは大別して、目、鼻、口等の顔部品
に代表される、顔面の特徴に基づいて顔領域を検出する
第１の手法と、人物の顔の色彩と背景の色彩との相違に
基づいて顔領域を検出する第２の手法とに分類される。
顔領域を検出できるものであればどちらの手法を用いて
もよいが、本実施例では以下に述べるように第２の手法
を用いる。

【００４７】また、本実施の形態のシステムでは、特に
顔領域の検出を確実に行なうために、rgb色空間を用い
る手法と、NCb-NCr色空間を用いる手法とを組合わせ、
双方の手法による結果を統合して顔領域を検出してい
る。これら手法はいずれも、人の顔の色の色分布が、人
の顔の色および照明の色にかかわらず２Ｄガウス分布で
モデル化できるという事実を利用している。色分布を算
出する際に一方がｒ，ｇ，ｂを用い、他方がＮＣｂ−Ｎ
Ｃｒを用いる点のみにおいてこれら手法は異なってい
る。

【００４８】図６を参照して、顔領域検出部１２０は、
入力されるＲＧＢ成分からなる映像ストリーム１３０に
対して、式（１）〜（３）で示される変換を行なうこと
により（ｒ，ｇ，ｂ）成分への色空間変換を行なうため
のrgb色空間変換処理１３２と、rgb色空間変換処理１３
２によって（ｒ，ｇ，ｂ）成分に変換された色成分のう
ち、ｒ，ｇ成分を用いて入力画像の色分布と、あらかじ
め用意されていた色分布との間の類似度マッピングをお
こなうためのr-g空間類似度計算処理１３４とを含む。
なお、ｒ，ｇ，ｂの和は式（１）〜（３）より分かるよ
うに必ず「１」となる。すなわち、ｒ，ｇ，ｂのうちの
どの一つも他の二つの成分によって表わされる。したが
って、ｒ，ｇのみを用いて色分布を表現することができ
る。

【００４９】ここで、人の顔の色における色分布は２Ｄ
ガウス分布Ｇ₁（ｍ₁，Ｖ₁ ²）と表現することができる。
ただし、各変数は式（４）〜（７）によって表される値
である。式のうち上線を引いた変数は、各変数のガウス
平均を表わす。Ｖ₁は２Ｄガウス分布の共分散行列を表
わす。Ｎは顔領域内の全画素数を表わす。

【００５０】顔領域検出部１２０はさらに、それぞれrg
b色空間変換処理１３２およびr-g空間類似度計算処理１
３４と同様の処理をＮＣｂ−ＮＣｒ色空間で行なうため
の(NCb, NCr)色空間変換処理１３６およびNCb-NCr空間
類似度計算処理１３８とを含む。ＮＣｂ，ＮＣｒを計算
するためのＹ，Ｃｂ，Ｃｒ色成分の値は式（８）〜（１
０）によって計算される。さらにこれらを式（１１）
（１２）に示されるように正規化することでＮＣｂおよ
びＮＣｒ色成分が得られる。

【００５１】このＮＣｂおよびＮＣｒ色成分を用いて表
わした色分布は２Ｄガウス分布Ｇ２（ｍ₂，Ｖ₂ ²）と表
現することができる。ここで、各変数は式（１３）〜
（１６）で表現される値を表わす。ここでも上線の意味
は式（４）〜（７）における意味と同じである。Ｖ₂は
２Ｄガウス分布の共分散マトリクスである。

【００５２】顔領域検出部１２０はさらに、r-g空間類
似度計算処理１３４で計算された類似度マッピングとNC
b-NCr空間類似度計算処理１３８で計算された類似度マ
ッピングとを統合して新たな類似度マッピングを生じる
ための類似度計算の統合処理１４０と、画像に対して後
処理をし、類似度計算の統合処理１４０によって得られ
た最終的な類似度マッピングにしたがって、顔領域に相
当する部分をだ円または矩形領域で表現してその位置を
示す情報を出力するための後処理１４２とを含む。

【００５３】r-g空間類似度計算処理１３４およびNCb-N
Cr空間類似度計算処理１３８における類似度マッピング
としては、式（１７）を用いた。式（１７）においてｋ
＝１の場合はｒ，ｇ空間、ｋ＝２の場合はＮＣｒ−ＮＣ
ｂ空間の場合にそれぞれ相当する。また式（１７）にお
いてＩ（ｘ，ｙ）は点（ｘ，ｙ）における各色成分の強
さを表わし、ｍは色成分の値の平均の平均ベクトル表現
を表わし、Ｖは共分散マトリクスを表わす。各画素に対
して式（１７）（ｋ＝１，２）の計算を行ない、その結
果に対してあるしきい値を設けておく。このしきい値よ
り小さい値を持つ画素を顔領域の候補とする。

【００５４】類似度計算の統合処理１４０での統合は次
のようにして行なわれる。すなわち、r-g空間類似度計
算処理１３４で得られた類似度マッピングの式ｄ
_k（ｉ，ｊ）（ｋ＝１，２）に対して式（１８）の計算
を行なう。その結果によって式（１９）にしたがい各画
素が顔領域に属する候補か否かの判定を行なう。式（１
８）（１９）において、μ_kおよびσ_k ²はそれぞれｄ
_k（ｉ，ｊ）（ｋ＝１，２）での平均および分散であ
る。またｗ₁およびｗ₂はそれぞれ所定の重みであり、Ｄ
はしきい値である。

【００５５】後処理１４２は二つの処理を含む。類似度
計算の統合処理１４０の結果、映像の各画素について、
その画素が顔領域に属すると考えられるか否かにしたが
って各画素についてそれぞれ１または０の値が割り当て
られている。そこで、以下の処理によって顔領域を表わ
すだ円または矩形領域を求める。以下の説明では、簡略
化のために顔領域を円として表わす場合を想定する。

【００５６】まず、ノイズ除去を行なう。ここでは、顔
領域の候補部分を拡大しその周囲の輪郭を求める。次
に、こうして求められた顔領域の候補部分に対して以下
のアルゴリズムで円領域を顔領域に当てはめる。

【００５７】最初に式（２０）（２１）によって肌色と
思われる領域の中心（Ｃｘ、Ｃｙ）を求める。ここでＪ
(x, y)は上記処理によって顔領域候補画素には１が、そ
うでない画素には０が割当てられている２値画像であ
る。次に肌色と思われる領域の半径Ｒを式（２２）によ
って計算する。こうして得られた、中心が（Ｃｘ、Ｃ
ｙ）、半径Ｒの円を顔領域とする。なお式（２０）〜
（２２）はあくまで一例であり、アプリケーションおよ
び設計思想によってこれら式としては任意のものを選択
できる。

【００５８】図７に顔領域検出部１２０の処理過程およ
び結果の画像を示す。図７（ａ）がオリジナルの画像で
ある。r-g空間類似度計算処理１３４の結果得られた画
像を図７（ｂ）に、NCb-NCr空間類似度計算処理１３８
の結果得られた画像を図７（ｃ）に、それぞれ示す。類
似度計算の統合処理１４０の結果と、その結果に対して
後処理１４２が行なった処理によって得られた顔領域を
示す円（だ円）を図７（ｄ）に示す。こうして得られた
円（だ円）を図７（ａ）のオリジナル画像と合成したの
が図７（ｅ）である。

【００５９】こうして一旦顔領域を決定すると、以下は
この顔領域をトラッキングすればよい。また顔領域のト
ラッキングに失敗したときには、上述の処理を再度行な
うことで顔領域を決定することができる。

【００６０】次に、映像ストリームユニット分離部１２
２、静止ユニット分類部１２４、およびユニット統合部
１２６の処理の内容について図８〜図１０を参照して説
明する。まず、映像ストリームユニット分離部１２２
は、入力されるフレーム間の差分をとることにより図８
に示されるフレーム間差分１５０が得られる。フレーム
間差分の値が得られたら、以下のようにしてユニットの
分離を行なう。

【００６１】フレームＮ₁〜フレームＮ₂（Ｎ₁＜Ｎ₂）の
間の全てのフレームにおいて、そのフレーム間差分があ
るしきい値（典型的には０）より大きく、フレームＮ₁
−１およびフレームＮ₂＋１においてフレーム間差分が
このしきい値以下の場合に、フレームＮ₁〜Ｎ₂を動きユ
ニットと呼ぶ。またフレームＮ₁〜フレームＮ₂（Ｎ₁＜
Ｎ₂）の間の全てのフレームにおいて、そのフレーム間
差分がこのしきい値以下であり、フレームＮ₁−１およ
びフレームＮ₂＋１においてフレーム間差分がこのしき
い値より大きい場合に、フレームＮ₁〜Ｎ₂を静止ユニッ
トと呼ぶ。なお、しきい値としては小さい値が選択され
るべきであるが、０に限定されるわけではない。

【００６２】映像ストリームユニット分離部１２２は、
図８に示すフレーム間差分１５０を、上記した定義にし
たがって、静止ユニット１６０、１６４、１６８、１７
２および１７６、ならびに動きユニット１６２、１６
６、１７０、１７４および１７８に分離する。

【００６３】実際のユニット分離の手順を図１０に示
す。図１０を参照して、まず画像ストリーム内の連続す
る二つのフレームの画像の特徴点抽出およびトラッキン
グを行なう（ステップ２２０）。このときの特徴点抽出
およびトラッキングには、公知のアルゴリズムを用いる
ことができる。たとえばＫＬＴ（Kanade-Lucas-Tomas
i）アルゴリズムを用いることができる。

【００６４】次に、ステップ２２０で抽出された特徴点
の間の対応関係を用いて、フレーム間差分の計算を行な
う（２２２）。こうして得られたフレーム間差分によっ
てユニット分離を行なう（２２４）。

【００６５】次に、静止ユニット分類部１２４が静止ユ
ニット１６０、１６４、１６８、１７２および１７６を
以下のようにして安定静止ユニットと不安定静止ユニッ
トとに分類する。すなわち静止ユニット分類部１２４
は、静止ユニットを構成するフレームの数があるしきい
値以上であればそのユニットを安定静止ユニットに分類
し、それ以外の場合にそのユニットを不安定静止ユニッ
トに分類する。たとえば図８に示すフレーム間差分１５
０の例では、静止ユニット１６０および静止ユニット１
６８がそれぞれ安定静止ユニットにそれぞれ分類され
る。静止ユニット１６４、１７２および１７６は不安定
静止ユニットに分類される。

【００６６】ここで、安定静止ユニットは、ある長さの
時間以上にわたって人の動きがなかった、と考えられる
ことから、人が一定のポーズをとって動かなかった期間
と考えることができる。これは、たとえば人が講議に集
中している可能性もあるし、また講議に退屈して他を見
ている可能性もある。一方、不安定静止ユニットは、動
きユニットに挟まれたごく短い期間のみであるので、な
んらかの動きに含まれる一次的な静止状態に対応すると
考えられる。

【００６７】静止ユニット分類部１２４は、安定静止ユ
ニットに関する情報を判定サブシステム１０４に、不安
定静止ユニットに関する情報をユニット統合部１２６
に、それぞれ与える。

【００６８】ユニット統合部１２６は、映像ストリーム
ユニット分離部１２２から与えられる動きユニットに関
する情報と、静止ユニット分類部１２４から与えられる
不安定静止ユニットに関する情報とを統合し、活動検出
ユニットとする。つまり、なんらかの動きが人物に検出
されたフレームと、それら動きのあるフレームの間に挟
まれたごく短い期間の静止フレームとによって、たとえ
ば頷く、首をふる、上下を向く、首を傾ける、居眠りを
している、等、聴衆が講議に対して見せる反応を検出す
ることができると考えられるので、活動検出ユニットと
いう分類とする。ただしこれらの活動は必ずしも講議に
対して集中していることを示すと考えられるわけではな
く、講議とは関係のない動きに対応していることも考え
られる。

【００６９】さて、再び図４を参照して、こうして分類
された安定静止ユニットに関する情報と活動検出ユニッ
トに関する情報とは判定サブシステム１０４に与えら
れ、判定サブシステム１０４がこれら情報と各映像フレ
ームの画像情報とに基づいて聴衆の反応を認識し判定す
る。

【００７０】図１１を参照して、判定サブシステム１０
４は、静止ユニット情報を受けて聴衆の姿勢を推定する
ための姿勢推定部２３０と、活動検出ユニット情報を受
けて聴衆のジェスチャーを認識するためのジェスチャー
認識部２３２とを含む。姿勢推定部２３０は推定姿勢情
報を、ジェスチャー認識部２３２は推定ジェスチャー情
報を、それぞれ出力する。

【００７１】図１２を参照して、姿勢推定部２３０は、
安定静止ユニットフレーム画像２４０から画像の特徴ベ
クトルを抽出するための特徴ベクトル抽出処理部２４２
と、特徴ベクトル抽出処理部２４２からのフレーム画像
の特徴ベクトルを入力として、安定静止ユニットフレー
ム画像２４０に対応する聴衆の姿勢を示す情報（姿勢カ
テゴリ名）を出力するための、あらかじめ学習が済んで
いるニューラルネットによる姿勢判定部２４４とを含
む。この実施の形態のシステムでは、ニューラルネット
による姿勢判定部２４４は検出対象となる一つの姿勢
カテゴリに対して一つのニューラルネットが対応するよ
うに、あらかじめ学習が済んでいる複数個の１対１ニュ
ラルネット２５０と、同じ入力特徴ベクトルに対してこ
れら複数個の１対１ニュラルネット２５０の出力を調
べ、最も高い出力値を示した１対１ニュラルネット２５
０に対応する姿勢カテゴリ名を出力するための最大値検
出部２５２とを含む。

【００７２】このように、一つの姿勢カテゴリに対して
一つの１対１ニュラルネット２５０を設けるようにする
と、新たな姿勢カテゴリについての認識機能を追加しよ
うとするときに簡単に対応できるという効果がある。す
なわちその場合には、その新たな姿勢カテゴリを検出す
るようあらかじめ学習が行なわれている１対１ニュラル
ネット２５０をニューラルネットによる姿勢判定部２
４４に追加し、その出力を最大値検出部２５２への入力
に接続してやればよい。仮にニューラルネットによる姿
勢判定部２４４の全体を大きなニューラルネットとした
場合には、新たな姿勢カテゴリを検出する機能を追加し
ようとすると、ニューラルネット全体の学習をし直す必
要がある。したがって、実際の応用ではニューラルネッ
トによる姿勢判定部２４４のように複数個の１対１ニュ
ラルネット２５０を設けるようにすることが実用的であ
る。

【００７３】図１３を参照して、ジェスチャー認識部２
３２も同様の構成を有する。すなわちジェスチャー認識
部２３２は、活動検出ユニットフレーム画像情報２６０
から画像の特徴ベクトルの抽出を行なう特徴ベクトル
の抽出処理２６２と、この特徴ベクトルを入力として
聴衆のジェスチャーをカテゴリに分類してその情報（ジ
ェスチャーカテゴリ名）を出力するためのニューラルネ
ットによるジェスチャー判定部２６４とを含む。

【００７４】ニューラルネットによるジェスチャー判定
部２６４も、それぞれ一つのジェスチャーカテゴリに対
応するように設けられた複数個の１対１ニューラルネッ
ト２７０と、これら複数個の１対１ニューラルネット２
７０の出力を受け、最も出力の大きかった１対１ニュー
ラルネット２７０に対応するジェスチャーカテゴリ名を
出力するため最大値検出部２７２とを含む。

【００７５】特徴ベクトル抽出処理部２４２は、この実
施の形態ではウェーブレット変換を用いて安定静止画像
の頭部領域の画像から特徴ベクトルを抽出する。たとえ
ば、入力イメージに対して式（２３）〜（２５）で示さ
れる関係を持つローパスフィルタＨ_i（Ｚ）（ｉ＝０、
１）およびハイパスフィルタＧ_i（Ｚ）（ｉ＝０、１）
を用意する。そしてこれらをｉ＝０、１の順序で組合わ
せて元の入力イメージＰに適用した結果、Ｈ₀Ｈ₁によっ
てＰ₁が、Ｈ₀Ｇ₁によってＩ₁が、Ｇ₀Ｈ₁によってＩ
₂が、Ｇ₀Ｇ₁によってＩ₃が、それぞれ得られたものとす
る。この結果のＰ₁に対してさらに上述のフィルタを適
用して同様にＰ₂、Ｉ₁（Ｐ₁）、Ｉ₂（Ｐ₁）、Ｉ
₃（Ｐ₃）が得られ、以下同様にＰ_N、Ｉ₁（Ｐ_N-1）、Ｉ₂
（Ｐ_N-1）、Ｉ₃（Ｐ_N- ₁）までを得る。こうして得られ
た全ての値と所定のしきい値とを比較して、各値を０ま
たは１のいずれかとする。そしてこれら０または１の値
を所定の順番で並べて特徴ベクトルとする。

【００７６】一方、特徴ベクトルの抽出処理２６２によ
る特徴ベクトル抽出は特徴ベクトル抽出処理部２４２の
場合とは異なる。この場合は、聴衆の頭部の動きが問題
となるので、連続する２つのフレーム間の差分を基本と
して特徴ベクトルを抽出する。この実施の形態では、公
知の方法を用いて、２フレーム（フレームｔ−１および
ｔ）間での人物の頭部の動きを表わす角度θ_t、φ_tおよ
びρ_tを求める。θ_tは光軸周りの回転角度を、φ_tは対
象に固定された座標軸のｘ軸と、画像面に平行な回転軸
Φとの間の角度を、ρ_tはΦ軸周りの角度を、それぞれ
表わす。この値を、連続するＮ個のフレームに対して求
める。

【００７７】さらに、処理をよりロバストにするため
に、他の情報を追加する。これら情報としては、本実施
の形態では頭部の動きの中心の座標、頭部の動きの方
向、ｘ軸方向およびｙ軸方向の頭部の動きのエネルギー
等がある。本実施の形態ではこれらの値を連続する所定
のＮ個のフレームから抽出し、上記したＮフレーム分の
角度情報と合わせてそれらを並べて特徴ベクトルとして
いる。

【００７８】なお、上記したＮ個は固定された数値と考
えて論じてきたが、たとえば活動検出ユニットに含まれ
るフレーム数がＮ個より多かったり、少なかったりする
場合がある。これに対しては、次のようにして対処す
る。まず、望ましいＮの値を定める。次に、活動検出ユ
ニット内のフレーム数とＮとを比較する。フレーム数が
Ｎ個より多ければ、最初のＮ個のフレームのみを用いて
特徴ベクトルを抽出する。フレーム数がＮ個より少なけ
れば、その足りない部分については最後のフレームと同
じであると仮定して特徴ベクトルを抽出する。このよう
な補正を行なっても、１対１ニューラルネット２７０を
適切に学習させておくことで正確な判定を行なうことが
可能である。

【００７９】次に、図４に示す集計部１０６の構成につ
いて説明する。集計部１０６は、実質的にソフトウェア
によって実現されるので、以下にそのソフトウェアで行
なわれる処理の構成について図１４を参照して説明す
る。この処理ではまず最初に、必要な記憶領域の確保お
よび初期化を行なう（２９０）。次に、一定のサンプリ
ング時間の経過を待つ（２９２）。この処理は、判定サ
ブシステム１０４の出力があったときに生じるイベント
を待つ処理としてもよい。サンプリング時間が経過する
と（または判定サブシステム１０４からの出力がある
と）、その時点で判定サブシステム１０４の出力する姿
勢情報（姿勢カテゴリ名）、ジェスチャー情報（ジェス
チャーカテゴリ名）に基づいて姿勢、ジェスチャーカテ
ゴリのスコアを評価する。この評価は本実施の形態では
以下のようにして行なう。なお、最大値検出部２５２の
出力する姿勢カテゴリ名として「Frontal-view（正
面）」「Right（右）」「Left（左）」「Up（上）」「D
own（下）」の５種類があり、最大値検出部２７２の出
力するジェスチャーカテゴリ名として、「nod（頷
く）」「shake head（首をふる）」「Look right（右を
見る）」「Look left（左を見る）」「Look down（下を
見る）」「Look Up（上を見る）」の６通りがあるもの
とする。

【００８０】まず、活動検出ユニットについては、次の
ような評価を行なう。（１）このユニットについてジェスチャーカテゴリが
「nod」または「shakehead」であればこのユニットのス
コアを１とする。

【００８１】（２）直前の安定静止ユニットの姿勢カ
テゴリ名が「Left」であり、この活動検出ユニットのジ
ェスチャーカテゴリが「Look right」であり、かつこの
ユニットの直後の安定静止ユニットの姿勢カテゴリ名が
「Frotal-view」であれば、この活動検出ユニットのス
コアを「１」とする。

【００８２】（３）直前の安定静止ユニットの姿勢カ
テゴリ名が「Right」であり、この活動検出ユニットの
ジェスチャーカテゴリが「Look left」であり、かつこ
のユニットの直後の安定静止ユニットの姿勢カテゴリ名
が「Frotal-view」であれば、この活動検出ユニットの
スコアを「１」とする。

【００８３】（４）直前の安定静止ユニットの姿勢カ
テゴリ名が「Up」であり、この活動検出ユニットのジェ
スチャーカテゴリが「Look down」であり、かつこのユ
ニットの直後の安定静止ユニットの姿勢カテゴリ名が
「Frotal-view」であれば、この活動検出ユニットのス
コアを「１」とする。

【００８４】（５）直前の安定静止ユニットの姿勢カ
テゴリ名が「Down」であり、この活動検出ユニットのジ
ェスチャーカテゴリが「Look up」であり、かつこのユ
ニットの直後の安定静止ユニットの姿勢カテゴリ名が
「Frotal-view」であれば、この活動検出ユニットのス
コアを「１」とする。

【００８５】（６）他の全ての場合についてはスコア
は「１」である。安定静止ユニットについては以下の基
準でスコアを評価する。

【００８６】（１）もしもこのユニットの姿勢カテゴ
リ名が「Frontal-view」であればスコアは「１」とす
る。

【００８７】（２）他の場合についてはスコアは
「０」とする。こうして得られたスコアを、所定時間だ
け累算する（ステップ２９６および２９８）。所定時間
経過するごとに累算結果を式（２６）によって計算し反
応のスコアＳｆとして出力する（ステップ３００）。な
お式（２６）においてＴは累算時間、Ｓ_uはｕ番目のユ
ニットのスコア、ｔ_uはｕ番目のユニットの持続時間を
表わす。なお、このスコア評価方法は１例であって、ア
プリケーションによって任意の評価方法を採用すること
ができる。

【００８８】続いて、スコア計算用の作業領域をクリア
して（ステップ３０２）制御をステップ２９２に戻し、
以下同じ処理を繰返す。

【００８９】上記した最終スコアＳ_fは送受信部１０８
（図４参照）を介して集計センター３０に出力される。

【００９０】以上が、受講会場用システム３４の構成お
よび動作の概略である。［集計センター３０］図１５を参照して、集計センター
３０は、受講会場用システム３４および講師用システム
３２と通信を行なうための送受信部３２０と、受講会場
用システム３４から送信されてくるスコアを全ての受講
会場用システム３４にわたって集計するための結果集計
部３２２と、集計センター３０および集計方法等の設定
を行なうためにユーザが操作するためのシステム設定部
３２４と、システム設定部３２４によって設定された条
件にしたがって結果集計部３２２での集計方法を制御
し、集計結果を送受信部３２０を介して講師用システ
ム３２に定期的に送信するためのシステム管理部３２６
と、集計センター３０の稼動状況、結果集計部３２２に
よる集計状況等を表示するためにシステム管理部３２６
が用いる表示装置３２８とを含む。

【００９１】図１５に示されるのは最も単純な構成であ
るが、受講会場用システム３４の出力について上記した
とおりの説明に基づけば、当業者であれば一般的なコン
ピュータを用いてこの集計センター３０を容易に作成す
ることが可能であろう。なお、この実施の形態では、集
計センター３０が講師用システム３２または受講会場用
システム３４とは別個に設けられている。しかしもちろ
ん本願発明はそのような構成に限定されない。たとえば
集計センター３０が講師用システム３２または受講会場
用システム３４のうちの任意の一つと同じコンピュータ
上で実現されてもよい。［講師用システム３２］図１６を参照して、講師用シス
テム３２は、講師の映像を出力するためのビデオカメラ
５０と、ビデオカメラ５０の出力する映像信号をデジ
タル映像信号に変換し、圧縮するための画像圧縮部３４
０と、画像圧縮部３４０の出力する圧縮された画像を各
受講会場用システム３４および集計センター３０に送信
し、また集計センター３０から聴衆の反応を示すスコア
の集計結果を受信するための送受信部３４２と、送受信
部３４２によって集計センター３０から受取られた聴衆
の反応のスコアの集計結果に対して、表示のための集
計、受講会場用システム３４ごとの集計、分類、順序付
け等、反応を示す情報に対して行なうべき情報処理を実
行するための結果処理部３４４と、結果処理部３４４の
出力する結果を、どのような形式で表示するかを設定す
るための表示条件設定部３４６と、表示条件設定部３４
６によって設定された条件にしたがって結果処理部３４
４の出力に基づいて、聴衆の反応を分かりやすく表現す
る映像信号を生成するための映像生成部３４８と、映
像生成部３４８の出力する映像信号を表示するための、
前述の大画面表示装置８６とを含む。

【００９２】反応の表示形式としてはたとえば、単純
に、全ての受講会場用システム３４でスコアが「１」と
なったら１００パーセントとなるように、反応をパーセ
ントに換算して数字として表示してもよい。なおこの実
施の形態では、このように聴衆の反応を数字として表示
できる。したがって、この数字に基づいてどのような表
示形式を実現することもできる。たとえば受講会場用シ
ステム３４ごとに表示区画を設けて受講会場ごとに聴衆
の反応を色で表示すること、または棒グラフ、円グラフ
等のグラフ形式で表示することが考えられる。また、聴
衆を代表する複数（例えば１０人から３０人程度）の人
物の映像を合成し、それらの人物の反応が、ちょうど全
聴衆の反応の割合に対応するように、これら人物の映像
の姿勢、動き、表情等を制御してもよい。［システムの動作］上記した構成のこのシステムは以下
のように動作する。あらかじめ、講師用システム３２は
集計センター３０との接続を確立しておく。受講会場用
システム３４はいずれも講師用システム３２からの映像
を受信できるように、かつ集計センター３０に対して情
報を送信できるように、集計センター３０との間で適切
なコネクションをネットワーク上で確立しておく。

【００９３】講師用システム３２では、講師を撮像した
映像信号（音声信号を含む）を画像圧縮部３４０によっ
て圧縮し集計センター３０に送信する。集計センター３
０は、接続してきた受講会場用システム３４に対してこ
の映像を送信する。

【００９４】受講会場用システム３４は、集計センター
３０から送信されてきた講師の映像を伸長し、大画面表
示装置８６上に表示する。受講会場用システム３４で
はあわせて、ビデオカメラ５０を用いて聴衆を撮像し、
これをフレームごとのデジタル信号に変換する。さら
に、これらフレームを検出・分離サブシステム１０２に
よって安定静止ユニットと活動検出ユニットとに分類す
る。そして、それらユニットに属するフレームの映像信
号に基づいて、判定サブシステム１０４が聴衆の反応を
推定しスコアとして出力する。集計部１０６が所定時
間ごとにこのスコアを集計して送受信部１０８を介し
て集計センター３０に最終スコアを送信する。

【００９５】集計センター３０では、接続されている複
数の受講会場用システム３４の全てに対して式（２６）
で表わされる計算を行ない、その結果を講師用システム
３２に送信する。

【００９６】講師用システム３２では、この集計結果を
集計センター３０から受信し、聴衆の反応を表現するよ
うにあらかじめ設定された表現形式にしたがって講師に
対して聴衆の反応を示す映像を提示する。

【００９７】講師は、このようにして提示された聴衆の
反応を見て、話題を変えたり、聴衆の注意をひくための
なんらかの行為、たとえば質問を発する等の適切な行為
を行なったり、聴衆の反応が満足すべきものであればそ
のまま講演を継続したり、という適切な行動をとること
ができる。［実施の形態２］上記した実施の形態１のシステムは、
講師から各講習会場にいる聴衆への、情報の一方通行を
行なうシステムであった。しかし本発明はこうしたシス
テムのみに適用可能なわけではなく、双方向の情報の送
受信を行なうシステム、たとえば仮想空間を利用した電
子会議システムにも適用可能である。この場合には、シ
ステム内の、集計センターを除く全ての受講会場用シス
テムに、講師用システム３２と同様の映像の送信装置お
よび他の受講会場用システムからの反応に基づいて仮想
空間の内容を制御できる機能を追加すればよい。この場
合、講師用システム３２に相当するものは不要であり、
集計センター３０と複数個の受講会場用システムとで
システムを構築できる。

【００９８】図１７に、そうした受講会場用システム３
６０のブロック図を示す。図１７を参照して、この受講
会場用システム３６０は、図４に示した受講会場用シス
テムと同様に、ビデオカメラ５０、映像取得部１００、
検出・分離サブシステム１０２、判定サブシステム１０
４、集計部１０６を備え、それを備え、それに加えて、
集計部１０６からの集計結果を集計センター３０に送信
し、集計センター３０から与えられる他の受講会場用シ
ステムでの反応を受信するための送受信部３７０と、送
受信部３７０から得られた他の受講会場用システムでの
聴衆の反応に対して、結果処理部３４４（図１６参照）
と同様の処理を行なうための結果処理部３７２と、結果
処理部３７２によって処理された結果に基づき、当該集
計結果を反映するように仮想空間および仮想空間内の人
物に関する情報を更新するための仮想空間維持部３７４
と、仮想空間維持部３７４によって維持されている仮想
空間情報にしたがって仮想空間内の環境と人物との映像
を生成する映像生成部３７６と、映像生成部３７６に
よって生成された仮想空間の映像を表示するための大画
面表示装置８６とを含む。なお図１７において、図４に
示された各ブロックと同じ機能を持つブロックには同じ
参照符号を付してある。それらの構成も同じである。し
たがってここではそれらについての詳細な説明は繰返さ
ない。

【００９９】この実施の形態２のシステムでは、１対多
という形式ではなく、様々な場所にいる複数の人物が、
互いに他の人物の反応を把握しながら、ディスカッショ
ンを行なうことができるという効果を奏する。

【０１００】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【図面の簡単な説明】

【図１】本願発明の実施の形態１にかかる遠隔放送シ
ステムの全体構成を示す図である。

【図２】本発明の実施の形態１にかかるシステムを構
成する集計センター３０、講師用システム３２および受
講会場用システム３４を実現するためのコンピュータの
外観図である。

【図３】図２にかかるコンピュータのハードウェア的
構成を示すブロック図である。

【図４】本発明の実施の形態１のシステムの受講会場
用システム３４のブロック図である。

【図５】検出・分離サブシステム１０２の機能ブロッ
ク図である。

【図６】顔領域検出部１２０の機能ブロック図であ
る。

【図７】顔領域検出部１２０の処理の結果例を示す図
である。

【図８】映像シーケンスのユニットへの分類方法を説
明するための図である。

【図９】ユニットを安定静止ユニットと活動検出ユニ
ットとに再構成する方法を説明するための図である。

【図１０】映像シーケンスのユニットへの分類処理の
流れを示す図である。

【図１１】判定サブシステム１０４の機能ブロック図
である。

【図１２】姿勢推定部２３０の機能ブロック図であ
る。

【図１３】ジェスチャー認識部２３２の機能ブロック
図である。

【図１４】集計部１０６の処理構成を示すフローチャ
ートである。

【図１５】集計センター３０の構成を示す機能ブロッ
ク図である。

【図１６】講師用システム３２の構成を示す機能ブロ
ック図である。

【図１７】本願発明の実施の形態２にかかる受講会場
用システム３６０の機能ブロック図である。

【符号の説明】

２０遠隔放送システム、３０集計センター、３２講
師用システム、３４受講会場用システム、５０カメ
ラ、１００映像取得部、１０２検出・分離サブシス
テム、１０４判定サブシステム、１０６集計部、１
２０顔領域検出部、１２２映像ストリームユニット
分離部、１２４静止ユニット分類部、１２６ユニッ
ト統合部、２３０姿勢推定部、２３２ジェスチャー
認識部、２４２、２６２特徴ベクトル抽出処理部、２
４４姿勢判定部、２６４ジェスチャー判定部。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１２年８月１８日（２０００．８．１
８）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００５０

【補正方法】変更

【補正内容】

【００５０】顔領域検出部１２０はさらに、それぞれrg
b色空間変換処理１３２およびr-g空間類似度計算処理１
３４と同様の処理をＮＣｂ−ＮＣｒ色空間で行なうため
の(NCb, NCr)色空間変換処理１３６およびNCb-NCr空間
類似度計算処理１３８を含む。ＮＣｂ，ＮＣｒを計算す
るためのＹ，Ｃｂ，Ｃｒ色成分の値は式（８）〜（１
０）によって計算される。さらにこれらを式（１１）
（１２）に示されるように正規化することでＮＣｂおよ
びＮＣｒ色成分が得られる。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００５２

【補正方法】変更

【補正内容】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００６２

【補正方法】変更

【補正内容】

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００７１

【補正方法】変更

【補正内容】

【００７１】図１２を参照して、姿勢推定部２３０は、
安定静止ユニットフレーム画像２４０から画像の特徴ベ
クトルを抽出するための特徴ベクトル抽出処理部２４２
と、特徴ベクトル抽出処理部２４２からのフレーム画像
の特徴ベクトルを入力として、安定静止ユニットフレー
ム画像２４０に対応する聴衆の姿勢を示す情報（姿勢カ
テゴリ名）を出力するための、あらかじめ学習が済んで
いるニューラルネットによる姿勢判定部２４４とを含
む。この実施の形態のシステムでは、ニューラルネット
による姿勢判定部２４４は検出対象となる一つの姿勢カ
テゴリに対して一つのニューラルネットが対応するよう
に、あらかじめ学習が済んでいる複数個の１対１ニュー
ラルネット２５０と、同じ入力特徴ベクトルに対してこ
れら複数個の１対１ニューラルネット２５０の出力を調
べ、最も高い出力値を示した１対１ニューラルネット２
５０に対応する姿勢カテゴリ名を出力するための最大値
検出部２５２とを含む。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００７２

【補正方法】変更

【補正内容】

【００７２】このように、一つの姿勢カテゴリに対して
一つの１対１ニューラルネット２５０を設けるようにす
ると、新たな姿勢カテゴリについての認識機能を追加し
ようとするときに簡単に対応できるという効果がある。
すなわちその場合には、その新たな姿勢カテゴリを検出
するようあらかじめ学習が行なわれている１対１ニュー
ラルネット２５０をニューラルネットによる姿勢判定部
２４４に追加し、その出力を最大値検出部２５２への入
力に接続してやればよい。仮にニューラルネットによる
姿勢判定部２４４の全体を大きなニューラルネットとし
た場合には、新たな姿勢カテゴリを検出する機能を追加
しようとすると、ニューラルネット全体の学習をし直す
必要がある。したがって、実際の応用ではニューラルネ
ットによる姿勢判定部２４４のように複数個の１対１ニ
ューラルネット２５０を設けるようにすることが実用的
である。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００７３

【補正方法】変更

【補正内容】

【００７３】図１３を参照して、ジェスチャー認識部２
３２も同様の構成を有する。すなわちジェスチャー認識
部２３２は、活動検出ユニットフレーム画像情報２６０
から画像の特徴ベクトルの抽出を行なう特徴ベクトルの
抽出処理２６２と、この特徴ベクトルを入力として聴衆
のジェスチャーをカテゴリに分類してその情報（ジェス
チャーカテゴリ名）を出力するためのニューラルネット
によるジェスチャー判定部２６４とを含む。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００９０

【補正方法】変更

【補正内容】

【００９０】以上が、受講会場用システム３４の構成お
よび動作の概略である。［集計センター３０］図１５を参照して、集計センター
３０は、受講会場用システム３４および講師用システム
３２と通信を行なうための送受信部３２０と、受講会場
用システム３４から送信されてくるスコアを全ての受講
会場用システム３４にわたって集計するための結果集計
部３２２と、集計センター３０および集計方法等の設定
を行なうためにユーザが操作するためのシステム設定部
３２４と、システム設定部３２４によって設定された条
件にしたがって結果集計部３２２での集計方法を制御
し、集計結果を送受信部３２０を介して講師用システム
３２に定期的に送信するためのシステム管理部３２６
と、集計センター３０の稼動状況、結果集計部３２２に
よる集計状況等を表示するためにシステム管理部３２６
が用いる表示装置３２８とを含む。

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００９１

【補正方法】変更

【補正内容】

【００９１】図１５に示されるのは最も単純な構成であ
るが、受講会場用システム３４の出力について上記した
とおりの説明に基づけば、当業者であれば一般的なコン
ピュータを用いてこの集計センター３０を容易に作成す
ることが可能であろう。なお、この実施の形態では、集
計センター３０が講師用システム３２または受講会場用
システム３４とは別個に設けられている。しかしもちろ
ん本願発明はそのような構成に限定されない。たとえば
集計センター３０が講師用システム３２または受講会場
用システム３４のうちの任意の一つと同じコンピュータ
上で実現されてもよい。［講師用システム３２］図１６を参照して、講師用シス
テム３２は、講師の映像を出力するためのビデオカメラ
５０と、ビデオカメラ５０の出力する映像信号をデジタ
ル映像信号に変換し、圧縮するための画像圧縮部３４０
と、画像圧縮部３４０の出力する圧縮された画像を各受
講会場用システム３４および集計センター３０に送信
し、また集計センター３０から聴衆の反応を示すスコア
の集計結果を受信するための送受信部３４２と、送受信
部３４２によって集計センター３０から受取られた聴衆
の反応のスコアの集計結果に対して、表示のための集
計、受講会場用システム３４ごとの集計、分類、順序付
け等、反応を示す情報に対して行なうべき情報処理を実
行するための結果処理部３４４と、結果処理部３４４の
出力する結果を、どのような形式で表示するかを設定す
るための表示条件設定部３４６と、表示条件設定部３４
６によって設定された条件にしたがって結果処理部３４
４の出力に基づいて、聴衆の反応を分かりやすく表現す
る映像信号を生成するための映像生成部３４８と、映像
生成部３４８の出力する映像信号を表示するための、前
述の大画面表示装置８６とを含む。

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００９４

【補正方法】変更

【補正内容】

【００９４】受講会場用システム３４は、集計センター
３０から送信されてきた講師の映像を伸長し、大画面表
示装置８６上に表示する。受講会場用システム３４では
あわせて、ビデオカメラ５０を用いて聴衆を撮像し、こ
れをフレームごとのデジタル信号に変換する。さらに、
これらフレームを検出・分離サブシステム１０２によっ
て安定静止ユニットと活動検出ユニットとに分類する。
そして、それらユニットに属するフレームの映像信号に
基づいて、判定サブシステム１０４が聴衆の反応を推定
しスコアとして出力する。集計部１０６が所定時間ごと
にこのスコアを集計して送受信部１０８を介して集計セ
ンター３０に最終スコアを送信する。

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００９７

【補正方法】変更

【補正内容】

【００９７】講師は、このようにして提示された聴衆の
反応を見て、話題を変えたり、聴衆の注意をひくための
なんらかの行為、たとえば質問を発する等の適切な行為
を行なったり、聴衆の反応が満足すべきものであればそ
のまま講演を継続したり、という適切な行動をとること
ができる。［実施の形態２］上記した実施の形態１のシステムは、
講師から各講習会場にいる聴衆への、情報の一方通行を
行なうシステムであった。しかし本発明はこうしたシス
テムのみに適用可能なわけではなく、双方向の情報の送
受信を行なうシステム、たとえば仮想空間を利用した電
子会議システムにも適用可能である。この場合には、シ
ステム内の、集計センターを除く全ての受講会場用シス
テムに、講師用システム３２と同様の映像の送信装置お
よび他の受講会場用システムからの反応に基づいて仮想
空間の内容を制御できる機能を追加すればよい。この場
合、講師用システム３２に相当するものは不要であり、
集計センター３０と複数個の受講会場用システムとでシ
ステムを構築できる。

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００９８

【補正方法】変更

【補正内容】

【００９８】図１７に、そうした受講会場用システム３
６０のブロック図を示す。図１７を参照して、この受講
会場用システム３６０は、図４に示した受講会場用シス
テムと同様に、ビデオカメラ５０、映像取得部１００、
検出・分離サブシステム１０２、判定サブシステム１０
４、集計部１０６を備え、それに加えて、集計部１０６
からの集計結果を集計センター３０に送信し、集計セン
ター３０から与えられる他の受講会場用システムでの反
応を受信するための送受信部３７０と、送受信部３７０
から得られた他の受講会場用システムでの聴衆の反応に
対して、結果処理部３４４（図１６参照）と同様の処理
を行なうための結果処理部３７２と、結果処理部３７２
によって処理された結果に基づき、当該集計結果を反映
するように仮想空間および仮想空間内の人物に関する情
報を更新するための仮想空間維持部３７４と、仮想空間
維持部３７４によって維持されている仮想空間情報にし
たがって仮想空間内の環境と人物との映像を生成する映
像生成部３７６と、映像生成部３７６によって生成され
た仮想空間の映像を表示するための大画面表示装置８６
とを含む。なお図１７において、図４に示された各ブロ
ックと同じ機能を持つブロックには同じ参照符号を付し
てある。それらの構成も同じである。したがってここで
はそれらについての詳細な説明は繰返さない。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 7/15 ６３０Ｇ０６Ｆ 15/70 ４６５Ａ (72)発明者川戸慎二郎京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール知能映像通信研究所内 (72)発明者大谷淳京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール知能映像通信研究所内Ｆターム(参考） 2C028 AA12 BA02 BB04 BC05 BD02 CA12 DA06 5B057 AA20 BA02 CA01 CA08 CA12 CA16 DA12 DB02 DB06 DB09 DC08 DC25 DC32 DC40 5C064 AA02 AB04 AC04 AC13 AC18 AD08 AD14 5L096 DA02 FA19 GA08 GA41 HA02 HA04 HA11 JA03 JA11 JA22 KA04 9A001 BB04 EE02 EE05 FF02 GG05 HH06 HH20 HH30 HH31

Claims

【特許請求の範囲】

【請求項１】表示される映像に対する人物の反応を認
識するための反応認識装置であって、人物の顔画像の映像シーケンスを取得するための映像取
得手段と、取得された映像シーケンスを、映像フレーム間の動きに
基づいて安定静止ユニットと活動検出ユニットとに分類
するための第１の分類手段と、安定静止ユニットに分類されたフレームシーケンスおよ
び活動検出ユニットに分類されたフレームシーケンスか
ら人物の反応を認識するための反応認識手段とを含む、
人物の反応認識装置。
【請求項２】前記第１の分類手段は、隣接するフレーム間のフレーム間差分に基づいて、前記
映像シーケンスを静止ユニットと動きユニットとに分類
するための第２の分類手段と、前記静止フレームを、その持続期間に基づいて前記安定
静止ユニットと不安定静止ユニットとに分類するための
第３の分類手段と、連続する前記不安定静止ユニットと前記動きユニットと
を前記活動検出ユニットとして統合するための統合手段
とを含む、請求項１に記載の人物の反応認識装置。
【請求項３】前記反応認識手段は、前記安定静止ユニット内のフレームから人物の顔画像の
特徴ベクトルを抽出するための第１の特徴ベクトル抽出
手段と、前記第１の特徴ベクトル抽出手段の出力する特徴ベクト
ルを入力として、前記特徴ベクトルに対応する姿勢情報
を出力する、あらかじめ学習済みの第１のニューラルネ
ットワークと、前記前記活動検出ユニット内のフレーム間差分の情報か
ら人物の顔画像の動きに対応する特徴ベクトルを抽出す
るための第２の特徴ベクトル抽出手段と、前記第２の特徴ベクトル抽出手段の出力する特徴ベクト
ルを入力として、前記特徴ベクトルに対応するジェスチ
ャー情報を出力する、あらかじめ学習済みの第２のニュ
ーラルネットワークとを含む、請求項１に記載の人物の
反応認識装置。
【請求項４】前記第１のニューラルネットワークと前
記第２のニューラルネットワークとのいずれか少なくと
も一方は、各々が所定の反応カテゴリーと関連付けら
れ、前記第１または第２の特徴ベクトル抽出手段の出力
する特徴ベクトルを入力として、前記所定の反応カテゴ
リとの関連度の高さを出力する、複数個の１対１ニュー
ラルネットワークを含む、請求項３に記載の人物の反応
認識装置。
【請求項５】前記映像取得手段は、ビデオカメラと、前記ビデオカメラの出力する映像信号をフレームごとに
デジタル信号に変換するための映像信号変換手段と、前記映像信号変換手段の出力する映像シーケンスに基づ
いて、各フレーム内の人物の顔領域を特定するための顔
領域特定手段とを含む、請求項１〜請求項４のいずれか
に記載の人物の反応認識装置。
【請求項６】前記顔領域特定手段は、前記映像信号変換手段の出力する映像シーケンスに基づ
いて、第１の手法により各フレーム内の人物の顔領域を
特定するための第１の手段と、前記映像信号変換手段の出力する映像シーケンスに基づ
いて、第２の手法により各フレーム内の人物の顔領域を
特定するための第２の手段と、前記第１の手段および前記第２の手段による顔領域の特
定結果を統合して顔領域を特定する顔領域の統合手段と
を含む、請求項１〜請求項５のいずれかに記載の人物の
反応認識装置。
【請求項７】前記映像シーケンスはＲＧＢ映像シーケ
ンスであり、前記第１の手段は前記ＲＧＢカラー映像シ
ーケンスをｒｇ色空間に変換した映像中の色分布と所定
の色分布パターンとの類似度に基づいて顔領域を特定す
るための手段を含む、請求項６に記載の人物の反応認識
装置。
【請求項８】前記映像シーケンスはＲＧＢカラー映像
シーケンスであり、前記第１の手段は前記ＲＧＢカラー
映像シーケンスをＮＣｂ‐ＮＣｒ色空間に変換した映像
中の色分布と所定の色分布パターンとの類似度に基づい
て顔領域を特定するための手段を含む、請求項６または
請求項７に記載の人物の反応認識装置。
【請求項９】コンピュータを、表示される映像に対す
る人物の反応を認識するための反応認識装置として動作
させるためのプログラムを記録したコンピュータ読取可
能な記録媒体であって、前記プログラムは、人物の顔画像に対して取得された映像シーケンスを、映
像フレーム間の動きに基づいて安定静止ユニットと活動
検出ユニットとに分類するための第１の分類プログラム
部分と、安定静止ユニットに分類されたフレームシーケンスおよ
び活動検出ユニットに分類されたフレームシーケンスか
ら人物の反応を認識するための反応認識プログラム部分
とを含む、コンピュータ読取可能な記録媒体。
【請求項１０】前記第１の分類プログラム部分は、隣接するフレーム間のフレーム間差分に基づいて、映像
シーケンスを静止ユニットと動きユニットとに分類する
ための第２の分類プログラム部分と、前記静止フレームを、その持続期間に基づいて前記安定
静止ユニットと不安定静止ユニットとに分類するための
第３の分類プログラム部分と、連続する前記不安定静止ユニットと前記動きユニットと
を前記活動検出ユニットとして統合するための統合プロ
グラム部分とを含む、請求項９に記載のコンピュータ読
取可能な記録媒体。
【請求項１１】前記反応認識プログラム部分は、前記安定静止ユニット内のフレームから人物の顔画像の
特徴ベクトルを抽出するための第１の特徴ベクトル抽出
プログラム部分と、前記第１の特徴ベクトル抽出プログラム部分の出力する
特徴ベクトルを入力として、前記特徴ベクトルに対応す
る姿勢情報を出力する、あらかじめ学習済みの第１のニ
ューラルネットワークプログラム部分と、前記前記活動検出ユニット内のフレーム間差分の情報か
ら人物の顔画像の動きに対応する特徴ベクトルを抽出す
るための第２の特徴ベクトル抽出プログラム部分と、前記第２の特徴ベクトル抽出プログラム部分の出力する
特徴ベクトルを入力として、前記特徴ベクトルに対応す
るジェスチャー情報を出力する、あらかじめ学習済みの
第２のニューラルネットワークプログラム部分とを含
む、請求項１０に記載のコンピュータ読取可能な記録媒
体。
【請求項１２】前記第１のニューラルネットワークプ
ログラム部分と前記第２のニューラルネットワークプロ
グラム部分とのいずれか少なくとも一方は、各々が所定
の反応カテゴリーと関連付けられ、前記第１または第２
の特徴ベクトル抽出プログラム部分の出力する特徴ベク
トルを入力として、前記所定の反応カテゴリとの関連度
の高さを出力する、複数個の１対１ニューラルネットワ
ークプログラム部分を含む、請求項１１に記載のコンピ
ュータ読取可能な記録媒体。
【請求項１３】前記プログラムはさらに、前記映像シ
ーケンスに基づいて、各フレーム内の人物の顔領域を特
定して前記第１の分類プログラム部分に与えるための顔
領域特定プログラム部分を含む、請求項９〜請求項１２
のいずれかに記載のコンピュータ読取可能な記録媒体。
【請求項１４】前記顔領域特定プログラム部分は、前記映像シーケンスに基づいて、第１の手法により各フ
レーム内の人物の顔領域を特定するための第１のプログ
ラム部分と、前記映像シーケンスに基づいて、第２の手法により各フ
レーム内の人物の顔領域を特定するための第２のプログ
ラム部分と、前記第１のプログラム部分および前記第２のプログラム
部分による顔領域の特定結果を統合して顔領域を特定す
る顔領域の統合プログラム部分とを含む、請求項９〜請
求項１３のいずれかに記載のコンピュータ読取可能な記
録媒体。
【請求項１５】前記映像シーケンスはＲＧＢカラー映
像シーケンスであり、前記第１のプログラム部分は前記
ＲＧＢカラー映像シーケンスをｒｇ色空間に変換した映
像中の色分布と所定の色分布パターンとの類似度に基づ
いて顔領域を特定するためのプログラム部分を含む、請
求項１４に記載のコンピュータ読取可能な記録媒体。
【請求項１６】前記映像シーケンスはＲＧＢカラー映
像シーケンスであり、前記第１のプログラム部分は前記
ＲＧＢカラー映像シーケンスをＮＣｂ‐ＮＣｒ色空間に
変換した映像中の色分布と所定の色分布パターンとの類
似度に基づいて顔領域を特定するためのプログラム部分
を含む、請求項１４または請求項１５に記載のコンピュ
ータ読取可能な記録媒体。