WO2017029787A1

WO2017029787A1 - 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法

Info

Publication number: WO2017029787A1
Application number: PCT/JP2016/003640
Authority: WO
Inventors: 昌俊松尾; 中村　剛; 忠則手塚
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2015-08-17
Filing date: 2016-08-08
Publication date: 2017-02-23
Also published as: JP6614547B2; JP2017041673A; US20180242898A1

Abstract

視聴状態検出装置（６）は、視聴者を含む時間的に連続する撮像画像およびその撮像画像の撮像時間に関する情報が入力される画像入力部（１１）と、撮像画像から視聴者の肌領域を検出する領域検出部（１２）と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部（１３）と、バイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部（１７）と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部（１４）と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部（１９）とを備えた構成とする。

Description

視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法

　本開示は、カメラを用いて非接触で検出した視聴者のバイタル情報に基づいて、コンテンツを視聴中の視聴者の集中度や眠気などの視聴状態を検出する視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法に関する。

　近年、対象者のバイタル情報から該対象者の心理状態を推定する技術が提案されている。例えば、対象者から複数のバイタル情報（呼吸、脈拍、筋電等）を検出し、検出された測定値とその初期値あるいは標準値から視聴者の心理状態（覚醒度、感情価）およびその強度を推定する生体情報処理装置が知られている（特許文献１参照）。

　しかしながら、対象者のバイタル情報を検出するのに複数の接触型センサおよび非接触型センサを必要とする場合、装置が複雑化しコストが嵩む。特に、接触型センサの使用は、対象者にとって煩わしいものになる。また、対象者が複数人存在する場合は、人数分のセンサが必要となるため、装置がさらに複雑化しコストが嵩む。

　もし、あるコンテンツの視聴中の視聴者の視聴状態（集中度、眠気など）をコンテンツの経時情報に関連付けることができれば、コンテンツ内容の評価が可能となるので有益である。

　本開示は、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることを可能とする。

特開２００６－６３５５号公報

　本開示の視聴状態検出装置は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出装置であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力部と、撮像画像から視聴者の肌領域を検出する領域検出部と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部と、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部とを備える。

　本開示によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することが可能となると共に、検出された視聴状態をコンテンツの経時情報に関連付けることができる。

図１は、第１実施形態に係る視聴状態検出システムの全体構成図である。図２は、第１実施形態に係る視聴状態検出システムの機能ブロック図である。図３は、図２中の視聴状態検出装置での脈波抽出処理の説明図である。図４は、図２中の視聴状態検出装置での脈波抽出処理の説明図である。図５は、バイタル情報の一例を示す図である。図６は、コンテンツ情報の一例を示す図である。図７は、バイタル情報とコンテンツ情報とをコンテンツの経過時間で関連付けた例を示す図である。図８は、判定情報の一例を示す図である。図９Ａは、視聴状態の出力の一例を示す図である。図９Ｂは、視聴状態の出力の一例を示す図である。図１０は、第１実施形態に係る視聴状態検出装置による処理の流れを示すフロー図である。図１１は、第２実施形態に係る視聴状態検出システムの全体構成図である。図１２は、第３実施形態に係る視聴状態検出装置の機能ブロック図である。図１３は、第４実施形態に係る視聴状態検出装置の機能ブロック図である。図１４は、第５実施形態に係る視聴状態検出装置の機能ブロック図である。図１５は、第６実施形態に係る視聴状態検出装置の機能ブロック図である。

　以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。

　（実施の形態１）
　＜顔認証装置の構成＞
　本開示の実施の形態について、図面を参照しながら説明する。

　（第１実施形態）
　図１および図２は、それぞれ本開示の第１実施形態に係る視聴状態検出システム１の全体構成図および機能ブロック図である。この第１実施形態は、本開示に係る視聴状態検出システムをｅラーニングに適用した例を示している。すなわち、第１実施形態に係る視聴状態検出システム１は、ｅラーニングの視聴者の視聴状態（集中度、眠気）の検出に使用される。

　図１に示すように、本開示の第１実施形態に係る視聴状態検出システム１は、ｅラーニングの視聴者Ｈ１、Ｈ２（以降、総称する場合は符号Ｈを用いる）が使用するパソコン２またはタブレット２、視聴者Ｈの少なくとも一部を撮像する撮像装置（カメラ）３と、ｅラーニングのコンテンツを表示する表示装置４またはタブレット２の表示画面４、パソコン２を操作するためのキーボード５、視聴状態検出装置６を備えている。また、図１では図示しないが、図２に示すように、視聴状態検出システム１は、コンテンツ情報入力装置８と、表示装置９とをさらに備えている。

　カメラ３および視聴状態検出装置６は、インターネットやＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のネットワーク７を介して通信可能に接続されている。これに限らず、撮像装置３および視聴状態検出装置６が、公知の通信ケーブルによって通信可能に直接接続される構成であってもよい。同様に、コンテンツ情報入力装置８および表示装置９は、ネットワーク７を介して、あるいは公知の通信ケーブルによって、視聴状態検出装置６に通信可能に接続されている。

　カメラ３は、公知の構成を有するカメラであり、レンズを通して得られる被写体（視聴者Ｈ）からの光を図示しないイメージセンサ（ＣＣＤ、ＣＭＯＳ等）に結像させることにより、その結像した像の光を電気信号に変換した映像信号を視聴状態検出装置６に対して出力する。カメラ３は、視聴者Ｈのパソコン２またはタブレット２に備え付けのカメラを用いてもよいし、または別途用意したものを用いてもよい。なお、カメラ３の代わりに図示しない画像記憶装置（画像レコーダ）を使用し、画像記憶装置から視聴状態検出装置６に、コンテンツ視聴中の視聴者Ｈの録画画像を入力するように構成することも可能である。

　コンテンツ情報入力装置８は、コンテンツの経時情報を少なくとも含むコンテンツ情報を、視聴状態検出装置６に入力するためのものである。コンテンツの経時情報としては、具体的には、コンテンツの開始時からの経過時間を用いるとよい。

　表示装置４は、上述したように、視聴者Ｈ１の表示装置４または視聴者Ｈ２のタブレット２の表示画面４であり、表示装置９は、例えば、コンテンツ提供者のディスプレイ装置である。表示装置４、９には、視聴状態検出装置６で検出された視聴者状態が表示される。視聴者状態は、本実施形態では、視聴者Ｈの集中度および眠気である。なお、表示装置９と併用してまたは表示装置９の代わりに、視聴者状態を音声や音で通知可能な音声通知装置を使用することも可能である。

　視聴状態検出装置６は、撮像装置３から入力された撮像画像に基づきコンテンツの視聴者Ｈのバイタル情報（ここでは、脈波）を抽出すると共に、抽出されたバイタル情報とコンテンツ情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付けることができる。そして、視聴状態検出装置６は、抽出されたバイタル情報に基づき視聴者Ｈの視聴状態（集中度、眠気）を判定し、判定された視聴者Ｈの視聴状態をコンテンツ情報と共に視聴者Ｈやコンテンツ提供者に対して通知することができる。また、視聴状態検出装置６は、視聴者Ｈが複数人存在する場合に、視聴者Ｈの視聴状態を、各視聴者の視聴状態、または複数人の全体またはその一部についての視聴状態として通知することができる。

　図２に示すように、視聴状態検出装置６は、撮像装置３からコンテンツを視聴中の視聴者Ｈの少なくとも一部を含む時間的に連続する撮像画像および該撮像画像の撮像時間に関する情報が入力される画像入力部１１と、その撮像画像から視聴者Ｈの肌領域（ここでは、顔領域）を検出する領域検出部１２と、検出された視聴者Ｈの肌領域の時系列データに基づき視聴者Ｈのバイタル情報を抽出するバイタル情報抽出部１３と、コンテンツ情報入力装置８からコンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部１４と、バイタル情報とコンテンツ情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付ける情報同期部１５とを備えている。

　さらに、視聴状態検出装置６は、抽出されたバイタル情報から視聴者Ｈの生理学的または神経学的な活動指標を抽出する活動指標抽出部１６と、抽出された活動指標に基づき視聴者Ｈの視聴状態を判定する視聴状態判定部１７と、その判定に用いられる判定情報を記憶している判定情報記憶部１８と、判定された視聴者Ｈの視聴状態をコンテンツ情報に関連付けて記憶する視聴状態記憶部１９と、視聴状態記憶部１９に記憶された視聴者Ｈの視聴状態およびコンテンツ情報を表示装置４、９に出力する情報出力部２０とを備えている。各部は、図示しない制御部によって制御される。

　画像入力部１１は、撮像装置３と接続されており、撮像装置３から、コンテンツ視聴中の視聴者Ｈの少なくとも一部を含む時間的に連続する撮像画像（フレーム画像のデータ）が、映像信号として入力される。また、画像入力部１１には、撮像画像の撮像時間に関する情報も入力される。撮像時間は視聴者Ｈの撮像を開始してからの経過時間であり、撮像画像に関連付けられている。本実施形態では、視聴者Ｈの撮像は、ｅラーニングのコンテンツの再生開始時から開始するものとする。したがって、撮像時間は、コンテンツの再生開始時からの経過時間と同一となる。画像入力部１１に入力された撮像画像は、領域検出部１２に送出される。

　領域検出部１２は、画像入力部１１から取得した各撮像画像（フレーム画像）に対し、顔の特徴量を用いた公知の統計的学習手法に基づく顔検出処理を実行することにより、その検出された顔領域を視聴者Ｈの肌領域として検出および追尾し、その肌領域に関する情報（肌領域を構成する画素数）を取得する。領域検出部１２によって取得された肌領域に関する情報は、バイタル情報抽出部１３に送出される。なお、領域検出部１２による肌領域検出処理については、顔の特徴量を用いた公知の統計的学習手法以外にも、公知のパターン認識手法（例えば、予め準備したテンプレートとのマッチング）に基づく顔検出処理を利用してもよい。また、画像入力部１１から取得した撮像画像に複数人の視聴者Ｈが含まれる場合は、領域検出部１２は、公知の検出手法を用いて、目標とする視聴者Ｈを抽出し、抽出した視聴者Ｈに対して上記の処理を実施するものとする。

　バイタル情報抽出部１３は、領域検出部１２から取得した撮像画像の肌領域に基づき視聴者Ｈの脈拍を算出する。具体的には、時間的に連続する撮像画像において抽出された肌領域を構成する各画素に関し、例えばＲＧＢの各成分の画素値（０－２５５階調）を算出し、その代表値（ここでは、各画素の平均値）の時系列データを脈拍信号として生成する。この場合、脈動による変動が特に大きい緑成分（Ｇ）のみの画素値に基づき時系列データを生成することができる。

　生成された画素値（平均値）の時系列データは、例えば、図３（ａ）に示すように、血液中のヘモグロビン濃度の変化に基づく微少な変動（例えば、画素値の１階調未満の変動）を伴う。そこで、バイタル情報抽出部１３は、その画素値に基づく時系列データに対し、公知のフィルタ処理（例えば、所定の通過帯域が設定されたバンドパスフィルタによる処理等）を実施することにより、図３（ｂ）に示すように、ノイズ成分を除去した脈波を脈拍信号として抽出することができる。そして、バイタル情報抽出部１３は、図４（ａ）に示すように、脈波において隣接する２以上のピーク間の時間から脈波間隔（ＲＲＩ）を算出し、そのＲＲＩをバイタル情報とする。前述したように、撮像時間は撮像画像に関連付けられているので、撮像画像から抽出したバイタル情報も、撮像時間に関連付けられている。バイタル情報抽出部１３によって抽出されたバイタル情報（ＲＲＩ）は、活動指標抽出部１６に送出される。

　図５は、バイタル情報抽出部１３によって抽出された、視聴者Ｈ１のバイタル情報の一例である。図５に示すように、バイタル情報２１は、視聴者Ｈ１のＩＤ番号２２と、撮像画像の撮像時間２３と、各撮像時間２３におけるＲＲＩ値２４とを含む。視聴者Ｈ１のＩＤ番号２２（この例では、ＩＤ：Ｍ００２５１）は、視聴者Ｈを識別するために、バイタル情報抽出部１３により付与される。ＩＤ番号２２は、視聴者Ｈの会員ＩＤ等の個人情報等とは無関係な番号を付与し、視聴者Ｈは自分に対して付与されたＩＤ番号２２を知ることができるが、コンテンツ提供者は視聴者ＨとＩＤ番号２２との対応関係を知ることができないようにすることが望ましい。このようにすると、コンテンツ提供者または第三者に対して、視聴者Ｈの個人情報（会員ＩＤ、バイタル情報等）を保護することができる。撮像時間２３は、前述したように、視聴者Ｈの撮像を開始してからの経過時間である。図５の例では、撮像時間２３が「０．７８２」、「１．５６０」、「２．３３４」、．．．のときのＲＲＩ２４は「０．７８２」、「０．７７８」、「０．７７４」、．．．である。

　コンテンツ情報入力部１４は、コンテンツ情報入力装置８と接続されており、コンテンツ情報入力装置８から、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力される。

　図６は、コンテンツ情報入力部１４に入力された、視聴者Ｈ１のコンテンツ情報の一例である。図６に示すように、コンテンツ情報３１は、コンテンツのＩＤ番号３２と、コンテンツの再生開始時からの経過時間３３と、各経過時間３３におけるコンテンツ内容３４とを含む。コンテンツのＩＤ番号３２（この例では、ＩＤ：Ｃ０２０２０）は、コンテンツを識別するために、コンテンツ情報入力部１４により付与される。図６の例では、経過時間３３が「０．０」のときのコンテンツ内容３４は「スタート」であり、経過時間３３が「２．０」のときのコンテンツ内容３４は「第１章１節」である。

　情報同期部１５は、バイタル情報抽出部１３およびコンテンツ情報入力部１４と接続されており、バイタル情報２１とコンテンツ情報３１とを、撮像時間２３とコンテンツの経過時間３３とで関連付ける（紐付ける）。前述したように、本実施形態では、視聴者Ｈの撮像はｅラーニングのコンテンツの再生開始時から開始するので、撮像画像の撮像時間２３（図５参照）とコンテンツの経過時間３３（図６参照）は同一の時間となる。したがって、バイタル情報２１とコンテンツ情報３１とを、撮像時間２３とコンテンツの経過時間３３とで関連付けることができる。具体的には、バイタル情報２１のＲＲＩ２４（図５参照）に、コンテンツの経過時間３３およびコンテンツ内容３４（図６参照）が関連付けられる。

　図７は、視聴者Ｈ１のバイタル情報２１に、コンテンツの経過時間３３およびコンテンツ内容３４を関連付けた一例である。図７に示すように、バイタル情報２１のＲＲＩ２４に、コンテンツの経過時間３３およびコンテンツ内容３４が関連付けられている。このようにして、バイタル情報２１にコンテンツ情報３１を関連付ける、すなわち、バイタル情報２１とコンテンツ情報３１とを同期させることができる。このことにより、コンテンツ情報と同期後のバイタル情報２５は、コンテンツの経過時間３３を含む経時的なデータとなる。また、図７の例では、コンテンツ情報と同期後のバイタル情報２５のＩＤ番号２６は、ＩＤ：Ｃ０２０２０＿Ｍ００２５１となる。Ｃ０２０２０がコンテンツを識別するための番号であり、Ｍ００２５１が視聴者Ｈを識別するための番号である。なお、本実施形態では、バイタル情報２１とコンテンツ情報３１とを同期させるのにコンテンツの経過時間３３を用いたが、コンテンツの経過時間３３の代わりに、コンテンツの視聴時の時刻を用いてもよい。

　活動指標抽出部１６は、バイタル情報抽出部１３から取得したバイタル情報（ＲＲＩ）から、視聴者Ｈの生理学的または神経学的な活動指標を抽出する。活動指標としては、ＲＲＩ、ＲＲＩの標準偏差であるＳＤＮＮ、心拍数、迷走神経緊張強度の指標であるＲＭＳＳＤまたはｐＮＮ５０、ストレスの指標であるＬＦ／ＨＦなどが挙げられる。これらの活動指標に基づき、集中度や眠気などを推測することができる。例えば、ＲＲＩの経時的な変化は、交感神経および副交感神経の活動を反映することが分かっている。したがって、図４（ｂ）のグラフに示すように、ＲＲＩの経時的な変化、すなわちＲＲＩの揺らぎに基づき、集中度、眠気度、緊張度（ストレス）などを推測することが可能である。活動指標抽出部１６によって抽出された活動指標は、視聴状態判定部１７に送出される。

　視聴状態判定部１７は、活動指標抽出部１６から取得した活動指標に基づき、視聴者Ｈの視聴状態を判定する。本実施形態では、視聴状態は、集中度および眠気とする。なお、これに限らず、例えば緊張度などの他の様々な状態であってもよい。具体的には、判定情報記憶部１８に予め記憶された、活動指標の経時的変化と視聴状態（集中度および眠気）との関係を示す判定情報を参照して、視聴者Ｈの視聴状態を判定する。図７を参照して上述したように、コンテンツ情報と同期後のバイタル情報２５は、コンテンツの経過時間３３を含む経時的なデータなので、同期後のバイタル情報２５から抽出した活動指標は経時的情報を含んでいる。したがって、活動指標の経時的変化は算出可能である。

　図８は、判定情報記憶部１８に予め記憶された判定情報の一例である。図８に示すように、判定情報４１は、活動指標である心拍数４２、ＳＤＮＮ４３、ＲＭＳＳＤ４４の経時的変化と、視聴状態４５との関係を示す表として構成されている。各活動指標の経時的変化は、「増加（増）」４６、「変化なし（０）」４７、「減少（減）」４８の３段階に分けられており、心拍数４２、ＳＤＮＮ４３、ＲＭＳＳＤ４４のうちの２つの経時的変化の組み合わせが、特定の視聴状態４５に対応するように構成されている。例えば、心拍数４２が経時的に低下し、かつＲＭＳＳＤ４４が経時的に低下した場合の視聴状態４５は「状態Ｂ９」４９である。したがって、状態Ｂ９に対応する視聴状態４５が学習的手法や実験的手法などにより予め分かっていれば、心拍数４２およびＲＭＳＳＤ４４の経時的変化に基づいて、視聴者Ｈの視聴状態４５を判定することができる。例えば、「状態Ｂ９」の視聴状態は、学習的手法や実験的手法などにより、「眠気発生」であることが分かっている。したがって、心拍数４２が経時的に低下し、かつＲＭＳＳＤ４４が経時的に低下した場合は、視聴者Ｈの視聴状態は眠気発生であると判定することができる。視聴状態判定部１７によって判定された視聴状態は、視聴状態記憶部１９に送出される。

　視聴状態記憶部１９は、視聴状態判定部１７から取得した視聴状態を、コンテンツ情報に関連付けて記憶する。図７を参照して上述したように、バイタル情報はコンテンツ情報に関連付けられているので、バイタル情報を元にして判定された視聴者Ｈの視聴状態も、コンテンツ情報に関連付けられている。したがって、判定された視聴者Ｈの視聴状態は、コンテンツの経過時間３３（図７参照）に関連付けられた経時的データとして、視聴状態記憶部１９に記憶される。

　情報出力部２０は、視聴状態記憶部１９と接続されており、視聴状態記憶部１９に記憶された視聴者Ｈの視聴状態およびコンテンツ情報を、視聴者Ｈの表示装置４またはコンテンツ提供者の表示装置９に出力することができる。具体的には、情報出力部２０は、視聴者Ｈの集中度および眠気の経時的データを、表示装置４、９に対して出力することができる。

　また、情報出力部２０は、視聴者Ｈが複数人存在する場合に、表示装置４、９に対して、複数人の視聴者Ｈの視聴状態を、各視聴者の視聴状態として出力するか、または複数人の全体またはその一部についての視聴状態として出力することができる。複数人の全体またはその一部についての視聴状態は、各視聴者の視聴状態（集中度、眠気）の程度の割合や平均値を用いるとよい。

　図９Ａは、視聴者Ｈの集中度および眠気の経時的データを、視聴者Ｈの表示装置４またはコンテンツ提供者の表示装置９に出力した例である。図９Ａに示すように、表示装置４の画面５１の上側にコンテンツ再生画面５２が設けられており、画面５１の下側に視聴状態表示画面５３が設けられている。また、コンテンツ再生画面５２と視聴状態表示画面５３との間に、コンテンツ再生ボタン５４と、コンテンツ再生後の経過時間を示すタイムバー５５とが設けられている。また、コンテンツ再生ボタン５４と視聴状態表示画面５３との間に、視聴状態の表示対象を、個人または全体のいずれかに選択するための選択ボタン５６が設けられている。図９Ａでは、視聴状態の表示対象は、個人に選択されている。

　コンテンツ再生画面５２には、ｅラーニングのコンテンツの映像が表示されており、視聴状態表示画面５３には、そのコンテンツを視聴中の視聴者Ｈの集中度と眠気が表示されている。集中度および眠気は、割合で示されている。図９Ａの例では、集中度は約８５％であり、眠気は約１５％である。なお、視聴状態表示画面５３の表示の更新は、所定の時間間隔で行われる。例えば、コンテンツが所定の時間長さを有する静止画像である場合は、静止画像を切り替えるタイミングに合わせて、視聴状態表示画面５３の表示を更新するとよい。このようにして、ｅラーニングの視聴者Ｈまたはコンテンツ提供者に対して、視聴者Ｈの視聴状態（集中度、眠気）をリアルタイムで表示することができる。

　図９Ｂは、選択ボタン５６を操作して、視聴状態の表示対象を全体に選択した例であり、視聴状態表示画面５３には、複数人の視聴者Ｈの全体（以降、「視聴者全体」とも称する）についての視聴状態が表示されている。具体的には、視聴者全体における、集中度が高い者および集中度が低い者の人数の割合、並びに、眠気が有る者および眠気が無い者の人数の割合が示されている。図９Ｂの例では、集中度が高い者の人数の割合は約８０％であり、集中度が低い者の人数の割合は約２０％である。また、眠気が有る者の人数の割合は約８５％であり、眠気が無い者の人数の割合は約１５％である。また、視聴状態表示画面５３には、ｅラーニングのコンテンツの視聴者全体におけるコンテンツの再生回数の割合も示されている。図９Ｂの例では、再生回数が１回の者の割合は約９０％であり、再生回数が２回の者の割合は約１０％である。このようにして、ｅラーニングの視聴者Ｈまたはコンテンツ提供者に対して、視聴者全体としての視聴状態（集中度、眠気）をリアルタイムで表示することができる。なお、図９Ｂの例では、複数人の視聴者Ｈの全体についての視聴状態を表示したが、複数人の視聴者Ｈの全体の一部についての視聴状態を表示するようにしてもよい。

　また、各視聴者Ｈまたは複数人の視聴者Ｈの集中度および眠気の経時的データは、コンテンツの再生終了後の所望の時点において、コンテンツ提供者の表示装置９に出力することもできる。この場合、コンテンツの再生終了後に、コンテンツの各時点での、各視聴者Ｈまたは複数人の視聴者Ｈの集中度や眠気の経時的変化を検証することが可能となる。これにより、視聴者Ｈが関心を示した内容や、視聴者Ｈが集中可能な時間長さなどを推測することが可能となる。また、その推測結果に基づき、コンテンツ内容のクオリティ等を評価したり、コンテンツ内容の改善を図ったりすることも可能となる。また、コンテンツの再生終了後に各視聴者Ｈに対してコンテンツ内容の理解度を測るための試験を行った場合、その試験の結果と、視聴状態検出装置６によって検出された各視聴者Ｈの視聴状態（集中度、眠気）とを比較することにより、各視聴者Ｈの理解度を推定することも可能となる。この場合、視聴者ＨがＩＤ番号を用いて視聴状態記憶部１９から視聴状態の情報を読み出して、視聴者Ｈが自分で試験結果と視聴状態とを比較するようにしてもよい。そして、比較結果（理解度）をコンテンツ提供者に通知するようにしてもよい。このようにすると、視聴者Ｈの個人情報（会員ＩＤ、視聴状態の情報、試験結果等）を保護することができる。なお、本開示の第１実施形態に係る視聴状態検出システム１によれば、視聴者Ｈに接触型のセンサを取り付ける必要がないので、視聴者Ｈが煩わしさを感じることはない。

　上述のような視聴状態検出装置６は、例えば、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）などの情報処理装置から構成することが可能である。詳細は図示しないが、視聴状態検出装置６は、所定の制御プログラムに基づき各種情報処理や周辺機器の制御などを統括的に実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＣＰＵのワークエリア等として機能するＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＣＰＵが実行する制御プログラムやデータを格納するＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ネットワークを介した通信処理を実行するネットワークインタフェース、モニタ（画像出力装置）、スピーカ、入力デバイス、およびＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などを含むハードウェア構成を有しており、図２に示した視聴状態検出装置６の各部の機能の少なくとも一部については、ＣＰＵが所定の制御プログラムを実行することによって実現可能である。なお、視聴状態検出装置６の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。

　図１０は、第１実施形態に係る視聴状態検出装置６による処理の流れを示すフロー図である。

　まず、画像入力部１１に、視聴者Ｈを含む時間的に連続する撮像画像およびその撮像画像の撮像時間に関する情報が入力される（ＳＴ１０１）。領域検出部１２は、撮像画像から視聴者Ｈの肌領域を検出し（ＳＴ１０２）、バイタル情報抽出部１３は、肌領域の時系列データに基づき、視聴者Ｈのバイタル情報を抽出する（ＳＴ１０３）。

　次に、コンテンツ情報入力部１４に、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力され（ＳＴ１０４）、情報同期部１５は、コンテンツ情報とバイタル情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付ける（ＳＴ１０５）。本実施形態では、視聴者Ｈの撮像は、コンテンツの再生開始時から開始するので、撮像時間はコンテンツの経過時間と同一である。したがって、コンテンツ情報とバイタル情報とをコンテンツの経時情報で関連付けることができる。すなわち、コンテンツ情報とバイタル情報とを同期させることができる。

　次に、活動指標抽出部１６は、バイタル情報抽出部１３で抽出されたバイタル情報から、視聴者Ｈの生理学的または神経学的な活動指標を抽出する（ＳＴ１０６）。続いて、視聴状態判定部１７は、活動指標抽出部１６で抽出された活動指標に基づき、判定情報記憶部１８に記憶された判定情報を参照して、視聴者Ｈの視聴状態を判定する（ＳＴ１０７）。視聴状態判定部１７で判定された視聴状態の情報は、視聴状態記憶部１９に記憶される（ＳＴ１０８）。

　そして、視聴状態記憶部１９に記憶された視聴状態の情報は、情報出力部２０から視聴者Ｈの表示装置４またはコンテンツ提供者の表示装置９に対して出力される（ＳＴ１０９）。

　なお、視聴状態検出装置６では、上述のステップＳＴ１０１－ＳＴ１０９は、撮像装置３から順次入力される撮像画像に対して繰り返し実行される。

　（第２実施形態）
　図１１は、本開示の第２実施形態に係る視聴状態検出システム１の全体構成図である。この第２実施形態は、本開示に係る視聴状態検出システムを、講演会に適用した例を示している。図１０において、上述の第１実施形態と同様の構成要素については、同一の符号が付されている。また、第２実施形態では、以下で特に言及しない事項については、上述の第１実施形態の場合と同様とする。

　この第２実施形態は、講演会を視聴している視聴者Ｈの視聴状態の検出に使用される。また、この第２実施形態では、コンテンツ情報入力装置８として、カメラが用いられる。講演者Ｓの講演内容（コンテンツ）は、カメラ８により撮像され、その撮像画像は、コンテンツの経時情報と共に視聴状態検出装置６のコンテンツ情報入力部１４（図２参照）に入力される。

　複数人の視聴者Ｈ（Ｈ３、Ｈ４、Ｈ５）は、カメラ（撮像装置）３により撮像される。視聴者Ｈ３、Ｈ４、Ｈ５は、カメラ３の撮像視野内に収まる場合は同時に撮像してもよい。その場合は、視聴状態検出装置６の領域検出部１２において、各視聴者Ｈを抽出する。また、視聴者Ｈ３、Ｈ４、Ｈ５は、図示しない駆動装置を用いてカメラ３の撮像角度を順次変更することにより交互に撮像してもよい。このことにより、視聴者Ｈ３、Ｈ４、Ｈ５をほぼ同時に撮像することが可能となる。カメラ３で撮像された各視聴者Ｈの画像は、視聴者毎に視聴状態検出装置６の画像入力部１１（図２参照）に入力される。以降、視聴者毎に、上述した第１実施形態の場合と同様の処理が行われる。なお、第１実施形態と同様に、視聴者Ｈの撮像は講演（コンテンツ）の開始時から開始するものとする。

　また、コンテンツ提供者の表示装置９として、講演者Ｓの前にノートパソコンが設置されており、視聴状態検出装置６は、ノートパソコン９に対して、視聴者全体についての集中度および眠気の経時的データを送信する。これにより、ノートパソコン９の表示画面に、上述した図９Ｂのような表示画面が表示される。このことにより、講演者Ｓは、視聴者全体についての集中度および眠気の経時的データをリアルタイムで視認することができ、視聴者全体における集中度および眠気に対して、その場で対応することが可能となる。例えば、視聴者全体に集中度が低い者の割合が増加した場合、または視聴者全体における眠気を有する者の割合が増加した場合に、話し方（声のトーン、声の大きさ）や講義内容を、視聴者Ｈの興味を引くように適宜変更することが可能となる。

　また、第１実施形態と同様に、各視聴者Ｈまたは複数人の視聴者Ｈの集中度および眠気の経時的データは、コンテンツの再生終了後の所望の時点において、コンテンツ提供者の表示装置９に出力することもできる。これにより、講演会の終了後に、講演会のコンテンツの各時点での、各視聴者Ｈまたは複数人の視聴者Ｈの集中度や眠気の経時的変化を検証し、視聴者Ｈが関心を示した内容や、視聴者Ｈが集中可能な時間長さなどを推測ことが可能となる。これにより、視聴者Ｈが関心を示した内容や、視聴者Ｈが集中可能な時間長さなどを推測することが可能となる。また、その推測結果に基づき、講演内容のクオリティ等を評価したり、次回以降の講演内容の改善を図ったりすることも可能となる。また、講演の代わりに、講義または授業を行う場合は、講義または授業の終了後に各視聴者Ｈに対して講義または授業のコンテンツ内容の理解度を測るための試験を行った場合、その試験の結果と、視聴状態検出装置６によって検出された各視聴者Ｈの視聴状態（集中度、眠気）とを比較することにより、各視聴者Ｈの理解度を推定することも可能となる。この場合、第１実施形態と同様に、視聴者ＨがＩＤ番号を用いて視聴状態記憶部１９から視聴状態の情報を読み出して、視聴者Ｈが自分で試験結果と視聴状態とを比較するようにしてもよい。そして、比較結果（理解度）をコンテンツ提供者に通知するようにしてもよい。このようにすると、視聴者Ｈの個人情報（会員ＩＤ、視聴状態の情報、試験結果等）を保護することができる。なお、本開示の第２実施形態に係る視聴状態検出システム１によれば、視聴者Ｈに接触型のセンサを取り付ける必要がないので、視聴者Ｈが煩わしさを感じることはない。

　（第３実施形態）
　図１２は、本開示の第３実施形態に係る視聴状態検出装置６のブロック図である。この第３実施形態に係る視聴状態検出装置６は、情報同期部１５がバイタル情報抽出部１３ではなくて、視聴状態判定部１７に接続されている点が、図２に示した第１実施形態に係る視聴状態検出装置６と異なる。その他の構成は第１実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。

　図１２に示すように、情報同期部１５は視聴状態判定部１７に接続されており、視聴状態判定部１７での判定結果（すなわち、視聴状態）の情報とコンテンツ情報３１（図６参照）とを、撮像画像の撮像時間とコンテンツの経過時間とで関連付ける。撮像画像は撮像時間に関連付けられているので、撮像画像から抽出した活動指標に基づき判定された視聴状態も撮像時間に関連付けられている。そして、上述したように、本実施形態では、視聴者Ｈの撮像はコンテンツの再生時または開始時から開始するので、撮像画像の撮像時間はコンテンツの経過時間と同一の時間となる。したがって、視聴状態判定部１７での判定結果（視聴状態）とコンテンツ情報３１とを、コンテンツの経過時間３３で関連付けることができる。具体的には、各視聴者Ｈの視聴状態に、コンテンツの経過時間３３およびコンテンツ内容３４（図６参照）が関連付けられる。

　このように、情報同期部１５を視聴状態判定部１７に接続する構成にすると、視聴状態検出装置６の構成の自由度を高めることができるので有益である。例えば、本開示に係る視聴状態検出システム１を講演会に適用した場合（図２参照）に、カメラ（コンテンツ情報入力装置）８で撮像したコンテンツ情報（講演の撮像画像）を、視聴状態判定部１７で判定された視聴状態の情報に対して直接的に関連付けることが可能となる。

　（第４実施形態）
　図１３は、本開示の第４実施形態に係る視聴状態検出装置６のブロック図である。この第４実施形態に係る視聴状態検出装置６は、バイタル情報抽出部１３と活動指標抽出部１６とが、インターネットやＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のネットワーク７を介して接続されている点が、図２に示した第１実施形態に係る視聴状態検出装置６と異なる。その他の構成は第１実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。

　図１３に示すように、視聴状態検出装置６は、ネットワーク情報送信部６１と、ネットワーク情報受信部６２とをさらに備えている。ネットワーク情報送信部６１はバイタル情報抽出部１３と接続されており、ネットワーク情報受信部６２は活動指標抽出部１６と接続されている。ネットワーク情報送信部６１は、バイタル情報抽出部１３によって抽出されたバイタル情報２１（図５参照）を、ネットワーク７を介してネットワーク情報受信部６２へ送信する。ネットワーク情報受信部６２は、ネットワーク７を介してネットワーク情報送信部６１からバイタル情報２１を受信する。ネットワーク情報受信部６２が受信したバイタル情報２１は、活動指標抽出部１６に送出される。

　このように、バイタル情報抽出部１３と活動指標抽出部１６とをネットワーク７を介して接続する構成にすると、視聴状態検出装置６の構成の自由度を高めることができるので有益である。例えば、カメラ３で撮像した視聴者Ｈの撮像画像のデータを、ネットワーク７を介して視聴状態検出装置６に送信すると、ネットワーク７を介して送信されるデータの量が大きくなるので好ましくない。したがって、本開示に係る視聴状態検出システム１をｅラーニングに適用する場合（図１参照）は、視聴者Ｈのパソコンまたはタブレット２において撮像画像からバイタル情報を抽出する処理を行った後、抽出したバイタル情報を、ネットワーク７を介して、活動指標抽出部１６に送信するように構成するとよい。このように、視聴者Ｈの撮像画像のデータではなく、バイタル情報のデータを、ネットワーク７を介して送信するように構成すると、ネットワーク７を介して送信されるデータの量を小さくすることができる。したがって、本開示に係る視聴状態検出システム１をｅラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム１を講演会に適用する場合においても同様に有益である。

　（第５実施形態）
　図１４は、本開示の第５実施形態に係る視聴状態検出装置６のブロック図である。この第５実施形態に係る視聴状態検出装置６は、活動指標抽出部１６と視聴状態判定部１７とが、インターネットやＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のネットワーク７を介して接続されている点が、図２に示した第１実施形態に係る視聴状態検出装置６と異なる。その他の構成は第１実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。

　図１４に示すように、視聴状態検出装置６は、ネットワーク情報送信部６１と、ネットワーク情報受信部６２とをさらに備えている。ネットワーク情報送信部６１は活動指標抽出部１６と接続されており、ネットワーク情報受信部６２は視聴状態判定部１７と接続されている。ネットワーク情報送信部６１は、活動指標抽出部１６によって抽出された活動指標を、ネットワーク７を介してネットワーク情報受信部６２へ送信する。ネットワーク情報受信部６２は、ネットワーク７を介してネットワーク情報送信部６１から活動指標を受信する。ネットワーク情報受信部６２が受信した活動指標は、視聴状態判定部１７に送出される。

　このように、活動指標抽出部１６と視聴状態判定部１７とをネットワーク７を介して接続する構成にすると、視聴状態検出装置６の構成の自由度を高めることができるので有益である。また、このように、視聴者Ｈの撮像画像のデータではなく、活動指標のデータを、ネットワーク７を介して送信するように構成することにより、ネットワーク７を介して送信するデータの量を小さくすることができる。したがって、上述した第４実施形態の場合と同様に、本開示に係る視聴状態検出システム１をｅラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム１を講演会に適用する場合においても同様に有益である。

　（第６実施形態）
　図１５は、本開示の第６実施形態に係る視聴状態検出装置６のブロック図である。この第６実施形態に係る視聴状態検出装置６は、視聴状態判定部１７と視聴状態記憶部１９とが、インターネットやＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のネットワーク７を介して接続されている点が、図２に示した第１実施形態に係る視聴状態検出装置６と異なる。その他の構成は第１実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。

　図１５に示すように、視聴状態検出装置６は、ネットワーク情報送信部６１と、ネットワーク情報受信部６２とをさらに備えている。ネットワーク情報送信部６１は視聴状態判定部１７と接続されており、ネットワーク情報受信部６２は視聴状態記憶部１９と接続されている。ネットワーク情報送信部６１は、は視聴状態判定部１７によって判定された視聴状態の情報を、ネットワーク７を介してネットワーク情報受信部６２へ送信する。ネットワーク情報受信部６２は、ネットワーク７を介してネットワーク情報送信部６１から視聴状態の情報を受信する。ネットワーク情報受信部６２が受信した視聴状態の情報は、視聴状態記憶部１９に送出される。

　このように、視聴状態判定部１７と視聴状態記憶部１９とをネットワーク７を介して接続する構成にすると、視聴状態検出装置６の構成の自由度を高めることができるので有益である。また、このように、視聴者Ｈの撮像画像のデータではなく視聴状態の情報を、ネットワーク７を介して送信するように構成することにより、ネットワーク７を介して送信するデータの量を小さくすることができる。したがって、上述した第４および第５の実施形態の場合と同様に、本開示に係る視聴状態検出システム１をｅラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム１を講演会に適用する場合においても同様に有益である。

　本開示は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出装置であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力部と、撮像画像から視聴者の肌領域を検出する領域検出部と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部と、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部とを備える。

　この構成によれば、コンテンツを視聴中の視聴者を含む画像から検出した視聴者のバイタル情報に基づき、視聴者の視聴状態を検出する構成としたので、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することが可能となる。また、検出された視聴状態をコンテンツの経時情報に関連付ける構成としたので、視聴状態に基づいてコンテンツ内容を評価することが可能となる。

　また、本開示において、視聴状態が、視聴者の集中度および眠気の少なくとも１つを含んでもよい。

　この構成によれば、視聴者の集中度および眠気の少なくとも１つを検出する構成としたので、コンテンツの視聴中の視聴者の集中度および眠気に基づき、コンテンツに対する視聴者の興味や理解度を推定することが可能となる。

　また、本開示において、視聴状態記憶部に記憶された視聴状態の情報を、外部の表示装置に対して出力する情報出力部をさらに含んでもよい。

　この構成によれば、視聴状態記憶部に記憶された視聴状態の情報を、外部の表示装置に対して出力する構成としたので、視聴者またはコンテンツ提供者に対して、視聴者の視聴状態を表示することが可能となる。これにより、視聴者またはコンテンツ提供者が、視聴者の視聴状態を把握することが可能となり、さらには、視聴者の視聴状態に基づきコンテンツ内容を評価することも可能となる。

　また、本開示において、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を、各視聴者の視聴状態として出力してもよい。

　この構成によれば、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を各視聴者の視聴状態の情報として構成としたので、各視聴者の視聴状態を、各視聴者またはコンテンツ提供者に対して表示することが可能となる。これにより、各視聴者またはコンテンツ提供者が、各視聴者の視聴状態を詳細に把握することが可能となる。

　また、本開示の情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を、複数人の全体またはその一部についての視聴状態の情報として出力してもよい。

　この構成によれば、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を複数人の全体またはその一部についての視聴状態の情報として出力する構成としたので、複数人の全体についての視聴状態または複数人の全体の一部についての視聴状態を、各視聴者またはコンテンツ提供者に対して表示することが可能となる。これにより、各視聴者またはコンテンツ提供者が、複数人の視聴者の視聴状態を詳細に把握することが可能となる。

　また、本開示は、視聴状態検出装置と、視聴状態検出装置に対して、撮像画像を入力する撮像装置と、視聴状態検出装置に対して、コンテンツの経時情報を少なくとも含むコンテンツ情報を入力するコンテンツ情報入力装置とを備える視聴状態検出システムであってもよい。

　この構成によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることが可能となる。

　また、本開示は、視聴状態検出装置から出力された視聴状態の情報を表示する表示装置をさらに備えてもよい。

　この構成によれば、視聴状態検出装置から出力された視聴状態の情報を表示装置に表示するので、視聴者またはコンテンツ提供者に対して、視聴者の視聴状態を表示することが可能となる。これにより、視聴者またはコンテンツ提供者が、視聴者の視聴状態を把握することが可能となり、さらには、視聴者の視聴状態に基づきコンテンツ内容を評価することも可能となる。

　また、本開示は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出方法であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力ステップと、撮像画像から視聴者の肌領域を検出する領域検出ステップと、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出ステップと、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定ステップと、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力ステップと、視聴状態の情報をコンテンツの経時情報に関連付けて記憶する視聴状態記憶ステップとを有してもよい。

　この方法によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることが可能となる。

　以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。なお、上記実施形態に示した本開示に係る視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法の各構成要素は、必ずしも全てが必須ではなく、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。

　本開示に係る視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法は、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることを可能とする視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法などとして有用である。

　１　　視聴状態検出システム
　２　　ＰＣ，タブレット
　３　　撮像装置（カメラ）
　４　　表示装置
　５　　入力装置
　６　　視聴状態検出装置
　７　　ネットワーク
　８　　コンテンツ情報入力装置
　９　　表示装置
　１１　　画像入力部
　１２　　領域検出部
　１３　　バイタル情報抽出部
　１４　　コンテンツ情報入力部
　１５　　情報同期部
　１６　　活動指標抽出部
　１７　　視聴状態判定部
　１８　　判定情報記憶部
　１９　　視聴状態記憶部
　２０　　情報出力部
　Ｈ　　視聴者
　Ｓ　　講演者

Claims

　　コンテンツを視聴中の視聴者を含む画像から前記視聴者の視聴状態を検出する視聴状態検出装置であって、
　　前記視聴者を含む時間的に連続する撮像画像および前記撮像画像の撮像時間に関する情報が入力される画像入力部と、
　　前記撮像画像から前記視聴者の肌領域を検出する領域検出部と、
　　前記肌領域の時系列データに基づき前記視聴者のバイタル情報を抽出するバイタル情報抽出部と、
　　抽出された前記バイタル情報に基づき前記視聴者の視聴状態を判定する視聴状態判定部と、
　　前記コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、
　　前記視聴状態を前記コンテンツの経時情報に関連付けて記憶する視聴状態記憶部と
　を備えたことを特徴とする視聴状態検出装置。
　　前記視聴状態が、前記視聴者の集中度および眠気の少なくとも１つを含むことを特徴とする請求項１に記載の視聴状態検出装置。
　　前記視聴状態記憶部に記憶された前記視聴状態の情報を、外部の表示装置に対して出力する情報出力部をさらに含むことを特徴とする請求項１または請求項２に記載の視聴状態検出装置。
　　前記情報出力部は、前記視聴者が複数人存在する場合に、前記視聴状態の情報を、前記各視聴者の視聴状態として出力することを特徴とする請求項３に記載の視聴状態検出装置。
　　前記情報出力部は、前記視聴者が複数人存在する場合に、前記視聴状態の情報を、前記複数人の全体またはその一部についての視聴状態の情報として出力することを特徴とする請求項３に記載の視聴状態検出装置。
　　請求項１から請求項５のいずれかに記載の前記視聴状態検出装置と、
　　前記視聴状態検出装置に対して、前記撮像画像を入力する撮像装置と、
　　前記視聴状態検出装置に対して、前記コンテンツの経時情報を少なくとも含むコンテンツ情報を入力するコンテンツ情報入力装置と
　を備えたことを特徴とする視聴状態検出システム。
　　前記視聴状態検出装置から出力された前記視聴状態の情報を表示する表示装置をさらに備えたことを特徴とする請求項６に記載の視聴状態検出システム。
　　コンテンツを視聴中の視聴者を含む画像から前記視聴者の視聴状態を検出する視聴状態検出方法であって、
　　前記視聴者を含む時間的に連続する撮像画像および前記撮像画像の撮像時間に関する情報が入力される画像入力ステップと、
　　前記撮像画像から前記視聴者の肌領域を検出する領域検出ステップと、
　　前記肌領域の時系列データに基づき前記視聴者のバイタル情報を抽出するバイタル情報抽出ステップと、
　　抽出された前記バイタル情報に基づき前記視聴者の視聴状態を判定する視聴状態判定ステップと、
　　前記コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情
　報入力ステップと、
　　前記視聴状態の情報を前記コンテンツの経時情報に関連付けて記憶する視聴状態記憶ステップと
　を有することを特徴とする視聴状態検出方法。