以下、発明の実施の形態を説明する。下記の実施形態は特許請求の範囲にかかる発明を限定するものではない。実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
複数の実施形態は何れも、学習モードでの学習の結果として、推定モードで「検出された刺激要因」と「計測された生体信号」から「人間に生じる感性の種類や強度」を推定する。「刺激要因」は、画像、ビデオ、音楽などの生体の感覚器を刺激するものであり、会話や自然音などの音響も含まれる。また、本構成は、視覚器・聴覚器以外の触覚器、嗅覚器、味覚器といった感覚器を刺激する刺激要因などにも適用可能であるが、ここでは説明の簡略化の為、主に画像や風景などの、視覚器を刺激する刺激要因に絞って説明する。なお、「計測」という用語の意味は、「検出」という用語の意味に含まれ得る。
図1は、学習モードの感性推定型自動撮影システム10の概略図である。感性推定型自動撮影システム10は、学習に基づいて推定した「人間に生じる感性の種類や強度」が所定の条件を満たした場合に、自動で撮影を行う。学習モードの感性推定型自動撮影システム10は、有線または無線で互いに通信する、感性推定装置101と、画像表示装置102と、メガネ型ウェアラブルカメラ103とを備える。メガネ型ウェアラブルカメラ103は、メガネのようにユーザ1の頭部に装着される。画像表示装置102は、ユーザ1の感性反応を誘発する刺激要因の生成装置で、動画や静止画の表示の他、音響発声を行う。なお、ユーザ1は、生体の一例である。
図2は、メガネ型ウェアラブルカメラ103の模式的斜視図である。メガネ型ウェアラブルカメラ103は、メガネフレーム141の近傍に設けられてメガネ型ウェアラブルカメラ103を制御する制御部151と、感性推定装置101との通信用の無線通信アンテナである通信部153とを備える。メガネ型ウェアラブルカメラ103は更に、メガネフレーム141の近傍に設けられて、ユーザ1の視線の先にある視認対象の刺激要因を検出する小型カメラである第1の検出部155と、メガネの複数個所に設けられて、ユーザ1から発せられる生体信号を検出する複数のセンサである第2の検出部160と、メガネフレーム141の近傍に設けられて、ユーザ1が視認対象を視認するときにユーザ1の視点が滞留する注視点を検出する小型カメラである第3の検出部157とを備える。メガネ型ウェアラブルカメラ103は更に、制御部151からの信号に基づいて、第1の検出部155によって検出される画像中の静止画を記録する記録部159を備える。
第2の検出部160によって検出される生体信号は、脳波、及び、脳波以外の少なくとも1種類の生体信号を含んでもよく、この脳波以外の少なくとも1種類の生体信号は、例えば、心電信号、心拍信号、眼電信号、呼吸信号、発汗に関する信号、血圧に関する信号、血流に関する信号、皮膚電位および筋電の少なくとも1つであってもよい。本実施形態の第2の検出部160は、脳波を検出する脳波センサ161と、心電信号および心拍信号の少なくとも一方を検出する心拍センサ165と、眼電を検出する眼電センサ166と、呼吸信号を検出する呼吸センサ169とを備える。
脳波センサ161は、メガネ型ウェアラブルカメラ103を装着したユーザ1の右側頭部に接触する4つの電極を含む右側頭部脳波センサ162と、頭頂部に接触する3つの電極を含む頭頂部脳波センサ163と、左側頭部に接触する4つの電極を含む左側頭部脳波センサ164とを備える。これらの電極の設置方法としては、国際10-20法が標準的である。国際10-20法とは、頭皮を10%または20%の等間隔で区切って計21個の電極を配置するもので、これに沿った配置が最も望ましいが、日常装着して活動する機器においては、電極数が多く装用が煩わしい上に全電極の固定が難しい問題がある。そこで、本実施形態の脳波センサ161は、感情や意志判断に関連した前頭葉を代表とする頭頂部分、視覚野の近傍の左右側頭葉に数点、電極を配置する。なお、単純な構成では、電極を額上部の前頭葉1点のみとすることも可能である。
心拍センサ165としては、心臓付近に電極を設置して心電を検知する「心電式」と、センサからの赤外光を皮膚に照射し、皮下の血管中のヘモグロビンによる光吸収により脈拍を計測する形式の「光学式」とが考えられる。前者は心拍信号のみでなく、詳細な心電信号を計測することが可能であるが、別途に心臓付近へのセンサ設置が必要になる。一方、後者は精密な心電信号は得られないが、血管のある場所ならどこでも設置できる。本実施形態では、心拍信号(心電信号のR波に相当)が得られれば良いので、後者の「光学式」の使用が望ましい。そこで、本実施形態の心拍センサ165は、「光学式」を採用し、メガネのツル143付近でユーザ1のこめかみ近傍に設置する。なお、心拍センサ165は、メガネの左右のツル143に設置しているが、簡易な構成では左右どちらか1つの設置でもよい。
眼電センサ166は、左右のメガネフレーム141の近傍に設けられた、水平眼電センサ167と、垂直眼電センサ168とを備える。眼電センサ166は、左目および右目のそれぞれについて、水平・垂直の二方向に眼球が動いた場合に発生する目の周辺の筋電信号を検知する電極である。本電極の信号は、脳波に混入する眼電信号の除去に利用されてもよく、ユーザ1の眼球の動作方向と量を算出することで注視点を検出する用途に用いられてもよい。
ここで、眼電信号が脳波に混入する点についてより具体的に説明すると、先ずその原因は、微弱な脳波と比較して「瞬き」や「眼球運動」による眼電信号の振幅が大きく、眼電信号が脳波に対してノイズ・アーチファクトとなるためである。例えば特許公開公報(特開平11-318843号)に示されるように、眼電信号のみの検出は比較的容易なので、この結果を用いることで、脳波に混入した眼電成分を除去できる。具体的には、眼電センサ166で検出された眼電波形を使用して、脳波から眼電成分を除去するアルゴリズムを使用する。例えば、脳波波形から眼電波形への射影を求め、脳波波形から射影を差し引いてもよい。また、眼電成分から脳波波形を回帰し、脳波波形から回帰された値を差し引いてもよい。また、眼電波形と脳波波形に正準相関分析を適用し、脳波波形から求めた正準変数から、眼電波形の正準変数と高相関な成分を除去した後、脳波波形に逆変換してもよい。また、脳波波形を独立成分分析で独立成分に分解し、眼電波形と高相関な成分を除去した後、脳波波形を再合成してもよい。
呼吸センサ169は、メガネフレーム141に取り付けられたノーズパッドに設置され、ユーザ1の鼻の内部の空気の通過音から呼吸の状態をモニタするものである。呼吸センサ169として、箸尾谷健二(立命館大)、高田信一(立命館大)、福水洋平(立命館大)他による非特許文献「人体の心拍音・呼吸音・脈音分離手法に基づく異常周期を持った循環器系疾患の検出」(日本音響学会誌Vol.68、P387-396、2012)に記載の装置・手法の適用が可能である。また、非特許文献「Healthcare System Focusing on Emotional Aspect Using Augmented Reality: Control Breathing Application in Relaxation Service」、「Somchanok TivatansakulMichiko Ohkura、HCI International 2013 - Posters' Extended Abstracts pp 225-229」に記載の手法を用いれば、心拍から呼吸信号の導出が可能となるので、独立した呼吸センサを搭載する必要はなくなる。
第3の検出部157は、メガネ型ウェアラブルカメラ103を装着したユーザ1の眼を中心とする顔面を撮影するもので、ユーザ1の視線を検知して、ユーザ1の注視点の算定に用いられる。また、第3の検出部157は、瞬きを検知することで脳波へ混入した眼電信号の除去、目の周りの血管像からの心拍信号検知などに利用してもよい。この場合、第3の検出部157は、心拍センサ165および眼電センサ166の一部機能の代替となるので、個々の実施形態において適宜に機能を割り当てればよく、第3の検出部157、心拍センサ165および眼電センサ166の全てを必ず備えている必要はない。
図3は、感性推定型自動撮影システム10のブロック図である。学習モードでは、先ず、ユーザ1が、感性推定装置101の例えばキーボードなどの入力インタフェースである入力部125を操作して、制御部111が、その操作内容を例えばモニタである表示部115に表示させる。制御部111は、入力部125に入力された操作データを入力されると、記憶部119から読み出した画像を、通信部113を介して画像表示装置102の通信部131に送信する。所定の操作データである場合、制御部111は、複数のデータを検出するための検出信号を、通信部113を介してメガネ型ウェアラブルカメラ103の通信部153に送信する。通信部131は、受信した画像を表示部132に出力し、表示部132は、その画像を画像表示装置102の画面に表示する。
制御部151は、例えばドライブレコーダを有しており、第1の検出部155、第2の検出部160および第3の検出部157から入力された各検出データを随時記録・更新している。ユーザ1は、メガネ型ウェアラブルカメラ103を装着した状態で、画像表示装置102の表示部132に表示された画像を視認している。この状態のメガネ型ウェアラブルカメラ103において、制御部151は、通信部153を介して検出信号を受信すると、所定の操作が行われた前後数秒間について、時間的な同期をとって第1の検出部155、第2の検出部160および第3の検出部157から受信した各検出データを抽出し、通信部153を介して感性推定装置101の通信部113に送信する。
感性推定装置101において、これらの検出データを受信した通信部113は、第1の検出部155からの刺激要因のデータと、第3の検出部157からの注視点データとを第1の出力部121に出力し、第2の検出部160からの複数の生体信号を第2の出力部123に出力する。
第1の出力部121は、先ず、注視点データに基づき、刺激要因の画像を、その注視点を中心に一定範囲を切り取る。そして、切り取った画像の特徴量を、コンボリューションニューラルネットワーク(CNN)を用いて抽出する。CNNとは、ディープラーニングニューラルネットワーク(DLNN)の一種であり、DLNNは、3層構成のニューラルネットワーク(NN)を4層以上に広げたものであり、近年のデータが大量に蓄積できるようになってきたことやコンピュータの高機能化により、NN以後に出てきた新しい計算手法よりも高性能化したことが知られている。その中でも、CNNは、脳の視覚野(V1)をモデルにしていて、事前に画像認識の精度が高くなるように学習したものを用いると、脳の視覚野と類似した画像処理結果が得られるので、画像の特徴量を抽出するのに適した手法である。なお、NN自体は、1980年代頃から盛んに研究され始めたものであり、複数のノードを結合させて、各ノードで非線形な処理を行うことで、一見無意味なデータの配列(パターン)に意味のあるシンボルを割り当てることができるという計算手法(及びそのためのデータ構造)である。
本実施形態では、説明の簡略化の為、刺激要因を、視覚器を刺激する画像に絞っているが、刺激要因として、聴覚器を刺激する刺激要因や触覚器を刺激する刺激要因などを含む場合、第1の出力部121は、それぞれの感覚器を刺激する刺激要因毎に脳の情報処理に近い変換方法として、CNN以外の深層学習、機械学習または統計処理といった手法を用いてもよい。例えば、視覚器を刺激する刺激要因および聴覚器を刺激する刺激要因の特徴量抽出に適した自己組織化マップ(SOM)、時系列データの特徴量抽出に適したリカレントニューラルネットワーク(RNN)、およびRNNと同じような使い方ができるディープニューラルネットワーク(DNN)などの手法を用いてもよい。ただし、SOMを用いて聴覚器を刺激する刺激要因を扱う場合は、SOM単体では時系列を扱うのが難しいので、別の手法と組み合わせる必要がある。また、RNNを用いて聴覚器を刺激する刺激要因を扱う場合は、別途選んだ前処理と組み合わせて聴覚器を刺激する刺激要因の特徴を抽出することが可能である。DNNは、RNNと異なり、前処理自体を学習させることができる。
第1の出力部121は、抽出した画像の特徴量を、第1の取得部122に出力する。第1の取得部122は、画像の特徴量を推定部117に出力する。
第2の出力部123は、例えば深層学習、機械学習および統計処理といった手法を用いて、複数の種類を含む生体信号から1つの統合的な特徴量を抽出する。これらの手法として、例えば、リカレントニューラルネットワーク(RNN)、ロングショートタームメモリネットワーク(LSTM)およびパラメトリックバイアス型リカレントニューラルネットワーク(RNNPB)などの手法が考えられる。これらの手法は何れも、生体信号のような時系列データの特徴量抽出に適しており、LSTMは、比較的長期の時系列でも重要な情報を記憶するので、予測精度が高くなる。RNNPBは、文脈情報を外部から明示的に与えることで、1つのネットワークに複数のモードを持たせるようなことが可能になり、複数の因果関係が含まれるような対象でも、予測精度が高くなる。この他にも、DLNNとして、ディープボルツマンマシン(DBM)やそれに類するものを用いることができ、これは、機械学習アルゴリズムには必要とされた、人間による特徴量ベクトルを作るための前処理の部分を無くすことができる。
第2の出力部123は、抽出した生体信号の特徴量を、第2の取得部124に出力する。第2の取得部124は、生体信号の特徴量を推定部117に出力する。
感性推定装置101において、入力部125は、ユーザ1によって入力される感性情報を、第3の取得部126に出力する。第3の取得部126は、感性情報を推定部117に出力する。なお、感性情報とは、生体の感性を示す情報であって、感性の種類および強度を示す情報を含む。
推定部117は、例えば深層学習、機械学習および統計処理といった手法を用いて、第1の取得部122によって取得された刺激要因の特徴量と、第2の取得部124によって取得された、ユーザ1が刺激要因により刺激されたときの生体信号の特徴量と、第3の取得部126によって取得された、ユーザ1が刺激要因により刺激されたときの感性情報との関連性を学習する。
ここで言う「関連性」は、当技術分野において「学習モデル」とも呼ばれ、推定部117が、刺激要因の特徴量、生体信号の特徴量および感性情報から抽出した、これらのデータ間の規則性、パターンなどを含む。また、「関連性」は、入力データとしての刺激要因の特徴量および生体信号の特徴量と、出力データとしての感性情報との対応関係であるとも言える。
上記の学習手法として、例えば、サポートベクターマシン(SVM)、リカレントニューラルネットワーク(RNN)およびベイジアンネットワーク(BN)などの手法が考えられる。SVMは、比較的少数のサンプルの学習から、未知のサンプルに対しても誤差が少ない判別ができる。ただし、学習結果についてはある程度理解できるが、人間には理解しにくく、判別の因果関係についてはわかりにくい。RNNは、多くの学習サンプルが必要で、学習に多くの時間がかかる。時系列など、前後(文脈)関係に左右される対象に有効であるが、学習結果についての理解は難しい。BNは、多くの学習サンプルが必要で、学習に時間がかかる。学習結果は、条件付き確率モデルを接続したネットワークの形で表現されるので、因果関係がわかりやすい。学習されたネットワークは、確率伝搬により、既知ノード、未知ノードは自由な組み合わせで使える。
学習モードの感性推定型自動撮影システム10において、感性推定装置101の制御部111によって検出信号が生成される毎に、メガネ型ウェアラブルカメラ103は各種の検出データを感性推定装置101に送信し、感性推定装置101の推定部117は、上記の学習を繰り返す。この一連の流れを、図4を用いて改めて説明する。
図4は、感性推定型自動撮影システム10の学習モードのフロー図である。学習モードを開始する前準備として、ユーザ1は、メガネ型ウェアラブルカメラ103を装着し、画像表示装置102の画面を視認できる位置で、感性推定装置101の入力部125を操作できる状態にしておく。学習モードを開始すると先ず、感性推定装置101の制御部111は、記憶部119に記憶された複数の画像セットの中から1組の画像セットを選択し、画像表示装置102に表示させる画像セットを用意する(ステップS111)。この画像セットの一例を、図5に示す。図5には、互いに全く異なるタイプの画像として、人物の画像5Aと、自然風景の画像5Bと、建造物の画像5Cと、食べ物の画像5Dと、自動車の画像5Eとが例示されている。なお、図5に示す画像セットは一例に過ぎず、画像セットの枚数、種類などは任意に決定される。
次に、制御部111は用意した画像セットの最初の画像を画像表示装置102に表示し(ステップS113)、ユーザ1はこの画像を見て、予め設定された方法で、入力部125を操作する。「画像進める」操作である場合(ステップS115:はい)、当該操作データを入力された制御部111は、記憶部119から次の画像を読み出し、通信部113を介して画像表示装置102の通信部131に送信する。通信部131は、受信した画像を表示部132に出力し、表示部132は、画像表示装置102の画面に表示されている画像を、その受信した画像に切り替える(ステップS117)。「画像進める」操作ではなく(ステップS115:いいえ)、「画像戻す」操作である場合(ステップS119:はい)、前の画像が存在すれば、上記の流れと同様にして、画像表示装置102の画面に表示されている画像を、前の画像に切り替える(ステップS121)。更に「画像戻す」操作でもなく(ステップS119:いいえ)、「画像決定」操作でもない場合(ステップS123:いいえ)、ステップS115に戻り、一連の判断を繰り返す。
「画像決定」操作である場合(ステップS123:はい)、当該操作データを入力された制御部111は、各データを検出するための検出信号をメガネ型ウェアラブルカメラ103に送信する。メガネ型ウェアラブルカメラ103の制御部151は、検出信号を受信すると、所定の操作が行われた前後数秒間について、時間的な同期をとって第1の検出部155、第2の検出部160および第3の検出部157から入力された各検出データを抽出し、通信部153を介して感性推定装置101の通信部113に送信する。具体的には、第3の検出部157で検出された、決定画像上でユーザ1の視点が滞留した注視点データと(ステップS125)、第1の検出部155で検出された決定画像と(ステップS127)、第2の検出部160で検出された、決定画像を視認しているユーザ1から発せられた複数の生体信号と(ステップS133)を送信する。なお、各検出部は、制御部151が検出信号を受信するか否かに拘わらず、検出したデータをそれぞれ制御部151に出力し続けている。
このように、ステップS125、ステップS127およびステップS133で時間的な同期を取って検出された各データは制御部151に出力され、通信部153を介して感性推定装置101の通信部113に送信され、第1の出力部121および第2の出力部123に入力される。第1の出力部121は、ステップS125およびステップS127で検出されたデータを元に、決定された画像を、注視点を中心に一定範囲を切り取り(ステップS129)、切り取った画像の特徴量を、例えばCNNを用いて抽出する(ステップS131)。第2の出力部123は、ステップS133で検出された生体信号の特徴量を、例えばRNNを用いて抽出する(ステップS135)。第1の出力部121および第2の出力部123は、それぞれ抽出した特徴量を推定部117に出力する。
ユーザ1は、感性推定装置101の入力部125で「画像決定」操作を行った後、表示部115の選択画面を見ながら入力部125で感性情報を入力する。第3の取得部126は、入力部125に入力された感性情報を取得し(ステップS139)、推定部117に出力する。
推定部117は、例えばSVMを用いて、刺激要因の特徴量と、ユーザ1が刺激要因により刺激されたときの生体信号の特徴量と、ユーザ1が刺激要因により刺激されたときの感性情報との関連性を学習する(ステップS141)。ユーザ1の感性情報を推定するには学習が十分ではない場合(ステップS143:いいえ)、画像表示装置102の表示部132に表示させる画像セットを次の画像セットに切り替えるべく(ステップS145)、記憶部119に記憶された複数の画像セットの中から他の1組の画像セットを選択し、ステップS113に戻る。ユーザ1の感性情報を推定するのに学習が十分である場合(ステップS143:はい)、学習モードを終了する。
学習モードにおいて十分な学習を行ったか否かは、学習アルゴリズムの収束判定により判断される。これには例えば、誤差曲線または損失関数の値若しくはその変化、誤差曲線または損失関数の勾配のような微分情報の大きさ若しくはその変化、更新に伴うパラメータの変化量、学習ステップ数、又は、これらの組み合わせを用いてもよい。具体的には例えば、判断指標として、ユーザ1によって入力された感性情報と、推定モードにおいて推定された感性情報との相違を表わす、誤差関数または損失関数を用いてもよい。例えば、誤差関数が予め定められた閾値より小さくなれば、学習が十分であると判断する。また、この判断に誤差関数を直接使わず、誤差関数の減少量を用いてもよい。この場合には、誤差関数の減少量が予め定められた閾値より小さくなれば、学習が十分であると判断する。
上記のステップS129における操作を、図6を用いて説明する。図6は、注視点6Bを中心とする一定範囲6Aの切り取りを説明する図である。図6の例示的な画像に示されるように、画像中には、1人の女性と、その女性の背後にある様々な要素から成る風景とが写し出されている。図6では、この画像が画像表示装置102の表示部132に表示されたときに、ユーザ1の視点が、この画像における女性の左目付近の点6Bに滞留したことを示している。更に、注視点6Bを中心とする一定範囲6Aとして、例えば元の画像と同じアスペクト比の画像領域も示している。
このように、注視点6Bを中心として一定範囲6Aを切り取った画像は、元の画像の中でユーザ1が最も着目したと考えられる画像領域となる。よって、切り取られた画像の特徴量を学習および推定に用いれば、ユーザ1の感性情報を推定するのに不要な情報を省いてより重要な情報を集中的に収集できるので、感性情報の推定精度を高めることができる。
図7は、本実施形態で検出する各種の生体信号と、生体信号から導出される信号成分と、信号成分を利用可能にするための信号処理方法とを説明するための表である。メガネ型ウェアラブルカメラ103の第2の検出部160に含まれる、脳波センサ161、心拍センサ165、眼電センサ166および呼吸センサ169のそれぞれから検出される、脳波、心拍信号、眼電信号および呼吸信号の各種生データから、図7の表に示される合計で12種類の詳細な信号成分が導出される。これらの信号成分は、同表に示される所定の方法でそれぞれ信号処理され、生体信号の特徴量抽出に利用可能な状態となる。本実験では、脳波は主に視覚器を刺激する刺激要因、感性反応、安静/興奮を検出するため、眼電信号は主に瞬き、注視点を検出し、脳波を補正するため、心電信号は主に感性反応を検出するため、呼吸信号は主に感性反応、安静/興奮を検出するために用いる。
具体的には、脳波については、前頭におけるα波振幅・頭頂におけるα波振幅・後頭におけるα波振幅の3種類のα波振幅が導出され、眼電信号については、水平眼電位と垂直眼電位、及びそれらの微分値である水平眼電位微分と垂直眼電位微分が導出され、心電信号については、R-R間隔差、瞬時周波数、及びRRIと心拍位相差の微分値が導出され、呼吸信号については、呼吸信号自体の他に瞬時周波数も導出される。そして、3種類のα波振幅については、ローパスフィルタ(LPF)、眼電除去および短時間高速フーリエ変換(FFT)の信号処理を行い、水平成分眼電位等の4つについては、LPF、平滑化した注視点算出、及び脳波への眼電混入成分除去の信号処理を行う。また、心電信号及び呼吸信号から導出された各種信号成分は何れも、LPFの信号処理を行う。計測の時間窓は1秒で、データは100m秒毎に更新する。
本実施形態では、これらの生体信号に加えて、感性推定装置101の入力部125における、画像切り替えのキー操作も含め、合計で13種類の生体信号を特徴量抽出に用いる。外部からの刺激要因によって感性反応が発生したときに同時に生ずる単一種の生体信号(事象関連電位の脳波データや脈拍信号等)を用いる場合、これらの単一種の生体信号はS/Nが低く、高感度で安定した感性検知が困難であるが、このように、脳波、心電信号などの、感性推定に使用した場合に単独ではS/Nが低くて環境や身体運動の影響を受けやすい生体信号を同時に複数検出することで、全体的なS/Nを高めて、ロバストな感性推定を実現した。このような手法を、「生体信号のマルチモーダル計測法」とも呼ぶ。「生体信号のマルチモーダル計測法」によれば、人間の感性系に入力として与えられる視覚器を刺激する刺激要因を代表とする各種の刺激要因と、この刺激要因によって誘起され計測される各種の生体信号、そして人間に生じる感性の種類や強度について、相互の関連や因果関係を説明することができる。
図8は、複数の種類を含む生体信号がRNNに入力されて統合的な生体信号の特徴量として出力されるまでを説明する図である。RNNにおいて、入力層に入力された複数の種類の生体信号は、中間層に入った後、文脈層と中間層との間を繰り返し入出力する過程によって、全体的・統合的な生体信号の特徴量となり、文脈層から出力される。RNNの利用で特徴的であるのは、脳波・心電信号・呼吸信号・眼電信号から信号処理・導出された13種のデータを入力層に与え、この13種の生体信号を統合した結果の特徴量として、RNNの文脈層データを使用することである。これは、文脈層データが、複数の生体信号の時系列的な特徴量を表しているからである。
ここで、RNNの仕組みを簡単に説明する。RNNにおいては、通常のニューラルネットワークと同様に、各ノードに前段の各ノードからの出力を入力として、重み付けした総和を求めた後に、バイアスbを加えて、活性化関数fを通したものを出力とする。下記の中間層Hを定義する数式1、出力層Oを定義する数式2、及び、文脈層Cを定義する数式3では、x
i,tはタイムステップtにおける入力ノードiの値、y
L
i,tは、層Lにおける、ノードiのタイムステップtの出力を表わす。w
PQ
ijは、レイヤーPのノードiからレイヤーQのノードjへの重みである。
中間層には、タイムステップtの入力と、タイムステップt-1の文脈層の出力が入力として入る。BPTT(Back Propagation Through Time)という計算アルゴリズムで、タイムステップtの状態から、タイムステップt+1の状態を予測するための学習をすると、wやbのパラメータが学習されて、次のステップの予測ができるようになる。このときの文脈層の出力は、13種類の生体信号を統合した形で、RNNが学習した「状態」を反映したものになっている。
図9は、推定モードの感性推定型自動撮影システム10の概略図である。推定モードでは、学習モードと異なり、メガネ型ウェアラブルカメラ103を装着したユーザ1は、画像表示装置102によって表示された刺激要因としての画像を視認することに代えて、実物の視認対象3を刺激要因として視認する。また、ユーザ1の生体信号等は、刺激要因のデータと共にリアルタイムで感性推定装置101にて解析され、時系列的にユーザ1の感性情報が推定される。そして、ユーザ1が視認対象3を見て、例えば所定の強さ以上の「いいね」という感性を抱いたと推定した場合、その状態の視認対象3をメガネ型ウェアラブルカメラ103の小型カメラによって自動で撮影する。このときのメガネ型ウェアラブルカメラ103と感性推定装置101との間の信号のやり取りを、図3を再び参照しながら説明する。
メガネ型ウェアラブルカメラ103を装着したユーザ1が新たな刺激要因として視認対象3という刺激要因を受けると、メガネ型ウェアラブルカメラ103からの複数の検出データは、学習モードと同様にして、感性推定装置101に送信される。そして、感性推定装置101では、学習モードと同様にして、推定部117が、視認対象3からの新たな刺激要因としての画像の特徴量と、ユーザ1が視認対象3という新たな刺激要因により刺激されたときの生体信号の特徴量とを入力される。推定部117は、画像の特徴量および生体信号の特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1が視認対象3という新たな刺激要因により刺激されたときの感性情報を推定し、推定した感性情報を制御部111に出力する。
制御部111は、感性情報を入力されると、記憶部119を参照して、感性情報が予め定められた所定の条件を満たすか否かを判断し、所定の条件を満たす場合には、通信部113を介してメガネ型ウェアラブルカメラ103の通信部153に静止画を記録するための記録信号を送信する。
メガネ型ウェアラブルカメラ103の制御部151は、通信部153から記録信号を入力されると、記録部159に対し、第1の検出部155によって検出されている刺激要因としての動画中の静止画を記録させる。記録部159によって記録された静止画は、記録部159に蓄積されて他の複数の静止画とまとめられてもよく、記録される毎に処理されてもよい。これらの静止画は、任意の装置によって任意の方法で読み出されてもよく、各通信部を介してメガネ型ウェアラブルカメラ103から感性推定装置101に送信され、記憶部119に記憶されたり、表示部115に表示されたりしてもよい。この一連の流れを、図10を用いて改めて説明する。
図10は、感性推定型自動撮影システム10の推定モードのフロー図である。推定モードを開始する前準備として、ユーザ1は、メガネ型ウェアラブルカメラ103を装着し、視認対象3を視認できる位置であって、且つ、メガネ型ウェアラブルカメラ103と感性推定装置101とが通信可能な位置にいるようにする。推定モードを開始すると先ず、第1の検出部155は、視認対象3が含まれる画像を検出し(ステップS153)、第3の検出部157は、ユーザ1の視界と見なすことができる第1の検出部155の撮影視野の画像上で、ユーザ1の視点が滞留した注視点を検出し(ステップS151)、第2の検出部160は、視認対象3を見ているユーザ1から発せられた複数の生体信号を検出する(ステップS159)。
ステップS151、ステップS153およびステップS159で同期を取って検出された各データは制御部151に出力され、通信部153を介して感性推定装置101の通信部113に送信され、第1の出力部121および第2の出力部123に入力される。第1の出力部121は、ステップS151およびステップS153で検出されたデータを元に、注視点を中心に画像の一定範囲を切り取り(ステップS155)、切り取った画像の特徴量を、例えばCNNを用いて抽出する(ステップS157)。第2の出力部123は、ステップS159で検出された生体信号の特徴量を、例えばRNNを用いて抽出する(ステップS161)。第1の出力部121および第2の出力部123は、それぞれ抽出した画像の特徴量と生体信号の特徴量とを推定部117に出力する。
推定部117は、画像の特徴量と生体信号の特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1が視認対象3という新たな刺激要因により刺激されたときの感性情報を推定し(ステップS163)、推定した感性情報を制御部111に出力する。制御部111は、感性情報を入力されると、記憶部119を参照して、感性情報が所定の条件を満たすか否かを判断し、所定の条件を満たさない場合には(ステップS165:いいえ)、ステップS151、ステップS153およびステップS159に戻り、注視点、画像および生体信号の検出から、各特徴量の抽出、更には感性情報の推定までをリアルタイムで繰り返す。所定の条件を満たす場合には(ステップS165:はい)、通信部113を介してメガネ型ウェアラブルカメラ103の通信部153に静止画を記録するための記録信号を送信する。
メガネ型ウェアラブルカメラ103の制御部151は、通信部153から記録信号を受信すると、記録部159に対し、第1の検出部155によって検出されている刺激要因としての画像中の静止画を記録させ(ステップS167)、このフローは終了する。もちろん、感性推定型自動撮影システム10は、各装置の電源が入っている限りにおいて、この処理を繰り返し、ユーザ1が所定の条件を満たす「いいね」という感性を抱いたと推定したときの視認対象3の静止画を可能なだけ記録する。
上記のステップS165における、制御部151による判断方法の一例を図11に示す。図11は、感性推定型自動撮影システム10によって推定される「いいね度」の時間推移を示すグラフである。グラフの横軸は時間T[秒]で、縦軸は10段階の「いいね度」(G)である。
感性推定型自動撮影システム10は、メガネ型ウェアラブルカメラ103を装着しているユーザ1の生体信号、ユーザ1の視線の先の視認対象3の画像および画像上のユーザ1の注視点の検出を連続的に行い、検出データからの画像の特徴量および生体信号の特徴量の抽出と、抽出された各特徴量と学習した関連性とに基づく感性情報の推定までをリアルタイムに行う。そのため、推定される感性情報に、感性の種類として「いいね」という感性が含まれ、感性の強度として「いいね度」が含まれる場合には、図11に示されるように、「いいね度」の時間推移を示すグラフをリアルタイムで出力できる。
図11のグラフには、刺激要因としての動画中の静止画を記録するための所定の条件として、10段階のGが8以上(G8)であることを定めている。GがG8を超えたときを記録タイミング(RT)と判断し、RTの静止画を記録するための処理を行う。
なお、図11を用いて説明した方法に代えて、感性の強度のピークを検出したら多少時間を遡った静止画を記録するようにしてもよい。保存可能な動画中の静止画の記録のように、推定された感性情報に基づいてリアルタイムで何らかの処理を実行する必要が無い場合には、全てのデータを保存しておいて後から処理を行ってもよい。例えば、全ての画像を記録しておいて後で感性の強度が高い順にその瞬間の静止画をランキング表示するようにしてもよい。何れの実施形態であっても、推定された感性情報に基づいて望ましいもの、例えば静止画を得ることができる。
感性推定装置101による感性情報の推定精度を検証するため、図12および図13のそれぞれに結果が示されている2つの実験を行った。先ず、脳波だけを感性推定に使用した場合に比べて、上記の「生体信号のマルチモーダル計測法」による感性推定の精度が向上したことを、図12を用いて説明する。
図12は、図7の表中に示した全生体信号13chを使用して感性推定した場合と、脳波3chのみを使用して感性推定した場合との、各結果を比較するための表である。感性推定装置101で、SVMを用いて、RNN文脈層10次元に正規化線形距離を加えて学習および推定を行い、サポートベクター分類(SVC)およびサポートベクター回帰(SVR)を用いて評価を行った。なお、図12の実験は、被験者に対して、上記の推定モードのように風景や人物などの実物を見せるのではなく、上記の学習モードと同様に多数の画像を見せて行った。そして、上記の各場合において、感性推定装置101によって学習および推定された感性情報の結果と、被験者から直接ヒアリングした感性情報とを比較および評価している。
表中、評価値として、Precision、Recall、F1 scoreおよび相関係数の4項目が列挙されている。Precisionは、「best」と予測して実際に「best」だった割合である。Recallは、実際に「best」であるもののうち、「best」と予測されたものの割合である。F1 scoreは、PrecisionとRecallとの調和平均である。具体的には、例えば、10枚の画像を見た被験者がそのうちの2枚の画像を「best」と判断した場合であって、感性推定装置101による感性情報の推定結果が、その2枚のうちの1枚のみを被験者が「best」と感じたと推定し、他の8枚のうちの3枚も「best」と感じたと推定し、残りの6枚を「best」ではない、つまり「not best」と感じたと推定している場合には、Precisionは0.25(=1/4)でRecallは0.5(=1/2)となる。このときのF1 scoreは、0.33(≒2/((1/0.25)+(1/0.5)))となる。
相関係数は、被験者によって入力された感性情報に含まれる評価値x
*
iと、対応するサンプル(刺激要因)に対して、感性推定装置101によって推定された感性情報に含まれる評価値x
iとの間での相関係数であり、以下の数式4に示される。
Precision、RecallおよびF1 scoreは、SVCを用いて評価され、相関係数は、サポートベクター回帰(SVR)を用いて評価されている。図12の表に示される通り、全生体信号を使用したときには、脳波3chのみを使用したときに比べて、SVCにおいてPrecision他の評価値が向上し、SVRにおいて相関係数が向上している。よって、感性推定に「生体信号のマルチモーダル計測法」を用いることで、同時に検出した複数の種類の生体信号の全体的なS/Nが高まり、ロバストな感性推定が実現されていることが理解される。
次に、生体信号の特徴量または刺激要因の特徴量だけを感性推定に使用した場合に比べて、生体信号の特徴量と刺激要因の特徴量との両方を感性推定に使用した場合に、感性推定の精度が向上したことを、図13を用いて説明する。図13は、生体信号の特徴量のみを使用して感性推定した場合と、画像の特徴量のみを使用して感性推定した場合と、統合的に両特徴量を使用して感性推定した場合との、各結果を比較するための表である。本実験における比較および評価の方法や各評価値は、図12の実験におけるものと同じなので、重複する説明を省略する。
ただし、画像の特徴量抽出においては、全画像の特徴量を100次元へ削減し、標準化処理を行っている。また、図12の実験結果に追加して、「not best」についても各評価値を算出している。なお、標準化処理とは、各特徴量から全特徴量の平均を引いた後、その値を標準偏差で除算する処理である。
図13の表に示される通り、統合的に画像の特徴量および生体信号の特徴量を使用したときには、生体信号の特徴量または刺激要因の特徴量だけを使用したときに比べて、Precision他の評価値が向上している。よって、生体信号の特徴量と刺激要因の特徴量との両方を感性推定に用いることで、更にロバストな感性推定が実現されていることが理解される。
以上、図1から図13を用いて、感性推定型自動撮影システム10で、学習モードでの学習の結果として、推定モードで「検出された刺激要因」と「計測された生体信号」から「人間に生じる感性の種類や強度」を推定する構成の一例を説明した。
また、ユーザ1から発せられる生体信号等を検出する装置であるメガネ型ウェアラブルカメラ103と、ユーザ1の感性情報を推定する装置である感性推定装置101とを別体として説明したが、メガネ型ウェアラブルカメラ103において上記の特徴量抽出・学習及び推定を行ってもよい。そのような構成を有する複数の実施形態の例として、図14から図20を用いて、2つの異なる実施形態を説明する。
図14は、感性推定システム搭載メガネ型ウェアラブルカメラ104の模式的斜視図である。感性推定システム搭載メガネ型ウェアラブルカメラ104は、先の実施形態におけるメガネ型ウェアラブルカメラ103および感性推定装置101のそれぞれの複数の機能の殆どを統合的に有していて、外観は、脳波センサを簡略化して前頭・頭頂用の1点とした点を除いては、メガネ型ウェアラブルカメラ103と同じである。ただし、本実施形態では、感性推定システム搭載メガネ型ウェアラブルカメラ104を装着したユーザ1が、例えば所定の条件以上に「いいね」という感性を抱いたと推定した場合に、ユーザ1の視認対象3の静止画を記録するのではなく、画像表示装置102によって生成される刺激要因を調節してユーザ1の「いいね」という感性を増大させたり減少させたりする。なお、先の実施形態において説明した構成要素と同じ又は類似する参照番号を用いている構成要素については、同じ又は同様の機能を有するので、重複する説明を省略する。以降の実施形態においても、同様とする。
図15は、感性推定システム搭載メガネ型ウェアラブルカメラ104と画像表示装置102と入出力インタフェース105とのブロック図である。入出力インタフェース105は、例えばパソコンなどの設置型電子機器やスマートフォンなどの携帯型電子機器である。ユーザ1は、感性推定システム搭載メガネ型ウェアラブルカメラ104を装着した状態で、画像表示装置102の表示部132に表示された画像を視認している。
本実施形態の学習モードでは、先ず、入出力インタフェース105の制御部111が、例えばモニタである表示部115に操作画面を表示させる。ユーザ1は、操作画面を見ながら、例えばキーボードなどの入力インタフェースである入力部125を操作する。制御部111は、入力部125に入力された操作データを受信すると、通信部113を介して感性推定システム搭載メガネ型ウェアラブルカメラ104の通信部153に操作データを送信する。感性推定システム搭載メガネ型ウェアラブルカメラ104の制御部151は、通信部153を介して「画像進める」操作データまたは「画像戻す」操作データを受信すると、記憶部119から読み出した画像を、通信部153を介して画像表示装置102の通信部131に送信する。通信部131は、受信した画像を表示部132に出力し、表示部132は、その画像を画像表示装置102の画面に表示する。
感性推定システム搭載メガネ型ウェアラブルカメラ104の制御部151が入出力インタフェース105から「画像決定」操作データを受信した場合、制御部151は、各種検出データの特徴量を抽出するための抽出信号を第1の出力部121および第2の出力部123に出力する。第1の出力部121および第2の出力部123は、第1の検出部155、第2の検出部160および第3の検出部157から入力された各種検出データのうち、「画像決定」操作が行われた前後数秒間のデータから、それぞれ特徴量抽出を行う。そして、先の実施形態と同様にして、各データが推定部117に集められ、推定部117は上記の学習を行う。なお、ユーザ1からの感性情報入力は、入出力インタフェース105の入力部125にて行われ、各通信部を介して、感性推定システム搭載メガネ型ウェアラブルカメラ104の推定部117に送信される。
本実施形態の推定モードは、先の実施形態の推定モードとは異なり、感性推定システム搭載メガネ型ウェアラブルカメラ104を装着したユーザ1は、実物の視認対象3を刺激要因として視認することに代えて、画像表示装置102によって表示された刺激要因としての動画等を視認する。ユーザ1が新たな刺激要因として画像という刺激要因を視認すると、先の実施形態と同様に、推定部117が、画像の特徴量と、生体信号の特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1の感性情報を推定し、推定した感性情報を制御部151に出力する。
制御部151は、推定部117によって推定された感性情報を入力されると、記憶部119を参照して、当該感性情報が予め定められた所定の条件を満たすか否かを判断し、所定の条件を満たす場合には、通信部113を介して画像表示装置102の通信部131に刺激要因としての画像を調節するための調節信号を送信する。
推定モードにおける画像表示装置102は、通信部131を介して、有線又は無線により任意の外部装置から画像信号を受信してもよく、感性推定システム搭載メガネ型ウェアラブルカメラ104の記憶部119に格納された画像信号を受信してもよい。画像表示装置102の調節部133は、通信部131を介して調節信号および画像信号を受信し、調節信号に基づいて、表示部132を視認しているユーザ1の特定の感性が増大したり減少したりするように、表示部132に表示させる刺激要因としての画像の明るさ等を調節する。
このように、推定された感性情報に基づいて、ユーザ1の特定の感性が増大したり減少したりするように、刺激要因としての画像の明るさ等を調節する制御方法の一例として、「感性増強型制御」や「感性抑制型制御」を用いてもよい。「感性増強型制御」とは、推定した感性を増強する方向へ刺激要因をシフトするもので、たとえば「興奮」「緊張」などの感性を推定した場合に画面を明るくし、「鎮静」や「悲哀」などの感性を推定した場合に画面を暗くするといった制御が考えられる。「感性抑制型制御」とは、推定した感性を抑制する方向へ刺激要因をシフトするもので、たとえば「興奮」「緊張」などの感性を推定した場合に画面を暗くし、「鎮静」や「悲哀」などの感性を推定した場合に画面を明るくするといった制御が考えられる。
先の実施形態では、説明の簡略化の為、刺激要因を画像による刺激要因に絞って説明したが、音響による聴覚器を刺激する刺激要因を含む場合、調節部133が受信する調節信号には、画像表示装置102のスピーカ135から発せられる刺激要因としての音の大きさ等を調節するための信号が含まれてもよい。この場合の音の大きさなどを調節する制御方法の一例として、上記と同様の方法が考えられる。具体的には、たとえば「興奮」「緊張」などの感性を推定した場合に音量を上げて、「鎮静」や「悲哀」などの感性を推定した場合に音量を下げるといった「感性増強型制御」や、「興奮」「緊張」などの感性を推定した場合に音量を下げて、「鎮静」や「悲哀」などの感性を推定した場合に音量を上げるといった「感性抑制型制御」である。なお、表示部132やスピーカ135は、刺激要因を生成する生成部の一例である。
他にも、刺激要因として、ユーザ1の周辺環境の温度、湿度、明るさ等も考えられる。この場合には、推定された感性情報に基づいて、周辺環境の温度、湿度、明るさ等を制御する空調機や照明器具などを制御して、上記と同様の方法で、ユーザ1の特定の感性が増大したり減少したりするように、周辺環境の温度、湿度、明るさ等を調節してもよい。
これらの制御プログラムは、感性推定システムに付随した制御ソフトウエアで実行するものであるが、「感性増強型制御」または「感性抑制型制御」を単一に適用した場合、繰り返しの使用でユーザ1が制御結果に馴致してしまう問題が予測される。これを回避するには、両者の適用を乱数的に決定すること、または、リアルタイムで推定されるユーザ1の感性情報の結果をその都度参照して固定化した動作を避けることが可能である。また、例えば動画や音響などの刺激要因における特徴量と、リアルタイムの感性情報、および制御パラメータ全体を学習することで、次の回の刺激要因の提示時にユーザ1の感性反応をより強化・改善する制御パラメータの導出を行うことも考えられる。
図16は、感性推定システム・カメラ搭載型メガネ106の模式的斜視図である。感性推定システム・カメラ搭載型メガネ106は、機能的且つ外観的に、メガネレンズが屈折力可変レンズであってレンズに透過率可変フィルタが組み込まれている点を除いては、図14から図15の実施形態における感性推定システム搭載メガネ型ウェアラブルカメラ104と殆ど同じである。ただし、本実施形態では、学習モードおよび推定モードのフローが先の実施形態と異なる。推定モードの概要としては、感性推定システム・カメラ搭載型メガネ106を装着したユーザ1が、例えば所定の条件以上に「いいね」という感性を抱いていないと推定した場合に、事前学習した内容に基づいて、ユーザ1がその視認対象3を見ているときに最も強く「いいね」という感性を抱くと考えられるメガネレンズの屈折力・透過率に調整して、ユーザ1の「いいね」という感性を大きくする。
図17は、感性推定システム・カメラ搭載型メガネ106と入出力インタフェース105とのブロック図である。本実施形態では、学習モードおよび推定モードの何れにおいても、感性推定システム・カメラ搭載型メガネ106を装着したユーザ1は外界の風景などを実際に見て各データを検出することを想定しているので、入出力インタフェース105としては、例えばスマートフォンなどの携帯型電子機器が好ましい。
本実施形態の学習モードでは、先ず、感性推定システム・カメラ搭載型メガネ106の制御部151が、記憶部119を参照して、予め定められた調整条件に基づく調整信号を調整部171に出力する。調整部171は、入力された調整信号に基づいて、屈折力可変レンズ172の屈折力を調整し、透過率可変フィルタ173の透過率を調整する。屈折力可変レンズ172としては、例えば貝塚 卓・谷 泰弘・柳原 聖らによる非特許文献「液圧型可変焦点レンズによる老眼用遠近両用眼鏡の開発」(精密工学会学術講演会講演論文集、P189、2005年)に掲載の「液体レンズ」といった素子を利用できる。また、透過率可変フィルタ173としては、例えば丹羽 達雄による非特許文献「光制御用エレクトロクロミック素子防眩ミラーとメガネへの応用」(テレビジョン学会技術報告、13(1)、7-14、1989-01-12)に掲載の「エレクトロクロミック素子」といった素子を利用できる。
制御部151はまた、同様にして、調整信号を推定部117にも出力する。推定部117は、各検出部から検出された各種データの特徴量を随時入力されている。推定部117は、調整信号に基づいてメガネレンズの屈折力・透過率が調整された後の各特徴量を入力されると、入出力インタフェース105から受信したユーザ1の感性情報との関連性を学習する。このとき、調整信号に含まれるメガネレンズの屈折力・透過率の各調整値を示す屈折力・透過率情報を関連付けて学習する。同一の視認対象3を同じ環境条件で視認しているときに、調整条件を異ならせてこの学習を繰り返す。これにより、その状況でユーザ1が一番「いいね」と感じた屈折力・透過率を学習することになる。
本実施形態の推定モードでは、ユーザ1が新たな刺激要因として視認対象3という刺激要因を受けると、推定部117が、視認対象3を撮影した画像の特徴量と、生体信号の特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1の感性情報を推定し、更に、ユーザ1の特定の感性が一番大きくなる屈折力・透過率情報を推定し、推定した感性情報と屈折力・透過率情報を制御部151に出力する。
制御部151は、推定された感性情報を入力されると、記憶部119を参照して、感性情報が所定の条件を満たすか否かを判断し、所定の条件を満たさない場合には、推定された屈折力・透過率情報に基づく調整信号を調整部171に出力する。調整部171は、入力された調整信号に基づいて、屈折力可変レンズ172の屈折力を調整し、透過率可変フィルタ173の透過率を調整する。
本実施形態の一般的な使用方法としては、「気持ち良い」、「快適」などの一般的な種類の感性情報を予め設定しておき、ユーザ1が感性推定システム・カメラ搭載型メガネ106を装着中の条件、例えば室内外などの場所、風景や文字などの視認対象などが変化した場合に、感性情報を算出して、「気持ち良い」、「快適」などの反応値が最大になるように屈折力と透過率を制御することが考えられる。この他の感性として、見易い/見難い、快不快なども考えられるが、何れの場合も、メガネの度数や透過率に基づいて発生する感性を想定していて、生体の特定の感性が増大したり減少したりするように、メガネの屈折力および透過率の少なくとも一方を調整する。
図18は、感性推定システム・カメラ搭載型メガネ106の学習モードのフロー図である。学習モードを開始する前準備として、ユーザ1は、入出力インタフェース105を携帯した状態で感性推定システム・カメラ搭載型メガネ106を装着しておく。学習モードを開始すると先ず、調整部171が、制御部151から入力された調整信号に基づいて、屈折力可変レンズ172の屈折力を調整し、透過率可変フィルタ173の透過率を調整する(ステップS211)。調整信号に基づいてメガネレンズの屈折力・透過率が調整された後に、第1の検出部155が視認対象3を撮影した画像を検出し(ステップS215)、第3の検出部157が当該画像上でユーザ1の視点が滞留した注視点を検出し(ステップS213)、第2の検出部160が視認対象3を見ているユーザ1から発せられた複数の生体信号を検出する(ステップS221)。
そして、先の実施形態と同様に、第1の出力部121が注視点を中心に一定範囲を切り取り(ステップS217)、切り取った画像の特徴量を抽出する(ステップS219)。また、第2の出力部123が、検出された生体信号の特徴量を抽出する(ステップS223)。第1の出力部121および第2の出力部123は、それぞれ抽出した特徴量を推定部117に出力する。なお、これらのデータ検出、データ切り取り及び特徴量抽出は、上記の通り随時行われている。
ユーザ1は、入出力インタフェース105を用いて、表示部115の選択画面を見ながら入力部125で感性情報を入力し、第3の取得部126が、入力部125に入力された感性情報を取得し(ステップS225)、推定部117に出力する。
推定部117は、画像の特徴量と、生体信号の特徴量と、感性情報との関連性を、制御部151からの屈折力・透過率情報と共に学習する(ステップS227)。ユーザ1の感性情報を推定するには学習が十分ではない場合は(ステップS229:いいえ)、ステップS211に戻り、ユーザ1の感性情報を推定するのに学習が十分である場合は(ステップS229:はい)、学習モードを終了する。ここで、上記のステップS211でメガネの屈折力が調整される前後のユーザ1の視界の変化を、図19を用いて説明する。
図19は、感性推定システム・カメラ搭載型メガネ106でレンズ屈折力を調整した場合におけるユーザの視界の変化を説明する図である。図19に示される通り、レンズ屈折力が調整される前後では、ユーザ1の視界に位置する子供と女性といった2つの視認対象の見え方が異なる。そのため、例えばユーザ1が、子供よりも女性に焦点が合っている状態をより強く「いいね」と感じることを学習しておけば、ユーザ1の視界に同様の光景が入ったときであって「いいね」の強さが予め定められた条件を満たしていない場合に、女性に焦点が合うように自動調整する。
なお、図19に示されているものは、ステップS215で検出される2つの画像の一例ともいえる。2つの画像は被写界深度が異なり、これは画像の特徴量も異なることを意味する。
図20は、感性推定システム・カメラ搭載型メガネ106の推定モードのフロー図である。推定モードを開始する前準備として、学習モードと同様に、ユーザ1は、入出力インタフェース105を携帯した状態で感性推定システム・カメラ搭載型メガネ106を装着しておく。推定モードを開始すると先ず、第1の検出部155によって視認対象3が含まれる画像を検出し(ステップS253)、ユーザ1の視界と見なすことができる第1の検出部155の撮影視野の画像上で、ユーザ1の視点が滞留した注視点を第3の検出部157で検出し(ステップS251)、視認対象3を見ているユーザ1から発せられた複数の生体信号を第2の検出部160で検出する(ステップS259)。
第1の出力部121は、ステップS251およびステップS253で検出されたデータを元に、注視点を中心に画像の一定範囲を切り取り(ステップS255)、切り取った画像の特徴量を抽出する(ステップS257)。第2の出力部123は、ステップS259で検出された生体信号の特徴量を抽出する(ステップS261)。第1の出力部121および第2の出力部123は、それぞれ抽出した特徴量を推定部117に出力する。
推定部117は、これらの特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1が視認対象3という新たな刺激要因により刺激されたときの、感性情報と、特定の感性が一番大きくなる屈折力・透過率情報とを推定し(ステップS263)、推定した感性情報および屈折力・透過率情報を制御部151に出力する。制御部151は、感性情報を入力されると、記憶部119を参照して、感性情報が所定の条件を満たすか否かを判断し、所定の条件を満たす場合には(ステップS265:はい)、ステップS251、ステップS253およびステップS259に戻り、注視点、画像および生体信号の検出から、各特徴量の抽出、更には感性情報および屈折力・透過率情報の推定までをリアルタイムで繰り返す。所定の条件を満たさない場合には(ステップS265:いいえ)、調整部171に推定された屈折力・透過率情報を出力し、調整部171に、屈折力可変レンズ172の屈折力を調整させ、透過率可変フィルタ173の透過率を調整させて(ステップS267)、このフローは終了する。もちろん、感性推定システム・カメラ搭載型メガネ106は、各装置の電源が入っている限りにおいて、この処理を繰り返し、常にユーザ1の感性情報と屈折力・透過率情報とを推定して、例えば「気持ち良い」、「快適」などの反応値が最大になるように、又は、「不快」、「見難い」などの反応値が最小になるように、屈折力と透過率を制御する。
以上、図1から図20を用いて、メガネ型の装置またはメガネ自体を用いて、学習モードでの学習の結果として、推定モードで「検出された刺激要因」と「計測された生体信号」から「人間に生じる感性の種類や強度」を推定する構成の一例を説明した。次に、図21から図25を用いて、この構成をカメラに適用した例を説明する。
図21は、一眼レフタイプの感性推定システム搭載カメラ201の模式的正面図であり、図22は、感性推定システム搭載カメラ201の模式的背面図である。また、図23は、感性推定システム搭載カメラ201と入出力インタフェース105とのブロック図である。
図21から図23に示される通り、感性推定システム搭載カメラ201は、通常の一眼レフタイプのカメラの構成・機能に加えて、ファインダ接眼窓の近くに取り付けられた複数の接続コード、及び、各接続コードの端部に取り付けられた電極を含む脳波センサ261と、撮影時にユーザ1によって把持されるグリップ部分においてユーザ1の複数の指の先が嵌まる窪みの各底に設けられた心拍センサ265と、ファインダ接眼窓の周囲に配置された複数の電極を含む眼電センサ266と、ファインダ接眼窓が位置する側の反対側であるカメラ底部に取り付けられた呼吸センサ269と、を有する第2の検出部260を備える。眼電センサ266は、ファインダ接眼窓の周囲に複数の電極を有するので、感性推定システム搭載カメラ201を縦持ちにしたときも水平眼電位および垂直眼電位等を測定できる。
感性推定システム搭載カメラ201は更に、内部の光路内に設けられたハーフミラー、及び、ハーフミラーで反射してきた目の画像を検出する追加の撮像素子を有する第3の検出部257と、外部の入出力インタフェース105と無線通信するための内蔵型アンテナといった通信部253と、先の実施形態と同様の機能を有する、第1の出力部221、第2の出力部223、第1の取得部222、第2の取得部224、第3の取得部226、推定部217、記憶部219および制御部251とを備える。
感性推定システム搭載カメラ201はこれらの構成要素の他に、通常の一眼レフタイプのカメラと同様の構成として、被写体を撮像するための第1の検出部255と、ユーザ1がカメラの撮影条件、例えばレンズのF値、シャッタースピード、ISO感度、アングル、ホワイトバランス、ズーミング、フォーカシングなどを入力するための撮影条件入力部281と、制御部251からの信号に基づいて撮影条件入力部281に入力された撮影条件を設定する撮影条件設定部283と、被写体を撮影する操作を実行するための例えばシャッターである操作部285と、を備える。
図24は、感性推定システム搭載カメラ201の学習モードのフロー図である。本実施形態の学習モードにおいても、図4を用いて説明した実施形態の学習モードのフローと同様に、撮影条件のみが異なる画像セットを順次画像表示装置102に表示して、ユーザ1がこれを見ながら、一番「いいね」と感じた画像を決定し、ユーザ1にそのときの感性情報を入力させることで、各データを収集する構成としてもよい。図24では、このようなものとは異なる学習手法のフローを説明する。具体的な概要としては、先ず、ユーザ1が視認対象3に感性推定システム搭載カメラ201のレンズを向けた状態で撮影条件を段階的に変更し、ユーザ1は一番「いいね」と感じたときにシャッターを切る。そして、ユーザ1にそのときの感性情報を入力させて、各データを収集する。以下、図24のフローを詳細に説明する。
学習モードを開始する前準備として、ユーザ1は、入出力インタフェース105を携帯した状態で、感性推定システム搭載カメラ201の脳波センサ261を装着し、感性推定システム搭載カメラ201のレンズを視認対象3に向けてファインダを覗き込みながら、感性推定システム搭載カメラ201を横持ち又は縦持ちで支持しておく。このときの感性推定システム搭載カメラ201の撮影条件は、製品出荷時に設定されている条件を使用してもよいし、以前の学習結果を呼び出して設定してもよい。
学習モードを開始すると先ず、ユーザ1が撮影条件入力部281で手入力により、又は、制御部251がランダムに撮影条件を入力し、制御部251からの信号に基づいて撮影条件設定部283が撮影条件を設定することで、撮影条件を調整する(ステップS311)。次の各データを検出するステップから各特徴量を抽出するステップ(ステップS313からステップS323)までは、上記のステップS213からステップS223までと同様なので、説明を省略する。
続けて、ユーザ1が操作部285でシャッター操作を行っていない場合には(ステップS325:いいえ)、ステップS311に戻って撮影条件を調整し、シャッター操作を行った場合には(ステップS325:はい)、推定部217は、シャッター操作の前後数秒の画像および生体信号の各特徴量を取得する(ステップS327)。
ユーザ1は、入出力インタフェース105を用いて、表示部115の選択画面を見ながら入力部125で感性情報を入力し、第3の取得部226が、入力部125に入力された感性情報を取得し(ステップS329)、推定部217に出力する。
推定部217は、画像の特徴量と、生体信号の特徴量と、感性情報との関連性を学習する(ステップS331)。ユーザ1の感性情報を推定するには学習が十分ではない場合は(ステップS333:いいえ)、ステップS311に戻り、ユーザ1の感性情報を推定するのに学習が十分である場合は(ステップS333:はい)、学習モードを終了する。
図25は、感性推定システム搭載カメラ201の推定モードのフロー図である。推定モードを開始する前準備として、学習モードと同様の状態にしておく。推定モードを開始すると先ず、ユーザ1が撮影条件入力部281で手入力により、又は、制御部251がランダムに撮影条件を入力して、撮影条件を調整する(ステップS351)。次の各データを検出するステップから各特徴量を抽出するステップ(ステップS353からステップS363)までは、上記のステップS251からステップS261までと同様なので、説明を省略する。
ステップS363に続いて、推定部217は、これらの特徴量と、学習モードで学習した関連性とに基づいて、学習モードと同じ手法を用いて、ユーザ1が視認対象3という新たな刺激要因により刺激されたときの感性情報を推定し(ステップS365)、推定した感性情報を制御部251に出力する。制御部251は、感性情報を入力されると、記憶部219を参照して、感性情報が所定の条件を満たすか否かを判断し、所定の条件を満たさない場合には(ステップS367:いいえ)、ステップS351に戻って撮影条件を調整し、所定の条件を満たす場合には(ステップS367:はい)、操作部285に操作信号を出力し、操作部285にシャッター操作を実行させて(ステップS369)、このフローは終了する。もちろん、感性推定システム搭載カメラ201は、各装置の電源が入っている限りにおいて、この処理を繰り返し、常にユーザ1の感性情報を推定して、例えば予め定められた強さ以上の「いいね」度が推定された場合にはシャッターを切るよう制御する。このようにして、ユーザ1が「いいね」と思った瞬間に自動でシャッターを切ることができるので、シャッターボタンを押すという操作によって生じるタイムラグを軽減できる。
なお、本実施形態において、撮影した画像の特徴量と、その時の生体信号の特徴量と、「感性」情報とを入力し、推定部217に追加学習させてもよい。その場合は、より個人の「感性」に沿った撮影ができるようになる。この機能についても、予め行うか行わないかを設定しておいてもよい。
なお、本実施形態において、注視点を検出するための第3の検出部は、代替的・追加的に、図示した眼電センサ266であってもよく、外付けの小型カメラであってもよく、これらの組み合わせであってもよい。また、入出力インタフェース105の代わりに、感性推定システム搭載カメラ201の背面モニタと操作ボタンとを用いてユーザ1が感性情報を入力できる構成としてもよい。また、脳波センサ261の取り付け位置は、カメラ筐体の他の任意の位置にしてもよい。また、呼吸センサ269は、取り外し可能な呼吸測定装置としてもよく、その場合には、呼吸測定装置はネジ・クリップなどで取り付け可能であってもよく、カメラ筐体の周囲の任意の位置に、対応する穴・窪みを設ける。
なお、本実施形態では、一眼レフタイプの感性推定システム搭載カメラ201を説明したが、上記のユーザ1の感性を推定する構成は、コンパクトデジタルカメラなどにも適用可能である。この場合には、例えばシャッターボタン部にセンサを配置して、心拍信号および呼吸信号を計測してもよく、その他の生体信号は、別個にメガネ型ウェアラブルカメラ103のような生体信号計測機器を用いて測定してもよい。
次に、図26から図28を用いて、上記の感性情報を推定する構成を画像処理システムに適用した例を説明する。図26は、感性推定型自動画像処理システム30のブロック図である。
未処理画像を画像処理する場合、微妙な調整においてはユーザ1が試行錯誤してユーザ1が好ましいと思う調整値を探すことが考えられるが、調整作業を繰り返していくうちに、しばしばユーザ1自身でどこを持って好ましい調整値とするか、わからなくなってしまうことがある。感性推定型自動画像処理システム30は、ユーザ1がそのような微妙な調整作業中に、ある処理済画像で好ましいと感じたと推定し、そのように推定された幾つかの処理済画像をランキング表示し、ユーザ1に選択させることができる。
感性推定型自動画像処理システム30は、画像処理装置301と、第1の検出部355と、脳波センサ361、心拍センサ365、眼電センサ366および呼吸センサ369を含む第2の検出部360と、第3の検出部357とを備える。これらの検出部は、画像処理装置301と別個に配置されていてもよく、画像処理装置301に取り付けられていてもよい。
感性推定型自動画像処理システム30は、先の実施形態と同様の構成要素として、第1の出力部321、第1の取得部322、第2の出力部323、第2の取得部324および第3の取得部326を備え、先の実施形態と異なる構成要素として、ユーザ1によって入力部325で入力された、感性の種類を示す情報である感性種類情報と、画像の調整パラメータの種類、調整範囲、及び、調整の単位変化量の少なくとも1つを示す情報である画像調整情報とを取得する第4の取得部328と、未処理画像または処理済画像を表示する表示部398とを備える。第4の取得部328は、感性種類情報および画像調整情報を制御部351に出力する。感性推定型自動画像処理システム30は更に、記憶部319から読み出された未処理画像と画像調整情報とを制御部351から入力され、その画像調整情報に基づいて、未処理画像から調整条件が互いに異なる複数の処理済画像を生成するために、未処理画像を処理する画像処理部391を備える。画像処理部391は、複数の処理済画像を生成すると、制御部351からの信号に基づいて複数の処理済画像を表示部398に表示させる。
感性推定型自動画像処理システム30は更に、複数の処理済画像ごとに推定部317によって推定された複数の感性情報を制御部351から入力され、感性種類データに含まれる感性の種類に基づいて複数の感性情報をそれぞれ評価する評価部395と、評価部395によって評価された複数の感性情報を評価部395から入力され、その複数の感性情報のそれぞれ対応する複数の処理済画像を画像処理部391から入力され、その評価に従って表示した評価画像を生成する画像生成部393とを備える。画像生成部393は、評価画像を生成すると、制御部351からの信号に基づいて評価画像を表示部398に表示させる。
本実施形態における第1の検出部355は、表示部398に表示された複数の処理済画像を、複数の刺激要因として検出する。また、上記の画像の調整パラメータの種類としては、明るさ・色(RGBバランス、色相・彩度・明度)、コントラスト、トーンカーブなどが考えられる。この他に、構図の変更や被写体の抽出を行うべく、トリミングなども考えられる。なお、調整の単位変化量とは、調整範囲内での調整ステップを意味する。
図27は、感性推定型自動画像処理システム30の学習モードのフロー図である。学習モードを開始する前準備として、ユーザ1は、第2の検出部360が各生体信号を検出可能な状態にし、第3の検出部357が注視点を検出可能な状態にし、且つ、画像処理装置301の入力部325を操作できる状態にしておく。学習モードを開始すると先ず、制御部351が、記憶部319に記憶された調整条件が互いに異なる処理済画像セットの中から1組の処理済画像セットを選択し、表示部398に表示させる処理済画像セットを用意する(ステップS411)。
次に、制御部351は用意した処理済画像セットの最初の画像を表示部398に表示させ(ステップS413)、ユーザ1はこの画像を見て、予め設定された方法で、入力部325を操作する。「画像進める」操作である場合(ステップS415:はい)、当該操作データを入力された制御部351は、記憶部319から調整条件のみが異なる次の処理済画像を読み出し、表示部398に表示された処理済画像を切り替えさせて(ステップS417)、ステップS413に戻り、次の処理済画像を表示させる。「画像進める」操作ではなく(ステップS415:いいえ)、「画像戻す」操作である場合(ステップS419:はい)、前の画像が存在すれば、上記の流れと同様にして、表示部398に表示された処理済画像を切り替えさせて(ステップS421)、ステップS413に戻り、前の処理済画像を表示させる。更に「画像戻す」操作でもなく(ステップS419:いいえ)、「画像決定」操作でもない場合(ステップS423:いいえ)、ステップS415に戻り、一連の判断を繰り返す。
「画像決定」操作である場合(ステップS423:はい)、次に続く、第1の検出部355による処理済画像の検出および第3の検出部357による注視点の検出から、関連性を学習する(ステップS425からステップS441)までは、上記のステップS125からステップS141までと同様なので、説明を省略する。
ステップS441に続いて、ユーザ1の感性情報を推定するには学習が十分ではない場合(ステップS443:いいえ)、表示部398に表示させる処理済画像セットを次の処理済画像セットに切り替えるべく(ステップS445)、記憶部319に記憶された複数の処理済画像セットの中から他の1組の処理済画像セットを選択し、ステップS413に戻る。ユーザ1の感性情報を推定するのに学習が十分である場合(ステップS443:はい)、学習モードを終了する。
図28は、感性推定型自動画像処理システム30の推定モードのフロー図である。推定モードを開始する前準備として、ユーザ1は、第2の検出部360が各生体信号を検出可能な状態にし、且つ、第3の検出部357が注視点を検出可能な状態にしておく。推定モードを開始すると先ず、制御部351が、記憶部319に記憶されている複数の未処理画像の中から1つを読み出し、更に、記憶部319に記憶されている予め用意された複数の感性種類情報および画像調整情報を読み出して、未処理画像とこれらの情報の一覧とを表示部398に表示させる(ステップS451)。ユーザ1は表示部398を見ながら、その未処理画像に対する感性種類情報および画像調整情報を選択し、入力部325でその選択内容を入力する。
第4の取得部328は、入力部325からの入力により、選択された感性種類情報および画像調整情報を取得する(ステップS453)。制御部351は、第4の取得部328からこれらの情報を入力されると、表示部398に表示させた未処理画像と、画像調整情報とを画像処理部391に出力する。画像処理部391は、入力された画像調整情報に基づいて未処理画像を画像処理し(ステップS455)、調整条件が互いに異なる処理済画像セットを用意して(ステップS457)、表示部398に順次表示させる(ステップS459)。
次に続く、第1の検出部355による処理済画像の検出および第3の検出部357による注視点の検出から、感性情報を推定する(ステップS461からステップS473)までは、上記のステップS353からステップS365までと同様なので、説明を省略する。
ステップS473に続いて、制御部351は、全ての処理済画像を表示したか否かを判断し、表示していない場合は(ステップS475:いいえ)、表示部398に表示させる処理済画像を次の処理済画像に切り替えるべく(ステップS477)、画像処理部391に切り替えるための信号を出力し、ステップS459に戻る。全ての処理済画像を表示した場合(ステップS475:はい)、制御部351は、推定部317から入力された、各処理済画像に対して推定された感性情報を、感性種類データと共に評価部395に出力する。評価部395は、入力された感性種類データに基づいて、各感性情報を評価し(ステップS479)、評価した複数の感性情報を評価結果データと共に画像生成部393に出力する。画像生成部393は、評価部395からの入力と、画像処理部391からの入力により、その複数の感性情報のそれぞれに対応する複数の処理済画像を評価に従って表示したランキング画像を生成して(ステップS481)、表示部398に表示させることで(ステップS483)、推定モードを終了する。
ユーザ1は、ランキング画像を確認して、結果に満足したら画像を選定・保管してもよく、結果に満足しなかったら画像種類情報および画像調整情報を選択し直してこれらのフローを繰り返させてもよい。
本実施形態において、調整パラメータの設定方法として、ユーザ1が種類、調整範囲、調整ステップを個別に手動入力する「マニュアルモード」を説明したが、予めシステムに標準的な条件を設定した調整パラメータファイルを準備させて自動で設定させる「オートモード」であってもよい。
本実施形態において、例えば2種類以下くらいに、調整パラメータ数が少ない場合は、事前に設定したパラメータの調整範囲について、調整ステップ刻みで実行して想定されるすべての画像を生成することは容易であるが、例えば3種類以上くらいに、調整パラメータ数が多い場合、全条件での画像生成を行っていると、多大な時間を要する。そこで、このような場合には、モンテカルロ法のようにパラメータの調整範囲内で乱数的にパラメータを変化させた画像生成を行うことが好ましい。
次に、図29から図30を用いて、上記の感性情報を推定する構成を顕微鏡に適用した例を説明する。図29は、感性推定システム搭載顕微鏡401のブロック図であり、図30は、感性推定システム搭載顕微鏡401によって生成される操作履歴画像の一例を説明する図である。感性推定システム搭載顕微鏡401は、ユーザ1が顕微鏡のステージを動かしながらサンプルを観察している時に、一番良いと感じられたサンプル内のXY位置での画像を自動的に保存する。更に、「いいね度」の度合いに合わせて画像の大きさを調整することで、図30に示されるように、効果的な履歴表示を行うことも可能である。例えば、図30の履歴表示画面で、「いいね度」が高い画像を、大きくしたり、フラグを立てたりすることで、強調表示ができる。なお、図11に示したように「いいね」度推定を常に計算してグラフ化しながら、極大点で画像を保存してもよい。また、「いいね」度をメタデータに入れておき、後で時系列上の極大点を抽出して、ランキング表示を行ってもよい。
感性推定システム搭載顕微鏡401は、先の実施形態と同様の構成要素として、第1の出力部421、第1の取得部422、第2の出力部423、第2の取得部424、入力部425、第3の取得部426、記憶部419、制御部451、第1の検出部455、第2の検出部460、第3の検出部457を備える。また、第2の検出部460は、脳波センサ461、心拍センサ465、眼電センサ466および呼吸センサ469を有する。本実施形態における眼電センサ466は、接眼レンズの周囲に設けられた複数の電極を有してもよい。また、心拍センサ465は、接眼レンズに配置された、血流計測用の近赤外線光源と小型カメラとを有してもよい。
感性推定システム搭載顕微鏡401は、先の実施形態と異なる構成要素として、推定部417によって推定された感性情報に基づいて、第1の検出部455で検出されている刺激要因としての観察画像中の静止画を記録する記録部459と、推定部417によって推定された感性情報に基づいて、記録部459で記録された画像から、図30に示されるような画像を生成する画像生成部493とを備える。画像生成部493は、生成した画像を表示部498に表示させる。
なお、顕微鏡はフォーカスの調整により見る対象が変わるので、本実施形態において追加的に又は代替的に、フォーカスのオートスキャン時に、「いいね度」を推定し、観察したい対象が見えるフォーカス面に自動で合わせてもよい。また、ユーザ1毎のキャリブレーション(学習)を行うときは、普段の操作の中で、凝視の具合や観察時間から興味のある画像とランキング情報を抽出しておき、それを、そのまま学習に使ったり、それを候補リストとして用いて良い画像を選択させたりすることで、キャリブレーション作業を簡便化することができる。
以上、複数の実施形態を用いて、主に「いいね」という感性の種類と、「いいね」度という感性の強度とを推定する構成を説明した。感性の種類としては、ラッセルの感情円環モデルを示す図31に示されるように、他にも複数考えられる。以上の複数の実施形態は、ラッセルの感情円環モデルに示されるような複数の感性も適用可能である。
以上の実施形態では、第2の出力部に入力された複数の種類の生体信号は、例えば1つのRNNを用いて、生体信号の統合的な特徴量として出力される構成として説明した。また、刺激要因の一例として画像を用いた。そして、第1の出力部に入力された画像は、例えば1つのCNNを用いて、画像の特徴量として出力される構成として説明した。これらの構成の変形例を、図32を用いて説明する。
図32は、感性推定システム70を模式的に説明する図である。感性推定システム70は、これまでの実施形態と異なる構成要素として、画像を検出する画像センサ756、及び、音声を検出する音声センサ757を含む第1の検出部755と、画像センサ756で検出された画像が入力されると、例えばCNNを用いて画像の特徴量を抽出して出力する画像特徴量出力部726、及び、音声センサ757で検出された音声が入力されると、例えばRNNを用いて音声の特徴量を抽出して出力する音声特徴量出力部727を含む第1の出力部721とを備える。
感性推定システム70は更に、脳波センサ761、心拍センサ765、眼電センサ766および呼吸センサ769を含む第2の検出部760からの複数の種類の生体信号が入力されると、図31のラッセルの感情円環モデルにおける縦軸の覚醒度および横軸の快不快の各特徴量を、NNを用いて生体信号の特徴量としてそれぞれ抽出し、第2の取得部724に出力する、覚醒度出力部728および快不快出力部729を含む、第2の出力部723を備える。
ここで、ラッセルの感情円環モデルに示される「覚醒度」は、齋藤正範(北里大学医学部精神科学)による非特許文献「覚醒度を脳波で把握する」(精神神経学雑誌、110巻9号、P.843~848、2008年)にも掲載されているように、脳波(α波)や眼球運動(眼電)を用いることで検出できる。そのため、覚醒度出力部728が抽出する覚醒度の特徴量を、生体信号の特徴量の1つと考えることができる。また、ラッセルの感情円環モデルに示される「快不快」は、脳波のα波とβ波の比率を用いて検出できる。「不快」はストレス状態でもあるので、心拍の亢進や呼吸の増大によっても検出できる。そのため、快不快出力部729が抽出する快不快の特徴量を、生体信号の特徴量の1つと考えることができる。
感性推定システム70は更に、第2の取得部724から入力された覚醒度および快不快の各特徴量、並びに、ユーザ1によって入力部725から入力された感性情報の関連性を、NNを用いて学習し、第2の取得部724から新たな覚醒度および快不快の各特徴量が入力されると、新たな覚醒度および快不快の各特徴量と学習した関連性とに基づいて、感性情報を推定する第1の推定部717を備える。
感性推定システム70は更に、第1の推定部717よりも高精度の感性情報を推定する第2の推定部718を備える。第1の推定部717は、学習モードでは、入力された新たな覚醒度および快不快の各特徴量をそのまま第2の推定部718に出力し、推定モードでは、入力された新たな覚醒度および快不快の各特徴量に加えて、推定した感性情報を第2の推定部718に出力する。そして、第2の推定部718は、学習モードでは、第1の取得部722から画像および音声の各特徴量が入力され、第1の推定部717から、ユーザ1がそれらの刺激要因により刺激されたときの覚醒度および快不快の各特徴量と、推定モードの第1の推定部717によって推定された感性情報とが入力され、更に、ユーザ1によって入力部725から感性情報が入力され、これらの関連性を、NNを用いて学習する。第2の推定部718は、推定モードでは、第1の取得部722から新たな画像および音声の各特徴量が入力され、第1の推定部717から、ユーザ1がこれらの新たな刺激要因により刺激されたときの新たな覚醒度および快不快の各特徴量と、推定モードの第1の推定部717によって推定された感性情報とが入力され、これらと学習した関連性とに基づいて、感性情報を出力する。このように、感性推定システム70は、段階的に感性情報を推定する第1の推定部717および第2の推定部718を備えるので、第1の推定部717で推定した感性情報の推定精度を、第2の推定部718で高めることができる。
以上、複数の実施形態を用いて、感性情報を推定する構成の複数の例を説明した。ここで、例えば図1から図14を用いて説明した感性推定型自動撮影システム10の変形例を、図33および図34を用いて説明する。ここでは、説明の簡略化のため、感性推定型自動撮影システム10の構成と異なる構成についてのみ説明する。
図33は、感性推定型自動撮影システム13のブロック図である。感性推定型自動撮影システム10においては、検出された刺激要因の特徴量を抽出する処理、及び、計測された生体信号の特徴量を抽出する処理を、感性推定装置101が実行する構成として説明した。これに代えて、図33に示される感性推定型自動撮影システム13は、各特徴量の抽出をメガネ型ウェアラブルカメラ103で実行し、感性推定装置101は抽出された各特徴量を取得して上記の学習及び推定を行う。すなわち、感性推定装置101は、各特徴量を抽出する処理を実行しない。具体的には、メガネ型ウェアラブルカメラ103が、第1の出力部121および第2の出力部123を備える。メガネ型ウェアラブルカメラ103の制御部151は、第1の出力部121および第2の出力部123がそれぞれ抽出した刺激要因の特徴量および生体信号の特徴量を、通信部153を介して感性推定装置101の通信部113に送信する。通信部113は、受信した刺激要因の特徴量および生体信号の特徴量を、それぞれ第1の取得部122および第2の取得部124に出力する。
図34は、感性推定型自動撮影システム14のブロック図である。感性推定型自動撮影システム10においては、ユーザ1に感性情報の選択画面を表示する表示部115、ユーザ1によって感性情報が入力される入力部125、及び、入力部125から入力される感性情報を取得して推定部117に出力する第3の取得部126を感性推定装置101が備える構成として説明した。更に、刺激要因の特徴量と、生体信号の特徴量と、感性情報との関連性を学習する処理を感性推定装置101が実行する構成として説明した。これに代えて、図34に示される感性推定型自動撮影システム14は、図14及び図15の実施形態において説明した入出力インタフェース105を更に備え、入出力インタフェース105が、表示部115、入力部125及び第3の取得部126を有し、感性推定装置101はこれらの構成を有さない。入出力インタフェース105は、第3の取得部126が取得した感性情報を、通信部113を介してメガネ型ウェアラブルカメラ103の通信部153に送信する。
メガネ型ウェアラブルカメラ103は、第1の出力部121および第2の出力部123がそれぞれ抽出した刺激要因の特徴量および生体信号の特徴量と、通信部153を介して入出力インタフェース105から受信した感性情報との関連性を学習する学習部118を備える。学習部118は、感性推定型自動撮影システム10の推定部117と同様の構成を有し、深層学習、機械学習、統計処理などの手法を用いて、上記の関連性を学習し、学習した結果を制御部151に出力する。制御部151は、学習部118が学習した結果を、通信部153を介して感性推定装置101の通信部113に送信する。通信部113は受信した学習結果を記憶部119に出力し、記憶部119は学習結果を記憶する。
感性推定装置101の推定部117は、記憶部119に記憶された上記の学習結果に基づいて、ユーザ1が新たな刺激要因により刺激されたときの感性情報を推定する。すなわち、感性推定装置101は、各特徴量を抽出する処理を実行せず、上記の関連性を自ら学習することなく、上記の感性情報を推定する。なお、各特徴量を抽出する処理、及び、上記の関連性を学習する処理は、メガネ型ウェアラブルカメラ103以外の別の装置が行ってもよい。
以上、複数の実施形態を用いて、上記の感性情報を推定する構成の複数の例を説明したが、他に双眼鏡にも適用可能である。この場合、双眼鏡は、ユーザが使用するときに、自動的にフォーカスをスキャニングする構成とする。そして、推定部によって推定された感性情報に基づいて、フォーカスを設定するフォーカス設定部を備える。これにより、フォーカスを自動スキャニング中に、ユーザが一番「いいね」と感じたと推定したときに、自動的にフォーカスを設定できる。
更にまた、感性推定装置に、生体の感覚器を刺激する刺激要因の特徴量を取得する手順と、生体が刺激を受けたときに生体から検出される生体信号の特徴量を取得する手順と、刺激要因の特徴量と、生体信号の特徴量と、生体が刺激要因により刺激されたときの生体の感性を示す感性情報との関連性を学習した結果に基づいて、生体が新たな刺激要因により刺激されたときの感性情報を推定する手順とを実行させるためのプログラムも考えられる。
以上の複数の実施形態において、各装置の学習モードおよび推定モードにおけるユーザは同一人物であることを前提として説明したが、学習モードにおいて1人のユーザから得られる各データを用いて学習した関連性に基づいて、判別モードにおいて複数のユーザの感性情報を推定してもよい。この場合、個人毎のチューニングを必要としてもよいが、RNNの学習において、各ノードの初期値として、製品出荷前の開発時の平均的な学習結果を入れておき、実際のユーザに合わせて学習させることで、学習時間の短縮をしてもよい。一方で、全体を統合するSVMの学習は、ユーザ毎に必ず必要としてもよい。
以上の複数の実施形態において説明したように、RNNの学習では、学習時に、入力と対応する出力を与えるので、通常の予測では、入力は、同じ変数の時刻tと、時刻t+1の値である。学習が終わり、時刻tの値を入力として入れると、時刻t+1の予測ができるようになる。そこで、入力として、例えば、時刻tの脳波の特徴ベクトルを入れて、対応する出力として、時刻t+1の脳波の特徴ベクトルと同じく時刻t+1の心拍の特徴量を入れてもよい。この場合、学習がうまくできると、時刻tの脳波の特徴ベクトルから、時刻t+1の脳波と心拍の特徴ベクトルを推定することができる。よって、心拍データは学習時には必要であるが、判別時には不要とすることができる。
以上の複数の実施形態において、学習モードで画像表示装置に表示させる刺激要因の画像として、画角、色の要素(明度・彩度・色相)、ピント、被写界深度、フレーミングなど、写真画像のパラメータのいずれかが連続的に変化する画像群を用いてもよい。
以上の複数の実施形態において、ユーザに感性情報として「いいね」度を10段階評価で入力してもらう構成を説明した。これに代えて、一対比較表のような形で、ペアの比較を繰り返すことで、全体の順序関係を算出する方法や、提示する複数の刺激要因の間で、変化量に何らかの連続性が仮定できる場合に、最適なところだけ被験者に選んでもらい、選んでもらった刺激要因を基準に全体の順序関係を作るという方法を用いてもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加え得ることが当業者に明らかである。その様な変更または改良を加えた形態もまた、本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。