以下、本発明に係る撮像装置の一実施形態としてのデジタルスチルカメラ(以下、単に「デジタルカメラ」という)について、図面を参照しながら説明する。
≪実施の形態1≫
実施の形態1に係るデジタルカメラ100は、撮影環境(以下、「撮影シーン」ともいう)毎に、その撮影シーンに適した撮影機構制御用の複数の設定値を予め記憶しており、周囲の音声に基づいて撮影シーンを自動的に判定し、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定することで、ユーザの操作負担を軽減させつつ、綺麗な画像の生成に利用できるものである。
<装置構成>
まず、実施の形態1に係るデジタルカメラ100の装置構成について説明する。
図1(a)は、デジタルカメラ100の正面及び上面の外観を示す斜視図であり、(b)はデジタルカメラ100の背面及び上面の外観を示す斜視図である。
図1(a)に示すように、デジタルカメラ100の正面には、被写体からの光をCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子に結像させる撮影レンズ1と、撮影時に被写体に向けて光を発するストロボ発光機2と、被写体との距離や露光やデジタルカメラ100の回転方向等をセンシングするセンサ3とが配置されている。また、デジタルカメラ100の上面には、ユーザが半押しすることでフォーカスを合わせる指示を行うことが可能であり、全押しすることで撮影指示を行うことが可能なレリーズボタン4と、外部で生じている撮影環境を反映した音や、所定の音を出力することで生じた反響音を収集するためのスピーカ・マイクロフォン5とが配置されている。
また、図1(b)に示すように、デジタルカメラ100の背面には、撮影した画像や、各種情報を表示するディスプレイ6と、ユーザがデジタルカメラ100の動作モード(マニュアルモード、自動最適化モード、動画モード等)を指定するためのダイヤルボタン7と、ユーザ操作、例えば、各種設定の変更操作や撮影した画像の表示操作を受け付ける操作パネル8とが配置されている。なお、以下では、ダイヤルボタン7において、自動最適化モードが指定されている場合にのみ、デジタルカメラ100は、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定するものとする。
<機能構成>
次に、実施の形態1に係るデジタルカメラ100の機能構成について説明する。
図2は、デジタルカメラ100の主要部の機能構成を示すブロック図である。
デジタルカメラ100は、同図に示すように、音声取得部110、設定部120、シーン特定部130、画像データ生成部140、及び画像処理部141を備える。
なお、デジタルカメラ100は、DSP(Digital Signal Processor)、プロセッサ及びメモリを含んで構成されており、このメモリに記憶されているプログラムをDSP及びプロセッサが実行することにより設定部120、シーン特定部130、画像処理部141の機能が実現される。
ここで、音声取得部110は、スピーカ・マイクロフォン5及び図示しないA/D変換器を含んで構成され、スピーカ・マイクロフォン5によって収集した外部の音を電気信号に変換し、この電気信号をA/D変換器によりデジタル信号に変換することによって得られた音声データをシーン特定部130に送出する機能を有する。なお、ここでは、音声取得部110は、スピーカ・マイクロフォン5を含むとしたが、例えば、外部マイクから出力された電気信号をデジタルカメラ100に入力するための入力端子を含んでもよい。
設定部120は、撮影シーン毎に、その撮影シーンに適した撮影機構制御用の各設定値を登録したテーブル(以下、「設定テーブル」という)を保持しており、シーン特定部130で特定された撮影シーンに対応する各設定値を、各制御装置や画像処理部141に送出する機能を有する。なお、この設定テーブルの内容等については後述する(図6参照)。
ここで、各制御装置には、例えば、撮影レンズ1のピントを制御する装置や、シャッタ(不図示)の速度を制御する装置や、ストロボ発光機2の発光の有無を制御する装置等が含まれる。
シーン特定部130は、音声取得部110から受領した音声データの1以上の特徴についての値(以下、「特徴量」という)及び画像処理部141から受領した画像カテゴリ情報(後述する)に基づいて1つの撮影シーンを特定する機能を有する。
なお、ここでは、シーン特定部130は、音声データの各特徴量だけでなく、画像処理部141から受領した画像カテゴリ情報にも基づいて撮影シーンを特定することとしているが、音声データの各特徴量だけに基づいて撮影シーンを特定することもできる。即ち、図2において点線で示す画像データ生成部140及び画像処理部141は、本発明の特徴を実現する上で必須の機能構成要素ではない。
ここで、シーン特定部130の詳細な機能構成について、図3を用いて説明する。
図3は、シーン特定部130の機能構成を示すブロック図である。
同図に示すように、シーン特定部130は、特徴量抽出部131、変化量算出部132、基準記憶部133、カテゴリ判定部134、信頼度算出部135、状況判定部136、及び撮影シーン判定部137を含んで構成される。
なお、この実施の形態では、本発明に係る抽出手段を、特徴量抽出部131と変化量算出部132とに分けて記載しているが、1つの機能部として構成するようにしてもよい。
以下では、シーン特定部130は、単位時間長(例えば1秒)の音声データを単位として処理を行うこととし、現在処理中の単位時間長の音声データのことを「対象データ」ともいう。
ここで、特徴量抽出部131は、音声取得部110から受領した対象データについて、1以上の特徴量を抽出し、変化量算出部132に送出する機能を有する。この特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量である。スペクトラム関連やケプストラム関連の特徴量としては、スペクトラムのロールオフ、MFCC(Mel Frequency Cepstrum Coefficient)等がある。その他にも、MPEG7(Moving Picture Experts Group Phase 7)の規格の中で、MPEG7−Audio Featuresとして記載されている複数の特徴がある。Lowレベルでの特徴量としては、Audio Power, Audio Spectrum Envelope, Audio Spectrum Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread等がある。なお、Hyoung−Gook Kim等著の「MPEG7 AUDIO AND BEYOND」(John Wiley & Sons Ltd, 2005)に詳細が記載されている。
変化量算出部132は、特徴量抽出部131から受領した各特徴量について、その特徴量に対応する1つ前に受領した特徴量に対する変化量を算出する機能を有する。
また、変化量算出部132は、特徴毎に閾値を保持しており、算出した各特徴量の変化量が各閾値以下である場合にのみ、特徴量抽出部131から受領した各特徴量をカテゴリ判定部134に送出する。
これは、変化量が大きい部分は、突発的に発生した音を表していると考えられ、変化量が大きい部分の各特徴量に基づいて撮影シーンを判定しても正しい判定ができない可能性があるためである。
基準記憶部133は、予め定義された音声カテゴリ(例えば、屋内、屋外、水中、乗り物、花火、パーティ、スポーツ、演奏会、運動会、博覧会等)毎に、その音声カテゴリに分類するための各特徴量から構成されるモデル情報を記憶するためのメモリ領域である。
なお、モデル情報は、ベクトル量の各成分についての値としての平均値と分散値とを示す情報を含むものとする。
カテゴリ判定部134は、変化量算出部132から送出された各特徴量と基準記憶部133に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す各尤度を算出する機能を有する。
マッチング処理には、例えば、機械学習手法である判別器が用いられる。一般的な判別器として、GMM(Gaussian Mixture Model)やSVM(Support Vector Machine)などが存在する。
各音声カテゴリについて、その音声カテゴリに対応する基準記憶部133に記憶されているモデル情報を順に判別器にセットし、特徴量抽出部131から送出された各特徴量とのマッチング処理を行い尤度を算出する。各音声カテゴリについての尤度は、その尤度の値が大きいほど、対象データがその音声カテゴリに分類されることの信頼度が高いことを意味し、以下では、0〜1の値を取るものとして説明する。
カテゴリ判定部134は、各音声カテゴリについて、その音声カテゴリを示す音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組を信頼度算出部135に送出する。以下、この各組を「音声尤度情報」という。
信頼度算出部135は、カテゴリ判定部134から送出された音声尤度情報に基づいて、各尤度について、その尤度の信頼度(以下、「相対信頼度」という)を算出する機能を有する。
ここで、例えば、ある対象データについてのある音声カテゴリAの尤度と別の音声カテゴリBの尤度とが同一の値であっても、音声カテゴリAと音声カテゴリBとのうち、分散値が小さいモデルに対応する音声カテゴリの尤度のほうが信頼性が高いといえる。
また、ある対象データαについての音声カテゴリAの尤度と、別の対象データβについての音声カテゴリAの尤度とが同一の値であっても、対象データαについての他の音声カテゴリBの尤度のほうが、対象データβについての他の音声カテゴリBの尤度よりも小さい場合には、対象データαについての音声カテゴリAの尤度のほうが、信頼性が高いといえる。これは、対象データが音声カテゴリBに分類されることの信頼性がより低いからである。
そのため、信頼度算出部135は、各音声カテゴリに対応する各モデルの分散値、及び他のモデルの中心(つまり平均値)からの距離を考慮した各相対信頼度を算出する。
例えば、対象データについての3つの音声カテゴリA、B、Cの各尤度をa、b、cとし、各音声カテゴリに対応する各モデルの分散値をp、q、rとした場合に、音声カテゴリAについての相対信頼度Xaは次の数式で算出される。なお、音声カテゴリBについての相対信頼度Xb、及び音声カテゴリCについての相対信頼度Xcについても同様に算出することができるため、相対信頼度Xb、Xcを算出するための数式の記載は省略する。
相対信頼度Xaの値が大きいほど、尤度aの信頼度が高いことを意味する。
信頼度算出部135は、各音声カテゴリについて、その音声カテゴリについての音声カテゴリ識別子と尤度と相対信頼度とからなる組を状況判定部136に送出する。以下、この各組を「信頼度情報」という。
状況判定部136は、図4に示す音声カテゴリ基準テーブルを保持しており、この音声カテゴリ基準テーブルと、信頼度算出部135から受領した信頼度情報とに基づいて、対象データが属すると推定される1以上の音声カテゴリを特定する機能を有する。
後に詳細に説明するが、音声カテゴリ基準テーブルは、音声カテゴリ毎に、その音声カテゴリの尤度の下限値(以下、「尤度閾値」という)と相対信頼度の下限値(以下、「信頼度閾値」という)とを登録したテーブルである。
状況判定部136は、信頼度情報を構成する各音声カテゴリの組について、その組に含まれる尤度及び相対信頼度それぞれが、対応する音声カテゴリについての尤度閾値及び信頼度閾値以上であるとの条件を満たすかを判定し、条件を満たす各組に係る音声カテゴリを対象データが属すると推定される1以上の音声カテゴリと特定する。
また、状況判定部136は、1以上の音声カテゴリを特定した際に、その特定結果の妥当性を過去の特定結果から判定し、妥当な場合に、信頼度情報を構成する各音声カテゴリの組のうち、特定した音声カテゴリについての組に含まれる音声カテゴリ識別子と相対尤度とを含む情報(以下、「音声カテゴリ情報」という)を撮影シーン判定部137へ送出する。なお、この特定結果の妥当性の判定方法については、後述するが(図7参照)、特定した音声カテゴリに基づいて撮影シーンをより正確に判定するために、特定した音声カテゴリが頻繁に変化しているような場合には、その特定結果を撮影シーンの判定に用いない趣旨である。
撮影シーン判定部137は、状況判定部136から送出された音声カテゴリ情報と、画像処理部141から送出された画像カテゴリ情報と、図5に示すシーン対応テーブルとに基づいて、各撮影シーンについての信頼度(以下、「単位時間信頼度」という)を算出し、過去に算出した各撮影シーンについての単位時間信頼度を含む、複数の単位時間信頼度に基づいて、各撮影シーン(一般屋内、屋内パーティ、屋内演奏会、一般屋外、屋外花火、屋外花火、屋外スポーツ、屋外運動会、水中等)のうち1つの撮影シーンを特定する機能を有する。1つの撮影シーンを特定すると、撮影シーン判定部137は、特定した撮影シーンを示す情報(以下、「シーン識別子」という)を設定部120に送出する。
後に詳細に説明するが、シーン対応テーブルは、撮影シーン毎に、その撮影シーンと、各音声カテゴリ及び各画像カテゴリがどの程度関係するのかを示す重み付け値を登録したテーブルである。
再び図2を用いて、デジタルカメラ100の残りの各部について説明する。
画像データ生成部140は、撮影レンズ1、CCDやCMOS等の撮像素子、及びA/D変換器を含み、被写体から入射する光を撮影レンズ1によりCCD等に集光し、この光をCCD等で電気信号に変換し、この電気信号をA/D変換器によりデジタル信号に変換することによって、画像データ(例えば、640×480画素分の輝度データ群)を生成し、画像処理部141に送出する機能を有する。
画像処理部141は、シーン特定部130を構成する各部の一部と似た機能を有し、画像データ生成部140から受領した画像データの1以上の特徴についての値(特徴量)に基づいて、予め定義された画像カテゴリ毎(例えば、屋内、屋外、水中、花火等)の尤度及び相対信頼度を算出し、算出した尤度及び相対信頼度に基づいて、その画像データが属すると推定される1以上の画像カテゴリと特定する機能を有する。画像処理部141は、特定結果を示す画像カテゴリ情報を撮影シーン判定部137に送出する。
画像処理部141は、上記1以上の特徴量として、例えば、輝度成分や色差成分等を抽出し、抽出した特徴量を、例えば撮影シーンを判定するための色ヒストグラムや、オブジェクトを判定するためのSIFT(Scale−Invariant Feature Transform)等に代表される部分特徴量群(Bag of Features、以下、「BoF」という)に変換する。
また、画像処理部141は、特に図示していないが、予め定義された画像カテゴリ毎に、その画像カテゴリに分類するための特徴量からなるモデル情報を記憶しており、上記BoFと記憶している各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し、数1に示す数式に従って各尤度についての相対信頼度を算出する。
また、画像処理部141は、レリーズボタン4から撮影指示がなされた旨の通知を受け付けると、画像データ生成部140から受領した画像データに、設定部120から受領した設定値に応じた色補正等の画像処理を施し、記録メディアへ格納する機能を有する。
<データ>
以下、デジタルカメラ100において使用されるデータについて説明する。
<音声カテゴリ基準テーブル>
図4は、音声カテゴリ基準テーブル10のデータ構成及び内容例を示す図である。
音声カテゴリ基準テーブル10は、音声カテゴリ毎に、音声カテゴリ識別子11と、尤度閾値12と、信頼度閾値13とを対応付けたデータを登録したテーブルであり、状況判定部136が、対象データが属すると推定される1以上の音声カテゴリを特定する際に参照する。
なお、同図に示す「La」〜「Li」、「Ra」〜「Ri」は具体的な数値を示すものとして説明する。
ここで、音声カテゴリ識別子11は、対応する音声カテゴリの識別情報であり、ここでは、他の音声カテゴリ識別子と重複しない文字列を用いた例を示している。
尤度閾値12は、対応する音声カテゴリに対象データが属すると推定し得る、算出された尤度の下限値であり、信頼度閾値13は、対応する音声カテゴリに対象データが属すると推定し得る、算出された相対信頼度の下限値である。
同図は、例えば、音声カテゴリ識別子が「a0」である音声カテゴリ(つまり、屋内)に対象データが属すると推定されるための尤度閾値は「La」であり、信頼度閾値は「Ra」であることを示している。
<シーン対応テーブル>
図5は、シーン対応テーブル20のデータ構成及び内容例を示す図である。
シーン対応テーブル20は、撮影シーン毎に、シーン識別子21と、音声カテゴリ毎の重み付け値22と、画像カテゴリ毎の重み付け値23とを対応付けたデータを登録したテーブルであり、撮影シーン判定部137が単位時間信頼度を算出する際に参照する。
なお、同図における「Wa1」〜「Wn5」は、1以下の具体的な数値を示すものとして説明する。
ここで、シーン識別子21は、対応する撮影シーンの識別情報であり、ここでは、他のシーン識別子と重複しない文字列を用いた例を示している。
また、音声カテゴリ毎の重み付け値22は、対応する撮影シーンと各音声カテゴリとの関係の程度を表す値であり、画像カテゴリ毎の重み付け値23は、対応する撮影シーンと各画像カテゴリとの関係の程度を表す値であり、相互に対応する音声カテゴリ毎の重み付け値と画像カテゴリ毎の重み付け値との合計が1になるように決定されている。
同図は、例えば、シーン識別子が「S001」である撮影シーン(つまり、一般室内)についての音声カテゴリ毎の重み付け値は、屋内の重み付け値が「Wa1」であり、屋外の重み付け値が「Wb1」であり、水中の重み付け値が「Wc1」であり、画像カテゴリ毎の重み付け値は、乗り物の重み付け値が「Wl1」であり、花火の重み付け値が「Wm1」であり、パーティの重み付け値が「Wn1」であることを示している。
<設定テーブル>
図6は、設定テーブル30のデータ構成及び内容例を示す図である。
設定テーブル30は、撮影シーン毎に、シーン識別子31と、各設定値32とを対応付けたデータを登録したテーブルであり、設定部120が撮影シーンに対応する撮影機構制御用の設定値を取得する際に参照する。
ここで、シーン識別子31は、対応する撮影シーンの識別情報であり、上記シーン対応テーブル20のいずれかのシーン識別子と一致するものである。
また、各設定値32は、対応する撮影シーンに適した撮影機構制御用の設定値であり、フォーカス、シャッタ速度、ホワイトバランス、感度、色強調、フラッシュ等の設定項目についての設定値から構成される。なお、色強調欄における「×」は、特に、色強調を行わないことを示している。
同図は、例えば、シーン識別子が「S001」である撮影シーン(つまり、一般室内)に適した撮影機構制御用の各設定値は、フォーカスが「AF(Auto Focus)」であり、シャッタ速度が「1/60」秒であり、ホワイトバランスが、光源を「蛍光灯」とした場合の予め定義された値であり、CCD等の感度が「標準」であり、色強調は「×」(つまり、行わない)であり、フラッシュの有無が「オート」であることを示している。
<動作>
以下、デジタルカメラ100の動作について説明する。
<音声カテゴリ特定処理>
図7は、シーン特定部130による音声カテゴリの特定処理を示すフローチャートである。
この音声カテゴリの特定処理は、ユーザにより電源がONにされる等、デジタルカメラ100が撮影可能な状態となり、かつ、図1に示すダイヤルボタン7が自動最適化モードに設定されている場合に開始され、特に図示していないが、ユーザにより電源がOFFにされる等、デジタルカメラ100が撮影不可能な状態となったときに終了する。
図7に示すように、シーン特定部130の特徴量抽出部131は、音声取得部110を介して単位時間長の音声データ(対象データ)を取得すると(ステップS1)、各特徴量を抽出し(ステップS2)、変化量算出部132に抽出した各特徴量を送出する。
変化量算出部132は、特徴量抽出部131から受領した各特徴量について、その特徴量に対応する1つ前に受領した特徴量に対する変化量を算出し、算出した各変化量それぞれが対応する閾値以下であるか否かを判定する(ステップS3)。
算出した各変化量のうち、少なくとも1つが対応する閾値より大きい場合には(ステップS3:NO)、シーン特定部130は、再びステップS1から処理を行い、算出した各変化量それぞれが対応する閾値以下である場合には(ステップS3:YES)、変化量算出部132は、特徴量抽出部131から受領した各特徴量をカテゴリ判定部134に送出する。
なお、デジタルカメラ100が撮影可能な状態になった直後に特徴量抽出部131から各特徴量を受領した場合には、変化量算出部132は、肯定的な判定(ステップS3:YES)を行うものとする。
また、カテゴリ判定部134は、変化量算出部132から受領した各特徴量と、基準記憶部133に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し(ステップS4)、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組(音声尤度情報)を信頼度算出部135に送出する。
信頼度算出部135は、カテゴリ判定部134から受領した音声尤度情報に含まれる各尤度に基づいて、数1に示す数式に従って各相対信頼度を算出し(ステップS5)、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度と相対信頼度とからなる組(信頼度情報)を状況判定部136に送出する。
状況判定部136は、音声カテゴリ基準テーブル10及び信頼度算出部135から受領した信頼度情報に基づいて、対象データが属すると推定される1以上の音声カテゴリを特定する(ステップS6)。より詳細には、各音声カテゴリについて、その音声カテゴリについての尤度閾値と信頼度閾値とを音声カテゴリ基準テーブル10から取得し、カテゴリ判定部134から受領した信頼度情報からその音声カテゴリについての尤度と相対信頼度とを取得し、尤度が尤度閾値以上であり、かつ相対信頼度が信頼度閾値以上である場合に、その音声カテゴリを対象データが属すると推定される音声カテゴリと特定する。
例えば、図4に示す音声カテゴリ基準テーブル10の例では、信頼度情報を構成する、音声カテゴリが「a0」である組に含まれる尤度が「La」以上であり、かつその組に含まれる相対信頼度が「Ra」以上である場合に、「屋内」をその対象データが属すると推定される音声カテゴリと特定する。
また、状況判定部136は、ステップS6で特定した結果が妥当か否かを、特定した各音声カテゴリの少なくも一部が、対象データDnの1つ前及び2つ前に処理した単位時間長の音声データDn−1、Dn−2について特定された1以上の音声カテゴリと重複するか否かによって判定する(ステップS7)。
具体的には、ステップS6で特定した各音声カテゴリの少なくも一部が、音声データDn−1について特定された1以上の音声カテゴリにも、音声データDn−2について特定された1以上の音声カテゴリにも含まれている場合にのみ肯定的な判定(ステップS7:YES)を行う。
例えば、ステップS6で特定された音声カテゴリが「屋内」と「パーティ」であるとした場合に、音声データDn−1、Dn−2について特定された1以上の音声カテゴリそれぞれに「屋内」が含まれているか、或いは音声データDn−1、Dn−2について特定された1以上の音声カテゴリそれぞれに「パーティ」が含まれているときには、肯定的な判定(ステップS7:YES)を行う。
ステップS7で、否定的な判定を行った場合には(ステップS7:NO)、シーン特定部130は、再びステップS1から処理を行い、肯定的な判定を行った場合には(ステップS7:YES)、状況判定部136は、音声カテゴリ情報を、撮影シーン判定部137へ送出し(ステップS8)、シーン特定部130は、再びステップS1から処理を行う。
ここで、音声カテゴリ情報は、音声カテゴリ毎に、音声カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップS6で特定された音声カテゴリについては、信頼度算出部135から受領した信頼度情報に含まれていたその音声カテゴリについての相対信頼度を、ステップS6で特定されなかった音声カテゴリについては「0」を対応付けたものである。
<画像カテゴリ特定処理>
図8は、画像処理部141による画像カテゴリの特定処理を示すフローチャートである。
この画像カテゴリの特定処理の流れは、図7を用いて説明した音声カテゴリの特定処理の流れとよく似たものであるため、ここでは、簡単に説明する。
また、この画像カテゴリの特定処理も音声カテゴリの特定処理と同様にデジタルカメラ100が撮影可能な状態で、かつダイヤルボタン7が自動最適化モードに設定されている場合に開始され、デジタルカメラ100が撮影不可能な状態となったときに終了する。
図8に示すように、画像処理部141は、画像データ生成部140から画像データを取得すると(ステップS11)、各特徴量を抽出し(ステップS12)、抽出した各特徴量を変換したBoFと各画像カテゴリについてのモデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出する(ステップS14)。
また、画像処理部141は、算出した各尤度に基づいて、数1に示す数式に従って各相対信頼度を算出し(ステップS15)、各画像カテゴリ毎の尤度と信頼度情報との組に基づいて、画像データが属すると推定される1以上の画像カテゴリを特定する(ステップS16)。
特に説明していなかったが、画像処理部141は、画像カテゴリ毎に、尤度閾値と信頼度閾値とを登録した、音声カテゴリ基準テーブル10のデータ構成とよく似たデータ構成のテーブルを保持しており、上記状況判定部136と同様に、各画像カテゴリの組について、その組の尤度が、その画像カテゴリの尤度閾値以上であり、かつその組の相対信頼度が、その画像カテゴリの信頼度閾値以上である場合に、その画像カテゴリを、画像データが属すると推定される画像カテゴリと特定する。
画像処理部141は、画像カテゴリ情報を撮影シーン判定部137へ送出し(ステップS18)、画像処理部141は、再びステップS11から処理を行う。
ここで、画像カテゴリ情報は、画像カテゴリ毎に、画像カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップS16で特定された画像カテゴリについては、ステップS15で算出したその画像カテゴリについての相対信頼度を、ステップS16で特定されなかった画像カテゴリについては「0」を対応付けたものである。
<撮影シーン判定処理>
図9は、撮影シーン判定部137による撮影シーンの判定処理を示すフローチャートである。
同図に示すように、シーン特定部130の撮影シーン判定部137は、音声カテゴリ情報を状況判定部136から受領し、画像カテゴリ情報を画像処理部141から受領すると(ステップS21)、シーン対応テーブル20を用いて、撮影シーン毎の単位時間信頼度を算出し(ステップS22)、算出した各撮影シーンについての単位時間信頼度を蓄積する。
より詳細には、撮影シーン毎に、音声カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル20の対応する音声カテゴリの重み付け値を掛けた値を合計し、画像カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル20の対応する画像カテゴリの重み付け値を掛けた値を合計し、各合計の和を取ったものを単位時間信頼度とする。
例えば、音声カテゴリ情報に含まれる音声カテゴリ「屋内」、「屋外」、「水中」、・・・の相対信頼度が「Xa1」、「Xb1」、「Xc1」、・・・であり、画像カテゴリ情報に含まれる画像カテゴリ「乗り物」、「花火」、「パーティ」、・・・の相対信頼度が「Xl1」、「Xm1」、「Xn1」、・・・であるとした場合に、図5のシーン対応テーブル20の例では、撮影シーン「一般室内」の単位時間信頼度は、「wa1×Xa1+wb1×Xb1+wc1×Xc1+・・・+wl1×Xl1+wm1×Xm1+wn1×Xn1+・・・」と算出できる。
撮影シーン判定部137は、対象データDnの1つ前〜4つ前に処理した単位時間長の音声データDn−1〜Dn−4について算出した各撮影シーンについての単位時間信頼度が蓄積されているか否かを判定する(ステップS23)。
なお、図7のステップS3やステップS7の判定処理で否定的な判定がなされた場合には、そのときに処理対象であった音声データについての音声カテゴリ情報を状況判定部136から受領していないため、その音声カテゴリ情報に基づく単位時間信頼度は蓄積されていないことになる。
該当の各撮影シーンについての単位時間信頼度が蓄積されていない場合には(ステップS23:NO)、シーン特定部130は再びステップS21から処理を行い、該当の各撮影シーンについての単位時間信頼度が蓄積されている場合には(ステップS23:YES)、音声データDn〜Dn−4について算出した各撮影シーンについての単位時間信頼度に基づいて、各撮影シーンについての短時間信頼度及び長時間信頼度を算出する(ステップS24)。
ここで、各撮影シーンについての短時間信頼度は、音声データDnとDn−1について算出されたその撮影シーンの単位時間信頼度の平均値であり、各撮影シーンについての長時間信頼度は、音声データDn〜Dn−4について算出されたその撮影シーンの単位時間信頼度の平均値である。
例えば、音声データDn〜Dn−4について算出された撮影シーン「一般室内」の単位時間信頼度が「Sa0」〜「Sa4」であるとした場合に、撮影シーン「一般室内」の短時間信頼度は「(Sa0+Sa1)÷2」と算出でき、長時間信頼度は「(Sa0+Sa1+Sa2+Sa3+Sa4)÷5」と算出できる。
続いて、撮影シーン判定部137は、撮影シーン毎に、その撮影シーンの短時間信頼度と長時間信頼度の平均値(以下、「シーン信頼度」という)を算出する(ステップS25)。
撮影シーン判定部137は、算出された各撮影シーンについてのシーン信頼度について、そのシーン信頼度が、その撮影シーンについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であったシーン信頼度の数を判定する(ステップS26)。
基準値以上であったシーン信頼度の数が0の場合には(ステップS26:0)、特に何も行わず、撮影シーン判定部137は、再びステップS21から処理を行い、基準値以上であったシーン信頼度の数が1の場合には(ステップS26:1)、撮影シーン判定部137は、その基準値以上であったシーン信頼度に係る撮影シーンに特定し(ステップS27)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。
シーン識別子を受領した設定部120は、受領したシーン識別子に対応する各設定値を設定テーブル30から取得し、対応する制御装置、画像処理部141に設定値を送出する。この結果、各制御装置、画像処理部141は受領した設定値に応じた処理を行う。
また、基準値以上であったシーン信頼度の数が2以上の場合には(ステップS26:2以上)、シーン信頼度が最大であるシーン信頼度に係る撮影シーンに特定し(ステップS28)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。以降の設定部120、各制御装置、画像処理部141の処理は上記ステップS27の場合と同様である。
<具体例>
以下では、上記ステップS26以降の処理を具体例を用いて説明する。
図10は、各撮影シーンについての基準値と、撮影シーン判定部137が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。
同図に示す例では、算出されたシーン信頼度42のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが「一般室内」のみであるため(ステップS26:1)、撮影シーン判定部137は撮影シーンが「一般室内」であると特定し(ステップS27)、一般室内のシーン識別子(S001)を設定部120へ送出することになる。
このシーン識別子(S001)を受領した設定部120は、図6の設定テーブル30の例では、フォーカス「AF」、シャッタ速度「1/60」、ホワイトバランス「蛍光灯」、色強調「×」、フラッシュ「オート」といった各設定値を取得する。
設定部120は、フォーカス「AF」、シャッタ速度「1/60」、フラッシュ「オート」といった設定値を、対応する制御装置に送出し、ホワイトバランス「蛍光灯」、色強調「×」といった設定値を画像処理部141へ送出し、各制御装置、画像処理部141では受領した設定値に応じた処理が行われることになる。
≪変形例1≫
実施の形態1では、自動的に1つの撮影シーンを特定し、特定した撮影シーンに対応する各設定値を設定する例を説明したが、以下では、撮影シーンの候補をユーザに提示し、ユーザから選択された撮影シーンに対応する各設定値を設定するようにした一変形例を説明する。
これにより、ユーザは、簡単な操作で撮影シーンに適した各設定値での撮影が可能になる。また、ユーザが撮影シーンの最終的な決定を行うので、より綺麗な画像の生成に利用できるものである。
変形例1に係るデジタルカメラ(以下、「変形デジタルカメラ」という)は、上述の実施の形態1に係るデジタルカメラ100の撮影シーン判定部137の機能を若干変更したものであるため、デジタルカメラ100からの変更部分を中心に説明する。
以下、この変形デジタルカメラにおける撮影シーン判定部を「変形シーン判定部」という。
<動作>
以下、変形デジタルカメラの動作を説明する。
<撮影シーン判定処理>
図11は、変形シーン判定部による撮影シーンの判定処理を示すフローチャートである。
同図におけるステップS21〜S28の処理は、実施の形態1に係る撮影シーン判定部137の処理(図9参照)と同様であるため、以下では、ステップS30〜S32の処理を説明する。
ステップS26において、基準値以上であったシーン信頼度の数が0の場合に(ステップS26:0)、変形シーン判定部は、シーン信頼度が0より大きい各撮影シーンを候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示する(ステップS30)。
変形シーン判定部は、操作パネル8を介して、いずれかの撮影シーンの候補を選択する操作がなされたか否かを判定し(ステップS31)、選択されていない場合には(ステップS31:NO)、再びステップS31の処理を行い、選択された場合には(ステップS31:YES)、選択された撮影シーンに特定し(ステップS32)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。
シーン識別子を受領した設定部120は、ステップS27、S28で説明したのと同様に、設定テーブル30から取得した各設定値を各制御装置、画像処理部141に送出し、各制御装置、画像処理部141は受領した設定値に応じた処理を行う。
<具体例>
以下では、上記ステップS26以降の処理を具体例を用いて説明する。
図12は、各撮影シーンについての基準値と、変形シーン判定部が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。
図13は、各撮影シーンの候補を表すアイコンの表示例を示す図である。
図12に示す例では、算出されたシーン信頼度52のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが存在しないため(図11のステップS26:0)、変形シーン判定部は、シーン信頼度が0より大きい各撮影シーン「一般室内」、「屋内パーティ」、「一般屋外」を候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示する(ステップS30)。
この例では、図13に示すように、シーン信頼度が大きい順に左から、撮影シーンの候補「一般室内」を表すアイコン6a、撮影シーンの候補「屋内パーティ」を表すアイコン6b、撮影シーンの候補「一般屋外」を表すアイコン6cが表示されることになる。
この例で、例えばユーザが、操作パネル8を操作し、撮影シーン「一般室内」を選択したとすると(ステップS31:YES)、変形シーン判定部は、「一般室内」に撮影シーンを特定し、一般室内のシーン識別子(S001)を設定部120へ送出することになる。
以降は、実施の形態1で説明したのと同様に、設定部120が設定テーブル30から取得した各設定値を対応する制御装置、画像処理部141に送出し、各制御装置、画像処理部141では、受領した設定値に応じた処理が行われることになる。
≪変形例2≫
実施の形態1では、周囲の音声に基づいて撮影シーンを判定し、判定した撮影シーンに適した撮影機構制御用の各設定値を自動的に設定する方法を説明した。以下では、これに加え、周囲の音声に基づいて、検出対象(人の顔、人工物等)を特定し、特定した検出対象が画像データから検出できた場合に、補正された撮影機構制御用の各設定値を自動的に設定するようにした一変形例を説明する。
なお、以下では、上述の実施の形態1に係るデジタルカメラ100からの変更部分を中心に説明する。
<機能構成>
まず、変形例2に係るデジタルカメラ200の機能構成について説明する。
図14は、デジタルカメラ200の主要部の機能構成を示すブロック図である。
同図に示すように、デジタルカメラ200は、実施の形態1に係るデジタルカメラ100のシーン特定部130、画像処理部141に代えて、シーン特定部210、画像処理部230を備え、更に音声特定部220を備えるものである。
ここで、シーン特定部210は、実施の形態1に係るシーン特定部130の状況判定部136に代えて、状況判定部211を備える点で、シーン特定部130と異なる。
なお、この変形例では、音声カテゴリに「人の声」、「動物の鳴き声」、「電車」、「風」等(以下、「新たな音声カテゴリ」ともいう)を含むものとし、基準記憶部133は、新たな音声カテゴリに対応する各モデル情報を保持し、また、実施の形態1で説明した各種テーブルにおいても新たな音声カテゴリに対応する値が登録されているものとする。
また、撮影シーン判定部137は、一旦撮影シーンを特定し、特定した撮影シーンのシーン識別子を設定部120へ送出すると、次に撮影シーンを特定した際には、その特定した撮影シーンが前回特定した撮影シーンと異ならない限り、設定部120へのシーン識別子の送出は行わないものとする。これは、後述するように、画像処理部230がより最適になるように補正された各設定値を各制御装置に送出し、各制御装置及び画像処理部230では、その補正された設定値に基づいた処理が行われている可能性があるためである。
状況判定部211は、実施の形態1に係る状況判定部136と同様の機能を有するが、音声カテゴリ情報を撮影シーン判定部137へ送出する際に、音声特定部220にも送出する点で、状況判定部136とは異なる。
また、音声特定部220は、状況判定部211から受領した音声カテゴリ情報と、過去の音声カテゴリ情報とに基づいて、各音声カテゴリ(例えば、屋内、屋外、人の声、動物の鳴き声、電車、風等)のうち、1つの音声カテゴリを特定し、特定された音声カテゴリの音声カテゴリ識別子を画像処理部230に送出する機能を有する。
また、画像処理部230は、実施の形態1に係る画像処理部141の機能に加え、音声特定部220から受領した音声カテゴリ識別子が示す音声カテゴリと予め対応付けられた処理(以下、「対応処理」という)を実行する機能を有する。
ここで、対応処理とは、例えば、人の顔、動物の身体、机や椅子等の人工物、ビル等の建物等の物体検出処理や、動き検出処理や、ブレ補正処理等が一例として挙げられる。
<動作>
以下、デジタルカメラ200の動作について説明する。
<音声カテゴリ特定処理>
図15は、音声特定部220による音声カテゴリの特定処理を示すフローチャートである。
同図に示すように、音声特定部220は、音声カテゴリ情報を状況判定部211から受領すると(ステップS41)、この音声カテゴリ情報を蓄積し、対象データDnの1つ前〜4つ前に処理した単位時間長の音声データDn−1〜Dn−4についての音声カテゴリ情報が蓄積されているか否かを判定する(ステップS43)。
該当の各音声カテゴリ情報が蓄積されていない場合には(ステップS43:NO)、音声特定部220は再びステップS41から処理を行い、該当の各音声カテゴリ情報が蓄積されている場合には(ステップS43:YES)、音声データDn〜Dn−4についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、短時間音声信頼度と、含有率と、パワーレベルとを算出する(ステップS44)。
ここで、各音声カテゴリについての短時間音声信頼度とは、音声データDnとDn−1についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。
また、各音声カテゴリについての含有率とは、音声データDn〜Dn−4についての各音声カテゴリ情報に含まれる、その音声カテゴリについての0より大きい相対信頼度の数の割合である。例えば、音声データDn〜Dn−4についての各音声カテゴリ情報に含まれる、音声カテゴリ「人の声」についての相対信頼度が、「0.5」、「0.4」、「0.3」、「0.2」、「0」であるとした場合に、0より大きい相対信頼度の数は「4」であり、含有率は「0.8」と算出できる。
また、各音声カテゴリについてのパワーレベルとは、音声データDn〜Dn−4のうち、その音声カテゴリについての0より大きい相対信頼度が含まれている部分の音声パワーの平均値(0〜1の値を取るよう正規化した値)である。なお、これまで特に説明していなかったが、この各音声カテゴリについてのパワーレベルを算出するために、音声特定部220は、カテゴリ判定部134から音声パワーについての特徴量を受領しているものとする。
音声特定部220は、音声カテゴリ毎に、その音声カテゴリの短時間音声信頼度と、含有率と、パワーレベルとの平均値(以下、「音声カテゴリ信頼度」という)を算出する(ステップS45)。
音声特定部220は、算出した各音声カテゴリについての音声カテゴリ信頼度について、その音声カテゴリ信頼度が、その音声カテゴリについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であった音声カテゴリ信頼度の数を判定する(ステップS46)。
基準値以上であった音声カテゴリ信頼度の数が0の場合には(ステップS46:0)、特に何も行わず、音声特定部220は、再びステップS41から処理を行い、基準値以上であった音声カテゴリ信頼度の数が1の場合には(ステップS46:1)、音声特定部220は、その基準値以上であった音声カテゴリ信頼度に係る音声カテゴリに特定し(ステップS47)、特定した音声カテゴリの音声カテゴリ識別子を画像処理部230へ送出し、再びステップS41から処理を行う。
音声カテゴリ識別子を受領した画像処理部230は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。例えば、音声特定部220が音声カテゴリ「人の声」に特定した場合には、画像処理部230は対応処理として人の顔を検出する処理を行い、検出された場合には、例えば、検出された顔部分に合わせてフォーカスを行うための設定値等を対応する制御装置へ送出すると共に、撮影された画像に対して行う画像処理の内容を、例えば、肌色を強調するように変更する。
なお、画像処理部230は、顔検出のためのテンプレート画像を保持しており、そのテンプレート画像と、画像データ生成部140から受領した画像データとをマッチング処理することで、顔検出を行う。
また、基準値以上であった音声カテゴリ信頼度の数が2以上の場合には(ステップS46:2以上)、最大である音声カテゴリ信頼度に係る音声カテゴリに特定し(ステップS48)、上記ステップS47と同様に、特定した音声カテゴリの音声カテゴリ識別子を画像処理部230へ送出し、再びステップS41から処理を行う。音声カテゴリ識別子を受領した画像処理部230は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。
なお、上記では、音声特定部220が音声カテゴリ「人の声」に特定した場合を例に、画像処理部230は、対応処理として顔検出を行う例を説明したが、例えば、音声特定部220が音声カテゴリ「屋内」に特定した場合には、対応処理として、机や椅子といった人工物を検出する処理や、輝度等の情報に基づいて、蛍光灯色(暖色系、寒色系等)を判定する処理を行い、判定結果に基づいてフォーカス等の設定値を対応する制御装置へ送出すると共に、撮影された画像に行う色補正処理の内容(例えばホワイトバランスの設定値)を変更するようにしてもよい。
また、例えば、音声特定部220が音声カテゴリ「屋外」に特定した場合には、対応処理として、山等の自然や大きな建物を検出する処理や、動き検出を行い、検出結果に応じて、フォーカス等の設定値を対応する制御装置に送出すると共に、撮影された画像に行う色補正処理の内容(例えば、強調色の設定値)を変更するようにしてもよい。
また、例えば、図16に示すように、音声カテゴリ毎に、近距離範囲、中距離範囲、遠距離範囲といった被写体との距離に関する設定値を含む各設定値を登録した設定テーブル60を画像処理部230が保持するようにし、特定された音声カテゴリに応じて補正された撮影機構制御用の各設定値を、各制御装置に送出すると共に、設定値に応じた画像処理(この例では、ホワイトバランスの調整処理)を行うようにしてもよい。
また、例えば、音声特定部220が音声カテゴリ「風」に特定した場合に、対応処理としてブレ補正をするようにしてもよい。更に、この際、パワーレベル等に基づいて、どの程度の風が吹いているのかを判定するように変形し、風の影響を加味した上でデジタルカメラ200のブレ補正量をセンサ3からの情報に基づいて算出して補正することや、植物等の被写体の揺れも検出するようにすることで、デジタルカメラ200の揺れと被写体の揺れを同時に補正するようにしてもよい。
また、音声特定部220が音声カテゴリ「電車」等の乗り物に特定した場合にも、対応処理としてブレ補正をするようにしてもよい。この際、パワーレベル等に基づいて、その乗り物の揺れの程度を判定するようにし、揺れの影響を考慮したブレ補正を行うようにしてもよい。
≪実施の形態2≫
実施の形態2では、実施の形態1で説明した音声カテゴリ情報を用いて、撮影された画像データを分類し、画像データの検索に利用できるようにした例を説明する。
<機能構成>
まず、実施の形態2に係るデジタルカメラ300の機能構成について説明する。
図17は、デジタルカメラ300の主要部の機能構成を示すブロック図である。
同図に示すように、デジタルカメラ300は、実施の形態1に係るデジタルカメラ100のシーン特定部130に代えて、シーン特定部310を備え、更に分類情報記憶部320、分類情報生成部330を備えるものである。
なお、この実施の形態では、画像処理部141は、レリーズボタン4から撮影指示がなされた旨の通知を受け付けると、分類情報生成部330にその旨を通知するものとする。
ここで、シーン特定部310は、実施の形態1に係るシーン特定部130の状況判定部136に代えて、状況判定部311を備える点で、シーン特定部130と異なるが、状況判定部311は、音声カテゴリ情報を撮影シーン判定部137へ送出する際に、分類情報生成部330にも送出する点以外は、実施の形態1に係る状況判定部136と同様の機能を有する。
分類情報記憶部320は、カテゴリ構成テーブル、グループテーブル、重要グループテーブルを記憶するためのメモリ領域である。各テーブルの内容については、後述する(図18参照)。
分類情報生成部330は、状況判定部311から受領した音声カテゴリ情報を順に蓄積し、画像処理部141から撮影指示がなされた旨の通知を受けた際に、デジタルカメラ300に連続して入力された所定数(例えば、10個とする)の単位時間長の音声データについての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、その音声カテゴリの信頼度(以下、「長時間音声信頼度」という)を算出する機能を有する。
分類情報生成部330は、算出した各音声カテゴリについての長時間音声信頼度(以下、「カテゴリ構成情報」という)をカテゴリ構成テーブル70に登録し、この登録したカテゴリ構成情報を、このカテゴリ構成情報を構成する音声カテゴリ毎の長時間音声信頼度に基づいて、グループテーブル80のいずれかのグループのメンバとして登録する機能を有する。
また、分類情報生成部330は、各グループを構成するメンバの数等に応じて、そのグループが重要なグループか否かを判定し、判定結果に応じて重要グループテーブル90に登録する機能を有する。なお、この判定方法は後述する(図19参照)。
<データ>
<カテゴリ構成テーブル>
図18(a)は、カテゴリ構成テーブル70のデータ構成及び内容例を示す図である。
カテゴリ構成テーブル70は、カテゴリ構成情報毎に、構成識別子71と、長時間音声信頼度72と、登録日時73とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。
ここで、構成識別子71は、対応するカテゴリ構成情報の識別情報であり、ここでは、各構成識別子が1からの連番になるように割り振られた場合を例示している。なお、各構成識別子は、撮影された画像データとも対応付けられ、画像データの検索の際に用いられることになる。
長時間音声信頼度72は、対応するカテゴリ構成情報を構成する各音声カテゴリについての長時間音声信頼度を示す情報であり、登録日時73は、カテゴリ構成情報が登録された日時を示す情報である。
同図は、例えば、構成識別子が「1」であるカテゴリ構成情報は、音声カテゴリ「屋内」についての長時間音声信頼度が「0.5」であり、音声カテゴリ「屋外」についての長時間音声信頼度が「0.3」であり、音声カテゴリ「水中」についての長時間音声信頼度が「0.15」であり、登録日時が「2008/3/1 10:10」であることを示している。
<グループテーブル>
図18(b)は、グループテーブル80のデータ構成及び内容例を示す図である。
グループテーブル80は、グループ毎に、グループ識別子81と、メンバ識別子82とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。なお、対応するグループ識別子とメンバ識別子とからなる情報(いわゆるレコード)は、このデジタルカメラ300の使用開始時においては、1件も登録されていないものとする。
ここで、グループ識別子81は、対応するグループの識別情報であり、他のグループ識別子と重複しない文字列である。ここでは、各グループ識別子が文字「G」と1からの連番となる数字との組合せで構成された文字列である場合を例示している。
また、メンバ識別子82は、対応するグループを構成するメンバであるカテゴリ構成情報の識別情報であり、上記カテゴリ構成テーブル70のいずれかの構成識別子と一致するものである。
同図は、例えば、グループ識別子が「G1」であるグループは、メンバ識別子が「1」、「51」、「100」・・・であるメンバ、つまり、カテゴリ構成テーブル70の構成識別子が「1」、「51」、「100」・・・であるカテゴリ構成情報から構成されることを示している。
<重要グループテーブル>
図18(c)は、重要グループテーブル90のデータ構成及び内容例を示す図である。
重要グループテーブル90は、重要グループ毎に、重要グループ識別子91と、メンバグループ識別子92とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。
ここで、重要グループ識別子91は、対応する重要グループの識別情報であり、他の重要グループ識別子と重複しない文字列である。
また、メンバグループ識別子92は、対応する重要グループを構成するメンバであるグループの識別情報であり、上記グループテーブル80のいずれかのグループ識別子と一致するものである。なお、デジタルカメラ300の使用開始時においては、メンバグループ識別子92には、いずれのグループ識別子も登録されていないものとする。
同図は、例えば、重要グループ識別子が「IG1」であるグループは、メンバグループ識別子が「G1」、「G3」、「G6」であるメンバ、つまり、グループテーブル80のグループ識別子が「G1」、「G3」、「G6」であるグループから構成されることを示している。
なお、同図に示す重要グループ識別子が「IG1」である重要グループと、重要グループ識別子が「IG2」である重要グループとの違いについては、後述する(図19参照)。
<動作>
以下、デジタルカメラ300の動作について説明する。
<分類情報生成処理>
図19は、分類情報生成部330による分類情報の生成処理を示すフローチャートである。
なお、この分類情報の生成処理とは別に、分類情報生成部330は、状況判定部311から音声カテゴリ情報を受領した際に、受領した音声カテゴリ情報を順に蓄積する処理を行っているものとする。
同図に示すように、分類情報生成部330は、画像処理部141から撮影指示がなされた旨の通知を受領すると(ステップS51)、直近に蓄積された音声カテゴリ情報と、その音声カテゴリに係る単位時間長の音声データDnの1つ前〜9つ前に処理した単位時間長の音声データDn−1〜Dn−9についての音声カテゴリ情報が蓄積されているか否かを判定する(ステップS52)。
該当の各音声カテゴリ情報が蓄積されていない場合には(ステップS52:NO)、分類情報生成部330は分類情報生成処理を終了し、該当の各音声カテゴリ情報が蓄積されている場合には(ステップS52:YES)、音声データDn〜Dn−9についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、長時間音声信頼度を算出する(ステップS53)。
ここで、各音声カテゴリについての長時間音声信頼度とは、音声データDn〜Dn−9についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。
分類情報生成部330は、構成識別子と生成した各音声カテゴリについての長時間音声信頼度と登録日時とからなるカテゴリ構成情報を分類情報記憶部320のカテゴリ構成テーブル70に登録する。なお、この構成識別子は、カテゴリ構成テーブル70に登録済みの各構成識別子のうち、最大の構成識別子に1を加えた値とし、登録日時は、図示しない計時部から随時得られる値(例えば、1分単位の時刻の値)を用いて得る。
続いて、分類情報生成部330は、グループテーブル80に登録されている各グループ識別子が示す全てのグループについて、以下説明するステップS55の処理が完了しているか否かを判定する(ステップS54)。
全てのグループについての処理が完了していない場合には(ステップS54:NO)、分類情報生成部330は、グループテーブル80において、未処理である1つのグループ(以下、「対象グループ」という)のメンバ識別子から最小の識別子を取得し、取得した識別子が示すカテゴリ構成情報の長時間音声信頼度をカテゴリ構成テーブル70から取得する。分類情報生成部330は、取得した各音声カテゴリについての長時間音声信頼度とステップS53で算出した各音声カテゴリについての長時間音声信頼度との一致度を算出し、算出した一致度が所定値(例えば、0.9)以上であるかを判定する(ステップS55)。
ここで、例えば、カテゴリ構成テーブル70から取得した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Lra1」、「Lrb1」、「Lrc1」、・・・であり、ステップS53で算出した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Lra2」、「Lrb2」、「Lrc2」、・・・である場合に、一致度は、以下のように算出できる。
算出した一致度が所定値未満の場合には(ステップS55:NO)、分類情報生成部330は、再びステップS54から処理し、ステップS54で、全てのグループについての処理が完了した場合には(ステップS54:YES)、ステップS53で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を、新たなグループに分類する(ステップS56)。即ち、このカテゴリ構成情報に含まれる構成識別子と新たに生成したグループ識別子とからなるレコードをグループテーブル80に登録し、分類情報生成処理を終了する。
一方、ステップS55で、算出した一致度が所定値以上の場合には(ステップS55:YES)、分類情報生成部330は、ステップS53で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を対象グループに分類する(ステップS57)。即ち、そのカテゴリ構成情報に含まれる構成識別子を、グループテーブル80の対象グループのメンバ識別子に追加する。
続いて、分類情報生成部330は、対象グループのメンバ識別子の数がN(例えば、10)以上であるか否かを判定し(ステップS58)、対象グループのメンバ識別子の数がN未満である場合には(ステップS58:NO)、分類情報生成処理を終了し、対象グループのメンバ識別子の数がN以上である場合には(ステップS58:YES)、対象グループのメンバである各カテゴリ構成情報の登録日時に周期性があるか否かを判定する(ステップS59)。
ここでの周期性とは、対象グループのメンバである各カテゴリ構成情報が、例えば、1日に1回、週に1回、月に1回といったように、定期的に登録されていることをいう。
この周期性があるかの判定は、一般的な周波数分析の手法により行うことができるため、ここでは詳細な説明は省略する。
ステップS59で、周期性がある場合には(ステップS59:YES)、分類情報生成部330は、対象グループを、重要グループ識別子が「IG1」である重要グループへ分類し(ステップS60)、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル90の重要グループ識別子が「IG1」であるメンバグループ識別子に追加する。
つまり、重要グループ識別子が「IG1」である重要グループには、メンバである各カテゴリ構成情報の数がN以上であり、その登録日時に周期性があるグループが属することになる。
対象グループの各カテゴリ構成情報の数がN以上であり、その登録日時に周期性があるということは、音声から共通した環境で行われたと判定できる撮影が、定期的に行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。
一方、ステップS59で、周期性がない場合には(ステップS59:NO)、分類情報生成部330は、対象グループのメンバ識別子の数がNより大きいM(例えば、50)以上であるか否かを判定する(ステップS61)。
対象グループのメンバ識別子の数がM未満である場合には(ステップS61:NO)、分類情報生成処理を終了し、対象グループのメンバ識別子の数がM以上である場合には(ステップS61:YES)、分類情報生成部330は、対象グループを、重要グループ識別子が「IG2」である重要グループへ分類し(ステップS62)、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル90の重要グループ識別子が「IG2」であるメンバグループ識別子に追加する。
つまり、重要グループ識別子が「IG2」である重要グループには、メンバである各カテゴリ構成情報の数がM以上であり、その登録日時に周期性がないグループが属することになる。
その登録日時に周期性はないものの、対象グループの各カテゴリ構成情報の数がM以上であるということは、音声から共通した環境で行われたと判定できる撮影が多数行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。
<検索例>
以下、上記分類情報の生成処理を通じて、生成された各テーブルの情報を用いてどのように検索が行われるのかを具体例を用いて説明する。
図20は、デジタルカメラ300におけるディスプレイ6の画面遷移を説明する図である。
なお、同図では、説明の簡略化のため、デジタルカメラ300のディスプレイ6のみを示し、デジタルカメラ300の筐体などの記載は省略している。
同図(a)では、重要グループテーブル90に登録されている各重要グループのうち、いずれかの重要グループを選択するための画面(以下、「重要グループ選択画面」という)の表示例を示している。
重要グループ選択画面には、「発生頻度が高いグループ」との文字が表示されたアイコン6eと、「周期性があるグループ」との文字が表示されたアイコン6fが表示されている。
この重要グループ選択画面において、ユーザが操作パネル8を操作し、例えば、アイコン6fを選択すると、デジタルカメラ300は、重要グループテーブル90の重要グループ識別子が「IG1」である重要グループのメンバグループ識別子「G1」、「G3」、「G6」を取得し、同図(b)の画面(以下、「グループ選択画面」という)をディスプレイ6に表示する。
なお、特に図示していないが、ユーザが操作パネル8を操作し、例えば、アイコン6eを選択すると、デジタルカメラ300は、重要グループテーブル90の重要グループ識別子が「IG2」である重要グループに含まれるグループの選択画面(同図(b)の画面と似た画面)をディスプレイ6に表示する。
グループ選択画面には、取得したメンバグループ識別子の数「3」に対応する数のアイコン6g、6h、6iが表示されており、つまり、このグループ選択画面の例では、「周期性があるグループ」に3つのグループが含まれることを示している。
なお、このグループ選択画面の例では、各アイコンに表示される文字として、メンバグループ識別子の数に応じて、「A」から「Z」までのアルファベットを用いる場合を想定している。
このグループ選択画面において、ユーザが操作パネル8を操作し、例えば、アイコン6gを選択すると、デジタルカメラ300は、グループテーブル80のグループ識別子が「G1」であるグループのメンバ識別子「1」、「51」、「100」、・・・を取得し、同図(c)の画面(以下、「サムネイル画面」という)をディスプレイ6に表示する。
サムネイル画面には、取得したメンバ識別子(構成識別子)が対応付けられた画像データのサムネイル画像6j〜6oが表示される。
サムネイル画面において、ユーザが操作パネル8を操作し、いずれかのサムネイル画像を選択すると、特に図示していないが、対応する画像データがディスプレイ6全体に表示されることになる。
<補足>
以上、本発明に係る撮像装置を、実施の形態1、変形例1、2、及び実施の形態2(以下、単に「実施の形態」ともいう)に基づいて説明したが、以下のように変形することも可能であり、本発明は上述した実施の形態で示した通りの撮像装置に限られないことは勿論である。
(1)実施の形態1及び変形例2で説明した方法で特定した撮影シーンを示す情報を、画像データと対応付けておき、この撮影シーンを示す情報を画像データの検索に用いるようにしてもよい。
例えば、ディスプレイ6に複数の撮影シーンそれぞれを示すアイコンを表示し、ユーザが操作パネル8を操作していずれかのアイコンを選択した場合には、選択された撮影シーンの情報が対応付けられた各画像データのサムネイル画像を表示する。
ユーザが操作パネル8を操作していずれかのサムネイル画像を選択した場合には、例えば、図21に示すように、選択されたサムネイル画像に対応する画像(この例では屋外の風景の画像)をディスプレイ6に表示する。また、同図では、表示された画像に重ねて、対応する撮影シーンを示すアイコン6d(この例では、撮影シーン「一般屋外」を示すアイコン)が表示された例を示している。
また、変形例2で説明したように、複数の撮影シーン候補の中から、ユーザが選択した撮影シーンに特定する場合には、選択されなかった他の撮影シーンの候補を示す情報も、画像データと対応付けておき、この撮影シーンの候補を示す情報を用いて画像データを検索できるようにしてもよいし、複数の撮影シーンの候補の組合せが同一である画像データを検索できるようにしてもよい。
(2)実施の形態では、予め定義された、例えば、屋内、屋外、水中等の音声カテゴリ(この項では、「統合カテゴリ」という)毎に、その統合カテゴリに分類するための各特徴量から構成されるモデル情報が存在するものとして説明した。しかしながら、例えば、屋内1、屋内2、屋内3、屋外1、屋外2、水中1、水中2、水中3等といった、細分化された音声カテゴリ(この項では、「詳細カテゴリ」という)毎に、モデル情報が存在するものとしてもよい。
例えば、詳細カテゴリ「屋内1」、「屋内2」、「屋内3」の各尤度が、「La1」、「La2」、「La3」であるとした場合に、統合カテゴリ「屋内」の尤度aは、「Wa11×La1+Wa12×La2+Wa13×La3」と算出できる。
ここで、Wa11、Wa12、Wa13は係数であり、合計が1になるように決定されたものである。その他の統合カテゴリの尤度についても同様に算出することができる。
(3)実施の形態1及び変形例1では、音声カテゴリ情報及び画像カテゴリ情報に基づき算出されたシーン信頼度に基づいて撮影シーンを特定するものとして説明したが、音声カテゴリ情報のみに基づいて算出したシーン信頼度に基づいて撮影シーンを特定してもよい。
また、シーン信頼度は、短時間信頼度及び長時間信頼度に基づいて算出するものとして説明したが、短時間信頼度及び長時間信頼度のいずれかをシーン信頼度としてもよい。
また、シーン信頼度は、短時間信頼度と長時間信頼度との平均値であるものとして説明したが、短時間信頼度と長時間信頼度とに重み付けをして算出するようにしてもよい。
また、短時間信頼度は2つの単位時間信頼度(つまり2秒分)に基づいて算出し、長時間信頼度は5つの単位時間信頼度(つまり5秒分)に基づいて算出するものとして説明したが、この2つ、5つという数はこれよりも多くても少なくてもよい。但し、短時間信頼度より長時間信頼度のほうが、算出に用いる単位時間信頼度の数が多くなるようにこの数を決定する必要がある。
(4)変形例2では、特定された撮影シーンに適した設定値に従って、各制御装置、画像処理部230が動作することを前提に、例えば、音声カテゴリ「人の声」が特定された場合には、周囲に人が存在すると推定できるため、人の顔を検出する処理を行い、検出されたときには、より適すように補正されたフォーカスや色強調等の設定値に従って、各制御装置、画像処理部230を動作させる例を説明した。
しかしながら、撮影シーンに適した設定値に従って、各制御装置、画像処理部230が動作することを前提にせず、特定された音声カテゴリに対応する設定値のみに従って、各制御装置、画像処理部230が動作するようにしてもよい。
その場合、図16に示す設定テーブル60の各設定値を構成する設定項目として、図6に示す設定テーブル30の各設定値の設定項目「フォーカス」、「シャッタ速度」、「色強調」、「フラッシュ」等を含めるようにしてもよい。
(5)変形例2では、音声特定部220が、音声カテゴリ情報を構成する各音声カテゴリについての相対信頼度に基づいて、1つの音声カテゴリを特定するものとして説明したが、各音声カテゴリについての尤度に基づいて1つの音声カテゴリを特定してもよい。
(6)実施の形態1では、図7のステップS3で、算出した各変化量のうち、少なくとも1つが対応する閾値より大きい場合には、否定的な判定(ステップS3:NO)を行うものとして説明した。しかしながら、算出した各変化量の全てが対応する閾値より大きい場合にのみ、否定的な判定を行うようにしてもよいし、ある特定の特徴についての変化量が閾値より大きい場合にのみ否定的な判定を行うようにしてもよい。
(7)実施の形態1の図9及び変形例1の図11のステップS26では固定の基準値(以下、「第1基準値」という)を用いるものとして説明したが、その第1基準値以上であるシーン信頼度の数が所定数未満である場合には、第1基準値よりも低く設定された第2基準値を用い、第1基準値以上であるシーン信頼度の数が所定数以上である場合には、第1基準値より高く設定された第3基準値を用いるようにしてもよい。
また、ステップS26で、基準値以上であったシーン信頼度の数が0の場合には(ステップS26:0)、最大であるシーン信頼度に係る撮影シーンに特定するようにしてもよい。
(8)実施の形態1の図9及び変形例1の図11では、ステップS28で、基準値以上であった各シーン信頼度のうち、最大であるシーン信頼度に係る撮影シーンに特定するものとして説明したが、他の基準で撮影シーンを特定してもよい。例えば、基準値以上であった各シーン信頼度のうち、基準値との差分が最大であるシーン信頼度に特定してもよい。
(9)変形例1で説明した処理(図11参照)は、図1に示すダイヤルボタン7が自動最適化モードに設定されている場合に実行されるものとして説明したが、ダイヤルボタン7がこの自動最適化モードとは別の特定のモードに設定されている場合に実行されるようにしてもよい。
また、図11では、ステップS26において、基準値以上であったシーン信頼度の数が0の場合(ステップS26:0)にのみ、ステップS30〜S32の処理を行うものとして説明したが、基準値以上であるシーン信頼度の数によらず、ステップS30〜32の処理を行うようにしてもよい。即ち、ステップS25の処理が完了すると、ステップS30〜32の処理を行うようにしてもよい。
(10)実施の形態において、ユーザによる選択操作は、操作パネル8を介して行われるものとして説明したが、ディスプレイ6をタッチパネルとし、このタッチパネルを介してユーザが操作できるようにしてもよい。
(11)変形例2では、例えば、音声カテゴリ「人の声」に特定された場合に、顔検出を行うものとして説明したが、特定された音声カテゴリによらず、顔検出処理(この項では、「第1顔検出処理」という)を行うようにし、特に、音声カテゴリ「人の声」に特定された場合には、上記通常の顔検出とは異なる処理を含む顔検出処理(この項では、「第2顔検出処理」という)を行うようにしてもよい。
この第2顔検出処理とは、例えば、正面を向いた顔だけでなく、横を向いた顔も検出する処理や、人が存在すると推定できているので、正面を向いた顔を検出する際に使用する閾値を下げた状態で顔検出処理を行うことが考えられる。なお、当然、横顔を検出するためには、対応するテンプレート画像が必要となる。
なお、ここでは、顔検出の場合を例に説明したが、その他の物体の検出処理についても同様に変形でき、更に、検出処理以外の処理についてもその処理の精度や処理内容の詳細化を行うように変形することができる。
(12)変形例1では、図13に示すように、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示するものとして説明したが、各アイコンの表示順はこれに限らず、例えば、シーン信頼度が大きい順に右から、上から、又は下から表示するようにしてもよい。また、アイコンを表示するのではなく、各撮影シーンの候補を表す文字列を並べたリスト形式で表示してもよい。また、アイコン表示又はリスト表示において、シーン信頼度の大きさに応じて、表示するアイコンのサイズや、文字のサイズを変更してもよい。
(13)実施の形態に係る変化量算出部132は、連続して入力された単位時間長の音声データに係る特徴量の差分を算出するものとして説明したが、これに限らず、例えば、一定時間内データ差分、分散、回帰式係数を用いるようにしてもよい。
ここで、一定時間内データ差分とは、最小データ単位をフレームとした場合のフレーム間差分を含み、ある基準時間から見て、2フレーム先のデータとの差分であったり、1〜nフレーム先の全差分の平均であるフラックスである。
また、分散とは、一定時間内のデータの一般的な標本分散や不偏分散として定義されている内容で算出されるものである。
また、回帰式係数とは、回帰分析手法として最小二乗法やロジスティック回帰手法等で算出されるモデル係数であり、そのモデル係数からモデルがどの程度変化しているかを判定する。
(14)実施の形態に係る状況判定部は、特定した音声カテゴリの変化が激しいか否かを、1以上の音声カテゴリを特定した際に、特定した各音声カテゴリの少なくも一部が、対象データDnの1つ前及び2つ前に処理した単位時間長の音声データDn−1、Dn−2について特定された1以上の音声カテゴリと重複するか否かによって判定する例を説明した。
しかしながら、特定した音声カテゴリの変化が激しいか否かを判定する方法は、この方法に限らず、例えば、音声カテゴリの変化率や重複度によって判定してもよい。
ここで、音声カテゴリの変化率とは、例えばT秒間のデータ枠内でのカテゴリ変化数をMとした場合、M/Tで算出されるものである。また、音声カテゴリの重複度は、1秒間毎に判定された尤度の高いカテゴリ数をC1とした場合、例えばT秒間で算出される平均値で算出されるものである。
(15)図1に示すスピーカ・マイクロフォン5は、撮影時において、外部の音等を精度よく集音できる位置に配置されていることが望ましく、同図に示す位置に限らず、例えば、デジタルカメラ100の前面や背面に配置されていてもよい。
また、例えば、デジタルカメラ100を中心とした、例えば半径数m以内の領域(以下、「近距離領域」という)で、人の会話音等の音が発生した場合には、比較的大きな音として、スピーカ・マイクロフォン5で集音されることになるので、上記近距離領域の外側(以下、「遠距離領域」という)で発生した音を、スピーカ・マイクロフォン5で集音できない可能性ある。この遠距離領域で発生した音のほうが、デジタルカメラ100の撮影環境をよく表していることもある。
そこで、例えば、スピーカ・マイクロフォン5以外に、指向性のある1以上のマイクロフォンを備えるようデジタルカメラ100を変形し、スピーカ・マイクロフォン5及び各マイクロフォンで集音した音のうち、変化量算出部132で、各変化量が所定値未満となる音を用いて撮影シーンを判定するようにしてもよい。
(16)実施の形態では、単位時間長(1秒)の音声データを単位として処理を行うこととして説明したが、この1秒は一例であり、これより長くても短くても良い。
また、判別しようとする撮影シーン毎や、判別しようとする音声カテゴリ毎に、この処理単位を変更してもよい。
(17)実施の形態では、撮影シーン毎に、各設定値を定義しておく例を説明したが、例えば、特徴量の閾値群毎に、各設定値を定義しておき、対象データから抽出された各特徴量が対応する閾値以上ならば、定義された設定値を各制御装置や画像処理部に設定するようなことも考えられる。この場合、対象データから抽出された各特徴量と各モデル情報とのマッチング処理も行う必要がない。なお、上記閾値は上限値と下限値とによる幅を持った値であってもよい。
(18)実施の形態では、カテゴリ判定部134によるマッチング処理には、機械学習手法である判別器が用いられるものとして説明したが、機械学習手法によらず、ある判別基準に従って、ある特徴量を持った信号が属する、ある定義された分類項目を判別することができる方法であればよい。例えば、パターンマッチング手法として、ベクトル相関を利用するものや、LPC(Linear Predictive Coding、線形予測符号)法、主成分分析、ニューラルネットワーク、遺伝的アルゴリズムやベイズ推定等を適応することが考えられる。
(19)実施の形態では、1つのセットからなる各モデル情報を用いるものとして説明したが、例えば、使用するセットを切り替えるようにしてもよい。例えば、GPS(Global Positioning System)によりデジタルカメラの位置を特定し、その位置で使用される言語等に応じた各モデルを含むセットを使用するようにしてもよい。
(20)実施の形態では、特徴量抽出部131が抽出する特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量であるものとして説明したが、1つの属性を成分として構成されるものであってもよい。
(21)実施の形態2では、カテゴリ構成テーブル70に登録日時を登録するものとして説明したが、カテゴリ構成テーブル70への登録日時の登録は行わないこととすると共に、この登録日時の代わりに、画像データが生成された日時(撮像日時)を取得するようにしてもよい。
(22)実施の形態において説明した各構成要素のうち、全部又は一部を1チップ又は複数チップの集積回路で実現してもよいし、コンピュータのプログラムで実現してもよいし、その他どのような形態で実現してもよい。
(23)実施の形態において説明した各処理(図7、8、9、11、15、19参照)をプロセッサに実行させるためのプログラムを、記録媒体に記録し又は各種通信路等を介して、流通させ頒布することもできる。このような記録媒体には、ICカード、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布されたプログラムは、機器におけるプロセッサで読み取り可能なメモリ等に格納されることにより利用に供され、そのプロセッサがそのプログラムを実行することにより実施の形態で示したデジタルカメラの各機能が実現される。
(24)実施の形態では、本発明に係る撮像装置の一実施形態としてのデジタルカメラについて説明したが、撮像機構を備える他の機器、例えば、携帯電話機や、デジタルビデオカメラであってもよいし、デジタルではない一眼レフカメラであってもよい。
但し、デジタルではない一眼レフカメラにおいては、実施の形態で説明した画像処理部による色補正等の画像処理は行われない。
また、実施の形態では、デジタルカメラの主要部の構成を説明したが、一般的なデジタルカメラが備える他の構成を備えてもよいのは勿論である。
例えば、カメラの状態や変化情報を検出するセンサや、データの入出力処理を行う入出力インタフェース手段や、各種アプリケーションプログラムを記憶したプログラムメモリや、ファイルDB(データベース)及び属性情報DB(データベース)や各種処理で生じたデータを格納するデータメモリや、各構成要素を制御するためのコントロール信号や各種機器相互間で授受されるデータ転送を行うためのデータバス等を有する構成としてもよい。
実施の形態では、特に詳しく説明しなかったが、上記ファイルDB、属性情報DBは、実施の形態で説明した記録メディアに記録される。
ここで、ファイルDBは、データ入力手段により入力された複数のファイルデータを登録したものである。ファイルデータとしては、例えば写真画像データや動画像データや音楽データが含まれる。
また、属性情報DBは、ファイルDBに格納されているデータの属性情報データを登録したものである。属性情報としては、例えば写真画像データ又は動画像データの撮像年月日を示す時間情報や撮像場所を示す場所情報が含まれる。
なお、上記記録メディアは、半導体メモリに限らず、例えばHDD(Hard Disk Drive)やDVD(Digital Versatile Disk)等の大容量メディアディスクで実現されてもよい。また、プログラムメモリも、これらの各種のストレージデバイスによって実現される。プログラムメモリに記憶された各種アプリケーションプログラムには、実施の形態で説明した各種処理を行うためのプログラムの他、デジタルカメラ全体の制御処理を行うためのプログラムが記憶され、実施の形態で説明したプロセッサやDSPがこれらのプログラムを実行されることにより、デジタルカメラ全体の制御を行う制御手段の機能が実現される。
(25)実施の形態に係るデジタルカメラに、上記(1)〜(24)の一部又は全部の変形を組み合わせて適用してもよい。
(26)以下、更に本発明の一実施形態に係る撮像装置の構成及びその変形例と各効果について説明する。
(a)本発明の一実施形態に係る撮像装置は、撮影機構と、撮影環境を反映した情報を含む音声データを取得する音声取得手段と、前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備えることを特徴とする。
上記構成を備える本発明の一実施形態に係る撮像装置によれば、撮影環境に由来する音声データに基づいて設定値を選定するため、例えばシャッタ速度、撮像素子の感度等の撮影機構の制御について、撮影している環境に適した制御が行われ得るようになる。
(b)また、前記撮像装置は、前記音声取得手段により取得された音声データから撮影環境を表す環境音声特徴量を抽出する抽出部を有し、複数の撮影シーンそれぞれと所定の関係性を有する各種の音声の特徴それぞれを定める各モデル情報を記憶し、各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて、1つの撮影シーンを特定するシーン特定手段を備え、前記設定手段は、複数の撮影シーンの各々と1又は複数の設定値とを対応付けた対応情報を記憶しており、前記シーン特定手段により特定された撮影シーンに前記対応情報により対応付けられた設定値を、前記撮影機構の制御用の設定値として選定することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、撮影環境を表す環境音特徴量と撮影シーンと関係付けられる各種のモデル情報との照合を行うことで、適切に撮影シーンが特定され得るので、撮影シーン毎に予め適切に設定値を定めておけば、撮影に適した制御が行われ得るようになる。
(c)また、前記抽出部は、前記音声データの特徴を示す特徴量を所定の単位時間毎に特定し、複数の単位時間にわたり特徴量の時間的変化が所定量より小さい当該複数の単位時間についての各特徴量を前記環境音声特徴量として抽出することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、特徴量の時間的変化が所定量以上となるような偶発的に生じた音の影響が除外されるので、適切に撮影シーンが特定され得る。
(d)また、前記音声データの特徴を示す特徴量は、音声パワー、ゼロクロス、スペクトル関連特徴量、ケプストラム関連特徴量及びクロマベクトルで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量であり、前記モデル情報は、前記音声データの特徴を示す特徴量との比較用に、前記ベクトル量の各成分についての値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、音声に係る複数の特徴成分が照合されるため、単一成分の照合と比べて適切に撮影シーンが特定される可能性が高まる。
(e)また、前記モデル情報は、前記ベクトル量の各成分についての値として平均値及び分散値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報毎の平均値に係るベクトル量と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々と、各モデル情報毎のベクトル量の分散値とに基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報は、音声に係る複数の特徴成分を有するサンプルの複数の集合を表し、その各サンプルの成分値の分散の度合いにも基づいて撮影シーンの特定がなされるため、適切に特定がされ得る。
(f)また、前記シーン特定手段は、前記環境音声特徴量を構成する複数の単位時間各々についての特徴量と、前記各モデル情報との双方のベクトル量についての一致の程度を示す尤度各々のうち、一のモデル情報に関して所定数の連続する単位時間についての尤度がいずれも所定値より大きいという条件を満たさない尤度を除外して残る尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、環境に由来する音声に係る特徴のうち瞬時のみのものを排除することにより、多くの場合において適切に撮影シーンの特定がなされ得る。
(g)また、前記撮像装置は、更に前記各モデル情報と前記撮影機構の制御用の設定値を補正するための処理と対応付けるための情報を記憶し、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度が所定値より大きいものとなったところのモデル情報を特定し、当該特定したモデル情報に対応する処理を実行する補正手段を備えることとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報が表す特定の特徴に関連して、設定値を補正することで、更に適切な撮影機構の制御を実現し得るようになる。
(h)また、前記各モデル情報は、複数のグループのいずれか1つに属し、前記シーン特定手段は、各モデル情報と係数とを対応付けて記憶し、各グループについて、当該グループに属する各モデル情報についての尤度及び係数に基づくグループ尤度を算出して、各グループ尤度に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、予め適切に係数を設定しておくことを前提として、一層適切に撮影機構の制御が行われ得る。
(i)また、前記撮像装置は、ユーザによる操作を受け付ける操作受付手段を備え、前記シーン特定手段は、前記各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて撮影シーンの複数の候補を選出し、選出した候補と、前記操作受付手段により受け付けられたユーザによる操作とに基づいて、候補のうちの1つを撮影シーンとして特定することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、撮影シーンの候補が適切に絞り込まれ得るので、ユーザは簡単な操作で撮影シーンを選ぶことができるようになる。
(j)また、前記撮影機構は、撮影により画像データを生成する画像データ生成手段を備え、前記設定手段は、前記音声データ及び前記画像データに基づいて、当該画像データの撮影後に用いるための前記撮影機構の制御用の設定値の前記選定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、音声のみならず画像にも基づいて設定値の選定が行われるため、撮影している環境に一層適した制御が行われ得る。
(27)本発明に係る撮影機構は、デジタルカメラ等の一般的な撮像装置において知られている撮影機構に相当し、例えば、実施の形態に係る撮影レンズ1、CCDやCMOS等の撮像素子を含む画像データ生成部140や、撮影レンズ1の駆動を制御する装置や、シャッタや、シャッタの駆動を制御する制御装置や、撮像素子の感度を制御する装置や、撮影した画像データに対する処理を施す画像処理部を含んでも良い。
また、本発明に係る音声取得手段は、実施の形態に係る音声取得部110に相当し、本発明に係る設定手段は、実施の形態に係る設定部120に相当し、本発明に係るシーン特定手段は、実施の形態に係るシーン特定部に相当し、本発明に係る補正手段は、実施の形態に係る音声特定部220及び画像処理部230に相当し、本発明に係る操作受付部は、実施の形態に係る操作パネル8に相当し、本発明に係る画像データ生成手段は、実施の形態に係る画像データ生成部140に相当する。
以下、本発明に係る撮像装置の一実施形態としてのデジタルスチルカメラ(以下、単に「デジタルカメラ」という)について、図面を参照しながら説明する。
≪実施の形態1≫
実施の形態1に係るデジタルカメラ100は、撮影環境(以下、「撮影シーン」ともいう)毎に、その撮影シーンに適した撮影機構制御用の複数の設定値を予め記憶しており、周囲の音声に基づいて撮影シーンを自動的に判定し、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定することで、ユーザの操作負担を軽減させつつ、綺麗な画像の生成に利用できるものである。
<装置構成>
まず、実施の形態1に係るデジタルカメラ100の装置構成について説明する。
図1(a)は、デジタルカメラ100の正面及び上面の外観を示す斜視図であり、(b)はデジタルカメラ100の背面及び上面の外観を示す斜視図である。
図1(a)に示すように、デジタルカメラ100の正面には、被写体からの光をCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子に結像させる撮影レンズ1と、撮影時に被写体に向けて光を発するストロボ発光機2と、被写体との距離や露光やデジタルカメラ100の回転方向等をセンシングするセンサ3とが配置されている。また、デジタルカメラ100の上面には、ユーザが半押しすることでフォーカスを合わせる指示を行うことが可能であり、全押しすることで撮影指示を行うことが可能なレリーズボタン4と、外部で生じている撮影環境を反映した音や、所定の音を出力することで生じた反響音を収集するためのスピーカ・マイクロフォン5とが配置されている。
また、図1(b)に示すように、デジタルカメラ100の背面には、撮影した画像や、各種情報を表示するディスプレイ6と、ユーザがデジタルカメラ100の動作モード(マニュアルモード、自動最適化モード、動画モード等)を指定するためのダイヤルボタン7と、ユーザ操作、例えば、各種設定の変更操作や撮影した画像の表示操作を受け付ける操作パネル8とが配置されている。なお、以下では、ダイヤルボタン7において、自動最適化モードが指定されている場合にのみ、デジタルカメラ100は、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定するものとする。
<機能構成>
次に、実施の形態1に係るデジタルカメラ100の機能構成について説明する。
図2は、デジタルカメラ100の主要部の機能構成を示すブロック図である。
デジタルカメラ100は、同図に示すように、音声取得部110、設定部120、シーン特定部130、画像データ生成部140、及び画像処理部141を備える。
なお、デジタルカメラ100は、DSP(Digital Signal Processor)、プロセッサ及びメモリを含んで構成されており、このメモリに記憶されているプログラムをDSP及びプロセッサが実行することにより設定部120、シーン特定部130、画像処理部141の機能が実現される。
ここで、音声取得部110は、スピーカ・マイクロフォン5及び図示しないA/D変換器を含んで構成され、スピーカ・マイクロフォン5によって収集した外部の音を電気信号に変換し、この電気信号をA/D変換器によりデジタル信号に変換することによって得られた音声データをシーン特定部130に送出する機能を有する。なお、ここでは、音声取得部110は、スピーカ・マイクロフォン5を含むとしたが、例えば、外部マイクから出力された電気信号をデジタルカメラ100に入力するための入力端子を含んでもよい。
設定部120は、撮影シーン毎に、その撮影シーンに適した撮影機構制御用の各設定値を登録したテーブル(以下、「設定テーブル」という)を保持しており、シーン特定部130で特定された撮影シーンに対応する各設定値を、各制御装置や画像処理部141に送出する機能を有する。なお、この設定テーブルの内容等については後述する(図6参照)。
ここで、各制御装置には、例えば、撮影レンズ1のピントを制御する装置や、シャッタ(不図示)の速度を制御する装置や、ストロボ発光機2の発光の有無を制御する装置等が含まれる。
シーン特定部130は、音声取得部110から受領した音声データの1以上の特徴についての値(以下、「特徴量」という)及び画像処理部141から受領した画像カテゴリ情報(後述する)に基づいて1つの撮影シーンを特定する機能を有する。
なお、ここでは、シーン特定部130は、音声データの各特徴量だけでなく、画像処理部141から受領した画像カテゴリ情報にも基づいて撮影シーンを特定することとしているが、音声データの各特徴量だけに基づいて撮影シーンを特定することもできる。即ち、図2において点線で示す画像データ生成部140及び画像処理部141は、本発明の特徴を実現する上で必須の機能構成要素ではない。
ここで、シーン特定部130の詳細な機能構成について、図3を用いて説明する。
図3は、シーン特定部130の機能構成を示すブロック図である。
同図に示すように、シーン特定部130は、特徴量抽出部131、変化量算出部132、基準記憶部133、カテゴリ判定部134、信頼度算出部135、状況判定部136、及び撮影シーン判定部137を含んで構成される。
なお、この実施の形態では、本発明に係る抽出部を、特徴量抽出部131と変化量算出部132とに分けて記載しているが、1つの機能部として構成するようにしてもよい。
以下では、シーン特定部130は、単位時間長(例えば1秒)の音声データを単位として処理を行うこととし、現在処理中の単位時間長の音声データのことを「対象データ」ともいう。
ここで、特徴量抽出部131は、音声取得部110から受領した対象データについて、1以上の特徴量を抽出し、変化量算出部132に送出する機能を有する。この特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量である。スペクトラム関連やケプストラム関連の特徴量としては、スペクトラムのロールオフ、MFCC(Mel Frequency Cepstrum Coefficient)等がある。その他にも、MPEG7(Moving Picture Experts Group Phase 7)の規格の中で、MPEG7−Audio Featuresとして記載されている複数の特徴がある。Lowレベルでの特徴量としては、Audio Power, Audio Spectrum Envelope, Audio Spectrum Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread等がある。なお、Hyoung−Gook Kim等著の「MPEG7 AUDIO AND BEYOND」(John Wiley & Sons Ltd, 2005)に詳細が記載されている。
変化量算出部132は、特徴量抽出部131から受領した各特徴量について、その特徴量に対応する1つ前に受領した特徴量に対する変化量を算出する機能を有する。
また、変化量算出部132は、特徴毎に閾値を保持しており、算出した各特徴量の変化量が各閾値以下である場合にのみ、特徴量抽出部131から受領した各特徴量をカテゴリ判定部134に送出する。
これは、変化量が大きい部分は、突発的に発生した音を表していると考えられ、変化量が大きい部分の各特徴量に基づいて撮影シーンを判定しても正しい判定ができない可能性があるためである。
基準記憶部133は、予め定義された音声カテゴリ(例えば、屋内、屋外、水中、乗り物、花火、パーティ、スポーツ、演奏会、運動会、博覧会等)毎に、その音声カテゴリに分類するための各特徴量から構成されるモデル情報を記憶するためのメモリ領域である。
なお、モデル情報は、ベクトル量の各成分についての値としての平均値と分散値とを示す情報を含むものとする。
カテゴリ判定部134は、変化量算出部132から送出された各特徴量と基準記憶部133に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す各尤度を算出する機能を有する。
マッチング処理には、例えば、機械学習手法である判別器が用いられる。一般的な判別器として、GMM(Gaussian Mixture Model)やSVM(Support Vector Machine)などが存在する。
各音声カテゴリについて、その音声カテゴリに対応する基準記憶部133に記憶されているモデル情報を順に判別器にセットし、特徴量抽出部131から送出された各特徴量とのマッチング処理を行い尤度を算出する。各音声カテゴリについての尤度は、その尤度の値が大きいほど、対象データがその音声カテゴリに分類されることの信頼度が高いことを意味し、以下では、0〜1の値を取るものとして説明する。
カテゴリ判定部134は、各音声カテゴリについて、その音声カテゴリを示す音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組を信頼度算出部135に送出する。以下、この各組を「音声尤度情報」という。
信頼度算出部135は、カテゴリ判定部134から送出された音声尤度情報に基づいて、各尤度について、その尤度の信頼度(以下、「相対信頼度」という)を算出する機能を有する。
ここで、例えば、ある対象データについてのある音声カテゴリAの尤度と別の音声カテゴリBの尤度とが同一の値であっても、音声カテゴリAと音声カテゴリBとのうち、分散値が小さいモデルに対応する音声カテゴリの尤度のほうが信頼性が高いといえる。
また、ある対象データαについての音声カテゴリAの尤度と、別の対象データβについての音声カテゴリAの尤度とが同一の値であっても、対象データαについての他の音声カテゴリBの尤度のほうが、対象データβについての他の音声カテゴリBの尤度よりも小さい場合には、対象データαについての音声カテゴリAの尤度のほうが、信頼性が高いといえる。これは、対象データαが音声カテゴリBに分類されることの信頼性がより低いからである。
そのため、信頼度算出部135は、各音声カテゴリに対応する各モデルの分散値、及び他のモデルの中心(つまり平均値)からの距離を考慮した各相対信頼度を算出する。
例えば、対象データについての3つの音声カテゴリA、B、Cの各尤度をa、b、cとし、各音声カテゴリに対応する各モデルの分散値をp、q、rとした場合に、音声カテゴリAについての相対信頼度Xaは次の数式で算出される。なお、音声カテゴリBについての相対信頼度Xb、及び音声カテゴリCについての相対信頼度Xcについても同様に算出することができるため、相対信頼度Xb、Xcを算出するための数式の記載は省略する。
相対信頼度Xaの値が大きいほど、尤度aの信頼度が高いことを意味する。
信頼度算出部135は、各音声カテゴリについて、その音声カテゴリについての音声カテゴリ識別子と尤度と相対信頼度とからなる組を状況判定部136に送出する。以下、この各組を「信頼度情報」という。
状況判定部136は、図4に示す音声カテゴリ基準テーブルを保持しており、この音声カテゴリ基準テーブルと、信頼度算出部135から受領した信頼度情報とに基づいて、対象データが属すると推定される1以上の音声カテゴリを特定する機能を有する。
後に詳細に説明するが、音声カテゴリ基準テーブルは、音声カテゴリ毎に、その音声カテゴリの尤度の下限値(以下、「尤度閾値」という)と相対信頼度の下限値(以下、「信頼度閾値」という)とを登録したテーブルである。
状況判定部136は、信頼度情報を構成する各音声カテゴリの組について、その組に含まれる尤度及び相対信頼度それぞれが、対応する音声カテゴリについての尤度閾値及び信頼度閾値以上であるとの条件を満たすかを判定し、条件を満たす各組に係る音声カテゴリを対象データが属すると推定される1以上の音声カテゴリと特定する。
また、状況判定部136は、1以上の音声カテゴリを特定した際に、その特定結果の妥当性を過去の特定結果から判定し、妥当な場合に、信頼度情報を構成する各音声カテゴリの組のうち、特定した音声カテゴリについての組に含まれる音声カテゴリ識別子と相対尤度とを含む情報(以下、「音声カテゴリ情報」という)を撮影シーン判定部137へ送出する。なお、この特定結果の妥当性の判定方法については、後述するが(図7参照)、特定した音声カテゴリに基づいて撮影シーンをより正確に判定するために、特定した音声カテゴリが頻繁に変化しているような場合には、その特定結果を撮影シーンの判定に用いない趣旨である。
撮影シーン判定部137は、状況判定部136から送出された音声カテゴリ情報と、画像処理部141から送出された画像カテゴリ情報と、図5に示すシーン対応テーブルとに基づいて、各撮影シーンについての信頼度(以下、「単位時間信頼度」という)を算出し、過去に算出した各撮影シーンについての単位時間信頼度を含む、複数の単位時間信頼度に基づいて、各撮影シーン(一般屋内、屋内パーティ、屋内演奏会、一般屋外、屋外花火、屋外スポーツ、屋外運動会、水中等)のうち1つの撮影シーンを特定する機能を有する。1つの撮影シーンを特定すると、撮影シーン判定部137は、特定した撮影シーンを示す情報(以下、「シーン識別子」という)を設定部120に送出する。
後に詳細に説明するが、シーン対応テーブルは、撮影シーン毎に、その撮影シーンと、各音声カテゴリ及び各画像カテゴリがどの程度関係するのかを示す重み付け値を登録したテーブルである。
再び図2を用いて、デジタルカメラ100の残りの各部について説明する。
画像データ生成部140は、撮影レンズ1、CCDやCMOS等の撮像素子、及びA/D変換器を含み、被写体から入射する光を撮影レンズ1によりCCD等に集光し、この光をCCD等で電気信号に変換し、この電気信号をA/D変換器によりデジタル信号に変換することによって、画像データ(例えば、640×480画素分の輝度データ群)を生成し、画像処理部141に送出する機能を有する。
画像処理部141は、シーン特定部130を構成する各部の一部と似た機能を有し、画像データ生成部140から受領した画像データの1以上の特徴についての値(特徴量)に基づいて、予め定義された画像カテゴリ毎(例えば、屋内、屋外、水中、花火等)の尤度及び相対信頼度を算出し、算出した尤度及び相対信頼度に基づいて、その画像データが属すると推定される1以上の画像カテゴリと特定する機能を有する。画像処理部141は、特定結果を示す画像カテゴリ情報を撮影シーン判定部137に送出する。
画像処理部141は、上記1以上の特徴量として、例えば、輝度成分や色差成分等を抽出し、抽出した特徴量を、例えば撮影シーンを判定するための色ヒストグラムや、オブジェクトを判定するためのSIFT(Scale−Invariant Feature Transform)等に代表される部分特徴量群(Bag of Features、以下、「BoF」という)に変換する。
また、画像処理部141は、特に図示していないが、予め定義された画像カテゴリ毎に、その画像カテゴリに分類するための特徴量からなるモデル情報を記憶しており、上記BoFと記憶している各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し、数1に示す数式に従って各尤度についての相対信頼度を算出する。
また、画像処理部141は、レリーズボタン4から撮影指示がなされた旨の通知を受け付けると、画像データ生成部140から受領した画像データに、設定部120から受領した設定値に応じた色補正等の画像処理を施し、記録メディアへ格納する機能を有する。
<データ>
以下、デジタルカメラ100において使用されるデータについて説明する。
<音声カテゴリ基準テーブル>
図4は、音声カテゴリ基準テーブル10のデータ構成及び内容例を示す図である。
音声カテゴリ基準テーブル10は、音声カテゴリ毎に、音声カテゴリ識別子11と、尤度閾値12と、信頼度閾値13とを対応付けたデータを登録したテーブルであり、状況判定部136が、対象データが属すると推定される1以上の音声カテゴリを特定する際に参照する。
なお、同図に示す「La」〜「Li」、「Ra」〜「Ri」は具体的な数値を示すものとして説明する。
ここで、音声カテゴリ識別子11は、対応する音声カテゴリの識別情報であり、ここでは、他の音声カテゴリ識別子と重複しない文字列を用いた例を示している。
尤度閾値12は、対応する音声カテゴリに対象データが属すると推定し得る、算出された尤度の下限値であり、信頼度閾値13は、対応する音声カテゴリに対象データが属すると推定し得る、算出された相対信頼度の下限値である。
同図は、例えば、音声カテゴリ識別子が「a0」である音声カテゴリ(つまり、屋内)に対象データが属すると推定されるための尤度閾値は「La」であり、信頼度閾値は「Ra」であることを示している。
<シーン対応テーブル>
図5は、シーン対応テーブル20のデータ構成及び内容例を示す図である。
シーン対応テーブル20は、撮影シーン毎に、シーン識別子21と、音声カテゴリ毎の重み付け値22と、画像カテゴリ毎の重み付け値23とを対応付けたデータを登録したテーブルであり、撮影シーン判定部137が単位時間信頼度を算出する際に参照する。
なお、同図における「Wa1」〜「Wn5」は、1以下の具体的な数値を示すものとして説明する。
ここで、シーン識別子21は、対応する撮影シーンの識別情報であり、ここでは、他のシーン識別子と重複しない文字列を用いた例を示している。
また、音声カテゴリ毎の重み付け値22は、対応する撮影シーンと各音声カテゴリとの関係の程度を表す値であり、画像カテゴリ毎の重み付け値23は、対応する撮影シーンと各画像カテゴリとの関係の程度を表す値であり、相互に対応する音声カテゴリ毎の重み付け値と画像カテゴリ毎の重み付け値との合計が1になるように決定されている。
同図は、例えば、シーン識別子が「S001」である撮影シーン(つまり、一般室内)についての音声カテゴリ毎の重み付け値は、屋内の重み付け値が「Wa1」であり、屋外の重み付け値が「Wb1」であり、水中の重み付け値が「Wc1」であり、画像カテゴリ毎の重み付け値は、乗り物の重み付け値が「Wl1」であり、花火の重み付け値が「Wm1」であり、パーティの重み付け値が「Wn1」であることを示している。
<設定テーブル>
図6は、設定テーブル30のデータ構成及び内容例を示す図である。
設定テーブル30は、撮影シーン毎に、シーン識別子31と、各設定値32とを対応付けたデータを登録したテーブルであり、設定部120が撮影シーンに対応する撮影機構制御用の設定値を取得する際に参照する。
ここで、シーン識別子31は、対応する撮影シーンの識別情報であり、上記シーン対応テーブル20のいずれかのシーン識別子と一致するものである。
また、各設定値32は、対応する撮影シーンに適した撮影機構制御用の設定値であり、フォーカス、シャッタ速度、ホワイトバランス、感度、色強調、フラッシュ等の設定項目についての設定値から構成される。なお、色強調欄における「×」は、特に、色強調を行わないことを示している。
同図は、例えば、シーン識別子が「S001」である撮影シーン(つまり、一般室内)に適した撮影機構制御用の各設定値は、フォーカスが「AF(Auto Focus)」であり、シャッタ速度が「1/60」秒であり、ホワイトバランスが、光源を「蛍光灯」とした場合の予め定義された値であり、CCD等の感度が「標準」であり、色強調は「×」(つまり、行わない)であり、フラッシュの有無が「オート」であることを示している。
<動作>
以下、デジタルカメラ100の動作について説明する。
<音声カテゴリ特定処理>
図7は、シーン特定部130による音声カテゴリの特定処理を示すフローチャートである。
この音声カテゴリの特定処理は、ユーザにより電源がONにされる等、デジタルカメラ100が撮影可能な状態となり、かつ、図1に示すダイヤルボタン7が自動最適化モードに設定されている場合に開始され、特に図示していないが、ユーザにより電源がOFFにされる等、デジタルカメラ100が撮影不可能な状態となったときに終了する。
図7に示すように、シーン特定部130の特徴量抽出部131は、音声取得部110を介して単位時間長の音声データ(対象データ)を取得すると(ステップS1)、各特徴量を抽出し(ステップS2)、変化量算出部132に抽出した各特徴量を送出する。
変化量算出部132は、特徴量抽出部131から受領した各特徴量について、その特徴量に対応する1つ前に受領した特徴量に対する変化量を算出し、算出した各変化量それぞれが対応する閾値以下であるか否かを判定する(ステップS3)。
算出した各変化量のうち、少なくとも1つが対応する閾値より大きい場合には(ステップS3:NO)、シーン特定部130は、再びステップS1から処理を行い、算出した各変化量それぞれが対応する閾値以下である場合には(ステップS3:YES)、変化量算出部132は、特徴量抽出部131から受領した各特徴量をカテゴリ判定部134に送出する。
なお、デジタルカメラ100が撮影可能な状態になった直後に特徴量抽出部131から各特徴量を受領した場合には、変化量算出部132は、肯定的な判定(ステップS3:YES)を行うものとする。
また、カテゴリ判定部134は、変化量算出部132から受領した各特徴量と、基準記憶部133に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し(ステップS4)、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組(音声尤度情報)を信頼度算出部135に送出する。
信頼度算出部135は、カテゴリ判定部134から受領した音声尤度情報に含まれる各尤度に基づいて、数1に示す数式に従って各相対信頼度を算出し(ステップS5)、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度と相対信頼度とからなる組(信頼度情報)を状況判定部136に送出する。
状況判定部136は、音声カテゴリ基準テーブル10及び信頼度算出部135から受領した信頼度情報に基づいて、対象データが属すると推定される1以上の音声カテゴリを特定する(ステップS6)。より詳細には、各音声カテゴリについて、その音声カテゴリについての尤度閾値と信頼度閾値とを音声カテゴリ基準テーブル10から取得し、カテゴリ判定部134から受領した信頼度情報からその音声カテゴリについての尤度と相対信頼度とを取得し、尤度が尤度閾値以上であり、かつ相対信頼度が信頼度閾値以上である場合に、その音声カテゴリを対象データが属すると推定される音声カテゴリと特定する。
例えば、図4に示す音声カテゴリ基準テーブル10の例では、信頼度情報を構成する、音声カテゴリが「a0」である組に含まれる尤度が「La」以上であり、かつその組に含まれる相対信頼度が「Ra」以上である場合に、「屋内」をその対象データが属すると推定される音声カテゴリと特定する。
また、状況判定部136は、ステップS6で特定した結果が妥当か否かを、特定した各音声カテゴリの少なくも一部が、対象データDnの1つ前及び2つ前に処理した単位時間長の音声データDn−1、Dn−2について特定された1以上の音声カテゴリと重複するか否かによって判定する(ステップS7)。
具体的には、ステップS6で特定した各音声カテゴリの少なくも一部が、音声データDn−1について特定された1以上の音声カテゴリにも、音声データDn−2について特定された1以上の音声カテゴリにも含まれている場合にのみ肯定的な判定(ステップS7:YES)を行う。
例えば、ステップS6で特定された音声カテゴリが「屋内」と「パーティ」であるとした場合に、音声データDn−1、Dn−2について特定された1以上の音声カテゴリそれぞれに「屋内」が含まれているか、或いは音声データDn−1、Dn−2について特定された1以上の音声カテゴリそれぞれに「パーティ」が含まれているときには、肯定的な判定(ステップS7:YES)を行う。
ステップS7で、否定的な判定を行った場合には(ステップS7:NO)、シーン特定部130は、再びステップS1から処理を行い、肯定的な判定を行った場合には(ステップS7:YES)、状況判定部136は、音声カテゴリ情報を、撮影シーン判定部137へ送出し(ステップS8)、シーン特定部130は、再びステップS1から処理を行う。
ここで、音声カテゴリ情報は、音声カテゴリ毎に、音声カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップS6で特定された音声カテゴリについては、信頼度算出部135から受領した信頼度情報に含まれていたその音声カテゴリについての相対信頼度を、ステップS6で特定されなかった音声カテゴリについては「0」を対応付けたものである。
<画像カテゴリ特定処理>
図8は、画像処理部141による画像カテゴリの特定処理を示すフローチャートである。
この画像カテゴリの特定処理の流れは、図7を用いて説明した音声カテゴリの特定処理の流れとよく似たものであるため、ここでは、簡単に説明する。
また、この画像カテゴリの特定処理も音声カテゴリの特定処理と同様にデジタルカメラ100が撮影可能な状態で、かつダイヤルボタン7が自動最適化モードに設定されている場合に開始され、デジタルカメラ100が撮影不可能な状態となったときに終了する。
図8に示すように、画像処理部141は、画像データ生成部140から画像データを取得すると(ステップS11)、各特徴量を抽出し(ステップS12)、抽出した各特徴量を変換したBoFと各画像カテゴリについてのモデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出する(ステップS14)。
また、画像処理部141は、算出した各尤度に基づいて、数1に示す数式に従って各相対信頼度を算出し(ステップS15)、各画像カテゴリ毎の尤度と信頼度情報との組に基づいて、画像データが属すると推定される1以上の画像カテゴリを特定する(ステップS16)。
特に説明していなかったが、画像処理部141は、画像カテゴリ毎に、尤度閾値と信頼度閾値とを登録した、音声カテゴリ基準テーブル10のデータ構成とよく似たデータ構成のテーブルを保持しており、上記状況判定部136と同様に、各画像カテゴリの組について、その組の尤度が、その画像カテゴリの尤度閾値以上であり、かつその組の相対信頼度が、その画像カテゴリの信頼度閾値以上である場合に、その画像カテゴリを、画像データが属すると推定される画像カテゴリと特定する。
画像処理部141は、画像カテゴリ情報を撮影シーン判定部137へ送出し(ステップS18)、画像処理部141は、再びステップS11から処理を行う。
ここで、画像カテゴリ情報は、画像カテゴリ毎に、画像カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップS16で特定された画像カテゴリについては、ステップS15で算出したその画像カテゴリについての相対信頼度を、ステップS16で特定されなかった画像カテゴリについては「0」を対応付けたものである。
<撮影シーン判定処理>
図9は、撮影シーン判定部137による撮影シーンの判定処理を示すフローチャートである。
同図に示すように、シーン特定部130の撮影シーン判定部137は、音声カテゴリ情報を状況判定部136から受領し、画像カテゴリ情報を画像処理部141から受領すると(ステップS21)、シーン対応テーブル20を用いて、撮影シーン毎の単位時間信頼度を算出し(ステップS22)、算出した各撮影シーンについての単位時間信頼度を蓄積する。
より詳細には、撮影シーン毎に、音声カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル20の対応する音声カテゴリの重み付け値を掛けた値を合計し、画像カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル20の対応する画像カテゴリの重み付け値を掛けた値を合計し、各合計の和を取ったものを単位時間信頼度とする。
例えば、音声カテゴリ情報に含まれる音声カテゴリ「屋内」、「屋外」、「水中」、・・・の相対信頼度が「Xa1」、「Xb1」、「Xc1」、・・・であり、画像カテゴリ情報に含まれる画像カテゴリ「乗り物」、「花火」、「パーティ」、・・・の相対信頼度が「Xl1」、「Xm1」、「Xn1」、・・・であるとした場合に、図5のシーン対応テーブル20の例では、撮影シーン「一般室内」の単位時間信頼度は、「wa1×Xa1+wb1×Xb1+wc1×Xc1+・・・+wl1×Xl1+wm1×Xm1+wn1×Xn1+・・・」と算出できる。
撮影シーン判定部137は、対象データDnの1つ前〜4つ前に処理した単位時間長の音声データDn−1〜Dn−4について算出した各撮影シーンについての単位時間信頼度が蓄積されているか否かを判定する(ステップS23)。
なお、図7のステップS3やステップS7の判定処理で否定的な判定がなされた場合には、そのときに処理対象であった音声データについての音声カテゴリ情報を状況判定部136から受領していないため、その音声カテゴリ情報に基づく単位時間信頼度は蓄積されていないことになる。
該当の各撮影シーンについての単位時間信頼度が蓄積されていない場合には(ステップS23:NO)、シーン特定部130は再びステップS21から処理を行い、該当の各撮影シーンについての単位時間信頼度が蓄積されている場合には(ステップS23:YES)、音声データDn〜Dn−4について算出した各撮影シーンについての単位時間信頼度に基づいて、各撮影シーンについての短時間信頼度及び長時間信頼度を算出する(ステップS24)。
ここで、各撮影シーンについての短時間信頼度は、音声データDnとDn−1について算出されたその撮影シーンの単位時間信頼度の平均値であり、各撮影シーンについての長時間信頼度は、音声データDn〜Dn−4について算出されたその撮影シーンの単位時間信頼度の平均値である。
例えば、音声データDn〜Dn−4について算出された撮影シーン「一般室内」の単位時間信頼度が「Sa0」〜「Sa4」であるとした場合に、撮影シーン「一般室内」の短時間信頼度は「(Sa0+Sa1)÷2」と算出でき、長時間信頼度は「(Sa0+Sa1+Sa2+Sa3+Sa4)÷5」と算出できる。
続いて、撮影シーン判定部137は、撮影シーン毎に、その撮影シーンの短時間信頼度と長時間信頼度の平均値(以下、「シーン信頼度」という)を算出する(ステップS25)。
撮影シーン判定部137は、算出された各撮影シーンについてのシーン信頼度について、そのシーン信頼度が、その撮影シーンについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であったシーン信頼度の数を判定する(ステップS26)。
基準値以上であったシーン信頼度の数が0の場合には(ステップS26:0)、特に何も行わず、撮影シーン判定部137は、再びステップS21から処理を行い、基準値以上であったシーン信頼度の数が1の場合には(ステップS26:1)、撮影シーン判定部137は、その基準値以上であったシーン信頼度に係る撮影シーンに特定し(ステップS27)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。
シーン識別子を受領した設定部120は、受領したシーン識別子に対応する各設定値を設定テーブル30から取得し、対応する制御装置、画像処理部141に設定値を送出する。この結果、各制御装置、画像処理部141は受領した設定値に応じた処理を行う。
また、基準値以上であったシーン信頼度の数が2以上の場合には(ステップS26:2以上)、シーン信頼度が最大であるシーン信頼度に係る撮影シーンに特定し(ステップS28)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。以降の設定部120、各制御装置、画像処理部141の処理は上記ステップS27の場合と同様である。
<具体例>
以下では、上記ステップS26以降の処理を具体例を用いて説明する。
図10は、各撮影シーンについての基準値と、撮影シーン判定部137が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。
同図に示す例では、算出されたシーン信頼度42のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが「一般室内」のみであるため(ステップS26:1)、撮影シーン判定部137は撮影シーンが「一般室内」であると特定し(ステップS27)、一般室内のシーン識別子(S001)を設定部120へ送出することになる。
このシーン識別子(S001)を受領した設定部120は、図6の設定テーブル30の例では、フォーカス「AF」、シャッタ速度「1/60」、ホワイトバランス「蛍光灯」、色強調「×」、フラッシュ「オート」といった各設定値を取得する。
設定部120は、フォーカス「AF」、シャッタ速度「1/60」、フラッシュ「オート」といった設定値を、対応する制御装置に送出し、ホワイトバランス「蛍光灯」、色強調「×」といった設定値を画像処理部141へ送出し、各制御装置、画像処理部141では受領した設定値に応じた処理が行われることになる。
≪変形例1≫
実施の形態1では、自動的に1つの撮影シーンを特定し、特定した撮影シーンに対応する各設定値を設定する例を説明したが、以下では、撮影シーンの候補をユーザに提示し、ユーザから選択された撮影シーンに対応する各設定値を設定するようにした一変形例を説明する。
これにより、ユーザは、簡単な操作で撮影シーンに適した各設定値での撮影が可能になる。また、ユーザが撮影シーンの最終的な決定を行うので、より綺麗な画像の生成に利用できるものである。
変形例1に係るデジタルカメラ(以下、「変形デジタルカメラ」という)は、上述の実施の形態1に係るデジタルカメラ100の撮影シーン判定部137の機能を若干変更したものであるため、デジタルカメラ100からの変更部分を中心に説明する。
以下、この変形デジタルカメラにおける撮影シーン判定部を「変形シーン判定部」という。
<動作>
以下、変形デジタルカメラの動作を説明する。
<撮影シーン判定処理>
図11は、変形シーン判定部による撮影シーンの判定処理を示すフローチャートである。
同図におけるステップS21〜S28の処理は、実施の形態1に係る撮影シーン判定部137の処理(図9参照)と同様であるため、以下では、ステップS30〜S32の処理を説明する。
ステップS26において、基準値以上であったシーン信頼度の数が0の場合に(ステップS26:0)、変形シーン判定部は、シーン信頼度が0より大きい各撮影シーンを候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示する(ステップS30)。
変形シーン判定部は、操作パネル8を介して、いずれかの撮影シーンの候補を選択する操作がなされたか否かを判定し(ステップS31)、選択されていない場合には(ステップS31:NO)、再びステップS31の処理を行い、選択された場合には(ステップS31:YES)、選択された撮影シーンに特定し(ステップS32)、特定した撮影シーンのシーン識別子を設定部120へ送出し、再びステップS21から処理を行う。
シーン識別子を受領した設定部120は、ステップS27、S28で説明したのと同様に、設定テーブル30から取得した各設定値を各制御装置、画像処理部141に送出し、各制御装置、画像処理部141は受領した設定値に応じた処理を行う。
<具体例>
以下では、上記ステップS26以降の処理を具体例を用いて説明する。
図12は、各撮影シーンについての基準値と、変形シーン判定部が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。
図13は、各撮影シーンの候補を表すアイコンの表示例を示す図である。
図12に示す例では、算出されたシーン信頼度52のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが存在しないため(図11のステップS26:0)、変形シーン判定部は、シーン信頼度が0より大きい各撮影シーン「一般室内」、「屋内パーティ」、「一般屋外」を候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示する(ステップS30)。
この例では、図13に示すように、シーン信頼度が大きい順に左から、撮影シーンの候補「一般室内」を表すアイコン6a、撮影シーンの候補「屋内パーティ」を表すアイコン6b、撮影シーンの候補「一般屋外」を表すアイコン6cが表示されることになる。
この例で、例えばユーザが、操作パネル8を操作し、撮影シーン「一般室内」を選択したとすると(ステップS31:YES)、変形シーン判定部は、「一般室内」に撮影シーンを特定し、一般室内のシーン識別子(S001)を設定部120へ送出することになる。
以降は、実施の形態1で説明したのと同様に、設定部120が設定テーブル30から取得した各設定値を対応する制御装置、画像処理部141に送出し、各制御装置、画像処理部141では、受領した設定値に応じた処理が行われることになる。
≪変形例2≫
実施の形態1では、周囲の音声に基づいて撮影シーンを判定し、判定した撮影シーンに適した撮影機構制御用の各設定値を自動的に設定する方法を説明した。以下では、これに加え、周囲の音声に基づいて、検出対象(人の顔、人工物等)を特定し、特定した検出対象が画像データから検出できた場合に、補正された撮影機構制御用の各設定値を自動的に設定するようにした一変形例を説明する。
なお、以下では、上述の実施の形態1に係るデジタルカメラ100からの変更部分を中心に説明する。
<機能構成>
まず、変形例2に係るデジタルカメラ200の機能構成について説明する。
図14は、デジタルカメラ200の主要部の機能構成を示すブロック図である。
同図に示すように、デジタルカメラ200は、実施の形態1に係るデジタルカメラ100のシーン特定部130、画像処理部141に代えて、シーン特定部210、画像処理部230を備え、更に音声特定部220を備えるものである。
ここで、シーン特定部210は、実施の形態1に係るシーン特定部130の状況判定部136に代えて、状況判定部211を備える点で、シーン特定部130と異なる。
なお、この変形例では、音声カテゴリに「人の声」、「動物の鳴き声」、「電車」、「風」等(以下、「新たな音声カテゴリ」ともいう)を含むものとし、基準記憶部133は、新たな音声カテゴリに対応する各モデル情報を保持し、また、実施の形態1で説明した各種テーブルにおいても新たな音声カテゴリに対応する値が登録されているものとする。
また、撮影シーン判定部137は、一旦撮影シーンを特定し、特定した撮影シーンのシーン識別子を設定部120へ送出すると、次に撮影シーンを特定した際には、その特定した撮影シーンが前回特定した撮影シーンと異ならない限り、設定部120へのシーン識別子の送出は行わないものとする。これは、後述するように、画像処理部230がより最適になるように補正された各設定値を各制御装置に送出し、各制御装置及び画像処理部230では、その補正された設定値に基づいた処理が行われている可能性があるためである。
状況判定部211は、実施の形態1に係る状況判定部136と同様の機能を有するが、音声カテゴリ情報を撮影シーン判定部137へ送出する際に、音声特定部220にも送出する点で、状況判定部136とは異なる。
また、音声特定部220は、状況判定部211から受領した音声カテゴリ情報と、過去の音声カテゴリ情報とに基づいて、各音声カテゴリ(例えば、屋内、屋外、人の声、動物の鳴き声、電車、風等)のうち、1つの音声カテゴリを特定し、特定された音声カテゴリの音声カテゴリ識別子を画像処理部230に送出する機能を有する。
また、画像処理部230は、実施の形態1に係る画像処理部141の機能に加え、音声特定部220から受領した音声カテゴリ識別子が示す音声カテゴリと予め対応付けられた処理(以下、「対応処理」という)を実行する機能を有する。
ここで、対応処理とは、例えば、人の顔、動物の身体、机や椅子等の人工物、ビル等の建物等の物体検出処理や、動き検出処理や、ブレ補正処理等が一例として挙げられる。
<動作>
以下、デジタルカメラ200の動作について説明する。
<音声カテゴリ特定処理>
図15は、音声特定部220による音声カテゴリの特定処理を示すフローチャートである。
同図に示すように、音声特定部220は、音声カテゴリ情報を状況判定部211から受領すると(ステップS41)、この音声カテゴリ情報を蓄積し、対象データDnの1つ前〜4つ前に処理した単位時間長の音声データDn−1〜Dn−4についての音声カテゴリ情報が蓄積されているか否かを判定する(ステップS43)。
該当の各音声カテゴリ情報が蓄積されていない場合には(ステップS43:NO)、音声特定部220は再びステップS41から処理を行い、該当の各音声カテゴリ情報が蓄積されている場合には(ステップS43:YES)、音声データDn〜Dn−4についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、短時間音声信頼度と、含有率と、パワーレベルとを算出する(ステップS44)。
ここで、各音声カテゴリについての短時間音声信頼度とは、音声データDnとDn−1についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。
また、各音声カテゴリについての含有率とは、音声データDn〜Dn−4についての各音声カテゴリ情報に含まれる、その音声カテゴリについての0より大きい相対信頼度の数の割合である。例えば、音声データDn〜Dn−4についての各音声カテゴリ情報に含まれる、音声カテゴリ「人の声」についての相対信頼度が、「0.5」、「0.4」、「0.3」、「0.2」、「0」であるとした場合に、0より大きい相対信頼度の数は「4」であり、含有率は「0.8」と算出できる。
また、各音声カテゴリについてのパワーレベルとは、音声データDn〜Dn−4のうち、その音声カテゴリについての0より大きい相対信頼度が含まれている部分の音声パワーの平均値(0〜1の値を取るよう正規化した値)である。なお、これまで特に説明していなかったが、この各音声カテゴリについてのパワーレベルを算出するために、音声特定部220は、カテゴリ判定部134から音声パワーについての特徴量を受領しているものとする。
音声特定部220は、音声カテゴリ毎に、その音声カテゴリの短時間音声信頼度と、含有率と、パワーレベルとの平均値(以下、「音声カテゴリ信頼度」という)を算出する(ステップS45)。
音声特定部220は、算出した各音声カテゴリについての音声カテゴリ信頼度について、その音声カテゴリ信頼度が、その音声カテゴリについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であった音声カテゴリ信頼度の数を判定する(ステップS46)。
基準値以上であった音声カテゴリ信頼度の数が0の場合には(ステップS46:0)、特に何も行わず、音声特定部220は、再びステップS41から処理を行い、基準値以上であった音声カテゴリ信頼度の数が1の場合には(ステップS46:1)、音声特定部220は、その基準値以上であった音声カテゴリ信頼度に係る音声カテゴリに特定し(ステップS47)、特定した音声カテゴリの音声カテゴリ識別子を画像処理部230へ送出し、再びステップS41から処理を行う。
音声カテゴリ識別子を受領した画像処理部230は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。例えば、音声特定部220が音声カテゴリ「人の声」に特定した場合には、画像処理部230は対応処理として人の顔を検出する処理を行い、検出された場合には、例えば、検出された顔部分に合わせてフォーカスを行うための設定値等を対応する制御装置へ送出すると共に、撮影された画像に対して行う画像処理の内容を、例えば、肌色を強調するように変更する。
なお、画像処理部230は、顔検出のためのテンプレート画像を保持しており、そのテンプレート画像と、画像データ生成部140から受領した画像データとをマッチング処理することで、顔検出を行う。
また、基準値以上であった音声カテゴリ信頼度の数が2以上の場合には(ステップS46:2以上)、最大である音声カテゴリ信頼度に係る音声カテゴリに特定し(ステップS48)、上記ステップS47と同様に、特定した音声カテゴリの音声カテゴリ識別子を画像処理部230へ送出し、再びステップS41から処理を行う。音声カテゴリ識別子を受領した画像処理部230は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。
なお、上記では、音声特定部220が音声カテゴリ「人の声」に特定した場合を例に、画像処理部230は、対応処理として顔検出を行う例を説明したが、例えば、音声特定部220が音声カテゴリ「屋内」に特定した場合には、対応処理として、机や椅子といった人工物を検出する処理や、輝度等の情報に基づいて、蛍光灯色(暖色系、寒色系等)を判定する処理を行い、判定結果に基づいてフォーカス等の設定値を対応する制御装置へ送出すると共に、撮影された画像に行う色補正処理の内容(例えばホワイトバランスの設定値)を変更するようにしてもよい。
また、例えば、音声特定部220が音声カテゴリ「屋外」に特定した場合には、対応処理として、山等の自然や大きな建物を検出する処理や、動き検出を行い、検出結果に応じて、フォーカス等の設定値を対応する制御装置に送出すると共に、撮影された画像に行う色補正処理の内容(例えば、強調色の設定値)を変更するようにしてもよい。
また、例えば、図16に示すように、音声カテゴリ毎に、近距離範囲、中距離範囲、遠距離範囲といった被写体との距離に関する設定値を含む各設定値を登録した設定テーブル60を画像処理部230が保持するようにし、特定された音声カテゴリに応じて補正された撮影機構制御用の各設定値を、各制御装置に送出すると共に、設定値に応じた画像処理(この例では、ホワイトバランスの調整処理)を行うようにしてもよい。
また、例えば、音声特定部220が音声カテゴリ「風」に特定した場合に、対応処理としてブレ補正をするようにしてもよい。更に、この際、パワーレベル等に基づいて、どの程度の風が吹いているのかを判定するように変形し、風の影響を加味した上でデジタルカメラ200のブレ補正量をセンサ3からの情報に基づいて算出して補正することや、植物等の被写体の揺れも検出するようにすることで、デジタルカメラ200の揺れと被写体の揺れを同時に補正するようにしてもよい。
また、音声特定部220が音声カテゴリ「電車」等の乗り物に特定した場合にも、対応処理としてブレ補正をするようにしてもよい。この際、パワーレベル等に基づいて、その乗り物の揺れの程度を判定するようにし、揺れの影響を考慮したブレ補正を行うようにしてもよい。
≪実施の形態2≫
実施の形態2では、実施の形態1で説明した音声カテゴリ情報を用いて、撮影された画像データを分類し、画像データの検索に利用できるようにした例を説明する。
<機能構成>
まず、実施の形態2に係るデジタルカメラ300の機能構成について説明する。
図17は、デジタルカメラ300の主要部の機能構成を示すブロック図である。
同図に示すように、デジタルカメラ300は、実施の形態1に係るデジタルカメラ100のシーン特定部130に代えて、シーン特定部310を備え、更に分類情報記憶部320、分類情報生成部330を備えるものである。
なお、この実施の形態では、画像処理部141は、レリーズボタン4から撮影指示がなされた旨の通知を受け付けると、分類情報生成部330にその旨を通知するものとする。
ここで、シーン特定部310は、実施の形態1に係るシーン特定部130の状況判定部136に代えて、状況判定部311を備える点で、シーン特定部130と異なるが、状況判定部311は、音声カテゴリ情報を撮影シーン判定部137へ送出する際に、分類情報生成部330にも送出する点以外は、実施の形態1に係る状況判定部136と同様の機能を有する。
分類情報記憶部320は、カテゴリ構成テーブル、グループテーブル、重要グループテーブルを記憶するためのメモリ領域である。各テーブルの内容については、後述する(図18参照)。
分類情報生成部330は、状況判定部311から受領した音声カテゴリ情報を順に蓄積し、画像処理部141から撮影指示がなされた旨の通知を受けた際に、デジタルカメラ300に連続して入力された所定数(例えば、10個とする)の単位時間長の音声データについての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、その音声カテゴリの信頼度(以下、「長時間音声信頼度」という)を算出する機能を有する。
分類情報生成部330は、算出した各音声カテゴリについての長時間音声信頼度(以下、「カテゴリ構成情報」という)をカテゴリ構成テーブル70に登録し、この登録したカテゴリ構成情報を、このカテゴリ構成情報を構成する音声カテゴリ毎の長時間音声信頼度に基づいて、グループテーブル80のいずれかのグループのメンバとして登録する機能を有する。
また、分類情報生成部330は、各グループを構成するメンバの数等に応じて、そのグループが重要なグループか否かを判定し、判定結果に応じて重要グループテーブル90に登録する機能を有する。なお、この判定方法は後述する(図19参照)。
<データ>
<カテゴリ構成テーブル>
図18(a)は、カテゴリ構成テーブル70のデータ構成及び内容例を示す図である。
カテゴリ構成テーブル70は、カテゴリ構成情報毎に、構成識別子71と、長時間音声信頼度72と、登録日時73とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。
ここで、構成識別子71は、対応するカテゴリ構成情報の識別情報であり、ここでは、各構成識別子が1からの連番になるように割り振られた場合を例示している。なお、各構成識別子は、撮影された画像データとも対応付けられ、画像データの検索の際に用いられることになる。
長時間音声信頼度72は、対応するカテゴリ構成情報を構成する各音声カテゴリについての長時間音声信頼度を示す情報であり、登録日時73は、カテゴリ構成情報が登録された日時を示す情報である。
同図は、例えば、構成識別子が「1」であるカテゴリ構成情報は、音声カテゴリ「屋内」についての長時間音声信頼度が「0.5」であり、音声カテゴリ「屋外」についての長時間音声信頼度が「0.3」であり、音声カテゴリ「水中」についての長時間音声信頼度が「0.15」であり、登録日時が「2008/3/1 10:10」であることを示している。
<グループテーブル>
図18(b)は、グループテーブル80のデータ構成及び内容例を示す図である。
グループテーブル80は、グループ毎に、グループ識別子81と、メンバ識別子82とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。なお、対応するグループ識別子とメンバ識別子とからなる情報(いわゆるレコード)は、このデジタルカメラ300の使用開始時においては、1件も登録されていないものとする。
ここで、グループ識別子81は、対応するグループの識別情報であり、他のグループ識別子と重複しない文字列である。ここでは、各グループ識別子が文字「G」と1からの連番となる数字との組合せで構成された文字列である場合を例示している。
また、メンバ識別子82は、対応するグループを構成するメンバであるカテゴリ構成情報の識別情報であり、上記カテゴリ構成テーブル70のいずれかの構成識別子と一致するものである。
同図は、例えば、グループ識別子が「G1」であるグループは、メンバ識別子が「1」、「51」、「100」・・・であるメンバ、つまり、カテゴリ構成テーブル70の構成識別子が「1」、「51」、「100」・・・であるカテゴリ構成情報から構成されることを示している。
<重要グループテーブル>
図18(c)は、重要グループテーブル90のデータ構成及び内容例を示す図である。
重要グループテーブル90は、重要グループ毎に、重要グループ識別子91と、メンバグループ識別子92とを対応付けたデータを登録したテーブルであり、分類情報生成部330により登録される。
ここで、重要グループ識別子91は、対応する重要グループの識別情報であり、他の重要グループ識別子と重複しない文字列である。
また、メンバグループ識別子92は、対応する重要グループを構成するメンバであるグループの識別情報であり、上記グループテーブル80のいずれかのグループ識別子と一致するものである。なお、デジタルカメラ300の使用開始時においては、メンバグループ識別子92には、いずれのグループ識別子も登録されていないものとする。
同図は、例えば、重要グループ識別子が「IG1」であるグループは、メンバグループ識別子が「G1」、「G3」、「G6」であるメンバ、つまり、グループテーブル80のグループ識別子が「G1」、「G3」、「G6」であるグループから構成されることを示している。
なお、同図に示す重要グループ識別子が「IG1」である重要グループと、重要グループ識別子が「IG2」である重要グループとの違いについては、後述する(図19参照)。
<動作>
以下、デジタルカメラ300の動作について説明する。
<分類情報生成処理>
図19は、分類情報生成部330による分類情報の生成処理を示すフローチャートである。
なお、この分類情報の生成処理とは別に、分類情報生成部330は、状況判定部311から音声カテゴリ情報を受領した際に、受領した音声カテゴリ情報を順に蓄積する処理を行っているものとする。
同図に示すように、分類情報生成部330は、画像処理部141から撮影指示がなされた旨の通知を受領すると(ステップS51)、直近に蓄積された音声カテゴリ情報と、その音声カテゴリに係る単位時間長の音声データDnの1つ前〜9つ前に処理した単位時間長の音声データDn−1〜Dn−9についての音声カテゴリ情報が蓄積されているか否かを判定する(ステップS52)。
該当の各音声カテゴリ情報が蓄積されていない場合には(ステップS52:NO)、分類情報生成部330は分類情報生成処理を終了し、該当の各音声カテゴリ情報が蓄積されている場合には(ステップS52:YES)、音声データDn〜Dn−9についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、長時間音声信頼度を算出する(ステップS53)。
ここで、各音声カテゴリについての長時間音声信頼度とは、音声データDn〜Dn−9についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。
分類情報生成部330は、構成識別子と生成した各音声カテゴリについての長時間音声信頼度と登録日時とからなるカテゴリ構成情報を分類情報記憶部320のカテゴリ構成テーブル70に登録する。なお、この構成識別子は、カテゴリ構成テーブル70に登録済みの各構成識別子のうち、最大の構成識別子に1を加えた値とし、登録日時は、図示しない計時部から随時得られる値(例えば、1分単位の時刻の値)を用いて得る。
続いて、分類情報生成部330は、グループテーブル80に登録されている各グループ識別子が示す全てのグループについて、以下説明するステップS55の処理が完了しているか否かを判定する(ステップS54)。
全てのグループについての処理が完了していない場合には(ステップS54:NO)、分類情報生成部330は、グループテーブル80において、未処理である1つのグループ(以下、「対象グループ」という)のメンバ識別子から最小の識別子を取得し、取得した識別子が示すカテゴリ構成情報の長時間音声信頼度をカテゴリ構成テーブル70から取得する。分類情報生成部330は、取得した各音声カテゴリについての長時間音声信頼度とステップS53で算出した各音声カテゴリについての長時間音声信頼度との一致度を算出し、算出した一致度が所定値(例えば、0.9)以上であるかを判定する(ステップS55)。
ここで、例えば、カテゴリ構成テーブル70から取得した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Lra1」、「Lrb1」、「Lrc1」、・・・であり、ステップS53で算出した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Lra2」、「Lrb2」、「Lrc2」、・・・である場合に、一致度は、以下のように算出できる。
算出した一致度が所定値未満の場合には(ステップS55:NO)、分類情報生成部330は、再びステップS54から処理し、ステップS54で、全てのグループについての処理が完了した場合には(ステップS54:YES)、ステップS53で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を、新たなグループに分類する(ステップS56)。即ち、このカテゴリ構成情報に含まれる構成識別子と新たに生成したグループ識別子とからなるレコードをグループテーブル80に登録し、分類情報生成処理を終了する。
一方、ステップS55で、算出した一致度が所定値以上の場合には(ステップS55:YES)、分類情報生成部330は、ステップS53で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を対象グループに分類する(ステップS57)。即ち、そのカテゴリ構成情報に含まれる構成識別子を、グループテーブル80の対象グループのメンバ識別子に追加する。
続いて、分類情報生成部330は、対象グループのメンバ識別子の数がN(例えば、10)以上であるか否かを判定し(ステップS58)、対象グループのメンバ識別子の数がN未満である場合には(ステップS58:NO)、分類情報生成処理を終了し、対象グループのメンバ識別子の数がN以上である場合には(ステップS58:YES)、対象グループのメンバである各カテゴリ構成情報の登録日時に周期性があるか否かを判定する(ステップS59)。
ここでの周期性とは、対象グループのメンバである各カテゴリ構成情報が、例えば、1日に1回、週に1回、月に1回といったように、定期的に登録されていることをいう。
この周期性があるかの判定は、一般的な周波数分析の手法により行うことができるため、ここでは詳細な説明は省略する。
ステップS59で、周期性がある場合には(ステップS59:YES)、分類情報生成部330は、対象グループを、重要グループ識別子が「IG1」である重要グループへ分類し(ステップS60)、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル90の重要グループ識別子が「IG1」であるメンバグループ識別子に追加する。
つまり、重要グループ識別子が「IG1」である重要グループには、メンバである各カテゴリ構成情報の数がN以上であり、その登録日時に周期性があるグループが属することになる。
対象グループの各カテゴリ構成情報の数がN以上であり、その登録日時に周期性があるということは、音声から共通した環境で行われたと判定できる撮影が、定期的に行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。
一方、ステップS59で、周期性がない場合には(ステップS59:NO)、分類情報生成部330は、対象グループのメンバ識別子の数がNより大きいM(例えば、50)以上であるか否かを判定する(ステップS61)。
対象グループのメンバ識別子の数がM未満である場合には(ステップS61:NO)、分類情報生成処理を終了し、対象グループのメンバ識別子の数がM以上である場合には(ステップS61:YES)、分類情報生成部330は、対象グループを、重要グループ識別子が「IG2」である重要グループへ分類し(ステップS62)、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル90の重要グループ識別子が「IG2」であるメンバグループ識別子に追加する。
つまり、重要グループ識別子が「IG2」である重要グループには、メンバである各カテゴリ構成情報の数がM以上であり、その登録日時に周期性がないグループが属することになる。
その登録日時に周期性はないものの、対象グループの各カテゴリ構成情報の数がM以上であるということは、音声から共通した環境で行われたと判定できる撮影が多数行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。
<検索例>
以下、上記分類情報の生成処理を通じて、生成された各テーブルの情報を用いてどのように検索が行われるのかを具体例を用いて説明する。
図20は、デジタルカメラ300におけるディスプレイ6の画面遷移を説明する図である。
なお、同図では、説明の簡略化のため、デジタルカメラ300のディスプレイ6のみを示し、デジタルカメラ300の筐体などの記載は省略している。
同図(a)では、重要グループテーブル90に登録されている各重要グループのうち、いずれかの重要グループを選択するための画面(以下、「重要グループ選択画面」という)の表示例を示している。
重要グループ選択画面には、「発生頻度が高いグループ」との文字が表示されたアイコン6eと、「周期性があるグループ」との文字が表示されたアイコン6fが表示されている。
この重要グループ選択画面において、ユーザが操作パネル8を操作し、例えば、アイコン6fを選択すると、デジタルカメラ300は、重要グループテーブル90の重要グループ識別子が「IG1」である重要グループのメンバグループ識別子「G1」、「G3」、「G6」を取得し、同図(b)の画面(以下、「グループ選択画面」という)をディスプレイ6に表示する。
なお、特に図示していないが、ユーザが操作パネル8を操作し、例えば、アイコン6eを選択すると、デジタルカメラ300は、重要グループテーブル90の重要グループ識別子が「IG2」である重要グループに含まれるグループの選択画面(同図(b)の画面と似た画面)をディスプレイ6に表示する。
グループ選択画面には、取得したメンバグループ識別子の数「3」に対応する数のアイコン6g、6h、6iが表示されており、つまり、このグループ選択画面の例では、「周期性があるグループ」に3つのグループが含まれることを示している。
なお、このグループ選択画面の例では、各アイコンに表示される文字として、メンバグループ識別子の数に応じて、「A」から「Z」までのアルファベットを用いる場合を想定している。
このグループ選択画面において、ユーザが操作パネル8を操作し、例えば、アイコン6gを選択すると、デジタルカメラ300は、グループテーブル80のグループ識別子が「G1」であるグループのメンバ識別子「1」、「51」、「100」、・・・を取得し、同図(c)の画面(以下、「サムネイル画面」という)をディスプレイ6に表示する。
サムネイル画面には、取得したメンバ識別子(構成識別子)が対応付けられた画像データのサムネイル画像6j〜6oが表示される。
サムネイル画面において、ユーザが操作パネル8を操作し、いずれかのサムネイル画像を選択すると、特に図示していないが、対応する画像データがディスプレイ6全体に表示されることになる。
<補足>
以上、本発明に係る撮像装置を、実施の形態1、変形例1、2、及び実施の形態2(以下、単に「実施の形態」ともいう)に基づいて説明したが、以下のように変形することも可能であり、本発明は上述した実施の形態で示した通りの撮像装置に限られないことは勿論である。
(1)実施の形態1及び変形例2で説明した方法で特定した撮影シーンを示す情報を、画像データと対応付けておき、この撮影シーンを示す情報を画像データの検索に用いるようにしてもよい。
例えば、ディスプレイ6に複数の撮影シーンそれぞれを示すアイコンを表示し、ユーザが操作パネル8を操作していずれかのアイコンを選択した場合には、選択された撮影シーンの情報が対応付けられた各画像データのサムネイル画像を表示する。
ユーザが操作パネル8を操作していずれかのサムネイル画像を選択した場合には、例えば、図21に示すように、選択されたサムネイル画像に対応する画像(この例では屋外の風景の画像)をディスプレイ6に表示する。また、同図では、表示された画像に重ねて、対応する撮影シーンを示すアイコン6d(この例では、撮影シーン「一般屋外」を示すアイコン)が表示された例を示している。
また、変形例2で説明したように、複数の撮影シーン候補の中から、ユーザが選択した撮影シーンに特定する場合には、選択されなかった他の撮影シーンの候補を示す情報も、画像データと対応付けておき、この撮影シーンの候補を示す情報を用いて画像データを検索できるようにしてもよいし、複数の撮影シーンの候補の組合せが同一である画像データを検索できるようにしてもよい。
(2)実施の形態では、予め定義された、例えば、屋内、屋外、水中等の音声カテゴリ(この項では、「統合カテゴリ」という)毎に、その統合カテゴリに分類するための各特徴量から構成されるモデル情報が存在するものとして説明した。しかしながら、例えば、屋内1、屋内2、屋内3、屋外1、屋外2、水中1、水中2、水中3等といった、細分化された音声カテゴリ(この項では、「詳細カテゴリ」という)毎に、モデル情報が存在するものとしてもよい。
例えば、詳細カテゴリ「屋内1」、「屋内2」、「屋内3」の各尤度が、「La1」、「La2」、「La3」であるとした場合に、統合カテゴリ「屋内」の尤度aは、「Wa11×La1+Wa12×La2+Wa13×La3」と算出できる。
ここで、Wa11、Wa12、Wa13は係数であり、合計が1になるように決定されたものである。その他の統合カテゴリの尤度についても同様に算出することができる。
(3)実施の形態1及び変形例1では、音声カテゴリ情報及び画像カテゴリ情報に基づき算出されたシーン信頼度に基づいて撮影シーンを特定するものとして説明したが、音声カテゴリ情報のみに基づいて算出したシーン信頼度に基づいて撮影シーンを特定してもよい。
また、シーン信頼度は、短時間信頼度及び長時間信頼度に基づいて算出するものとして説明したが、短時間信頼度及び長時間信頼度のいずれかをシーン信頼度としてもよい。
また、シーン信頼度は、短時間信頼度と長時間信頼度との平均値であるものとして説明したが、短時間信頼度と長時間信頼度とに重み付けをして算出するようにしてもよい。
また、短時間信頼度は2つの単位時間信頼度(つまり2秒分)に基づいて算出し、長時間信頼度は5つの単位時間信頼度(つまり5秒分)に基づいて算出するものとして説明したが、この2つ、5つという数はこれよりも多くても少なくてもよい。但し、短時間信頼度より長時間信頼度のほうが、算出に用いる単位時間信頼度の数が多くなるようにこの数を決定する必要がある。
(4)変形例2では、特定された撮影シーンに適した設定値に従って、各制御装置、画像処理部230が動作することを前提に、例えば、音声カテゴリ「人の声」が特定された場合には、周囲に人が存在すると推定できるため、人の顔を検出する処理を行い、検出されたときには、より適すように補正されたフォーカスや色強調等の設定値に従って、各制御装置、画像処理部230を動作させる例を説明した。
しかしながら、撮影シーンに適した設定値に従って、各制御装置、画像処理部230が動作することを前提にせず、特定された音声カテゴリに対応する設定値のみに従って、各制御装置、画像処理部230が動作するようにしてもよい。
その場合、図16に示す設定テーブル60の各設定値を構成する設定項目として、図6に示す設定テーブル30の各設定値の設定項目「フォーカス」、「シャッタ速度」、「色強調」、「フラッシュ」等を含めるようにしてもよい。
(5)変形例2では、音声特定部220が、音声カテゴリ情報を構成する各音声カテゴリについての相対信頼度に基づいて、1つの音声カテゴリを特定するものとして説明したが、各音声カテゴリについての尤度に基づいて1つの音声カテゴリを特定してもよい。
(6)実施の形態1では、図7のステップS3で、算出した各変化量のうち、少なくとも1つが対応する閾値より大きい場合には、否定的な判定(ステップS3:NO)を行うものとして説明した。しかしながら、算出した各変化量の全てが対応する閾値より大きい場合にのみ、否定的な判定を行うようにしてもよいし、ある特定の特徴についての変化量が閾値より大きい場合にのみ否定的な判定を行うようにしてもよい。
(7)実施の形態1の図9及び変形例1の図11のステップS26では固定の基準値(以下、「第1基準値」という)を用いるものとして説明したが、その第1基準値以上であるシーン信頼度の数が所定数未満である場合には、第1基準値よりも低く設定された第2基準値を用い、第1基準値以上であるシーン信頼度の数が所定数以上である場合には、第1基準値より高く設定された第3基準値を用いるようにしてもよい。
また、ステップS26で、基準値以上であったシーン信頼度の数が0の場合には(ステップS26:0)、最大であるシーン信頼度に係る撮影シーンに特定するようにしてもよい。
(8)実施の形態1の図9及び変形例1の図11では、ステップS28で、基準値以上であった各シーン信頼度のうち、最大であるシーン信頼度に係る撮影シーンに特定するものとして説明したが、他の基準で撮影シーンを特定してもよい。例えば、基準値以上であった各シーン信頼度のうち、基準値との差分が最大であるシーン信頼度に係る撮影シーンに特定してもよい。
(9)変形例1で説明した処理(図11参照)は、図1に示すダイヤルボタン7が自動最適化モードに設定されている場合に実行されるものとして説明したが、ダイヤルボタン7がこの自動最適化モードとは別の特定のモードに設定されている場合に実行されるようにしてもよい。
また、図11では、ステップS26において、基準値以上であったシーン信頼度の数が0の場合(ステップS26:0)にのみ、ステップS30〜S32の処理を行うものとして説明したが、基準値以上であるシーン信頼度の数によらず、ステップS30〜32の処理を行うようにしてもよい。即ち、ステップS25の処理が完了すると、ステップS30〜32の処理を行うようにしてもよい。
(10)実施の形態において、ユーザによる選択操作は、操作パネル8を介して行われるものとして説明したが、ディスプレイ6をタッチパネルとし、このタッチパネルを介してユーザが操作できるようにしてもよい。
(11)変形例2では、例えば、音声カテゴリ「人の声」に特定された場合に、顔検出を行うものとして説明したが、特定された音声カテゴリによらず、顔検出処理(この項では、「第1顔検出処理」という)を行うようにし、特に、音声カテゴリ「人の声」に特定された場合には、上記通常の顔検出とは異なる処理を含む顔検出処理(この項では、「第2顔検出処理」という)を行うようにしてもよい。
この第2顔検出処理とは、例えば、正面を向いた顔だけでなく、横を向いた顔も検出する処理や、人が存在すると推定できているので、正面を向いた顔を検出する際に使用する閾値を下げた状態で顔検出処理を行うことが考えられる。なお、当然、横顔を検出するためには、対応するテンプレート画像が必要となる。
なお、ここでは、顔検出の場合を例に説明したが、その他の物体の検出処理についても同様に変形でき、更に、検出処理以外の処理についてもその処理の精度や処理内容の詳細化を行うように変形することができる。
(12)変形例1では、図13に示すように、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ6に表示するものとして説明したが、各アイコンの表示順はこれに限らず、例えば、シーン信頼度が大きい順に右から、上から、又は下から表示するようにしてもよい。また、アイコンを表示するのではなく、各撮影シーンの候補を表す文字列を並べたリスト形式で表示してもよい。また、アイコン表示又はリスト表示において、シーン信頼度の大きさに応じて、表示するアイコンのサイズや、文字のサイズを変更してもよい。
(13)実施の形態に係る変化量算出部132は、連続して入力された単位時間長の音声データに係る特徴量の差分を算出するものとして説明したが、これに限らず、例えば、一定時間内データ差分、分散、回帰式係数を用いるようにしてもよい。
ここで、一定時間内データ差分とは、最小データ単位をフレームとした場合のフレーム間差分を含み、ある基準時間から見て、2フレーム先のデータとの差分であったり、1〜nフレーム先の全差分の平均であるフラックスである。
また、分散とは、一定時間内のデータの一般的な標本分散や不偏分散として定義されている内容で算出されるものである。
また、回帰式係数とは、回帰分析手法として最小二乗法やロジスティック回帰手法等で算出されるモデル係数であり、そのモデル係数からモデルがどの程度変化しているかを判定する。
(14)実施の形態に係る状況判定部は、特定した音声カテゴリの変化が激しいか否かを、1以上の音声カテゴリを特定した際に、特定した各音声カテゴリの少なくも一部が、対象データDnの1つ前及び2つ前に処理した単位時間長の音声データDn−1、Dn−2について特定された1以上の音声カテゴリと重複するか否かによって判定する例を説明した。
しかしながら、特定した音声カテゴリの変化が激しいか否かを判定する方法は、この方法に限らず、例えば、音声カテゴリの変化率や重複度によって判定してもよい。
ここで、音声カテゴリの変化率とは、例えばT秒間のデータ枠内でのカテゴリ変化数をMとした場合、M/Tで算出されるものである。また、音声カテゴリの重複度は、1秒間毎に判定された尤度の高いカテゴリ数をC1とした場合、例えばT秒間で算出される平均値で算出されるものである。
(15)図1に示すスピーカ・マイクロフォン5は、撮影時において、外部の音等を精度よく集音できる位置に配置されていることが望ましく、同図に示す位置に限らず、例えば、デジタルカメラ100の前面や背面に配置されていてもよい。
また、例えば、デジタルカメラ100を中心とした、例えば半径数m以内の領域(以下、「近距離領域」という)で、人の会話音等の音が発生した場合には、比較的大きな音として、スピーカ・マイクロフォン5で集音されることになるので、上記近距離領域の外側(以下、「遠距離領域」という)で発生した音を、スピーカ・マイクロフォン5で集音できない可能性ある。この遠距離領域で発生した音のほうが、デジタルカメラ100の撮影環境をよく表していることもある。
そこで、例えば、スピーカ・マイクロフォン5以外に、指向性のある1以上のマイクロフォンを備えるようデジタルカメラ100を変形し、スピーカ・マイクロフォン5及び各マイクロフォンで集音した音のうち、変化量算出部132で、各変化量が所定値未満となる音を用いて撮影シーンを判定するようにしてもよい。
(16)実施の形態では、単位時間長(1秒)の音声データを単位として処理を行うこととして説明したが、この1秒は一例であり、これより長くても短くても良い。
また、判別しようとする撮影シーン毎や、判別しようとする音声カテゴリ毎に、この処理単位を変更してもよい。
(17)実施の形態では、撮影シーン毎に、各設定値を定義しておく例を説明したが、例えば、特徴量の閾値群毎に、各設定値を定義しておき、対象データから抽出された各特徴量が対応する閾値以上ならば、定義された設定値を各制御装置や画像処理部に設定するようなことも考えられる。この場合、対象データから抽出された各特徴量と各モデル情報とのマッチング処理も行う必要がない。なお、上記閾値は上限値と下限値とによる幅を持った値であってもよい。
(18)実施の形態では、カテゴリ判定部134によるマッチング処理には、機械学習手法である判別器が用いられるものとして説明したが、機械学習手法によらず、ある判別基準に従って、ある特徴量を持った信号が属する、ある定義された分類項目を判別することができる方法であればよい。例えば、パターンマッチング手法として、ベクトル相関を利用するものや、LPC(Linear Predictive Coding、線形予測符号)法、主成分分析、ニューラルネットワーク、遺伝的アルゴリズムやベイズ推定等を適応することが考えられる。
(19)実施の形態では、1つのセットからなる各モデル情報を用いるものとして説明したが、例えば、使用するセットを切り替えるようにしてもよい。例えば、GPS(Global Positioning System)によりデジタルカメラの位置を特定し、その位置で使用される言語等に応じた各モデルを含むセットを使用するようにしてもよい。
(20)実施の形態では、特徴量抽出部131が抽出する特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量であるものとして説明したが、1つの属性を成分として構成されるものであってもよい。
(21)実施の形態2では、カテゴリ構成テーブル70に登録日時を登録するものとして説明したが、カテゴリ構成テーブル70への登録日時の登録は行わないこととすると共に、この登録日時の代わりに、画像データが生成された日時(撮像日時)を取得するようにしてもよい。
(22)実施の形態において説明した各構成要素のうち、全部又は一部を1チップ又は複数チップの集積回路で実現してもよいし、コンピュータのプログラムで実現してもよいし、その他どのような形態で実現してもよい。
(23)実施の形態において説明した各処理(図7、8、9、11、15、19参照)をプロセッサに実行させるためのプログラムを、記録媒体に記録し又は各種通信路等を介して、流通させ頒布することもできる。このような記録媒体には、ICカード、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布されたプログラムは、機器におけるプロセッサで読み取り可能なメモリ等に格納されることにより利用に供され、そのプロセッサがそのプログラムを実行することにより実施の形態で示したデジタルカメラの各機能が実現される。
(24)実施の形態では、本発明に係る撮像装置の一実施形態としてのデジタルカメラについて説明したが、撮像機構を備える他の機器、例えば、携帯電話機や、デジタルビデオカメラであってもよいし、デジタルではない一眼レフカメラであってもよい。
但し、デジタルではない一眼レフカメラにおいては、実施の形態で説明した画像処理部による色補正等の画像処理は行われない。
また、実施の形態では、デジタルカメラの主要部の構成を説明したが、一般的なデジタルカメラが備える他の構成を備えてもよいのは勿論である。
例えば、カメラの状態や変化情報を検出するセンサや、データの入出力処理を行う入出力インタフェース手段や、各種アプリケーションプログラムを記憶したプログラムメモリや、ファイルDB(データベース)及び属性情報DB(データベース)や各種処理で生じたデータを格納するデータメモリや、各構成要素を制御するためのコントロール信号や各種機器相互間で授受されるデータ転送を行うためのデータバス等を有する構成としてもよい。
実施の形態では、特に詳しく説明しなかったが、上記ファイルDB、属性情報DBは、実施の形態で説明した記録メディアに記録される。
ここで、ファイルDBは、データ入力手段により入力された複数のファイルデータを登録したものである。ファイルデータとしては、例えば写真画像データや動画像データや音楽データが含まれる。
また、属性情報DBは、ファイルDBに格納されているデータの属性情報データを登録したものである。属性情報としては、例えば写真画像データ又は動画像データの撮像年月日を示す時間情報や撮像場所を示す場所情報が含まれる。
なお、上記記録メディアは、半導体メモリに限らず、例えばHDD(Hard Disk Drive)やDVD(Digital Versatile Disk)等の大容量メディアディスクで実現されてもよい。また、プログラムメモリも、これらの各種のストレージデバイスによって実現される。プログラムメモリに記憶された各種アプリケーションプログラムには、実施の形態で説明した各種処理を行うためのプログラムの他、デジタルカメラ全体の制御処理を行うためのプログラムが含まれ、実施の形態で説明したプロセッサやDSPがこれらのプログラムを実行されることにより、デジタルカメラ全体の制御を行う制御手段の機能が実現される。
(25)実施の形態に係るデジタルカメラに、上記(1)〜(24)の一部又は全部の変形を組み合わせて適用してもよい。
(26)以下、更に本発明の一実施形態に係る撮像装置の構成及びその変形例と各効果について説明する。
(a)本発明の一実施形態に係る撮像装置は、撮影機構と、撮影環境を反映した情報を含む音声データを取得する音声取得手段と、前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備えることを特徴とする。
上記構成を備える本発明の一実施形態に係る撮像装置によれば、撮影環境に由来する音声データに基づいて設定値を選定するため、例えばシャッタ速度、撮像素子の感度等の撮影機構の制御について、撮影している環境に適した制御が行われ得るようになる。
(b)また、前記撮像装置は、前記音声取得手段により取得された音声データから撮影環境を表す環境音声特徴量を抽出する抽出部を有し、複数の撮影シーンそれぞれと所定の関係性を有する各種の音声の特徴それぞれを定める各モデル情報を記憶し、各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて、1つの撮影シーンを特定するシーン特定手段を備え、前記設定手段は、複数の撮影シーンの各々と1又は複数の設定値とを対応付けた対応情報を記憶しており、前記シーン特定手段により特定された撮影シーンに前記対応情報により対応付けられた設定値を、前記撮影機構の制御用の設定値として選定することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、撮影環境を表す環境音特徴量と撮影シーンと関係付けられる各種のモデル情報との照合を行うことで、適切に撮影シーンが特定され得るので、撮影シーン毎に予め適切に設定値を定めておけば、撮影に適した制御が行われ得るようになる。
(c)また、前記抽出部は、前記音声データの特徴を示す特徴量を所定の単位時間毎に特定し、複数の単位時間にわたり特徴量の時間的変化が所定量より小さい当該複数の単位時間についての各特徴量を前記環境音声特徴量として抽出することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、特徴量の時間的変化が所定量以上となるような偶発的に生じた音の影響が除外されるので、適切に撮影シーンが特定され得る。
(d)また、前記音声データの特徴を示す特徴量は、音声パワー、ゼロクロス、スペクトル関連特徴量、ケプストラム関連特徴量及びクロマベクトルで表される音の各属性のうち、2以上の属性それぞれを成分として構成されるベクトル量であり、前記モデル情報は、前記音声データの特徴を示す特徴量との比較用に、前記ベクトル量の各成分についての値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、音声に係る複数の特徴成分が照合されるため、単一成分の照合と比べて適切に撮影シーンが特定される可能性が高まる。
(e)また、前記モデル情報は、前記ベクトル量の各成分についての値として平均値及び分散値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報毎の平均値に係るベクトル量と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々と、各モデル情報毎のベクトル量の分散値とに基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報は、音声に係る複数の特徴成分を有するサンプルの複数の集合を表し、その各サンプルの成分値の分散の度合いにも基づいて撮影シーンの特定がなされるため、適切に特定がされ得る。
(f)また、前記シーン特定手段は、前記環境音声特徴量を構成する複数の単位時間各々についての特徴量と、前記各モデル情報との双方のベクトル量についての一致の程度を示す尤度各々のうち、一のモデル情報に関して所定数の連続する単位時間についての尤度がいずれも所定値より大きいという条件を満たさない尤度を除外して残る尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、環境に由来する音声に係る特徴のうち瞬時のみのものを排除することにより、多くの場合において適切に撮影シーンの特定がなされ得る。
(g)また、前記撮像装置は、更に前記各モデル情報と前記撮影機構の制御用の設定値を補正するための処理と対応付けるための情報を記憶し、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度が所定値より大きいものとなったところのモデル情報を特定し、当該特定したモデル情報に対応する処理を実行する補正手段を備えることとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報が表す特定の特徴に関連して、設定値を補正することで、更に適切な撮影機構の制御を実現し得るようになる。
(h)また、前記各モデル情報は、複数のグループのいずれか1つに属し、前記シーン特定手段は、各モデル情報と係数とを対応付けて記憶し、各グループについて、当該グループに属する各モデル情報についての尤度及び係数に基づくグループ尤度を算出して、各グループ尤度に基づいて、撮影シーンの前記特定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、予め適切に係数を設定しておくことを前提として、一層適切に撮影機構の制御が行われ得る。
(i)また、前記撮像装置は、ユーザによる操作を受け付ける操作受付手段を備え、前記シーン特定手段は、前記各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて撮影シーンの複数の候補を選出し、選出した候補と、前記操作受付手段により受け付けられたユーザによる操作とに基づいて、候補のうちの1つを撮影シーンとして特定することとしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、撮影シーンの候補が適切に絞り込まれ得るので、ユーザは簡単な操作で撮影シーンを選ぶことができるようになる。
(j)また、前記撮影機構は、撮影により画像データを生成する画像データ生成手段を備え、前記設定手段は、前記音声データ及び前記画像データに基づいて、当該画像データの撮影後に用いるための前記撮影機構の制御用の設定値の前記選定を行うこととしてもよい。
これにより、本発明の一実施形態に係る撮像装置によれば、音声のみならず画像にも基づいて設定値の選定が行われるため、撮影している環境に一層適した制御が行われ得る。
(27)本発明に係る撮影機構は、デジタルカメラ等の一般的な撮像装置において知られている撮影機構に相当し、例えば、実施の形態に係る撮影レンズ1、CCDやCMOS等の撮像素子を含む画像データ生成部140や、撮影レンズ1の駆動を制御する装置や、シャッタや、シャッタの駆動を制御する制御装置や、撮像素子の感度を制御する装置や、撮影した画像データに対する処理を施す画像処理部を含んでも良い。
また、本発明に係る音声取得手段は、実施の形態に係る音声取得部110に相当し、本発明に係る設定手段は、実施の形態に係る設定部120に相当し、本発明に係るシーン特定手段は、実施の形態に係るシーン特定部に相当し、本発明に係る補正手段は、実施の形態に係る音声特定部220及び画像処理部230に相当し、本発明に係る操作受付部は、実施の形態に係る操作パネル8に相当し、本発明に係る画像データ生成手段は、実施の形態に係る画像データ生成部140に相当する。