JPWO2010113463A1

JPWO2010113463A1 - 撮像装置、集積回路、撮像方法、プログラム及び記録媒体

Info

Publication number: JPWO2010113463A1
Application number: JP2011507014A
Authority: JP
Inventors: 亮一川西; 上野山　努; 上野山　　努; 山本　靖利; 靖利山本; 桂一宮崎
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-03-31
Filing date: 2010-03-29
Publication date: 2012-10-04
Anticipated expiration: 2030-03-29
Also published as: US20110069201A1; JP5451749B2; CN102047652A; WO2010113463A1; EP2416559A4; US8675096B2; EP2416559A1; CN102047652B

Abstract

本発明に係る撮像装置は、撮影機構と、撮影環境を反映した情報を含む音声データを取得する音声取得手段と、前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備える。

Description

本発明は、撮影環境に応じた撮影機構制御用の設定値を用いて撮影することが可能なデジタルスチルカメラ（ＤｉｇｉｔａｌＳｔｉｌｌＣａｍｅｒａ）等の撮像装置に関する。

デジタルスチルカメラ等の撮像装置において、撮影環境を自動的に特定して、特定した撮影環境に応じた設定値で撮影機構を制御するものが知られている（例えば、特許文献１、２）。

特許文献１に係るデジタルカメラは、取得した１画面分のＲＧＢ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）データを、ＨＳＶ（Ｈｕｅ、ＳａｔｕｒａｔｉｏｎＣｈｒｏｍａ、ＢｒｉｇｈｔｎｅｓｓＬｉｇｈｔｎｅｓｓＶａｌｕｅ）データに変換し、色相（Ｈｕｅ）データ及び彩度（ＳａｔｕｒａｔｉｏｎＣｈｒｏｍａ）データの分布に基づいて、撮影環境を自動的に特定し、特定結果に応じた設定値を用いて撮影機構を制御する。

また、特許文献２に係る電子カメラは、センサを用いて検出した、撮影レンズのあおり方向の姿勢と、取得した画像の輝度と、撮影距離とに基づいて、撮影環境を自動的に特定し、特定結果に応じた設定値を用いて撮影機構を制御する。

このように、特許文献１、２のカメラは、撮影環境を自動的に特定し、特定結果に応じた設定値を用いて撮影機構を制御するので、細かな設定をユーザが行わなくても済むことになる。

日本国特許公開２００８−１１２８９号公報日本国特許公開２００６−８６７５８号公報

しかしながら、特許文献１及び２のカメラはいずれも、必ずしも撮影制御用の設定値を適切に設定できるとは限らない。

そこで、本発明は係る問題に鑑みてなされたものであり、異なる手法を用いて、適切な設定に有用な撮像装置を提供することを目的とする。

上記課題を解決するために、本発明に係る撮像装置は、撮影機構と、撮影環境を反映した情報を含む音声データを取得する音声取得手段と、前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備えることを特徴とする。

上述の構成を備える本発明に係る撮像装置は、撮影環境に由来する音声データに基づいて設定値を選定するため、例えばシャッタ速度、撮像素子の感度等の撮影機構の制御について、撮影している環境に適した制御が行われ得るようになる。

デジタルカメラ１００の外観を示す斜視図である。デジタルカメラ１００の主要部の機能構成を示すブロック図である。シーン特定部１３０の機能構成を示すブロック図である。音声カテゴリ基準テーブル１０のデータ構成及び内容例を示す図である。シーン対応テーブル２０のデータ構成及び内容例を示す図である。設定テーブル３０のデータ構成及び内容例を示す図である。シーン特定部１３０による音声カテゴリの特定処理を示すフローチャートである。画像処理部１４１による画像カテゴリの特定処理を示すフローチャートである。撮影シーン判定部１３７による撮影シーンの判定処理を示すフローチャートである。各撮影シーンについての基準値と、撮影シーン判定部１３７が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。変形シーン判定部による撮影シーンの判定処理を示すフローチャートである。各撮影シーンについての基準値と、変形シーン判定部が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。各撮影シーンの候補を表すアイコンの表示例を示す図である。デジタルカメラ２００の主要部の機能構成を示すブロック図である。音声特定部２２０による音声カテゴリの特定処理を示すフローチャートである。設定テーブル６０のデータ構成及び内容例を示す図である。デジタルカメラ３００の主要部の機能構成を示すブロック図である。カテゴリ構成テーブル７０、グループテーブル８０、重要グループテーブル９０のデータ構成及び内容例を示す図である。分類情報生成部３３０による分類情報の生成処理を示すフローチャートである。デジタルカメラ３００におけるディスプレイ６の画面遷移を説明する図である。ディスプレイ６への撮影シーンを示すアイコン６ｄの表示例を示す図である。

以下、本発明に係る撮像装置の一実施形態としてのデジタルスチルカメラ（以下、単に「デジタルカメラ」という）について、図面を参照しながら説明する。

≪実施の形態１≫
実施の形態１に係るデジタルカメラ１００は、撮影環境（以下、「撮影シーン」ともいう）毎に、その撮影シーンに適した撮影機構制御用の複数の設定値を予め記憶しており、周囲の音声に基づいて撮影シーンを自動的に判定し、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定することで、ユーザの操作負担を軽減させつつ、綺麗な画像の生成に利用できるものである。

＜装置構成＞
まず、実施の形態１に係るデジタルカメラ１００の装置構成について説明する。

図１（ａ）は、デジタルカメラ１００の正面及び上面の外観を示す斜視図であり、（ｂ）はデジタルカメラ１００の背面及び上面の外観を示す斜視図である。

図１（ａ）に示すように、デジタルカメラ１００の正面には、被写体からの光をＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）やＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等の撮像素子に結像させる撮影レンズ１と、撮影時に被写体に向けて光を発するストロボ発光機２と、被写体との距離や露光やデジタルカメラ１００の回転方向等をセンシングするセンサ３とが配置されている。また、デジタルカメラ１００の上面には、ユーザが半押しすることでフォーカスを合わせる指示を行うことが可能であり、全押しすることで撮影指示を行うことが可能なレリーズボタン４と、外部で生じている撮影環境を反映した音や、所定の音を出力することで生じた反響音を収集するためのスピーカ・マイクロフォン５とが配置されている。

また、図１（ｂ）に示すように、デジタルカメラ１００の背面には、撮影した画像や、各種情報を表示するディスプレイ６と、ユーザがデジタルカメラ１００の動作モード（マニュアルモード、自動最適化モード、動画モード等）を指定するためのダイヤルボタン７と、ユーザ操作、例えば、各種設定の変更操作や撮影した画像の表示操作を受け付ける操作パネル８とが配置されている。なお、以下では、ダイヤルボタン７において、自動最適化モードが指定されている場合にのみ、デジタルカメラ１００は、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定するものとする。

＜機能構成＞
次に、実施の形態１に係るデジタルカメラ１００の機能構成について説明する。

図２は、デジタルカメラ１００の主要部の機能構成を示すブロック図である。

デジタルカメラ１００は、同図に示すように、音声取得部１１０、設定部１２０、シーン特定部１３０、画像データ生成部１４０、及び画像処理部１４１を備える。

なお、デジタルカメラ１００は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、プロセッサ及びメモリを含んで構成されており、このメモリに記憶されているプログラムをＤＳＰ及びプロセッサが実行することにより設定部１２０、シーン特定部１３０、画像処理部１４１の機能が実現される。

ここで、音声取得部１１０は、スピーカ・マイクロフォン５及び図示しないＡ／Ｄ変換器を含んで構成され、スピーカ・マイクロフォン５によって収集した外部の音を電気信号に変換し、この電気信号をＡ／Ｄ変換器によりデジタル信号に変換することによって得られた音声データをシーン特定部１３０に送出する機能を有する。なお、ここでは、音声取得部１１０は、スピーカ・マイクロフォン５を含むとしたが、例えば、外部マイクから出力された電気信号をデジタルカメラ１００に入力するための入力端子を含んでもよい。

設定部１２０は、撮影シーン毎に、その撮影シーンに適した撮影機構制御用の各設定値を登録したテーブル（以下、「設定テーブル」という）を保持しており、シーン特定部１３０で特定された撮影シーンに対応する各設定値を、各制御装置や画像処理部１４１に送出する機能を有する。なお、この設定テーブルの内容等については後述する（図６参照）。

ここで、各制御装置には、例えば、撮影レンズ１のピントを制御する装置や、シャッタ（不図示）の速度を制御する装置や、ストロボ発光機２の発光の有無を制御する装置等が含まれる。

シーン特定部１３０は、音声取得部１１０から受領した音声データの１以上の特徴についての値（以下、「特徴量」という）及び画像処理部１４１から受領した画像カテゴリ情報（後述する）に基づいて１つの撮影シーンを特定する機能を有する。

なお、ここでは、シーン特定部１３０は、音声データの各特徴量だけでなく、画像処理部１４１から受領した画像カテゴリ情報にも基づいて撮影シーンを特定することとしているが、音声データの各特徴量だけに基づいて撮影シーンを特定することもできる。即ち、図２において点線で示す画像データ生成部１４０及び画像処理部１４１は、本発明の特徴を実現する上で必須の機能構成要素ではない。

ここで、シーン特定部１３０の詳細な機能構成について、図３を用いて説明する。

図３は、シーン特定部１３０の機能構成を示すブロック図である。

同図に示すように、シーン特定部１３０は、特徴量抽出部１３１、変化量算出部１３２、基準記憶部１３３、カテゴリ判定部１３４、信頼度算出部１３５、状況判定部１３６、及び撮影シーン判定部１３７を含んで構成される。

なお、この実施の形態では、本発明に係る抽出手段を、特徴量抽出部１３１と変化量算出部１３２とに分けて記載しているが、１つの機能部として構成するようにしてもよい。

以下では、シーン特定部１３０は、単位時間長（例えば１秒）の音声データを単位として処理を行うこととし、現在処理中の単位時間長の音声データのことを「対象データ」ともいう。

ここで、特徴量抽出部１３１は、音声取得部１１０から受領した対象データについて、１以上の特徴量を抽出し、変化量算出部１３２に送出する機能を有する。この特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、２以上の属性それぞれを成分として構成されるベクトル量である。スペクトラム関連やケプストラム関連の特徴量としては、スペクトラムのロールオフ、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）等がある。その他にも、ＭＰＥＧ７（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＰｈａｓｅ７）の規格の中で、ＭＰＥＧ７−ＡｕｄｉｏＦｅａｔｕｒｅｓとして記載されている複数の特徴がある。Ｌｏｗレベルでの特徴量としては、ＡｕｄｉｏＰｏｗｅｒ，ＡｕｄｉｏＳｐｅｃｔｒｕｍＥｎｖｅｌｏｐｅ，ＡｕｄｉｏＳｐｅｃｔｒｕｍＣｅｎｔｒｏｉｄ，ＨａｒｍｏｎｉｃＳｐｅｃｔｒａｌＤｅｖｉａｔｉｏｎ，ＨａｒｍｏｎｉｃＳｐｅｃｔｒａｌＳｐｒｅａｄ等がある。なお、Ｈｙｏｕｎｇ−ＧｏｏｋＫｉｍ等著の「ＭＰＥＧ７ＡＵＤＩＯＡＮＤＢＥＹＯＮＤ」（ＪｏｈｎＷｉｌｅｙ＆ＳｏｎｓＬｔｄ，２００５）に詳細が記載されている。

変化量算出部１３２は、特徴量抽出部１３１から受領した各特徴量について、その特徴量に対応する１つ前に受領した特徴量に対する変化量を算出する機能を有する。

また、変化量算出部１３２は、特徴毎に閾値を保持しており、算出した各特徴量の変化量が各閾値以下である場合にのみ、特徴量抽出部１３１から受領した各特徴量をカテゴリ判定部１３４に送出する。

これは、変化量が大きい部分は、突発的に発生した音を表していると考えられ、変化量が大きい部分の各特徴量に基づいて撮影シーンを判定しても正しい判定ができない可能性があるためである。

基準記憶部１３３は、予め定義された音声カテゴリ（例えば、屋内、屋外、水中、乗り物、花火、パーティ、スポーツ、演奏会、運動会、博覧会等）毎に、その音声カテゴリに分類するための各特徴量から構成されるモデル情報を記憶するためのメモリ領域である。

なお、モデル情報は、ベクトル量の各成分についての値としての平均値と分散値とを示す情報を含むものとする。

カテゴリ判定部１３４は、変化量算出部１３２から送出された各特徴量と基準記憶部１３３に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す各尤度を算出する機能を有する。

マッチング処理には、例えば、機械学習手法である判別器が用いられる。一般的な判別器として、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）やＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などが存在する。

各音声カテゴリについて、その音声カテゴリに対応する基準記憶部１３３に記憶されているモデル情報を順に判別器にセットし、特徴量抽出部１３１から送出された各特徴量とのマッチング処理を行い尤度を算出する。各音声カテゴリについての尤度は、その尤度の値が大きいほど、対象データがその音声カテゴリに分類されることの信頼度が高いことを意味し、以下では、０〜１の値を取るものとして説明する。

カテゴリ判定部１３４は、各音声カテゴリについて、その音声カテゴリを示す音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組を信頼度算出部１３５に送出する。以下、この各組を「音声尤度情報」という。

信頼度算出部１３５は、カテゴリ判定部１３４から送出された音声尤度情報に基づいて、各尤度について、その尤度の信頼度（以下、「相対信頼度」という）を算出する機能を有する。

ここで、例えば、ある対象データについてのある音声カテゴリＡの尤度と別の音声カテゴリＢの尤度とが同一の値であっても、音声カテゴリＡと音声カテゴリＢとのうち、分散値が小さいモデルに対応する音声カテゴリの尤度のほうが信頼性が高いといえる。

また、ある対象データαについての音声カテゴリＡの尤度と、別の対象データβについての音声カテゴリＡの尤度とが同一の値であっても、対象データαについての他の音声カテゴリＢの尤度のほうが、対象データβについての他の音声カテゴリＢの尤度よりも小さい場合には、対象データαについての音声カテゴリＡの尤度のほうが、信頼性が高いといえる。これは、対象データが音声カテゴリＢに分類されることの信頼性がより低いからである。

そのため、信頼度算出部１３５は、各音声カテゴリに対応する各モデルの分散値、及び他のモデルの中心（つまり平均値）からの距離を考慮した各相対信頼度を算出する。

例えば、対象データについての３つの音声カテゴリＡ、Ｂ、Ｃの各尤度をａ、ｂ、ｃとし、各音声カテゴリに対応する各モデルの分散値をｐ、ｑ、ｒとした場合に、音声カテゴリＡについての相対信頼度Ｘａは次の数式で算出される。なお、音声カテゴリＢについての相対信頼度Ｘｂ、及び音声カテゴリＣについての相対信頼度Ｘｃについても同様に算出することができるため、相対信頼度Ｘｂ、Ｘｃを算出するための数式の記載は省略する。

相対信頼度Ｘａの値が大きいほど、尤度ａの信頼度が高いことを意味する。

信頼度算出部１３５は、各音声カテゴリについて、その音声カテゴリについての音声カテゴリ識別子と尤度と相対信頼度とからなる組を状況判定部１３６に送出する。以下、この各組を「信頼度情報」という。

状況判定部１３６は、図４に示す音声カテゴリ基準テーブルを保持しており、この音声カテゴリ基準テーブルと、信頼度算出部１３５から受領した信頼度情報とに基づいて、対象データが属すると推定される１以上の音声カテゴリを特定する機能を有する。

後に詳細に説明するが、音声カテゴリ基準テーブルは、音声カテゴリ毎に、その音声カテゴリの尤度の下限値（以下、「尤度閾値」という）と相対信頼度の下限値（以下、「信頼度閾値」という）とを登録したテーブルである。

状況判定部１３６は、信頼度情報を構成する各音声カテゴリの組について、その組に含まれる尤度及び相対信頼度それぞれが、対応する音声カテゴリについての尤度閾値及び信頼度閾値以上であるとの条件を満たすかを判定し、条件を満たす各組に係る音声カテゴリを対象データが属すると推定される１以上の音声カテゴリと特定する。

また、状況判定部１３６は、１以上の音声カテゴリを特定した際に、その特定結果の妥当性を過去の特定結果から判定し、妥当な場合に、信頼度情報を構成する各音声カテゴリの組のうち、特定した音声カテゴリについての組に含まれる音声カテゴリ識別子と相対尤度とを含む情報（以下、「音声カテゴリ情報」という）を撮影シーン判定部１３７へ送出する。なお、この特定結果の妥当性の判定方法については、後述するが（図７参照）、特定した音声カテゴリに基づいて撮影シーンをより正確に判定するために、特定した音声カテゴリが頻繁に変化しているような場合には、その特定結果を撮影シーンの判定に用いない趣旨である。

撮影シーン判定部１３７は、状況判定部１３６から送出された音声カテゴリ情報と、画像処理部１４１から送出された画像カテゴリ情報と、図５に示すシーン対応テーブルとに基づいて、各撮影シーンについての信頼度（以下、「単位時間信頼度」という）を算出し、過去に算出した各撮影シーンについての単位時間信頼度を含む、複数の単位時間信頼度に基づいて、各撮影シーン（一般屋内、屋内パーティ、屋内演奏会、一般屋外、屋外花火、屋外花火、屋外スポーツ、屋外運動会、水中等）のうち１つの撮影シーンを特定する機能を有する。１つの撮影シーンを特定すると、撮影シーン判定部１３７は、特定した撮影シーンを示す情報（以下、「シーン識別子」という）を設定部１２０に送出する。

後に詳細に説明するが、シーン対応テーブルは、撮影シーン毎に、その撮影シーンと、各音声カテゴリ及び各画像カテゴリがどの程度関係するのかを示す重み付け値を登録したテーブルである。

再び図２を用いて、デジタルカメラ１００の残りの各部について説明する。

画像データ生成部１４０は、撮影レンズ１、ＣＣＤやＣＭＯＳ等の撮像素子、及びＡ／Ｄ変換器を含み、被写体から入射する光を撮影レンズ１によりＣＣＤ等に集光し、この光をＣＣＤ等で電気信号に変換し、この電気信号をＡ／Ｄ変換器によりデジタル信号に変換することによって、画像データ（例えば、６４０×４８０画素分の輝度データ群）を生成し、画像処理部１４１に送出する機能を有する。

画像処理部１４１は、シーン特定部１３０を構成する各部の一部と似た機能を有し、画像データ生成部１４０から受領した画像データの１以上の特徴についての値（特徴量）に基づいて、予め定義された画像カテゴリ毎（例えば、屋内、屋外、水中、花火等）の尤度及び相対信頼度を算出し、算出した尤度及び相対信頼度に基づいて、その画像データが属すると推定される１以上の画像カテゴリと特定する機能を有する。画像処理部１４１は、特定結果を示す画像カテゴリ情報を撮影シーン判定部１３７に送出する。

画像処理部１４１は、上記１以上の特徴量として、例えば、輝度成分や色差成分等を抽出し、抽出した特徴量を、例えば撮影シーンを判定するための色ヒストグラムや、オブジェクトを判定するためのＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）等に代表される部分特徴量群（ＢａｇｏｆＦｅａｔｕｒｅｓ、以下、「ＢｏＦ」という）に変換する。

また、画像処理部１４１は、特に図示していないが、予め定義された画像カテゴリ毎に、その画像カテゴリに分類するための特徴量からなるモデル情報を記憶しており、上記ＢｏＦと記憶している各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し、数１に示す数式に従って各尤度についての相対信頼度を算出する。

また、画像処理部１４１は、レリーズボタン４から撮影指示がなされた旨の通知を受け付けると、画像データ生成部１４０から受領した画像データに、設定部１２０から受領した設定値に応じた色補正等の画像処理を施し、記録メディアへ格納する機能を有する。

＜データ＞
以下、デジタルカメラ１００において使用されるデータについて説明する。

＜音声カテゴリ基準テーブル＞
図４は、音声カテゴリ基準テーブル１０のデータ構成及び内容例を示す図である。

音声カテゴリ基準テーブル１０は、音声カテゴリ毎に、音声カテゴリ識別子１１と、尤度閾値１２と、信頼度閾値１３とを対応付けたデータを登録したテーブルであり、状況判定部１３６が、対象データが属すると推定される１以上の音声カテゴリを特定する際に参照する。

なお、同図に示す「Ｌａ」〜「Ｌｉ」、「Ｒａ」〜「Ｒｉ」は具体的な数値を示すものとして説明する。

ここで、音声カテゴリ識別子１１は、対応する音声カテゴリの識別情報であり、ここでは、他の音声カテゴリ識別子と重複しない文字列を用いた例を示している。

尤度閾値１２は、対応する音声カテゴリに対象データが属すると推定し得る、算出された尤度の下限値であり、信頼度閾値１３は、対応する音声カテゴリに対象データが属すると推定し得る、算出された相対信頼度の下限値である。

同図は、例えば、音声カテゴリ識別子が「ａ０」である音声カテゴリ（つまり、屋内）に対象データが属すると推定されるための尤度閾値は「Ｌａ」であり、信頼度閾値は「Ｒａ」であることを示している。

＜シーン対応テーブル＞
図５は、シーン対応テーブル２０のデータ構成及び内容例を示す図である。

シーン対応テーブル２０は、撮影シーン毎に、シーン識別子２１と、音声カテゴリ毎の重み付け値２２と、画像カテゴリ毎の重み付け値２３とを対応付けたデータを登録したテーブルであり、撮影シーン判定部１３７が単位時間信頼度を算出する際に参照する。

なお、同図における「Ｗａ１」〜「Ｗｎ５」は、１以下の具体的な数値を示すものとして説明する。

ここで、シーン識別子２１は、対応する撮影シーンの識別情報であり、ここでは、他のシーン識別子と重複しない文字列を用いた例を示している。

また、音声カテゴリ毎の重み付け値２２は、対応する撮影シーンと各音声カテゴリとの関係の程度を表す値であり、画像カテゴリ毎の重み付け値２３は、対応する撮影シーンと各画像カテゴリとの関係の程度を表す値であり、相互に対応する音声カテゴリ毎の重み付け値と画像カテゴリ毎の重み付け値との合計が１になるように決定されている。

同図は、例えば、シーン識別子が「Ｓ００１」である撮影シーン（つまり、一般室内）についての音声カテゴリ毎の重み付け値は、屋内の重み付け値が「Ｗａ１」であり、屋外の重み付け値が「Ｗｂ１」であり、水中の重み付け値が「Ｗｃ１」であり、画像カテゴリ毎の重み付け値は、乗り物の重み付け値が「Ｗｌ１」であり、花火の重み付け値が「Ｗｍ１」であり、パーティの重み付け値が「Ｗｎ１」であることを示している。

＜設定テーブル＞
図６は、設定テーブル３０のデータ構成及び内容例を示す図である。

設定テーブル３０は、撮影シーン毎に、シーン識別子３１と、各設定値３２とを対応付けたデータを登録したテーブルであり、設定部１２０が撮影シーンに対応する撮影機構制御用の設定値を取得する際に参照する。

ここで、シーン識別子３１は、対応する撮影シーンの識別情報であり、上記シーン対応テーブル２０のいずれかのシーン識別子と一致するものである。

また、各設定値３２は、対応する撮影シーンに適した撮影機構制御用の設定値であり、フォーカス、シャッタ速度、ホワイトバランス、感度、色強調、フラッシュ等の設定項目についての設定値から構成される。なお、色強調欄における「×」は、特に、色強調を行わないことを示している。

同図は、例えば、シーン識別子が「Ｓ００１」である撮影シーン（つまり、一般室内）に適した撮影機構制御用の各設定値は、フォーカスが「ＡＦ（ＡｕｔｏＦｏｃｕｓ）」であり、シャッタ速度が「１／６０」秒であり、ホワイトバランスが、光源を「蛍光灯」とした場合の予め定義された値であり、ＣＣＤ等の感度が「標準」であり、色強調は「×」（つまり、行わない）であり、フラッシュの有無が「オート」であることを示している。

＜動作＞
以下、デジタルカメラ１００の動作について説明する。

＜音声カテゴリ特定処理＞
図７は、シーン特定部１３０による音声カテゴリの特定処理を示すフローチャートである。

この音声カテゴリの特定処理は、ユーザにより電源がＯＮにされる等、デジタルカメラ１００が撮影可能な状態となり、かつ、図１に示すダイヤルボタン７が自動最適化モードに設定されている場合に開始され、特に図示していないが、ユーザにより電源がＯＦＦにされる等、デジタルカメラ１００が撮影不可能な状態となったときに終了する。

図７に示すように、シーン特定部１３０の特徴量抽出部１３１は、音声取得部１１０を介して単位時間長の音声データ（対象データ）を取得すると（ステップＳ１）、各特徴量を抽出し（ステップＳ２）、変化量算出部１３２に抽出した各特徴量を送出する。

変化量算出部１３２は、特徴量抽出部１３１から受領した各特徴量について、その特徴量に対応する１つ前に受領した特徴量に対する変化量を算出し、算出した各変化量それぞれが対応する閾値以下であるか否かを判定する（ステップＳ３）。

算出した各変化量のうち、少なくとも１つが対応する閾値より大きい場合には（ステップＳ３：ＮＯ）、シーン特定部１３０は、再びステップＳ１から処理を行い、算出した各変化量それぞれが対応する閾値以下である場合には（ステップＳ３：ＹＥＳ）、変化量算出部１３２は、特徴量抽出部１３１から受領した各特徴量をカテゴリ判定部１３４に送出する。

なお、デジタルカメラ１００が撮影可能な状態になった直後に特徴量抽出部１３１から各特徴量を受領した場合には、変化量算出部１３２は、肯定的な判定（ステップＳ３：ＹＥＳ）を行うものとする。

また、カテゴリ判定部１３４は、変化量算出部１３２から受領した各特徴量と、基準記憶部１３３に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出し（ステップＳ４）、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度とからなる組（音声尤度情報）を信頼度算出部１３５に送出する。

信頼度算出部１３５は、カテゴリ判定部１３４から受領した音声尤度情報に含まれる各尤度に基づいて、数１に示す数式に従って各相対信頼度を算出し（ステップＳ５）、各音声カテゴリについて、音声カテゴリ識別子とその音声カテゴリについての尤度と相対信頼度とからなる組（信頼度情報）を状況判定部１３６に送出する。

状況判定部１３６は、音声カテゴリ基準テーブル１０及び信頼度算出部１３５から受領した信頼度情報に基づいて、対象データが属すると推定される１以上の音声カテゴリを特定する（ステップＳ６）。より詳細には、各音声カテゴリについて、その音声カテゴリについての尤度閾値と信頼度閾値とを音声カテゴリ基準テーブル１０から取得し、カテゴリ判定部１３４から受領した信頼度情報からその音声カテゴリについての尤度と相対信頼度とを取得し、尤度が尤度閾値以上であり、かつ相対信頼度が信頼度閾値以上である場合に、その音声カテゴリを対象データが属すると推定される音声カテゴリと特定する。

例えば、図４に示す音声カテゴリ基準テーブル１０の例では、信頼度情報を構成する、音声カテゴリが「ａ０」である組に含まれる尤度が「Ｌａ」以上であり、かつその組に含まれる相対信頼度が「Ｒａ」以上である場合に、「屋内」をその対象データが属すると推定される音声カテゴリと特定する。

また、状況判定部１３６は、ステップＳ６で特定した結果が妥当か否かを、特定した各音声カテゴリの少なくも一部が、対象データＤｎの１つ前及び２つ前に処理した単位時間長の音声データＤｎ−１、Ｄｎ−２について特定された１以上の音声カテゴリと重複するか否かによって判定する（ステップＳ７）。

具体的には、ステップＳ６で特定した各音声カテゴリの少なくも一部が、音声データＤｎ−１について特定された１以上の音声カテゴリにも、音声データＤｎ−２について特定された１以上の音声カテゴリにも含まれている場合にのみ肯定的な判定（ステップＳ７：ＹＥＳ）を行う。

例えば、ステップＳ６で特定された音声カテゴリが「屋内」と「パーティ」であるとした場合に、音声データＤｎ−１、Ｄｎ−２について特定された１以上の音声カテゴリそれぞれに「屋内」が含まれているか、或いは音声データＤｎ−１、Ｄｎ−２について特定された１以上の音声カテゴリそれぞれに「パーティ」が含まれているときには、肯定的な判定（ステップＳ７：ＹＥＳ）を行う。

ステップＳ７で、否定的な判定を行った場合には（ステップＳ７：ＮＯ）、シーン特定部１３０は、再びステップＳ１から処理を行い、肯定的な判定を行った場合には（ステップＳ７：ＹＥＳ）、状況判定部１３６は、音声カテゴリ情報を、撮影シーン判定部１３７へ送出し（ステップＳ８）、シーン特定部１３０は、再びステップＳ１から処理を行う。

ここで、音声カテゴリ情報は、音声カテゴリ毎に、音声カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップＳ６で特定された音声カテゴリについては、信頼度算出部１３５から受領した信頼度情報に含まれていたその音声カテゴリについての相対信頼度を、ステップＳ６で特定されなかった音声カテゴリについては「０」を対応付けたものである。

＜画像カテゴリ特定処理＞
図８は、画像処理部１４１による画像カテゴリの特定処理を示すフローチャートである。

この画像カテゴリの特定処理の流れは、図７を用いて説明した音声カテゴリの特定処理の流れとよく似たものであるため、ここでは、簡単に説明する。

また、この画像カテゴリの特定処理も音声カテゴリの特定処理と同様にデジタルカメラ１００が撮影可能な状態で、かつダイヤルボタン７が自動最適化モードに設定されている場合に開始され、デジタルカメラ１００が撮影不可能な状態となったときに終了する。

図８に示すように、画像処理部１４１は、画像データ生成部１４０から画像データを取得すると（ステップＳ１１）、各特徴量を抽出し（ステップＳ１２）、抽出した各特徴量を変換したＢｏＦと各画像カテゴリについてのモデル情報とのマッチング処理を行い、マッチングの程度を示す尤度を算出する（ステップＳ１４）。

また、画像処理部１４１は、算出した各尤度に基づいて、数１に示す数式に従って各相対信頼度を算出し（ステップＳ１５）、各画像カテゴリ毎の尤度と信頼度情報との組に基づいて、画像データが属すると推定される１以上の画像カテゴリを特定する（ステップＳ１６）。

特に説明していなかったが、画像処理部１４１は、画像カテゴリ毎に、尤度閾値と信頼度閾値とを登録した、音声カテゴリ基準テーブル１０のデータ構成とよく似たデータ構成のテーブルを保持しており、上記状況判定部１３６と同様に、各画像カテゴリの組について、その組の尤度が、その画像カテゴリの尤度閾値以上であり、かつその組の相対信頼度が、その画像カテゴリの信頼度閾値以上である場合に、その画像カテゴリを、画像データが属すると推定される画像カテゴリと特定する。

画像処理部１４１は、画像カテゴリ情報を撮影シーン判定部１３７へ送出し（ステップＳ１８）、画像処理部１４１は、再びステップＳ１１から処理を行う。

ここで、画像カテゴリ情報は、画像カテゴリ毎に、画像カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップＳ１６で特定された画像カテゴリについては、ステップＳ１５で算出したその画像カテゴリについての相対信頼度を、ステップＳ１６で特定されなかった画像カテゴリについては「０」を対応付けたものである。

＜撮影シーン判定処理＞
図９は、撮影シーン判定部１３７による撮影シーンの判定処理を示すフローチャートである。

同図に示すように、シーン特定部１３０の撮影シーン判定部１３７は、音声カテゴリ情報を状況判定部１３６から受領し、画像カテゴリ情報を画像処理部１４１から受領すると（ステップＳ２１）、シーン対応テーブル２０を用いて、撮影シーン毎の単位時間信頼度を算出し（ステップＳ２２）、算出した各撮影シーンについての単位時間信頼度を蓄積する。

より詳細には、撮影シーン毎に、音声カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル２０の対応する音声カテゴリの重み付け値を掛けた値を合計し、画像カテゴリ情報に含まれる各相対信頼度それぞれにシーン対応テーブル２０の対応する画像カテゴリの重み付け値を掛けた値を合計し、各合計の和を取ったものを単位時間信頼度とする。

例えば、音声カテゴリ情報に含まれる音声カテゴリ「屋内」、「屋外」、「水中」、・・・の相対信頼度が「Ｘａ１」、「Ｘｂ１」、「Ｘｃ１」、・・・であり、画像カテゴリ情報に含まれる画像カテゴリ「乗り物」、「花火」、「パーティ」、・・・の相対信頼度が「Ｘｌ１」、「Ｘｍ１」、「Ｘｎ１」、・・・であるとした場合に、図５のシーン対応テーブル２０の例では、撮影シーン「一般室内」の単位時間信頼度は、「ｗａ１×Ｘａ１＋ｗｂ１×Ｘｂ１＋ｗｃ１×Ｘｃ１＋・・・＋ｗｌ１×Ｘｌ１＋ｗｍ１×Ｘｍ１＋ｗｎ１×Ｘｎ１＋・・・」と算出できる。

撮影シーン判定部１３７は、対象データＤｎの１つ前〜４つ前に処理した単位時間長の音声データＤｎ−１〜Ｄｎ−４について算出した各撮影シーンについての単位時間信頼度が蓄積されているか否かを判定する（ステップＳ２３）。

なお、図７のステップＳ３やステップＳ７の判定処理で否定的な判定がなされた場合には、そのときに処理対象であった音声データについての音声カテゴリ情報を状況判定部１３６から受領していないため、その音声カテゴリ情報に基づく単位時間信頼度は蓄積されていないことになる。

該当の各撮影シーンについての単位時間信頼度が蓄積されていない場合には（ステップＳ２３：ＮＯ）、シーン特定部１３０は再びステップＳ２１から処理を行い、該当の各撮影シーンについての単位時間信頼度が蓄積されている場合には（ステップＳ２３：ＹＥＳ）、音声データＤｎ〜Ｄｎ−４について算出した各撮影シーンについての単位時間信頼度に基づいて、各撮影シーンについての短時間信頼度及び長時間信頼度を算出する（ステップＳ２４）。

ここで、各撮影シーンについての短時間信頼度は、音声データＤｎとＤｎ−１について算出されたその撮影シーンの単位時間信頼度の平均値であり、各撮影シーンについての長時間信頼度は、音声データＤｎ〜Ｄｎ−４について算出されたその撮影シーンの単位時間信頼度の平均値である。

例えば、音声データＤｎ〜Ｄｎ−４について算出された撮影シーン「一般室内」の単位時間信頼度が「Ｓａ０」〜「Ｓａ４」であるとした場合に、撮影シーン「一般室内」の短時間信頼度は「（Ｓａ０＋Ｓａ１）÷２」と算出でき、長時間信頼度は「（Ｓａ０＋Ｓａ１＋Ｓａ２＋Ｓａ３＋Ｓａ４）÷５」と算出できる。

続いて、撮影シーン判定部１３７は、撮影シーン毎に、その撮影シーンの短時間信頼度と長時間信頼度の平均値（以下、「シーン信頼度」という）を算出する（ステップＳ２５）。

撮影シーン判定部１３７は、算出された各撮影シーンについてのシーン信頼度について、そのシーン信頼度が、その撮影シーンについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であったシーン信頼度の数を判定する（ステップＳ２６）。

基準値以上であったシーン信頼度の数が０の場合には（ステップＳ２６：０）、特に何も行わず、撮影シーン判定部１３７は、再びステップＳ２１から処理を行い、基準値以上であったシーン信頼度の数が１の場合には（ステップＳ２６：１）、撮影シーン判定部１３７は、その基準値以上であったシーン信頼度に係る撮影シーンに特定し（ステップＳ２７）、特定した撮影シーンのシーン識別子を設定部１２０へ送出し、再びステップＳ２１から処理を行う。

シーン識別子を受領した設定部１２０は、受領したシーン識別子に対応する各設定値を設定テーブル３０から取得し、対応する制御装置、画像処理部１４１に設定値を送出する。この結果、各制御装置、画像処理部１４１は受領した設定値に応じた処理を行う。

また、基準値以上であったシーン信頼度の数が２以上の場合には（ステップＳ２６：２以上）、シーン信頼度が最大であるシーン信頼度に係る撮影シーンに特定し（ステップＳ２８）、特定した撮影シーンのシーン識別子を設定部１２０へ送出し、再びステップＳ２１から処理を行う。以降の設定部１２０、各制御装置、画像処理部１４１の処理は上記ステップＳ２７の場合と同様である。

＜具体例＞
以下では、上記ステップＳ２６以降の処理を具体例を用いて説明する。

図１０は、各撮影シーンについての基準値と、撮影シーン判定部１３７が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。

同図に示す例では、算出されたシーン信頼度４２のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが「一般室内」のみであるため（ステップＳ２６：１）、撮影シーン判定部１３７は撮影シーンが「一般室内」であると特定し（ステップＳ２７）、一般室内のシーン識別子（Ｓ００１）を設定部１２０へ送出することになる。

このシーン識別子（Ｓ００１）を受領した設定部１２０は、図６の設定テーブル３０の例では、フォーカス「ＡＦ」、シャッタ速度「１／６０」、ホワイトバランス「蛍光灯」、色強調「×」、フラッシュ「オート」といった各設定値を取得する。

設定部１２０は、フォーカス「ＡＦ」、シャッタ速度「１／６０」、フラッシュ「オート」といった設定値を、対応する制御装置に送出し、ホワイトバランス「蛍光灯」、色強調「×」といった設定値を画像処理部１４１へ送出し、各制御装置、画像処理部１４１では受領した設定値に応じた処理が行われることになる。

≪変形例１≫
実施の形態１では、自動的に１つの撮影シーンを特定し、特定した撮影シーンに対応する各設定値を設定する例を説明したが、以下では、撮影シーンの候補をユーザに提示し、ユーザから選択された撮影シーンに対応する各設定値を設定するようにした一変形例を説明する。

これにより、ユーザは、簡単な操作で撮影シーンに適した各設定値での撮影が可能になる。また、ユーザが撮影シーンの最終的な決定を行うので、より綺麗な画像の生成に利用できるものである。

変形例１に係るデジタルカメラ（以下、「変形デジタルカメラ」という）は、上述の実施の形態１に係るデジタルカメラ１００の撮影シーン判定部１３７の機能を若干変更したものであるため、デジタルカメラ１００からの変更部分を中心に説明する。

以下、この変形デジタルカメラにおける撮影シーン判定部を「変形シーン判定部」という。

＜動作＞
以下、変形デジタルカメラの動作を説明する。

＜撮影シーン判定処理＞
図１１は、変形シーン判定部による撮影シーンの判定処理を示すフローチャートである。

同図におけるステップＳ２１〜Ｓ２８の処理は、実施の形態１に係る撮影シーン判定部１３７の処理（図９参照）と同様であるため、以下では、ステップＳ３０〜Ｓ３２の処理を説明する。

ステップＳ２６において、基準値以上であったシーン信頼度の数が０の場合に（ステップＳ２６：０）、変形シーン判定部は、シーン信頼度が０より大きい各撮影シーンを候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ６に表示する（ステップＳ３０）。

変形シーン判定部は、操作パネル８を介して、いずれかの撮影シーンの候補を選択する操作がなされたか否かを判定し（ステップＳ３１）、選択されていない場合には（ステップＳ３１：ＮＯ）、再びステップＳ３１の処理を行い、選択された場合には（ステップＳ３１：ＹＥＳ）、選択された撮影シーンに特定し（ステップＳ３２）、特定した撮影シーンのシーン識別子を設定部１２０へ送出し、再びステップＳ２１から処理を行う。

シーン識別子を受領した設定部１２０は、ステップＳ２７、Ｓ２８で説明したのと同様に、設定テーブル３０から取得した各設定値を各制御装置、画像処理部１４１に送出し、各制御装置、画像処理部１４１は受領した設定値に応じた処理を行う。

図１２は、各撮影シーンについての基準値と、変形シーン判定部が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。

図１３は、各撮影シーンの候補を表すアイコンの表示例を示す図である。

図１２に示す例では、算出されたシーン信頼度５２のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが存在しないため（図１１のステップＳ２６：０）、変形シーン判定部は、シーン信頼度が０より大きい各撮影シーン「一般室内」、「屋内パーティ」、「一般屋外」を候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ６に表示する（ステップＳ３０）。

この例では、図１３に示すように、シーン信頼度が大きい順に左から、撮影シーンの候補「一般室内」を表すアイコン６ａ、撮影シーンの候補「屋内パーティ」を表すアイコン６ｂ、撮影シーンの候補「一般屋外」を表すアイコン６ｃが表示されることになる。

この例で、例えばユーザが、操作パネル８を操作し、撮影シーン「一般室内」を選択したとすると（ステップＳ３１：ＹＥＳ）、変形シーン判定部は、「一般室内」に撮影シーンを特定し、一般室内のシーン識別子（Ｓ００１）を設定部１２０へ送出することになる。

以降は、実施の形態１で説明したのと同様に、設定部１２０が設定テーブル３０から取得した各設定値を対応する制御装置、画像処理部１４１に送出し、各制御装置、画像処理部１４１では、受領した設定値に応じた処理が行われることになる。

≪変形例２≫
実施の形態１では、周囲の音声に基づいて撮影シーンを判定し、判定した撮影シーンに適した撮影機構制御用の各設定値を自動的に設定する方法を説明した。以下では、これに加え、周囲の音声に基づいて、検出対象（人の顔、人工物等）を特定し、特定した検出対象が画像データから検出できた場合に、補正された撮影機構制御用の各設定値を自動的に設定するようにした一変形例を説明する。

なお、以下では、上述の実施の形態１に係るデジタルカメラ１００からの変更部分を中心に説明する。

＜機能構成＞
まず、変形例２に係るデジタルカメラ２００の機能構成について説明する。

図１４は、デジタルカメラ２００の主要部の機能構成を示すブロック図である。

同図に示すように、デジタルカメラ２００は、実施の形態１に係るデジタルカメラ１００のシーン特定部１３０、画像処理部１４１に代えて、シーン特定部２１０、画像処理部２３０を備え、更に音声特定部２２０を備えるものである。

ここで、シーン特定部２１０は、実施の形態１に係るシーン特定部１３０の状況判定部１３６に代えて、状況判定部２１１を備える点で、シーン特定部１３０と異なる。

なお、この変形例では、音声カテゴリに「人の声」、「動物の鳴き声」、「電車」、「風」等（以下、「新たな音声カテゴリ」ともいう）を含むものとし、基準記憶部１３３は、新たな音声カテゴリに対応する各モデル情報を保持し、また、実施の形態１で説明した各種テーブルにおいても新たな音声カテゴリに対応する値が登録されているものとする。

また、撮影シーン判定部１３７は、一旦撮影シーンを特定し、特定した撮影シーンのシーン識別子を設定部１２０へ送出すると、次に撮影シーンを特定した際には、その特定した撮影シーンが前回特定した撮影シーンと異ならない限り、設定部１２０へのシーン識別子の送出は行わないものとする。これは、後述するように、画像処理部２３０がより最適になるように補正された各設定値を各制御装置に送出し、各制御装置及び画像処理部２３０では、その補正された設定値に基づいた処理が行われている可能性があるためである。

状況判定部２１１は、実施の形態１に係る状況判定部１３６と同様の機能を有するが、音声カテゴリ情報を撮影シーン判定部１３７へ送出する際に、音声特定部２２０にも送出する点で、状況判定部１３６とは異なる。

また、音声特定部２２０は、状況判定部２１１から受領した音声カテゴリ情報と、過去の音声カテゴリ情報とに基づいて、各音声カテゴリ（例えば、屋内、屋外、人の声、動物の鳴き声、電車、風等）のうち、１つの音声カテゴリを特定し、特定された音声カテゴリの音声カテゴリ識別子を画像処理部２３０に送出する機能を有する。

また、画像処理部２３０は、実施の形態１に係る画像処理部１４１の機能に加え、音声特定部２２０から受領した音声カテゴリ識別子が示す音声カテゴリと予め対応付けられた処理（以下、「対応処理」という）を実行する機能を有する。

ここで、対応処理とは、例えば、人の顔、動物の身体、机や椅子等の人工物、ビル等の建物等の物体検出処理や、動き検出処理や、ブレ補正処理等が一例として挙げられる。

＜動作＞
以下、デジタルカメラ２００の動作について説明する。

＜音声カテゴリ特定処理＞
図１５は、音声特定部２２０による音声カテゴリの特定処理を示すフローチャートである。

同図に示すように、音声特定部２２０は、音声カテゴリ情報を状況判定部２１１から受領すると（ステップＳ４１）、この音声カテゴリ情報を蓄積し、対象データＤｎの１つ前〜４つ前に処理した単位時間長の音声データＤｎ−１〜Ｄｎ−４についての音声カテゴリ情報が蓄積されているか否かを判定する（ステップＳ４３）。

該当の各音声カテゴリ情報が蓄積されていない場合には（ステップＳ４３：ＮＯ）、音声特定部２２０は再びステップＳ４１から処理を行い、該当の各音声カテゴリ情報が蓄積されている場合には（ステップＳ４３：ＹＥＳ）、音声データＤｎ〜Ｄｎ−４についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、短時間音声信頼度と、含有率と、パワーレベルとを算出する（ステップＳ４４）。

ここで、各音声カテゴリについての短時間音声信頼度とは、音声データＤｎとＤｎ−１についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。

また、各音声カテゴリについての含有率とは、音声データＤｎ〜Ｄｎ−４についての各音声カテゴリ情報に含まれる、その音声カテゴリについての０より大きい相対信頼度の数の割合である。例えば、音声データＤｎ〜Ｄｎ−４についての各音声カテゴリ情報に含まれる、音声カテゴリ「人の声」についての相対信頼度が、「０．５」、「０．４」、「０．３」、「０．２」、「０」であるとした場合に、０より大きい相対信頼度の数は「４」であり、含有率は「０．８」と算出できる。

また、各音声カテゴリについてのパワーレベルとは、音声データＤｎ〜Ｄｎ−４のうち、その音声カテゴリについての０より大きい相対信頼度が含まれている部分の音声パワーの平均値（０〜１の値を取るよう正規化した値）である。なお、これまで特に説明していなかったが、この各音声カテゴリについてのパワーレベルを算出するために、音声特定部２２０は、カテゴリ判定部１３４から音声パワーについての特徴量を受領しているものとする。

音声特定部２２０は、音声カテゴリ毎に、その音声カテゴリの短時間音声信頼度と、含有率と、パワーレベルとの平均値（以下、「音声カテゴリ信頼度」という）を算出する（ステップＳ４５）。

音声特定部２２０は、算出した各音声カテゴリについての音声カテゴリ信頼度について、その音声カテゴリ信頼度が、その音声カテゴリについての予め定められた基準値以上であるかを判定し、予め定められた基準値以上であった音声カテゴリ信頼度の数を判定する（ステップＳ４６）。

基準値以上であった音声カテゴリ信頼度の数が０の場合には（ステップＳ４６：０）、特に何も行わず、音声特定部２２０は、再びステップＳ４１から処理を行い、基準値以上であった音声カテゴリ信頼度の数が１の場合には（ステップＳ４６：１）、音声特定部２２０は、その基準値以上であった音声カテゴリ信頼度に係る音声カテゴリに特定し（ステップＳ４７）、特定した音声カテゴリの音声カテゴリ識別子を画像処理部２３０へ送出し、再びステップＳ４１から処理を行う。

音声カテゴリ識別子を受領した画像処理部２３０は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。例えば、音声特定部２２０が音声カテゴリ「人の声」に特定した場合には、画像処理部２３０は対応処理として人の顔を検出する処理を行い、検出された場合には、例えば、検出された顔部分に合わせてフォーカスを行うための設定値等を対応する制御装置へ送出すると共に、撮影された画像に対して行う画像処理の内容を、例えば、肌色を強調するように変更する。

なお、画像処理部２３０は、顔検出のためのテンプレート画像を保持しており、そのテンプレート画像と、画像データ生成部１４０から受領した画像データとをマッチング処理することで、顔検出を行う。

また、基準値以上であった音声カテゴリ信頼度の数が２以上の場合には（ステップＳ４６：２以上）、最大である音声カテゴリ信頼度に係る音声カテゴリに特定し（ステップＳ４８）、上記ステップＳ４７と同様に、特定した音声カテゴリの音声カテゴリ識別子を画像処理部２３０へ送出し、再びステップＳ４１から処理を行う。音声カテゴリ識別子を受領した画像処理部２３０は、その音声カテゴリ識別子が示す音声カテゴリに対応する対応処理を実行する。

なお、上記では、音声特定部２２０が音声カテゴリ「人の声」に特定した場合を例に、画像処理部２３０は、対応処理として顔検出を行う例を説明したが、例えば、音声特定部２２０が音声カテゴリ「屋内」に特定した場合には、対応処理として、机や椅子といった人工物を検出する処理や、輝度等の情報に基づいて、蛍光灯色（暖色系、寒色系等）を判定する処理を行い、判定結果に基づいてフォーカス等の設定値を対応する制御装置へ送出すると共に、撮影された画像に行う色補正処理の内容（例えばホワイトバランスの設定値）を変更するようにしてもよい。

また、例えば、音声特定部２２０が音声カテゴリ「屋外」に特定した場合には、対応処理として、山等の自然や大きな建物を検出する処理や、動き検出を行い、検出結果に応じて、フォーカス等の設定値を対応する制御装置に送出すると共に、撮影された画像に行う色補正処理の内容（例えば、強調色の設定値）を変更するようにしてもよい。

また、例えば、図１６に示すように、音声カテゴリ毎に、近距離範囲、中距離範囲、遠距離範囲といった被写体との距離に関する設定値を含む各設定値を登録した設定テーブル６０を画像処理部２３０が保持するようにし、特定された音声カテゴリに応じて補正された撮影機構制御用の各設定値を、各制御装置に送出すると共に、設定値に応じた画像処理（この例では、ホワイトバランスの調整処理）を行うようにしてもよい。

また、例えば、音声特定部２２０が音声カテゴリ「風」に特定した場合に、対応処理としてブレ補正をするようにしてもよい。更に、この際、パワーレベル等に基づいて、どの程度の風が吹いているのかを判定するように変形し、風の影響を加味した上でデジタルカメラ２００のブレ補正量をセンサ３からの情報に基づいて算出して補正することや、植物等の被写体の揺れも検出するようにすることで、デジタルカメラ２００の揺れと被写体の揺れを同時に補正するようにしてもよい。

また、音声特定部２２０が音声カテゴリ「電車」等の乗り物に特定した場合にも、対応処理としてブレ補正をするようにしてもよい。この際、パワーレベル等に基づいて、その乗り物の揺れの程度を判定するようにし、揺れの影響を考慮したブレ補正を行うようにしてもよい。

≪実施の形態２≫
実施の形態２では、実施の形態１で説明した音声カテゴリ情報を用いて、撮影された画像データを分類し、画像データの検索に利用できるようにした例を説明する。

＜機能構成＞
まず、実施の形態２に係るデジタルカメラ３００の機能構成について説明する。

図１７は、デジタルカメラ３００の主要部の機能構成を示すブロック図である。

同図に示すように、デジタルカメラ３００は、実施の形態１に係るデジタルカメラ１００のシーン特定部１３０に代えて、シーン特定部３１０を備え、更に分類情報記憶部３２０、分類情報生成部３３０を備えるものである。

なお、この実施の形態では、画像処理部１４１は、レリーズボタン４から撮影指示がなされた旨の通知を受け付けると、分類情報生成部３３０にその旨を通知するものとする。

ここで、シーン特定部３１０は、実施の形態１に係るシーン特定部１３０の状況判定部１３６に代えて、状況判定部３１１を備える点で、シーン特定部１３０と異なるが、状況判定部３１１は、音声カテゴリ情報を撮影シーン判定部１３７へ送出する際に、分類情報生成部３３０にも送出する点以外は、実施の形態１に係る状況判定部１３６と同様の機能を有する。

分類情報記憶部３２０は、カテゴリ構成テーブル、グループテーブル、重要グループテーブルを記憶するためのメモリ領域である。各テーブルの内容については、後述する（図１８参照）。

分類情報生成部３３０は、状況判定部３１１から受領した音声カテゴリ情報を順に蓄積し、画像処理部１４１から撮影指示がなされた旨の通知を受けた際に、デジタルカメラ３００に連続して入力された所定数（例えば、１０個とする）の単位時間長の音声データについての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、その音声カテゴリの信頼度（以下、「長時間音声信頼度」という）を算出する機能を有する。

分類情報生成部３３０は、算出した各音声カテゴリについての長時間音声信頼度（以下、「カテゴリ構成情報」という）をカテゴリ構成テーブル７０に登録し、この登録したカテゴリ構成情報を、このカテゴリ構成情報を構成する音声カテゴリ毎の長時間音声信頼度に基づいて、グループテーブル８０のいずれかのグループのメンバとして登録する機能を有する。

また、分類情報生成部３３０は、各グループを構成するメンバの数等に応じて、そのグループが重要なグループか否かを判定し、判定結果に応じて重要グループテーブル９０に登録する機能を有する。なお、この判定方法は後述する（図１９参照）。

＜データ＞
＜カテゴリ構成テーブル＞
図１８（ａ）は、カテゴリ構成テーブル７０のデータ構成及び内容例を示す図である。

カテゴリ構成テーブル７０は、カテゴリ構成情報毎に、構成識別子７１と、長時間音声信頼度７２と、登録日時７３とを対応付けたデータを登録したテーブルであり、分類情報生成部３３０により登録される。

ここで、構成識別子７１は、対応するカテゴリ構成情報の識別情報であり、ここでは、各構成識別子が１からの連番になるように割り振られた場合を例示している。なお、各構成識別子は、撮影された画像データとも対応付けられ、画像データの検索の際に用いられることになる。

長時間音声信頼度７２は、対応するカテゴリ構成情報を構成する各音声カテゴリについての長時間音声信頼度を示す情報であり、登録日時７３は、カテゴリ構成情報が登録された日時を示す情報である。

同図は、例えば、構成識別子が「１」であるカテゴリ構成情報は、音声カテゴリ「屋内」についての長時間音声信頼度が「０．５」であり、音声カテゴリ「屋外」についての長時間音声信頼度が「０．３」であり、音声カテゴリ「水中」についての長時間音声信頼度が「０．１５」であり、登録日時が「２００８／３／１１０：１０」であることを示している。

＜グループテーブル＞
図１８（ｂ）は、グループテーブル８０のデータ構成及び内容例を示す図である。

グループテーブル８０は、グループ毎に、グループ識別子８１と、メンバ識別子８２とを対応付けたデータを登録したテーブルであり、分類情報生成部３３０により登録される。なお、対応するグループ識別子とメンバ識別子とからなる情報（いわゆるレコード）は、このデジタルカメラ３００の使用開始時においては、１件も登録されていないものとする。

ここで、グループ識別子８１は、対応するグループの識別情報であり、他のグループ識別子と重複しない文字列である。ここでは、各グループ識別子が文字「Ｇ」と１からの連番となる数字との組合せで構成された文字列である場合を例示している。

また、メンバ識別子８２は、対応するグループを構成するメンバであるカテゴリ構成情報の識別情報であり、上記カテゴリ構成テーブル７０のいずれかの構成識別子と一致するものである。

同図は、例えば、グループ識別子が「Ｇ１」であるグループは、メンバ識別子が「１」、「５１」、「１００」・・・であるメンバ、つまり、カテゴリ構成テーブル７０の構成識別子が「１」、「５１」、「１００」・・・であるカテゴリ構成情報から構成されることを示している。

＜重要グループテーブル＞
図１８（ｃ）は、重要グループテーブル９０のデータ構成及び内容例を示す図である。

重要グループテーブル９０は、重要グループ毎に、重要グループ識別子９１と、メンバグループ識別子９２とを対応付けたデータを登録したテーブルであり、分類情報生成部３３０により登録される。

ここで、重要グループ識別子９１は、対応する重要グループの識別情報であり、他の重要グループ識別子と重複しない文字列である。

また、メンバグループ識別子９２は、対応する重要グループを構成するメンバであるグループの識別情報であり、上記グループテーブル８０のいずれかのグループ識別子と一致するものである。なお、デジタルカメラ３００の使用開始時においては、メンバグループ識別子９２には、いずれのグループ識別子も登録されていないものとする。

同図は、例えば、重要グループ識別子が「ＩＧ１」であるグループは、メンバグループ識別子が「Ｇ１」、「Ｇ３」、「Ｇ６」であるメンバ、つまり、グループテーブル８０のグループ識別子が「Ｇ１」、「Ｇ３」、「Ｇ６」であるグループから構成されることを示している。

なお、同図に示す重要グループ識別子が「ＩＧ１」である重要グループと、重要グループ識別子が「ＩＧ２」である重要グループとの違いについては、後述する（図１９参照）。

＜動作＞
以下、デジタルカメラ３００の動作について説明する。

＜分類情報生成処理＞
図１９は、分類情報生成部３３０による分類情報の生成処理を示すフローチャートである。

なお、この分類情報の生成処理とは別に、分類情報生成部３３０は、状況判定部３１１から音声カテゴリ情報を受領した際に、受領した音声カテゴリ情報を順に蓄積する処理を行っているものとする。

同図に示すように、分類情報生成部３３０は、画像処理部１４１から撮影指示がなされた旨の通知を受領すると（ステップＳ５１）、直近に蓄積された音声カテゴリ情報と、その音声カテゴリに係る単位時間長の音声データＤｎの１つ前〜９つ前に処理した単位時間長の音声データＤｎ−１〜Ｄｎ−９についての音声カテゴリ情報が蓄積されているか否かを判定する（ステップＳ５２）。

該当の各音声カテゴリ情報が蓄積されていない場合には（ステップＳ５２：ＮＯ）、分類情報生成部３３０は分類情報生成処理を終了し、該当の各音声カテゴリ情報が蓄積されている場合には（ステップＳ５２：ＹＥＳ）、音声データＤｎ〜Ｄｎ−９についての各音声カテゴリ情報に基づいて、音声カテゴリ毎に、長時間音声信頼度を算出する（ステップＳ５３）。

ここで、各音声カテゴリについての長時間音声信頼度とは、音声データＤｎ〜Ｄｎ−９についての各音声カテゴリ情報に含まれる、その音声カテゴリの相対信頼度の平均値である。

分類情報生成部３３０は、構成識別子と生成した各音声カテゴリについての長時間音声信頼度と登録日時とからなるカテゴリ構成情報を分類情報記憶部３２０のカテゴリ構成テーブル７０に登録する。なお、この構成識別子は、カテゴリ構成テーブル７０に登録済みの各構成識別子のうち、最大の構成識別子に１を加えた値とし、登録日時は、図示しない計時部から随時得られる値（例えば、１分単位の時刻の値）を用いて得る。

続いて、分類情報生成部３３０は、グループテーブル８０に登録されている各グループ識別子が示す全てのグループについて、以下説明するステップＳ５５の処理が完了しているか否かを判定する（ステップＳ５４）。

全てのグループについての処理が完了していない場合には（ステップＳ５４：ＮＯ）、分類情報生成部３３０は、グループテーブル８０において、未処理である１つのグループ（以下、「対象グループ」という）のメンバ識別子から最小の識別子を取得し、取得した識別子が示すカテゴリ構成情報の長時間音声信頼度をカテゴリ構成テーブル７０から取得する。分類情報生成部３３０は、取得した各音声カテゴリについての長時間音声信頼度とステップＳ５３で算出した各音声カテゴリについての長時間音声信頼度との一致度を算出し、算出した一致度が所定値（例えば、０．９）以上であるかを判定する（ステップＳ５５）。

ここで、例えば、カテゴリ構成テーブル７０から取得した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Ｌｒａ１」、「Ｌｒｂ１」、「Ｌｒｃ１」、・・・であり、ステップＳ５３で算出した音声カテゴリ「屋内」、「屋外」、「水中」、・・・についての長時間音声信頼度が「Ｌｒａ２」、「Ｌｒｂ２」、「Ｌｒｃ２」、・・・である場合に、一致度は、以下のように算出できる。

算出した一致度が所定値未満の場合には（ステップＳ５５：ＮＯ）、分類情報生成部３３０は、再びステップＳ５４から処理し、ステップＳ５４で、全てのグループについての処理が完了した場合には（ステップＳ５４：ＹＥＳ）、ステップＳ５３で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を、新たなグループに分類する（ステップＳ５６）。即ち、このカテゴリ構成情報に含まれる構成識別子と新たに生成したグループ識別子とからなるレコードをグループテーブル８０に登録し、分類情報生成処理を終了する。

一方、ステップＳ５５で、算出した一致度が所定値以上の場合には（ステップＳ５５：ＹＥＳ）、分類情報生成部３３０は、ステップＳ５３で算出した各音声カテゴリについての長時間音声信頼度に係るカテゴリ構成情報を対象グループに分類する（ステップＳ５７）。即ち、そのカテゴリ構成情報に含まれる構成識別子を、グループテーブル８０の対象グループのメンバ識別子に追加する。

続いて、分類情報生成部３３０は、対象グループのメンバ識別子の数がＮ（例えば、１０）以上であるか否かを判定し（ステップＳ５８）、対象グループのメンバ識別子の数がＮ未満である場合には（ステップＳ５８：ＮＯ）、分類情報生成処理を終了し、対象グループのメンバ識別子の数がＮ以上である場合には（ステップＳ５８：ＹＥＳ）、対象グループのメンバである各カテゴリ構成情報の登録日時に周期性があるか否かを判定する（ステップＳ５９）。

ここでの周期性とは、対象グループのメンバである各カテゴリ構成情報が、例えば、１日に１回、週に１回、月に１回といったように、定期的に登録されていることをいう。

この周期性があるかの判定は、一般的な周波数分析の手法により行うことができるため、ここでは詳細な説明は省略する。

ステップＳ５９で、周期性がある場合には（ステップＳ５９：ＹＥＳ）、分類情報生成部３３０は、対象グループを、重要グループ識別子が「ＩＧ１」である重要グループへ分類し（ステップＳ６０）、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル９０の重要グループ識別子が「ＩＧ１」であるメンバグループ識別子に追加する。

つまり、重要グループ識別子が「ＩＧ１」である重要グループには、メンバである各カテゴリ構成情報の数がＮ以上であり、その登録日時に周期性があるグループが属することになる。

対象グループの各カテゴリ構成情報の数がＮ以上であり、その登録日時に周期性があるということは、音声から共通した環境で行われたと判定できる撮影が、定期的に行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。

一方、ステップＳ５９で、周期性がない場合には（ステップＳ５９：ＮＯ）、分類情報生成部３３０は、対象グループのメンバ識別子の数がＮより大きいＭ（例えば、５０）以上であるか否かを判定する（ステップＳ６１）。

対象グループのメンバ識別子の数がＭ未満である場合には（ステップＳ６１：ＮＯ）、分類情報生成処理を終了し、対象グループのメンバ識別子の数がＭ以上である場合には（ステップＳ６１：ＹＥＳ）、分類情報生成部３３０は、対象グループを、重要グループ識別子が「ＩＧ２」である重要グループへ分類し（ステップＳ６２）、分類情報生成処理を終了する。即ち、対象グループのグループ識別子を、重要グループテーブル９０の重要グループ識別子が「ＩＧ２」であるメンバグループ識別子に追加する。

つまり、重要グループ識別子が「ＩＧ２」である重要グループには、メンバである各カテゴリ構成情報の数がＭ以上であり、その登録日時に周期性がないグループが属することになる。

その登録日時に周期性はないものの、対象グループの各カテゴリ構成情報の数がＭ以上であるということは、音声から共通した環境で行われたと判定できる撮影が多数行われたことを示しており、この対象グループは、ユーザにとって、重要なイベントでの撮影に係るグループであると推定できる。

＜検索例＞
以下、上記分類情報の生成処理を通じて、生成された各テーブルの情報を用いてどのように検索が行われるのかを具体例を用いて説明する。

図２０は、デジタルカメラ３００におけるディスプレイ６の画面遷移を説明する図である。

なお、同図では、説明の簡略化のため、デジタルカメラ３００のディスプレイ６のみを示し、デジタルカメラ３００の筐体などの記載は省略している。

同図（ａ）では、重要グループテーブル９０に登録されている各重要グループのうち、いずれかの重要グループを選択するための画面（以下、「重要グループ選択画面」という）の表示例を示している。

重要グループ選択画面には、「発生頻度が高いグループ」との文字が表示されたアイコン６ｅと、「周期性があるグループ」との文字が表示されたアイコン６ｆが表示されている。

この重要グループ選択画面において、ユーザが操作パネル８を操作し、例えば、アイコン６ｆを選択すると、デジタルカメラ３００は、重要グループテーブル９０の重要グループ識別子が「ＩＧ１」である重要グループのメンバグループ識別子「Ｇ１」、「Ｇ３」、「Ｇ６」を取得し、同図（ｂ）の画面（以下、「グループ選択画面」という）をディスプレイ６に表示する。

なお、特に図示していないが、ユーザが操作パネル８を操作し、例えば、アイコン６ｅを選択すると、デジタルカメラ３００は、重要グループテーブル９０の重要グループ識別子が「ＩＧ２」である重要グループに含まれるグループの選択画面（同図（ｂ）の画面と似た画面）をディスプレイ６に表示する。

グループ選択画面には、取得したメンバグループ識別子の数「３」に対応する数のアイコン６ｇ、６ｈ、６ｉが表示されており、つまり、このグループ選択画面の例では、「周期性があるグループ」に３つのグループが含まれることを示している。

なお、このグループ選択画面の例では、各アイコンに表示される文字として、メンバグループ識別子の数に応じて、「Ａ」から「Ｚ」までのアルファベットを用いる場合を想定している。

このグループ選択画面において、ユーザが操作パネル８を操作し、例えば、アイコン６ｇを選択すると、デジタルカメラ３００は、グループテーブル８０のグループ識別子が「Ｇ１」であるグループのメンバ識別子「１」、「５１」、「１００」、・・・を取得し、同図（ｃ）の画面（以下、「サムネイル画面」という）をディスプレイ６に表示する。

サムネイル画面には、取得したメンバ識別子（構成識別子）が対応付けられた画像データのサムネイル画像６ｊ〜６ｏが表示される。

サムネイル画面において、ユーザが操作パネル８を操作し、いずれかのサムネイル画像を選択すると、特に図示していないが、対応する画像データがディスプレイ６全体に表示されることになる。

＜補足＞
以上、本発明に係る撮像装置を、実施の形態１、変形例１、２、及び実施の形態２（以下、単に「実施の形態」ともいう）に基づいて説明したが、以下のように変形することも可能であり、本発明は上述した実施の形態で示した通りの撮像装置に限られないことは勿論である。

（１）実施の形態１及び変形例２で説明した方法で特定した撮影シーンを示す情報を、画像データと対応付けておき、この撮影シーンを示す情報を画像データの検索に用いるようにしてもよい。

例えば、ディスプレイ６に複数の撮影シーンそれぞれを示すアイコンを表示し、ユーザが操作パネル８を操作していずれかのアイコンを選択した場合には、選択された撮影シーンの情報が対応付けられた各画像データのサムネイル画像を表示する。

ユーザが操作パネル８を操作していずれかのサムネイル画像を選択した場合には、例えば、図２１に示すように、選択されたサムネイル画像に対応する画像（この例では屋外の風景の画像）をディスプレイ６に表示する。また、同図では、表示された画像に重ねて、対応する撮影シーンを示すアイコン６ｄ（この例では、撮影シーン「一般屋外」を示すアイコン）が表示された例を示している。

また、変形例２で説明したように、複数の撮影シーン候補の中から、ユーザが選択した撮影シーンに特定する場合には、選択されなかった他の撮影シーンの候補を示す情報も、画像データと対応付けておき、この撮影シーンの候補を示す情報を用いて画像データを検索できるようにしてもよいし、複数の撮影シーンの候補の組合せが同一である画像データを検索できるようにしてもよい。

（２）実施の形態では、予め定義された、例えば、屋内、屋外、水中等の音声カテゴリ（この項では、「統合カテゴリ」という）毎に、その統合カテゴリに分類するための各特徴量から構成されるモデル情報が存在するものとして説明した。しかしながら、例えば、屋内１、屋内２、屋内３、屋外１、屋外２、水中１、水中２、水中３等といった、細分化された音声カテゴリ（この項では、「詳細カテゴリ」という）毎に、モデル情報が存在するものとしてもよい。

例えば、詳細カテゴリ「屋内１」、「屋内２」、「屋内３」の各尤度が、「Ｌａ１」、「Ｌａ２」、「Ｌａ３」であるとした場合に、統合カテゴリ「屋内」の尤度ａは、「Ｗａ１１×Ｌａ１＋Ｗａ１２×Ｌａ２＋Ｗａ１３×Ｌａ３」と算出できる。

ここで、Ｗａ１１、Ｗａ１２、Ｗａ１３は係数であり、合計が１になるように決定されたものである。その他の統合カテゴリの尤度についても同様に算出することができる。

（３）実施の形態１及び変形例１では、音声カテゴリ情報及び画像カテゴリ情報に基づき算出されたシーン信頼度に基づいて撮影シーンを特定するものとして説明したが、音声カテゴリ情報のみに基づいて算出したシーン信頼度に基づいて撮影シーンを特定してもよい。

また、シーン信頼度は、短時間信頼度及び長時間信頼度に基づいて算出するものとして説明したが、短時間信頼度及び長時間信頼度のいずれかをシーン信頼度としてもよい。

また、シーン信頼度は、短時間信頼度と長時間信頼度との平均値であるものとして説明したが、短時間信頼度と長時間信頼度とに重み付けをして算出するようにしてもよい。

また、短時間信頼度は２つの単位時間信頼度（つまり２秒分）に基づいて算出し、長時間信頼度は５つの単位時間信頼度（つまり５秒分）に基づいて算出するものとして説明したが、この２つ、５つという数はこれよりも多くても少なくてもよい。但し、短時間信頼度より長時間信頼度のほうが、算出に用いる単位時間信頼度の数が多くなるようにこの数を決定する必要がある。

（４）変形例２では、特定された撮影シーンに適した設定値に従って、各制御装置、画像処理部２３０が動作することを前提に、例えば、音声カテゴリ「人の声」が特定された場合には、周囲に人が存在すると推定できるため、人の顔を検出する処理を行い、検出されたときには、より適すように補正されたフォーカスや色強調等の設定値に従って、各制御装置、画像処理部２３０を動作させる例を説明した。

しかしながら、撮影シーンに適した設定値に従って、各制御装置、画像処理部２３０が動作することを前提にせず、特定された音声カテゴリに対応する設定値のみに従って、各制御装置、画像処理部２３０が動作するようにしてもよい。

その場合、図１６に示す設定テーブル６０の各設定値を構成する設定項目として、図６に示す設定テーブル３０の各設定値の設定項目「フォーカス」、「シャッタ速度」、「色強調」、「フラッシュ」等を含めるようにしてもよい。

（５）変形例２では、音声特定部２２０が、音声カテゴリ情報を構成する各音声カテゴリについての相対信頼度に基づいて、１つの音声カテゴリを特定するものとして説明したが、各音声カテゴリについての尤度に基づいて１つの音声カテゴリを特定してもよい。

（６）実施の形態１では、図７のステップＳ３で、算出した各変化量のうち、少なくとも１つが対応する閾値より大きい場合には、否定的な判定（ステップＳ３：ＮＯ）を行うものとして説明した。しかしながら、算出した各変化量の全てが対応する閾値より大きい場合にのみ、否定的な判定を行うようにしてもよいし、ある特定の特徴についての変化量が閾値より大きい場合にのみ否定的な判定を行うようにしてもよい。

（７）実施の形態１の図９及び変形例１の図１１のステップＳ２６では固定の基準値（以下、「第１基準値」という）を用いるものとして説明したが、その第１基準値以上であるシーン信頼度の数が所定数未満である場合には、第１基準値よりも低く設定された第２基準値を用い、第１基準値以上であるシーン信頼度の数が所定数以上である場合には、第１基準値より高く設定された第３基準値を用いるようにしてもよい。

また、ステップＳ２６で、基準値以上であったシーン信頼度の数が０の場合には（ステップＳ２６：０）、最大であるシーン信頼度に係る撮影シーンに特定するようにしてもよい。

（８）実施の形態１の図９及び変形例１の図１１では、ステップＳ２８で、基準値以上であった各シーン信頼度のうち、最大であるシーン信頼度に係る撮影シーンに特定するものとして説明したが、他の基準で撮影シーンを特定してもよい。例えば、基準値以上であった各シーン信頼度のうち、基準値との差分が最大であるシーン信頼度に特定してもよい。

（９）変形例１で説明した処理（図１１参照）は、図１に示すダイヤルボタン７が自動最適化モードに設定されている場合に実行されるものとして説明したが、ダイヤルボタン７がこの自動最適化モードとは別の特定のモードに設定されている場合に実行されるようにしてもよい。

また、図１１では、ステップＳ２６において、基準値以上であったシーン信頼度の数が０の場合（ステップＳ２６：０）にのみ、ステップＳ３０〜Ｓ３２の処理を行うものとして説明したが、基準値以上であるシーン信頼度の数によらず、ステップＳ３０〜３２の処理を行うようにしてもよい。即ち、ステップＳ２５の処理が完了すると、ステップＳ３０〜３２の処理を行うようにしてもよい。

（１０）実施の形態において、ユーザによる選択操作は、操作パネル８を介して行われるものとして説明したが、ディスプレイ６をタッチパネルとし、このタッチパネルを介してユーザが操作できるようにしてもよい。

（１１）変形例２では、例えば、音声カテゴリ「人の声」に特定された場合に、顔検出を行うものとして説明したが、特定された音声カテゴリによらず、顔検出処理（この項では、「第１顔検出処理」という）を行うようにし、特に、音声カテゴリ「人の声」に特定された場合には、上記通常の顔検出とは異なる処理を含む顔検出処理（この項では、「第２顔検出処理」という）を行うようにしてもよい。

この第２顔検出処理とは、例えば、正面を向いた顔だけでなく、横を向いた顔も検出する処理や、人が存在すると推定できているので、正面を向いた顔を検出する際に使用する閾値を下げた状態で顔検出処理を行うことが考えられる。なお、当然、横顔を検出するためには、対応するテンプレート画像が必要となる。

なお、ここでは、顔検出の場合を例に説明したが、その他の物体の検出処理についても同様に変形でき、更に、検出処理以外の処理についてもその処理の精度や処理内容の詳細化を行うように変形することができる。

（１２）変形例１では、図１３に示すように、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ６に表示するものとして説明したが、各アイコンの表示順はこれに限らず、例えば、シーン信頼度が大きい順に右から、上から、又は下から表示するようにしてもよい。また、アイコンを表示するのではなく、各撮影シーンの候補を表す文字列を並べたリスト形式で表示してもよい。また、アイコン表示又はリスト表示において、シーン信頼度の大きさに応じて、表示するアイコンのサイズや、文字のサイズを変更してもよい。

（１３）実施の形態に係る変化量算出部１３２は、連続して入力された単位時間長の音声データに係る特徴量の差分を算出するものとして説明したが、これに限らず、例えば、一定時間内データ差分、分散、回帰式係数を用いるようにしてもよい。

ここで、一定時間内データ差分とは、最小データ単位をフレームとした場合のフレーム間差分を含み、ある基準時間から見て、２フレーム先のデータとの差分であったり、１〜ｎフレーム先の全差分の平均であるフラックスである。

また、分散とは、一定時間内のデータの一般的な標本分散や不偏分散として定義されている内容で算出されるものである。

また、回帰式係数とは、回帰分析手法として最小二乗法やロジスティック回帰手法等で算出されるモデル係数であり、そのモデル係数からモデルがどの程度変化しているかを判定する。

（１４）実施の形態に係る状況判定部は、特定した音声カテゴリの変化が激しいか否かを、１以上の音声カテゴリを特定した際に、特定した各音声カテゴリの少なくも一部が、対象データＤｎの１つ前及び２つ前に処理した単位時間長の音声データＤｎ−１、Ｄｎ−２について特定された１以上の音声カテゴリと重複するか否かによって判定する例を説明した。

しかしながら、特定した音声カテゴリの変化が激しいか否かを判定する方法は、この方法に限らず、例えば、音声カテゴリの変化率や重複度によって判定してもよい。

ここで、音声カテゴリの変化率とは、例えばＴ秒間のデータ枠内でのカテゴリ変化数をＭとした場合、Ｍ／Ｔで算出されるものである。また、音声カテゴリの重複度は、１秒間毎に判定された尤度の高いカテゴリ数をＣ１とした場合、例えばＴ秒間で算出される平均値で算出されるものである。

（１５）図１に示すスピーカ・マイクロフォン５は、撮影時において、外部の音等を精度よく集音できる位置に配置されていることが望ましく、同図に示す位置に限らず、例えば、デジタルカメラ１００の前面や背面に配置されていてもよい。

また、例えば、デジタルカメラ１００を中心とした、例えば半径数ｍ以内の領域（以下、「近距離領域」という）で、人の会話音等の音が発生した場合には、比較的大きな音として、スピーカ・マイクロフォン５で集音されることになるので、上記近距離領域の外側（以下、「遠距離領域」という）で発生した音を、スピーカ・マイクロフォン５で集音できない可能性ある。この遠距離領域で発生した音のほうが、デジタルカメラ１００の撮影環境をよく表していることもある。

そこで、例えば、スピーカ・マイクロフォン５以外に、指向性のある１以上のマイクロフォンを備えるようデジタルカメラ１００を変形し、スピーカ・マイクロフォン５及び各マイクロフォンで集音した音のうち、変化量算出部１３２で、各変化量が所定値未満となる音を用いて撮影シーンを判定するようにしてもよい。

（１６）実施の形態では、単位時間長（１秒）の音声データを単位として処理を行うこととして説明したが、この１秒は一例であり、これより長くても短くても良い。

また、判別しようとする撮影シーン毎や、判別しようとする音声カテゴリ毎に、この処理単位を変更してもよい。
（１７）実施の形態では、撮影シーン毎に、各設定値を定義しておく例を説明したが、例えば、特徴量の閾値群毎に、各設定値を定義しておき、対象データから抽出された各特徴量が対応する閾値以上ならば、定義された設定値を各制御装置や画像処理部に設定するようなことも考えられる。この場合、対象データから抽出された各特徴量と各モデル情報とのマッチング処理も行う必要がない。なお、上記閾値は上限値と下限値とによる幅を持った値であってもよい。

（１８）実施の形態では、カテゴリ判定部１３４によるマッチング処理には、機械学習手法である判別器が用いられるものとして説明したが、機械学習手法によらず、ある判別基準に従って、ある特徴量を持った信号が属する、ある定義された分類項目を判別することができる方法であればよい。例えば、パターンマッチング手法として、ベクトル相関を利用するものや、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ、線形予測符号）法、主成分分析、ニューラルネットワーク、遺伝的アルゴリズムやベイズ推定等を適応することが考えられる。

（１９）実施の形態では、１つのセットからなる各モデル情報を用いるものとして説明したが、例えば、使用するセットを切り替えるようにしてもよい。例えば、ＧＰＳ（Global Positioning System）によりデジタルカメラの位置を特定し、その位置で使用される言語等に応じた各モデルを含むセットを使用するようにしてもよい。

（２０）実施の形態では、特徴量抽出部１３１が抽出する特徴量は、例えば、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどで表される音の各属性のうち、２以上の属性それぞれを成分として構成されるベクトル量であるものとして説明したが、１つの属性を成分として構成されるものであってもよい。

（２１）実施の形態２では、カテゴリ構成テーブル７０に登録日時を登録するものとして説明したが、カテゴリ構成テーブル７０への登録日時の登録は行わないこととすると共に、この登録日時の代わりに、画像データが生成された日時（撮像日時）を取得するようにしてもよい。

（２２）実施の形態において説明した各構成要素のうち、全部又は一部を１チップ又は複数チップの集積回路で実現してもよいし、コンピュータのプログラムで実現してもよいし、その他どのような形態で実現してもよい。

（２３）実施の形態において説明した各処理（図７、８、９、１１、１５、１９参照）をプロセッサに実行させるためのプログラムを、記録媒体に記録し又は各種通信路等を介して、流通させ頒布することもできる。このような記録媒体には、ＩＣカード、光ディスク、フレキシブルディスク、ＲＯＭ、フラッシュメモリ等がある。流通、頒布されたプログラムは、機器におけるプロセッサで読み取り可能なメモリ等に格納されることにより利用に供され、そのプロセッサがそのプログラムを実行することにより実施の形態で示したデジタルカメラの各機能が実現される。

（２４）実施の形態では、本発明に係る撮像装置の一実施形態としてのデジタルカメラについて説明したが、撮像機構を備える他の機器、例えば、携帯電話機や、デジタルビデオカメラであってもよいし、デジタルではない一眼レフカメラであってもよい。

但し、デジタルではない一眼レフカメラにおいては、実施の形態で説明した画像処理部による色補正等の画像処理は行われない。

また、実施の形態では、デジタルカメラの主要部の構成を説明したが、一般的なデジタルカメラが備える他の構成を備えてもよいのは勿論である。

例えば、カメラの状態や変化情報を検出するセンサや、データの入出力処理を行う入出力インタフェース手段や、各種アプリケーションプログラムを記憶したプログラムメモリや、ファイルＤＢ（データベース）及び属性情報ＤＢ（データベース）や各種処理で生じたデータを格納するデータメモリや、各構成要素を制御するためのコントロール信号や各種機器相互間で授受されるデータ転送を行うためのデータバス等を有する構成としてもよい。

実施の形態では、特に詳しく説明しなかったが、上記ファイルＤＢ、属性情報ＤＢは、実施の形態で説明した記録メディアに記録される。

ここで、ファイルＤＢは、データ入力手段により入力された複数のファイルデータを登録したものである。ファイルデータとしては、例えば写真画像データや動画像データや音楽データが含まれる。

また、属性情報ＤＢは、ファイルＤＢに格納されているデータの属性情報データを登録したものである。属性情報としては、例えば写真画像データ又は動画像データの撮像年月日を示す時間情報や撮像場所を示す場所情報が含まれる。

なお、上記記録メディアは、半導体メモリに限らず、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等の大容量メディアディスクで実現されてもよい。また、プログラムメモリも、これらの各種のストレージデバイスによって実現される。プログラムメモリに記憶された各種アプリケーションプログラムには、実施の形態で説明した各種処理を行うためのプログラムの他、デジタルカメラ全体の制御処理を行うためのプログラムが記憶され、実施の形態で説明したプロセッサやＤＳＰがこれらのプログラムを実行されることにより、デジタルカメラ全体の制御を行う制御手段の機能が実現される。

（２５）実施の形態に係るデジタルカメラに、上記（１）〜（２４）の一部又は全部の変形を組み合わせて適用してもよい。

（２６）以下、更に本発明の一実施形態に係る撮像装置の構成及びその変形例と各効果について説明する。

（ａ）本発明の一実施形態に係る撮像装置は、撮影機構と、撮影環境を反映した情報を含む音声データを取得する音声取得手段と、前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備えることを特徴とする。

上記構成を備える本発明の一実施形態に係る撮像装置によれば、撮影環境に由来する音声データに基づいて設定値を選定するため、例えばシャッタ速度、撮像素子の感度等の撮影機構の制御について、撮影している環境に適した制御が行われ得るようになる。

（ｂ）また、前記撮像装置は、前記音声取得手段により取得された音声データから撮影環境を表す環境音声特徴量を抽出する抽出部を有し、複数の撮影シーンそれぞれと所定の関係性を有する各種の音声の特徴それぞれを定める各モデル情報を記憶し、各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて、１つの撮影シーンを特定するシーン特定手段を備え、前記設定手段は、複数の撮影シーンの各々と１又は複数の設定値とを対応付けた対応情報を記憶しており、前記シーン特定手段により特定された撮影シーンに前記対応情報により対応付けられた設定値を、前記撮影機構の制御用の設定値として選定することとしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、撮影環境を表す環境音特徴量と撮影シーンと関係付けられる各種のモデル情報との照合を行うことで、適切に撮影シーンが特定され得るので、撮影シーン毎に予め適切に設定値を定めておけば、撮影に適した制御が行われ得るようになる。

（ｃ）また、前記抽出部は、前記音声データの特徴を示す特徴量を所定の単位時間毎に特定し、複数の単位時間にわたり特徴量の時間的変化が所定量より小さい当該複数の単位時間についての各特徴量を前記環境音声特徴量として抽出することとしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、特徴量の時間的変化が所定量以上となるような偶発的に生じた音の影響が除外されるので、適切に撮影シーンが特定され得る。

（ｄ）また、前記音声データの特徴を示す特徴量は、音声パワー、ゼロクロス、スペクトル関連特徴量、ケプストラム関連特徴量及びクロマベクトルで表される音の各属性のうち、２以上の属性それぞれを成分として構成されるベクトル量であり、前記モデル情報は、前記音声データの特徴を示す特徴量との比較用に、前記ベクトル量の各成分についての値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、音声に係る複数の特徴成分が照合されるため、単一成分の照合と比べて適切に撮影シーンが特定される可能性が高まる。

（ｅ）また、前記モデル情報は、前記ベクトル量の各成分についての値として平均値及び分散値を示す情報を含んで構成され、前記シーン特定手段は、前記各モデル情報毎の平均値に係るベクトル量と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々と、各モデル情報毎のベクトル量の分散値とに基づいて、撮影シーンの前記特定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報は、音声に係る複数の特徴成分を有するサンプルの複数の集合を表し、その各サンプルの成分値の分散の度合いにも基づいて撮影シーンの特定がなされるため、適切に特定がされ得る。

（ｆ）また、前記シーン特定手段は、前記環境音声特徴量を構成する複数の単位時間各々についての特徴量と、前記各モデル情報との双方のベクトル量についての一致の程度を示す尤度各々のうち、一のモデル情報に関して所定数の連続する単位時間についての尤度がいずれも所定値より大きいという条件を満たさない尤度を除外して残る尤度各々に基づいて、撮影シーンの前記特定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、環境に由来する音声に係る特徴のうち瞬時のみのものを排除することにより、多くの場合において適切に撮影シーンの特定がなされ得る。

（ｇ）また、前記撮像装置は、更に前記各モデル情報と前記撮影機構の制御用の設定値を補正するための処理と対応付けるための情報を記憶し、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度が所定値より大きいものとなったところのモデル情報を特定し、当該特定したモデル情報に対応する処理を実行する補正手段を備えることとしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、各モデル情報が表す特定の特徴に関連して、設定値を補正することで、更に適切な撮影機構の制御を実現し得るようになる。

（ｈ）また、前記各モデル情報は、複数のグループのいずれか１つに属し、前記シーン特定手段は、各モデル情報と係数とを対応付けて記憶し、各グループについて、当該グループに属する各モデル情報についての尤度及び係数に基づくグループ尤度を算出して、各グループ尤度に基づいて、撮影シーンの前記特定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、予め適切に係数を設定しておくことを前提として、一層適切に撮影機構の制御が行われ得る。

（ｉ）また、前記撮像装置は、ユーザによる操作を受け付ける操作受付手段を備え、前記シーン特定手段は、前記各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて撮影シーンの複数の候補を選出し、選出した候補と、前記操作受付手段により受け付けられたユーザによる操作とに基づいて、候補のうちの１つを撮影シーンとして特定することとしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、撮影シーンの候補が適切に絞り込まれ得るので、ユーザは簡単な操作で撮影シーンを選ぶことができるようになる。

（ｊ）また、前記撮影機構は、撮影により画像データを生成する画像データ生成手段を備え、前記設定手段は、前記音声データ及び前記画像データに基づいて、当該画像データの撮影後に用いるための前記撮影機構の制御用の設定値の前記選定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、音声のみならず画像にも基づいて設定値の選定が行われるため、撮影している環境に一層適した制御が行われ得る。

（２７）本発明に係る撮影機構は、デジタルカメラ等の一般的な撮像装置において知られている撮影機構に相当し、例えば、実施の形態に係る撮影レンズ１、ＣＣＤやＣＭＯＳ等の撮像素子を含む画像データ生成部１４０や、撮影レンズ１の駆動を制御する装置や、シャッタや、シャッタの駆動を制御する制御装置や、撮像素子の感度を制御する装置や、撮影した画像データに対する処理を施す画像処理部を含んでも良い。

また、本発明に係る音声取得手段は、実施の形態に係る音声取得部１１０に相当し、本発明に係る設定手段は、実施の形態に係る設定部１２０に相当し、本発明に係るシーン特定手段は、実施の形態に係るシーン特定部に相当し、本発明に係る補正手段は、実施の形態に係る音声特定部２２０及び画像処理部２３０に相当し、本発明に係る操作受付部は、実施の形態に係る操作パネル８に相当し、本発明に係る画像データ生成手段は、実施の形態に係る画像データ生成部１４０に相当する。

本発明は、ＤＳＣ等の撮像装置における撮影機構の制御に利用できる。

１撮影レンズ
２ストロボ発光機
３センサ
４レリーズボタン
５スピーカ・マイクロフォン
６表示ディスプレイ
７ダイヤルボタン
８操作パネル
１００、２００、３００デジタルカメラ
１１０音声取得部
１２０設定部
１３０、２１０、３１０シーン特定部
１３１特徴量抽出部
１３２変化量算出部
１３３基準記憶部
１３４カテゴリ判定部
１３５信頼度算出部
１３６、２１１、３１１状況判定部
１３７撮影シーン判定部
１４０画像データ生成部
１４１、２３０画像処理部
２２０音声特定部
３２０分類情報記憶部
３３０分類情報生成部

しかしながら、特許文献１及び２のカメラはいずれも、必ずしも撮影制御用の設定値を適切に設定できるとは限らない。
そこで、本発明は係る問題に鑑みてなされたものであり、異なる手法を用いて、適切な設定に有用な撮像装置を提供することを目的とする。

以下、本発明に係る撮像装置の一実施形態としてのデジタルスチルカメラ（以下、単に「デジタルカメラ」という）について、図面を参照しながら説明する。
≪実施の形態１≫
実施の形態１に係るデジタルカメラ１００は、撮影環境（以下、「撮影シーン」ともいう）毎に、その撮影シーンに適した撮影機構制御用の複数の設定値を予め記憶しており、周囲の音声に基づいて撮影シーンを自動的に判定し、撮影シーンに適した撮影機構制御用の各設定値を自動的に設定することで、ユーザの操作負担を軽減させつつ、綺麗な画像の生成に利用できるものである。

＜装置構成＞
まず、実施の形態１に係るデジタルカメラ１００の装置構成について説明する。
図１（ａ）は、デジタルカメラ１００の正面及び上面の外観を示す斜視図であり、（ｂ）はデジタルカメラ１００の背面及び上面の外観を示す斜視図である。

＜機能構成＞
次に、実施の形態１に係るデジタルカメラ１００の機能構成について説明する。
図２は、デジタルカメラ１００の主要部の機能構成を示すブロック図である。

デジタルカメラ１００は、同図に示すように、音声取得部１１０、設定部１２０、シーン特定部１３０、画像データ生成部１４０、及び画像処理部１４１を備える。
なお、デジタルカメラ１００は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、プロセッサ及びメモリを含んで構成されており、このメモリに記憶されているプログラムをＤＳＰ及びプロセッサが実行することにより設定部１２０、シーン特定部１３０、画像処理部１４１の機能が実現される。

ここで、シーン特定部１３０の詳細な機能構成について、図３を用いて説明する。
図３は、シーン特定部１３０の機能構成を示すブロック図である。
同図に示すように、シーン特定部１３０は、特徴量抽出部１３１、変化量算出部１３２、基準記憶部１３３、カテゴリ判定部１３４、信頼度算出部１３５、状況判定部１３６、及び撮影シーン判定部１３７を含んで構成される。

なお、この実施の形態では、本発明に係る抽出部を、特徴量抽出部１３１と変化量算出部１３２とに分けて記載しているが、１つの機能部として構成するようにしてもよい。
以下では、シーン特定部１３０は、単位時間長（例えば１秒）の音声データを単位として処理を行うこととし、現在処理中の単位時間長の音声データのことを「対象データ」ともいう。

変化量算出部１３２は、特徴量抽出部１３１から受領した各特徴量について、その特徴量に対応する１つ前に受領した特徴量に対する変化量を算出する機能を有する。
また、変化量算出部１３２は、特徴毎に閾値を保持しており、算出した各特徴量の変化量が各閾値以下である場合にのみ、特徴量抽出部１３１から受領した各特徴量をカテゴリ判定部１３４に送出する。

なお、モデル情報は、ベクトル量の各成分についての値としての平均値と分散値とを示す情報を含むものとする。
カテゴリ判定部１３４は、変化量算出部１３２から送出された各特徴量と基準記憶部１３３に格納されている各モデル情報とのマッチング処理を行い、マッチングの程度を示す各尤度を算出する機能を有する。

また、ある対象データαについての音声カテゴリＡの尤度と、別の対象データβについての音声カテゴリＡの尤度とが同一の値であっても、対象データαについての他の音声カテゴリＢの尤度のほうが、対象データβについての他の音声カテゴリＢの尤度よりも小さい場合には、対象データαについての音声カテゴリＡの尤度のほうが、信頼性が高いといえる。これは、対象データαが音声カテゴリＢに分類されることの信頼性がより低いからである。

そのため、信頼度算出部１３５は、各音声カテゴリに対応する各モデルの分散値、及び他のモデルの中心（つまり平均値）からの距離を考慮した各相対信頼度を算出する。
例えば、対象データについての３つの音声カテゴリＡ、Ｂ、Ｃの各尤度をａ、ｂ、ｃとし、各音声カテゴリに対応する各モデルの分散値をｐ、ｑ、ｒとした場合に、音声カテゴリＡについての相対信頼度Ｘａは次の数式で算出される。なお、音声カテゴリＢについての相対信頼度Ｘｂ、及び音声カテゴリＣについての相対信頼度Ｘｃについても同様に算出することができるため、相対信頼度Ｘｂ、Ｘｃを算出するための数式の記載は省略する。

相対信頼度Ｘａの値が大きいほど、尤度ａの信頼度が高いことを意味する。
信頼度算出部１３５は、各音声カテゴリについて、その音声カテゴリについての音声カテゴリ識別子と尤度と相対信頼度とからなる組を状況判定部１３６に送出する。以下、この各組を「信頼度情報」という。

撮影シーン判定部１３７は、状況判定部１３６から送出された音声カテゴリ情報と、画像処理部１４１から送出された画像カテゴリ情報と、図５に示すシーン対応テーブルとに基づいて、各撮影シーンについての信頼度（以下、「単位時間信頼度」という）を算出し、過去に算出した各撮影シーンについての単位時間信頼度を含む、複数の単位時間信頼度に基づいて、各撮影シーン（一般屋内、屋内パーティ、屋内演奏会、一般屋外、屋外花火、屋外スポーツ、屋外運動会、水中等）のうち１つの撮影シーンを特定する機能を有する。１つの撮影シーンを特定すると、撮影シーン判定部１３７は、特定した撮影シーンを示す情報（以下、「シーン識別子」という）を設定部１２０に送出する。

再び図２を用いて、デジタルカメラ１００の残りの各部について説明する。
画像データ生成部１４０は、撮影レンズ１、ＣＣＤやＣＭＯＳ等の撮像素子、及びＡ／Ｄ変換器を含み、被写体から入射する光を撮影レンズ１によりＣＣＤ等に集光し、この光をＣＣＤ等で電気信号に変換し、この電気信号をＡ／Ｄ変換器によりデジタル信号に変換することによって、画像データ（例えば、６４０×４８０画素分の輝度データ群）を生成し、画像処理部１４１に送出する機能を有する。

＜データ＞
以下、デジタルカメラ１００において使用されるデータについて説明する。
＜音声カテゴリ基準テーブル＞
図４は、音声カテゴリ基準テーブル１０のデータ構成及び内容例を示す図である。

なお、同図に示す「Ｌａ」〜「Ｌｉ」、「Ｒａ」〜「Ｒｉ」は具体的な数値を示すものとして説明する。
ここで、音声カテゴリ識別子１１は、対応する音声カテゴリの識別情報であり、ここでは、他の音声カテゴリ識別子と重複しない文字列を用いた例を示している。

＜シーン対応テーブル＞
図５は、シーン対応テーブル２０のデータ構成及び内容例を示す図である。
シーン対応テーブル２０は、撮影シーン毎に、シーン識別子２１と、音声カテゴリ毎の重み付け値２２と、画像カテゴリ毎の重み付け値２３とを対応付けたデータを登録したテーブルであり、撮影シーン判定部１３７が単位時間信頼度を算出する際に参照する。

なお、同図における「Ｗａ１」〜「Ｗｎ５」は、１以下の具体的な数値を示すものとして説明する。
ここで、シーン識別子２１は、対応する撮影シーンの識別情報であり、ここでは、他のシーン識別子と重複しない文字列を用いた例を示している。

＜設定テーブル＞
図６は、設定テーブル３０のデータ構成及び内容例を示す図である。
設定テーブル３０は、撮影シーン毎に、シーン識別子３１と、各設定値３２とを対応付けたデータを登録したテーブルであり、設定部１２０が撮影シーンに対応する撮影機構制御用の設定値を取得する際に参照する。

ここで、シーン識別子３１は、対応する撮影シーンの識別情報であり、上記シーン対応テーブル２０のいずれかのシーン識別子と一致するものである。
また、各設定値３２は、対応する撮影シーンに適した撮影機構制御用の設定値であり、フォーカス、シャッタ速度、ホワイトバランス、感度、色強調、フラッシュ等の設定項目についての設定値から構成される。なお、色強調欄における「×」は、特に、色強調を行わないことを示している。

＜動作＞
以下、デジタルカメラ１００の動作について説明する。
＜音声カテゴリ特定処理＞
図７は、シーン特定部１３０による音声カテゴリの特定処理を示すフローチャートである。

この画像カテゴリの特定処理の流れは、図７を用いて説明した音声カテゴリの特定処理の流れとよく似たものであるため、ここでは、簡単に説明する。
また、この画像カテゴリの特定処理も音声カテゴリの特定処理と同様にデジタルカメラ１００が撮影可能な状態で、かつダイヤルボタン７が自動最適化モードに設定されている場合に開始され、デジタルカメラ１００が撮影不可能な状態となったときに終了する。

画像処理部１４１は、画像カテゴリ情報を撮影シーン判定部１３７へ送出し（ステップＳ１８）、画像処理部１４１は、再びステップＳ１１から処理を行う。
ここで、画像カテゴリ情報は、画像カテゴリ毎に、画像カテゴリ識別子と相対信頼度とを対応付けた情報であり、この相対信頼度として、ステップＳ１６で特定された画像カテゴリについては、ステップＳ１５で算出したその画像カテゴリについての相対信頼度を、ステップＳ１６で特定されなかった画像カテゴリについては「０」を対応付けたものである。

＜具体例＞
以下では、上記ステップＳ２６以降の処理を具体例を用いて説明する。
図１０は、各撮影シーンについての基準値と、撮影シーン判定部１３７が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。

以下、この変形デジタルカメラにおける撮影シーン判定部を「変形シーン判定部」という。
＜動作＞
以下、変形デジタルカメラの動作を説明する。

＜具体例＞
以下では、上記ステップＳ２６以降の処理を具体例を用いて説明する。
図１２は、各撮影シーンについての基準値と、変形シーン判定部が算出した短時間信頼度、長時間信頼度、及びシーン信頼度との例を示す図である。

図１３は、各撮影シーンの候補を表すアイコンの表示例を示す図である。
図１２に示す例では、算出されたシーン信頼度５２のうち、対応する基準値以上であるシーン信頼度に係る撮影シーンが存在しないため（図１１のステップＳ２６：０）、変形シーン判定部は、シーン信頼度が０より大きい各撮影シーン「一般室内」、「屋内パーティ」、「一般屋外」を候補として、シーン信頼度が大きい順に左から、各撮影シーンの候補を表すアイコンをディスプレイ６に表示する（ステップＳ３０）。

なお、以下では、上述の実施の形態１に係るデジタルカメラ１００からの変更部分を中心に説明する。
＜機能構成＞
まず、変形例２に係るデジタルカメラ２００の機能構成について説明する。

図１４は、デジタルカメラ２００の主要部の機能構成を示すブロック図である。
同図に示すように、デジタルカメラ２００は、実施の形態１に係るデジタルカメラ１００のシーン特定部１３０、画像処理部１４１に代えて、シーン特定部２１０、画像処理部２３０を備え、更に音声特定部２２０を備えるものである。

ここで、シーン特定部２１０は、実施の形態１に係るシーン特定部１３０の状況判定部１３６に代えて、状況判定部２１１を備える点で、シーン特定部１３０と異なる。
なお、この変形例では、音声カテゴリに「人の声」、「動物の鳴き声」、「電車」、「風」等（以下、「新たな音声カテゴリ」ともいう）を含むものとし、基準記憶部１３３は、新たな音声カテゴリに対応する各モデル情報を保持し、また、実施の形態１で説明した各種テーブルにおいても新たな音声カテゴリに対応する値が登録されているものとする。

ここで、対応処理とは、例えば、人の顔、動物の身体、机や椅子等の人工物、ビル等の建物等の物体検出処理や、動き検出処理や、ブレ補正処理等が一例として挙げられる。
＜動作＞
以下、デジタルカメラ２００の動作について説明する。

＜機能構成＞
まず、実施の形態２に係るデジタルカメラ３００の機能構成について説明する。
図１７は、デジタルカメラ３００の主要部の機能構成を示すブロック図である。

なお、この実施の形態では、画像処理部１４１は、レリーズボタン４から撮影指示がなされた旨の通知を受け付けると、分類情報生成部３３０にその旨を通知するものとする。
ここで、シーン特定部３１０は、実施の形態１に係るシーン特定部１３０の状況判定部１３６に代えて、状況判定部３１１を備える点で、シーン特定部１３０と異なるが、状況判定部３１１は、音声カテゴリ情報を撮影シーン判定部１３７へ送出する際に、分類情報生成部３３０にも送出する点以外は、実施の形態１に係る状況判定部１３６と同様の機能を有する。

＜グループテーブル＞
図１８（ｂ）は、グループテーブル８０のデータ構成及び内容例を示す図である。
グループテーブル８０は、グループ毎に、グループ識別子８１と、メンバ識別子８２とを対応付けたデータを登録したテーブルであり、分類情報生成部３３０により登録される。なお、対応するグループ識別子とメンバ識別子とからなる情報（いわゆるレコード）は、このデジタルカメラ３００の使用開始時においては、１件も登録されていないものとする。

＜重要グループテーブル＞
図１８（ｃ）は、重要グループテーブル９０のデータ構成及び内容例を示す図である。
重要グループテーブル９０は、重要グループ毎に、重要グループ識別子９１と、メンバグループ識別子９２とを対応付けたデータを登録したテーブルであり、分類情報生成部３３０により登録される。

ここで、重要グループ識別子９１は、対応する重要グループの識別情報であり、他の重要グループ識別子と重複しない文字列である。
また、メンバグループ識別子９２は、対応する重要グループを構成するメンバであるグループの識別情報であり、上記グループテーブル８０のいずれかのグループ識別子と一致するものである。なお、デジタルカメラ３００の使用開始時においては、メンバグループ識別子９２には、いずれのグループ識別子も登録されていないものとする。

＜動作＞
以下、デジタルカメラ３００の動作について説明する。
＜分類情報生成処理＞
図１９は、分類情報生成部３３０による分類情報の生成処理を示すフローチャートである。

ここでの周期性とは、対象グループのメンバである各カテゴリ構成情報が、例えば、１日に１回、週に１回、月に１回といったように、定期的に登録されていることをいう。
この周期性があるかの判定は、一般的な周波数分析の手法により行うことができるため、ここでは詳細な説明は省略する。

図２０は、デジタルカメラ３００におけるディスプレイ６の画面遷移を説明する図である。
なお、同図では、説明の簡略化のため、デジタルカメラ３００のディスプレイ６のみを示し、デジタルカメラ３００の筐体などの記載は省略している。

サムネイル画面には、取得したメンバ識別子（構成識別子）が対応付けられた画像データのサムネイル画像６ｊ〜６ｏが表示される。
サムネイル画面において、ユーザが操作パネル８を操作し、いずれかのサムネイル画像を選択すると、特に図示していないが、対応する画像データがディスプレイ６全体に表示されることになる。

ここで、Ｗａ１１、Ｗａ１２、Ｗａ１３は係数であり、合計が１になるように決定されたものである。その他の統合カテゴリの尤度についても同様に算出することができる。
（３）実施の形態１及び変形例１では、音声カテゴリ情報及び画像カテゴリ情報に基づき算出されたシーン信頼度に基づいて撮影シーンを特定するものとして説明したが、音声カテゴリ情報のみに基づいて算出したシーン信頼度に基づいて撮影シーンを特定してもよい。

また、シーン信頼度は、短時間信頼度及び長時間信頼度に基づいて算出するものとして説明したが、短時間信頼度及び長時間信頼度のいずれかをシーン信頼度としてもよい。
また、シーン信頼度は、短時間信頼度と長時間信頼度との平均値であるものとして説明したが、短時間信頼度と長時間信頼度とに重み付けをして算出するようにしてもよい。

（８）実施の形態１の図９及び変形例１の図１１では、ステップＳ２８で、基準値以上であった各シーン信頼度のうち、最大であるシーン信頼度に係る撮影シーンに特定するものとして説明したが、他の基準で撮影シーンを特定してもよい。例えば、基準値以上であった各シーン信頼度のうち、基準値との差分が最大であるシーン信頼度に係る撮影シーンに特定してもよい。

また、分散とは、一定時間内のデータの一般的な標本分散や不偏分散として定義されている内容で算出されるものである。
また、回帰式係数とは、回帰分析手法として最小二乗法やロジスティック回帰手法等で算出されるモデル係数であり、そのモデル係数からモデルがどの程度変化しているかを判定する。

しかしながら、特定した音声カテゴリの変化が激しいか否かを判定する方法は、この方法に限らず、例えば、音声カテゴリの変化率や重複度によって判定してもよい。
ここで、音声カテゴリの変化率とは、例えばＴ秒間のデータ枠内でのカテゴリ変化数をＭとした場合、Ｍ／Ｔで算出されるものである。また、音声カテゴリの重複度は、１秒間毎に判定された尤度の高いカテゴリ数をＣ１とした場合、例えばＴ秒間で算出される平均値で算出されるものである。

（１６）実施の形態では、単位時間長（１秒）の音声データを単位として処理を行うこととして説明したが、この１秒は一例であり、これより長くても短くても良い。
また、判別しようとする撮影シーン毎や、判別しようとする音声カテゴリ毎に、この処理単位を変更してもよい。
（１７）実施の形態では、撮影シーン毎に、各設定値を定義しておく例を説明したが、例えば、特徴量の閾値群毎に、各設定値を定義しておき、対象データから抽出された各特徴量が対応する閾値以上ならば、定義された設定値を各制御装置や画像処理部に設定するようなことも考えられる。この場合、対象データから抽出された各特徴量と各モデル情報とのマッチング処理も行う必要がない。なお、上記閾値は上限値と下限値とによる幅を持った値であってもよい。

但し、デジタルではない一眼レフカメラにおいては、実施の形態で説明した画像処理部による色補正等の画像処理は行われない。
また、実施の形態では、デジタルカメラの主要部の構成を説明したが、一般的なデジタルカメラが備える他の構成を備えてもよいのは勿論である。

実施の形態では、特に詳しく説明しなかったが、上記ファイルＤＢ、属性情報ＤＢは、実施の形態で説明した記録メディアに記録される。
ここで、ファイルＤＢは、データ入力手段により入力された複数のファイルデータを登録したものである。ファイルデータとしては、例えば写真画像データや動画像データや音楽データが含まれる。

なお、上記記録メディアは、半導体メモリに限らず、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等の大容量メディアディスクで実現されてもよい。また、プログラムメモリも、これらの各種のストレージデバイスによって実現される。プログラムメモリに記憶された各種アプリケーションプログラムには、実施の形態で説明した各種処理を行うためのプログラムの他、デジタルカメラ全体の制御処理を行うためのプログラムが含まれ、実施の形態で説明したプロセッサやＤＳＰがこれらのプログラムを実行されることにより、デジタルカメラ全体の制御を行う制御手段の機能が実現される。

（２５）実施の形態に係るデジタルカメラに、上記（１）〜（２４）の一部又は全部の変形を組み合わせて適用してもよい。
（２６）以下、更に本発明の一実施形態に係る撮像装置の構成及びその変形例と各効果について説明する。

これにより、本発明の一実施形態に係る撮像装置によれば、予め適切に係数を設定しておくことを前提として、一層適切に撮影機構の制御が行われ得る。
（ｉ）また、前記撮像装置は、ユーザによる操作を受け付ける操作受付手段を備え、前記シーン特定手段は、前記各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて撮影シーンの複数の候補を選出し、選出した候補と、前記操作受付手段により受け付けられたユーザによる操作とに基づいて、候補のうちの１つを撮影シーンとして特定することとしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、撮影シーンの候補が適切に絞り込まれ得るので、ユーザは簡単な操作で撮影シーンを選ぶことができるようになる。
（ｊ）また、前記撮影機構は、撮影により画像データを生成する画像データ生成手段を備え、前記設定手段は、前記音声データ及び前記画像データに基づいて、当該画像データの撮影後に用いるための前記撮影機構の制御用の設定値の前記選定を行うこととしてもよい。

これにより、本発明の一実施形態に係る撮像装置によれば、音声のみならず画像にも基づいて設定値の選定が行われるため、撮影している環境に一層適した制御が行われ得る。
（２７）本発明に係る撮影機構は、デジタルカメラ等の一般的な撮像装置において知られている撮影機構に相当し、例えば、実施の形態に係る撮影レンズ１、ＣＣＤやＣＭＯＳ等の撮像素子を含む画像データ生成部１４０や、撮影レンズ１の駆動を制御する装置や、シャッタや、シャッタの駆動を制御する制御装置や、撮像素子の感度を制御する装置や、撮影した画像データに対する処理を施す画像処理部を含んでも良い。

Claims

撮影機構と、
撮影環境を反映した情報を含む音声データを取得する音声取得手段と、
前記音声取得手段により取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定手段とを備える
ことを特徴とする撮像装置。
前記撮像装置は、
前記音声取得手段により取得された音声データから撮影環境を表す環境音声特徴量を抽出する抽出部を有し、複数の撮影シーンそれぞれと所定の関係性を有する各種の音声の特徴それぞれを定める各モデル情報を記憶し、各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて、１つの撮影シーンを特定するシーン特定手段を備え、
前記設定手段は、複数の撮影シーンの各々と１又は複数の設定値とを対応付けた対応情報を記憶しており、前記シーン特定手段により特定された撮影シーンに前記対応情報により対応付けられた設定値を、前記撮影機構の制御用の設定値として選定する
ことを特徴とする請求項１記載の撮像装置。
前記抽出部は、前記音声データの特徴を示す特徴量を所定の単位時間毎に特定し、複数の単位時間にわたり特徴量の時間的変化が所定量より小さい当該複数の単位時間についての各特徴量を前記環境音声特徴量として抽出する
ことを特徴とする請求項２記載の撮像装置。
前記音声データの特徴を示す特徴量は、音声パワー、ゼロクロス、スペクトル関連特徴量、ケプストラム関連特徴量及びクロマベクトルで表される音の各属性のうち、２以上の属性それぞれを成分として構成されるベクトル量であり、
前記モデル情報は、前記音声データの特徴を示す特徴量との比較用に、前記ベクトル量の各成分についての値を示す情報を含んで構成され、
前記シーン特定手段は、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々に基づいて、撮影シーンの前記特定を行う
ことを特徴とする請求項３記載の撮像装置。
前記モデル情報は、前記ベクトル量の各成分についての値として平均値及び分散値を示す情報を含んで構成され、
前記シーン特定手段は、前記各モデル情報毎の平均値に係るベクトル量と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度各々と、各モデル情報毎のベクトル量の分散値とに基づいて、撮影シーンの前記特定を行う
ことを特徴とする請求項４記載の撮像装置。
前記シーン特定手段は、前記環境音声特徴量を構成する複数の単位時間各々についての特徴量と、前記各モデル情報との双方のベクトル量についての一致の程度を示す尤度各々のうち、一のモデル情報に関して所定数の連続する単位時間についての尤度がいずれも所定値より大きいという条件を満たさない尤度を除外して残る尤度各々に基づいて、撮影シーンの前記特定を行う
ことを特徴とする請求項４記載の撮像装置。
前記撮像装置は、更に
前記各モデル情報と前記撮影機構の制御用の設定値を補正するための処理と対応付けるための情報を記憶し、前記各モデル情報と前記音声データの特徴を示す特徴量との双方のベクトル量についての一致の程度を示す尤度が所定値より大きいものとなったところのモデル情報を特定し、当該特定したモデル情報に対応する処理を実行する補正手段を備える
ことを特徴とする請求項４記載の撮像装置。
前記各モデル情報は、複数のグループのいずれか１つに属し、
前記シーン特定手段は、
各モデル情報と係数とを対応付けて記憶し、
各グループについて、当該グループに属する各モデル情報についての尤度及び係数に基づくグループ尤度を算出して、各グループ尤度に基づいて、撮影シーンの前記特定を行う
ことを特徴とする請求項４記載の撮像装置。
前記撮像装置は、
ユーザによる操作を受け付ける操作受付手段を備え、
前記シーン特定手段は、
前記各モデル情報を参照して、前記抽出部により抽出された環境音声特徴量に基づいて撮影シーンの複数の候補を選出し、選出した候補と、前記操作受付手段により受け付けられたユーザによる操作とに基づいて、候補のうちの１つを撮影シーンとして特定する
ことを特徴とする請求項２記載の撮像装置。
前記撮影機構は、
撮影により画像データを生成する画像データ生成手段を備え、
前記設定手段は、前記音声データ及び前記画像データに基づいて、当該画像データの撮影後に用いるための前記撮影機構の制御用の設定値の前記選定を行う
ことを特徴とする請求項１記載の撮像装置。
撮影環境を反映した情報を含む音声データを取得する音声取得回路と、
前記音声取得回路により取得された音声データに基づいて撮影制御用の設定値を選定する設定回路とを含む
ことを特徴とする集積回路。
撮影機構を備える撮像装置における撮像方法であって、
撮影環境を反映した情報を含む音声データを取得する音声取得ステップと、
前記音声取得ステップにより取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定ステップとを含む
ことを特徴とする撮像方法。
撮影機構を備える撮像装置におけるプロセッサに、撮像処理を行わせるためのプログラムであって、
前記撮像処理は、
撮影環境を反映した情報を含む音声データを取得する音声取得ステップと、
前記音声取得ステップにより取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定ステップとを含む
ことを特徴とするプログラム。
撮影機構を備える撮像装置におけるコンピュータに、撮像処理を行わせるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記撮像処理は、
撮影環境を反映した情報を含む音声データを取得する音声取得ステップと、
前記音声取得ステップにより取得された音声データに基づいて前記撮影機構の制御用の設定値を選定する設定ステップとを含む
ことを特徴とする記録媒体。