JP2012044267A

JP2012044267A - 撮像装置、被写体探索方法及びプログラム

Info

Publication number: JP2012044267A
Application number: JP2010181102A
Authority: JP
Inventors: Takeshi Minami; 剛南
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2010-08-12
Filing date: 2010-08-12
Publication date: 2012-03-01

Abstract

【課題】必要なタイミングを逃すことなく撮像を実行することが可能となる。
【解決手段】画像を撮像する撮像系11〜13と、特定の被写体に対応する画像上の特徴情報と、上記特定の被写体の探索を開始するためのトリガ情報とを記憶するプログラムメモリ21と、トリガ情報を入力するマイクロホン16Ｌ，16Ｒ及び音声処理部17と、入力したトリガ情報とプログラムメモリ21が記憶するトリガ情報との一致を判断し、その判断結果に基づいて撮像系11〜13が撮像する画像から特徴情報を探察するＣＰＵ19メインメモリ20及び音声認識部17ａとを備える。
【選択図】図１

Description

本発明は、顔認識機能を有する撮像装置、被写体探索方法及びプログラムに関する。

近年のデジタルカメラでは顔認識機能を標準で搭載するものが多く、中には人間の顔認識のみならず、犬や猫などのペットの顔を認識してピントや露出を制御する機種も商品化されている。この技術は、被写体であるペットに対して正面の顔を検出してピントを合わせ、自動的にシャッタレリーズを行なうことで、動き回る被写体の適切な撮影タイミングを逃さないようにしたものである。

また、被写体の正面の顔を検出する技術に類似するものとして、プレシャッターモードで被写体の顔検出を行なって視線方向がカメラに向いた瞬間にシャッタレリーズを行なうようにした技術が考えられている。（例えば、特許文献１）

特開２００８−１８２４８５号公報

上記顔認識技術、及び視線検出技術を用いたデジタルカメラでは、上記特許文献に記載された技術も含めて、モニタ画像中の顔を認識した状態から即時シャッタレリーズに備えるべく、ＡＦ（自動合焦）機能及びＡＥ（自動露出）機能を連続的に動作させながら撮影タイミングを待機することになる。したがって、顔認識機能を使用しない通常の撮影モードに比してシャッターチャンスを待つ時間が長くなるという不具合がある。

本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、必要なタイミングを逃すことなく撮像を実行することが可能な撮像装置、被写体探索方法及びプログラムを提供することにある。

請求項１記載の発明は、画像を撮像する撮像手段と、特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶手段と、上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶手段と、トリガ情報を入力するトリガ入力手段と、上記トリガ入力手段で入力したトリガ情報と上記第２の記憶手段が記憶するトリガ情報とが所定値以上の類似度か否かを判断する判断手段と、上記判断手段により所定値以上の類似度と判断されると、上記撮像手段が撮像する画像から上記第１の記憶手段が記憶する特徴情報に基づいて、前記特定の被写体を探索する探索手段とを備えたことを特徴とする。

請求項２記載の発明は、上記請求項１記載の発明において、上記撮像手段に、上記特徴情報の候補となる被写体を合焦させる自動合焦手段と、上記探索手段に、上記自動合焦手段により合焦された画像を取得させ特徴情報を探索させる探索制御手段と、上記探索制御手段により探索された特徴情報を含む特定の被写体の画像を記録する記録手段とをさらに備えたことを特徴とする。

請求項３記載の発明は、上記請求項２記載の発明において、上記探索手段は、上記特徴情報が上記撮像手段に正対しているか否かを判別し、上記記録手段は、上記探索手段により上記撮像手段に正対したと判別された特徴情報を含む特定の被写体の画像を記録する
ことを特徴とする。

請求項４記載の発明は、上記請求項１記載の発明において、上記トリガ情報は音声情報であることを特徴とする。

請求項５記載の発明は、上記請求項４記載の発明において、上記判断手段は、上記トリガ情報の音声認識処理及び話者認識処理により所定値以上の類似度か否かを判断することを特徴とする。

請求項６記載の発明は、画像を撮像する撮像装置での被写体探索方法であって、特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶ステップと、上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶ステップと、トリガ情報を入力するトリガ入力ステップと、上記トリガ入力ステップにて入力したトリガ情報と上記第２の記憶ステップで記憶したトリガ情報とが所定値以上の類似度か否かを判断ステップと、上記判断ステップにて所定値以上の類似度と判断されると、撮像する画像から上記第１の記憶ステップで記憶する特徴情報に基づいて、前記特定の被写体を探索する探索ステップとを含むことを特徴とする。

請求項７記載の発明は、画像を撮像する撮像装置のコンピュータを、上記特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶手段、上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶手段、トリガ情報を入力するトリガ入力手段、上記トリガ入力手段により入力されたトリガ情報と上記第２の記憶手段により記憶されたトリガ情報とが所定値以上の類似度か否かを判断する判断手段、上記判断手段により所定値以上の類似度と判断されると、撮像する画像から上記第１の記憶手段で記憶する特徴情報に基づいて、前記特定の被写体を探索する探索手段として機能させることを特徴とする。

本発明によれば、必要なタイミングを逃すことなく撮像を実行することが可能となる。

本発明の一実施形態に係るデジタルカメラの機能回路の構成を示すブロック図。同実施形態に係る話者登録モード時の処理内容を示すフローチャート。同実施形態に係る顔検出モード時の処理内容を示すフローチャート。同実施形態に係る顔検出モード時のモニタ画像を例示する図。同実施形態に係る顔検出モード時のモニタ画像を例示する図。同実施形態に係る顔検出モード時のモニタ画像を例示する図。同実施形態に係る顔検出モード時のモニタ画像を例示する図。

以下、本発明をペット認識機能を有するデジタルカメラに適用した場合の一実施形態について図面を参照して説明する。

図１は、本実施形態に係るデジタルカメラ１０の回路構成を示すものである。同図では、カメラ筐体の前面に配設される光学レンズユニット１１を介して、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）やＣＭＯＳイメージセンサ等で構成される固体撮像素子（ＩＳ）１２の撮像面上に被写体の光像を入射して結像させる。

スルー画像表示、あるいはライブビュー画像表示とも称されるモニタ状態では、この固体撮像素子１２での撮像により得た画像信号をＡＧＣ・Ａ／Ｄ変換部１３に送り、相関二乗サンプリングや自動ゲイン調整、Ａ／Ｄ変換処理を実行してデジタル化する。このデジタル値の画像データはシステムバスＳＢを介して画像処理部１４に送られる。

画像処理部１４では、画像データに対して画素補間処理、γ補正処理を含むカラープロセス処理を施して表示部１５へ送り、スルー画像として表示させる。

また、画像処理部１４内には顔認識部１４ａを備える。この顔認識部１４ａは、画像データに対して、例えば固有顔あるいは隠れマルコフモデル等の顔認識アルゴリズムを用い、予め登録されている顔データに基づいた顔認識処理を行なってその認識結果を後述するＣＰＵ１９に送出する。

また、上記光学レンズユニット１１と同じくカメラ筐体前面には、一対のマイクロホン１６Ｌ，１６Ｒが配設され、被写体方向の音声がステレオで入力される。マイクロホン１６Ｌ，１６Ｒはそれぞれ入力した音声を電気信号化し、音声処理部１７へ出力する。

音声処理部１７は、音声単体での録音時、音声付き静止画像撮影時、及び動画像の撮影時にマイクロホン１６Ｌ，１６Ｒから入力する音声信号をデジタルデータ化する。さらに音声処理部１７は、デジタル化した音声データの音圧レベルを検出する一方で、該音声データを所定のデータファイル形式、例えばＡＡＣ（ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ−４ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）形式でデータ圧縮して音声データファイルを作成し、後述する記録媒体へ送出する。

加えて音声処理部１７は、ＰＣＭ音源等の音源回路を備え、音声の再生時に送られてくる音声データファイルの圧縮を解いてアナログ化し、このデジタルカメラ１０の筐体背面側に設けられるスピーカ１８を駆動して、拡声放音させる。

さらに音声処理部１７内に音声認識部１７ａを備える。この音声認識部１７ａは、音響モデルを用いてマイクロホン１６Ｌ，１６Ｒから入力した音声に対する音声認識処理を実行する。

加えて音声認識部１７ａは、予め登録されているユーザの音声データに基づいた話者認識（話者照合）処理を実行し、その照合結果をＣＰＵ１９へ送出する。

以上の回路をＣＰＵ１９が統括制御する。このＣＰＵ１９は、メインメモリ２０、プログラムメモリ２１と直接接続される。メインメモリ２０は、例えばＳＲＡＭで構成され、ワークメモリとして機能する。プログラムメモリ２１は、例えばフラッシュメモリなどの電気的に書換可能な不揮発性メモリで構成され、後述する撮影モード時の制御を含む動作プログラムやデータ等を固定的に記憶する。

ＣＰＵ１９はプログラムメモリ２１から必要なプログラムやデータ等を読出し、メインメモリ２０に適宜一時的に展開記憶させながら、このデジタルカメラ１０全体の制御動作を実行する。

さらに上記ＣＰＵ１９は、操作部２２から直接入力される各種キー操作信号に対応して制御動作を実行する。操作部２２は、例えば電源キー、シャッタレリーズキー、ズームアップ／ダウンキー、撮影モードキー、再生モードキー、メニューキー、カーソル（「↑」「→」「↓」「←」）キー、セットキー、プレイバックキー、ディスプレイキー等を備える。

ＣＰＵ１９は、システムバスＳＢを介して上記ＡＧＣ・Ａ／Ｄ変換部１３、画像処理部１４、表示部１５、及び音声処理部１７の他、さらにレンズ駆動部２３、フラッシュ駆動部２４、イメージセンサ（ＩＳ）駆動部２５、メモリカードコントローラ２６、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）インターフェイス（Ｉ／Ｆ）２７と接続される。

レンズ駆動部２３は、ＣＰＵ１９からの制御信号を受けてレンズ用ＤＣモータ（Ｍ）２８の回転を制御し、上記光学レンズユニット１１を構成する複数のレンズ群中の一部、具体的にはズームレンズ及びフォーカスレンズの位置をそれぞれ個別に光軸方向に沿って移動させる。

フラッシュ駆動部２４は、静止画像撮影時にＣＰＵ１９からの制御信号を受けて複数の白色高輝度ＬＥＤで構成されるフラッシュ部２９を撮影タイミングに同期して点灯駆動する。

イメージセンサ駆動部２５は、その時点で設定されている撮影条件等に応じて上記固体撮像素子１２の走査駆動を行なう。

上記画像処理部１４は、上記操作部２２のシャッタキー操作に伴う画像撮影時に、ＡＧＣ・Ａ／Ｄ変換部１３から送られてきた画像データを所定のデータファイル形式、例えばＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）であればＤＣＴ（離散コサイン変換）やハフマン符号化等のデータ圧縮処理を施してデータ量を大幅に削減した画像データファイルを作成する。作成した画像データファイルはシステムバスＳＢ、メモリカードコントローラ２６を介してメモリカード３０に記録される。

また画像処理部１４は、再生モード時にメモリカード３０からメモリカードコントローラ２６を介して読出されてくる画像データをシステムバスＳＢを介して受取り、記録時とは逆の手順で圧縮を解く伸長処理により元のサイズの画像データを得、これをシステムバスＳＢを介して表示部１５に出力して表示させる。
メモリカードコントローラ２６は、カードコネクタ３１を介してメモリカード３０と接続される。メモリカード３０は、このデジタルカメラ１０に着脱自在に装着され、このデジタルカメラ１０の記録媒体となる画像データ等の記録用メモリであり、内部にはブロック単位で電気的に書換え可能な不揮発性メモリであるフラッシュメモリと、その駆動回路とが設けられる。

ＵＳＢインターフェイス２７は、ＵＳＢコネクタ３２を介してこのデジタルカメラ１０を外部機器、例えばパーソナルコンピュータと接続する際のデータの送受を司る。

次に上記実施形態の動作について説明する。
なお、以下に示す動作は、撮影モード下で動画像スタート／ストップキーを操作して動画像の撮影を開始した際、ＣＰＵ１９がプログラムメモリ２１に記憶されている動作プログラムやデータを読出してメインメモリ２０に展開して記憶させた上で実行するものである。

プログラムメモリ２１に記憶されている動作プログラム等は、このデジタルカメラ１０の製造工場出荷時にプログラムメモリ２１に記憶されていたものに加え、例えばこのデジタルカメラ１０のバージョンアップに際して、デジタルカメラ１０を上記ＵＳＢコネクタ３２を介してパーソナルコンピュータと接続することにより外部から新たな動作プログラム、データ等をダウンロードして記憶するものも含む。

図２は、このデジタルカメラ１０のユーザが事前に話者として撮影のトリガ情報である発呼音声を登録する話者登録モード時の処理内容である。本図では、発話者の声と、発話内容（語）、具体的にはペット名とを登録する。
その当初に、まず発話者名を登録する（ステップＰ１０１）。この発話者名の登録時には、例えば表示部１５にカタカナ等を表示させた上で操作部２２のカーソルキー及びセットキーを操作することで適宜入力が可能であるものとする。入力された発話者名のテキストデータをＣＰＵ１９が受付け、プログラムメモリ２１に記憶する。

その後、所定のいくつかの単語を列記し、それらのうちのいずれかを発声するようなガイドメッセージをＣＰＵ１９が表示部１５で表示させる（ステップＰ１０２）。

ＣＰＵ１９はこのガイドメッセージにしたがって一定の音圧レベル以上の音声入力があるか否かを判断し（ステップＰ１０３）、なければ上記ステップＰ１０２からの処理に戻ってガイドメッセージの表示を継続しながら、音声入力があるのを待機する。

音声入力があった場合、上記ステップＰ１０３でそれを判断して、マイクロホン１６Ｌ，１６Ｒから入力された音声データを音声処理部１７内の音声認識部１７ａで分析させる（ステップＰ１０４）。ここでの音声分析は、「声紋」とも呼称される、人によって異なる声の音響的特徴（音響パターン）を抽出する。取得した音響パターンデータは第１の音声トリガデータ（図では「トリガ１」と称する）としてＣＰＵ１９がプログラムメモリ２１内の上記発話者名データと関連付けて記憶させる（ステップＰ１０５）。

次いで、ペットの名前を発声するようなガイドメッセージを表示部１５で表示する（ステップＰ１０６）。
ＣＰＵ１９はこのガイドメッセージにしたがって一定の音圧レベル以上の音声入力があるか否かを判断し（ステップＰ１０７）、なければ上記ステップＰ１０６からの処理に戻ってガイドメッセージの表示を継続しながら、音声入力があるのを待機する。

音声入力があった場合、ＣＰＵ１９は上記ステップＰ１０７でそれを判断し、マイクロホン１６Ｌ，１６Ｒから入力された音声データを音声処理部１７内の音声認識部１７ａで分析させる（ステップＰ１０８）。

ここでの音声分析では、具体的には認識対象の音素がそれぞれどのような周波数特性を持っているかを表す音響モデルを取得する。音響モデルの表現方法としては、例えば混合正規分布を出力確率とした隠れマルコフモデルを用いる。

取得した音響モデルデータは第２の音声トリガデータ（図では「トリガ２」と称する）としてＣＰＵ１９がプログラムメモリ２１内の上記発話者名データ、第１の音声トリガデータと関連付けて記憶させる（ステップＰ１０９）。
以上でこの図２の話者登録モードでの一連の処理を終了する。

次に図３により、上記話者登録をした状態で、ペットの顔認識により撮影を実行する顔認識モードでの撮影動作時の処理内容について説明する。
なお、この顔認識モードでの動作にあっては、ユーザが飼っているペット、例えば猫の顔の特徴データが予めプログラムメモリ２１に記憶されているものとする。

同モード選択時には、まず一定の音圧レベル以上の音声入力があるのを待機する（ステップＳ１０１）。
図４及び図５は、上記音声入力がなされる前の状態で、光学レンズユニット１１を介して固体撮像素子１２で撮像され、表示部１５でモニタ表示される被写体の画像を例示する。これらの図に示すように、撮影を行ないたい特定の被写体であるペットの顔が撮像範囲に入っていても、顔認識機能が起動されておらず、顔認識処理は行なわれない。

待機している状態でユーザによりペットに対する呼びかけがあったものとする。この呼びかけによりＣＰＵ１９が上記ステップＳ１０１で一定の音圧レベル以上の音声入力があったと判断すると、次に音声処理部１７の音声認識部１７ａによりその入力音声を分析し、音響的特徴（音響パターン）と音響モデルとを取得する。

次いで、ＣＰＵ１９は取得した音響モデルデータを登録済みの第２の音声トリガデータと比較し、所定値以上の類似度を有するか否かによりペット名を表す第２の音声トリガであるか否かを判断する（ステップＳ１０３）。

ここで、取得した音響モデルデータが第２の音声トリガデータではないと判断した場合には、直前のステップＳ１０１で取得した音声は撮影しているペットに対しての呼びかけではないものとして、再び新たな音声入力に備えるべく上記ステップＳ１０１からの処理に戻る。

また上記ステップＳ１０３で、取得した音響モデルデータが第２の音声トリガデータであると判断した場合にＣＰＵ１９は、モニタ画像中の特定の被写体を追尾するための一定時間、例えば１０秒を計時するためのＣＰＵ１９内部のタイマによる計時動作を起動させる（ステップＳ１０４）。

次いで、ＣＰＵ１９は上記取得した音響的特徴を登録済みの第１の音声トリガデータと比較し、所定値以上の類似度を有するか否かによりユーザ自身の声であるか否かを判断する（ステップＳ１０５）。

ここで、取得した音響的特徴が第１の音声トリガデータではないと判断した場合には、直前のステップＳ１０１で取得した音声はユーザによる呼びかけではないではないものとして、再び新たな音声入力に備えるべく上記ステップＳ１０１からの処理に戻る。

また上記ステップＳ１０５で、取得した音響的特徴が第１の音声トリガデータであると判断した場合にＣＰＵ１９は、正しいユーザにより正しいペット名の呼びかけがなされたものと判断する。

このときＣＰＵ１９は、ＡＦ（自動合焦）処理及びＡＥ（自動露出）処理を実行する一方で（ステップＳ１０６）、得られる画像データに対して顔認識部１４ａにより顔認識処理を実行する（ステップＳ１０７）。

そして、その認識結果から予めプログラムメモリ２１に記憶されているペットの猫の顔の特徴データと一定の類似度以上の画像パターンを検出することができたか否かにより、ペットの顔を認識できたか否かを判断する（ステップＳ１０８）。

ここで、ペットの顔を認識できなかったと判断した場合には、次いで直前の上記ステップＳ１０４で計時を開始したＣＰＵ１９の内部タイマの計時値が一定時間に達したか否かを判断する（ステップＳ１０９）。

そして、当該計時値が一定時間に達していないことを確認した上で、再び上記ステップＳ１０６からの処理に戻る。

また、上記ステップＳ１０９でＣＰＵ１９の内部タイマの計時値が一定時間に達したと判断した場合には、次の音声入力を待って処理を再開するべく上記ステップＳ１０１からの処理に戻る。

上記ステップＳ１０８でペットの顔を認識できたと判断した場合、以後は画像中のその顔パターンをロックして追尾し、ＡＦ処理を続行するものとし、合わせて表示部１５で表示する顔パターン位置に顔認識ができたことを表すフレーム位置を表示させる（ステップＳ１１０）。

図６は、このデジタルカメラ１０のユーザがペット名「たま」を呼びかけ、表示部１５で表示されるペットの画像の顔位置に対して顔認識結果を示すフォーカスフレームＦＦ１が重畳して表示されている状態を例示する。

同図では、フォーカスフレームＦＦ１を破線で示しているが、実際のデジタルカメラ１０では、フォーカスフレームＦＦ１を矩形とその中心位置の十字ラインを例えば緑色の実線により表現するものとしても良い。

また、この図６の表示例では、表示部１５の左下端部で文字列「ペット顔検出中！」のガイドメッセージＧＭ１により、表示されているフォーカスフレームＦＦ１がペットの顔の認識結果であることを補助的に表示している。

このようにペットの顔位置でフォーカスをロックし、合わせて表示部１５でも当該位置にフォーカスフレームを表示させた状態で、上記顔認識の結果から、所定の向き、例えば正面の顔であるか否かにより、シャッタレリーズのタイミングとなったか否かを判断する（ステップＳ１１１）。
これは、顔認識結果と、予め設定されている、ペットの顔を構成する各パーツの配置パターンとの類似度が所定値を超えて高いか否かにより判断する。

ここでペットの顔が所定の向きではなく、シャッタレリーズのタイミングとなっていないと判断した場合には、その後に上記ステップＳ１０９に進み、タイマによる計時時間内であることを確認した上で上記ステップＳ１０６からの処理に戻る。

また、上記ステップＳ１１１でペットの顔が所定の向き、例えば正面の顔となり、シャッタレリーズのタイミングとなったと判断した場合には、その時点でのＡＦ値及びＡＥ値に基づいて撮影を実行し、正面を向いているペットの顔の撮影を実行する（ステップＳ１１２）。

図７は、表示部１５で表示されるペットの画像がほぼ正面を向き、シャッタレリーズのタイミングとなって、上記フォーカスフレームＦＦ１とは異なるフォーカスフレームＦＦ２が重畳して表示された状態を例示する。

同図では、フォーカスフレームＦＦ２を一点鎖線で示しているが、実際のデジタルカメラ１０では、フォーカスフレームＦＦ２を矩形とその中心位置の十字ラインを例えば赤色の実線により表現するものとしても良い。

また、この図７の表示例では、表示部１５の左下端部で文字列「ペット顔検出中！」のガイドメッセージＧＭ１により、表示されているフォーカスフレームＦＦ１がペットの顔の認識結果であることを補助的に表示している。合わせて、例えばシャッタレリーズキーの近傍に埋設されるスピーカ１８から撮影タイミングに同期してシャッタ音を発生させることで、ユーザに撮影が実行されたことを報知する。

こうして撮影により得た画像データを画像処理部１４で所定のフォーマット、例えばＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）であればＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：離散コサイン変換）やエントロピー符号化としてのハフマン符号化を等を施してデータ量を圧縮して画像データファイル化し、得た画像データファイルをメモリカードコントローラ２６を介してこのデジタルカメラ１０の記録媒体であるメモリカード３０に記録させる（ステップＳ１１３）。

以上で一連の画像データの撮影、記録に係る処理を終了し、次の画像撮影に備えるべく上記ステップＳ１０１からの処理に戻る。

以上詳記した如く本実施形態によれば、予めユーザが登録したペットへの呼びかけ音声が入力されるまでは顔認識等の一連の処理を実行しない。そのため、できる限り電力の消費を抑えながら必要なタイミングを逃すことなく撮影を実行することが可能となる。

また上記実施形態では、自動合焦機能を有するものとし、顔認識処理と共に常に画像中のペットの顔位置に合焦させておき、撮影により得た画像データをファイル化して記録するものとしたので、顔認識処理が正確に実施できる上に、ペットの顔を所定の方向を向いた際にそれを検出してから撮影、記録するまでのタイムラグを最少限に短縮できる。

さらに上記実施形態では、ペットの顔がカメラ正面に向いた状態を顔認識により検出してシャッタレリーズを行なうものとした。これにより、顔認識技術を有効に活用して確実に被写体の表情を大きく捉えることができる。

また上記実施形態では、ユーザの音声をトリガとして顔認識等の処理を開始するものとしたので、特に音声を記録しない静止画像の撮影に際して、直感的で理解し易いユーザインターフェイスにより気軽に撮影が実行できる。

特に上記実施形態では、音声情報を音声認識及び話者認識により処理するものとしたので、「誰が」「何を」言ったのか双方が正しいと認識されなければトリガ情報とはならないため、無駄な電力消費を確実に回避しながらも、ペットなどの被写体によってはシャッタチャンスを逃すことなく的確に撮影を実行できる。

なお上記実施形態は静止画像を撮影するデジタルカメラに適用した場合について説明したものであるが、本発明はこれに限らず、カメラ機能を有する電子機器であれば、他にも携帯電話端末やＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ：個人向け情報携帯端末）、電子ブック、モバイルコンピュータなどの各種機器にも同様に適用可能となる。

その他、本発明は上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。上述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。

１０…デジタルカメラ、１１…光学レンズユニット、１１Ａ…ズームレンズ、１１Ｂ…レンズ鏡筒、１２…固体撮像素子、１３…ＡＧＣ・Ａ／Ｄ変換部、１４…画像処理部、１４ａ…顔認識部、１５…表示部、１６Ｌ，１６Ｒ…マイクロホン、１７…音声処理部、１８…スピーカ、１９…ＣＰＵ、２０…メインメモリ、２１…プログラムメモリ、２２…操作部、２２ａ…ズームレバー、２３…レンズ駆動部、２４…フラッシュ駆動部、２５…イメージセンサ駆動部、２６…メモリカードコントローラ、２７…ＵＳＢインターフェイス、２８…レンズ用ＤＣモータ（Ｍ）、２９…フラッシュ部、３０…メモリカード、３１…カードコネクタ、３２…ＵＳＢコネクタ、ＦＦ１，ＦＦ２…フォーカスフレーム、ＧＭ１…ガイドメッセージ、ＳＢ…システムバス。

Claims

画像を撮像する撮像手段と、
特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶手段と、
上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶手段と、
トリガ情報を入力するトリガ入力手段と、
上記トリガ入力手段で入力したトリガ情報と上記第２の記憶手段が記憶するトリガ情報とが所定値以上の類似度か否かを判断する判断手段と、
上記判断手段により所定値以上の類似度と判断されると、上記撮像手段が撮像する画像から上記第１の記憶手段が記憶する特徴情報に基づいて、前記特定の被写体を探索する探索手段と
を備えたことを特徴とする撮像装置。
上記撮像手段に、上記特徴情報の候補となる被写体を合焦させる自動合焦手段と、
上記探索手段に、上記自動合焦手段により合焦された画像を取得させ特徴情報を探索させる探索制御手段と、
上記探索制御手段により探索された特徴情報を含む特定の被写体の画像を記録する記録手段と
をさらに備えたことを特徴とする請求項１記載の撮像装置。
上記探索手段は、上記特徴情報が上記撮像手段に正対しているか否かを判別し、
上記記録手段は、上記探索手段により上記撮像手段に正対したと判別された特徴情報を含む特定の被写体の画像を記録する
ことを特徴とする請求項２記載の撮像装置。
上記トリガ情報は音声情報であることを特徴とする請求項１記載の撮像装置。
上記判断手段は、上記トリガ情報の音声認識処理及び話者認識処理により所定値以上の類似度か否かを判断することを特徴とする請求項４記載の撮像装置。
画像を撮像する撮像装置での被写体探索方法であって、
特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶ステップと、
上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶ステップと、
トリガ情報を入力するトリガ入力ステップと、
上記トリガ入力ステップにて入力したトリガ情報と上記第２の記憶ステップで記憶したトリガ情報とが所定値以上の類似度か否かを判断ステップと、
上記判断ステップにて所定値以上の類似度と判断されると、撮像する画像から上記第１の記憶ステップで記憶する特徴情報に基づいて、前記特定の被写体を探索する探索ステップと
を含むことを特徴とする被写体探索方法。
画像を撮像する撮像装置のコンピュータを、
上記特定の被写体に対応する画像上の特徴情報を記憶する第１の記憶手段、
上記特定の被写体の探索の開始を指示するためのトリガ情報を記憶する第２の記憶手段、
トリガ情報を入力するトリガ入力手段、
上記トリガ入力手段により入力されたトリガ情報と上記第２の記憶手段により記憶されたトリガ情報とが所定値以上の類似度か否かを判断する判断手段、
上記判断手段により所定値以上の類似度と判断されると、撮像する画像から上記第１の記憶手段で記憶する特徴情報に基づいて、前記特定の被写体を探索する探索手段
として機能させることを特徴とするプログラム。