JP5609367B2

JP5609367B2 - 電子カメラ及び画像処理プログラム

Info

Publication number: JP5609367B2
Application number: JP2010165743A
Authority: JP
Inventors: 鉾井　逸人; 逸人鉾井
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2010-07-23
Filing date: 2010-07-23
Publication date: 2014-10-22
Anticipated expiration: 2030-07-23
Also published as: JP2012029035A

Description

本発明は、電子カメラ及び画像処理プログラムに関する。

従来から、時系列に取得される画像から被写体の口の動きを検出して、音声を発声する被写体を特定する電子カメラが知られている（例えば、特許文献１参照）。上記電子カメラでは、特定された被写体とマイクで記録した音声のデータとが関連付けられる。

特開２００７−２６６７９３号公報

ところで、記録用の本画像が複数撮影されている場合、撮影者が本画像の撮影と異なるタイミングで記録した音声のデータをその音声を発声した被写体に後で関連付けようとすると、どの本画像に関連付ければ良いのか分からなくなることがある。

本発明は、上記事情に鑑み、複数の本画像のうちで、本画像の撮影と異なるタイミングで被写体が発声した音声のデータをより相応しい本画像に関連付けることができる手段を提供することを目的とする。

第１の発明に係る電子カメラは、撮像部と、抽出部と、音声取得部と、画像生成部と、記録部と、指示部材と、照合部と、画像管理部とを備える。撮像部は、被写体を撮像する。抽出部は、撮像部により時系列に得られる第１画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。音声取得部は、第１画像の取得時に、音声を取得する。画像生成部は、抽出部により抽出される各領域情報と第１画像とを用いて、被写体の領域及び該被写体の周辺を含む領域からなる第２画像を生成する。記録部は、音声取得部により取得された音声に基づく音声情報を画像生成部で生成された第２画像に関連付けて記録すると共に、撮像部により取得した第１画像とは異なる第３画像を記録する。指示部材は、記録部に記録されている第２画像に関連付けられた音声情報を記録部に記録されている第３画像に関連付けるように指示する。照合部は、指示部材により記録部に記録されている第２画像に関連付けられた音声情報を記録部に記録されている第３画像に関連付けるように指示されたとき、第２画像と第３画像との類似度を求める。画像管理部は、照合部により求めた類似度に基づいて、第２画像に関連付けられた音声情報を第３画像に関連付ける。

第２の発明は、第１の発明において、周辺領域情報は、被写体の周辺の領域における輝度情報からなる。照合部は、第３画像における被写体の周辺の領域における輝度情報と、周辺領域情報と比較し、比較結果に基づいて類似度を求める。

第３の発明は、第１の発明において、周辺領域情報は、被写体の周辺の領域における色温度補正値の情報からなる。照合部は、第３画像における被写体の周辺の領域における色温度補正値と、周辺領域情報と比較し、比較結果に基づいて類似度を求める。

第４の発明は、第１の発明において、被写体の領域は、人物の顔領域である。

第５の発明に係る画像処理プログラムは、撮像処理と、抽出処理と、音声取得処理と、画像生成処理と、記録処理と、照合処理と、画像管理処理とをコンピュータに実行させる。撮像処理は、被写体を撮像させる。抽出処理は、撮像処理により時系列に得られる第１画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。音声取得処理は、第１画像の取得時に、音声を取得する。画像生成処理は、抽出処理により抽出される各領域情報と第１画像とを用いて、被写体の領域及び該被写体の周辺を含む領域からなる第２画像を生成する。記録処理は、音声取得処理により取得された音声に基づく音声情報を画像生成処理で生成された第２画像に関連付けて記録すると共に、撮像処理により取得した第１画像とは異なる第３画像を記録する。照合処理は、記録処理により記録されている第２画像に関連付けられた音声情報を記録処理により記録されている第３画像に関連付けるように指示されたとき、第２画像と第３画像との類似度を求める。画像管理処理は、照合処理により求めた類似度に基づいて、第２画像に関連付けられた音声情報を第３画像に関連付ける。

本発明によれば、複数の本画像のうちで、本画像の撮影と異なるタイミングで被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。

本実施形態の電子カメラ１の構成例を説明するブロック図テンプレート画像Ｔにおける画像ファイルの構成の一例を説明する図テンプレート生成モードにおける電子カメラ１の動作の一例を示すフローチャート顔検出処理の一例を説明する図テンプレート画像の生成処理の一例を説明する図本画像と音声ファイルとの関連付けの動作の一例を示すフローチャート本実施形態のテンプレートマッチング処理の一例を説明する図コンピュータ５０の構成例を説明するブロック図

以下、図面に基づいて本発明の実施の形態を詳細に説明する。図１は、本実施形態の電子カメラ１の構成例を説明するブロック図である。本実施形態の電子カメラ１は、構図確認用のスルー画像の撮影時や動画撮影時に記録した被写体の人物の音声ファイル（音声メモ等の音声情報）を、複数の記録用の静止画像（以下「本画像」という）のうち、その人物が撮影された最も適切な本画像に自動的に関連付けて記録する手段を有する。

電子カメラ１は、図１に示す通り撮像光学系１０と、撮像部１１と、メモリ１２と、画像処理部１３と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１４と、表示モニタ１５と、記録インターフェース部（以下「記録Ｉ／Ｆ部」という）１６と、音声処理回路１７と、マイク１８と、スピーカ１９と、レリーズ釦２０と、操作部２１と、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）回路２２と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２３と、データバス２４とを備える。

このうち、撮像部１１、メモリ１２、画像処理部１３、ＲＯＭ１４、表示モニタ１５、記録Ｉ／Ｆ部１６、音声処理回路１７及びＣＰＵ２３とは、データバス２４を介して互いに接続されている。また、レリーズ釦２０、操作部２１及びＧＰＳ回路２２は、ＣＰＵ２３に接続されている。

撮像光学系１０は、ズームレンズとフォーカスレンズとを含む複数のレンズ群で構成されている。なお、簡単のため、図１では、撮像光学系１０を１枚のレンズとして図示する。撮像部１１は、被写体を撮像し、例えば、撮像素子と、アナログフロントエンド（ＡＦＥ）回路と、Ａ／Ｄ変換部と、デジタルフロントエンド（ＤＦＥ）回路とを有している。撮像素子は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）型のカラーイメージセンサである。ＡＦＥ回路は、撮像素子が出力する画像信号に対してアナログ信号処理を施す。Ａ／Ｄ変換部は、アナログの画像信号をデジタルの画像信号に変換する。ＤＦＥ回路は、Ａ／Ｄ変換後の画像信号にデジタル信号処理を施す。なお、撮像部１１が出力する画像信号は、画像データとしてメモリ１２に一時的に記録される。なお、メモリ１２は、画像データを一時的に記録するバッファメモリの領域を有する。また、メモリ１２は、音声ファイルや、後述するテンプレート画像生成部２３ｂが生成するテンプレート画像を記憶する記憶用メモリの領域を有する。なお、このテンプレート画像は音声ファイル（音声情報）が関連付けられて記録される。

図２は、テンプレート画像Ｔにおける画像ファイルの構成の一例を説明する図である。画像ファイルは、図２（ａ）に示す通り、例えばＥｘｉｆ（ＥｘｃｈａｎｇｅａｂｌｅＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）形式であり、ヘッダ領域とデータ領域とを有する。カメラ情報（撮影条件等）は、タグデータとしてヘッダ領域に記録される。また、テンプレート画像Ｔの画像データは、データ領域に記録される。なお、ヘッダ領域には、メーカ独自のフォーマットでデータを記録できるメーカノートの領域がある。図２（ｂ）は、メーカノートの領域に記録されたデータの一例を示す。メーカノートの領域には、被写体領域情報や周辺領域情報等が記録される。例えば、メーカノートの領域には、ＡＷＢ値、ＢＶ値、顔毎に識別するための識別情報（以下「顔ＩＤ」という）、顔関連座標、人物領域座標、音声ファイルの記録先アドレス等が記録される。ここで、顔関連座標は、例えば、顔検出枠の４隅（各頂点）の座標（図４参照）である。また、人物領域座標は、テンプレート画像Ｔの４隅（各頂点）の座標である（図５参照）。また、音声ファイルの記録先アドレスは、例えば、記録媒体３０に記録されている音声ファイルの記録先アドレスを示す。

画像処理部１３は、メモリ１２に記録されている画像データを読み出し、各種の画像処理（階調変換処理、輪郭強調処理、ホワイトバランス処理等）を施す。ＲＯＭ１４は、書き換え可能な不揮発性のフラッシュメモリである。ＲＯＭ１４は、電子カメラ１の制御を行うプログラム等を予め記憶している。ＣＰＵ２３は、このプログラムに従い、一例として後述の図３に示すフローの処理を実行する。表示モニタ１５は、ＣＰＵ２３の指示に応じて各種画像や電子カメラ１の操作メニュー等を表示する。なお、画像処理部１３は、撮影待機時において、スルー画像をモニタ表示用（ビデオ信号）のライブビュー画像に変換する。そして、表示モニタ１５は、所定のフレームレート（例えば３０ｆｐｓ）でライブビュー画像を出力する。記録Ｉ／Ｆ部１６には、着脱自在の記録媒体３０を接続するためのコネクタ（不図示）が形成されている。そして、記録Ｉ／Ｆ部１６は、そのコネクタに接続された記録媒体３０にアクセスして画像の記録処理等を行う。この記録媒体３０は、例えば、不揮発性のメモリカードである。図１では、コネクタに接続された後の記録媒体３０を示している。

音声処理回路１７は、音声を取得して音声情報に変換する。具体的には、音声処理回路１７は、マイク１８を介して入力されたアナログの音声信号をデジタルの音声信号（音声情報）に変換する。音声情報は、音声ファイルとしてメモリ１２に記録される。また、音声処理回路１７は、スピーカ１９を介して音声出力処理を行う。

レリーズ釦２０は、半押し操作と全押し操作（撮像動作開始）との指示入力とを受け付ける。操作部２１は、電子カメラ１を操作するための指示入力を受け付ける複数の釦を有している。例えば、操作部２１は、電子カメラ１の操作メニューの設定条件を選択若しくは実行する操作釦、電子カメラ１本体の電源のオン又はオフを受け付ける電源釦等を有している。ＧＰＳ回路２２は、ＧＰＳ衛星からの電波を受信して位置情報（経度、緯度）や時刻情報を検出する。

ＣＰＵ２３は、各種演算及び電子カメラ１の制御を行うプロセッサである。また、ＣＰＵ２３は、抽出部２３ａと、テンプレート画像生成部２３ｂと、照合部２３ｃと、画像管理部２３ｄしても機能する。

抽出部２３ａは、撮像部１１により時系列に得られるスルー画像を解析し、音声を発声する人物の顔の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。例えば、抽出部２３ａは、特開２００１−１６５７３号公報等に記載された特徴点抽出処理によって顔領域を検出する。具体的には、抽出部２３ａは、例えばスルー画像を解析して画像から特徴点（特徴量）を抽出して顔領域の位置、顔領域の大きさ（顔面積）等を検出する。また、抽出部２３ａは、特徴点に基づいて、例えば、目、鼻、口等の顔の特徴部位を画像から検出する。これらの処理により、抽出部２３ａは、画像内の顔領域の位置、顔の特徴部位の位置を特定する。例えば、抽出部２３ａは、画像の横方向をＸ軸、縦方向をＹ軸としたときに、顔領域に含まれる画素のＸ座標及びＹ座標を算出する。

また、抽出部２３ａは、例えば引用文献１に記載された口の開閉状態を検出する処理に基づいて、口の動きの有無を検出する。抽出部２３ａは、口の動きを検出した場合、音声を発声する被写体であると判定する。

また、抽出部２３ａは、例えば、被写体の顔と胴体部分を囲む領域を周辺領域情報として抽出する。また、抽出部２３ａは、例えば、被写体の周辺の領域における輝度情報を周辺領域情報として抽出する。具体的には、抽出部２３ａは、スルー画像を解析して、一例としてＡＰＥＸ（ＡｄｄｉｔｉｖｅＳｙｓｔｅｍｏｆＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｏｓｕｒｅ）単位であるＢＶ値（ＢｒｉｇｈｔｎｅｓｓＶａｌｕｅ）を周辺領域情報として抽出する。

また、抽出部２３ａは、例えば、被写体の周辺の領域における色温度補正値を周辺領域情報として抽出する。色温度補正値は、例えば、光源の色温度の補正用のオートホワイトバランス値（以下「ＡＷＢ値」という）である。具体的には、抽出部２３ａは、ＲＧＢの画像信号（スルー画像）に基づいて光源の色温度を推定する。色温度は、例えば、（Ｒ値の平均値／Ｇ値の平均値（以下、「Ｒ／Ｇ」と称する））を縦軸に取り、（Ｂ値の平均値／Ｇ値の平均値（以下、「Ｂ／Ｇ」と称する））を横軸に取った色空間内に対応付けられている。したがって、抽出部２３ａは、ＲＧＢの画像信号に基づいて、Ｒ／Ｇ及びＢ／Ｇを算出することにより、色温度を推定することができる。そして、抽出部２３ａは、推定した色温度に基づいて、ＡＷＢ値を算出する。なお、抽出部２３ａは、色温度を周辺領域情報として抽出しても良い。

テンプレート画像生成部２３ｂは、抽出部２３ａが抽出した被写体領域情報及び周辺領域情報とスルー画像とを用いて、被写体の顔領域及びその顔領域の周辺を含む領域からなるテンプレート画像を生成する。照合部２３ｃは、撮像部１１が全押し操作の指示入力により取得した本画像に対して、メモリ１２に記憶されたテンプレート画像に対する類似度を求める。画像管理部２３ｄは、照合部２３ｃにより求めた類似度に基づいて、テンプレート画像に関連付けられた音声ファイル（音声情報）を、本画像に関連付ける。なお、テンプレート画像生成部２３ｂ、照合部２３ｃ、画像管理部２３ｄの詳細については、後述する。

次に、テンプレート生成モードにおける電子カメラ１の動作の一例を説明する。図３は、テンプレート生成モードにおける電子カメラ１の動作の一例を示すフローチャートである。テンプレート生成モードでは、発声する被写体のテンプレート画像を生成する。ここで、電子カメラ１の電源がオンされた後、図１に示す操作部２１がテンプレート生成モードの指示入力を受け付けると、ＣＰＵ２３は、図３に示すフローの処理を開始させる。

ステップＳ１０１：ＣＰＵ２３は、スルー画像の取得を開始する。具体的には、ＣＰＵ２３は、撮像部１１を駆動させてスルー画像の撮像を開始する。その後、ＣＰＵ２３は、所定のフレームレート（例えば、３０ｆｐｓ）で撮像部１１にスルー画像を生成させると共にライブビュー画像を表示モニタ１５に動画表示させる。

ステップＳ１０２：ＣＰＵ２３の抽出部２３ａは、顔検出処理を行う。具体的には、抽出部２３ａは、スルー画像を解析して画像から特徴点を抽出して顔領域の位置等を検出する。また、抽出部２３ａは、特徴点に基づいて、顔の特徴部位を画像から検出する。

ステップＳ１０３：ＣＰＵ２３は、顔の有無の判定を行う。顔を検出した場合（ステップＳ１０３：Ｙｅｓ）、ＣＰＵ２３は、ステップＳ１０４の処理に移行する。図４は、顔検出処理の一例を説明する図である。ＣＰＵ２３は、顔を検出した場合、表示モニタ１５にライブビュー画像を表示させると共に顔検出枠３１を重畳表示させる。これにより、撮影者は被写体である人物Ｐの顔が検出されたことが分かる。また、ＣＰＵ２３は、顔を検出した場合、顔ＩＤを生成する。一方、顔を検出していない場合（ステップＳ１０３：Ｎｏ）、ＣＰＵ２３は、ステップＳ１０２の処理に戻る。

ステップＳ１０４：ＣＰＵ２３は、今回検出された顔が既に検出済みの顔であるか否かを顔ＩＤに基づいて判定する。既に検出済みの顔である場合（ステップＳ１０４：Ｙｅｓ）、ＣＰＵ２３は、後述するステップＳ１０７の処理に移行する。一方、顔を検出していない場合（ステップＳ１０４：Ｎｏ）、ＣＰＵ２３は、ステップＳ１０５の処理に移行する。

ステップＳ１０５：抽出部２３ａは、周辺領域情報の抽出処理を行う。例えば、抽出部２３ａは、スルー画像（ＲＧＢの画像信号）を解析して光源の色温度を推定し、ＡＷＢ値を周辺領域情報として抽出する。また、抽出部２３ａは、スルー画像を解析してＢＶ値を周辺領域情報として抽出する。また、抽出部２３ａは、顔の位置の座標と顔領域の大きさとに基づいて被写体の顔及び胴体部分を囲む領域を推定し、周辺領域情報として抽出する。

ステップＳ１０６：ＣＰＵ２３のテンプレート画像生成部２３ｂは、テンプレート画像の生成処理を行う。具体的には、テンプレート画像生成部２３ｂは、被写体の顔及び胴体部分を囲む領域をテンプレート画像としてスルー画像から切り出す。

図５は、テンプレート画像の生成処理の一例を説明する図である。図５では、スルー画像を正面から見て、左上を原点、横方向をＸ軸、縦方向をＹ軸として座標系を構成している。テンプレート画像生成部２３ｂは、被写体の顔及び胴体部分を四隅の座標で囲む矩形領域をテンプレート画像Ｔとして生成する。具体的には、テンプレート画像生成部２３ｂは、テンプレート画像Ｔの左上の頂点Ｓ１（ｘ１、ｙ１）、右上の頂点Ｓ２（ｘ２、ｙ２）、右下の頂点Ｓ３（ｘ３、ｙ３）及び左下の頂点Ｓ４（ｘ４、ｙ４）により、テンプレート画像Ｔを特定している。これにより、テンプレート画像Ｔは、顔領域だけでなく胴体領域の一部も含む。なお、ＣＰＵ２３は、テンプレート画像Ｔのヘッダファイル（メーカノート）に、被写体領域情報や周辺領域情報を記録する。

ステップＳ１０７：ＣＰＵ２３は、音声入力の有無を判定する。具体的には、ＣＰＵ２３は、マイク１８を介して音声入力があるか否かを判定する。音声入力が無い場合（ステップＳ１０７：Ｎｏ）、ＣＰＵ２３は、ステップＳ１０２の処理に戻る。音声入力が有りの場合（ステップＳ１０７：Ｙｅｓ）、ＣＰＵ２３は、ステップＳ１０８の処理に移行する。

ステップＳ１０８：抽出部２３ａは、スルー画像から顔領域の口の動きの変化を解析する。具体的には、抽出部２３ａは、時系列に取得された複数のスルー画像に基づいて、口の開閉状態の変化を検出する。

ステップＳ１０９：口の動きの変化がない場合（ステップＳ１０９：Ｎｏ）、ＣＰＵ２３は、後述するステップＳ１１２の処理に移行する。これは、被写体の発声ではなく、周囲音（例えば音楽のメロディー）等の場合に相当する。一方、口の動きの変化が有る場合（ステップＳ１０９：Ｙｅｓ）、ＣＰＵ２３は、ステップＳ１１０の処理に移行する。

ステップＳ１１０：ＣＰＵ２３は、音声を録音する。具体的には、ＣＰＵ２３は、ステップＳ１０７の処理にて、音声情報のデータの記録を開始しており、さらに、ＣＰＵ２３は、音声の入力がなくなるまで音声情報のデータをメモリ１２に記録し続ける。

ステップＳ１１１：ＣＰＵ２３は、テンプレート画像Ｔの画像データに音声ファイルを顔ＩＤ毎に関連付けて記録する。具体的には、ＣＰＵ２３は、テンプレート画像Ｔのヘッダファイル（メーカノート）に音声ファイルの記録先アドレスを記録する。

ステップＳ１１２：ＣＰＵ２３は、全ての顔をチェックしたか判定する。被写体が複数いる場合、例えば、被写体が順番にコメントを述べることがあるため、ＣＰＵ２３は、顔毎にチェックをする。全ての顔をチェックしていない場合（ステップＳ１１２：Ｎｏ）、ＣＰＵ２３は、ステップＳ１０８の処理に戻る。一方、全ての顔をチェックした場合（ステップＳ１１２：Ｙｅｓ）、ＣＰＵ２３は、ステップＳ１１３の処理に移行する。

ステップＳ１１３：ＣＰＵ２３は、テンプレート画像Ｔを記録媒体３０に記録する。そして、ＣＰＵ２３は、図３に示すフローを終了させる。

次に、図６のフローの処理を参照しつつ、本画像と音声ファイルとの関連付けの動作の一例を説明する。図６は、本画像と音声ファイルとの関連付けの動作の一例を示すフローチャートである。なお、図３に示すフローの処理の後、撮影者は、時間や場所を変える等して複数の本画像の撮影を行ったことを前提とする。また、ＣＰＵ２３は、本画像のデータを記録媒体３０に記録していることを前提とする。

ここで、操作部２１が本画像と音声ファイルとの関連付けを示す指示入力を受け付けた場合、ＣＰＵ２３は、図６に示すフローの処理を開始させる。

ステップ２０１：ＣＰＵ２３は、記録媒体３０からテンプレート画像Ｔを読み出す処理を行う。

ステップ２０２：ＣＰＵ２３は、記録媒体３０からＮ枚目（初期値Ｎ＝１）の本画像を読み出す処理を行う。

ステップ２０３：ＣＰＵ２３は、顔検出処理を行う。具体的には、ＣＰＵ２３は、ステップＳ１０２の処理と同様の顔検出処理を行う。

ステップ２０４：顔が検出されなかった場合（ステップ２０４：Ｎｏ）、ＣＰＵ２３は、後述するステップＳ２０６に移行する。一方、顔が検出された場合（ステップ２０４：Ｙｅｓ）、ＣＰＵ２３は、ステップＳ２０５に移行する。

ステップ２０５：ＣＰＵ２３の照合部２３ｃは、類似度の算出処理を行う。具体的には、照合部２３ｃは、以下に説明するテンプレートマッチング処理を行う。図７は、本実施形態のテンプレートマッチング処理の一例を説明する図である。図７（ａ）は、図５においてスルー画像から切り出したテンプレート画像Ｔを示す図である。このテンプレート画像Ｔには、被写体の輝度情報、色差情報の画像データが含まれる。図７（ｂ）では、テンプレート画像Ｔ内において複数の画素領域を対応付けて表している。ここで、テンプレート画像Ｔ内の各画素は、テンプレート画像Ｔ内において、横方向の画素位置を示すｘと縦方向の画素位置を示すｙとを用いてＴｘｙで特定される。ただし、実際には、画素数は、数十〜数百万画素である。

図７（ｃ）に示すターゲット画像Ａは、本画像上でテンプレートマッチング処理を行うための比較対象領域の画像である。なお、図７（ｃ）では、ターゲット画像Ａ内において複数の画素領域を対応付けて表している。ここで、ターゲット画像Ａ内の各画素は、横方向の画素位置を示すｘと縦方向を示す画素位置を示すｙとを用いてＡｘｙで特定される。

照合部２３ｃは、ターゲット画像Ａを本画像上で１画素ずつ或いは予め設定された所定画素ずつ、ずらしながらテンプレート画像Ｔとのテンプレートマッチング処理を行う。本実施形態では、テンプレート画像Ｔの面積とターゲット画像Ａの面積とは同じとする。なお、テンプレート画像Ｔの面積とターゲット画像Ａの面積とが異なるときは、照合部２３ｃは、テンプレート画像Ｔの面積を適宜、拡大又は縮小してターゲット画像Ａの面積とは同じサイズにしても良い。

そして、照合部２３ｃは、テンプレートマッチング処理により、テンプレート画像Ｔとターゲット画像Ａとの類似度を計算により求める。ここで、本実施形態では、テンプレート画像Ｔ及びターゲット画像Ａは、何れも被写体の輝度情報（Ｙ）と、色差情報（Ｃｂ、Ｃｒ）とからなるＹＣｂＣｒ表色系の画像データであることとする。

テンプレートマッチング処理は、一例として、(１)式に示すテンプレート画像Ｔと比較対象領域となるターゲット画像Ａとの残差ｒ（類似度の値）を演算し、残差ｒが小さいほど両画像の類似度が高いとする。

ｒ＝ΣΣ｜Ｔxy−Ａxy｜・・・(１)
ここで、(１)式において、ΣΣは、テンプレート画像Ｔとターゲット画像Ａの横(１〜ｘ)画素、縦(１〜ｙ)画素の画素単位の総和演算を表す。（１）式では、テンプレート画像Ｔとターゲット画像Ａとの画素毎の差の絶対値の総和を残差ｒとする。

すなわち、本実施形態では、照合部２３ｃは、テンプレート画像Ｔとターゲット画像Ａとの各画素におけるＹ成分の両画素の差の絶対和をＹ成分の残差ｒとして算出する。本実施形態では、残差ｒが小さいほど類似度が高くなり、照合部２３ｃは、テンプレート画像Ｔとターゲット画像Ａは類似していると判定する。また、残差ｒが大きいほど類似度が低くなり、照合部２３ｃは、テンプレート画像Ｔとターゲット画像Ａは類似していないと判定する。なお、テンプレート画像Ｔとターゲット画像Ａが完全に一致する場合、残差ｒはゼロの値となる。そして、照合部２３ｃは、本画像に対して１枚ずつ、類似度の算出結果をメモリ１２に記録して行く。本実施形態では、画像管理部２３ｄは、例えば、各々の本画像のうち、類似度が最大の本画像に音声ファイルを関連付ける。

なお、照合部２３ｃは、上記のテンプレートマッチング処理を行う前に、本画像のＡＷＢ値と、テンプレート画像ＴのＡＷＢ値を比較することにより、類似度を照合しても良い。

具体的には、照合部２３ｃは、本画像やテンプレート画像Ｔの画像データのメーカノートに記録されているＡＷＢ値を比較する。例えば、テンプレート画像Ｔが室内写真であって、本画像が屋外写真である場合、照合部２３ｃは、上記のテンプレートマッチング処理を行わずにＡＷＢ値に基づいて、類似度が低いと判定しても良い。或いは、照合部２３ｃは、本画像のＢＶ値と、テンプレート画像ＴのＢＶ値を比較することにより、類似度を照合しても良い。具体的には、照合部２３ｃは、本画像やテンプレート画像Ｔの画像データのメーカノートに記録されているＢＶ値を比較する。例えば、本画像のＢＶ値とテンプレート画像ＴのＢＶ値とが予め設定した許容範囲を超えている場合、照合部２３ｃは、本画像とテンプレート画像Ｔとは類似度が低いとしても良い。つまり、照合部２３ｃは、上記のテンプレートマッチング処理を行わずに類似度を判定することができる。これにより、照合部２３ｃは、複数の本画像のうち、テンプレートマッチング処理を行う本画像を予め抽出することができる。

ステップ２０６：ＣＰＵ２３は、照合部２３ｃが全ての本画像をチェックしたか否かの判定を行う。全ての本画像をチェックしていない場合（ステップ２０６：Ｎｏ）、ＣＰＵ２３は、Ｎの値をインクリメント（Ｎ＝Ｎ＋１）した後（ステップＳ２１０）、ステップＳ２０２に戻る。

ステップ２０７：ＣＰＵ２３は、類似度が最大の本画像を抽出する。具体的には、ＣＰＵ２３は、メモリ１２に記録されている本画像（１〜Ｎ）の類似度の結果を参照し、類似度が最大の本画像を抽出する。そして、ＣＰＵ２３は、表示モニタ１５に類似度が最大の本画像を表示させる。

ステップ２０８：ＣＰＵ２３の画像管理部２３ｄは、音声ファイルの関連付けを行う。具体的には、画像管理部２３ｄは、類似度が最大の本画像のヘッダファイル（メーカノート）に、音声ファイルの記録先のメモリアドレスを書き込む。これにより、類似度が最大の本画像に音声ファイルが関連付けられる。

ステップ２０９：ＣＰＵ２３は、関連付けがされた音声ファイルの出力処理を行う。具体的には、ＣＰＵ２３は、音声処理回路１７に音声ファイル（音声情報）をアナログの音声に変換させる。そして、ＣＰＵ２３は、スピーカ１９から音声を出力させる。そして、ＣＰＵ２３は、図６に示すフローを終了させる。

以上より、第１実施形態の電子カメラ１は、スルー画取得時に音声を発声する被写体を検出し、その被写体の音声ファイル（音声情報）が関連付けられたテンプレート画像を生成する。そして、その後に撮影された本画像とテンプレート画像との類似度の判定の際、電子カメラ１は、顔だけでなく、周囲の雰囲気を加味して例えば衣服の色、ＡＷＢ値、ＢＶ値等の周辺領域情報も比較対象とする。これにより、電子カメラ１は、複数の本画像のうちで、被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。
（第２実施形態）
次に、本発明の第２実施形態について説明する。第２実施形態では、記録媒体３０に記録されている画像処理プログラムをコンピュータにインストール（格納）して、上記のフローの処理と同様の処理を実行する。

図８は、コンピュータ５０の構成例を説明するブロック図である。なお、図１に示す電子カメラ１のブロック図と同様の機能のブロックについては、説明を省略又は簡略化する。図８に示す通り、コンピュータ５０は、例えば可搬性のコンピュータであって、カメラ部５１と、本体部５０ａとを有する。本体部５０ａは、通信インターフェース部（以下「通信Ｉ／Ｆ部」という）５２と、メモリ５３と、画像処理部５４と、ＲＯＭ５５と、記録Ｉ／Ｆ部５６と、表示モニタ５７と、音声処理回路５８と、マイク５９と、スピーカ６０と、操作部６１と、ＣＰＵ６２と、データバス６３とを備える。このうち、通信Ｉ／Ｆ部５２、メモリ５３、画像処理部５４、ＲＯＭ５５、記録Ｉ／Ｆ部５６、表示モニタ５７、音声処理回路５８及びＣＰＵ６２は、データバス６３を介して互いに接続されている。また、操作部６１は、ＣＰＵ６２に接続されている。

カメラ５１部は、撮像光学系５１ａと、撮像部５１ｂとを備える。通信Ｉ／Ｆ部５２は、カメラ部５１との通信インターフェースを提供する。これにより、撮像部５１ｂが出力する画像信号は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）接続により通信Ｉ／Ｆ部５２を介してメモリ５３に記録される。メモリ５３は、画像データを一時的に記録するバッファメモリの領域と、音声ファイルや、テンプレート画像を記憶する記憶用メモリの領域を有する。画像処理部５４は、メモリ５３に記録されている画像データを読み出し、各種の画像処理を施す。ＲＯＭ５５は、書き換え可能な不揮発性のフラッシュメモリである。ＲＯＭ５５は、ＣＰＵ６２の制御により記録媒体３０に記録されている画像処理プログラムを格納する。なお、画像処理プログラムは、ＲＯＭ５５に格納されるだけではなく、記録媒体３０に格納されていても良い。この場合、ＣＰＵ２３は、画像処理プログラムを一時的にＲＯＭ５５又はメモリ５３にロードする形で使用しても良い。

記録Ｉ／Ｆ部５６は、コネクタ（不図示）に接続された着脱自在の記録媒体３０にアクセスする。表示モニタ５７は、例えば、本画像やコンピュータ５０の操作メニュー等を出力する。なお、表示モニタ５７の表示画面上には、操作部６１の透明のタッチパネルが配置されているものとする。

音声処理回路５８は、ＣＰＵ６２の指示により音声を取得する。具体的には、音声処理回路５８は、マイク５９を介して入力された音声をデジタルの音声信号に変換する。また、音声処理回路５８は、スピーカ６０を介して音声出力処理を行う。操作部６１は、表示モニタ５７の表面に配置された透明のタッチパネルである。操作部６１は、タッチパネル表面に接触した指先等の位置を検出して撮影者からの操作を受け付ける。また、操作部６１は、カメラ部５１のレリーズ釦の機能を有する。

ＣＰＵ６２は、コンピュータ５０の制御を行うプロセッサである。ＣＰＵ６２は、ＲＯＭ５５に予め格納されたシーケンスプログラムを実行することにより、コンピュータ５０の各部の制御等を行う。

また、ＣＰＵ６２は、撮像処理部６２ａと、抽出部６２ｂと、テンプレート画像生成部６２ｃ、照合部６２ｄと、画像管理部６２ｅとしても機能する。

撮像処理部６１ａは、撮像部５１ｂに撮像処理を行わせる。抽出部６２ｂは、撮像部５１ｂにより時系列に得られるスルー画像を解析し、被写体領域情報と周辺領域情報を抽出する。テンプレート画像生成部６２ｃは、被写体の顔領域及びその顔領域の周辺を含む領域からなるテンプレート画像を生成する。なお、ＣＰＵ６２は、音声ファイルが関連付けられたテンプレート画像をメモリ５３に記憶する処理を行う。照合部６２ｄは、本画像に対してテンプレート画像に対する類似度を求める。画像管理部６２ｅは、照合部６２ｄにより求めた類似度に基づいて、テンプレート画像に関連付けられた音声ファイルを、本画像に関連付ける。

なお、画像処理プログラムを用いたコンピュータ５０の動作については、図３、図６で説明したフローの処理と同様であるので説明を省略する。

以上より、第２実施形態の画像処理プログラムによれば、本画像とテンプレート画像との類似度の判定の際、顔だけでなく、上記の周辺領域情報も比較対象とする。これにより、画像処理プログラムは、複数の本画像のうちで、被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。
（上記実施形態の補足事項）
（１）上記実施形態では、周辺領域情報としてＡＷＢ値、ＢＶ値等を用いたが、例えば、撮像感度（いわゆるＩＳＯ感度）等、他の撮影パラメータであっても良い。また、上記実施形態では、ＧＰＳ回路２２から位置情報や時刻情報を取得して、これらの情報を周辺領域情報としても良い。

（２）上記実施形態では、テンプレート画像生成部２３ｂは、テンプレート画像を生成したが、周辺領域としては、最大、撮影画面全体としても良い。

（３）上記実施形態では、画像管理部２４ｄは、音声ファイルを関連付けたが、音声付きの動画ファイルを関連付けても良い。

（４）上記実施形態では、音声ファイルが１つの場合について例示したが、１つのテンプレート画像に複数の音声ファイルを関連付けても良い。

（５）上記実施形態では、コンピュータ５０の撮像部５１により取得した画像により、テンプレート画像や本画像を生成したが、電子カメラ１で記録されたテンプレート画像や本画像を記録媒体３０を介して取得し、図６に示すフローの処理を行っても良い。

１・・・電子カメラ、１１、５１ｂ・・・撮像部、１７、５８・・・音声処理回路、６２ａ・・・撮像処理部、２３ａ、６２ｂ・・・抽出部、２３ｂ、６２ｃ・・・テンプレート画像生成部、２３ｃ、６２ｄ・・・照合部、２３ｄ、６２ｅ・・・画像管理部

Claims

被写体を撮像する撮像部と、
前記撮像部により時系列に得られる第１画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、前記被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する抽出部と、
前記第１画像の取得時に、前記音声を取得する音声取得部と、
前記抽出部により抽出される各領域情報と前記第１画像とを用いて、前記被写体の領域及び該被写体の周辺を含む領域からなる第２画像を生成する画像生成部と、
前記音声取得部により取得された音声に基づく音声情報を前記画像生成部で生成された前記第２画像に関連付けて記録すると共に、前記撮像部により取得した前記第１画像とは異なる第３画像を記録する記録部と、
前記記録部に記録されている前記第２画像に関連付けられた音声情報を前記記録部に記録されている前記第３画像に関連付けるように指示する指示部材と、
前記指示部材により前記記録部に記録されている前記第２画像に関連付けられた音声情報を前記記録部に記録されている前記第３画像に関連付けるように指示されたとき、前記第２画像と前記第３画像との類似度を求める照合部と、
前記照合部により求めた類似度に基づいて、前記第２画像に関連付けられた音声情報を前記第３画像に関連付ける画像管理部と、
を備えることを特徴とする電子カメラ。
請求項１に記載の電子カメラにおいて、
前記周辺領域情報は、前記被写体の周辺の領域における輝度情報からなり、
前記照合部は、前記第３画像における前記被写体の周辺の領域における輝度情報と、前記周辺領域情報と比較し、比較結果に基づいて前記類似度を求めることを特徴とする電子カメラ。
請求項１に記載の電子カメラにおいて、
前記周辺領域情報は、前記被写体の周辺の領域における色温度補正値の情報からなり、
前記照合部は、前記第３画像における前記被写体の周辺の領域における色温度補正値と、前記周辺領域情報と比較し、比較結果に基づいて前記類似度を求めることを特徴とする電子カメラ。
請求項１に記載の電子カメラにおいて、
前記被写体の領域は、人物の顔領域であることを特徴とする電子カメラ。
被写体を撮像させる撮像処理と、
前記撮像処理により時系列に得られる第１画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、前記被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する抽出処理と、
前記第１画像の取得時に、前記音声を取得する音声取得処理と、
前記抽出処理により抽出される各領域情報と前記第１画像とを用いて、前記被写体の領域及び該被写体の周辺を含む領域からなる第２画像を生成する画像生成処理と、
前記音声取得処理により取得された音声に基づく音声情報を前記画像生成処理で生成された前記第２画像に関連付けて記録すると共に、前記撮像処理により取得した前記第１画像とは異なる第３画像を記録する記録処理と、
前記記録処理により記録されている前記第２画像に関連付けられた音声情報を前記記録処理により記録されている前記第３画像に関連付けるように指示されたとき、前記第２画像と前記第３画像との類似度を求める照合処理と、
前記照合処理により求めた類似度に基づいて、前記第２画像に関連付けられた音声情報を前記第３画像に関連付ける画像管理処理と、
をコンピュータに実行させることが可能な画像処理プログラム。