JP5609367B2 - 電子カメラ及び画像処理プログラム - Google Patents

電子カメラ及び画像処理プログラム Download PDF

Info

Publication number
JP5609367B2
JP5609367B2 JP2010165743A JP2010165743A JP5609367B2 JP 5609367 B2 JP5609367 B2 JP 5609367B2 JP 2010165743 A JP2010165743 A JP 2010165743A JP 2010165743 A JP2010165743 A JP 2010165743A JP 5609367 B2 JP5609367 B2 JP 5609367B2
Authority
JP
Japan
Prior art keywords
image
unit
subject
information
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010165743A
Other languages
English (en)
Other versions
JP2012029035A (ja
Inventor
鉾井 逸人
逸人 鉾井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2010165743A priority Critical patent/JP5609367B2/ja
Publication of JP2012029035A publication Critical patent/JP2012029035A/ja
Application granted granted Critical
Publication of JP5609367B2 publication Critical patent/JP5609367B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、電子カメラ及び画像処理プログラムに関する。
従来から、時系列に取得される画像から被写体の口の動きを検出して、音声を発声する被写体を特定する電子カメラが知られている(例えば、特許文献1参照)。上記電子カメラでは、特定された被写体とマイクで記録した音声のデータとが関連付けられる。
特開2007−266793号公報
ところで、記録用の本画像が複数撮影されている場合、撮影者が本画像の撮影と異なるタイミングで記録した音声のデータをその音声を発声した被写体に後で関連付けようとすると、どの本画像に関連付ければ良いのか分からなくなることがある。
本発明は、上記事情に鑑み、複数の本画像のうちで、本画像の撮影と異なるタイミングで被写体が発声した音声のデータをより相応しい本画像に関連付けることができる手段を提供することを目的とする。
第1の発明に係る電子カメラは、撮像部と、抽出部と、音声取得部と、画像生成部と、記録部と、指示部材と、照合部と、画像管理部とを備える。撮像部は、被写体を撮像する。抽出部は、撮像部により時系列に得られる第1画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。音声取得部は、第1画像の取得時に、音声を取得する。画像生成部は、抽出部により抽出される各領域情報と第1画像とを用いて、被写体の領域及び被写体の周辺を含む領域からなる第2画像を生成する。記録部は、音声取得部により取得された音声に基づく音声情報を画像生成部で生成された第2画像に関連付けて記録すると共に、撮像部により取得した第1画像とは異なる第3画像を記録する指示部材は、記録部に記録されている第2画像に関連付けられた音声情報を記録部に記録されている第3画像に関連付けるように指示する。照合部は、指示部材により記録部に記録されている第2画像に関連付けられた音声情報を記録部に記録されている第3画像に関連付けるように指示されたとき、第2画像と第3画像との類似度を求める。画像管理部は、照合部により求めた類似度に基づいて、第2画像に関連付けられた音声情報を第3画像に関連付ける。
第2の発明は、第1の発明において、周辺領域情報は、被写体の周辺の領域における輝度情報からなる。照合部は、第3画像における被写体の周辺の領域における輝度情報と、周辺領域情報と比較し、比較結果に基づいて類似度を求める。
第3の発明は、第1の発明において、周辺領域情報は、被写体の周辺の領域における色温度補正値の情報からなる。照合部は、第3画像における被写体の周辺の領域における色温度補正値と、周辺領域情報と比較し、比較結果に基づいて類似度を求める。
第4の発明は、第1の発明において、被写体の領域は、人物の顔領域である。
第5の発明に係る画像処理プログラムは、撮像処理と、抽出処理と、音声取得処理と、画像生成処理と、記録処理と、照合処理と、画像管理処理とをコンピュータに実行させる。撮像処理は、被写体を撮像させる。抽出処理は、撮像処理により時系列に得られる第1画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。音声取得処理は、第1画像の取得時に、音声を取得する。画像生成処理は、抽出処理により抽出される各領域情報と第1画像とを用いて、被写体の領域及び該被写体の周辺を含む領域からなる第2画像を生成する。記録処理は、音声取得処理により取得された音声に基づく音声情報を画像生成処理で生成された第2画像に関連付けて記録すると共に、撮像処理により取得した第1画像とは異なる第3画像を記録する。照合処理は、記録処理により記録されている第2画像に関連付けられた音声情報を記録処理により記録されている第3画像に関連付けるように指示されたとき、第2画像と第3画像との類似度を求める。画像管理処理は、照合処理により求めた類似度に基づいて、第2画像に関連付けられた音声情報を第3画像に関連付ける。
本発明によれば、複数の本画像のうちで、本画像の撮影と異なるタイミングで被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。
本実施形態の電子カメラ1の構成例を説明するブロック図 テンプレート画像Tにおける画像ファイルの構成の一例を説明する図 テンプレート生成モードにおける電子カメラ1の動作の一例を示すフローチャート 顔検出処理の一例を説明する図 テンプレート画像の生成処理の一例を説明する図 本画像と音声ファイルとの関連付けの動作の一例を示すフローチャート 本実施形態のテンプレートマッチング処理の一例を説明する図 コンピュータ50の構成例を説明するブロック図
以下、図面に基づいて本発明の実施の形態を詳細に説明する。図1は、本実施形態の電子カメラ1の構成例を説明するブロック図である。本実施形態の電子カメラ1は、構図確認用のスルー画像の撮影時や動画撮影時に記録した被写体の人物の音声ファイル(音声メモ等の音声情報)を、複数の記録用の静止画像(以下「本画像」という)のうち、その人物が撮影された最も適切な本画像に自動的に関連付けて記録する手段を有する。
電子カメラ1は、図1に示す通り撮像光学系10と、撮像部11と、メモリ12と、画像処理部13と、ROM(Read Only Memory)14と、表示モニタ15と、記録インターフェース部(以下「記録I/F部」という)16と、音声処理回路17と、マイク18と、スピーカ19と、レリーズ釦20と、操作部21と、GPS(Global Positioning System)回路22と、CPU(Central Processing Unit)23と、データバス24とを備える。
このうち、撮像部11、メモリ12、画像処理部13、ROM14、表示モニタ15、記録I/F部16、音声処理回路17及びCPU23とは、データバス24を介して互いに接続されている。また、レリーズ釦20、操作部21及びGPS回路22は、CPU23に接続されている。
撮像光学系10は、ズームレンズとフォーカスレンズとを含む複数のレンズ群で構成されている。なお、簡単のため、図1では、撮像光学系10を1枚のレンズとして図示する。撮像部11は、被写体を撮像し、例えば、撮像素子と、アナログフロントエンド(AFE)回路と、A/D変換部と、デジタルフロントエンド(DFE)回路とを有している。撮像素子は、例えばCCD(Charge Coupled Device)型のカラーイメージセンサである。AFE回路は、撮像素子が出力する画像信号に対してアナログ信号処理を施す。A/D変換部は、アナログの画像信号をデジタルの画像信号に変換する。DFE回路は、A/D変換後の画像信号にデジタル信号処理を施す。なお、撮像部11が出力する画像信号は、画像データとしてメモリ12に一時的に記録される。なお、メモリ12は、画像データを一時的に記録するバッファメモリの領域を有する。また、メモリ12は、音声ファイルや、後述するテンプレート画像生成部23bが生成するテンプレート画像を記憶する記憶用メモリの領域を有する。なお、このテンプレート画像は音声ファイル(音声情報)が関連付けられて記録される。
図2は、テンプレート画像Tにおける画像ファイルの構成の一例を説明する図である。画像ファイルは、図2(a)に示す通り、例えばExif(Exchangeable Image File Format)形式であり、ヘッダ領域とデータ領域とを有する。カメラ情報(撮影条件等)は、タグデータとしてヘッダ領域に記録される。また、テンプレート画像Tの画像データは、データ領域に記録される。なお、ヘッダ領域には、メーカ独自のフォーマットでデータを記録できるメーカノートの領域がある。図2(b)は、メーカノートの領域に記録されたデータの一例を示す。メーカノートの領域には、被写体領域情報や周辺領域情報等が記録される。例えば、メーカノートの領域には、AWB値、BV値、顔毎に識別するための識別情報(以下「顔ID」という)、顔関連座標、人物領域座標、音声ファイルの記録先アドレス等が記録される。ここで、顔関連座標は、例えば、顔検出枠の4隅(各頂点)の座標(図4参照)である。また、人物領域座標は、テンプレート画像Tの4隅(各頂点)の座標である(図5参照)。また、音声ファイルの記録先アドレスは、例えば、記録媒体30に記録されている音声ファイルの記録先アドレスを示す。
画像処理部13は、メモリ12に記録されている画像データを読み出し、各種の画像処理(階調変換処理、輪郭強調処理、ホワイトバランス処理等)を施す。ROM14は、書き換え可能な不揮発性のフラッシュメモリである。ROM14は、電子カメラ1の制御を行うプログラム等を予め記憶している。CPU23は、このプログラムに従い、一例として後述の図3に示すフローの処理を実行する。表示モニタ15は、CPU23の指示に応じて各種画像や電子カメラ1の操作メニュー等を表示する。なお、画像処理部13は、撮影待機時において、スルー画像をモニタ表示用(ビデオ信号)のライブビュー画像に変換する。そして、表示モニタ15は、所定のフレームレート(例えば30fps)でライブビュー画像を出力する。記録I/F部16には、着脱自在の記録媒体30を接続するためのコネクタ(不図示)が形成されている。そして、記録I/F部16は、そのコネクタに接続された記録媒体30にアクセスして画像の記録処理等を行う。この記録媒体30は、例えば、不揮発性のメモリカードである。図1では、コネクタに接続された後の記録媒体30を示している。
音声処理回路17は、音声を取得して音声情報に変換する。具体的には、音声処理回路17は、マイク18を介して入力されたアナログの音声信号をデジタルの音声信号(音声情報)に変換する。音声情報は、音声ファイルとしてメモリ12に記録される。また、音声処理回路17は、スピーカ19を介して音声出力処理を行う。
レリーズ釦20は、半押し操作と全押し操作(撮像動作開始)との指示入力とを受け付ける。操作部21は、電子カメラ1を操作するための指示入力を受け付ける複数の釦を有している。例えば、操作部21は、電子カメラ1の操作メニューの設定条件を選択若しくは実行する操作釦、電子カメラ1本体の電源のオン又はオフを受け付ける電源釦等を有している。GPS回路22は、GPS衛星からの電波を受信して位置情報(経度、緯度)や時刻情報を検出する。
CPU23は、各種演算及び電子カメラ1の制御を行うプロセッサである。また、CPU23は、抽出部23aと、テンプレート画像生成部23bと、照合部23cと、画像管理部23dしても機能する。
抽出部23aは、撮像部11により時系列に得られるスルー画像を解析し、音声を発声する人物の顔の領域に関する情報を被写体領域情報として、被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する。例えば、抽出部23aは、特開2001−16573号公報等に記載された特徴点抽出処理によって顔領域を検出する。具体的には、抽出部23aは、例えばスルー画像を解析して画像から特徴点(特徴量)を抽出して顔領域の位置、顔領域の大きさ(顔面積)等を検出する。また、抽出部23aは、特徴点に基づいて、例えば、目、鼻、口等の顔の特徴部位を画像から検出する。これらの処理により、抽出部23aは、画像内の顔領域の位置、顔の特徴部位の位置を特定する。例えば、抽出部23aは、画像の横方向をX軸、縦方向をY軸としたときに、顔領域に含まれる画素のX座標及びY座標を算出する。
また、抽出部23aは、例えば引用文献1に記載された口の開閉状態を検出する処理に基づいて、口の動きの有無を検出する。抽出部23aは、口の動きを検出した場合、音声を発声する被写体であると判定する。
また、抽出部23aは、例えば、被写体の顔と胴体部分を囲む領域を周辺領域情報として抽出する。また、抽出部23aは、例えば、被写体の周辺の領域における輝度情報を周辺領域情報として抽出する。具体的には、抽出部23aは、スルー画像を解析して、一例としてAPEX(Additive System of Photographic Exposure)単位であるBV値(Brightness Value)を周辺領域情報として抽出する。
また、抽出部23aは、例えば、被写体の周辺の領域における色温度補正値を周辺領域情報として抽出する。色温度補正値は、例えば、光源の色温度の補正用のオートホワイトバランス値(以下「AWB値」という)である。具体的には、抽出部23aは、RGBの画像信号(スルー画像)に基づいて光源の色温度を推定する。色温度は、例えば、(R値の平均値/G値の平均値(以下、「R/G」と称する))を縦軸に取り、(B値の平均値/G値の平均値(以下、「B/G」と称する))を横軸に取った色空間内に対応付けられている。したがって、抽出部23aは、RGBの画像信号に基づいて、R/G及びB/Gを算出することにより、色温度を推定することができる。そして、抽出部23aは、推定した色温度に基づいて、AWB値を算出する。なお、抽出部23aは、色温度を周辺領域情報として抽出しても良い。
テンプレート画像生成部23bは、抽出部23aが抽出した被写体領域情報及び周辺領域情報とスルー画像とを用いて、被写体の顔領域及びその顔領域の周辺を含む領域からなるテンプレート画像を生成する。照合部23cは、撮像部11が全押し操作の指示入力により取得した本画像に対して、メモリ12に記憶されたテンプレート画像に対する類似度を求める。画像管理部23dは、照合部23cにより求めた類似度に基づいて、テンプレート画像に関連付けられた音声ファイル(音声情報)を、本画像に関連付ける。なお、テンプレート画像生成部23b、照合部23c、画像管理部23dの詳細については、後述する。
次に、テンプレート生成モードにおける電子カメラ1の動作の一例を説明する。図3は、テンプレート生成モードにおける電子カメラ1の動作の一例を示すフローチャートである。テンプレート生成モードでは、発声する被写体のテンプレート画像を生成する。ここで、電子カメラ1の電源がオンされた後、図1に示す操作部21がテンプレート生成モードの指示入力を受け付けると、CPU23は、図3に示すフローの処理を開始させる。
ステップS101:CPU23は、スルー画像の取得を開始する。具体的には、CPU23は、撮像部11を駆動させてスルー画像の撮像を開始する。その後、CPU23は、所定のフレームレート(例えば、30fps)で撮像部11にスルー画像を生成させると共にライブビュー画像を表示モニタ15に動画表示させる。
ステップS102:CPU23の抽出部23aは、顔検出処理を行う。具体的には、抽出部23aは、スルー画像を解析して画像から特徴点を抽出して顔領域の位置等を検出する。また、抽出部23aは、特徴点に基づいて、顔の特徴部位を画像から検出する。
ステップS103:CPU23は、顔の有無の判定を行う。顔を検出した場合(ステップS103:Yes)、CPU23は、ステップS104の処理に移行する。図4は、顔検出処理の一例を説明する図である。CPU23は、顔を検出した場合、表示モニタ15にライブビュー画像を表示させると共に顔検出枠31を重畳表示させる。これにより、撮影者は被写体である人物Pの顔が検出されたことが分かる。また、CPU23は、顔を検出した場合、顔IDを生成する。一方、顔を検出していない場合(ステップS103:No)、CPU23は、ステップS102の処理に戻る。
ステップS104:CPU23は、今回検出された顔が既に検出済みの顔であるか否かを顔IDに基づいて判定する。既に検出済みの顔である場合(ステップS104:Yes)、CPU23は、後述するステップS107の処理に移行する。一方、顔を検出していない場合(ステップS104:No)、CPU23は、ステップS105の処理に移行する。
ステップS105:抽出部23aは、周辺領域情報の抽出処理を行う。例えば、抽出部23aは、スルー画像(RGBの画像信号)を解析して光源の色温度を推定し、AWB値を周辺領域情報として抽出する。また、抽出部23aは、スルー画像を解析してBV値を周辺領域情報として抽出する。また、抽出部23aは、顔の位置の座標と顔領域の大きさとに基づいて被写体の顔及び胴体部分を囲む領域を推定し、周辺領域情報として抽出する。
ステップS106:CPU23のテンプレート画像生成部23bは、テンプレート画像の生成処理を行う。具体的には、テンプレート画像生成部23bは、被写体の顔及び胴体部分を囲む領域をテンプレート画像としてスルー画像から切り出す。
図5は、テンプレート画像の生成処理の一例を説明する図である。図5では、スルー画像を正面から見て、左上を原点、横方向をX軸、縦方向をY軸として座標系を構成している。テンプレート画像生成部23bは、被写体の顔及び胴体部分を四隅の座標で囲む矩形領域をテンプレート画像Tとして生成する。具体的には、テンプレート画像生成部23bは、テンプレート画像Tの左上の頂点S1(x1、y1)、右上の頂点S2(x2、y2)、右下の頂点S3(x3、y3)及び左下の頂点S4(x4、y4)により、テンプレート画像Tを特定している。これにより、テンプレート画像Tは、顔領域だけでなく胴体領域の一部も含む。なお、CPU23は、テンプレート画像Tのヘッダファイル(メーカノート)に、被写体領域情報や周辺領域情報を記録する。
ステップS107:CPU23は、音声入力の有無を判定する。具体的には、CPU23は、マイク18を介して音声入力があるか否かを判定する。音声入力が無い場合(ステップS107:No)、CPU23は、ステップS102の処理に戻る。音声入力が有りの場合(ステップS107:Yes)、CPU23は、ステップS108の処理に移行する。
ステップS108:抽出部23aは、スルー画像から顔領域の口の動きの変化を解析する。具体的には、抽出部23aは、時系列に取得された複数のスルー画像に基づいて、口の開閉状態の変化を検出する。
ステップS109:口の動きの変化がない場合(ステップS109:No)、CPU23は、後述するステップS112の処理に移行する。これは、被写体の発声ではなく、周囲音(例えば音楽のメロディー)等の場合に相当する。一方、口の動きの変化が有る場合(ステップS109:Yes)、CPU23は、ステップS110の処理に移行する。
ステップS110:CPU23は、音声を録音する。具体的には、CPU23は、ステップS107の処理にて、音声情報のデータの記録を開始しており、さらに、CPU23は、音声の入力がなくなるまで音声情報のデータをメモリ12に記録し続ける。
ステップS111:CPU23は、テンプレート画像Tの画像データに音声ファイルを顔ID毎に関連付けて記録する。具体的には、CPU23は、テンプレート画像Tのヘッダファイル(メーカノート)に音声ファイルの記録先アドレスを記録する。
ステップS112:CPU23は、全ての顔をチェックしたか判定する。被写体が複数いる場合、例えば、被写体が順番にコメントを述べることがあるため、CPU23は、顔毎にチェックをする。全ての顔をチェックしていない場合(ステップS112:No)、CPU23は、ステップS108の処理に戻る。一方、全ての顔をチェックした場合(ステップS112:Yes)、CPU23は、ステップS113の処理に移行する。
ステップS113:CPU23は、テンプレート画像Tを記録媒体30に記録する。そして、CPU23は、図3に示すフローを終了させる。
次に、図6のフローの処理を参照しつつ、本画像と音声ファイルとの関連付けの動作の一例を説明する。図6は、本画像と音声ファイルとの関連付けの動作の一例を示すフローチャートである。なお、図3に示すフローの処理の後、撮影者は、時間や場所を変える等して複数の本画像の撮影を行ったことを前提とする。また、CPU23は、本画像のデータを記録媒体30に記録していることを前提とする。
ここで、操作部21が本画像と音声ファイルとの関連付けを示す指示入力を受け付けた場合、CPU23は、図6に示すフローの処理を開始させる。
ステップ201:CPU23は、記録媒体30からテンプレート画像Tを読み出す処理を行う。
ステップ202:CPU23は、記録媒体30からN枚目(初期値N=1)の本画像を読み出す処理を行う。
ステップ203:CPU23は、顔検出処理を行う。具体的には、CPU23は、ステップS102の処理と同様の顔検出処理を行う。
ステップ204:顔が検出されなかった場合(ステップ204:No)、CPU23は、後述するステップS206に移行する。一方、顔が検出された場合(ステップ204:Yes)、CPU23は、ステップS205に移行する。
ステップ205:CPU23の照合部23cは、類似度の算出処理を行う。具体的には、照合部23cは、以下に説明するテンプレートマッチング処理を行う。図7は、本実施形態のテンプレートマッチング処理の一例を説明する図である。図7(a)は、図5においてスルー画像から切り出したテンプレート画像Tを示す図である。このテンプレート画像Tには、被写体の輝度情報、色差情報の画像データが含まれる。図7(b)では、テンプレート画像T内において複数の画素領域を対応付けて表している。ここで、テンプレート画像T内の各画素は、テンプレート画像T内において、横方向の画素位置を示すxと縦方向の画素位置を示すyとを用いてTxyで特定される。ただし、実際には、画素数は、数十〜数百万画素である。
図7(c)に示すターゲット画像Aは、本画像上でテンプレートマッチング処理を行うための比較対象領域の画像である。なお、図7(c)では、ターゲット画像A内において複数の画素領域を対応付けて表している。ここで、ターゲット画像A内の各画素は、横方向の画素位置を示すxと縦方向を示す画素位置を示すyとを用いてAxyで特定される。
照合部23cは、ターゲット画像Aを本画像上で1画素ずつ或いは予め設定された所定画素ずつ、ずらしながらテンプレート画像Tとのテンプレートマッチング処理を行う。本実施形態では、テンプレート画像Tの面積とターゲット画像Aの面積とは同じとする。なお、テンプレート画像Tの面積とターゲット画像Aの面積とが異なるときは、照合部23cは、テンプレート画像Tの面積を適宜、拡大又は縮小してターゲット画像Aの面積とは同じサイズにしても良い。
そして、照合部23cは、テンプレートマッチング処理により、テンプレート画像Tとターゲット画像Aとの類似度を計算により求める。ここで、本実施形態では、テンプレート画像T及びターゲット画像Aは、何れも被写体の輝度情報(Y)と、色差情報(Cb、Cr)とからなるYCbCr表色系の画像データであることとする。
テンプレートマッチング処理は、一例として、(1)式に示すテンプレート画像Tと比較対象領域となるターゲット画像Aとの残差r(類似度の値)を演算し、残差rが小さいほど両画像の類似度が高いとする。
r=ΣΣ|Txy−Axy| ・・・(1)
ここで、(1)式において、ΣΣは、テンプレート画像Tとターゲット画像Aの横(1〜x)画素、縦(1〜y)画素の画素単位の総和演算を表す。(1)式では、テンプレート画像Tとターゲット画像Aとの画素毎の差の絶対値の総和を残差rとする。
すなわち、本実施形態では、照合部23cは、テンプレート画像Tとターゲット画像Aとの各画素におけるY成分の両画素の差の絶対和をY成分の残差rとして算出する。本実施形態では、残差rが小さいほど類似度が高くなり、照合部23cは、テンプレート画像Tとターゲット画像Aは類似していると判定する。また、残差rが大きいほど類似度が低くなり、照合部23cは、テンプレート画像Tとターゲット画像Aは類似していないと判定する。なお、テンプレート画像Tとターゲット画像Aが完全に一致する場合、残差rはゼロの値となる。そして、照合部23cは、本画像に対して1枚ずつ、類似度の算出結果をメモリ12に記録して行く。本実施形態では、画像管理部23dは、例えば、各々の本画像のうち、類似度が最大の本画像に音声ファイルを関連付ける。
なお、照合部23cは、上記のテンプレートマッチング処理を行う前に、本画像のAWB値と、テンプレート画像TのAWB値を比較することにより、類似度を照合しても良い。
具体的には、照合部23cは、本画像やテンプレート画像Tの画像データのメーカノートに記録されているAWB値を比較する。例えば、テンプレート画像Tが室内写真であって、本画像が屋外写真である場合、照合部23cは、上記のテンプレートマッチング処理を行わずにAWB値に基づいて、類似度が低いと判定しても良い。或いは、照合部23cは、本画像のBV値と、テンプレート画像TのBV値を比較することにより、類似度を照合しても良い。具体的には、照合部23cは、本画像やテンプレート画像Tの画像データのメーカノートに記録されているBV値を比較する。例えば、本画像のBV値とテンプレート画像TのBV値とが予め設定した許容範囲を超えている場合、照合部23cは、本画像とテンプレート画像Tとは類似度が低いとしても良い。つまり、照合部23cは、上記のテンプレートマッチング処理を行わずに類似度を判定することができる。これにより、照合部23cは、複数の本画像のうち、テンプレートマッチング処理を行う本画像を予め抽出することができる。
ステップ206:CPU23は、照合部23cが全ての本画像をチェックしたか否かの判定を行う。全ての本画像をチェックしていない場合(ステップ206:No)、CPU23は、Nの値をインクリメント(N=N+1)した後(ステップS210)、ステップS202に戻る。
ステップ207:CPU23は、類似度が最大の本画像を抽出する。具体的には、CPU23は、メモリ12に記録されている本画像(1〜N)の類似度の結果を参照し、類似度が最大の本画像を抽出する。そして、CPU23は、表示モニタ15に類似度が最大の本画像を表示させる。
ステップ208:CPU23の画像管理部23dは、音声ファイルの関連付けを行う。具体的には、画像管理部23dは、類似度が最大の本画像のヘッダファイル(メーカノート)に、音声ファイルの記録先のメモリアドレスを書き込む。これにより、類似度が最大の本画像に音声ファイルが関連付けられる。
ステップ209:CPU23は、関連付けがされた音声ファイルの出力処理を行う。具体的には、CPU23は、音声処理回路17に音声ファイル(音声情報)をアナログの音声に変換させる。そして、CPU23は、スピーカ19から音声を出力させる。そして、CPU23は、図6に示すフローを終了させる。
以上より、第1実施形態の電子カメラ1は、スルー画取得時に音声を発声する被写体を検出し、その被写体の音声ファイル(音声情報)が関連付けられたテンプレート画像を生成する。そして、その後に撮影された本画像とテンプレート画像との類似度の判定の際、電子カメラ1は、顔だけでなく、周囲の雰囲気を加味して例えば衣服の色、AWB値、BV値等の周辺領域情報も比較対象とする。これにより、電子カメラ1は、複数の本画像のうちで、被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。
(第2実施形態)
次に、本発明の第2実施形態について説明する。第2実施形態では、記録媒体30に記録されている画像処理プログラムをコンピュータにインストール(格納)して、上記のフローの処理と同様の処理を実行する。
図8は、コンピュータ50の構成例を説明するブロック図である。なお、図1に示す電子カメラ1のブロック図と同様の機能のブロックについては、説明を省略又は簡略化する。図8に示す通り、コンピュータ50は、例えば可搬性のコンピュータであって、カメラ部51と、本体部50aとを有する。本体部50aは、通信インターフェース部(以下「通信I/F部」という)52と、メモリ53と、画像処理部54と、ROM55と、記録I/F部56と、表示モニタ57と、音声処理回路58と、マイク59と、スピーカ60と、操作部61と、CPU62と、データバス63とを備える。このうち、通信I/F部52、メモリ53、画像処理部54、ROM55、記録I/F部56、表示モニタ57、音声処理回路58及びCPU62は、データバス63を介して互いに接続されている。また、操作部61は、CPU62に接続されている。
カメラ51部は、撮像光学系51aと、撮像部51bとを備える。通信I/F部52は、カメラ部51との通信インターフェースを提供する。これにより、撮像部51bが出力する画像信号は、例えばUSB(Universal Serial Bus)接続により通信I/F部52を介してメモリ53に記録される。メモリ53は、画像データを一時的に記録するバッファメモリの領域と、音声ファイルや、テンプレート画像を記憶する記憶用メモリの領域を有する。画像処理部54は、メモリ53に記録されている画像データを読み出し、各種の画像処理を施す。ROM55は、書き換え可能な不揮発性のフラッシュメモリである。ROM55は、CPU62の制御により記録媒体30に記録されている画像処理プログラムを格納する。なお、画像処理プログラムは、ROM55に格納されるだけではなく、記録媒体30に格納されていても良い。この場合、CPU23は、画像処理プログラムを一時的にROM55又はメモリ53にロードする形で使用しても良い。
記録I/F部56は、コネクタ(不図示)に接続された着脱自在の記録媒体30にアクセスする。表示モニタ57は、例えば、本画像やコンピュータ50の操作メニュー等を出力する。なお、表示モニタ57の表示画面上には、操作部61の透明のタッチパネルが配置されているものとする。
音声処理回路58は、CPU62の指示により音声を取得する。具体的には、音声処理回路58は、マイク59を介して入力された音声をデジタルの音声信号に変換する。また、音声処理回路58は、スピーカ60を介して音声出力処理を行う。操作部61は、表示モニタ57の表面に配置された透明のタッチパネルである。操作部61は、タッチパネル表面に接触した指先等の位置を検出して撮影者からの操作を受け付ける。また、操作部61は、カメラ部51のレリーズ釦の機能を有する。
CPU62は、コンピュータ50の制御を行うプロセッサである。CPU62は、ROM55に予め格納されたシーケンスプログラムを実行することにより、コンピュータ50の各部の制御等を行う。
また、CPU62は、撮像処理部62aと、抽出部62bと、テンプレート画像生成部62c、照合部62dと、画像管理部62eとしても機能する。
撮像処理部61aは、撮像部51bに撮像処理を行わせる。抽出部62bは、撮像部51bにより時系列に得られるスルー画像を解析し、被写体領域情報と周辺領域情報を抽出する。テンプレート画像生成部62cは、被写体の顔領域及びその顔領域の周辺を含む領域からなるテンプレート画像を生成する。なお、CPU62は、音声ファイルが関連付けられたテンプレート画像をメモリ53に記憶する処理を行う。照合部62dは、本画像に対してテンプレート画像に対する類似度を求める。画像管理部62eは、照合部62dにより求めた類似度に基づいて、テンプレート画像に関連付けられた音声ファイルを、本画像に関連付ける。
なお、画像処理プログラムを用いたコンピュータ50の動作については、図3、図6で説明したフローの処理と同様であるので説明を省略する。
以上より、第2実施形態の画像処理プログラムによれば、本画像とテンプレート画像との類似度の判定の際、顔だけでなく、上記の周辺領域情報も比較対象とする。これにより、画像処理プログラムは、複数の本画像のうちで、被写体が発声した音声のデータをより相応しい本画像に関連付けることができる。
(上記実施形態の補足事項)
(1)上記実施形態では、周辺領域情報としてAWB値、BV値等を用いたが、例えば、撮像感度(いわゆるISO感度)等、他の撮影パラメータであっても良い。また、上記実施形態では、GPS回路22から位置情報や時刻情報を取得して、これらの情報を周辺領域情報としても良い。
(2)上記実施形態では、テンプレート画像生成部23bは、テンプレート画像を生成したが、周辺領域としては、最大、撮影画面全体としても良い。
(3)上記実施形態では、画像管理部24dは、音声ファイルを関連付けたが、音声付きの動画ファイルを関連付けても良い。
(4)上記実施形態では、音声ファイルが1つの場合について例示したが、1つのテンプレート画像に複数の音声ファイルを関連付けても良い。
(5)上記実施形態では、コンピュータ50の撮像部51により取得した画像により、テンプレート画像や本画像を生成したが、電子カメラ1で記録されたテンプレート画像や本画像を記録媒体30を介して取得し、図6に示すフローの処理を行っても良い。
1・・・電子カメラ、11、51b・・・撮像部、17、58・・・音声処理回路、62a・・・撮像処理部、23a、62b・・・抽出部、23b、62c・・・テンプレート画像生成部、23c、62d・・・照合部、23d、62e・・・画像管理部

Claims (5)

  1. 被写体を撮像する撮像部と、
    前記撮像部により時系列に得られる第1画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、前記被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する抽出部と、
    前記第1画像の取得時に、前記音声を取得する音声取得部と、
    前記抽出部により抽出される各領域情報と前記第1画像とを用いて、前記被写体の領域及び該被写体の周辺を含む領域からなる第2画像を生成する画像生成部と、
    前記音声取得部により取得された音声に基づく音声情報を前記画像生成部で生成された前記第2画像に関連付けて記録すると共に、前記撮像部により取得した前記第1画像とは異なる第3画像を記録する記録部と、
    前記記録部に記録されている前記第2画像に関連付けられた音声情報を前記記録部に記録されている前記第3画像に関連付けるように指示する指示部材と、
    前記指示部材により前記記録部に記録されている前記第2画像に関連付けられた音声情報を前記記録部に記録されている前記第3画像に関連付けるように指示されたとき、前記第2画像と前記第3画像との類似度を求める照合部と、
    前記照合部により求めた類似度に基づいて、前記第2画像に関連付けられた音声情報を前記第3画像に関連付ける画像管理部と、
    備えることを特徴とする電子カメラ。
  2. 請求項1に記載の電子カメラにおいて、
    前記周辺領域情報は、前記被写体の周辺の領域における輝度情報からなり、
    前記照合部は、前記第3画像における前記被写体の周辺の領域における輝度情報と、前記周辺領域情報と比較し、比較結果に基づいて前記類似度を求めることを特徴とする電子カメラ。
  3. 請求項1に記載の電子カメラにおいて、
    前記周辺領域情報は、前記被写体の周辺の領域における色温度補正値の情報からなり、
    前記照合部は、前記第3画像における前記被写体の周辺の領域における色温度補正値と、前記周辺領域情報と比較し、比較結果に基づいて前記類似度を求めることを特徴とする電子カメラ。
  4. 請求項1に記載の電子カメラにおいて、
    前記被写体の領域は、人物の顔領域であることを特徴とする電子カメラ。
  5. 被写体を撮像させる撮像処理と、
    前記撮像処理により時系列に得られる第1画像を解析し、音声を発声する被写体の領域に関する情報を被写体領域情報として、前記被写体の周辺の領域に関する情報を周辺領域情報として、それぞれ抽出する抽出処理と、
    前記第1画像の取得時に、前記音声を取得する音声取得処理と、
    前記抽出処理により抽出される各領域情報と前記第1画像とを用いて、前記被写体の領域及び該被写体の周辺を含む領域からなる第2画像を生成する画像生成処理と、
    前記音声取得処理により取得された音声に基づく音声情報を前記画像生成処理で生成された前記第2画像に関連付けて記録すると共に、前記撮像処理により取得した前記第1画像とは異なる第3画像を記録する記録処理と、
    前記記録処理により記録されている前記第2画像に関連付けられた音声情報を前記記録処理により記録されている前記第3画像に関連付けるように指示されたとき、前記第2画像と前記第3画像との類似度を求める照合処理と、
    前記照合処理により求めた類似度に基づいて、前記第2画像に関連付けられた音声情報を前記第3画像に関連付ける画像管理処理と、
    をコンピュータに実行させることが可能な画像処理プログラム。
JP2010165743A 2010-07-23 2010-07-23 電子カメラ及び画像処理プログラム Expired - Fee Related JP5609367B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010165743A JP5609367B2 (ja) 2010-07-23 2010-07-23 電子カメラ及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010165743A JP5609367B2 (ja) 2010-07-23 2010-07-23 電子カメラ及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2012029035A JP2012029035A (ja) 2012-02-09
JP5609367B2 true JP5609367B2 (ja) 2014-10-22

Family

ID=45781444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010165743A Expired - Fee Related JP5609367B2 (ja) 2010-07-23 2010-07-23 電子カメラ及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP5609367B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035391B2 (ja) * 1991-09-27 2000-04-24 京セラ株式会社 電子スチルカメラ
US7843495B2 (en) * 2002-07-10 2010-11-30 Hewlett-Packard Development Company, L.P. Face recognition in a digital imaging system accessing a database of people
US20090041428A1 (en) * 2007-08-07 2009-02-12 Jacoby Keith A Recording audio metadata for captured images
JP5153478B2 (ja) * 2008-06-26 2013-02-27 キヤノン株式会社 画像処理装置及び画像処理方法
JP2010014783A (ja) * 2008-07-01 2010-01-21 Panasonic Corp 撮影装置

Also Published As

Publication number Publication date
JP2012029035A (ja) 2012-02-09

Similar Documents

Publication Publication Date Title
JP4274233B2 (ja) 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP4663700B2 (ja) 撮影装置、及び撮影方法
CN101188677A (zh) 摄影装置、图像处理装置、图像处理方法以及使计算机执行该方法的程序
US9106829B2 (en) Apparatus and method for providing guide information about photographing subject in photographing device
US20130314507A1 (en) Image capturing device and data processing method
JP2014146989A (ja) 撮像装置、撮像方法および撮像プログラム
JP2007148691A (ja) 画像処理装置
JP2014067315A (ja) 認証装置、認証方法、および、そのプログラム
JP2014186580A (ja) 認証装置、撮像装置、認証用データの登録方法、プログラム、および、記憶媒体
JP4807582B2 (ja) 画像処理装置、撮像装置及びそのプログラム
JP5386880B2 (ja) 撮像装置、携帯電話端末、撮像方法、プログラム及び記録媒体
JP5167236B2 (ja) 被写体追跡装置及びその制御方法
JP2013149034A (ja) 画像表示装置、画像表示方法及びプログラム
JP2013152643A (ja) 画像処理装置、画像処理方法及びプログラム
JP5609367B2 (ja) 電子カメラ及び画像処理プログラム
JP2006128793A (ja) 撮像装置、及びその制御方法
JP5995610B2 (ja) 被写体認識装置及びその制御方法、撮像装置、表示装置、並びにプログラム
JP2014225763A (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP5222429B2 (ja) 被写体追跡装置及びその制御方法
JP5374612B2 (ja) 画像データの識別方法及び撮像装置、プログラム、及び記憶媒体
JP5002311B2 (ja) 撮像装置、撮像装置の制御方法、プログラム、及び記憶媒体
JP6128929B2 (ja) 撮像装置及びその制御方法並びにプログラム
JP2010171841A (ja) 撮像装置
JP2009124350A (ja) 撮像装置及びその制御方法及びプログラム
JP7046340B2 (ja) 画像処理装置、端末、画像処理方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130717

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140818

R150 Certificate of patent or registration of utility model

Ref document number: 5609367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees