以下、本発明における音声記録装置及び音声再生装置として、ビデオカメラなどに代表される撮像装置を例に挙げるとともに、図面を参照して説明する。
<<音声記録装置>>
<撮像装置の基本構成>
まず、音声記録装置の一例である撮像装置の基本構成について、図1に基づいて説明する。図1は、本発明の実施形態における撮像装置の基本構成について示すブロック図である。
図1に示すように、撮像装置1は、入力される光学像に基づいて画像データを作成する撮像部2を備える。撮像部2は、入射される光を電気信号に変換するCCD(Charge Coupled Devices)またはCMOS(Complementary Metal Oxide Semiconductor)センサなどの固体撮像素子から成るイメージセンサ3と、光学像をイメージセンサ3に結像させるとともに光量やフォーカスなどの調整を行うレンズ部4と、を備える。
さらに、撮像装置1は、イメージセンサ3から出力されるアナログの画像データをデジタルの画像データに変換するAFE(Analog Front End)5と、AFE5から出力されるデジタルの画像データに対して階調補正処理などの各種画像処理を施す画像処理部6と、入力される音声を電気信号に変換する集音部7と、集音部7から出力されるアナログの音声データをデジタルの音声データに変換するとともに各種補正処理を施す音声処理部8と、画像処理部6から出力される画像データと音声処理部8から出力される音声データのそれぞれに対してMPEG(Moving Picture Experts Group)圧縮方式などの動画用の圧縮符号化処理を施す圧縮処理部9と、圧縮処理部9で圧縮符号化された圧縮符号化信号を記録する外部メモリ10と、圧縮符号化信号を外部メモリ10に記録したり読み出したりするドライバ部11と、ドライバ部11において外部メモリ10から読み出した圧縮符号化信号を伸長して復号する伸長処理部12と、を備える。
また、撮像装置1は、伸長処理部12で復号されて得られる画像データをディスプレイなどの表示装置(不図示)で表示するためにアナログ信号に変換する画像出力回路部13と、伸長処理部12で復号されて得られる音声データをスピーカなどの再生装置(不図示)で再生するためにアナログ信号に変換する音声出力回路部14と、を備える。
また、撮像装置1は、撮像装置1内全体の動作を制御するCPU(Central Processing Unit)15と、各処理を行うための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ16と、撮像を開始するボタンや撮像条件などを調整するボタン等ユーザからの指示が入力される操作部17と、各部の動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)部18と、CPU15と各ブロックとの間でデータのやりとりを行うためのバス回線19と、メモリ16と各ブロックとの間でデータのやりとりを行うためのバス回線20と、を備える。
また、音声処理部8には、画像データや撮像部2の制御データ、音声データに基づいて、音声データの制御を行う記録音声制御部21を備えられる。この記録音声制御部21の構成の詳細については後述する。
なお、外部メモリ10は画像データや音声データを記録することができればどのようなものでも構わない。例えば、SD(Secure Digital)カードのような半導体メモリ、DVD(Digital Versatile Disc)などの光ディスク、ハードディスクなどの磁気ディスクなどをこの外部メモリ10として使用することができる。また、外部メモリ10を撮像装置1から着脱自在としても構わない。
<撮像装置の基本動作>
次に、撮像装置1の基本動作について図1を用いて説明する。まず、撮像装置1は、レンズ部4より入射される光をイメージセンサ3において光電変換することによって、電気信号である画像データを作成する。そして、イメージセンサ3は、TG部18から入力されるタイミング制御信号に同期して、所定のフレーム周期(例えば、1/60秒)で順次AFE5に画像データを出力する。
そして、AFE5によってアナログからデジタルへと変換された画像データは、画像処理部6に入力される。画像処理部6では、入力される画像データを、輝度信号と色差信号とからなる画像データに変換するとともに、階調補正や輪郭強調等の各種画像処理を施す。また、メモリ16はフレームメモリとして動作し、画像処理部6が処理を行なう際に画像データを一時的に保持する。
また、このとき画像処理部6に入力される画像データに基づき、レンズ部4において、各種レンズの位置が調整されてフォーカスの調整が行われたり、絞りの開度が調整されて露出の調整が行われたりする。このフォーカスや露出の調整は、それぞれ最適な状態となるように所定のプログラムに基づいて自動的に行われたり、ユーザの指示に基づいて手動で行われたりする。
一方、集音部7は、集音した音声を電気信号に変換して音声データを作成する。作成された音声データは音声処理部8に入力され、アナログの音声データからデジタルの音声データへと変換される。また、ノイズ除去や強度制御などの各種処理が施される。さらに、記録音声制御部21は、被写体と撮像者との関係を判定するとともに音声データの制御を行う。この記録音声制御部21の動作の詳細については後述する。
そして、画像処理部6から出力される画像データと、音声処理部8から出力される音声データと、がともに圧縮処理部9に入力され、圧縮処理部9において所定の圧縮方式で圧縮される。このとき、画像データと音声データとが時間的に関連付けられ、再生時に画像と音とがずれないように構成される。そして、圧縮された画像データ及び音声データはドライバ部11を介して外部メモリ10に記録される。
また、音声のみを記録する場合であれば、音声データが圧縮処理部9において所定の圧縮方法で圧縮され、外部メモリ10に記録されることとなる。
外部メモリ10に記録された圧縮符号化信号は、ユーザの指示に基づいて伸長処理部12に読み出される。伸長処理部12は、圧縮符号化信号を伸長及び復号し、画像データ及び音声データを生成する。そして、画像データを画像出力回路部13、音声データを音声出力回路部14にそれぞれ出力する。そして、画像出力回路部13や音声出力回路部14において、表示装置や再生装置において再生可能な形式に変換されて出力される。
なお、表示装置や再生装置は、撮像装置1と一体となっているものであっても構わないし、別体となっており撮像装置1に備えられる端子とケーブル等を用いて接続されるものであっても構わない。
また、画像データの記録を行わずに表示装置などに表示される画像をユーザが確認する、所謂プレビューモードである場合に、画像処理部6から出力される画像データを圧縮せずに画像出力回路部13に出力することとしても構わない。また、画像データを記録する際に、圧縮処理部9で圧縮して外部メモリ10に記録する動作と並行して、画像出力回路部13を介して表示装置などに画像データを出力することとしても構わない。
<記録音声制御部>
次に、記録音声制御部21の構成及び動作について、図面を参照して説明する。図2は、本発明の実施形態における撮像装置に備えられる記録音声制御部の構成について示すブロック図である。また、図3は、記録音声制御部の制御例について示した模式図である。
図2に示すように、記録音声制御部21は、入力される撮像部制御データ、画像データ及び音声データに基づいて被写体と撮像者との関係を判定する関係判定部22と、関係判定部22から出力される判定結果に基づいて入力される音声データに所定の処理を施して出力する音声制御部23と、を備える。
関係判定部22には、撮像部2の動作内容を示す情報が含まれる撮像部制御データや、画像処理部6から入力される画像データや、音声処理部8に入力される音声データが入力される。関係判定部22はこれらのデータに基づいて、被写体と撮像者の関係を判定する。例えば、被写体と撮像者とが会話をしているか否かについての判定を行い、判定結果を音声制御部23に入力する。
本実施形態の撮像装置1において、関係判定部22が判定する被写体と撮像者との関係は、どのような関係であってもよい。ただし、以下では説明の具体化のため、関係判定部22が被写体と撮像者との会話の有無を判定する場合を例として挙げ、この場合について特に説明することとする。また、会話とは、被写体と撮像者とが所定の言語によってやり取りする場合のみに限られず、一方の音声による呼びかけに対して他方が何らかの反応をする場合の全てを含むものとする。
音声制御部23は、入力される判定結果に基づいて音声データの制御を行う。音声データの制御方法の一例について、図3に示す。図3中符号C1及びC2で表されるそれぞれの破線は、音声制御部23から出力される音声データの特性(以下、音声データ特性とする)を模式的に示すものとする。この音声データ特性は、音声制御部23が、入力される音声データに所定の処理を施すことによって実現するものである。
また、この音声データ特性を、指向性の向きや強弱、指向角の広狭で表現する。例えば、「ある方向(ある側)の指向性が強い」と表現する場合、音声制御部23から出力される音声データ中において、ある方向(ある側)から到来する音声の信号レベルが、他の側から到来する同じ大きさの音声の信号レベルに比べて、大きいことを示すものとする。また、「指向角が広い」と表現する場合、指向性が強い範囲が広い(撮像装置1を中心とした角度が大きい)ことを示すものとする。
ここで、複数の音源が撮像装置1(特に集音部7)を中心とした全方向に存在し、それぞれの音源から等しい大きさの音声が到来している場合を例に挙げて、音声データ特性についてさらに具体的に説明する。まず、ある方向の指向性が強く、ある方向に特定音源が存在するとともに指向角が広い音声データ特性である場合、音声制御部23から出力される音声データ中において、ある側から到来する音声(特定音源及び特定音源の付近の音源の音声)の信号レベルが、ある側以外から到来する音声の信号レベルよりも大きいものとなる。一方、同様の場合で指向角が狭い場合、指向角が広い場合と比較して、特性音源の付近の音源が発する音声の信号レベルが小さいものとなる。即ち、音声制御部23から出力される音声データ中における特定音源の音声の信号レベルが、際立って大きいものとなる。
関係判定部22において被写体Aと撮像者Bとが会話をしていると判定される場合、図3(a)に示すように、音声制御部23が、被写体A側及び撮像者B側から到来する音声が、音声データ中で十分大きな信号レベルを有するものに成り得るように、音声データを制御する。即ち、被写体A側及び撮像者B側の指向性が強くなるような音声データ特性C1とする。
一方、関係判定部22において被写体Aと撮像者Bとが会話をしていないと判定される場合、図3(b)に示すように、音声制御部23が、撮像者B側から到来する音声が、音声データ中で十分小さな信号レベルとなるように音声データを制御する。即ち、撮像者B側の指向性が弱くなるような音声データ特性C2とする。
このように、入力される種々のデータに基づいて被写体Aと撮像者Bとの関係を判定するとともに、判定結果に基づいて音声データを制御することによって、状況に応じた最適な音声データの制御方法を自動的に切り替えることが可能となる。
特に、被写体Aと撮像者Bとが会話をしていると関係判定部22によって判定される場合には、被写体A側及び撮像者B側の指向性を強くする制御を行う。これにより、被写体A及び撮像者Bの会話の音声を明瞭にした音声データを記録することが可能となる。
また、被写体Aと撮像者Bとが会話をしていないと判定される場合には、撮像者B側の指向性を弱くする制御を行う。これにより、不適な音声となりやすい撮像者B側の音声の信号レベルを小さくする(または無くす)ことが可能となる。したがって、被写体Aの音声をはじめとした目的となる音声を明瞭にした音声データを記録することが可能となる。
さらに、撮像者Bが自ら切替を行うために発生する煩雑さを解消することが可能となる。また、撮像者Bの誤操作や切替の際のもたつきによって、記録する音声データや画像データが不自然となることを抑制することが可能となる。これにより、撮像者の望む適切な音声データや画像データを記録することが可能となる。
なお、関係判定部22において被写体Aと撮像者Bとが会話をしていると判定される場合に、音声制御部23が、被写体A側の音声の強度(例えば信号レベル)と撮像者B側の音声の強度とが同程度となるように音声データを制御しても構わない。このように制御することとすると、会話音声の大きさが均一となるため、明瞭かつ自然な会話音声とすることが可能となる。
また、判定に用いられる画像データや音声データを、画像処理部6や音声処理部8においてノイズ除去などの所定の処理が施された後のデータとしても構わないし、このような処理が施される前のデータとしても構わない。また、関係判定部22に、撮像部制御データ、画像データ及び音声データが入力されてこれらのデータに基づいた判定が行われることとしたが、これらのデータの一部のみが入力されて判定される構成としても構わない。また、これら以外のデータが入力されるとともに、そのデータに基づいて判定が行われることとしても構わない。
また、被写体Aと撮像者Bとが会話をしていないと関係判定部22で判定される場合、図3(b)の音声データ特性C2に示すように、会話をしていると判定される場合(図3(a))よりも被写体A側の指向性を強くして、被写体A側の音声の信号レベルがより大きくなるように制御しても構わない。このとき、指向角を広くして、被写体A側から到来する音声全体の信号レベルが大きくなるようにしても構わない。また、画角内に被写体Aが存在することや、被写体Aが音声を発していることを関係判定部22が検出した場合に、被写体A側の指向性をさらに強くしても構わない。この場合、後述する関係判定部22の各実施例に示すような方法を用いて、画角内の被写体Aの検出や音声の検出を行うこととしても構わない。
さらに、被写体Aと撮像者Bとが会話をしていないと関係判定部22に判定される場合、図3(b)の音声データ特性C2に示すように、撮像者B側の音声ができる限り記録されないように指向性を弱くすることとしたが、撮像者B側の音声の信号レベルを極端に小さくしない程度に指向性を弱くする構成としても構わない。例えば、撮像者B側の音声の信号レベルが、被写体A側の音声の信号レベルよりも所定の大きさ(例えば6dB)以上小さくなるように、撮像者B側の指向性を弱くする制御を行っても構わない。
また、図3では、音声データ特性C1,C2の指向角が、画角の中心を中心とした一定の広さになるものとして示しているが、画角内全体に及ぶ程度にまで広くしても構わない。また、反対に狭くしても構わない。また、関係判定部22の判定結果に基づいて、指向角を広くしたり狭くしたりしても構わない。
さらに、音声データ特性C1,C2の指向角の中心が、画角の中心になくても構わない。これは、左右方向に限らず、上下方向でも同様である。特に、上述のような方法で被写体Aを検出するとともに、被写体Aに指向角の中心が向くように制御しても構わない。また、被写体Aの顔などの特定部位に対して指向角の中心を向けても構わないし、指向角を狭くして、被写体Aの方向から到来する音声の信号レベルが際立って大きくなるようにしても構わない。
また、記録時に被写体と撮像者との関係の判定のみを行い、再生時にその判定結果に基づいた音声データの制御を行う構成としても構わない。例えば、音声出力回路部14の前段に音声制御部23を備える構成としても構わない。この場合、記録時に関係判定部22による判定を行うとともに、判定結果に基づいた会話フラグを音声データに付すこととしても構わない。そして再生時に、音声データに付せられた会話フラグに基づいて、音声制御部23が音声データの制御を行うこととしても構わない。
また、以下に、被写体と撮像者との会話の有無を判定する関係判定部22の各実施例と、関係判定部22の判定結果に基づいて音声データを制御する音声処理部23の各実施例と、をそれぞれ示す。
(関係判定部の第1実施例)
まず、関係判定部22の第1実施例について図面を参照して説明する。図4は、本発明の実施形態における関係判定部の第1実施例について示すブロック図である。
図4に示すように、本例における関係判定部22aは、画像データ中の人の顔を検出する顔検出部30と、顔検出部30の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部33aと、を備える。顔検出部30は、入力される画像データに基づいて1または複数の縮小画像データを生成する縮小画像生成部31と、画像データ及び縮小画像データから構成される各階層画像データと重みテーブルとを用いて画像データに含まれる顔を検出する顔判定部32と、を備える。
顔検出部30の動作について説明する。顔の検出方法としては、肌の色を用いて検出する方法や所定の幾何学的配置を有する領域を検出する方法などがある。本例においては、顔を検出する際に既存のどのような方法を用いることとしても構わないが、一例として画像データと重みテーブルとを比較することで顔検出を行う方法について図5を用いて説明する。図5は、顔の検出方法について説明する図であり、縮小画像生成部によって得られる階層画像の一例を示す模式図である。
本例では、顔判定部32が、縮小画像生成部31から出力される各階層画像データ40と、例えば図1のメモリ16に格納されている重みテーブルと、を比較することで顔を検出する。重みテーブルとは、大量の教師サンプル(顔及び非顔のサンプル画像)から求められたものである。このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20,1995.)。このAdaboostは、適応的なブースティング学習方法の1つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。
図5に示すように、縮小画像生成部31が、入力される画像データ41から例えば縮小率を0.8として縮小画像データ42〜46を作成して階層化する。また、各画像データ41〜46において判定を行う判定領域47の大きさは、どの画像データ41〜46においても同じである。そして、図5中の矢印で示すように、各画像データ41〜46上で判定領域47を左から右に移動させて水平方向の走査を行う。また、この水平走査を上方から下方に向かって行うことで、画像データ全体が走査される。このとき、判定領域47とマッチングする顔画像の検出が行われる。ここで、画像データ41の他に複数の縮小画像データ42〜46を生成しておくことで、1種類の重みテーブルを用いて大きさが異なる顔を検出することを可能としている。また、走査順はこれに限られるものではなく、どのような順番で行っても構わない。
マッチングは、粗い判定から順次細かい判定に移行する複数の判定ステップから成る。そして、ある判定ステップにおいて顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域47には顔は存在しないものと判定する。全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域47に顔が存在すると判定し、判定領域を走査して次の判定領域47での判定に移行する。以上のように動作することで、人の顔を検出することができる。
また、顔判定部32は、検出した顔に基づいて、後段の会話判定部33aが判定のために必要とする特定部分(例えば、目、鼻、口など)の検出も行う。そして、会話判定部33aは、顔判定部32の検出結果に基づいて、被写体と撮像者との会話の有無の判定を行う。例えば、顔の向き、被写体の目線の方向、口の動きなど、人が話をする場合に見られる特徴が、顔判定部32から出力される検出結果に表れているか否かに基づいて判定する。この判定方法の例について、図3を用いて説明する。
顔の向きで判定する場合、被写体Aの顔の向きが撮像装置1の方向に向いている場合、即ち、図3(a)に示すように撮像装置1の方向を向いた正面顔が検出される場合に、被写体Aと撮像者Bとが会話をしている可能性が高いと判定する。また、例えば上記の重みテーブルに横顔のサンプルを含ませて正面顔及び横顔の判定を行い、図3(b)に示すように横顔であると判定される場合に、会話をしていない可能性が高いと判定する。また、顔の部分(目、鼻、口など)の配置などに基づいて顔の向きを判定することも可能である。
また、被写体Aの目線の方向で判定する場合、図3(a)に示すように被写体Aの目線が撮像装置1の方向を向いている場合に、被写体Aと撮像者Bとが会話をしている可能性が高いと判定する。一方、図3(b)に示すように被写体Aの目線が撮像装置1の方向を向いていない場合に、被写体Aと撮像者Bとが会話をしていない可能性が高いと判定する。このとき、例えば被写体Aの黒目の位置によって、被写体Aの目線が撮像装置1の方向を向いているか否かを判定しても構わない。
また、被写体Aの口によって判定する場合、図3(a)に示すように被写体Aの口が動いている場合に、被写体Aと撮像者Bとが会話をしている可能性が高いと判定する。一方、図3(b)に示すように被写体Aの口が動いていない場合に、被写体Aと撮像者Bとが会話をしていない可能性が高いと判定する。
そして、関係判定部22は、以上の判定方法の一つまたは複数の判定方法のそれぞれの結果に基づいて、被写体Aと撮像者Bとの会話の有無を判定し、判定結果を出力する。
このように、被写体Aの顔を検出するとともに、検出した被写体Aの顔に基づいて被写体Aと撮像者Bとの会話の有無を判定することとすると、会話時の特徴が明確に表れる顔について判定を行うこととなるため、容易かつ正確に判定することが可能となる。
なお、上記の例では被写体Aの顔の向きや動きに基づいて判定することとしたが、顔の向きや動きの判定に加えて(または、代えて)、被写体Aの体の向きなど他の部分の向きや動きなどに基づいて判定を行うこととしても構わない。例えば、被写体Aの体の向きが撮像装置1を向いていない場合には会話をしていないものと判定し、体の向きが撮像装置1を向いている場合には会話をしているものと判定しても構わない。体の向きを検出する場合、例えば、検出した顔の下方向(眉間から口の方向)の領域をさらに検出することとしても構わない。そして、その領域から検出された体の大きさや形状などから、被写体Aの体の向きを判定しても構わない。
また、被写体Aの種々の部位に基づく判定結果を組み合わせて複合的な判定を行う場合、それぞれの判定結果に優先度を設定し、それぞれの判定結果に重み付けを施した上で最終的な判定を行うこととしても構わない。例えば、被写体Aの顔が撮像装置1に向けられており、目線が撮像装置1の方向を向いておらず、口が動いている場合に、被写体Aと会話をしていると判定しても構わない。このように複数の判定結果を組み合わせることとすると、より正確な判定を行うことが可能となる。
(関係判定部の第2実施例)
次に、関係判定部22の第2実施例について図面を参照して説明する。図6は、本発明の実施形態における関係判定部の第2実施例について示すブロック図であり、第1実施例について示した図4に相当するものである。なお、図4と同様の部分については同じ符号を付し、その詳細な説明については省略する。
図6に示すように、本例における関係判定部22bは、入力される画像データから被写体の動きを検出する動き検出部34と、動き検出部34の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部33bと、を備える。
動き検出部34は、例えば、図4に示した顔検出部30を備え、顔検出の結果を利用して被写体の動きの検出を行う。この検出方法について図7を用いて説明する。図7は、動き検出方法の一例について説明する画像データの模式図である。図7に示すように、本例の動き検出部34の動き検出方法では、最初に顔検出部30によって画像データ50から被写体Aの顔が含まれる領域である顔領域51を検出する。そして、顔領域51の下方(眉間から口の方向)であり顔領域51の隣接する位置に、被写体Aの胴体が含まれる胴体領域52を設定する。
そして、順次入力されてくる画像データについて、順次胴体領域52を検出することで、被写体Aの追尾処理を行う。このとき、例えば胴体領域52の色情報(色差信号やRGB信号などの画素の色信号に基づく情報)に基づいて追尾処理を行う。具体的には、胴体領域52の最初の設定時に胴体領域52の色を認識し、その後に入力されてくる画像データの中から認識した色に類似する色を有した領域を検出することによって、追尾処理を行う。
そして、動き検出部34は上述したような追尾処理によって被写体Aの動きを検出し、会話判定部33bに入力する。会話判定部33bは、被写体Aの動きが所定の大きさより小さい場合に、被写体Aと撮像者とが会話を行っている可能性が高いと判定する。一方、被写体Aの動きが所定の大きさよりも大きい場合は、被写体Aと撮像者とが会話を行っていない可能性が高いと判定する。
このように、被写体Aの動きに基づいて、被写体Aと撮像者との会話の有無を判定することによって、容易に判定を行うことが可能となる。そのため、撮像装置全体の動作に対して負担となることを抑制しつつ判定を行うことが可能となる。
なお、上述した顔検出及び色情報を用いた方法に限らず、被写体Aの動きを検出できる方法であれば他にどのような方法を用いても構わない。また、色情報を用いた追尾処理を行って動きを検出する場合、特開平5−284411号公報や、特開2000−48211号公報、特開2001−169169号公報などに記載される方法を用いることとしても構わない。
また、第1実施例の判定方法と組み合わせても構わないし、組み合わせる場合に第1及び第2実施例のどちらかの判定方法による判定結果を優先させても構わない。例えば、第1実施例に判定方法による結果を優先して、被写体Aに動きがないが顔が検出されない場合(例えば、被写体Aが撮像装置に背を向けて静止している場合)に、被写体Aと撮像者とが会話をしていない可能性が高いと判定しても構わない。
(関係判定部の第3実施例)
次に、関係判定部22の第3実施例について図面を参照して説明する。図8は、本発明の実施形態における関係判定部の第3実施例について示すブロック図であり、第1及び第2実施例について示した図4及び図6に相当するものである。なお、図4及び図6と同様の部分については同じ符号を付し、その詳細な説明については省略する。
図8に示すように、本例の関係判定部22cは、顔検出部30と、顔検出部30の検出結果と撮像部制御データとに基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部33cと、を備える。
会話判定部33cが判定に用いる撮像部制御データとして、例えば、図1の撮像部2におけるズーム倍率などのデータを用いることができる。この会話判定部33cの判定方法について図9を用いて説明する。図9は、本例の関係判定部における会話判定部の判定方法について説明する画像データの模式図である。
本例の会話判定部33cは、被写体Aの顔の画像データ60中に占める割合に基づいて判定を行う。例えば、図5に示した方法によって被写体Aの顔を検出する場合、被写体Aの顔が各階層画像データ40中のいずれの画像データ41〜46において検出されたかを調べることによって、割合を求めることができる。そして、得られる割合に基づいて被写体Aと撮像者との会話の有無の判定を行う。
例えば、図9(a)に示すように、被写体Aの顔の画像データ60に占める割合が大きい場合は、被写体Aを中心に撮像している場合が想定されるため、被写体Aと撮像者とが会話を行っている可能性が高いと判定する。一方、図9(b)に示すように、被写体Aの画像データ60に占める割合が小さい場合は、被写体Aではなく風景などを中心に撮像している場合が想定されるため、被写体Aと撮像者とが会話を行っていない可能性が高いと判定する。
また、本例の会話判定部33cは、ズーム倍率の大きさに基づいた判定も行う。例えば、図9(a)に示すような場合でありズーム倍率が小さい場合は、被写体Aが撮像装置の付近に存在しているため、被写体Aと撮像者とが会話を行っている可能性が高いと判定する。一方、図9(a)に示すような場合であってもズーム倍率が大きい場合は、被写体Aが撮像装置から遠いところに存在しているため、被写体Aと撮像者とが会話を行っていない可能性が高いと判定する。
このように、画像データ60中に被写体Aが占める割合や、撮像部制御データに基づいた判定を行うことによって、被写体Aと撮像者との現実の位置関係に基づいて会話の有無を判定することが可能となる。そのため、被写体Aが撮像者と会話をするには現実的に不自然な位置にいる場合にまで、会話を行っていると誤って判定することを防止することが可能となる。
なお、上述の例では被写体Aの画像データ60に占める割合と、撮像部制御データ(ズーム倍率)と、に基づいて判定を行うこととしたが、いずれか一方のデータに基づいて判定することとしても構わない。また、撮像部制御データを撮像部2のズーム倍率としたが、オートフォーカスによって合焦させた際の合焦距離としても構わないし、ズーム倍率と合焦距離の両方としても構わない。また、第1実施例や第2実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。
(関係判定部の第4実施例)
次に、関係判定部22の第4実施例について図面を参照して説明する。図10は、本発明の実施形態における関係判定部の第4実施例について示すブロック図であり、第1〜第3実施例について示した図4、図6及び図8に相当するものである。なお、図4、図6及び図8と同様の部分については同じ符号を付し、その詳細な説明については省略する。
図10に示すように、本例の関係判定部22dは、画像データ内の被写体の人数を検出する被写体人数検出部35と、被写体人数検出部35の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部33dと、を備える。
被写体人数検出部35は、例えば、図4に示した顔検出部30を備え、顔検出の結果を利用して被写体の人数の検出を行う。即ち、被写体人数検出部35は、入力される画像データに対して上述した顔検出を行い、検出された被写体の人数を出力する。
会話判定部33dは、検出された被写体の人数に基づいて会話の有無の判定を行う。この会話判定部33dの判定方法について図11を用いて説明する。図11は、本例の関係判定部における会話判定部の判定方法について説明する画像データの模式図である。
図11(a)に示すように、画像データ70内に被写体Aが少人数(例えば、一人または二人)しか検出されない場合は、被写体Aと撮像者とが会話を行っている可能性が高いと判定する。一方、図11(b)に示すように、画像データ70内に被写体Aが多人数(例えば、三人以上)検出される場合は、多人数のうちのいずれかの人と会話する状況が想定されにくいため、被写体Aと撮像者とが会話を行っていない可能性が高いと判定する。
このように、画像データ70中の被写体Aの数に基づいて、被写体Aと撮像者との会話の有無を判定することとすると、多人数の被写体Aが揃って撮像装置に注目している場合などに、誤って会話が行われていると判定することを抑制することが可能となる。
なお、上述したような顔検出を用いた方法に限らず、画像データ70内の被写体Aの数を検出できる方法であれば、他の方法を用いても構わない。
また、第1〜第3実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。例えば、第3実施例に示した判定方法と組み合わせても構わなく、第3実施例の判定方法を優先させても構わない。このように構成すると、例えば、ズーム倍率を大きくしたために画像データ70内の被写体Aの数が少人数になった場合に、誤って被写体Aと撮像者とが会話をしていると判定されることを抑制することが可能となる。
(関係判定部の第5実施例)
次に、関係判定部22の第5実施例について図面を参照して説明する。図12は、本発明の実施形態における関係判定部の第5実施例について示すブロック図であり、第1〜第4実施例について示した図4、図6、図8及び図10に相当するものである。なお、図4、図6、図8及び図10と同様の部分については同じ符号を付し、その詳細な説明については省略する。
図12に示すように、本例の関係判定部22eは、入力される音声データと会話音声標本データとを比較する音声データ比較部36と、音声データ比較部36の比較結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部33eと、を備える。
本例における音声データ比較部36は、入力される音声データと、会話音声標本データと、を比較して比較結果を出力する。この音声データの比較方法について、図13を用いて説明する。図13は、音声データの比較方法の一例について説明する音声データの周波数特性を示すグラフである。
図13(a)は、会話音声の周波数特性を示しており、図13(b)は、図13(a)の周波数特性の包絡線を示している。図13(a),(b)に示すように、会話音声には基本波成分と高調波成分(基本波の倍音成分)とが含まれ、特徴ある周波数特性を有する。音声データ比較部36は、入力される音声データとこれらの周波数特性(会話音声標本データ)とに対してパターンマッチングを行うことなどによって比較して、その比較結果を出力する。
そして、会話判定部22eが、音声データ比較部36から出力される比較結果に基づいて、被写体と撮像者との会話の有無を判定する。特に、入力される音声データと会話音声標本データとが所定の程度以上類似する旨の比較結果が出力される場合に、被写体と撮像者とが会話をしている可能性が高いと判定する。一方、入力される音声データと会話音声標本データとが所定の程度以上類似していない旨の比較結果が出力される場合は、被写体と撮像者とが会話をしていない可能性が高いと判定する。
このように構成すると、人の声と、ノイズや物音などの人の声以外の音と、を識別することが可能となる。そのため、実際に人の声が集音された場合に、被写体と撮像者とが会話をしていると判定することが可能となる。
なお、本例では、撮像者側の音声が被写体側の音声と分離されて音声データ比較部36に入力される構成とすると好ましい。そして、音声データ比較部36において、少なくとも撮像者側の音声について比較が行われる。
この場合、会話判定部33eは、撮像者側の音声データと会話音声標本データとが所定の程度より類似している旨の比較結果が出力されるときに、撮像者が音声を発しているため被写体と撮像者とが会話をしている可能性が高いと判定する。一方、撮像者側の音声データと会話標本データとが所定の程度より類似していない旨の比較結果が出力されるときに、撮像者が音声を出していないため被写体と撮像者とが会話をしていない可能性が高いと判定する。
このように構成すると、例えば被写体のみが音声を発している場合に、誤って会話が行われていると判定されることを抑制することが可能となる。また逆に、撮像者が被写体に声をかけている場合に、会話をしているものと判定して撮像者の音声を記録することが可能となる。
被写体側の音声と撮像者側の音声とを分離する方法の一つとして、複数の指向性マイク(所定の方向から到来する音声のみを集音するマイク)を備えるとともに、音声の到来方向に対応したそれぞれの成分を備える音声データを作成する方法がある。また、無指向性マイク(全方向から到来する音声のいずれも略均一となる信号レベルで集音するマイク)を用いる場合では、音源分離やビームフォーミングなどの方法を用いても構わない。これらの方法は、ある方向から到来する音声が配置場所の異なる複数のマイクのそれぞれで集音される際の位相差(または時間差)に基づいた処理をすることで、それぞれの方向から到来する音声を異なる成分として備える音声データを作成する方法である。また、後述する音声制御部の各実施例において、これらの方法を利用して撮像者側と被写体側との音声を分離するとともにそれぞれの音声の信号レベルを制御する例を示す。
一方、被写体側及び撮像者側の音声データが、それぞれ会話音声標本データと所定の程度以上類似する場合に、被写体と撮像者とが会話をしている可能性が高いと判定しても構わない。このように構成すると、被写体と撮像者との双方が音声を発する場合に限り、会話をしている可能性が高いと判定することが可能となる。
また、会話音声標本データが、図1のメモリ16に格納されることとしても構わないし、いくつかのパターンが格納されることとしても構わない。また、会話音声標本データとして、実際の人の会話音声を集音して得られた周波数特性を用いたり、その周波数特性を平均化したものを用いたりしても構わない。さらに、包絡線など周波数特性の特徴を抽出(または、周波数特性を簡略化)したものを用いても構わない。また、周波数特性に限らず、会話音声の特徴を示すデータであれば他のデータを会話音声標本データとして用いても構わない。また、第1〜第4実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。
また、会話音声標本データと音声データとに対してパターンマッチングを行うことによって比較し、類似するか否かを判定する方法を一例として挙げたが、他の方法で類否を判定しても構わない。また、上記の方法以外の方法を用いて、入力される音声データから会話の有無を判定することとしても構わない。
なお、上述した第1〜第5実施例における関係判定部22a〜22eの判定動作に、ヒステリシス特性を持たせることとしても構わない。即ち、判定結果が状況に応じて敏感に反応し、急激に変動することが抑制される構成としても構わない。このように構成することによって、判定結果の急激な変動に伴って後段の音声制御部23の制御方法が急激に変動し、不自然な音声データが出力されることを抑制することが可能となる。例えば上述の実施例において、被写体が話し手になる場合と聞き手になる場合とが交互に変動したとしても、会話を行っている旨の判定結果を継続して出力することが可能となる。また、上記の場合と反対に、音声制御部23の制御動作の方にヒステリシス特性を持たせても構わない。
(音声制御部の第1実施例)
次に、音声制御部23の第1実施例について図面を参照して説明する。図14は、本発明の実施形態における音声制御部の第1実施例について示すブロック図である。また、本例では、図1に示した集音部7が、指向性マイクを複数備えたマイクアレイであるものとする。そして、少なくとも撮像者側の指向性が強い撮像者側マイク(不図示)と、被写体側の指向性が強い被写体側マイク(不図示)と、を備える構成とする。
図14に示すように、本例における音声制御部23aは、撮像者側マイクで集音されて作成された音声データ中の音声の指向性を制御する指向性制御部80aと、被写体側マイクで集音されて作成された音声データ中の音声の指向性を制御する指向性制御部80bと、を備える。
具体的に、指向性制御部80a,80bは、関係判定部22が出力する判定結果に基づいて入力される音声データ中の音声の強度制御を行う。特に、関係判定部22が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、指向性制御部80aは入力される音声データ中の音声の信号レベルを十分小さくして出力する。一方、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、指向性制御部80aは入力される音声データ中の音声の信号レベルを十分小さくすることなく出力する。
これにより、簡易な方法によって被写体側及び撮像者側の音声の信号レベル(即ち、それぞれの側の指向性)を制御することが可能となる。また、このような制御を上述の関係判定部22によって自動的に行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。
なお、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合において、撮像者側の音声データと被写体側の音声データとが、指向性制御部80a,80bによって同程度の信号レベルとなるように調整されて出力されることとしても構わない。このように構成することによって、撮像者及び被写体の一方の音声の信号レベルが大きいために会話の音声が不自然となることを抑制することが可能となる。
また、上述した顔検出などの方法に基づいて被写体の存在する方向を求め、この求められた方向に基づいて、複数の指向性マイクの中から被写体側マイクを決定しても構わない。また、被写体側マイク及び撮像者側マイクのみに限らず、他の指向性マイクで作成された音声データ中の音声の強度制御を行い、被写体及び撮像者の音声の信号レベルをさらに大きくしたり、小さくしたりしても構わない。
また、音声制御部23aから出力される被写体側の音声データと撮像者側の音声データとを、それぞれ異なる(例えば左右で異なる)チャンネルの音声データとして記録したり、異なるチャンネルの音声データにそれぞれ合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。例えば、左右の二つのチャンネルの音声データとして記録する場合であり、被写体が画像データの左側にいることが検出されるときに、左側のチャンネルに被写体側の音声データを記録し、右側のチャンネルに撮像者側の音声データを記録しても構わない。
これにより、記録された音声データを再生する場合に、被写体の音声と撮像者の音声とが別々のチャンネルとして再生されるようにすることが可能となる。そのため、会話の臨場感を高めることが可能となる。特に、関係判定部22が撮像者と被写体とが会話をしている旨の判定結果を出力する場合に、このような制御を行うこととしても構わない。
また、本例では複数の指向性マイクを備えた構成について説明したが、本実施例はこの構成に限られない。例えば、音声制御部23aの前段(例えば関係判定部22、特に第5実施例の関係判定部22e)で被写体と撮像者との音声の分離が行われている場合に、分離された音声に対してそれぞれ制御を行うものとしても構わない。
(音声制御部の第2実施例)
次に、音声制御部23の第2実施例について図面を参照して説明する。図15は、本発明の実施形態における音声制御部23の第2実施例について示すブロック図であり、第1実施例について示した図14に相当するものである。なお、図14と同様の部分については同じ符号を付し、その詳細な説明については省略する。
また、本例では、図1に示した集音部7が複数の無指向性マイクを備えたマイクアレイであるものとする。このマイクアレイの構成の一例を、図16のマイクアレイの模式図に示す。また、以下では図16に示すようなマイク7a,7bを備えたマイクアレイを用いる場合を例に挙げて説明する。
図15に示すように、本例の音声制御部23bは、マイク7aで集音されて作成される音声データに所定の時間遅延を与えて出力する遅延部81aと、マイク7bで集音されて作成される音声データに所定の時間遅延を与えて出力する遅延部81bと、マイク7aで作成される音声データと遅延部81bから出力される音声データとを合成する合成部82aと、マイク7bで作成される音声データと遅延部81aから出力される音声データとを合成する合成部82bと、合成部82aから出力される音声データ中の音声の指向性を制御する指向性制御部80aと、合成部82bから出力される音声データ中の音声の指向性を制御する指向性制御部80bと、を備える。
例として、マイク7aが被写体側、マイク7bが撮像者側に備えられる場合について説明する。被写体の音声は、マイク7aとマイク7bとに入力される際に、図16に示す行路差dに相当する時間の遅延が生じる。この場合、マイク7bで集音される音声が、マイク7aで集音される音声よりも所定の時間分遅延する。
そのため、遅延部81aにおいてマイク7aから入力される音声データに所定の時間分の遅延を与え、合成部82bにおいてマイク7bから入力される音声データと合成(例えば加算合成)する。このように構成することで、被写体側の音声が同期して合成されるため、被写体側の音声を強調した(被写体側以外の音声の信号レベルに対する被写体側の音声の信号レベルの大きさを、合成により大きくさせた)音声データを得ることができる。一方、撮像者側の音声についても同様である。即ち、遅延部81bにおいてマイク7bから入力される音声データに所定の遅延を与え、合成部82aにおいてマイク7aから入力される音声データに合成させることで、撮像者側の音声が強調された音声データが得られる。
そして、指向性制御部80a,80bが、関係判定部22が出力する判定結果に基づいて音声データ中の音声の指向性制御を行う。具体的には、関係判定部22が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、指向性制御部80aは撮像者の音声が強調された音声データ中の音声の信号レベルを十分小さくして出力する。一方、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、指向性制御部80aは撮像者の音声が強調された音声データ中の音声の信号レベルを十分小さくすることなく出力する。
これにより、少なくとも2個のマイクを備えるだけで、被写体側及び撮像者側の音声の信号レベル(即ち、それぞれの側の指向性)を制御することが可能となる。また、このような制御を上述の関係判定部22によって自動的行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。
なお、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合において、撮像者側の音声データと被写体側の音声データとが、指向性制御部80a,80bによって同程度の信号レベルとなるように調整されて出力されることとしても構わない。このように構成することによって、撮像者及び被写体の一方の音声の信号レベルが大きいために会話の音声が不自然となることを抑制することが可能となる。
また、被写体の音声に対して与える遅延を、例えば上述した顔検出の結果などに基づいて決定しても構わない。これにより、被写体とマイク7a,7bとの位置関係(特に、マイク7a,7bに対して被写体が存在する方向)が推定されるため、適切な遅延量を設定することが可能となる。撮像者の音声に対しては、撮像装置を通常の方法で扱う場合の撮像者の位置に基づいて、遅延量を設定しても構わない。また、マイク7a,7bから入力される音声データの相関を利用して遅延量を設定しても構わない。
また、音声制御部23bから出力される被写体側の音声が強調された音声データと、撮像者側の音声が強調された音声データと、をそれぞれ異なるチャンネルの音声データとして記録したり、異なるチャンネルの音声データにそれぞれ合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。
これにより、記録された音声データを再生する場合に、被写体の音声と撮像者の音声とが別々のチャンネルとして再生されるようにすることが可能となる。そのため、会話の臨場感を高めることが可能となる。特に、関係判定部22が撮像者と被写体とが会話をしている旨の判定結果を出力する場合に、このような制御を行うこととしても構わない。
また、上述した例では、合成部82a,82bが複数の信号を加算して合成をするものとして説明したが、反対に、減算して合成をするものとしても構わない。減算して合成する場合、所定の方向の音声を抑制した(所定の方向以外の音声の信号レベルに対する所定の方向の音声の信号レベルの大きさを、合成により小さくさせた)音声データを得ることが可能となる。例えば、上述のように撮像者側の音声は、合成部82aに同期して入力される。ここで、合成時に減算することとすると、同期している撮像者側の音声が大きく抑制される。したがって、撮像者側の音声を選択的に抑制することが可能となる。なお、合成部82a,82bが、関係判定部22の判定結果に基づいて、加算、減算を切り替え可能な構成としても構わない。このように構成すると、合成によって被写体側及び撮像者側の音声の強度(それぞれの側の指向性)を制御することが可能となる。
(音声制御部の第3実施例)
次に、音声制御部23の第3実施例について図面を参照して説明する。図17は、本発明の実施形態における音声制御部23の第3実施例について示すブロック図であり、第1及び第2実施例について示した図14及び図15に相当するものである。なお、図14及び図15と同様の部分については同じ符号を付し、その詳細な説明については省略する。また、本例においても図16に示したマイク7a,7bを用いることとする。
図17に示すように、本例の音声制御部23cは、マイク7aから入力される音声データを高速フーリエ変換(Fast Fourier Transform;FFT)するFFT部83aと、マイク7bから入力される音声データをFFTするFFT部83bと、FFT部83a,83bでFFTされた音声データの位相差を検出する位相差算出部84と、位相差算出部84で検出された位相差データと関係判定部22の判定結果に基づいて帯域別に指向性の制御量を決定する帯域別制御量決定部85と、帯域別制御量決定部85で決定された制御量に基づいてFFT部83aでFFTされた音声データ中の音声の強度制御を行う帯域別強度制御部86aと、帯域別制御量決定部85で決定された制御量に基づいてFFT部83bでFFTされた音声データ中の音声の強度制御を行う帯域別強度制御部86bと、帯域別強度制御部86aで強度制御された音声データを逆高速フーリエ変換(Inverse Fourier Transform;IFFT)するIFFT部87aと、帯域別強度制御部86bで強度制御された音声データをIFFTするIFFT部87bと、を備える。
FFT部83a,83bは、マイク7a,7bから入力される音声データをFFTして周波数軸の信号として出力する。そして、位相差算出部84がFFT部83a,83bから入力される周波数軸の音声データの各周波数成分における位相差を算出する。このとき、入力される音声データの各周波数成分の位相差と周波数とから、その周波数成分の到来方向を算出する。そして、帯域別制御量決定部85が、位相差算出部84で算出した音声データの各周波数成分の到来方向と、関係判定部22が出力する判定結果とに基づいて、その周波数成分の強度(信号レベル)を大きくすべきか否かを決定する。
そして、帯域別制御量決定部85において信号レベルを大きくすべきと判定された周波数成分については、帯域別強度制御部86a,86bにおいてそのスペクトラル係数を増大させる。一方、信号レベルを大きくすべきでないと判定される周波数成分については、そのスペクトラル係数を低減させる。その後、変化させたスペクトラル係数をIFFT部87a,87bでIFFTし、時間軸の信号に戻して出力する。
この方法では、二個のマイク7a,7bの設置間隔が半波長となる周波数を指向性制御の上限周波数とすることにより、位相差から正確な音声の到来方向、即ち音源方向を算出することが可能であるため、指向角の微細な調整を行うことができる。
また本例では、関係判定部22が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、撮像者側の音声が十分小さくなるように帯域別強度制御部86a,86bが音声データ中の音声の信号レベルの制御を行う。一方、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、撮像者側の音声が十分小さくなることがないように帯域別強度制御部86a,86bが音声データ中の音声の信号レベルの制御を行う。
これにより、被写体側及び撮像者側のそれぞれから到来する音声に対して、それぞれ正確な指向性の制御を行うことが可能となる。また、このような制御を上述の関係判定部22によって自動的に行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。
なお、図17に示す音声制御部23cを、被写体の音声を抽出及び強度制御するためのものと、撮像者の音声を抽出及び強度制御するためのものと、の二つ備えることとしても構わない。このような構成とすると、被写体側の音声と、撮像者側の音声と、を分離することが可能となる。そして、分離して得られる被写体側の音声データと、撮像者側の音声データとに対して、それぞれ処理を施しても構わない。特に、分離後の音声データのそれぞれに対して、第1実施例に示したような指向性制御部80a,80bを用いた強度制御を行うこととしても構わない。
また、この場合、被写体側の音声データと撮像者側の音声データとを、それぞれ異なるチャンネルの音声データとして記録したり、異なるチャンネルの音声に合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。
これにより、記録された音声データを再生する場合に、被写体の音声と撮像者の音声とが別々のチャンネルとして再生されるようにすることが可能となる。そのため、会話の臨場感を高めることが可能となる。特に、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合に、このような制御を行うこととしても構わない。
また、関係判定部22が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合において、撮像者側の音声と被写体側の音声とが同程度の信号レベルとなるように、帯域別強度制御部86a,86bが信号レベルを調整して出力することとしても構わない。このように構成することによって、撮像者及び被写体の一方の音声の信号レベルが大きいために会話の音声が不自然となることを抑制することが可能となる。また、撮像者と被写体との音声を分離したあとに、それぞれの音声データが同程度の信号レベルとなるように強度制御を行うこととしても構わない。
また、帯域別制御量決定部85が、被写体が存在する方向を確認する際に、例えば上述した顔検出の結果などに基づいて決定しても構わない。これにより、被写体とマイク7a,7bとの位置関係(特に、マイク7a,7bに対して被写体が存在する方向)が推定されるため、被写体が存在する方向から到来した音声を正確に強調することが可能となる。また、撮像者が存在する方向については、撮像装置を通常的に扱う場合の位置に基づいて推定しても構わない。
なお、上述した第1〜第3実施例における音声制御部23a〜23cを組み合わせても構わない。例えば、第2実施例の音声制御部23bで得られる音声データに、第1実施例や第3実施例で得られる音声データを合成することとしても構わない。このように組み合わせることで、会話の音声だけでなく周囲の音声も多少入力される音声データが得られる。したがって、自然な音声データを記録することが可能となる。また、上述した第1〜第3実施例では、全てマイク二つを備えたものについて説明したが、マイクを三つ以上備える構成としても構わない。
<<音声再生装置>>
上述の実施形態は、集音して記録を行う場合に撮像者と被写体との関係を判定し、音声データを制御する音声記録装置に関するものである。しかしながら、本発明はこれに限らず、再生時に撮像者と被写体との関係を判定して音声データを制御する音声再生装置にも適用可能である。以下において、音声再生装置の一例として上述した撮像装置を例に挙げ、説明する。なお、本例においても、被写体と撮像者との会話の有無を判定する場合について説明する。
図18に、再生時に撮像者と被写体との関係を判定し、音声データを制御することが可能な撮像装置1aを示す。図18は、本発明の別の実施形態における撮像装置の基本構成について示すブロック図であり、図1に相当するものである。なお、図1と同様の部分については同じ符号を付し、その詳細な説明については省略する。
図18に示す撮像装置1aは、音声処理部8の代わりに音声処理部8aを備える点と、伸長処理部12から入力される音声データを処理して音声出力回路部14に出力する再生音声制御部24をさらに備える点と、を除き図1の撮像装置1と同様の構成となる。
また、音声処理部8aは、記録音声制御部21を備えない構成である点を除き、図1に示す音声処理部8と同様の構成となる。また、再生音声制御部24は、図2に示す記録音声制御部21と同様の構成となる。ただし、再生音声制御部24は、画像データ及び音声データが伸長処理部12から入力される。また、本例では記録時に音声データの制御を行わず、再生時に音声データの制御を行う。なお、再生音声制御部24に備えられる関係判定部22の判定方法や、音声制御部23の制御方法は上述したそれぞれの実施例と同様であるため、詳細な説明については省略する。
ただし、第3実施例の関係判定部22cのように、関係判定部22が撮像部制御データを用いて判定結果を出力する場合、必要となる撮像部制御データが、音声データや画像データの記録時に別途記録される構成としても構わない。また、音声データや画像データなどのいずれかのデータに付加されて記録される構成としても構わない。
以上のように構成することで、再生時においても被写体と撮像者との関係を判定し、音声データを制御することが可能となる。したがって、記録時に判定や制御を行っていない音声データに対しても、判定及び制御を行うことが可能となる。
また、再生時における制御例について、図19を用いて説明する。図19は、再生音声制御部の制御例について示した模式図である。図19(a)に示す場面と図19(b)に示す場面とは時間的に連続しているものとする。また、図19は、撮像者Bが音声D1で被写体Aに呼びかけ(図19(a))、それに対して被写体Aが音声D2で応答する(図19(b))場面について示している。
ここで、関係判定部22が、例えば上述の第1実施例の関係判定部22aなどの、画像データに基づく判定方法を採用している場合、被写体Aと撮像者Bとの会話の開始を図19(b)の場面であるとして判定してしまう場合が生じる。そこで、本例では図19(a)の音声D1も会話の一部として判定させるため、以下のような制御を行う。
まず、本例では実際に再生する際に画像データの解析を先行して行う。そして、例えば上述の関係判定部22aなどが用いられて判定が行われたため、図19(b)の時点で会話が行われているという旨の判定結果が出力されるものとする。しかしながら本例の場面では、画像データに基づいて判定された場面(図19(b))から所定の時間遡った場面から、指向性の制御を行うことが好ましい。
そのため、図19(a)に示す場面についても会話中とみなし、音声制御部23による指向性の制御を行う。このように制御を行うことで、会話の開始時における撮像者の音声D1の信号レベルが小さくされて再生されることを防止することが可能となり、会話の音声を明瞭にして再生することが可能となる。
さらに、遡った場面から音声データに基づいた判定を行い、音声D1の発生時を厳密に特定することも可能である。音声データに基づいた判定として、上述の第5実施例の関係判定部22eの判定方法を用いることとしても構わない。このように構成すると、音声D1以前の会話ではない部分についてまで、指向性が制御されることを抑制することが可能となる。
以上のように指向性の制御を行い、画像データ及び音声データを再生することとすると、特に、会話の開始段階の撮像者の音声の信号レベルが小さくされることを抑制することが可能となる。また、正確な開始時期を検出することができるため、会話の音声をより明瞭にして再生することが可能となる。
なお、この再生時の制御例を、記録時に適用しても構わない。例えば、図2の記録音声制御部21が、入力された音声データを一時的に保持可能な構成にするとともに、判定結果に応じて保持している音声データに対して制御を行う構成として構わない。
また、記録音声制御部21を備える音声処理部8と、再生音声制御部24とを備える構成として、記録時と再生時の任意の時期に、被写体と撮像者との関係の判定及び音声データの制御を行うことができる構成としても構わない。
また、再生機能のみを備える再生装置(例えば、光ディスクなどに記録された画像データ及び音声データを再生する再生装置など)に、本例を適用することとしても構わない。このような構成としても、上述の撮像装置1aと同様の判定および制御を行うことが可能である。
さらに、再生時や記録時だけでなく、編集時に適用しても構わない。例えば、図18の再生音声制御部24が、音声データの制御を行った後に画像データとともに圧縮処理部9に入力し、圧縮符号化したデータを外部メモリ10に記録することとしても構わない。また、外部メモリ10に記録する際に、元のデータに上書きしても構わないし、別のデータとして記録しても構わない。また、このような編集機能を備えた編集装置に適用しても構わない。
<<変形例>>
上述した例では、関係判定部22が被写体と撮像者との会話の有無について判定することとしたが、会話以外の関係について判定することとしても構わない。例えば、移動する被写体に撮像者が追随する関係について、移動に伴う画像全体のブレや風切り音、フォーカスの変動などから判定しても構わない。この場合、撮像者や被写体の移動に伴って発生する音の信号レベルを小さくする制御を行うこととしても構わない。また、被写体が風景であり撮像者がそれを静観している関係について、画像の静止時間や被写体及び撮像者の音声の小ささ、フォーカスの変動などから判定しても構わない。この場合、指向角や記録する音声の帯域などを広くして、音声データの臨場感を高める制御を行っても構わない。以上のように本実施形態の撮像装置は、被写体と撮像者との関係を画像データや音声データ、撮像部制御データなどから判定し、その判定結果に応じて音声データを制御するものである限り、どのようなものであっても構わない。
また、本発明の実施形態における撮像装置1,1aについて、記録音声制御部21及び再生音声制御部24のそれぞれの動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしても構わない。
また、上述した場合に限らず、図1及び図18の撮像装置1,1aや図2の記録音声制御部21及び再生音声制御部24は、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。また、ソフトウェアを用いて撮像装置1,1aや記録音声制御部21及び再生音声制御部24を構成する場合、ソフトウェアによって実現される部位についてのブロック図は、その部位の機能ブロック図を表すこととする。
以上、本発明における実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実行することができる。