JP5072714B2

JP5072714B2 - 音声記録装置及び音声再生装置

Info

Publication number: JP5072714B2
Application number: JP2008139647A
Authority: JP
Inventors: 智岐奥; 昌弘吉田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2012-11-14
Anticipated expiration: 2028-05-28
Also published as: JP2009290456A

Description

本発明は、画像データと対になる音声データを記録する音声記録装置や、音声データを再生する音声再生装置に関する。

近年、撮像及び集音することによって動画の画像データや音声データを作成し、記録することができるビデオカメラなどの撮像装置が広く普及している。また、このような撮像装置の中には、集音環境を制御することによってユーザの望む音声データを作成し、記録することを可能とするものがある。

例えば、特許文献１〜３には、撮像及び集音を行う際に、集音方向の指向性を制御可能とした撮像装置が提案されている。
特開平３−２７４８６７号公報特開２００４−５６４３１号公報特開平３−１５１７７２号公報

しかしながら、これらの撮像装置は、撮像者がスイッチや撮像モードの切り替えを行うことによって集音方向の指向性を切り替えるものである。そのため、撮像者は常に状況の変化を予測し、予めスイッチや撮像モードを切り替える必要が生じ、操作が煩雑なものとなる。また、撮像者の切替忘れなどの誤操作や、切替時のもたつきが発生しやすく、一部または全部の音声が集音及び記録されなくなったり、もたつく際の音声などの不要な音声が記録されたりするなど、不自然な音声データが作成されて記録される問題が生じる。

さらに、切替時に撮像装置を動かすことによって画像データにブレが生じたり、切替のために撮像を一時停止することによって画像データが途切れたり、撮像者が切替を行うためにもたつく様子が画像データとして記録されたりするなど、不自然な画像データが作成されて記録される問題も生じる。

また、従来の撮像装置は、撮像及び集音時に撮像者が集音方向の指向性の制御を行うものであるため、再生時に指向性を制御することができないことも問題となる。

そこで、本発明は、容易かつ適切に音声データを制御することを可能とした音声記録装置を提供することや、容易かつ適切に再生する音声データの制御を行うことを可能とする音声再生装置を提供することを目的とする。

上記目的を達成するために、本発明における音声記録装置は、集音して作成した音声データを記録する音声記録装置において、入力される光学像から画像データを作成する撮像部と、当該撮像部で作成される画像データと対になる音声データを、音声を集音して作成する集音部と、前記画像データに表される被写体と、自機を使用する撮像者との関係を判定して判定結果を出力する関係判定部と、当該関係判定部が出力する判定結果に基づいて、前記集音部で作成される音声データの制御を行う音声制御部と、を備えることを特徴とする。

また、上記構成の音声記録装置において、前記関係判定部が、前記被写体と前記撮像者との会話の有無を判定し、判定結果を出力することとしても構わない。

このように構成すると、被写体と撮像者との会話の有無に基づいて、音声データの制御方法を異ならせることが可能となる。さらに、このとき音声制御部によって被写体側の音声及び撮像者側の音声を選択的に制御することとすると、音声データ中の被写体及び撮像者の音声を、所望の状態となるように自在に調整することが可能となる。

また、上記構成の音声記録装置において、前記被写体と前記撮像者との会話が無いことを示す判定結果が前記関係判定部から出力される場合に、前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合と比べて、前記撮像者側の指向性が弱くなるように、前記音声制御部が音声データを制御することとしても構わない。

ある方向（側）の指向性とは、音声データにおける、ある方向（側）から到来する音声の強さの程度を示すものとする。例えば、撮像者側の指向性が弱いとは、撮像者側から到来する音声（例えば撮像者が発した音声）の信号レベルが、他の側から同じ大きさで到来する音声の信号レベルに比べて小さくなるように、音声データが制御されることを示すものとする。

上記のような構成とすると、被写体と撮像者との会話が無い場合に、不適な音声となりやすい撮像者側の音声の信号レベルを小さくして記録することが可能となる。一方、被写体と撮像者との会話が有る場合は、撮像者の音声の信号レベルを大きくして記録することが可能となる。この場合、被写体及び撮像者の双方の音声を記録することが可能となり、会話の音声を明瞭にして記録することが可能となる。

また、上記構成の音声記録装置において、前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合に、前記被写体側の指向性及び前記撮像者側の指向性が、他の側の指向性より強くなるように、前記音声制御部が音声データを制御することとしても構わない。

このように構成すると、被写体及び撮像者の音声の信号レベルを大きくして記録することが可能となる。したがって、会話の音声をより明瞭にして記録することが可能となる。

また、上記構成の音声記録装置において、前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合に、音声データ中の前記撮像者側の音声と、音声データ中の前記被写体側の音声と、が等しい強度になるように、前記音声制御部が音声データを制御することとしても構わない。

このように構成すると、被写体と撮像者との会話の音声の強度（例えば信号レベル）を、略等しいものとすることが可能となる。そのため、会話の音声を明瞭かつ自然なものとして記録することが可能となる。

また、上記構成の音声記録装置において、前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合に、前記被写体側の指向性を強くした音声と、前記撮像者側の指向性を強くした音声と、が複数のチャンネルを備える音声データ中の異なるチャンネルとして記録されることとしても構わない。

このように構成すると、音声データ中の複数のチャンネルのそれぞれを再生可能な再生装置を用いて音声データを再生する際に、撮像者の音声と被写体の音声とを異なるチャンネルとして再生することが可能となる。即ち、会話の臨場感を高めた音声データを記録することが可能となる。

また、上記構成の音声記録装置において、前記関係判定部が、画像データ中の前記被写体の画像の所定の部分の状態に基づいて、前記被写体と前記撮像者との関係を判定することとしても構わない。

このように構成すると、被写体の動きや状態に応じて被写体と撮像者との関係を判定することが可能となる。特に、会話中に通常よく見られる特徴が被写体に見られる場合に会話をしているものと判定することとすると、容易に被写体と撮像者との会話の有無を判定することが可能となる。

また、上記構成の音声記録装置において、前記関係判定部が、画像データ中の前記被写体の顔を示す画像に基づいて、前記被写体と前記撮像者との関係を判定するものであることとしても構わない。

このように構成すると、顔の向きや目線、口の動きなどから、被写体がどのような動作をしているかを容易かつ正確に把握することが可能となる。特に被写体と撮像者との会話の有無について判定することとすると、会話時の特徴が明確に表れる顔について判定を行うこととなるため、容易かつ正確に判定することが可能となる。

また、上記構成の音声記録装置において、前記関係判定部が、画像データの全体に含まれる前記被写体の画像の割合に基づいて、前記被写体と前記撮像者との関係を判定するものであることとしても構わない。また、前記被写体が人であり、前記関係判定部が、画像データに含まれる人の画像の数に基づいて、前記被写体と前記撮像者との関係を判定するものであることとしても構わない。

このように構成すると、画像データ中に占める被写体の割合や、人数に基づいて判定を行うことができる。これにより、撮像時における被写体と撮像者との関係が密接なものであるか否かについて判定することが可能となる。例えば、画像データ中に占める割合が大きく、人数が少ない場合に関係が密接であると判定することができる。また、被写体と撮像者との関係が密接となる会話時をこのような方法で判定することとすると、容易かつ正確に判定することが可能となる。

また、上記構成の音声記録装置において、前記関係判定部が、撮像部を制御する撮像部制御データに基づいて、前記被写体と前記撮像者との関係を判定するものであることとしても構わない。このように構成すると、撮像者と被写体の位置関係を推定することが可能となり、この推定に基づいた判定を行うことが可能となる。

また、上記構成の音声記録装置において、前記関係判定部が、音声データに基づいて、前記被写体と前記撮像者との関係を判定するものであることとしても構わない。また、特に撮像者側の音声の有無に基づいて判定しても構わない。このように構成することによって、特に被写体と撮像者とが会話をしている関係か否かについて、容易かつ正確に判定することが可能となる。

また、上記構成の音声記録装置において、前記集音部が、所定の方向から到来する音声のみを集音する指向性マイクを複数備えるものであり、前記音声制御部が、前記指向性マイクのそれぞれによって集音されて得られる音声データのそれぞれの成分を制御することによって、音声データを制御することとしても構わない。このように構成すると、容易に上述したような指向性の制御を行うことが可能となる。

また、上記構成の音声記録装置において、前記集音部が複数のマイクを備えたものであり、前記音声制御部が、前記マイクのそれぞれによって集音されて得られる音声データのそれぞれの成分の少なくとも一部を組み合わせることによって、音声データを制御することとしても構わない。特に、全方向から到来する音声のいずれも略均一となる信号レベルで集音する無指向性マイクを用いても構わない。このように構成すると、指向性マイクなどの特殊なマイクを利用する場合に限られることなく、上述したような指向性を制御することが可能となる。

また、本発明の音声再生装置は、集音して作成された音声データを再生する音声再生装置において、音声データと対になる画像データに表される被写体と、当該被写体を撮像して画像データを作成した撮像者と、の撮像時の関係を判定して判定結果を出力する関係判定部と、当該関係判定部が出力する判定結果に基づいて、入力される音声データの制御を行う音声制御部と、を備えることを特徴とする。

また、上記構成の音声再生装置において、前記関係判定部が、前記被写体と前記撮像者との会話の有無を判定し、判定結果を出力することとしても構わない。

このように構成すると、被写体と撮像者との会話の有無に基づいて、異なる音声データの制御を行い、再生することが可能となる。特に、記録時に制御をしていない音声データについても、制御を行って再生することができる。

また、上記構成の音声再生装置において、前記関係判定部が第１の判定方法と第２の判定方法の少なくとも二つの判定方法で判定を行うものであり、前記第１の判定方法で前記被写体と前記撮像者との関係が変化したことを検出したとき、前記第２の方法で、前記第１の判定方法により関係の変化を検出した時点よりも所定の時間だけ前となる時点の前記被写体と前記撮像者との関係を判定し、判定結果を出力することとしても構わない。

このように構成すると、被写体と撮像者との関係が変化した時点を正確に検出することが可能となる。特に、被写体の情報は多いが撮像者の情報は少ないため、撮像者の動作がきっかけとなって関係が変動する場合、変化の開始時を検出することが困難となる。しかしながら、本発明のように少なくとも二つの判定方法を用い、判定によって検出されたある時点から所定の時間遡ってさらに判定を行うこととすると、より正確に関係の変化の開始時を検出することが可能となる。

本発明の構成とすることによって、被写体と撮像者との関係を関係判定部が判定するとともに、判定結果に基づいて音声データを制御することが可能となる。そのため、状況に応じた最適な音声の制御を容易に行うことが可能となる。さらに、撮像者が自ら切替を行うために発生する煩雑さを解消することが可能となる。また、記録時における撮像者の誤操作や切替の際のもたつきによって、音声データや画像データが不自然となることを抑制することが可能となり、撮像者の望む音声データや画像データを容易に得ることが可能となる。

以下、本発明における音声記録装置及び音声再生装置として、ビデオカメラなどに代表される撮像装置を例に挙げるとともに、図面を参照して説明する。

＜＜音声記録装置＞＞
＜撮像装置の基本構成＞
まず、音声記録装置の一例である撮像装置の基本構成について、図１に基づいて説明する。図１は、本発明の実施形態における撮像装置の基本構成について示すブロック図である。

図１に示すように、撮像装置１は、入力される光学像に基づいて画像データを作成する撮像部２を備える。撮像部２は、入射される光を電気信号に変換するＣＣＤ（Charge Coupled Devices）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサなどの固体撮像素子から成るイメージセンサ３と、光学像をイメージセンサ３に結像させるとともに光量やフォーカスなどの調整を行うレンズ部４と、を備える。

さらに、撮像装置１は、イメージセンサ３から出力されるアナログの画像データをデジタルの画像データに変換するＡＦＥ（Analog Front End）５と、ＡＦＥ５から出力されるデジタルの画像データに対して階調補正処理などの各種画像処理を施す画像処理部６と、入力される音声を電気信号に変換する集音部７と、集音部７から出力されるアナログの音声データをデジタルの音声データに変換するとともに各種補正処理を施す音声処理部８と、画像処理部６から出力される画像データと音声処理部８から出力される音声データのそれぞれに対してＭＰＥＧ（Moving Picture Experts Group）圧縮方式などの動画用の圧縮符号化処理を施す圧縮処理部９と、圧縮処理部９で圧縮符号化された圧縮符号化信号を記録する外部メモリ１０と、圧縮符号化信号を外部メモリ１０に記録したり読み出したりするドライバ部１１と、ドライバ部１１において外部メモリ１０から読み出した圧縮符号化信号を伸長して復号する伸長処理部１２と、を備える。

また、撮像装置１は、伸長処理部１２で復号されて得られる画像データをディスプレイなどの表示装置（不図示）で表示するためにアナログ信号に変換する画像出力回路部１３と、伸長処理部１２で復号されて得られる音声データをスピーカなどの再生装置（不図示）で再生するためにアナログ信号に変換する音声出力回路部１４と、を備える。

また、撮像装置１は、撮像装置１内全体の動作を制御するＣＰＵ（Central Processing Unit）１５と、各処理を行うための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ１６と、撮像を開始するボタンや撮像条件などを調整するボタン等ユーザからの指示が入力される操作部１７と、各部の動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ（ＴＧ）部１８と、ＣＰＵ１５と各ブロックとの間でデータのやりとりを行うためのバス回線１９と、メモリ１６と各ブロックとの間でデータのやりとりを行うためのバス回線２０と、を備える。

また、音声処理部８には、画像データや撮像部２の制御データ、音声データに基づいて、音声データの制御を行う記録音声制御部２１を備えられる。この記録音声制御部２１の構成の詳細については後述する。

なお、外部メモリ１０は画像データや音声データを記録することができればどのようなものでも構わない。例えば、ＳＤ（Secure Digital）カードのような半導体メモリ、ＤＶＤ（Digital Versatile Disc）などの光ディスク、ハードディスクなどの磁気ディスクなどをこの外部メモリ１０として使用することができる。また、外部メモリ１０を撮像装置１から着脱自在としても構わない。

＜撮像装置の基本動作＞
次に、撮像装置１の基本動作について図１を用いて説明する。まず、撮像装置１は、レンズ部４より入射される光をイメージセンサ３において光電変換することによって、電気信号である画像データを作成する。そして、イメージセンサ３は、ＴＧ部１８から入力されるタイミング制御信号に同期して、所定のフレーム周期（例えば、１／６０秒）で順次ＡＦＥ５に画像データを出力する。

そして、ＡＦＥ５によってアナログからデジタルへと変換された画像データは、画像処理部６に入力される。画像処理部６では、入力される画像データを、輝度信号と色差信号とからなる画像データに変換するとともに、階調補正や輪郭強調等の各種画像処理を施す。また、メモリ１６はフレームメモリとして動作し、画像処理部６が処理を行なう際に画像データを一時的に保持する。

また、このとき画像処理部６に入力される画像データに基づき、レンズ部４において、各種レンズの位置が調整されてフォーカスの調整が行われたり、絞りの開度が調整されて露出の調整が行われたりする。このフォーカスや露出の調整は、それぞれ最適な状態となるように所定のプログラムに基づいて自動的に行われたり、ユーザの指示に基づいて手動で行われたりする。

一方、集音部７は、集音した音声を電気信号に変換して音声データを作成する。作成された音声データは音声処理部８に入力され、アナログの音声データからデジタルの音声データへと変換される。また、ノイズ除去や強度制御などの各種処理が施される。さらに、記録音声制御部２１は、被写体と撮像者との関係を判定するとともに音声データの制御を行う。この記録音声制御部２１の動作の詳細については後述する。

そして、画像処理部６から出力される画像データと、音声処理部８から出力される音声データと、がともに圧縮処理部９に入力され、圧縮処理部９において所定の圧縮方式で圧縮される。このとき、画像データと音声データとが時間的に関連付けられ、再生時に画像と音とがずれないように構成される。そして、圧縮された画像データ及び音声データはドライバ部１１を介して外部メモリ１０に記録される。

また、音声のみを記録する場合であれば、音声データが圧縮処理部９において所定の圧縮方法で圧縮され、外部メモリ１０に記録されることとなる。

外部メモリ１０に記録された圧縮符号化信号は、ユーザの指示に基づいて伸長処理部１２に読み出される。伸長処理部１２は、圧縮符号化信号を伸長及び復号し、画像データ及び音声データを生成する。そして、画像データを画像出力回路部１３、音声データを音声出力回路部１４にそれぞれ出力する。そして、画像出力回路部１３や音声出力回路部１４において、表示装置や再生装置において再生可能な形式に変換されて出力される。

なお、表示装置や再生装置は、撮像装置１と一体となっているものであっても構わないし、別体となっており撮像装置１に備えられる端子とケーブル等を用いて接続されるものであっても構わない。

また、画像データの記録を行わずに表示装置などに表示される画像をユーザが確認する、所謂プレビューモードである場合に、画像処理部６から出力される画像データを圧縮せずに画像出力回路部１３に出力することとしても構わない。また、画像データを記録する際に、圧縮処理部９で圧縮して外部メモリ１０に記録する動作と並行して、画像出力回路部１３を介して表示装置などに画像データを出力することとしても構わない。

＜記録音声制御部＞
次に、記録音声制御部２１の構成及び動作について、図面を参照して説明する。図２は、本発明の実施形態における撮像装置に備えられる記録音声制御部の構成について示すブロック図である。また、図３は、記録音声制御部の制御例について示した模式図である。

図２に示すように、記録音声制御部２１は、入力される撮像部制御データ、画像データ及び音声データに基づいて被写体と撮像者との関係を判定する関係判定部２２と、関係判定部２２から出力される判定結果に基づいて入力される音声データに所定の処理を施して出力する音声制御部２３と、を備える。

関係判定部２２には、撮像部２の動作内容を示す情報が含まれる撮像部制御データや、画像処理部６から入力される画像データや、音声処理部８に入力される音声データが入力される。関係判定部２２はこれらのデータに基づいて、被写体と撮像者の関係を判定する。例えば、被写体と撮像者とが会話をしているか否かについての判定を行い、判定結果を音声制御部２３に入力する。

本実施形態の撮像装置１において、関係判定部２２が判定する被写体と撮像者との関係は、どのような関係であってもよい。ただし、以下では説明の具体化のため、関係判定部２２が被写体と撮像者との会話の有無を判定する場合を例として挙げ、この場合について特に説明することとする。また、会話とは、被写体と撮像者とが所定の言語によってやり取りする場合のみに限られず、一方の音声による呼びかけに対して他方が何らかの反応をする場合の全てを含むものとする。

音声制御部２３は、入力される判定結果に基づいて音声データの制御を行う。音声データの制御方法の一例について、図３に示す。図３中符号Ｃ１及びＣ２で表されるそれぞれの破線は、音声制御部２３から出力される音声データの特性（以下、音声データ特性とする）を模式的に示すものとする。この音声データ特性は、音声制御部２３が、入力される音声データに所定の処理を施すことによって実現するものである。

また、この音声データ特性を、指向性の向きや強弱、指向角の広狭で表現する。例えば、「ある方向（ある側）の指向性が強い」と表現する場合、音声制御部２３から出力される音声データ中において、ある方向（ある側）から到来する音声の信号レベルが、他の側から到来する同じ大きさの音声の信号レベルに比べて、大きいことを示すものとする。また、「指向角が広い」と表現する場合、指向性が強い範囲が広い（撮像装置１を中心とした角度が大きい）ことを示すものとする。

ここで、複数の音源が撮像装置１（特に集音部７）を中心とした全方向に存在し、それぞれの音源から等しい大きさの音声が到来している場合を例に挙げて、音声データ特性についてさらに具体的に説明する。まず、ある方向の指向性が強く、ある方向に特定音源が存在するとともに指向角が広い音声データ特性である場合、音声制御部２３から出力される音声データ中において、ある側から到来する音声（特定音源及び特定音源の付近の音源の音声）の信号レベルが、ある側以外から到来する音声の信号レベルよりも大きいものとなる。一方、同様の場合で指向角が狭い場合、指向角が広い場合と比較して、特性音源の付近の音源が発する音声の信号レベルが小さいものとなる。即ち、音声制御部２３から出力される音声データ中における特定音源の音声の信号レベルが、際立って大きいものとなる。

関係判定部２２において被写体Ａと撮像者Ｂとが会話をしていると判定される場合、図３（ａ）に示すように、音声制御部２３が、被写体Ａ側及び撮像者Ｂ側から到来する音声が、音声データ中で十分大きな信号レベルを有するものに成り得るように、音声データを制御する。即ち、被写体Ａ側及び撮像者Ｂ側の指向性が強くなるような音声データ特性Ｃ１とする。

一方、関係判定部２２において被写体Ａと撮像者Ｂとが会話をしていないと判定される場合、図３（ｂ）に示すように、音声制御部２３が、撮像者Ｂ側から到来する音声が、音声データ中で十分小さな信号レベルとなるように音声データを制御する。即ち、撮像者Ｂ側の指向性が弱くなるような音声データ特性Ｃ２とする。

このように、入力される種々のデータに基づいて被写体Ａと撮像者Ｂとの関係を判定するとともに、判定結果に基づいて音声データを制御することによって、状況に応じた最適な音声データの制御方法を自動的に切り替えることが可能となる。

特に、被写体Ａと撮像者Ｂとが会話をしていると関係判定部２２によって判定される場合には、被写体Ａ側及び撮像者Ｂ側の指向性を強くする制御を行う。これにより、被写体Ａ及び撮像者Ｂの会話の音声を明瞭にした音声データを記録することが可能となる。

また、被写体Ａと撮像者Ｂとが会話をしていないと判定される場合には、撮像者Ｂ側の指向性を弱くする制御を行う。これにより、不適な音声となりやすい撮像者Ｂ側の音声の信号レベルを小さくする（または無くす）ことが可能となる。したがって、被写体Ａの音声をはじめとした目的となる音声を明瞭にした音声データを記録することが可能となる。

さらに、撮像者Ｂが自ら切替を行うために発生する煩雑さを解消することが可能となる。また、撮像者Ｂの誤操作や切替の際のもたつきによって、記録する音声データや画像データが不自然となることを抑制することが可能となる。これにより、撮像者の望む適切な音声データや画像データを記録することが可能となる。

なお、関係判定部２２において被写体Ａと撮像者Ｂとが会話をしていると判定される場合に、音声制御部２３が、被写体Ａ側の音声の強度（例えば信号レベル）と撮像者Ｂ側の音声の強度とが同程度となるように音声データを制御しても構わない。このように制御することとすると、会話音声の大きさが均一となるため、明瞭かつ自然な会話音声とすることが可能となる。

また、判定に用いられる画像データや音声データを、画像処理部６や音声処理部８においてノイズ除去などの所定の処理が施された後のデータとしても構わないし、このような処理が施される前のデータとしても構わない。また、関係判定部２２に、撮像部制御データ、画像データ及び音声データが入力されてこれらのデータに基づいた判定が行われることとしたが、これらのデータの一部のみが入力されて判定される構成としても構わない。また、これら以外のデータが入力されるとともに、そのデータに基づいて判定が行われることとしても構わない。

また、被写体Ａと撮像者Ｂとが会話をしていないと関係判定部２２で判定される場合、図３（ｂ）の音声データ特性Ｃ２に示すように、会話をしていると判定される場合（図３（ａ））よりも被写体Ａ側の指向性を強くして、被写体Ａ側の音声の信号レベルがより大きくなるように制御しても構わない。このとき、指向角を広くして、被写体Ａ側から到来する音声全体の信号レベルが大きくなるようにしても構わない。また、画角内に被写体Ａが存在することや、被写体Ａが音声を発していることを関係判定部２２が検出した場合に、被写体Ａ側の指向性をさらに強くしても構わない。この場合、後述する関係判定部２２の各実施例に示すような方法を用いて、画角内の被写体Ａの検出や音声の検出を行うこととしても構わない。

さらに、被写体Ａと撮像者Ｂとが会話をしていないと関係判定部２２に判定される場合、図３（ｂ）の音声データ特性Ｃ２に示すように、撮像者Ｂ側の音声ができる限り記録されないように指向性を弱くすることとしたが、撮像者Ｂ側の音声の信号レベルを極端に小さくしない程度に指向性を弱くする構成としても構わない。例えば、撮像者Ｂ側の音声の信号レベルが、被写体Ａ側の音声の信号レベルよりも所定の大きさ（例えば６ｄＢ）以上小さくなるように、撮像者Ｂ側の指向性を弱くする制御を行っても構わない。

また、図３では、音声データ特性Ｃ１，Ｃ２の指向角が、画角の中心を中心とした一定の広さになるものとして示しているが、画角内全体に及ぶ程度にまで広くしても構わない。また、反対に狭くしても構わない。また、関係判定部２２の判定結果に基づいて、指向角を広くしたり狭くしたりしても構わない。

さらに、音声データ特性Ｃ１，Ｃ２の指向角の中心が、画角の中心になくても構わない。これは、左右方向に限らず、上下方向でも同様である。特に、上述のような方法で被写体Ａを検出するとともに、被写体Ａに指向角の中心が向くように制御しても構わない。また、被写体Ａの顔などの特定部位に対して指向角の中心を向けても構わないし、指向角を狭くして、被写体Ａの方向から到来する音声の信号レベルが際立って大きくなるようにしても構わない。

また、記録時に被写体と撮像者との関係の判定のみを行い、再生時にその判定結果に基づいた音声データの制御を行う構成としても構わない。例えば、音声出力回路部１４の前段に音声制御部２３を備える構成としても構わない。この場合、記録時に関係判定部２２による判定を行うとともに、判定結果に基づいた会話フラグを音声データに付すこととしても構わない。そして再生時に、音声データに付せられた会話フラグに基づいて、音声制御部２３が音声データの制御を行うこととしても構わない。

また、以下に、被写体と撮像者との会話の有無を判定する関係判定部２２の各実施例と、関係判定部２２の判定結果に基づいて音声データを制御する音声処理部２３の各実施例と、をそれぞれ示す。

（関係判定部の第１実施例）
まず、関係判定部２２の第１実施例について図面を参照して説明する。図４は、本発明の実施形態における関係判定部の第１実施例について示すブロック図である。

図４に示すように、本例における関係判定部２２ａは、画像データ中の人の顔を検出する顔検出部３０と、顔検出部３０の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部３３ａと、を備える。顔検出部３０は、入力される画像データに基づいて１または複数の縮小画像データを生成する縮小画像生成部３１と、画像データ及び縮小画像データから構成される各階層画像データと重みテーブルとを用いて画像データに含まれる顔を検出する顔判定部３２と、を備える。

顔検出部３０の動作について説明する。顔の検出方法としては、肌の色を用いて検出する方法や所定の幾何学的配置を有する領域を検出する方法などがある。本例においては、顔を検出する際に既存のどのような方法を用いることとしても構わないが、一例として画像データと重みテーブルとを比較することで顔検出を行う方法について図５を用いて説明する。図５は、顔の検出方法について説明する図であり、縮小画像生成部によって得られる階層画像の一例を示す模式図である。

本例では、顔判定部３２が、縮小画像生成部３１から出力される各階層画像データ４０と、例えば図１のメモリ１６に格納されている重みテーブルと、を比較することで顔を検出する。重みテーブルとは、大量の教師サンプル（顔及び非顔のサンプル画像）から求められたものである。このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる（Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20，1995．）。このAdaboostは、適応的なブースティング学習方法の１つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。

図５に示すように、縮小画像生成部３１が、入力される画像データ４１から例えば縮小率を０．８として縮小画像データ４２〜４６を作成して階層化する。また、各画像データ４１〜４６において判定を行う判定領域４７の大きさは、どの画像データ４１〜４６においても同じである。そして、図５中の矢印で示すように、各画像データ４１〜４６上で判定領域４７を左から右に移動させて水平方向の走査を行う。また、この水平走査を上方から下方に向かって行うことで、画像データ全体が走査される。このとき、判定領域４７とマッチングする顔画像の検出が行われる。ここで、画像データ４１の他に複数の縮小画像データ４２〜４６を生成しておくことで、１種類の重みテーブルを用いて大きさが異なる顔を検出することを可能としている。また、走査順はこれに限られるものではなく、どのような順番で行っても構わない。

マッチングは、粗い判定から順次細かい判定に移行する複数の判定ステップから成る。そして、ある判定ステップにおいて顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域４７には顔は存在しないものと判定する。全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域４７に顔が存在すると判定し、判定領域を走査して次の判定領域４７での判定に移行する。以上のように動作することで、人の顔を検出することができる。

また、顔判定部３２は、検出した顔に基づいて、後段の会話判定部３３ａが判定のために必要とする特定部分（例えば、目、鼻、口など）の検出も行う。そして、会話判定部３３ａは、顔判定部３２の検出結果に基づいて、被写体と撮像者との会話の有無の判定を行う。例えば、顔の向き、被写体の目線の方向、口の動きなど、人が話をする場合に見られる特徴が、顔判定部３２から出力される検出結果に表れているか否かに基づいて判定する。この判定方法の例について、図３を用いて説明する。

顔の向きで判定する場合、被写体Ａの顔の向きが撮像装置１の方向に向いている場合、即ち、図３（ａ）に示すように撮像装置１の方向を向いた正面顔が検出される場合に、被写体Ａと撮像者Ｂとが会話をしている可能性が高いと判定する。また、例えば上記の重みテーブルに横顔のサンプルを含ませて正面顔及び横顔の判定を行い、図３（ｂ）に示すように横顔であると判定される場合に、会話をしていない可能性が高いと判定する。また、顔の部分（目、鼻、口など）の配置などに基づいて顔の向きを判定することも可能である。

また、被写体Ａの目線の方向で判定する場合、図３（ａ）に示すように被写体Ａの目線が撮像装置１の方向を向いている場合に、被写体Ａと撮像者Ｂとが会話をしている可能性が高いと判定する。一方、図３（ｂ）に示すように被写体Ａの目線が撮像装置１の方向を向いていない場合に、被写体Ａと撮像者Ｂとが会話をしていない可能性が高いと判定する。このとき、例えば被写体Ａの黒目の位置によって、被写体Ａの目線が撮像装置１の方向を向いているか否かを判定しても構わない。

また、被写体Ａの口によって判定する場合、図３（ａ）に示すように被写体Ａの口が動いている場合に、被写体Ａと撮像者Ｂとが会話をしている可能性が高いと判定する。一方、図３（ｂ）に示すように被写体Ａの口が動いていない場合に、被写体Ａと撮像者Ｂとが会話をしていない可能性が高いと判定する。

そして、関係判定部２２は、以上の判定方法の一つまたは複数の判定方法のそれぞれの結果に基づいて、被写体Ａと撮像者Ｂとの会話の有無を判定し、判定結果を出力する。

このように、被写体Ａの顔を検出するとともに、検出した被写体Ａの顔に基づいて被写体Ａと撮像者Ｂとの会話の有無を判定することとすると、会話時の特徴が明確に表れる顔について判定を行うこととなるため、容易かつ正確に判定することが可能となる。

なお、上記の例では被写体Ａの顔の向きや動きに基づいて判定することとしたが、顔の向きや動きの判定に加えて（または、代えて）、被写体Ａの体の向きなど他の部分の向きや動きなどに基づいて判定を行うこととしても構わない。例えば、被写体Ａの体の向きが撮像装置１を向いていない場合には会話をしていないものと判定し、体の向きが撮像装置１を向いている場合には会話をしているものと判定しても構わない。体の向きを検出する場合、例えば、検出した顔の下方向（眉間から口の方向）の領域をさらに検出することとしても構わない。そして、その領域から検出された体の大きさや形状などから、被写体Ａの体の向きを判定しても構わない。

また、被写体Ａの種々の部位に基づく判定結果を組み合わせて複合的な判定を行う場合、それぞれの判定結果に優先度を設定し、それぞれの判定結果に重み付けを施した上で最終的な判定を行うこととしても構わない。例えば、被写体Ａの顔が撮像装置１に向けられており、目線が撮像装置１の方向を向いておらず、口が動いている場合に、被写体Ａと会話をしていると判定しても構わない。このように複数の判定結果を組み合わせることとすると、より正確な判定を行うことが可能となる。

（関係判定部の第２実施例）
次に、関係判定部２２の第２実施例について図面を参照して説明する。図６は、本発明の実施形態における関係判定部の第２実施例について示すブロック図であり、第１実施例について示した図４に相当するものである。なお、図４と同様の部分については同じ符号を付し、その詳細な説明については省略する。

図６に示すように、本例における関係判定部２２ｂは、入力される画像データから被写体の動きを検出する動き検出部３４と、動き検出部３４の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部３３ｂと、を備える。

動き検出部３４は、例えば、図４に示した顔検出部３０を備え、顔検出の結果を利用して被写体の動きの検出を行う。この検出方法について図７を用いて説明する。図７は、動き検出方法の一例について説明する画像データの模式図である。図７に示すように、本例の動き検出部３４の動き検出方法では、最初に顔検出部３０によって画像データ５０から被写体Ａの顔が含まれる領域である顔領域５１を検出する。そして、顔領域５１の下方（眉間から口の方向）であり顔領域５１の隣接する位置に、被写体Ａの胴体が含まれる胴体領域５２を設定する。

そして、順次入力されてくる画像データについて、順次胴体領域５２を検出することで、被写体Ａの追尾処理を行う。このとき、例えば胴体領域５２の色情報（色差信号やＲＧＢ信号などの画素の色信号に基づく情報）に基づいて追尾処理を行う。具体的には、胴体領域５２の最初の設定時に胴体領域５２の色を認識し、その後に入力されてくる画像データの中から認識した色に類似する色を有した領域を検出することによって、追尾処理を行う。

そして、動き検出部３４は上述したような追尾処理によって被写体Ａの動きを検出し、会話判定部３３ｂに入力する。会話判定部３３ｂは、被写体Ａの動きが所定の大きさより小さい場合に、被写体Ａと撮像者とが会話を行っている可能性が高いと判定する。一方、被写体Ａの動きが所定の大きさよりも大きい場合は、被写体Ａと撮像者とが会話を行っていない可能性が高いと判定する。

このように、被写体Ａの動きに基づいて、被写体Ａと撮像者との会話の有無を判定することによって、容易に判定を行うことが可能となる。そのため、撮像装置全体の動作に対して負担となることを抑制しつつ判定を行うことが可能となる。

なお、上述した顔検出及び色情報を用いた方法に限らず、被写体Ａの動きを検出できる方法であれば他にどのような方法を用いても構わない。また、色情報を用いた追尾処理を行って動きを検出する場合、特開平５−２８４４１１号公報や、特開２０００−４８２１１号公報、特開２００１−１６９１６９号公報などに記載される方法を用いることとしても構わない。

また、第１実施例の判定方法と組み合わせても構わないし、組み合わせる場合に第１及び第２実施例のどちらかの判定方法による判定結果を優先させても構わない。例えば、第１実施例に判定方法による結果を優先して、被写体Ａに動きがないが顔が検出されない場合（例えば、被写体Ａが撮像装置に背を向けて静止している場合）に、被写体Ａと撮像者とが会話をしていない可能性が高いと判定しても構わない。

（関係判定部の第３実施例）
次に、関係判定部２２の第３実施例について図面を参照して説明する。図８は、本発明の実施形態における関係判定部の第３実施例について示すブロック図であり、第１及び第２実施例について示した図４及び図６に相当するものである。なお、図４及び図６と同様の部分については同じ符号を付し、その詳細な説明については省略する。

図８に示すように、本例の関係判定部２２ｃは、顔検出部３０と、顔検出部３０の検出結果と撮像部制御データとに基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部３３ｃと、を備える。

会話判定部３３ｃが判定に用いる撮像部制御データとして、例えば、図１の撮像部２におけるズーム倍率などのデータを用いることができる。この会話判定部３３ｃの判定方法について図９を用いて説明する。図９は、本例の関係判定部における会話判定部の判定方法について説明する画像データの模式図である。

本例の会話判定部３３ｃは、被写体Ａの顔の画像データ６０中に占める割合に基づいて判定を行う。例えば、図５に示した方法によって被写体Ａの顔を検出する場合、被写体Ａの顔が各階層画像データ４０中のいずれの画像データ４１〜４６において検出されたかを調べることによって、割合を求めることができる。そして、得られる割合に基づいて被写体Ａと撮像者との会話の有無の判定を行う。

例えば、図９（ａ）に示すように、被写体Ａの顔の画像データ６０に占める割合が大きい場合は、被写体Ａを中心に撮像している場合が想定されるため、被写体Ａと撮像者とが会話を行っている可能性が高いと判定する。一方、図９（ｂ）に示すように、被写体Ａの画像データ６０に占める割合が小さい場合は、被写体Ａではなく風景などを中心に撮像している場合が想定されるため、被写体Ａと撮像者とが会話を行っていない可能性が高いと判定する。

また、本例の会話判定部３３ｃは、ズーム倍率の大きさに基づいた判定も行う。例えば、図９（ａ）に示すような場合でありズーム倍率が小さい場合は、被写体Ａが撮像装置の付近に存在しているため、被写体Ａと撮像者とが会話を行っている可能性が高いと判定する。一方、図９（ａ）に示すような場合であってもズーム倍率が大きい場合は、被写体Ａが撮像装置から遠いところに存在しているため、被写体Ａと撮像者とが会話を行っていない可能性が高いと判定する。

このように、画像データ６０中に被写体Ａが占める割合や、撮像部制御データに基づいた判定を行うことによって、被写体Ａと撮像者との現実の位置関係に基づいて会話の有無を判定することが可能となる。そのため、被写体Ａが撮像者と会話をするには現実的に不自然な位置にいる場合にまで、会話を行っていると誤って判定することを防止することが可能となる。

なお、上述の例では被写体Ａの画像データ６０に占める割合と、撮像部制御データ（ズーム倍率）と、に基づいて判定を行うこととしたが、いずれか一方のデータに基づいて判定することとしても構わない。また、撮像部制御データを撮像部２のズーム倍率としたが、オートフォーカスによって合焦させた際の合焦距離としても構わないし、ズーム倍率と合焦距離の両方としても構わない。また、第１実施例や第２実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。

（関係判定部の第４実施例）
次に、関係判定部２２の第４実施例について図面を参照して説明する。図１０は、本発明の実施形態における関係判定部の第４実施例について示すブロック図であり、第１〜第３実施例について示した図４、図６及び図８に相当するものである。なお、図４、図６及び図８と同様の部分については同じ符号を付し、その詳細な説明については省略する。

図１０に示すように、本例の関係判定部２２ｄは、画像データ内の被写体の人数を検出する被写体人数検出部３５と、被写体人数検出部３５の検出結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部３３ｄと、を備える。

被写体人数検出部３５は、例えば、図４に示した顔検出部３０を備え、顔検出の結果を利用して被写体の人数の検出を行う。即ち、被写体人数検出部３５は、入力される画像データに対して上述した顔検出を行い、検出された被写体の人数を出力する。

会話判定部３３ｄは、検出された被写体の人数に基づいて会話の有無の判定を行う。この会話判定部３３ｄの判定方法について図１１を用いて説明する。図１１は、本例の関係判定部における会話判定部の判定方法について説明する画像データの模式図である。

図１１（ａ）に示すように、画像データ７０内に被写体Ａが少人数（例えば、一人または二人）しか検出されない場合は、被写体Ａと撮像者とが会話を行っている可能性が高いと判定する。一方、図１１（ｂ）に示すように、画像データ７０内に被写体Ａが多人数（例えば、三人以上）検出される場合は、多人数のうちのいずれかの人と会話する状況が想定されにくいため、被写体Ａと撮像者とが会話を行っていない可能性が高いと判定する。

このように、画像データ７０中の被写体Ａの数に基づいて、被写体Ａと撮像者との会話の有無を判定することとすると、多人数の被写体Ａが揃って撮像装置に注目している場合などに、誤って会話が行われていると判定することを抑制することが可能となる。

なお、上述したような顔検出を用いた方法に限らず、画像データ７０内の被写体Ａの数を検出できる方法であれば、他の方法を用いても構わない。

また、第１〜第３実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。例えば、第３実施例に示した判定方法と組み合わせても構わなく、第３実施例の判定方法を優先させても構わない。このように構成すると、例えば、ズーム倍率を大きくしたために画像データ７０内の被写体Ａの数が少人数になった場合に、誤って被写体Ａと撮像者とが会話をしていると判定されることを抑制することが可能となる。

（関係判定部の第５実施例）
次に、関係判定部２２の第５実施例について図面を参照して説明する。図１２は、本発明の実施形態における関係判定部の第５実施例について示すブロック図であり、第１〜第４実施例について示した図４、図６、図８及び図１０に相当するものである。なお、図４、図６、図８及び図１０と同様の部分については同じ符号を付し、その詳細な説明については省略する。

図１２に示すように、本例の関係判定部２２ｅは、入力される音声データと会話音声標本データとを比較する音声データ比較部３６と、音声データ比較部３６の比較結果に基づいて被写体と撮像者との間の会話の有無の判定を行い判定結果を出力する会話判定部３３ｅと、を備える。

本例における音声データ比較部３６は、入力される音声データと、会話音声標本データと、を比較して比較結果を出力する。この音声データの比較方法について、図１３を用いて説明する。図１３は、音声データの比較方法の一例について説明する音声データの周波数特性を示すグラフである。

図１３（ａ）は、会話音声の周波数特性を示しており、図１３（ｂ）は、図１３（ａ）の周波数特性の包絡線を示している。図１３（ａ），（ｂ）に示すように、会話音声には基本波成分と高調波成分（基本波の倍音成分）とが含まれ、特徴ある周波数特性を有する。音声データ比較部３６は、入力される音声データとこれらの周波数特性（会話音声標本データ）とに対してパターンマッチングを行うことなどによって比較して、その比較結果を出力する。

そして、会話判定部２２ｅが、音声データ比較部３６から出力される比較結果に基づいて、被写体と撮像者との会話の有無を判定する。特に、入力される音声データと会話音声標本データとが所定の程度以上類似する旨の比較結果が出力される場合に、被写体と撮像者とが会話をしている可能性が高いと判定する。一方、入力される音声データと会話音声標本データとが所定の程度以上類似していない旨の比較結果が出力される場合は、被写体と撮像者とが会話をしていない可能性が高いと判定する。

このように構成すると、人の声と、ノイズや物音などの人の声以外の音と、を識別することが可能となる。そのため、実際に人の声が集音された場合に、被写体と撮像者とが会話をしていると判定することが可能となる。

なお、本例では、撮像者側の音声が被写体側の音声と分離されて音声データ比較部３６に入力される構成とすると好ましい。そして、音声データ比較部３６において、少なくとも撮像者側の音声について比較が行われる。

この場合、会話判定部３３ｅは、撮像者側の音声データと会話音声標本データとが所定の程度より類似している旨の比較結果が出力されるときに、撮像者が音声を発しているため被写体と撮像者とが会話をしている可能性が高いと判定する。一方、撮像者側の音声データと会話標本データとが所定の程度より類似していない旨の比較結果が出力されるときに、撮像者が音声を出していないため被写体と撮像者とが会話をしていない可能性が高いと判定する。

このように構成すると、例えば被写体のみが音声を発している場合に、誤って会話が行われていると判定されることを抑制することが可能となる。また逆に、撮像者が被写体に声をかけている場合に、会話をしているものと判定して撮像者の音声を記録することが可能となる。

被写体側の音声と撮像者側の音声とを分離する方法の一つとして、複数の指向性マイク（所定の方向から到来する音声のみを集音するマイク）を備えるとともに、音声の到来方向に対応したそれぞれの成分を備える音声データを作成する方法がある。また、無指向性マイク（全方向から到来する音声のいずれも略均一となる信号レベルで集音するマイク）を用いる場合では、音源分離やビームフォーミングなどの方法を用いても構わない。これらの方法は、ある方向から到来する音声が配置場所の異なる複数のマイクのそれぞれで集音される際の位相差（または時間差）に基づいた処理をすることで、それぞれの方向から到来する音声を異なる成分として備える音声データを作成する方法である。また、後述する音声制御部の各実施例において、これらの方法を利用して撮像者側と被写体側との音声を分離するとともにそれぞれの音声の信号レベルを制御する例を示す。

一方、被写体側及び撮像者側の音声データが、それぞれ会話音声標本データと所定の程度以上類似する場合に、被写体と撮像者とが会話をしている可能性が高いと判定しても構わない。このように構成すると、被写体と撮像者との双方が音声を発する場合に限り、会話をしている可能性が高いと判定することが可能となる。

また、会話音声標本データが、図１のメモリ１６に格納されることとしても構わないし、いくつかのパターンが格納されることとしても構わない。また、会話音声標本データとして、実際の人の会話音声を集音して得られた周波数特性を用いたり、その周波数特性を平均化したものを用いたりしても構わない。さらに、包絡線など周波数特性の特徴を抽出（または、周波数特性を簡略化）したものを用いても構わない。また、周波数特性に限らず、会話音声の特徴を示すデータであれば他のデータを会話音声標本データとして用いても構わない。また、第１〜第４実施例と組み合わせても構わないし、いずれかの判定方法による判定結果を優先させても構わない。

また、会話音声標本データと音声データとに対してパターンマッチングを行うことによって比較し、類似するか否かを判定する方法を一例として挙げたが、他の方法で類否を判定しても構わない。また、上記の方法以外の方法を用いて、入力される音声データから会話の有無を判定することとしても構わない。

なお、上述した第１〜第５実施例における関係判定部２２ａ〜２２ｅの判定動作に、ヒステリシス特性を持たせることとしても構わない。即ち、判定結果が状況に応じて敏感に反応し、急激に変動することが抑制される構成としても構わない。このように構成することによって、判定結果の急激な変動に伴って後段の音声制御部２３の制御方法が急激に変動し、不自然な音声データが出力されることを抑制することが可能となる。例えば上述の実施例において、被写体が話し手になる場合と聞き手になる場合とが交互に変動したとしても、会話を行っている旨の判定結果を継続して出力することが可能となる。また、上記の場合と反対に、音声制御部２３の制御動作の方にヒステリシス特性を持たせても構わない。

（音声制御部の第１実施例）
次に、音声制御部２３の第１実施例について図面を参照して説明する。図１４は、本発明の実施形態における音声制御部の第１実施例について示すブロック図である。また、本例では、図１に示した集音部７が、指向性マイクを複数備えたマイクアレイであるものとする。そして、少なくとも撮像者側の指向性が強い撮像者側マイク（不図示）と、被写体側の指向性が強い被写体側マイク（不図示）と、を備える構成とする。

図１４に示すように、本例における音声制御部２３ａは、撮像者側マイクで集音されて作成された音声データ中の音声の指向性を制御する指向性制御部８０ａと、被写体側マイクで集音されて作成された音声データ中の音声の指向性を制御する指向性制御部８０ｂと、を備える。

具体的に、指向性制御部８０ａ，８０ｂは、関係判定部２２が出力する判定結果に基づいて入力される音声データ中の音声の強度制御を行う。特に、関係判定部２２が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、指向性制御部８０ａは入力される音声データ中の音声の信号レベルを十分小さくして出力する。一方、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、指向性制御部８０ａは入力される音声データ中の音声の信号レベルを十分小さくすることなく出力する。

これにより、簡易な方法によって被写体側及び撮像者側の音声の信号レベル（即ち、それぞれの側の指向性）を制御することが可能となる。また、このような制御を上述の関係判定部２２によって自動的に行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。

なお、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合において、撮像者側の音声データと被写体側の音声データとが、指向性制御部８０ａ，８０ｂによって同程度の信号レベルとなるように調整されて出力されることとしても構わない。このように構成することによって、撮像者及び被写体の一方の音声の信号レベルが大きいために会話の音声が不自然となることを抑制することが可能となる。

また、上述した顔検出などの方法に基づいて被写体の存在する方向を求め、この求められた方向に基づいて、複数の指向性マイクの中から被写体側マイクを決定しても構わない。また、被写体側マイク及び撮像者側マイクのみに限らず、他の指向性マイクで作成された音声データ中の音声の強度制御を行い、被写体及び撮像者の音声の信号レベルをさらに大きくしたり、小さくしたりしても構わない。

また、音声制御部２３ａから出力される被写体側の音声データと撮像者側の音声データとを、それぞれ異なる（例えば左右で異なる）チャンネルの音声データとして記録したり、異なるチャンネルの音声データにそれぞれ合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。例えば、左右の二つのチャンネルの音声データとして記録する場合であり、被写体が画像データの左側にいることが検出されるときに、左側のチャンネルに被写体側の音声データを記録し、右側のチャンネルに撮像者側の音声データを記録しても構わない。

これにより、記録された音声データを再生する場合に、被写体の音声と撮像者の音声とが別々のチャンネルとして再生されるようにすることが可能となる。そのため、会話の臨場感を高めることが可能となる。特に、関係判定部２２が撮像者と被写体とが会話をしている旨の判定結果を出力する場合に、このような制御を行うこととしても構わない。

また、本例では複数の指向性マイクを備えた構成について説明したが、本実施例はこの構成に限られない。例えば、音声制御部２３ａの前段（例えば関係判定部２２、特に第５実施例の関係判定部２２ｅ）で被写体と撮像者との音声の分離が行われている場合に、分離された音声に対してそれぞれ制御を行うものとしても構わない。

（音声制御部の第２実施例）
次に、音声制御部２３の第２実施例について図面を参照して説明する。図１５は、本発明の実施形態における音声制御部２３の第２実施例について示すブロック図であり、第１実施例について示した図１４に相当するものである。なお、図１４と同様の部分については同じ符号を付し、その詳細な説明については省略する。

また、本例では、図１に示した集音部７が複数の無指向性マイクを備えたマイクアレイであるものとする。このマイクアレイの構成の一例を、図１６のマイクアレイの模式図に示す。また、以下では図１６に示すようなマイク７ａ，７ｂを備えたマイクアレイを用いる場合を例に挙げて説明する。

図１５に示すように、本例の音声制御部２３ｂは、マイク７ａで集音されて作成される音声データに所定の時間遅延を与えて出力する遅延部８１ａと、マイク７ｂで集音されて作成される音声データに所定の時間遅延を与えて出力する遅延部８１ｂと、マイク７ａで作成される音声データと遅延部８１ｂから出力される音声データとを合成する合成部８２ａと、マイク７ｂで作成される音声データと遅延部８１ａから出力される音声データとを合成する合成部８２ｂと、合成部８２ａから出力される音声データ中の音声の指向性を制御する指向性制御部８０ａと、合成部８２ｂから出力される音声データ中の音声の指向性を制御する指向性制御部８０ｂと、を備える。

例として、マイク７ａが被写体側、マイク７ｂが撮像者側に備えられる場合について説明する。被写体の音声は、マイク７ａとマイク７ｂとに入力される際に、図１６に示す行路差ｄに相当する時間の遅延が生じる。この場合、マイク７ｂで集音される音声が、マイク７ａで集音される音声よりも所定の時間分遅延する。

そのため、遅延部８１ａにおいてマイク７ａから入力される音声データに所定の時間分の遅延を与え、合成部８２ｂにおいてマイク７ｂから入力される音声データと合成（例えば加算合成）する。このように構成することで、被写体側の音声が同期して合成されるため、被写体側の音声を強調した（被写体側以外の音声の信号レベルに対する被写体側の音声の信号レベルの大きさを、合成により大きくさせた）音声データを得ることができる。一方、撮像者側の音声についても同様である。即ち、遅延部８１ｂにおいてマイク７ｂから入力される音声データに所定の遅延を与え、合成部８２ａにおいてマイク７ａから入力される音声データに合成させることで、撮像者側の音声が強調された音声データが得られる。

そして、指向性制御部８０ａ，８０ｂが、関係判定部２２が出力する判定結果に基づいて音声データ中の音声の指向性制御を行う。具体的には、関係判定部２２が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、指向性制御部８０ａは撮像者の音声が強調された音声データ中の音声の信号レベルを十分小さくして出力する。一方、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、指向性制御部８０ａは撮像者の音声が強調された音声データ中の音声の信号レベルを十分小さくすることなく出力する。

これにより、少なくとも２個のマイクを備えるだけで、被写体側及び撮像者側の音声の信号レベル（即ち、それぞれの側の指向性）を制御することが可能となる。また、このような制御を上述の関係判定部２２によって自動的行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。

また、被写体の音声に対して与える遅延を、例えば上述した顔検出の結果などに基づいて決定しても構わない。これにより、被写体とマイク７ａ，７ｂとの位置関係（特に、マイク７ａ，７ｂに対して被写体が存在する方向）が推定されるため、適切な遅延量を設定することが可能となる。撮像者の音声に対しては、撮像装置を通常の方法で扱う場合の撮像者の位置に基づいて、遅延量を設定しても構わない。また、マイク７ａ，７ｂから入力される音声データの相関を利用して遅延量を設定しても構わない。

また、音声制御部２３ｂから出力される被写体側の音声が強調された音声データと、撮像者側の音声が強調された音声データと、をそれぞれ異なるチャンネルの音声データとして記録したり、異なるチャンネルの音声データにそれぞれ合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。

また、上述した例では、合成部８２ａ，８２ｂが複数の信号を加算して合成をするものとして説明したが、反対に、減算して合成をするものとしても構わない。減算して合成する場合、所定の方向の音声を抑制した（所定の方向以外の音声の信号レベルに対する所定の方向の音声の信号レベルの大きさを、合成により小さくさせた）音声データを得ることが可能となる。例えば、上述のように撮像者側の音声は、合成部８２ａに同期して入力される。ここで、合成時に減算することとすると、同期している撮像者側の音声が大きく抑制される。したがって、撮像者側の音声を選択的に抑制することが可能となる。なお、合成部８２ａ，８２ｂが、関係判定部２２の判定結果に基づいて、加算、減算を切り替え可能な構成としても構わない。このように構成すると、合成によって被写体側及び撮像者側の音声の強度（それぞれの側の指向性）を制御することが可能となる。

（音声制御部の第３実施例）
次に、音声制御部２３の第３実施例について図面を参照して説明する。図１７は、本発明の実施形態における音声制御部２３の第３実施例について示すブロック図であり、第１及び第２実施例について示した図１４及び図１５に相当するものである。なお、図１４及び図１５と同様の部分については同じ符号を付し、その詳細な説明については省略する。また、本例においても図１６に示したマイク７ａ，７ｂを用いることとする。

図１７に示すように、本例の音声制御部２３ｃは、マイク７ａから入力される音声データを高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；ＦＦＴ）するＦＦＴ部８３ａと、マイク７ｂから入力される音声データをＦＦＴするＦＦＴ部８３ｂと、ＦＦＴ部８３ａ，８３ｂでＦＦＴされた音声データの位相差を検出する位相差算出部８４と、位相差算出部８４で検出された位相差データと関係判定部２２の判定結果に基づいて帯域別に指向性の制御量を決定する帯域別制御量決定部８５と、帯域別制御量決定部８５で決定された制御量に基づいてＦＦＴ部８３ａでＦＦＴされた音声データ中の音声の強度制御を行う帯域別強度制御部８６ａと、帯域別制御量決定部８５で決定された制御量に基づいてＦＦＴ部８３ｂでＦＦＴされた音声データ中の音声の強度制御を行う帯域別強度制御部８６ｂと、帯域別強度制御部８６ａで強度制御された音声データを逆高速フーリエ変換（ＩｎｖｅｒｓｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；ＩＦＦＴ）するＩＦＦＴ部８７ａと、帯域別強度制御部８６ｂで強度制御された音声データをＩＦＦＴするＩＦＦＴ部８７ｂと、を備える。

ＦＦＴ部８３ａ，８３ｂは、マイク７ａ，７ｂから入力される音声データをＦＦＴして周波数軸の信号として出力する。そして、位相差算出部８４がＦＦＴ部８３ａ，８３ｂから入力される周波数軸の音声データの各周波数成分における位相差を算出する。このとき、入力される音声データの各周波数成分の位相差と周波数とから、その周波数成分の到来方向を算出する。そして、帯域別制御量決定部８５が、位相差算出部８４で算出した音声データの各周波数成分の到来方向と、関係判定部２２が出力する判定結果とに基づいて、その周波数成分の強度（信号レベル）を大きくすべきか否かを決定する。

そして、帯域別制御量決定部８５において信号レベルを大きくすべきと判定された周波数成分については、帯域別強度制御部８６ａ，８６ｂにおいてそのスペクトラル係数を増大させる。一方、信号レベルを大きくすべきでないと判定される周波数成分については、そのスペクトラル係数を低減させる。その後、変化させたスペクトラル係数をＩＦＦＴ部８７ａ，８７ｂでＩＦＦＴし、時間軸の信号に戻して出力する。

この方法では、二個のマイク７ａ，７ｂの設置間隔が半波長となる周波数を指向性制御の上限周波数とすることにより、位相差から正確な音声の到来方向、即ち音源方向を算出することが可能であるため、指向角の微細な調整を行うことができる。

また本例では、関係判定部２２が、撮像者と被写体とが会話をしていない旨の判定結果を出力する場合、撮像者側の音声が十分小さくなるように帯域別強度制御部８６ａ，８６ｂが音声データ中の音声の信号レベルの制御を行う。一方、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合、撮像者側の音声が十分小さくなることがないように帯域別強度制御部８６ａ，８６ｂが音声データ中の音声の信号レベルの制御を行う。

これにより、被写体側及び撮像者側のそれぞれから到来する音声に対して、それぞれ正確な指向性の制御を行うことが可能となる。また、このような制御を上述の関係判定部２２によって自動的に行うことによって、撮像者が自ら切替を行う煩雑さを解消し、切替時の誤操作やもたつきなどによって記録する音声データや画像データが不自然となることを抑制することが可能となる。

なお、図１７に示す音声制御部２３ｃを、被写体の音声を抽出及び強度制御するためのものと、撮像者の音声を抽出及び強度制御するためのものと、の二つ備えることとしても構わない。このような構成とすると、被写体側の音声と、撮像者側の音声と、を分離することが可能となる。そして、分離して得られる被写体側の音声データと、撮像者側の音声データとに対して、それぞれ処理を施しても構わない。特に、分離後の音声データのそれぞれに対して、第１実施例に示したような指向性制御部８０ａ，８０ｂを用いた強度制御を行うこととしても構わない。

また、この場合、被写体側の音声データと撮像者側の音声データとを、それぞれ異なるチャンネルの音声データとして記録したり、異なるチャンネルの音声に合成させて記録したりしても構わない。また、被写体の画像データ内における位置に基づいて、どのチャンネルに記録するかを決定しても構わない。

これにより、記録された音声データを再生する場合に、被写体の音声と撮像者の音声とが別々のチャンネルとして再生されるようにすることが可能となる。そのため、会話の臨場感を高めることが可能となる。特に、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合に、このような制御を行うこととしても構わない。

また、関係判定部２２が、撮像者と被写体とが会話をしている旨の判定結果を出力する場合において、撮像者側の音声と被写体側の音声とが同程度の信号レベルとなるように、帯域別強度制御部８６ａ，８６ｂが信号レベルを調整して出力することとしても構わない。このように構成することによって、撮像者及び被写体の一方の音声の信号レベルが大きいために会話の音声が不自然となることを抑制することが可能となる。また、撮像者と被写体との音声を分離したあとに、それぞれの音声データが同程度の信号レベルとなるように強度制御を行うこととしても構わない。

また、帯域別制御量決定部８５が、被写体が存在する方向を確認する際に、例えば上述した顔検出の結果などに基づいて決定しても構わない。これにより、被写体とマイク７ａ，７ｂとの位置関係（特に、マイク７ａ，７ｂに対して被写体が存在する方向）が推定されるため、被写体が存在する方向から到来した音声を正確に強調することが可能となる。また、撮像者が存在する方向については、撮像装置を通常的に扱う場合の位置に基づいて推定しても構わない。

なお、上述した第１〜第３実施例における音声制御部２３ａ〜２３ｃを組み合わせても構わない。例えば、第２実施例の音声制御部２３ｂで得られる音声データに、第１実施例や第３実施例で得られる音声データを合成することとしても構わない。このように組み合わせることで、会話の音声だけでなく周囲の音声も多少入力される音声データが得られる。したがって、自然な音声データを記録することが可能となる。また、上述した第１〜第３実施例では、全てマイク二つを備えたものについて説明したが、マイクを三つ以上備える構成としても構わない。

＜＜音声再生装置＞＞
上述の実施形態は、集音して記録を行う場合に撮像者と被写体との関係を判定し、音声データを制御する音声記録装置に関するものである。しかしながら、本発明はこれに限らず、再生時に撮像者と被写体との関係を判定して音声データを制御する音声再生装置にも適用可能である。以下において、音声再生装置の一例として上述した撮像装置を例に挙げ、説明する。なお、本例においても、被写体と撮像者との会話の有無を判定する場合について説明する。

図１８に、再生時に撮像者と被写体との関係を判定し、音声データを制御することが可能な撮像装置１ａを示す。図１８は、本発明の別の実施形態における撮像装置の基本構成について示すブロック図であり、図１に相当するものである。なお、図１と同様の部分については同じ符号を付し、その詳細な説明については省略する。

図１８に示す撮像装置１ａは、音声処理部８の代わりに音声処理部８ａを備える点と、伸長処理部１２から入力される音声データを処理して音声出力回路部１４に出力する再生音声制御部２４をさらに備える点と、を除き図１の撮像装置１と同様の構成となる。

また、音声処理部８ａは、記録音声制御部２１を備えない構成である点を除き、図１に示す音声処理部８と同様の構成となる。また、再生音声制御部２４は、図２に示す記録音声制御部２１と同様の構成となる。ただし、再生音声制御部２４は、画像データ及び音声データが伸長処理部１２から入力される。また、本例では記録時に音声データの制御を行わず、再生時に音声データの制御を行う。なお、再生音声制御部２４に備えられる関係判定部２２の判定方法や、音声制御部２３の制御方法は上述したそれぞれの実施例と同様であるため、詳細な説明については省略する。

ただし、第３実施例の関係判定部２２ｃのように、関係判定部２２が撮像部制御データを用いて判定結果を出力する場合、必要となる撮像部制御データが、音声データや画像データの記録時に別途記録される構成としても構わない。また、音声データや画像データなどのいずれかのデータに付加されて記録される構成としても構わない。

以上のように構成することで、再生時においても被写体と撮像者との関係を判定し、音声データを制御することが可能となる。したがって、記録時に判定や制御を行っていない音声データに対しても、判定及び制御を行うことが可能となる。

また、再生時における制御例について、図１９を用いて説明する。図１９は、再生音声制御部の制御例について示した模式図である。図１９（ａ）に示す場面と図１９（ｂ）に示す場面とは時間的に連続しているものとする。また、図１９は、撮像者Ｂが音声Ｄ１で被写体Ａに呼びかけ（図１９（ａ））、それに対して被写体Ａが音声Ｄ２で応答する（図１９（ｂ））場面について示している。

ここで、関係判定部２２が、例えば上述の第１実施例の関係判定部２２ａなどの、画像データに基づく判定方法を採用している場合、被写体Ａと撮像者Ｂとの会話の開始を図１９（ｂ）の場面であるとして判定してしまう場合が生じる。そこで、本例では図１９（ａ）の音声Ｄ１も会話の一部として判定させるため、以下のような制御を行う。

まず、本例では実際に再生する際に画像データの解析を先行して行う。そして、例えば上述の関係判定部２２ａなどが用いられて判定が行われたため、図１９（ｂ）の時点で会話が行われているという旨の判定結果が出力されるものとする。しかしながら本例の場面では、画像データに基づいて判定された場面（図１９（ｂ））から所定の時間遡った場面から、指向性の制御を行うことが好ましい。

そのため、図１９（ａ）に示す場面についても会話中とみなし、音声制御部２３による指向性の制御を行う。このように制御を行うことで、会話の開始時における撮像者の音声Ｄ１の信号レベルが小さくされて再生されることを防止することが可能となり、会話の音声を明瞭にして再生することが可能となる。

さらに、遡った場面から音声データに基づいた判定を行い、音声Ｄ１の発生時を厳密に特定することも可能である。音声データに基づいた判定として、上述の第５実施例の関係判定部２２ｅの判定方法を用いることとしても構わない。このように構成すると、音声Ｄ１以前の会話ではない部分についてまで、指向性が制御されることを抑制することが可能となる。

以上のように指向性の制御を行い、画像データ及び音声データを再生することとすると、特に、会話の開始段階の撮像者の音声の信号レベルが小さくされることを抑制することが可能となる。また、正確な開始時期を検出することができるため、会話の音声をより明瞭にして再生することが可能となる。

なお、この再生時の制御例を、記録時に適用しても構わない。例えば、図２の記録音声制御部２１が、入力された音声データを一時的に保持可能な構成にするとともに、判定結果に応じて保持している音声データに対して制御を行う構成として構わない。

また、記録音声制御部２１を備える音声処理部８と、再生音声制御部２４とを備える構成として、記録時と再生時の任意の時期に、被写体と撮像者との関係の判定及び音声データの制御を行うことができる構成としても構わない。

また、再生機能のみを備える再生装置（例えば、光ディスクなどに記録された画像データ及び音声データを再生する再生装置など）に、本例を適用することとしても構わない。このような構成としても、上述の撮像装置１ａと同様の判定および制御を行うことが可能である。

さらに、再生時や記録時だけでなく、編集時に適用しても構わない。例えば、図１８の再生音声制御部２４が、音声データの制御を行った後に画像データとともに圧縮処理部９に入力し、圧縮符号化したデータを外部メモリ１０に記録することとしても構わない。また、外部メモリ１０に記録する際に、元のデータに上書きしても構わないし、別のデータとして記録しても構わない。また、このような編集機能を備えた編集装置に適用しても構わない。

＜＜変形例＞＞
上述した例では、関係判定部２２が被写体と撮像者との会話の有無について判定することとしたが、会話以外の関係について判定することとしても構わない。例えば、移動する被写体に撮像者が追随する関係について、移動に伴う画像全体のブレや風切り音、フォーカスの変動などから判定しても構わない。この場合、撮像者や被写体の移動に伴って発生する音の信号レベルを小さくする制御を行うこととしても構わない。また、被写体が風景であり撮像者がそれを静観している関係について、画像の静止時間や被写体及び撮像者の音声の小ささ、フォーカスの変動などから判定しても構わない。この場合、指向角や記録する音声の帯域などを広くして、音声データの臨場感を高める制御を行っても構わない。以上のように本実施形態の撮像装置は、被写体と撮像者との関係を画像データや音声データ、撮像部制御データなどから判定し、その判定結果に応じて音声データを制御するものである限り、どのようなものであっても構わない。

また、本発明の実施形態における撮像装置１，１ａについて、記録音声制御部２１及び再生音声制御部２４のそれぞれの動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、該プログラムをプログラム実行装置（例えばコンピュータ）上で実行することによって、その機能の全部または一部を実現するようにしても構わない。

また、上述した場合に限らず、図１及び図１８の撮像装置１，１ａや図２の記録音声制御部２１及び再生音声制御部２４は、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。また、ソフトウェアを用いて撮像装置１，１ａや記録音声制御部２１及び再生音声制御部２４を構成する場合、ソフトウェアによって実現される部位についてのブロック図は、その部位の機能ブロック図を表すこととする。

以上、本発明における実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実行することができる。

本発明は、画像データと対になる音声データを記録する音声記録装置や、音声データを再生する音声再生装置に関する。特に、動画を記録及び再生可能な撮像装置に適用することとすると好適である。

は、本発明の実施形態における撮像装置の基本構成について示すブロック図である。は、本発明の実施形態における撮像装置に備えられる記録音声制御部の構成について示すブロック図である。は、記録音声制御部の制御例について示した模式図である。は、本発明の実施形態における関係判定部の第１実施例について示すブロック図である。は、縮小画像生成部によって得られる階層画像の一例を示す模式図である。は、本発明の実施形態における関係判定部の第２実施例について示すブロック図である。は、動き検出方法の一例について説明する画像データの模式図である。は、本発明の実施形態における関係判定部の第３実施例について示すブロック図である。は、関係判定部の第３実施例における会話判定部の判定方法について説明する画像データの模式図である。は、本発明の実施形態における関係判定部の第４実施例について示すブロック図である。は、関係判定部の第４実施例における会話判定部の判定方法について説明する画像データの模式図である。は、本発明の実施形態における関係判定部の第５実施例について示すブロック図である。は、音声データの比較方法の一例について説明する音声データの周波数特性を示すグラフである。は、本発明の実施形態における音声制御部の第１実施例について示すブロック図である。は、本発明の実施形態における音声制御部の第２実施例について示すブロック図である。は、ステレオマイクの模式図である。は、本発明の実施形態における音声制御部の第３実施例について示すブロック図である。は、本発明の別の実施形態における撮像装置の基本構成について示すブロック図である。は、再生音声制御部の制御例について示した模式図である。

符号の説明

１撮像装置
２撮像部
３イメージセンサ
４レンズ部
５ＡＦＥ
６画像処理部
７マイク
８，８ａ音声処理部
９圧縮処理部
１０外部メモリ
１１ドライバ部
１２伸長処理部
１３画像出力回路部
１４音声出力回路部
１５ＣＰＵ
１６メモリ
１７操作部
１８ＴＧ部
１９バス
２０バス
２１記録音声制御部
２２関係判定部
２３音声制御部
２４再生音声制御部
３０顔検出部
３１縮小画像生成部
３２顔判定部
３３ａ〜３３ｅ会話判定部
３４動き検出部
３５被写体人数検出部
３６音声データ比較部
４０各階層画像データ
４１，５０，６０，７０画像データ
４２〜４６縮小画像データ
４７判定領域
５０画像データ
５１顔領域
５２胴体領域
８０ａ，８０ｂ指向性制御部
８１ａ，８１ｂ遅延部
８２ａ，８２ｂ合成部
８３ａ，８３ｂＦＦＴ部
８４位相差算出部
８５帯域別制御量決定部
８６ａ，８６ｂ帯域別強度制御部
８７ａ，８７ｂＩＦＦＴ部
Ａ被写体
Ｂ撮像者
Ｃ１，Ｃ２音声データ特性
Ｄ１，Ｄ２音声

Claims

集音して作成した音声データを記録する音声記録装置において、
入力される光学像から画像データを作成する撮像部と、
当該撮像部で作成される画像データと対になる音声データを、音声を集音して作成する集音部と、
前記画像データに表される被写体と、自機を使用する撮像者との関係を判定して判定結果を出力する関係判定部と、
当該関係判定部が出力する判定結果に基づいて、前記集音部で作成される音声データの制御を行う音声制御部と、
を備え、
前記関係判定部が、前記被写体の顔を示す画像が前記画像データ中に占める割合、及び前記撮像部の動作内容を示す情報を含む撮像部制御データに基づいて、前記被写体と前記撮像者との関係を判定するものであることを特徴とする音声記録装置。
前記関係判定部が、前記被写体と前記撮像者との会話の有無を判定し、判定結果を出力することを特徴とする請求項１に記載の音声記録装置。
前記被写体と前記撮像者との会話が無いことを示す判定結果が前記関係判定部から出力される場合に、
前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合と比べて、前記撮像者側の指向性が弱くなるように、
前記音声制御部が音声データを制御することを特徴とする請求項２に記載の音声記録装置。
前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合に、
前記被写体側の指向性及び前記撮像者側の指向性が、他の側の指向性より強くなるように、
前記音声制御部が音声データを制御することを特徴とする請求項２または請求項３に記載の音声記録装置。
前記被写体と前記撮像者との会話が有ることを示す判定結果が前記関係判定部から出力される場合に、
音声データ中の前記撮像者側の音声と、音声データ中の前記被写体側の音声と、が等しい強度になるように、
前記音声制御部が音声データを制御することを特徴とする請求項２〜請求項４のいずれかに記載の音声記録装置。
集音して作成された音声データを再生する音声再生装置において、
音声データと対になる画像データに表される被写体と、当該被写体を撮像して画像データを作成した撮像者と、の撮像時の関係を判定して判定結果を出力する関係判定部と、
当該関係判定部が出力する判定結果に基づいて、再生する音声データの制御を、音声信号処理により行う音声制御部と、
を備え、
前記関係判定部が、前記被写体の顔を示す画像が前記画像データ中に占める割合、及び前記画像データを作成するための撮像部の動作内容を示す情報を含む撮像部制御データに基づいて、前記被写体と前記撮像者との関係を判定するものであることを特徴とする音声再生装置。
前記関係判定部が、前記被写体と前記撮像者との会話の有無を判定し、判定結果を出力することを特徴とする請求項６に記載の音声再生装置。