JP2007013255A

JP2007013255A - 信号処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2007013255A
Application number: JP2005187700A
Authority: JP
Inventors: Kazuhiko Ozawa; 一彦小沢
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-06-28
Filing date: 2005-06-28
Publication date: 2007-01-18
Anticipated expiration: 2025-06-28
Also published as: KR20070001007A; CN100546367C; US20060291816A1; US8547416B2; CN1893610A; JP4441879B2

Abstract

【課題】撮影された画像内において特定の被写体から発せられる音声を強調することができるようにする。
【解決手段】画像認識部１３１が、画像を構成する画素のヒストグラムを生成し、人物が写っている場合の画素のヒストグラムのパターンとマッチングして相関係数を出力する。判定部１３２が相関係数に基づいて、画像の中に人物が写っているか否かを判定し、人物が写っていると判定された場合、指向性操作部１３３が前方向を重視したポーラパターンを設定し、音声帯域操作部１３４が人の声の周波数帯域を強調させるように音声の信号を処理する。本発明は、ビデオカメラに適用することができる。
【選択図】図２

Description

本発明は、信号処理装置および方法、プログラム、並びに記録媒体に関し、特に、撮影された画像内において特定の被写体から発せられる音声を強調することができるようにする信号処理装置および方法、プログラム、並びに記録媒体に関する。

近年、ビデオカメラなどの機器において、オートフォーカス機能などとともに、音声信号の抽出に関する技術も向上している。例えば、撮影方向の中央部分に位置する音源から発せられる音声信号を抽出し、強調する技術が提案されている（例えば、特許文献１参照。）。これは映像信号とともに音声信号を記録及び再生するビデオカメラなどの機器においては、撮影目的となる被写体がほとんどの場合に、画面中央部分に位置することを踏まえて、その被写体の発する音声をクリアに記録及び再生することを目的としたものであった。

また、音場空間の全周囲方向から入力する音声を、映像と共にマルチチャンネルで記録または再生することで臨場感のある映像と音声の試聴が可能なビデオカメラも提案されている（例えば、特許文献２参照。）。

特開２００１−８２８５号公報特開２０００−２９９８４２号公報

しかしながら、特許文献１によれば、常に画面中央方向から入射した音声が抽出されて強調されるために、人物に限らず、画面中央方向に音源がある場合には、環境音であっても抽出されてしまい、目的とする音声が強調されない場合があった。

また、特許文献２によれば、臨場感を重視すれば、映像に見えないところの周囲からの音声が収音され、被写体の発する音声がクリアに収音されず、逆に被写体の音声を重視すれば、臨場感に乏しい収音となってしまう。

本発明はこのような状況に鑑みてなされたものであり、撮影された画像内において特定の被写体から発せられる音声を強調することができるようにするものである。

本発明の信号処理装置は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置であって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段と、生成手段により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かを判定する判定手段と、判定手段により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声の信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、音声の信号の指向特性を変更する指向特性変更手段とを備えることを特徴とする。

前記判定手段により、画像の中に特定の被写体が写っていると判定された場合、被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、音声の信号の周波数特性を変更する周波数特性変更手段をさらに備えるようにすることができる。

前記生成手段は、入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段と、抽出手段により抽出された領域の画素の輝度または色差に基づいて領域の画素の特徴量のパターンを検出する検出手段と、予め特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段と、検出手段により検出された特徴量のパターンと、記憶手段に記憶されている特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段とを備え、演算手段により演算された相関係数が画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成されるようにすることができる。

前記画像の中の所定の領域を切り出す切出し手段をさらに備え、抽出手段は、切出し手段により切り出された画像の中で、特定の色の画素により構成される領域を抽出するようにすることができる。

前記特定の被写体は、人物であり、判定手段により、画像の中に人物が写っていると判定された場合、指向特性変更部は、前方向に向けて収音した音声の信号のレベルを上げ、および、または前方向以外の方向に向けて収音した音声の信号のレベルを下げるように、音声の信号の指向特性を変更し、周波数特性変更部は、人の声が含まれる周波数帯域のレベルを上げ、および、またはそれ以外の周波数帯域のレベルを下げるように、音声の信号の周波数特性を変更するようにすることができる。

前記指向特性変更部による音声の信号の指向特性の変更の度合い、または周波数特性変更部による音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段をさらに備えるようにすることができる。

前記設定手段は、抽出手段により抽出された領域の大きさを表す情報を正規化し、制御レベルとして設定するようにすることができる。

前記設定手段は、演算手段により演算された相関関数を正規化し、制御レベルとして設定するようにすることができる。

前記画像の信号と、指向特性変更部または周波数特性変更部の処理を経た音声の信号が、記録装置により記録媒体に記録されるようにすることができる。

前記画像の信号と、音声の信号は、記録媒体に記録されたデータが再生装置により再生されることにより出力される画像の信号と、音声の信号であるようにすることができる。

本発明の信号処理方法は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置の信号処理方法であって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップと、生成ステップの処理により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かを判定する判定ステップと、判定ステップの処理により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性を変更する指向特性変更ステップとを含むことを特徴とする。

本発明のプログラムは、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置に信号処理を実行させるプログラムであって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップと、生成制御ステップの処理により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップと、判定制御ステップの処理により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性の変更を制御する指向特性変更制御ステップとをコンピュータに実行させることを特徴とする。

本発明の信号処理装置および方法、並びにプログラムにおいては、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報が生成され、生成された情報に基づいて、画像の中に特定の被写体が写っているか否かが判定され、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性が変更される。

本発明によれば、撮影された画像内において特定の被写体から発せられる音声を強調することができる。

以下に本発明の実施の形態を説明するが、本明細書に記載した発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、本明細書に記載されている発明をサポートする実施の形態が明細書に記載されていることを確認するためのものである。従って、明細書には記載されているが、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書に記載されている発明が、全て請求されていることを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出願、または追加される発明の存在を否定するものではない。

請求項１に記載の信号処理装置は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置（例えば、図２の被写体強調処理部１０７）であって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段（例えば、図２の画像認識部１３１）と、前記生成手段により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定手段（例えば、図２の判定部１３２）と、前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声の信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更する指向特性変更手段（例えば、図２の指向性操作部１３３）とを備えることを特徴とする。

請求項２に記載の信号処理装置は、前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または前記被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する周波数特性変更手段（例えば、図２の音声帯域操作部１３４）をさらに備えるようにすることができる。

請求項３に記載の信号処理装置は、前記生成手段が、入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段（例えば、図３の色領域抽出部１６２）と、前記抽出手段により抽出された領域の画素の輝度または色差に基づいて前記領域の画素の特徴量のパターン（例えば、ヒストグラム）を検出する検出手段（例えば、図３の特徴量抽出部１６３）と、予め前記特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段（例えば、図３のモデル記憶部１６４）と、前記検出手段により検出された前記特徴量のパターンと、前記記憶手段に記憶されている前記特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段（例えば、図３のパターンマッチング部１６５）とを備え、前記演算手段により演算された相関係数が前記画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成されるようにすることができる。

請求項４に記載の信号処理装置は、前記画像の中の所定の領域（例えば、画面中央の領域）を切り出す切出し手段（例えば、図３のウィンドウ切出し部１６１）をさらに備え、前記抽出手段は、前記切出し手段により切り出された画像の中で、特定の色の画素により構成される領域を抽出するようにすることができる。

請求項６に記載の信号処理装置は、前記指向特性変更部による前記音声の信号の指向特性の変更の度合い、または前記周波数特性変更部による前記音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段（例えば、レベル設定部１４２）をさらに備えるようにすることができる。

請求項９に記載の信号処理装置は、前記画像の信号と、前記指向特性変更部または前記周波数特性変更部の処理を経た音声の信号が、記録装置（例えば、図１の映像音声記録装置１００）により記録媒体に記録されるようにすることができる。

請求項１０に記載の信号処理装置は、前記画像の信号と、前記音声の信号は、記録媒体に記録されたデータが再生装置（例えば、図１８の映像音声記録再生装置４００）により再生されることにより出力される画像の信号と、音声の信号であるようにすることができる。

請求項１１に記載の信号処理方法は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置（例えば、図２の被写体強調処理部１０７）の信号処理方法であって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップ（例えば、図１１のステップS１０１）と、前記生成ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定ステップ（例えば、図１１のステップS１０２）と、前記判定ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性を変更する指向特性変更ステップ（例えば、図１１のステップS１０３）とを含む。

請求項１２に記載のプログラムは、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置（例えば、図２の被写体強調処理部１０７）に信号処理を実行させるプログラムであって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップ（例えば、図１１のステップS１０１）と、前記生成制御ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップ（例えば、図１１のステップS１０２）と、前記判定制御ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性の変更を制御する指向特性変更制御ステップ（例えば、図１１のステップS１０３）とをコンピュータに実行させる。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は、本発明を適用した映像音声記録装置１００の一実施形態に係る構成例を示す図である。

図１において、映像音声記録装置１００は、例えば、ビデオカメラとして構成され、レンズ１０１を介して集光される光に基づく画像（映像）と、マイクロホン１０４または１０５を介して集音される音声を記録する。

レンズ１０１を介して集光された光は、撮像素子１０２において例えば、光の強度に応じた電気信号に変換（光電変換）される。撮像素子１０２は、例えば、CCD（Charge Coupled Device）センサまたはCMOS（Complementary Metal-Oxide Semiconductor）センサなどの光電変換素子により構成される。

画像信号処理部１０３は、撮像素子１０２から出力される電気信号を、A/D変換して得られるデータに基づいて、RGB画像信号のデータを生成する。

一方、マイクロホン１０４またはマイクロホン１０５を介して集音された音声の信号は、音声信号処理部１０６においてA/D変換される。例えば、マイクロホン１０４は、映像音声記録装置（ビデオカメラ）１００の前方から発せられる音声を中心に集音するように設けられており、マイクロホン１０５は、ビデオカメラの左右方向から発せられる音声を中心に集音するように設けられている。音声信号処理部１０６は、例えば、マイクロホン１０４またはマイクロホン１０５から入力される音声信号に対応する音声データであって、それぞれビデオカメラの前方の音声または左右方向の音声であることを表すデータの付加された音声データを生成する。

画像信号処理部１０３または音声信号処理部１０６から出力されるデータは、被写体強調処理部１０７に入力される。被写体強調処理部１０７は、ビデオカメラにより撮影される画像の中に、例えば、ユーザが所望する被写体（例えば、人物など）の画像が含まれているか否かをチェックして、人物などの画像が含まれている場合、その人物から発せられたと推測される前方から発せられた音声を強調する処理を行う。なお、被写体強調処理部１０７の詳細な構成については後述する。

被写体強調処理部１０７から出力される画像信号のデータおよび音声信号のデータは、エンコード処理部１０８に入力され、エンコード処理部１０８は、入力された画像信号のデータおよび音声信号のデータを、例えば、MPEG（Moving Picture Experts Group）などの方式に基づいて圧縮符号化などの処理を行い符号化（エンコード）し、記録ストリームを生成する。

記録部１０９は、エンコード処理部１０８から出力される記録ストリームを、例えば、DVD（Digital Versatile Disk）、HDD（Hard Disk Drive）などの記録媒体に記録する。

図２は、被写体強調処理部１０７の詳細な構成例を示すブロック図である。同図において、画像認識部１３１は、画像信号処理部１０３から供給される画像信号のデータに基づいて、例えば、ビデオカメラにより撮影された画像の中に人物などの被写体が含まれている確からしさの度合いを表す評価値を算出して、判定部１３２に出力する。

図３は、画像認識部１３１の詳細な構成例を示すブロック図である。同図において、ウィンドウ切出し部１６１は、入力される画像の中の所定の部分（例えば、画面中央の部分）をウィンドウとして切り出す。このとき、例えば、図４に示されるように、撮影された画像１９０の中で、画像１９０のサイズと比較して縦方向（上下方向）および横方向（左右方向）ともに小さいサイズとされる画面中央のウィンドウ１９１が切り出される。この例では、撮影された画像１９０の中央に人物が写っており、人物の顔の部分（図中ハッチングされていない部分）がウィンドウ１９１として切り出されている。

あるいはまた、ウィンドウ１９１が図５に示されるように切り出されるようにしてもよい。図５においては、撮影された画像１９０の中で、画像１９０のサイズと比較して縦方向のサイズは変わらず、横方向（左右方向）が小さいサイズとされる画面中央のウィンドウ１９１が切り出されている。この例では、撮影された画像１９０の中央に２人の人物が写っており、画像１９０の中で２人の人物全体を含む部分がウィンドウ１９１として切り出されている。

ウィンドウ１９１は、例えば、縦方向と横方向のサイズが予め定められた値に基づいて、設定されて切り出されるようにしてもよいし、例えば、図示せぬ操作部などを介して入力されるユーザの操作などに基づいて、縦方向と横方向のサイズが設定されて切り出されるようにしてもよい。

図３に戻って、ウィンドウ切出し部１６１により切り出されたウィンドウ１９１の画素のデータは、色領域抽出部１６２に供給される。色領域抽出部１６２は、例えば、RGB信号に対応するデータとして構成されるウィンドウ１９１の画素のデータを、次式により輝度と色差信号のデータに変換する。なお、次式において、「Ｒ」、「Ｇ」、「Ｂ」は、RGB信号のそれぞれ「Ｒ」、「Ｇ」、「Ｂ」に対応する値を表しており、「Ｙ」は輝度信号の値、「Ｃｒ」、「Ｃｂ」はそれぞれ色差信号の値を表している。

Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ
Ｃｒ＝０．７０１Ｒ−０．５８７Ｇ−０．１１４Ｂ
Ｃｂ＝-０．２９９Ｒ−０．５８７Ｇ＋０．８８６Ｂ

色領域抽出部１６２は、輝度と色差信号のデータに基づいて、特定の被写体の色に対応する画素と、それ以外の画素を区別し、ウィンドウ１９１の画素のデータを２値化する。例えば、特定の被写体として人物を抽出したい場合、個々の画素の輝度と色差信号のデータに基づいて、その画素の色が推定され、その画素が人物の色である肌色に対応する画素である場合、その画素のデータに、抽出すべき領域であることを表す所定のデータが付加され、その画素が肌色に対応する画素ではない場合、その画素のデータに、抽出すべき領域ではないことを表す所定のデータが付加されて２値化される。

特徴抽出部１６３は、色領域抽出部１６２により抽出された（２値化）された、ウィンドウ１９１の画素のデータのうち抽出すべき領域の画素のデータについて、特徴量を演算する。特徴量は、例えば、画素の色の濃度または明るさなどの値に基づくヒストグラムとして演算される。

図６は、例えば、人物の顔の部分がウィンドウ１９１として切り出された場合、ウィンドウ１９１の中の肌色の画素を、所定の水平走査期間内において画素の濃度（明るさ）によりヒストグラム化したときの例を示すグラフである。同図においては、縦軸が画素の明るさとされ、横軸が画面水平方向の時間とされ、画素のヒストグラムが線２１１で表されている。また、特徴抽出部１６３は、例えば、同様に所定の垂直走査期間内において画素の明るさと画面垂直方向の時間とに対応する画素のヒストグラムも生成する。

図３に戻って、特徴抽出部１６３により生成されたヒストグラムと、モデル記憶部１６４から供給されるヒストグラムに基づいて、パターンマッチング部１６５は、それぞれのヒストグラムの相似度を表す相関係数を演算する。

モデル記憶部１６４には、人間の顔などに対応するヒストグラムのパターンが予め記憶されている。例えば、予め撮影された人間の顔の画像などに基づいて、図７のグラフにおいて線２１２で示されるようなヒストグラムが生成されて、モデル記憶部１６４に記憶されている。

図６の線２１１で示され、特徴抽出部１６３により生成されたヒストグラムを関数Ａ［ｔ］とし、図７の線２１２で示され、モデル記憶部１６４から供給されるヒストグラムを関数Ｂ［ｔ］とすると、双方のヒストグラムの相関係数ρは、式（１）により求めることができる。

図３に戻って、パターンマッチング部１６５は、演算した相関係数ρの値を、評価値として出力する。ここで、評価値は、特徴抽出部１６３により生成されたヒストグラムと、モデル記憶部１６４から供給されるヒストグラムとの相似度を表しており、双方のヒストグラムの相似度が高いほど、ρの値は１に近くなり、また、双方のヒストグラムの相似度が低いほど、ρの値は０に近くなる。

図２に戻って、判定部１３２は、画像認識部１３１から出力される評価値に基づいて、ビデオカメラにより撮影された画像の中に特定の被写体（いまの場合、人物の顔）が写っているか否かを判定する。例えば、画像認識部１３１から出力される評価値が、予め設定された閾値を超えている場合、判定部１３２は、撮影された画像の中に特定の被写体が写っていると判定し、後述するように、指向性操作部１３３と音声帯域操作部１３４とを制御する制御信号を出力する。

指向性操作部１３３は、ビデオカメラにより撮影される画像とともに入力される音声の指向特性を制御する機能ブロックであり、判定部１３２から出力される制御信号に基づいて、マイクロホン１０４または１０５を介して入力される音声の指向特性を変更する。音声帯域操作部１３４は、ビデオカメラにより撮影される画像とともに入力される音声の中で、周波数帯の強調（例えば、特定の周波数帯のレベルを増加させるなど）を制御する機能ブロックであり、判定部１３２から出力される制御信号に基づいて、集音された音声のうち所定の周波数帯のレベルを変更する。

図８は、通常時、すなわち判定部１３２から制御信号が出力されていない場合、指向性操作部１３３により設定される、マイクロホン１０４または１０５を介して入力される音声の指向特性（ポーラパターン）の例を示す図である。同図においては、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、実線２５３および破線２５４によりポーラパターンが示されている。なお、実線２５３および破線２５４は、それぞれその方向から発せられる音声の集音レベルを表している。ここでは例えば、臨場感を重視したポーラパターンであって、ビデオカメラの左前方に対応する矢印２５１を指向主軸とする実線２５３と、ビデオカメラの右前方に対応する矢印２５２を指向主軸とする破線２５４とがポーラパターンとして設定されている。

すなわち、指向性操作部１３３は、通常時は、ビデオカメラの左前方および右前方から発生される音声が強いレベルで集音されるように、矢印２５１および２５２を中心としたポーラパターンを設定する。

図９は、ビデオカメラにより撮影された画像の中に特定の被写体が写っている場合、すなわち判定部１３２から制御信号が出力されている場合、指向性操作部１３３により設定される、マイクロホン１０４または１０５を介して入力される音声の指向特性（ポーラパターン）の例を示す図である。同図においては、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、実線２７２によりポーラパターンが示されている。なお、実線２７２は、その方向から発せられる音声の集音レベルを表している。ここでは例えば、撮影される画像の中の中央の被写体を重視したポーラパターンであって、ビデオカメラの前方に対応する矢印２７１を指向主軸とする実線２７２がポーラパターンとして設定されている。

すなわち、指向性操作部１３３は、画像の中に特定の被写体が写っているときは、ビデオカメラの前方から発生される音声が強いレベルで集音されるように、矢印２７１を中心としたポーラパターンを設定する。

このようにすることで、例えば、通常時（風景などを撮影しているとき）は、画面の左右方向からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、画面の前方にいる人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。

図１０は、音声帯域操作部１３４を介して出力される音声信号の周波数特性の例を示す図である。図１０において縦軸は、レベルを表し、横軸は周波数を表す。

音声帯域操作部１３４は、通常時、すなわち判定部１３２から制御信号が出力されていない場合、点線２９１で示されるような周波数特性を有する音声信号を出力する。点線２９１は、全ての周波数帯にわたってレベルがほぼ平坦であり、このような周波数特性であれば、集音された音声が特に強調されることなく出力されることになる。

すなわち、音声帯域操作部１３４は、画像の中に特定の被写体（例えば、人物）が写っていないときは、集音された音声を特に強調せずに出力する。

一方、ビデオカメラにより撮影された画像の中に特定の被写体が写っている場合、すなわち判定部１３２から制御信号が出力されている場合、音声帯域操作部１３４は、実線２９２で示されるような周波数特性を有する音声信号を出力する。実線２９２は、点線２９１と比較して、ボイス帯域とされる周波数帯のレベルが増大されており、ボイス帯域とされる周波数帯以外の周波数帯のレベルが減少されている。このような周波数特性であれば、集音された音声のうち、ボイス帯域に属する周波数帯の音声が強調されて出力されることになる。ここで、ボイス帯域は、人の声の周波数帯に対応する帯域であり、例えば、４００Hzから４kHzまでの間の周波数帯域がボイス帯域とされる。

すなわち、音声帯域操作部１３４は、画像の中に特定の被写体（例えば、人物）が写っているときは、人物が発する声が強いレベルで集音されるように、ボイス帯域を強調させる。

このようにすることで、例えば、通常時（風景などを撮影しているとき）は、画面の中のすべての物体（被写体）からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。

次に、図１１のフローチャートを参照して、被写体強調処理部１０７による音声信号出力処理について説明する。この処理は、例えば、図１の映像音声記録装置１００により映像と音声が記録されるとき実行される。

ステップＳ１０１において、画像認識部１３１は、図１２を参照して後述する評価値演算処理を実行する。これにより、上述した評価値が演算される。

ここで、図１２のフローチャートを参照して、図１１のステップＳ１０１の評価値演算処理の詳細について説明する。

ステップＳ１２１において、ウィンドウ切出し部１６１は、入力される画像の中でウィンドウを切り出す。このとき、例えば、図４または図５を参照して上述したように、画像１９０の中でウィンドウ１９１が切り出される。

ステップＳ１２２において、色領域抽出部１６２は、例えば、RGB信号に対応するデータとして構成されるウィンドウ１９１の画素のデータを、輝度と色差信号のデータに変換することにより切り出されたウィンドウの画像の色空間を変換する。

ステップＳ１２３において、色領域抽出部１６２は、輝度と色差信号のデータに基づいて、特定の被写体の色（例えば、肌色）に対応する画素と、それ以外の画素を区別し、ウィンドウ１９１の画素のデータを２値化する。

ステップＳ１２４において、色領域抽出部１６２は、ステップＳ１２３の処理で２値化されたデータに基づいて、抽出すべき領域（いまの場合、肌色の領域）を設定する。

ステップＳ１２５において、特徴抽出部１６３は、ステップＳ１２４の処理で設定された抽出すべき領域の画素のデータについて、画素の色の濃度または明るさなどの値に基づくヒストグラムを生成する。このとき、例えば、図６を参照して上述したようなヒストグラムが生成される。

ステップＳ１２６において、パターンマッチング部１６５は、ステップＳ１２５の処理により生成されたヒストグラムと、モデル記憶部１６４に記憶されているヒストグラムとのパターンマッチングを行う。このとき、上述したように、双方のヒストグラムの相似度を表す相関係数が演算される。

ステップＳ１２７において、パターンマッチング部１６５は、ステップＳ１２６の処理結果に基づいて評価値を出力する。

このようにして、評価値が演算されて出力される。

図１１に戻って、ステップＳ１０１の処理の後、ステップＳ１０２において、判定部１３２は、ステップＳ１０１の処理の結果出力された評価値は、閾値を超えているか否かを判定する。閾値は、例えば、予め設定された閾値であり、ステップＳ１０１の処理で演算された閾値が評価値を超えている場合、撮影された画像のウィンドウの中に、例えば、人物の顔などの特定の被写体が写っている可能性が高いと推定される。

ステップＳ１０１において、評価値は、閾値を超えていると判定された場合、処理は、ステップＳ１０３に進み、判定部１３２は制御信号を出力し、指向性操作部１３３は、マイクロホン１０４または１０５を介して集音される音声の指向特性を変更する。このとき例えば、図９に示されるように、撮影される画像の中の中央の被写体を重視したポーラパターンであって、ビデオカメラの前方を指向主軸とするポーラパターンが設定される。

すなわち、画像の中に特定の被写体（人物）が写っているので、ビデオカメラの前方から発生される音声が強いレベルで集音されるように設定される。

ステップＳ１０４において、判定部１３２は制御信号を出力し、音声帯域操作部１３４は、例えば図１０を参照して上述したように、ボイス帯域とされる周波数帯のレベルが増大させ、ボイス帯域とされる周波数帯以外の周波数帯のレベルが減少させ、ボイス帯域の周波数帯を強調する。

すなわち、画像の中に特定の被写体（人物）が写っているので、人物が発する声が強いレベルで集音されるように設定される。

ステップS１０５において、ステップS１０３およびステップS１０４において、それぞれ指向性操作部１３３および音声帯域操作部１３４の処理を経た音声信号が出力される。

一方、ステップS１０２において、ステップＳ１０１の処理の結果出力された評価値は、閾値を超えていないと判定された場合、ステップS１０３とS１０４の処理は、スキップされる。

すなわち、画像の中に特定の被写体（人物）が写っていないので、ステップS１０５では、ビデオカメラの左右から発生される音声が強いレベルで集音され、また、特定の周波数帯が強調されることなく音声信号が出力されることになる。

このようにして、被写体強調処理部１０７から音声信号が出力される。このようにすることで、風景などを撮影しているときは、画面の中のすべての物体（被写体）からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。

以上においては、被写体強調処理部１０７により、画像の中に特定の被写体（人物）が写っているときと、写っていないときに対応して音声信号が変更される例について説明したが、被写体強調処理部１０７により、段階的に音声信号が変更されるようにすることも可能である。例えば、図３のパターンマッチング部１６５により演算される相関関数の値に応じて段階的に音声信号が変更されるようにしてもよい。

図１３は、この場合の被写体強調処理部１０７の詳細な構成例を示すブロック図である。同図において、図２と対応する部分には、それぞれ同一の符号が付されている。

図１３の例では、図２の場合における判定部１３２に代わり、レベル設定部１４２が設けられている。レベル設定部１４２は、画像認識部１３１から出力される評価値に基づいて、指向性操作部１３３と音声帯域操作部１３４とを制御する制御レベルを設定する。レベル設定部１４２は、例えば、画像認識部１３１から出力される評価値を、１０段階の制御レベルに対応させて正規化して得られた制御レベルを、指向性操作部１３３および音声帯域操作部１３４に供給する。

被写体強調処理部１０７が図１３のように構成される場合、指向性操作部１３３は、レベル設定部１４２により設定された制御レベルに応じて、段階的にマイクロホン１０４または１０５を介して入力される音声の指向特性（ポーラパターン）を変化させる。

図１４と図１５は、レベル設定部１４２の制御レベルに応じて設定される指向特性の例を示す図である。なお、同図においては、図８の場合と同様に、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、矢印２５１と２５２は指向主軸を表し、実線２５３および破線２５４によりポーラパターンが示されている。

図１４は、例えば制御レベルが１である場合の指向特性（ポーラパターン）の例を示す図である。この例では、図８に示される通常時のポーラパターンと比較して、指向主軸である矢印２５１と２５２が、より前方向に近づいている。すなわち、図８の場合と比較して、矢印２５１と２５２とが、それぞれ前方向の軸となす角度が小さくなっており、実線２５３および破線２５４により示されるポーラパターンは、より前方向が重視されたものになっている。

図１５は、例えば、制御レベルが２である場合の指向特性（ポーラパターン）の例を示す図である。この例では、図１４の場合と比較してさらに、指向主軸である矢印２５１と２５２が、より前方向に近づいている。すなわち、図１４の場合と比較して、矢印２５１と２５２とが、それぞれ前方向の軸となす角度がさらに小さくなっており、実線２５３および破線２５４により示されるポーラパターンは、さらに前方向が重視されたものになっている。

このように、指向性操作部１３３は、レベル設定部１４２から供給される制御レベルが高くなるほど、前方向を重視した指向特性を設定する。このようにすることで、例えば、撮影される画像の中に人物が写っている確度が高い（評価値が高い）ほど、画面の前方にいる人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。

被写体強調処理部１０７が図１３のように構成される場合、音声帯域操作部１３４は、例えば、レベル設定部１４２により設定された制御レベルに応じて、段階的にボイス帯域を強調させる。

図１６は、レベル設定部１４２の制御レベルに応じて変化する、音声帯域操作部１３４を介して出力される音声信号の周波数特性の例を示す図である。図１６において縦軸は、レベルを表し、横軸は周波数を表す。

同図において、線３０１で示される周波数特性は、例えば、制御レベルが１である場合の周波数特性とされ、通常時の周波数特性である点線２９１と比較して、ボイス帯域の周波数が強調された周波数特性とされている。

また、線３０２で示される周波数特性は、例えば、制御レベルが２である場合の周波数特性とされ、線３０１の場合と比較して、ボイス帯域の周波数がさらに強調された周波数特性とされている。

このように、音声帯域操作部１３４は、レベル設定部１４２から供給される制御レベルが高くなるほど、ボイス帯域の周波数を強調する。このようにすることで、例えば、撮影される画像の中に人物が写っている確度が高い（評価値が高い）ほど、人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。

ここまで、レベル設定部１４２が評価値に応じて制御レベルを設定する例について説明したが、例えば、レベル設定部１４２に、パターンマッチング部１６５により演算された評価値とともに、色領域抽出部１６２により抽出された領域の大きさを表す情報を供給し、レベル設定部１４２は、例えば、評価値が閾値を超える場合、色領域抽出部１６２により抽出された領域の大きさを表す情報を、１０段階の制御レベルに対応させて正規化して得られた制御レベルを、指向性操作部１３３および音声帯域操作部１３４に供給するようにしてもよい。

このようにすることで、例えば、撮影される画像の中で人物がズームアップされるなどした場合、ズームアップされた度合いが高い（抽出された領域が大きい）ほど、人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。

図１７は、被写体強調処理部１０７が図１３のように構成される場合の、音声信号出力処理の例を説明するフローチャートである。

ステップS２０１の処理は、図１１のステップS１０１の処理と同様の処理なので詳細な説明は省略する。

ステップS２０２において、レベル設定部１４２は、ステップS１０１の処理により演算された評価値を、例えば、１０段階の制御レベルに正規化し、制御レベルを設定する。なお、ここで上述したように、評価値が閾値を超える場合、色領域抽出部１６２により抽出された領域の大きさを表す情報を、１０段階の制御レベルに対応させて正規化し、制御レベルを設定してもよい。

ステップS２０３において、指向性操作部１３３は、ステップS２０２の処理で設定された制御レベルに応じて指向特性を変化させる。このとき、例えば、図１４と図１５を参照して上述したように、指向特性が段階的に変化させられる。

ステップS２０４において、音声帯域操作部１３４は、ステップS２０２の処理で設定された制御レベルに応じてボイス帯域の周波数を強調する。このとき、例えば、図１６を参照して上述したように、ボイス帯域の周波数が段階的に強調される。

ステップS２０５において、ステップS２０３およびステップS２０４において、それぞれ指向性操作部１３３および音声帯域操作部１３４の処理を経た音声信号が出力される。

このようにして、被写体強調処理部１０７から音声信号が出力される。このようにすることで、風景などを撮影しているときは、画面の中のすべての物体（被写体）からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、その画像における人物の写り方に応じて段階的に人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。

ここまで、例えば、ビデオカメラなどとして構成される映像音声記録装置１００を例として特定の被写体の音声を強調する例について説明したが、例えば、DVDプレーヤなどで構成される映像音声再生装置により特定の被写体の音声が強調されるようにすることも可能である。

この場合、映像音声再生装置に上述した図２または図１３に示されるような被写体強調処理部１０７を組み込み、例えば、複数の指向特性（例えば、前方を重視した指向特性と左右方向を重視した指向特性）に対応する音声をそれぞれ異なるチャネルに記録したマルチチャネルのDVDなどを、映像音声再生装置により再生する。そして、映像音声再生装置に内蔵された被写体強調処理部１０７が再生される映像（画像）を、図１２を参照して上述したように解析して、画像の中に特定の被写体が写っている場合、図１１または図１７を参照して上述したように、その被写体から発せられる音声が強調されるようにすればよい。

ただし、この場合、指向性操作部１３３は、マイクロホンを介して入力される音声の指向特性を変更させるのではなく、所定のチャネルの出力レベルを上げるなどして、その被写体から発せられる音声が強調されるように指向特性を変更することになる。

また、映像音声記録装置と、映像音声再生装置をあわせて１つの装置（映像音声記録再生装置）として構成することも可能である。図１８は、映像音声記録再生装置４００の構成例を示すブロック図である。

同図において、レンズ４０１乃至エンコード処理部４０８は、図１のレンズ１０１乃至エンコード処理部１０８と同様なので詳細な説明は省略する。

図１８の例では、映像音声記録再生装置４００にスイッチ４０９が設けられており、映像音声を記録する場合、スイッチ４０１は、エンコード処理部４０８と、記録再生部４１０を接続するように設定され、エンコード処理部４０８から出力される映像音声のストリームデータが、記録再生部の記録媒体などに記録される。

また、映像音声を再生する場合、スイッチ４０１は、デコード処理部４１１と、記録再生部４１０を接続するように設定され、記録再生部４１０から出力される圧縮符号化された映像音声のストリームデータが、デコード処理部４１１により復号（デコード）され、デコードされた画像信号と音声信号に対応するデータが被写体強調処理部４１２に供給される。

被写体強調処理部４１２は、図２または図１３に示されるような被写体強調処理部１０７と同様の構成を有しており、デコード処理部４１１から供給される画像のデータを、図１２を参照して上述したように解析して、画像の中に特定の被写体が写っている場合、図１１または図１７を参照して上述したように、その被写体から発せられる音声を強調させる処理を行う。ただし記録時と異なり再生時は、例えば、複数の指向特性（例えば、前方を重視した指向特性と左右方向を重視した指向特性）に対応する音声がそれぞれ異なるチャネルの音声のデータとして被写体強調処理部４１２に供給され、所定のチャネルの出力レベルを上げるなどして、その被写体から発せられる音声が強調されるように指向特性が変更される。

そして、被写体強調処理部４１２から出力された音声信号がアンプ４１３により増幅されて図示せぬスピーカなどから出力される。

このようにすることで、記録時も再生時も、人物などが写っているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１9に示されるような汎用のパーソナルコンピュータ５００などに、ネットワークや記録媒体からインストールされる。

図１９において、CPU（Central Processing Unit）５０１は、ROM（Read Only Memory
）５０２に記憶されているプログラム、または記憶部５０８からRAM（Random Access Memory）５０３にロードされたプログラムに従って各種の処理を実行する。RAM５０３にはまた、CPU５０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU５０１、ROM５０２、およびRAM５０３は、バス５０４を介して相互に接続されている。このバス５０４にはまた、入出力インタフェース５０５も接続されている。

入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部５０７、ハードディスクなどより構成される記憶部５０８、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部５０９が接続されている。通信部５０９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース５０５にはまた、必要に応じてドライブ５１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部５０８にインストールされる。

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア５１１などからなる記録媒体からインストールされる。

なお、この記録媒体は、図１９に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア５１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM５０２や、記憶部５０８に含まれるハードディスクなどで構成されるものも含む。

本明細書において上述した一連の処理を実行するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明を適用した映像音声記録装置の一実施形態に係る構成例を示す図である。図１の被写体強調処理部の詳細な構成例を示すブロック図である。図２の画像認識部の詳細な構成例を示すブロック図である。ウィンドウの例を示す図である。ウィンドウの別の例を示す図である。図３の特徴抽出部により生成されるヒストグラムの例を示す図である。図３のモデル記憶部に記憶されているヒストグラムの例を示す図である。通常時の指向特性（ポーラパターン）の例を示す図である。特定の被写体が写っているときの指向特性（ポーラパターン）の例を示す図である。図２の音声帯域操作部を介して出力される音声信号の周波数特性の例を示す図である。音声信号出力処理を説明するフローチャートである。評価値演算処理を説明するフローチャートである。図１の被写体強調処理部の別の構成例を示すブロック図である。図１３の指向性操作部により設定される指向特性（ポーラパターン）の例を示す図である。図１３の指向性操作部により設定される指向特性（ポーラパターン）の例を示す図である。図１３の音声帯域操作部を介して出力される音声信号の周波数特性の例を示す図である。音声信号出力処理の別の例を説明するフローチャートである。本発明を適用した映像音声記録再生装置の一実施形態に係る構成例を示す図である。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１００映像音声記録装置，１０７被写体強調処理部，１３１画像認識部，１３２判定部，１３３指向性操作部，１３４音声帯域操作部，１４２レベル判定部，１６１ウィンドウ切出し部，１６２色領域抽出部，１６３特徴抽出部，１６４モデル記憶部，１６５パターンマッチング部，４００映像音声記録再生装置

Claims

画像の信号と、この画像に同期した音声の信号を処理する信号処理装置であって、
入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段と、
前記生成手段により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定手段と、
前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声の信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更する指向特性変更手段と
を備えることを特徴とする信号処理装置。
前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または前記被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する周波数特性変更手段をさらに備える
ことを特徴とする請求項１に記載の信号処理装置。
前記生成手段は、
入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段と、
前記抽出手段により抽出された領域の画素の輝度または色差に基づいて前記領域の画素の特徴量のパターンを検出する検出手段と、
予め前記特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段と
前記検出手段により検出された前記特徴量のパターンと、前記記憶手段に記憶されている前記特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段とを備え、
前記演算手段により演算された相関係数が前記画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成される
ことを特徴とする請求項２に記載の信号処理装置。
前記画像の中の所定の領域を切り出す切出し手段をさらに備え、
前記抽出手段は、前記切出し手段により切出された画像の中で、特定の色の画素により構成される領域を抽出する
ことを特徴とする請求項３に記載の信号処理装置。
前記特定の被写体は、人物であり、
前記判定手段により、前記画像の中に人物が写っていると判定された場合、
前記指向特性変更部は、前方向に向けて収音した音声の信号のレベルを上げ、および、または前方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更し、
前記周波数特性変更部は、人の声が含まれる周波数帯域のレベルを上げ、および、またはそれ以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する
ことを特徴とする請求項４に記載の信号処理装置。
前記指向特性変更部による前記音声の信号の指向特性の変更の度合い、または前記周波数特性変更部による前記音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段をさらに備える
ことを特徴とする請求項４に記載の信号処理装置。
前記設定手段は、前記抽出手段により抽出された領域の大きさを表す情報を正規化し、前記制御レベルとして設定する
ことを特徴とする請求項６に記載の信号処理装置。
前記設定手段は、前記演算手段により演算された相関関数を正規化し、前記制御レベルとして設定する
ことを特徴とする請求項６に記載の信号処理装置。
前記画像の信号と、前記指向特性変更部または前記周波数特性変更部の処理を経た音声の信号が、記録装置により記録媒体に記録される
ことを特徴とする請求項８に記載の信号処理装置。
前記画像の信号と、前記音声の信号は、記録媒体に記録されたデータが再生装置により再生されることにより出力される画像の信号と、音声の信号である
ことを特徴とする請求項８に記載の信号処理装置。
画像の信号と、この画像に同期した音声の信号を処理する信号処理装置の信号処理方法であって、
入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップと、
前記生成ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定ステップと、
前記判定ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性を変更する指向特性変更ステップと
を含むことを特徴とする信号処理方法。
画像の信号と、この画像に同期した音声の信号を処理する信号処理装置に信号処理を実行させるプログラムであって、
入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップと、
前記生成制御ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップと、
前記判定制御ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性の変更を制御する指向特性変更制御ステップと
をコンピュータに実行させることを特徴とするプログラム。
請求項１２に記載のプログラムが記録されていることを特徴とする記録媒体。