JP2009049873A

JP2009049873A - 情報処理装置

Info

Publication number: JP2009049873A
Application number: JP2007215778A
Authority: JP
Inventors: Atsushi Mae; 篤前
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-08-22
Filing date: 2007-08-22
Publication date: 2009-03-05

Abstract

【課題】２ｃｈの入力音声信号から擬似的に５．１ｃｈの音声情報を作り出す。
【解決手段】情報処理装置は、ビデオ・フレーム・バッファ１００と、左右２ｃｈの音声信号を入力して４ｃｈの音声信号を作り出す音声処理ブロック２００と、音声処理ブロック２００から供給される４ｃｈの音声信号を重み付け合成して５．１ｃｈのサラウンド音声信号を生成する音声合成ブロック３００と、画像認識機能を備え、音声信号に同期する画像信号を認識した結果に基づいて音声合成ブロック３００で４ｃｈの音声信号を合成する際に用いる合成パラメータを制御する音声合成制御ブロック５００で構成される。
【選択図】図１

Description

本発明は、画像信号及びこれに同期した音声信号からなる情報コンテンツを記録又は再生出力する情報処理装置に係り、特に、サラウンド再生環境に対応した音声情報の処理を行なう情報処理装置に関する。

さらに詳しくは、本発明は、通常の２ｃｈステレオマイクで撮影されたコンテンツを再生する際に擬似的に５．１ｃｈ分の音声情報を作り出すことによって、５．１ｃｈサラウンドのような臨場感を得る情報処理装置、並びに、通常の２ｃｈステレオマイクしか実装していないビデオカメラにおいて擬似的に５．１ｃｈ分の音声情報を作り出して記録する情報処理装置に関する。

家庭用のビデオカメラは既に広く普及している。近年では、動画像及び音声データをデジタル符号化して、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）やハード・ディスクなどのコンピュータ・ファイルとして記録・管理するデジタルビデオカメラが増えてきている。また、デジタルカメラに画像認識技術を組み合わせることで、被写体認識処理が可能であり、被写体画像の位置や大きさに応じた自動照準（ＡＦ）、自動露光（ＡＥ）といったカメラワークの自動化技術も進められている。

一方、動画像及び画像データの再生システムとしては、想定される位置の視聴ユーザの周囲に複数のスピーカを配置して、実音源に近い、すなわち臨場感のあるサラウンド再生技術が知られている。サラウンド再生環境を実現する音声データ信号方式として、例えば、米国ドルビー研究所の開発したデジタル・マルチチャンネル音声信号の高能率符号化方式であるＡＣ−３が知られている。このＡＣ−３のサラウンド再生システムは、例えば、視聴者の前方左側に配置された左チャンネル用スピーカＬと、視聴者の前方中央に配置されたセンター・チャンネル用スピーカＣと、視聴者の前方右側に配置された右チャンネル用スピーカＲと、視聴者の後方左右にそれぞれ配置されたサラウンド・チャンネル用スピーカＬｓ及びＲｓという５台のスピーカで構成され（図３を参照のこと）、その音声チャネル数はフロント左右２チャンネルとフロントセンター１チャンネルとリア２チャンネルにさらにスーパーウーハ駆動用の低域専用チャンネル（０．１チャンネル）を加えた５．１チャンネルとなる。

ＤＶＤのような大容量の記録メディアの普及とともに、ホームシアターを始め５．１チャンネルを備えたサラウンド再生環境が家庭内にも浸透しつつある。また、家庭用ビデオカメラにも、５．１チャンネルで音声を記録可能な製品が出現している。５．１チャンネルで撮影されたコンテンツを５．１ｃｈサラウンド環境で再生すると、その場に居合わせたような臨場感が味わうことができ、ユーザにとってメリットは大きい。

例えば、複数のマイクロフォンを備え、上記複数の各マイクロフォンから出力されるオーディオ信号を複数チャンネルのオーディオ信号に処理した第１の複数のオーディオ信号と、上記複数の各マイクロフォンから出力される全チャンネルのオーディオ信号を１つのチャンネルのオーディオ信号に処理した第２のオーディオ信号とを、上記映像信号と共に同時に上記記録媒体に記録するようにし、さらに、上記記録を上記第１の複数のオーディオ信号と上記第２のオーディオ信号とを独立して再生することが可能なるように行なうようにしたビデオカメラについて提案がなされている（例えば、特許文献１を参照のこと）。

また、撮影時に少なくとも異なる４方向以上からの音声を収音するようにビデオカメラに配設された４個以上のマイクロフォンＭ１、Ｍ２、Ｍ３、Ｍ４、…Ｍｎと、前記マイクロフォンから各々出力される音声出力信号ｍ１、ｍ２、ｍ３、ｍ４、…ｍｎを音声合成し、撮影方向に対して右前方からの音声信号Ｒと、左前方からの音声信号Ｌと、前方中央からの音声信号Ｃと、３つの方向と異なる方向からのサラウンド音声信号Ｓから構成される４チャンネル（Ｒｃｈ、Ｌｃｈ、Ｃｃｈ、Ｓｃｈ）の音声信号を生成する音声合成手段と、音声合成手段によって出力された４チャンネルの音声信号Ｒ、Ｌ、Ｃ、Ｓを予め定められた演算式に沿って２チャンネルの音声データＬｔ、Ｒｔに変換する信号処理を行ない出力するマトリックス・エンコーダと、マトリックス・エンコーダから出力される２チャンネルＬｔｃｈ、Ｒｔｃｈの音声データＬｔ、Ｒｔを記録媒体に記録する音声データ記録手段を備えるビデオカメラの録音装置について提案がなされており、記録される音声データは従来と同じ２チャンネルでありながら、再生時にマトリックス・デコードすることで４チャンネル以上のマルチチャンネルのサラウンド再生が可能となり、臨場感のある再生音が得られる（例えば、特許文献２を参照のこと）。

しかしながら、価格設定に制限のある家庭用デジタルカメラにとって、５．１ｃｈサラウンドに対応するには、ライセンス取得などの各種の制約があり、またセット形状から多チャンネルのマイク（５台のスピーカに対応した５台のマイクＬ、Ｃ、Ｒ、Ｌｓ、Ｒｓ）を配置することが難しいといった問題がある。このため、２チャンネルでしか記録できないビデオカメラがいまだに多いというのが実情である。

特開２００３−１８５４３号公報

特開２００５−２２３７０６号公報

本発明の目的は、動画像及び音声からなる情報を記録又は再生出力する際に、サラウンド再生環境に対応した音声情報の処理を好適に行なうことができる、優れた情報処理装置を提供することにある。

本発明のさらなる目的は、通常の２ｃｈステレオマイクで撮影されたコンテンツを再生する際に擬似的に５．１ｃｈ分の音声情報を作り出すことによって、５．１ｃｈサラウンドのような臨場感を得ることができる、優れた情報処理装置を提供することにある。

本発明のさらなる目的は、通常の２ｃｈステレオマイクしか実装していないビデオカメラにおいて擬似的に５．１ｃｈ分の音声情報を作り出して記録することができる、優れた情報処理装置を提供することにある。

本発明は、上記課題を参酌してなされたものであり、画像信号及びこれに同期した音声信号からなる情報コンテンツを記録又は再生出力する情報処理装置であって、
左右２チャンネルからなる入力音声信号Ｌ及びＲに信号処理を施して全方位性となる音声信号Ｃを作り出し、さらに該音声信号Ｃから特定の効果をかけた音声信号Ｅを作り出して、４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを出力する音声処理ブロックと、
前記音声処理ブロックから出力される４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み付け合成して、視聴者の前方左側に相当する左チャンネル用音声信号Ｌと、視聴者の前方中央に相当するセンター・チャンネル用音声信号Ｃと、視聴者の前方右側に相当する右チャンネル用音声信号Ｒと、視聴者の後方左右にそれぞれ相当するサラウンド・チャンネル用音声信号Ｌｓ及びＲｓからなる５チャンネルを含むサラウンド音声信号を生成する音声合成ブロックと、
音声信号に同期した入力画像信号を認識する画像認識手段を備え、該画像認識結果に基づいて前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを制御する音声合成制御ブロックと、
を具備することを特徴とする情報処理装置である。

但し、前記音声合成ブロックは、前記音声処理ブロックから出力される４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み付け合成して、スーパーウーハ駆動用の低域専用チャンネル（０．１チャンネル）の音声信号ＬＦＥをさらに生成して、５．１チャンネルの音声信号を合成出力するようにすることもできる。

また、前記音声処理ブロックは、音声フィルタにより音声信号Ｃから特定のフィルタ効果をかけた音声信号Ｅを作り出すが、この音声フィルタは具体的には特定の周波数帯域の成分のみを通過させるバンドパス・フィルタで構成される。

動画像及び画像データの再生システムとしては、例えば米国ドルビー研究所の開発したＡＣ−３に代表される、視聴ユーザの周囲に複数のスピーカを配置して、実音源に近い、すなわち臨場感のある５．１チャンネル構成のサラウンド再生技術が知られている。ユーザにとっては、その場に居合わせたような臨場感が味わうことができ、メリットは大きい。

しかしながら、価格設定に制限のある家庭用デジタルカメラにとって、５．１チャンネル構成のサラウンドに対応するには、ライセンス取得などの各種の制約があり、またセット形状から多チャンネルのマイクを配置することが難しいといった問題がある。

これに対し、本発明に係る情報処理装置は、通常の２ｃｈステレオマイクで撮影されたコンテンツを再生したり記録したりする際に、画像認識情報を用いて擬似的に５．１ｃｈ分の音声情報を作り出すように構成されており、２チャンネルのマイクのみを備えたビデオカメラで得られたようなＡＶコンテンツから５．１ｃｈサラウンドのような臨場感を得ることができる。

具体的には、まず、音声処理ブロックが右２チャンネルからなる入力音声信号Ｌ及びＲに信号処理を施して全方位性となる音声信号Ｃを作り出し、さらに該音声信号Ｃから特定の効果をかけた音声信号Ｅを作り出して、４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅとし、次いで、旺盛合成ブロックが、これら４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅから視聴者の前方中央に相当するセンター・チャンネル用音声信号Ｃと、視聴者の前方右側に相当する右チャンネル用音声信号Ｒと、視聴者の後方左右にそれぞれ相当するサラウンド・チャンネル用音声信号Ｌｓ及びＲｓからなる５チャンネルと、スーパーウーハ駆動用の低域専用チャンネル（０．１チャンネル）の音声信号ＬＦＥの合計５．１チャンネルを合成するように構成されている。そして、音声合成制御ブロックは、音声信号に同期した入力画像信号の画像認識結果に基づいて前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを制御する。

音声合成ブロックは、例えば、前記画像認識手段により認識された画面内の被写体の位置や大きさに基づいて、前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを決定するようにしてもよい。

また、音声合成ブロックは、音声処理ブロックにおいて、全方位性となる音声信号Ｃから特定の効果をかけた音声信号Ｅを作り出す際に用いる音声フィルタの制御を行なうようにしてもよい。例えば、前記画像認識手段により認識された被写体の人数又は種類に基づいて、前記音声処理ブロックにおける音声フィルタの特性を決定するようにしてもよい。

本発明によれば、通常の２ｃｈステレオマイクで撮影されたコンテンツを再生する際に、画像認識情報を用いて擬似的に５．１ｃｈ分の音声情報を作り出すことによって、５．１ｃｈサラウンドのような臨場感を得ることができる、優れた情報処理装置を提供することができる。

また、本発明によれば、通常の２ｃｈステレオマイクしか実装していないビデオカメラにおいて、画像認識情報を用いて擬似的に５．１ｃｈ分の音声情報を作り出して記録することができる、優れた情報処理装置を提供することができる。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

以下、図面を参照しながら本発明の実施形態について詳解する。

図１には、本発明の一実施形態に係る情報処理装置の構成を模式的に示している。この情報処理装置は、例えばＤＶＤ再生装置からビデオ信号及び２ｃｈの音声信号を入力しサラウンド再生出力し、あるいは２ｃｈステレオマイクしか搭載していないビデオカメラからビデオ信号及び音声信号を入力してサラウンド再生に対応した記録を行なうための処理を実行する。

図１に示すように、情報処理装置は、ビデオ・フレーム・バッファ１００と、左右２ｃｈの音声信号を入力して４ｃｈの音声信号を作り出す音声処理ブロック２００と、音声処理ブロック２００から供給される４ｃｈの音声信号を重み付け合成して５．１ｃｈのサラウンド音声信号を生成する音声合成ブロック３００と、画像認識機能を備え、音声信号に同期する画像信号を認識した結果に基づいて音声合成ブロック３００で４ｃｈの音声信号を合成する際に用いる合成パラメータを制御する音声合成制御ブロック５００で構成される。

ビデオ・フレーム・バッファ１００は、伝送されるビデオ信号を画像認識するために一時的に保存する。ビデオ信号は、ＤＶＤ再生装置（図示しない）などから供給される再生ビデオ信号、あるいはビデオカメラ（図示しない）で撮影されるビデオ信号である。

音声処理ブロック２００は、入力された左右２ｃｈそれぞれの音声信号Ｌ及びＲを重畳若しくは合成するなど信号処理を施して全方位性となる音声信号Ｃを作り出し、さらにこの全方位性の音声信号Ｃに特定の効果をかけた音声信号Ｅを作り出す。そして、音声処理ブロック２００は、左右２ｃｈの音声信号Ｌ及びＲとともに、全方位性の音声信号Ｃ、音声信号Ｃに特定の効果をかけた音声信号Ｅの４ｃｈを後段の音声合成ブロック３００に出力する。

この音声信号Ｅは、全方位性の音声信号Ｃから音声フィルタを介して特定の成分のみを抽出した音声信号である。また、音声フィルタを通過した際に音声信号Ｅは幾分の遅延が生じるが、４ｃｈすべての音声信号の同時性を保つために、他の３ｃｈの音声信号Ｌ、Ｒ、Ｃの伝送路上には適当なディレイ素子が配置されている。

音声信号Ｅを生成するための音声フィルタは、例えばバンドパス・フィルタ（ＢＰＦ）で構成され、全方位性の音声信号Ｃから特定の周波数帯域の線分のみを通過させる。例えば、男性の声の帯域のみを通過させるバンドパス・フィルタを用いて音声フィルタを構成することができる。

また、音声フィルタの周波数特性は一定である必要はなく、画像認識機能を備えた音声合成制御ブロック５００が音声信号に同期して入力される画像信号の画像認識結果に基づいてその周波数特性を制御するようにしてもよい。例えば、ビデオ・フレーム・バッファ１００に一時保持されている画像信号を画像認識ブロック５５０が画像認識して、（主要な）被写体が男性であることを認識したときには、例えば男性の声の帯域のみを通過させる周波数帯域に音声フィルタを設定するようにしてもよい。

さらには、音声合成制御ブロック５００は、画像認識ブロック５５０により認識された（対象となる）被写体の人数に応じて音声フィルタの周波数特性を切り替えるようにして、音声処理ブロック２００が複数の音声信号Ｅを生成するようにしてもよい。例えば、１画面内で成人男性と子供が認識されたときには、２種類のバンドパス・フィルタによってそれぞれ成人男性の声の帯域と子供の声の帯域を抽出した２種類の音声信号Ｅ１及びＥ２を生成して、後段の音声合成ブロック３００に出力する。なお、この場合の音声処理ブロック２００と音声合成ブロック３００間の音声信号は可変信号数となるため、デジタル・データで音声信号のやり取りを行なうようにしてもよい。

音声合成ブロック３００は、音声処理ブロック２００から出力される４ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｅから、視聴者の前方左側に相当する左チャンネル用音声信号Ｌと、視聴者の前方中央に相当するセンター・チャンネル用音声信号Ｃと、視聴者の前方右側に相当する右チャンネル用音声信号Ｒと、視聴者の後方左右にそれぞれ相当するサラウンド・チャンネル用音声信号Ｌｓ及びＲｓからなる合計５．１ｃｈのサラウンド音声信号を合成する。これによって、擬似５．１ｃｈ記録若しくは擬似５．１ｃｈ記録を実現することができる。具体的には、音声合成ブロック３００は、音声合成制御ブロック５００が画像認識ブロック５５０による画像認識結果に基づいて決定する各４通りの合成パラメータＰ_L、Ｐ_R、Ｐ_C、Ｐ_Eを基に、下式により４ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み合成して、５．１ｃｈそれぞれの音声信号Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓを計算する。

音声合成制御ブロック５００は、信号線６００よりメモリ・アクセスして、ビデオ・フレーム・バッファ１００にある画像を画像認識ブロック５６０により解析し、画像内の認識対象の属性情報（対象の種別、位置、サイズなど）を作成した結果に基づいて、信号線６１０を使って音声合成ブロック３００の合成パラメータを随時変更する。また、音声合成制御ブロック５００は、画像内で認識された対象の属性情報（被写体の種類や性別、年齢など）に応じて、図示しない信号線を介して音声処理ブロック２００内の音声フィルタの周波数特性を決定するようにしてもよい（前述）。

図１に示す例では、音声合成制御ブロック５００は、プロセッサ５１０と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５２０と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５３０と、入出力インターフェース５４０と、信号線６００によりビデオ・フレーム・バッファ１００内のビデオ画像を画像認識することのできる画像認識ブロック５５０と、これらを相互に接続するバス５６０で構成される。

プロセッサ５１０は、所定のプログラムを実行することによって、音声合成ブロック３００において４ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み合成する際に用いる合成パラメータを随時変更するための処理を行ない、信号線６１０を介して音声合成ブロック３００に設定する。また、プロセッサ５１０は、所定のプログラムを実行することによって、音声処理ブロック２００内の音声フィルタの特性を随時変更するための処理を行ない、図示しない信号線を介して音声処理ブロック２００に設定する。

ＲＯＭ５２０は、プロセッサ５１０により実行されるプログラムや各種パラメータなどを保持するメモリであり、例えば、フラッシュメモリなどのＥＥＰＲＯＭにより構成される。ＲＯＭ５２０に格納されるプログラムには、上述した、音声合成ブロック３００において音声信号を重み合成する際の合成パラメータを変更するためのアルゴリズムや、音声処理ブロック２００内の音声フィルタの特性を変更するためのアルゴリズムを実現するためのプログラムが含まれる。

ＲＡＭ５３０は、プロセッサ５１０におけるプログラム実行に必要な作業データ等を保持するメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）やＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）などの読み書き可能なメモリ装置により構成され、主にプロセッサ５１０の作業用メモリとして用いられる。

入出力インターフェース５４０は、外部装置（図示しない）とのデータのやり取りの際のインターフェース・プロトコルを実現するものであり、例えば、ＲＯＭ５２０内のプログラムの更新処理のために使用される。

画像認識ブロック５６０は、信号線６００を介してメモリ・アクセスして、ビデオ・フレーム・バッファ１００にある画像を解析し、画像内の認識対象の属性情報（対象の種別、位置、サイズなど）を作成する。画像認識ブロック５６０では特に被写体の検出並びに認識を行なう顔認識が適用される。顔認識処理は、例えば、顔画像の位置を検出して検出顔として抽出する顔検出処理と、検出顔から主要な顔器官の位置を検出する顔器官検出処理と、検出顔の識別（人物の特定）を行なう顔識別処理で構成される。但し、本発明の要旨は特定の画像認識技術に限定されるものではないので、本明細書ではこれ以上説明しない。

既に述べたように、プロセッサ５１０は、所定のプログラムを実行することによって、音声合成ブロック３００において４ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み付け合成して５．１ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓを生成する際に用いる各４通りの合成パラメータＰ_L、Ｐ_R、Ｐ_C、Ｐ_Eを随時変更するための処理を行なう。合成パラメータを変更するアルゴリズムとしては、画像認識ブロック５６０により認識された画面内の対象物（被写体）の位置や大きさに基づいて合成パラメータを決定する方法が挙げられる。

ここで、画像認識ブロック５６０により画面内に人物（あるいは、犬などのペット、自動車などの特定の機械装置類などの対象）を検知したときには、５．１ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓを生成する際にそれぞれ用いる合成パラメータＰ_L、Ｐ_R、Ｐ_C、Ｐ_Eを例えば以下の表１に示すように決定する。

上記の表中に含まれる変数α、β、γ、δは画面内で検出された対象の位置に応じて決定される。例えば、図２に示すように、画面中央から対象までの距離をａとし、画面左端から画面中央までの距離をｌとすると、変数α、β、γ、δをそれぞれ下式のように決定することができる。但し、同図中の５台のスピーカＬ、Ｃ、Ｒ、Ｌｓ、Ｒｓは５．１ｃｈサラウンド再生システムにおいて想定される配置とする。

他方、画像認識ブロック５６０により画面内に人物などの対象を検知しなかったときには、５．１ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓを生成する際にそれぞれ用いる合成パラメータＰ_L、Ｐ_R、Ｐ_C、Ｐ_Eを例えば以下の表２に示すように決定する。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本発明に係る情報処理装置は、通常の２ｃｈステレオマイクで撮影されたコンテンツを擬似的に５．１ｃｈで再生する場合、あるいは、通常の２ｃｈステレオマイクしか実装していないビデオカメラにおいて擬似的に５．１ｃｈで記録する場合に適用することができる。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、特許請求の範囲を参酌すべきである。

図１は、本発明の一実施形態に係る、動画像及び音声からなる情報を記録又は再生出力する情報処理装置の構成を模式的に示した図である。図２は、画面内に人物などの対象を検知したときに、５．１ｃｈの音声信号Ｌ、Ｒ、Ｃ、Ｌｓ、Ｒｓを生成する際にそれぞれ用いる合成パラメータＰ_L、Ｐ_R、Ｐ_C、Ｐ_Eを決定するための計算式を説明するための図である。図３は、ＡＣ−３のサラウンド再生システムの構成を模式的に示した図である。

符号の説明

１００…ビデオ・フレーム・バッファ
２００…音声処理ブロック
３００…音声合成ブロック
５００…音声合成制御ブロック
５１０…プロセッサ
５２０…ＲＯＭ
５３０…ＲＡＭ
５４０…入出力インターフェース
５５０…画像認識ブロック
５６０…バス
６００、６１０…信号線

Claims

画像信号及びこれに同期した音声信号からなる情報コンテンツを記録又は再生出力する情報処理装置であって、
左右２チャンネルからなる入力音声信号Ｌ及びＲに信号処理を施して全方位性となる音声信号Ｃを作り出し、さらに該音声信号Ｃから特定の効果をかけた音声信号Ｅを作り出して、４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを出力する音声処理ブロックと、
前記音声処理ブロックから出力される４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み付け合成して、視聴者の前方左側に相当する左チャンネル用音声信号Ｌと、視聴者の前方中央に相当するセンター・チャンネル用音声信号Ｃと、視聴者の前方右側に相当する右チャンネル用音声信号Ｒと、視聴者の後方左右にそれぞれ相当するサラウンド・チャンネル用音声信号Ｌｓ及びＲｓからなる５チャンネルを含むサラウンド音声信号を生成する音声合成ブロックと、
音声信号に同期した入力画像信号を認識する画像認識手段を備え、該画像認識結果に基づいて前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを制御する音声合成制御ブロックと、
を具備することを特徴とする情報処理装置。
前記音声処理ブロックは、音声フィルタにより音声信号Ｃから特定のフィルタ効果をかけた音声信号Ｅを作り出す、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声フィルタは、特定の周波数帯域の成分のみを通過させるバンドパス・フィルタで構成される、
ことを特徴とする請求項２に記載の情報処理装置。
前記音声合成制御ブロックは、音声信号に同期して入力される画像信号の前記画像認識手段による画像認識結果に基づいて、前記音声フィルタの周波数特性を制御する、
ことを特徴とする請求項３に記載の情報処理装置。
前記音声合成制御ブロックは、前記画像認識手段により認識された被写体の人数に応じて前記音声フィルタの周波数特性を切り替えて、前記音声合成ブロックにより複数の音声信号Ｅを生成させる、
ことを特徴とする請求項４に記載の情報処理装置。
前記音声合成ブロックは、前記音声処理ブロックから出力される４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを重み付け合成して、スーパーウーハ駆動用の低域専用チャンネル（０．１チャンネル）の音声信号ＬＦＥをさらに生成する、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声合成ブロックは、前記画像認識手段により認識された被写体の人数又は種類に基づいて、前記音声処理ブロックにおける音声フィルタの特性を決定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声合成ブロックは、前記画像認識手段により認識された画面内の被写体の位置に基づいて、前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを決定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声合成ブロックは、前記画像認識手段により認識された画面内の被写体の大きさに基づいて、前記音声合成ブロックで４チャンネルの音声信号Ｌ、Ｒ、Ｃ、Ｅを合成する際に用いる合成パラメータを決定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声合成ブロックにより生成されたサラウンド音声信号を、入力画像信号と同期して記録する動画記録手段をさらに備える、
ことを特徴とする請求項１に記載の情報処理装置。
前記音声合成ブロックにより生成されたサラウンド音声信号を、入力画像信号と同期して再生出力する動画再生手段をさらに備える、
ことを特徴とする請求項１に記載の情報処理装置。