JP2011234139A

JP2011234139A - ３次元音声信号生成装置

Info

Publication number: JP2011234139A
Application number: JP2010102783A
Authority: JP
Inventors: Yasuaki Ohashi; 靖明大橋
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-04-28
Filing date: 2010-04-28
Publication date: 2011-11-17

Abstract

【課題】２次元映像信号が視覚的に３次元になったとしても、音声は従来通りであるため、視聴者に３次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうには迫力に欠けるといった課題を有していた。映像信号内にある物体（特に人物）や背景の位置や奥行き状態に応じ、臨場感を高めることのできる位置と奥行きが連動された３次元の音声信号を提供する。
【解決手段】２次元映像から３次元映像への変換処理（動きベクトルや高周波成分の抽出）の情報から画面の奥行き情報を取得し、その情報を基に３次元映像になるように画素を移動させ、その物***置情報及び奥行き情報が抽出できる。これらの物***置情報及び奥行き情報を用い、音声の方位、位相、音量を制御し、２次元音声信号から３次元音声信号を生成する。
【選択図】図１

Description

本発明は、２次元映像から３次元映像を生成する処理より得た情報、もしくは３次元映像情報から映像内の人物位置と奥行き情報を抽出し、該奥行き情報を基に２次元音声信号から３次元音声信号を生成する装置に関する。

近年、映像技術の発展により、３次元映像として制作されたコンテンツや２次元映像として制作された番組を臨場感あふれる３次元映像として表示する３次元映像装置の普及が期待されている。３次元映像は、両眼視差技術を基にして、右目用の画像と左目用の画像とを別々に作成している。３次元映像装置では、この右目用の画像と左目用の画像を交互に切り換えて表示し、切替タイミングに同期した画像を３次元映像視聴用眼鏡を用いて見ることにより、３次元映像を楽しむことができる。

２次元映像信号を３次元映像信号に変換する方法として、例えば、特許文献１においては、以下の技術が開示されている。２次元映像信号の各フィールド画面内に設定された複数の視差算出領域のそれぞれに対して、映像の遠近に関する画像特徴量を抽出し、この画像特徴量に基づいて、単位領域毎に視差情報を生成し、所定単位領域に対応する視差情報に応じた水平位相差を有する右目用及び左目用の画像信号生成し、３次元映像信号として表示する。

また、特許文献２においては、音声情報や画像情報等に音源や被写体の位置に関する情報を付加して記録し、これらの情報を利用し、視聴者に現実感や立体感のある音声情報を与えることができる情報記録装置の技術が開示されている。

特開平１０−５１８１２特開２００４−３２７２６

図１２は、特許文献１記載の２Ｄ／３Ｄ映像変換装置の全体構成を示すブロック図である。該装置では、入力された２次元の映像信号から、映像の遠近に関する画像特徴量（高周波成分積算値、輝度コントラスト、輝度積算値及び彩度積算値）をそれぞれの回路で算出し、算出された特徴量を基に視差情報を抽出する。抽出した視差情報により右目用の画像信号と左目用の画像信号を作成し、３次元映像信号に変換して、画面に出力している。しかし、２次元の映像信号が視覚的に３次元になったとしても、音声は従来通りであるため、視聴者に３次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうには迫力に欠けるといった課題を有していた。

また、図１３は、特許文献２記載の情報記録装置の構成を示すブロック図である。この情報記録装置は、映像の撮影時に各物体の位置情報をセンサー等で測定し、複数マイクロホンで記録する方式であり、音声情報や画像情報等に位置情報追加といった作業負荷が発生し、しかも複数マイクロホンといった高価な機材を用いるため、コストが掛かる。更に、２次元動画信号を３次元動画信号に変換しようとした場合は、元々の信号に位置情報が付加されていないため、３次元音声信号を提供することができないといった課題を有していた。

本発明はかかる課題を解決するためになされたものであり、以下の構成を有する。

本発明に係る３次元音声信号生成装置は、入力された動画信号を映像信号と音声信号に分離する信号分離部と、前記映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部と、前記音声信号と前記物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを有することを特徴とする。

本発明に係る３次元音声信号生成装置は、前記入力された映像信号が２次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも１つと、高周波成分検出部と輝度成分検出部の少なくとも１つとの組み合わせにより構成されることを特徴とする。

本発明に係る３次元音声信号生成装置は、前記入力された映像信号が３次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする。

本発明に係る３次元音声信号生成装置は、前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする。

本発明に係る３次元音声信号生成装置は、前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする。

本発明に係る３次元音声信号生成装置は、入力された動画信号を映像信号と音声信号に分離する信号分離部と、前記映像信号が２次元映像信号か３次元映像信号かを検出する２次元／３次元映像検出部と、前記映像信号が２次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第一の物体方位・奥行き情報抽出部と、前記映像信号が３次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第二の物体方位・奥行き情報抽出部と、前記音声信号と、第一又は第二の物体方位・奥行き情報抽出部で抽出された物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを有することを特徴とする。

本発明に係る３次元音声信号生成装置の前記第一の物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも１つと、高周波成分検出部と輝度成分検出部の少なくとも１つとの組み合わせにより構成されることを特徴とする。

本発明に係る３次元音声信号生成装置の前記第二の物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする。

本発明に係る３次元音声信号生成装置の前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする。

本発明に係る３次元音声信号生成装置の前記輪郭検出部は、前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする。

本発明に係る３次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、空間伝達関数データベースを参照し、ユーザの視聴形態に応じた３次元音声信号を提供可能であることを特徴とする。

本発明に係る３次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、３次元映像視聴用眼鏡のフレームに取り付けスピーカーにて視聴すること前提に３次元音声信号を生成することを特徴とする。

本発明に係る３次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、３次元映像視聴用眼鏡のフレームに取り付けインナースピーカー又はヘッドホンにて視聴すること前提に３次元音声信号を生成することを特徴とする。

本発明に係る３次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、サラウンドスピーカーにて視聴すること前提に３次元音声信号を生成することを特徴とする。

本発明によれば、一般的なステレオ放送であるデジタル放送やゲーム等の２次元映像信号及び２次元音声信号（ステレオ放送）を３次元映像信号及び３次元音声信号に変換することが可能となり、現実感及び臨場感において迫力のある映像信号及び音声信号を視聴者に提供することが可能となる。

また、入力された映像信号が既に３次元映像信号であった場合には、該映像信号の両眼視差情報を抽出することで画像内にある各物体のおおよその位置と、各物体に対する奥行き情報が抽出できるため、入力された音声信号に対して音声の方位、位相、音量を映像信号に合わせて制御することが可能となる。

実施例１に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。実施例１に係る２次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部の要部構成を示す機能ブロック図である。実施例１に係る１フレームの画像信号を水平方向にｍ個、垂直成分にｎ個の領域に分割した視差算出領域を示す図である。実施例１に係る３次元映像信号を見るためのスピーカー付き３次元映像視聴用眼鏡を示す図である。実施例１に係るダミーヘッドを用いて頭部伝達関数も含めた空間伝達関数を事前に収録する場合の１例を示す図である。実施例２に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。実施例２に係る３次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部の要部構成を示す機能ブロック図である。実施例２に係る奥行き情報の抽出方法を示す図である。実施例３に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。実施例４に係る３次元音声信号をサラウンドスピーカーに出力する際の説明図である。実施例４に係る視差算出領域上での輪郭検出部による人物の顔を輪郭検出した際の説明図である。従来の表示装置の２Ｄ／３Ｄ映像変換装置の全体構成を示すブロック図である。従来の３次元音声を記録するための情報記録装置の構成を示すブロック図である。

以下、本発明をその実施形態を示す図面に基づいて詳述する。

図１は、本発明の実施例１に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。本発明の３次元音声信号生成装置は、テレビや録画再生機、もしくはパーソナルコンピュータ（ＰＣ）等の映像信号及び音声信号を扱う機器に組み込んで使用したり、外部ユニットとして使用したりすることができる。

図１の映像信号と音声信号の混合信号である２次元の動画信号Ｓ_００は、映像・音声処理部１００に入力された後、映像信号と音声信号に分離され、２次元映像信号及び２次元音声信号から３次元映像信号Ｓ_２１と３次元音声信号Ｓ_２２を生成し出力する。前記映像・音声処理部１００は、信号分離部１０１と物体方位・奥行き情報抽出部１０２と、物体方位追加・ゲイン調整部１０３と、３次元映像生成部１０４と、同期調整部１０５から構成される。信号分離部１０１は、前記動画信号Ｓ_００をデコードして、映像信号Ｓ_１１と音声信号Ｓ_１２に分離する。物体方位・奥行き情報抽出部１０２では、前記信号分離部１０１で分離した映像信号Ｓ_１１より物体方位情報と奥行き情報を抽出する。３次元映像生成部１０４では、前記物体方位・奥行き情報抽出部１０２で抽出された各物体方位情報と奥行き情報を基に、物体方位追加・ゲイン調整部１０３では、前記物体方位・奥行き情報抽出部１０２で抽出された各物体方位情報と奥行き情報を基に、前記信号分離部１０１で分離した音声信号Ｓ_１２に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部１０５では、前記３次元映像生成部１０４から出力される映像信号と、前記物体方位追加・ゲイン調整部１０３から出力される音声信号の同期を合わせて、映像・音声処理部１００の出力信号として映像信号Ｓ_２１と音声信号Ｓ_２２が出力される。

図２は、図1に示す物体方位・奥行き情報抽出部１０２の要部構成を示す機能ブロック図である。物体方位・奥行き情報抽出部１０２は、輪郭検出部１１０と、動きベクトル検出部１１１と高周波成分検出部１１２と輝度成分検出部１１３により構成されている。尚、輝度成分検出部１１３は、輝度値積算手段又は輝度コントラスト算出手段の少なくともいずれか１つを含む構成とする。まず、信号分離部１０１によってデコードされ、分離された２次元の映像信号Ｓ_１１に着目する。信号分離部１０１において分離された２次元の映像信号Ｓ_１１は、物体方位・奥行き情報抽出部１０２に入力され、図２のように、２次元映像信号から３次元映像信号に変換するための各情報が検出される。物体方位情報は、輪郭検出部１１０から検出した輪郭情報と、動きベクトル検出部１１１から検出する動きベクトル情報により取得する。奥行き情報は、輪郭検出部１１０から検出した輪郭情報と、動きベクトル検出部１１１から検出する動きベクトル情報と、高周波成分検出部１１２、輝度成分検出部１１３のいずれか１つの情報から処理しても良い。または、精度をあげるため、複数の情報を任意の組み合わせで処理して、奥行き情報を抽出しても良い。ここでは、奥行き情報を抽出するのに高周波成分と輝度成分を記載しているが、これらの代わりに、彩度成分を用いても良いし、これらを組み合わせて処理しても良い。

一般的に、映像は被写体が前方、背景が後方に存在し、ピントは被写体にあっている場合が多い。このため、撮影するカメラに近くに在る物体ほど、高周波成分、コントラスト、輝度及び彩度が高いと考えられる。

図３は、１フレームの画像信号を水平方向にｍ個、垂直成分にｎ個の領域に分割した視差算出領域である。左上部の隅の領域をＡ_1，1とし、右下隅の領域をＡ_ｎ，ｍとして各領域を表す。本発明の装置においては、分割した各領域毎に物体方位情報と奥行き情報を割り当てる。ただし、周波成分値が比較的高い領域、もしくは輝度差の閾値を設定し、その閾値範囲内をある程度(100%でなくても構わない)占めている領域を一つのグループとみなし、そのグループ単位で分割しても良い。

図２記載の輪郭検出部１１０と動きベクトル検出部１１１を用い、既存の人物の輪郭との相関を見ることで、映像信号中の人物の方位情報を得ることが可能である。また、輪郭検出部１１０において検出した人物の輪郭情報の面積が、閾値以上の面積を有する輪郭であれば、前記抽出した人物は、画面の主役（メイン）の人物とみなし、その輪郭を検出した領域を視聴者に一番近い側にある画像と認識する。よって、テレビ画面を奥行き情報の中央とし、視聴者側を手前、逆方向を奥側とした場合、奥行き情報を手前に設定する。尚、複数の人物の輪郭情報を検出した際には、面積が大きい人物ほど、奥行き情報を手前に設定する。ただし、奥側と手前の範囲設定は任意で決定できるものとする。

図２記載の動きベクトル検出部１１１を用いた場合、動きベクトルが検出された領域には物体が存在していると見なす事ができる。よって、動きの大きい物体ほど手前に映っていると考えられるため、動きベクトル検出部１１１で検出した領域の動きベクトルが大きな物体、つまり、動きの大きい物体が表示されている領域を手前に、動きの小さい物体が表示されている領域を奥側に奥行き情報を設定する。

図２記載の高周波成分検出部１１２では、図３で分割された各領域の高周波成分（閾値以上）を積算した結果より、高周波成分の多い領域を検出する。一般的に、画像は被写体にピントを合わせることが多い。よって、被写体は隣り合う画素の輝度差が自然と大きくなるため、高周波成分と判断できる。この高周波成分値が比較的高い領域を手前にする。

輝度成分検出部１１３では、高周波成分検出部１１２と同様に図３で分割された各領域に対する輝度値積算又は輝度コントラストの算出を行う。ここでは、輝度成分検出部１１３で検出した領域の輝度値を用いて奥行き情報を判断する。奥行き情報は、検出した領域の輝度値が高い領域ほど手前に映っていると考えられるため、算出された輝度値により、輝度値の高い領域を手前に輝度値の低い領域を奥側に奥行き情報を設定する。尚、奥行き情報を設定する場合に輝度値の代わりに輝度コントラスト値を用いて判断しても良いし、輝度値と輝度コントラスト値を両方合算して判断しても良い。

次に、映像信号と音声信号の混合信号である２次元の動画信号Ｓ_００から分離した音声信号Ｓ_１２に着目する。放送信号の音声は、一般的に左右２チャネルのステレオ信号になっている場合が多い。本実施例では、この２チャンネルの音声信号に対し、以下方法により方位情報を畳み込む。

まず、２チャンネルの音声信号Ｓ_１２に、対し、周波数領域で分割を行う。実施例では、０〜３００Hzまでの低周波数帯域、０.３〜３.４ｋＨｚの音声帯域及び３.４ｋＨｚより上の高周波数帯域といった３つに分割する。一般的に、人間は低周波音の方位に対して鈍感であるため、方位情報を追加するのは音声帯域と高周波帯域のみとする。

次に、音声帯域信号に対する処理の一例について説明する。図２の輪郭検出部１１０にて人物の輪郭が検出された場合、音声を発している可能性は高い。しかし、音声の存在を確実にするため、音声帯域の音声信号ｘ_Ｌ(t)、ｘ_Ｒ(t)に対し、尖度（Kurtosis）値を用いて音声の有無を判別する。

尖度（Kurtosis）とは、ガウス分布を基準とした振幅の分布の相対的な鋭さ平坦さを表す無次元量であり、一般的に以下の傾向がある。
・音声信号は比較的高い値をとる。
・音楽信号のようなGaussianに近い信号は０に近い値をとる。
・一様分布雑音のようなsub-Gaussianの信号は負の値をとる。

音声信号ｘ_Ｌ(t)、ｘ_Ｒ(t)に対する尖度（Kurtosis）値K(ｘ(t))、K(ｘ(t))は以下になる。

これより、尖度（Kurtosis）値K(ｘ(t))、K(ｘ(t))に対して閾値を決め、音声の有無の判別を行う。

また、輪郭検出部１１０で検出した人物の輪郭が複数ある場合、顔の部分の画像を認識し、口元の動きと音声信号が同期が取れているかどうかを見て、どの人物が話をしているのかどうかを検出し、特定することも可能である。更には、人物の輪郭が男女の見分けがつくような輪郭である場合、音声信号の周波数スペクトラムを分析し、男性の声か女性の声かを特定し、関連付けることも可能である。

次に、音声信号に対する方位情報の追加について説明する。３次元映像は、両眼視差技術を基にして制作され、右目用の画像と左目用の画像を偏光もしくはアクティブシャッターにより左右の眼に応じた画像のみを表示させる３次元映像視聴用眼鏡を用いて見る事により、３次元映像として楽しむことができる。

図４は、スピーカー付きの３次元映像視聴用眼鏡を示す図である。図４（ａ）は、３次元映像視聴用眼鏡のフレームの両サイドにスピーカーを取り付けた場合の例を示す。図４（ｂ）は、３次元映像視聴用眼鏡のフレームの両サイドにインナースピーカーを取り付けた場合の例を示す。

図４（ａ）の３次元映像視聴用眼鏡のフレームに取り付けたスピーカーを用い、３次元音声を視聴するには、通常のステレオ信号に対し、事前に測定された空間伝達関数を基に逆フィルタを畳み込むことで、頭内部で聴こえる音声信号でなく、外部から聞こえる音声信号を生成することが必須条件となる。図４（ｂ）のインナースピーカー、又はヘッドホンを用いる場合は、頭内部で聴こえる音声信号になるため、頭部伝達関数のみを考慮すればよい。

図５は、ダミーヘッドを用いて頭部伝達関数も含めた空間伝達関数を事前に収録する場合の例を示している。また、イメージ法（特定の広さの部屋にいると仮定し、演算により人工的な残響を生成する方法、たとえば、J.B.AllenandD.A.Berkley、"Image Method for Efficiently Simulating Smallroom Acoustics"、J.Acoust.Soc.Am.、vol.65、No.4、pp.943-950、1979.参照）などを用いたシミュレーションを用いた場合も、頭部伝達関数を畳み込めば、擬似的なインパルス応答（空間伝達関数）が得られる。前記方法等により、空間伝達関数データベースを図３で分割した視差算出領域毎に事前に作成しておく。該データベースは、図１の物体方位追加・ゲイン調整部１０３にて保持しておき、物体方位・奥行き情報抽出部１０２から入手した方位情報を用いて、前記空間伝達関数データベースから最適な空間伝達関数を選択して使用する。

例えば、図２の輪郭検出部１１０で検出された輪郭の方位として選択された空間伝達関数がＡ_L(k,ｎ,ｍ)及びＡ_Ｒ(k,ｎ,ｍ)とする。ここで、Ｌ及びＲはそれぞれ左右の耳へ伝達されることを示し、ｋは離散スペクトルの周波数番号、空間伝達関数データベースｍは図５に示される水平到来方位の番号を示し、ｎは鉛直到来方位の番号を表す。ここで得られたｍ、ｎは図３の視差算出領域Ａｎ，ｍのｍ、ｎに相当し、それぞれの視差算出領域毎にそれぞれ空間伝達関数を算出し、空間伝達関数データベースに格納される。

音声帯域の信号ｘ_Ｌ(t)、ｘ_Ｒ(t)を周波数領域に変換した信号Ｘ_Ｌ(k)、Ｘ_Ｒ(k)に対し、以下の出力を得ることができる。（時間領域に戻った場合、ｙ_Ｌ(t)、ｙ_Ｒ(t)）

次に、ゲイン調整について説明する。一般的に、低周波音のゲインは高い傾向にあるため、低周波音に関するゲイン調整は考慮せず、音声周波数帯域の信号と高周波音帯域の信号に着目する。

音声周波数帯域の信号の場合、検出された人物の輪郭が、図３の分割された領域のどれほど占めているか確認し、人物の輪郭が占める領域の大きさに応じて重み係数を変更する。人物の輪郭が占める領域が大きいほど画面の手前にあると判断するため、人物の輪郭が占める領域が大きいほど大きな音になるように設定される。高周波音帯域の信号に関しては、図２の高周波成分検出部１１２、輝度成分検出部１１３で検出された物体が高周波音とみなし、その検出領域の大きさにより重み係数を変更する。すなわち、物体方位・奥行き情報抽出部１０２で抽出された奥行き情報に応じて重み係数を変更し、人物の音声周波数帯域の信号のゲイン調整を行なう。

次に、映像信号Ｓ_１１は、図１の物体方位・奥行き検出手段１０２にて演算されるため、遅延が生じる。同様に、音声信号Ｓ_１２も物体方位・ゲイン調整部１０３にて演算されるため、遅延が生じる。よって、物体方位・奥行き検出手段１０２と物体方位・ゲイン調整部１０３の出力は、同期調整部１０５にて同期調整を行い３次元映像信号Ｓ_２１と３次元音声信号Ｓ_２２として出力される。

２次元の動画信号を３次元の映像信号と３次元音声信号として生成することができるため、既存の２次元映像信号装置の出力端子に直接取り付けるアダプタ形式の装置として提供可能でき、視聴者が簡単に３次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうことが可能となる。また、映像信号の輪郭検出や動きベクトルから抽出した物体方位情報と輪郭情報と動きベクトルと高周波成分と輝度の１つ又は組み合わせから得た奥行き情報により３次元音声信号を生成することができるので、元々の信号に位置情報が付加されていないため、３次元音声信号を提供することができない場合でも３次元音声信号を視聴者が提供することができる。更には、３次元映像視聴用眼鏡のフレームに取り付けたスピーカーを用いて聞くことができるので、外部の雑音が大きい場合でも快適な３次元音声信号を聞くことができ、場所によって音場が変ることがなく、複数の人が同じ音場の環境を楽しむことができる。

図６は、本発明の実施例２に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。映像信号と音声信号の混合信号である３次元の動画信号Ｓ_０１は、映像・音声処理部１２０に入力され、各種処理を施した後、３次元映像信号Ｓ_２１と３次元音声信号Ｓ_２２を生成し出力する。前記映像・音声処理部１２０は、信号分離部１０１と物体方位・奥行き情報抽出部１２１と、物体方位追加・ゲイン調整部１０３と、同期調整部１０５から構成される。信号分離部１０１は、前記動画信号Ｓ_０１をデコードして、映像信号Ｓ’_１１と音声信号Ｓ_１２に分離する。物体方位・奥行き情報抽出部１２１では、前記信号分離部１０１で分離した３次元映像信号Ｓ’_１１より物体方位情報と奥行き情報を抽出する。物体方位追加・ゲイン調整部１０３では、前記物体方位・奥行き情報抽出部１２１で抽出された各物体方位情報と奥行き情報を基に、前記信号分離部１０１で分離した音声信号Ｓ_１２に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部１０５では、３次元映像信号Ｓ’_１１と、前記物体方位追加・ゲイン調整部１０３から出力される音声信号の同期を合わせて、映像・音声処理部１００の出力信号として３次元映像信号Ｓ_２１と３次元音声信号Ｓ_２２が出力される。

図７は、実施例２に係る３次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部１２１の要部構成を示す機能ブロック図である。物体方位・奥行き情報抽出部１２１は、輪郭検出部１２２と画素視差検出部１２３により構成されている。輪郭検出部１２２は、図２の輪郭検出部１１０と同様であり、入力された映像信号より人物の輪郭を検出する。次に、画素視差検出部１２３では３次元用信号の構成を活用し、奥行き情報を抽出する。

ここで、現在主流となっている３次元映像信号の構成としては、サイドバイサイド方式もしくはフレームパッキング方式が挙げられる。両方式に多少の違いはあるが、デコードされた映像信号は、左右の画像を順次に出力することには違いない。つまり、前後の画像から左右それぞれの画像を抽出できるため、その画素差分から奥行き情報を抽出できる。

図８は、奥行き情報の抽出方法を示す図である。この場合、奥行き情報ａは下記式により算出できる。

ｂは視聴者Ｈの目の位置から出力パネルＰまでの距離、視差ｃは視聴者Ｈの左目と右目の間隔、両眼視差ｄは特定の画素である右目用画像Ｒとこれに対する左目用画像ＬのパネルＰ上の間隔を表す。尚、ｂは、パネルＰの表示装置側に距離センサーを備え付け、３次元映像視聴用眼鏡とパネル間の距離を測定し、前記３次元映像視聴用眼鏡から視聴者Ｈの目までの距離（約１．５〜２ｃｍ）を加算して算出すれば良い。または、パネルから見る位置の距離を予め、指定しておき、その位置に合わせるようにしても良い。

ここでaが０より大きい場合（ａ＞０）、その画素はパネルＰのスクリーンの奥側で表示されていることが分かる。逆にaが０より小さい場合（ａ＜０）、パネルＰのスクリーンの手前に表示されている。aが０の場合（ａ＝０）、パネルＰのスクリーンの上に表示されている。

よって、１９２０×１０８０の画素全てにおいて奥行き情報を抽出できれば、図３に示した１フレームの映像信号を水平方向にｍ個、垂直成分にｎ個の領域に分割した視差算出領域であっても、または、奥行き情報の類似した画素同士によるグループであっても、その領域ごとに方位情報とゲイン調整を行うことで３次元音声を生成することができる。その際、図７の輪郭検出部１２２により検出された人物の輪郭の領域に、音声帯域信号が割り当てることが可能である。但し、この場合であっても、尖度（Kurtosis）による音声検出を用いて音声の有無を判別し、その結果を用いて割り当てた方が誤った方位割当が軽減できる。人物の輪郭領域に割り当てられた音声信号は、奥行き情報aにより、３次元音声信号として割り当てられ、奥行き感のある音声が視聴者に提供することができる。

また、３次元の動画信号の音声信号のみを３次元音声信号として生成することができるため、既存の３次元映像信号装置の出力端子に直接取り付けるアダプタ形式の装置として提供可能でき、視聴者が簡単に３次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうことが可能となる。

図９は、実施例３に係る３次元音声信号生成装置の要部構成を示す機能ブロック図である。映像信号と音声信号の混合信号である動画信号Ｓ_０２は、映像・音声処理部１３０に入力され、各種処理を施した後、３次元映像信号Ｓ_２１と３次元音声信号Ｓ_２２を生成し出力する。前記映像・音声処理部１３０は、信号分離部１０１と、２次元／３次元映像検出部１３１と、２次元映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部１０２と、３次元映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部１２１と、物体方位追加・ゲイン調整部１０３と、２次元映像信号より３次元映像信号を生成する３次元映像生成部１０４と、同期調整部１０５から構成される。信号分離部１０１は、前記動画信号Ｓ_０２をデコードして、映像信号Ｓと音声信号Ｓ_１２に分離する。映像信号Ｓは、２次元／３次元映像検出部１３１にて、２次元映像信号なのか３次元映像信号なのか自動的に検出する。２次元の映像信号Ｓ_１１の場合、物体方位・奥行き情報抽出部１０２で物体方位情報と奥行き情報を抽出し、更には、３次元映像生成部１０４で３次元映像信号を生成する。３次元の映像信号Ｓ’_１１の場合、物体方位・奥行き情報抽出部１２１で物体方位情報と奥行き情報を抽出する。前記物体方位・奥行き情報抽出部１０２又は物体方位・奥行き情報抽出部１２１の何れかで抽出された各物体方位情報と奥行き情報を基に、物体方位追加・ゲイン調整部１０３では、前記信号分離部１０１で分離した音声信号Ｓ_１２に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部１０５では、前記３次元映像生成部１０４から出力される映像信号又は３次元の映像信号Ｓ’_１１の何れかの映像信号と、前記物体方位追加・ゲイン調整部１０３から出力される音声信号の同期を合わせて、映像・音声処理部１３０の出力信号として映像信号Ｓ_２１と音声信号Ｓ_２２を出力する。図９の物体方位・奥行き情報抽出部１０２の構成は図２、又、物体方位・奥行き情報抽出部１２１の構成は図７と同じ構成である。

図９の信号分離部１０１で分離された映像信号Ｓを２次元／３次元映像検出部１３１により２次元映像信号なのか３次元映像信号なのかを自動判別して、それぞれの信号に対して、３次元音声を生成する装置であり、入力信号に制約がなく利用できるので大変使い勝手の良い３次元音声信号生成装置として使用可能である。

本発明の実施例１の３次元音声信号生成装置では、図１の物体方位・ゲイン調整部１０３においては、３次元映像視聴用眼鏡にスピーカーを取り付け、頭部伝達関数を基に逆フィルタを畳み込むことで方位情報及び奥行き情報を追加し、３次元音声を生成する例を挙げた。しかし、現在の主流であるサラウンドスピーカーを用いた場合の３次元音声信号の生成例について実施例４として説明する。

図１０は、本発明の実施例４に係る３次元音声信号をサラウンドスピーカーに出力する際の説明図である。サラウンドスピーカーとは、図１０のように、視聴者を中心として複数のスピーカーがあらゆる方位から音声を放出する構成となっている。３次元映像信号を見ながら音声をサラウンドスピーカーで聴ければ、迫力が増すが、一般的に３次元映像信号に対する音声信号は２チャネルのステレオ信号になっている場合が多い。よって、図１の物体方位・奥行き情報抽出部１０２で得た物体方位情報と奥行き情報を活用し、多チャネル信号に変換し、３次元音声信号を生成する。

まず、実施例１と同様に、０〜３００Hzまでの低周波数帯域、０.３〜３.４ｋＨｚの音声帯域及び３.４ｋＨｚより上の高周波数帯域といった３つに分割する。低周波音に関しては、図１０のサブウーハー（SW）から出力させ、その他の帯域の信号に関しては、defaultではLRチャネルの各スピーカーより同一のゲインで出力されるものとする。

図１１は、図３の視差算出領域上で輪郭検出部（１１０又は１２２）により人物の顔の輪郭検出した際の説明図である。例えば図１１のように、中央より左側で輪郭検出があり、かつ尖度（Kurtosis）値が閾値以上であった場合、音声帯域信号ｘ_Ｌ(t)、ｘ_Ｒ(t)に対し、FL、SL、RLから出力されるｘ_Ｌ(t)には、重み係数ｋを１．２として、掛け合わせる。逆に、ｘ_Ｒ(t)が出力されるFR、SR、RRに対しては、重み係数ｋを０．８とし、掛け合わる。前記記載の重み係数ｋは一例であって、視聴者の好みによって変更し、別の組み合わせで設定することも可能である。

さらに、奥行き情報から手前であった場合、スピーカーCから出力されるｘ_L(t)、ｘ_Ｒ(t)それぞれに掛け合わせる重み係数ｋを１より大きくする。逆に奥側であれば、重み係数ｋを１より小さくする。また、高周波音帯域の信号に対しても、画素視差検出部１２３より左右情報及び奥行き情報を得られるため、重み係数ｋを連動させて、多チャネル信号に変換して３次元音声信号を生成し、出力させることができる。

従って、３次元映像信号を見ながら迫力のある３次元音声信号をサラウンドスピーカーで聴くことも可能である。

以上、本発明の３次元音声信号を生成する装置は、実施例１〜実施例４で説明した内容に限定される必要はなく、テレビや録画再生機、パーソナルコンピュータ（ＰＣ）等に組み込んで使用したり、外部ユニットとして使用したりすることができる。また、本発明はＣＡＴＶ等のセットトップボックス、カーナビゲーション、携帯電話、電子辞書、電子書籍等の映像信号と音声信号を取り扱う機器について広く適用できる。

本発明にかかる３次元音声信号生成装置は、２次元映像から３次元映像を生成する処理より得た情報、もしくは３次元映像情報から映像内の人物位置と奥行き情報を抽出し、該奥行き情報を基に２次元音声信号から３次元音声信号を生成する装置に関する。

１００、１２０、１３０映像・音声処理部
１０１信号分離部
１０２、１２１物体方位・奥行き情報抽出部
１０３物体方位追加・ゲイン調整部
１０４３次元映像生成部
１０５同期調整部
１１０、１２２輪郭検出部
１１１動きベクトル検出部
１１２高周波成分検出部
１１３輝度成分検出部
１２３画素視差検出部
１３１２次元／３次元映像検出部
Ｓ_００、Ｓ_０１、Ｓ_０２動画信号
Ｓ、Ｓ_１１、Ｓ’_１１、Ｓ_２１映像信号
Ｓ_１２、Ｓ_２２音声信号

Claims

入力された動画信号を映像信号と音声信号に分離する信号分離部と、
前記映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部と、
前記音声信号と前記物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを
有することを特徴とする３次元音声信号生成装置。
前記入力された映像信号が２次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも１つと、高周波成分検出部と輝度成分検出部の少なくとも１つとの組み合わせにより構成されることを特徴とする請求項１記載の３次元音声信号生成装置。
前記入力された映像信号が３次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする請求項１記載の３次元音声信号生成装置。
前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする請求項２又は３記載の３次元音声信号生成装置。
前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする請求項４記載の３次元音声信号生成装置。
入力された動画信号を映像信号と音声信号に分離する信号分離部と、
前記映像信号が２次元映像信号か３次元映像信号かを検出する２次元／３次元映像検出部と、
前記映像信号が２次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第一の物体方位・奥行き情報抽出部と、
前記映像信号が３次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第二の物体方位・奥行き情報抽出部と、
前記音声信号と、第一又は第二の物体方位・奥行き情報抽出部で抽出された物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを
有することを特徴とする３次元音声信号生成装置。
前記第一の物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも１つと、高周波成分検出部と輝度成分検出部の少なくとも１つとの組み合わせにより構成されることを特徴とする請求項６記載の３次元音声信号生成装置。
前記第二の物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする請求項６記載の３次元音声信号生成装置。
前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする請求項７又は８記載の３次元音声信号生成装置。
前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする請求項９記載の３次元音声信号生成装置。
請求項１及至１０記載の３次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、空間伝達関数データベースを参照し、ユーザの視聴形態に応じた３次元音声信号を提供可能であることを特徴とする３次元音声信号生成装置。
請求項１１記載の３次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、３次元映像視聴用眼鏡のフレームに取り付けスピーカーにて視聴すること前提に３次元音声信号を生成することを特徴とする３次元音声信号生成装置。
請求項１及至１０記載の３次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、３次元映像視聴用眼鏡のフレームに取り付けインナースピーカー又はヘッドホンにて視聴すること前提に３次元音声信号を生成することを特徴とする３次元音声信号生成装置。
請求項１及至１０記載の３次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、サラウンドスピーカーにて視聴すること前提に３次元音声信号を生成することを特徴とする３次元音声信号生成装置。