JP2011234139A - 3次元音声信号生成装置 - Google Patents

3次元音声信号生成装置 Download PDF

Info

Publication number
JP2011234139A
JP2011234139A JP2010102783A JP2010102783A JP2011234139A JP 2011234139 A JP2011234139 A JP 2011234139A JP 2010102783 A JP2010102783 A JP 2010102783A JP 2010102783 A JP2010102783 A JP 2010102783A JP 2011234139 A JP2011234139 A JP 2011234139A
Authority
JP
Japan
Prior art keywords
audio signal
dimensional
depth information
video signal
detection unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010102783A
Other languages
English (en)
Inventor
Yasuaki Ohashi
靖明 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010102783A priority Critical patent/JP2011234139A/ja
Publication of JP2011234139A publication Critical patent/JP2011234139A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Headphones And Earphones (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】2次元映像信号が視覚的に3次元になったとしても、音声は従来通りであるため、視聴者に3次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうには迫力に欠けるといった課題を有していた。映像信号内にある物体(特に人物)や背景の位置や奥行き状態に応じ、臨場感を高めることのできる位置と奥行きが連動された3次元の音声信号を提供する。
【解決手段】2次元映像から3次元映像への変換処理(動きベクトルや高周波成分の抽出)の情報から画面の奥行き情報を取得し、その情報を基に3次元映像になるように画素を移動させ、その物***置情報及び奥行き情報が抽出できる。これらの物***置情報及び奥行き情報を用い、音声の方位、位相、音量を制御し、2次元音声信号から3次元音声信号を生成する。
【選択図】図1

Description

本発明は、2次元映像から3次元映像を生成する処理より得た情報、もしくは3次元映像情報から映像内の人物位置と奥行き情報を抽出し、該奥行き情報を基に2次元音声信号から3次元音声信号を生成する装置に関する。
近年、映像技術の発展により、3次元映像として制作されたコンテンツや2次元映像として制作された番組を臨場感あふれる3次元映像として表示する3次元映像装置の普及が期待されている。3次元映像は、両眼視差技術を基にして、右目用の画像と左目用の画像とを別々に作成している。3次元映像装置では、この右目用の画像と左目用の画像を交互に切り換えて表示し、切替タイミングに同期した画像を3次元映像視聴用眼鏡を用いて見ることにより、3次元映像を楽しむことができる。
2次元映像信号を3次元映像信号に変換する方法として、例えば、特許文献1においては、以下の技術が開示されている。2次元映像信号の各フィールド画面内に設定された複数の視差算出領域のそれぞれに対して、映像の遠近に関する画像特徴量を抽出し、この画像特徴量に基づいて、単位領域毎に視差情報を生成し、所定単位領域に対応する視差情報に応じた水平位相差を有する右目用及び左目用の画像信号生成し、3次元映像信号として表示する。
また、特許文献2においては、音声情報や画像情報等に音源や被写体の位置に関する情報を付加して記録し、これらの情報を利用し、視聴者に現実感や立体感のある音声情報を与えることができる情報記録装置の技術が開示されている。
特開平10−51812 特開2004−32726
図12は、特許文献1記載の2D/3D映像変換装置の全体構成を示すブロック図である。該装置では、入力された2次元の映像信号から、映像の遠近に関する画像特徴量(高周波成分積算値、輝度コントラスト、輝度積算値及び彩度積算値)をそれぞれの回路で算出し、算出された特徴量を基に視差情報を抽出する。抽出した視差情報により右目用の画像信号と左目用の画像信号を作成し、3次元映像信号に変換して、画面に出力している。しかし、2次元の映像信号が視覚的に3次元になったとしても、音声は従来通りであるため、視聴者に3次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうには迫力に欠けるといった課題を有していた。
また、図13は、特許文献2記載の情報記録装置の構成を示すブロック図である。この情報記録装置は、映像の撮影時に各物体の位置情報をセンサー等で測定し、複数マイクロホンで記録する方式であり、音声情報や画像情報等に位置情報追加といった作業負荷が発生し、しかも複数マイクロホンといった高価な機材を用いるため、コストが掛かる。更に、2次元動画信号を3次元動画信号に変換しようとした場合は、元々の信号に位置情報が付加されていないため、3次元音声信号を提供することができないといった課題を有していた。
本発明はかかる課題を解決するためになされたものであり、以下の構成を有する。
本発明に係る3次元音声信号生成装置は、入力された動画信号を映像信号と音声信号に分離する信号分離部と、前記映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部と、前記音声信号と前記物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを有することを特徴とする。
本発明に係る3次元音声信号生成装置は、前記入力された映像信号が2次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも1つと、高周波成分検出部と輝度成分検出部の少なくとも1つとの組み合わせにより構成されることを特徴とする。
本発明に係る3次元音声信号生成装置は、前記入力された映像信号が3次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする。
本発明に係る3次元音声信号生成装置は、前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする。
本発明に係る3次元音声信号生成装置は、前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする。
本発明に係る3次元音声信号生成装置は、入力された動画信号を映像信号と音声信号に分離する信号分離部と、前記映像信号が2次元映像信号か3次元映像信号かを検出する2次元/3次元映像検出部と、前記映像信号が2次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第一の物体方位・奥行き情報抽出部と、前記映像信号が3次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第二の物体方位・奥行き情報抽出部と、前記音声信号と、第一又は第二の物体方位・奥行き情報抽出部で抽出された物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを有することを特徴とする。
本発明に係る3次元音声信号生成装置の前記第一の物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも1つと、高周波成分検出部と輝度成分検出部の少なくとも1つとの組み合わせにより構成されることを特徴とする。
本発明に係る3次元音声信号生成装置の前記第二の物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする。
本発明に係る3次元音声信号生成装置の前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする。
本発明に係る3次元音声信号生成装置の前記輪郭検出部は、前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする。
本発明に係る3次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、空間伝達関数データベースを参照し、ユーザの視聴形態に応じた3次元音声信号を提供可能であることを特徴とする。
本発明に係る3次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、3次元映像視聴用眼鏡のフレームに取り付けスピーカーにて視聴すること前提に3次元音声信号を生成することを特徴とする。
本発明に係る3次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、3次元映像視聴用眼鏡のフレームに取り付けインナースピーカー又はヘッドホンにて視聴すること前提に3次元音声信号を生成することを特徴とする。
本発明に係る3次元音声信号生成装置の前記物体方位追加・ゲイン調整部は、サラウンドスピーカーにて視聴すること前提に3次元音声信号を生成することを特徴とする。
本発明によれば、一般的なステレオ放送であるデジタル放送やゲーム等の2次元映像信号及び2次元音声信号(ステレオ放送)を3次元映像信号及び3次元音声信号に変換することが可能となり、現実感及び臨場感において迫力のある映像信号及び音声信号を視聴者に提供することが可能となる。
また、入力された映像信号が既に3次元映像信号であった場合には、該映像信号の両眼視差情報を抽出することで画像内にある各物体のおおよその位置と、各物体に対する奥行き情報が抽出できるため、入力された音声信号に対して音声の方位、位相、音量を映像信号に合わせて制御することが可能となる。
実施例1に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。 実施例1に係る2次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部の要部構成を示す機能ブロック図である。 実施例1に係る1フレームの画像信号を水平方向にm個、垂直成分にn個の領域に分割した視差算出領域を示す図である。 実施例1に係る3次元映像信号を見るためのスピーカー付き3次元映像視聴用眼鏡を示す図である。 実施例1に係るダミーヘッドを用いて頭部伝達関数も含めた空間伝達関数を事前に収録する場合の1例を示す図である。 実施例2に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。 実施例2に係る3次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部の要部構成を示す機能ブロック図である。 実施例2に係る奥行き情報の抽出方法を示す図である。 実施例3に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。 実施例4に係る3次元音声信号をサラウンドスピーカーに出力する際の説明図である。 実施例4に係る視差算出領域上での輪郭検出部による人物の顔を輪郭検出した際の説明図である。 従来の表示装置の2D/3D映像変換装置の全体構成を示すブロック図である。 従来の3次元音声を記録するための情報記録装置の構成を示すブロック図である。
以下、本発明をその実施形態を示す図面に基づいて詳述する。
図1は、本発明の実施例1に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。本発明の3次元音声信号生成装置は、テレビや録画再生機、もしくはパーソナルコンピュータ(PC)等の映像信号及び音声信号を扱う機器に組み込んで使用したり、外部ユニットとして使用したりすることができる。
図1の映像信号と音声信号の混合信号である2次元の動画信号S00は、映像・音声処理部100に入力された後、映像信号と音声信号に分離され、2次元映像信号及び2次元音声信号から3次元映像信号S21と3次元音声信号S22を生成し出力する。前記映像・音声処理部100は、信号分離部101と物体方位・奥行き情報抽出部102と、物体方位追加・ゲイン調整部103と、3次元映像生成部104と、同期調整部105から構成される。信号分離部101は、前記動画信号S00をデコードして、映像信号S11と音声信号S12に分離する。物体方位・奥行き情報抽出部102では、前記信号分離部101で分離した映像信号S11より物体方位情報と奥行き情報を抽出する。3次元映像生成部104では、前記物体方位・奥行き情報抽出部102で抽出された各物体方位情報と奥行き情報を基に、物体方位追加・ゲイン調整部103では、前記物体方位・奥行き情報抽出部102で抽出された各物体方位情報と奥行き情報を基に、前記信号分離部101で分離した音声信号S12に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部105では、前記3次元映像生成部104から出力される映像信号と、前記物体方位追加・ゲイン調整部103から出力される音声信号の同期を合わせて、映像・音声処理部100の出力信号として映像信号S21と音声信号S22が出力される。
図2は、図1に示す物体方位・奥行き情報抽出部102の要部構成を示す機能ブロック図である。物体方位・奥行き情報抽出部102は、輪郭検出部110と、動きベクトル検出部111と高周波成分検出部112と輝度成分検出部113により構成されている。尚、輝度成分検出部113は、輝度値積算手段又は輝度コントラスト算出手段の少なくともいずれか1つを含む構成とする。まず、信号分離部101によってデコードされ、分離された2次元の映像信号S11に着目する。信号分離部101において分離された2次元の映像信号S11は、物体方位・奥行き情報抽出部102に入力され、図2のように、2次元映像信号から3次元映像信号に変換するための各情報が検出される。物体方位情報は、輪郭検出部110から検出した輪郭情報と、動きベクトル検出部111から検出する動きベクトル情報により取得する。奥行き情報は、輪郭検出部110から検出した輪郭情報と、動きベクトル検出部111から検出する動きベクトル情報と、高周波成分検出部112、輝度成分検出部113のいずれか1つの情報から処理しても良い。または、精度をあげるため、複数の情報を任意の組み合わせで処理して、奥行き情報を抽出しても良い。ここでは、奥行き情報を抽出するのに高周波成分と輝度成分を記載しているが、これらの代わりに、彩度成分を用いても良いし、これらを組み合わせて処理しても良い。
一般的に、映像は被写体が前方、背景が後方に存在し、ピントは被写体にあっている場合が多い。このため、撮影するカメラに近くに在る物体ほど、高周波成分、コントラスト、輝度及び彩度が高いと考えられる。
図3は、1フレームの画像信号を水平方向にm個、垂直成分にn個の領域に分割した視差算出領域である。左上部の隅の領域をA1,1とし、右下隅の領域をAn,mとして各領域を表す。本発明の装置においては、分割した各領域毎に物体方位情報と奥行き情報を割り当てる。ただし、周波成分値が比較的高い領域、もしくは輝度差の閾値を設定し、その閾値範囲内をある程度(100%でなくても構わない)占めている領域を一つのグループとみなし、そのグループ単位で分割しても良い。
図2記載の輪郭検出部110と動きベクトル検出部111を用い、既存の人物の輪郭との相関を見ることで、映像信号中の人物の方位情報を得ることが可能である。また、輪郭検出部110において検出した人物の輪郭情報の面積が、閾値以上の面積を有する輪郭であれば、前記抽出した人物は、画面の主役(メイン)の人物とみなし、その輪郭を検出した領域を視聴者に一番近い側にある画像と認識する。よって、テレビ画面を奥行き情報の中央とし、視聴者側を手前、逆方向を奥側とした場合、奥行き情報を手前に設定する。尚、複数の人物の輪郭情報を検出した際には、面積が大きい人物ほど、奥行き情報を手前に設定する。ただし、奥側と手前の範囲設定は任意で決定できるものとする。
図2記載の動きベクトル検出部111を用いた場合、動きベクトルが検出された領域には物体が存在していると見なす事ができる。よって、動きの大きい物体ほど手前に映っていると考えられるため、動きベクトル検出部111で検出した領域の動きベクトルが大きな物体、つまり、動きの大きい物体が表示されている領域を手前に、動きの小さい物体が表示されている領域を奥側に奥行き情報を設定する。
図2記載の高周波成分検出部112では、図3で分割された各領域の高周波成分(閾値以上)を積算した結果より、高周波成分の多い領域を検出する。一般的に、画像は被写体にピントを合わせることが多い。よって、被写体は隣り合う画素の輝度差が自然と大きくなるため、高周波成分と判断できる。この高周波成分値が比較的高い領域を手前にする。
輝度成分検出部113では、高周波成分検出部112と同様に図3で分割された各領域に対する輝度値積算又は輝度コントラストの算出を行う。ここでは、輝度成分検出部113で検出した領域の輝度値を用いて奥行き情報を判断する。奥行き情報は、検出した領域の輝度値が高い領域ほど手前に映っていると考えられるため、算出された輝度値により、輝度値の高い領域を手前に輝度値の低い領域を奥側に奥行き情報を設定する。尚、奥行き情報を設定する場合に輝度値の代わりに輝度コントラスト値を用いて判断しても良いし、輝度値と輝度コントラスト値を両方合算して判断しても良い。
次に、映像信号と音声信号の混合信号である2次元の動画信号S00から分離した音声信号S12に着目する。放送信号の音声は、一般的に左右2チャネルのステレオ信号になっている場合が多い。本実施例では、この2チャンネルの音声信号に対し、以下方法により方位情報を畳み込む。
まず、2チャンネルの音声信号S12に、対し、周波数領域で分割を行う。実施例では、0〜300Hzまでの低周波数帯域、0.3〜3.4kHzの音声帯域及び3.4kHzより上の高周波数帯域といった3つに分割する。一般的に、人間は低周波音の方位に対して鈍感であるため、方位情報を追加するのは音声帯域と高周波帯域のみとする。
次に、音声帯域信号に対する処理の一例について説明する。図2の輪郭検出部110にて人物の輪郭が検出された場合、音声を発している可能性は高い。しかし、音声の存在を確実にするため、音声帯域の音声信号x(t)、x(t)に対し、尖度(Kurtosis)値を用いて音声の有無を判別する。
尖度(Kurtosis)とは、ガウス分布を基準とした振幅の分布の相対的な鋭さ平坦さを表す無次元量であり、一般的に以下の傾向がある。
・音声信号は比較的高い値をとる。
・音楽信号のようなGaussianに近い信号は0に近い値をとる。
・一様分布雑音のようなsub-Gaussianの信号は負の値をとる。
音声信号x(t)、x(t)に対する尖度(Kurtosis)値K(x(t))、K(x(t))は以下になる。
これより、尖度(Kurtosis)値K(x(t))、K(x(t))に対して閾値を決め、音声の有無の判別を行う。
また、輪郭検出部110で検出した人物の輪郭が複数ある場合、顔の部分の画像を認識し、口元の動きと音声信号が同期が取れているかどうかを見て、どの人物が話をしているのかどうかを検出し、特定することも可能である。更には、人物の輪郭が男女の見分けがつくような輪郭である場合、音声信号の周波数スペクトラムを分析し、男性の声か女性の声かを特定し、関連付けることも可能である。
次に、音声信号に対する方位情報の追加について説明する。3次元映像は、両眼視差技術を基にして制作され、右目用の画像と左目用の画像を偏光もしくはアクティブシャッターにより左右の眼に応じた画像のみを表示させる3次元映像視聴用眼鏡を用いて見る事により、3次元映像として楽しむことができる。
図4は、スピーカー付きの3次元映像視聴用眼鏡を示す図である。図4(a)は、3次元映像視聴用眼鏡のフレームの両サイドにスピーカーを取り付けた場合の例を示す。図4(b)は、3次元映像視聴用眼鏡のフレームの両サイドにインナースピーカーを取り付けた場合の例を示す。
図4(a)の3次元映像視聴用眼鏡のフレームに取り付けたスピーカーを用い、3次元音声を視聴するには、通常のステレオ信号に対し、事前に測定された空間伝達関数を基に逆フィルタを畳み込むことで、頭内部で聴こえる音声信号でなく、外部から聞こえる音声信号を生成することが必須条件となる。図4(b)のインナースピーカー、又はヘッドホンを用いる場合は、頭内部で聴こえる音声信号になるため、頭部伝達関数のみを考慮すればよい。
図5は、ダミーヘッドを用いて頭部伝達関数も含めた空間伝達関数を事前に収録する場合の例を示している。また、イメージ法(特定の広さの部屋にいると仮定し、演算により人工的な残響を生成する方法、たとえば、J.B.AllenandD.A.Berkley、"Image Method for Efficiently Simulating Smallroom Acoustics"、J.Acoust.Soc.Am.、vol.65、No.4、pp.943-950、1979.参照)などを用いたシミュレーションを用いた場合も、頭部伝達関数を畳み込めば、擬似的なインパルス応答(空間伝達関数)が得られる。前記方法等により、空間伝達関数データベースを図3で分割した視差算出領域毎に事前に作成しておく。該データベースは、図1の物体方位追加・ゲイン調整部103にて保持しておき、物体方位・奥行き情報抽出部102から入手した方位情報を用いて、前記空間伝達関数データベースから最適な空間伝達関数を選択して使用する。
例えば、図2の輪郭検出部110で検出された輪郭の方位として選択された空間伝達関数がAL(k,n,m)及びA(k,n,m)とする。ここで、L及びRはそれぞれ左右の耳へ伝達されることを示し、kは離散スペクトルの周波数番号、空間伝達関数データベースmは図5に示される水平到来方位の番号を示し、nは鉛直到来方位の番号を表す。ここで得られたm、nは図3の視差算出領域An,mのm、nに相当し、それぞれの視差算出領域毎にそれぞれ空間伝達関数を算出し、空間伝達関数データベースに格納される。
音声帯域の信号x(t)、x(t)を周波数領域に変換した信号X(k)、X(k)に対し、以下の出力を得ることができる。(時間領域に戻った場合、y(t)、y(t))
次に、ゲイン調整について説明する。一般的に、低周波音のゲインは高い傾向にあるため、低周波音に関するゲイン調整は考慮せず、音声周波数帯域の信号と高周波音帯域の信号に着目する。
音声周波数帯域の信号の場合、検出された人物の輪郭が、図3の分割された領域のどれほど占めているか確認し、人物の輪郭が占める領域の大きさに応じて重み係数を変更する。人物の輪郭が占める領域が大きいほど画面の手前にあると判断するため、人物の輪郭が占める領域が大きいほど大きな音になるように設定される。高周波音帯域の信号に関しては、図2の高周波成分検出部112、輝度成分検出部113で検出された物体が高周波音とみなし、その検出領域の大きさにより重み係数を変更する。すなわち、物体方位・奥行き情報抽出部102で抽出された奥行き情報に応じて重み係数を変更し、人物の音声周波数帯域の信号のゲイン調整を行なう。
次に、映像信号S11は、図1の物体方位・奥行き検出手段102にて演算されるため、遅延が生じる。同様に、音声信号S12も物体方位・ゲイン調整部103にて演算されるため、遅延が生じる。よって、物体方位・奥行き検出手段102と物体方位・ゲイン調整部103の出力は、同期調整部105にて同期調整を行い3次元映像信号S21と3次元音声信号S22として出力される。
2次元の動画信号を3次元の映像信号と3次元音声信号として生成することができるため、既存の2次元映像信号装置の出力端子に直接取り付けるアダプタ形式の装置として提供可能でき、視聴者が簡単に3次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうことが可能となる。また、映像信号の輪郭検出や動きベクトルから抽出した物体方位情報と輪郭情報と動きベクトルと高周波成分と輝度の1つ又は組み合わせから得た奥行き情報により3次元音声信号を生成することができるので、元々の信号に位置情報が付加されていないため、3次元音声信号を提供することができない場合でも3次元音声信号を視聴者が提供することができる。更には、3次元映像視聴用眼鏡のフレームに取り付けたスピーカーを用いて聞くことができるので、外部の雑音が大きい場合でも快適な3次元音声信号を聞くことができ、場所によって音場が変ることがなく、複数の人が同じ音場の環境を楽しむことができる。
図6は、本発明の実施例2に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。映像信号と音声信号の混合信号である3次元の動画信号S01は、映像・音声処理部120に入力され、各種処理を施した後、3次元映像信号S21と3次元音声信号S22を生成し出力する。前記映像・音声処理部120は、信号分離部101と物体方位・奥行き情報抽出部121と、物体方位追加・ゲイン調整部103と、同期調整部105から構成される。信号分離部101は、前記動画信号S01をデコードして、映像信号S’11と音声信号S12に分離する。物体方位・奥行き情報抽出部121では、前記信号分離部101で分離した3次元映像信号S’11より物体方位情報と奥行き情報を抽出する。物体方位追加・ゲイン調整部103では、前記物体方位・奥行き情報抽出部121で抽出された各物体方位情報と奥行き情報を基に、前記信号分離部101で分離した音声信号S12に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部105では、3次元映像信号S’11と、前記物体方位追加・ゲイン調整部103から出力される音声信号の同期を合わせて、映像・音声処理部100の出力信号として3次元映像信号S21と3次元音声信号S22が出力される。
図7は、実施例2に係る3次元映像信号から物体方位情報や奥行き情報を抽出する物体方位・奥行き情報抽出部121の要部構成を示す機能ブロック図である。物体方位・奥行き情報抽出部121は、輪郭検出部122と画素視差検出部123により構成されている。輪郭検出部122は、図2の輪郭検出部110と同様であり、入力された映像信号より人物の輪郭を検出する。次に、画素視差検出部123では3次元用信号の構成を活用し、奥行き情報を抽出する。
ここで、現在主流となっている3次元映像信号の構成としては、サイドバイサイド方式もしくはフレームパッキング方式が挙げられる。両方式に多少の違いはあるが、デコードされた映像信号は、左右の画像を順次に出力することには違いない。つまり、前後の画像から左右それぞれの画像を抽出できるため、その画素差分から奥行き情報を抽出できる。
図8は、奥行き情報の抽出方法を示す図である。この場合、奥行き情報aは下記式により算出できる。
bは視聴者Hの目の位置から出力パネルPまでの距離、視差cは視聴者Hの左目と右目の間隔、両眼視差dは特定の画素である右目用画像Rとこれに対する左目用画像LのパネルP上の間隔を表す。尚、bは、パネルPの表示装置側に距離センサーを備え付け、3次元映像視聴用眼鏡とパネル間の距離を測定し、前記3次元映像視聴用眼鏡から視聴者Hの目までの距離(約1.5〜2cm)を加算して算出すれば良い。または、パネルから見る位置の距離を予め、指定しておき、その位置に合わせるようにしても良い。
ここでaが0より大きい場合(a>0)、その画素はパネルPのスクリーンの奥側で表示されていることが分かる。逆にaが0より小さい場合(a<0)、パネルPのスクリーンの手前に表示されている。aが0の場合(a=0)、パネルPのスクリーンの上に表示されている。
よって、1920×1080の画素全てにおいて奥行き情報を抽出できれば、図3に示した1フレームの映像信号を水平方向にm個、垂直成分にn個の領域に分割した視差算出領域であっても、または、奥行き情報の類似した画素同士によるグループであっても、その領域ごとに方位情報とゲイン調整を行うことで3次元音声を生成することができる。その際、図7の輪郭検出部122により検出された人物の輪郭の領域に、音声帯域信号が割り当てることが可能である。但し、この場合であっても、尖度(Kurtosis)による音声検出を用いて音声の有無を判別し、その結果を用いて割り当てた方が誤った方位割当が軽減できる。人物の輪郭領域に割り当てられた音声信号は、奥行き情報aにより、3次元音声信号として割り当てられ、奥行き感のある音声が視聴者に提供することができる。
また、3次元の動画信号の音声信号のみを3次元音声信号として生成することができるため、既存の3次元映像信号装置の出力端子に直接取り付けるアダプタ形式の装置として提供可能でき、視聴者が簡単に3次元の動画信号本来の現実感や臨場感、迫力のある映像を味わうことが可能となる。
図9は、実施例3に係る3次元音声信号生成装置の要部構成を示す機能ブロック図である。映像信号と音声信号の混合信号である動画信号S02は、映像・音声処理部130に入力され、各種処理を施した後、3次元映像信号S21と3次元音声信号S22を生成し出力する。前記映像・音声処理部130は、信号分離部101と、2次元/3次元映像検出部131と、2次元映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部102と、3次元映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部121と、物体方位追加・ゲイン調整部103と、2次元映像信号より3次元映像信号を生成する3次元映像生成部104と、同期調整部105から構成される。信号分離部101は、前記動画信号S02をデコードして、映像信号Sと音声信号S12に分離する。映像信号Sは、2次元/3次元映像検出部131にて、2次元映像信号なのか3次元映像信号なのか自動的に検出する。2次元の映像信号S11の場合、物体方位・奥行き情報抽出部102で物体方位情報と奥行き情報を抽出し、更には、3次元映像生成部104で3次元映像信号を生成する。3次元の映像信号S’11の場合、物体方位・奥行き情報抽出部121で物体方位情報と奥行き情報を抽出する。前記物体方位・奥行き情報抽出部102又は物体方位・奥行き情報抽出部121の何れかで抽出された各物体方位情報と奥行き情報を基に、物体方位追加・ゲイン調整部103では、前記信号分離部101で分離した音声信号S12に前記物体方位情報を追加し、もしくはゲインの調整を行う。同期調整部105では、前記3次元映像生成部104から出力される映像信号又は3次元の映像信号S’11の何れかの映像信号と、前記物体方位追加・ゲイン調整部103から出力される音声信号の同期を合わせて、映像・音声処理部130の出力信号として映像信号S21と音声信号S22を出力する。図9の物体方位・奥行き情報抽出部102の構成は図2、又、物体方位・奥行き情報抽出部121の構成は図7と同じ構成である。
図9の信号分離部101で分離された映像信号Sを2次元/3次元映像検出部131により2次元映像信号なのか3次元映像信号なのかを自動判別して、それぞれの信号に対して、3次元音声を生成する装置であり、入力信号に制約がなく利用できるので大変使い勝手の良い3次元音声信号生成装置として使用可能である。
本発明の実施例1の3次元音声信号生成装置では、図1の物体方位・ゲイン調整部103においては、3次元映像視聴用眼鏡にスピーカーを取り付け、頭部伝達関数を基に逆フィルタを畳み込むことで方位情報及び奥行き情報を追加し、3次元音声を生成する例を挙げた。しかし、現在の主流であるサラウンドスピーカーを用いた場合の3次元音声信号の生成例について実施例4として説明する。
図10は、本発明の実施例4に係る3次元音声信号をサラウンドスピーカーに出力する際の説明図である。サラウンドスピーカーとは、図10のように、視聴者を中心として複数のスピーカーがあらゆる方位から音声を放出する構成となっている。3次元映像信号を見ながら音声をサラウンドスピーカーで聴ければ、迫力が増すが、一般的に3次元映像信号に対する音声信号は2チャネルのステレオ信号になっている場合が多い。よって、図1の物体方位・奥行き情報抽出部102で得た物体方位情報と奥行き情報を活用し、多チャネル信号に変換し、3次元音声信号を生成する。
まず、実施例1と同様に、0〜300Hzまでの低周波数帯域、0.3〜3.4kHzの音声帯域及び3.4kHzより上の高周波数帯域といった3つに分割する。低周波音に関しては、図10のサブウーハー(SW)から出力させ、その他の帯域の信号に関しては、defaultではLRチャネルの各スピーカーより同一のゲインで出力されるものとする。
図11は、図3の視差算出領域上で輪郭検出部(110又は122)により人物の顔の輪郭検出した際の説明図である。例えば図11のように、中央より左側で輪郭検出があり、かつ尖度(Kurtosis)値が閾値以上であった場合、音声帯域信号x(t)、x(t)に対し、FL、SL、RLから出力されるx(t)には、重み係数kを1.2として、掛け合わせる。逆に、x(t)が出力されるFR、SR、RRに対しては、重み係数kを0.8とし、掛け合わる。前記記載の重み係数kは一例であって、視聴者の好みによって変更し、別の組み合わせで設定することも可能である。
さらに、奥行き情報から手前であった場合、スピーカーCから出力されるxL(t)、x(t)それぞれに掛け合わせる重み係数kを1より大きくする。逆に奥側であれば、重み係数kを1より小さくする。また、高周波音帯域の信号に対しても、画素視差検出部123より左右情報及び奥行き情報を得られるため、重み係数kを連動させて、多チャネル信号に変換して3次元音声信号を生成し、出力させることができる。
従って、3次元映像信号を見ながら迫力のある3次元音声信号をサラウンドスピーカーで聴くことも可能である。
以上、本発明の3次元音声信号を生成する装置は、実施例1〜実施例4で説明した内容に限定される必要はなく、テレビや録画再生機、パーソナルコンピュータ(PC)等に組み込んで使用したり、外部ユニットとして使用したりすることができる。また、本発明はCATV等のセットトップボックス、カーナビゲーション、携帯電話、電子辞書、電子書籍等の映像信号と音声信号を取り扱う機器について広く適用できる。
本発明にかかる3次元音声信号生成装置は、2次元映像から3次元映像を生成する処理より得た情報、もしくは3次元映像情報から映像内の人物位置と奥行き情報を抽出し、該奥行き情報を基に2次元音声信号から3次元音声信号を生成する装置に関する。
100、120、130 映像・音声処理部
101 信号分離部
102、121 物体方位・奥行き情報抽出部
103 物体方位追加・ゲイン調整部
104 3次元映像生成部
105 同期調整部
110、122 輪郭検出部
111 動きベクトル検出部
112 高周波成分検出部
113 輝度成分検出部
123 画素視差検出部
131 2次元/3次元映像検出部
00、S01、S02 動画信号
S、S11、S’11、S21 映像信号
12、S22 音声信号

Claims (14)

  1. 入力された動画信号を映像信号と音声信号に分離する信号分離部と、
    前記映像信号より物体方位情報と奥行き情報を抽出する物体方位・奥行き情報抽出部と、
    前記音声信号と前記物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを
    有することを特徴とする3次元音声信号生成装置。
  2. 前記入力された映像信号が2次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも1つと、高周波成分検出部と輝度成分検出部の少なくとも1つとの組み合わせにより構成されることを特徴とする請求項1記載の3次元音声信号生成装置。
  3. 前記入力された映像信号が3次元の映像信号の場合、前記物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする請求項1記載の3次元音声信号生成装置。
  4. 前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする請求項2又は3記載の3次元音声信号生成装置。
  5. 前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする請求項4記載の3次元音声信号生成装置。
  6. 入力された動画信号を映像信号と音声信号に分離する信号分離部と、
    前記映像信号が2次元映像信号か3次元映像信号かを検出する2次元/3次元映像検出部と、
    前記映像信号が2次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第一の物体方位・奥行き情報抽出部と、
    前記映像信号が3次元の映像信号の場合に、物体方位情報と奥行き情報を抽出する第二の物体方位・奥行き情報抽出部と、
    前記音声信号と、第一又は第二の物体方位・奥行き情報抽出部で抽出された物体方位情報及び奥行き情報より、前記音声信号に方位情報の追加、もしくはゲインの調整を行う物体方位追加・ゲイン調整部とを
    有することを特徴とする3次元音声信号生成装置。
  7. 前記第一の物体方位・奥行き情報抽出部は、輪郭検出部と動きベクトル検出部の少なくとも1つと、高周波成分検出部と輝度成分検出部の少なくとも1つとの組み合わせにより構成されることを特徴とする請求項6記載の3次元音声信号生成装置。
  8. 前記第二の物体方位・奥行き情報抽出部は、輪郭検出部と画素視差検出部により構成されることを特徴とする請求項6記載の3次元音声信号生成装置。
  9. 前記輪郭検出部は、既存の人の輪郭との相関によって人物の輪郭を検出し、その輪郭が閾値以上の面積の場合を画面の主役とすることを特徴とする請求項7又は8記載の3次元音声信号生成装置。
  10. 前記輪郭検出部が、複数の人物の輪郭を検出し場合、その輪郭の面積が大きい人物ほど視聴者に近い側に奥行き情報を設定することを特徴とする請求項9記載の3次元音声信号生成装置。
  11. 請求項1及至10記載の3次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、空間伝達関数データベースを参照し、ユーザの視聴形態に応じた3次元音声信号を提供可能であることを特徴とする3次元音声信号生成装置。
  12. 請求項11記載の3次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、3次元映像視聴用眼鏡のフレームに取り付けスピーカーにて視聴すること前提に3次元音声信号を生成することを特徴とする3次元音声信号生成装置。
  13. 請求項1及至10記載の3次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、3次元映像視聴用眼鏡のフレームに取り付けインナースピーカー又はヘッドホンにて視聴すること前提に3次元音声信号を生成することを特徴とする3次元音声信号生成装置。
  14. 請求項1及至10記載の3次元音声信号生成装置であって、前記物体方位追加・ゲイン調整部は、サラウンドスピーカーにて視聴すること前提に3次元音声信号を生成することを特徴とする3次元音声信号生成装置。
JP2010102783A 2010-04-28 2010-04-28 3次元音声信号生成装置 Pending JP2011234139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010102783A JP2011234139A (ja) 2010-04-28 2010-04-28 3次元音声信号生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010102783A JP2011234139A (ja) 2010-04-28 2010-04-28 3次元音声信号生成装置

Publications (1)

Publication Number Publication Date
JP2011234139A true JP2011234139A (ja) 2011-11-17

Family

ID=45323009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010102783A Pending JP2011234139A (ja) 2010-04-28 2010-04-28 3次元音声信号生成装置

Country Status (1)

Country Link
JP (1) JP2011234139A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI475898B (zh) * 2012-09-05 2015-03-01 Acer Inc 多媒體處理系統及音訊信號調整方法
WO2016069819A1 (en) * 2014-10-31 2016-05-06 Microsoft Technology Licensing, Llc Facilitating interaction between users and their environments using sounds
CN111818385A (zh) * 2020-07-22 2020-10-23 Oppo广东移动通信有限公司 视频处理方法、视频处理装置及终端设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI475898B (zh) * 2012-09-05 2015-03-01 Acer Inc 多媒體處理系統及音訊信號調整方法
WO2016069819A1 (en) * 2014-10-31 2016-05-06 Microsoft Technology Licensing, Llc Facilitating interaction between users and their environments using sounds
US9612722B2 (en) 2014-10-31 2017-04-04 Microsoft Technology Licensing, Llc Facilitating interaction between users and their environments using sounds
US9652124B2 (en) 2014-10-31 2017-05-16 Microsoft Technology Licensing, Llc Use of beacons for assistance to users in interacting with their environments
US9977573B2 (en) 2014-10-31 2018-05-22 Microsoft Technology Licensing, Llc Facilitating interaction between users and their environments using a headset having input mechanisms
US10048835B2 (en) 2014-10-31 2018-08-14 Microsoft Technology Licensing, Llc User interface functionality for facilitating interaction between users and their environments
CN111818385A (zh) * 2020-07-22 2020-10-23 Oppo广东移动通信有限公司 视频处理方法、视频处理装置及终端设备

Similar Documents

Publication Publication Date Title
EP2323425B1 (en) Method and device for generating audio signals
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
US20110157327A1 (en) 3d audio delivery accompanying 3d display supported by viewer/listener position and orientation tracking
US20050281411A1 (en) Binaural horizontal perspective display
de Bruijn Application of wave field synthesis in videoconferencing
US20130106997A1 (en) Apparatus and method for generating three-dimension data in portable terminal
EP3595337A1 (en) Audio apparatus and method of audio processing
JP2018110366A (ja) 3dサウンド映像音響機器
US11856386B2 (en) Apparatus and method for processing audiovisual data
US20090169037A1 (en) Method of simultaneously establishing the call connection among multi-users using virtual sound field and computer-readable recording medium for implementing the same
JP2011234139A (ja) 3次元音声信号生成装置
JP2011234177A (ja) 立体音響再生装置及び再生方法
JP5447220B2 (ja) 音響再生装置および音響再生方法
TW201246174A (en) Video-audio playing system relating to 2-views application and method thereof
JP4955718B2 (ja) 立体表示制御装置、立体表示システムおよび立体表示制御方法
KR101896570B1 (ko) 입체 동영상에 동기화된 입체 음향을 생성할 수 있는 전자 기기
JP2011234138A (ja) 3次元動画生成装置
RU2805260C2 (ru) Устройство и способ обработки аудиовизуальных данных
RU2823573C1 (ru) Аудиоустройство и способ обработки аудио
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
Reddy et al. On the development of a dynamic virtual reality system using audio and visual scenes

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130131