JP2016163181A - 信号処理装置及び信号処理方法 - Google Patents

信号処理装置及び信号処理方法 Download PDF

Info

Publication number
JP2016163181A
JP2016163181A JP2015040282A JP2015040282A JP2016163181A JP 2016163181 A JP2016163181 A JP 2016163181A JP 2015040282 A JP2015040282 A JP 2015040282A JP 2015040282 A JP2015040282 A JP 2015040282A JP 2016163181 A JP2016163181 A JP 2016163181A
Authority
JP
Japan
Prior art keywords
directivity
sound
angle
camera
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015040282A
Other languages
English (en)
Other versions
JP2016163181A5 (ja
JP6521675B2 (ja
Inventor
典朗 多和田
Noriaki Tawada
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015040282A priority Critical patent/JP6521675B2/ja
Publication of JP2016163181A publication Critical patent/JP2016163181A/ja
Publication of JP2016163181A5 publication Critical patent/JP2016163181A5/ja
Application granted granted Critical
Publication of JP6521675B2 publication Critical patent/JP6521675B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】映像と音を表示及び再生する際に、映像と音の内容を一致させつつ、表示されている画像の範囲外の音も違和感なく自然となるよう指向性の制御を行えるようにする。【解決手段】一体となって姿勢が変化する複数のマイク素子を有するカメラの姿勢の情報を取得し、前記カメラの姿勢の情報に基づいて、前記カメラによって撮影された映像の画角外に対応する音の指向性を補正し、前記複数のマイク素子を介して得られる音響信号に基づいて、補正された指向性に対応する音を生成する。【選択図】図4

Description

本発明は、信号処理装置及び信号処理方法に関する。
複数のマイク素子(マイクアレイ)で収音した複数チャンネルの音響信号を処理して、所望方向の音を取り出す(生成する)技術として指向性制御技術が知られている。これは、複数チャンネルの音響信号にそれぞれ所望方向に応じたフィルタ係数を畳み込んで加算し、単一の出力信号を得るものである。このようなフィルタ係数を畳み込んで加算する処理が、マイクアレイで所望方向に指向性を形成することに対応している。特許文献1には、マイクアレイを有するICレコーダ等の装置において、装置の傾き角度と想定角度の差分に応じてマイクアレイに係る指向性の指向方向を補正する技術が提案されている。
特開2010−50571号公報
図2(a)に示すように、撮像素子を有するカメラ201、及びカメラ201に固定され、ユーザの撮影行為によって一体的に移動するマイクアレイ202で撮影及び録音を行うことを考える。マイクアレイ202は、例えばカメラ201の画角の起点を中心とする立方体の頂点位置に配置された、8個の無指向性マイク素子で構成されるものとする。図2(a)に示す例では、カメラ201はその正面方向(画角範囲)にいる人物203の映像を映像信号として捉え、マイクアレイ202は全方位の音を音響信号として捉える。また、カメラ201の正面下方に犬205、水平真後ろに車204、真後ろ上方にヘリコプタ206が存在しているものとする。
次に、このようにして取得した映像と音を表示及び再生することを考える。図3(a)に示すように、視聴者であるユーザ330の略水平前方に配置されたディスプレイ320に映像を表示する。この場合、ディスプレイ320には人物203の映像が表示される。また、ユーザ330の略水平周囲に配置された、例えば8台のスピーカ311〜318で音を再生する。このとき、水平各方向のスピーカ311〜318から、全方位の音のうち各スピーカの配置方向に対応する特定方向の音(方向音と呼ぶ)を再生すれば、録音現場にいるとユーザ330が感じるかのような臨場感の高い再生を実現することができる。
各スピーカ311〜318から再生する方向音は、音響信号に各スピーカの配置方向に応じたフィルタ係数を畳み込んで加算することで得られる。これはマイクアレイ202で各スピーカの配置方向に指向性を形成することに対応する。
例えば、図3(a)に示す例においてユーザ330の水平正面方向のスピーカ311から再生する方向音については、図2(a)に示したようにマイクアレイ202の水平正面方向に指向性211を向けることで、人物203の音が得られる。同様に、図3(a)に示す例においてユーザ330の水平真後ろ方向のスピーカ315から再生する方向音については、図2(a)に示したようにマイクアレイ202の水平真後ろ方向に指向性215を向けることで、車204の音が得られる。
このように各スピーカの配置方向を指向方向とする指向性制御を行うことで、図3(a)に示したように人物203の映像を表示しているディスプレイ320の方向に配置されたスピーカ311からは、人物203の音が再生される。図3(a)においては、模式的に人物音像303で表現している。また、水平真後ろ方向に配置されたスピーカ315からは、車204の音が再生される(車音像304)。すなわち、ディスプレイ320に表示される映像とスピーカ311から再生される音の内容が一致しており、また、撮影時に水平真後ろ方向に位置していた車204の音が同じく水平真後ろ方向のスピーカ315から聞こえるため、自然である。
次に、撮影及び録音において、カメラ201(及びマイクアレイ202)が傾く場合を考える。例えば、図2(b)に示すようにカメラ201が前方に傾いた場合、カメラ201はその正面方向にいる犬205の映像を映像信号として捉える。
ここで、スピーカから再生する方向音の生成に関して、指向性制御に用いるフィルタ係数は、一般にマイクアレイ座標系(xm、ym、zm)で記述した指向方向と対応付けられている。一方、スピーカの配置方向については、重力の反対方向をz軸の正方向(天頂方向)とする、グローバル座標系(xg、yg、zg)で記述するのが普通である。
図2(a)に示した例のようにカメラ201が傾いていない場合、マイクアレイ座標系(=カメラ座標系)がグローバル座標系と一致している。このため、グローバル座標系で記述したスピーカの配置方向を、そのままマイクアレイ座標系における指向方向として用いれば、グローバル座標系で見て水平正面方向や水平真後ろ方向の音が取り出される。グローバル座標系における極座標表現でのスピーカの配置方向は、例えばスピーカ311については(方位角θg1=0°、仰角φg1=0°)、スピーカ315については(方位角θg5=180°、仰角φg5=0°)のように記述される。
しかし、図2(b)に示す例のようにカメラ201が傾いている場合、マイクアレイ座標系はグローバル座標系と一致しない。このため、グローバル座標系で記述したスピーカの配置方向を、そのままマイクアレイ座標系における指向方向として用いると、以下のようになる。
例えば、図3(b)に示す例においてユーザ330の水平正面方向のスピーカ311から再生する方向音については、図2(b)に示したようにマイクアレイ202の水平正面方向に指向性221を向けるため、犬205の鳴き声が得られる。また、図3(b)に示す例においてユーザ330の水平真後ろ方向のスピーカ315から再生する方向音については、図2(b)に示したようにマイクアレイ202の水平真後ろ方向に指向性225を向けるため、ヘリコプタ206の音が得られる。
この場合、マイクアレイ座標系における極座標表現の指向方向は、例えば指向性221については(方位角θm1=θg1=0°、仰角φm1=φg1=0°)のように設定されている。また、指向性225については(方位角θm5=θg5=180°、仰角φm5=φg5=0°)のように設定されている。このようにグローバル座標系で記述したスピーカの配置方向を、そのままマイクアレイ座標系における指向方向として用いると、以下のようになる。
まず、図3(b)に示したように犬205の映像を表示しているディスプレイ320の方向に配置されたスピーカ311からは、犬205の鳴き声が再生される(犬音像305)。これは、撮影時にグローバル座標系で見て正面下方にいた犬205の鳴き声が、水平正面方向のスピーカ311から聞こえることになるが、ディスプレイ320に表示される映像とスピーカ311から再生される音の内容は一致しているため、違和感は無い。一方、撮影時にグローバル座標系で見て真後ろ上方に位置していたヘリコプタ206の音については、違和感が生じる。なぜなら、画角外で映像に映っていないためにユーザ330の目に見えない真後ろ上方のヘリコプタ206の音が、水平真後ろ方向のスピーカ315から聞こえる(ヘリコプタ音像306)からである。
そこで、カメラ201が傾いた場合でもグローバル座標系で見て水平正面方向や水平真後ろ方向の音を取り出せるよう、指向性制御における指向方向をカメラ201の姿勢に応じて補正することを考える。すなわち、カメラ201の姿勢(=マイクアレイ202の姿勢)をもとに、グローバル座標系で記述したスピーカの配置方向をマイクアレイ座標系に座標変換してからマイクアレイ座標系における指向方向として用いる。
例えば、図2(b)に示した例と同じく図2(c)に示すように、カメラ201が前方に45°傾いた場合を考える。カメラ201は、図2(b)に示した例と同様に、その正面方向にいる犬205の映像を映像信号として捉える。
また、グローバル座標系で記述したスピーカ311の配置方向(θg1=0°、φg1=0°)をマイクアレイ座標系に座標変換(θg1mθg1=0°、φg1mφg1=45°)する。そして、座標変換して得られた値をマイクアレイ座標系における指向性231の指向方向(θm1mθg1、φm1mφg1)とする。同様に、グローバル座標系で記述したスピーカ315の配置方向(θg5=180°、φg5=0°)をマイクアレイ座標系に座標変換(θg5mθg5=180°、φg5mφg5=−45°)する。そして、座標変換して得られた値をマイクアレイ座標系における指向性235の指向方向(θm5mθg5、φm5mφg5)とする。
これにより、図3(c)に示す例においてユーザ330の水平正面方向のスピーカ311から再生する方向音については、図2(c)に示したようにグローバル座標系で見て水平正面方向に指向性231を向けるため、人物203の音が得られる。また、図3(c)に示す例においてユーザ330の水平真後ろ方向のスピーカ315から再生する方向音については、図2(c)に示したようにグローバル座標系で見て水平真後ろ方向に指向性235を向けるため、車204の音が得られる。
このようにグローバル座標系で記述したスピーカの配置方向をマイクアレイ座標系に座標変換してから、マイクアレイ座標系における指向方向として用いると、以下のようになる。まず、撮影時にグローバル座標系で見て水平真後ろ方向に位置していた車204の音は、図3(c)に示したように同じく水平真後ろ方向のスピーカ315から聞こえる(車音像304)ため、自然である。一方、犬205の映像を表示しているディスプレイ320の方向のスピーカ311からは、人物203の音が聞こえる(人物音像303)。すなわち、ディスプレイ320に表示される映像とスピーカ311から再生される音の内容が一致していないため、違和感が生じる。
本発明は、このような事情に鑑みてなされたものであり、映像と音を表示及び再生する際に、映像と音の内容を一致させつつ、表示されている画像の範囲外の音も違和感なく自然となるよう指向性の制御を行う信号処理装置を提供することを目的とする。
本発明に係る信号処理装置は、一体となって姿勢が変化する複数のマイク素子を有するカメラの姿勢の情報を取得する手段と、前記カメラの姿勢の情報に基づいて、前記カメラによって撮影された映像の画角外に対応する音の指向性を補正する手段と、前記複数のマイク素子を介して得られる音響信号に基づいて、補正された指向性に対応する音を生成する手段とを有することを特徴とする。
本発明によれば、映像と音を表示及び再生する際に、映像と音の内容を一致させつつ、表示されている画像の範囲外の音も違和感なく自然となるよう指向性の制御を行うことができる。
本発明の実施形態における信号処理装置の構成例を示す図である。 指向性制御に係る説明図である。 表示及び再生時の映像と音像に係る説明図である。 第1の実施形態における指向性制御処理の例を示すフローチャートである。 第2の実施形態における指向性制御処理の例を示すフローチャートである。 本発明の実施形態における指向方向を説明するための図である。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。以下に説明する実施形態においては、撮像素子を有するカメラ201で撮影を行い、カメラ201に固定されカメラ201と一体となって姿勢変化するマイクアレイ202で収音(録音)が行われるものとする。また、マイクアレイ202は、例えばカメラ201の画角の起点を中心とする立方体の頂点位置に配置された、8個の無指向性マイク素子で構成されるものとする。
(第1の実施形態)
本発明の第1の実施形態について説明する。はじめに、第1の実施形態の考え方を図2(d)及び図3(d)を用いて説明する。図2(c)に示した例と同じく図2(d)に示すように、カメラ201が前方に45°傾いた場合を考える。カメラ201は、その正面方向にいる犬205の映像を映像信号として捉える。
まず、グローバル座標系で記述したスピーカの配置方向を、そのままマイクアレイ座標系における指向性制御の指向方向として初期設定する。例えば、図3(d)に示す例において、ユーザ330の水平正面方向に配置されたスピーカ311用の方向音を生成する指向性については、(方位角θm1=θg1=0°、仰角φm1=φg1=0°)のように初期設定する。また、ユーザ330の水平真後ろ方向に配置されたスピーカ315用の方向音を生成する指向性については、(方位角θm5=θg5=180°、φm5=φg5=0°)のように初期設定する。
次に、このように初期設定した指向方向がカメラ201の画角内であれば、初期設定の指向方向に指向性を向ける。例えば、マイクアレイ座標系(=カメラ座標系)で(方位角θm1=0°、仰角φm1=0°)の方向は、カメラ201の水平正面方向であるため画角内である。そこで、図3(d)に示す例においてユーザ330の水平正面方向のスピーカ311から再生する方向音については、図2(d)に示すようにマイクアレイ202の水平正面方向に指向性241を向けるため、犬205の鳴き声が得られる。すなわち、図3(d)に示したように犬205の映像を表示しているディスプレイ320の方向に配置されたスピーカ311からは、犬205の鳴き声が再生される(犬音像305)。よって、ディスプレイ320に表示される映像とスピーカ311から再生される音の内容は一致しているため、違和感は無い。
一方、初期設定した指向方向がカメラ201の画角外であれば、グローバル座標系のスピーカ配置方向で初期設定した指向方向を、マイクアレイ座標系に座標変換することで補正(更新)する。すなわち、カメラ201の姿勢(=マイクアレイ202の姿勢)をもとに、初期設定の指向方向をマイクアレイ座標系に座標変換することで補正し、その補正された指向方向に指向性を向ける。
例えば、マイクアレイ座標系(=カメラ座標系)で(方位角θm5=180°、仰角φm5=0°)の方向は、カメラ201の水平真後ろ方向であるため画角外である。そこで、グローバル座標系のスピーカ315の配置方向で初期設定した指向方向(θm5=θg5=180°、φm5=φg5=0°)をマイクアレイ座標系に座標変換(θg5mθg5=180°、φg5mφg5=−45°)する。そして、補正された指向方向(θm5mθg5、φm5mφg5)とする。これにより、図3(d)に示す例においてユーザ330の水平真後ろ方向のスピーカ315から再生する方向音については、図2(d)に示したようにグローバル座標系で見て水平真後ろ方向に指向性245を向けるため、車204の音が得られる。すなわち、撮影時にグローバル座標系で見て水平真後ろ方向に位置していた車204の音が、図3(d)に示すように同じく水平真後ろ方向のスピーカ315から再生される(車音像304)ため、自然である。
このように第1の実施形態では、映像と音を表示及び再生する際、映像と音の内容を一致させつつ、画角外の音については撮影時と同じ方向から聞こえるよう指向性の制御を行う。
図1は、本発明の一実施形態における信号処理装置の構成例を示すブロック図である。信号処理装置100は、全構成要素を統括的に制御するシステム制御部101、各種データを記憶しておく記憶部102、信号の解析処理を行う信号解析処理部103を有する。記憶部102は、カメラで撮影された映像信号、及びカメラと一体のマイクアレイで録音された音響信号を保持している。
また、映像の表示系の機能を実現する要素として、ユーザ130の略水平前方に配置され、映像を表示するディスプレイ120を有する。また、音の再生系の機能を実現する要素として、音響信号出力部104、及びユーザ130の略水平周囲に配置されたスピーカ111〜118を有する。なお、スピーカの数や配置は、図1に示す例に限られるものではなく任意でよい。
信号解析処理部103は、後述する指向性制御処理によって、各スピーカから再生する方向音を音響信号から生成する。音響信号出力部104は、信号解析処理部103により生成された方向音にDA変換処理(デジタル−アナログ変換処理)及び増幅処理を施し、ディスプレイ120に表示する映像信号と同期して各スピーカから再生する。
以下、第1の実施形態における指向性制御処理について、図4に示すフローチャートに沿って説明する。図4は、第1の実施形態における指向性制御処理の例を示すフローチャートである。なお、図4に示すフローチャートの処理は、特に別記しない限り信号解析処理部103が行うものとし、音響信号の所定の時間フレーム長毎、すなわち音響フレーム毎の処理を表すものとする。
ステップS401では、記憶部102が予め保持している、方向音(所定の方向の音)の音像の配置に係るスピーカ111〜118の配置方向(方位角θgi、仰角φgi)の情報を取得する。取得したスピーカ111〜118の配置方向(方位角θgi、仰角φgi)の情報を指向性制御における各指向性の指向方向として初期設定する(θmi=θgi、φmi=φgi)。iは添え字であり、本例ではi=1〜8の整数である(以下についても同様)。各スピーカの配置方向は、リスニングポイント(ユーザ130の頭部中心)を原点とするグローバル座標系(xg、yg、zg)において極座標表現で記述されているものとする。
なお、ユーザ130から見て水平正面方向のスピーカ111の方向をxg軸正方向とし、重力の反対方向をzg軸正方向とし、これらと右手系を成すようにyg軸を取る。図1に示す例の場合、各スピーカの配置方向は(方位角θgi=(i−1)×45°、仰角φgi=0°)のように記述され、これにより初期設定された各指向性の指向方向は、図6(a)において太点線の指向方向601〜608で表されている。
ステップS402では、現音響フレームと時間的に対応する映像信号の映像フレームについて、その画角を取得する。映像信号の各映像フレームの画角は、映像信号の付加情報として撮影時に記録されているものとし、これはカメラ撮像系のズーム倍率等に応じて映像フレーム毎に変わり得る。なお、映像信号に画角情報が記録されていない場合には、一般的なカメラ撮像系の非ズーム時の画角を用いるようにしてもよい。ここでは、現音響フレームに対応する現映像フレームの画角(水平画角)を100°とする。
ステップS403では、現映像フレームを撮影したとき(又は現音響フレームを録音したとき)のカメラの姿勢の情報を取得する。ここで、撮影に用いたカメラはジャイロセンサ等の姿勢センサを備えており、撮影時のカメラの姿勢をグローバル座標系の三軸(xg、yg、zg)に対する回転角で検出できるものとする。これにより、映像信号の各映像フレーム(又は音響信号の各音響フレーム)におけるカメラ姿勢が、映像信号(又は音響信号)の付加情報として撮影及び録音時に記録されているものとする。ここでは、現音響フレームを録音したときのマイクアレイ座標系(=カメラ座標系)が、図6(a)に示すようにグローバル座標系に対してyg軸周りに45°回転しているとして、カメラ姿勢をyg軸周りの回転角αy=45°で表す。
ステップS404〜S408の処理は、ステップS401において初期設定した指向方向の指向性毎の処理であり、指向性ループの中で行う。ステップS404では、システム制御部101が、ディスプレイ120に映像を表示しているかを調べ、表示している場合にはステップS405へ、表示していない場合にはステップS406へ進む。これは、第1の実施形態では、指向性の指向方向が映像信号の画角外であれば指向方向の補正を行うが、映像信号の画角に関わらずディスプレイ120に映像を表示していなければ、指向方向が画角外であることと同義となるためである。
ステップS405では、現在の指向性ループで対象としている指向性の指向方向が、ステップS402において取得した画角内であるかを調べる。その結果、画角内であれば指向方向の補正は不要であるためステップS408へ、画角外であれば指向方向の補正が必要となる可能性があるためステップS406へ進む。図6(a)に示した指向方向601〜608(θmi=θgi=(i−1)×45°、φmi=φgi=0°)の場合、指向方向601、602、608はステップS402において取得した画角(100°)内であるため、指向方向の補正は不要である。
ステップS406では、画角外の指向方向について、指向方向の補正が必要であるかを判定する。例えばカメラ(マイクアレイ)が傾いていない状態から、前方に傾いて行く場合を考える。このとき、図6(a)から分かるように、マイクアレイ座標系のxm軸がグローバル座標系のxg軸に対して徐々に角度を成して行くのに対し、マイクアレイ座標系のym軸は基本的にグローバル座標系のyg軸と一致したままである。すなわち、グローバル座標系のyg軸がカメラ姿勢の回転軸となっている。
ここで、指向方向の補正はグローバル座標系からマイクアレイ座標系への座標変換により行うため、カメラ姿勢の回転軸と略平行な指向方向については、本来、補正は行われないはずである。しかしながら、カメラ(マイクアレイ)の手ぶれ等によって、マイクアレイ座標系のym軸はグローバル座標系のyg周りにわずかに変動するため、指向方向の補正によるフィルタ係数の連続的な切り替えが発生し得る。このとき、座標変換で生じる方向変化は小さいため、生成される方向音は大きくは変化しないが、あまり意味のない頻繁なフィルタの切り替えが、音の連続性など音質の劣化を招く可能性がある。
そこで、ステップS406では、指向性の指向方向とカメラ姿勢の回転軸との成す角を算出し、その値が閾値未満(すなわち指向方向と姿勢の回転軸が略平行)であればカメラ姿勢に応じた指向方向の補正は不要としてステップS408へ進む。一方、指向性の指向方向とカメラ姿勢の回転軸との成す角の値が閾値以上であれば、カメラ姿勢に応じた指向方向の補正が必要としてステップS407へ進む。指向方向とカメラ姿勢の回転軸との成す角は、例えば指向方向を直交座標表現の単位ベクトルとして記述し直して、カメラ姿勢の回転軸の正・負方向に対応する2つの単位ベクトルとの成す角(0°〜180°)の最小値として算出する。図6(a)に示した指向方向601〜608の場合、指向方向603、607はカメラ姿勢の回転軸であるyg軸と平行であるため、指向方向の補正は不要である。
ステップS407では、グローバル座標系のスピーカ配置方向で初期設定した指向方向を、マイクアレイ座標系に座標変換することで補正(更新)する。図6(a)に示した例の場合、マイクアレイ座標系はグローバル座標系に対してyg軸周りにαy(=45°)回転している。そのため、グローバル座標系からマイクアレイ座標系への座標変換には、式(1)で表される回転行列R(αy)の逆行列R-1(αy)=R(−αy)を用いる。
Figure 2016163181
すなわち、補正が必要な指向方向604〜606(θmi=θgi=(i−1)×45°、φmi=φgi=0°)(ここではi=4〜6の整数)を直交座標表現の単位ベクトルとして記述し直す。それに、R(−αy)を掛けて座標変換してから再び極座標表現に戻す(θgimθgi、φgimφgi)ことで更新する(θmimθgi、φmimφgi)。具体的には、指向方向604(θm4=θg4=135°、φm4=φg4=0°)が指向方向614(θm4mθg4≒125.3°、φm4mφg4=−30°)に更新される。また、指向方向605(θm5=θg5=180°、φm5=φg5=0°)が指向方向615(θm5mθg5=180°、φm5mφg5=−45°)に更新される。また、指向方向606(θm6=θg6=225°、φm6=φg6=0°)が指向方向616(θm6mθg6≒234.7°、φm6mφg6=−30°)に更新される。なお、このような座標変換による方向変化を、ステップS406における指向方向の補正要否の判定に用いてもよい。すなわち、補正前後の指向方向の成す角が閾値未満であれば、指向方向の補正は不要と判定してもよい。
ステップS408では、指向方向に指向性を向けることで、スピーカから再生する方向音を生成する。すなわち、記憶部102が予め保持している指向性制御のためのフィルタ係数から、指向方向(θmi、φmi)に対応するものを取得して現音響フレームの音響信号に畳み込み、加算することで方向音を得る。ここで、1つの方向のフィルタ係数(ベクトル)は、音響信号のチャンネル数、すなわち音響信号の録音に用いたマイクアレイのマイク素子数(例えば8個)の要素で構成される。なお、マイクアレイ毎にフィルタ係数は異なるため、録音に用いたマイクアレイの識別IDを音響信号の付加情報として録音時に記録しておき、そのマイクアレイに対応するフィルタ係数を本ステップで用いるようにしてもよい。
ステップS409では、ステップS408において生成した方向音を各スピーカから再生する。すなわち、図6(a)に示した指向方向601〜603、614〜616、607〜608で生成した8つの方向音を、スピーカ111〜118からそれぞれ再生する。このようにして、第1の実施形態によれば、映像と音を表示及び再生する際、映像と音の内容を一致させつつ、画角外の音については撮影時と同じ方向から聞こえるよう指向性の制御を行うことができる。
なお、ユーザ130の周囲に方向音の音像を生成する方法として、前述のように方向音を再生するスピーカ111〜118をユーザ130の周囲に配置する方法の他に、ヘッドホン再生で仮想的にスピーカを配置する方法がある。すなわち、各スピーカの配置方向に対応する左右耳の頭部伝達関数(HRTF)を各方向音に畳み込み、左右それぞれ加算してヘッドホンによりユーザの両耳近傍で再生する。これにより、スピーカ111〜118に対応する仮想スピーカをユーザ130の周囲に配置することができる。
また、第1の実施形態ではカメラが前方に傾いた場合を例に説明したが、第1の実施形態での考え方は、横撮りや縦撮りのようにカメラの正面方向を回転軸とするような場合にも適用できる。その場合、縦撮りのときにステップS405で比較する映像フレームの画角は、水平画角ではなく垂直画角とするのが好適である。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。はじめに、第2の実施形態の考え方を図2(e)及び図3(e)を用いて説明する。図2(d)に示した例と同じく図2(e)に示すように、カメラ201が前方に45°傾いた場合を考える。カメラ201は、その正面方向にいる犬205の映像を映像信号として捉える。
まず、第1の実施形態と同様に、グローバル座標系で記述したスピーカの配置方向を、そのままマイクアレイ座標系における指向性制御の指向方向として初期設定する。例えば、図3(e)に示す例において、ユーザ330の水平正面方向に配置されたスピーカ311用の方向音を生成する指向性については、(方位角θm1=θg1=0°、仰角φm1=φg1=0°)のように初期設定する。また、ユーザ330の水平真後ろ方向に配置されたスピーカ315用の方向音を生成する指向性については、(方位角θm5=θg5=180°、φm5=φg5=0°)のように初期設定する。
次に、このように初期設定した指向方向のうち、カメラ201の画角内の指向方向について、カメラ201の姿勢変化による仰角方向の変化が最大となるものを特定する。例えば、マイクアレイ座標系(=カメラ座標系)で(方位角θm1=0°、仰角φm1=0°)の方向は、カメラ201の水平正面方向であるため画角内である。そこで、この指向方向についてカメラ201の姿勢変化による仰角方向の変化を見るために、カメラ201の姿勢(=マイクアレイ202の姿勢)をもとにグローバル座標系に座標変換する(θm1gθm1=0°、φm1gφm1=−45°)。これより、グローバル座標系で見たときの仰角方向の変化は|φg1gφm1|=45°となり、これは画角内の指向方向の中で最大の仰角方向の変化と考えられるため、このgφm1=−45°をグローバル座標系における目標仰角gφtとする。
第2の実施形態では、グローバル座標系で見てすべての指向方向の仰角が目標仰角と一致するよう、グローバル座標系における指向方向を決定する。そして、これをマイクアレイ座標系に座標変換することで、初期設定から更新されたマイクアレイ座標系における指向方向を算出する。
例えば、図3(e)に示す例において、ユーザ330の水平正面方向に配置されたスピーカ311用の方向音を生成する指向性については、グローバル座標系における指向方向が(方位角gθm1=0°、仰角gφm1gφt=−45°)となる。これをマイクアレイ座標系に座標変換(gθm1→θm1gφm1→φm1)することで、マイクアレイ座標系における指向方向(θm1=0°、φm1=0°)となる。なお、仰角が目標仰角として採用された指向方向については、初期設定の指向方向が維持されることになる。
これにより、図3(e)に示す例においてユーザ330の水平正面方向のスピーカ311から再生する方向音については、図2(e)に示すようにマイクアレイ202の水平正面方向に指向性251を向けるため、犬205の鳴き声が得られる。すなわち、図3(e)に示したように犬205の映像を表示しているディスプレイ320の方向に配置されたスピーカ311からは、犬205の鳴き声が再生される(犬音像305)。よって、ディスプレイ320に表示される映像とスピーカ311から再生される音の内容は一致しているため、違和感は無い。
また、図3(e)に示した例において、ユーザ330の水平真後ろ方向に配置されたスピーカ315用の方向音を生成する指向性については、グローバル座標系における指向方向が(方位角gθm5=180°、仰角gφm5gφt=−45°)となる。これをマイクアレイ座標系に座標変換(gθm5→θm5gφm5→φm5)することで、マイクアレイ座標系における指向方向(θm5、φm5=−90°)となる。
これにより、図3(e)に示す例においてユーザ330の水平真後ろ方向のスピーカ311から再生する方向音については、図2(e)に示したようにグローバル座標系で見て真後ろ下方に指向性255を向けるため、猫207の鳴き声が得られる。すなわち、図3(e)に示したようにスピーカ311と同じ高さの水平真後ろ方向のスピーカ315からは、ディスプレイ320に表示されている犬205と同じ目線の高さの猫207の鳴き声が聞こえる(猫音像307)、という効果が得られる。これは例えば、犬205と猫207が戯れながら足元の周りを走り回っている、というような場合に臨場感を高めてくれると考えられる。
このように第2の実施形態では、映像と音を表示及び再生する際、映像と音の内容を一致させつつ、画角外の音については画角内の音と同じ目線の高さの音が聞こえるよう指向性の制御を行う。
以下、第2の実施形態における指向性制御処理について、図5に示すフローチャートに沿って説明する。図5は、第2の実施形態における指向性制御処理の例を示すフローチャートである。なお、図5に示すフローチャートの処理は、特に別記しない限り信号解析処理部103が行うものとし、音響信号の所定の時間フレーム長毎、すなわち音響フレーム毎の処理を表すものとする。
ステップS501〜S503の処理は、図4に示した第1の実施形態におけるステップS401〜S403と同じであるため説明を省略する。ステップS501において初期設定された各指向性の指向方向は、図6(b)において太点線の指向方向601〜608で表されている。
ステップS504〜S505の処理は、ステップS501において初期設定した指向方向の指向性毎の処理であり、指向性ループの中で行う。ステップS504では、現在の指向性ループで対象としている指向性の指向方向が、ステップS502において取得した画角内であるかを調べ、画角内であればステップS505へ進み、画角外であればステップS505をスキップする。図6(b)に示した指向方向601〜608(θmi=θgi=(i−1)×45°、φmi=φgi=0°)の場合、指向方向601、602、608についてはステップS502において取得した画角(100°)内であるため、ステップS505へ進む。
ステップS505では、カメラの姿勢変化による指向方向の仰角方向変化を算出する。まず、初期設定の指向方向をグローバル座標系に座標変換する。図6(b)に示した例の場合、マイクアレイ座標系はグローバル座標系に対してyg軸周りにαy(=45°)回転しているため、マイクアレイ座標系からグローバル座標系への座標変換には、式(1)で表される回転行列R(αy)を用いる。
すなわち、指向方向601、602、608(θmi=θgi=(i−1)×45°、φmi=φgi=0°)(ここではi=1、2、8)を直交座標表現の単位ベクトルとして記述し直す。それに、R(αy)を掛けて座標変換してから再び極座標表現に戻す(θmigθmi、φmigφmi)。具体的には、指向方向601が(gθm1=0°、gφm1=−45°)、指向方向602が(gθm2≒54.7°、gφm2=−30°)、指向方向608が(gθm8≒305.3°、gφm8=−30°)となる。これより、グローバル座標系で見たときの仰角方向の変化は、指向方向601において|φg1gφm1|=45°、指向方向602において|φg2gφm2|=30°、指向方向608において|φg8gφm8|=30°となる。
ステップS506では、ステップS505において算出した仰角方向変化が最大となる指向方向を特定し、その仰角をグローバル座標系における目標仰角gφtとする。この場合、指向方向601の仰角方向変化(=45°)が最大であるため、gφtgφm1=−45°とする。
ステップS507〜S509の処理は指向性毎の処理であり、指向性ループの中で行う。ステップS507では、グローバル座標系で見てすべての指向方向の仰角が目標仰角gφtと一致するよう、グローバル座標系における指向方向を(方位角gθmi=θgi=(i−1)×45°、gφmigφt=−45°)のように決定する。ここで、グローバル座標系における方位角については、スピーカの配置方向を用いている。
ステップS508では、ステップS507において決定したグローバル座標系における指向方向をマイクアレイ座標系に座標変換することで、初期設定から更新されたマイクアレイ座標系における指向方向を算出する。すなわち、第1の実施形態におけるステップS407と同様に、グローバル座標系における指向方向を直交座標表現の単位ベクトルとして記述し直し、R(−αy)を掛けて座標変換してから再び極座標表現に戻す(gθmi→θmigφmi→φmi)。具体的には、図6(b)に示した指向方向601〜608(θmi=(i−1)×45°、φmi=0°)がそれぞれ以下のように更新される。指向方向601が指向方向621(θm1=0°、φm1=0°)、指向方向602が指向方向622(θm2≒30.4°、φm2≒−8.4°)、指向方向603が指向方向623(θm3≒54.7°、φm3=−30°)に更新される。指向方向604が指向方向624(θm4≒73.7°、φm4≒−58.6°)、指向方向605が指向方向625(θm5、φm5=−90°)、指向方向606が指向方向626(θm6≒286.3°、φm6≒−58.6°)に更新される。指向方向607が指向方向627(θm7≒305.3°、φm7=−30°)、指向方向608が指向方向628(θm8≒329.6°、φm8≒−8.4°)に更新される。
ステップS509の処理は、第1の実施形態におけるステップS408の処理と同じであるため説明を省略する。ステップS510では、ステップS509において生成した方向音を各スピーカから再生する。すなわち、図6(b)に示した指向方向621〜628で生成した8つの方向音を、スピーカ111〜118からそれぞれ再生する。このようにして、第2の実施形態によれば、映像と音を表示及び再生する際、映像と音の内容を一致させつつ、画角外の音については画角内の音と同じ目線の高さの音が聞こえるよう指向性の制御を行うことができる。
以上説明したように本発明によれば、映像と音を表示及び再生する際に、映像と音の内容を一致させつつ、表示されている画像の範囲外の音も違和感なく自然となるよう指向性の制御を行うことができる。
なお、前述した実施形態では、映像信号、音響信号、スピーカ配置方向、指向性制御のためのフィルタ係数は、記憶部102が予め保持しているとしていたが、記憶部102と相互に結ばれた不図示のデータ入出力部を介して外部から入力するようにしてもよい。また、第1の実施形態における指向性制御手法と第2の実施形態における指向性制御手法を、システム制御部101と相互に結ばれたGUIを介してユーザが切り替えられるようにしてもよい。このとき、例えばディスプレイ120をタッチパネル等で構成し、GUIとして機能するようにしてもよい。また、信号処理装置100が表示(ディスプレイ)及び再生(スピーカ)の機能に加えて、撮影(カメラ)及び録音(マイクアレイ)の機能を備えていてもよい。このとき、例えば撮影・録音系と表示・再生系がそれぞれ遠隔地で同期的に動作すれば、遠隔ライブシステムを実現することができる。
(本発明の他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、前述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
100:信号処理装置 101:システム制御部 102:記憶部 103:信号解析処理部 104:音響信号出力部 111〜118:スピーカ 120:ディスプレイ

Claims (11)

  1. 一体となって姿勢が変化する複数のマイク素子を有するカメラの姿勢の情報を取得する手段と、
    前記カメラの姿勢の情報に基づいて、前記カメラによって撮影された映像の画角外に対応する音の指向性を補正する手段と、
    前記複数のマイク素子を介して得られる音響信号に基づいて、補正された指向性に対応する音を生成する手段とを有することを特徴とする信号処理装置。
  2. 前記指向性の補正では、前記複数のマイク素子に対応する音像の配置方向を指向方向としたとき、前記指向方向が映像の画角内である場合には前記指向方向に指向性を向け、前記指向方向が映像の画角外である場合には前記姿勢の情報に応じて補正した指向方向に指向性を向けることを特徴とする請求項1記載の信号処理装置。
  3. 映像を表示する手段をさらに有し、前記カメラによって撮影された映像が表示されていないときには、前記姿勢の情報に応じて補正した指向方向に指向性を向けることを特徴とする請求項2記載の信号処理装置。
  4. 前記指向方向が映像の画角外であっても、前記指向方向と前記姿勢の回転軸との成す角が閾値未満である場合には、前記補正を行わないことを特徴とする請求項2又は3記載の信号処理装置。
  5. 前記指向方向が映像の画角外であっても、前記姿勢の変化による方向変化が閾値未満である場合には、前記補正を行わないことを特徴とする請求項2又は3記載の信号処理装置。
  6. 前記指向性の補正では、前記複数のマイク素子に対応する音像の配置方向を指向方向としたとき、画角中心から所定範囲内の前記指向方向について、前記姿勢の変化による仰角方向の変化が最大となるような指向方向の仰角を目標仰角として、グローバル座標系ですべての指向方向の仰角が前記目標仰角と一致するよう補正することを特徴とする請求項1記載の信号処理装置。
  7. 前記所定の範囲は、映像の画角の範囲であることを特徴とする請求項6記載の信号処理装置。
  8. ユーザの周囲に前記複数のマイク素子に対応する音像を生成する手段をさらに有することを特徴とする請求項1〜7の何れか1項に記載の信号処理装置。
  9. 前記音像を生成する手段は、前記ユーザの周囲に配置されるスピーカであることを特徴とする請求項8記載の信号処理装置。
  10. 前記音像を生成する手段は、前記複数のマイク素子に対応する音像の配置方向に対応する方向の頭部伝達関数を畳み込んでユーザの両耳近傍で再生することを特徴とする請求項8記載の信号処理装置。
  11. 一体となって姿勢が変化する複数のマイク素子を有するカメラの姿勢の情報を取得する工程と、
    前記カメラの姿勢の情報に基づいて、前記カメラによって撮影された映像の画角外に対応する音の指向性を補正する工程と、
    前記複数のマイク素子を介して得られる音響信号に基づいて、補正された指向性に対応する音を生成する工程とを有することを特徴とする信号処理方法。
JP2015040282A 2015-03-02 2015-03-02 信号処理装置、信号処理方法、及びプログラム Active JP6521675B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015040282A JP6521675B2 (ja) 2015-03-02 2015-03-02 信号処理装置、信号処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015040282A JP6521675B2 (ja) 2015-03-02 2015-03-02 信号処理装置、信号処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2016163181A true JP2016163181A (ja) 2016-09-05
JP2016163181A5 JP2016163181A5 (ja) 2018-04-05
JP6521675B2 JP6521675B2 (ja) 2019-05-29

Family

ID=56845694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015040282A Active JP6521675B2 (ja) 2015-03-02 2015-03-02 信号処理装置、信号処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6521675B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018152846A (ja) * 2017-03-14 2018-09-27 株式会社リコー 音響記録装置、音響システム、音響記録方法、プログラムおよびデータ構造
US20220101825A1 (en) * 2019-02-01 2022-03-31 Nippon Telegraph And Telephone Corporation Sound image localization device, sound image localization method, and program

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247637A (ja) * 1996-03-13 1997-09-19 Canon Inc 映像音声通信システム、映像通信システム、送信端末及び受信端末
JPH09312790A (ja) * 1996-05-21 1997-12-02 Sharp Corp 音声記録制御装置
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP2005333211A (ja) * 2004-05-18 2005-12-02 Sony Corp 音響収録方法、音響収録再生方法、音響収録装置および音響再生装置
JP2006515490A (ja) * 2003-02-12 2006-05-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 再生位置を決定するための装置及び方法
JP2008054167A (ja) * 2006-08-28 2008-03-06 Canon Inc 記録装置
JP2013141090A (ja) * 2011-12-28 2013-07-18 Canon Inc 撮影装置及びその処理方法
JP2013150202A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 送受信システム及び送受信方法、受信装置及び受信方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247637A (ja) * 1996-03-13 1997-09-19 Canon Inc 映像音声通信システム、映像通信システム、送信端末及び受信端末
JPH09312790A (ja) * 1996-05-21 1997-12-02 Sharp Corp 音声記録制御装置
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP2006515490A (ja) * 2003-02-12 2006-05-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 再生位置を決定するための装置及び方法
JP2005333211A (ja) * 2004-05-18 2005-12-02 Sony Corp 音響収録方法、音響収録再生方法、音響収録装置および音響再生装置
JP2008054167A (ja) * 2006-08-28 2008-03-06 Canon Inc 記録装置
JP2013141090A (ja) * 2011-12-28 2013-07-18 Canon Inc 撮影装置及びその処理方法
JP2013150202A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 送受信システム及び送受信方法、受信装置及び受信方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018152846A (ja) * 2017-03-14 2018-09-27 株式会社リコー 音響記録装置、音響システム、音響記録方法、プログラムおよびデータ構造
US11490199B2 (en) 2017-03-14 2022-11-01 Ricoh Company, Ltd. Sound recording apparatus, sound system, sound recording method, and carrier means
JP7196399B2 (ja) 2017-03-14 2022-12-27 株式会社リコー 音響装置、音響システム、方法およびプログラム
US20220101825A1 (en) * 2019-02-01 2022-03-31 Nippon Telegraph And Telephone Corporation Sound image localization device, sound image localization method, and program
US11875774B2 (en) * 2019-02-01 2024-01-16 Nippon Telegraph And Telephone Corporation Sound image localization device, sound image localization method, and program

Also Published As

Publication number Publication date
JP6521675B2 (ja) 2019-05-29

Similar Documents

Publication Publication Date Title
JP5992210B2 (ja) 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
US11055057B2 (en) Apparatus and associated methods in the field of virtual reality
RU2683262C2 (ru) Устройство обработки информации, способ обработки информации и программа
US9591418B2 (en) Method, apparatus and computer program for generating an spatial audio output based on an spatial audio input
US10998870B2 (en) Information processing apparatus, information processing method, and program
EP3785452B1 (en) Apparatus and method for rendering an audio signal for a playback to a user
WO2019039378A1 (ja) 情報処理装置および画像表示方法
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
US10873824B2 (en) Apparatus, system, and method of processing data, and recording medium
WO2020073563A1 (zh) 用于处理音频信号的方法和装置
JP2020520576A5 (ja)
JP6580516B2 (ja) 処理装置および画像決定方法
US10536666B1 (en) Systems and methods for transmitting aggregated video data
JP6521675B2 (ja) 信号処理装置、信号処理方法、及びプログラム
JP2018033107A (ja) 動画の配信装置及び配信方法
JP2017216643A (ja) アクチュエータ装置
JP2018157314A (ja) 情報処理システム、情報処理方法及びプログラム
JP6651231B2 (ja) 携帯情報端末、情報処理装置、及びプログラム
TW202249502A (zh) 在兩個音頻通道上之聲源的離散雙耳空間化
WO2017183292A1 (ja) 処理装置および画像決定方法
US10764684B1 (en) Binaural audio using an arbitrarily shaped microphone array
JP6056466B2 (ja) 仮想空間中の音声再生装置及び方法、並びにプログラム
JP6615716B2 (ja) ロボットおよび筐体
JPWO2019038885A1 (ja) 情報処理装置および画像出力方法
US11638111B2 (en) Systems and methods for classifying beamformed signals for binaural audio playback

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190423

R151 Written notification of patent or utility model registration

Ref document number: 6521675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151