本発明は、主音声に対して、主音声に関係する音声である副音声や、使用者の操作を反映する効果音を加算する、オーディオミキシング装置に関する。
近年、2チャンネルよりも多いチャンネル数の音声信号が記録されたコンテンツの普及が進んでいる。たとえば、6チャンネル分の音声信号が記録されている映画コンテンツのDVDが入手可能である。
音声信号は、通常、そのチャンネル数に相当する数のスピーカから出力されることが想定されている。たとえば、図1は、聴取者17を囲むように配置された6チャンネルの音声信号用のスピーカ11〜16を示している。図1には、左チャンネルスピーカ(L)11と、中央チャンネルスピーカ(C)12と、右チャンネルスピーカ(R)13と、左後方チャンネルスピーカ(LS)14と、右後方チャンネルスピーカ(RS)15と、低域効果チャンネルスピーカ(Low Frequency Effect;LFE)16とが示されている。
なお、LFE16が出力する音声の周波数帯域は、他のスピーカのそれの10分の1以下であるため、LFE用音声信号を「0.1チャンネル」と数えることがある。その結果、図1に示すスピーカシステムは「5.1チャンネルサラウンドスピーカーシステム」と呼ばれることも多い。ただし、本願明細書においては、LFE用音声信号は1チャンネルと数え、「5.1チャンネル」という表現は使わないこととする。
たとえば6チャンネルの音声信号を含むコンテンツをテレビ番組で放送するときには、放送局は、2チャンネルの音声信号に変換して送信することがある。これは2つのスピーカを有するアナログテレビで視聴されることを想定しているためである。このような、音声信号のチャンネル数を減少させる処理を「ダウンミキシング」という。2スピーカを有するテレビは受信した2チャンネルの音声信号の各々に基づいて音声を出力することができる。
一方、スピーカ数が2より多いオーディオ機器も存在する。多くのスピーカから音声が出力できるほど映像の臨場感は増すため、より多くのスピーカから独立した音声を出力できることが好ましい。そこで現在は、2チャンネルの音声信号を受信した機器が、自らの出力性能に応じて2チャンネルよりも多いチャンネルデータを擬似的に生成する、擬似サラウンド処理を行うのが一般的である。
数1および数2は、一般的なダウンミキシング方法を示す計算式である。
Ldm=KLL×Lm+KLC×Cm+KLR×Rm+KLLS×LSm+KLRS×RSm+KLLFE×LFEm (数1)
Rdm=KRL×Lm+KRC×Cm+KRR×Rm+KRLS×LSm+KRRS×RSm+KRLFE×LFEm (数2)
数式中の記号の意味は、Ldm:生成される左出力信号、Rdm:生成される右出力信号、Cm、LmおよびRm:元の音声信号のうちのセンター信号、左信号および右信号、LSmおよびRSm:元の音声信号のうちの左後方信号および右後方信号、LFEm:元の音声信号のうちの低域効果信号、である。数1および2により、音声信号は、6チャンネル(M=6)から2チャンネル(N=2)にダウンミキシングされる。左出力信号Ldmおよび右出力信号Rdmを受信した2スピーカのテレビは、これらの音声信号をそれぞれのスピーカから出力する。
数1および2のCm、Lm、Rm、LSm、RSmおよびLFEmに乗じられた係数は、それぞれ以下の通りである。係数(A1)は左ミキシング係数と呼ばれ、係数(A2)は右ミキシング係数と呼ばれる。
(A1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=−0.707, KLRS=−0.707, KLLFE=0.0
(A2) KRL=0.0, KRC=0.707, KRR=1.0, KRLS=0.707, KRRS=0.707, KRLFE=0.0
このような値のミキシング係数を設定する理由は、数3および数4に示すように、擬似的な後方チャンネル信号と擬似的な中央チャンネル信号を得るためである。
Rdm−Ldm=−Lm+Rm+1.414×(LSm+RSm)
(数3)
Rdm+Ldm=Lm+1.414×Cm+Rm
(数4)
数3によれば、左出力信号Ldmおよび右出力信号Rdmを受け取った機器がRdmからLdmを差し引くことにより、擬似的に強調された後方チャンネル信号(LSm+RSm)を得ることができる。また数4によれば、左出力信号Ldmおよび右出力信号Rdmを受け取った機器がRdmにLdmを加えることにより、擬似的に強調された中央チャンネル信号(Cm)を得ることができる。つまり数3および数4のような簡単な演算により、機器は2チャンネルの出力信号LdmおよびRdmを使って擬似的な中央チャンネル信号および後方チャンネル信号を生成して、合計4チャンネルの音声を再生することが可能になる。
特許文献1から3は、ダウンミキシングを行うオーディオミキシング装置において、6チャンネルの音声信号を2チャンネルの音声信号にダウンミキシングするときに用いる係数(パラメータ)の設定を切り替える技術を開示している。
また特許文献4は、マルチチャネル・ミックスの所期の方向及び信号エネルギーを維持するオーディオミキシング装置を開示している。この文献では、入力信号の信号エネルギーと所期の方向とが出力信号において実質的に維持されるように、生成された左および右チャネル混合係数mlおよびmrに応答してマルチチャネル入力信号を出力信号にダウンミキシングする方法を用いている。
日本国特開平6−165079号公報
日本国特開2004−241853号公報
日本国特表2001−518267号公報
日本国特表2005−523672号公報
数1および数2に示すミキシング係数を使用して2チャンネル(N=2)の音声信号LdmおよびRdmを生成すると、音像が当初の6チャンネル(M=6)の信号の音像と全く異なってしまうことがある。
たとえば、図1の6チャンネルのスピーカシステムにおいて聴取者17の位置に音像を定位させるためには、Cチャンネルから振幅0.5の信号を出力し、RSチャンネルおよびLSチャンネルからそれぞれ振幅0.25の信号を出力すれば良い。その音声信号を2チャンネルにダウンミキシングすると、数5および数6に示す出力信号が得られる(数1および数2にCm=0.5、LSm=RSm=0.25を代入する)。
Ldm=0.0+0.707×0.5−0.707×0.25−0.707×0.25=0.0 (数5)
Rdm=0.707×0.5+0.0+0.707×0.25+0.707×0.25=0.707 (数6)
数5から明らかなとおり、左出力信号Ldmによれば音声は出力されない。よって、ダウンミキシングされた出力信号LdmおよびRdmを受けた機器は、音像が右に偏った音声を出力することになる。
このような不自然な音像は、パニング(panning)操作などにより、複数のチャンネルを利用して、6チャンネルの信号に含まれる副音声信号や効果音信号の音像を移動させる場合においては顕著に認識される。なお「パニング」とは、たとえば図1のLスピーカ11、Cスピーカ12、Rスピーカ13、RSスピーカ15、LSスピーカ14から順に音声を出力することにより、図1に示す円上で音像を時計方向に回転させる音声出力方法をいう。
また、特許文献1から3においては、パラメータの設定を切り替えるための基準は、たとえば、ユーザの嗜好にあった音質を得ることや、プログラムソースに応じた最適な音質を得ることである。これでは、予め設定することが必要であったり、プログラムソースの内容を予め把握しておく必要があり、柔軟性を欠く。
特許文献4においては、入力信号のエネルギーに基づいて混合係数mlおよびmrを求める必要があるために、オーディオミキシング装置のハードウェア規模が大きくなる、もしくはソフトウェアの処理が多くなる。よって、コストが嵩むという問題が生じる。同じような機能を民生用機器で実現するためには、特許文献4の技術とは異なる、処理がより簡単で、エネルギーのような入力信号の性質に依存しない確実な方法が要求されている。
なお、特許文献2および3のオーディオミキシング装置は、DVDの再生機器への内蔵を想定したものであり、その次の世代のブルーレイディスク(BD)の再生機器への応用は不可能である。ブルーレイディスク規格(Blu−ray Disc Format)では、ボタン音(従音声)を主音声にミキシングできるよう規定されているため、従音声をパニングさせて音像を積極的に動かすことができる。ところが、従音声には映像を伴っていない場合があり、必ずしも音像定位に映像情報を補助的に用いることができない。したがってブルーレイディスク規格に準拠した製品においては、従音声が存在する場合にはミキシングしても従音声の音像定位を保つ方法が要求されている。
本発明の目的は、入力信号の性質に依存せずに処理が簡単で確実なオーディオミキシング装置を提供することである。
本発明によるオーディオミキシング装置は、主音声データ、従音声データおよび制御データを含む音声データを受け取って、前記音声データから各々を分離する解析回路であって、前記制御データは従音声の存在の有無を示す複数のパラメータを含む、解析回路と、分離された前記主音声データを、複数チャンネルの主音声信号に復号する主音声再生回路と、分離された前記従音声データを、複数チャンネルの従音声信号に復号する従音声再生回路と、チャンネルごとに前記従音声信号を前記主音声信号に加算してMチャンネルの合成音声信号を生成し、設定されたミキシング係数群に基づいて、前記Mチャンネルの合成音声信号をNチャンネル(N<M)の音声信号に変換するミキシング回路と、前記ミキシング回路に設定されるミキシング係数群を複数種類記憶する係数記憶回路と、前記従音声データの存在の有無にかかわらず、分離された前記制御データに含まれる前記複数のパラメータの各々に基づいて前記従音声の存在の有無を判定し、判定結果に応じて、前記係数記憶回路に記憶されている複数種類のミキシング係数群の中から1つのミキシング係数群を選択し、前記ミキシング回路に設定する判定回路とを備えている。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータの各々は、前記副音声の存在の有無または効果音の存在の有無を示しており、前記判定回路は、前記複数のパラメータの各々によって、前記副音声および前記効果音が存在しないことが示されているときに、前記従音声が存在しないと判定してもよい。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータは、前記効果音を格納したファイルの有無を示すパラメータ、前記従音声の存在を示すフラグ、インタラクティブ映像の有無を示すパラメータ、および、前記従音声のうちの前記副音声のデータの有無を示すパラメータを含んでおり、前記判定回路は、(a)前記従音声の存在を示すフラグが前記従音声の存在を示していないとき、(b)前記従音声の存在を示すフラグが前記従音声の存在を示しており、前記副音声のデータの有無を示すパラメータが前記副音声のデータの存在を示しておらず、かつ、前記インタラクティブ映像の有無を示すパラメータが、前記インタラクティブ映像の存在を示していないとき、または、(c)前記従音声の存在を示すフラグが前記従音声の存在を示しており、前記副音声のデータの有無を示すパラメータが前記副音声のデータの存在を示しておらず、前記インタラクティブ映像の有無を示すパラメータが前記インタラクティブ映像の存在を示しておらず、かつ、前記効果音を格納したファイルの有無を示すパラメータが前記効果音の存在を示していないときは、前記従音声が存在しないと判定してもよい。
前記インタラクティブ映像の有無を示すパラメータによって、前記インタラクティブ映像の存在が示されていないときは、前記判定回路は前記効果音が存在しないと判定し、前記インタラクティブ映像の有無を示すパラメータによって、前記インタラクティブ映像の存在が示されているときは、前記判定回路は前記効果音が存在すると判定してもよい。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータは、前記効果音を格納したファイルの有無を示すパラメータ、前記従音声の存在を示すフラグ、インタラクティブ映像の有無を示すパラメータ、および、前記従音声のうちの前記副音声のデータの有無を示すパラメータのうちの少なくともひとつを含んでおり、前記判定回路は、前記複数のパラメータの各々によって、前記副音声および前記効果音の存在が示されていないときに、前記従音声が存在しないと判定してもよい。
電源投入後に前記解析回路が前記音声データを最初に受信した時、前記判定部は前記ミキシング係数群を前記ミキシング回路に設定してもよい。
前記解析回路が、新たに音声データを受信した時、前記判定部は前記ミキシング係数群を前記ミキシング回路に設定してもよい。
本発明のオーディオミキシング装置は、解析回路が出力した制御データに基づいて、判定回路が入力データに従音声データが存在すると判断した場合には、判定回路が係数記憶回路から従音声データが存在する場合のミキシング係数を読み出して、ミキシング回路に設定し、それ以外の場合は係数記憶回路から従音声データが存在しない場合のミキシング係数を読み出して、ミキシング回路に設定するので、入力データ中の制御データに基づいて判定回路が判断するために処理が簡単で、従音声が存在する場合には方向性が維持されるミキシング係数を係数記憶回路から読み出すようにすることで、確実に音像定位が維持されたまま主音声と従音声をミキシングした出力音声信号が得られる。
さらに判定回路が、入力データに従音声データが存在するか否かの判定を、入力信号そのものでなく解析回路が出力した制御データに基づいて行うため、入力信号の性質が急激に変わったりした場合でも、ミキシング回路は影響を受けることなく、安定かつ確実なミキシングを行うことができる。
聴取者17を囲むように配置された6チャンネルの音声信号用のスピーカ11〜16を示す図である。
本発明の本実施形態によるオーディオミキシング装置100のブロック図である。
加算回路110(図2)の詳細な構成を示すブロック図である。
ミキシング回路109(図2)の詳細な構成を示すブロック図である。
判定回路102によって副音声および効果音が存在しないと識別される条件を示す図である。
判定回路102の判断処理の手順を示すフローチャートである。
符号の説明
101 解析回路
102 判定回路
103 主音声再生回路
104 副音声再生回路
105 効果音再生回路
106 副音声加算回路
107 効果音加算回路
108 係数記憶回路
109 ミキシング回路
110 加算回路
111 従音声再生回路
以下、添付の図面を参照しながら、本発明によるオーディオミキシング装置の実施形態を説明する。
図2は、本発明の本実施形態によるオーディオミキシング装置100のブロック図である。オーディオミキシング装置100は、解析回路101と、判定回路102と、主音声再生回路103と、係数記憶回路108と、ミキシング回路109と、加算回路110と、従音声再生回路111とを備えている。
解析回路101は、音声データを受け取る。この音声データには、主音声データ、少なくとも1つの従音声データ、および、制御データが重畳されている。解析回路101は、受け取った音声データを、主音声データ、従音声データおよび制御データに分離する。
なお、副音声は一般的に主音声に付随する補助的な音声で、効果音は一般的に使用者の操作を反映させる音声である。映画の音声を例に挙げると、「主音声データ」は本編の音声(主音声)のデータであり、「副音声データ」は他国語の吹き替え音声や映画スタッフのコメンタリーの音声(副音声)のデータであり、効果音データとは、表示されたメニューの選択、決定時の効果音のデータである。
音声データは、たとえばブルーレイディスクに記録され、BDプレーヤ(図示せず)によって読み出された音声データである。この音声データがにトランスポートストリーム形式で記録されていたとすると、音声データは、複数のパケットから構成されたデータである。解析回路101は、主音声データ、従音声データ(副音声データおよび効果音データ)および制御データを格納した各パケットに別個に付された異なる識別子(パケットID;PID)に基づいて、各データを分離する。
判定回路102は、解析回路101が出力する制御データに基づいて従音声データが存在する場合と従音声データが存在しない場合とを識別する。そして、識別結果に応じて、後述する係数記憶回路108に記憶されている複数のミキシング係数群のうちのひとつの群を選択してミキシング回路109に設定する。判定回路102は、たとえばコンピュータである中央処理ユニット(CPU)が図示しないメモリに格納されたコンピュータプログラムを実行することによって実現される。当該コンピュータプログラムは、後述する図6に示す処理手順に従って作成されている。
主音声再生回路103は、主音声データを少なくとも1チャンネルの主音声信号に復号する。一方、従音声再生回路111は、副音声再生回路104と効果音再生回路105とを有しており、従音声データを少なくとも1チャンネルの従音声信号に復号する。
加算回路110は、副音声加算回路106および効果音加算回路107を有しており、主音声信号に対し、少なくとも1つの従音声信号を加算する。なお、図2では加算回路110は1つのみ示されているが、加算回路110は複数でもよい。複数の加算回路110を設けることにより、たとえば副音声信号のチャンネル数が多いときであっても、処理の高速化を図ることが可能である。
係数記憶回路108は、ミキシング回路109でMチャンネルの信号をNチャンネルに変換するミキシング係数を複数種類記憶している。たとえば係数記憶回路108は、先に説明した数1および数2に対応するミキシング係数群(A1)および(A2)(以下、「ミキシング係数群(A)」と記述する。)を保持している。さらに係数記憶回路108は、後述する数7および数8に対応するミキシング係数群(B1)および(B2)(以下、「ミキシング係数群(B)」と記述する。)を保持している。係数記憶回路108は、判定回路102からの指示に基づいて、ミキシング係数群(A)、または、ミキシング係数群(B)のいずれかを出力する。
ミキシング回路109は、少なくとも1つの従音声信号が加算されたMチャンネルの前記主音声信号をMチャンネルよりも少ないチャンネル数N(N<M)に変換する。たとえばミキシング回路109は、入力された6チャンネルの音声信号に対し、ミキシング係数に応じたダウンミキシングを行い、2チャンネルの音声信号を出力する。
なお、オーディオミキシング装置100は、ミキシング回路109に入力される前の6チャンネルの信号を、ミキシング回路109を通さずに外部に出力することが可能である。
図3は、加算回路110(図2)の詳細な構成を示すブロック図である。加算回路110の副音声加算回路106は、チャンネルごとの加算回路201−206を有している。加算回路201−206は、6チャンネルの主音声信号(Lp、Cp、Rp、LSp、RSp、LFEp)と、6チャンネルの副音声信号(Ls、Cs、Rs、LSs、RSs、LFEs)とをそれぞれ加算する。
効果音加算回路107もまた、チャンネルごとの加算回路207−212を有している。加算回路207−212は、副音声加算回路106による加算処理によって得られた、主音声および副音声が合成された6チャンネルの音声信号と、6チャンネルの効果音信号(Li、Ci、Ri、LSi、RSi、LFEi)とをそれぞれ加算する。その結果、効果音加算回路107は、主音声、副音声および効果音が合成された6チャンネルの音声信号(Lm、Cm、Rm、LSm、RSm、LFEm)を出力する。
なお、添え字“p”、“s”、“i”、“m”が付された記号L、C、R、LS、RS、LFEの意味は、背景技術の欄において図1に関連して説明したとおりである。
図4は、ミキシング回路109(図2)の詳細な構成を示すブロック図である。ミキシング回路109は、左チャンネル乗算回路301−306と、右チャンネル乗算回路307−312と、左チャンネル加算回路313と、右チャンネル加算回路314とを有している。
左チャンネル乗算回路301−306は、加算回路110(図3)の効果音加算回路107から出力された各チャンネルLm、Cm、Rm、LSm、RSm、LFEmに対して、左ミキシング係数(KLL, KLC, KLR, KLLS, KLRS, KLLFE)をそれぞれ乗じる。右チャンネル乗算回路307−312は、効果音加算回路107から出力された各チャンネルLm、Cm、Rm、LSm、RSm、LFEmに対して右ミキシング係数(KRL, KRC, KRR, KRLS, KRRS, KRLFE)をそれぞれ乗じる。
左チャンネル乗算回路301−306および右チャンネル乗算回路307−312が乗算する際に利用する左ミキシング係数および右ミキシング係数は、外部から変更することが可能である。後述のように、これらのミキシング係数は係数記憶回路108に格納されており、判定回路102からの指示に基づいて変更される。
左チャンネル加算回路313は、左ミキシング係数を乗じられた各チャンネルの信号の総和を求める。右チャンネル加算回路314は、右ミキシング係数を乗じられた各チャンネルの信号の総和を求める。この結果、ミキシング回路109は、チャンネル数2の音声信号(LdmおよびRdm)を出力する。これにより、6チャンネル(M=6)の信号を2チャンネル(N=2)の信号にダウンミキシングされる。
次に、オーディオミキシング装置100(図2)の動作を説明する。上述の例ではチャンネル数を6としたが、以下ではより一般的に説明するため、チャンネル数はM以下とする。チャンネル数がMより小さいときは、信号値0の信号が出力されているとして取り扱うことにより、下記のチャンネル数Mの演算処理が行われるとする。
解析回路101は、入力された音声データを受け取って、その音声データを、主音声データ、従音声データおよび制御データに分離する。上述のように、従音声データは副音声データと効果音データとを包含する。解析回路101は、副音声データおよび効果音データについても分離する。
主音声再生回路103は、主音声データに基づいて、最大Mチャンネルの主音声信号を復号する。そして副音声再生回路104は副音声データに基づいて、最大Mチャンネルの副音声信号を復号する。そして効果音再生回路105は効果音データに基づいて最大Mチャンネルの効果音信号を復号する。
次に、副音声加算回路106は、主音声再生回路103から出力されたMチャンネルの主音声信号に、副音声再生回路104から出力されたMチャンネルの副音声信号を加算する。加算は、対応するチャンネル毎に行われる。また効果音加算回路107は、副音声加算回路106から出力された、副音声が加算されたMチャンネルの主音声信号に、効果音再生回路105から出力されたMチャンネルの効果音信号を加算する。ここでも加算は、対応するチャンネル毎に行われる。
一方、上述した処理と並行して、判定回路102は、解析回路101によって分離され、出力された制御データに基づいて、入力データに副音声データまたは効果音データが存在するか否かを識別する。係数記憶回路108には、副音声データおよび効果音データが存在しない場合のミキシング係数群Aと、入力データに副音声データもしくは効果音データが存在する場合のミキシング係数群Bとが記憶されている。判定回路102は、識別結果に基づいて、係数記憶回路108に記憶されているミキシング係数群Aか、ミキシング係数群Bかを選択し、係数記憶回路108に対してそれらをミキシング回路109に出力するよう指示する。その結果、ミキシング回路109にはいずれかのミキシング係数群が設定される。判定回路102は、識別結果に応じてミキシング係数群Aかミキシング係数群Bかを選択し、ミキシング回路109に設定しているといえる。
ミキシング回路109は、効果音加算回路107から出力されたMチャンネルの音声信号を、係数記憶回路108に格納されているミキシング係数を使ってMチャンネルよりも少ないチャンネル数N(N<M)に変換する。
ミキシング回路109には、複数のミキシング係数群が設定され得る。そのうちのひとつが、数1および数2による演算を実現するミキシング係数群Aである。ミキシング係数群Aを改めて示すと以下のとおりである。
(A1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=−0.707, KLRS=−0.707, KLLFE=0.0
(A2) KRL=0.0, KRC=0.707, KRR=1.0, KLLS=0.707, KLRS=0.707, KLLFE=0.0
この上述のミキシング係数群Aのみでは、ダウンミキシングによって生成されるNチャンネルによる音像が、当初のMチャンネルの信号の音像と全く異なってしまうことがある。そこで本実施形態では、ミキシング係数群Aとは異なるミキシング係数群Bを設け、条件に応じていずれかのミキシング係数群を選択して、ミキシング回路109に設定するようにした。
本実施形態において設定した条件とは、入力データに副音声データまたは効果音データが存在するか、副音声データおよび効果音データが存在しないかである。なお、副音声データおよび効果音データが両方存在するときは、入力データに副音声データが存在することをもって上述の条件に該当するとして処理している。この処理は後に図6を参照しながら詳述する。
BDにおいては、副音声信号や効果音信号の音像をチャンネル内で移動させることが可能であるため、入力データに副音声データまたは効果音データが存在する場合には、そのような音像の移動が想定される。したがって、副音声信号や効果音信号の音像をチャンネル内で移動させるような場合には、不自然な音像が生じにくいミキシング係数を適用して、ダウンミキシングを行えばよい。
たとえば、ダウンミキシング後のチャンネル数がN=2のときには、中央(C)チャンネル、左後方(LS)チャンネルおよび右後方(RS)チャンネルは存在しないチャンネルである。このような、Nチャンネル(N=2)には存在しないMチャンネル(M=6)中のチャンネルの音声信号については、そのチャンネル配置上の距離が最も近いNチャンネル内の1個ないし複数のチャンネルに同位相で加算する。このような演算を可能にするミキシング係数を設定すればよい。これにより、Mチャンネル信号をNチャンネルにミキシングしても、音像定位を極力保つことができる。
下記数7および数8は、6チャンネルの入力データに副音声データまたは効果音データが存在する場合の、2チャンネルへのダウンミキシング方法を示す計算式である。
Ldm’=Lm+0.707×Cm+0.707×LSm
(数7)
Rdm’=0.707×Cm+Rm+0.707×RSm
(数8)
数7および数8に利用されたミキシング係数B1およびB2は以下のとおりである。
(B1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=0.707, KLRS=0.0, KLLFE=0.0
(B2) KRL=0.0, KRC=0.707, KRR=1.0, KLLS=0.0, KLRS=0.707, KLLFE=0.0
数7では、左(L)チャンネルの信号Lmと、中央(C)チャンネルの信号Cmにミキシング係数を乗じた0.707×Cmと、左後方(LS)チャンネルの信号LSmにミキシング係数を乗じた0.707×LSmとを加算(ミキシング)している。これにより、左出力信号Ldm’が得られる。
また、数8では、中央(C)チャンネルの信号Cmにミキシング係数を乗じた0.707×Cmと、右(R)チャンネルの信号Rmと、右後方(RS)チャンネルの信号RSmにミキシング係数を乗じた0.707×RSmとを加算(ミキシング)している。これにより、右出力信号Rdm’が得られる。
上述のミキシング係数群B(B1およびB2)は、図4に示すミキシング回路109に入力される。
なお、副音声データおよび効果音データが存在しない場合には、不自然な音像が生じる可能性を考慮する必要はない。よって、従来用いられていた、数1および数2に示すダウンミキシングを行えばよい。
次に、図5および図6を参照しながら、判定回路102の動作を詳細に説明する。
まず、図5は、判定回路102によって副音声および効果音が存在しないと識別される条件を示す。
図5の見方を説明する。図5の最上段に示されている、「Sound.bdmv」、「audio_mix_app_flag」、「Interactive Graphics」および「Secondary Audio」は、それぞれ、BD規格において規定されているパラメータである。
最上段に示されている「Sound.bdmvの有無」とは、効果音格納ファイル(Sound.bdmv)が存在するか否かを示している。このファイルは、BD規格の「インタラクティブグラフィックストリームアプリケーション」または「BD−Jアプリケーション」に関連する音声データの情報を格納している。列の下方向に沿って、HDMV(1)は不定、HDMV(2)は無し、HDMV(3)は有り、HDMV(4)は不定、を示している。
次の「audio_mix_app_flag」は、従音声存在フラグとも呼ばれている。従音声存在フラグは、副音声(Secondary Audio)ミキシングおよび/またはインタラクティブ音声ミキシングがプレイリスト(PlayList)に適用されるかどうかのプレイリストの状態を示している。「プレイリスト」とは、1以上の動画ストリームの一部または全部の再生順序を規定した情報である。プレイリストによる映像再生時に、副音声(Secondary Audio)ミキシングおよび/またはインタラクティブ音声ミキシングが同期して再生される場合には「1」が設定され、再生されない場合には「0」が設定される。フラグが「0」の場合は、副音声も効果音も存在しないことを意味している。
次の「Interactive Graphicsの有無」はインタラクティブ映像(たとえば特典映像)の有無を示している。列の下方向に沿って、「不定」、「不定」、「無し」および「不定」である。
最後の「Secondary Audioの有無」とは、従音声のうちの副音声の実体であるデータが存在するか否かを示している。
上述の説明から明らかなとおり、「Sound.bdmv」、「audio_mix_app_flag」および「Secondary Audio」は、いずれも従音声の存在の有無を示している。一方、「Interactive Graphics」は、従音声の存在を直接示すものではない。しかしながら、このパラメータは従音声の存在を示唆していると言える。その理由は、インタラクティブグラフィックスが存在すれば、多くの場合、それに付随して効果音も存在していると推測されるためである。そこで本実施形態においては、「Sound.bdmv」、「audio_mix_app_flag」、「Interactive Graphics」および「Secondary Audio」の各パラメータを、従音声の存在の有無を示すパラメータであるとして取り扱う。
上述した「Sound.bdmvの有無」、「audio_mix_app_flag」、「Interactive Graphicsの有無」および「Secondary Audioの有無」は、解析回路101によって分離された制御データによって判断される。よって、制御データを参照すれば各パラメータを特定することができる。なお、各パラメータはBD規格において規定されているものであり、それぞれが異なる目的で設けられている。相互の関連付けはされておらず、互いに独立して設定されている。
以下、判定回路102によるミキシング係数を判定する処理を説明する。
まず判定回路102は、解析回路101が分離した制御データに基づいて、図6に示す判断を行って、入力された音声データに副音声データまたは効果音データが存在するか、それとも、副音声データおよび効果音データがいずれも存在しないかを判定する。
図6は、判定回路102の判断処理の手順を示す。
ステップS1において、判定回路102は、audio_mix_app_flagに基づいて、従音声存在フラグが「0」であるか否かを判定する。フラグが「0」のとき、すなわち副音声も効果音も存在しないときは処理はステップS5に進み、「1」のときは処理はステップS2に進む。図5の例では、HDMV(1)およびBD−JについてはステップS5に進み、HDMV(2)および(3)についてはステップS2に進む。
ステップS2において、判定回路102は、「Secondary Audioの有無」に基づいて副音声の有無を判定する。副音声が存在しないとき(ステップS2でNO)のときは、処理はステップS3に進み、それ以外のとき(ステップS2でYES)は、処理はステップS6に進む。
図5の例に関してステップS2の条件を判断すると、HDMV(2)および(3)については副音声が存在しないことが明示されているため、処理はステップS3に進む。一方、HDMV(1)およびBD−Jについては、処理はステップS6に進む。HDMV(1)およびBD−Jでは副音声の存在は不定とされている。「不定」では、存在しないことが明示されているとは言えないため、本実施形態においては副音声が存在するとして取り扱っている。
ステップS3では、判定回路102は「Interactive Graphicsの有無」に基づいてインタラクティブグラフィックスの有無を判定する。インタラクティブグラフィックスが存在しないとき(ステップS3でNO)は、処理はステップS5に進み、それ以外のとき(ステップS3でYES)は、処理はステップS4に進む。インタラクティブグラフィックスの有無に基づく処理は、ミキシング係数を判定する基準として適切である。上述した通り、インタラクティブグラフィックスが存在すれば効果音の存在を推測できるからである。これにより、効果音がパニング操作された場合に不自然な音像の発生を確実に防ぐことが可能になる。
図5の例に関してステップS3の条件を判断すると、HDMV(3)についてはインタラクティブグラフィックスが存在しないことが明示されているため、処理はステップS5に進む。このとき判定回路102は、HDMV(3)には副音声も効果音も存在しないと識別する。一方、HDMV(1)、(2)およびBD−Jについては、処理はステップS4に進む。これは先の例と同様、「不定」では、存在しないことが明示されているとは言えないためである。
ステップS4において、判定回路102は「Sound.bdmvの有無」に基づいて効果音格納ファイルの有無を判定する。ファイルが存在しないとき(ステップS4でNO)は、処理はステップS5に進み、それ以外のとき(ステップS4でYES)は、処理はステップS6に進む。
図5の例に関してステップS4の条件を判断すると、HDMV(2)については効果音格納ファイルが存在しないことが明示されているため、処理はステップS5に進む。一方、HDMV(1)、(3)およびBD−Jについては、処理はステップS6に進む。その理由は先の例と同様である。
ステップS5では、判定回路102は係数記憶回路108に対して、数1および数2に示す演算を行うためのミキシング係数群を出力するように制御する。たとえばステップS4におけるHDMV(3)のように、副音声も効果音も存在しないと識別したときは、判定回路102は係数記憶回路108に対して上述したミキシング係数群Aを出力するように制御する。この結果、ミキシング回路109にはミキシング係数群Aが設定され、ミキシング回路109において数1および数2に対応するダウンミキシングが行われる。
一方ステップS6では、判定回路102は係数記憶回路108に対して、上述したミキシング係数群Bを出力するように制御する。この結果、ミキシング回路109にはミキシング係数群Bが設定され、ミキシング回路109において数7および数8に示す演算により、ダウンミキシングが行われる。
上述の判定処理は、たとえばBDからのコンテンツ(たとえば映画)の再生開始時に行われる。再生開始時とは、たとえば、オーディオミキシング装置100がBDプレーヤに内蔵されているときにおいて、BDプレーヤおよびオーディオミキシング装置100への電源投入後に解析回路101がBDから再生された音声データを最初に受信した時である。または、BDがBDプレーヤに挿入された後、解析回路101がそのBDから再生された音声データを最初に受信した時である。これは解析回路101が新たに音声データを受信した時と同じ意味である。さらに、再生中であっても判定回路102が常時または一定の時間間隔で制御データの内容を監視し、上述したパラメータに変化があったときは判定処理を再実行し、ミキシング係数群を再度決定してもよい。これらのタイミングで判定を行い、制御データに基づいてミキシング係数群を設定しておくことにより、聴取者はその後再生される音声の音像に対して違和感を覚えることはない。
なお、上述の例では4つのパラメータを利用して説明したが、この数は例である。たとえば4つのうちの少なくともひとつで従音声の存在の有無を判定してもよい。
以上のように本実施形態によれば、解析回路101が出力した制御データに基づいて、判定回路102が入力された音声データに副音声データまたは効果音データが存在するか否かを判定する。
判定の結果、いずれかのデータが存在すると判定した場合には、判定回路102は、係数記憶回路108に記憶された、NチャンネルにミキシングしてもMチャンネル信号の音像位置を極力保つことができるミキシング係数群B(数7および数8参照)を、ミキシング回路109に設定する。それ以外の場合には、判定回路102は、係数記憶回路108に記憶された、ミキシング係数群A(数1および数2参照)を、ミキシング回路109に設定する。判定回路102は、入力データ中の制御データに基づいて、予め複数種類用意されていたミキシング係数群のうちからひとつを選択してミキシング回路109に設定する。ミキシング係数群の設定は、ミキシング回路109に保持された各ミキシング係数を書き換えるだけで実現されるため、処理が簡単であるとともに、大規模なハードウェアも不要である。そして、副音声データまたは効果音データが存在する場合には、音像の位置や音像変化の方向性が維持されるミキシング係数がミキシング回路109に設定されるため、音像位置が良好に維持されたまま副音声データまたは効果音データを主音声にミキシングした出力音声信号を得ることができる。
本発明によるオーディオミキシング装置は、たとえば再生専用のBD(BD−ROM)の再生機やHD−DVDの再生機に内蔵されてもよい。これにより、副音声や効果音においてミキシングしても元来の音像位置を極力保つことできるので、その効果は非常に大きい。これにより、視聴者は、パニング操作で音像を積極的に動かした映画監督の声などの副音声や効果音(たとえば「ヒューン」)をオーサリング制作者の意図通りに視聴できる。もちろん、本発明によるオーディオミキシング装置を、たとえば放送局の機器に内蔵することもできる。上述した処理により、Mチャンネルの音声信号を含むコンテンツをN(M>N)チャンネルにダウンミキシングして放送することにより、受信した機器に特別の処理を要求することなく、コンテンツ製作者が意図した音像位置を再現できる。
さらに判定回路102が、入力データに副音声データもしくは効果音データが存在するか否かの判定を、入力信号そのものでなく解析回路101が出力した制御データに基づいて行う。これにより、入力信号の性質が急激に変わった場合でも影響を受けず、ミキシング回路109は、数1および数2、または、数7および数8の演算によってミキシングするので、安定した確実なミキシングを行うことができる。
なお、上述の処理は、常に行われなくてもよい。たとえば使用者等が強制的に副音声と効果音のミキシングをしないように設定したときは、数1および数2に示す通常のミキシング方法のみを行ってもよい。これにより、音像定位が保たれる必要が高い副音声や効果音が存在してもミキシングしない場合には、たとえば、外部機器で数3および数4に示す演算でダウンミキシング処理を施すことにより、2チャンネル信号をマルチチャンネル信号に変換できるようになる。本実施形態においては判定回路102は、ミキシング係数群Aかミキシング係数群Bかを選択していた。しかしながら、上述の説明から明らかなように、選択対象のミキシング係数群は2つに限られず、3つまたはそれ以上設けてもよい。図6に示す条件分岐の数をより多くしたり、分岐先を3以上に変更することにより、きめ細かいダウンミキシングが可能になる。
本発明に係るオーディオミキシング装置は、従音声を再生する機能があり、かつ、出力先の接続機器の条件により出力チャンネル数を変える必要がある機器、たとえばBD−ROM録画再生機、HD−DVD再生機等の一般民生機器や、放送向けの業務用機器の用途に適用できる。
本発明は、主音声に対して、主音声に関係する音声である副音声や、使用者の操作を反映する効果音を加算する、オーディオミキシング装置に関する。
近年、2チャンネルよりも多いチャンネル数の音声信号が記録されたコンテンツの普及が進んでいる。たとえば、6チャンネル分の音声信号が記録されている映画コンテンツのDVDが入手可能である。
音声信号は、通常、そのチャンネル数に相当する数のスピーカから出力されることが想定されている。たとえば、図1は、聴取者17を囲むように配置された6チャンネルの音声信号用のスピーカ11〜16を示している。図1には、左チャンネルスピーカ(L)11と、中央チャンネルスピーカ(C)12と、右チャンネルスピーカ(R)13と、左後方チャンネルスピーカ(LS)14と、右後方チャンネルスピーカ(RS)15と、低域効果チャンネルスピーカ(Low Frequency Effect;LFE)16とが示されている。
なお、LFE16が出力する音声の周波数帯域は、他のスピーカのそれの10分の1以下であるため、LFE用音声信号を「0.1チャンネル」と数えることがある。その結果、図1に示すスピーカシステムは「5.1チャンネルサラウンドスピーカーシステム」と呼ばれることも多い。ただし、本願明細書においては、LFE用音声信号は1チャンネルと数え、「5.1チャンネル」という表現は使わないこととする。
たとえば6チャンネルの音声信号を含むコンテンツをテレビ番組で放送するときには、放送局は、2チャンネルの音声信号に変換して送信することがある。これは2つのスピーカを有するアナログテレビで視聴されることを想定しているためである。このような、音声信号のチャンネル数を減少させる処理を「ダウンミキシング」という。2スピーカを有するテレビは受信した2チャンネルの音声信号の各々に基づいて音声を出力することができる。
一方、スピーカ数が2より多いオーディオ機器も存在する。多くのスピーカから音声が出力できるほど映像の臨場感は増すため、より多くのスピーカから独立した音声を出力できることが好ましい。そこで現在は、2チャンネルの音声信号を受信した機器が、自らの出力性能に応じて2チャンネルよりも多いチャンネルデータを擬似的に生成する、擬似サラウンド処理を行うのが一般的である。
数1および数2は、一般的なダウンミキシング方法を示す計算式である。
Ldm=KLL×Lm+KLC×Cm+KLR×Rm+KLLS×LSm+KLRS×RSm+KLLFE×LFEm (数1)
Rdm=KRL×Lm+KRC×Cm+KRR×Rm+KRLS×LSm+KRRS×RSm+KRLFE×LFEm (数2)
数式中の記号の意味は、Ldm:生成される左出力信号、Rdm:生成される右出力信号、Cm、LmおよびRm:元の音声信号のうちのセンター信号、左信号および右信号、LSmおよびRSm:元の音声信号のうちの左後方信号および右後方信号、LFEm:元の音声信号のうちの低域効果信号、である。数1および2により、音声信号は、6チャンネル(M=6)から2チャンネル(N=2)にダウンミキシングされる。左出力信号Ldmおよび右出力信号Rdmを受信した2スピーカのテレビは、これらの音声信号をそれぞれのスピーカから出力する。
数1および2のCm、Lm、Rm、LSm、RSmおよびLFEmに乗じられた係数は、それぞれ以下の通りである。係数(A1)は左ミキシング係数と呼ばれ、係数(A2)は右ミキシング係数と呼ばれる。
(A1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=−0.707, KLRS=−0.707, KLLFE=0.0
(A2) KRL=0.0, KRC=0.707, KRR=1.0, KRLS=0.707, KRRS=0.707, KRLFE=0.0
このような値のミキシング係数を設定する理由は、数3および数4に示すように、擬似的な後方チャンネル信号と擬似的な中央チャンネル信号を得るためである。
Rdm−Ldm=−Lm+Rm+1.414×(LSm+RSm)
(数3)
Rdm+Ldm=Lm+1.414×Cm+Rm
(数4)
数3によれば、左出力信号Ldmおよび右出力信号Rdmを受け取った機器がRdmからLdmを差し引くことにより、擬似的に強調された後方チャンネル信号(LSm+RSm)を得ることができる。また数4によれば、左出力信号Ldmおよび右出力信号Rdmを受け取った機器がRdmにLdmを加えることにより、擬似的に強調された中央チャンネル信号(Cm)を得ることができる。つまり数3および数4のような簡単な演算により、機器は2チャンネルの出力信号LdmおよびRdmを使って擬似的な中央チャンネル信号および後方チャンネル信号を生成して、合計4チャンネルの音声を再生することが可能になる。
特許文献1から3は、ダウンミキシングを行うオーディオミキシング装置において、6チャンネルの音声信号を2チャンネルの音声信号にダウンミキシングするときに用いる係数(パラメータ)の設定を切り替える技術を開示している。
また特許文献4は、マルチチャネル・ミックスの所期の方向及び信号エネルギーを維持するオーディオミキシング装置を開示している。この文献では、入力信号の信号エネルギーと所期の方向とが出力信号において実質的に維持されるように、生成された左および右チャネル混合係数mlおよびmrに応答してマルチチャネル入力信号を出力信号にダウンミキシングする方法を用いている。
特開平6−165079号公報
特開2004−241853号公報
特表2001−518267号公報
特表2005−523672号公報
数1および数2に示すミキシング係数を使用して2チャンネル(N=2)の音声信号LdmおよびRdmを生成すると、音像が当初の6チャンネル(M=6)の信号の音像と全く異なってしまうことがある。
たとえば、図1の6チャンネルのスピーカシステムにおいて聴取者17の位置に音像を定位させるためには、Cチャンネルから振幅0.5の信号を出力し、RSチャンネルおよびLSチャンネルからそれぞれ振幅0.25の信号を出力すれば良い。その音声信号を2チャンネルにダウンミキシングすると、数5および数6に示す出力信号が得られる(数1および数2にCm=0.5、LSm=RSm=0.25を代入する)。
Ldm=0.0+0.707×0.5−0.707×0.25−0.707×0.25=0.0 (数5)
Rdm=0.707×0.5+0.0+0.707×0.25+0.707×0.25=0.707 (数6)
数5から明らかなとおり、左出力信号Ldmによれば音声は出力されない。よって、ダウンミキシングされた出力信号LdmおよびRdmを受けた機器は、音像が右に偏った音声を出力することになる。
このような不自然な音像は、パニング(panning)操作などにより、複数のチャンネルを利用して、6チャンネルの信号に含まれる副音声信号や効果音信号の音像を移動させる場合においては顕著に認識される。なお「パニング」とは、たとえば図1のLスピーカ11、Cスピーカ12、Rスピーカ13、RSスピーカ15、LSスピーカ14から順に音声を出力することにより、図1に示す円上で音像を時計方向に回転させる音声出力方法をいう。
また、特許文献1から3においては、パラメータの設定を切り替えるための基準は、たとえば、ユーザの嗜好にあった音質を得ることや、プログラムソースに応じた最適な音質を得ることである。これでは、予め設定することが必要であったり、プログラムソースの内容を予め把握しておく必要があり、柔軟性を欠く。
特許文献4においては、入力信号のエネルギーに基づいて混合係数mlおよびmrを求める必要があるために、オーディオミキシング装置のハードウェア規模が大きくなる、もしくはソフトウェアの処理が多くなる。よって、コストが嵩むという問題が生じる。同じような機能を民生用機器で実現するためには、特許文献4の技術とは異なる、処理がより簡単で、エネルギーのような入力信号の性質に依存しない確実な方法が要求されている。
なお、特許文献2および3のオーディオミキシング装置は、DVDの再生機器への内蔵を想定したものであり、その次の世代のブルーレイディスク(BD)の再生機器への応用は不可能である。ブルーレイディスク規格(Blu−ray Disc Format)では、ボタン音(従音声)を主音声にミキシングできるよう規定されているため、従音声をパニングさせて音像を積極的に動かすことができる。ところが、従音声には映像を伴っていない場合があり、必ずしも音像定位に映像情報を補助的に用いることができない。したがってブルーレイディスク規格に準拠した製品においては、従音声が存在する場合にはミキシングしても従音声の音像定位を保つ方法が要求されている。
本発明の目的は、入力信号の性質に依存せずに処理が簡単で確実なオーディオミキシング装置を提供することである。
本発明によるオーディオミキシング装置は、主音声データ、従音声データおよび制御データを含む音声データを受け取って、前記音声データから各々を分離する解析回路であって、前記制御データは従音声の存在の有無を示す複数のパラメータを含む、解析回路と、分離された前記主音声データを、複数チャンネルの主音声信号に復号する主音声再生回路と、分離された前記従音声データを、複数チャンネルの従音声信号に復号する従音声再生回路と、チャンネルごとに前記従音声信号を前記主音声信号に加算してMチャンネルの合成音声信号を生成し、設定されたミキシング係数群に基づいて、前記Mチャンネルの合成音声信号をNチャンネル(N<M)の音声信号に変換するミキシング回路と、前記ミキシング回路に設定されるミキシング係数群を複数種類記憶する係数記憶回路と、前記従音声データの存在の有無にかかわらず、分離された前記制御データに含まれる前記複数のパラメータの各々に基づいて前記従音声の存在の有無を判定し、判定結果に応じて、前記係数記憶回路に記憶されている複数種類のミキシング係数群の中から1つのミキシング係数群を選択し、前記ミキシング回路に設定する判定回路とを備えている。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータの各々は、前記副音声の存在の有無または効果音の存在の有無を示しており、前記判定回路は、前記複数のパラメータの各々によって、前記副音声および前記効果音が存在しないことが示されているときに、前記従音声が存在しないと判定してもよい。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータは、前記効果音を格納したファイルの有無を示すパラメータ、前記従音声の存在を示すフラグ、インタラクティブ映像の有無を示すパラメータ、および、前記従音声のうちの前記副音声のデータの有無を示すパラメータを含んでおり、前記判定回路は、(a)前記従音声の存在を示すフラグが前記従音声の存在を示していないとき、(b)前記従音声の存在を示すフラグが前記従音声の存在を示しており、前記副音声のデータの有無を示すパラメータが前記副音声のデータの存在を示しておらず、かつ、前記インタラクティブ映像の有無を示すパラメータが、前記インタラクティブ映像の存在を示していないとき、または、(c)前記従音声の存在を示すフラグが前記従音声の存在を示しており、前記副音声のデータの有無を示すパラメータが前記副音声のデータの存在を示しておらず、前記インタラクティブ映像の有無を示すパラメータが前記インタラクティブ映像の存在を示しておらず、かつ、前記効果音を格納したファイルの有無を示すパラメータが前記効果音の存在を示していないときは、前記従音声が存在しないと判定してもよい。
前記インタラクティブ映像の有無を示すパラメータによって、前記インタラクティブ映像の存在が示されていないときは、前記判定回路は前記効果音が存在しないと判定し、前記インタラクティブ映像の有無を示すパラメータによって、前記インタラクティブ映像の存在が示されているときは、前記判定回路は前記効果音が存在すると判定してもよい。
前記従音声は、副音声および効果音の少なくとも一方であり、前記複数のパラメータは、前記効果音を格納したファイルの有無を示すパラメータ、前記従音声の存在を示すフラグ、インタラクティブ映像の有無を示すパラメータ、および、前記従音声のうちの前記副音声のデータの有無を示すパラメータのうちの少なくともひとつを含んでおり、前記判定回路は、前記複数のパラメータの各々によって、前記副音声および前記効果音の存在が示されていないときに、前記従音声が存在しないと判定してもよい。
電源投入後に前記解析回路が前記音声データを最初に受信した時、前記判定部は前記ミキシング係数群を前記ミキシング回路に設定してもよい。
前記解析回路が、新たに音声データを受信した時、前記判定部は前記ミキシング係数群を前記ミキシング回路に設定してもよい。
本発明のオーディオミキシング装置は、解析回路が出力した制御データに基づいて、判定回路が入力データに従音声データが存在すると判断した場合には、判定回路が係数記憶回路から従音声データが存在する場合のミキシング係数を読み出して、ミキシング回路に設定し、それ以外の場合は係数記憶回路から従音声データが存在しない場合のミキシング係数を読み出して、ミキシング回路に設定するので、入力データ中の制御データに基づいて判定回路が判断するために処理が簡単で、従音声が存在する場合には方向性が維持されるミキシング係数を係数記憶回路から読み出すようにすることで、確実に音像定位が維持されたまま主音声と従音声をミキシングした出力音声信号が得られる。
さらに判定回路が、入力データに従音声データが存在するか否かの判定を、入力信号そのものでなく解析回路が出力した制御データに基づいて行うため、入力信号の性質が急激に変わったりした場合でも、ミキシング回路は影響を受けることなく、安定かつ確実なミキシングを行うことができる。
聴取者17を囲むように配置された6チャンネルの音声信号用のスピーカ11〜16を示す図である。
本発明の本実施形態によるオーディオミキシング装置100のブロック図である。
加算回路110(図2)の詳細な構成を示すブロック図である。
ミキシング回路109(図2)の詳細な構成を示すブロック図である。
判定回路102によって副音声および効果音が存在しないと識別される条件を示す図である。
判定回路102の判断処理の手順を示すフローチャートである。
以下、添付の図面を参照しながら、本発明によるオーディオミキシング装置の実施形態を説明する。
図2は、本発明の本実施形態によるオーディオミキシング装置100のブロック図である。オーディオミキシング装置100は、解析回路101と、判定回路102と、主音声再生回路103と、係数記憶回路108と、ミキシング回路109と、加算回路110と、従音声再生回路111とを備えている。
解析回路101は、音声データを受け取る。この音声データには、主音声データ、少なくとも1つの従音声データ、および、制御データが重畳されている。解析回路101は、受け取った音声データを、主音声データ、従音声データおよび制御データに分離する。
なお、副音声は一般的に主音声に付随する補助的な音声で、効果音は一般的に使用者の操作を反映させる音声である。映画の音声を例に挙げると、「主音声データ」は本編の音声(主音声)のデータであり、「副音声データ」は他国語の吹き替え音声や映画スタッフのコメンタリーの音声(副音声)のデータであり、効果音データとは、表示されたメニューの選択、決定時の効果音のデータである。
音声データは、たとえばブルーレイディスクに記録され、BDプレーヤ(図示せず)によって読み出された音声データである。この音声データがにトランスポートストリーム形式で記録されていたとすると、音声データは、複数のパケットから構成されたデータである。解析回路101は、主音声データ、従音声データ(副音声データおよび効果音データ)および制御データを格納した各パケットに別個に付された異なる識別子(パケットID;PID)に基づいて、各データを分離する。
判定回路102は、解析回路101が出力する制御データに基づいて従音声データが存在する場合と従音声データが存在しない場合とを識別する。そして、識別結果に応じて、後述する係数記憶回路108に記憶されている複数のミキシング係数群のうちのひとつの群を選択してミキシング回路109に設定する。判定回路102は、たとえばコンピュータである中央処理ユニット(CPU)が図示しないメモリに格納されたコンピュータプログラムを実行することによって実現される。当該コンピュータプログラムは、後述する図6に示す処理手順に従って作成されている。
主音声再生回路103は、主音声データを少なくとも1チャンネルの主音声信号に復号する。一方、従音声再生回路111は、副音声再生回路104と効果音再生回路105とを有しており、従音声データを少なくとも1チャンネルの従音声信号に復号する。
加算回路110は、副音声加算回路106および効果音加算回路107を有しており、主音声信号に対し、少なくとも1つの従音声信号を加算する。なお、図2では加算回路110は1つのみ示されているが、加算回路110は複数でもよい。複数の加算回路110を設けることにより、たとえば副音声信号のチャンネル数が多いときであっても、処理の高速化を図ることが可能である。
係数記憶回路108は、ミキシング回路109でMチャンネルの信号をNチャンネルに変換するミキシング係数を複数種類記憶している。たとえば係数記憶回路108は、先に説明した数1および数2に対応するミキシング係数群(A1)および(A2)(以下、「ミキシング係数群(A)」と記述する。)を保持している。さらに係数記憶回路108は、後述する数7および数8に対応するミキシング係数群(B1)および(B2)(以下、「ミキシング係数群(B)」と記述する。)を保持している。係数記憶回路108は、判定回路102からの指示に基づいて、ミキシング係数群(A)、または、ミキシング係数群(B)のいずれかを出力する。
ミキシング回路109は、少なくとも1つの従音声信号が加算されたMチャンネルの前記主音声信号をMチャンネルよりも少ないチャンネル数N(N<M)に変換する。たとえばミキシング回路109は、入力された6チャンネルの音声信号に対し、ミキシング係数に応じたダウンミキシングを行い、2チャンネルの音声信号を出力する。
なお、オーディオミキシング装置100は、ミキシング回路109に入力される前の6チャンネルの信号を、ミキシング回路109を通さずに外部に出力することが可能である。
図3は、加算回路110(図2)の詳細な構成を示すブロック図である。加算回路110の副音声加算回路106は、チャンネルごとの加算回路201−206を有している。加算回路201−206は、6チャンネルの主音声信号(Lp、Cp、Rp、LSp、RSp、LFEp)と、6チャンネルの副音声信号(Ls、Cs、Rs、LSs、RSs、LFEs)とをそれぞれ加算する。
効果音加算回路107もまた、チャンネルごとの加算回路207−212を有している。加算回路207−212は、副音声加算回路106による加算処理によって得られた、主音声および副音声が合成された6チャンネルの音声信号と、6チャンネルの効果音信号(Li、Ci、Ri、LSi、RSi、LFEi)とをそれぞれ加算する。その結果、効果音加算回路107は、主音声、副音声および効果音が合成された6チャンネルの音声信号(Lm、Cm、Rm、LSm、RSm、LFEm)を出力する。
なお、添え字“p”、“s”、“i”、“m”が付された記号L、C、R、LS、RS、LFEの意味は、背景技術の欄において図1に関連して説明したとおりである。
図4は、ミキシング回路109(図2)の詳細な構成を示すブロック図である。ミキシング回路109は、左チャンネル乗算回路301−306と、右チャンネル乗算回路307−312と、左チャンネル加算回路313と、右チャンネル加算回路314とを有している。
左チャンネル乗算回路301−306は、加算回路110(図3)の効果音加算回路107から出力された各チャンネルLm、Cm、Rm、LSm、RSm、LFEmに対して、左ミキシング係数(KLL, KLC, KLR, KLLS, KLRS, KLLFE)をそれぞれ乗じる。右チャンネル乗算回路307−312は、効果音加算回路107から出力された各チャンネルLm、Cm、Rm、LSm、RSm、LFEmに対して右ミキシング係数(KRL, KRC, KRR, KRLS, KRRS, KRLFE)をそれぞれ乗じる。
左チャンネル乗算回路301−306および右チャンネル乗算回路307−312が乗算する際に利用する左ミキシング係数および右ミキシング係数は、外部から変更することが可能である。後述のように、これらのミキシング係数は係数記憶回路108に格納されており、判定回路102からの指示に基づいて変更される。
左チャンネル加算回路313は、左ミキシング係数を乗じられた各チャンネルの信号の総和を求める。右チャンネル加算回路314は、右ミキシング係数を乗じられた各チャンネルの信号の総和を求める。この結果、ミキシング回路109は、チャンネル数2の音声信号(LdmおよびRdm)を出力する。これにより、6チャンネル(M=6)の信号を2チャンネル(N=2)の信号にダウンミキシングされる。
次に、オーディオミキシング装置100(図2)の動作を説明する。上述の例ではチャンネル数を6としたが、以下ではより一般的に説明するため、チャンネル数はM以下とする。チャンネル数がMより小さいときは、信号値0の信号が出力されているとして取り扱うことにより、下記のチャンネル数Mの演算処理が行われるとする。
解析回路101は、入力された音声データを受け取って、その音声データを、主音声データ、従音声データおよび制御データに分離する。上述のように、従音声データは副音声データと効果音データとを包含する。解析回路101は、副音声データおよび効果音データについても分離する。
主音声再生回路103は、主音声データに基づいて、最大Mチャンネルの主音声信号を復号する。そして副音声再生回路104は副音声データに基づいて、最大Mチャンネルの副音声信号を復号する。そして効果音再生回路105は効果音データに基づいて最大Mチャンネルの効果音信号を復号する。
次に、副音声加算回路106は、主音声再生回路103から出力されたMチャンネルの主音声信号に、副音声再生回路104から出力されたMチャンネルの副音声信号を加算する。加算は、対応するチャンネル毎に行われる。また効果音加算回路107は、副音声加算回路106から出力された、副音声が加算されたMチャンネルの主音声信号に、効果音再生回路105から出力されたMチャンネルの効果音信号を加算する。ここでも加算は、対応するチャンネル毎に行われる。
一方、上述した処理と並行して、判定回路102は、解析回路101によって分離され、出力された制御データに基づいて、入力データに副音声データまたは効果音データが存在するか否かを識別する。係数記憶回路108には、副音声データおよび効果音データが存在しない場合のミキシング係数群Aと、入力データに副音声データもしくは効果音データが存在する場合のミキシング係数群Bとが記憶されている。判定回路102は、識別結果に基づいて、係数記憶回路108に記憶されているミキシング係数群Aか、ミキシング係数群Bかを選択し、係数記憶回路108に対してそれらをミキシング回路109に出力するよう指示する。その結果、ミキシング回路109にはいずれかのミキシング係数群が設定される。判定回路102は、識別結果に応じてミキシング係数群Aかミキシング係数群Bかを選択し、ミキシング回路109に設定しているといえる。
ミキシング回路109は、効果音加算回路107から出力されたMチャンネルの音声信号を、係数記憶回路108に格納されているミキシング係数を使ってMチャンネルよりも少ないチャンネル数N(N<M)に変換する。
ミキシング回路109には、複数のミキシング係数群が設定され得る。そのうちのひとつが、数1および数2による演算を実現するミキシング係数群Aである。ミキシング係数群Aを改めて示すと以下のとおりである。
(A1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=−0.707, KLRS=−0.707, KLLFE=0.0
(A2) KRL=0.0, KRC=0.707, KRR=1.0, KLLS=0.707, KLRS=0.707, KLLFE=0.0
この上述のミキシング係数群Aのみでは、ダウンミキシングによって生成されるNチャンネルによる音像が、当初のMチャンネルの信号の音像と全く異なってしまうことがある。そこで本実施形態では、ミキシング係数群Aとは異なるミキシング係数群Bを設け、条件に応じていずれかのミキシング係数群を選択して、ミキシング回路109に設定するようにした。
本実施形態において設定した条件とは、入力データに副音声データまたは効果音データが存在するか、副音声データおよび効果音データが存在しないかである。なお、副音声データおよび効果音データが両方存在するときは、入力データに副音声データが存在することをもって上述の条件に該当するとして処理している。この処理は後に図6を参照しながら詳述する。
BDにおいては、副音声信号や効果音信号の音像をチャンネル内で移動させることが可能であるため、入力データに副音声データまたは効果音データが存在する場合には、そのような音像の移動が想定される。したがって、副音声信号や効果音信号の音像をチャンネル内で移動させるような場合には、不自然な音像が生じにくいミキシング係数を適用して、ダウンミキシングを行えばよい。
たとえば、ダウンミキシング後のチャンネル数がN=2のときには、中央(C)チャンネル、左後方(LS)チャンネルおよび右後方(RS)チャンネルは存在しないチャンネルである。このような、Nチャンネル(N=2)には存在しないMチャンネル(M=6)中のチャンネルの音声信号については、そのチャンネル配置上の距離が最も近いNチャンネル内の1個ないし複数のチャンネルに同位相で加算する。このような演算を可能にするミキシング係数を設定すればよい。これにより、Mチャンネル信号をNチャンネルにミキシングしても、音像定位を極力保つことができる。
下記数7および数8は、6チャンネルの入力データに副音声データまたは効果音データが存在する場合の、2チャンネルへのダウンミキシング方法を示す計算式である。
Ldm’=Lm+0.707×Cm+0.707×LSm
(数7)
Rdm’=0.707×Cm+Rm+0.707×RSm
(数8)
数7および数8に利用されたミキシング係数B1およびB2は以下のとおりである。
(B1) KLL=1.0, KLC=0.707, KLR=0.0, KLLS=0.707, KLRS=0.0, KLLFE=0.0
(B2) KRL=0.0, KRC=0.707, KRR=1.0, KLLS=0.0, KLRS=0.707, KLLFE=0.0
数7では、左(L)チャンネルの信号Lmと、中央(C)チャンネルの信号Cmにミキシング係数を乗じた0.707×Cmと、左後方(LS)チャンネルの信号LSmにミキシング係数を乗じた0.707×LSmとを加算(ミキシング)している。これにより、左出力信号Ldm’が得られる。
また、数8では、中央(C)チャンネルの信号Cmにミキシング係数を乗じた0.707×Cmと、右(R)チャンネルの信号Rmと、右後方(RS)チャンネルの信号RSmにミキシング係数を乗じた0.707×RSmとを加算(ミキシング)している。これにより、右出力信号Rdm’が得られる。
上述のミキシング係数群B(B1およびB2)は、図4に示すミキシング回路109に入力される。
なお、副音声データおよび効果音データが存在しない場合には、不自然な音像が生じる可能性を考慮する必要はない。よって、従来用いられていた、数1および数2に示すダウンミキシングを行えばよい。
次に、図5および図6を参照しながら、判定回路102の動作を詳細に説明する。
まず、図5は、判定回路102によって副音声および効果音が存在しないと識別される条件を示す。
図5の見方を説明する。図5の最上段に示されている、「Sound.bdmv」、「audio_mix_app_flag」、「Interactive Graphics」および「Secondary Audio」は、それぞれ、BD規格において規定されているパラメータである。
最上段に示されている「Sound.bdmvの有無」とは、効果音格納ファイル(Sound.bdmv)が存在するか否かを示している。このファイルは、BD規格の「インタラクティブグラフィックストリームアプリケーション」または「BD−Jアプリケーション」に関連する音声データの情報を格納している。列の下方向に沿って、HDMV(1)は不定、HDMV(2)は無し、HDMV(3)は有り、HDMV(4)は不定、を示している。
次の「audio_mix_app_flag」は、従音声存在フラグとも呼ばれている。従音声存在フラグは、副音声(Secondary Audio)ミキシングおよび/またはインタラクティブ音声ミキシングがプレイリスト(PlayList)に適用されるかどうかのプレイリストの状態を示している。「プレイリスト」とは、1以上の動画ストリームの一部または全部の再生順序を規定した情報である。プレイリストによる映像再生時に、副音声(Secondary Audio)ミキシングおよび/またはインタラクティブ音声ミキシングが同期して再生される場合には「1」が設定され、再生されない場合には「0」が設定される。フラグが「0」の場合は、副音声も効果音も存在しないことを意味している。
次の「Interactive Graphicsの有無」はインタラクティブ映像(たとえば特典映像)の有無を示している。列の下方向に沿って、「不定」、「不定」、「無し」および「不定」である。
最後の「Secondary Audioの有無」とは、従音声のうちの副音声の実体であるデータが存在するか否かを示している。
上述の説明から明らかなとおり、「Sound.bdmv」、「audio_mix_app_flag」および「Secondary Audio」は、いずれも従音声の存在の有無を示している。一方、「Interactive Graphics」は、従音声の存在を直接示すものではない。しかしながら、このパラメータは従音声の存在を示唆していると言える。その理由は、インタラクティブグラフィックスが存在すれば、多くの場合、それに付随して効果音も存在していると推測されるためである。そこで本実施形態においては、「Sound.bdmv」、「audio_mix_app_flag」、「Interactive Graphics」および「Secondary Audio」の各パラメータを、従音声の存在の有無を示すパラメータであるとして取り扱う。
上述した「Sound.bdmvの有無」、「audio_mix_app_flag」、「Interactive Graphicsの有無」および「Secondary Audioの有無」は、解析回路101によって分離された制御データによって判断される。よって、制御データを参照すれば各パラメータを特定することができる。なお、各パラメータはBD規格において規定されているものであり、それぞれが異なる目的で設けられている。相互の関連付けはされておらず、互いに独立して設定されている。
以下、判定回路102によるミキシング係数を判定する処理を説明する。
まず判定回路102は、解析回路101が分離した制御データに基づいて、図6に示す判断を行って、入力された音声データに副音声データまたは効果音データが存在するか、それとも、副音声データおよび効果音データがいずれも存在しないかを判定する。
図6は、判定回路102の判断処理の手順を示す。
ステップS1において、判定回路102は、audio_mix_app_flagに基づいて、従音声存在フラグが「0」であるか否かを判定する。フラグが「0」のとき、すなわち副音声も効果音も存在しないときは処理はステップS5に進み、「1」のときは処理はステップS2に進む。図5の例では、HDMV(1)およびBD−JについてはステップS5に進み、HDMV(2)および(3)についてはステップS2に進む。
ステップS2において、判定回路102は、「Secondary Audioの有無」に基づいて副音声の有無を判定する。副音声が存在しないとき(ステップS2でNO)のときは、処理はステップS3に進み、それ以外のとき(ステップS2でYES)は、処理はステップS6に進む。
図5の例に関してステップS2の条件を判断すると、HDMV(2)および(3)については副音声が存在しないことが明示されているため、処理はステップS3に進む。一方、HDMV(1)およびBD−Jについては、処理はステップS6に進む。HDMV(1)およびBD−Jでは副音声の存在は不定とされている。「不定」では、存在しないことが明示されているとは言えないため、本実施形態においては副音声が存在するとして取り扱っている。
ステップS3では、判定回路102は「Interactive Graphicsの有無」に基づいてインタラクティブグラフィックスの有無を判定する。インタラクティブグラフィックスが存在しないとき(ステップS3でNO)は、処理はステップS5に進み、それ以外のとき(ステップS3でYES)は、処理はステップS4に進む。インタラクティブグラフィックスの有無に基づく処理は、ミキシング係数を判定する基準として適切である。上述した通り、インタラクティブグラフィックスが存在すれば効果音の存在を推測できるからである。これにより、効果音がパニング操作された場合に不自然な音像の発生を確実に防ぐことが可能になる。
図5の例に関してステップS3の条件を判断すると、HDMV(3)についてはインタラクティブグラフィックスが存在しないことが明示されているため、処理はステップS5に進む。このとき判定回路102は、HDMV(3)には副音声も効果音も存在しないと識別する。一方、HDMV(1)、(2)およびBD−Jについては、処理はステップS4に進む。これは先の例と同様、「不定」では、存在しないことが明示されているとは言えないためである。
ステップS4において、判定回路102は「Sound.bdmvの有無」に基づいて効果音格納ファイルの有無を判定する。ファイルが存在しないとき(ステップS4でNO)は、処理はステップS5に進み、それ以外のとき(ステップS4でYES)は、処理はステップS6に進む。
図5の例に関してステップS4の条件を判断すると、HDMV(2)については効果音格納ファイルが存在しないことが明示されているため、処理はステップS5に進む。一方、HDMV(1)、(3)およびBD−Jについては、処理はステップS6に進む。その理由は先の例と同様である。
ステップS5では、判定回路102は係数記憶回路108に対して、数1および数2に示す演算を行うためのミキシング係数群を出力するように制御する。たとえばステップS4におけるHDMV(3)のように、副音声も効果音も存在しないと識別したときは、判定回路102は係数記憶回路108に対して上述したミキシング係数群Aを出力するように制御する。この結果、ミキシング回路109にはミキシング係数群Aが設定され、ミキシング回路109において数1および数2に対応するダウンミキシングが行われる。
一方ステップS6では、判定回路102は係数記憶回路108に対して、上述したミキシング係数群Bを出力するように制御する。この結果、ミキシング回路109にはミキシング係数群Bが設定され、ミキシング回路109において数7および数8に示す演算により、ダウンミキシングが行われる。
上述の判定処理は、たとえばBDからのコンテンツ(たとえば映画)の再生開始時に行われる。再生開始時とは、たとえば、オーディオミキシング装置100がBDプレーヤに内蔵されているときにおいて、BDプレーヤおよびオーディオミキシング装置100への電源投入後に解析回路101がBDから再生された音声データを最初に受信した時である。または、BDがBDプレーヤに挿入された後、解析回路101がそのBDから再生された音声データを最初に受信した時である。これは解析回路101が新たに音声データを受信した時と同じ意味である。さらに、再生中であっても判定回路102が常時または一定の時間間隔で制御データの内容を監視し、上述したパラメータに変化があったときは判定処理を再実行し、ミキシング係数群を再度決定してもよい。これらのタイミングで判定を行い、制御データに基づいてミキシング係数群を設定しておくことにより、聴取者はその後再生される音声の音像に対して違和感を覚えることはない。
なお、上述の例では4つのパラメータを利用して説明したが、この数は例である。たとえば4つのうちの少なくともひとつで従音声の存在の有無を判定してもよい。
以上のように本実施形態によれば、解析回路101が出力した制御データに基づいて、判定回路102が入力された音声データに副音声データまたは効果音データが存在するか否かを判定する。
判定の結果、いずれかのデータが存在すると判定した場合には、判定回路102は、係数記憶回路108に記憶された、NチャンネルにミキシングしてもMチャンネル信号の音像位置を極力保つことができるミキシング係数群B(数7および数8参照)を、ミキシング回路109に設定する。それ以外の場合には、判定回路102は、係数記憶回路108に記憶された、ミキシング係数群A(数1および数2参照)を、ミキシング回路109に設定する。判定回路102は、入力データ中の制御データに基づいて、予め複数種類用意されていたミキシング係数群のうちからひとつを選択してミキシング回路109に設定する。ミキシング係数群の設定は、ミキシング回路109に保持された各ミキシング係数を書き換えるだけで実現されるため、処理が簡単であるとともに、大規模なハードウェアも不要である。そして、副音声データまたは効果音データが存在する場合には、音像の位置や音像変化の方向性が維持されるミキシング係数がミキシング回路109に設定されるため、音像位置が良好に維持されたまま副音声データまたは効果音データを主音声にミキシングした出力音声信号を得ることができる。
本発明によるオーディオミキシング装置は、たとえば再生専用のBD(BD−ROM)の再生機やHD−DVDの再生機に内蔵されてもよい。これにより、副音声や効果音においてミキシングしても元来の音像位置を極力保つことできるので、その効果は非常に大きい。これにより、視聴者は、パニング操作で音像を積極的に動かした映画監督の声などの副音声や効果音(たとえば「ヒューン」)をオーサリング制作者の意図通りに視聴できる。もちろん、本発明によるオーディオミキシング装置を、たとえば放送局の機器に内蔵することもできる。上述した処理により、Mチャンネルの音声信号を含むコンテンツをN(M>N)チャンネルにダウンミキシングして放送することにより、受信した機器に特別の処理を要求することなく、コンテンツ製作者が意図した音像位置を再現できる。
さらに判定回路102が、入力データに副音声データもしくは効果音データが存在するか否かの判定を、入力信号そのものでなく解析回路101が出力した制御データに基づいて行う。これにより、入力信号の性質が急激に変わった場合でも影響を受けず、ミキシング回路109は、数1および数2、または、数7および数8の演算によってミキシングするので、安定した確実なミキシングを行うことができる。
なお、上述の処理は、常に行われなくてもよい。たとえば使用者等が強制的に副音声と効果音のミキシングをしないように設定したときは、数1および数2に示す通常のミキシング方法のみを行ってもよい。これにより、音像定位が保たれる必要が高い副音声や効果音が存在してもミキシングしない場合には、たとえば、外部機器で数3および数4に示す演算でダウンミキシング処理を施すことにより、2チャンネル信号をマルチチャンネル信号に変換できるようになる。本実施形態においては判定回路102は、ミキシング係数群Aかミキシング係数群Bかを選択していた。しかしながら、上述の説明から明らかなように、選択対象のミキシング係数群は2つに限られず、3つまたはそれ以上設けてもよい。図6に示す条件分岐の数をより多くしたり、分岐先を3以上に変更することにより、きめ細かいダウンミキシングが可能になる。
本発明に係るオーディオミキシング装置は、従音声を再生する機能があり、かつ、出力先の接続機器の条件により出力チャンネル数を変える必要がある機器、たとえばBD−ROM録画再生機、HD−DVD再生機等の一般民生機器や、放送向けの業務用機器の用途に適用できる。
101 解析回路
102 判定回路
103 主音声再生回路
104 副音声再生回路
105 効果音再生回路
106 副音声加算回路
107 効果音加算回路
108 係数記憶回路
109 ミキシング回路
110 加算回路
111 従音声再生回路