WO2016035567A1

WO2016035567A1 - 音声処理装置

Info

Publication number: WO2016035567A1
Application number: PCT/JP2015/073464
Authority: WO
Inventors: 竜二徳永; 弘行福地
Original assignee: ソニー株式会社
Priority date: 2014-09-01
Filing date: 2015-08-21
Publication date: 2016-03-10
Also published as: CN106576211B; JPWO2016035567A1; US10547960B2; US20170257720A1; JP6629739B2; CN106576211A

Abstract

　本技術は、7.1chの音声データを2chの音声データにダウンミックスすることができるようにする音声処理装置に関する。 MPEG4（Moving Picture Experts Group 4） Audio規格により規定される7.1chの音声データを5.1chの音声データにダウンミックスする係数と、規格により規定される5.1chの音声データを2chの音声データにダウンミックスする係数とから、7.1chの音声データを2chの音声データにダウンミックスする係数を設定して2chダウンミックス用係数部２２に記憶させる。2chダウンミックス部２１は、2chダウンミックス用係数部２２に記憶されている係数を利用して、7.1chの音声データを2chの音声データにダウンミックスする。本技術は、音声処理装置に適用することができる。

Description

音声処理装置

　本技術は、音声処理装置に関し、特に、7.1chの音声データを、2chの音声データに適切に変換できるようにした音声処理装置に関する。

　MPEG4 Audio規格（ISO/IEC_14496-3_2009_Amd_4_2013）において、7.1chのAAC（Advanced Audio Coding）の記載方法とチャンネル数を減らすダウンミックスの方法が規格化されている（例えば、非特許文献１参照）。

ISO/IEC 14496-3 2009 Amd 4 2013

　しかしながら、上述した規格においては、7.1chの音声データを5.1chに変換するダウンミックス方法が定義されているが、7.1chの音声データを2chの音声データにダウンミックスする方法については定義されていない。

　このため、従来の5.1chの音声データを2chに変換するダウンミックス方法を適用する必要があった。すなわち、7.1chの音声データを2chの音声データにダウンミックスするには、7.1chの音声データを規格に基づいて、5.1chの音声データにダウンミックスした後、ダウンミックスした5.1chの音声データをさらに2chの音声データにダウンミックするする必要があった。

　結果として、処理が煩雑になる上、音声データのパワーの総量、チャンネル間のパワー比、あるいはダウンミックス後の定位位置が変化してしまうことがあり、適切に7.1chの音声データを、2chの音声データにダウンミックスすることができないことがあった。

　本技術は、7.1chの音声データを、2chの音声データに直接変換できるようにすると共に、パワー総量をダウンミックス前の状態と同一の適切なものにできるようにするものである。

　本技術の第１の側面の音声処理装置は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部と、前記係数部に記憶された係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする変換部とを含む。

　前記MPEG4 Audio規格は、ISO/IEC_14496-3_2009_Amd_4_2013とすることができる。

　前記係数には、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を含ませるようにすることができ、前記変換部には、前記係数部に記憶された第３の係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記変換部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記7.1chのスピーカシステムは、7.1ch backとすることができる。

　前記変換部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定させ、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記スケーリング係数には、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数を含ませるようにすることができる。

　前記スケーリング係数には、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数と、サラウンドスピーカより出力される音声データのパワーを調整する第２のスケーリング係数とを含ませるようにすることができる。

　前記7.1chのスピーカシステムは、7.1ch frontとすることができる。

　前記変換部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記係数部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1ch frontを構成するスピーカの配置に応じた、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部を含ませるようにすることができ、前記変換部には、前記係数部に記憶された係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記係数部には、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶させるようにすることができ、前記変換部には、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記変換部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定させ、前記スケーリング係数と前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記7.1chのスピーカシステムは、7.1ch topとすることができる。

　前記係数部には、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶させ、前記変換部には、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスさせるようにすることができる。

　前記変換部には、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスさせるようにすることができる。

　本技術の第２の側面の音声処理装置は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の変換部と、前記第１の変換部によりダウンミックスされた、前記5.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第２の変換部と、最終的に、前記5.1chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第１の係数を記憶する第１の係数部と、最終的に、前記2chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第２の係数を記憶する第２の係数部とを含み、前記7.1chのスピーカシステムに対応する音声データを、最終的に前記2chのスピーカシステムに対応する音声データにダウンミックスして出力する場合、前記第１の変換部は、前記第２の係数部に記憶された、前記7.1chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置と、最終的に出力される前記2chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置とが同一となる係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする。

　本技術の第１の側面においては、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データが、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスされる係数が記憶され、記憶された係数が利用されて、前記7.1chのスピーカシステムに対応する音声データが、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスされる。

　本技術の第２の側面においては、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データが、前記5.1chのスピーカシステムに対応する音声データにダウンミックスされ、ダウンミックスされた、前記5.1chのスピーカシステムに対応する音声データが、前記2chのスピーカシステムに対応する音声データにダウンミックスされ、最終的に、前記5.1chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第１の係数が記憶され、最終的に、前記2chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第２の係数が記憶され、前記7.1chのスピーカシステムに対応する音声データが、最終的に前記2chのスピーカシステムに対応する音声データにダウンミックスされて出力される場合、前記7.1chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置と、最終的に出力される前記2chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置とが同一となる第２の係数が利用されて、前記7.1chのスピーカシステムに対応する音声データが、前記2chのスピーカシステムに対応する音声データにダウンミックスされる。

　本技術の第１の側面および第２の側面の音声処理装置は、独立した装置であっても良いし、音声処理装置として機能するブロックであっても良い。

　本技術の一側面によれば、7.1chのスピーカシステムに対応する音声データを、適切に2chのスピーカシステムに対応する音声データにダウンミックスすることが可能となる。

7.1chの音声データの第１の構成例である7.1ch backを説明する図である。従来の音声処理装置の構成例を示す図である。図２の音声処理装置による7.1ch backの音声データを5.1chの音声データにダウンミックスし、さらに、5.1chの音声データを2chの音声データにダウンミックスする処理を説明する図である。本技術を適用した音声処理装置の構成例を説明する図である。図４の音声処理装置による7.1ch backの音声データを2chの音声データにダウンミックスする処理を説明する図である。図５の処理において必要とされるスケーリング係数を含む係数の組み合わせの例を示す図である。スケーリング係数を設定するその他の例を説明する図である。 7.1chの音声データの第２の構成例である7.1ch frontを説明する図である。図２の音声処理装置による7.1ch frontの音声データを5.1chの音声データにダウンミックスし、さらに、5.1chの音声データを2chの音声データにダウンミックスする処理を説明する図である。図２の音声処理装置による7.1ch frontの音声データを2chの音声データにダウンミックスする処理を説明する図である。本技術を適用した音声処理装置のその他の構成例を説明する図である。図１１の音声処理装置による7.1ch frontの音声データを2chの音声データにダウンミックスする処理を説明する図である。図４の音声処理装置による7.1ch frontの音声データを2chの音声データにダウンミックスする処理を説明する図である。図１３の処理において必要とされるスケーリング係数を含む係数の組み合わせの例を示す図である。 7.1chの音声データの第３の構成例である7.1ch topを説明する図である。図２の音声処理装置による7.1ch topの音声データを2chの音声データにダウンミックスする処理を説明する図である。図４の音声処理装置による7.1ch topの音声データを2chの音声データにダウンミックスする処理を説明する図である。図１７の処理において必要とされるスケーリング係数を含む係数の組み合わせの例を示す図である。汎用のパーソナルコンピュータの構成例を説明する図である。

　＜7.1ch back＞
　図１は、本技術を適用した音声処理装置により処理される7.1chの音声データにおける第１の構成例を示している。

　図１においては、映像を表示する装置であるTVS（Television System）の表示部における表示画面（TV Screen）に正対するように、聴取者であるユーザＰに対して発生される音源の位置毎に設定されるスピーカの構成例が示されている。

　すなわち、図１のスピーカの配置は、高音部のレイヤを構成するトップレイヤ（Top layer）、中音部のレイヤを構成するミドルレイヤ（Middle layer）、および低音部のレイヤを構成するLFE（Low Frequency Effect）レイヤ（LFE layer）から構成される。

　トップレイヤは、図１で示されるように、視聴者であるユーザＰの視聴方向に対して左右上方に設けられる左右トップスピーカＬｖｈ，Ｒｖｈを含む。

　ミドルレイヤは、図１で示されるように、ユーザＰと水平方向に同位置であって、正対する正面前方のセンタスピーカＣ、左右前方方向に設けられる左右スピーカＬ，Ｒ、センタスピーカＣと左右スピーカＬ，Ｒとのそれぞれの間に設けられる左右センタスピーカＬｃ，Ｒｃを含む。さらに、ミドルレイヤは、ユーザＰの水平左右方向に設けられる左右サラウンドスピーカＬｓ，Ｒｓ、左右後方に設けられる左右リアサラウンドスピーカＬｒｓ，Ｒｒｓ、および正面後方に設けられるセンタリアサラウンドスピーカＣｓを含む。

　LFEレイヤは、図１で示されるように、ユーザＰに対して前方下方に設けられる、サブうーハースピーカなどからなる低音スピーカＬＦＥより構成される。

　7.1chのスピーカシステムは、図１で示されるスピーカ群のうち、低音スピーカＬＦＥおよびセンタスピーカＣを含み、左右対称に配置される６個のスピーカの組み合わせにより構成されるものである。

　例えば、図１の点線で囲まれている低音スピーカＬＦＥおよびセンタスピーカＣに加えて、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、および左右リアサラウンドスピーカＬｒｓ，Ｒｒｓにより7.1chのスピーカシステムを構成するようにしても良い。尚、この図１の点線で囲まれているスピーカ群により構成される7.1chのスピーカシステムを、以降においては、7.1ch back（7.1chバック）と称するものとする。

　＜7.1ch backにおける従来の変換方法＞
　次に、図２を参照して、図１の点線で囲まれたスピーカ群により構成される7.1chスピーカシステムである、7.1chバックの音声データを2chの左右スピーカＬ，Ｒの音声データに変換する場合に必要とされる音声データの変換装置による変換方法について説明する。

　すなわち、図２の変換装置は、5.1chダウンミックス部１１、5.1chダウンミックス用係数部１２、2chダウンミックス部１３、および2chダウンミックス用係数部１４を備えている。

　5.1chダウンミックス部１１は、7.1chの音声データを、5.1chダウンミックス用係数部１２に記憶されている係数を利用して積和演算により5.1chの音声データに変換し、2chダウンミックス部１３に出力する。

　2chダウンミックス部１３は、2chの音声データを2chダウンミックス用係数部１４に記憶されている係数を利用して積和演算により2chの音声データに変換して出力する。

　図３の最上段で示されるような、7.1chバックの音声データが入力された場合、5.1chダウンミックス部１１は、例えば、図３の中段で示されるような5.1chの音声データに変換して出力する。

　ここで、図３においては、7.1chバックを構成する音声データのうち、センタスピーカＣより出力される音声データを音声データＣと称し、低音スピーカＬＦＥより出力される音声データを音声データＬＦＥと称するものとする。また、左右スピーカＬ，Ｒより出力される音声データを、それぞれ音声データＬ，Ｒと称し、左右サラウンドスピーカＬｓ，Ｒｓより出力される音声データを音声データＬｓ，Ｒｓと称し、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒより出力される音声データを音声データＬｓｒ，Ｒｓｒと称するものとする。

　また、5.1chダウンミックス部１１が7.1chバックのスピーカシステムからなる音声データに基づいて変換された、5.1chの音声データについては、センタスピーカＣより出力される音声データを、音声データＣ’と称し、左右スピーカＬ，Ｒより出力される音声データを、音声データＲ’，Ｌ’と称し、左右サラウンドスピーカＬｓ’，Ｒｓ’より出力される音声データを音声データＬｓ’，Ｒｓ’と称するものとする。

　さらに、2chダウンミックス部１３が5.1chのスピーカシステムからなる音声データに基づいて変換された、2chの左右スピーカＬ，Ｒより出力される音声データを、音声データＬｏ，Ｒｏと称するものとする。

　すなわち、5.1chダウンミックス部１１は、必要とされる係数を5.1chダウンミックス用係数部１２より読み出して、以下の式（１）で示される演算を実行することにより、7.1chバックの音声データを5.1chの音声データに変換する。

　Ｃ’＝Ｃ
　Ｌ’＝Ｌ
　Ｒ’＝Ｒ
　Ｌｓ’＝ｄ１×Ｌｓ＋ｄ２×Ｌｓｒ
　Ｒｓ’＝ｄ１×Ｒｓ＋ｄ２×Ｒｓｒ
　ＬＦＥ’＝ＬＦＥ
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　ここで、Ｃ，Ｌ，Ｒ，Ｌｓ，Ｒｓ，Ｌｓｒ，Ｒｓｒ，ＬＦＥは、7.1chバックを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒ、低音スピーカＬＦＥのそれぞれから出力される音声データである。また、Ｃ’，Ｌ’，Ｒ’，Ｌｓ’，Ｒｓ’，ＬＦＥ’は、5.1chを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、低音スピーカＬＦＥのそれぞれから出力される音声データである。ｄ１，ｄ２は、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数である。

　すなわち、5.1chダウンミックス部１１は、5.1chダウンミックス用係数部１２より係数を読み出して、センタスピーカＣ、および左右スピーカＬ，Ｒのそれぞれ音声データに対して係数1.0を乗じて変換することで音声データＣ’，Ｌ’，Ｒ’を求めている。また、5.1chダウンミックス部１１は、左右サラウンドスピーカＬｓ，Ｒｓ、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒのそれぞれに係数ｄ１，ｄ２を乗じて積和を求めることにより、左右サラウンドスピーカＬｓ，Ｒｓの音声データＬｓ’，Ｒｓ’を求めている。

　このような変換処理により、7.1chバックの音声データが5.1chの音声データに変換される。

　さらに、2chダウンミックス部１３は、2chダウンミックス用係数部１４より係数を読み出して、5.1chの音声データに対して積和演算を施すことにより2chの音声データに変換する。より詳細には、2chダウンミックス部１３は、以下の式（２）で示される演算により、5.1chの音声データを2chの音声データに変換する。

　Ｌｏ＝ａ×Ｌｓ’＋Ｌ’＋ｂ×Ｃ’
　Ｒｏ＝ａ×Ｒｓ’＋Ｒ’＋ｂ×Ｃ’
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（２）

　ここで、Ｃ’，Ｌ’，Ｒ’，Ｌｓ’，Ｒｓ’は、5.1chを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓのそれぞれから出力される音声データである。また、Ｌｏ，Ｒｏは、それぞれ、2chの音声データの左右スピーカＬ，Ｒより出力される音声データである。さらに、ａ，ｂは、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数である。

　以上のように、従来においては、7.1chの音声データを2chの音声データに変換するにあたって、一旦、5.1chの音声データに変換した後、変換した5.1chの音声データを2chの音声データに変換する、２段の演算処理が必要であった。尚、以上の式（１），式（２）の演算に用いた係数は、一例に過ぎず、例えば、音響空間における音像を形成するにあたって、係数は様々な値の組み合わせとなるので、これ以外の係数を適用することもある。

　＜本技術を適用した変換装置の第１の実施の形態＞
　次に、図４を参照して、本技術を適用した変換装置の第１の実施の形態について説明する。

　上述したように、従来においては、7.1chの音声データを2chの音声データに変換するにあたって、一旦、5.1chの音声データに変換した後、変換した5.1chの音声データを2chの音声データに変換する、２段の演算処理が必要なため、処理が煩雑なものとなっていた。そこで、本技術においては、7.1chの音声データを直接2chの音声データに変換する。

　より詳細には、変換装置は、図４で示されるように、2chダウンミックス部２１、2chダウンミックス用係数部２２、5.1chダウンミックス部２３、および5.1chダウンミックス用係数部２４を備えている。尚、5.1chダウンミックス部２３、および5.1chダウンミックス用係数部２４については、それぞれ図１を参照して説明した5.1chダウンミックス部１１、および5.1chダウンミックス用係数部１２と同様であるので、その説明は省略するものとする。

　2chダウンミックス部２１は、2chダウンミックス用係数部２２に記憶されている係数を読み出して、7.1chの音声データに対して積和演算を施すことで、１回の演算により2chの音声データに変換する。すなわち、7.1chの音声データから、5.1chの音声データを経ることなく、2chの音声データに直接ダウンミックスする。

　より詳細には、2chダウンミックス部２１は、図５で示されるように、2chダウンミックス用係数部２２に記憶されている係数として、係数ａ’，ａ”，ｂを読み出して、以下の式（３）で示される演算を実行することにより7.1chの音声データを2chの音声データに変換する。

　Ｌｏ＝ａ’×Ｌｓ＋ａ”×Ｌｓｒ＋Ｌ＋ｂ×Ｃ
　Ｒｏ＝ａ’×Ｒｓ＋ａ”×Ｒｓｒ＋Ｒ＋ｂ×Ｃ
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（３）

　ここで、Ｌｏ，Ｒｏは、それぞれ、2chの音声データの左右スピーカＬ，Ｒより出力される音声データであり、Ｃ，Ｌ，Ｒ，Ｌｓ，Ｒｓ，Ｌｓｒ，Ｒｓｒは、7.1chバックを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒのそれぞれから出力される音声データである。

　さらに、係数ａ’，ａ”は、それぞれａ’＝ａ×ｄ１およびａ”＝ａ×ｄ２である。

　すなわち、式（３）で示される演算は、式（１）に式（２）を代入することで得られるものである。

　以上の処理により、従来において、7.1chの音声データを2chの音声データに変換するにあたっては、２回の演算処理が必要な構成であったが、本技術を適用した変換装置により１回の演算処理により2chの音声データに変換することが可能となる。

　＜第１の変形例＞
　以上においては、従来の２回の演算に必要とされる係数を組み合わせることで、１回の演算で7.1chの音声データを2chの音声データに変換する例について説明してきたが、このような演算を利用すると、変換後の2chの音声データと、変換前の7.1chの音声データにおけるパワーの総和およびチャンネル間のパワー比が一致しないことがあった。

　例えば、2chの音声データにおける左右スピーカより出力される音声データＬｏ，ＲｏのそれぞれのパワーＰ（Ｌｏ），Ｐ（Ｒｏ）は、以下の式（４）で示されるように演算される。

　Ｐ（Ｌｏ）＝（ａ’）^２×（Ｌｓ）^２＋（ａ”）^２×（Ｌｓｒ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　＋（Ｌ）^２＋（ｂ）^２×（Ｃ）^２
　Ｐ（Ｒｏ）＝（ａ’）^２×（Ｒｓ）^２＋（ａ”）^２×（Ｒｓｒ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　＋（Ｒ）^２＋（ｂ）^２×（Ｃ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（４）

　従って、2chの音声データにおけるパワーＰ（Ａｌｌ＿２ｃｈ）は、以下の式（５）となる。

　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｃ）^２＋（Ｌ）^２＋（Ｒ）^２
　　　　　　　　　　　　　＋１／２×（Ｌｓ）^２＋１／２×（Ｒｓ）^２
　　　　　　　　　　　　　　　＋１／２×（Ｌｓｒ）^２＋１／２×（Ｒｓｒ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（５）

　これに対して、7.1chの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）は、以下の式（６）で表される。

　Ｐ（Ａｌｌ＿７．１ｃｈ）＝（Ｃ）^２＋（Ｌ）^２＋（Ｒ）^２＋（Ｌｓ）^２
　　　　　　　　　　　　　　　　　　＋（Ｒｓ）^２＋（Ｌｓｒ）^２＋（Ｒｓｒ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（６）

　すなわち、2chの音声データのパワーＰ（Ａｌｌ＿２ｃｈ）と、7.1chの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）とは、異なるものとなる。

　そこで、2chの音声データのパワーＰ（Ａｌｌ＿２ｃｈ）が、7.1chの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一のものとなるように補正用のスケーリング係数を設定する。

　スケーリング係数は、上述した式（５）となる2chの音声データのパワーＰ（Ａｌｌ＿２ｃｈ）を、上述した式（６）で表される7.1chの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）に一致させる係数である。

　すなわち、式（５）において、式（６）と異なるのは、（Ｌｓ）^２，（Ｒｓ）^２，（Ｌｓｒ）^２，（Ｒｓｒ）^２の係数が１ではなく、１／２となっている点である。そこで、この係数を１とするための係数としてスケーリング係数を設定する。

　以下の式（７）で示されるように、左右サラウンドスピーカＬｓ，Ｒｓの音声データのパワーを調整するスケーリング係数β１と、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒの音声データのパワーを調整するスケーリング係数β２とが設定される。

　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｃ）^２＋（Ｌ）^２＋（Ｒ）^２
　　　　　　　　　　　　＋（β１）^２×（Ｌｓ）^２＋（β１）^２×（Ｒｓ）^２
　　　　　　　　　　　　　　＋（β２）^２×（Ｌｓｒ）^２＋（β２）^２×（Ｒｓｒ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（７）

　より具体的には、係数ｄ１，ｄ２，ａが、１，１／√２（＝０．７０７１），１／２（＝０．５）の範囲で変化するとき、スケーリング係数β１，β２は、図６で示されるように設定される。尚、図６においては、係数ｄ１，ｄ２，ａが、１，（１／√２），１／２の範囲で変化するときの係数ａ’，ａ”の対応する値も記載されている。

　例えば、図６で示されるように、係数ｄ１，ｄ２，ａが、いずれも１／√２（＝０．７０７１）である場合、スケーリング係数β１，β２は、いずれも２に設定され、このとき、係数ａ’，ａ”は、いずれも１／２（＝０．５）となる。

　2chダウンミックス部２１は、このようにスケーリング係数を設定することにより、２回の演算処理を１回の演算処理にして、7.1chの音声データのパワーの総和およびチャンネル間のパワー比と同一のパワーの総和およびチャンネル間のパワー比となる2chの音声データにダウンミックスする。結果として、7.1chの音声データを2chの音声データにダウンミックスするにあたって、従来必要とされた２回の演算処理を１回の演算処理とすることが可能になると共に、パワーの総和およびチャンネル間のパワー比をダウンミックス前と同一の状態にしたままダウンミックスすることが可能となる。

　＜第２の変形例＞
　以上においては、左右サラウンドスピーカＬｓ，Ｒｓと、左右リアサラウンドスピーカＬｓｒ，Ｒｓｒとにそれぞれスケーリング係数β１，β２を設定し、2chの音声データにダウンミックスするときに生じるパワーの変化を調整する例について説明してきた。しかしながら、本来の人間の耳の形状により、後方に設けられた左右リアサラウンドスピーカＬｓｒ，Ｒｓｒの出力を前方に設けられた左右スピーカＬ，Ｒの出力とすれば本来聞こえる音声よりも大きくなる。すなわち、人間の耳では、後方で発する音声は、前方で発する音声よりも小さく聞こえているはずである。

　そこで、これらの調整のため、図７で示されるように、後方に設けられた左右リアサラウンドスピーカＬｓｒ，Ｒｓｒの音声データＬｓｒ，Ｒｓｒを調整するスケーリング係数β２に対応するスケーリング係数αのみを設定するようにしてもよい。

　このようにすることで、適切にパワーを調整した上で、7.1chの音声データを2chの音声データに、１回の演算でダウンミックスすることが可能となる。尚、図７においては、係数ａ”にスケーリング係数αが乗じられていることが示されている。

　＜7.1ch front＞
　以上においては、7.1chバックの音声データを１回の演算で2chの音声データに変換する例について説明してきたが、図８の点線で示されるように、後方の左右リアサラウンドスピーカＬｓｒ，Ｒｓｒに代えて、左右センタスピーカＬｃ，Ｒｃを含めたスピーカシステムによる7.1chの音声データを2chの音声データに変換するようにしても良い。尚、図８の点線で示されるようなスピーカシステムを、以降においては、7.1chフロント（7.1ch front）と称するものとする。

　＜7.1ch frontにおける従来の変換方法＞
　この場合、5.1chダウンミックス部１１は、以下の式（８）で示される演算を実行することにより、図９の最上段から中段で示されるように、7.1chフロントの音声データを5.1chの音声データに変換する。

　Ｃ’＝Ｃ＋（Ｌｃ＋Ｒｃ）×ｅ１
　Ｌ’＝Ｌ＋Ｌｃ×ｅ２
　Ｒ’＝Ｒ＋Ｒｃ×ｅ２
　Ｌｓ’＝Ｌｓ
　Ｒｓ’＝Ｒｓ
　ＬＦＥ’＝ＬＦＥ
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（８）

　ここで、Ｃ，Ｌ，Ｒ，Ｌｓ，Ｒｓ，Ｌｃ，Ｒｃ，ＬＦＥは、7.1chフロントを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、左右センタスピーカＲｃ，Ｌｃ、低音スピーカＬＦＥのそれぞれから出力される音声データである。また、Ｃ’，Ｌ’，Ｒ’，Ｌｓ’，Ｒｓ’，ＬＦＥ’は、5.1chを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、低音スピーカＬＦＥのそれぞれから出力される音声データである。さらに、ｅ１，ｅ２は、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数である。

　すなわち、5.1chダウンミックス部１１は、5.1chダウンミックス用係数部１２より係数を読み出して、センタスピーカＣの音声データに対して係数1.0を乗じ、左右センタスピーカの音声データＬｃ，Ｒｃの和を取って係数ｅ１を乗じて加算する演算により、音声データＣ’に変換している。また、5.1chダウンミックス部１１は、5.1chダウンミックス用係数部１２より係数を読み出して、左右スピーカＬ，Ｒの音声データに対して係数1.0を乗じ、左右センタスピーカの音声データＬｃ，Ｒｃの音声データのそれぞれに係数ｅ２を乗じて加算する演算により、音声データＬ’，Ｒ’に変換している。さらに、5.1chダウンミックス部１１は、左右サラウンドスピーカＬｓ，Ｒｓ、低音スピーカＬＦＥのそれぞれの音声データに係数として1.0を乗じて、左右サラウンドスピーカＬｓ，Ｒｓおよび低音スピーカＬＦＥの音声データＬｓ’，Ｒｓ’，ＬＦＥ’を求めている。

　このような変換処理により、7.1chフロントの音声データが5.1chの音声データに変換される。尚、図９の中段および下段で示される、5.1chの音声データを2chの音声データに変換する処理は、図３を参照して説明した処理と同様であるので、その説明は省略するものとする。

　ところで、以上の処理により7.1chフロントの音声データが2chの音声データに変換される際においても、パワーが異なるものとなる。

　すなわち、式（８）の演算結果に基づいて、7.1chフロントの音声データが5.1chの音声データに変換される場合、そのパワーＰ（Ａｌｌ＿５．１ｃｈ）は以下の式（９）で示されるように演算される。

　Ｐ（Ｃ’）＝Ｃ^２＋（Ｌｃ×ｅ１）^２＋（Ｒｃ×ｅ１）^２
　Ｐ（Ｌ’）＝Ｌ^２＋（Ｌｃ×ｅ２）^２
　Ｐ（Ｒ’）＝Ｒ^２＋（Ｒｃ×ｅ２）^２
　Ｐ（Ｌｓ’）＝（Ｌｓ）^２
　Ｐ（Ｒｓ’）＝（Ｒｓ）^２
　Ｐ（Ａｌｌ＿５．１ｃｈ）＝Ｐ（Ｃ’）＋Ｐ（Ｌ’）＋Ｐ（Ｒ’）
　　　　　　　　　　　　　　　　　　　　　　　　＋Ｐ（Ｌｓ’）＋Ｐ（Ｒｓ’）
　　　　　　　　　　　　　＝Ｃ^２＋Ｌ^２＋Ｒ^２＋（Ｌｓ）^２＋（Ｒｓ）^２
　　　　　　　　　　　　　　　　＋（（ｅ１）^２＋（ｅ２）^２）×（Ｌｃ）^２＋
　　　　　　　　　　　　　　　　　　＋（（ｅ１）^２＋（ｅ２）^２）×（Ｒｃ）^２
　　　　　　　　　　　　　＝Ｃ^２＋Ｌ^２＋Ｒ^２＋（Ｌｓ）^２＋（Ｒｓ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　＋（Ｌｃ）^２＋（Ｒｃ）^２
　　　　　　　　　　　　　＝Ｐ（Ａｌｌ＿７．１ｃｈ）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（９）

　尚、係数ｅ１，ｅ２は、いずれも１／√２であるものとする。

　すなわち、7.1chフロントの音声データを5.1chにダウンミックスする変換をする場合、パワーの総和およびチャンネル間のパワー比に変化は生じない。

　一方、7.1chフロントの音声データから変換された5.1chの音声データが、2chの音声データに変換される場合、そのパワーＰ（Ａｌｌ＿２ｃｈ）は以下の式（１０）で示されるように演算される。尚、係数ｅ１，ｅ２は、いずれも１／√２であり、係数ａ＝１．０で、かつ、係数ｂ＝１／√２であるものとする。

　Ｌｏ＝ａ×Ｌｓ’＋Ｌ’＋ｂ×Ｃ’
　　　＝ａ×Ｌｓ＋Ｌ＋Ｌｃ×ｅ２＋ｂ×（Ｃ＋（Ｌｃ＋Ｒｃ）×ｅ１）
　　　＝Ｌｓ＋Ｌ＋（１／√２）×Ｃ＋（１／√２＋１／２）×Ｌｃ＋（１／２）×Ｒｃ
　Ｒｏ＝ａ×Ｒｓ’＋Ｒ’＋ｂ×Ｃ’
　　　＝ａ×Ｒｓ＋Ｒ＋Ｒｃ×ｅ２＋ｂ×（Ｃ＋（Ｌｃ＋Ｒｃ）×ｅ１）
　　　＝Ｒｓ＋Ｒ＋（１／√２）×Ｃ＋（１／√２＋１／２）×Ｒｃ＋（１／２）×Ｌｃ
　Ｐ（Ｌｏ）＝（Ｌｓ）^２＋Ｌ^２＋（１／２）×Ｃ^２
　　　　　　　　　　＋（１／√２＋１／２）^２×（Ｌｃ）^２＋（１／４）×（Ｒｃ）^２
　Ｐ（Ｒｏ）＝（Ｒｓ）^２＋Ｒ^２＋（１／２）×Ｃ^２
　　　　　　　　　　＋（１／√２＋１／２）^２×（Ｒｃ）^２＋（１／４）×（Ｌｃ）^２
　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｌｓ）^２＋（Ｒｓ）^２＋Ｌ^２＋Ｒ^２＋Ｃ^２
　　　　　　　　　　　　　　　　　　　＋（１＋１／√２）^２×（Ｌｃ）^２
　　　　　　　　　　　　　　　　　　　　　　　　＋（１＋１／√２）×（Ｒｃ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１０）

　すなわち、式（１０）で示されるように、5.1chの音声データを2chの音声データにダウンミックスする変換によりパワーが増大してしまうことが示される。また、（Ｌｃ）^２と（Ｒｃ）^２の係数が１より大きいことからチャンネル間のパワー比が変化していることもわかる。

　また、上述した手法により7.1chフロントの音声データを2chの音声データに変換すると、左センタスピーカＬｃの音声データが左スピーカＬの音声データに定位すると共に、右センタスピーカＲｃの音声データが右スピーカＲの音声データに定位する。

　すなわち、例えば、左スピーカＬからの左センタスピーカＬｃへのパワーＰ（ＬｔｏＬｃ）は、（１／√２＋１／２）^２となるが、これに対して右スピーカＲからの左センタスピーカＬｃへのパワーＰ（ＲｔｏＬｃ）は、（１／２）^２となる。従って、左スピーカＬからのセンタ左スピーカＬｃへのパワーＰ（ＬｔｏＬｃ）は、右スピーカＲからの左センタスピーカＬｃへのパワーＰ（ＲｔｏＬｃ）の、ほぼ２３倍となることから、実質的に、スピーカＬに定位することとなる。

　＜本技術を適用した変換装置の第２の実施の形態＞
　そこで、5chダウンミックス用係数部２４には、上述したこれまでの係数と同一の係数を持たせると共に、2chダウンミックス用係数部２２には、上述したパワーの変化が生じない係数として、図１０で示されるような係数を記憶させる。これにより、7.1chフロントの音声データを5.1chの音声データにダウンミックスした後、2chの音声データにダウンミックスしてもパワーを統一することができる。すなわち、図１０に対応した係数による2chの音声データＬｔ，Ｒｔへのダウンミックスは、以下の式（１１）で示されるものとなる。尚、本技術を適用した変換装置の第２の実施の形態における変換装置の構成は、基本的に図４と同一であるので、図示は省略する。ただし、2chダウンミックス用係数部２２に記憶される係数が異なる。

　Ｌｔ＝Ｌｓ＋Ｌ＋ｋ２×Ｌｃ＋ｋ４×Ｃ＋ｋ５×Ｒｃ
　Ｒｔ＝Ｒｓ＋Ｒ＋ｋ３×Ｒｃ＋ｋ１×Ｃ＋ｋ０×Ｌｃ
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１１）

　ここで、ｋ０＝ｋ５＝１／２、ｋ１＝ｋ４＝１／√２、ｋ２＝ｋ３＝√３／２である。

　＜係数ｋ０乃至ｋ５の導出根拠＞
　ここで、係数ｋ０乃至ｋ５の導出根拠について説明する。

　左センタスピーカＬｃの音声データＬｃに対する係数ｋ０，ｋ２は、左センタスピーカＬｃの音声データＬｃを左右スピーカＬ，Ｒの音声データＬ，Ｒにミックスしたときのパワー比が３：１となるように設定する。すなわち、ダウンミックス後の左センタスピーカＬｃの音声データＬｃの定位がダウンミックス前の再生位置と同じになるように選定している。すなわち、左右スピーカＬ，Ｒ、左右センタスピーカＬｃ，Ｒｃ、およびセンタスピーカＣは、ユーザＰに正対する方向に対して垂直方向に、それぞれ等間隔で配置されていることが前提とされている。このため、物理的な距離の比により３：１に対応するようにパワー比が設定される。

　すなわち、（ｋ０）^２：（ｋ２）^２＝３：１であり、かつ、（ｋ０）^２＋（ｋ２）^２＝１であるので、この拘束条件に基づいて、係数ｋ０，ｋ２を解くことにより、係数ｋ０＝１／２、ｋ２＝√３／２となる。

　同様に、センタ右スピーカＲｃの音声データＲｃに対する係数ｋ３，ｋ５は、右センタスピーカＲｃの音声データＲｃを左右スピーカＬ，Ｒの音声データＬ，Ｒにミックスしたときのパワー比が１：３となるように設定する。すなわち、ダウンミックス後の右センタスピーカＲｃの音声データＲｃの定位がダウンミックス前の再生位置と同じになるように選定している。すなわち、左右スピーカＬ，Ｒ、左右センタスピーカＬｃ，Ｒｃ、およびセンタスピーカＣは、ユーザＰに正対する方向に対して垂直方向に、それぞれ等間隔で配置されていることが前提とされている。このため、物理的な距離の比により１：３に対応するようにパワー比が設定される。

　すなわち、（ｋ３）^２：（ｋ５）^２＝１：３であり、かつ、（ｋ３）^２＋（ｋ５）^２＝１であるので、この拘束条件に基づいて、係数ｋ３，ｋ５を解くことにより係数ｋ３＝√３／２、ｋ５＝１／２となる。

　また、センタスピーカＣの音声データＣの係数ｋ４，ｋ１は、センタスピーカＣの音声データを2chの左右スピーカＬｔ，Ｒｔに対して１：１に対応するようにパワー比が設定されるように係数が決定される。

　すなわち、（ｋ４）^２：（ｋ１）^２＝１：１であり、かつ、（ｋ４）^２＋（ｋ１）^２＝１であるので、この拘束条件に基づいて、係数ｋ１，ｋ４を解くことにより係数ｋ１＝１／√２、ｋ４＝１／√２となる。

　すなわち、この例においては、係数ｋ０乃至ｋ６が各スピーカの配置により設定される。これにより、ダウンミックス前後でのパワーに変化が生じないようにしている。結果として、ダウンミックス前後でのパワーの変化を抑制しつつ、スピーカの配置に応じたパワーバランスのよりダウンミックスを実現することが可能となる。

　＜第３の変形例＞
　以上においては、7.1chフロントの音声データを2chの音声データに、１回の演算によりダウンミックスする変換処理について説明してきたが、7.1chフロントの音声データを5.1chに変換して出力するための係数と、5.1chに変換した後に、最終的に2chの音声データに変換して出力するための係数とをそれぞれ設定するようにしてもよい。

　図１１は、7.1chフロントの音声データを5.1chに変換して出力するための係数と、5.1chに変換した後、最終的に2chの音声データに変換して出力するための係数とをそれぞれ設定するようにした変換装置の構成例を示している。

　すなわち、図１１の変換装置において、5chダウンミックス部３１は、最終的に5.1chの音声データにダウンミックスする際には、5ch出力用5chダウンミックス用係数部３２に記憶されている係数を読み出して、積和演算により7.1chの音声データを5.1chにダウンミックスする。すなわち、5ch出力用5chダウンミックス用係数部３２に記憶されている係数は、図９における最上段の7.1chの音声データを中段の5.1chの音声データに変換する際に使用する係数と同様である。

　または、5chダウンミックス部３１は、最終的に2chの音声データにダウンミックスする際には、2ch出力用5chダウンミックス用係数部３３に記憶されている係数を読み出して、積和演算により7.1chの音声データを5.1chにダウンミックスし、2chダウンミックス部３４に出力する。

　2chダウンミックス部３４は、2chダウンミックス用係数部３５より2chの音声データに変換するための係数を読み出して、5.1chにダウンミックスされた音声データを、2chの音声データにダウンミックスする。

　最終的に2chの音声データにダウンミックスする際の係数は、図１２で示されるような係数となる。尚、図１２では、5.1chの音声データは、図１２の中段で示されるように、左右サラウンドスピーカＬＬｓ，ＲＲｓ、左右スピーカＬＬ，ＲＲ、およびセンタスピーカＣＣからなるスピーカシステムにより発生されるものとする。また、最終的な2chの音声データは、左右スピーカＬｔ，Ｒｔより出力される音声データＬｔ，Ｒｔであるものとする。

　すなわち、左右スピーカＬｔ，ＲｔにおけるパワーＰ（Ａｌｌ＿２ｃｈ）が、入力となる7.1chの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一のものとなるように、センタスピーカＣＣの左右スピーカＬｔ，Ｒｔへのパワー配分が１：１となるように係数Ｋ１４，Ｋ１５を、それぞれ１／√２に設定する。

　さらに、7.1chの左センタスピーカＬｃの音声データのパワーが、5.1chの左スピーカＬＬ，センタスピーカＣＣに対して１：１に配分されるように、係数ｋ１０，ｋ１２がそれぞれ１／√（２＋√２）となるように設定される。

　同様に、7.1chの右センタスピーカＲｃの音声データのパワーが、5.1chの右スピーカＲＲ，センタスピーカＣＣに対して１：１に配分されるように、係数ｋ１１，ｋ１３がそれぞれ１／√（２＋√２）となるように設定される。

　以上のように、入力データである7.1chの音声データを最終的に5.1chの音声データとして出力するか、2chの音声データとして出力するかに応じて、5.1chにダウンミックスする係数を切り替えて利用することで、いずれのダウンミックスにおいても入力データである7.1chの音声データと同様のパワーにすると共にパワーバランスをとることが可能となる。

　＜第４の変形例＞
　以上においては、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数を利用しない例について説明してきたが、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数を用いた上で、スケーリング係数を設定して、パワーの総和およびチャンネル間のパワー比が一定になるように調整するようにしてもよい。

　すなわち、この場合、変換装置の構成は、図４の構成となり、2chダウンミックス用係数部２２に記憶される係数は、図９において説明した２段階の変換に利用した係数を組み合わせて設定される図１３で示されるような係数となり、その関係は、以下の式（１２）で表される。

　Ｌｏ＝ａ×Ｌｓ＋Ｌ＋ａ’×Ｌｃ×β＋ｂ×Ｃ＋ａ”×Ｒｃ×β
　Ｒｏ＝ａ×Ｒｓ＋Ｒ＋ａ’×Ｒｃ×β＋ｂ×Ｃ＋ａ”×Ｌｃ×β
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１２）

　ここで、係数ａ’は、ａ’＝ｂ×ｅ２＋ｂ×ｅ１であり、係数ａ”は、ａ”＝ｂ×ｅ１であり、βはスケーリング係数である。

　したがって、例えば、係数ｅ１＝ｅ２＝ｂ＝１／√２であって、かつ、ａ＝１．０であるとき、左右スピーカＬｏ，Ｒｏは以下の式（１３）で表される。

　Ｌｏ＝ａ×Ｌｓ＋Ｌ＋（ｂ×ｅ２＋ｂ×ｅ１）×Ｌｃ×β
　　　　　　　　　　　　　　　　　　　＋ｂ×Ｃ＋（ｂ×ｅ１）×Ｒｃ×β
　　　＝Ｌｓ＋Ｌ＋Ｌｃ×β＋（１／√２）×Ｃ＋１／２×Ｒｃ×β
　Ｒｏ＝ａ×Ｒｓ＋Ｒ＋（ｂ×ｅ２＋ｂ×ｅ１）×Ｒｃ×β
　　　　　　　　　　　　　　　　　　　＋ｂ×Ｃ＋（ｂ×ｅ１）×Ｌｃ×β
　　　＝Ｒｓ＋Ｒ＋Ｒｃ×β＋（１／√２）×Ｃ＋１／２×Ｌｃ×β
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１３）

　このとき、パワーＰ（Ｌｏ），Ｐ（Ｒｏ）は、それぞれ以下の式（１４）で表される。

　Ｐ（Ｌｏ）＝＝（Ｌｓ）^２＋Ｌ^２＋（Ｌｃ）^２×β^２
　　　　　　　　　　　　　　　　　　＋（１／２）×Ｃ^２＋１／４×（Ｒｃ）^２×β^２
　Ｐ（Ｒｏ）＝＝（Ｒｓ）^２＋Ｒ^２＋（Ｒｃ）^２×β^２
　　　　　　　　　　　　　　　　　　＋（１／２）×Ｃ^２＋１／４×（Ｌｃ）^２×β^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１４）

　したがって、以下の式（１５）で示されるように、2chの音声データにおけるパワーＰ（Ａｌｌ＿２ｃｈ）が、7.1chの音声データにおけるパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一になるようにスケーリング係数βが設定されることになる。例えば、式（１４）における場合、以下の式（１５）で示されるようにスケーリング係数β＝２／√５に設定される。

　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｌｓ）^２＋（Ｒｓ）^２＋Ｌ^２＋Ｒ^２＋Ｃ^２
　　　　　　　　　　　　　＋５／４×（Ｌｃ）^２×β^２＋５／４×（Ｒｃ）^２×β^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１５）

　これにより、7.1chの音声データにおけるパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一にするためには、５／４×β^２＝１とすることとなるため、スケーリング係数β＝２／√５となる。

　以上の処理により、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数を利用するようにしてもスケーリング係数βを用いることで、2chの音声データにおけるパワーＰ（Ａｌｌ＿２ｃｈ）が、7.1chの音声データにおけるパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一となるようにダウンミックスすることが可能となる。

　＜第５の変形例＞
　以上においては、左右センタスピーカＬｃ，Ｒｃの音声データにスケーリング係数βを設定する例について説明してきたが、左右センタスピーカＬｃ，Ｒｃの音声データのそれぞれのパワー比を設定するスケーリング係数β１１をさらに追加するようにしてもよい。

　すなわち、例えば、以下の式（１６）で示されるように、スケーリング係数β１１を設定する。

　Ｐ（Ｌｏ）＝＝（Ｌｓ）^２＋Ｌ^２＋（Ｌｃ）^２×β^２
　　　　　　　　　　　＋（１／２）×Ｃ^２＋１／４×（Ｒｃ）^２×β^２×（β１１）^２
　Ｐ（Ｒｏ）＝＝（Ｒｓ）^２＋Ｒ^２＋（Ｒｃ）^２×β^２
　　　　　　　　　　　＋（１／２）×Ｃ^２＋１／４×（Ｌｃ）^２×β^２×（β１１）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１６）

　したがって、2chの音声データにおけるパワーは、以下の式（１７）のように表される。

　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｌｓ）^２＋（Ｒｓ）^２＋Ｌ^２＋Ｒ^２＋Ｃ^２
　　　　　　　　　　　　　　＋（Ｌｃ）^２×β^２×（１＋１／４×（β１１）^２）
　　　　　　　　　　　　　　　　＋（Ｒｃ）^２×β^２×（１＋１／４×（β１１）^２）
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１７）

　これにより、7.1chの音声データにおけるパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一にするためには、β^２×（１＋１／４×（β１１）^２）＝１とすることとなるため、例えば、スケーリング係数β１１＝２／√３である場合、スケーリング係数β＝√３／２となる。

　図１４には、係数ｂ，ｅ１，ｅ２を０，１，１／２，１／√２（＝０．７０７１）としたときの係数ａ’，ａ”およびスケーリング係数βの組み合わせの例が示されている。

　このようにスケーリング係数β１１を設定するようにすることで、ダウンミックス前後でのパワーの変化をなくして、パワーバランスのよりダウンミックスを実現することが可能となる。

　＜7.1ch top＞
　以上においては、7.1chフロントのスピーカシステムの音声データを2chの音声データに変換する例について説明してきた。しかしながら、図１５の点線で示されるように、後方の左右センタスピーカＬｃ，Ｒｃに代えて、左右トップスピーカＬｖ，Ｒｖを含めたスピーカシステムによる7.1chの音声データを2chの音声データに変換するようにしても良い。尚、図１５の点線で示されるようなスピーカシステムを、以降においては、7.1chトップ（7.1ch top）と称するものとする。

　＜7.1ch topにおける従来の変換方法＞
　この場合、図１６の最上段から中段で示されるように、5.1chダウンミックス部１１は、以下の式（１８）で示される演算を実行することにより、7.1chトップの音声データを5.1chの音声データに変換する。

　Ｃ’＝Ｃ
　Ｌ’＝Ｌ×ｆ１＋Ｌｖ×ｆ２
　Ｒ’＝Ｒ×ｆ１＋Ｒｖ×ｆ２
　Ｌｓ’＝Ｌｓ
　Ｒｓ’＝Ｒｓ
　ＬＦＥ’＝ＬＦＥ
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１８）

　ここで、Ｃ，Ｌ，Ｒ，Ｌｓ，Ｒｓ，Ｌｃ，Ｒｃ，ＬＦＥは、7.1chトップを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、左右トップスピーカＲｖ，Ｌｖ、低音スピーカＬＦＥのそれぞれから出力される音声データである。また、Ｃ’，Ｌ’，Ｒ’，Ｌｓ’，Ｒｓ’，ＬＦＥ’は、5.1chを構成するセンタスピーカＣ、左右スピーカＬ，Ｒ、左右サラウンドスピーカＬｓ，Ｒｓ、低音スピーカＬＦＥのそれぞれから出力される音声データである。さらに、ｆ１，ｆ２は、ISO/IEC 14496-3 2009 Amd 4 2013により規定される係数である。

　すなわち、5.1chダウンミックス部１１は、5.1chダウンミックス用係数部１２より係数を読み出して、センタスピーカＣの音声データに対して係数1.0を乗じて演算することにより、そのまま音声データＣ’に変換している。また、5.1chダウンミックス部１１は、5.1chダウンミックス用係数部１２より係数を読み出して、左右スピーカＬ，Ｒの音声データに対して係数ｆ１を乗じ、左右トップスピーカの音声データＬｖ，Ｒｖのそれぞれに係数ｆ２を乗じて加算する演算により、音声データＬ’，Ｒ’に変換している。さらに、5.1chダウンミックス部１１は、左右サラウンドスピーカＬｓ，Ｒｓ、低音スピーカＬＦＥのそれぞれの音声データに係数として1.0を乗じて、左右サラウンドスピーカＬｓ，Ｒｓおよび低音スピーカＬＦＥの音声データＬｓ’，Ｒｓ’，ＬＦＥ’を求めている。

　このような変換処理により、7.1chトップの音声データが5.1chの音声データに変換される。尚、図１６の中段および下段で示される、5.1chの音声データを2chの音声データに変換する処理は、図３を参照して説明した処理と同様であり、以下の式（１９）により表される。

　Ｌｏ＝ａ×Ｌｓ＋ｆ１×Ｌ＋ｆ２×Ｌｖ＋ｂ×Ｃ
　Ｒｏ＝ａ×Ｒｓ＋ｆ１×Ｒ＋ｆ２×Ｒｖ＋ｂ×Ｃ
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１９）

　上述した式（１９）の演算により、実質的に図１７で示されるような7.1chトップの音声データを、2chの音声データにダウンミックスする変換が実現されることになる。

　しかしながら、以上の処理により7.1chトップの音声データが2chの音声データに変換される際においても、パワーの総和およびチャンネル間のパワー比が異なるものとなる。

　すなわち、式（１８）の演算結果に基づいて、7.1chフロントの音声データが2chの音声データに変換される場合、そのパワーＰ（Ａｌｌ＿２ｃｈ）は以下の式（２０）で示されるように演算される。尚、ここでは、係数ａ＝1.0、係数ｆ１＝ｆ２＝ｂ＝１／√２であるものとする。

　Ｐ（Ｌｏ）＝（ａ×Ｌｓ）^２＋（ｆ１×Ｌ）^２＋（ｆ２×Ｌｖ）^２＋（ｂ×Ｃ）^２
　　　　　　＝Ｌｓ^２＋１／２×Ｌ^２＋１／２×（Ｌｖ）^２＋１／２×Ｃ^２
　Ｐ（Ｒｏ）＝（ａ×Ｒｓ）^２＋（ｆ１×Ｒ）^２＋（ｆ２×Ｒｖ）^２＋（ｂ×Ｃ）^２
　　　　　　＝Ｒｓ^２＋１／２×Ｒ^２＋１／２×（Ｒｖ）^２＋１／２×Ｃ^２
　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｌｓ）^２＋（Ｒｓ）^２＋１／２×Ｌ^２＋１／２×Ｒ^２＋Ｃ^２
　　　　　　　　　　　　　　　　　　　＋１／２×（Ｌｖ）^２＋１／２×（Ｒｖ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（２０）

　すなわち、式（２０）で示されるように、7.1chの音声データを2chの音声データにダウンミックスする変換によりパワーが減少してしまうことが示される。

　＜第６の変形例＞
　そこで、5chダウンミックス部２３は、2chの音声データのパワーＰ（Ａｌｌ＿２ｃｈ）が、7.1chトップの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）と同一のものとなるように補正用のスケーリング係数を設定する。

　スケーリング係数は、上述した式（２０）となる2chの音声データのパワーＰ（Ａｌｌ＿２ｃｈ）を、7.1chトップの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）に一致させる係数である。

　すなわち、式（２０）において、7.1chトップの音声データのパワーＰ（Ａｌｌ＿７．１ｃｈ）と異なるのは、Ｌ^２，Ｒ^２，（Ｌｖ）^２，（Ｒｖ）^２の係数が１ではなく、１／２となっている点である。そこで、この係数を１とするための係数を設定する。

　以下の式（２１）で示されるように左右スピーカＬ，Ｒの音声データＬ，Ｒのパワーを調整する係数としてスケーリング係数β２１が設定され、左右トップスピーカＬｖ，Ｒｖの音声データＬｖ，Ｒｖを調整する係数としてスケーリング係数β２２が設定される。

　Ｐ（Ａｌｌ＿２ｃｈ）＝Ｐ（Ｌｏ）＋Ｐ（Ｒｏ）
　　　　　　　　　　　＝（Ｃ）^２＋（β２１）^２×（Ｌ）^２＋（β２１）^２×（Ｒ）^２＋（Ｌｓ）^２＋（Ｒｓ）^２＋（β２２）^２×（Ｌｖ）^２＋（β２２）^２×（Ｒｖ）^２
　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（２１）

　より具体的には、係数ｆ１，ｆ２が、１，１／√２（＝０．７０７１），１／２（＝０．５）の範囲で変化するとき、スケーリング係数β２１，β２２は、図１８で示されるように設定される。

　例えば、図１８で示されるように、係数ｆ１，ｆ２が、いずれも１／√２（＝０．７０７１）である場合、スケーリング係数β２１，β２２は、いずれも√２（＝１．４１４２）に設定される。

　このようにスケーリング係数を設定することにより、２回の演算処理を１回の演算処理にしても、7.1chトップの音声データのパワーと同一のパワーとなる2chの音声データに変換することが可能となる。

　以上の処理により、7.1chバック、7.1chフロント、および7.1chトップのいずれにおいても、１回の演算により5.1chの音声データを経ることなく、直接2chにダウンミックスする変換処理を実現することが可能になると共に、ダウンミックス前のパワーを維持したまま、ダウンミックスすることが可能となる。

　ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

　図１９は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタ-フェイス１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

　入出力インタ-フェイス１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブルメディア１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

　CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　尚、本技術は、以下のような構成も取ることができる。
（１）　MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部と、
　前記係数部に記憶された係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする変換部と
　を含む音声処理装置。
（２）　前記MPEG4 Audio規格は、ISO/IEC_14496-3_2009_Amd_4_2013である
　（１）に記載の音声処理装置。
（３）　前記係数は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を含み、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１）に記載の音声処理装置。
（４）　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１）に記載の音声処理装置。
（５）　前記7.1chのスピーカシステムは、7.1ch backである
　（１）に記載の音声処理装置。
（６）　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（５）に記載の音声処理装置。
（７）　前記スケーリング係数は、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数を含む
　（６）に記載の音声処理装置。
（８）　前記スケーリング係数は、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数と、サラウンドスピーカより出力される音声データのパワーを調整する第２のスケーリング係数とを含む
　（６）に記載の音声処理装置。
（９）　前記7.1chのスピーカシステムは、7.1ch frontである
　（１）に記載の音声処理装置。
（１０）　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（９）に記載の音声処理装置。
（１１）　前記係数部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1ch frontを構成するスピーカの配置に応じた、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部を含み、
　前記変換部は、前記係数部に記憶された係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１０）に記載の音声処理装置。
（１２）　前記係数部は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶し、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１０）に記載の音声処理装置。
（１３）　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数と前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１２）に記載の音声処理装置。
（１４）　前記7.1chのスピーカシステムは、7.1ch topである
　（１）に記載の音声処理装置。
（１５）　前記係数部は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶し、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　（１４）に記載の音声処理装置。
（１６）　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする
　（１５）に記載の音声処理装置。
（１７）　MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の変換部と、
　前記第１の変換部によりダウンミックスされた、前記5.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第２の変換部と、
　最終的に、前記5.1chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第１の係数を記憶する第１の係数部と、
　最終的に、前記2chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第２の係数を記憶する第２の係数部とを含み、
　前記7.1chのスピーカシステムに対応する音声データを、最終的に前記2chのスピーカシステムに対応する音声データにダウンミックスして出力する場合、前記第１の変換部は、前記第２の係数部に記憶された、前記7.1chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置と、最終的に出力される前記2chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置とが同一となる前記第２の係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする
　音声処理装置。
（１８）　前記7.1chのスピーカシステムは、7.1ch frontである
　（１７）に記載の音声処理装置。

　２１　2chダウンミックス部，　２２　2chダウンミックス用係数部，　２３　5chダウンミックス部，　２４　5chダウンミックス用係数部，　３１　5chダウンミックス部，　３２　5ch出力用5chダウンミックス用係数部，　３３　2ch出力用5chダウンミックス用係数部，　３４　2chダウンミックス部，　３５　2chダウンミックス用係数部

Claims

　MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部と、
　前記係数部に記憶された係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする変換部と
　を含む音声処理装置。
　前記MPEG4 Audio規格は、ISO/IEC_14496-3_2009_Amd_4_2013である
　請求項１に記載の音声処理装置。
　前記係数は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を含み、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１に記載の音声処理装置。
　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１に記載の音声処理装置。
　前記7.1chのスピーカシステムは、7.1ch backである
　請求項１に記載の音声処理装置。
　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項５に記載の音声処理装置。
　前記スケーリング係数は、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数を含む
　請求項６に記載の音声処理装置。
　前記スケーリング係数は、リアサラウンドスピーカより出力される音声データのパワーを調整する第１のスケーリング係数と、サラウンドスピーカより出力される音声データのパワーを調整する第２のスケーリング係数とを含む
　請求項６に記載の音声処理装置。
　前記7.1chのスピーカシステムは、7.1ch frontである
　請求項１に記載の音声処理装置。
　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項９に記載の音声処理装置。
　前記係数部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とが同一になるように、前記7.1ch frontを構成するスピーカの配置に応じた、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする係数を記憶する係数部を含み、
　前記変換部は、前記係数部に記憶された係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１０に記載の音声処理装置。
　前記係数部は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶し、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１０に記載の音声処理装置。
　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数と前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１２に記載の音声処理装置。
　前記7.1chのスピーカシステムは、7.1ch topである
　請求項１に記載の音声処理装置。
　前記係数部は、MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の係数と、前記規格により規定される、5.1chのスピーカシステムに対応する音声データを、2chのスピーカシステムに対応する音声データにダウンミックスする第２の係数とを利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第３の係数を記憶し、
　前記変換部は、前記係数部に記憶された第３の係数を利用して、それぞれのパワーの総和およびチャンネル間のパワー比が同一になるように、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データに直接ダウンミックスする
　請求項１４に記載の音声処理装置。
　前記変換部は、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にするスケーリング係数を設定し、前記スケーリング係数および前記係数により、前記7.1chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比と、前記2chのスピーカシステムに対応する音声データのパワーの総和およびチャンネル間のパワー比とを同一にして、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする
　請求項１５に記載の音声処理装置。
　MPEG4（Moving Picture Experts Group 4） Audio規格により規定される、7.1chのスピーカシステムに対応する音声データを、前記5.1chのスピーカシステムに対応する音声データにダウンミックスする第１の変換部と、
　前記第１の変換部によりダウンミックスされた、前記5.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする第２の変換部と、
　最終的に、前記5.1chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第１の係数を記憶する第１の係数部と、
　最終的に、前記2chのスピーカシステムに対応する音声データを出力する場合における、前記5.1chのスピーカシステムに対応する音声データにダウンミックスするための第２の係数を記憶する第２の係数部とを含み、
　前記7.1chのスピーカシステムに対応する音声データを、最終的に前記2chのスピーカシステムに対応する音声データにダウンミックスして出力する場合、前記第１の変換部は、前記第２の係数部に記憶された、前記7.1chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置と、最終的に出力される前記2chのスピーカシステムに対応する音声データのパワーの総和、チャンネル間のパワー比、およびダウンミックス後の定位位置とが同一となる第２の係数を利用して、前記7.1chのスピーカシステムに対応する音声データを、前記2chのスピーカシステムに対応する音声データにダウンミックスする
　音声処理装置。
　前記7.1chのスピーカシステムは、7.1ch frontである
　請求項１７に記載の音声処理装置。