JP7107727B2

JP7107727B2 - 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体

Info

Publication number: JP7107727B2
Application number: JP2018079248A
Authority: JP
Inventors: 政司米丸; 洋尾村
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2022-07-27
Anticipated expiration: 2038-04-17
Also published as: JP2019186888A

Description

本発明は音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体に関する。

実用放送が開始予定の新４Ｋ８Ｋ放送においては、映像の高解像度化だけでなく、音声に関しても２２．２ｃｈ（以下、ｃｈは「チャンネル」を示す）という高度な立体音響信号を送信している。これらの放送にて送られてくる２２．２ｃｈ及び他ｃｈの音声信号を再現させるためには、２２個のスピーカ及び２個の低域スピーカを所定の位置に設置し、スピーカを駆動するために２４ｃｈのアンプが必要である。

上記の立体音響信号をより容易に再生するために、５．１ｃｈ等の一般的なサラウンド信号に変換する手法が提示されている。例えば、非特許文献１には、２２．２ｃｈ信号を一般的な５．１ｃｈ信号にダウンミックスさせる変換式が開示されている。

特許５６０４３６５号公報（２０１２年１２月０６日公開）特許５８５２３２５号公報（２０１２年１２月０６日公開）

ＡＲＩＢＳＴＤ－Ｂ３２第２部（２０１６年１２月９日改訂）

非特許文献１の手法は立体音響効果をより重視した変換手法ではないという問題がある。すなわち、２２．２ｃｈで多くの情報を送出している上層チャネル、及び、前面チャネルの信号がより少ないチャンネルへとマージされることにより、平面的なサラウンド音像は再現しているものの、立体感、前面音像の厚み等が薄れてしまう。

また、特許文献１及び２には、２２．２ｃｈの重要なデータである前面チャンネルの情報を重視しつつ、サラウンドチャンネルの信号も上層のスピーカと、中層のスピーカとに分けることにより、高さ方向（立体感）の音声再生を実現する多チャンネルスピーカ装置が開示されている。ただし、特許文献１及び２の技術は、テレビ画面の周囲に専用スピーカを配置し、当該専用スピーカに応じた音声処理を施すものである。

一方、近年、ＤｏｌｂｙＡｔｍｏｓ等、立体音像の再現が求められている。本来の２２．２ｃｈは立体音像の情報を十分に持っているので、その立体音像の情報を生かしながら、専用スピーカを用いることなく、一般家庭でも立体音像を容易に実現する手法が求められている。

本発明の一態様は、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生する技術を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る音声処理装置は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、上記音声データ生成部は、２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成する。

上記の課題を解決するために、本発明の他の態様に係る音声処理装置は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、上記音声データ生成部は、２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成するものであり、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定部を備えている。

上記の課題を解決するために、本発明の一態様に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成するステップを含む。

上記の課題を解決するために、本発明の他の態様に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
上記音声データ生成ステップでは、２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記音声データ生成ステップには、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定ステップを含む。

本発明の一態様によれば、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができるとの効果を奏する。

本発明の実施形態１に係る音声処理装置の構成を示すブロック図である。本発明の実施形態１に係る音声処理装置が処理する２２．２ｃｈの音声データを含むチャンネルを模式的に示す図である。本発明の実施形態１に係る音声処理装置が生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は上層チャンネルの右側及び左側チャンネルの音声データを生成することを示す図であり、（ｂ）は上層チャンネルの前側及び後側チャンネルの音声データを生成することを示す図である。図４の（ａ）は図３の（ａ）に用いられる計算式を示す図であり、（ｂ）は図３の（ｂ）に用いられる計算式を示す図である。図５の（ａ）はダイアログ音声データがセンターチャンネルに入力された場合、中層チャンネルにおける中央チャンネルおよび上層チャンネルの右側及び左側チャンネルから出力する一態様を示す図であり、（ｂ）は他の態様を示す図である。図６の（ａ）は図５の一態様に用いられる計算式を示す図であり、（ｂ）は他の態様に用いられる計算式を示す図である。本発明の実施形態２に係る音声処理装置の構成を示すブロック図である。本発明の実施形態２に係る音声処理装置が生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は中層チャンネルの音声データを生成する処理例１生成例１を示す図であり、（ｂ）は処理例１生成例２を示す図である。図９の（ａ）は図８の（ａ）に用いられる計算式を示す図であり、（ｂ）は図８の（ｂ）に用いられる計算式を示す図である。図１０の（ａ）は図８の（ａ）の変形例を示す図であり、（ｂ）は図８の（ｂ）の変形例を示す図である。図１１の（ａ）は図１０の（ａ）に用いられる計算式を示す図であり、（ｂ）は図１０の（ｂ）に用いられる計算式を示す図である。本発明の実施形態２に係る音声処理装置が生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は上層チャンネルの音声データを生成する処理例２の生成例１を示す図であり、（ｂ）は処理例２の生成例２を示す図である。図１３の（ａ）は図１２の（ａ）に用いられる計算式を示す図であり、（ｂ）は図１２の（ｂ）に用いられる計算式を示す図である。図１４の（ａ）は図１２の（ａ）の変形例を示す図であり、（ｂ）は図１２の（ｂ）の変形例を示す図である。図１５の（ａ）は図１４の（ａ）に用いられる計算式を示す図であり、（ｂ）は図１４の（ｂ）に用いられる計算式を示す図である。本発明の実施形態３に係る音声処理装置の構成を示すブロック図である。本発明の実施形態３に係る音声処理装置が生成する５．１ｃｈの音声データを含むチャンネルを模式的に示す図であって、中層チャンネルの音声データを生成する生成例を示す図である。図１７に用いられる計算式を示す図である。図１７の変形例を示す図である。図１９に用いられる計算式を示す図である。比較例を示す図である。図２１に用いられる計算式を示す図である。

〔実施形態１〕
以下、本発明の実施形態１について、図１～図６を用いて詳細に説明する。

（音声処理装置１の構成）
図１は、本実施形態に係る音声処理装置１の構成を示すブロック図である。音声処理装置１は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する。音声処理装置１は、音声データ取得部１０と、音声データ生成部１１と、音声データ出力部１２とを備えている。

音声データ取得部１０は、外部から音声データを取得する。そして、音声データ取得部１０により取得した音声データが音声データ生成部１１に出力される。ここで、取得する音声データとして、例えば地上デジタル放送やＢＳ／ＣＳデジタル放送、新４Ｋ８Ｋ放送等の各種映像コンテンツの放送波に含まれる音声データ、または記録媒体に記録されている音声データなどが挙げられる。

音声データ生成部１１は、入力音声データに対して所定のダウンミックスをすることによって入力音声データを生成する。そして、音声データ生成部１１により生成した出力音声データが音声データ出力部１２に出力される。

音声データ出力部１２に出力された出力音声データがさらに不図示の音声再生装置、例えばスピーカなどにより再生される。

（音声処理装置１の全体処理）
音声処理装置１は、例えば２２．２ｃｈの音声データを取得し、ダウンミックスすることによって、例えば５.１．２ｃｈ（水平層５ｃｈ、低域１ｃｈ、上層２ｃｈ）の音声データを生成する。

図２は、本実施形態に係る音声処理装置１が処理する２２．２ｃｈの音声データを含むチャンネルを模式的に示す図である。図２に示すように、２２．２ｃｈの音声データは、前側（前列、フロントとも呼称する）に配置された１１個のチャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＢｔＦＬ、ＢｔＦＣ、ＢｔＦＲ）、中列に配置された５個のチャンネル（ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＳｉＬ、ＳｉＲ）、後側（後列とも呼称する）に配置された６個のチャンネル（ＴｐＢＬ、ＴｐＢＣ、ＴｐＢＲ、ＢＬ、ＢＣ、ＢＲ）から出力されることが想定されている。また、２２．２ｃｈの音声データの各チャンネルは、上層である９ｃｈ（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、ＴｐＢＲ）、中層である１０ｃｈ（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、ＢＲ）、下層である３ｃｈ（ＢｔＦＬ、ＢｔＦＣ、ＢｔＦＲ）に分類される。

なお、ウーハ０．２ｃｈの音声データには、低域の２ｃｈ（ＬＦＥ１、ＬＦＥ２）が対応する。

図３は、本実施形態に係る音声処理装置１が生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は上層チャンネルの右側及び左側チャンネルの音声データを生成することを示す図であり、（ｂ）は上層チャンネルの前側及び後側チャンネルの音声データを生成することを示す図である。

図３の（ａ）に示すように、５．１.２ｃｈの音声データの一例として、前側に配置された３個のチャンネル（Ｌ、Ｃ、Ｒ）、中列に配置された３個のチャンネル（ＴｏｐＬ、ＴｏｐＲ）、後側に配置された２個のチャンネル（ＬＳ、ＲＳ）及び低域チャンネルＬＦＥから出力されることが想定されている。また、５．１.２ｃｈの音声データの各チャンネルは、上層である２ｃｈ（ＴｏｐＬ、ＴｏｐＲ）、中層である５ｃｈ（Ｌ、Ｃ、Ｒ、ＬＳ、ＲＳ）、低域である１ｃｈ（ＬＦＥ１）に分類される。なお、ウーハ０．２ｃｈの音声データには、低域の１ｃｈ（ＬＦＥ）が対応する。５．１.２ｃｈの音声データの他の例として、例えば図３の（ｂ）に示す構成であってもよい。

具体的には、図３に示すように、音声処理装置１は、複数のチャンネル、例えば２２．２ｃｈを有する入力音声データをダウンミックスすることによって、複数のチャンネル、例えば５．１．２ｃｈを有する出力音声データを生成する音声データ生成部１１（図１を参照）を備えている音声処理装置１において、音声データ生成部１１は、例えば上記２２．２ｃｈを有する入力音声データに含まれる
・上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）と、
・中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）と、
・下層チャンネル（ＢｔＦＬ、ＢｔＦＣ、ＢｔＦＲ）、低域チャンネル（ＬＦＥ１、ＬＦＥ２）とのうち、
少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、およびＲＳ）の音声データを生成する。

また、音声データ生成部１１は、上記２２．２ｃｈを有する入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネル（ＴｏｐＬおよびＴｏｐＲ）（図３の（ａ）を参照）、あるいは（ＴｏｐＦおよびＴｏｐＢ）（図３の（ｂ）を参照）の音声データを生成する。

より具体的には、一例として、図３の（ａ）に示すように、上記出力音声データの上層チャンネル（ＴｏｐＬ）は、上記入力音声データの上層チャンネル（ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、およびＴｐＢＣ）により生成され、上記出力音声データの上層チャンネル（ＴｏｐＲ）は、上記入力音声データの上層チャンネル（ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、およびＴｐＢＣ）により生成される。また、図３の（ｂ）に示すように、上記出力音声データの上層チャンネル（ＴｏｐＦ）は、上記入力音声データの上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、およびＴｐＳｉＲ）により生成され、上記出力音声データの上層チャンネル（ＴｏｐＢ）は、上記入力音声データの上層チャンネル（ＴｐＢＬ、ＴｐＢＣ、ＴｐＢＲ、ＴｐＳｉＬ、ＴｐＣ、およびＴｐＳｉＲ）により生成される。また、図３の（ａ）および図３の（ｂ）の構成は例示であり、本実施形態の構成を限定するものではない。

なお、本発明では、図３の（ａ）および図３の（ｂ）の構成をそれぞれベース１およびベース２と呼称する場合がある。

ユーザが上部音声の方向感および左右側の音声を重視するか、またはユーザが上部音声の方向感および前後側の音声を重視するかに応じてユーザがベース１およびベース２を選択することができる。

図４の（ａ）は図３の（ａ）に用いられる計算式であって、音声データ生成部１１によって実行される計算式を示す図であり、（ｂ）は図３の（ｂ）に用いられる計算式であって、音声データ生成部１１によって実行される計算式を示す図である。図４に示すように、ベース１およびベース２では共通する計算式は式１～式６および式９である。

具体的には、図４の（ａ）における式１～式９は、ベース１の音声データの計算式である。式１に示すように、音声データ生成部１１は、ＦＬ、ＦＬＣ、ＳｉＬ、及び、ＢｔＦＬを用いて、Ｌを生成する。式２に示すように、音声データ生成部１１は、ＦＲ、ＦＲＣ、ＳｉＲ、及び、ＢｔＦＲを用いて、Ｒを生成する。式３に示すように、音声データ生成部１１は、ＦＣ、ＦＬＣ、ＦＲＣ、及び、ＢｔＦＣを用いて、Ｃを生成する。

式４に示すように、音声データ生成部１１は、ＢＬ、ＳｉＬ、及び、ＢＣを用いて、ＬＳを生成する。式５に示すように、音声データ生成部１１は、ＢＲ、ＳｉＲ、及び、ＢＣを用いて、ＲＳを生成する。式６に示すように、音声データ生成部１１は、ＬＦＥ１、及び、ＬＦＥ２を用いて、ＬＦＥを生成する。

式７に示すように、音声データ生成部１１は、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＬを生成する。式８に示すように、音声データ生成部１１は、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＲを生成する。式９に示すように、ｘは、式７、及び式８に用いられる一般的な係数である。

一方、図４の（ｂ）における式１～式６、式１０～式１１、及び、式９は、ベース２の音声データの計算式である。ベース１と共通する式１～式６および式９の説明は省略する。式１０に示すように、音声データ生成部１１は、ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、及び、ＴｐＳｉＲを用いて、ＴｏｐＦを生成する。式１１に示すように、音声データ生成部１１は、ＴｐＢＬ、ＴＢＣ、ＴｐＢＲ、ＴｐＳｉＬ、ＴｐＣ、及び、ＴｐＳｉＲを用いて、ＴｏｐＢを生成する。

上記の構成によれば、音声処理装置１は、音声データ生成部１１により、例えば上記２２．２ｃｈを有する入力音声データに含まれる、上層チャンネルと、中層チャンネルと、下層チャンネルとのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを好適に生成し、また、音声処理装置１は、音声データ生成部１１により、上記２２．２ｃｈを有する入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを好適に生成することができる。

（音声処理装置１によるセンターチャンネル（ＴｐＦＣ、ＦＣ、ＢｔＦＣ）に対する処理）
以下、上記処理について、図５～図６を用いて詳細に説明する。図５の（ａ）はダイアログ音声データがセンターチャンネルに入力された場合、中層チャンネルにおける中央チャンネルおよび上層チャンネルの右側及び左側チャンネルから出力する一態様を示す図であり、（ｂ）は他の態様を示す図である。また、上記処理の一例として、図５の（ａ）は、ベース１（図３の（ａ））に対応する。

図５の（ａ）に示す一態様では、例えばダイアログ（ナレーション、アナウンス、実況など）のような人の声を含む音声データがセンターチャンネル（ＴｐＦＣ、ＦＣ、ＢｔＦＣ）に入力された場合、チャンネル（Ｃ）およびチャンネル（ＴｏｐＬ、ＴｏｐＲ）からも聞こえてしまい、聴感上違和感を生じる可能性があるという副次的な課題が生じる。

これに対し、図５の（ｂ）に示す他の態様では、音声処理装置１の音声データ生成部１１は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネル（ＴｐＦＣ）のダイアログ音声データを、上記出力音声データの上層チャンネル（ＴｏｐＬ、ＴｏｐＲ）の音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネル（Ｃ）の音声データにミックスする。

このように、音声データ生成部１１は、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスする。

この結果、ダイアログのような音声データがセンターチャンネル（ＴｐＦＣ、ＦＣ、ＢｔＦＣ）に入力された場合、音声処理装置１は、それらの音声データを、出力音声データの上層チャンネル（ＴｏｐＬ、ＴｏｐＲ）の音声データにミックスせず、チャンネル（Ｃ）の出力音声データにミックスするため、上層チャンネル（ＴｏｐＬ、ＴｏｐＲ）から人の声が聞こえないようになり、聴感上違和感を生じる可能性が減少する。

また、本明細書において、「音声」は人の声に限定されず、その他の音全般を含んでもよい。

また、他の態様として、不図示の音声処理装置１の音声データ生成部１１は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネル（ＴｐＦＣ）の音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネル（ＦＣ）の音声データを引き算したうえで、上記出力音声データの上層チャンネル（ＴｏｐＬ、ＴｏｐＲ）の音声データにミックスする構成としてもよい。

このように、音声データ生成部１１は、上層チャンネルにおける中央チャンネルの音声データから、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする。

この結果、ナレーションのようなダイアログを含む音声データがセンターチャンネル（ＴｐＦＣ、ＦＣ、ＢｔＦＣ）に入力された場合、音声処理装置１は、センターチャンネル（ＴｐＦＣ）の人の声成分を削除するため、上層からダイアログが聞こえることを防止することができる。これにより、聴感上違和感を生じる可能性が減少する。

図６の（ａ）は図５の一態様に用いられる計算式であって、音声データ生成部１１によって実行される計算式を示す図であり、（ｂ）は他の態様に用いられる計算式であって、音声データ生成部１１によって実行される計算式を示す図である。図６に示すように、一態様および他の態様では共通する計算式は式１～式２、式４～式６および式９である。

具体的には、図６の（ａ）における式１～式２、式４～式６、式９、式１２～式１４は、一態様の音声データの計算式である。説明済の式１～式２、式４～式６、式９の説明は省略する。式１２に示すように、音声データ生成部１１は、ＦＣ、ＦＬＣ、ＦＲＣ、ＢｔＦＣ、及び、ＴｐＦＣを用いて、Ｃを生成する。式１３に示すように、音声データ生成部１１は、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＬを生成する。式１４に示すように、音声データ生成部１１は、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＲを生成する。

図６の（ｂ）における式１～式６、式９、式１５～式１６は、他の態様の音声データの計算式である。説明済の式１～式６、式９の説明は省略する。式１５に示すように、音声データ生成部１１は、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＬを生成する。式１６に示すように、音声データ生成部１１は、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＬを生成する。

〔実施形態２〕
本発明の実施形態２について、図７～図１５に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

（音声処理装置１ａの構成）
図７は、本実施形態に係る音声処理装置１ａの構成を示すブロック図である。実施形態１における音声処理装置１と比較すると、音声処理装置１ａは、音声データ生成部１１ａが重み係数設定部１１１を備えている点で相違する。以下、この相違点を中心に説明する。

（音声処理装置１ａの処理例１）
音声処理装置１ａは、例えば２２．２ｃｈの音声データを取得し、ダウンミックスすることによって、例えば５.１．２ｃｈの音声データを生成する。

図８は、本実施形態に係る音声処理装置１ａが生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は中層チャンネルの音声データを生成する処理例１の生成例１（ベース１に対応）を示す図であり、（ｂ）は処理例１の生成例２（ベース２に対応）を示す図である。

具体的には、図８に示すように、音声処理装置１ａの音声データ生成部１１ａは、中層のダウンミックス音声データを生成する際に、例えば２２．２ｃｈを有する上記入力音声データに含まれる、少なくとも、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）の音声データを、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、およびＲＳ）の音声データを生成する。

上述したように、本実施形態では、音声データ生成部１１ａが重み係数設定部１１１を備えている。重み係数設定部１１１は、ダウンミックス係数とも呼称する重み係数を設定するものである。具体的には、図８の例示では、上層チャンネルの音声データと、中層チャンネルの音声データとをダウンミックスして、上記出力音声データを中層チャンネルの音声データにもミックスするとき、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）の音声データに重み係数αを乗算させて上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、およびＲＳ）の音声データを生成している。

上層チャンネルの音声データを上層２ｃｈ（ＴｏｐＬおよびＴｏｐＲ、あるいはＴｏｐＦおよびＴｏｐＢ）にミックスすると左右方向（あるいは前後方向）しか音声信号が出なくなるので、聴感上違和感を生じる可能性がある。そして、上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向（あるいは左右方向）の音声再生効果を補完することができる。また、本処理例１では、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）に均一な重み係数αが乗算される。

図９の（ａ）は図８の（ａ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図であり、（ｂ）は図８の（ｂ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図である。図９に示すように、処理例１の生成例１および処理例１の生成例２では共通する計算式は式１７～式２１、式６および式９である。

具体的には、図９の（ａ）における式１７～式２１、式６～式９は、処理例１の生成例１の音声データの計算式である。説明済の式６～式９の説明は省略する。式１７に示すように、音声データ生成部１１ａは、ＦＬ、ＦＬＣ、ＳｉＬ、ＢｔＦＬ、ＴｐＦＬ、及び、ＴｐＳｉＬを用いて、Ｌを生成する。また、式１７では、重み係数αがＴｐＦＬ、及び、ＴｐＳｉＬに乗算される。式１８に示すように、音声データ生成部１１ａは、ＦＲ、ＦＲＣ、ＳｉＲ、ＢｔＦＲ、ＴｐＦＲ、及び、ＴｐＳｉＲを用いて、Ｒを生成する。また、式１８では、重み係数αがＴｐＦＲ、及び、ＴｐＳｉＲに乗算される。式１９に示すように、音声データ生成部１１ａは、ＦＣ、ＦＬＣ、ＦＲＣ、ＢｔＦＣ、ＴｐＦＣ、及び、ＴｐＣを用いて、Ｃを生成する。また、式１９では、重み係数αがＴｐＦＣ、及び、ＴｐＣに乗算される。式２０に示すように、音声データ生成部１１ａは、ＢＬ、ＳｉＬ、ＢＣ、ＴｐＢＬ、ＴｐＢＣ、ＴｐＳｉＬ、及び、ＴｐＣを用いて、ＬＳを生成する。また、式２０では、重み係数αがＴｐＢＬ、ＴｐＢＣ、ＴｐＳｉＬ、及び、ＴｐＣに乗算される。式２１に示すように、音声データ生成部１１ａは、ＢＲ、ＳｉＲ、ＢＣ、ＴｐＢＲ、ＴｐＢＣ、ＴｐＳｉＲ、及び、ＴｐＣを用いて、ＲＳを生成する。また、式２１では、重み係数αがＴｐＢＲ、ＴｐＢＣ、ＴｐＳｉＲ、及び、ＴｐＣに乗算される。図９の（ｂ）における式１７～式２１、式６、式１０～式１１、式９は、処理例１の生成例２の音声データの計算式である。説明済の式１７～式２１、式６、式１０～式１１、式９の説明は省略する。

（音声処理装置１ａの処理例１の変形例）
処理例１と比較すると。本変形例では、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）に異なる重み係数α１、α２、及びα３が乗算される点で相違する。以下、この相違点を中心に説明する。

図１０の（ａ）は図８の（ａ）の変形例（ベース１に対応、処理例１の生成例３）を示す図であり、（ｂ）は図８の（ｂ）の変形例（ベース２に対応、処理例１の生成例４）を示す図である。

具体的には、音声処理装置１ａの音声データ生成部１１ａは、例えば２２．２ｃｈを有する入力音声データに含まれる、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）の音声データを中層にも乗算させる重み係数αを、前列から後列に行くに従って大きく設定する。換言すると、図１０の例示では、前列から後列に向かう順で、音声データ生成部１１ａにおける重み係数設定部１１１は、α１＜α２＜α３となるように重み係数αを設定する。

上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向（あるいは左右方向）の音声再生効果をより好適に補完することができる。

図１１の（ａ）は図１０の（ａ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図であり、（ｂ）は図１０の（ｂ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図である。図１１に示すように、処理例１の生成例３および処理例１の生成例４では共通する計算式は式２２～式２６、式６および式９である。

具体的には、図１１の（ａ）における式２２～式２６、式６および式９は、処理例１の生成例３の音声データの計算式である。説明済の式６および式９の説明は省略する。式２２に示すように、音声データ生成部１１ａは、ＦＬ、ＦＬＣ、ＳｉＬ、ＢｔＦＬ、ＴｐＦＬ、及び、ＴｐＳｉＬを用いて、Ｌを生成する。また、式２２では、重み係数α１がＴｐＦＬに乗算され、重み係数α２がＴｐＳｉＬに乗算される。式２３に示すように、音声データ生成部１１ａは、ＦＲ、ＦＲＣ、ＳｉＲ、ＢｔＦＲ、ＴｐＦＲ、及び、ＴｐＳｉＲを用いて、Ｒを生成する。また、式２３では、重み係数α１がＴｐＦＲに乗算され、重み係数α２がＴｐＳｉＲに乗算される。式２４に示すように、音声データ生成部１１ａは、ＦＣ、ＦＬＣ、ＦＲＣ、ＢｔＦＣ、ＴｐＦＣ、及び、ＴｐＣを用いて、Ｃを生成する。また、式２４では、重み係数α１がＴｐＦＣに乗算され、重み係数α２がＴｐＣに乗算される。式２５に示すように、音声データ生成部１１ａは、ＢＬ、ＳｉＬ、ＢＣ、ＴｐＢＬ、ＴｐＢＣ、ＴｐＳｉＬ、及び、ＴｐＣを用いて、ＬＳを生成する。また、式２５では、重み係数α３がＴｐＢＬ、及び、ＴｐＢＣに乗算され、重み係数α２がＴｐＳｉＬ、及び、ＴｐＣに乗算される。式２６に示すように、音声データ生成部１１ａは、ＢＲ、ＳｉＲ、ＢＣ、ＴｐＢＲ、ＴｐＢＣ、ＴｐＳｉＲ、及び、ＴｐＣを用いて、ＲＳを生成する。また、式２６では、重み係数α３がＴｐＢＲ、及び、ＴｐＢＣに乗算され、重み係数α２がＴｐＳｉＲ、及び、ＴｐＣに乗算される。式４８に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＬを生成する。式４９に示すように、音声データ生成部１１ａは、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、ＴｐＣ、及び、ＴｐＢＣを用いて、ＴｏｐＲを生成する。図１１の（ｂ）における式２２～式２６、式６、式５０～式５１、式９は、処理例１の生成例４の音声データの計算式である。説明済の式２２～式２６、式６および式９の説明は省略する。式５０に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、及び、ＴｐＳｉＲを用いて、ＴｏｐＦを生成する。式５１に示すように、音声データ生成部１１ａは、ＴｐＢＬ、ＴＢＣ、ＴｐＢＲ、ＴｐＳｉＬ、ＴｐＣ、及び、ＴｐＳｉＲを用いて、ＴｏｐＢを生成する。

また、γは、式４８～式５１に用いられる一般的な係数である。

（音声処理装置１ａの処理例２）
図１２は、本実施形態に係る音声処理装置１ａが生成する５．１．２ｃｈの音声データを含むチャンネルを模式的に示す図であって、（ａ）は上層チャンネルの音声データを生成する処理例２の生成例１（ベース１に対応）を示す図であり、（ｂ）は処理例２の生成例２（ベース２に対応）を示す図である。

具体的には、図１２に示すように、音声処理装置１ａの音声データ生成部１１ａは、例えば２２．２ｃｈを有する上記入力音声データに含まれる、少なくとも、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）の音声データに、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データをもダウンミックスすることによって、上記出力音声データの上層チャンネル（ＴｏｐＬおよびＴｏｐＲ）（ベース１に対応）、あるいは（ＴｏｐＦおよびＴｏｐＢ）（ベース２に対応）の音声データを生成する。

また、図１２の例示では、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）の音声データと、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データとをダウンミックスして、上記出力音声データの上層チャンネル（ＴｏｐＬおよびＴｏｐＲ）（ベース１に対応）、あるいは（ＴｏｐＦおよびＴｏｐＢ）（ベース２に対応）の音声データを生成するとき、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データに重み係数βを乗算させて上記出力音声データの上層チャンネル（ＴｏｐＬおよびＴｏｐＲ）（ベース１に対応）、あるいは（ＴｏｐＦおよびＴｏｐＢ）（ベース２に対応）の音声データを生成している。

上記の構成によれば、中層チャンネルの音声データをも上層チャンネルにダウンミックスさせることで中層チャンネルの音声データを上層チャンネルに出力する音声データに組み込むことができる。また、本処理例２では、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）に均一な重み係数βが乗算される。

図１３の（ａ）は図１２の（ａ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図であり、（ｂ）は図１２の（ｂ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図である。図１３に示すように、処理例２の生成例１および処理例２の生成例２では共通する計算式は式２７～式３１、式６および式９である。

具体的には、図１３の（ａ）における式２７～式３１、式６、式３２～式３３、及び式９は、処理例２の生成例１の音声データの計算式である。説明済の式６、及び式９の説明は省略する。式２７に示すように、音声データ生成部１１ａは、ＦＬ、ＦＬＣ、ＳｉＬ、及び、ＢｔＦＬを用いて、Ｌを生成する。式２８に示すように、音声データ生成部１１ａは、ＦＲ、ＦＲＣ、ＳｉＲ、及び、ＢｔＦＲ、ＴｐＦＲを用いて、Ｒを生成する。式２９に示すように、音声データ生成部１１ａは、ＦＣ、ＦＬＣ、ＦＲＣ、及び、ＢｔＦＣを用いて、Ｃを生成する。式３０に示すように、音声データ生成部１１ａは、ＢＬ、ＳｉＬ、及び、ＢＣを用いて、ＬＳを生成する。式３１に示すように、音声データ生成部１１ａは、ＢＲ、ＳｉＲ、及び、ＢＣを用いて、ＲＳを生成する。式３２に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、ＴｐＣ、ＴｐＢＣ、ＦＬ、ＦＬＣ、ＳｉＬ、ＢＬ、ＦＣ、及び、ＢＣを用いて、ＴｏｐＬを生成する。また、式３２では、重み係数βがＦＬ、ＦＬＣ、ＳｉＬ、ＢＬ、ＦＣ、及び、ＢＣに乗算される。式３３に示すように、音声データ生成部１１ａは、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、ＴｐＣ、ＴｐＢＣ、ＦＲ、ＦＲＣ、ＳｉＲ、ＢＲ、ＦＣ、及び、ＢＣを用いて、ＴｏｐＲを生成する。また、式３３では、重み係数βがＦＲ、ＦＲＣ、ＳｉＲ、ＢＲ、ＦＣ、及び、ＢＣに乗算される。図１３の（ｂ）における式２７～式３１、式６、式３４～式３５、及び式９は、処理例２の生成例２の音声データの計算式である。説明済の式２７～式３１、式６、及び式９の説明は省略する。式３４に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、及び、ＳｉＲを用いて、ＴｏｐＦを生成する。また、式３４では、重み係数βがＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、及び、ＳｉＲに乗算される。式３５に示すように、音声データ生成部１１ａは、ＴｐＢＬ、ＴｐＢＣ、ＴｐＢＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＢＬ、ＢＣ、ＢＲ、ＳｉＬ、及び、ＳｉＲを用いて、ＴｏｐＢを生成する。また、式３５では、重み係数βがＢＬ、ＢＣ、ＢＲ、ＳｉＬ、及び、ＳｉＲに乗算される。また、γは、式２７～式３１に用いられる一般的な係数で、ｙは、式３２～式３５に用いられる一般的な係数ではある。

（音声処理装置１ａの処理例２の変形例）
処理例２と比較すると。本変形例では、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）に異なる重み係数β１、β２、及びβ３が乗算される点で相違する。以下、この相違点を中心に説明する。

図１４の（ａ）は図１２の（ａ）の変形例（ベース１に対応、処理例２の生成例３）を示す図であり、（ｂ）は図１２の（ｂ）の変形例（ベース２に対応、処理例２の生成例４）を示す図である。

具体的には、音声処理装置１ａの音声データ生成部１１ａは、例えば２２．２ｃｈを有する入力音声データに含まれる、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データを上層に乗算させる重み係数βを、前列から後列に行くに従って大きく設定する。換言すると、図１４の例示では、前列から後列に向かう順で、音声データ生成部１１ａにおける重み係数設定部１１１は、β１＜β２＜β３となるように重み係数βを設定する。

上記の構成によれば、中層チャンネルの音声データを上層チャンネルにもダウンミックスさせることで中層チャンネルの音声データを上層チャンネルに出力する音声データにより好適に組み込むことができる。

図１５の（ａ）は図１４の（ａ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図であり、（ｂ）は図１４の（ｂ）に用いられる計算式であって、音声データ生成部１１ａによって実行される計算式を示す図である。図１５に示すように、処理例２の生成例３および処理例２の生成例４では共通する計算式は式２７～式３１、式６および式９である。

具体的には、図１５の（ａ）における式２７～式３１、式６、式３６～式３７、及び式９は、処理例２の生成例３の音声データの計算式である。説明済の式２７～式３１、式６、及び式９の説明は省略する。式３６に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＳｉＬ、ＴｐＢＬ、ＴｐＦＣ、ＴｐＣ、ＴｐＢＣ、ＦＬ、ＦＬＣ、ＳｉＬ、ＢＬ、ＦＣ、及び、ＢＣを用いて、ＴｏｐＬを生成する。また、式３６では、重み係数β１がＦＬ、ＦＬＣ、及び、ＦＣに乗算され、重み係数β２がＳｉＬに乗算され、重み係数β３がＢＬ、及び、ＢＣに乗算される。式３７に示すように、音声データ生成部１１ａは、ＴｐＦＲ、ＴｐＳｉＲ、ＴｐＢＲ、ＴｐＦＣ、ＴｐＣ、ＴｐＢＣ、ＦＲ、ＦＲＣ、ＳｉＲ、ＢＲ、ＦＣ、及び、ＢＣを用いて、ＴｏｐＲを生成する。また、式３７では、重み係数β１がＦＲ、ＦＲＣ、及び、ＦＣに乗算され、重み係数β２がＳｉＲに乗算され、重み係数β３がＢＲ、及び、ＢＣに乗算される。図１５の（ｂ）における式２７～式３１、式６、式３８～式３９、及び式９は、処理例２の生成例４の音声データの計算式である。説明済の式２７～式３１、式６、及び式９の説明は省略する。式３８に示すように、音声データ生成部１１ａは、ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、及び、ＳｉＲを用いて、ＴｏｐＦを生成する。また、式３８では、重み係数β１がＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及び、ＦＲに乗算され、重み係数β２がＳｉＬ、及びＳｉＲに乗算される。式３９に示すように、音声データ生成部１１ａは、ＴｐＢＬ、ＴｐＢＣ、ＴｐＢＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＢＬ、ＢＣ、ＢＲ、ＳｉＬ、及び、ＳｉＲを用いて、ＴｏｐＢを生成する。また、式３９では、重み係数β３がＢＬ、ＢＣ、及び、ＢＲに乗算され、重み係数β２がＳｉＬ、及びＳｉＲに乗算される。

以上、実施形態１及び実施形態２をそれぞれ説明したが、実施形態１及び実施形態２は本発明を限定するものではない。実施形態１及び実施形態２の構成を適宜組み合わせてもよい。

〔実施形態３〕
本発明の実施形態３について、図１６～図２０に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態１、及び２にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

（音声処理装置１ｂの構成）
図１６は、本実施形態に係る音声処理装置１ｂの構成を示すブロック図である。実施形態２における音声処理装置１ａと比較すると、音声処理装置１ｂは、重み係数設定部１１１ａの重み係数の設定方法が異なる。以下、この相違点を中心に説明する。

なお、以下の処理例は、実施形態１及び実施形態２において説明した各処理例に代えて用いてもよいし、実施形態１及び実施形態２において説明した各処理例と共に用いてもよい。

（音声処理装置１ｂの処理例１）
音声処理装置１ｂは、例えば２２．２ｃｈの音声データを取得し、ダウンミックスすることによって、例えば５.１ｃｈの音声データを生成する。

図１７は、本実施形態に係る音声処理装置１ｂが生成する５．１ｃｈの音声データを含むチャンネルを模式的に示す図であって、中層チャンネルの音声データを生成する生成例を示す図である。

図１７に示すように、５．１ｃｈの音声データの一例として、前側に配置された３個のチャンネル（Ｌ、Ｃ、Ｒ）、中列に配置された１個のチャンネル（ＬＦＥ）、後側に配置された２個のチャンネル（ＬＳ、ＲＳ、）から出力されることが想定されている。また、５．１ｃｈの音声データの各チャンネルは、中層である５ｃｈ（Ｌ、Ｃ、Ｒ、ＬＳ、ＲＳ）、低域である１ｃｈ（ＬＦＥ）に分類される。なお、ウーハ０．２ｃｈの音声データには、低域の１ｃｈ（ＬＦＥ）が対応する。

具体的には、図１７に示すように、音声処理装置１ｂは、複数のチャンネル、例えば２２．２ｃｈを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば５．１ｃｈを有する出力音声データを生成する音声データ生成部１１ｂを備えている音声処理装置１ｂにおいて、音声データ生成部１１ｂは、例えば上記２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、及びＲＳ）の音声データを生成するものであり、上記入力音声データに含まれる中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データのうち、フロントに位置する各チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及びＦＲ）の重み係数を設定する重み係数設定部１１１ａを備えている。

図１８は図１７に用いられる計算式であって、音声データ生成部１１ｂによって実行される計算式を示す図である。式４０に示すように、音声データ生成部１１ｂは、ＦＬ、ＦＬＣ、ＳｉＬ、ＴｐＦＬ、ＴｐＳｉＬ、及び、ＢｔＦＬを用いて、Ｌを生成する。式４１に示すように、音声データ生成部１１ｂは、ＦＲ、ＦＲＣ、ＳｉＲ、ＴｐＦＲ、ＴｐＳｉＲ、及び、ＢｔＦＲを用いて、Ｒを生成する。式４２に示すように、音声データ生成部１１ｂは、ＦＣ、ＦＬＣ、ＦＲＣ、ＴｐＦＣ、ＴｐＣ、及び、ＢｔＦＣを用いて、Ｃを生成する。式４３に示すように、音声データ生成部１１ｂは、ＢＬ、ＳｉＬ、ＢＣ、ＴｐＢＬ、ＴｐＢＣ、ＴｐＳｉＬ、及び、ＴｐＣを用いて、ＬＳを生成する。式４４に示すように、音声データ生成部１１ｂは、ＢＲ、ＳｉＲ、ＢＣ、ＴｐＢＲ、ＴｐＢＣ、ＴｐＳｉＲ、及び、ＴｐＣを用いて、ＲＳを生成する。式６に示すように、音声データ生成部１１ｂは、ＬＦＥ１、及び、ＬＦＥ２を用いて、ＬＦＥを生成する。また、δは、式４０～式４２に用いられる一般的な係数である。

上記の構成によれば、音声処理装置１ｂは、複数のチャンネル、例えば２２．２ｃｈを有する入力音声データをダウンミックスすることによって、複数のチャンネル、例えば５．１ｃｈを有する出力音声データを生成するため、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができるとの効果を奏する。また、音声処理装置１ｂは重み係数設定部１１１ａを備えているため、上記入力音声データに含まれる中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データのうち、フロントに位置する各チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及びＦＲ）の重み係数を好適に設定することができる。

（重み係数設定部１１１ａの設定例）
具体的には、重み係数設定部１１１ａは、フロントに位置する各チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及びＦＲ）に対応するスピーカの互いの間隔に応じて、上記重み係数を設定する。一例として、図１９に示すように、例えばＬ、Ｒの距離が近い場合、ＦＬ、ＦＲをＣにダウンミックスし、Ｌ、Ｒの距離が遠い場合ＦＬをＬ、ＦＲをＲにダウンミックスするように上記重み係数を設定する。

上記の構成によれば、音声処理装置１ｂは、重み係数設定部１１１ａにより、上記入力音声データに含まれる中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データのうち、フロントに位置する各チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及びＦＲ）の重み係数をより好適に設定することができる。

（音声処理装置１ｂの処理例２）
音声処理装置１ｂは、例えば２２．２ｃｈの音声データを取得し、ダウンミックスすることによって、例えば５.１．２ｃｈの音声データを生成する。

図１９は、図１７の変形例を示す図である。図１９に示すように、音声処理装置１ｂは、複数のチャンネル、例えば２２．２ｃｈを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば５．１．２ｃｈを有する出力音声データを生成する音声データ生成部１１ｂを備えている音声処理装置１ｂにおいて、音声データ生成部１１ｂは、例えば上記２２．２ｃｈを有する入力音声データに含まれる、中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）と、下層チャンネル（ＢｔＦＬ、ＢｔＦＣ、ＢｔＦＲ）、低域チャンネル（ＬＦＥ１、およびＬＦＥ２）とをダウンミックスすることによって、上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、ＲＳ）及び低域チャンネル（ＬＦＥ）の音声データを生成し、上記２２．２ｃｈを有する入力音声データに含まれる、上層チャンネル（ＴｐＦＬ、ＴｐＦＣ、ＴｐＦＲ、ＴｐＳｉＬ、ＴｐＣ、ＴｐＳｉＲ、ＴｐＢＬ、ＴｐＢＣ、およびＴｐＢＲ）をダウンミックスすることによって、上記出力音声データの上層チャンネル（ＴｏｐＬおよびＴｏｐＲ）（ベース１に対応）、あるいは（ＴｏｐＦおよびＴｏｐＢ）（ベース２に対応、不図示）の音声データを生成するものであり、上記入力音声データに含まれる中層チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、ＦＲ、ＳｉＬ、ＳｉＲ、ＢＬ、ＢＣ、およびＢＲ）の音声データのうち、フロントに位置する各チャンネル（ＦＬ、ＦＬＣ、ＦＣ、ＦＲＣ、及びＦＲ）の重み係数を設定する重み係数設定部１１１ａを備えている。

図２０は図１９に用いられる計算式であって、音声データ生成部１１ｂによって実行される計算式を示す図である。図２０における説明済の式４～式９の説明は省略する。式４５に示すように、音声データ生成部１１ｂは、ＦＬ、ＦＬＣ、ＳｉＬ、及び、ＢｔＦＬを用いて、Ｌを生成する。式４６に示すように、音声データ生成部１１ｂは、ＦＲ、ＦＲＣ、ＳｉＲ、及び、ＢｔＦＲを用いて、Ｒを生成する。式４７に示すように、音声データ生成部１１ｂは、ＦＣ、ＦＬＣ、ＦＲＣ、及び、ＢｔＦＣを用いて、Ｃを生成する。また、δは、式４５～式４７に用いられる一般的な係数である。

上記の構成によれば、上記処理例１と同様な効果を奏する。

（比較例）
図２１は、比較例を示す図である。この比較例において、不図示の音声処理装置は、例えば２２．２ｃｈの音声データを取得し、ダウンミックスすることによって、例えば５.１ｃｈの音声データを生成する。具体的には、不図示の音声処理装置は、複数のチャンネル、例えば２２．２ｃｈを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば５．１ｃｈを有する出力音声データを生成するものであり、例えば上記２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル（Ｌ、Ｃ、Ｒ、ＬＳ、及びＲＳ）の音声データを生成する。

図２２は図２１に用いられる計算式であって、不図示の音声処理装置によって実行される計算式を示す図である。１行目の式に示すように、不図示の音声処理装置は、ＦＬ、ＦＬＣ、ＳｉＬ、ＴｐＦＬ、ＴｐＳｉＬ、及び、ＢｔＦＬを用いて、Ｌを生成する。２行目の式に示すように、不図示の音声処理装置は、ＦＲ、ＦＲＣ、ＳｉＲ、ＴｐＦＲ、ＴｐＳｉＲ、及び、ＢｔＦＲを用いて、Ｒを生成する。３行目の式に示すように、不図示の音声処理装置は、ＦＣ、ＦＬＣ、ＦＲＣ、ＴｐＦＣ、ＴｐＣ、及び、ＢｔＦＣを用いて、Ｃを生成する。図２２における４～６行目の式はそれぞれ図１８の式４３、式４４、及び式６と同様のためその説明は省略する。

この比較例の構成によれば、出力音声データの上層チャンネルがなくなるため、上記実施形態１～３の効果を奏することができない。

〔ソフトウェアによる実現例〕
音声処理装置１の制御ブロック（音声データ生成部１１）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、音声処理装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声処理装置（１）は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部（１１）を備えている音声処理装置（１）において、音声データ生成部（１１）は、２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成する。

上記の構成によれば、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができる。

本発明の態様２に係る音声処理装置（１）は、上記態様１において、音声データ生成部（１１）は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成してもよい。

上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向、あるいは左右方向の音声再生効果を補完することができる。

本発明の態様３に係る音声処理装置（１）は、上記態様２において、音声データ生成部（１１）は、上記入力音声データに含まれる、上層チャンネルの音声データに乗算させる重み係数を、前列から後列に行くに従って大きく設定してもよい。

上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向、あるいは左右方向の音声再生効果をより好適に補完することができる。

本発明の態様４に係る音声出力装置（１）は、上記態様１～３の何れか１項において、音声データ生成部（１１）は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データもダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成してもよい。

上記の構成によれば、中層チャンネルの音声データを上層チャンネルにもダウンミックスさせることで中層チャンネルの音声データを出力する音声データに組み込むことができる。

本発明の態様５に係る音声処理装置（１）は、上記態様４において、音声データ生成部（１１）は、上記入力音声データに含まれる、中層チャンネルの音声データに乗算させる重み係数を、前列から後列に行くに従って大きく設定してもよい。

上記の構成によれば、中層チャンネルの音声データを上層チャンネルにダウンミックスさせることで中層チャンネルの音声データを出力する音声データにより好適に組み込むことができる。

本発明の態様６に係る音声出力装置（１）は、上記態様１～５の何れか１項において、音声データ生成部（１１）は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスしてもよい。

上記の構成によれば、ダイアログ（ナレーション）のような音声データがセンターチャンネルＴｐＦＣ、ＦＣ、ＢｔＦＣに入力された場合、音声処理装置１は、それらの音声データをチャンネルＣの音声データのみにミックスするため、ＴｏｐＬ、ＴｏｐＲから音声信号が聞こえないようになり、聴感上違和感を生じる可能性が減少する。

本発明の態様７に係る音声出力装置（１）は、上記態様１～５の何れか１項において、音声データ生成部（１１）は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスしてもよい。

上記の構成によれば、ダイアログ（ナレーション）のような音声データがセンターチャンネルＴｐＦＣ、ＦＣ、ＢｔＦＣに入力された場合、音声処理装置１は、ＴｐＦＣのナレーション成分を削除するため、上層からダイアログ（ナレーション）が聞こえることを防止することができるため、聴感上違和感を生じる可能性が減少する。

本発明の態様８に係る音声出力装置（１）は、上記態様１～７の何れか１項において、音声データ生成部（１１）は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける右側チャンネルの音声データ及び左側チャンネルの音声データを生成してもよい。

上記の構成によれば、ユーザが上部音声の方向感および左右側の音声を重視する場合にこの構成を選択することができる。

本発明の態様９に係る音声出力装置（１）は、上記態様１～７の何れか１項において、音声データ生成部（１１）は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける前側チャンネルの音声データ及び後側チャンネルの音声データを生成してもよい。

上記の構成によれば、ユーザが上部音声の方向感および前後側の音声を重視する場合にこの構成を選択することができる。

本発明の態様１０に係る音声出力装置（１）は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部（１１）を備えている音声処理装置（１）において、音声データ生成部（１１）は、２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成するものであり、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定部（１１１）を備えている。

上記の構成によれば、上記態様１と同様な効果を奏する以外、音声処理装置（１ｂ）は重み係数設定部（１１１ａ）を備えているため、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を好適に設定することができる。

本発明の態様１１に係る音声処理装置（１）は、上記態様１０において、重み係数設定部（１１１）は、上記フロントに位置する各チャンネルに対応するスピーカの互いの間隔に応じて、上記重み係数を設定してもよい。

上記の構成によれば、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数をより好適に設定することができる。

本発明の態様１２に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成するステップを含む。

上記の構成によれば、上記態様１と同様な効果を奏する。

本発明の態様１３に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、２２．２ｃｈを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記音声データ生成ステップには、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定ステップを含む。

上記の構成によれば、上記態様１０と同様な効果を奏する。

本発明の各態様に係る音声処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声処理装置が備える各部（ソフトウェア要素）として動作させることにより上記音声処理装置をコンピュータにて実現させる音声処理装置のプログラム、及び、それを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１、１ａ、１ｂ音声処理装置
１０音声データ取得部
１１、１１ａ、１１ｂ音声データ生成部
１２音声データ出力部
１１１、１１１ａ重み係数設定部

Claims

複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
上記音声データ生成部は、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする
ことを特徴とする音声処理装置。
複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
上記音声データ生成部は、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
ことを特徴とする音声処理装置。
複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
上記音声データ生成部は、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、中層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
ことを特徴とする音声処理装置。
上記音声データ生成部は、
上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスする
ことを特徴とする請求項２または３に記載の音声処理装置。
上記音声データ生成部は、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける右側チャンネルの音声データ及び左側チャンネルの音声データを生成する
ことを特徴とする請求項１～４の何れか１項に記載の音声処理装置。
上記音声データ生成部は、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける前側チャンネルの音声データ及び後側チャンネルの音声データを生成する
ことを特徴とする請求項１～４の何れか１項に記載の音声処理装置。
複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
上記音声データ生成ステップでは、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする
ことを特徴とする音声処理方法。
複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
上記音声データ生成ステップでは、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
ことを特徴とする音声処理方法。
複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
上記音声データ生成ステップでは、
２２．２ｃｈを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
上記入力音声データに含まれる、中層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
ことを特徴とする音声処理方法。
請求項１～６の何れか１項に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、上記音声データ生成部としてコンピュータを機能させるための
プログラム。
請求項１０に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。