JP7107727B2 - 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体 - Google Patents

音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体 Download PDF

Info

Publication number
JP7107727B2
JP7107727B2 JP2018079248A JP2018079248A JP7107727B2 JP 7107727 B2 JP7107727 B2 JP 7107727B2 JP 2018079248 A JP2018079248 A JP 2018079248A JP 2018079248 A JP2018079248 A JP 2018079248A JP 7107727 B2 JP7107727 B2 JP 7107727B2
Authority
JP
Japan
Prior art keywords
audio data
layer channel
channel
channels
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018079248A
Other languages
English (en)
Other versions
JP2019186888A (ja
Inventor
政司 米丸
洋 尾村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018079248A priority Critical patent/JP7107727B2/ja
Publication of JP2019186888A publication Critical patent/JP2019186888A/ja
Application granted granted Critical
Publication of JP7107727B2 publication Critical patent/JP7107727B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体に関する。
実用放送が開始予定の新4K8K放送においては、映像の高解像度化だけでなく、音声に関しても22.2ch(以下、chは「チャンネル」を示す)という高度な立体音響信号を送信している。これらの放送にて送られてくる22.2ch及び他chの音声信号を再現させるためには、22個のスピーカ及び2個の低域スピーカを所定の位置に設置し、スピーカを駆動するために24chのアンプが必要である。
上記の立体音響信号をより容易に再生するために、5.1ch等の一般的なサラウンド信号に変換する手法が提示されている。例えば、非特許文献1には、22.2ch信号を一般的な5.1ch信号にダウンミックスさせる変換式が開示されている。
特許5604365号公報(2012年12月06日公開) 特許5852325号公報(2012年12月06日公開)
ARIB STD-B32 第2部(2016年12月9日改訂)
非特許文献1の手法は立体音響効果をより重視した変換手法ではないという問題がある。すなわち、22.2chで多くの情報を送出している上層チャネル、及び、前面チャネルの信号がより少ないチャンネルへとマージされることにより、平面的なサラウンド音像は再現しているものの、立体感、前面音像の厚み等が薄れてしまう。
また、特許文献1及び2には、22.2chの重要なデータである前面チャンネルの情報を重視しつつ、サラウンドチャンネルの信号も上層のスピーカと、中層のスピーカとに分けることにより、高さ方向(立体感)の音声再生を実現する多チャンネルスピーカ装置が開示されている。ただし、特許文献1及び2の技術は、テレビ画面の周囲に専用スピーカを配置し、当該専用スピーカに応じた音声処理を施すものである。
一方、近年、DolbyAtmos等、立体音像の再現が求められている。本来の22.2chは立体音像の情報を十分に持っているので、その立体音像の情報を生かしながら、専用スピーカを用いることなく、一般家庭でも立体音像を容易に実現する手法が求められている。
本発明の一態様は、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生する技術を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る音声処理装置は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、上記音声データ生成部は、22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成する。
上記の課題を解決するために、本発明の他の態様に係る音声処理装置は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、上記音声データ生成部は、22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成するものであり、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定部を備えている。
上記の課題を解決するために、本発明の一態様に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成するステップを含む。
上記の課題を解決するために、本発明の他の態様に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
上記音声データ生成ステップでは、22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記音声データ生成ステップには、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定ステップを含む。
本発明の一態様によれば、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができるとの効果を奏する。
本発明の実施形態1に係る音声処理装置の構成を示すブロック図である。 本発明の実施形態1に係る音声処理装置が処理する22.2chの音声データを含むチャンネルを模式的に示す図である。 本発明の実施形態1に係る音声処理装置が生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は上層チャンネルの右側及び左側チャンネルの音声データを生成することを示す図であり、(b)は上層チャンネルの前側及び後側チャンネルの音声データを生成することを示す図である。 図4の(a)は図3の(a)に用いられる計算式を示す図であり、(b)は図3の(b)に用いられる計算式を示す図である。 図5の(a)はダイアログ音声データがセンターチャンネルに入力された場合、中層チャンネルにおける中央チャンネルおよび上層チャンネルの右側及び左側チャンネルから出力する一態様を示す図であり、(b)は他の態様を示す図である。 図6の(a)は図5の一態様に用いられる計算式を示す図であり、(b)は他の態様に用いられる計算式を示す図である。 本発明の実施形態2に係る音声処理装置の構成を示すブロック図である。 本発明の実施形態2に係る音声処理装置が生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は中層チャンネルの音声データを生成する処理例1生成例1を示す図であり、(b)は処理例1生成例2を示す図である。 図9の(a)は図8の(a)に用いられる計算式を示す図であり、(b)は図8の(b)に用いられる計算式を示す図である。 図10の(a)は図8の(a)の変形例を示す図であり、(b)は図8の(b)の変形例を示す図である。 図11の(a)は図10の(a)に用いられる計算式を示す図であり、(b)は図10の(b)に用いられる計算式を示す図である。 本発明の実施形態2に係る音声処理装置が生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は上層チャンネルの音声データを生成する処理例2の生成例1を示す図であり、(b)は処理例2の生成例2を示す図である。 図13の(a)は図12の(a)に用いられる計算式を示す図であり、(b)は図12の(b)に用いられる計算式を示す図である。 図14の(a)は図12の(a)の変形例を示す図であり、(b)は図12の(b)の変形例を示す図である。 図15の(a)は図14の(a)に用いられる計算式を示す図であり、(b)は図14の(b)に用いられる計算式を示す図である。 本発明の実施形態3に係る音声処理装置の構成を示すブロック図である。 本発明の実施形態3に係る音声処理装置が生成する5.1chの音声データを含むチャンネルを模式的に示す図であって、中層チャンネルの音声データを生成する生成例を示す図である。 図17に用いられる計算式を示す図である。 図17の変形例を示す図である。 図19に用いられる計算式を示す図である。 比較例を示す図である。 図21に用いられる計算式を示す図である。
〔実施形態1〕
以下、本発明の実施形態1について、図1~図6を用いて詳細に説明する。
(音声処理装置1の構成)
図1は、本実施形態に係る音声処理装置1の構成を示すブロック図である。音声処理装置1は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する。音声処理装置1は、音声データ取得部10と、音声データ生成部11と、音声データ出力部12とを備えている。
音声データ取得部10は、外部から音声データを取得する。そして、音声データ取得部10により取得した音声データが音声データ生成部11に出力される。ここで、取得する音声データとして、例えば地上デジタル放送やBS/CSデジタル放送、新4K8K放送等の各種映像コンテンツの放送波に含まれる音声データ、または記録媒体に記録されている音声データなどが挙げられる。
音声データ生成部11は、入力音声データに対して所定のダウンミックスをすることによって入力音声データを生成する。そして、音声データ生成部11により生成した出力音声データが音声データ出力部12に出力される。
音声データ出力部12に出力された出力音声データがさらに不図示の音声再生装置、例えばスピーカなどにより再生される。
(音声処理装置1の全体処理)
音声処理装置1は、例えば22.2chの音声データを取得し、ダウンミックスすることによって、例えば5.1.2ch(水平層5ch、低域1ch、上層2ch)の音声データを生成する。
図2は、本実施形態に係る音声処理装置1が処理する22.2chの音声データを含むチャンネルを模式的に示す図である。図2に示すように、22.2chの音声データは、前側(前列、フロントとも呼称する)に配置された11個のチャンネル(TpFL、TpFC、TpFR、FL、FLC、FC、FRC、FR、BtFL、BtFC、BtFR)、中列に配置された5個のチャンネル(TpSiL、TpC、TpSiR、SiL、SiR)、後側(後列とも呼称する)に配置された6個のチャンネル(TpBL、TpBC、TpBR、BL、BC、BR)から出力されることが想定されている。また、22.2chの音声データの各チャンネルは、上層である9ch(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、TpBR)、中層である10ch(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、BR)、下層である3ch(BtFL、BtFC、BtFR)に分類される。
なお、ウーハ0.2chの音声データには、低域の2ch(LFE1、LFE2)が対応する。
図3は、本実施形態に係る音声処理装置1が生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は上層チャンネルの右側及び左側チャンネルの音声データを生成することを示す図であり、(b)は上層チャンネルの前側及び後側チャンネルの音声データを生成することを示す図である。
図3の(a)に示すように、5.1.2chの音声データの一例として、前側に配置された3個のチャンネル(L、C、R)、中列に配置された3個のチャンネル(TopL、TopR)、後側に配置された2個のチャンネル(LS、RS)及び低域チャンネルLFEから出力されることが想定されている。また、5.1.2chの音声データの各チャンネルは、上層である2ch(TopL、TopR)、中層である5ch(L、C、R、LS、RS)、低域である1ch(LFE1)に分類される。なお、ウーハ0.2chの音声データには、低域の1ch(LFE)が対応する。5.1.2chの音声データの他の例として、例えば図3の(b)に示す構成であってもよい。
具体的には、図3に示すように、音声処理装置1は、複数のチャンネル、例えば22.2chを有する入力音声データをダウンミックスすることによって、複数のチャンネル、例えば5.1.2chを有する出力音声データを生成する音声データ生成部11(図1を参照)を備えている音声処理装置1において、音声データ生成部11は、例えば上記22.2chを有する入力音声データに含まれる
・上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)と、
・中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)と、
・下層チャンネル(BtFL、BtFC、BtFR)、低域チャンネル(LFE1、LFE2)とのうち、
少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル(L、C、R、LS、およびRS)の音声データを生成する。
また、音声データ生成部11は、上記22.2chを有する入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネル(TopLおよびTopR)(図3の(a)を参照)、あるいは(TopFおよびTopB)(図3の(b)を参照)の音声データを生成する。
より具体的には、一例として、図3の(a)に示すように、上記出力音声データの上層チャンネル(TopL)は、上記入力音声データの上層チャンネル(TpFL、TpSiL、TpBL、TpFC、およびTpBC)により生成され、上記出力音声データの上層チャンネル(TopR)は、上記入力音声データの上層チャンネル(TpFR、TpSiR、TpBR、TpFC、およびTpBC)により生成される。また、図3の(b)に示すように、上記出力音声データの上層チャンネル(TopF)は、上記入力音声データの上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、およびTpSiR)により生成され、上記出力音声データの上層チャンネル(TopB)は、上記入力音声データの上層チャンネル(TpBL、TpBC、TpBR、TpSiL、TpC、およびTpSiR)により生成される。また、図3の(a)および図3の(b)の構成は例示であり、本実施形態の構成を限定するものではない。
なお、本発明では、図3の(a)および図3の(b)の構成をそれぞれベース1およびベース2と呼称する場合がある。
ユーザが上部音声の方向感および左右側の音声を重視するか、またはユーザが上部音声の方向感および前後側の音声を重視するかに応じてユーザがベース1およびベース2を選択することができる。
図4の(a)は図3の(a)に用いられる計算式であって、音声データ生成部11によって実行される計算式を示す図であり、(b)は図3の(b)に用いられる計算式であって、音声データ生成部11によって実行される計算式を示す図である。図4に示すように、ベース1およびベース2では共通する計算式は式1~式6および式9である。
具体的には、図4の(a)における式1~式9は、ベース1の音声データの計算式である。式1に示すように、音声データ生成部11は、FL、FLC、SiL、及び、BtFLを用いて、Lを生成する。式2に示すように、音声データ生成部11は、FR、FRC、SiR、及び、BtFRを用いて、Rを生成する。式3に示すように、音声データ生成部11は、FC、FLC、FRC、及び、BtFCを用いて、Cを生成する。
式4に示すように、音声データ生成部11は、BL、SiL、及び、BCを用いて、LSを生成する。式5に示すように、音声データ生成部11は、BR、SiR、及び、BCを用いて、RSを生成する。式6に示すように、音声データ生成部11は、LFE1、及び、LFE2を用いて、LFEを生成する。
式7に示すように、音声データ生成部11は、TpFL、TpSiL、TpBL、TpFC、TpC、及び、TpBCを用いて、TopLを生成する。式8に示すように、音声データ生成部11は、TpFR、TpSiR、TpBR、TpFC、TpC、及び、TpBCを用いて、TopRを生成する。式9に示すように、xは、式7、及び式8に用いられる一般的な係数である。
一方、図4の(b)における式1~式6、式10~式11、及び、式9は、ベース2の音声データの計算式である。ベース1と共通する式1~式6および式9の説明は省略する。式10に示すように、音声データ生成部11は、TpFL、TpFC、TpFR、TpSiL、TpC、及び、TpSiRを用いて、TopFを生成する。式11に示すように、音声データ生成部11は、TpBL、TBC、TpBR、TpSiL、TpC、及び、TpSiRを用いて、TopBを生成する。
上記の構成によれば、音声処理装置1は、音声データ生成部11により、例えば上記22.2chを有する入力音声データに含まれる、上層チャンネルと、中層チャンネルと、下層チャンネルとのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを好適に生成し、また、音声処理装置1は、音声データ生成部11により、上記22.2chを有する入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを好適に生成することができる。
(音声処理装置1によるセンターチャンネル(TpFC、FC、BtFC)に対する処理)
以下、上記処理について、図5~図6を用いて詳細に説明する。図5の(a)はダイアログ音声データがセンターチャンネルに入力された場合、中層チャンネルにおける中央チャンネルおよび上層チャンネルの右側及び左側チャンネルから出力する一態様を示す図であり、(b)は他の態様を示す図である。また、上記処理の一例として、図5の(a)は、ベース1(図3の(a))に対応する。
図5の(a)に示す一態様では、例えばダイアログ(ナレーション、アナウンス、実況など)のような人の声を含む音声データがセンターチャンネル(TpFC、FC、BtFC)に入力された場合、チャンネル(C)およびチャンネル(TopL、TopR)からも聞こえてしまい、聴感上違和感を生じる可能性があるという副次的な課題が生じる。
これに対し、図5の(b)に示す他の態様では、音声処理装置1の音声データ生成部11は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネル(TpFC)のダイアログ音声データを、上記出力音声データの上層チャンネル(TopL、TopR)の音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネル(C)の音声データにミックスする。
このように、音声データ生成部11は、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスする。
この結果、ダイアログのような音声データがセンターチャンネル(TpFC、FC、BtFC)に入力された場合、音声処理装置1は、それらの音声データを、出力音声データの上層チャンネル(TopL、TopR)の音声データにミックスせず、チャンネル(C)の出力音声データにミックスするため、上層チャンネル(TopL、TopR)から人の声が聞こえないようになり、聴感上違和感を生じる可能性が減少する。
また、本明細書において、「音声」は人の声に限定されず、その他の音全般を含んでもよい。
また、他の態様として、不図示の音声処理装置1の音声データ生成部11は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネル(TpFC)の音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネル(FC)の音声データを引き算したうえで、上記出力音声データの上層チャンネル(TopL、TopR)の音声データにミックスする構成としてもよい。
このように、音声データ生成部11は、上層チャンネルにおける中央チャンネルの音声データから、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする。
この結果、ナレーションのようなダイアログを含む音声データがセンターチャンネル(TpFC、FC、BtFC)に入力された場合、音声処理装置1は、センターチャンネル(TpFC)の人の声成分を削除するため、上層からダイアログが聞こえることを防止することができる。これにより、聴感上違和感を生じる可能性が減少する。
図6の(a)は図5の一態様に用いられる計算式であって、音声データ生成部11によって実行される計算式を示す図であり、(b)は他の態様に用いられる計算式であって、音声データ生成部11によって実行される計算式を示す図である。図6に示すように、一態様および他の態様では共通する計算式は式1~式2、式4~式6および式9である。
具体的には、図6の(a)における式1~式2、式4~式6、式9、式12~式14は、一態様の音声データの計算式である。説明済の式1~式2、式4~式6、式9の説明は省略する。式12に示すように、音声データ生成部11は、FC、FLC、FRC、BtFC、及び、TpCを用いて、Cを生成する。式13に示すように、音声データ生成部11は、TpFL、TpSiL、TpBL、TpC、及び、TpBCを用いて、TopLを生成する。式14に示すように、音声データ生成部11は、TpFR、TpSiR、TpBR、TpC、及び、TpBCを用いて、TopRを生成する。
図6の(b)における式1~式6、式9、式15~式16は、他の態様の音声データの計算式である。説明済の式1~式6、式9の説明は省略する。式15に示すように、音声データ生成部11は、TpFL、TpSiL、TpBL、TpFC、TpC、及び、TpBCを用いて、TopLを生成する。式16に示すように、音声データ生成部11は、TpFR、TpSiR、TpBR、TpFC、TpC、及び、TpBCを用いて、TopLを生成する。
〔実施形態2〕
本発明の実施形態2について、図7~図15に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
(音声処理装置1aの構成)
図7は、本実施形態に係る音声処理装置1aの構成を示すブロック図である。実施形態1における音声処理装置1と比較すると、音声処理装置1aは、音声データ生成部11aが重み係数設定部111を備えている点で相違する。以下、この相違点を中心に説明する。
(音声処理装置1aの処理例1)
音声処理装置1aは、例えば22.2chの音声データを取得し、ダウンミックスすることによって、例えば5.1.2chの音声データを生成する。
図8は、本実施形態に係る音声処理装置1aが生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は中層チャンネルの音声データを生成する処理例1の生成例1(ベース1に対応)を示す図であり、(b)は処理例1の生成例2(ベース2に対応)を示す図である。
具体的には、図8に示すように、音声処理装置1aの音声データ生成部11aは、中層のダウンミックス音声データを生成する際に、例えば22.2chを有する上記入力音声データに含まれる、少なくとも、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)の音声データを、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネル(L、C、R、LS、およびRS)の音声データを生成する。
上述したように、本実施形態では、音声データ生成部11aが重み係数設定部111を備えている。重み係数設定部111は、ダウンミックス係数とも呼称する重み係数を設定するものである。具体的には、図8の例示では、上層チャンネルの音声データと、中層チャンネルの音声データとをダウンミックスして、上記出力音声データを中層チャンネルの音声データにもミックスするとき、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)の音声データに重み係数αを乗算させて上記出力音声データの中層チャンネル(L、C、R、LS、およびRS)の音声データを生成している。
上層チャンネルの音声データを上層2ch(TopLおよびTopR、あるいはTopFおよびTopB)にミックスすると左右方向(あるいは前後方向)しか音声信号が出なくなるので、聴感上違和感を生じる可能性がある。そして、上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向(あるいは左右方向)の音声再生効果を補完することができる。また、本処理例1では、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)に均一な重み係数αが乗算される。
図9の(a)は図8の(a)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図であり、(b)は図8の(b)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図である。図9に示すように、処理例1の生成例1および処理例1の生成例2では共通する計算式は式17~式21、式6および式9である。
具体的には、図9の(a)における式17~式21、式6~式9は、処理例1の生成例1の音声データの計算式である。説明済の式6~式9の説明は省略する。式17に示すように、音声データ生成部11aは、FL、FLC、SiL、BtFL、TpFL、及び、TpSiLを用いて、Lを生成する。また、式17では、重み係数αがTpFL、及び、TpSiLに乗算される。式18に示すように、音声データ生成部11aは、FR、FRC、SiR、BtFR、TpFR、及び、TpSiRを用いて、Rを生成する。また、式18では、重み係数αがTpFR、及び、TpSiRに乗算される。式19に示すように、音声データ生成部11aは、FC、FLC、FRC、BtFC、TpFC、及び、TpCを用いて、Cを生成する。また、式19では、重み係数αがTpFC、及び、TpCに乗算される。式20に示すように、音声データ生成部11aは、BL、SiL、BC、TpBL、TpBC、TpSiL、及び、TpCを用いて、LSを生成する。また、式20では、重み係数αがTpBL、TpBC、TpSiL、及び、TpCに乗算される。式21に示すように、音声データ生成部11aは、BR、SiR、BC、TpBR、TpBC、TpSiR、及び、TpCを用いて、RSを生成する。また、式21では、重み係数αがTpBR、TpBC、TpSiR、及び、TpCに乗算される。図9の(b)における式17~式21、式6、式10~式11、式9は、処理例1の生成例2の音声データの計算式である。説明済の式17~式21、式6、式10~式11、式9の説明は省略する。
(音声処理装置1aの処理例1の変形例)
処理例1と比較すると。本変形例では、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)に異なる重み係数α1、α2、及びα3が乗算される点で相違する。以下、この相違点を中心に説明する。
図10の(a)は図8の(a)の変形例(ベース1に対応、処理例1の生成例3)を示す図であり、(b)は図8の(b)の変形例(ベース2に対応、処理例1の生成例4)を示す図である。
具体的には、音声処理装置1aの音声データ生成部11aは、例えば22.2chを有する入力音声データに含まれる、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)の音声データを中層にも乗算させる重み係数αを、前列から後列に行くに従って大きく設定する。換言すると、図10の例示では、前列から後列に向かう順で、音声データ生成部11aにおける重み係数設定部111は、α1<α2<α3となるように重み係数αを設定する。
上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向(あるいは左右方向)の音声再生効果をより好適に補完することができる。
図11の(a)は図10の(a)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図であり、(b)は図10の(b)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図である。図11に示すように、処理例1の生成例3および処理例1の生成例4では共通する計算式は式22~式26、式6および式9である。
具体的には、図11の(a)における式22~式26、式6および式9は、処理例1の生成例3の音声データの計算式である。説明済の式6および式9の説明は省略する。式22に示すように、音声データ生成部11aは、FL、FLC、SiL、BtFL、TpFL、及び、TpSiLを用いて、Lを生成する。また、式22では、重み係数α1がTpFLに乗算され、重み係数α2がTpSiLに乗算される。式23に示すように、音声データ生成部11aは、FR、FRC、SiR、BtFR、TpFR、及び、TpSiRを用いて、Rを生成する。また、式23では、重み係数α1がTpFRに乗算され、重み係数α2がTpSiRに乗算される。式24に示すように、音声データ生成部11aは、FC、FLC、FRC、BtFC、TpFC、及び、TpCを用いて、Cを生成する。また、式24では、重み係数α1がTpFCに乗算され、重み係数α2がTpCに乗算される。式25に示すように、音声データ生成部11aは、BL、SiL、BC、TpBL、TpBC、TpSiL、及び、TpCを用いて、LSを生成する。また、式25では、重み係数α3がTpBL、及び、TpBCに乗算され、重み係数α2がTpSiL、及び、TpCに乗算される。式26に示すように、音声データ生成部11aは、BR、SiR、BC、TpBR、TpBC、TpSiR、及び、TpCを用いて、RSを生成する。また、式26では、重み係数α3がTpBR、及び、TpBCに乗算され、重み係数α2がTpSiR、及び、TpCに乗算される。式48に示すように、音声データ生成部11aは、TpFL、TpSiL、TpBL、TpFC、TpC、及び、TpBCを用いて、TopLを生成する。式49に示すように、音声データ生成部11aは、TpFR、TpSiR、TpBR、TpFC、TpC、及び、TpBCを用いて、TopRを生成する。図11の(b)における式22~式26、式6、式50~式51、式9は、処理例1の生成例4の音声データの計算式である。説明済の式22~式26、式6および式9の説明は省略する。式50に示すように、音声データ生成部11aは、TpFL、TpFC、TpFR、TpSiL、TpC、及び、TpSiRを用いて、TopFを生成する。式51に示すように、音声データ生成部11aは、TpBL、TBC、TpBR、TpSiL、TpC、及び、TpSiRを用いて、TopBを生成する。
また、γは、式48~式51に用いられる一般的な係数である。
(音声処理装置1aの処理例2)
図12は、本実施形態に係る音声処理装置1aが生成する5.1.2chの音声データを含むチャンネルを模式的に示す図であって、(a)は上層チャンネルの音声データを生成する処理例2の生成例1(ベース1に対応)を示す図であり、(b)は処理例2の生成例2(ベース2に対応)を示す図である。
具体的には、図12に示すように、音声処理装置1aの音声データ生成部11aは、例えば22.2chを有する上記入力音声データに含まれる、少なくとも、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)の音声データに、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データをもダウンミックスすることによって、上記出力音声データの上層チャンネル(TopLおよびTopR)(ベース1に対応)、あるいは(TopFおよびTopB)(ベース2に対応)の音声データを生成する。
また、図12の例示では、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)の音声データと、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データとをダウンミックスして、上記出力音声データの上層チャンネル(TopLおよびTopR)(ベース1に対応)、あるいは(TopFおよびTopB)(ベース2に対応)の音声データを生成するとき、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データに重み係数βを乗算させて上記出力音声データの上層チャンネル(TopLおよびTopR)(ベース1に対応)、あるいは(TopFおよびTopB)(ベース2に対応)の音声データを生成している。
上記の構成によれば、中層チャンネルの音声データをも上層チャンネルにダウンミックスさせることで中層チャンネルの音声データを上層チャンネルに出力する音声データに組み込むことができる。また、本処理例2では、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)に均一な重み係数βが乗算される。
図13の(a)は図12の(a)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図であり、(b)は図12の(b)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図である。図13に示すように、処理例2の生成例1および処理例2の生成例2では共通する計算式は式27~式31、式6および式9である。
具体的には、図13の(a)における式27~式31、式6、式32~式33、及び式9は、処理例2の生成例1の音声データの計算式である。説明済の式6、及び式9の説明は省略する。式27に示すように、音声データ生成部11aは、FL、FLC、SiL、及び、BtFLを用いて、Lを生成する。式28に示すように、音声データ生成部11aは、FR、FRC、SiR、及び、BtFR、TpFRを用いて、Rを生成する。式29に示すように、音声データ生成部11aは、FC、FLC、FRC、及び、BtFCを用いて、Cを生成する。式30に示すように、音声データ生成部11aは、BL、SiL、及び、BCを用いて、LSを生成する。式31に示すように、音声データ生成部11aは、BR、SiR、及び、BCを用いて、RSを生成する。式32に示すように、音声データ生成部11aは、TpFL、TpSiL、TpBL、TpFC、TpC、TpBC、FL、FLC、SiL、BL、FC、及び、BCを用いて、TopLを生成する。また、式32では、重み係数βがFL、FLC、SiL、BL、FC、及び、BCに乗算される。式33に示すように、音声データ生成部11aは、TpFR、TpSiR、TpBR、TpFC、TpC、TpBC、FR、FRC、SiR、BR、FC、及び、BCを用いて、TopRを生成する。また、式33では、重み係数βがFR、FRC、SiR、BR、FC、及び、BCに乗算される。図13の(b)における式27~式31、式6、式34~式35、及び式9は、処理例2の生成例2の音声データの計算式である。説明済の式27~式31、式6、及び式9の説明は省略する。式34に示すように、音声データ生成部11aは、TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、FL、FLC、FC、FRC、FR、SiL、及び、SiRを用いて、TopFを生成する。また、式34では、重み係数βがFL、FLC、FC、FRC、FR、SiL、及び、SiRに乗算される。式35に示すように、音声データ生成部11aは、TpBL、TpBC、TpBR、TpSiL、TpC、TpSiR、BL、BC、BR、SiL、及び、SiRを用いて、TopBを生成する。また、式35では、重み係数βがBL、BC、BR、SiL、及び、SiRに乗算される。また、γは、式27~式31に用いられる一般的な係数で、yは、式32~式35に用いられる一般的な係数ではある。
(音声処理装置1aの処理例2の変形例)
処理例2と比較すると。本変形例では、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)に異なる重み係数β1、β2、及びβ3が乗算される点で相違する。以下、この相違点を中心に説明する。
図14の(a)は図12の(a)の変形例(ベース1に対応、処理例2の生成例3)を示す図であり、(b)は図12の(b)の変形例(ベース2に対応、処理例2の生成例4)を示す図である。
具体的には、音声処理装置1aの音声データ生成部11aは、例えば22.2chを有する入力音声データに含まれる、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データを上層に乗算させる重み係数βを、前列から後列に行くに従って大きく設定する。換言すると、図14の例示では、前列から後列に向かう順で、音声データ生成部11aにおける重み係数設定部111は、β1<β2<β3となるように重み係数βを設定する。
上記の構成によれば、中層チャンネルの音声データを上層チャンネルにもダウンミックスさせることで中層チャンネルの音声データを上層チャンネルに出力する音声データにより好適に組み込むことができる。
図15の(a)は図14の(a)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図であり、(b)は図14の(b)に用いられる計算式であって、音声データ生成部11aによって実行される計算式を示す図である。図15に示すように、処理例2の生成例3および処理例2の生成例4では共通する計算式は式27~式31、式6および式9である。
具体的には、図15の(a)における式27~式31、式6、式36~式37、及び式9は、処理例2の生成例3の音声データの計算式である。説明済の式27~式31、式6、及び式9の説明は省略する。式36に示すように、音声データ生成部11aは、TpFL、TpSiL、TpBL、TpFC、TpC、TpBC、FL、FLC、SiL、BL、FC、及び、BCを用いて、TopLを生成する。また、式36では、重み係数β1がFL、FLC、及び、FCに乗算され、重み係数β2がSiLに乗算され、重み係数β3がBL、及び、BCに乗算される。式37に示すように、音声データ生成部11aは、TpFR、TpSiR、TpBR、TpFC、TpC、TpBC、FR、FRC、SiR、BR、FC、及び、BCを用いて、TopRを生成する。また、式37では、重み係数β1がFR、FRC、及び、FCに乗算され、重み係数β2がSiRに乗算され、重み係数β3がBR、及び、BCに乗算される。図15の(b)における式27~式31、式6、式38~式39、及び式9は、処理例2の生成例4の音声データの計算式である。説明済の式27~式31、式6、及び式9の説明は省略する。式38に示すように、音声データ生成部11aは、TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、FL、FLC、FC、FRC、FR、SiL、及び、SiRを用いて、TopFを生成する。また、式38では、重み係数β1がFL、FLC、FC、FRC、及び、FRに乗算され、重み係数β2がSiL、及びSiRに乗算される。式39に示すように、音声データ生成部11aは、TpBL、TpBC、TpBR、TpSiL、TpC、TpSiR、BL、BC、BR、SiL、及び、SiRを用いて、TopBを生成する。また、式39では、重み係数βがBL、BC、及び、BRに乗算され、重み係数β2がSiL、及びSiRに乗算される。
以上、実施形態1及び実施形態2をそれぞれ説明したが、実施形態1及び実施形態2は本発明を限定するものではない。実施形態1及び実施形態2の構成を適宜組み合わせてもよい。
〔実施形態3〕
本発明の実施形態3について、図16~図20に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態1、及び2にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
(音声処理装置1bの構成)
図16は、本実施形態に係る音声処理装置1bの構成を示すブロック図である。実施形態2における音声処理装置1aと比較すると、音声処理装置1bは、重み係数設定部111aの重み係数の設定方法が異なる。以下、この相違点を中心に説明する。
なお、以下の処理例は、実施形態1及び実施形態2において説明した各処理例に代えて用いてもよいし、実施形態1及び実施形態2において説明した各処理例と共に用いてもよい。
(音声処理装置1bの処理例1)
音声処理装置1bは、例えば22.2chの音声データを取得し、ダウンミックスすることによって、例えば5.1chの音声データを生成する。
図17は、本実施形態に係る音声処理装置1bが生成する5.1chの音声データを含むチャンネルを模式的に示す図であって、中層チャンネルの音声データを生成する生成例を示す図である。
図17に示すように、5.1chの音声データの一例として、前側に配置された3個のチャンネル(L、C、R)、中列に配置された1個のチャンネル(LFE)、後側に配置された2個のチャンネル(LS、RS、)から出力されることが想定されている。また、5.1chの音声データの各チャンネルは、中層である5ch(L、C、R、LS、RS)、低域である1ch(LFE)に分類される。なお、ウーハ0.2chの音声データには、低域の1ch(LFE)が対応する。
具体的には、図17に示すように、音声処理装置1bは、複数のチャンネル、例えば22.2chを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば5.1chを有する出力音声データを生成する音声データ生成部11bを備えている音声処理装置1bにおいて、音声データ生成部11bは、例えば上記22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル(L、C、R、LS、及びRS)の音声データを生成するものであり、上記入力音声データに含まれる中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データのうち、フロントに位置する各チャンネル(FL、FLC、FC、FRC、及びFR)の重み係数を設定する重み係数設定部111aを備えている。
図18は図17に用いられる計算式であって、音声データ生成部11bによって実行される計算式を示す図である。式40に示すように、音声データ生成部11bは、FL、FLC、SiL、TpFL、TpSiL、及び、BtFLを用いて、Lを生成する。式41に示すように、音声データ生成部11bは、FR、FRC、SiR、TpFR、TpSiR、及び、BtFRを用いて、Rを生成する。式42に示すように、音声データ生成部11bは、FC、FLC、FRC、TpFC、TpC、及び、BtFCを用いて、Cを生成する。式43に示すように、音声データ生成部11bは、BL、SiL、BC、TpBL、TpBC、TpSiL、及び、TpCを用いて、LSを生成する。式44に示すように、音声データ生成部11bは、BR、SiR、BC、TpBR、TpBC、TpSiR、及び、TpCを用いて、RSを生成する。式6に示すように、音声データ生成部11bは、LFE1、及び、LFE2を用いて、LFEを生成する。また、δは、式40~式42に用いられる一般的な係数である。
上記の構成によれば、音声処理装置1bは、複数のチャンネル、例えば22.2chを有する入力音声データをダウンミックスすることによって、複数のチャンネル、例えば5.1chを有する出力音声データを生成するため、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができるとの効果を奏する。また、音声処理装置1bは重み係数設定部111aを備えているため、上記入力音声データに含まれる中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データのうち、フロントに位置する各チャンネル(FL、FLC、FC、FRC、及びFR)の重み係数を好適に設定することができる。
(重み係数設定部111aの設定例)
具体的には、重み係数設定部111aは、フロントに位置する各チャンネル(FL、FLC、FC、FRC、及びFR)に対応するスピーカの互いの間隔に応じて、上記重み係数を設定する。一例として、図19に示すように、例えばL、Rの距離が近い場合、FL、FRをCにダウンミックスし、L、Rの距離が遠い場合FLをL、FRをRにダウンミックスするように上記重み係数を設定する。
上記の構成によれば、音声処理装置1bは、重み係数設定部111aにより、上記入力音声データに含まれる中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データのうち、フロントに位置する各チャンネル(FL、FLC、FC、FRC、及びFR)の重み係数をより好適に設定することができる。
(音声処理装置1bの処理例2)
音声処理装置1bは、例えば22.2chの音声データを取得し、ダウンミックスすることによって、例えば5.1.2chの音声データを生成する。
図19は、図17の変形例を示す図である。図19に示すように、音声処理装置1bは、複数のチャンネル、例えば22.2chを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば5.1.2chを有する出力音声データを生成する音声データ生成部11bを備えている音声処理装置1bにおいて、音声データ生成部11bは、例えば上記22.2chを有する入力音声データに含まれる、中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)と、下層チャンネル(BtFL、BtFC、BtFR)、低域チャンネル(LFE1、およびLFE2)とをダウンミックスすることによって、上記出力音声データの中層チャンネル(L、C、R、LS、RS)及び低域チャンネル(LFE)の音声データを生成し、上記22.2chを有する入力音声データに含まれる、上層チャンネル(TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、およびTpBR)をダウンミックスすることによって、上記出力音声データの上層チャンネル(TopLおよびTopR)(ベース1に対応)、あるいは(TopFおよびTopB)(ベース2に対応、不図示)の音声データを生成するものであり、上記入力音声データに含まれる中層チャンネル(FL、FLC、FC、FRC、FR、SiL、SiR、BL、BC、およびBR)の音声データのうち、フロントに位置する各チャンネル(FL、FLC、FC、FRC、及びFR)の重み係数を設定する重み係数設定部111aを備えている。
図20は図19に用いられる計算式であって、音声データ生成部11bによって実行される計算式を示す図である。図20における説明済の式4~式9の説明は省略する。式45に示すように、音声データ生成部11bは、FL、FLC、SiL、及び、BtFLを用いて、Lを生成する。式46に示すように、音声データ生成部11bは、FR、FRC、SiR、及び、BtFRを用いて、Rを生成する。式47に示すように、音声データ生成部11bは、FC、FLC、FRC、及び、BtFCを用いて、Cを生成する。また、δは、式45~式47に用いられる一般的な係数である。
上記の構成によれば、上記処理例1と同様な効果を奏する。
(比較例)
図21は、比較例を示す図である。この比較例において、不図示の音声処理装置は、例えば22.2chの音声データを取得し、ダウンミックスすることによって、例えば5.1chの音声データを生成する。具体的には、不図示の音声処理装置は、複数のチャンネル、例えば22.2chを有する入力音声データをダウンミックスすることによって、複数のチャンネル例えば5.1chを有する出力音声データを生成するものであり、例えば上記22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネル(L、C、R、LS、及びRS)の音声データを生成する。
図22は図21に用いられる計算式であって、不図示の音声処理装置によって実行される計算式を示す図である。1行目の式に示すように、不図示の音声処理装置は、FL、FLC、SiL、TpFL、TpSiL、及び、BtFLを用いて、Lを生成する。2行目の式に示すように、不図示の音声処理装置は、FR、FRC、SiR、TpFR、TpSiR、及び、BtFRを用いて、Rを生成する。3行目の式に示すように、不図示の音声処理装置は、FC、FLC、FRC、TpFC、TpC、及び、BtFCを用いて、Cを生成する。図22における4~6行目の式はそれぞれ図18の式43、式44、及び式6と同様のためその説明は省略する。
この比較例の構成によれば、出力音声データの上層チャンネルがなくなるため、上記実施形態1~3の効果を奏することができない。
〔ソフトウェアによる実現例〕
音声処理装置1の制御ブロック(音声データ生成部11)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、音声処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声処理装置(1)は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部(11)を備えている音声処理装置(1)において、音声データ生成部(11)は、22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成する。
上記の構成によれば、多チャンネルの音声データをダウンミックスし、一般的な再生環境でも容易に再生することができる。
本発明の態様2に係る音声処理装置(1)は、上記態様1において、音声データ生成部(11)は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成してもよい。
上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向、あるいは左右方向の音声再生効果を補完することができる。
本発明の態様3に係る音声処理装置(1)は、上記態様2において、音声データ生成部(11)は、上記入力音声データに含まれる、上層チャンネルの音声データに乗算させる重み係数を、前列から後列に行くに従って大きく設定してもよい。
上記の構成によれば、上層チャンネルの音声データを中層チャンネルにもダウンミックスさせることで前後方向、あるいは左右方向の音声再生効果をより好適に補完することができる。
本発明の態様4に係る音声出力装置(1)は、上記態様1~3の何れか1項において、音声データ生成部(11)は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データもダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成してもよい。
上記の構成によれば、中層チャンネルの音声データを上層チャンネルにもダウンミックスさせることで中層チャンネルの音声データを出力する音声データに組み込むことができる。
本発明の態様5に係る音声処理装置(1)は、上記態様4において、音声データ生成部(11)は、上記入力音声データに含まれる、中層チャンネルの音声データに乗算させる重み係数を、前列から後列に行くに従って大きく設定してもよい。
上記の構成によれば、中層チャンネルの音声データを上層チャンネルにダウンミックスさせることで中層チャンネルの音声データを出力する音声データにより好適に組み込むことができる。
本発明の態様6に係る音声出力装置(1)は、上記態様1~5の何れか1項において、音声データ生成部(11)は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスしてもよい。
上記の構成によれば、ダイアログ(ナレーション)のような音声データがセンターチャンネルTpFC、FC、BtFCに入力された場合、音声処理装置1は、それらの音声データをチャンネルCの音声データのみにミックスするため、TopL、TopRから音声信号が聞こえないようになり、聴感上違和感を生じる可能性が減少する。
本発明の態様7に係る音声出力装置(1)は、上記態様1~5の何れか1項において、音声データ生成部(11)は、上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスしてもよい。
上記の構成によれば、ダイアログ(ナレーション)のような音声データがセンターチャンネルTpFC、FC、BtFCに入力された場合、音声処理装置1は、TpFCのナレーション成分を削除するため、上層からダイアログ(ナレーション)が聞こえることを防止することができるため、聴感上違和感を生じる可能性が減少する。
本発明の態様8に係る音声出力装置(1)は、上記態様1~7の何れか1項において、音声データ生成部(11)は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける右側チャンネルの音声データ及び左側チャンネルの音声データを生成してもよい。
上記の構成によれば、ユーザが上部音声の方向感および左右側の音声を重視する場合にこの構成を選択することができる。
本発明の態様9に係る音声出力装置(1)は、上記態様1~7の何れか1項において、音声データ生成部(11)は、上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける前側チャンネルの音声データ及び後側チャンネルの音声データを生成してもよい。
上記の構成によれば、ユーザが上部音声の方向感および前後側の音声を重視する場合にこの構成を選択することができる。
本発明の態様10に係る音声出力装置(1)は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部(11)を備えている音声処理装置(1)において、音声データ生成部(11)は、22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成するものであり、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定部(111)を備えている。
上記の構成によれば、上記態様1と同様な効果を奏する以外、音声処理装置(1b)は重み係数設定部(111a)を備えているため、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を好適に設定することができる。
本発明の態様11に係る音声処理装置(1)は、上記態様10において、重み係数設定部(111)は、上記フロントに位置する各チャンネルに対応するスピーカの互いの間隔に応じて、上記重み係数を設定してもよい。
上記の構成によれば、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数をより好適に設定することができる。
本発明の態様12に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成するステップを含む。
上記の構成によれば、上記態様1と同様な効果を奏する。
本発明の態様13に係る音声処理方法は、複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、上記音声データ生成ステップでは、22.2chを有する入力音声データに含まれる、各チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、上記音声データ生成ステップには、上記入力音声データに含まれる中層チャンネルの音声データのうち、フロントに位置する各チャンネルの重み係数を設定する重み係数設定ステップを含む。
上記の構成によれば、上記態様10と同様な効果を奏する。
本発明の各態様に係る音声処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声処理装置が備える各部(ソフトウェア要素)として動作させることにより上記音声処理装置をコンピュータにて実現させる音声処理装置のプログラム、及び、それを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1、1a、1b 音声処理装置
10 音声データ取得部
11、11a、11b 音声データ生成部
12 音声データ出力部
111、111a 重み係数設定部

Claims (11)

  1. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
    上記音声データ生成部は、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする
    ことを特徴とする音声処理装置。
  2. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
    上記音声データ生成部は、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
    ことを特徴とする音声処理装置。
  3. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成部を備えている音声処理装置において、
    上記音声データ生成部は、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、中層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
    ことを特徴とする音声処理装置。
  4. 上記音声データ生成部は、
    上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データを、上記出力音声データの上層チャンネルの音声データにミックスせず、上記出力音声データの中層チャンネルにおける中央チャンネルの音声データにミックスする
    ことを特徴とする請求項2または3に記載の音声処理装置。
  5. 上記音声データ生成部は、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける右側チャンネルの音声データ及び左側チャンネルの音声データを生成する
    ことを特徴とする請求項1~の何れか1項に記載の音声処理装置。
  6. 上記音声データ生成部は、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データと中層チャンネルの音声データとをダウンミックスすることによって、上記出力音声データの上層チャンネルにおける前側チャンネルの音声データ及び後側チャンネルの音声データを生成する
    ことを特徴とする請求項1~の何れか1項に記載の音声処理装置。
  7. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
    上記音声データ生成ステップでは、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルにおける中央チャンネルの音声データから、上記入力音声データに含まれる、中層チャンネルにおける中央チャンネルの音声データを引き算したうえで、上記出力音声データの上層チャンネルの音声データにミックスする
    ことを特徴とする音声処理方法。
  8. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
    上記音声データ生成ステップでは、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データを中層チャンネルの音声データにもダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
    ことを特徴とする音声処理方法。
  9. 複数のチャンネルを有する入力音声データをダウンミックスすることによって、複数のチャンネルを有する出力音声データを生成する音声データ生成ステップを含む音声処理方法において、
    上記音声データ生成ステップでは、
    22.2chを有する入力音声データに含まれる上層チャンネル、中層チャンネル、及び下層チャンネルのうち、少なくとも中層チャンネル、および下層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの中層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、上層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、少なくとも、上層チャンネルの音声データに中層チャンネルの音声データをダウンミックスすることによって、上記出力音声データの上層チャンネルの音声データを生成し、
    上記入力音声データに含まれる、中層チャンネルの音声データを乗算させる重み係数を、前列から後列に行くに従って大きく設定する
    ことを特徴とする音声処理方法。
  10. 請求項1~の何れか1項に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、上記音声データ生成部としてコンピュータを機能させるための
    プログラム。
  11. 請求項10に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2018079248A 2018-04-17 2018-04-17 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体 Active JP7107727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018079248A JP7107727B2 (ja) 2018-04-17 2018-04-17 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018079248A JP7107727B2 (ja) 2018-04-17 2018-04-17 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体

Publications (2)

Publication Number Publication Date
JP2019186888A JP2019186888A (ja) 2019-10-24
JP7107727B2 true JP7107727B2 (ja) 2022-07-27

Family

ID=68337740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018079248A Active JP7107727B2 (ja) 2018-04-17 2018-04-17 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP7107727B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016537669A (ja) 2013-10-21 2016-12-01 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
JP2017212547A (ja) 2016-05-24 2017-11-30 日本放送協会 チャンネル数変換装置およびそのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016537669A (ja) 2013-10-21 2016-12-01 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
JP2017212547A (ja) 2016-05-24 2017-11-30 日本放送協会 チャンネル数変換装置およびそのプログラム

Also Published As

Publication number Publication date
JP2019186888A (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
KR100636252B1 (ko) 공간 스테레오 사운드 생성 방법 및 장치
KR102302672B1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20080298597A1 (en) Spatial Sound Zooming
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
JP6284480B2 (ja) 音声信号再生装置、方法、プログラム、及び記録媒体
CN103081512A (zh) 3d声音再现方法和设备
JP6660982B2 (ja) オーディオ信号レンダリング方法及び装置
KR102160248B1 (ko) 다채널 음향 신호의 정위 방법 및 장치
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
CN103650538A (zh) 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置
JP2006033847A (ja) 最適な仮想音源を提供する音響再生装置及び音響再生方法
Lee 2D to 3D ambience upmixing based on perceptual band allocation
JP5338053B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
JP2012129840A (ja) 音響システム、音響信号処理装置および方法、並びに、プログラム
WO2021124906A1 (ja) 制御装置、信号処理方法およびスピーカ装置
JP7107727B2 (ja) 音声処理装置、音声処理方法、プログラム、及び、プログラムの記録媒体
JP2018121309A (ja) 音声処理装置、音声出力装置、テレビジョン受像機、音声処理方法、プログラム、及び、プログラムの記録媒体
JP2011199707A (ja) 音声データ再生装置及び音声データ再生方法
JP5743003B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
JP2015076857A (ja) アップミックス装置、音響再生装置、音響増幅装置、及びプログラム
US20230269552A1 (en) Electronic device, system, method and computer program
JP6905411B2 (ja) チャンネル数変換装置及びプログラム
JP2018121310A (ja) 音声処理装置、音声出力装置、テレビジョン受像機、音声処理方法、プログラム、及び、プログラムの記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220714

R150 Certificate of patent or registration of utility model

Ref document number: 7107727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150