JP4213708B2

JP4213708B2 - オーディオ復号装置

Info

Publication number: JP4213708B2
Application number: JP2005340547A
Authority: JP
Inventors: 弘行福地; 弥章佐藤
Original assignee: United Module Corp
Current assignee: United Module Corp
Priority date: 1995-09-29
Filing date: 2005-11-25
Publication date: 2009-01-21
Anticipated expiration: 2016-09-30
Also published as: JP2006146247A

Description

本発明は、データ圧縮技術を用いて圧縮されたオーディオデータを伸張するオーディオ復号装置に関し、例えば、伝送路から送られてくる圧縮オーディオデータあるいは記録媒体から再生される圧縮オーディオデータを伸張するオーディオ復号装置に関するものである。

従来から、オーディオ信号を高能率符号化するための様々な方式が知られている。例えば、時間領域の信号を周波数領域の信号に変換する時間軸／周波数軸変換を用いてオーディオ信号を変換し、各周波数帯域において人間の聴覚に適応したデータ圧縮を行う方式がある。この時間軸／周波数軸変換の方式としては、例えば、サブバンドフィルタやＭＤＣＴ(Modified Discrete Cosine Transform)を用いた方式が挙げられる。

なお、サブバンドフィルタ符号化方式およびＭＤＣＴ符号化方式の概要については、例えば、MARCEL DEKKAR 社（New York）1991年出版、 FURUI＆SONDHI編の" Adbances in Speech Signal Processing "の109 ページから140 ページに記載されている。以下では、ＭＤＣＴ符号化方式に基づく時間軸／周波数軸変換を用いたオーディオ符号化方式について説明する。

図１１に、このＭＤＣＴ符号化方式を用いた符号化装置の構成例を示す。この符号化装置における符号化の処理は、以下に説明する通りである。
すなわち、入力端子５１を介して入力されたディジタルオーディオ信号は、ＭＤＣＴ回路４１により、ある時間間隔毎に時間領域の信号から周波数領域の信号へと変換される。この時間間隔に対応するデータ長を変換ブロック長と呼ぶ。

そして、上記ＭＤＣＴ回路４１から出力された周波数領域のオーディオデータは、量子化回路４２で量子化（可変長符号化）された後、マルチプレクス回路４３においてサンプリング周波数等のヘッダ情報が付加されて、符号化データとして出力端子５２より出力される。
上記ＭＤＣＴ回路４１で行われる時間軸／周波数軸変換処理は、以下の式（１）で記述される。

ここで、x(k)は入力信号、w(k)は窓関数、y(m)はＭＤＣＴされた信号、N は変換ブロック長（samples ）、n=N/2 は位相項である。窓関数w(k)は、各変換ブロックの端点で生じることがある不連続な信号を補正するためのものであり、その形状の一例を図１２に示す。また、式（１）において、ＭＤＣＴ回路４１への入力信号x(k)の数はN であり、一方、m は０からN/2-1 までの値をとるのでＭＤＣＴされた信号y(m)の数はN/2 となる。

ＭＤＣＴ処理では、現ブロックの変換後に次のブロックを変換するときには、現ブロックから次のブロックへサンプルをN/2 だけずらした点で変換を行なう。すなわち、サンプルがN/2 点だけオーバーラップする形で各変換ブロックにＭＤＣＴを連続的にかけていく。これは、各変換ブロックの境界部分で不連続な信号が発生するのを防ぐためである。この様子が図１３に示されている。図１３は、変換ブロック長N の値が５１２の場合の例である。

この図１３の例では、オーディオデータは、説明のために２５６サンプル毎にサブブロック化されている。まず、サブブロック０とサブブロック１とを覆うようにして窓関数がかけられ、ＭＤＣＴされる。次に、サンプルを２５６点だけずらし、サブブロック１とサブブロック２とを覆うようにして窓関数がかけられてＭＤＣＴされる。このように、図１３の例では、サンプルを２５６点づつオーバーラップしながら５１２点の各ブロックのＭＤＣＴが連続的に施されていく。

ＭＤＣＴ回路４１での変換ブロック長が一定の場合には上記のような処理となるが、入力信号の信号特性により変換ブロック長を変化させることで、符号化効率を上げる方式も知られている。このような可変ブロック長のＭＤＣＴ符号化方式の一例としては、国際標準規格ISO IEC １１１７２−３の中のＭＰＥＧオーディオレイヤIII を挙げることができる。

この可変ブロック長のＭＤＣＴ方式では、入力信号の特性に合わせて時間的に変換ブロック長を変化させる。すなわち、入力信号の特性が定常的であるときには、長い変換ブロック長を用いて符号化を行なう。これに対して、例えばパルス的な信号が入力されたときなど、入力信号の特性が急に変化するようなときには、短い変換ブロック長を用いて符号化を行なう。

なお、変換ブロック長を変化させる方法は種々あるが、長い変換ブロック長が整数N のときに、短い変換ブロック長を N／L （L ＝２、３、…）とする方法が一般的によく用いられる。

図１１の符号化装置では、変換ブロック長決定回路４４において、入力されたオーディオ信号の特性に合わせて変換ブロック長を決定し、決定した変換ブロック長情報をＭＤＣＴ回路４１およびマルチプレクス回路４３へ供給する。ＭＤＣＴ回路４１では、変換ブロック長決定回路４４より入力される変換ブロック長情報に合わせて変換ブロック長を時間的に変化させながらＭＤＣＴ処理を行う。

一方、上記変換ブロック長決定回路４４により決定された変換ブロック長情報がマルチプレクス回路４３に送られると、上記マルチプレクス回路４３により、変換ブロック長情報と量子化データとが多重化され、符号化データとして出力端子５２より出力される。

ところで、入力端子５１より入力されるディジタルオーディオ信号としては、複数チャネルのオーディオ信号を扱うことが可能である。例えば、映画等で使用される５チャネルのオーディオ信号を入力した場合には、ＭＤＣＴ回路４１、量子化回路４２、変換ブロック長決定回路４４での処理を５チャネルそれぞれ独立に行なう。そして、マルチプレクス回路４３において５チャネル分のデータを多重化した後、符号化データとして出力する。

この場合、各チャネル間の相関を利用して符号化を行うことにより、同一ビットレートにおける音質を向上させることが可能である。そして、そのような処理方式として、差分方式とカップリング方式とが知られている。前者の差分方式は、主に低周波数のサブバンド情報（各変換ブロック内のデータ）に対して用いられ、２つのチャネルのサブバンド情報の和と差とを求めることで、符号化時に一方のチャネルに集中的に情報を配置し、情報量を削減することができるようにした方式である。

一方、後者のカップリング方式は、主に高周波数のサブバンド情報に対して用いられ、実サンプルの値を複数のチャネルで共用するようにすることにより、情報量を削減することができるようにした方式である。すなわち、サブバンド情報の高周波領域では音感としてのパワーが比較的小さく、１つのサブバンド情報を複数チャネルで共用化しても聴感上問題がない。そこで、各チャネルにおける高周波領域のサブバンド情報で類似する部分があれば、その類似部分の情報を共用化することにより情報量を削減しているのである。

次に、従来のＭＤＣＴ方式によるオーディオ復号装置の一例を図１４に示す。
以下、この図１４を用いて複数チャネルのオーディオデータを復号する従来の復号技術の説明を行なう。

図１４において、符号化されたオーディオデータは、入力端子２１を介してデマルチプレクス回路３１へと入力される。デマルチプレクス回路３１では、入力された符号化データが、多重化された複数チャネルのオーディオデータと変換ブロック長情報とに分離される。

上記デマルチプレクス回路３１により出力された各チャネルのオーディオデータは、逆量子化回路３２において各チャネル毎に逆量子化処理が施され、その処理結果がＩＭＤＣＴ (Inverse ＭＤＣＴ) 回路３３に入力される。ここで、逆量子化処理とは、可変長符号化された各サンプルデータのビット長を求めて、各サンプルデータを識別することを言う。ＩＭＤＣＴ回路３３には、上記デマルチプレクス回路３１で分離された変換ブロック長情報も入力される。

このＩＭＤＣＴ回路３３では、入力された変換ブロック長情報をもとに、各チャネル毎にＩＭＤＣＴ処理が行なわれる。上記ＩＭＤＣＴ回路３３で行われる周波数軸／時間軸変換処理は、以下の式（２）で記述される。

ここで、x(k)はＩＭＤＣＴ処理された信号、y(m)はＭＤＣＴ処理された信号、N は変換ブロック長、n=N/2 は位相項である。また、ＩＭＤＣＴ処理された信号x(k)の数はN であり、ＭＤＣＴ処理された信号y(m)の数はN/2 である。

この式（２）に基づいてＩＭＤＣＴ処理された信号は、ディレイバッファ３４に一時的に記憶された後、窓掛け演算回路３５により窓掛け演算が施される。窓掛け演算回路３５は、ＭＤＣＴ処理のときと同じ形状の窓関数（図１２に例示）をかけ、更に現ブロックの前半部分と前ブロックの後半部分とでオーバーラップする部分のデータを加算してオーディオ信号を再構成する。これは、ＭＤＣＴ処理を行う際にN/2 点ずつサンプルをオーバーラップして変換してあるため、加算を行わないとエリアシングが発生してしまうためである。

図１５に、このときのオーバーラップの様子を示す。この例では、まず、それぞれ５１２点のサンプルを有するブロック０とブロック１とで２５６点だけオーバーラップする部分が加算され、２５６点のオーディオ信号が再構成される。次に、ブロック１とブロック２とで２５６点だけオーバーラップする部分が加算され、次の２５６点のオーディオ信号が再構成される。以下同様にして、２５６点ずつオーディオ信号が再構成されていく。

ところで、複数チャネルのオーディオデータが符号化されているとき、もし、復号化側における音声出力用のスピーカが、符号化されたチャネル数より少ない数のチャネルしか持たない場合には、ダウンミキシング処理を行うことがある。ダウンミキシング処理とは、複数のチャネルのオーディオデータからそれ以下のチャネル数のオーディオデータをつくり出す処理のことである。この処理の一例は、以下の式（３）で記述される。

ここで、x[ch][n]はチャネルchに対応する入力信号、y[n]はダウンミキシングされた１つのチャネルの信号、α[ch]はチャネルchに対応するダウンミキシングのための係数、M はダウンミキシングする対象チャネル数を示す。

例えば、映画等で使用されるオーディオ信号は、５チャネル分のオーディオデータが符号化されていることがあるが、一般の家庭のオーディオ装置では、２チャネルしか出力できないことが多い。この場合には、時間領域ダウンミキシング回路３６で式（３）に示したダウンミキシング処理を２回行い、５チャネルの音声から２チャネルの音声を作りだすようにしている。

勿論、符号化されたチャネル数のオーディオデータを復号化側で全て出力できる場合にはダウンミキシング処理を行う必要はない。この場合には、ダウンミキシング回路３６では何の処理も行われず、窓掛け演算回路３５により窓掛けが行われたオーディオデータがそのまま出力端子２２から出力される。

図１６は、図１４に示した従来のオーディオ復号装置を、メモリ量も考慮して更に詳しく示したハードウェア構成図である。
この図１６は、５チャネルのオーディオデータを扱う例を示すものであり、変換ブロック長を５１２点とした場合のメモリ量を記述してある。また、上記５つのチャネルは、それぞれ左チャネルLch 、センタチャネルCch 、右チャネルRch 、後方左チャネルLSch、後方右チャネルRSchであるとする。

図１６において、デマルチプレクス回路３１、逆量子化回路３２における処理を経て逆量子化された各チャネルのオーディオデータは、逆量子化バッファ３７に格納される。そして、その逆量子化バッファ３７に格納された各チャネルの逆量子化データに対して、ＩＭＤＣＴ回路（周波数軸／時間軸変換回路）３３により式（２）の演算が各チャネルごとに実行され、その演算結果が時間軸情報バッファ３８へと格納される。

次に、上記時間軸情報バッファ３８に格納された各チャネルのオーディオデータは、窓掛け演算回路（加算／窓掛け回路）３５に与えられる。そして、この窓掛け演算回路３５において、窓掛け演算が実行された後、現ブロックの前半部分のデータと、ディレイバッファ３４に格納されている前ブロックの後半部分のデータとがオーバーラップ加算される。

そして、上記窓掛け演算回路３５によりオーバーラップ加算された結果は、ＰＣＭバッファ３９に格納される。また、現ブロックの後半部分のデータは、窓掛け演算の後で上記ディレイバッファ３４に格納され、次のブロックにおけるオーバーラップ加算に利用される。

次に、ダウンミキシング処理が必要な場合には、時間領域ダウンミキシング回路３６によりＰＣＭバッファ３９から各チャネルのオーディオデータが読み出され、式（３）で示されるダウンミキシング処理が実行される。そして、このようにしてダウンミキシング処理された結果が出力端子２２を介して出力される。

図１６に示したように、従来のオーディオ復号装置においては、逆量子化バッファ３７、時間軸情報バッファ３８、ディレイバッファ３４、ＰＣＭバッファ３９の各バッファメモリを設けることが必要であった。そして、逆量子化バッファ３７、時間軸情報バッファ３８、ディレイバッファ３４のメモリ容量はそれぞれ少なくとも２５６×５ワード、ＰＣＭバッファ３９のメモリ容量は少なくとも２５６×１０ワード必要であった。

上記ＰＣＭバッファ３９で２５６×１０ワード分のメモリ容量が必要なのは、以下の理由による。すなわち、一般に、オーディオ機器ではＰＣＭデータを一定のレートで出力することが要求されている。これを満足するためには、窓掛け演算回路３５による演算直後のデータを格納するためのものと、一定のレートでデータを出力するためのものとでバッファを２重化し、パイプライン動作させる必要がある。このため、ＰＣＭバッファ３９のメモリ容量は、２５６×５×２ワード分必要となるのである。

つまり、従来のオーディオ復号装置では、逆量子化バッファ３７、時間軸情報バッファ３８、ディレイバッファ３４、ＰＣＭバッファ３９の各バッファメモリで合計６４００ワード分のメモリ容量が必要であり、かなりのメモリ量を必要とするいう問題があった。

本発明はこのような問題を解決するために成されたものであり、オーディオ復号装置において音質をほとんど損なうことなくメモリ容量を低減させることを目的とする。すなわち、本発明は、一連の復号処理を行うために必要なメモリ容量を低減させることにより、ダウンミキシングが可能でかつ安価なオーディオ復号装置を提供することを目的とする。

本発明のオーディオ復号装置は、複数チャネルのオーディオ信号を時間軸／周波数軸変換を介して周波数領域で表す周波数領域オーディオデータを含む符号化データを復号するオーディオ復号装置であって、上記周波数領域オーディオデータは、各々が可変ビット長を有し上記複数チャネルのオーディオ信号の１つについてのサンプルを表すサンプルデータを含み、上記オーディオ復号装置は、上記周波数領域オーディオデータから各サンプルデータのビット長を求めてサンプルデータを識別する逆量子化手段と、上記逆量子化手段により識別されたサンプルデータを周波数領域から時間領域へと変換する周波数軸／時間軸変換手段と、上記逆量子化手段における逆量子化処理および上記周波数軸／時間軸変換手段における周波数軸／時間軸変換処理において共用される単一のメモリとを含み、上記複数チャネルのオーディオ信号の各々について、上記逆量子化手段における逆量子化処理と上記周波数軸／時間軸変換手段における周波数軸／時間軸変換処理とをパイプライン処理で行い、上記周波数領域オーディオデータは、上記複数チャネルのオーディオ信号のうちの少なくとも２つについて共用されるカップリングデータを含み、上記メモリは、上記カップリングデータを記憶するための領域を更に有することを特徴とする。

本発明によれば、逆量子化手段と周波数軸／時間軸変換手段とでパイプライン処理を行う際に１つのメモリを共用化することができるようになるとともに、そのメモリ内の同じ領域を何回も使い回しすることができるようになり、音質をほとんど損なうことなく、一連の復号処理を行うために必要なメモリ容量を減らすことができる。

以下に、本発明のオーディオ復号装置の実施形態を図面を参照しながら説明する。第１の実施形態のオーディオ復号装置の構成例を図１に示す。

図１において、入力端子２１を介して入力された符号化データは、デマルチプレクス回路３１で複数チャネルのオーディオデータと変換ブロック長情報とに分離される。このオーディオデータは、周波数領域の複数チャネルのオーディオ信号を表しているので、周波数領域オーディオデータと呼ぶ。

このデマルチプレクス回路３１により分離された各チャネルの周波数領域オーディオデータは、逆量子化回路３２で各チャネル毎に逆量子化処理が施され、周波数領域ダウンミキシング手段４０へと入力される。また、デマルチプレクス回路３１で分離された変換ブロック長情報は、周波数軸／時間軸変換手段３３へと入力される。

周波数軸／時間軸変換手段３３から出力された時間領域の複数チャネルのオーディオ信号を表すオーディオデータ（時間領域オーディオデータ）は、ディレイバッファ３４で遅延された後、窓掛け演算回路３５に入力されて窓掛け演算が施される。

図２に、図１に示した本実施形態のオーディオ復号装置の周波数領域ダウンミキシング手段４０および周波数軸／時間軸変換手段３３に相当する部分を、メモリ量も考慮して更に詳しく示す。
この周波数領域ダウンミキシング手段４０および周波数軸／時間軸変換手段３３内で行われる処理については、図２を用いて以下に説明する。

この図２も図１６と同様に、５チャネルのオーディオデータを扱う例を示すものであり、変換ブロック長を５１２点とした場合のメモリ量を記述してある。また、図２で、Lch は左チャネル、Cch はセンタチャネル、Rch は右チャネル、LSchは後方左チャネル、RSchは後方右チャネル、Ldchはダウンミキシング処理した左チャネル、Rdchはダウンミキシング処理した右チャネルの各チャネル用のデータ領域を示している。

図１の逆量子化回路３２で逆量子化されたデータは、図２の第１のメモリ回路１１１に格納される。次に、第１のメモリ回路１１１に格納された周波数領域のオーディオデータに対して、周波数領域ダウンミキシング回路１０１でダウンミキシング処理が行なわれ、その結果が第２のメモリ回路１１２へと格納される。周波数領域ダウンミキシング回路１０１内で行われる処理は、以下の式（４）で記述される。

ここで、Ｘ[ch][n] はチャネルchに対応する周波数領域の入力信号、Ｙ[n] はダウンミキシングされた周波数領域の信号、α[ch]はチャネルchに対応するダウンミキシングのための係数であり、式（３）に示したものと同じものである。また、M はダウンミキシングする対象チャネル数を示す。

もし、ダウンミキシング処理の対象となる各チャネル間で変換ブロック長が異なる場合には、まず、他のチャネルと異なっているチャネルのデータを周波数軸／時間軸変換回路１０５で時間領域のデータに一旦変換して第５のメモリ回路１１５に格納する。その後、時間軸／周波数軸変換回路１０４で変換ブロック長をそろえる形で周波数領域への変換を再度行なう。このように、周波数領域内でダウンミキシング処理を行なうときには、各チャネルの変換ブロック長をそろえておくようにする。これにより、周波数領域内でのダウンミキシング処理を効率よく行うようにすることができる。

例えば、変換ブロック長としてN とN/2 の２種類を使う符号化を行なっている場合を考える。この場合には、ダウンミキシング処理の対象となる５つのチャネルが、変換ブロック長N とN/2 との２種類を持つ可能性がある。このときは、周波数軸／時間軸変換回路１０５により変換ブロック長N/2 のデータを２つ分周波数軸／時間軸変換した後で、時間軸／周波数軸変換回路１０４により変換ブロック長N で時間軸／周波数軸変換を施し、各チャネル間の変換ブロック長をN にそろえるようにする。

次に、周波数軸／時間軸変換回路１０２により、第２のメモリ回路１１２に格納されている周波数領域のオーディオデータに対して時間領域への変換処理が行なわれ、その変換結果が第３のメモリ回路１１３へ格納される。最後に、加算／窓かけ回路１０３により以下のような処理が行われる。

すなわち、現ブロックの前半部分のデータは、窓かけ処理が施された後、第４のメモリ回路１１４に蓄積されている前ブロックの後半部分のデータとオーバーラップ加算され、オーディオデータが再構成される。そして、このようにして再構成されたオーディオデータが出力端子２２を介して出力される。また、現ブロックの後半部分のデータは、窓かけ処理が行なわれた後、第４のメモリ回路１１４内に格納される。

図２に示すように、各メモリ回路１１１〜１１５の規模は、第１のメモリ回路１１１が２５６×５ワード、第２、第４のメモリ回路１１２、１１４がそれぞれ２５６×２ワード、第３のメモリ回路１１３が５１２×２ワード、第５のメモリ回路１１５が５１２ワードである。つまり、本実施形態では合計で３８４０ワード分のメモリで済むので、図１６の従来例と比較した場合、本実施形態では２５６０ワードだけメモリ量が少なくて済むことが分かる。したがって、本実施形態によれば、ダウンミキシングが可能なオーディオ復号装置を安価に構成することができる。

図２に示した周波数領域ダウンミキシング手段および周波数軸／時間軸変換手段での処理では、各チャネル間における変換ブロック長の不一致を周波数軸／時間軸変換、時間軸／周波数軸変換を施すことで修正している。また、可変ブロック長を有する時間軸／周波数軸変換を用いた符号化方式では、ほとんどのブロックで周波数分解能がよく符号化効率の高い長い変換ブロック長が選択され、短い変換ブロック長が選択されるのは僅かなブロックだけである。このため、ダウンミキシング処理の際に変換ブロック長の不一致が生じることも僅かである。

なお、復号の処理量については、チャネル間で変換ブロック長の不一致が生じたブロックで局所的に処理量が増えるが、その他のほとんどのブロックでは逆に処理量が減るため、全体的には処理量を従来よりも２０％程度減らすことが可能である。

また、更に安価なオーディオ復号装置を構成するためには、図２の周波数軸／時間軸変換回路１０５、第５のメモリ回路１１５および時間軸／周波数軸変換回路１０４を省き、各チャネル間で変換ブロック長が一致しなかった場合には、不一致のチャネルをダウンミキシング処理の対象から外すような処理を行なうようにすれば良い。この場合でも、ダウンミキシング専用のオーディオ復号装置を安価に構成することができ、しかも、その割りには十分な音質を得ることができ、回路規模と復号処理量とを更に小さくすることができる。

なお、本実施形態では、時間軸／周波数軸変換としてＭＤＣＴを例に挙げて説明してきたが、以上の議論は他の方式の時間軸／周波数軸変換を用いた場合にも容易に適応することが可能である。

以上説明したように本実施形態によれば、時間軸／周波数軸変換を用いて周波数領域で符号化された複数チャネルのオーディオデータを復号するオーディオ復号装置において、周波数領域でダウンミキシング処理を行なった後で周波数軸／時間軸変換処理を行うようにしたので、ダウンミキシング処理より後の周波数軸／時間軸変換処理で扱うデータのチャネル数を上記ダウンミキシング処理よって少なくすることができ、上記周波数軸／時間軸変換処理でデータを一時格納しておくために必要なメモリ回路の数を減らすことができる。また、上記周波数軸／時間軸変換処理で扱うデータのチャネル数が少なくて済むので、復号の処理量も全体として減らすことができ、これにより、音質を大幅に低下させることなくダウンミキシングが可能で安価なオーディオ復号装置を実現することができる。

また、本実施形態の他の特徴によれば、上記周波数領域ダウンミキシング手段によって複数チャネルのオーディオデータを周波数領域でダウンミキシングする際に対象となる各チャネル間で時間軸／周波数軸変換処理の変換ブロック長が異なる場合に、全てのチャネルの変換ブロック長を合わせた後でダウンミキシング処理を行なうようにしたので、周波数領域内でのダウンミキシング処理を効率よく行うようにすることができる。

また、本実施形態のその他の特徴によれば、各チャネル間で変換ブロック長が一致しなかった場合には、不一致のチャネルをダウンミキシング処理の対象から外すようにしたので、装置構成を簡素化することができるとともに、ダウンミキシングが可能で安価なオーディオ復号装置を構成した割りには十分な音質を得ることができ、音質をそれほど低下させることなく回路規模と復号処理量とを更に小さくすることができる。

次に、本発明によるオーディオ復号装置の第２の実施形態を図面に基づいて詳細に説明する。
図３は、第２の実施形態によるオーディオ復号装置のハードウェア構成例を示す図であり、従来例として示した図１６の構成を変形したものである。

なお、図１６ではデマルチプレクス回路３１と逆量子化回路３２とに分けて示していたのを、図３ではこれらを１つにまとめてＤＭＵＸ１として示している。すなわち、本実施形態のＤＭＵＸ１は、多重化データの分離処理と分離した各チャネルのオーディオデータの逆量子化処理とを同時に行っている。また、この図３も図１６と同様に、５チャネルのオーディオデータを扱う例を示したものであり、変換ブロック長を５１２点とした場合のメモリ量を示している。

この図３に示す第２の実施形態によるオーディオ復号装置は、上記ＤＭＵＸ１とＩＭＤＣＴ回路２とを協調動作させることにより、バッファメモリの容量を削減することができるようにしたものである。

すなわち、図１６の従来例では、ＩＭＤＣＴ回路３３の前後にそれぞれ２５６×５ワード分のバッファメモリが２つ備えられていたが、本実施形態では、上記ＤＭＵＸ１とＩＭＤＣＴ回路２とでパイプライン処理を行ってワークバッファ３を使いまわすようにすることにより、ワークバッファ３のメモリ容量が２５６×３ワードで済むようにしている。なお、パイプライン処理とは、複数の処理において同一のメモリを共通して利用し合うことを言う。

このことを、図４および図５を用いて以下に詳しく説明する。すなわち、図１６に示した従来例では、図４に示すように、まず、左チャネルLch 、センタチャネルCch 、右チャネルRch 、後方左チャネルLSch、後方右チャネルRSchの５つのチャネルについて逆量子化処理が行われ、それにより得られる各チャネルの逆量子化データが逆量子化バッファ３７に格納される。

上記逆量子化バッファ３７に５チャネル分の逆量子化データが格納されたら、次に、ＩＭＤＣＴ回路３３により、その５チャネル分の逆量子化データに対して周波数軸／時間軸変換処理が各チャネルごとに行われ、それにより得られる時間領域のオーディオデータが各チャネルごとに時間軸情報バッファ３８に格納される。したがって従来は、全部で１０セットのバッファメモリが必要であった。

これに対して本実施形態では、図５に示すように、ＤＭＵＸ１によりまず左チャネルLch のオーディオデータが逆量子化されてワークバッファ３内の第１のバッファ＃１に格納されると、その直後に、その第１のバッファ＃１に格納された逆量子化データがＩＭＤＣＴ回路２により周波数軸／時間軸変換される。その間、ＤＭＵＸ１は、次のセンタチャネルCch について逆量子化処理を行い、それにより得られる逆量子化データを第２のバッファ＃２に格納する。

また、ＩＭＤＣＴ回路２は、上記第１のバッファ＃１に格納された逆量子化データに対する周波数軸／時間軸変換処理が終わったら直ぐに、次の第２のバッファ＃２に格納された逆量子化データに対して周波数軸／時間軸変換処理を行う。その間、ＤＭＵＸ１は、次の右チャネルRch について逆量子化処理を行い、それにより得られる逆量子化データを再び第１のバッファ＃１に格納する。

このようにしてＤＭＵＸ１とＩＭＤＣＴ回路２とをパイプライン動作させることにより、そのパイプライン処理で使用するワークバッファ３を、基本的には第１のバッファ＃１と第２のバッファ＃２だけ設ければ済むようにしている。

なお、本実施形態では、図３に示したように、ワークバッファ３の中に、上記第１のバッファ＃１および第２のバッファ＃２に加えて第３のバッファ＃３を設けている。この第３のバッファ＃３は、従来例のところで説明したカップリング用のデータを格納するために用いるものである。

すなわち、カップリング方式では、各チャネルにおける高周波領域のオーディオデータで類似する部分の情報を共用化するようにしているので、その共用化している部分のデータを保持しておくためのバッファメモリが別に必要になるのである。ここでは、第３のバッファ＃３のメモリ容量を２５６ワードとしたが、共用化される最大限の容量（符号化方式によって定まる容量。本実施形態では２１９ワードとした）を少なくとも備えていれば良い。

このように、本実施形態では、ＤＭＵＸ１における多重化データの分離処理および逆量子化処理と、ＩＭＤＣＴ回路２における周波数軸／時間軸変換処理とで使用するバッファメモリは、ワークバッファ３内の第１〜第３のバッファ＃１〜＃３の３セットで済むようになり、そのメモリ容量は２５６×３ワードで済む。したがって、同じ処理に２５６×１０ワードのメモリ容量が必要であった従来例（図１６）に比べて、全体のメモリ量を大幅に削減することができる。

次に、本発明の第３の実施形態について説明する。図６は、この第３の実施形態によるオーディオ復号装置のハードウェア構成例を示す図であり、図３に示した第２の実施形態による構成を更に変形したものである。

この図６に示すオーディオ復号装置は、ＩＭＤＣＴ回路２により周波数軸／時間軸変換されたオーディオデータのコサイン関数の対称性を利用して、時間情報に変換されたオーディオデータの２５６点のサンプル値のうち、オリジナルな値のみをディレイバッファ９に格納するようにすることにより、バッファメモリの容量を更に削減することができるようにしたものである。

このことを図７、図１３、図１５を用いて以下に詳しく説明する。本実施形態における変換ブロック長は５１２点であり、時間領域に変換された５１２点のオーディオデータは、次に窓掛け演算が行われるようになっているが、図１３に示したように、符号化時において窓掛けは、サンプル値を２５６点ずつずらしてオーバーラップさせながら行うようになっている。つまり、上記５１２点のサンプル値は、２５６点のサンプル値が２回使いまわされるようになっている。

そこで、第３の実施形態では、上記２５６点のサンプル値の使いまわしの仕方を工夫することにより、ディレイバッファ９のメモリ容量を削減できるようにしている。すなわち、図７に示すように、オリジナルな２５６点のサンプル値(１)、（２）の部分（図７において丸付き数字で表されている部分）を変換ブロック長の真ん中に配置する。そして、窓掛け演算を行う前に、コサイン関数の対称性を使用して上記（１）、（２）の部分のサンプル値と対称な（１）′、（２）′の部分（図７において丸付き数字の右上に「′」が付されている部分）のサンプル値を求めることにより、５１２点のサンプル値を得るようにしている。

この場合、図１５を用いて説明したように、上述のようにして求められる５１２点のサンプル値のうち、前半部分Ａに属する２５６点のサンプル値は、図６の窓掛け演算回路８におけるオーバーラップ加算にそのまま用いられるのに対して、後半部分Ｂに属する２５６点のサンプル値は、所定時間の遅延を受けてからオーバーラップ加算に利用される。つまり、所定時間の遅延を受けるのは、後半部分Ｂに属する２５６点のサンプル値だけである。

ここで、後半部分Ｂに属する２５６点のサンプル値のうち、（２）′の部分のサンプル値はオリジナルな（２）の部分のサンプル値から計算により求められる。したがって、（２）の部分の１２８点のサンプル値をディレイバッファ９に格納して所定時間だけ遅延させるようにすれば、５１２点のサンプル値を再現して窓掛け演算を行うことができるようになる。

なお、図６に示した窓掛け演算回路８を、上記（１）、（２）の部分のサンプル値から対称性を有する（１）′、（２）′の部分のサンプル値を求めた後で窓掛けを行うようにすれば、実用上問題はない。

以上のように、第３の実施形態では、周波数軸／時間軸変換されたオーディオデータのオリジナルな部分である１２８点のサンプル値をディレイバッファ９に格納すれば良い。これにより、図３の第２の実施形態では、ディレイバッファ５は２５６×５ワード分のメモリ容量が必要であったのに対して、第３の実施形態では、１２８×５ワード分のメモリ容量で済むので、オーディオ復号装置全体のメモリ量を更に削減することができる。

次に、本発明の第４の実施形態について説明する。図８は、この第４の実施形態によるオーディオ復号装置のハードウェア構成例を示す図であり、図６に示した第３の実施形態による構成を更に変形したものである。

この図８に示すオーディオ復号装置は、窓掛け演算回路８により窓かけが施されて生成された５チャネルのＰＣＭデータを直ちにダウンミックス処理し、ダウンミックス後の結果のみをＰＣＭバッファ１０に格納するようにすることにより、バッファメモリの容量を更に削減することができるようにしたものである。

すなわち、図８のＤＭＵＸ１およびＩＭＤＣＴ回路２ではパイプライン的に処理を行っているので、それにより得られるオーディオデータを利用して窓掛けを行う窓掛け演算回路８では、５チャネル分のＰＣＭデータが間欠的に生成される。この場合、上述した第２および第３の実施形態では、その５チャネル分のＰＣＭデータをそのままＰＣＭバッファ６に蓄えた後で、ダウンミキシング回路７により２チャネルにダウンミックスして出力するようになっていた。

これに対して、第４の実施形態では、窓掛け演算回路８により生成された５チャネルのＰＣＭデータを直ぐにダウンミックスして２チャネルにする。そして、そのダウンミックスした２チャネルのみのＰＣＭデータをＰＣＭバッファ１０に格納するようにしている。

これにより、第２および第３の実施形態では、ＰＣＭバッファ６は２５６×１０ワード分のメモリ容量が必要であったのに対して、第４の実施形態では、ＰＣＭバッファ１０は２５６×４ワード分のメモリ容量で済み、オーディオ復号装置全体のメモリ量を更に削減することができる。

なお、図８において、ダウンミキシング回路７とＰＣＭバッファ１０との間が両矢印で結ばれているのは、以下の理由による。すなわち、ダウンミックス処理は、５チャネルのＰＣＭデータが全て揃ってから一気に行うのではなく、各チャネルのＰＣＭデータを少しずつ重ね書きするようにして行っている。

したがって、ＰＣＭバッファ１０に一度格納されたデータをダウンミキシング回路７が読み込んで、その読み込んだ値にダウンミックスした値を加算し、その加算した値をＰＣＭバッファ１０内の同じ記憶領域に再び記憶するようにするという処理が必要となる。図８の両矢印は、このような重ね書きの処理を示しているのである。

次に、本発明の第５の実施形態について説明する。図９は、この第５の実施形態によるオーディオ復号装置のハードウェア構成例を示す図であり、図８に示した第４の実施形態による構成を更に変形したものである。

上記第４の実施形態では、ダウンミックス処理を行った後に、それにより得られるチャネル数の少ないＰＣＭデータをＰＣＭバッファ１０に格納するようにすることにより、ＰＣＭバッファ１０のメモリ量をダウンミックスした分だけ削減することができるようにしていた。これと同じようなことが、ディレイバッファ９との関係においても言える。

そこで、図９に示す第５の実施形態では、次のように処理を行うようにしている。すなわち、ＩＭＤＣＴ回路２により時間領域の情報に変換されたオーディオデータを、遅延を受けない部分のデータ（図７の前半部分Ａに属する２５６点のサンプル値）と遅延を受ける部分のデータ（図７の後半部分Ｂに属する２５６点のサンプル値）とに分ける。

そして、遅延を受けない側では、通常通り、第１の窓掛け演算回路１１で窓掛け演算を行った後、第１のダウンミキシング回路１２でダウンミックス処理を行う。なお、上記第１の窓掛け演算回路１１では、窓掛けを行った後のオーバーラップ加算は行っていない。

一方、遅延を受ける側では、ＩＭＤＣＴ回路２により周波数軸／時間軸変換されたオーディオデータを第２のダウンミキシング回路１３で直ちにダウンミックス処理し、そのダウンミックス処理後のチャネル数の少ないオーディオデータのみをディレイバッファ１４に格納するようにする。

上記ディレイバッファ１４を使って第２のダウンミキシング回路１３によりダウンミックスされた２チャネルのオーディオデータは、次に第２の窓掛け演算回路１５に与えられ、ここで窓掛け演算が施される。そして、これにより得られる２５６点のサンプル値から成るＰＣＭデータと、上記第１の窓掛け演算回路１１での窓掛け演算により得られる２５６点のサンプル値から成るＰＣＭデータとがオーバーラップ加算され、ＰＣＭバッファ１０に格納される。

このように、第４の実施形態では、ディレイバッファ９は１２８×５ワード分のメモリ容量が必要であったのに対して、第５の実施形態では、ディレイバッファ１４は１２８×２ワード分のメモリ容量で済み、オーディオ復号装置全体のメモリ量を更に削減することができる。

図１０は、図９に示した第５の実施形態によるオーディオ復号装置のハードウェア構成を、処理の流れを意識して書き換えた機能ブロック図である。
以下、この図９および図１０に基づいて第５の実施形態によるオーディオ復号装置の動作を簡単に説明する。

図１０のＤＭＵＸ１で各チャネルのオーディオデータに分離されるとともに、各チャネルごとに逆量子化されたオーディオデータは、図９のワークバッファ３に一時的に格納される。

ここで、図１０のＤＭＵＸ１と、ＩＭＤＣＴ回路２、出力セレクタ回路１６、第１の窓掛け演算回路１１、第１のダウンミキシング回路１２および第２のダウンミキシング回路１３とを協調動作させると、ワークバッファ３内の第１および第２のバッファ＃１、＃２を用いるだけで、処理時間を変更せずに５チャネル分のデコード処理をパイプライン動作させることができる。

また、カップリング方式を用いた場合でも、上記した２つのバッファ＃１、＃２に第３のバッファ＃３を加えた３つのバッファを用いるだけで、５チャネル分のデコード処理をパイプライン動作させることができる。

上記ＩＭＤＣＴ回路２により周波数軸／時間軸変換されたオーディオデータは、出力セレクタ回路１６に送られ、遅延させる必要のないオーディオデータと遅延させる必要のあるオーディオデータとに分けられる。なお、遅延させる必要のないオーディオデータは、次の式（５）で表される。

ただし、この式（５）において、x(k)はＩＭＤＣＴ処理された信号、y(m)はＭＤＣＴ処理された信号、N は変換ブロック長、n=N/2 は位相項である。また、ＩＭＤＣＴ処理された信号x(k)の数はN であり、ＭＤＣＴ処理された信号y(m)の数はN/2 である。

この式（５）において、k= N/4〜N/2-1 については、j=N/2-k-1 とすると、コサイン関数の対称性を利用して次の式（６）のように変形することができる。この式（６）から明らかなように、本当にオリジナルな値は、k= 0〜N/4-1 の部分の値だけである。

また、遅延させる必要のあるオーディオデータは、次の式（７）で表される。これについても同様に式を変形すると、k= N/2〜3N/4-1 の部分だけがオリジナルな値である。したがって、ディレイバッファ１４には、このk=N/2 〜 3N/4 -1のオリジナルな部分のデータのみを一時的に格納すれば良いことになる。

上記式（５）で示される遅延の必要のないオーディオデータは、第１の窓掛け演算回路１１に送られる。そして、この第１の窓掛け演算回路１１において、上記式（５）で示される値x(k)に窓関数がかけられた後、第１のダウンミキシング回路１２でダウンミックス処理が施されて、それにより生成されるＰＣＭデータがＰＣＭバッファ１０に格納される。

次に示す式（８）は、上記第１の窓掛け演算回路１１および第１のダウンミキシング回
路１２における処理の内容を示す式である。なお、この式（８）において、sch はダウンミックス前のチャネル番号を示し、dch はダウンミックス後のチャネル番号を示している。

また、上記式（７）で示される遅延の必要のあるオーディオデータは、第２のダウンミキシング回路１３に送られる。そして、この第２のダウンミキシング回路１３でダウンミックス処理（各チャネルデータの重ね書きの処理）が行われることにより、５チャネルから２チャネルにチャネル数が減らされて、ディレイバッファ１４に格納される。この第２のダウンミキシング回路１３における処理の内容を、次の式（９）に示す。

上記ディレイバッファ１４に一時的に格納されたオーディオデータは、次に出力するＰＣＭデータを生成するために使用される。そのための演算処理は、第２のダウンミキシング回路１３におけるダウンミックス処理が終わって、最終的に２チャネルのオーディオデータがディレイバッファ１４に格納された直後に第２の窓掛け演算回路１５により行われる。この第２の窓掛け演算回路１５における処理の演算式を、次の式（１０）に示す。

以上の処理により生成されたＰＣＭデータは、ＰＣＭバッファ１０に一時的に格納された後、出力端子２２を介して出力される。図９の例では、ＰＣＭバッファ１０のメモリサイズは２５６×４ワードと示しているが、これはＰＣＭデータを一定レートで出力するようにするために、ＰＣＭバッファ１０を演算用とデータ出力用とでパイプライン的に用いているためである。よって、一定レートで出力することを考慮しない場合は、２５６×２ワードのメモリ容量でよい。

以上第２〜第５の実施形態について詳しく説明してきたが、それぞれの実施形態においてどの程度バッファメモリの容量を削減することができたかを明確にするために、次の表１にまとめて示しておく。

なお、以上の説明では、第２の実施形態から第５の実施形態へと構成要件を順に限定していく場合について説明したが、各実施形態で説明した技術はそれぞれ独立に適用することが可能である。

第２の実施形態によれば、上述したように、各チャネルごとの逆量子化処理と各チャネルごとの周波数軸／時間軸変換処理とをワークバッファを使ってパイプライン処理で行うようにしたので、逆量子化手段と周波数軸／時間軸変換手段とでパイプライン処理を行う際に１つのワークバッファを共用化することができるようになるとともに、そのワークバッファ内の同じバッファ領域を何回も使いまわしすることができるようになり、音質をほとんど損なうことなく、一連の復号処理を行うために必要なバッファメモリのメモリ容量を減らすことができる。

第３の実施形態によれば、時間領域の情報に変換されたオーディオデータが持つコサイン関数の対称性を利用して、上記対称性を有する１組のデータ値のうち一方のデータ値から他方のデータ値を求めて窓掛け演算を行うようにしたので、上記窓掛け演算を行う際に
使用するデータ遅延用のバッファメモリには、上記対称性を有する１組のデータ値のうち一方のデータ値だけを格納すれば良くなり、上記データ遅延用のバッファメモリの容量を削減することができる。これにより、音質をほとんど損なうことなく、一連の復号処理を行うために必要なバッファメモリのメモリ容量を減らすことができる。

第４の実施形態によれば、窓掛け手段により窓かけ演算が行われて生成された複数チャネルのオーディオデータを直ちにダウンミックスし、ダウンミックス後の結果のみをデータ出力用のバッファメモリに格納するようにしたので、ダウンミキシング前のチャネル数の多いオーディオデータをそのままバッファメモリに格納していた従来例に比べて、ダウンミキシングにより少なくされたチャネル数の分だけデータ出力用のバッファメモリを用意すれば済むようになり、音質をほとんど損なうことなく、一連の復号処理を行うために必要なバッファメモリのメモリ容量を減らすことができる。

第５の実施形態によれば、周波数軸／時間軸変換された複数チャネルのオーディオデータを直ちにダウンミックスし、ダウンミックス後の結果のみをデータ遅延用のバッファメモリに格納するようにしたので、ダウンミキシング前のチャネル数の多いオーディオデータをそのままデータ遅延用のバッファメモリに格納していた従来例に比べて、ダウンミキシングにより少なくされたチャネル数の分だけデータ遅延用のバッファメモリを用意すれば済むようになり、音質をほとんど損なうことなく、一連の復号処理を行うために必要なバッファメモリのメモリ容量を減らすことができる。

本発明の第１の実施形態によるオーディオ復号装置の具体的な構成例を示す図である。図１に示したダウンミキシング／ＩＭＤＣＴ回路の具体的な構成例を示す図である。本発明の第２の実施形態によるオーディオ復号装置のハードウェア構成例を示す図である。従来のオーディオ復号装置の動作を説明するための図である。本発明の第２の実施形態によるオーディオ復号装置の動作を説明するための図である。本発明の第３の実施形態によるオーディオ復号装置のハードウェア構成例を示す図である。本発明の第３の実施形態によるオーディオ復号装置の特徴を説明するための図である。本発明の第４の実施形態によるオーディオ復号装置のハードウェア構成例を示す図である。本発明の第５の実施形態によるオーディオ復号装置のハードウェア構成例を示す図である。図９に示した第５の実施形態によるオーディオ復号装置の機能構成を示すブロック図である。オーディオ符号化装置の構成例を示す図である。窓関数の形状の一例を示す図である。ＭＤＣＴ処理の順序を示す図である。従来のオーディオ復号装置の構成例を示す図である。復号処理の際のオーバーラップ関係を示す図である。図１４に示した従来のオーディオ復号装置のハードウェア構成例を示す図である。

符号の説明

１ＤＭＵＸ
２ＩＭＤＣＴ回路
３ワークバッファ
４窓掛け演算回路
５ディレイバッファ
６ＰＣＭバッファ
７ダウンミキシング回路
８窓掛け演算回路
９ディレイバッファ
１０ＰＣＭバッファ
１１第１の窓掛け演算回路
１２第１のダウンミキシング回路
１３第２のダウンミキシング回路
１４ディレイバッファ
１５第２の窓掛け演算回路
１６出力セレクタ回路
２１符号化データ入力端子
２２オーディオデータ出力端子
３１デマルチプレクス回路
３２逆量子化回路
３３周波数軸／時間軸変換手段
３４ディレイバッファ
３５窓掛け演算回路
４０周波数領域ダウンミキシング手段
１０１周波数領域ダウンミキシング回路
１０２、１０５周波数軸／時間軸変換回路
１０３加算／窓かけ回路
１０４時間軸／周波数軸変換回路
１１１、１１２、１１３、１１４、１１５メモリ回路

Claims

複数チャネルのオーディオ信号を時間軸／周波数軸変換を介して周波数領域で表す周波数領域オーディオデータを含む符号化データを復号するオーディオ復号装置であって、
上記周波数領域オーディオデータは、各々が可変ビット長を有し上記複数チャネルのオーディオ信号の１つについてのサンプルを表すサンプルデータを含み、
上記オーディオ復号装置は、上記周波数領域オーディオデータから各サンプルデータのビット長を求めてサンプルデータを識別する逆量子化手段と、
上記逆量子化手段により識別されたサンプルデータを周波数領域から時間領域へと変換する周波数軸／時間軸変換手段と、
上記逆量子化手段における逆量子化処理および上記周波数軸／時間軸変換手段における周波数軸／時間軸変換処理において共用される単一のメモリとを含み、
上記複数チャネルのオーディオ信号の各々について、上記逆量子化手段における逆量子化処理と上記周波数軸／時間軸変換手段における周波数軸／時間軸変換処理とをパイプライン処理で行い、
上記周波数領域オーディオデータは、上記複数チャネルのオーディオ信号のうちの少なくとも２つについて共用されるカップリングデータを含み、
上記メモリは、上記カップリングデータを記憶するための領域を更に有することを特徴とするオーディオ復号装置。
上記周波数軸／時間軸変換手段は、ＭＤＣＴ(Modified Discrete Cosine Transform)を使用して上記周波数領域オーディオデータを周波数領域から時間領域へと変換することを特徴とする請求項１に記載のオーディオ復号装置。