JP3254953B2 - 音声高能率符号化装置 - Google Patents

音声高能率符号化装置

Info

Publication number
JP3254953B2
JP3254953B2 JP05331795A JP5331795A JP3254953B2 JP 3254953 B2 JP3254953 B2 JP 3254953B2 JP 05331795 A JP05331795 A JP 05331795A JP 5331795 A JP5331795 A JP 5331795A JP 3254953 B2 JP3254953 B2 JP 3254953B2
Authority
JP
Japan
Prior art keywords
ratio
audio signal
band
masking
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05331795A
Other languages
English (en)
Other versions
JPH08223052A (ja
Inventor
徳彦 渕上
昭治 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP05331795A priority Critical patent/JP3254953B2/ja
Publication of JPH08223052A publication Critical patent/JPH08223052A/ja
Application granted granted Critical
Publication of JP3254953B2 publication Critical patent/JP3254953B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、オーディオ信号を複数
の周波数帯域(サブバンド)に分割し、分割された信号
をサブバンド毎に量子化及び符号化する音声高能率符号
化装置に関し、特に聴覚心理分析に基づいてサブバンド
毎の量子化ビット数を決定する音声高能率符号化装置に
関する。
【0002】
【従来の技術】ミニディスク(MD)、ディジタルコン
パクトカセット(DCC)、カラオケCD等における音
声高能率符号化は、オーディオ信号のデータ量を圧縮す
るので音楽圧縮とも呼ばれている。このような符号化方
式では、オーディオ信号がデジタルフィルタ又は直交変
換により複数のサブバンドに分割され、周波数領域にお
ける聴覚心理分析に基づいてサブバンド毎の量子化ビッ
ト数が決定される。なお、以下の説明では「エンコー
ド」という用語を符号化の他に圧縮の意味で用いる場合
もある。
【0003】図22の(a)〜(d)はこのような符号
化方式で周波数帯域を直交変換により分割する例を示し
ている。図22の(a)はエンコードの対象となる16
ビットPCMオーディオ信号を512サンプル分切り出
したことを示し、ここでは図の長方形で囲まれる全情報
量が16ビット*512=8192ビットとして説明す
る。もちろん、切り出されるサンプル数やPCMのビッ
ト数はこの値に限定されない。
【0004】図22の(b)は図22の(a)に示す信
号をDCT(離散コサイン変換)やFFT(高速フーリ
エ変換)等の直交変換により周波数変換した信号を示
し、図の曲線が周波数スペクトルのエンベロープを示し
ている。ここで、直交変換により情報量が保存されると
仮定すると、この全情報量も図の長方形領域で表現する
ことができる。一方、聴覚心理モデルによれば、図22
の(b)に示す信号が存在したときにその信号によりマ
スキングされて聞こえなくなる信号レベルをカーブとし
て規定することができ、これは一般にマスキング効果
(詳しくは後述)と言われる。
【0005】図22の(b)からマスキングカーブを描
くと図22の(c)に示すように表すことができ、ここ
で、図22の(b)に示す信号を再量子化することを考
慮すると、再量子化により発生する量子化ノイズレベル
がマスキングカーブで規定されるレベル以下であれば、
そのノイズは人間の耳には聞こえないと言うことができ
る。そこで、図22の(d)に示すようにスペクトルを
複数データ毎にサブバンドに分割し、各サブバンド毎の
最大信号レベルをSとし、また、図22の(c)から許
容されるノイズレベルをNとしてこのS/Nを満足する
ビット数で再量子化すれば、そのときの量子化ノイズは
マスキングされて聞こえない。
【0006】図22の(d)の矩形は圧縮時および伸長
時に必要な情報量を示し、特に図の中央の変形矩形は主
情報を、図の下側の細長い矩形は補助情報を示してい
る。なお、補助情報とはデコード時に必要な各サブバン
ドの最大値(スケール値)と量子化ビット数を示す情報
等である。したがって、図22の(d)において示され
る全情報量は主情報量と補助情報量の和であり、図22
の(a)や図22の(b)における全情報量の数分の1
になることが分かる。以上の処理を所定区間(この例で
は512サンプル区間)毎に繰り返すことにより音質を
殆ど劣化することなくエンコードすることができる。
【0007】図23は一般的なエンコード処理を示して
いる。先ず、例えば16ビットPCMオーディオ信号が
512サンプル分切り出され、各サンプルのオーディオ
信号がDCTやFFT等により直交変換され、複数のサ
ブバンドsに分割される(ステップS1)。そして、聴
覚心理分析により各サブバンドsの最大値(スケール
値)が決定されるとともに(ステップS2)、各サブバ
ンドの許容ノイズレベルN〔s〕が決定される(ステッ
プS3)。次いで各サブバンドに必要なS/N比が決定
され(ステップS4)、次いでこのS/N比から各サブ
バンドの量子化ビット数が決定され(ステップS5)、
各サブバンドが量子化されて補助情報とともに出力され
る(ステップS6)。
【0008】次に聴覚心理に基づくマスキングカーブの
計算方法を説明する。マスキング効果とはある周波数ス
ペクトルが存在する場合に、その周辺のある一定レベル
以下の音が検知できなくなることを言う。図24は各種
周波数スペクトルに関するマスキングカーブを示し、こ
のカーブの傾斜は低域ほど急峻であり、高域ほど緩慢で
ある。
【0009】また、図24の横軸(周波数)を聴覚の臨
界帯域幅に比例したスケールに変換すると、図25に示
すようにこれらのカーブはほぼ同様な形および傾斜のカ
ーブになることが知られている。また、この臨界帯域幅
は図26に示すように、DC〜20kHzを25バンド
で分割して表すことができ、マスキングを始めとする聴
覚特性は、この臨界帯域幅に比例した振る舞いをするこ
とが多い、
【0010】さて、図22の(b)に示すような一般的
な信号が存在したときのマスキングカーブは、図24ま
たは図25のように個々の周波数スペクトルに対するマ
スキングカーブの和(重ね合わせ)で表して図22の
(c)に示すような曲線で表すことができるが、実際の
計算では図22の(c)に示すような滑らかな曲線とし
てマスキングカーブを算出すると演算量が膨大となるの
で困難である。そこで、近似としてスペクトルを分析バ
ンド毎のパワーに置き換え、マスキングカーブを分析バ
ンド毎の折れ線波形として評価することが行われる。
【0011】次に、図22の(d)においてマスキング
カーブの各サブバンド区間における最小値をそのサブバ
ンドにおいて許容されるノイズレベルNとして、マスキ
ングカーブを算出してノイズレベルNを導出する従来例
を図27を参照して説明する。図27においては(1)
〜(5)に示す処理を行い、 (1)先ず、直交変換して得られたq(j=0〜q−
1)本の周波数スペクトルからm個の分析バンドi(i
=0〜m−1)毎のバンドトータルパワーP〔i〕を算
出する。
【0012】
【数1】
【0013】(2)次に、次式(数2)のように分析バ
ンドiに応じたマスキングの基準カーブBとバンドトー
タルパワーP〔i〕との畳み込み演算を行うことによ
り、各分析バンドiにおけるマスキングレベルM〔i〕
を算出する。ここで、マスキングの基準カーブBは、分
析バンドiによらず一定の形の場合には図28に示すよ
うなB〔k〕(kは整数)で表すことができる。
【0014】
【数2】
【0015】(3)−1:次に、分析バンドiとサブバ
ンドsが異なる場合にはサブバンドsの区間における最
小のマスキングレベルM〔i〕をそのサブバンドsの許
容ノイズレベルN〔s〕とする(サブバンド数nとす
る)。
【0016】
【数3】N〔s〕=min 〔M〔i〕〕
【0017】但し、iはサブバンドs〔S〕の中に含ま
れる各バンドを示し、また、s=0〜n−1とする。
【0018】(3)−2:分析バンドiとサブバンドs
が同一の場合には
【0019】
【数4】N〔s〕=M〔s〕 但し、s=0・・・n−1
【0020】(4)各サブバンドsの信号レベルS
〔s〕を求める。
【0021】
【数5】
【0022】(5)信号レベルS〔s〕と許容ノイズレ
ベルN〔s〕により各サブバンドsの必要S/N比(S
Nreq〔s〕)を求める(平均S/N比)。
【0023】
【数6】SNreq〔s〕=10.0・log 10(S
〔s〕/N〔s〕)
【0024】以上の処理(1)〜(3)により各サブバ
ンドsの許容ノイズレベルN〔s〕が求まり、また、処
理(4)(5)により各サブバンドsの必要S/N比が
求まり、この必要S/N比に基づいて各サブバンドsの
量子化ビット数(及び逆量子化ビット数)が求まる。
【0025】ここで、このような一連の処理において重
要な役割を果たすのが、図28において説明したマスキ
ング基準カーブB〔k〕の設定である。一般に、マスキ
ング効果はマスクする側の信号とマスクされる側の信号
の性質により振る舞いが異なると言われ、具体的には図
28に示すようにピーク値と「0.0」の差である「オ
フセット量F」が信号の性質の影響を受ける。
【0026】高能率符号化法では、マスクされる側の信
号は「ノイズ」であるので、マスクする側の信号が何か
によってオフセット量Fが変化する。実験によれば、マ
スクする側の信号が「正弦波」の場合にF≒25dB、
「ノイズ」の場合にF≒5dBであると報告されてい
る。高能率符号化に入力する実際の音楽・音声信号に
は、これらの値を上限、下限とするオフセット量Fが存
在し、このオフセット量Fを適切に測定して聴覚心理分
析に用いることが高音質を実現するために必要であると
言うことができる。
【0027】また、オフセット量Fは処理の各区間毎
に、各周波数帯域毎に測定することが望ましい。オフセ
ット量Fを測定する従来の方法としては、トナリティ
(tonality)を求めるのが一般的である。トナリティと
は信号の純音度を表す指標であり、1.0(正弦波)〜
0.0(ノイズ)の範囲の値をとる。このトナリティは
図29に示すように3つの連続する区間のそれぞれのF
FTスペクトルA、B、Cの直線予測から計算される。
なお、区間の間は隙間があってもよいし、重なる部分が
あってもよい。また、qポイントのスペクトルを得るた
めには2qポイントのFFTスペクトルが必要になる。
【0028】図30はトナリティを求めてオフセット量
Fを算出する従来の方法を示し、〜の処理を行う。 3つの区間のFFT係数の振幅R1 〔j〕、R2
〔j〕、R3 〔j〕(j=0〜q−1)と位相Φ1
〔j〕、Φ2 〔j〕、Φ3 〔j〕を求める。ここで、一
般的には(R3 ,Φ3 )が現区間のスペクトルであり、
また、(R2 ,Φ2 )が前区間のスペクトル、(R1
Φ1 )が2つ前の区間のスペクトルとすることが多い。
なお、振幅R〔j〕と位相Φ〔j〕はFFT係数の実数
部(Real〔j〕)と虚数部(Imag〔j〕)から以下のよ
うに求める。
【0029】
【数7】
【0030】R1 、R2 、Φ1 、Φ2 から予測される
3番目の区間のスペクトルRX 〔j〕、ΦX 〔j〕を直
線予測により次のように求める。
【0031】
【数8】RX 〔j〕=2・R2 〔j〕−R1 〔j〕 ΦX 〔j〕=2・Φ2 〔j〕−Φ1 〔j〕
【0032】(R,Φ)平面上における予測値(R
X ,ΦX )と実測値(R3 ,Φ3 )との距離c〔j〕を
評価する。なお、この距離は予測不能度(unpredictabi
lity)よ呼ばれる。
【0033】
【数9】
【0034】予測不能度c〔j〕を分析バンドi毎に
パワースペクトルで重み付け、平均化し、予測不能度c
2〔i〕を得る。
【0035】
【数10】
【0036】重み付け処理後の予測不能度c2〔i〕
をトナリティt〔i〕に変換する。
【0037】
【数11】t〔i〕=a+b・ln(c2〔i〕)
【0038】但し、a、bは0.0≦t〔i〕≦1.0
となるように決定する定数。 トナリティt〔i〕からオフセット量F〔i〕を算出
する。
【0039】
【数12】F〔i〕=α・t〔i〕+β・{1.0−t
〔i〕} 〔dB〕 但し、α=25.0,β=5.0等の定数。
【0040】
【発明が解決しようとする課題】しかしながら、トナリ
ティt〔i〕を算出する方法は、以下のような問題点が
ある。 問題点(1) 演算量が多い。図30に示す処理では、平方根やアー
クタンジェントの計算をサンプル毎に行うのでその演算
量がかなり多くなる。また、処理 3における距離演算の
場合にも平方根を用いる。
【0041】ここで、システムをDSP(デジタルシグ
ナルプロセッサ)等で実現する場合、一般の積和演算を
1インストラクションで行うとすると関数演算は100
インストラクション以上と考えられる。処理 、で
は平方根を2回、アークタンジェントを1回の演算をq
=512(1024ポイントFFT)のサンプル毎に行
うので、少なくとも100・512・3=153600
回の演算量を消費することになる。
【0042】例えばDSPの能力が20MIPS(Mill
ion Instruction Per Second)とすると、1区間当たり
の演算量はサンプル周波数fs =44.1kHzのと
き、20・106 ・512/44100.0≒2322
00回であるので、このDSPでは約66%もの演算量
を消費することになる。
【0043】また、高能率符号化方式の中には、直交変
換としてFFTの代わりにM(Modified)DCT等のよ
うに変換係数が振幅、位相として表現できないものを用
いる場合がある。この場合には、トナリティ計算を行う
ために別途にFFT演算を行う必要があり、その分だけ
演算量が増加する。
【0044】問題点(2) 音声信号にビブラートがかかっている場合にトナリティ
計算そのものに問題がある。例えば入力信号がボーカル
や単一楽器であってビブラートがかかっている場合、図
31に示すようにそのスペクトルは時間と共に数Hz〜
十数Hzの周期でドリフトしている。また、例えば区間
長=512サンプルであって区間が密接している場合、
3区間における中心の移動量は1024サンプル→23
msec となり、10Hzのビブラートの1/4周期(2
5msec )とほぼ一致する。
【0045】したがって、従来のトナリティ計算では各
スペクトル毎に直線予測を行うのでビブラートにより予
測精度が悪化し、本来、聴感上はトナリティが高い信号
であるにもかかわらず、算出されるトナリティが非常に
低くなり、聴感からずれた測定になるという問題点があ
る。
【0046】問題点(3) 図27に示す処理(1)〜(5)の如く聴覚心理分析に
基づく必要S/N比(SNreq〔s〕)の計算は、一般
的には良好な結果をもたらすが、データの圧縮率が高
く、各サブバンドsの量子化・逆量子化後のS/N比が
必要S/N比を下回る場合には問題が生じる。すなわ
ち、従来の方法では、聴覚心理分析による必要S/N比
が満足されない場合、全サブバンドsのS/N比が平均
的に劣化する。S/N比が劣化するとその量に応じて徐
々にノイズが検知されるようになり、そのとき信号パワ
ーの大きなバンドの劣化ほど聴感上目立つ傾向にある。
したがって、従来の方法では、S/N比の劣化が検知で
きる状況では、音質的に最適とは言えなくなる。
【0047】ここで、上記問題点を軽減するために、従
来の方法では、必要S/N比が満足されない場合にはパ
ワーが小さなバンドの情報を削減し、より大きなバンド
に情報を割り当てる手法がとられる。しかしながら、こ
の手法では、例えば1バンド、1ビット分の情報を移動
する場合、移動元のS/N比は約6dB劣化し、移動先
のS/N比は約6dB向上するという極端なことにな
る。また、バンドパワーそのものによって補正を行うの
で、パワーの大きなバンド(例えば中低域)が重視され
過ぎるという新たな問題点が発生する。
【0048】問題点(4) ところで、以上の説明では独立したオーディオ信号を高
能率符号化することを考えているが、他の用途として、
また、システムによっては高能率符号化した信号と高能
率符号化しない信号を伝送し、再生側でこれらの信号を
ミキシングして1つのオーディオ信号として再生等する
ことが考えられる。
【0049】最も単純な例としては、例えば図32に示
すようにチャネル(CH)−Aのオーディオ信号をオー
ディオエンコーダ20により高能率符号化し、CH−B
のオーディオ信号を高能率符号化しないでマルチプレッ
クス部21により多重化して伝送する。そして、再生側
ではデマルチプレックス部22によりチャネルを分離
し、オーディオデコーダ23によりデコードした信号C
H−A’とCH−Bのオーディオ信号をミキサ24によ
りミキシングする。
【0050】また、他の例として図33の(a)に示す
ようにCH−Aのオーディオ信号を高能率符号化すると
共に、電子楽器をコントロールするデジタル信号の国際
規格であるMIDI(Musical Instrument Digital Int
erface)シーケンサ25によりCH−Bのオーディオ信
号をMIDIコード化し、マルチプレックス部21によ
り多重化して伝送する。そして、再生側ではデマルチプ
レックス部22によりチャネルを分離し、オーディオデ
コーダ23によりデコードした信号CH−A’とMID
Iコードに基づいてMIDI音源26により演奏された
信号CH−B’をミキサ24によりミキシングする。
【0051】この変形例としては図33の(b)に示す
ようにCH−Aのオーディオ信号を高能率符号化すると
共に、CH−B1、CH−B2の2チャネルをMIDI
コード化し、再生側で信号CH−A’とMIDIコード
から演奏された2チャネルのCH−B1’、CH−B
2’をそれぞれミキサ24−1、24−2によりミキシ
ングして2チャネルで出力する。この中でも図33の
(b)に示すシステムは近年、MIDIコードを用いた
通信カラオケに用いられ、高能率符号化する信号は肉声
コーラスなどが多い。
【0052】しかしながら、高能率符号化するCH−A
のオーディオ信号は、オーディオエンコーダ10のみに
よる聴覚心理分析でビット割り当てを行っているので、
再生側でミキシングされる側のCH−Bの影響を考えて
いない。すなわち、再生側でミキシングを行った場合、
CH−Aのオーディオ信号がCH−Bの信号からのマス
キング効果による影響を受けることになり、したがっ
て、CH−Aのオーディオ信号のみを聞く場合には最適
にエンコードされるが、他の信号をミキシングした場合
には音質的に最適とは言えなくなる。
【0053】図34はCH−Aの信号スペクトルと、C
H−Aを聴覚心理分析したマスキングレベルM1
〔i〕、及びミキシングの対象となる他のチャネルから
のマスキングレベルM2〔i〕の一例を示し、低域と高
域ではM1<M2であり、中域ではM1>M2である。
この場合、ミキシング後のCH−Aの信号にとって最適
なマスキングレベルM〔i〕は図27に示す処理(3)
において
【0054】
【数13】 M〔i〕=max (M1〔i〕,M2〔i〕) 但し、i=0〜m−1
【0055】と考えられる。図32、図33の(a)
(b)に示すようにミキシングを行う場合にはマスキン
グレベルがこの最適値M〔i〕からずれていることにな
り、聴感上最適とは言えないという問題点がある。特に
実際のノイズレベルがマスキングレベルと同等か又はそ
れ以上になるような圧縮率が高い場合には、聴感上にお
いても図34においてM1〔i〕>M2〔i〕となるよ
うな領域ではノイズが強調されて聞こえるという現象が
発生する。
【0056】本発明は上記(1)(2)の問題点に鑑
み、マスキング基準カーブのオフセット量を演算する際
の演算量を減少し、聴覚心理をより満足させて音質を向
上させることができる音声高能率符号化装置を提供する
ことを目的とする。本発明はまた、上記(3)の問題点
に鑑み、データの圧縮率が高く、聴覚心理分析による必
要S/N比が満足されない場合に音質を向上させること
ができる音声高能率符号化装置を提供することを目的と
する。本発明はまた、上記(4)の問題点に鑑み、高能
率符号化した信号と高能率符号化しない信号を再生側で
ミキシングする場合に高能率符号化しない信号による影
響を考慮して聴覚心理分析を行って聴覚心理をより満足
させて音質を向上させることができる音声高能率符号化
装置を提供することを目的とする。
【0057】
【課題を解決するための手段】本発明は上記目的を達成
するために、直交変換係数からオーディオ信号のパワー
スペクトルを算出してこのパワースペクトルの自己相関
を予め定めた帯域毎に算出し、この自己相関の最大値と
最小値の比から聴覚心理上のマスキング効果のオフセッ
ト量を算出し、このオフセット量に基づいて各サブバン
ドの量子化ビット数を決定するようにしている。
【0058】すなわち本発明によれば、オーディオ信号
を複数の周波数帯域のサブバンドに分割する分割手段
と、前記分割手段により分割された各サブバンドのオー
ディオ信号を可変の量子化ビット数で量子化及び符号化
する量子化・符号化手段と、前記分割手段又は別途の直
交変換手段により得られた直交変換係数からオーディオ
信号のパワースペクトルを算出してこのパワースペクト
ルの自己相関を予め定めた帯域毎に算出し、この自己相
関の最大値と最小値の比から聴覚心理上のマスキング効
果のオフセット量を算出し、このオフセット量に基づい
て前記量子化・符号化手段の各サブバンドの量子化ビッ
ト数を決定する聴覚心理分析手段とを有する音声高能率
符号化装置が提供される。
【0059】本発明はまた、オーディオ信号の周波数領
域の聴覚心理分析に基づいてサブバンド毎の第1の必要
S/N比を算出すると共にサブバンド毎の信号パワーか
ら聴覚的制御を含む二乗平均誤差最小理論により第2の
必要S/N比を算出し、第1、第2の必要S/N比を重
み付けして最終の必要S/N比を算出し、この最終の必
要S/N比に基づいて各サブバンドの量子化ビット数を
決定するようにしている。
【0060】すなわち本発明によれば、オーディオ信号
を複数の周波数帯域のサブバンドに分割する分割手段
と、前記分割手段により分割された各サブバンドのオー
ディオ信号を可変の量子化ビット数で量子化及び符号化
する量子化・符号化手段と、オーディオ信号の周波数領
域の聴覚心理分析に基づいてサブバンド毎の第1の必要
S/N比を算出すると共にサブバンド毎の信号パワーか
ら聴覚的制御を含む二乗平均誤差最小理論により第2の
必要S/N比を算出し、前記第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて前記量子化・符号化手段の各
サブバンドの量子化ビット数を決定する聴覚心理分析手
段とを有する音声高能率符号化装置が提供される。
【0061】本発明はまた、高能率符号化する第1のオ
ーディオ信号と、高能率符号化されず再生側で第1のオ
ーディオ信号とミキシングされる第2のオーディオ信号
をそれぞれ周波数領域で聴覚心理分析して第1、第2の
マスキングレベルを算出し、この第1、第2のマスキン
グレベルに基づいて最終のマスキングレベルを算出し、
この最終のマスキングレベルに基づいて各サブバンドの
量子化ビット数を決定するようにしている。
【0062】すなわち本発明によれば、高能率符号化す
る第1のオーディオ信号を複数の周波数帯域のサブバン
ドに分割する分割手段と、前記分割手段により分割され
た各サブバンドのオーディオ信号を可変の量子化ビット
数で量子化及び符号化する量子化・符号化手段と、前記
第1のオーディオ信号と、高能率符号化されず再生側で
前記第1のオーディオ信号とミキシングされる第2のオ
ーディオ信号をそれぞれ周波数領域で聴覚心理分析して
第1、第2のマスキングレベルを算出し、この第1、第
2のマスキングレベルに基づいて最終のマスキングレベ
ルを算出し、この最終のマスキングレベルに基づいて前
記量子化・符号化手段の各サブバンドの量子化ビット数
を決定する聴覚心理分析手段とを有する音声高能率符号
化装置が提供される。
【0063】
【作用】本発明では、直交変換係数からオーディオ信号
のパワースペクトルを算出してこのパワースペクトルの
自己相関を予め定めた帯域毎に算出し、この自己相関の
最大値と最小値の比から聴覚心理上のマスキング効果の
オフセット量を算出し、このオフセット量に基づいて各
サブバンドの量子化ビット数を決定するので、マスキン
グ基準カーブのオフセット量を演算する際の演算量を減
少し、また、オーディオ信号にビブラートがかかってい
る場合にも聴覚心理をより満足させて音質を向上させる
ことができる。
【0064】また、本発明では、オーディオ信号の周波
数領域の聴覚心理分析に基づいてサブバンド毎の第1の
必要S/N比を算出すると共にサブバンド毎の信号パワ
ーから聴覚的制御を含む二乗平均誤差最小理論により第
2の必要S/N比を算出し、第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて各サブバンドの量子化ビット
数を決定するので、データの圧縮率が高く、聴覚心理分
析による必要S/N比が満足されない場合に音質を向上
させることができる。
【0065】また、本発明では、高能率符号化する第1
のオーディオ信号と、高能率符号化されず再生側で第1
のオーディオ信号とミキシングされる第2のオーディオ
信号をそれぞれ周波数領域で聴覚心理分析して第1、第
2のマスキングレベルを算出し、この第1、第2のマス
キングレベルに基づいて最終のマスキングレベルを算出
し、この最終のマスキングレベルに基づいて各サブバン
ドの量子化ビット数を決定するので、高能率符号化した
信号と高能率符号化しない信号を再生側でミキシングす
る場合に高能率符号化しない信号による影響を考慮して
聴覚心理分析を行って聴覚心理をより満足させて音質を
向上させることができる。
【0066】
【実施例】以下、図面を参照して本発明の実施例につい
て説明する。図1は本発明に係る音声高能率符号化装置
の第1実施例を示すブロック図、図2は図1の変形例を
示すブロック図、図3は図1の他の変形例を示すブロッ
ク図、図4は前後のサブバンドとのパワースペクトルの
自己相関を算出する場合を示す説明図、図5はオフセッ
ト量を算出する処理を説明するためのフローチャート、
図6はビブラートが存在するオーディオ信号のスペクト
ルの一例を示す説明図、図7は従来技術のトナリティ算
出方法と第1実施例の自己相関方法により求めたオフセ
ット量を比較した説明図である。
【0067】図1に示す第1実施例はオーディオ信号の
帯域分割を直交変換により行う場合を示している。図1
において、例えば16ビットPCMオーディオ信号が窓
掛け・切出し部1により512サンプル分切り出され、
各サンプルのオーディオ信号が直交変換部2によりDC
TやFFT等により直交変換され、複数のサブバンドs
に分割される。
【0068】そして、聴覚心理分析部3によりマスキン
グ基準カーブのオフセット量Fが算出されて量子化ビッ
ト数が決定され、量子化・符号化部4はこの量子化ビッ
ト数で、直交変換部2により分割された各サブバンドs
のオーディオ信号を量子化及び符号化する。この量子化
・符号化部4により量子化および符号化されて圧縮され
たデータと、聴覚心理分析部3により決定された量子化
ビット数はマルチプレックス部5により多重化されてM
DやDCC等に出力される。なお、伸長時には圧縮デー
タは各サブバンドs毎の量子化ビット数に基づいて逆量
子化及び復号化される。
【0069】図2に示す変形例では、入力オーディオ信
号がデジタルフィルタ6によりサブバンドsに分割さ
れ、量子化・符号化部4により量子化および符号化され
て圧縮されたデータと、聴覚心理分析部3により決定さ
れた量子化ビット数はマルチプレックス部5により多重
化されるように構成されている。ここで、フィルタバン
クによるサブバンド分割方法では、本発明が必要とする
低域のバンド分解能を得ることができないので、図1に
示す場合と同様に、切出し部1により切り出された各サ
ンプルのオーディオ信号が直交変換部2により複数のサ
ブバンドsに分割され、聴覚心理分析部3によりマスキ
ング基準カーブのオフセット量Fが算出されて量子化・
符号化部4の量子化ビット数が決定される。
【0070】図3に示す変形例では、オーディオ信号用
の系列と量子化ビット数決定用の窓掛け・切出し部1
a、1b、直交変換部2a、2b(及びオフセット算出
量算出部7)が設けられている。このように2系列で構
成した場合には、直交変換部2a、2bのポイント数が
異なるように、例えば直交変換部2aは1024ポイン
ト、直交変換部2bは2048ポイントのように構成す
ることができる。
【0071】次に、図4を参照して前後のサブバンドと
のパワースペクトルの自己相関を算出する処理について
説明する。予め決められたサブバンドsとその前後のサ
ブバンドs−1、s+1のパワースペクトルが例えば図
4の(a)に示すような場合、サブバンドs内のスペク
トルとその前後のサブバンドs−1、s+1のパワース
ペクトルとの間で自己相関を計算する。そして、その結
果が図4の(b)に示すような場合には自己相関値の最
大値と最小値の比を対数変換してオフセット量Fを算出
する。これにより、高調波成分がハッキリしたトーンラ
イクな信号の場合にはオフセット量Fは大きくなり、逆
にノイズライクな場合にはオフセット量Fは小さくな
る。なお、図4の(b)に示すようにスライド量=0と
その周辺の位置は最大値検索から除外する。
【0072】次に、図5を参照してマスキング基準カー
ブのオフセット量Fを算出する処理〜について説明
する。図5は一例として直交変換として2qポイントF
FTを用いた場合を示し、この直交変換のポイント数2
qについては1024〜2048程度の値であることが
望ましい。図5において、先ず、 直交変換係数の実数部Real〔j〕と虚数部Imag〔j〕
からパワースペクトルp〔j〕を算出する。
【0073】
【数14】p〔j〕=Real〔j〕2 +Imag〔j〕2 但し、j=0〜q−1
【0074】次に、予め決められたバンド毎に自己相
関Sc 〔s〕〔i〕を求める。qサンプルをn個のバン
ドに分割した場合には、
【0075】
【数15】
【0076】最後に、各バンド毎に自己相関Sc
〔s〕〔i〕の最大値と最小値からオフセット量F
〔s〕を算出する。
【0077】
【数16】
【0078】図6の(a)(b)は、図1〜図3に示す
直交変換部2、2aのポイント数が1024であって、
ビブラートが存在するオーディオ信号のスペクトルが1
024ポイント(23msec )ずれた場合を示し、図か
ら明らかなようにピークがオフセットしていることがわ
かる。図7は従来例のトナリティ算出方法と本実施例の
自己相関方法により32バンド毎に求めたオフセット量
Fを示し、図から明らかなようにこのオーディオ信号は
聴感上、中低域がトーンライクであって情報量が多く、
本実施例の自己相関方法によるオフセット量Fが聴感に
一致している.
【0079】また、このオフセット量Fを求めるための
演算量は、例えば図3に示す直交変換部2bの2048
FFTポイントを含む場合を例にし、また、図4に示す
処理〜では関数演算を100回、乗算を1回、除算
を20回と仮定すると約90,000回になり、従来例
のトナリティ算出方法による約180,000回に比べ
て半減させることができる。
【0080】次に、図8〜図14を参照して本発明の第
2実施例について説明する。図8は第2実施例の音声高
能率符号化装置を示すブロック図、図9はノイズ・シェ
イピング・ファクタと量子化ノイズの関係を示す説明
図、図10は第1、第2の必要S/Nから最終の必要S
/Nを算出する処理を説明するためのフローチャート、
図11は最終の必要S/Nを算出する際の重み付け関数
を示す説明図、図12はS/N比の劣化が検知されやす
いソースのスペクトルを示す説明図、図13は図12に
示すソースのS/N比を示す説明図、図14は従来例と
第2実施例において音質の比較結果を示す説明図であ
る。
【0081】図8に示す第2実施例は、第1の必要S/
N比を算出等する聴覚心理分析部3と、サブバンドs毎
の信号パワーに基づいて二乗平均誤差最小理論により第
2の必要S/N比を算出等する第2の必要S/N算出
(及び最終必要S/N算出)部8とビット割り当て部9
を有する。第1の必要S/Nは、従来例と同様に純粋に
マスキング効果を中心とした聴覚心理モデルにより求め
られ、第2の必要S/N比は、各サブバンドs毎の信号
パワーに対して量子化ノイズを聴覚的に制御するパラメ
ータを加えた二乗平均誤差最小理論に基づいて求められ
る。
【0082】ここで、後者では前者に比較してパワーが
大きなバンドの必要S/N比が若干強調される傾向にあ
る。そこで、先ず、各サブバンドの第2の必要S/N比
のトータルの平均値が第2の必要S/N比のそれと一致
するように第1の必要S/N比を正規化する。この理由
は、あくまでも第1の必要S/N比が聴覚心理と一致し
た量であって第2の必要S/N比はその補助のために用
いるものであり、さもないと第1、第2の必要S/N比
の平均値の間に差があると誤動作するからである。
【0083】最後に、第1の必要S/N比と正規化した
第2の必要S/N比とを重み付けして加算し、最終の必
要S/N比を得て各サブバンドsの量子化ビット数を決
定する。この場合、重み比率としては、例えば第1の必
要S/N比:第2の必要S/N比=0.7:0.3のよ
うに第1の必要S/N比を重視して加算する。以上の方
法により、圧縮率が高く、S/N比が検知される場合に
も聴覚上の劣化を最小限に抑えることができ、また、パ
ワーの大きなバンドが重視され過ぎるという問題も発生
しない。
【0084】次に、二乗平均誤差最小理論によりビット
を配分する手法について説明する。一般に、音声波形は
ガウス過程で近似できると言われており、この場合、量
子化後の二乗平均誤差を最小にするビット配分(各バン
ドsのビット数)bit 〔s〕は、伝送速度−歪み理論か
ら次式1(数17)のように表される。
【0085】
【数17】
【0086】そして、実際にはbit 〔s〕の総和が使用
可能ビット数になるように上記係数a、bが調整され
る。ここで、式1(数17)は聴覚制御を行わない場合
を示し、得られるbit 〔s〕はバンドパワーを強く反映
したものであり、その結果の量子化ノイズはPCMコー
ディングと同様のホワイトノイズとなる。そこで、本実
施例では、聴覚制御を行う際に式1(数17)に対して
ウェイトファクタw〔s〕を追加して次式2(数18)
を得る。
【0087】
【数18】
【0088】式2(数18)におけるノイズ・シェイピ
ング・ファクタγは−1.0〜0.0の範囲の値を取
り、γ=0.0の場合に式1(数17)と一致する。逆
にγ=−1.0の場合には式2(数18)のビット配分
bit 〔s〕は定数となり、バンド毎の量子化ビット数は
同一となる。図9はγ=−1.0〜0.0の場合の量子
化ノイズを示し、一般にはγ=−0.2〜−0.1程度
のときに聴感と良く一致すると考えられている。
【0089】次に、図10を参照して第1、第2の必要
S/Nから最終の必要S/Nを算出する各処理 〜
を説明する。 先ず、直交変換係数からバンドトータルパワーP
〔s〕を算出する。例えばq本のスペクトルをnバンド
に分割する場合には、
【0090】
【数19】
【0091】次に、予め定めたバンド平均S/N比
(SNavr )から全バンド平均誤差パワー(定数)bを
求める。
【0092】
【数20】
【0093】式2(数18)により各バンドsのビッ
ト配分bit 〔s〕を算出する。
【0094】
【数21】bit 〔s〕=a+0.5・log 2(w〔s〕
・P〔s〕/b)
【0095】ビット配分bit 〔s〕より仮の第2の必
要S/N比(=SNreq'〔s〕)を算出する。
【0096】
【数22】 SNreq'〔s〕=6.02・bit 〔s〕 〔dB〕
【0097】第1の必要S/N比と仮の第2の必要S
/N比の各平均値SNreq 〔s〕_avr 、SNreq'
〔s〕_avr を算出する。
【0098】
【数23】
【0099】仮の第2の必要S/N比の平均値SNre
q'〔s〕_avr を正規化し、第2の必要S/N比(SN
req 2〔s〕)を得る。
【0100】
【数24】 SNreq 2〔s〕=SNreq'〔s〕 ・(SNreq _avr /SNreq'_avr ) 〔dB〕
【0101】第1の必要S/N比の平均値(SNreq
〔s〕_avr )をパラメータとして、第1の必要S/N
比(SNreq 〔s〕)と第2の必要S/N比(SNreq
2〔s〕)から最終の必要S/N比(SNreq _fin
〔s〕)を求める。
【0102】
【数25】 SNreq _fin 〔s〕 =f〔SNreq _avr 〕・SNreq 〔s〕 +(1.0−f〔SNreq _avr 〕)・SNreq 2〔s〕 〔dB〕
【0103】ここで、f〔x〕は図11に示すように、
0.0〜1.0の範囲の値の重み付け関数であり、第1
の必要S/N比の平均値(SNreq 〔s〕_avr )が大
きい場合には第2の必要S/N比(SNreq 2〔s〕)
が増加するように設定される。
【0104】ここで、図12に示すようにS/N比の劣
化が検知されやすいソースのスペクトルの場合、図13
の(a)に示すように第1、第2の必要S/N比はそれ
ぞれ太線、細線のような値となり、また、図13の
(b)に示すように第1の必要S/N比と最終の必要S
/N比はそれぞれ太線、細線のような値となる。このよ
うなソースの場合、パワーが大きな2〜4kHz付近の
S/N比が補正され、したがって、聴感上のS/N比も
改善することができる。また、図14に示すように従来
例と本実施例における3つの第1の必要S/N比を比較
した場合、本実施例によれば第1の必要S/N比の平均
値(SNreq 〔s〕_avr )が大きい場合に改善効果が
大きいことが分かる。
【0105】次に、本発明の第3実施例について説明す
る。図15は第3実施例の音声高能率符号化装置を示す
ブロック図、図16は図15の音声高能率符号化装置の
変形例を示すブロック図、図17は図15及び図16の
オーディオエンコーダの一例を詳細に示すブロック図、
図18は2チャネル間の同期が十分な精度で保証されて
いる場合の必要S/N比算出処理を説明するためのフロ
ーチャート、図19は2チャネル間の同期精度が悪い場
合の必要S/N比算出処理を説明するためのフローチャ
ート、図20は従来技術と本実施例によるミキシング後
のMNRを比較した説明図、図21は従来技術と本実施
例によるミキシング後の音質評価を比較した説明図であ
る。
【0106】図15に示す第3実施例は図32に示すオ
ーディオエンコーダ20に適用した場合のものである。
この場合は、エンコーダ20により高能率符号化するC
H−Aの第1のオーディオ信号と、高能率符号化されず
再生側で第1のオーディオ信号とミキシングされるCH
−Bの第2のオーディオ信号をそれぞれ周波数領域で聴
覚心理分析して第1、第2のマスキングレベルを算出
し、この第1、第2のマスキングレベルに基づいて最終
のマスキングレベルを算出し、この最終のマスキングレ
ベルに基づいて各サブバンドの量子化ビット数を決定し
て第1のオーディオ信号を量子化および符号化し、ビッ
トストリームとして出力する。このビットストリームと
CH−Bの高能率符号化されない信号がマルチプレック
ス部21により多重化される。
【0107】また、図16に示す第3実施例は図33の
(a)に示すオーディオエンコーダ20に適用した場合
を示している。この場合には、MIDIシーケンサ25
によりCH−Bのオーディオ信号をMIDIコード化
し、MIDIコードに基づいてMIDI音源26により
演奏された信号CH−B’を生成し、エンコーダ20に
よりCH−Aの第1のオーディオ信号と信号CH−B’
の第1、第2のマスキングレベルを算出し、この第1、
第2のマスキングレベルに基づいて最終のマスキングレ
ベルを算出し、この最終のマスキングレベルに基づいて
各サブバンドの量子化ビット数を決定して第1のオーデ
ィオ信号を量子化および符号化し、ビットストリームと
して出力する。このビットストリームとMIDIコード
はマルチプレックス部21により多重化される。
【0108】そして、再生側では図33の(a)に示す
ように、デマルチプレックス部22によりチャネルを分
離し、オーディオデコーダ23によりデコードした信号
CH−A’とMIDIコードに基づいてMIDI音源2
6により演奏された信号CH−B’をミキサ24により
ミキシングする。
【0109】図17に示すエンコーダ20は一例として
オーディオ信号の帯域分割を直交変換により行い、もち
ろん帯域分割を図2に示すようにデジタルフィルタ6に
より行う場合にも適用することができる。図17におい
て、高能率符号化を行うチャネルCH−Aの信号と、高
能率符号化を行わず再生側でミキシングするCH−Bの
信号は、それぞれ窓掛け・切出し部1A、1B及び直交
変換部2A、2Bによりサブバンドに分割され、聴覚心
理分析部3A、3Bに印加される。なお、CH−A、C
H−Bの信号の再生側のミキシング比率が1:1でない
場合には、その比率を考慮したCH−A、CH−B間の
レベルが調整される(レベル調整部11)。
【0110】次に、図18を参照していずれもチャネル
CH−A、CH−B間の同期処理(例えば±1msec 以
内)が予め成されている場合の処理について説明する。
図18は従来例の図27において説明した処理に対応
し、処理(1)〜(5)が同一であり、処理(1)’、
(2)’及び(x)が追加されている。聴覚心理分析部
3Bでは処理(1)’、(2)’においてCH−Bの信
号の周波数領域の聴覚心理分析により得られるマスキン
グレベルM2を算出する。
【0111】これに対し、聴覚心理分析部3Aは処理
(1)、(2)においてCH−Aの信号の周波数領域の
聴覚心理分析により得られるマスキングレベルM1を算
出し、続く処理(x)においてこのマスキングレベルM
1と聴覚心理分析部3Bにより算出されたマスキングレ
ベルM2により、式(数13)に示すM〔i〕=max
(M1〔i〕,M2〔i〕に基づいて高能率符号化しな
い信号による影響を考慮した最終のマスキングレベルM
を算出する。次いで処理(3)〜(5)においてこの最
終のマスキングレベルMに基づいて必要S/N比を算出
する。ビット割り当て部12はこの必要S/N比に基づ
いて各サブバンドの量子化ビット数を割り当て、量子化
・符号化部4はCH−A側をこの量子化ビット数に基づ
いて量子化、符号化する。
【0112】次に、図19を参照してCH−A、CH−
B間の同期精度が悪い場合の処理を説明する。ミキシン
グ時の同期ずれが聴感上では許されるが、聴覚心理分析
上では問題となる場合、例えば同期誤差が±5〜10m
sec の場合、聴覚心理分析部3Bが図18に示す処理
(1)’、(2)’を行うと、実際のミキシング時の同
期ずれのためにマスキングレベルMの変更が逆効果にな
る可能性がある。
【0113】そこで、CH−B側の聴覚心理分析部3B
は、図19に示す処理(1)’においてCH−Bの直交
変換長をCH−Aのそれより2倍程度に設定して各分析
バンドのトータルパワーP2〔i〕を算出することによ
り同期ずれの誤差を平坦化して軽減し、続く処理
(2)’においてこのトータルパワーP2〔i〕とマス
キング基準カーブB(k〕からマスキングレベルM2を
算出する。また、CH−A側の聴覚心理分析部3Aは式
(数13)に基づいてM1〔i〕及びM2〔i〕からM
〔i〕を決定する際に最大値をとらないで、処理(x)
では、重み付け係数aを例えばa=0.6として
【0114】
【数26】 M〔i〕=M1〔i〕・0.6+M2〔i〕・0.4
【0115】のように、M1〔i〕を重視してM〔i〕
を決定することにより、CH−A、CH−B間の同期精
度が悪い場合の聴覚心理分析上の問題を解決することが
できる。したがって、この第3実施例によれば、高能率
符号化した信号と高能率符号化しない信号を再生側でミ
キシングする場合に、ミキシングされた音質が最適にな
るように高能率符号化することができる。
【0116】ここで、一般にオーディオ信号の再生品質
を客観的に評価する場合にはMNR(Mask to Noise Ra
tio )を測定することが多い。具体的には図34におい
て示したように周波数領域におけるマスキングレベルM
と、実際に信号中に生じている(量子化)ノイズNとの
比を求める。この場合、MNRが正の領域では聴覚心理
上のマスキング効果は満足されており、ノイズは検知さ
れない。逆にMNRが負の領域では聴覚心理上のマスキ
ング効果が満足されず、ノイズが検知される。また、M
NRが正の場合であってもできるだけフラットな周波数
特性を示す方が聴覚心理上好ましいと考えられる。その
理由は、帯域によってはMNRに差があるとバランス
上、若干不自然な音に感じられるからである。
【0117】図20はあるオーディオ信号を従来技術と
本実施例によりそれぞれ処理した場合のミキシング後の
MNR〔dB〕の測定例を示している。本実施例(実
線)ではほぼ全周波数領域においてフラットな特性を示
すのに対し、従来技術(破線)では特性にうねりがあ
り、一部の領域(図の10kHz前後)では負の値を示
している。このように平均MNRが0dBに近い場合に
は効果は特に大きい。
【0118】図21は従来技術と本実施例により多数の
ソースでミキシングした後の音質主観評価(5段階評
価)を行った例を示し、本実施例によれば、評価値の平
均値が向上し、特に評価値のバラツキが減少することが
分かる。
【0119】
【発明の効果】以上説明したように本発明によれば、直
交変換係数からオーディオ信号のパワースペクトルを算
出してこのパワースペクトルの自己相関を予め定めた帯
域毎に算出し、この自己相関の最大値と最小値の比から
聴覚心理上のマスキング効果のオフセット量を算出し、
このオフセット量に基づいて各サブバンドの量子化ビッ
ト数を決定するので、マスキング基準カーブのオフセッ
ト量を演算する際の演算量を減少し、また、オーディオ
信号にビブラートがかかっている場合にも聴覚心理をよ
り満足させて音質を向上させることができる。
【0120】また、本発明では、オーディオ信号の周波
数領域の聴覚心理分析に基づいてサブバンド毎の第1の
必要S/N比を算出すると共にサブバンド毎の信号パワ
ーから聴覚的制御を含む二乗平均誤差最小理論により第
2の必要S/N比を算出し、第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて各サブバンドの量子化ビット
数を決定するので、データの圧縮率が高く、聴覚心理分
析による必要S/N比が満足されない場合に音質を向上
させることができる。
【0121】また、本発明では、高能率符号化する第1
のオーディオ信号と、高能率符号化されず再生側で第1
のオーディオ信号とミキシングされる第2のオーディオ
信号をそれぞれ周波数領域で聴覚心理分析して第1、第
2のマスキングレベルを算出し、この第1、第2のマス
キングレベルに基づいて最終のマスキングレベルを算出
し、この最終のマスキングレベルに基づいて各サブバン
ドの量子化ビット数を決定するので、高能率符号化した
信号と高能率符号化しない信号を再生側でミキシングす
る場合に高能率符号化しない信号による影響を考慮して
聴覚心理分析を行って聴覚心理をより満足させて音質を
向上させることができる。
【図面の簡単な説明】
【図1】本発明に係る音声高能率符号化装置の第1実施
例を示すブロック図である。
【図2】図1の変形例を示すブロック図である。
【図3】図1の他の変形例を示すブロック図である。
【図4】前後のサブバンドとのパワースペクトルの自己
相関を算出する場合を示す説明図である。
【図5】オフセット量を算出する処理を説明するための
フローチャートである。
【図6】ビブラートが存在するオーディオ信号のスペク
トルの一例を示す説明図である。
【図7】従来技術のトナリティ算出方法と第1実施例の
自己相関方法により求めたオフセット量を比較した説明
図である。
【図8】第2実施例の音声高能率符号化装置を示すブロ
ック図である。
【図9】ノイズ・シェイピング・ファクタと量子化ノイ
ズの関係を示す説明図である。
【図10】第1、第2の必要S/Nから最終の必要S/
Nを算出する処理を説明するためのフローチャートであ
る。
【図11】最終の必要S/Nを算出する際の重み付け関
数を示す説明図である。
【図12】S/N比の劣化が検知されやすいソースのス
ペクトルを示す説明図である。
【図13】図12に示すソースのS/N比を示す説明図
である。
【図14】従来例と第2実施例において音質の比較結果
を示す説明図である。
【図15】第3実施例の音声高能率符号化装置を示すブ
ロック図である。
【図16】図15の音声高能率符号化装置の変形例を示
すブロック図である。
【図17】図15及び図16のオーディオエンコーダの
一例を詳細に示すブロック図である。
【図18】2チャネル間の同期が十分な精度で保証され
ている場合の必要S/N比算出処理を説明するためのフ
ローチャートである。
【図19】2チャネル間の同期精度が悪い場合の必要S
/N比算出処理を説明するためのフローチャートであ
る。
【図20】従来技術と第3実施例によるミキシング後の
MNRを比較した説明図である。
【図21】従来技術と第3実施例によるミキシング後の
音質評価を比較した説明図である。
【図22】音声高能率符号化方法を模式的に示す説明図
である。
【図23】図22の音声高能率符号化処理を説明するた
めのフローチャートである。
【図24】各種周波数スペクトルにおけるマスキングカ
ーブの一例を示す説明図である。
【図25】図24の横軸の周波数を臨界帯域に置き換え
たマスキングカーブを示す説明図である。
【図26】25バンドの臨界帯域幅を示す説明図であ
る。
【図27】従来の必要S/N比算出処理を説明するため
のフローチャートである。
【図28】マスキング基準カーブの一例を示す説明図で
ある。
【図29】3区間のスペクトルを直線予測する方法を示
す説明図である。
【図30】従来のオフセット算出処理を説明するための
フローチャートである。
【図31】ビブラートが存在する信号のスペクトルの一
例を示す説明図である。
【図32】従来のミキシング回路を示すブロック図であ
る。
【図33】他の従来のミキシング回路を示すブロック図
である。
【図34】高能率符号化する信号及びそのマスキングレ
ベルと高能率符号化しない信号のマスキングレベルを示
す説明図である。
【符号の説明】
1,1a,1b,1A,1B 窓掛け切出し部 2,2a,2b,2A,2B 直交変換部(分割手段) 3,3A,3B 聴感心理分析部(聴感心理分析手段) 4 量子化・符号化部(量子化・符号化手段) 5 マルチプレックス部 6 サブバンドフィルタ部(分割手段) 7 オフセット量算出部(聴感心理分析手段) 8 第2の必要S/N算出部(聴感心理分析手段) 9 ビット割り当て部(聴感心理分析手段)
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−46137(JP,A) 特開 平3−250923(JP,A) 特開 平6−232761(JP,A) 特開 平7−66733(JP,A) (58)調査した分野(Int.Cl.7,DB名) H03M 7/30

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 オーディオ信号を複数の周波数帯域のサ
    ブバンドに分割する分割手段と、 前記分割手段により分割された各サブバンドのオーディ
    オ信号を可変の量子化ビット数で量子化及び符号化する
    量子化・符号化手段と、 前記分割手段又は別途の直交変換手段により得られた直
    交変換係数からオーディオ信号のパワースペクトルを算
    出してこのパワースペクトルの自己相関を予め定めた帯
    域毎に算出し、この自己相関の最大値と最小値の比から
    聴覚心理上のマスキング効果のオフセット量を算出し、
    このオフセット量に基づいて前記量子化・符号化手段の
    各サブバンドの量子化ビット数を決定する聴覚心理分析
    手段とを、 有する音声高能率符号化装置。
  2. 【請求項2】 オーディオ信号を複数の周波数帯域のサ
    ブバンドに分割する分割手段と、 前記分割手段により分割された各サブバンドのオーディ
    オ信号を可変の量子化ビット数で量子化及び符号化する
    量子化・符号化手段と、 オーディオ信号の周波数領域の聴覚心理分析に基づいて
    サブバンド毎の第1の必要S/N比を算出すると共にサ
    ブバンド毎の信号パワーから聴覚的制御を含む二乗平均
    誤差最小理論により第2の必要S/N比を算出し、前記
    第1、第2の必要S/N比を重み付けして最終の必要S
    /N比を算出し、この最終の必要S/N比に基づいて前
    記量子化・符号化手段の各サブバンドの量子化ビット数
    を決定する聴覚心理分析手段とを、 有する音声高能率符号化装置。
  3. 【請求項3】 高能率符号化する第1のオーディオ信号
    を複数の周波数帯域のサブバンドに分割する分割手段
    と、 前記分割手段により分割された各サブバンドのオーディ
    オ信号を可変の量子化ビット数で量子化及び符号化する
    量子化・符号化手段と、 前記第1のオーディオ信号と、高能率符号化されず再生
    側で前記第1のオーディオ信号とミキシングされる第2
    のオーディオ信号をそれぞれ周波数領域で聴覚心理分析
    して第1、第2のマスキングレベルを算出し、この第
    1、第2のマスキングレベルに基づいて最終のマスキン
    グレベルを算出し、この最終のマスキングレベルに基づ
    いて前記量子化・符号化手段の各サブバンドの量子化ビ
    ット数を決定する聴覚心理分析手段とを、 有する音声高能率符号化装置。
JP05331795A 1995-02-17 1995-02-17 音声高能率符号化装置 Expired - Lifetime JP3254953B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05331795A JP3254953B2 (ja) 1995-02-17 1995-02-17 音声高能率符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05331795A JP3254953B2 (ja) 1995-02-17 1995-02-17 音声高能率符号化装置

Publications (2)

Publication Number Publication Date
JPH08223052A JPH08223052A (ja) 1996-08-30
JP3254953B2 true JP3254953B2 (ja) 2002-02-12

Family

ID=12939350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05331795A Expired - Lifetime JP3254953B2 (ja) 1995-02-17 1995-02-17 音声高能率符号化装置

Country Status (1)

Country Link
JP (1) JP3254953B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400523B1 (en) 1992-09-28 2002-06-04 Hitachi, Ltd. Method and apparatus for recording and reproducing disk-type recording medium with dual head including reading head and writing head having offset cores

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6052756A (ja) * 1983-09-01 1985-03-26 Shimadzu Corp 抵抗式湿度センサ−
US6151442A (en) 1996-07-08 2000-11-21 Victor Company Of Japan, Ltd. Signal compressing apparatus
JP4174859B2 (ja) * 1998-07-15 2008-11-05 ヤマハ株式会社 デジタルオーディオ信号のミキシング方法およびミキシング装置
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR101301245B1 (ko) 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
EP2520863B1 (en) 2011-05-05 2016-11-23 General Electric Technology GmbH Method for protecting a gas turbine engine against high dynamical process values and gas turbine engine for conducting said method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400523B1 (en) 1992-09-28 2002-06-04 Hitachi, Ltd. Method and apparatus for recording and reproducing disk-type recording medium with dual head including reading head and writing head having offset cores

Also Published As

Publication number Publication date
JPH08223052A (ja) 1996-08-30

Similar Documents

Publication Publication Date Title
KR101120911B1 (ko) 음성신호 복호화 장치 및 음성신호 부호화 장치
US7155383B2 (en) Quantization matrices for jointly coded channels of audio
US7548855B2 (en) Techniques for measurement of perceptual audio quality
KR100978018B1 (ko) 공간 오디오의 파라메터적 표현
CA2185746C (en) Perceptual noise masking measure based on synthesis filter frequency response
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
JP3186292B2 (ja) 高能率符号化方法及び装置
AU1448992A (en) High efficiency digital data encoding and decoding apparatus
KR20110040820A (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
JPH04177300A (ja) 音声帯域分割符号化装置
KR101035104B1 (ko) 다중-채널 신호들의 처리
JP3254953B2 (ja) 音声高能率符号化装置
US20020022898A1 (en) Digital audio coding apparatus, method and computer readable medium
JP3519859B2 (ja) 符号器及び復号器
US6385572B2 (en) System and method for efficiently implementing a masking function in a psycho-acoustic modeler
JPH07281697A (ja) Mpeg規格の音声信号デコーダ
WO2000008631A1 (en) System and method for implementing a refined psycho-acoustic modeler
JP2993324B2 (ja) 音声高能率符号化装置
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JPH08204575A (ja) 適応的符号化システム及びビット割当方法
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
JPH11195995A (ja) 画像音声圧縮伸長装置
JPH08102677A (ja) Mpeg規格の音声信号デコーダ
JPH0758643A (ja) 音声高能率符号化および復号化装置
JP2002229598A (ja) ステレオ符号化信号復号化装置及び復号化方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 12

EXPY Cancellation because of completion of term