JP3418198B2 - オーディオ信号の聴覚に適応した品質評価方法および装置 - Google Patents

オーディオ信号の聴覚に適応した品質評価方法および装置

Info

Publication number
JP3418198B2
JP3418198B2 JP52310998A JP52310998A JP3418198B2 JP 3418198 B2 JP3418198 B2 JP 3418198B2 JP 52310998 A JP52310998 A JP 52310998A JP 52310998 A JP52310998 A JP 52310998A JP 3418198 B2 JP3418198 B2 JP 3418198B2
Authority
JP
Japan
Prior art keywords
audio
test signal
signal
filter
reference signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP52310998A
Other languages
English (en)
Other versions
JP2000506631A (ja
Inventor
ディーター ザイツァー
トーマス スポーラー
Original Assignee
フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン filed Critical フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン
Publication of JP2000506631A publication Critical patent/JP2000506631A/ja
Application granted granted Critical
Publication of JP3418198B2 publication Critical patent/JP3418198B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 本発明はオーディオ信号の符号化および復号化に関す
る。特に、オーディオ信号の聴覚に適応した(hearing
−adapted)品質評価(quality assessment)を実行す
る方法および装置に関する。
聴覚に適応したデジタル符号化方法が数年前から規格
化されて以来(Kh.Brandenburg and G.Stoll,The iso/m
peg−audio codec:A generic standard for coding of
high quality digital audio,92nd AES−Convention,Vi
enna,1992,Preprint 3336を参照)、これらの方法は次
第に広く使用されるようになってきた。その例として
は、デジタルコンパクトカセット(DCC),ミニディス
ク,デジタル地上型放送(digital terrestrial broadc
asting)(DAB;DAB=デジタルオーディオ放送),デジ
タルビデオディスク(DVD)が挙げられる。アナログ送
信から一般に発生する公知の妨害信号(disturbances)
は、デジタル非符号化オーディオ信号送信(digital un
coded audio signal transmission)においては存在し
ない。もしオーディオ信号の符号化が実行されない場合
には、測定技術はアナログからデジタルへの変換および
その逆変換に限ることができる。
しかし、聴覚に適応した符号化方法による符号化の場
合には、アナログオーディオ信号処理の中では起こらな
かったような、聴くことができる人為的につくられたも
の(artificial products)または人為結果(artifact
s)が生じる可能性がある。
公知の測定値、例えば高調波ひずみ係数(harmonic d
istortion factor)またはS/N比は、聴覚に適応した符
号化方法に対しては使用できない。聴覚に適応して符号
化された音楽信号の多くは、15dB未満のS/N比を持ち、
非符号化(uncoded)オリジナル信号に対して聞き取れ
るような差異は知覚されない。反対に、40dBより高いS/
N比は、既にはっきりと聞き取れる妨害音となっている
可能性がある。
近年、種々の聴覚に適応した測定方法が紹介されてお
り、その中でNMR法(NMR=ノイズ/マスク比)について
言及されている(Brandenburg and Th.Sporer.“NMR"an
d“Masking Flag":Evaluation of quality using perce
ptual criteria.In Proceedings of the 11th Internat
ional Conference of the AES,Portland,1992参照)。
NMR法を実施するには、長さ1024でかつオリジナル信
号および差分信号(differential signal)に対して512
サンプリング値の前進速度(advancing speed)を持つ
ハーンウィンドウ(Hann window)を用いた離散フーリ
エ変換(discrete Fourier transform)が、個々のオリ
ジナル信号および処理済信号の間で計算される。そこか
ら得られたスクトル係数は、周波数帯域の中で結合さ
れ、その周波数の幅はZwicker著、E.Zwicker,Psychoaco
ustics,publisher Springer−Verlag,Berlin Heidelber
g New York,1982の中で示唆された周波数グループと概
ね対応している。この後、各周波数帯域のエネルギー密
度(energy density)が決定される。オリジナル信号の
エネルギー密度から、実際上のマスキングまたはカバー
リングのしきい値(最小可聴限界:threshold)が、それ
ぞれの周波数グループ内のマスキングと、周波数グルー
プ間のマスキングと、各周波数帯域に関する後マスキン
グ(post−masking)を考慮して決定され、上記マスキ
ングのしきい値は差分信号のエネルギー密度と比較され
る。測定方法の入力信号は固定的なリスニング音量と一
体に結び付けられないので、人間の耳の静寂時のしきい
値(resting threshold)は、十分に考慮されるわけで
はない。なぜなら、オーディオ信号のリスナーは通常、
彼が聴きたい音楽または楽曲の音量に対して接触手段を
持っているからである。
これまでに分かったことは、NMR法は、例えば典型的
な44.1kHzのサンプリングレートの場合、約43Hzの周波
数分解能(frequency resolution)と約23msの時間分割
能(time resolution)を持つ。周波数分解能は低周波
数の場合に非常に低く、他方、時間分解能は高周波数の
場合に非常に低くなる。しかし、NMR法は多くの時間効
果(time effects)に対して良好な反応を示す。例えば
ドラムのビートのように、ビートの連続の周波が十分に
低い場合には、そのビートに先立つブロックはまだ非常
に低いエネルギーを持っている。その結果、起きる可能
性があるプリエコー(pre−echo)が正確に認知される
ことができる。分析ウィンドウ(analysis window)に
関する11.6msの前進速度(advancing speed)により、
多くのプリエコーが認知できるようになる。しかし、分
析ウィンドウが良好でない位置を持つ時は、プリエコー
は認知されない可能性がある。
調性信号(tonal signals)によるマスキングと雑音
によるマスキングとの間の差は、NMR法においては考慮
されない。使用されるマスキングカーブは、主観的なヒ
アリングテストから得られる経験的な値である。つま
り、周波数グループは周波数スペクトル内の固定された
位置に配置され、他方では、耳はスペクトル内の特に顕
著な音事象(sound events)の周囲に周波数グループを
ダイナミックに形成している。そのため、エネルギー密
度の中心の回りにダイナミックに配置する方がより正確
な配置といえるであろう。固定周波数グループの幅のた
めに、例えば正弦波信号(sinusoidal signal)が、あ
る周波数グループの中央に配置されているかまたは端部
に配置されているかを識別するのは不可能である。その
ため、マスキングカーブは最も臨界的な場合、すなわち
最低のマスキング効果に基づいている。その結果、NMR
法は時々、人間には聞き取れない妨害信号を示すことが
ある。
上述の43Hzの低周波数分解能は、特に低周波数範囲に
おけるNMR法によるオーディオ信号の聴覚に適応した品
質評価に対して制限を設けることになる。これは、例え
ば男性スピーカーによって発せられた低いピッチの音声
信号や、例えばバストロンボーンのように非常に低いピ
ッチの楽器の音を評価する場合に特に不利な影響が生じ
る。
本発明を理解し易くするために、オーディオ信号の聴
覚に適応した品質評価のための聴覚心理(psychoacoust
ic)および認知(cognitive)の基本事項を以下に説明
する。聴覚に適応した符号化と測定技術の分野において
最も重要な言葉は“Verdeckung(ドイツ語)”(=マス
キング)であり、これは英語の“masking"という言葉と
類似した“Maskierung"という言葉でも呼ばれている。
不連続的に発生する低音量の可聴音事象(perceivable
sound event)は、音量がより大きな音によってマスク
される。すなわち低音量の音は高音量の音の存在によっ
て、もはや知覚されなくなる。このマスキング効果は、
時間的構造と、マスカー(マスクする側の信号)および
マスクされる側のスペクトル構造との両方に依存する。
図1は、60dBの音圧レベルで、250Hz,1,000Hz,4,000H
zの狭帯域ノイズ信号1,2,3による音のマスキングを図解
するものである。この図1は、E.Zwicker and H.Fastl,
Concerning the dependency of postmasking on distur
bance pulse duration,in Acustica,Vol.26,78−82頁,1
982から採用したもである。
このような視点から見ると、人間の耳は、多数の互い
に重複したバンドパスフィルタからなる一つのフィルタ
バンクと見なすことができる。周波数に対するこれらフ
ィルタの配分は、一定ではない。特に、低周波数におけ
る周波数分解能は高周波数における周波数分解能よりも
明らかに優れている。知覚可能な最小周波数差に注目す
ると、この値は約500Hz以下の周波数においては約3Hzで
あり、500Hzより高い周波数においては周波数または周
波数グループの中心周波数に比例して増大する。知覚可
能な最小周波数差が周波数スケールの上に並べられたな
ら、640の知覚可能なステージが得られる。人間の周波
数知覚に適応した周波数スケールは、バルクスケールに
よって構成される。このバルクスケールは、約15.5kHz
までの全体可聴範囲を24セクションに分割する。
有限のしゅん度を持つフィルタの重複により、高い音
量のオーディオ信号に近接する低音量のオーディオ信号
はマスクされる。そのため、図1において、スペクトル
の中では個々のラインとして表示された狭帯域ノイズカ
ーブ1,2,3の下にある全ての正弦波オーディオ信号は、
マスクされて聞き取れない。
人間の耳内のフィルタバンクの個々のマスキングフィ
ルタの端部しゅん度(edge steepness)は、モデルの中
で推測されるように、さらに聞き取られた信号の音圧レ
ベルにも依存し、また、より低い程度ではあるが、それ
ぞれのバンドパスフィルタの中心周波数にも依存してい
る。最大マスキングは、マスカーの構造に依存するが、
雑音によるマスキングの場合には概ね−5dBである。正
弦音(sinusoidal sound)によるマスキングの場合に
は、最大マスキングはかなり小さくなり、中心周波数に
依存して−14dBから−35dBまでとなる(in M.R.Schroed
er,B.S.Atal and J.L.Hall,Optimizing digital speech
coders by exploiting masking properties of the hu
man ear,The Jounal of the Acoustic Society of Amer
ica,Vol.66(No.6),1647−1652頁,1979年12月号を参
照)。
2番目に重要な影響は、時間に関するマスキング効果
であり、以下に図2を参照しながら説明する。大きな音
量の音事象の直後および直前には、小さな音量の音事象
は知覚されなくなる。時間に関するマスキング効果は、
マスカーの構造と持続時間に大きく依存する(H.Fastl,
Thresholds of masking as a measure for the resolut
ion capacity of the human ear in terms of time and
spectrum.Dissertation faculty for mechanical and
electrotechnical engineering of the Technical Univ
ersity of Munich,Munich,1974年5月号を参照)。特
に、後マスキングは100msまでの持続時間を持つ可能性
がある。感度が最大でかつ時間的に最短のマスキング効
果は、ガウス型パルス(Gaussian pulses)によるノイ
ズのマスキングにおいて発生する。この場合、前マスキ
ング(pre−masking)および後マスキング(post−mask
ing)の持続時間は約2msだけになる。
マスカーから、または図1中のライン4から十分離れ
た距離をおいて、複数のマスキングカーブは静寂時のし
きい値5へと変化する。マスキング信号の最初と最後と
において、前マスキング6および前マスキング7の期間
のマスキングカーブは、それぞれ同時マスキング(simu
ltaneous masking)8に変化する。図2はE.Zwicker,Ps
ychoacoustics,publisher Springer−Verlag,Berlin He
idelberg New York,1982から抜粋したものである。
前マスキング効果(pre−masking effect)は、耳か
ら脳へと向かう途中および脳内それぞれにおける信号の
異速度処理(different−velocity processing)によっ
て説明される。大きな刺激、すなわち音量が大きい音事
象または高い音圧レベル(SPL)を持つ音事象は、小さ
な刺激よりも高速で伝達される。そのため、音量が大き
い音事象は、時間の上では先行していた音量の小さい音
事象をいわゆる「接収」し、マスクする。
後マスキングは、聴覚器官と刺激伝達の「回復時間
(リカバリータイム)」に相当し、この中では特に、神
経シナプス(nervous synapse)における伝達物質(mes
senger substances)の分解について指摘する必要があ
るであろう。
マスキングの大きさあるいはマスキングの程度は、マ
スカーすなわちマスキング信号の構造に時間とスペクト
ルとの両面で依存している。前マスキングは、パルス状
マスカーの場合には最も短く(約1.5ms)、ノイズ信号
の場合にはかなり長い(15msまで)。100msの後には、
後マスキングは静寂時のしきい値に到達する。後マスキ
ングカーブの正確な形状については、種々の文献は異な
った意見を紹介している。そのため、特殊な場合には、
ノイズ信号の場合の後マスキングは15から40msの間でば
らつく可能性がある。これまでに示した値は、それぞれ
ノイズに対して最小値を示す。マスカーとしてのガウス
型パルスに関する新たな研究により、ガウス型パルスの
信号では後マスキングが1.5msの範囲内でしか起こらな
いことが示された(J.Spille,Measurement of preand p
ost−masking in pulses under critical conditions,I
nternal Report,Thomson Consumer Electronics,Hannov
er,1992を参照)。マスカーおよび妨害信号の両方がロ
ーパスフィルタによって帯域制限されている場合には、
前マスキングおよび後マスキングの両方が長くなる。
時間に関するマスキングはオーディオ符号化方法の評
価において重要な役割を果たす。その作動がブロックタ
イプの作動である(大抵の場合はそうである)場合であ
って、かつそのブロック内で作用(actions)がある時
に、有益な信号レベルよりも高い妨害信号がその作用よ
り前に引き起こされる可能性があり、これらの妨害信号
は前マスキング効果によってマスクされる可能性があ
る。しかし、このような妨害音がマスクされない場合に
は、起こり得る影響は「プリエコー」と呼ばれる。プリ
エコーは一般に、作用と分離して知覚されることはな
く、作用の音の色あい(sound coloration)として知覚
される。
静寂時のしきい値(図1のライン4)は、外耳および
中耳の周波数レスポンスと、例えば血流によって引き起
こされる基本的なノイズとともに内耳に到達した音信号
の重畳とから得られる。この基本的なノイズと静寂時の
しきい値は、周波数範囲は一定ではないが、非常に低音
量の音事象をマスクする。図1は特に、良好な聴覚であ
れば20Hzから18kHzまでの周波数範囲を知覚できること
を示している。
信号の主観的に知覚された音量は、そのスペクトル成
分と時間に関する成分とに大きく依存する。一つの信号
内のある部分は、その信号内の他の部分をマスクする可
能性があり、その結果、他の部分のヒアリングの印象に
対する影響がゼロになることがある。聞き取りしきい値
に近い信号(すなわち可聴最小信号に近い信号)は、実
際の音圧レベルの音量よりも低い音量として知覚され
る。この効果は「チョーキング」と呼ばれている。(E.
Zwicker and R.Feldtkeller,The ear as recipient of
messages,publisher Hirzel−Verlag,Stuttgart,1967を
参照)。
さらに、オーディオ信号の評価には認知効果(cognit
ive effects)も役割を果たしている。特に、「減損ス
ケール(impairment scale)」(減損(impairment)=
悪化(deterioration))と呼ばれる5段階がこれを証
明している。人間の耳による2つの信号の評価をする試
験委員の仕事は、2重ブラインドテスト(a double bli
nd test)において、一つは符号化および復号化されて
いないオリジナル信号を聞き、他は符号化およびその後
の復号化の後で得られた信号を聴いて評価することであ
る。このヒアリングテストは3つの刺激A,B,Cを使用
し、このうちAは常に基準信号である。ヒアリングテス
トを行う人は常に信号B,Cを信号Aに対して比較する。
このように、符号化されていない信号は基準信号と呼ば
れ、他方、基準信号を符号化および復号化することによ
り得られた信号はテスト信号と呼ばれる。明確な可聴妨
害信号の評価においては、このように聴覚心理の影響の
みならず、認知的または主観的な影響も役割を果たす。
人間の耳によるオーディオ信号の評価においては、認
知効果は減衰スケールによる評価に対してかなりの影響
を持つ。離散した非常に強い妨害信号は、しばしば多く
の試験委員によって、永久に続く妨害信号よりも小さな
妨害として知覚される。しかし、所定の数のそのような
強い妨害信号からスタートすると、妨害信号が品質の印
象を支配していまう。この点についての体系的な研究
は、文献からは知られていない。
異なるリスナーの知覚しきい値は聴覚心理テストでは
あまり異なることはないが、種々の人為結果は異なる試
験委員によって異なる印象で知覚される。ある試験委員
は、帯域制限は高周波数におけるノイズ変調よりも煩わ
しくないと知覚するが、他の試験委員はこれを全く逆の
ように知覚する。
色々な試験委員の評価スケールは、明らかに相互に異
なるものである。多くのリスナーは明確な可聴妨害信号
をグレード1(「非常にうるさい」)と評価する傾向が
ある一方で、平均のグレードと判断することは滅多にな
い。しかし、他のリスナーは、しばしば平均のグレード
と判断することがある(Thomas Sporer,Evaluating sma
ll impairments with the mean opinion scale−reliab
le or just a guess?In 101nd AES−Convention,Los An
geles,1996,Preprint参照)。
ドイツ特許4437287C2は、ステレオオーディオ信号の
保全を測定する方法と、共通して符号化されたステレオ
オーディオ信号を認識する方法とを開示している。2つ
のステレオチャネルを持つテストされるべき信号が、基
準信号の符号化およびその後の復号化を通して形成され
る。テストされる信号および基準信号の両方は、周波数
領域に変換される。基準信号の各部分的帯域およびテス
トされる信号の各部分的帯域に対し、基準信号およびテ
ストされる信号の信号特性が作られる。同一の各部分的
帯域に属する信号特性は、相互に比較される。この比較
から、ステレオオーディオ信号特性の保全、あるいは使
用された符号化技術の中のステレオサウンド印象に対す
る妨害信号に関して結論が出される。人間の耳の伝達特
性による基準信号およびテスト信号に対する主観的な影
響は、この文献では考慮されていない。
ドイツ特許4345171は、少なくとも2つの信号を符号
化するために選択される符号化タイプを決定する方法を
開示している。2つのステレオチャネルを持つ信号は、
強度ステレオ符号化(intensity stereo coding)によ
って符号化され、再度復号化されてオリジナルステレオ
信号と比較される。強度ステレオ符号化は、左右のチャ
ネルが相互に近似している時に、ステレオ信号特有のオ
ーディオ復号化のために使用されるものである。符号化
/復号化されたステレオ信号とオリジナルステレオ信号
は、異時間分解(unlike time resolution)および周波
数分解(frequency resolution)を用いた変換方法によ
って、時間領域(time domain)から周波数領域(frequ
ency domain)へと変換される。この変換方法は、ハイ
ブリッド/ポリフェイズ(hybrid/polyphase)フィルタ
バンクを備え、これを通して例えばFFT(高速フーリエ
変換)またはMDCT(変形離散コサイン変換)によって類
似したスペクトルラインが発生する。所定の限界周波数
まで増大するスケール・ファクタ帯域幅を選択すること
により、周波数グループ幅およびそれに関連した人間の
聴覚の時間分解(time resolution)がシュミレーショ
ンされる。その後、それぞれの周波数グループ幅の中
に、オリジナルステレオ信号と符号化/復号化されたス
テレオ信号と両方を自乗(squaring)および加算(summ
ation)するすることで短時間エネルギーが形成され
る。このようにして得られた短時間エネルギー値は、聴
覚心理リスニングしきい値を使用して評価される。その
目的は、強度ステレオ符号化が有効か否かを評価する中
で、聴覚心理マスキング効果を考察する上で、可聴短時
間エネルギー値だけをさらに考慮するためである。この
周波数グループ幅の短時間エネルギー値の評価は、人間
の内耳の非線形性を考慮して、人間の内耳をモデル化す
ることでさらに発展させることができる。
本発明の目的は、オーディオ信号の聴覚に適応した品
質評価を実行する方法および装置を提供し、主観的な影
響からの高い独立性を得ることである。この方法および
装置は、時間に関する高い分解能により、人間の耳の内
部における事象をエンハンスト−モデル化(enhanced m
odeling)することを達成するものである。
この目的は、請求項1に記載の方法と請求項18に記載
の装置とにより達成される。
本発明は、基準信号とテスト信号とに対する全ての非
線形な聴覚的影響を同様にシュミレートし、かつテスト
信号の品質評価のための比較を、まるで耳の奥すなわち
(内耳の)蝸牛(cochlea)から聴神経への伝達時のよ
うな環境で実行することを実現化することを基礎とす
る。オーディオ信号の聴覚に適応した品質評価とは、こ
のように蝸牛の領域内での比較を用いる。テスト信号と
オーディオ基準信号とによる耳内でのそれぞれの励振
(excitation)は、このように比較される。そのため、
オーディオ基準信号およびオーディオテスト信号の両方
は、フィルタバンク(bank of filters)によってそれ
らのスペクトル成分に分解される。周波数において重複
している多数のフィルタによって、時間と周波数との両
方に関して充分な分解能が保証される。耳の聴覚的影響
が考慮された結果、個々のフィルタがそれぞれ個別の構
成を備え、その構成は、外耳および中耳の伝達関数(tr
ansmission function)および耳の内部雑音と、フィル
タの中心周波数fmと、評価されるべきオーディオ信号の
音圧レベルLと、により決定される。複雑さおよび計算
にかかる負担を軽減するために、それぞれのフィルタ伝
達関数について最悪の場合を仮定した考慮がなされてお
り、そのため、個々のフィルタのそれぞれの中心周波数
における種々の音圧レベルに関するいわゆる最悪の場合
の励振カーブが、それぞれのフィルタに関して決定され
る。
計算にかかる負担をさらに軽減するために、フィルタ
バンクのパーツは減数されたサンプリングレートを用い
て計算される。そのため、処理されるべきデータストリ
ームを大きく減数させることになる。フィルタバンクに
よって実行されるように、高速フーリエ変換あるいはそ
の修正変換と互換性をもたせるために、最初のサンプリ
ングレートと2の累乗との商(すなわち最初のサンプリ
ングまたはデータレートのそれぞれ1/2,1/4,1/8,1/16,1
/32倍)となるようなサンプリングレートのみが使用さ
れる。このようにして、同一のサンプリング周波数で作
動している種々のフィルタグループは、均一のウィンド
ウ長さを常に得ることができる。
最後に、フィルタバンクの各フィルタは、その下流側
において、前マスキングおよび後マスキングをモデル化
するためのモデル手段に接続されている。マスキングの
前後をモデル化することで必要なバンド幅が減少するの
で、フィルタによっては、サンプリングレートのさらな
る減数、すなわちアンダーサンプリング(undersamplin
g)が可能となる。このようにして、本発明の望ましい
実施例においては、全てのフィルタにおけるサンプリン
グレートは、結果的に入力データレートの1/32と一致す
る。全てのフィルタバンクに関するこの共通のサンプリ
ングレートは、有益性が高く更なる処理に不可欠であ
る。
フィルタバンクに続いて、オーディオテスト信号をオ
ーディオ基準信号とをそれぞれ計算する上で存在する可
能性がある非同期性を補正するために、個々のフィルタ
の出力信号の遅延が決定される。
オーディオ基準信号とオーディオテスト信号との比較
は、上述のように、まるで耳の蝸牛の奥で行われるよう
に実行される。オーディオテスト信号のためのフィルタ
バンクのフィルタの出力信号と、オーディオ基準信号の
ためのフィルタバンクの対応するフィルタの出力信号と
の間のレベル差は検出され、このレベル差が検出確率
(detection probability)の中に詳細にマップされ(m
apped)、この検出確率は、そのレベル差が脳によって
レベル差として認識される程度に大きいか否かを考慮す
る。本発明にかかる聴覚に適応した品質評価方法および
装置においては、複数の隣接したフィルタのレベル差を
共通して評価できるようにしている。その目的は、共通
に評価されたフィルタによって定義されたバンド幅の中
において、主観的に知覚された妨害信号を測る尺度を構
成するためである。聴覚に匹敵する主観的な印象を得る
ためには、このバンド幅は、聴覚心理周波数グループ以
下であるか、またはこれと同等になるであろう。
本発明の望ましい実施例を、以下に図を参照しながら
さらに詳細に説明する。
図1は種々の周波数における狭帯域ノイズ信号による
音のマスキングを示すグラフであり、 図2は時間領域(time domain)におけるマスキング
の原理を示し、 図3はオーディオ測定システムの概略ブロック図であ
り、 図4は本発明にかかるオーディオ信号の聴覚に適応し
た品質評価のための装置を示すブロック図であり、 図5は図4に記載のフィルタバンクのブロック図であ
り、 図6はマスキングフィルタの性能を示すための典型例
のグラフであり、 図7は、外耳および中耳の伝達関数と内部の雑音とを
考慮した、マスキングフィルタの性能を示すためのグラ
フであり、 図8は本発明にかかるオーディオ信号の聴覚に適応し
た品質評価のための装置を示す詳細なブロック図であ
り、 図9は異なるサンプリングレートにおける典型的なフ
ィルタカーブを示し、 図10は検出確率の上にスペクトル領域の中のレベル差
をマッピングするためのしきい値関数(threshold func
tion)を表すグラフであり、 図11は典型的なオーディオテスト信号の部分的検出確
率(local detection probability)を示すグラフであ
り、 図12は図11で使用された典型的なオーディオテスト信
号の周波数グループ検出確率を示すグラフである。
図3は、基本的な概要において本発明に対応するオー
ディオ測定システムの概略ブロック図である。測定方法
には、一方では音信号源の非処理出力信号(基準信号)
が与えられ、他方では、例えばオーディオ符号化/復号
化手段(または「オーディオコーデック」)等の伝達経
路から到達した品質評価されるべき信号(テスト信号)
が与えられる。この測定方法は、これら与えられた信号
から、基準信号と比較した場合のテスト信号の品質を表
すような種々の特性を計算する。
本発明にかかるオーディオ信号の品質評価方法の基本
的な考え方は、正確に聴覚に適応した分析とは、時間お
よびスペクトルに関する分解能が同時に最高の状態であ
る時にだけ可能になるという考え方である。公知の測定
方法の場合ではいずれにおいても、離散フーリエ変換
(discrete Fourier transform:DFT)(ブロック長は通
例10.67msから21.33msまで)を使用するために、時間分
解能が非常に制限されているか、あるいは分析チャネル
(analysis channels)が非常に少数であるためにスペ
クトル分解能が削減されているかのどちらかである。本
発明にかかるオーディオ信号の品質評価方法において
は、多数(241個)の分析チャネルと、0.67msという高
度な時間分解能とを提供する。
図4は本発明にかかるオーディオ信号の聴覚に適応し
た品質評価のための装置を示すブロック図であり、本発
明にかかる方法を実行するものである。オーディオ信号
の聴覚に適応した品質評価またはオーディオ信号の客観
的な評価(OASE)を提供する方法においては、まずオー
ディオ基準信号12およびオーディオテスト信号14の内部
表示(internal representation)をそれぞれ発生させ
る。次に、オーディオ基準信号12は第1フィルタバンク
16に供給され、ここでオーディオ基準信号はそのスペク
トル成分に従って複数の部分的オーディオ基準信号に分
解される。これと同様に、オーディオテスト信号14は第
2フィルタバンク20に供給され、ここでオーディオテス
ト信号14はそのスペクトル成分に従って複数の部分的オ
ーディオテスト信号22に分解される。時間マスキングモ
デルをモデル化するための第1モデル手段24および第2
モデル手段26のそれぞれは、個々の部分的オーディオ基
準信号18および個々の部分的オーディオテスト信号22に
関し、時間領域における上述のマスキングの影響をモデ
ル化する。
ここで注記すべきは、本発明にかかるオーディオの聴
覚に適応した品質評価はまた、単一のフィルタバンクあ
るいは時間に関するマスキングをモデル化する単一のモ
デル手段によっても実現できるということである。図解
を分かりやすくするために、図4ではオーディオ基準信
号12とオーディオテスト信号14とがそれぞれ個別の手段
を持つように描かれているだけである。もし単一のフィ
ルタバンクがオーディオ基準信号およびオーディオテス
ト信号の分解に使用された時は、例えば既に決定された
オーディオ基準信号のスペクトル成分が、オーディオテ
スト信号の処理中には一時的に記憶されることが可能に
なること等が必要となる。
時間マスキングに関してモデル化された部分的オーデ
ィオ基準信号18および部分的オーディオテスト信号22
は、以下に説明するように得られた結果の検出と加重
(weighting)を実行する評価手段28にそれぞれ供給さ
れる。評価手段28は、1個または複数のモデル出力値MA
W1...MAWnを出力する。このモデル出力値は、オーディ
オ基準信号12と、このオーディオ基準信号12から符号化
および復号化を通して得られたオーディオテスト信号14
との間の差異を種々の方法で表現している。以下に説明
するように、モデル出力値MAW1...MAWnは、オーディオ
テスト信号14の周波数選択的および時間選択的な品質評
価を可能にする。
評価手段28内での評価の基礎となるオーディオ基準信
号12およびオーディオテスト信号14の内部表示は、それ
ぞれ人間の耳から聴神経を介して脳へと伝達される情報
に対応している。複数のモデル出力値MAW1...MAWnが出
力されると言う事実から、単一のモデル出力値が出力さ
れる時よりも、質的および主観的印象の点においてより
詳細な情報を形成することができる。特に、異なる人為
結果(artifacts)を加重する時の主観的な差異は、こ
れにより妨害効果を減少させることができる。
図5は2つの別々のフィルタバンクが使用されている
と仮定した場合の、第1フィルタバンク16および第2フ
ィルタバンク20の構造を示す。もし単一のフィルタバン
クが基準信号とテスト信号の両方の信号を処理するため
に使用され、一時的な記憶またはラッチングが組み合わ
されている場合には、図5は使用された単一のフィルタ
バンクの構造を示すことになる。信号入力端40に入力さ
れるのは、スペクトル成分に分解されるべきオーディオ
信号であって、フィルタバンク16および20の出力におい
ては、それぞれ複数の部分的信号18および22が得られる
ようになっている。フィルタバンク16および20はさらに
複数のサブフィルタバンク42a〜42fに分割される。信号
入力端40に印加された信号は、第1サブフィルタバンク
42aに直接的に送られる。第2サブフィルタバンク42bに
到達するためには、信号は第1ローパスフィルタ44bに
よってフィルタリングされ、かつ第1間引き手段(deci
mating means)46によって処理されるので、間引き手段
46bの出力は24kHzのデータレートを備えることになる。
間引き手段46は、このように信号入力端40に印加された
データストリームの値を一つおきに削除していくので、
計算に掛かる負担およびフィルタバンクで処理されるべ
きデータの量を効果的に半減させることになる。第1間
引き手段46bの出力信号は第2サブフィルタバンクに伝
達される。加えて、この出力信号は第2ローパスフィル
タ44cおよび後続の第2間引き手段46cへも伝達され、そ
こでそのデータレートが再度半減される。その結果生じ
たデータレートは12kHzとなる。この第2間引き手段46c
の出力信号は次に第3サブフィルタバンク42cへと送ら
れる。他のフィルタバンク42d,42e,42fに対する入力信
号は、図5に示されるように同様の方法で生み出され
る。フィルタバンク16,20はこのようにして、互いに異
なる複数の(「多重の」)サンプリングレート(「レー
ト」)で作動する複数のサブフィルタバンク42a〜42fを
備え、いわゆる多重レート構造(multirate structur
e)を構成している。
次に、サブフィルタバンク42a〜42fのそれぞれは、複
数のバンドパスフィルタ48から構成されている。本発明
の望ましい実施例においては、フィルタバンク16,20
は、バルクスケール上に均一な格子状に配列された241
個の個々のバンドパスフィルタ48を含み、その中心周波
数は0.1バルクの差で異なっている。単位バルク(unit
bark)は聴覚心理の分野において当業者に知られてお
り、例えばE.Zwicker著「Psychoacoustics」(出版社:S
pringer−Verlag,Berlin,Heidelberg New York,1982
年)の中で紹介されている。
図9は3kHz,12kHz,48kHzのサンプリングレートにおけ
る、ある典型的なフィルタカーブを示す。図9の中で、
左側のフィルタカーブのグループは3kHzのサンプリング
レートに対応し、中央のフィルタカーブのグループは12
kHzのサンプリングレートに対応し、右側のフィルタカ
ーブのグループは48kHzのサンプリングレートに対応す
る。
個々のバンドパスフィルタ48の最小サンプリングレー
トは、原則的にその上限が図9の中で−100dBの減衰量
以下に低下した点から導き出される。しかし、簡略化す
る目的で、次に高いサンプリングレートのみが毎回、方
程式fA=2-n・48kHzを満たすそれぞれのバンドパスフィ
ルタ48について選択されてきた。この式で、fAは関係す
る個々のバンドパスフィルタ48のデータあるいはサンプ
リングレートであり、指数nは1から5までとなる。そ
の結果、図9に表されたグループが生じる。フィルタバ
ンク16,20の5個のサブフィルタバンクFB1〜FB5への再
分割は、これと同様の結果である。同一のサンプリング
レートで作動している全てのフィルタは、それぞれのロ
ーパスフィルタ44b〜44fおよびそれぞれの間引き手段46
b〜46fによる共通の前処理作業を利用することができ
る。個々のフィルタ励振カーブまたはフィルタ関数を生
み出す方法は、それぞれ以下に詳細に説明する。
望ましい実施例において、図5に示された全てのバン
ドパスフィルタ48にはデジタルFIRフィルタが用いられ
ており、これらFIRフィルタはそれぞれ128個のフィルタ
係数(filter coefficients)を持ち、これは、フィル
タカーブまたはフィルタ関数がそれぞれ知られている場
合には当業者の間で公知である方法によって計算するこ
とができる。これは高速畳み込み(rapid convolutio
n)によって達成することができ、その途中において
は、FB0(42a)およびLP1(44b)(LP=ローパス)から
の全てのフィルタは、フィルタを計算するために一つの
FFT(高速フーリエ変換)を共通して利用することがで
きる。ローパスフィルタ44b〜44fの限界周波数は、それ
ぞれのサブフィルタバンクに適切なサンプリングレート
とともに、サンプリング定理の違反が起こらないように
選択されなければならない。
ここで注記すべきは、各フィルタの出力信号1,2,...,
241、すなわち部分的テスト信号および部分的基準信号
は、それぞれその部分的信号を発生させた対応するフィ
ルタによって定義される帯域幅を持つということであ
る。この一つのフィルタの帯域幅は、スペクトル領域と
も呼ばれている。一つのスペクトル領域の中心周波数
は、対応するバンドパスフィルタの中心周波数に対応
し、またスペクトル領域の帯域幅は対応するフィルタの
帯域幅に等しい。そのため、個々のスペクトル領域また
はバンドパスフィルタの帯域幅は、それぞれ重複してい
ることが明らかである。なぜなら、スペクトル領域は0.
05バルクよりも大きいからである。(0.1バルクは、一
つのバンドパスフィルタと次のバンドパスフィルタとの
中心周波数の距離である。) 図6は、1000Hzの中心周波数fmを持つバンドパスフィ
ルタ上のマスキングフィルタ48の性能を典型的に示して
いる。図6において、縦座標はdB単位のフィルタ減衰量
を示し、横座標はバルク単位の中心周波数fmからの左右
への周波数偏差を示す。図6におけるパラメータは、フ
ィルタによってフィルタリングされたオーディオ信号の
音圧レベルである。フィルタリングされたオーディオ信
号の音圧レベルは、0dBから100dBまでの広がりを持って
もよい。上述のように、モデルとして見られた時の人間
の耳のバンドパスフィルタのフィルタ構造は、受信され
たオーディオ信号の音圧レベルに依存している。図6か
ら分かるように、左側のフィルタ端(filter edge)は
高い音圧レベルの時に比較的平坦であり、低い音圧レベ
ルの方に向かってしゅん度がより急になる。これとは反
対に、より低い音圧レベルの場合にはしゅん度がより急
なフィルタ端は静寂時のしきい値に向かってより素早く
変化する。これは、図6の中では個々の典型的なフィル
タ端の直線的な連続となっている。
オーディオ信号の音圧レベルに対する依存状態は、フ
ィルタバンクのデジタルバンドパスフィルタ48の係数を
種々に変化させることで達成できる。しかし、この方法
は、非常に複雑であることに加え、聞いている音の大き
さの変化に非常に影響されやすくなるという欠点があ
る。(Kh.Brandenburg and Th.Sporer.“NMR"and“Mask
ing Flag":Evaluation of quality using perceptual c
riteria.In Proceedings of the 11th International C
onference of the AES,Portland,1992.を参照)。
本発明にかかるオーディオ信号の聴覚に適応した品質
評価においては、別の考えを採用した。異なる音圧レベ
ルの結果として生じるフィルタカーブを基にして、最悪
のマスキングケースまたは最悪の場合に対するカーブ50
を形成した。最悪の場合のカーブ50は、中心周波数fm
ら特定の周波数偏差がある場合に、特定の公称音圧レベ
ル領域(nominal sound pressure level range)におけ
る全ての音圧レベルカーブの最小値から得られ、例えば
0dBから100dBまで延びてもよい。そのため、最悪の場合
のカーブは、図6においてカーブ50で示されるように、
中心周波数付近においては急峻となる端を持ち、中心周
波数から離れるに従って平坦になる。さらに図6から分
かるように、ハンドパスフィルタ48のフィルタ端の、中
心周波数fmからみて右側で静寂時のしきい値から離れた
部分は、フィルタリングされたオーディオ信号の音圧レ
ベルに対して殆ど依存していない。つまり、音圧レベル
が0dBから100dBまで変化しても、カーブ端の右側の傾斜
はほぼ同一であることがわかる。
本発明にかかるオーディオ信号の聴覚に適応した品質
評価においては、外耳および中耳の伝達関数と、例えば
耳の中の血流から起こる内部雑音とがさらに考慮され
る。その結果として生じる、0dBから100dBまでの個々の
音圧レベルに関するカーブを、図7に示す。図6とは対
照的に、図7の横座標は、調性スケール(tonality sca
le)とも呼ばれているバルク単位の周波数スケールの代
わりに、Hz単位のスペクトル範囲領域を示す。数学的な
表現を用いれば、外耳および中耳の伝達関数と耳の内部
雑音とは、以下の方程式によりモデル化することができ
る。
パラメータa0(f)は周波数領域全体にわたる耳の減
衰量を表し、dB単位で示される。
個々のバンドパスフィルタ48に関するマスキングカー
ブまたはフィルタカーブは、中心周波数fmの関数とし
て、かつ音圧レベルLの関数として以下の数学方程式に
よりモデル化される。
この方程式の中で用いられた個々のパラメータを以下
に説明する。
fm=バンドパスフィルタの中心周波数 Δb=バルク単位を用いた上記フィルタの中心周波数
fmとテスト周波数との間の周波数差 L=フィルタリングされたオーディオ信号の音圧レベ
ル 丸め操作の因子(rounding factor)C2=0.1 下端のしゅん度 S1=27(dB/バルク) 上端のしゅん度: S2(fm,L)=24+230Hz/fm−0.2・L/dB; Hz単位の周波数スケールからバルク単位の周波数スケ
ールへの換算方程式は、以下の通りである。
−10dBにおける仮想上の静寂時のしきい値がマスキン
グカーブAの中に追加的に統合された時、以下の式で示
される限界マスキングカーブAlimが結果として生じる。
Alim(Δb,fm,L)=max(A(Δb,fm,L),−L−10dB) 仮想上の静寂時のしきい値を含み、外耳および中耳の
伝達関数A0(f)を算入したマスキングカーブのため
の、バルクスケールからHzスケールへの転換により、拡
張限界マスキングカーブ(extended limit masking cur
ve)Alimが得られ、これがさらにオーディオ信号の音圧
レベルの関数となる。lim (f,fm,L)=Alim(Hz2bark(fm)−Hz2bark(f),fm,L)−a0(f) 既に上述のように、それぞれの音圧レベルに対して固
有のフィルタカーブまたはマスキングカーブを選択する
ために非常に多くの負担が必要になり、そのため、最悪
の場合のカーブが計算される。この最悪の場合のカーブ
AWC(f,fm)は、中心周波数fmを持つフィルタのHz単位
の実際の周波数fにおいて最終的に使用された減衰量を
示す。この最悪の場合のカーブAWCは以下の数式で表す
ことができる。
AWC(f,fm)=min(lim(f,fm,L);−3dBL120dB) 図8は、本発明にかかるオーディオ信号の聴覚に適応
した品質評価を実行するための装置および方法をそれぞ
れ示すブロック図である。図5にかかる説明で既に述べ
たように、オーディオ基準信号12は部分的オーディオ基
準信号18を生み出す目的でフィルタバンク16に送られ
る。それと同様に、オーディオテスト信号14は部分的オ
ーディオテスト信号22を生み出す目的でフィルタバンク
20に送られる。ここで注意すべきは、図6,図7から分か
るように、バンドパスフィルタ48の個々のフィルタカー
ブは互いに重複しているということである。なぜなら、
個々のフィルタの中心周波数はたった0.1バルクずつし
か離れていないからである。このようにしてそれぞれの
バンドパスフィルタ48は、人間の耳内部の基底膜(basi
lar membrane)にある有毛細胞(hair cell)の励振を
モデル化すると考えられる。
フィルタバンク16およびフィルタバンク20の個々のバ
ンドパスフィルタの出力信号は、それぞれ部分的オーデ
ィオ基準信号18および部分的オーディオテスト信号22と
なり、それぞれのモデル化手段24および26に対して伝達
され、このモデル化手段24および26は最初に説明したよ
うな時間マスキングをモデル化すると考えられている。
モデル化手段24および26は、静寂時のしきい値と後マス
キングとをモデル化するという役割を果たす。既に前述
したように、フィルタバンクの出力値は調整されてお
り、静寂時のしきい値のための定数値がそれに加算され
ている。なぜなら、静寂時のしきい値の周波数依存度
は、既にフィルタバンクの中で考慮に入れられているか
らである。3msの時間定数を持つ帰納的フィルタ(recur
sive filter)が出力信号を平滑化する。この後には非
線形なフィルタが続くが、この非線形なフィルタは、一
方では積分器として音事象の持続時間に渡って蓄積され
るエネルギーを積分し、他方では音事象後の励振の指数
関数的な減少をモデル化する。モデル化手段24および26
の詳細な構造は、M.Krajalainen,A new auditory model
for the evaluation of sound quality of audio syst
em,Proceedings of the ICASSP,608〜611頁,Tampa,Flor
ida,March 1985,IEEEの中で説明されている。ここで注
記するが、この時間マスキングのモデル化によって、全
てのバンドパスフィルタ48に対する全てのフィルタ帯域
において帯域幅が減少し、その減少程度は、更なるサン
プリングステップ(undersampling step)が可能で、そ
れにより全ての帯域を1.5kHzの同一サンプリングレート
にすることができる程度である。
モデル化手段24,26の出力信号は、この後検出計算手
段52に伝達されるが、この検出計算手段52の機能につい
ては以下に説明する。図8に示されるように、1番を付
された第1バンドパスフィルタに対する検出計算手段52
には、1番を付されたバンドパスフィルタから出力され
た部分的オーディオ基準信号が与えられ、さらに、オー
ディオテスト信号のためのフィルタバンクのうち1番を
付されたバンドパスフィルタから出力された部分的オー
ディオテスト信号も与えられる。検出計算手段52は、一
方ではこれら2つのレベル間の差異を検出し、他方では
その部分的オーディオ基準信号と部分的オーディオテス
ト信号の間のレベル差を検出確率の形式にしてマップす
る。バンドパスフィルタ48内に、オーディオ基準信号と
オーディオテスト信号とから同一の中心周波数fmを持つ
励振が発生すると、それらは引き算を実行され、図10に
示されたしきい値関数と比較される。この図10に示され
たしきい値関数は、差異の絶対値をdB単位でいわゆる
「部分的検出確率(local detection probability)」
上にマップする。人間の脳にとって適切な検出しきい値
とは2.3dBである。しかし、ここで注意すべき重要な点
は、この2.3dBの適切な検出しきい値の周囲に、検出の
ある不確定要素が存在しているという点であり、そのた
めに図10に示された確率カーブが利用されるのである。
2.3dBのレベル差は、検出確率上に0.5の値でマップされ
る。個々の検出計算手段52は、それぞれバンドパスフィ
ルタ48と関連し、全て互いに並行して作動し、さらに検
出計算手段52はそれぞれのレベル差を検出確率pi.t
中に時間連続的にマップしてゆく。
ここで注記するが、オーディオ信号の聴覚に適応した
品質評価は時間領域の中で作動し、オーディオ基準信号
12およびオーディオテスト信号14の時間離散的入力信号
は、フィルタバンク内のデジタルフィルタによって順を
追って処理されている。そのため、検出計算手段52に対
する入力信号もまた、時間に関して連続的なデータスト
リームであることが明らかである。検出計算手段52の出
力信号もまた、時間に関して連続的なデータストリーム
であり、このデータストリームは時間の各瞬間または各
時間スロットに、それぞれ対応するバンドパスフィルタ
48の各周波数領域の検出確率を表している。特定の検出
計算手段52が特定の時間スロット内において低い検出確
率を示す場合には、オーディオ基準信号12から符号化お
よび復号化を通して得られたオーディオテスト信号14
に、特定の周波数領域および特定の瞬間において符号化
エラーが発生したと評価されるが、そのエラーは恐らく
人間の脳では感知されないと評価される。これとは反対
に、検出確率が高い場合には、そのオーディオテスト信
号が特定の時間スロットおよび特定の周波数領域におい
て聞き取ることが可能な欠陥を持っているということで
あるから、人間の脳が恐らくオーディオテスト信号の符
号化あるいは復号化のエラーを感知するであろうと評価
される。
検出計算手段52の出力信号は、選択的に、全体検出手
段(overall detection means)54に送られてもよい
し、あるいは複数のグループ検出手段(group detectio
n means)56に送られてもよい。グループ検出手段56の
出力信号は、積算手段58によって掛け算されるか、ある
いは積算手段58を経ずに直接出力してもよい。上記全体
検出手段54は、特定の国際的に使用されるテスト信号に
関し、コントラスト(明暗比)によって図11に示す全体
的な検出確率を表す。図11の上側の図表は、縦座標でバ
ルク単位の周波数を示し、横座標でms単位の時間を示
す。下側の図表は、上側の図表における陰の濃度がそれ
ぞれ何パーセント程度の検出確率を表現しているのかを
示している。上側の図表中で白い部分は、100%の確率
で人間の脳によって確認することができるような符号化
および復号化のエラーを表す。使用された基準信号は当
業者には知られたものであり、SQAM(=音声品質評価材
料)のCDのトラック10に配置されており、SQAM,トラッ
ク10と名付けられている。ここからは、意図的に符号化
または復号化のエラーをそれぞれ含んだオーディオ信号
が得られる。すなわち、このオーディオ信号は、2回ア
クセントを置いたa(ラの音)をチェロ(violoncell
o)演奏の上に流し、それを意図的に誤って符号化およ
び復号化したものである。この信号の長さは2.7秒であ
るが、図11および図12の中では、この典型例信号の最初
から1.2秒までの部分だけをグラフで示している。
グループ検出手段56は、以下のように作動する。検出
確率pi.tが伝達されると、グループ検出手段56はまず
時間スロットt当たりの検出確率pi.tの余確率(count
er−probability)pgi.t=1−pi.tを形成する。余確
率pgは、時間スロットtの中で妨害音が検出されない場
合を表す尺度である。図8の中に積記号(product symb
ol)で示されるように、複数のバンドパスフィルタのレ
ベル差の余確率が互いに掛け算された場合、この掛け算
の積すなわち個々の余確率の積に対する余確率は、図8
に示されるように、検出計算手段52の出力信号が全て全
体検出手段54に伝達された時の時間スロットの全体的な
検出確率を提供する。この検出確率が時間において平均
化された時、平均全体検出確率が得られる。しかし、オ
ーディオテスト信号の品質に関するより正確な情報は、
時間スロット内の何パーセントの中で全体検出確率が10
%,20%,...,90%よりも大きいかを示す棒グラフによっ
て与えられる。
前述のように、図11は検出計算手段の出力信号が直接
的に図表で表現された時の部分的検出確率を示す。明確
に分かることであるが、約5バルク(約530Hz)以下で
かつ2バルク(200Hz)以上の低周波数領域において、
約100msから1,100msまで時間領域の中で、オーディオテ
スト信号の符号化および復号化のエラーがそれぞれ非常
に高い確率で人間の脳によって検出されるであろう。さ
らに、22バルクにおいても、小さな妨害信号を見いだす
ことができる。
検出計算手段52の出力によって構成される部分的検出
確率の代わりに、グループ検出手段56によって計算され
る周波数グループ検出確率が選択された場合には、上記
図表の中に妨害音がより明確に現れる。上記グループ検
出確率は、ある周波数グループを含む領域の中のあるフ
ィルタkの周囲に、ある妨害音が知覚できた場合の影響
を計る基準を構成する。
本発明の望ましい実施例においては、10個ずつの互い
に隣接した部分検出確率が連結されている。10個の隣接
したバンドパスフィルタは、各個が隣と0.1バルクずつ
の間隔を持っているので、連結された10個の隣接したバ
ンドパスフィルタのグループは、1バルクの周波数領域
を持つことになる。隣接する検出確率のグルーピング
は、結果として生じる周波数領域が聴覚心理周波数グル
ープとほぼ一致するように選択するのが良い。これによ
り、人間の耳の周波数グループ形式をシュミレートでき
るようになるという利点が生まれ、その結果、妨害音の
かなり主観的な音の印象が図表で表現できるようになっ
た。図12を図11と比較して推測できることは、検出確率
をグループ状に連結させることによって、図11の周波数
よりも高い周波数においても、オーディオテスト信号の
符号化および復号化のエラーをそれぞれ聞き取ることが
できようになるということである。そのため、図12に示
されたグループ検出は、図11に示された部分的検出より
も、オーディオ信号のより現実的な品質評価を可能にす
る。なぜなら、グループ検出は人間の耳内における周波
数グループ形成のシュミレーションを用いるからであ
る。隣接するフィルタ出力値の差異(この差異は周波数
グループ以下であるように選択されているが)は、この
ように連帯的に評価され、対応する周波数領域内の主観
的な妨害音を計る基準を提供する。
別の方法として、周波数軸を3つのセクション(200H
z未満,200Hz以上かつ6,500Hz以下,6,500Hzを越える範囲
の3セクション)に分割することもできる。オーディオ
基準信号およびオーディオテスト信号のレベルもまた、
それぞれ3つのセクション(静寂,20dB以下の低レベル,
20dBを越える高レベル)に分割することができる。その
結果として、9個の異なるタイプのセクションが生ま
れ、これらにフィルタサンプリング値が属してもよい。
時間セクションであって、その中では両方の入力信号の
全てのフィルタ出力値が静寂タイプに属するセクション
は、さらに詳細な考察を必要としない。残りの6個のタ
イプのセクションから、前述のように入力信号の間の差
異の検出確率に関する基準がそれぞれの時間スロットに
対して決定される。検出確率の決定に加えて、いわゆる
妨害音の大きさを定義することも可能である。この妨害
音の大きさもまた検出計算手段52で計算されるレベル差
と関連性があり、かつ欠陥が妨害音となる強度を示すも
のである。その後、妨害音の大きさおよび検出確率の別
々の平均値が、6個のタイプのセクションのそれぞれに
ついて計算される。
さらに、10msの時間内における短時間の平均値が計算
され、1つの完全なオーディオ信号の短時間平均値の中
から最悪の30個の短時間平均値が記憶される。次に、こ
れら30個の最悪の場合の値の平均値と全体平均値とが一
緒になって音の印象を作り上げる。この点で注意すべき
は、妨害音の分散が非常に不均衡な時には、最悪の場合
の値が有意義になるということである。その反対に、小
さいけれど聞き取れる妨害音がしばしば含まれる時に
は、全体平均値が有意義になる。全体平均値かまたは最
悪の場合の値かのどちらかをオーディオテスト信号の評
価に使用すべきかの判断は、これら2つの評価値の極値
結合(extreme−value linkage)を介して実行される。
これまで説明してきたオーディオ信号の聴覚に適応し
た品質評価は、モノラルまたは単一オーディオ信号につ
いて述べてきた。しかし、本発明にかかるオーディオ信
号の聴覚に適応した品質評価では、フィルタバンク16,2
0の間の個々の非線形な前処理と、検出計算手段52内で
の検出とによって、バイノーラル(binaural)またはス
テレオのオーディオテスト信号の品質評価も可能であ
る。当業者には知られているように、ステレオオーディ
オ信号は右側チャネルおよび左側チャネルを一つずつ備
えている。オーディオテスト信号およびオーディオ基準
信号の左側および右側チャネルは、周波数選択方式で過
渡現象(transients)を強調しかつ不動信号(stationa
ry signals)を減少させる非線形要素によって、それぞ
れ別々にフィルタリングされる。この操作の出力信号
は、以下にそれぞれ修正されたオーディオテスト信号と
修正されたオーディオ基準信号と呼ばれるものである。
検出計算手段52内での検出は、ここでは前述のように1
回だけ実行されるのではなく、4回実行され、連続的な
入力信号が検出計算手段52に対して次のように交互に与
えられる。すなわち、 第1検出,左側チャネル(D1L):オーディオ基準信
号の左側チャネルとオーディオテスト信号の左側チャネ
ルの検出; 第1検出,右側チャネル(D1R):オーディオ基準信
号の右側チャネルとオーディオテスト信号の右側チャネ
ルの検出; 第2検出,左側チャネル(D2L):修正されたオーデ
ィオ基準信号の左側チャネルと修正されたオーディオテ
スト信号の左側チャネルの検出; 第2検出,右側チャネル(D2R):修正されたオーデ
ィオ基準信号の右側チャネルと修正されたオーディオテ
スト信号の右側チャネルの検出; の順番で実行される。
検出D1LとD1Rおよび検出D2LとD2Rのそれぞれから、最
悪の場合の値のみが個々に決定され、その後、このよう
に作り上げられた値は、そのステレオオーディオテスト
信号を品質評価するために、加重された平均値を介して
結合される。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−288739(JP,A) 特開 平4−97199(JP,A) 特開 平5−227576(JP,A) 特開 平5−158495(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00

Claims (22)

    (57)【特許請求の範囲】
  1. 【請求項1】オーディオ基準信号(12)から符号化およ
    び復号化を通して得られたオーディオテスト信号(14)
    の聴覚に適応した品質評価を実行する方法であって、 周波数が重複しかつスペクトル領域を定義している複数
    のフィルタ(48)からなる第1フィルタバンク(20)に
    よって、オーディオテスト信号(14)をそのスペクトル
    成分に従って複数の部分的オーディオテスト信号(22)
    に分解するステップであって、上記フィルタ(48)は、
    耳に供給されたオーディオ信号の音圧レベルに依存する
    励振カーブであって、かつそれぞれのフィルタ中心周波
    数(fm)における人間の耳の励振カーブに基づいて、個
    々に決定された異なるフィルタ関数を持つように構成さ
    れたステップと、 第1フィルタバンク(20)と同様の構成を持つ第2フィ
    ルタバンク(16)によって、オーディオ基準信号(12)
    をそのスペクトル成分に従って複数の部分的オーディオ
    基準信号(18)に分解するステップと、 同一のスペクトル領域に属する部分的オーディオテスト
    信号(22)と部分的オーディオ基準信号(18)との間の
    レベル差をスペクトル領域によって検出するステップ
    と、 それぞれのレベル差に基づき、あるスペクトル領域の中
    のオーディオテスト信号(14)の符号化エラーが検出さ
    れる検出確率を、スペクトル領域によって決定するステ
    ップであって、上記検出確率はある部分的オーディオ基
    準信号と部分的オーディオテスト信号との間のレベル差
    が人間の脳によって感知される確率をシュミレートする
    ものであるステップと、を備えた品質評価を実行する方
    法。
  2. 【請求項2】請求項1に記載の方法であって、 上記励振カーブは、人間の耳の外耳および中耳の伝達関
    数と内部雑音とを考慮に入れたカーブであることを特徴
    とする品質評価を実行する方法。
  3. 【請求項3】請求項1または2に記載の方法であって、 周波数が高くなるに従い減少する人間の耳の周波数分解
    能への近似値を提供するために、第1および第2フィル
    タバンク(16,20)のフィルタ(48)の励振カーブは、
    そのフィルタの中心周波数に従って決定されることを特
    徴とする品質評価を実行する方法。
  4. 【請求項4】請求項1乃至3のいずれかに記載の方法で
    あって、 低い音圧レベルよりも高い音圧レベルにおいて、より平
    坦なフィルタ端とより低い静寂時のしきい値を持つよう
    に、第1および第2フィルタバンク(16,20)のフィル
    タ(48)の励振カーブは、オーディオテスト信号(14)
    およびオーディオ基準信号(12)のそれぞれの音圧レベ
    ルに従って決定されることを特徴とする品質評価を実行
    する方法。
  5. 【請求項5】請求項1乃至3のいずれかに記載の方法で
    あって、 第1および第2フィルタバンク(16,20)のフィルタ(4
    8)の上記励振カーブは、オーディオテスト信号(14)
    およびオーディオ基準信号(12)のそれぞれの音圧レベ
    ルに従って決定され、その結果、各フィルタ(48)につ
    きそれぞれ一つのフィルタ関数が、一つの音圧レベルの
    範囲において起こることが可能でかつある特定の音圧レ
    ベルに対応している全てのフィルタ関数の最小減衰値か
    ら形成されることを特徴とする品質評価を実行する方
    法。
  6. 【請求項6】請求項1乃至5のいずれかに記載の方法で
    あって、 スペクトル領域によってレベル差を検出するステップの
    前に、スペクトル領域によってオーディオテスト信号
    (14)およびオーディオ基準信号(12)の時間マスキン
    グをモデル化するステップを備えることを特徴とする品
    質評価を実行する方法。
  7. 【請求項7】請求項6に記載の方法であって、 上記スペクトル領域によって時間マスキングをモデル化
    するステップは、前マスキングを考慮するためにオーデ
    ィオ基準信号(12)またはオーディオテスト信号(14)
    のスペクトル領域による積分を含み、後マスキングを考
    慮するためにオーディオ基準信号(12)またはオーディ
    オテスト信号(14)のスペクトル領域による指数関数的
    な減衰を含むことを特徴とする品質評価を実行する方
    法。
  8. 【請求項8】請求項1乃至7のいずれかに記載の方法で
    あって、 第1および第2フィルタバンク(16,20)のフィルタ(4
    8)は互いに異なるサンプリングレートを持ち、このサ
    ンプリングレートは所定のフィルタ減衰量を持つあるフ
    ィルタ(48)の中心周波数(fm)より高い周波数に位置
    しているフィルタ端の交点によって決定されるものであ
    ることを特徴とする品質評価を実行する方法。
  9. 【請求項9】請求項8に記載の方法であって、上記分解
    ステップは、 隣接するフィルタ(48)を同一のサンプリングレートを
    持つサブフィルタバンク(42a〜42f)の形式にグルーピ
    ングするステップであって、上記サンプリングレート
    は、オーディオテスト信号(14)およびオーディオ基準
    信号(12)が離散化させられた元のサンプリングレート
    と2の累乗との商により決定されるステップを含むこと
    を特徴とする品質評価を実行する方法。
  10. 【請求項10】請求項1乃至9のいずれかに記載の方法
    であって、 スペクトル領域によってレベル差を検出するステップの
    前に、オーディオ基準信号(12)とオーディオテスト信
    号(14)との間の遅延が決定されて補正されることを特
    徴とする品質評価を実行する方法。
  11. 【請求項11】請求項1乃至10のいずれかに記載の方法
    であって、 上記スペクトル領域によって検出確率を決定するステッ
    プは、 特定のしきい値レベル差に対しては0.5の検出確率を割
    り当て、 上記特定のしきい値レベル差よりも小さいレベル差に対
    しては0.5よりも小さな検出確率を割り当て、 上記特定のしきい値レベル差よりも大きいレベル差に対
    しては0.5よりも大きな検出確率を割り当てることを特
    徴とする品質評価を実行する方法。
  12. 【請求項12】請求項1乃至11のいずれかに記載の方法
    であって、 一つの聴覚心理周波数グループよりも小さいかまたは同
    等の一つのスペクトル範囲の中の隣接するスペクトル領
    域の検出確率は連体的に評価され、その結果、オーディ
    オテスト信号(14)の符号化エラーの主観的な知覚を得
    ることを特徴とする品質評価を実行する方法。
  13. 【請求項13】請求項1乃至12のいずれかに記載の方法
    であって、 時間に関して連続的な複数の検出確率が一つの時間スロ
    ットを形成するために結合され、かつその時間に関して
    連続的な複数の検出確率が一つの時間スロットに関する
    全体的な検出確率を得るために連結されることを特徴と
    する品質評価を実行する方法。
  14. 【請求項14】請求項1乃至13のいずれかに記載の方法
    であって、 一つのスペクトル領域における検出確率の短時間平均値
    が作られ、かつ一つのオーディオテスト信号の複数の短
    時間平均値が記憶され、全ての短時間平均値の全体平均
    値と記憶された短時間平均値とがオーディオテスト信号
    (14)のそれぞれのスペクトル領域の全体的な音印象を
    生み出すことを特徴とする品質評価を実行する方法。
  15. 【請求項15】請求項1乃至14のいずれかに記載の方法
    であって、 上記オーディオテスト信号およびオーディオ基準信号
    は、左側チャネルおよび右側チャネルを備えたステレオ
    信号であって、 オーディオテスト信号を分解するステップとオーディオ
    基準信号を分解するステップとは、過渡現象を強調しか
    つ不動信号を減少させる非線形要素によって、上記オー
    ディオテスト信号および上記オーディオ基準信号の左側
    チャネルおよび右側チャネルを別々に分解し、その結
    果、左側チャネルおよび右側チャネルを備えた修正され
    たオーディオテスト信号と、左側チャネルおよび右側チ
    ャネルを備えた修正されたオーディオ基準信号とを生み
    出し、 スペクトル領域によるレベル差の検出は、同一スペクト
    ル領域に属する部分的信号の間のレベル差を検出するこ
    とを含み、このレベル差の検出は、 左側チャネルの部分的オーディオテスト信号と左側チャ
    ネルの部分的オーディオ基準信号との間の検出と、 右側チャネルの部分的オーディオテスト信号と右側チャ
    ネルの部分的オーディオ基準信号との間の検出と、 左側チャネルの修正された部分的オーディオテスト信号
    と左側チャネルの修正された部分的オーディオ基準信号
    との間の検出と、 右側チャネルの修正された部分的オーディオテスト信号
    と右側チャネルの修正された部分的オーディオ基準信号
    との間の検出と、を含むことを特徴とする品質評価を実
    行する方法。
  16. 【請求項16】請求項15に記載の方法であって、 左側チャネルおよび右側チャネルに対する信号のレベル
    差から、最大レベル差がスペクトル領域によって決定さ
    れ、 左側チャネルおよび右側チャネルに対する修正された信
    号のレベル差から、最大レベル差がスペクトル領域によ
    って決定され、 オーディオテスト信号に関する最大レベル差と修正され
    たオーディオテスト信号に関する最大レベル差とが、上
    記ステレオオーディオテスト信号の符号化エラーを検出
    するために、加重された平均値を通して結合されること
    を特徴とする品質評価を実行する方法。
  17. 【請求項17】請求項1乃至16のいずれかに記載の方法
    であって、 第1および第2フィルタバンク(16,20)は単一のフィ
    ルタバンクによって構成され、かつオーディオテスト信
    号(14)またはオーディオ基準信号(12)の分解の過程
    において、上記部分的オーディオ基準信号および部分的
    オーディオテスト信号はそれぞれ一時的に記憶されるこ
    とを特徴とする品質評価を実行する方法。
  18. 【請求項18】オーディオ基準信号(12)から符号化お
    よび復号化を通して得られたオーディオテスト信号(1
    4)の聴覚に適応した品質評価を実行する装置であっ
    て、 オーディオテスト信号(14)をそのスペクトル成分に従
    って複数の部分的オーディオテスト信号(22)へと分解
    するための複数のフィルタを含む第1フィルタバンク
    (16)であって、上記フィルタは、周波数が重複しかつ
    スペクトル領域を定義し、耳に供給されたオーディオ信
    号の音圧レベルに依存するそれぞれのフィルタの中心周
    波数における人間の耳の励振カーブに基づいて個々に決
    定された個別のフィルタ関数を持つように構成された第
    1フィルタバンク(16)と、 オーディオ基準信号(12)をそのスペクトル成分に従っ
    て部分的オーディオ基準信号(18)へと分解するため
    の、第1フィルタバンク(16)と同様の構成を持つ第2
    フィルタバンク(20)と、 同一のスペクトル領域に属する部分的オーディオテスト
    信号(22)と部分的オーディオ基準信号(18)との間の
    レベル差をスペクトルによって検出するための計算手段
    と、 それぞれのレベル差を基にして、ある特定のスペクトル
    領域の中のオーディオテスト信号(14)の符号化エラー
    を検出する検出確率をスペクトル領域によって決定する
    ための割り当て手段(52)であって、上記検出確率はあ
    る部分的オーディオ基準信号と部分的オーディオテスト
    信号との間のレベル差が人間の脳によって感知される確
    率をシュミレートするものである割り当て手段と、 を備えたことを特徴とする品質評価を実行する装置。
  19. 【請求項19】請求項18に記載の装置であって、 オーディオテスト信号(14)およびオーディオ基準信号
    (12)の時間マスキングをスペクトル領域によってモデ
    ル化するためのモデル化手段(24)をさらに備えたこと
    を特徴とする品質評価を実行する装置。
  20. 【請求項20】請求項19に記載の装置であって、 上記モデル化手段(24)は、前マスキングを考慮する目
    的で、スペクトル領域によって部分的オーディオ基準信
    号または部分的オーディオテスト信号を積分する積分手
    段を含むとともに、後マスキングを考慮する目的で、ス
    ペクトル領域によって部分的オーディオ基準信号または
    部分的オーディオテスト信号を指数関数的に減衰させる
    減衰手段を含むことを特徴とする品質評価を実行する装
    置。
  21. 【請求項21】請求項18乃至20のいづれかに記載の装置
    であって、 上記オーディオテスト信号(14)の符号化エラーを主観
    的に知覚するために、隣接するスペクトル領域を共通し
    て評価するための複数のグループ評価手段をさらに備
    え、上記隣接しかつ共通して評価された複数のスペクト
    ル領域は、共通して評価されたスペクトル領域によって
    形成された帯域幅が一つの聴覚心理周波数グループより
    も小さいかまたは同等になるように選択されたものであ
    ることを特徴とする品質評価を実行する装置。
  22. 【請求項22】請求項18乃至21のいづれかに記載の装置
    であって、 上記オーディオテスト信号(14)の符号化エラーを全体
    的に表現するために、全てのスペクトル領域を共通して
    評価するための全体評価手段(54)をさらに備えたこと
    を特徴とする品質評価を実行する装置。
JP52310998A 1996-11-15 1997-10-02 オーディオ信号の聴覚に適応した品質評価方法および装置 Expired - Lifetime JP3418198B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19647399.3 1996-11-15
DE19647399A DE19647399C1 (de) 1996-11-15 1996-11-15 Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
PCT/EP1997/005446 WO1998023130A1 (de) 1996-11-15 1997-10-02 Gehörangepasste qualitätsbeurteilung von audiosignalen

Publications (2)

Publication Number Publication Date
JP2000506631A JP2000506631A (ja) 2000-05-30
JP3418198B2 true JP3418198B2 (ja) 2003-06-16

Family

ID=7811841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52310998A Expired - Lifetime JP3418198B2 (ja) 1996-11-15 1997-10-02 オーディオ信号の聴覚に適応した品質評価方法および装置

Country Status (10)

Country Link
US (1) US6271771B1 (ja)
EP (1) EP0938831B1 (ja)
JP (1) JP3418198B2 (ja)
KR (1) KR20000053311A (ja)
AT (1) ATE211347T1 (ja)
AU (1) AU4780497A (ja)
CA (1) CA2271880C (ja)
DE (2) DE19647399C1 (ja)
NO (1) NO992355L (ja)
WO (1) WO1998023130A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2296327T3 (es) * 1998-03-27 2008-04-16 Ascom (Schweiz) Ag Procedimiento y dispositivo para la valoracion de la calidad de transmision.
DE19821273B4 (de) * 1998-05-13 2006-10-05 Deutsche Telekom Ag Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen
DE19902317C1 (de) * 1999-01-21 2000-01-13 Fraunhofer Ges Forschung Vorrichtung und Verfahren zur Qualitätsbeurteilung von mehrkanaligen Audiosignalen
DE19933317C2 (de) * 1999-07-16 2002-07-04 Bayerische Motoren Werke Ag Verfahren und Vorrichtung zur Ermittlung der akustischen Raumeigenschaften insbesondere eines Fahrgastraumes in einem Kraftfahrzeug
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
NL1014075C2 (nl) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Methode en inrichting voor het bepalen van de kwaliteit van een signaal.
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6895374B1 (en) * 2000-09-29 2005-05-17 Sony Corporation Method for utilizing temporal masking in digital audio coding
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
ATE407539T1 (de) * 2002-12-09 2008-09-15 Microsound As Verfahren zur anpassung eines tragbaren kommunikationsgeräts an einen hörgeschädigten benutzer
AU2003233101A1 (en) * 2003-05-27 2005-01-21 Koninklijke Philips Electronics N.V. Audio coding
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
DE102004029872B4 (de) * 2004-06-16 2011-05-05 Deutsche Telekom Ag Verfahren und Anordnung zur Verbesserung der Qualität bei der Übertragung codierter Audio-/Video-Signale
ES2791001T3 (es) 2004-11-02 2020-10-30 Koninklijke Philips Nv Codificación y decodificación de señales de audio mediante el uso de bancos de filtros de valor complejo
US20070027687A1 (en) * 2005-03-14 2007-02-01 Voxonic, Inc. Automatic donor ranking and selection system and method for voice conversion
JP5006343B2 (ja) * 2006-01-31 2012-08-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 不侵入の信号の品質評価
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
FR2940565B1 (fr) * 2008-12-19 2010-12-31 Thales Sa Dispositif de generation de messages sonores a detection de defaut integree
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理***
KR101600082B1 (ko) * 2009-01-29 2016-03-04 삼성전자주식회사 오디오 신호의 음질 평가 방법 및 장치
JP5637130B2 (ja) * 2011-12-26 2014-12-10 コニカミノルタ株式会社 音響出力装置
CN107113484B (zh) * 2015-01-14 2019-05-28 唯听助听器公司 操作助听器***的方法和助听器***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS532728B2 (ja) 1974-01-25 1978-01-31
US4060701A (en) * 1975-09-15 1977-11-29 Hearing Evaluation & Acoustic Research, Inc. Method for testing acoustical attenuation of hearing protectors
DE3131193A1 (de) 1981-08-06 1983-02-24 Siemens AG, 1000 Berlin und 8000 München Geraet zur kompensation von gehoerschaeden
JP3033156B2 (ja) 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
DE4222050C2 (de) 1991-07-09 1995-10-05 Head Acoustics Gmbh Vorrichtung zur gehörgerechten Schallfeldanalyse
US5384793A (en) 1992-01-28 1995-01-24 Ericsson Ge Mobile Communications Inc. Fading and random pattern error protection method for dynamic bit allocation sub-band coding
US5412734A (en) 1993-09-13 1995-05-02 Thomasson; Samuel L. Apparatus and method for reducing acoustic feedback
DE4345171C2 (de) 1993-09-15 1996-02-01 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
DE4437287C2 (de) 1994-10-18 1996-10-24 Fraunhofer Ges Forschung Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale

Also Published As

Publication number Publication date
US6271771B1 (en) 2001-08-07
EP0938831B1 (de) 2001-12-19
NO992355L (no) 1999-06-03
NO992355D0 (no) 1999-05-14
DE59705914D1 (de) 2002-01-31
EP0938831A1 (de) 1999-09-01
CA2271880C (en) 2002-04-09
JP2000506631A (ja) 2000-05-30
WO1998023130A1 (de) 1998-05-28
KR20000053311A (ko) 2000-08-25
ATE211347T1 (de) 2002-01-15
AU4780497A (en) 1998-06-10
CA2271880A1 (en) 1998-05-28
DE19647399C1 (de) 1998-07-02

Similar Documents

Publication Publication Date Title
JP3418198B2 (ja) オーディオ信号の聴覚に適応した品質評価方法および装置
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
JP4308278B2 (ja) 電気通信装置の客観的音声品質測定の方法および装置
Johnston Transform coding of audio signals using perceptual noise criteria
Huber et al. PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception
US5621854A (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
US6651041B1 (en) Method for executing automatic evaluation of transmission quality of audio signals using source/received-signal spectral covariance
US20080221875A1 (en) Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
JPH10505718A (ja) オーディオ品質の解析
Steeneken et al. Basics of the STI measuring method
WO2000008631A1 (en) System and method for implementing a refined psycho-acoustic modeler
Lokhoff Precision adaptive subband coding (PASC) for the digital compact cassette (DCC)
Hansen Assessment and prediction of speech transmission quality with an auditory processing model.
Tesic et al. An experimental study on the phase importance in digital processing of speech signal
Krimi et al. Realization of a psychoacoustic model for MPEG 1 using gammachirp wavelet transform
EP1777698B1 (en) Bit rate reduction in audio encoders by exploiting auditory temporal masking
Abid et al. Audio compression using a filter ear model and a Gammachirp wavelet
Abrahamsson Compression of multi channel audio at low bit rates using the AMR-WB+ codec
Gunawan et al. Speech and Audio Coding Using Temporal Masking
Raake et al. Comparison of spectrum-based models for speech and audio quality and naturalness estimation
Kaplanis QUALITY METERING
Abid et al. The effect chirp term in audio compression using a Gammachirp wavelet

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090411

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100411

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100411

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term