JP2000506631A - オーディオ信号の聴覚に適応した品質評価方法および装置 - Google Patents

オーディオ信号の聴覚に適応した品質評価方法および装置

Info

Publication number
JP2000506631A
JP2000506631A JP10523109A JP52310998A JP2000506631A JP 2000506631 A JP2000506631 A JP 2000506631A JP 10523109 A JP10523109 A JP 10523109A JP 52310998 A JP52310998 A JP 52310998A JP 2000506631 A JP2000506631 A JP 2000506631A
Authority
JP
Japan
Prior art keywords
audio
test signal
signal
reference signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10523109A
Other languages
English (en)
Other versions
JP3418198B2 (ja
Inventor
ディーター ザイツァー
トーマス スポーラー
Original Assignee
フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン filed Critical フラウンホーファー・ゲゼルシャフト ツア フェルデルンク デル アンゲワンテン フォルシュンク アインゲトラーゲナー フェライン
Publication of JP2000506631A publication Critical patent/JP2000506631A/ja
Application granted granted Critical
Publication of JP3418198B2 publication Critical patent/JP3418198B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 オーディオ基準信号(12)から符号化および復号化を通して得られたオーディオテスト信号(14)の品質を評価する方法において、オーディオテスト信号(14)はオーディオ基準信号(12)とまるで人間の耳の鍋牛の奥と同様の状態で比較される。全てのマスキング効果および耳の伝達関数もオーディオ基準信号(12)とオーディオテスト信号(14)とに対して同様に適応される。つまり、オーディオテスト信号(14)はそのスペクトル成分に従い複数のフィルタからなる第1フィルタバンク(20)によって分解され、この複数のフィルタは周波数において重複し、かつスペクトル領域を定義し、さらにそれぞれのフィルタ中心周波数に関する人間の耳の励振カーブを基にして個々に決定された個別のフィルタ関数を備えている。オーディオ基準信号(12)もまた、第1フィルタバンク(20)と同様の構成を持つ第2フィルタバンク(16)によって、そのスペクトル成分に従って部分的オーディオ基準信号(18)へと分解される。その後、スペクトル領域によるレベル差が、同一のスペクトル領域に属する部分的オーディオテスト信号(22)と部分的オーディオ基準信号(18)との間で形成される。オーディオテスト信号(14)の品質を評価するために、検出確率がそれぞれのレベル差を基にしてスペクトル領域により決定され、その関連するスペクトル領域内のオーディオテスト信号(14)の符号化エラーを検出する。

Description

【発明の詳細な説明】 オーディオ信号の聴覚に適応した品質評価方法および装置 本発明はオーディオ信号の符号化および復号化に関する。特に、オーディオ信 号の聴覚に適応した(hearing-adapted)品質評価(quality assessment)を実行す る方法および装置に関する。 聴覚に適応したデジタル符号化方法が数年前から規格化されて以来(Kh.Bran- denburg and G.Stoll,The iso/mpeg-audio codec: A generic standard for c oding of high quality digital audio,92nd AES-Convention,Vienna,1992,P reprint 3336を参照)、これらの方法は次第に広く使用されるようになってきた 。その例としては、デジタルコンパクトカセット(DCC),ミニディスク,デ ジタル地上型放送(digital terrestrial broadcasting)(DAB;DAB=デジ タルオーディオ放送),デジタルビデオディスク(DVD)が挙げられる。アナ ログ送信から一般に発生する公知の妨害信号(disturbances)は、デジタル非符号 化オーディオ信号送信(digital uncoded audio signal transmission)において は存在しない。もしオーディオ信号の符号化が実行されない場合には、測定技術 はアナログからデジタルへの変換およびその逆変換に限ることができる。 しかし、聴覚に適応した符号化方法による符号化の場合には、アナログオーデ ィオ信号処理の中では起こらなかったような、聴くことができる人為的につくら れたもの(artificial products)または人為結果(artifacts)が生じる可能性があ る。 公知の測定値、例えば高調波ひずみ係数(harmonic distortion factor)または S/N比は、聴覚に適応した符号化方法に対しては使用できない。聴覚に適応し て符号化された音楽信号の多くは、15dB未満のS/N比を持ち、非符号化(u ncoded)オリジナル信号に対して聞き取れるような差異は知覚されない。反対 に、40dBより高いS/N比は、既にはっきりと聞き取れる妨害音となってい る可能性がある。 近年、種々の聴覚に適応した測定方法が紹介されており、その中でNMR法( NMR=ノイズ/マスク比)について言及されている(BrandenburgandTh.Sporer .“NMR”and“Masking Flag”:Evaluation of quality using percep-tual cr iteria.In Proceedings of the 11th International Conference of the AES, Portland,1992参照)。 NMR法を実施するには、長さ1024でかつオリジナル信号および差分信号 (differential signal)に対して512サンプリング値の前進速度(advancing sp eed)を持つハーンウィンドウ(Hann window)を用いた離散フーリエ変換(discret e Fourier transform)が、個々のオリジナル信号および処理済信号の間で計算さ れる。そこから得られたスペクトル係数は、周波数帯域の中で結合され、その周 波数の幅はZwicker著、E.Zwicker,Psychoacoustics,publisher Springer-Ver lag,Berlin Heidelberg NewYorK,1982の中で示唆された周波数グループと概ね 対応している。この後、各周波数帯域のエネルギー密度(energy density)が決定 される。オリジナル信号のエネルギー密度から、実際上のマスキングまたはカバ ーリングのしきい値(最小可聴限界:threshold)が、それぞれの周波数グループ 内のマスキングと、周波数グループ間のマスキングと、各周波数帯域に関する後 マスキング(post-masking)を考慮して決定され、上記マスキングのしきい値は差 分信号のエネルギー密度と比較される。測定方法の入力信号は固定的なリスニン グ音量と一体に結び付けられないので、人間の耳の静寂時のしきい値(resting t hreshold)は、十分に考慮されるわけではない。なぜなら、オーディオ信号のリ スナーは通常、彼が聴きたい音楽または楽曲の音量に対して接触手段を持ってい るからである。 これまでに分かったことは、NMR法は、例えば典型的な44.1kHzのサ ンプリングレートの場合、約43Hzの周波数分解能(frequency resolution)と 約23msの時間分解能(time resolution)を持つ。周波数分解能は低周波数の 場合に非常に低く、他方、時間分解能は高周波数の場合に非常に低くなる。しか し、NMR法は多くの時間効果(time effects)に対して良好な反応を示す。例え ばドラムのビートのように、ビートの連続の周波が十分に低い場合には、そのビ ートに先立つブロックはまだ非常に低いエネルギーを持っている。その結果、起 きる可能性があるプリエコー(pre-echo)が正確に認知されることかできる。分析 ウィンドウ(analysis window)に関する11.6msの前進速度(advancing spee d)により、多くのプリエコーが認知できるようになる。しかし、分析ウィンドウ が良好でない位置を持つ時は、プリエコーは認知されない可能性がある。 調性信号(tonal signals)によるマスキングと雑音によるマスキングとの間の 差は、NMR法においては考慮されない。使用されるマスキングカーブは、主観 的なヒアリングテストから得られる経験的な値である。つまり、周波数グループ は周波数スペクトル内の固定された位置に配置され、他方では、耳はスペクトル 内の特に顕著な音事象(sound events)の周囲に周波数グループをダイナミックに 形成している。そのため、エネルギー密度の中心の回りにダイナミックに配置す る方がより正確な配置といえるであろう。固定周波数グループの幅のために、例 えば正弦波信号(sinusoidal signal)が、ある周波数グループの中央に配置され ているかまたは端部に配置されているかを識別するのは不可能である。そのため 、マスキングカーブは最も臨界的な場合、すなわち最低のマスキング効果に基づ いている。その結果、NMR法は時々、人間には聞き取れない妨害信号を示すこ とかある。 上述の43Hzの低周波数分解能は、特に低周波数範囲におけるNMR法によ るオーディオ信号の聴覚に適応した品質評価に対して制限を設けることになる。 これは、例えば男性スピーカーによって発せられた低いピッチの音声信号や、例 えばバストロンボーンのように非常に低いピッチの楽器の音を評価する場合に特 に不利な影響が生じる。 本発明を理解し易くするために、オーディオ信号の聴覚に適応した品質評価の ための聴覚心理(psychoacoustic)および認知(cognitive)の基本事項を以下に説 明する。聴覚に適応した符号化と測定技術の分野において最も重要な言葉は“Ve rdeckung(ドイツ語)"(=マスキング)であり、これは英語の“masking”という 言葉と類似した“Maskierung”という言葉でも呼ばれている。不連続的に発生す る低音量の可聴音事象(perceivable sound event)は、音量がより大きな音によ ってマスクされる。すなわち低音量の音は高音量の音の存在によって、もはや知 覚されなくなる。このマスキング効果は、時間的構造と、マスカー(マスクする 側の信号)およびマスクされる側のスペクトル構造との両方に依存する。 図1は、60dBの音圧レベルで、250Hz,1,000Hz,4,000 Hzの狭帯域ノイズ信号1,2,3による音のマスキングを図解するものである 。この図1は、E.Zwicker and H.Fastl,Concerning the dependency of post-ma sking on disturbance pulse duration,in Acustica,Vol.26,78‐82頁,198 2 から採用したものである。 このような視点から見ると、人間の耳は、多数の互いに重複したバンドパスフ ィルタからなる一つのフィルタバンクと見なすことができる。周波数に対するこ れらフィルタの配分は、一定ではない。特に、低周波数における周波数分解能は 高周波数における周波数分解能よりも明らかに優れている。知覚可能な最小周波 数差に注目すると、この値は約500Hz以下の周波数においては約3Hzであ り、500Hzより高い周波数においては周波数または周波数グループの中心周 波数に比例して増大する。知覚可能な最小周波数差が周波数スケールの上に並べ られたなら、640の知覚可能なステージが得られる。人間の周波数知覚に適応 した周波数スケールは、バルクスケールによって構成される。このバルクスケー ルは、約15.5kHzまでの全体可聴範囲を24セクションに分割する。 有限のしゅん度を持つフィルタの重複により、高い音量のオーディオ信号に近 接する低音量のオーディオ信号はマスクされる。そのため、図1において、スペ クトルの中では個々のラインとして表示された狭帯域ノイズカーブ1,2,3の 下にある全ての正弦波オーディオ信号は、マスクされて聞き取れない。 人間の耳内のフィルタバンクの個々のマスキングフィルタの端部しゅん度(edg e steepness)は、モデルの中で推測されるように、さらに聞き取られた信号の音 圧レベルにも依存し、また、より低い程度ではあるが、それぞれのバンドパスフ ィルタの中心周波数にも依存している。最大マスキングは、マスカーの構造に依 存するが、雑音によるマスキングの場合には概ね−5dBである。正弦音(sinus oidal sound)によるマスキングの場合には、最大マスキングはかなり小さくなり 、中心周波数に依存して−14dBから−35dBまでとなる(in M.R.Schroede r,B.S.Atal and J.L.Hall,Optimizing digltal speech coders by exploiti ng masking properties of the human ear,The Journal of the Acoustic Soci ety of America,Vol.66(No.6),1647‐1652頁,1979年12月号を参照)。 2番目に重要な影響は、時間に関するマスキング効果であり、以下に図2を参 照しながら説明する。大きな音量の音事象の直後および直前には、小さな音量の 音事象は知覚されなくなる。時間に関するマスキング効果は、マスカーの構造と 持続時間に大きく依存する(H.Fastl,Thresholds of masking as a measure fo r the resolution capacity of the human ear in terms of time and spec-tru m.Dissertation,faculty for mechanical and electrotechnical engi-neerin g of the Technical University of Munich,Munich,1974年5月号を参照)。 特に、後マスキングは100msまでの持続時間を持つ可能性がある。感度が最 大でかつ時間的に最短のマスキング効果は、ガウス型パルス(Gaussian pulses) によるノイズのマスキングにおいて発生する。この場合、前マスキング(pre-mas king)および後マスキング(post-masking)の持続時間は約2msだけになる。 マスカーから、または図1中のライン4から十分離れた距離をおいて、複数の マスキングカーブは静寂時のしきい値5へと変化する。マスキング信号の最初と 最後とにおいて、前マスキング6および前マスキング7の期間のマスキングカー ブは、それぞれ同時マスキング(simultaneous masking)8に変化する。図2はE. Zwicker,Psychoacoustics,publisher Springer-Verlag,Berlin Heidelberg N ew York,1982から抜粋したものである。 前マスキング効果(pre-masking effect)は、耳から脳へと向かう途中および脳 内それぞれにおける信号の異速度処理(different-velocity processing)によっ て説明される。大きな刺激、すなわち音量が大きい音事象または高い音圧レベル (SPL)を持つ音事象は、小さな刺激よりも高速で伝達される。そのため、音 量が大きい音事象は、時間の上では先行していた音量の小さい音事象をいわゆる 「接収」し、マスクする。 後マスキングは、聴覚器官と刺激伝達の「回復時間(リカバリータイム)」に 相当し、この中では特に、神経シナプス(nervous synapse)における伝達物質(me ssenger substances)の分解について指摘する必要があるであろう。 マスキングの大きさあるいはマスキングの程度は、マスカーすなわちマスキン グ信号の構造に時間とスペクトルとの両面で依存している。前マスキングは、パ ルス状マスカーの場合には最も短く(約1.5ms)、ノイズ信号の場合にはか なり長い(15msまで)。100msの後には、後マスキングは静寂時のしき い値に到達する。後マスキングカーブの正確な形状については、種々の文献は異 なった意見を紹介している。そのため、特殊な場合には、ノイズ信号の場合の後 マスキングは15から40msの間でばらつく可能性がある。これまでに示した 値は、それぞれノイズに対して最小値を示す。マスカーとしてのガウス型パルス に関する新たな研究により、ガウス型パルスの信号では後マスキングが1.5m sの範囲内でしか起こらないことが示された(J.Spille,Measurement of pre-a nd post-masking in pulses under critical conditions,Internal Report,Tho mson Consumer Electronics,Hannover,1992を参照)。マスカーおよび妨 害信号の両方がローパスフィルタによって帯域制限されている場合には、前マス キングおよび後マスキングの両方が長くなる。 時間に関するマスキングはオーディオ符号化方法の評価において重要な役割を 果たす。その作動がブロックタイプの作動である(大抵の場合はそうである)場 合であって、かつそのブロック内で作用(actions)がある時に、有益な信号レベ ルよりも高い妨害信号がその作用より前に引き起こされる可能性があり、これら の妨害信号は前マスキング効果によってマスクされる可能性がある。しかし、こ のような妨害音がマスクされない場合には、起こり得る影響は「プリエコー」と 呼ばれる。プリエコーは一般に、作用と分離して知覚されることはなく、作用の 音の色あい(sound coloration)として知覚される。 静寂時のしきい値(図1のライン4)は、外耳および中耳の周波数レスポンス と、例えば血流によって引き起こされる基本的なノイズとともに内耳に到達した 音信号の重畳とから得られる。この基本的なノイズと静寂時のしきい値は、周波 数範囲は一定ではないが、非常に低音量の音事象をマスクする。図1は特に、良 好な聴覚であれば20Hzから18kHzまでの周波数範囲を知覚できることを 示している。 信号の主観的に知覚された音量は、そのスペクトル成分と時間に関する成分と に大きく依存する。一つの信号内のある部分は、その信号内の他の部分をマスク する可能性があり、その結果、他の部分のヒアリングの印象に対する影響かゼロ になることがある。聞き取りしきい値に近い信号(すなわち可聴最小信号に近い 信号)は、実際の音圧レベルの音量よりも低い音量として知覚される。この効果 は「チョーキング」と呼ばれている。(E.Zwicker and R.Feldtkeller,The ea r as recipient of messages,publisher Hirzel-Verlag,Stuttgart,1967を参 照)。 さらに、オーディオ信号の評価には認知効果(cognitive effects)も役割を果 たしている。特に、「減損スケール(impairment scale)」(減損(impairment)= 悪化(deterioration))と呼ばれる5段階がこれを証明している。人間の耳による 2つの信号の評価をする試験委員の仕事は、2重ブラインドテスト(a double bl ind test)において、一つは符号化および復号化されていないオリジナル信号を 聞き、他は符号化およびその後の復号化の後で得られた信号を聴いて評価するこ とである。このヒアリングテストは3つの刺激A,B,Cを使用し、このうちA は常に基準信号である。ヒアリングテストを行う人は常に信号B,Cを信号Aに 対して比較する。このように、符号化されていない信号は基準信号と呼ばれ、他 方、基準信号を符号化および復号化することにより得られた信号はテスト信号と 呼ばれる。明確な可聴妨害信号の評価においては、このように聴覚心理の影響の みならず、認知的または主観的な影響も役割を果たす。 人間の耳によるオーディオ信号の評価においては、認知効果は減衰スケールに よる評価に対してかなりの影響を持つ。離散した非常に強い妨害信号は、しばし ば多くの試験委員によって、永久に続く妨害信号よりも小さな妨害として知覚さ れる。しかし、所定の数のそのような強い妨害信号からスタートすると、妨害信 号が品質の印象を支配していまう。この点についての体系的な研究は、文献から は知られていない。 異なるリスナーの知覚しきい値は聴覚心理テストではあまり異なることはない が、種々の人為結果は異なる試験委員によって異なる印象で知覚される。ある試 験委員は、帯域制限は高周波数におけるノイズ変調よりも煩わしくないと知覚す るが、他の試験委員はこれを全く逆のように知覚する。 色々な試験委員の評価スケールは、明らかに相互に異なるものである。多くの リスナーは明確な可聴妨害信号をグレード1(「非常にうるさい」)と評価する 傾向がある一方で、平均のグレードと判断することは滅多にない。しかし、他の リスナーは、しばしば平均のグレードと判断することかある(Thomas Sporer,Eva luating small impairments with the mean opinion scale−reliable or just a guess ? In 10lnd AES-Convention,Los Angeles,1996,Preprint参照 )。 ドイツ特許4437287C2は、ステレオオーディオ信号の保全を測定する 方法と、共通して符号化されたステレオオーディオ信号を認識する方法とを開示 している。2つのステレオチャネルを持つテストされるべき信号が、基準信号の 符号化およびその後の復号化を通して形成される。テストされる信号および基準 信号の両方は、周波数領域に変換される。基準信号の各部分的帯域およびテスト される信号の各部分的帯域に対し、基準信号およびテストされる信号の信号特性 が作られる。同一の各部分的帯域に属する信号特性は、相互に比較される。この 比較から、ステレオオーディオ信号特性の保全、あるいは使用された符号化技術 の中のステレオサウンド印象に対する妨害信号に関して結論が出される。人間の 耳の伝達特性による基準信号およびテスト信号に対する主観的な影響は、この文 献では考慮されていない。 本発明の目的は、オーディオ信号の聴覚に適応した品質評価を実行する方法お よび装置を提供し、主観的な影響からの高い独立性を得ることである。この方法 および装置は、時間に関する高い分解能により、人間の耳の内部における事象を エンハンストーモデル化(enhanced modeling)することを達成するものである。 この目的は、請求項1に記載の方法と請求項18に記載の装置とにより達成さ れる。 本発明は、基準信号とテスト信号とに対する全ての非線形な聴覚的影響を同様 にシュミレートし、かつテスト信号の品質評価のための比較を、まるで耳の奥す なわち(内耳の)鍋牛(cochlea)から聴神経への伝達時のような環境で実行する ことを実現化することを基礎とする。オーディオ信号の聴覚に適応した品質評価 とは、このように鍋牛の領域内での比較を用いる。テスト信号とオーディオ基準 信号とによる耳内でのそれぞれの励振(excitation)は、このように比較される。 そのため、オーディオ基準信号およびオーディオテスト信号の両方は、フィルタ バンク(bank of filters)によってそれらのスペクトル成分に分解される。周波 数において重複している多数のフィルタによって、時間と周波数との両方に関し て充分な分解能が保証される。耳の聴覚的影響が考慮された結果、個々のフィル タがそれぞれ個別の構成を備え、その構成は、外耳および中耳の伝達関数(trans mission function)および耳の内部雑音と、フィルタの中心周波数fmと、評価さ れるべきオーディオ信号の音圧レベルLと、により決定される。複雑さおよび計 算にかかる負担を軽減するために、それぞれのフィルタ伝達関数について最悪の 場合を仮定した考慮がなされており、そのため、個々のフィルタのそれぞれの中 心周波数における種々の音圧レベルに関するいわゆる最悪の場合の励振カーブが 、それぞれのフィルタに関して決定される。 計算にかかる負担をさらに軽減するために、フィルタバンクのパーツは減数さ れたサンプリングレートを用いて計算される。そのため、処理されるべきデータ ストリームを大きく減数させることになる。フィルタバンクによって実行される ように、高速フーリエ変換あるいはその修正変換と互換性をもたせるために、最 初のサンプリングレートと2の累乗との商(すなわち最初のサンプリングまたは データレートのそれぞれ1/2,1/4,1/8,1/16,1/32倍)とな るようなサンプリングレートのみが使用される。このようにして、同一のサンプ リング周波数で作動している種々のフィルタグループは、均一のウィンドウ長さ を常に得ることができる。 最後に、フィルタバンクの各フィルタは、その下流側において、前マスキング および後マスキングをモデル化するためのモデル手段に接続されている。マスキ ングの前後をモデル化することで必要なバンド幅が減少するので、フィルタによ っては、サンプリングレートのさらなる減数、すなわちアンダーサンプリング(u ndersampling)が可能となる。このようにして、本発明の望ましい実施例におい ては、全てのフィルタにおけるサンプリンクルートは、結果的に入力データレー トの1/32と一致する。全てのフィルタバンクに関するこの共通のサンプリ ングレートは、有益性が高く更なる処理に不可欠である。 フィルタバンクに続いて、オーディオテスト信号とオーディオ基準信号とをそ れぞれ計算する上で存在する可能性かある非同期性を補正するために、個々のフ ィルタの出力信号の遅延が決定される。 オーディオ基準信号とオーディオテスト信号との比較は、上述のように、まる で耳の鍋牛の奥で行われるように実行される。オーディオテスト信号のためのフ ィルタバンクのフィルタの出力信号と、オーディオ基準信号のためのフィルタバ ンクの対応するフィルタの出力信号との間のレベル差は検出され、このレベル差 が検出確率(detection probability)の中に詳細にマップされ(mapped)、この検 出確率は、そのレベル差が脳によってレベル差として認識される程度に大きいか 否かを考慮する。本発明にかかる聴覚に適応した品質評価方法および装置におい ては、複数の隣接したフィルタのレベル差を共通して評価できるようにしている 。その目的は、共通に評価されたフィルタによって定義されたバンド幅の中にお いて、主観的に知覚された妨害信号を測る尺度を構成するためである。聴覚に匹 敵する主観的な印象を得るためには、このバンド幅は、聴覚心理周波数グループ 以下であるか、またはこれと同等になるであろう。 本発明の望ましい実施例を、以下に図を参照しながらさらに詳細に説明する。 図1は種々の周波数における狭帯域ノイズ信号による音のマスキングを示すグ ラフであり、 図2は時間領域(time domain)におけるマスキングの原理を示し、 図3はオーディオ測定システムの概略ブロック図であり、 図4は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置 を示すブロック図であり、 図5は図4に記載のフィルタバンクのブロック図であり、 図6はマスキングフィルタの性能を示すための典型例のグラフであり、 図7は、外耳および中耳の伝達関数と内部の雑音とを考慮した、マスキングフ ィルタの性能を示すためのグラフであり、 図8は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置 を示す詳細なブロック図であり、 図9は異なるサンプリングレートにおける典型的なフィルタカーブを示し、 図10は検出確率の上にスペクトル領域の中のレベル差をマッピングするため のしきい値関数(threshold function)を表すグラフであり、 図11は典型的なオーディオテスト信号の部分的検出確率(local detection p robability)を示すグラフであり、 図12は図11で使用された典型的なオーディオテスト信号の周波数グループ 検出確率を示すグラフである。 図3は、基本的な概要において本発明に対応するオーディオ測定システムの概 略ブロック図である。測定方法には、一方では音信号源の非処理出力信号(基準 信号)が与えられ、他方では、例えばオーディオ符号化/復号化手段(または「 オーディオコーデック」)等の伝達経路から到達した品質評価されるべき信号( テスト信号)が与えられる。この測定方法は、これら与えられた信号から、基準 信号と比較した場合のテスト信号の品質を表すような種々の特性を計算する。 本発明にかかるオーディオ信号の品質評価方法の基本的な考え方は、正確に聴 覚に適応した分析とは、時間およびスペクトルに関する分解能が同時に最高の状 態である時にだけ可能になるという考え方である。公知の測定方法の場合ではい ずれにおいても、離散フーリエ変換(discrete Fourier transform:DFT)(ブ ロック長は通例10.67msから21.33msまで)を使用するために、時 間分解能が非常に制限されているか、あるいは分析チャネル(analysis channels )が非常に少数であるためにスペクトル分解能力硝リ減されているかのどちらか である。本発明にかかるオーディオ信号の品質評価方法においては、多数(24 1 個)の分析チャネルと、0.67msという高度な時間分解能とを提供する。 図4は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置 を示すブロック図であり、本発明にかかる方法を実行するものである。オーディ オ信号の聴覚に適応した品質評価またはオーディオ信号の客観的な評価(OAS E)を提供する方法においては、まずオーディオ基準信号12およびオーディオ テスト信号14の内部表示(internal representation)をそれぞれ発生させる。 次に、オーディオ基準信号12は第1フィルタバンク16に供給され、ここでオ ーディオ基準信号はそのスペクトル成分に従って複数の部分的オーディオ基準信 号に分解される。これと同様に、オーディオテスト信号14は第2フィルタバン ク20に供給され、ここでオーディオテスト信号14はそのスペクトル成分に従 って複数の部分的オーディオテスト信号22に分解される。時間マスキングモデ ルをモデル化するための第1モデル手段24および第2モデル手段26のそれぞ れは、個々の部分的オーディオ基準信号18および個々の部分的オーディオテス ト信号22に関し、時間領域における上述のマスキングの影響をモデル化する。 ここで注記すべきは、本発明にかかるオーディオの聴覚に適応した品質評価は また、単一のフィルタバンクあるいは時間に関するマスキングをモデル化する単 一のモデル手段によっても実現できるということである。図解を分かりやすくす るために、図4ではオーディオ基準信号12とオーディオテスト信号14とがそ れぞれ個別の手段を持つように描かれているだけである。もし単一のフィルタバ ンクがオーディオ基準信号およびオーディオテスト信号の分解に使用された時は 、例えば既に決定されたオーディオ基準信号のスペクトル成分が、オーディオテ スト信号の処理中には一時的に記憶されることが可能になること等が必要となる 。 時間マスキングに関してモデル化された部分的オーディオ基準信号18および 部分的オーディオテスト信号22は、以下に説明するように得られた結果の検出 と加重(weighting)を実行する評価手段28にそれぞれ供給される。評価手段2 8は、1個または複数のモデル出力値MAW1...MAWnを出力する。このモ デル出力値は、オーディオ基準信号12と、このオーディオ基準信号12から符 号化および復号化を通して得られたオーディオテスト信号14との間の差異を種 々の方法で表現している。以下に説明するように、モデル出力値MAW1...M AWnは、オーディオテスト信号14の周波数選択的および時間選択的な品質評 価を可能にする。 評価手段28内での評価の基礎となるオーディオ基準信号12およびオーディ オテスト信号14の内部表示は、それぞれ人間の耳から聴神経を介して脳へと伝 達される情報に対応している。複数のモデル出力値MAW1...MAWnが出力 されると言う事実から、単一のモデル出力値が出力される時よりも、質的および 主観的印象の点においてより詳細な情報を形成することができる。特に、異なる 人為結果(artifacts)を加重する時の主観的な差異は、これにより妨害効果を減 少させることができる。 図5は2つの別々のフィルタバンクが使用されていると仮定した場合の、第1 フィルタバンク16および第2フィルタバンク20の構造を示す。もし単一のフ ィルタバンクが基準信号とテスト信号の両方の信号を処理するために使用され、 一時的な記憶またはラッチングが組み合わされている場合には、図5は使用され た単一のフィルタバンクの構造を示すことになる。信号入力端40に入力される のは、スペクトル成分に分解されるべきオーディオ信号であって、フィルタバン ク16および20の出力においては、それぞれ複数の部分的信号18および22 が得られるようになっている。フィルタバンク16および20はさらに複数のサ ブフィルタバンク42a〜42fに分割される。信号入力端40に印加された信 号は、第1サブフィルタバンク42aに直接的に送られる。第2サブフィルタバ ンク42bに到達するためには、信号は第1ローパスフィルタ44bによってフ ィルタリングされ、かつ第1間引き手段(decimating means)46によって処理さ れるので、間引き手段46bの出力は24kHzのデータレートを備えることに なる。間引き手段46は、このように信号入力端40に印加されたデータストリ ームの値を一つおきに削除していくので、計算に掛かる負担およびフィルタバン クで処理されるべきデータの量を効果的に半減させることになる。第1間引き手 段46bの出力信号は第2サブフィルタバンクに伝達される。加えて、この出力 信号は第2ローパスフィルタ44cおよび後続の第2間引き手段46cへも伝達 され、そこでそのデータレートが再度半減される。その結果生じたデータレート は12kHzとなる。この第2間引き手段46cの出力信号は次に第3サブフィ ルタバンク42cへと送られる。他のフィルタバンク42d,42e,42fに 対する入力信号は、図5に示されるように同様の方法で生み出される。フィルタ バンク16,20はこのようにして、互いに異なる複数の(「多重の」)サンプ リングレート(「レート」)で作動する複数のサブフィルタバンク42a〜42 fを備え、いわゆる多重レート構造(multirate structure)を構成している。 次に、サブフィルタバンク42a〜42fのそれぞれは、複数のバンドパスフ ィルタ48から構成されている。本発明の望ましい実施例においては、フィルタ バンク16,20は、バルクスケール上に均一な格子状に配列された241個の 個々のバンドパスフィルタ48を含み、その中心周波数は0.1バルクの差で異 なっている。単位バルク(unit bark)は聴覚心理の分野において当業者に知られ ており、例えばE.Zwicker著「Psychoacoustics」(出版社:Springer-Ver-lag, Berlin,Heidelberg New York,1982年)の中で紹介されている。 図9は3kHz,12kHz,48kHzのサンプリングレートにおける、あ る典型的なフィルタカーブを示す。図9の中で、左側のフィルタカーブのグルー プは3kHzのサンプリングレートに対応し、中央のフィルタカーブのグループ は12kHzのサンプリングレートに対応し、右側のフィルタカーブのグループ は48kHzのサンプリングレートに対応する。 個々のバンドパスフィルタ48の最小サンプリングレートは、原則的にその上 限が図9の中で−100dBの減衰量以下に低下した点から導き出される。しか し、簡略化する目的で、次に高いサンプリンクルートのみが毎回、方程式fA= 2-n・48kHzを満たすそれぞれのバンドパスフィルタ48について選択され てきた。この式で、fAは関係する個々のバンドパスフィルタ48のデータある いはサンプリンクルートであり、指数nは1から5までとなる。その結果、図9 に表されたグループが生じる。フィルタバンク16,20の5個のサブフィルタ バンクFB1〜FB5への再分割は、これと同様の結果である。同一のサンプリ ングレートで作動している全てのフィルタは、それぞれのローパスフィルタ44 b〜44fおよびそれぞれの間引き手段46b〜46fによる共通の前処理作業 を利用することができる。個々のフィルタ励振カーブまたはフィルタ関数を生み 出す方法は、それぞれ以下に詳細に説明する。 望ましい実施例において、図5に示された全てのバンドパスフィルタ48には デジタルFIRフィルタが用いられており、これらFIRフィルタはそれぞれ1 28個のフィルタ係数(filter coefficients)を持ち、これは、フィルタカーブ またはフィルタ関数がそれぞれ知られている場合には当業者の間で公知である方 法によって計算することかできる。これは高速畳み込み(rapid convolution)に よって達成することができ、その途中においては、FBO(42a)およびLP 1(44b)(LP=ローパス)からの全てのフィルタは、フィルタを計算する ために一つのFFT(高速フーリエ変換)を共通して利用することができる。ロ ーパスフィルタ44b〜44fの限界周波数は、それぞれのサブフィルタバンク に適切なサンプリングレートとともに、サンプリング定理の違反が起こらないよ うに選択されなければならない。 ここで注記すべきは、各フィルタの出力信号1,2,...,241、すなわち部 分的テスト信号および部分的基準信号は、それぞれその部分的信号を発生させた 対応するフィルタによって定義される帯域幅を持つということである。この一つ のフィルタの帯域幅は、スペクトル領域とも呼ばれている。一つのスペクトル領 域の中心周波数は、対応するバンドパスフィルタの中心周波数に対応し、またス ペクトル領域の帯域幅は対応するフィルタの帯域幅に等しい。そのため、個々の スペクトル領域またはバンドパスフィルタの帯域幅は、それぞれ重複しているこ とが明らかである。なぜなら、スペクトル領域は0.05バルクよりも大きいか らである。(0.1バルクは、一つのバンドパスフィルタと次のバンドパスフィ ルタとの中心周波数の距離である。) 図6は、1000Hzの中心周波数fmを持つバンドパスフィルタ上のマスキ ングフィルタ48の性能を典型的に示している。図6において、縦座標はdB単 位のフィルタ減衰量を示し、横座標はバルク単位の中心周波数fmからの左右へ の周波数偏差を示す。図6におけるパラメータは、フィルタによってフィルタリ ングされたオーディオ信号の音圧レベルである。フィルタリングされたオーディ オ信号の音圧レベルは、0dBから100dBまでの広がりを持ってもよい。上 述のように、モデルとして見られた時の人間の耳のバンドパスフィルタのフィル タ構造は、受信されたオーディオ信号の音圧レベルに依存している。図6から分 かるように、左側のフィルタ端(filter edge)は高い音圧レベルの時に比較的平 坦であり、低い音圧レベルの方に向かってしゅん度がより急になる。これとは反 対に、より低い音圧レベルの場合にはしゅん度がより急なフィルタ端は静寂時の しきい値に向かってより素早く変化する。これは、図6の中では個々の典型的な フィルタ端の直線的な連続となっている。 オーディオ信号の音圧レベルに対する依存状態は、フィルタバンクのデジタル バンドパスフィルタ48の係数を種々に変化させることで達成できる。しかし、 この方法は、非常に複雑であることに加え、聞いている音の大きさの変化に非常 に影響されやすくなるという欠点がある。(Kh.Brandenburg and Th.Sporer.“ NMR”and“Masking Flag”:Evaluation of quality using perceptual cri-teri a.In Proceedings of the 11th International Conference of the AES,Portla nd,1992.を参照)。 本発明にかかるオーディオ信号の聴覚に適応した品質評価においては、別の考 えを採用した。異なる音圧レベルの結果として生じるフィルタカーブを基にして 、最悪のマスキングケースまたは最悪の場合に対するカーブ50を形成した。最 悪 の場合のカーブ50は、中心周波数fmから特定の周波数偏差がある場合に、特 定の公称音圧レベル領域(nominal sound pressure level range)における全ての 音圧レベルカーブの最小値から得られ、例えば0dBから100dBまで延びて もよい。そのため、最悪の場合のカーブは、図6においてカーブ50で示される ように、中心周波数付近においては急峻となる端を持ち、中心周波数から離れる に従って平坦になる。さらに図6から分かるように、バンドパスフィルタ48の フィルタ端の、中心周波数fmからみて右側で静寂時のしきい値から離れた部分 は、フィルタリングされたオーディオ信号の音圧レベルに対して殆ど依存してい ない。つまり、音圧レベルが0dBから100dBまで変化しても、カーブ端の 右側の傾斜はほぼ同一であることがわかる。 本発明にかかるオーディオ信号の聴覚に適応した品質評価においては、外耳お よび中耳の伝達関数と、例えば耳の中の血流から起こる内部雑音とがさらに考慮 される。その結果として生じる、0dBから100dBまでの個々の音圧レベル に関するカーブを、図7に示す。図6とは対照的に、図7の横座標は、調性スケ ール(tonality scale)とも呼ばれているバルク単位の周波数スケールの代わりに 、Hz単位のスペクトル範囲領域を示す。数学的な表現を用いれば、外耳および 中耳の伝達関数と耳の内部雑音とは、以下の方程式によりモデル化することがで きる。 パラメータa0(f)は周波数領域全体にわたる耳の減衰量を表し、dB単位 で示される。 個々のバンドパスフィルタ48に関するマスキングカーブまたはフィルタカー ブは、中心周波数fmの関数として、かつ音圧レベルLの関数として以下の数学 方程式によりモデル化される。 この方程式の中で用いられた個々のパラメータを以下に説明する。 fm=バンドパスフィルタの中心周波数 Δb=バルク単位を用いた上記フィルタの中心周波数fmとテスト周波数との 間の周波数差 L=フィルタリングされたオーディオ信号の音圧レベル 丸め操作の因子(rounding factor)C2=0.1 下端のしゅん度 S1=27(dB/バルク) 上端のしゅん度: 定数 C1 Hz単位の周波数スケールからバルク単位の周波数スケールへの換算方程式は 、以下の通りである。 −10dBにおける仮想上の静寂時のしきい値がマスキングカーブAの中に追 加的に統合された時、以下の式で示される限界マスキングカーブAlimが結果と して生じる。 仮想上の静寂時のしきい値を含み、外耳および中耳の伝達関数A0(f)を算 入したマスキングカーブのための、バルクスケールからHzスケールへの転換に より、拡張限界マスキングカーブ(extended limit masking curve)Alimが得ら れ、 これがさらにオーディオ信号の音圧レベルの関数となる。 既に上述のように、それぞれの音圧レベルに対して固有のフィルタカーブまた はマスキングカーブを選択するために非常に多くの負担が必要になり、そのため 、最悪の場合のカーブが計算される。この最悪の場合のカーブAwc(f,fm) は、中心周波数fmを持つフィルタのHz単位の実際の周波数fにおいて最終的 に使用された減衰量を示す。この最悪の場合のカーブAwcは以下の数式で表すこ とができる。 図8は、本発明にかかるオーディオ信号の聴覚に適応した品質評価を実行する ための装置および方法をそれぞれ示すブロック図である。図5にかかる説明で既 に述べたように、オーディオ基準信号12は部分的オーディオ基準信号18を生 み出す目的でフィルタバンク16に送られる。それと同様に、オーディオテスト 信号14は部分的オーディオテスト信号22を生み出す目的でフィルタバンク2 0に送られる。ここで注意すべきは、図6,図7から分かるように、バンドパス フィルタ48の個々のフィルタカーブは互いに重複しているということである。 なぜなら、個々のフィルタの中心周波数はたった0.1バルクずつしか離れてい ないからである。このようにしてそれぞれのバンドパスフィルタ48は、人間の 耳内部の基底膜(basilar membrane)にある有毛細胞(hair cell)の励振をモデル 化すると考えられる。 フィルタバンク16およびフィルタバンク20の個々のバンドパスフィルタの 出力信号は、それぞれ部分的オーディオ基準信号18および部分的オーディオテ スト信号22となり、それぞれのモデル化手段24および26に対して伝達され 、このモデル化手段24および26は最初に説明したような時間マスキングをモ デ ル化すると考えられている。モデル化手段24および26は、静寂時のしきい値 と後マスキングとをモデル化するという役割を果たす。既に前述したように、フ ィルタバンクの出力値は調整されており、静寂時のしきい値のための定数値がそ れに加算されている。なぜなら、静寂時のしきい値の周波数依存度は、既にフィ ルタバンクの中で考慮に入れられているからである。3msの時間定数を持つ帰 納的フィルタ(recursive filter)が出力信号を平滑化する。この後には非線形な フィルタが続くが、この非線形なフィルタは、一方では積分器として音事象の持 続時間に渡って蓄積されるエネルギーを積分し、他方では音事象後の励振の指数 関数的な減少をモデル化する。モデル化手段24および26の詳細な構造は、M. Krajalainen,A new auditory model for the evaluation of sound quality of audio system,Proceedings of the ICASSP,608〜611頁,Tampa,Florida,Mar ch 1985,IEEE の中で説明されている。ここで注記するか、この時間マスキン グのモデル化によって、全てのバンドパスフィルタ48に対する全てのフィルタ 帯域において帯域幅が減少し、その減少程度は、更なるサンプリングステップ(u ndersampling step)が可能で、それにより全ての帯域を1.5kHzの同一サン プリングレートにすることができる程度である。 モデル化手段24,26の出力信号は、この後検出計算手段52に伝達される か、この検出計算手段52の機能については以下に説明する。図8に示されるよ うに、1番を付された第1バンドパスフィルタに対する検出計算手段52には、 1番を付されたバンドパスフィルタから出力された部分的オーディオ基準信号が 与えられ、さらに、オーディオテスト信号のためのフィルタバンクのうち1番を 付されたバンドパスフィルタから出力された部分的オーディオテスト信号も与え られる。検出計算手段52は、一方ではこれら2つのレベル間の差異を検出し、 他方ではその部分的オーディオ基準信号と部分的オーディオテスト信号の間のレ ベル差を検出確率の形式にしてマップする。バンドパスフィルタ48内に、オー ディオ基準信号とオーディオテスト信号とから同一の中心周波数fmを持つ励振 が発生すると、それらは引き算を実行され、図10に示されたしきい値関数と比 較される。この図10に示されたしきい値関数は、差異の絶対値をdB単位でい わゆる「部分的検出確率(local detection probability)」上にマップする。人 間の脳にとって適切な検出しきい値とは2.3dBである。しかし、ここで注意 すべき重要な点は、この2.3dBの適切な検出しきい値の周囲に、検出のある 不確定要素が存在しているという点であり、そのために図10に示された確率カ ーブが利用されるのである。2.3dBのレベル差は、検出確率上にO.5の値 でマップされる。個々の検出計算手段52は、それぞれバンドパスフィルタ48 と関連し、全て互いに並行して作動し、さらに検出計算手段52はそれぞれのレ ベル差を検出確率pi,tの中に時間連続的にマップしてゆく。 ここで注記するが、オーディオ信号の聴覚に適応した品質評価は時間領域の中 で作動し、オーディオ基準信号12およびオーディオテスト信号14の時間離散 的入力信号は、フィルタバンク内のデジタルフィルタによって順を追って処理さ れている。そのため、検出計算手段52に対する入力信号もまた、時間に関して 連続的なデータストリームであることが明らかである。検出計算手段52の出力 信号もまた、時間に関して連続的なデータストリームであり、このデータストリ ームは時間の各瞬間または各時間スロットに、それぞれ対応するバンドパスフィ ルタ48の各周波数領域の検出確率を表している。特定の検出計算手段52が特 定の時間スロット内において低い検出確率を示す場合には、オーディオ基準信号 12から符号化および復号化を通して得られたオーディオテスト信号14に、特 定の周波数領域および特定の瞬間において符号化エラーが発生したと評価される が、そのエラーは恐らく人間の脳では感知されないと評価される。これとは反対 に、検出確率が高い場合には、そのオーディオテスト信号が特定の時間スロット および特定の周波数領域において聞き取ることか可能な欠陥を持っているという ことであるから、人間の脳が恐らくオーディオテスト信号の符号化あるいは復号 化のエラーを感知するであろうと評価される。 検出計算手段52の出力信号は、選択的に、全体検出手段(overall detection means)54に送られてもよいし、あるいは複数のグループ検出手段(group de-t ection means)56に送られてもよい。上記全体検出手段54は、特定の国際 的に使用されるテスト信号に関し、コントラスト(明暗比)によって図11に示 す全体的な検出確率を表す。図11の上側の図表は、縦座標でバルク単位の周波 数を示し、横座標でms単位の時間を示す。下側の図表は、上側の図表における 陰の濃度がそれぞれ何パーセント程度の検出確率を表現しているのかを示してい る。上側の図表中で白い部分は、100%の確率で人間の脳によって確認するこ とができるような符号化および復号化のエラーを表す。使用された基準信号は当 業者には知られたものであり、SQAM(=音声品質評価材料)のCDのトラッ ク10に配置されており、SQAM,トラック10と名付けられている。ここか らは、意図的に符号化または復号化のエラーをそれぞれ含んだオーディオ信号が 得られる。すなわち、このオーディオ信号は、2回アクセントを置いたa(ラの 音)をチェロ(violoncello)演奏の上に流し、それを意図的に誤って符号化およ び復号化したものである。この信号の長さは2.7秒であるが、図11および図 12の中では、この典型例信号の最初から1.2秒までの部分だけをグラフで示 している。 グループ検出手段56は、以下のように作動する。検出確率pi.tが伝達され ると、グループ検出手段56はまず時間スロットt当たりの検出確率pi.tの余 確率(counter-probability)pgi.t=1−pi.tを形成する。余確率pgは、時 間スロットtの中で妨害音が検出されない場合を表す尺度である。図8の中に積 記号(product symbol)で示されるように、複数のバンドパスフィルタのレベル差 の余確率が互いに掛け算された場合、この掛け算の積すなわち個々の余確率の積 に対する余確率は、図8に示されるように、検出計算手段52の出力信号が全て 全体検出手段54に伝達された時の時間スロットの全体的な検出確率を提供する 。この検出確率が時間において平均化された時、平均全体検出確率が得られる。 しかし、オーディオテスト信号の品質に関するより正確な情報は、時間スロット 内の何パーセントの中で全体検出確率が10%,20%,...,90%よりも大 きいかを示す棒グラフによって与えられる。 前述のように、図11は検出計算手段の出力信号が直接的に図表で表現された 時の部分的検出確率を示す。明確に分かることであるが、約5バルク(約530 Hz)以下でかつ2バルク(200Hz)以上の低周波数領域において、約10 0msから1,100msまで時間領域の中で、オーディオテスト信号の符号化 および復号化のエラーがそれぞれ非常に高い確率で人間の脳によって検出される であろう。さらに、22バルクにおいても、小さな妨害信号を見いだすことがで きる。 検出計算手段52の出力によって構成される部分的検出確率の代わりに、グル ープ検出手段56によって計算される周波数グループ検出確率が選択された場合 には、上記図表の中に妨害音がより明確に現れる。上記グループ検出確率は、あ る周波数グループを含む領域の中のあるフィルタkの周囲に、ある妨害音が知覚 できた場合の影響を計る基準を構成する。 本発明の望ましい実施例においては、10個ずつの互いに隣接した部分検出確 率が連結されている。10個の隣接したバンドパスフィルタは、各個が隣と0. 1バルクずつの間隔を持っているので、連結された10個の隣接したバンドパス フィルタのグループは、1バルクの周波数領域を持つことになる。隣接する検出 確率のグルーピングは、結果として生じる周波数領域が聴覚心理周波数グループ とほぼ一致するように選択するのが良い。これにより、人間の耳の周波数グルー プ形成をシュミレートできるようになるという利点が生まれ、その結果、妨害音 のかなり主観的な音の印象が図表で表現できるようになった。図12を図11と 比較して推測できることは、検出確率をグループ状に連結させることによって、 図11の周波数よりも高い周波数においても、オーディオテスト信号の符号化お よび復号化のエラーをそれぞれ聞き取ることができようになるということである 。そのため、図12に示されたグループ検出は、図11に示された部分的検出よ りも、オーディオ信号のより現実的な品質評価を可能にする。なぜなら、グルー プ検出は人間の耳内における周波数グループ形成のシュミレーションを用いるか らである。隣接するフィルタ出力値の差異(この差異は周波数グループ以下であ るように選択されているが)は、このように連帯的に評価され、対応する周波数 領 域内の主観的な妨害音を計る基準を提供する。 別の方法として、周波数軸を3つのセクション(200Hz未満,200Hz 以上かつ6,500Hz以下,6,500Hzを越える範囲の3セクション)に 分割することもできる。オーディオ基準信号およびオーディオテスト信号のレベ ルもまた、それぞれ3つのセクション(静寂,20dB以下の低レベル,20d Bを越える高レベル)に分割することができる。その結果として、9個の異なる タイプのセクションが生まれ、これらにフィルタサンプリング値が属してもよい 。時間セクションであって、その中では両方の入力信号の全てのフィルタ出力値 が静寂タイプに属するセクションは、さらに詳細な考察を必要としない。残りの 6個のタイプのセクションから、前述のように入力信号の間の差異の検出確率に 関する基準がそれぞれの時間スロットに対して決定される。検出確率の決定に加 えて、いわゆる妨害音の大きさを定義することも可能である。この妨害音の大き さもまた検出計算手段52で計算されるレベル差と関連性があり、かつ欠陥が妨 害音となる強度を示すものである。その後、妨害音の大きさおよび検出確率の別 々の平均値が、6個のタイプのセクションのそれぞれについて計算される。 さらに、10msの時間内における短時間の平均値が計算され、1つの完全な オーディオ信号の短時間平均値の中から最悪の30個の短時間平均値が記憶され る。次に、これら30個の最悪の場合の値の平均値と全体平均値とが一緒になっ て音の印象を作り上げる。この点で注意すべきは、妨害音の分散が非常に不均衡 な時には、最悪の場合の値が有意義になるということである。その反対に、小さ いけれど聞き取れる妨害音がしばしば含まれる時には、全体平均値が有意義にな る。全体平均値かまたは最悪の場合の値かのどちらかをオーディオテスト信号の 評価に使用すべきかの判断は、これら2つの評価値の極値結合(extreme-value l inkage)を介して実行される。 これまで説明してきたオーディオ信号の聴覚に適応した品質評価は、モノラル または単一オーディオ信号について述べてきた。しかし、本発明にかかるオーデ ィオ信号の聴覚に適応した品質評価では、フィルタバンク16,20の間の個々 の非線形な前処理と、検出計算手段52内での検出とによって、バイノーラル(b inaural)またはステレオのオーディオテスト信号の品質評価も可能である。当業 者には知られているように、ステレオオーディオ信号は右側チャネルおよび左側 チャネルを一つずつ備えている。オーディオテスト信号およびオーディオ基準信 号の左側および右側チャネルは、周波数選択方式で過渡現象(transients)を強調 しかつ不動信号(stationary signals)を減少させる非線形要素によって、それぞ れ別々にフィルタリングされる。この操作の出力信号は、以下にそれぞれ修正さ れたオーディオテスト信号と修正されたオーディオ基準信号と呼ばれるものであ る。検出計算手段52内での検出は、ここでは前述のように1回だけ実行される のではなく、4回実行され、連続的な入力信号が検出計算手段52に対して次の ように交互に与えられる。すなわち、 第1検出,左側チャネル(D1L):オーディオ基準信号の左側チャネルとオ ーディオテスト信号の左側チャネルの検出; 第1検出,右側チャネル(D1R):オーディオ基準信号の右側チャネルとオ ーディオテスト信号の右側チャネルの検出; 第2検出,左側チャネル(D2L):修正されたオーディオ基準信号の左側チ ャネルと修正されたオーディオテスト信号の左側チャネルの検出; 第2検出,右側チャネル(D2R):修正されたオーディオ基準信号の右側チ ャネルと修正されたオーディオテスト信号の右側チャネルの検出; の順番で実行される。 検出D1LとD1Rおよび検出D2LとD2Rのそれぞれから、最悪の場合の 値のみが個々に決定され、その後、このように作り上げられた値は、そのステレ オオーディオテスト信号を品質評価するために、加重された平均値を介して結合 される。
【手続補正書】特許法第184条の8第1項 【提出日】1998年11月9日(1998.11.9) 【補正内容】 just a guess ? In 101nd AES-Convention,Los Angeles,1996,Preprint参照) 。 ドイツ特許4437287C2は、ステレオオーディオ信号の保全を測定する 方法と、共通して符号化されたステレオオーディオ信号を認識する方法とを開示 している。2つのステレオチャネルを持つテストされるべき信号が、基準信号の 符号化およびその後の復号化を通して形成される。テストされる信号および基準 信号の両方は、周波数領域に変換される。基準信号の各部分的帯域およびテスト される信号の各部分的帯域に対し、基準信号およびテストされる信号の信号特性 が作られる。同一の各部分的帯域に属する信号特性は、相互に比較される。この 比較から、ステレオオーディオ信号特性の保全、あるいは使用された符号化技術 の中のステレオサウンド印象に対する妨害信号に関して結論が出される。人間の 耳の伝達特性による基準信号およびテスト信号に対する主観的な影響は、この文 献では考慮されていない。 ドイツ特許4345171は、少なくとも2つの信号を符号化するために選択 される符号化タイプを決定する方法を開示している。2つのステレオチャネルを 持つ信号は、強度ステレオ符号化(intensity stereo coding)によって符号化さ れ、再度復号化されてオリジナルステレオ信号と比較される。強度ステレオ符号 化は、左右のチャネルが相互に近似している時に、ステレオ信号特有のオーディ オ復号化のために使用されるものである。符号化/復号化されたステレオ信号と オリジナルステレオ信号は、異時間分解(unlike time resolution)および周波数 分解(frequency resolution)を用いた変換方法によって、時間領域(time domai n)から周波数領域(frequency domain)へと変換される。この変換方法は、ハイブ リッド/ポリフェイズ(hybrid/polyphase)フィルタバンクを備え、これを通して 例えばFFT(高速フーリエ変換)またはMDCT(変形離散コサイン変換)に よって類似したスペクトルラインが発生する。所定の限界周波数まで増大するス ケール・ファクタ帯域幅を選択することにより、周波数グループ幅およびそれに 関連した人間の聴覚の時間分解(time resolution)がシュミレーションさ れる。その後、それぞれの周波数グループ幅の中に、オリジナルステレオ信号と 符号化/復号化されたステレオ信号との両方を自乗(squaring)および加算(summa tion)するすることで短時間エネルギーが形成される。このようにして得られた 短時間エネルギー値は、聴覚心理リスニングしきい値を使用して評価される。そ の目的は、強度ステレオ符号化が有効か否かを評価する中で、聴覚心理マスキン グ効果を考察する上で、可聴短時間エネルギー値だけをさらに考慮するためであ る。この周波数グループ幅の短時間エネルギー値の評価は、人間の内耳の非線形 性を考慮して、人間の内耳をモデル化することでさらに発展させることができる 。 本発明の目的は、オーディオ信号の聴覚に適応した品質評価を実行する方法お よび装置を提供し、主観的な影響からの高い独立性を得ることである。この方法 および装置は、時間に関する高い分解能により、人間の耳の内部における事象を エンハンストーモデル化(enhanced modeling)することを達成するものである。 この目的は、請求項1に記載の方法と請求項18に記載の装置とにより達成さ れる。 本発明は、基準信号とテスト信号とに対する全ての非線形な聴覚的影響を同様 にシュミレートし、かつテスト信号の品質評価のための比較を、まるで耳の奥す なわち(内耳の)鍋牛(cochlea)から聴神経への伝達時のような環境で実行する ことを実現化することを基礎とする。オーディオ信号の聴覚に適応した品質評価 とは、このように鍋牛の領域内での比較を用いる。テスト信号とオーディオ基準 信号とによる耳内でのそれぞれの励振(excitation)は、このように比較される。 請求の範囲 1.オーディオ基準信号(12)から符号化および復号化を通して得られたオー ディオテスト信号(14)の聴覚に適応した品質評価を実行する方法であって、 周波数が重複しかつスペクトル領域を定義している複数のフィルタ(48)か らなる第1フィルタバンク(20)によって、オーディオテスト信号(14)を そのスペクトル成分に従って複数の部分的オーディオテスト信号(22)に分解 するステップであって、上記フィルタ(48)は、耳に供給されたオーディオ信 号の音圧レベルに依存する励振カーブであって、かつそれぞれのフィルタ中心周 波数(fm)における人間の耳の励振カーブに基づいて、個々に決定された異な るフィルタ関数を持つように構成されたステップと、 第1フィルタバンク(20)と同様の構成を持つ第2フィルタバンク(16) によって、オーディオ基準信号(12)をそのスペクトル成分に従って複数の部 分的オーディオ基準信号(18)に分解するステップと、 同一のスペクトル領域に属する部分的オーディオテスト信号(22)と部分的 オーディオ基準信号(18)との間のレベル差をスペクトル領域によって検出す るステップと、 それぞれのレベル差に基づき、あるスペクトル領域の中のオーディオテスト信 号(14)の符号化エラーが検出される検出確率を、スペクトル領域によって決 定するステップであって、上記検出確率はある部分的オーディオ基準信号と部分 的オーディオテスト信号との間のレベル差が人間の脳によって感知される確率を シュミレートするものであるステップと、を備えた品質評価を実行する方法。 2.請求項1に記載の方法であって、 上記励振カーブは、人間の耳の外耳および中耳の伝達関数と内部雑音とを考慮 に入れたカーブであることを特徴とする品質評価を実行する方法。 3.請求項1または2に記載の方法であって、 周波数が高くなるに従い減少する人間の耳の周波数分解能への近似値を提供す るために、第1および第2フィルタバンク(16,20)のフィルタ(48)の 励振カーブは、そのフィルタの中心周波数に従って決定されることを特徴とする 品質評価を実行する方法。 4.請求項1乃至3のいずれかに記載の方法であって、 低い音圧レベルよりも高い音圧レベルにおいて、より平坦なフィルタ端とより 低い静寂時のしきい値を持つように、第1および第2フィルタバンク(16,2 0)のフィルタ(48)の励振カーブは、オーディオテスト信号(14)および オーディオ基準信号(12)のそれぞれの音圧レベルに従って決定されることを 特徴とする品質評価を実行する方法。 5.請求項1乃至3のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)のフィルタ(48)の上記励振 カーブは、オーディオテスト信号(14)およびオーディオ基準信号(12)の それぞれの音圧レベルに従って決定され、その結果、各フィルタ(48)につき それぞれ一つのフィルタ関数が、一つの音圧レベルの範囲において起こることが 可能でかつある特定の音圧レベルに対応している全てのフィルタ関数の最小減衰 値から形成されることを特徴とする品質評価を実行する方法。 6.請求項1乃至5のいずれかに記載の方法であって、 スペクトル領域によってレベル差を検出するステップの前に、スペクトル領域 によってオーディオテスト信号(14)およびオーディオ基準信号(12)の時 間マスキングをモデル化するステップを備えることを特徴とする品質評価を実行 する方法。 7.請求項6に記載の方法であって、 上記スペクトル領域によって時間マスキングをモデル化するステップは、前マ スキングを考慮するためにオーディオ基準信号(12)またはオーディオテスト 信号(14)のスペクトル領域による積分を含み、後マスキングを考慮するため にオーディオ基準信号(12)またはオーディオテスト信号(14)のスペクト ル領域による指数関数的な減衰を含むことを特徴とする品質評価を実行する方法 。 8.請求項1乃至7のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)のフィルタ(48)は互いに異 なるサンプリンクルートを持ち、このサンプリングレートは所定のフィルタ減衰 量を持つあるフィルタ(48)の中心周波数(fm)より高い周波数に位置して いるフィルタ端の交点によって決定されるものであることを特徴とする品質評価 を実行する方法。 9.請求項8に記載の方法であって、上記分解ステップは、 隣接するフィルタ(48)を同一のサンプリングレートを持つサブフィルタバ ンク(42a〜42f)の形式にグルーピングするステップであって、上記サン プリングレートは、オーディオテスト信号(14)およびオーディオ基準信号( 12)が離散化させられた元のサンプリングレートと2の累乗との商により決定 されるステップを含むことを特徴とする品質評価を実行する方法。 10.請求項1乃至9のいずれかに記載の方法であって、 スペクトル領域によってレベル差を検出するステップの前に、オーディオ基準 信号(12)とオーディオテスト信号(14)との間の遅延が決定されて補正さ れることを特徴とする品質評価を実行する方法。 11.請求項1乃至10のいずれかに記載の方法であって、 上記スペクトル領域によって検出確率を決定するステップは、 特定のしきい値レベル差に対しては0.5の検出確率を割り当て、 上記特定のしきい値レベル差よりも小さいレベル差に対しては0.5よりも小 さな検出確率を割り当て、 上記特定のしきい値レベル差よりも大きいレベル差に対しては0.5よりも大 きな検出確率を割り当てることを特徴とする品質評価を実行する方法。 12.請求項1乃至11のいずれかに記載の方法であって、 一つの聴覚心理周波数グループよりも小さいかまたは同等の一つのスペクトル 範囲の中の隣接するスペクトル領域の検出確率は連体的に評価され、その結果、 オーディオテスト信号(14)の符号化エラーの主観的な知覚を得ることを特徴 とする品質評価を実行する方法。 13.請求項1乃至12のいずれかに記載の方法であって、 時間に関して連続的な複数の検出確率が一つの時間スロットを形成するために 結合され、かつその時間に関して連続的な複数の検出確率が一つの時間スロット に関する全体的な検出確率を得るために連結されることを特徴とする品質評価を 実行する方法。 14.請求項1乃至13のいずれかに記載の方法であって、 一つのスペクトル領域における検出確率の短時間平均値が作られ、かつ一つの オーディオテスト信号の複数の短時間平均値が記憶され、全ての短時間平均値の 全体平均値と記憶された短時間平均値とがオーディオテスト信号(14)のそれ ぞれのスペクトル領域の全体的な音印象を生み出すことを特徴とする品質評価を 実行する方法。 15.請求項1乃至14のいずれかに記載の方法であって、 上記オーディオテスト信号およびオーディオ基準信号は、左側チャネルおよび 右側チャネルを備えたステレオ信号であって、 オーディオテスト信号を分解するステップとオーディオ基準信号を分解するス テップとは、過渡現象を強調しかつ不動信号を減少させる非線形要素によって、 上記オーディオテスト信号および上記オーディオ基準信号の左側チャネルおよび 右側チャネルを別々に分解し、その結果、左側チャネルおよび右側チャネルを備 えた修正されたオーディオテスト信号と、左側チャネルおよび右側チャネルを備 えた修正されたオーディオ基準信号とを生み出し、 スペクトル領域によるレベル差の検出は、同一スペクトル領域に属する部分的 信号の間のレベル差を検出することを含み、このレベル差の検出は、 左側チャネルの部分的オーディオテスト信号と左側チャネルの部分的オーディ オ基準信号との間の検出と、 右側チャネルの部分的オーディオテスト信号と右側チャネルの部分的オーディ オ基準信号との間の検出と、 左側チャネルの修正された部分的オーディオテスト信号と左側チャネルの修正 された部分的オーディオ基準信号との間の検出と、 右側チャネルの修正された部分的オーディオテスト信号と右側チャネルの修正 された部分的オーディオ基準信号との間の検出と、を含むことを特徴とする品質 評価を実行する方法。 16.請求項15に記載の方法であって、 左側チャネルおよび右側チャネルに対する信号のレベル差から、最大レベル差 がスペクトル領域によって決定され、 左側チャネルおよび右側チャネルに対する修正された信号のレベル差から、最 大レベル差がスペクトル領域によって決定され、 オーディオテスト信号に関する最大レベル差と修正されたオーディオテスト信 号に関する最大レベル差とが、上記ステレオオーディオテスト信号の符号化エラ ーを検出するために、加重された平均値を通して結合されることを特徴とする品 質評価を実行する方法。 17.請求項1乃至16のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)は単一のフィルタバンクによっ て構成され、かつオーディオテスト信号(14)またはオーディオ基準信号(1 2)の分解の過程において、上記部分的オーディオ基準信号および部分的オーデ ィオテスト信号はそれぞれ一時的に記憶されることを特徴とする品質評価を実行 する方法。 18.オーディオ基準信号(12)から符号化および復号化を通して得られたオ ーディオテスト信号(14)の聴覚に適応した品質評価を実行する装置であって 、 オーディオテスト信号(14)をそのスペクトル成分に従って複数の部分的オ ーディオテスト信号(22)へと分解するための複数のフィルタを含む第1フィ ルタバンク(16)であって、上記フィルタは、周波数が重複しかつスペクトル 領域を定義し、耳に供給されたオーディオ信号の音圧レベルに依存するそれぞれ のフィルタの中心周波数における人間の耳の励振カーブに基づいて個々に決定さ れた個別のフィルタ関数を持つように構成された第1フィルタバンク(16)と 、 オーディオ基準信号(12)をそのスペクトル成分に従って部分的オーディオ 基準信号(18)へと分解するための、第1フィルタバンク(16)と同様の構 成を持つ第2フィルタバンク(20)と、 同一のスペクトル領域に属する部分的オーディオテスト信号(22)と部分的 オーディオ基準信号(18)との間のレベル差をスペクトルによって検出するた めの計算手段と、 それぞれのレベル差を基にして、ある特定のスペクトル領域の中のオーディオ テスト信号(14)の符号化エラーを検出する検出確率をスペクトル領域によっ て決定するための割り当て手段(52)であって、上記検出確率はある部分的オ ーディオ基準信号と部分的オーディオテスト信号との間のレベル差が人間の脳に よって感知される確率をシュミレートするものである割り当て手段と、 を備えたことを特徴とする品質評価を実行する装置。 19.請求項18に記載の装置であって、 オーディオテスト信号(14)およびオーディオ基準信号(12)の時間マス キングをスペクトル領域によってモデル化するためのモデル化手段(24)をさ らに備えたことを特徴とする品質評価を実行する装置。 20.請求項19に記載の装置であって、 上記モデル化手段(24)は、前マスキングを考慮する目的で、スペクトル領 域によって部分的オーディオ基準信号または部分的オーディオテスト信号を積分 する積分手段を含むとともに、後マスキングを考慮する目的で、スペクトル領域 によって部分的オーディオ基準信号または部分的オーディオテスト信号を指数関 数的に減衰させる減衰手段を含むことを特徴とする品質評価を実行する装置。 21.請求項18乃至20のいづれかに記載の装置であって、 上記オーディオテスト信号(14)の符号化エラーを主観的に知覚するために 、隣接するスペクトル領域を共通して評価するための複数のグループ評価手段を さらに備え、上記隣接しかつ共通して評価された複数のスペクトル領域は、共通 して評価されたスペクトル領域によって形成された帯域幅が一つの聴覚心理周波 数グループよりも小さいかまたは同等になるように選択されたものであることを 特徴とする品質評価を実行する装置。 22.請求項18乃至21のいづれかに記載の装置であって、 上記オーディオテスト信号(14)の符号化エラーを全体的に表現するために 、全てのスペクトル領域を共通して評価するための全体評価手段(54)をさら に備えたことを特徴とする品質評価を実行する装置。 【手続補正書】 【提出日】1999年5月14日(1999.5.14) 【補正内容】 (1)明細書第22頁末行において、「56に送られてもよい。」の後に、「 グループ検出手段56の出力信号は、積算手段58によって掛け算されるか、あ るいは積算手段58を経ずに直接出力してもよい。」を挿入する。 (2)添付図面中、図6,図8を別紙のとおり補正する。 【図6】 【図8】
───────────────────────────────────────────────────── 【要約の続き】 スト信号(22)と部分的オーディオ基準信号(18) との間で形成される。オーディオテスト信号(14)の 品質を評価するために、検出確率がそれぞれのレベル差 を基にしてスペクトル領域により決定され、その関連す るスペクトル領域内のオーディオテスト信号(14)の 符号化エラーを検出する。

Claims (1)

  1. 【特許請求の範囲】 1.オーディオ基準信号(12)から符号化および復号化を通して得られたオー ディオテスト信号(14)の品質を評価する方法であって、 周波数が重複しかつスペクトル領域を定義している複数のフィルタ(48)か らなる第1フィルタバンク(20)によって、オーディオテスト信号(14)を そのスペクトル成分に従って複数の部分的オーディオテスト信号(22)に分解 するステップであって、上記フィルタ(48)は、それぞれのフィルタ中心周波 数(fm)における人間の耳の励振カーブに基づいて個々に決定された異なるフ ィルタ関数を持つように構成されたステップと、 第1フィルタバンク(20)と同様の構成を持つ第2フィルタバンク(16) によって、オーディオ基準信号(12)をそのスペクトル成分に従って複数の部 分的オーディオ基準信号(18)に分解するステップと、 同一のスペクトル領域に属する部分的オーディオテスト信号(22)と部分的 オーディオ基準信号(18)との間のレベル差をスペクトル領域によって検出す るステップと、 それぞれのレベル差に基づき、あるスペクトル領域の中のオーディオテスト信 号(14)の符号化エラーが検出される検出確率を、スペクトル領域によって決 定するステップと、を備えた品質評価を実行する方法。 2.請求項1に記載の方法であって、 上記励振カーブは、人間の耳の外耳および中耳の伝達関数と内部雑音とを考慮 に入れたカーブであることを特徴とする品質評価を実行する方法。 3.請求項1または2に記載の方法であって、 周波数が高くなるに従い減少する人間の耳の周波数分解能への近似値を提供す るために、第1および第2フィルタバンク(16,20)のフィルタ(48)の 励振カーブは、そのフィルタの中心周波数に従って決定されることを特徴とする 品質評価を実行する方法。 4.請求項1乃至3のいずれかに記載の方法であって、 低い音圧レベルよりも高い音圧レベルにおいて、より平坦なフィルタ端とより 低い静寂時のしきい値を持つように、第1および第2フィルタバンク(16,2 0)のフィルタ(48)の励振カーブは、オーディオテスト信号(14)および オーディオ基準信号(12)のそれぞれの音圧レベルに従って決定されることを 特徴とする品質評価を実行する方法。 5.請求項1乃至3のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)のフィルタ(48)の上記励振 カーブは、オーディオテスト信号(14)およびオーディオ基準信号(12)の それぞれの音圧レベルに従って決定され、その結果、各フィルタ(48)につき それぞれ一つのフィルタ関数が、一つの音圧レベルの範囲において起こることが 可能でかつある特定の音圧レベルに対応している全てのフィルタ関数の最小減衰 値から形成されることを特徴とする品質評価を実行する方法。 6.請求項1乃至5のいずれかに記載の方法であって、 スペクトル領域によってレベル差を検出するステップの前に、スペクトル領域 によってオーディオテスト信号(14)およびオーディオ基準信号(12)の時 間マスキングをモデル化するステップを備えることを特徴とする品質評価を実行 する方法。 7.請求項6に記載の方法であって、 上記スペクトル領域によって時間マスキングをモデル化するステップは、前マ スキングを考慮するためにオーディオ基準信号(12)またはオーディオテスト 信号(14)のスペクトル領域による積分を含み、後マスキングを考慮するため にオーディオ基準信号(12)またはオーディオテスト信号(14)のスペクト ル領域による指数関数的な減衰を含むことを特徴とする品質評価を実行する方法 。 8.請求項1乃至7のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)のフィルタ(48)は互いに異 なるサンプリングレートを持ち、このサンプリンクルートは所定のフィルタ減衰 量を持つあるフィルタ(48)の中心周波数(fm)より高い周波数に位置して いるフィルタ端の交点によって決定されるものであることを特徴とする品質評価 を実行する方法。 9.請求項8に記載の方法であって、 オーディオテスト信号(14)およびオーディオ基準信号(12)はサンプリ ングレートによって離散化させられ、個別のサンプリングレートが元のサンプリ ングレートと2の累乗との商によって決定され、その結果、複数の隣接するフィ ルタ(48)がサブフィルタバンク(42a〜42f)を形成するようにグルー プ化されることを特徴とする品質評価を実行する方法。 10.請求項1乃至9のいずれかに記載の方法であって、 スペクトル領域によってレベル差を検出するステップの前に、オーディオ基準 信号(12)とオーディオテスト信号(14)との間の遅延が決定されて補正さ れることを特徴とする品質評価を実行する方法。 11.請求項1乃至10のいずれかに記載の方法であって、 所定のしきいレベル差における検出確率は0.5であり、上記レベル差より低 い領域の検出確率は0.5より低く、上記レベル差より高い領域の検出確率は0 .5より大きいことを特徴とする品質評価を実行する方法。 12.請求項1乃至11のいずれかに記載の方法であって、 一つの聴覚心理周波数グループよりも小さいかまたは同等の一つのスペクトル 範囲の中の隣接するスペクトル領域の検出確率は連体的に評価され、その結果、 オーディオテスト信号(14)の符号化エラーの主観的な知覚を得ることを特徴 とする品質評価を実行する方法。 13.請求項1乃至12のいずれかに記載の方法であって、 時間に関して連続的な複数の検出確率か一つの時間スロットを形成するために 結合され、かつその時間に関して連続的な複数の検出確率が一つの時間スロット に関する全体的な検出確率を得るために連結されることを特徴とする品質評価を 実行する方法。 14.請求項1乃至13のいずれかに記載の方法であって、 一つのスペクトル領域における検出確率の短時間平均値が作られ、かつ一つの オーディオテスト信号の複数の短時間平均値が記憶され、全ての短時間平均値の 全体平均値と記憶された短時間平均値とがオーディオテスト信号(14)のそれ ぞれのスペクトル領域の全体的な音印象を生み出すことを特徴とする品質評価を 実行する方法。 15.請求項1乃至14のいずれかに記載の方法であって、 上記オーディオテスト信号およびオーディオ基準信号は、左側チャネルおよび 右側チャネルを備えたステレオ信号であって、 オーディオテスト信号を分解するステップとオーディオ基準信号を分解するス テップとは、過渡現象を強調しかつ不動信号を減少させる非線形要素によって、 上記オーディオテスト信号および上記オーディオ基準信号の左側チャネルおよび 右側チャネルを別々に分解し、その結果、左側チャネルおよび右側チャネルを備 えた修正されたオーディオテスト信号と、左側チャネルおよび右側チャネルを備 えた修正されたオーディオ基準信号とを生み出し、 スペクトル領域によるレベル差の検出は、同一スペクトル領域に属する部分的 信号の間のレベル差を検出することを含み、このレベル差の検出は、 左側チャネルの部分的オーディオテスト信号と左側チャネルの部分的オーディ オ基準信号との間の検出と、 右側チャネルの部分的オーディオテスト信号と右側チャネルの部分的オーディ オ基準信号との間の検出と、 左側チャネルの修正された部分的オーディオテスト信号と左側チャネルの修正 された部分的オーディオ基準信号との間の検出と、 右側チャネルの修正された部分的オーディオテスト信号と右側チャネルの修正 された部分的オーディオ基準信号との間の検出と、を含むことを特徴とする品質 評価を実行する方法。 16.請求項15に記載の方法であって、 左側チャネルおよび右側チャネルに対する信号のレベル差から、最悪の場合の 値がスペクトル領域によって決定され、 左側チャネルおよび右側チャネルに対する修正された信号のレベル差から、最 悪の場合の値がスペクトル領域によって決定され、 オーディオテスト信号に関する最悪の場合の値と修正されたオーディオテスト 信号に関する最悪の場合の値とか、上記ステレオオーディオテスト信号の符号化 エラーを検出するために、加重された平均値を通して結合されることを特徴とす る品質評価を実行する方法。 17.請求項1乃至16のいずれかに記載の方法であって、 第1および第2フィルタバンク(16,20)は単一のフィルタバンクによっ て構成され、かつオーディオテスト信号(14)またはオーディオ基準信号(1 2)の分解の過程において、上記部分的オーディオ基準信号および部分的オーデ ィオテスト信号はそれぞれ一時的に記憶されることを特徴とする品質評価を実行 する方法。 18.オーディオ基準信号(12)から符号化および復号化を通して得られたオ ーディオテスト信号(14)の品質を評価する装置であって、 オーディオテスト信号(14)をそのスペクトル成分に従って部分的オーディ オテスト信号(22)へと分解するための複数のフィルタを含む第1フィルタバ ンク(16)であって、上記フィルタは、周波数が重複しかつスペクトル領域を 定義し、それぞれのフィルタの中心周波数における人間の耳の励振カーブに基づ いて個々に決定された個別のフィルタ関数を持つように構成された第1フィルタ バンク(16)と、 オーディオ基準信号(12)をそのスペクトル成分に従って部分的オーディオ 基準信号(18)へと分解するための、第1フィルタバンク(16)と同様の構 成を持つ第2フィルタバンク(20)と、 同一のスペクトル領域に属する部分的オーディオテスト信号(22)と部分的 オーディオ基準信号(18)との間のレベル差をスペクトルによって検出するた めの計算手段と、 それぞれのレベル差を基にして、ある特定のスペクトル領域の中のオーディオ テスト信号(14)の符号化エラーを検出する検出確率をスペクトル領域によっ て決定するための割り当て手段(52)と、を備えたことを特徴とする品質評価 を実行する装置。 19.請求項18に記載の装置であって、 オーディオテスト信号(14)およびオーディオ基準信号(12)の時間マス キングをスペクトル領域によってモデル化するためのモデル化手段(24)をさ らに備えたことを特徴とする品質評価を実行する装置。 20.請求項19に記載の装置であって、 上記モデル化手段(24)は、前マスキングを考慮する目的で、スペクトル領 域によって部分的オーディオ基準信号または部分的オーディオテスト信号を積分 する積分手段を含むとともに、後マスキングを考慮する目的で、スペクトル領域 によって部分的オーディオ基準信号または部分的オーディオテスト信号を指数関 数的に減衰させる減衰手段を含むことを特徴とする品質評価を実行する装置。 21.請求項18乃至20のいづれかに記載の装置であって、 上記オーディオテスト信号(14)の符号化エラーを主観的に知覚するために 、隣接するスペクトル領域を共通して評価するための複数のグループ評価手段を さらに備え、上記隣接しかつ共通して評価された複数のスペクトル領域は、共通 し て評価されたスペクトル領域によって形成された帯域幅が一つの聴覚心理周波数 グループよりも小さいかまたは同等になるように選択されたものであることを特 徴とする品質評価を実行する装置。 22.請求項18乃至21のいづれかに記載の装置であって、 上記オーディオテスト信号(14)の符号化エラーを全体的に表現するために 、全てのスペクトル領域を共通して評価するための全体評価手段(54)をさら に備えたことを特徴とする品質評価を実行する装置。
JP52310998A 1996-11-15 1997-10-02 オーディオ信号の聴覚に適応した品質評価方法および装置 Expired - Lifetime JP3418198B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19647399.3 1996-11-15
DE19647399A DE19647399C1 (de) 1996-11-15 1996-11-15 Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
PCT/EP1997/005446 WO1998023130A1 (de) 1996-11-15 1997-10-02 Gehörangepasste qualitätsbeurteilung von audiosignalen

Publications (2)

Publication Number Publication Date
JP2000506631A true JP2000506631A (ja) 2000-05-30
JP3418198B2 JP3418198B2 (ja) 2003-06-16

Family

ID=7811841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52310998A Expired - Lifetime JP3418198B2 (ja) 1996-11-15 1997-10-02 オーディオ信号の聴覚に適応した品質評価方法および装置

Country Status (10)

Country Link
US (1) US6271771B1 (ja)
EP (1) EP0938831B1 (ja)
JP (1) JP3418198B2 (ja)
KR (1) KR20000053311A (ja)
AT (1) ATE211347T1 (ja)
AU (1) AU4780497A (ja)
CA (1) CA2271880C (ja)
DE (2) DE19647399C1 (ja)
NO (1) NO992355L (ja)
WO (1) WO1998023130A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009525633A (ja) * 2006-01-31 2009-07-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 不侵入の信号の品質評価
JP2013134270A (ja) * 2011-12-26 2013-07-08 Konica Minolta Inc 音響出力装置
JP2013156667A (ja) * 2008-12-29 2013-08-15 Huawei Technologies Co Ltd 過渡信号符号化方法、復号化方法、及びコンピュータ読取可能媒体

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2296327T3 (es) * 1998-03-27 2008-04-16 Ascom (Schweiz) Ag Procedimiento y dispositivo para la valoracion de la calidad de transmision.
DE19821273B4 (de) * 1998-05-13 2006-10-05 Deutsche Telekom Ag Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen
DE19902317C1 (de) * 1999-01-21 2000-01-13 Fraunhofer Ges Forschung Vorrichtung und Verfahren zur Qualitätsbeurteilung von mehrkanaligen Audiosignalen
DE19933317C2 (de) * 1999-07-16 2002-07-04 Bayerische Motoren Werke Ag Verfahren und Vorrichtung zur Ermittlung der akustischen Raumeigenschaften insbesondere eines Fahrgastraumes in einem Kraftfahrzeug
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
NL1014075C2 (nl) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Methode en inrichting voor het bepalen van de kwaliteit van een signaal.
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6895374B1 (en) * 2000-09-29 2005-05-17 Sony Corporation Method for utilizing temporal masking in digital audio coding
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
ATE407539T1 (de) * 2002-12-09 2008-09-15 Microsound As Verfahren zur anpassung eines tragbaren kommunikationsgeräts an einen hörgeschädigten benutzer
AU2003233101A1 (en) * 2003-05-27 2005-01-21 Koninklijke Philips Electronics N.V. Audio coding
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
DE102004029872B4 (de) * 2004-06-16 2011-05-05 Deutsche Telekom Ag Verfahren und Anordnung zur Verbesserung der Qualität bei der Übertragung codierter Audio-/Video-Signale
ES2791001T3 (es) 2004-11-02 2020-10-30 Koninklijke Philips Nv Codificación y decodificación de señales de audio mediante el uso de bancos de filtros de valor complejo
US20070027687A1 (en) * 2005-03-14 2007-02-01 Voxonic, Inc. Automatic donor ranking and selection system and method for voice conversion
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
FR2940565B1 (fr) * 2008-12-19 2010-12-31 Thales Sa Dispositif de generation de messages sonores a detection de defaut integree
KR101600082B1 (ko) * 2009-01-29 2016-03-04 삼성전자주식회사 오디오 신호의 음질 평가 방법 및 장치
CN107113484B (zh) * 2015-01-14 2019-05-28 唯听助听器公司 操作助听器***的方法和助听器***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS532728B2 (ja) 1974-01-25 1978-01-31
US4060701A (en) * 1975-09-15 1977-11-29 Hearing Evaluation & Acoustic Research, Inc. Method for testing acoustical attenuation of hearing protectors
DE3131193A1 (de) 1981-08-06 1983-02-24 Siemens AG, 1000 Berlin und 8000 München Geraet zur kompensation von gehoerschaeden
JP3033156B2 (ja) 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
DE4222050C2 (de) 1991-07-09 1995-10-05 Head Acoustics Gmbh Vorrichtung zur gehörgerechten Schallfeldanalyse
US5384793A (en) 1992-01-28 1995-01-24 Ericsson Ge Mobile Communications Inc. Fading and random pattern error protection method for dynamic bit allocation sub-band coding
US5412734A (en) 1993-09-13 1995-05-02 Thomasson; Samuel L. Apparatus and method for reducing acoustic feedback
DE4345171C2 (de) 1993-09-15 1996-02-01 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
DE4437287C2 (de) 1994-10-18 1996-10-24 Fraunhofer Ges Forschung Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009525633A (ja) * 2006-01-31 2009-07-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 不侵入の信号の品質評価
JP2013156667A (ja) * 2008-12-29 2013-08-15 Huawei Technologies Co Ltd 過渡信号符号化方法、復号化方法、及びコンピュータ読取可能媒体
JP2013134270A (ja) * 2011-12-26 2013-07-08 Konica Minolta Inc 音響出力装置

Also Published As

Publication number Publication date
JP3418198B2 (ja) 2003-06-16
US6271771B1 (en) 2001-08-07
EP0938831B1 (de) 2001-12-19
NO992355L (no) 1999-06-03
NO992355D0 (no) 1999-05-14
DE59705914D1 (de) 2002-01-31
EP0938831A1 (de) 1999-09-01
CA2271880C (en) 2002-04-09
WO1998023130A1 (de) 1998-05-28
KR20000053311A (ko) 2000-08-25
ATE211347T1 (de) 2002-01-15
AU4780497A (en) 1998-06-10
CA2271880A1 (en) 1998-05-28
DE19647399C1 (de) 1998-07-02

Similar Documents

Publication Publication Date Title
JP3418198B2 (ja) オーディオ信号の聴覚に適応した品質評価方法および装置
Huber et al. PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception
JP4308278B2 (ja) 電気通信装置の客観的音声品質測定の方法および装置
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
Johnston Transform coding of audio signals using perceptual noise criteria
Thiede et al. PEAQ-The ITU standard for objective measurement of perceived audio quality
Plomp The role of modulation in hearing
US20080221875A1 (en) Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
Plomp Perception of speech as a modulated signal
Steeneken et al. Basics of the STI measuring method
WO2000008631A1 (en) System and method for implementing a refined psycho-acoustic modeler
Lokhoff Precision adaptive subband coding (PASC) for the digital compact cassette (DCC)
Hansen Assessment and prediction of speech transmission quality with an auditory processing model.
Tesic et al. An experimental study on the phase importance in digital processing of speech signal
EP1777698B1 (en) Bit rate reduction in audio encoders by exploiting auditory temporal masking
Krimi et al. Realization of a psychoacoustic model for MPEG 1 using gammachirp wavelet transform
Abrahamsson Compression of multi channel audio at low bit rates using the AMR-WB+ codec
Shixian Effect of MP3 Compression on Sound Localization
Steeneken Subjective and objective intelligibility measures
Rucz Examination of lossy audio compression methods
Abid et al. Audio compression using a filter ear model and a Gammachirp wavelet
Kaplanis QUALITY METERING
Emmett et al. An audio K-rating-Is it possible?
Houtsma Perceptually Based Audio Coding

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090411

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100411

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100411

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term