JP2005519339A

JP2005519339A - システムの伝送品質を測定する方法及びシステム

Info

Publication number: JP2005519339A
Application number: JP2003575064A
Authority: JP
Inventors: ベーレンズ，ジョン・ジェラード
Original assignee: コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
Priority date: 2002-03-08
Filing date: 2003-02-26
Publication date: 2005-06-30
Anticipated expiration: 2023-02-26
Also published as: US7689406B2; DE60308336T2; JP4263620B2; DE60308336D1; ES2272952T3; EP1485691A1; US20050159944A1; ATE339676T1; AU2003212285A1; WO2003076889A1; EP1485691B1; DK1485691T3

Abstract

音声伝送システムの伝送品質を測定するための方法及びシステムであって、入力信号（Ｘ）がシステムに入力されて、システムから出力される出力信号（Ｙ）を生じさせ、入力信号及び出力信号が互いに処理される方法及びシステムが提供される。該方法において、被試験システムの出力信号及び／又は入力信号は、パワー比に応じて、パワーの小さな偏差は補償され、より大きな偏差は部分補償される方法でスケーリングされる。原入力音声信号に存在するノイズ・レベルが、該入力のノイズの局所レベルに依存するスケーリング係数により低減された、人工的な参照音声信号が作成される。

Description

発明の分野
本発明は、被試験システムの伝送品質を測定する方法及びシステムであって、被試験システムに入力された入力信号と、被試験システムから生じた出力信号とを処理して、互いに比較する方法及びシステムに関する。

発明の背景
２００１年２月に出されたＩＴＵ−ＴのＰ．８６２勧告草案「電話伝送品質、電話設置、ローカル・ライン・ネットワーク−客観的及び主観的品質評価方法−音声品質の知覚的評価方法（ＰＥＳＱ）、ナローバンド電話網及び音声コーデックのエンド・ツー・エンドの音声品質を評価する客観的方法」は、従来技術であるＰＥＳＱの方法及びシステムを開示する。

音声処理システム又は音声伝送システムにおいて劣化した音声信号の品質測定は、入力信号における非常に弱い又は無音の部分に対しては劣悪な結果を生じ得る。Ｐ．８６２勧告により知られる方法及びシステムは、フレームごとのパワー・レベルの差を正しく補償しないという欠点を有する。これらの差は、入力信号の利得の変化又はノイズにより引き起こされる。不正確な補償は、特に原参照入力音声信号のノイズ・レベルが低い場合に、主観的スコアと客観的スコアとの間の相関を低くする。

出願人による欧州特許出願第０１２００９４５号に開示された従来技術の方法及びシステムによれば、前処理段階における第1のスケーリング段階に、調整値を加えられた出力信号のパワーの逆数の関数である第１のスケーリング係数を適用することにより、改良がなされる。第２のスケーリング段階には第２のスケーリング係数が適用されるが、該係数は、０から１までの調整値を有する指数で累乗された第１のスケーリング係数と実質的に等しい。第２のスケーリング段階は装置の様々な場所で実行され得、調整値は、試験信号を用いて、よく定義された主観的品質スコアと調整される。Ｐ．８６２勧告及び欧州特許出願０１２００９４５号の方法及びシステムにおいては、パワー・ドメインにおいて参照入力信号と適合するよう、劣化出力信号が局所的にスケーリングされる。

（知覚的）品質測定処理の結果は、方法及びシステムのそれぞれの少なくとも１つの段階における「ソフト・スケーリング」の適用により改良され得ることがわかっている。（「ハード」スケーリング閾値を用いる）「ハード・スケーリング」に代わる「ソフト・スケーリング」の導入は、人間の音声知覚メカニズムは「ハードな閾値」よりむしろ「ソフトな閾値」を用いるという観察及び理解に基づいており、本発明の分野は、人間であるユーザーにより経験されるのと同様の音声品質の評価に関する。この観察、及びそれらの人間の音声スケーリング・メカニズムがどのように働くかについてのより良い理解に基づいて、本発明は、従来技術による方法又はシステムのそれぞれに追加又は挿入されるべき「ソフト・スケーリング」メカニズムを提示する。

発明の概要
本発明の一つの態様によれば、システムの出力信号及び／又は入力信号は、パワー比に応じて、パワーの小さなひずみが補償され、より大きなひずみが部分補償される方法でスケーリングされる。

本発明の更なる工夫によれば、原入力音声信号に存在するノイズ・レベルが、この入力に含まれる局所ノイズ・レベルに依存するスケーリング係数により低減された人工的な参照音声信号が作成され得る。

本発明に係る方法は、結果として、特に、穏やかな音声部分及び静寂が低レベルのノイズにより劣化される場合に、局所スケーリングの変動を含む音声信号について主観的に知覚されるエンド・ツー・エンドの音声品質をより正確に予測することができる。

ソフト・スケーリング・アルゴリズムにおいて、主観的に知覚される品質と客観的に測定される品質との相関を高めるために、２つの異なる種別の信号処理が利用される。
第１のサブ・アルゴリズムに制御される第１のソフトスケール処理において、出力信号における局所利得変動を補正するためにＰ．８６２勧告で用いられる補償は、パワー比に応じて、パワーの小さな偏差が（好ましくは時間フレーム又は時間期間ごとに）補償され、より大きな偏差が部分補償される方法で出力（又は入力）をスケーリングすることにより改良される。

好ましい単純且つ効果的な実施の形態は、局所パワー、即ち（例えば３０ｍｓの）フレームごとのパワーを取得し、局所補償比Ｆを計算する。即ち、
Ｆ＝（ＰＸ＋Δ）／（ＰＹ＋Δ）
である。ただし、ΔはＰＹの小さな値に対してＣの値を最適化するために利用される。Ｆは、クリッピングされた比Ｃを得るためにレベルｍｍ及びＭＭでクリッピングされた振幅である。即ち、
Ｆ＜ｍｍ＜１．０のときＣ＝ｍｍ、
Ｆ＞ＭＭ＞１．０のときＣ＝ＭＭ
となり、それ以外の場合には、
Ｃ＝Ｆ
となる。クリッピングされた比Ｃは、ｍｍ＜ｍ＜１．０且つＭＭ＞Ｍ＞１．０である係数ｍ及びＭを用いてソフトスケール比Ｓを計算するために利用される。即ち、
Ｃ＜ｍ且つ０．５＜ａ＜１．０のときＳ＝Ｃ^a＋Ｃ−Ｃ（ｍ）^a-1、
Ｃ＞Ｍ且つ０．５＜ａ＜１．０のときＳ＝Ｃ^a＋Ｃ−Ｃ（Ｍ）^a-1
であり、それ以外の場合には、
Ｓ＝Ｃ
である。ただし、ａは（第１の）同調パラメータとして利用され得る。このように、本発明に係る局所スケーリングは、ｍ＜Ｆ＜Ｍである限り、先行技術文献であるＰ．８６２勧告及び欧州特許出願０１２００９４５号において与えられたスケーリングと等しい。しかし、Ｆ＜ｍ又はＦ＞Ｍである値については、スケーリングは徐々に１．０より、次いで従来技術におけるスケーリングより低くなる。ソフトスケール係数Ｓは、各フレームの出力パワーを局所的に補償するように従来技術の方法及びシステムにおいてＦが利用されるのと同じ方法で利用される。

第２のサブ・アルゴリズムに制御される第２のソフトスケール処理において、利用される補償は、入力信号の低レベルの部分に焦点を当てる。
入力信号（参照信号）が低レベルのノイズを含む場合、トランスペアレントな音声伝達システムは、やはり低レベルのノイズを含む出力音声信号を生じさせる。音声伝達システムの出力は、伝達システムにより導入されたノイズのために期待以下の品質を有するとの判定される。入力音声信号を聞いて比較をすることができる場合に、ノイズは伝達システムにより引き起こされたものではないという事実に気付き得るに過ぎない。しかし、たいていの主観的音声品質試験では、入力参照信号は被験者に提示されず、従って、被験者は、入力信号における低レベルのノイズの差は音声伝達システムの品質の差であると判定する。客観的試験システムにおいてそのような主観的試験との相関を高めるため、進歩した客観的音声品質評価アルゴリズムにおいて、この効果がエミュレートされる。

本発明のこの好ましいオプションは、入力信号の局所ノイズ・レベルに依存するスケーリング係数によりノイズのパワー・レベルが低減された、パワー表現ドメインにおける新しい架空の人工的な参照音声信号を効果的に作成することにより、これをエミュレートする。従って、新しく作成された人工的な参照信号は、この入力信号の低レベル部分について原入力信号より速くゼロに収束する。参照入力信号に存在するような低レベル信号の期間に劣化出力信号における外乱が計算される場合、ゼロに近づく際に入力信号のラウドネスより速くゼロに到達するレベルへの入力ラウドネス信号のスケーリングの後に、内部表現のラウドネス・ドメインにおける差の計算が実行される。

欧州特許出願第０１２００９４５号に開示された従来技術の方法によれば、処理は、人間の聴覚システムの心理物理的知覚モデルに従って（劣化）出力信号（Ｙ（ｔ））と参照信号（Ｘ（ｔ））とを代表信号ＬＹ及びＬＸにマッピングすることを含む。差分信号又は外乱信号（Ｄ）はこれらの代表信号から「識別手段」により決定され、該外乱信号は、次いで、品質信号Ｑを得るために、被験者の特定の特性がモデル化される認識モデルに従うモデル化手段により処理される。

上記の通り、内部表現ラウドネス・ドメインにおける差の計算は、本発明の範囲内において、ゼロに近づく際に入力信号のラウドネスより速くゼロに達するレベルへの入力ラウドネス信号のスケーリングの後に実行されることが望ましい。

これの効果的な実現形態は、ＬＸ（ｆ）ｎ及びＬＹ（ｆ）ｎから計算された時間−周波数平面における内部表現の差を利用することにより達成される（欧州特許出願第０１２００９４５号参照）。即ち、
Ｄ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜
及び、これを置き換えた
Ｄ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−Ｈ（ｔ，ｆ）｜
である。ただし、ＬＸ（ｆ）ｎ＜Ｋのとき
Ｈ（ｔ、ｆ）＝ＬＸ（ｆ）ｎ^b／Ｋ^b-1
であり、ＬＸ（ｆ）ｎ＞Ｋのとき
Ｈ（ｔ、ｆ）＝ＬＸ（ｆ）ｎ
である。これらの公式において、Ｋは、特定の実現形態に応じて時間周波数セルごとの低レベルのノイズ・パワー条件を表し、ｂ＞１である。

この第２のソフトスケール処理サブ・アルゴリズムは、ＬＸ（ｆ）ｎ＜Ｋという条件を単一の時間フレームにおけるパワー条件で置き換えることによっても実現され得る。即ち、
Ｄ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−Ｈ（ｔ，ｆ）｜
であって、ＬＸ（ｔ）＜Ｋ’のとき
Ｈ（ｔ，ｆ）＝ＬＸ（ｆ）ｎ^b／Ｋ^b-1
であり、ＬＸ（ｔ）＞Ｋ’とのき
Ｈ（ｔ，ｆ）＝ＬＸ（ｆ）ｎ
である。これらの公式において、Ｋ’は、特定の実現形態に依存する時間フレームごとの低レベルのノイズのパワー条件を表し、ｂ＞１である。

図面の詳細な説明
図１に示されるＰＥＳＱシステムは、原信号（入力信号）Ｘ（ｔ）と、例えば通信システムにＸ（ｔ）を通過させた結果である劣化信号（出力信号）Ｙ（ｔ）とを比較する。ＰＥＳＱシステムの出力は、主観的聴音試験において被験者によりＹ（ｔ）に与えられるであろう知覚品質の予測である。ＰＥＳＱシステムにより実行される第１の段階において、遅延が以前の時間区間と大きく異なる時間区間ごとに、原入力と劣化出力との間の一連の遅延が計算される。これらの各区間について、対応する始点及び終点が計算される。整列アルゴリズムは、或る時間区間内に２つの遅延があるという確度と、当該区間に単一の遅延があるという確度との比較の原理に基づく。該アルゴリズムは、無音部分及びアクティブな音声部分の両期間において、遅延の変動を処理することができる。

検出された一組の遅延に基づいて、ＰＥＳＱシステムは、原（入力）信号と、被試験装置の整列された劣化出力とを、知覚モデルを用いて比較する。このプロセスの要点は、原信号と劣化信号とを、知覚周波数（Ｂａｒｋ）及びラウドネス（Ｓｏｎｅ）を考慮に入れながら、人間の聴覚システムにおける音声信号の精神物理学的表現と類似する内部表現（ＬＸ、ＬＹ）に変換することである。これは、時間合わせ、校正された聴覚レベルへのレベル合わせ、時間−周波数マッピング、周波数ワーピング、及び圧縮型ラウドネス・スケーリングなどの幾つかの段階により実現される。

内部表現は、過度に激しくない場合には、知覚的にほとんど重要性を有さない局所利得変動及び線形フィルタリングなどの影響を考慮に入れて処理される。これは、補償の量を制限し、補償を影響よりも遅れさせることにより達成される。こうして、原信号と劣化信号との間の小さな安定状態の差が補償される。より重大な影響又は急激な変動は部分的にしか補償されないため、未解決の影響が残り、全体としての知覚の妨げとなる。このため、全ての主観的な影響をモデル化するために、少数の品質指標のみしか利用することができない。ＰＥＳＱシステムでは、認識モデルにおいて２つの誤差パラメータが計算される。これらは組み合わされて、客観的聴音品質ＭＯＳ（平均オピニオン・スコア）を提供する。ＰＥＳＱシステムで用いられる基本的な概念は、参考文献一覧の（１）から（５）に記載されている。

従来技術のＰＥＳＱシステムにおける知覚モデル
図１に示されるＰＥＳＱシステムの知覚モデルは、原音声信号と劣化音声信号との間の距離（「ＰＥＳＱスコア」）を計算するために利用される。これは、所与の主観的試験における主観的ＭＯＳの予測を得るために単調関数に通され得る。ＰＥＳＱスコアは、−０．５〜４．５の範囲内の単一の数値であるＭＯＳと同様のスケールにマッピングされるが、大抵の場合、出力範囲はＡＣＲ聴音品質実験におけるＭＯＳ値の正常範囲である１．０〜４．５である。

定数設定の事前計算
或る種の定数値及び関数は事前計算される。これらはサンプル周波数に依存するため、８ｋＨｚと１６ｋＨｚのサンプル周波数のバージョンがプログラムに格納されている。

ＦＦＴウィンドウ・サイズ及びサンプル周波数
ＰＥＳＱシステムにおいて、時刻信号は、３２ｍｓサイズのハニング窓による短期間ＦＦＴ（高速フーリエ変換）を用いて時間周波数ドメインにマッピングされる。８ｋＨｚの場合、これは１ウィンドウ当り２５６個のサンプルに相当し、１６ｋＨｚの場合、ウィンドウは隣接フレームが５０％だけ重なり合うが、５１２個のサンプルを計数する。

絶対聴覚閾値
絶対聴覚閾値Ｐ₀（ｆ）は、利用されるＢａｒｋ帯域の中央における値を得るために補間される。これらの値は配列に記憶され、ツビッカーのラウドネス公式において利用される。

パワー・スケーリング係数
時間−周波数分析のためのＦＦＴに付随する任意の利得定数が存在する。この定数は、３２ｍｓ以上のウィンドウを用いたＦＦＴにより周波数ドメインに変換された、２９．５４（４０ｄＢＳＰＬ）の振幅を有する周波数１０００Ｈｚの正弦波から計算される。次いで、（離散）周波数軸が、ＦＦＴ帯域のビンニングにより修正Ｂａｒｋスケールに変換される。Ｂａｒｋ周波数スケールにビンニングされたスペクトルのピーク振幅（「ピッチ・パワー密度」と呼ばれる）は、１００００（４０ｄＢＳＰＬ）になるはずである。後者は、パワー・スケーリング係数Ｓ_pである定数を右から乗ずることにより実行される。

ラウドネス・スケーリング係数
同じ４０ｄＢの参照音が、心理音響的な（Ｓｏｎｅ）ラウドネス・スケールを校正するために利用される。修正Ｂａｒｋスケールへのビンニングの後、強度軸は、絶対聴覚閾値に基づき、ツビッカーの法則を用いてラウドネス・スケールにワープされる。１０００Ｈｚ及び４０ｄＢＳＰＬの校正音を用いて、Ｂａｒｋ周波数スケールに対してラウドネス密度を積分すると、１Ｓｏｎｅの値が得られる。後者は、ラウドネス・スケーリング係数Ｓ₁である定数を右から乗ずることにより実行される。

ＩＲＳ受信フィルタリング
セクション１０．１．２で述べられているように、聴音試験は、ハンドセットにおけるＩＲＳ受信特性又は修正されたＩＲＳ受信特性を用いて実行されると想定される。音声信号に対する必要なフィルタリングは、既に前処理において適用されている。

アクティブな音声時間区間の計算
原音声ファイル及び劣化音声ファイルが大きな無音区間で開始又は終了している場合、これは、ファイルにおける特定の平均ひずみ値の計算に影響し得る。そのため、これらのファイルの最初又は最後に、無音部分が見積もられる。或る位置がアクティブな区間の始点又は終点であるとみなされる為には、連続した５つの絶対サンプル値の和が、原音声ファイルの最初及び最後から５００を超えなければならない。この始点と終点との間の区間が、アクティブな音声時間区間と定義される。計算サイクル及び／又は記憶サイズを節約するため、幾つかの計算はアクティブな区間に限られる。

短期間ＦＦＴ
人間の耳は、時間−周波数変換を実行する。ＰＥＳＱシステムにおいて、これは、ウィンドウ・サイズが３２ｍｓの短期間ＦＦＴにより実現される。連続する時間ウィンドウ（フレーム）どうしの重なりは５０％である。パワースペクトル、即ち複素数ＦＦＴ要素の実部の二乗と虚部の二乗との和は、原信号及び劣化信号について別々の実数値配列に格納される。単一のハニング窓内の位相情報はＰＥＳＱシステムにおいて廃棄され、全ての計算はパワー表現ＰＸ_WIRSS（ｆ）_n及びＰＹ_WIRSS（ｆ）_nのみに基づく。劣化信号におけるウィンドウの始点は、遅延のために移動される。原音声信号の時間軸はそのままに留められる。遅延が増加すると、劣化信号の一部が処理から省略され、遅延が減少すると、部分が繰り返される、
ピッチ・パワー密度の計算
Ｂａｒｋスケールは、人間の聴覚システムが低周波数において高周波数におけるよりも優れた周波数分解能を有することを反映する。これは、ＦＦＴ帯域をビンニングして、ＦＦＴ帯域の対応するパワーを加算し、加算された部分を正規化することにより実現される。Ｈｅｒｔｚの周波数スケールをＢａｒｋのピッチ・スケールにマッピングするワーピング関数は、与えられた通りの値に正確に従うのではない。結果としての信号は、ピッチ・パワー密度ＰＰＸ_WIRSS（ｆ）_n及びＰＰＹ_WIRSS（ｆ）_nとして知られる。

原ピッチ・パワー密度の部分補償
被試験システムのフィルタリングを扱うために、原ピッチ・パワー密度及び劣化ピッチ・パワー密度のパワー・スペクトルは、時間平均される。この平均は、パワーが絶対聴音閾値の１０００倍より大きい時間−周波数セルを用いて、アクティブな音声フレームについてのみ計算される。修正されたＢａｒｋビンごとに、劣化スペクトルの原スペクトルに対する比率から部分補償係数が計算される。補償は最大でも２０ｄＢを超えることは無い。個々のフレームｎの原ピッチ・パワー密度ＰＰＸ_WIRSS（ｆ）_nは、原信号を劣化信号と等しくするよう、この部分補償係数を乗じられる。この結果、逆フィルター処理された原ピッチ・パワー密度ＰＰＸ’_WIRSS（ｆ）_nが得られる。厳格なフィルター処理は聴取者の妨げとなるため、この部分補償が利用される。ＡＣＲ実験において劣化信号は被験者により判断されるものであるため、補償は原信号に実行される。

ひずみのあるピッチ・パワー密度の部分補償
短期間利得変動は、ピッチ・パワー密度をフレームごとに処理することにより部分補償される。原ピッチ・パワー密度及び劣化ピッチ・パワー密度について、個々のフレームｎにおける絶対聴音閾値を超える全ての値の合計が計算される。原ファイル及び劣化ファイルにおけるパワーの比率が計算され、範囲［３・１０^-4，５］に結び付けられる。（時間軸に沿った）第一次のローパス・フィルターは、この比率に適用される。各フレームｎにおけるひずみのあるピッチ・パワー密度は、この比率を乗じられて、部分的に利得補償されたひずみのあるピッチ・パワー密度ＰＰＹ’_WIRSS（ｆ）_nを生ずる。

ラウドネス密度の計算
フィルター処理及び短期間利得変動に対する部分補償の後、原ピッチ・パワー密度及び劣化ピッチ・パワー密度が、ツビッカーの法則［７］を用いてＳｏｎｅラウドネス・スケールに変換される。即ち、

である。ただし、Ｐ_o（ｆ）は絶対閾値であり、Ｓ₁はラウドネス・スケーリング係数である。４Ｂａｒｋより大きい場合、ツビッカー・パワーγは、文字通り与えられる値である０．２３である。４Ｂａｒｋより小さい場合、ツビッカー・パワーはいわゆる漸増効果を補償するようわずかに増加する。結果として生じる２次元配列ＬＸ（ｆ）_n及びＬＹ（ｆ）_nはラウンドネス密度と言われる。

外乱密度の計算
ひずみのあるラウドネス密度と原ラウドネス密度との符号付きの差が計算される。この差が正である場合、ノイズなどの要素が追加されている。この差が負である場合、原信号から要素が省略されている。この差の配列は、未処理外乱密度と呼ばれる。

原ラウドネス密度と劣化ラウドネス密度との最小値が、時間周波数セルごとに計算される。これらの最小値は、０．２５を乗じられる。対応する二次元配列は、マスク配列と呼ばれる。以下の法則が、それぞれの時間−周波数セルに適用される。
・未処理外乱密度が正でありマスク値より大きい場合、マスク値が未処理外乱から減じられる。
・未処理外乱密度がマスク値の大きさの正の値と負の値との間にある場合、外乱密度はゼロに設定される。
・未処理外乱密度がマスク値の負の値より更に小さい場合、マスク値が未処理外乱密度に加算される。

最終的な効果は、未処理外乱密度がゼロに近づくことである。これは、実際の時間周波数セルが歪みとして知覚される前の不感帯を表している。これは、それぞれの時間−周波数セルにおける、大きな信号（マスク）が存在する場合には聞こえないような小さな差の処理をモデル化する。結果は、時間（ウィンドウ番号ｎ）及び周波数の関数としての外乱密度Ｄ（ｆ）_nである。

非対称係数とのセルに関する乗算
コーデックが入力信号をひずませる際に、入力信号と統合する新しい時間−周波数要素を導入することは一般に非常に難しいため、結果としての出力信号は入力信号とひずみとの２つの異なる知覚対象に分解され、明らかに聞き取れるひずみ［２］をもたらすという事実により、非対称効果が引き起こされる。コーデックが時間−周波数要素を無視する場合、結果としての出力信号は同様には分解され得ず、ひずみの不快さは小さくなる。この効果は、外乱密度Ｄ（ｆ）_nに非対称係数を乗じてフレームごとの非対称外乱密度ＤＡ（ｆ）_nを計算することによりモデル化される。この非対称係数は、ひずみピッチ・パワー密度と１．２乗された原ピッチ・パワー密度との比率に等しい。非対称係数が３より小さい場合、ゼロに設定される。非対称係数が１２を超える場合、その値でクリッピングされる。従って、劣化ピッチ・パワー密度が原ピッチ・パワー密度を超える時間周波数セルのみが非ゼロの値として留まり得る。

外乱密度の集合
外乱密度Ｄ（ｆ）_nと非対称外乱密度ＤＡ（ｆ）_nとは、２つの異なるＬｐ標準及びソフト・フレーム上の（ラウドネスの低い）重み付けを用いて、周波数軸に沿って統合（加算）される。即ち、

である。ただし、Ｍ_nは１／（原フレームのパワーと定数との和）^0.04である乗算係数であり、原音声フラグメントの静寂時におきる外乱の強調をもたらす。Ｗ_fは修正されたＢａｒｋビンの幅に比例する一連の定数である。この乗算の後、フレーム外乱値は最大４５に制限される。これらの集合された値Ｄ_n及びＤＡ_nは、フレーム外乱と呼ばれる。

フレーム外乱のゼロ化
ひずみ信号が１６ｍｓ（ウィンドウの半分）より大きな遅延の減少を含む場合、１０．２．４に述べられた繰返し戦略が修正される。客観音声品質の計算において、そのようなイベント期間のフレーム外乱は無視したほうがよいことがわかっている。その結果、これが起こる場合、フレーム外乱がゼロにされる。結果としてのフレーム外乱を、Ｄ’_n及びＤＡ’_nと呼ぶ。

不良区間の再整列
閾値を超えるフレーム外乱を有する連続したフレームは、不良区間と呼ばれる。少数のケースにおいて、客観的測定は、前処理により観察される不正確な時間遅延に起因する最小数の不良フレームにおける大きな歪みを予測する。いわゆる不良区間に対して、絶対原信号と、前処理により観察された遅延に応じて調整された絶対劣化信号との相関を最大化することにより、新しい遅延値が予測される。最大化された相関が閾値以下である場合、該区間ではノイズとノイズとを釣り合わせており、該区間はもはや不良と呼ばれず、該区間に対する処理が中止されることが結論付けられる。そうではない場合、不良区間のフレームに対するフレーム外乱が再計算され、より小さい場合には、原フレーム外乱と置き換えられる。結果として、知覚品質を計算するために利用される最終的なフレーム外乱Ｄ’’_n及びＤＡ’’_nが得られる。

瞬時区間内における外乱の集計
次に、フレーム外乱値及び非対称フレーム外乱値が、Ｌ₆標準と、音声ファイル長の集合におけるのと同様のより高いｐ値とを用いて、２０フレームからなる瞬時区間（約３２０ｍｓであるフレームの重なりを考慮する）を通して集計される。これらの区間もまた、５０％ずつ重なりあい、窓関数は利用されない。

信号の持続時間における外乱の集計
瞬時外乱値及び非対称瞬時外乱値は、Ｌ₂標準を用いて、音声ファイルのアクティブな区間（対応するフレーム）を通して集計される。音声ファイルの第１のセンテンスがひずんだ場合でも他のセンテンスの品質はそのままであるのに対し、瞬時区間の一部がひずむとその瞬時が意味を失うという事実のために、音声ファイルの集合における低いｐ値よりも瞬時区間内の集合に対するｐ値は高くなる。

ＰＥＳＱスコアの計算
最終的なＰＥＳＱスコアは、平均外乱値と平均非対称外乱値との線形結合である。ＰＥＳＱスコアの範囲は−０．５〜４．５であるが、たいていの場合、出力範囲は聴音品質を示すＭＯＳと同様の１．０〜４．５のスコアであり、これはＡＣＲ（絶対範囲評価）実験におけるＭＯＳ値の正常範囲である。

図２は、局所スケーリング係数を計算するための従来技術によるモジュールを置き換える第１の新しいモジュールと、知覚的減算のための従来技術によるモジュールを置き換える新しい第２のモジュールとを除き、図１と等しい。

第１の新しいモジュールは、本発明に係る方法の実行に適しており、パワー比に応じてパワーの小さな偏差を補償し、より大きな偏差を部分的に補償する新しい「ソフト・スケーリング」アルゴリズムの制御の下に、被試験システムの出力信号及び／又は入力信号をスケーリングする手段を備える。第１のモジュールは図３に示される。

第２の新しいモジュールは、本発明の更なる精巧さの実行に適しており、原入力音声信号に存在するノイズ・レベルが、この入力におけるノイズの局所レベルに依存するスケーリング係数により低減される人工的な参照音声信号を作成する手段を備える。

両方の新しいモジュールの動作は、各モジュールの動作を表すフロー図の形で示される。両モジュールは、ハードウェア又はソフトウェアにより実現され得る。
図３は、図２に示された第１の新しいモジュールの動作を示す。図３におけるモジュールの動作は、パワー比に応じて、パワーの小さな偏差が望ましくは時間フレーム又は時間期間ごとに補償され、より大きな偏差が部分補償される方法で入力に対して出力をスケーリングすることにより、出力信号における局所利得変動を補正するための補償機能を改良する、フロー図に示された第１のサブ・アルゴリズムにより制御される。本発明の好ましい単純且つ効果的な実現形態は、局所パワー、即ち（例えば、３０ｍｓの）フレームごとのパワーをとり、局所補償比Ｆを計算する。即ち、Ｆ＝（ＰＸ＋Δ）／（ＰＹ＋Δ）であるが、ＰＸ及びＰＹはそれぞれ、図１、２及び３で使われているＰＰＸ_WIRSS（ｆ）_n及びＰＰＹ_WIRSS（ｆ）_nの短縮形であり、Ｆはクリッピングされた比Ｃを得るためにレベルｍｍ及びＭＭでクリッピングされた振幅である。即ち、Ｆ＜ｍｍ＜１．０のときＣ＝ｍｍであり、Ｆ＞ＭＭ＞１．０のときＣ＝ＭＭであり、又はＣ＝Ｆである。ただし、ΔはＰＸ及び／又はＰＹの小さな値についてＣを最適化する。

クリッピングされた比Ｃは、係数ｍ及びＭを用いてソフトスケール比Ｓを計算するために利用される。ただし、ｍｍ＜ｍ＜１．０且つＭＭ＞Ｍ＞１．０である。ソフトスケール比Ｓは、Ｃ＜ｍ（０．５＜ａ＜１．０）のときＳ＝Ｃ^a＋Ｃ−Ｃ（ｍ）^a-1であり、Ｃ＞ＭのときＳ＝Ｃ^a＋Ｃ−Ｃ（Ｍ）^a-1であり、又はＳ＝Ｃである。このように、本発明における局所スケーリングは、ｍ＜Ｆ＜Ｍである限り、従来技術文献である勧告Ｐ．８６２及び欧州特許出願第０１２００９４５号で与えられたスケーリングと等しい。しかし、Ｆ＜ｍ又はＦ＞Ｍである値に対しては、スケーリングは徐々に、従来技術におけるスケーリングより１．０から小さく外れる。ソフト・スケーリング係数Ｓは、各フレームにおいて局所的に出力パワーを補償するために従来技術による方法及びシステムにおいてＦが利用されたのと同じ方法で利用される。

第２のサブ・アルゴリズムに制御される第２のソフトスケール処理において、入力信号の低レベルの部分に対し、進歩したスケーリングが適用される。入力信号（参照信号）が低レベルのノイズを含む場合、トランスペアレントな音声伝達システムは、やはり低レベルのノイズを含む出力音声信号を与える。すると、音声伝達システムの出力は、伝達システムにより導入されたノイズのために期待以下の品質を有すると判定される。入力音声信号を聴いて比較することができるシステムである場合に、ノイズが伝達により生じたものではないと言う事実に気付くだけである。しかし、たいていの主観的音声品質試験では、入力参照信号は被験者に提示されず、従って、被験者は入力信号における低ノイズ・レベルの違いを、音声伝達システムの品質の違いであると判断する。客観的試験システムでは、そのような主観的試験との高い相関を得るため、進歩した客観的音声品質評価アルゴリズムにおいて、この効果がエミュレートされる。図４に示される本発明の好ましいオプションとしての実施の形態は、入力信号のノイズの局所レベルに依存するスケーリング係数によりノイズ・パワー・レベルが低減されるパワー表現ドメインにおいて人工的な参照音声信号を作成することにより、これをエミュレートする。従って、人工的な参照信号は、この入力信号の低レベルについて原入力信号より速くゼロに収束する。参照入力信号に存在する低レベル信号期間において、劣化出力信号の外乱が計算される場合、内部表現のラウドネス・ドメインにおける減算は、ゼロに近づく際に入力信号のラウドネスより速くゼロに達するレベルへの入力ラウドネス信号のスケーリングの後に実行される。

時間−周波数平面における内部表現の差は、
ＬＸ（ｆ）ｎ＜ＫのときＤ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜であり、
ＬＸ（ｆ）ｎ＞ＫのときＤ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜
に設定される。これらの公式において、ｂ＞１であり、Ｋは時間周波数セルごとの低レベルのノイズ・パワー条件を表す。

代わりに、第２のソフトスケール処理サブ・アルゴリズムは、ＬＸ（ｆ）ｎ＜Ｋの条件を単一の時間フレームにおけるパワー条件で置き換えることにより実現され得る。この代わりのオプションにおいて、時間−周波数平面における内部表現の差は、
ＬＸ（ｔ）＜Ｋ’のときＤ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜であり、
ＬＸ（ｔ）＞Ｋ’のときＤ（ｆ）ｎ＝｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜
に設定される。これらの代わりの公式において、ｂ＞１であり、Ｋ’は時間フレームごとの低レベルのノイズ・パワー基準を表す。

参照により本明細書に援用される参考文献
[1] BEERENDS (J.G.), STEMERDINK (J.A.): A Perceptual Speech-Quality Measure Based on a Psychoacoustic Sound Representation, J. Audio Eng. Soc., Vol. 42, No. 3, pp. 115-123, March 1994.
[2] BEERENDS (J.G.): Modeling Cognitive Effects that Play a Role in the Perception of Speech Quality, Speech Quality Assessment, Workshop papers, Bochum, pp. 1-9, November 1994.
[3] BEERENDS (J.G.): Measuring the quality of speech and music codecs, an integrated psychoacoustic approach, 98th AES Convention, pre-print No. 3945,1995.
[4] HOLLIER (M.P.), HAWKSFORD (M.O.), GUARD (D.R.) : Error activity and error entropy as a measure of psychoacoustic significance in the perceptual domain, IEE Proceedings-Vision, Image and Signal Processing, 141 (3), 203-208, June 1994.
[5] RIX (A.W.), REYNOLDS (R.), HOLLIER (M.P.): Perceptual measurement of end-to-end speech quality over audio and packet-based networks, 106th AES Convention, pre-print No. 4873, May 1999.
[6] HOLLIER (M.P.), HAWKSFORD (M.O.), GUARD (D.R.), Characterization of communications systems using a speech-like test stimulus, Journal of the AES, 41 (12), 1008-1021, December 1993.
[7] ZWICKER (Feldtkeller): Das Ohr als Nachrichtenempfanger, S. Hirzel Verlag, Stuttgart, 1967.
[8] ＩＴＵ−ＴＰ．８６２勧告草案、"Telephone transmission quality, telephone installations, local line networks-Methods for objective and subjective assessment of quality-Perceptual evaluation of speech quality (PESQ), an objective method for en-to-end speech quality assessment of narrow-bank telephone networks and speech codecs", ITU-T 02.2001
[9] 欧州特許出願第01200945号, 出願人Koninklijke KPN n. v.

図１は、ＩＴＵ−ＴのＰ．８６２勧告に開示された従来技術によるＰＥＳＱシステムを概略的に示す。図２は、同一のＰＥＳＱシステムであるが、第一、及び望ましくは第２の新しいモジュールを用いて上記の方法の実行に適するよう修正されたＰＥＳＱシステムを示す。図３は、ＰＥＳＱシステムの第１の新しいモジュールを示す。図４は、ＰＥＳＱシステムの第２の新しいモジュールを示す。

Claims

音声システムの伝送品質を測定する方法であって、入力信号（Ｘ）が前記音声システムに入力されて前記音声システムから出力される出力信号（Ｙ）を生じさせ、前記入力信号及び前記出力信号が処理され、望ましくは比較される方法において、
前記音声システムの前記出力信号及び／又は前記入力信号が、パワー比に応じて、前記パワーの小さな偏差が補償され、より大きな偏差が部分補償される方法でスケーリングされる方法。
請求項１記載の方法であって、
補償比Ｆが、前記入力信号（Ｘ）及び出力信号（Ｙ）のそれぞれのパワー表現ＰＸ及びＰＹから計算されるものであって、ＰＸ／ＰＹの比に等しく、
Ｆ＜ｍｍのとき第１のクリッピング値ｍｍと等しく、Ｆ＞ＭＭのとき第２のクリッピング値ＭＭと等しく、それ以外のときにＦといとしいクリッピングされた比Ｃが計算され、
ソフトスケール比Ｓが第１のスケーリング係数ｍ及び第２のスケーリング係数Ｍから計算され、ｍｍ＜ｍ＜１且つＭＭ＞Ｍ＞１であり、ａが０より大きく且つ１より小さい値に設定される第一の同調パラメータであるとき、Ｃ＜ｍの場合にＳがＣ^a＋Ｃ−Ｃ（ｍ）^a-1と等しく、Ｃ＞Ｍの場合にＳがＣ^a＋Ｃ−Ｃ（Ｍ）^a-1と等しく、それ以外の場合にＳがＣと等しい方法。
請求項１記載の方法であって、前記入力のノイズの局所レベルに依存するスケーリング係数により、前記原入力音声信号に存在するノイズ・レベルが低減された人工的な参照音声信号が作成される方法。
請求項３記載の方法であって、前記時間−周波数平面における前記入力信号（Ｘ）及び前記出力信号（Ｙ）のそれぞれに対する内部表現ＬＸ（ｆ）ｎ及びＬＹ（ｆ）ｎの前記差Ｄ（ｆ）ｎが、ｂが１より大きい値に設定される第二の同調パラメータであり、Ｋが所望の低レベル・ノイズ・パワー条件を表す低レベル・ノイズ・パワー条件値であるときに、ＬＸ（ｆ）ｎ＜Ｋの場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜と、ＬＸ（ｆ）ｎ＞Ｋの場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜と等しくなるよう設定される方法。
請求項３記載の方法であって、前記時間−周波数平面における前記入力信号（Ｘ）及び前記出力信号（Ｙ）のそれぞれに対する内部表現ＬＸ（ｆ）ｎ及びＬＹ（ｆ）ｎの差Ｄ（ｆ）ｎが、ｂが１より大きい値に設定される第二の同調パラメータであり、Ｋ’が所望の低レベル・ノイズ・パワー条件を表す低レベル・ノイズ・パワー条件値であるときに、ＬＸ（ｔ）＜Ｋ’の場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜と、ＬＸ（ｆ）ｎ＞Ｋ’の場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜と等しくなるよう設定される方法。
音声システムの伝送品質を測定するシステムであって、入力信号（Ｘ）が前記音声システムに入力されて前記音声システムから出力される出力信号（Ｙ）を生じさせ、前記入力信号及び前記出力信号が互いに処理され、望ましくは比較されるシステムにおいて、
パワー比に応じて、パワーの小さな偏差が補償され、より大きな偏差が部分補償される方法で、前記音声システムの前記出力信号及び／又は前記入力信号をスケーリングするスケーリング手段を備えるシステム。
請求項６記載のシステムであって、
前記入力信号（Ｘ）及び前記出力信号（Ｙ）のそれぞれに対する前記パワー表現ＰＸ及びＰＹから、ＰＸ／ＰＹの比に等しい補償比Ｆを計算する手段と、
Ｆ＜ｍｍの場合に第一のクリッピング値ｍｍと等しく、Ｆ＞ＭＭの場合に第二のクリッピング値ＭＭと等しく、それ以外の場合にはＦと等しいクリッピングされた比Ｃを計算する手段と、
第一のスケーリング係数ｍ及び第二のスケーリング係数Ｍからソフトスケール比Ｓを計算する手段であって、ｍｍ＜ｍ＜１且つＭＭ＞Ｍ＞１であり、ａが０より大きく且つ１より小さい値に設定される第一の同調パラメータであるときに、Ｃ＜ｍの場合にＳがＣ^a＋Ｃ−Ｃ（ｍ）^a-1と等しく、Ｃ＞Ｍの場合にＳがＣ^a＋Ｃ−Ｃ（Ｍ）^a-1と等しく、それ以外の場合にＳがＣと等しい手段と、
を備えるシステム。
請求項６記載のシステムであって、前記原入力音声信号に存在するノイズ・レベルが、該入力のノイズの局所レベルに依存するスケーリング係数により低減された、人工的な参照音声信号を作成する手段を備えるシステム。
請求項８記載のシステムであって、前記時間−周波数平面における前記入力信号（Ｘ）及び前記出力信号（Ｙ）のそれぞれの内部表現ＬＸ（ｆ）ｎ及びＬＹ（ｆ）ｎの差Ｄ（ｆ）ｎを、ｂが１より大きい値に設定される第二の同調パラメータであり、Ｋが所望の低レベル・ノイズ・パワー条件を表す低レベル・ノイズ・パワー条件値であるときに、ＬＸ（ｆ）ｎ＜Ｋの場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜と、ＬＸ（ｆ）ｎ＞Ｋの場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜と等しくなるよう設定する手段を備えるシステム。
請求項８記載のシステムであって、前記時間−周波数平面における前記入力信号（Ｘ）及び前記出力信号（Ｙ）のそれぞれに対する内部表現ＬＸ（ｆ）ｎ及びＬＹ（ｆ）ｎの差Ｄ（ｆ）ｎを、ｂが１より大きい値に設定される第二の同調パラメータであり、Ｋ’が所望の低レベル・ノイズ・パワー条件を表す低レベル・ノイズ・パワー条件値であるときに、ＬＸ（ｔ）＜Ｋ’の場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ^b／Ｋ^b-1｜と、ＬＸ（ｔ）＞Ｋ’の場合に｜ＬＹ（ｆ）ｎ−ＬＸ（ｆ）ｎ｜と等しくなるよう設定する手段を備えるシステム。