JP5606764B2

JP5606764B2 - 音質評価装置およびそのためのプログラム

Info

Publication number: JP5606764B2
Application number: JP2010080886A
Authority: JP
Inventors: 健本間
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2014-10-15
Anticipated expiration: 2030-03-31
Also published as: US9031837B2; US20110246192A1; JP2011215211A

Description

本発明は、評価音声に対して主観評価値の予測値を出力する音質評価装置に関し、特に電話の音質評価を行う音質評価装置に関する。

電話の音質評価は、一般に、複数の評価者による心理実験によって行われる。この心理実験において一般的にとられる方法は、1個の音声資料を評価者に提示した後、評価者にその音声の音質を5段階〜9段階程度のカテゴリの中から1個選んでもらう方法である。このカテゴリの例としては、非特許文献5に記載のカテゴリの例を挙げると、音声の品質に対して、Excellent：5点、Good：4点、Fair：3点、Poor：2点、Bad：1点という5個のカテゴリのなかから1個を選んでもらう。

しかし、心理実験による評価は、多数の評価者を集める必要があるため、コスト、時間がかかる問題がある。この問題を解決するため、音声データから主観評価値を予測する技術が開発されている。
非特許文献1、非特許文献2には、評価用音声の原信号（以下、原音声）と、電話器で聞いた音声（以下、遠端音声）とを比較演算することにより、電話音質の主観評価予測値を予測する技術が開示されている。
非特許文献3には、原音声、遠端音声のほかに、話者側の電話器に入力された音声（以下、近端音声）を用いることによって、主観評価値の予測値を出力する技術が開示されている。この方法では、電話音声の音質とノイズの音質を別個に予測するために、音質の評点（SMOS）、ノイズの評点（NMOS）を算出し、さらに総合評点（GMOS）を算出する。音質の評点を計算する式では、近端音声-遠端音声間のノイズ量の減少幅を用いている。また、非特許文献3に引用されている非特許文献4には、主観評価値の予測に際して、音声の周波数帯域ごとのパワーだけではなく、2 msec単位でのパワーの時間変動を計算している。
特許文献1では、電話に発生するエコー音声の影響を主観評価値の予測に考慮するため、エコー音声の物理量を評価音声の物理量より減算する方法が開示されている。

特表2004-514327号公報

ITU-T Recommendation P.862: "Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs" ITU-T Recommendation P.861: "Objective quality measurement of telephoneband (300 - 3400 Hz) speech codecs" ETSI EG 202 396-3 V1.2.1 : ``Speech Processing、 Transmission and Quality Aspects (STQ); Speech Quality performance in the presence of background noise、 Part 3: Background noise transmission - Objective test methods、" (2009-01) K. Genuit: "Objective evaluation of acoustic quality based on a relative approach、" InterNoise '96 (1996) ITU-T Recommendation P.800: "Methods for subjective determination of transmission quality"

電話の話者が、自動車運転中などのノイズが大きい状況にいるとき、遠端音声にもノイズが混入する。このノイズによる音質劣化を防ぐために、自動車用のハンズフリー電話システムには、ノイズ抑制処理が備わっていることが通常である。
ノイズが存在する電話音声では、音質の評点が低下することが知られている。しかし、一概にノイズがあると音質が低下するとは限らず、ノイズが存在している場合においても、音声の音質は良好に感じられる場合もある。本発明は、ノイズがあっても良い音質であると感じられるような場合にも対応できるような、主観評価値の予測手法を開発するために行われた。

非特許文献１、２で開示される技術では、主観評価値算出のアルゴリズムにおいて、原音声と遠端音声の各周波数帯域におけるラウドネスの差分に基づいて、主観評価値を予測している。これらの技術では、上記のようなノイズが存在しているにもかかわらず良音質であるような条件には関して充分考慮されていなかった。
非特許文献3で開示される技術では、近端音声-遠端音声間のノイズ量の減少幅を主観評価値に反映させる処理がなされているが、音声のノイズの影響を1つのスカラ量に集約させているため、各時刻それぞれにおけるノイズの影響は考慮されていなかった。また、非特許文献4で開示される技術では、2 msec単位の短時間でのパワー変動は考慮されるが、自動車走行時の走行ノイズのような長時間存在するノイズ音声に対する影響は考慮されていなかった。
特許文献1で開示される技術では、遠端音声の音声信号よりエコー音声信号の周波数特性を減算した後に、主観評価値予測を行う。しかし、遠端音声のそのものに含まれるノイズの影響を低減するためには、適用できるものではない。
また、上記引用した文献で予測対象とする項目は、音質に関しては「音質の善し悪し」という一項目に限定されていた。しかし、より高品質の電話音声を実現するためには、さまざまな観点からの音質評価がなされるべきである。よって、主観評価予測も、複数の主観評価項目に対応できることが望ましい。

本発明は、ノイズが混入した音声に対しても、音声の主観評価値を高精度に予測することができる音質評価装置およびそのためのプログラムを提供することを目的とする。

この目的を達成するために、本発明の音質評価装置は、評価音声に対して主観評価値の予測値を出力する音質評価装置において、評価音声の周波数特性を計算したのち、評価音声の周波数特性に対して所定の周波数特性である減算用特性を減算する処理を行い、減算処理後の周波数特性に基づいて音声ひずみ量を算出する音声ひずみ量算出部と、前記音声ひずみ量に基づいて主観評価値の予測値を算出する主観評価予測値算出部とを備え、前記音声ひずみ量算出部は、複数の減算用特性を用いて減算処理を行って、複数の音声ひずみ量を算出し、前記主観評価予測値算出部は、前記複数の音声ひずみ量に基づいて１個ないし複数の主観評価値の予測値を算出することを特徴とするものである。
本発明の音質評価装置において、評価の基準となる原音声を入力し、前記音声ひずみ量算出部は、前記減算処理後の評価音声と、原音声との差分に基づいて音声ひずみ量を算出するものでよい。
また、本発明の音質評価装置において、無発話区間における評価音声の周波数特性を求めるノイズ特性算出部を備え、前記音声ひずみ量算出部は、無発話区間における評価音声の周波数特性を、減算処理において使用する周波数特性として用いるものでよい。
また、本発明の音質評価装置において、発話区間における評価音声に含まれる背景雑音の周波数特性を求めるノイズ特性算出部を備え、前記音声ひずみ量算出部は、発話区間での背景雑音の周波数特性を、減算処理において使用する減算用特性として用いるものでよい。
また、本発明の音質評価装置において、基準となる減算用特性である周波数特性に、異なる重み係数を乗算することで複数の異なる減算用特性を生成する複数の重み付与部を備え、前記音声ひずみ量算出部は、前記複数の重み付与部が出力した複数の減算用特性を用いて減算処理を行うものでよい。
また、本発明の音質評価装置において、前記主観評価予測値算出部は、複数の音声ひずみ量を変数とする換算式を用いて、複数の主観評価値の予測値を算出するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、音声のラウドネスの算出値に基づいて行ない、評価音声のラウドネスより所定の周波数特性のラウドネスが減算されるように計算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、評価音声の周波数−パワー特性から、ノイズの周波数−パワー特性を減算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、評価音声のＢａｒｋ尺度における周波数−パワー特性から、ノイズのＢａｒｋ尺度における周波数−パワー特性を減算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理において使用する周波数特性は、演算対象となる時刻の近傍の時間区間における評価音声の周波数特性でよい。
本発明の音質評価装置において、評価音声は、電話機から発音される遠端音声でよい。

本発明のプログラムは、コンピュータを、上記の、評価音声に対して主観評価値の予測値を出力する音質評価装置として機能させるためのプログラムである。

本発明により、音声の主観評価値予測において、ノイズが混入した音声に対しても高精度に予測を行うことができる。また、本発明によれば、複数の主観評価項目の予測値を算出することができる。

ハンズフリー電話の音質評価において、評価音声を採取する構成を示す図である。本発明の実施例の音質評価装置のブロック構成を示す図である。本発明の実施例１の音声ひずみ算出部の処理フローを示す図である。本発明の実施例２の音声ひずみ算出部の処理フローを示す図である。本発明の実施例３の音声ひずみ算出部の処理フローを示す図である。本発明の実施例４の音声ひずみ算出部の処理フローを示す図である。

以下、本発明の実施の形態を添付図面に基づいて説明する。
なお、本実施の形態は、自動車で使用するハンズフリー電話における遠端音声の主観評価値予測に関して説明を行うが、本発明は、ハンズフリー電話装置や電話装置の音質評価に限られるものではない。

［音質評価用音声の採取］
図1は、ハンズフリー電話の音質評価予測に際して、音声データを採取する構成を示している。

車室170における構成を説明する。
まず、座席にHATS180を設置する。HATS(Head and Torso Simulator)は、音声をヒトの***を模擬したスピーカから再生することにより、実際にヒトが発話したときの音響特性を模擬するものである。HATS180には、再生装置190を接続し、評価用の文言を記録した音声（原音声）を再生する。

ハンズフリー電話装置140は、自動車のハンズフリー電話を実現する装置である。マイク150は、車内のヒトの発話音を集音し、スピーカ160は、車内のヒトに対して会話する相手の音声を再生する。本実施形態では、HATS180から再生された音声をマイク150から集音する。

ハンズフリー電話装置140は、携帯電話130と有線または無線によって接続されており、音声情報の授受を行う。
携帯電話130と電話器110は、電話回線網120を通じて音声の授受を行う。
録音装置115は、電話器110に送られた音声（遠端音声）の録音を行う。

以上の装置により、評価用の音声を得る手順を説明する。
まず、再生装置190より原音声を再生して、HATS180より再生する。この音声は、マイク150、ハンズフリー電話装置140、携帯電話130、電話回線網120、電話器110に送られ、遠端音声を録音装置115によって録音する。後ほど説明する主観評価予測では、原音声と遠端音声を利用する。

一連の録音は、自動車の運転中または停車中において行われる。運転中であれば、マイク150にはHATS180から再生される評価用音声のほかに、走行中に発生するノイズが混入する。そのため、録音装置115に保存される遠端音声にも、ノイズが混入する。
また、評価用音声の録音は停車中の静かな環境で行い、別途採取した走行ノイズを加算した音声をハンズフリー電話装置140に入力することによって、走行中の音声環境を模擬することも可能である。この方法では、まず走行中において、録音再生装置145により、マイク150に入力される走行ノイズのみを録音する。つぎに、停車中において、HATS180から再生した評価用音声を、録音再生装置145によって録音を行う。最後に、先に録音したノイズと評価用音声を重畳した音声を録音再生装置145より再生し、ハンズフリー電話装置140に入力する。これにより、走行中の音声を模擬することができる。
ここで、ハンズフリー電話装置140に入力される音声を、近端音声と呼ぶ。近端音声は、先に説明した通り、HATSから再生した原音声をマイク150から入力したものを用いてもよいし、録音再生装置145から再生した音声を用いても良い。

また、HATS180、再生装置190を使用しなくとも、実際にヒトが発話した音声を用いてもよい。実際にヒトが発話する場合においては、再生装置190から再生する原音声は存在しない。その場合においては、停車中などの静かな環境において、ヒトが評価文言を発話し、その音声を録音再生装置145において録音した近端音声を、主観評価予測での原音声として使用してもよい。この際には、車室内のドライバーからマイクまでの音響伝達関数を別途求め、これを補償する周波数特性を近端音声にかけることにより、再生装置190から再生される原音声と同等の音響特性の音声を得ることができる。あるいは、原音声として、静かな環境において発話して集音した近端音声をそのまま原音声として用いる方法、走行環境で発話して集音した近端音声をそのまま用いる方法、走行環境で発話して集音した近端音声に信号処理を施した音声を用いる方法、などを取ることができる。

また、図1の構成はあくまで実際の自動車を用いた評価音声作成に構成であるが、これら各部品の特性を音響的なシミュレーションによって模擬することによって、それぞれの近端音声、遠端音声を作成してもよい。

［音質評価装置の説明］
（前処理部）
図2に、原音声、および評価音声である遠端音声を入力し、主観評価値の予測値を出力する音質評価装置のブロック図を示す。音質評価装置は、発話区間検出部２１０、時間ずれ補正部２２０、レベル調整部２２５、ノイズ特性算出部２３０、重み付与部２４０から成る前処理部、音声ひずみ算出部２５０、主観評価予測値算出部２６０から構成されている。なお、これらの音質評価装置の構成は、コンピューターやデジタルシグナルプロセッサにそのためのプログラムを組み込むことにより実現される。

この図にしたがって、音質評価装置の動作を説明する。
原音声、遠端音声は、それぞれ、デジタル信号として入力されるものとする。デジタル信号のフォーマットとしては、サンプリング周波数16kHz、量子化ビット数16bit、無圧縮の信号を仮定する。また、以降の処理では、音声データの分析のための一かたまり（以降、フレーム）ごとの演算を行う。この1フレームに含まれるサンプル数（以降、フレーム長）を512点とし、１つのフレームに引き続くフレームの間隔（以降、フレーム間隔）をサンプル数で256点と仮定する。

発話区間検出部210は、原音声の時々刻々のサンプル値から、どの時間区間において発話者が発話したかを特定する。以降、音声が発話された区間を発話区間、音声が発話されていない区間を無発話区間と呼ぶこととする。発話区間を特定する方法としては、音声の各サンプルの瞬時のパワー（サンプル値の2乗値）が、設定した閾値以上であるときに、発話したとみなす方法をとることができ、以下の文献に記載の方法を利用できる。
ITU-T Recommendation P.56: “Objective measurement of active speech level”
この結果、発話区間のブロックが１個ないし複数個特定される。

時間ずれ補正部220は、原音声と遠端音声の間の時間ずれを補正する。この補正は、2段階に分けられる。
第１の段階では、原音声の各サンプル値のパワー、遠端音声の各サンプル値のパワーを計算し、両音声のパワーの間の相互相関関数を計算する。パワーは、各サンプル値を2乗することで算出される。この相互相関関数が最大値となる時間ずれ量を求め、この時間ずれ量だけ、原音声または遠端音声の波形を移動させる。ここでは、遠端音声の波形は固定し、原音声の波形だけを移動させるものとする。
第2の段階では、原音声に対して求められた発話区間のブロックごとに処理を行う。発話区間のそれぞれのブロックごとに、前後に所定の無音区間を付け加えたブロックを作成する。つぎに、原音声の発話区間のブロックごとに、その発話区間に対応する遠端音声との相互相関関数を計算し、最大となる時間ずれ量を求める。求められた時間ずれ量に従い、原音声の各ブロックの時刻を移動させる。
この時間ずれ補正の方法は、非特許文献1に記載に詳しく記載されている。

レベル調整部225は、原音声、遠端音声それぞれのパワーを同等の値に調整する。ここでは、発話区間における平均パワーをそれぞれ同一の値にする。
まず、原音声と遠端音声の発話区間におけるパワーは、発話区間検出部220から得られた発話区間における各サンプル値を2乗し、これを発話区間のサンプル数により平均することにより求められる。つぎに、別途定められた音声の平均パワーの目標値に合わせるような係数を計算する。音声の平均パワーの目標値としては、非特許文献2に記載の値に従い、78 dB SPLとし、また、この値がデジタルデータ上では、-26 dB ovに相当すると仮定する。[dB ov]とは、デジタルデータのダイナミックレンジいっぱいの矩形波の平均パワーにおいて0 dBとなるように換算したデシベル値である。計算された係数を、原音声、遠端音声それぞれの全区間のサンプル値に対して乗算する。
レベル調整の方法にはいくつかの代案も考えられる。非特許文献1の方法を用いると、あらかじめ300Hz以上の帯域に絞った両音声波形に対して、全区間での平均パワーが目標値になるように行われる。このような別手法でもよい。

ノイズ特性算出部230は、時間調整済み・レベル調整済みの遠端音声を用いて、音声以外のノイズの周波数特性を算出する。この方法として、発話区間の音声情報による方法、無発話区間の音声情報による方法のいずれかを使用できるため、それぞれ説明する。
まず、無発話区間の情報に基づいてノイズの周波数特性を算出する方法を説明する。最初に、発話区間検出部210より出力された発話区間情報を元に、無発話区間を特定する。無発話区間において、各時刻における周波数-パワー特性（パワースペクトル）を計算する。周波数-パワー特性の計算方法は公知であるが、以下に簡単に説明する。
第1に、無発話区間の1フレーム分の音声サンプル512点を用い、これにHanning窓をかけたのち、高速フーリエ変換を行う。これにより、512点のフーリエ変換後のデータが得られる。i番目のフレームのサンプル値をフーリエ変換した結果において、k番目のデータをY_i[k]とすると、パワースペクトルPy_i[k]は以下の式で計算される。

kは周波数に対応するインディクス番号であり、周波数binと呼ばれる。また、iはフレーム番号を示すインディクスである。
つぎに、無発話区間における周波数-パワー特性を平均する。これは、式(1)にしたがって無発話区間の各フレームにおけるパワースペクトルを計算し、これを無発話区間のフレーム数で平均する。式に表すと以下の通りとなる。

N_noiseは、無発話区間のフレーム数である。また、ｉ∈noiseは、加算対象が無発話区間であるフレームだけであることを示す。このようにして得られたノイズ特性PN[k]を、後ほど使用する。

また、ノイズ特性PN[k]を求めるには以下の式を使うこともできる。

この式では、ある周波数に対応するノイズ特性のパワーを計算する際、その周波数の周波数binのパワーだけはなく、その近傍の周波数binのパワーを加算して算出する。式におけるE_f[k]、E_l[k]は、それぞれ、k番目の周波数binのパワーを計算する際の、加算対象となる最初のbin番号、最後のbin番号である。すなわち、ある周波数のパワーを計算する際に、ある周波数の幅に含まれるパワーを合計した値を使用する。この周波数の幅を規定する基準としては、聴覚に存在する臨界帯域フィルタ（critical band filter）の幅に基づく方法が考えられる。各周波数と臨界帯域フィルタとの幅の関係は、以下の論文で記載された等価矩形帯域幅（equivalent rectangular bandwidth）を用いることができる。
B.C.J. Moore, B.R. Glasberg: ``Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," Journal of the Acoustical Society of America, vol.74, no.3, pp.750-753, 1983
E_f[k]、E_l[k]を求めるには、まず、周波数bin番号kに対応する周波数を算出し、つぎに、その周波数に対応する等価矩形帯域幅を計算する。つぎに、周波数bin番号kに対応する周波数から等価矩形帯域幅の半分だけ低い周波数に対応する周波数bin番号をE_f[k]とし、周波数bin番号kに対応する周波数から等価矩形帯域幅の半分だけ高い周波数に対応する周波数bin番号をE_l[k]として用いる。もちろん、臨界帯域フィルタの幅はここで説明した方法に限られず、別の方法で求められた臨界帯域フィルタの幅を用いても良い。また、臨界帯域のなかでパワーを加算するとき、それぞれの周波数に応じて重みを変えてもよい。

つぎに、発話区間においてノイズの周波数特性を算出する方法を説明する。発話中の音声情報から、背景ノイズの周波数特性を推定する方法として、Minimum statistics noise estimationや、Minima-controlled recursive averaging(MCRA)アルゴリズムなどが知られている。これらの背景ノイズの推定方法については、文献（P.C. Loizou:``Speech enhancement: Theory and practice," CRC Press, 2007）に詳しく記載されている。これらの公知の方法を用いて、各周波数binに対応するノイズのパワースペクトルを得ることができる。得られたノイズのパワースペクトルを、ノイズ特性PN[k]として後ほど使用する。
また、このPN[k]を求める際に、上記で説明した臨界帯域フィルタの幅のなかでのパワーの加算を用いてもよい。

ノイズ特性の算出は、上記で説明した、無発話区間による方法、発話区間による方法のいずれでも良い。また、無発話区間、発話区間の情報を総合的に使用しても良い。
また、後ほど使用するノイズ特性は、遠端音声から求めなくとも、別途使用できるノイズ特性がある場合には、そのノイズ特性を音質評価装置にデータとして入力し、ノイズ特性算出部230の出力値とみなして使用することでもよい。

重み付与部240は、ノイズ特性算出部230が出力したノイズ特性に対して、重み係数を乗算する。重み付与部は1個でも良いが、本実施形態では、複数の重み付与部を仮定する。これは、後ほど説明する減算処理において、複数の異なる重みを用いることにより、複数の主観評価項目に対応する出力値を得るために使用される。
重み付与部の個数をN_wと表すこととする。1、 2、・・・、N_w番目のそれぞれの重みをα１、α２、・・・、αN_wと表すこととする。この場合、i番目の重み付与部が出力するノイズ特性PNA［i,k］は、以下の式で計算される。

ただし、kは周波数bin番号である。

（音声ひずみ算出部）
音声ひずみ算出部250は、原音声、遠端音声、ノイズ特性を用いて、音声ひずみ量を算出する。音声ひずみ算出部250は、重み付与部240の個数に対応する分だけ用意される。

音声ひずみ算出部250の処理の流れを、図3のフローチャートにて説明する。
301では、原音声の各フレームの音声サンプル値から、周波数-パワー特性を算出する。

302では、遠端音声の各フレームの音声サンプル値から、周波数-パワー特性を算出する。それぞれ同一の処理である。1個のフレームの音声サンプル値(512点)に対して、Hanning窓をかけ、高速フーリエ変換を行い、512点の結果を得る。次に、高速フーリエ変換後の各値のパワーを計算する。これを、全フレームの原音声、遠端音声に対して行う。
計算式において説明すると、i番目のフレームに対する原音声のフーリエ変換の結果をX_i[k]、遠端音声のフーリエ変換の結果をY_i[k]とおくと、原音声のパワーPx_i[k]、遠端音声のパワーPy_i[k]は以下の式で算出される。

ただし、kは周波数bin番号である。

303では、遠端音声の周波数-パワー特性より、重み付与部240が出力したノイズの周波数-パワー特性を減算する。
式において説明する。減算処理後の遠端音声の周波数-パワー特性Pys_i[k]（i：フレーム番号、k：周波数bin番号）は、以下の式で算出される。

ただし、jは、対応する重み付与部240のインディクス番号である。なお、式(7)により計算した場合、遠端音声のもともとのパワーよりノイズの項PNA［j,k］のパワーが大きくなる場合がある。このような場合には、以下の式により、Pys_i[k]が0以上となるように計算式を改める。

ｆ_jは、j番目の重み付与部240に対応するフロアリング係数と呼ばれる値である。本実施例では、フロアリング係数ｆ_jはすべて0.01とする仮定で説明を行う。
なお、Pys_i[k]を計算するための式として(7)式と(8)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(7)式の右辺と(8)式の右辺の値を比較し、大きかった値をPys_i[k]として使用する方法もある。

304では、原音声、遠端音声のパワーの正規化を行う。
式において説明する。まず、発話区間における原音声、遠端音声それぞれのパワーの平均値Tx、Tyを以下の式で計算する。

N_speechは発話区間のフレーム数、N_fはフーリエ変換後の周波数bin数(本実施形態では512)を示す。また、ｉ∈speechは、加算対象が発話区間であるフレームだけであることを示す。
つぎに、それぞれの音声の平均パワーの目標値を定める。この目標値は、音声サンプルの所定の値が相当する音圧に基づき、決められるものである。ここでは、非特許文献2の値に従い、発話区間での音圧レベルの目標値を78 dB SPLとし、かつこの音圧は音声データ上では-26 dB ovに相当する想定とする。原音声、遠端音声ともに、発話区間における音圧レベルが-26 dB ovになるようにするものとする。
この-26 dB ovに相当するパワーをT_refとおく。つぎに、原音声、遠端音声ともに、発話区間の平均パワーがT_refとなるような正規化処理を行う。正規化後の原音声、遠端音声の周波数-パワー特性をそれぞれPx’_i[k]、Pys’_i[k]で表す。Px’_i[k]、Pys’_i[k]は、以下の式で求められる。

305では、304で求めた周波数-パワー特性より、周波数軸のスケールをBark尺度に変換した周波数-パワー特性を計算する。Bark尺度とは、ヒト聴覚の音の高さ知覚に基づいて計算された尺度であり、低周波数領域において密に、高周波数領域になるほど疎に配置された軸である。周波数-パワー特性から、Bark尺度での周波数-パワー特性へ変換する方法は、非特許文献2に記載の換算式、定数を用いることが可能である。非特許文献2より引用すると、Bark尺度での原音声、遠端音声の周波数-パワー特性Pbx_i[j]、Pbys_i[j]（i：フレーム番号、j：Bark尺度の周波数軸における周波数帯域番号）は以下の式で計算される。

I_f[j]、I_l[j]は、それぞれ、j番目の周波数帯域に対応する周波数bin番号の開始番号、終了番号である。Δｆ_jは、j番目の周波数帯域における周波数幅である。Δzは、1個の周波数帯域に相当するBark尺度での周波数幅である。S_pは、所定のサンプル値を所定の音圧に対応させるための換算係数である。
また、ここで求められた周波数-パワー特性は、フレーム番号iを行、周波数帯域番号jを列に見立てた二次元表としてとらえることができる。そこで、Pbx_i[j]、Pbys_i[j]のそれぞれの要素を、セルと呼ぶこととする。

306では、音声の周波数-パワー特性を正規化する。非特許文献1に記載の方法をとれば、305で求めた原音声の周波数-パワー特性より、周波数帯域別に、聴覚閾値より1000倍以上のパワーを持つセルのみを加算した値を算出する。同様に、305で求めた遠端音声の周波数-パワー特性より、周波数帯域別に、聴覚閾値より1000倍以上のパワーを持つセルのみを加算した値を算出する。つぎに、1個の周波数帯域における遠端音声の加算値を、同一の周波数帯域での原音声の加算値で割って、1個の周波数帯域に関する正規化係数を求める。正規化係数を、それぞれの周波数帯域において算出する。それぞれの正規化係数は、ある範囲に収まるように計算後に調整する。最後に、原音声の各セルの値に対して、対応する周波数帯域の正規化係数を乗算する。307では、音声の周波数-パワー特性を、時間軸方向（フレーム方向）、また、周波数軸方向に対して平滑化を行う。この方法としては、以下の文献に記載の方法を用いることができる。
J.G. Beerends、 J.A. Stemerdink: ``A perceptual audio quality measure based on a psychoacoustic sound representation” Journal of the Audio Engineering Society、 vol.40、 no.12、 pp.963-978、 1992
この処理は、ヒトの聴覚で発生する時間方向、周波数方向のマスキング特性を考慮するために行われる。時間方向の平滑化では、あるセルにパワーが存在した場合、そのパワーに所定の係数を掛けた値を後続のフレームのセルに加算する処理を行う。また、周波数方向の平滑化では、ある周波数帯域のセルにパワーが存在する場合、そのパワーに所定の係数を掛けた値を近傍の周波数帯域のセルに加算する処理を行う。

306、 307の処理は、求めたい主観評価項目に応じた聴覚心理学上の特性を模擬するように、適宜変更してもよい。
また、306、 307の処理を経て変更された原音声、遠端音声それぞれの周波数-パワー特性を、Pbx’_i[j]、Pbys’_i[j]（i：フレーム番号、j：周波数帯域番号）と表すこととする。

308では、原音声、遠端音声それぞれのラウドネス密度を計算する。ラウドネス密度とは、305、 306、 307の一連の演算で得られた周波数-パワー特性のそれぞれのセルに保存されたパワーを、ヒトの主観上で感じる音の大きさの単位であるラウドネスの単位[sone/Bark]に換算したものである。パワーとラウドネス密度の間の換算式としては、非特許文献1、2に記載の式を利用できる。フレームi番目、周波数帯域j番目のセルに対応する原音声、遠端音声それぞれのラウドネス密度Lx_i[j]、Ly_i[j]は、以下の式で表される。

P₀[j]は、j番目の周波数帯域における聴覚閾値を表すパワーである。γは、ラウドネスの増分の度合いを示す定数であり、Zwickerらが調べた値に従えば0.23を用いる（H. Fastl、 E. Zwicker: "Psychoacoustics: Facts and Models、 3rd Edition"、 Springer (2006)に記載）。S_lは、ラウドネス密度Lx_i[j]、Ly_i[j]が単位[sone/Bark]となるように設定された定数である。ラウドネス密度の計算結果が負の値となった場合には、0と置く。

309は、各フレームにおける原音声、遠端音声のラウドネス密度の差を計算する。これを、ラウドネス差分と呼ぶこととする。i番目のフレームのラウドネス差分D_iは、以下の式で計算される。

N_bは、Bark尺度における周波数帯域の個数である。Δzは、1個の周波数帯域に相当するBark尺度での周波数幅である。すなわち、各周波数帯域における原音声・遠端音声間のラウドネス密度の差を計算し、これを合算した値として計算する。

310は、309で求めた各フレームのラウドネス差分から、発話区間でのラウドネス差分の平均値を求める。求める値をD_totalとすると、以下の式で計算される。

それぞれの記号の意味は、すでに説明されているため、ここでの説明は省略する。ここで得られた量D_totalを、音声ひずみ量と呼ぶこととする。

なお、309、310の処理は、聴覚心理学上のどのような心理現象に着目するかによって、いくつか異なる計算方法をとることができる。309のラウドネス密度の差分を計算する処理においては、(1) 原音声・遠端音声のラウドネスの差が所定の閾値よりも小さいときには、加算する値を0とする方法、(2) 原音声・遠端音声のラウドネスの差を計算し、さらに、原音声と遠端音声との大小関係によって変化する非対称な係数を乗算した値を使用する方法、(3) 単純な加算平均をとる代わりに、高次ノルム量を用いた平均を用いる方法、などを取ることができる。高次ノルム量を用いる方法について具体的に記述する。ノルム次数をpとおくと、各周波数帯域のラウドネス密度の差をp乗した後に加算平均を求め、加算平均値のp乗根を得る。この計算結果を各フレームでのラウドネス差分D_iとして用いることができる。また、310の処理においても、(1) 各フレームのラウドネス差分の単純な加算平均をとる代わりに、各フレームでのラウドネス差分の高次ノルム量を用いた平均を用いる方法、(2) 発話区間だけでなく、無発話区間のラウドネス差分も加味する方法、(3) 時間としてより後の時刻におけるラウドネス差分に対してより大きな重みをもたせる方法、をとっても良い。

311は、310によって計算された音声ひずみ量を、主観評価予測値算出部260に対して出力する。

（主観評価値算出部）
主観評価予測値算出部260は、1個ないし複数の音声ひずみ算出部250が出力した音声ひずみ量を用いて、1個ないし複数の主観評価項目に対応する主観評価値の予測値を算出する。
まず、主観評価項目に関して解説を行う。電話音声の音質は、総合的な音質の良し悪しだけではなく、複数の観点から評価することが可能である。電話音質の主観評価方法を記載した非特許文献5を参照すると、以下のような複数の主観評価項目が挙げられている。
・音質（Listening-quality scale）
・聞き取りのための努力（Listening-effort scale）
・音の大きさ（Loudness-preference scale）
・ノイズによる妨げ（Noise disturbance）
・音の時間的変動による妨げ（Fade disturbance）
これらそれぞれの項目を評価する際、評価者は、それぞれの項目で異なる音声の側面に着目して評価していると考えられる。これまで説明した本発明の実施形態では、遠端音声の背景ノイズの影響を低減させることにより、よりヒトの感覚と近い音声ひずみ量を得ることを説明した。しかし、評価項目が異なると、ノイズの影響の程度も異なると考えられる。よって、それぞれの評価項目に適するノイズの低減量は異なると考えられる。
また、ある評価項目の主観評価値を予測する際、1個の量だけでなく、複数の異なる量を組み合わせて予測することによって、よりヒトの主観評価値に近い値を算出することができる。
そこで、異なるノイズ低減量によって複数の音声ひずみ量を算出し、これを複数の主観評価項目に対応させることとする。また、2個以上の音声ひずみを組み合わせて使用して、ある主観評価値を求めることも行う。
以降、1個のひずみ量または複数個のひずみ量の組み合わせによって、複数の主観評価項目の予測値を算出する方法を説明する。

予測対象とする主観評価項目の個数をN_tとする。各評価項目の主観評価予測値をU₁、U₂、・・・、U_Ntと置く。また、それぞれの音声ひずみ算出部が出力する音声ひずみ量をD₁、D₂、・・・、D_Nwと置く。
i番目の主観評価値U_iは、以下の式で計算するものとする。

すなわち、音声ひずみ量を変数とする2次式で表すものとする。ａ_i,0は定数項、ａ_i,j,kはj番目の音声ひずみ算出部が出力する音声ひずみ量D_jのk次項に対応する係数である。この式のそれぞれの係数ａ_i,0、ａ_i,j,kは、あらかじめ求めておくものとする。すなわち、あらかじめ注目する主観評価項目に関して、1名ないし複数名の評価者による主観評価実験を行い、その実験で使用した原音声、遠端音声、評点データに対してもっともよく近似されるように、各係数を求めておくものとする。
なお、ここでは2次式により主観評価値を得るものとしたが、より高次の多項式、対数関数、指数関数などの他の関数を用いてもよい。
以上の計算により、複数の主観評価項目に対応する主観評価予測値を得ることができる。

これまで説明した方法では、遠端音声の周波数-パワー特性から、ノイズの周波数-パワー特性を減算する方法を説明した。しかし、この減算処理に関しては、別の方法をとることも可能である。

（Bark尺度による減算）
図4は、減算処理をBark尺度に換算した後の周波数-パワー特性をもとに行う方法を図示している。この方法による音声ひずみ量の算出方法を説明する。
処理の最初は、図3の301、302と同一であるため、説明を省略する。

401では、301、302で求めた原音声、遠端音声それぞれの周波数パワー特性における周波数軸を、Bark尺度に変換する。この方法は、図3の305で説明した方法と同一である。まず、原音声、遠端音声それぞれに対するBark尺度での周波数-パワー特性Pbx_i[j]、Pbｙ_i[j]（i：フレーム番号、j：周波数帯域番号）は、以下の式で計算される。

402では、ノイズ特性算出部230を経て重み付与部240が出力したノイズの周波数-パワー特性における周波数軸を、Bark尺度に変換する。この計算方法は、式(13)の方法で計算でき、i番目の重み付与部、j番目の周波数帯域に対応するPbNA[i,j]は以下の式で計算される。

なお、(22)式の計算方法を、臨界帯域フィルタを考慮した方法へ変更することも可能である。まず、j番目の周波数帯域の中心周波数を求め、この中心周波数に対応する臨界帯域フィルタの幅を計算する。この幅をΔf’_jと表すこととする。この計算には、上記で説明した等価矩形帯域幅を用いることができる。つぎに、中心周波数から等価矩形帯域幅の半分だけ低い周波数を求め（開始周波数）、さらに、中心周波数から等価矩形帯域幅の半分だけ高い周波数を求める（終了周波数）。つぎに、開始周波数、終了周波数それぞれに対応する周波数bin番号を求め、それぞれI’_f[j]、I’_l[j]と表すこととする。最後に、(22)式において、Δf_j、I_f[j]、I_l[j]を、それぞれ、Δf’_j、I’_f[j]、I’_l[j]に置き換えて計算する。これにより、ノイズ特性を臨界帯域フィルタを考慮した形で計算することができる。
403では、遠端音声のBark尺度における周波数-パワー特性から、402で計算したノイズのBark尺度における周波数-パワー特性を減算する。減算処理後の遠端音声の周波数-パワー特性Pbys_i[k]（i：フレーム番号、k：周波数帯域番号）は、以下の式で計算される。

ただし、(23)式が負値になる場合には、以下の式で計算する。

fjは、j番目の重み付与部240に対応するフロアリング係数である。
なお、Pbys_i[k]を計算する式として(23)式と(24)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(23)式の右辺と(24)式の右辺の値を比較し、大きかった値をPbys_i[k]として使用する方法もある。
403の後には、図3の306に戻り、処理をつづける。

この変形によれば、あらかじめBark尺度に変換された状態においてノイズのパワーを減算するため、よりヒトの感覚に一致したノイズ影響の低減が行われる。

（ラウドネス尺度を考慮した周波数-パワー特性の減算）
図5は、遠端音声の周波数-パワー特性の減算処理において、ラウドネス尺度を考慮した計算方法によって行う場合における音声ひずみ量の算出方法である。

501は、原音声の各フレームの周波数-パワー特性を計算する。この方法は、301と同一である。
502は、遠端音声の各フレームの周波数-パワー特性を計算する。この方法は、302と同一である。

503は、501で求めた原音声の周波数-パワー特性、502で求めた遠端音声の周波数-パワー特性における周波数軸を、Bark尺度に変換する。この方法は、401の説明で記載した方法と同一であるため説明を省略する。計算の結果、原音声、遠端音声それぞれに対するBark尺度での周波数-パワー特性Pbx_i[j]、Pby_i[j] ( i：フレーム番号、j：周波数帯域番号)が得られる。

504は、パワーの正規化、時間フレーム方向の平滑化、周波数方向の平滑化といった補正処理を行う。この処理は、306、307における方法と同様の方法を用いる。また、必要に応じて変更してもよい。この結果得られた原音声、遠端音声それぞれのBark尺度での周波数-パワー特性Pbx’_i[j]、Pby’_i[j]と表すこととする。

505では、ノイズ特性算出部230が出力したノイズの周波数-パワー特性における周波数軸を、Bark尺度に変換する。この計算は、402と同一である。結果として、 i番目の重み付与部、j番目の周波数帯域に対応するノイズ特性PbNA[i,j]が得られる。

506では、原音声におけるラウドネス密度を計算する。このラウドネス密度の計算においては、式(15)に示したZwickerらの式を用いてもよいが、ここでは、背景ノイズが存在する場合のラウドネスを示したLochnerらの式を用いることをとする。Lochnerらの式は以下の文献に記されている。
J.P.A. Lochner、 J.F. Burger: ``Form of the loudness function in the presence of masking noise、" Journal of the Acoustical Society of America、 vol.33、 no.12、 pp.1705-1707 (1961)
この文献によれば、ある周波数帯域におけるノイズのパワーIe、その周波数帯域の聴覚閾値を決定する生理学上のノイズのパワーIp、その周波数の純音のパワーI、純音に対してヒトが知覚するラウドネスΨとの間には、以下の式が成立する。

ただし、K、 nは定数である。
この式に則り、フレームi番目、周波数帯域j番目に対応する原音声のラウドネス密度Lx_i[j]を以下のように計算する。

ここでは、背景ノイズのパワーIeは0と置いている。Ip[j]は、周波数帯域j番目の聴覚閾値を決定する生理学上のノイズパワーであり、聴覚閾値の測定実験などから別途求められる。Ip[j]の値としては、j番目の周波数binの帯域における聴覚閾値のパワーを用いることができる。Lx_i[j]の値が負になった場合には、0にする。

507では、遠端音声のラウドネス密度を計算する。この際、505で得られたノイズの周波数-パワー特性に起因するラウドネスの低減度合いを考慮して計算する。具体的には、式(27)を用い、フレームi番目、周波数帯域j番目に対応する遠端音声のラウドネス密度Ly_i[j]を以下のように計算する。

kは、重み付与部の番号である。ただし、式(27)の結果、Ly_i[j]が負の値となる場合には、以下の値に改める。

ｆ_kは、ｋ番目の重み付与部240に対応するフロアリング係数である。
なお、Ly_i[j]を計算するための式として(27)式と(28)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(27)式の右辺と(28)式の右辺の値を比較し、大きかった値をLy_i[j]として使用する方法もある。
また、(28)式の代わりに、(29)式を用いてもよい。

(28)式と(29)式の両方が0以下となる場合には、Ly_i[j]の値は0とすることとする。

508は、507で求められたラウドネス密度に対する補正を行う。この補正は必要に応じて行えばよい。たとえば、506で得られた原音声のラウドネス密度Lx_i[j]を、すべてのフレーム番号(i)、すべての周波数帯域番号(j)に関して加算した加算値を計算する。つぎに、507で得られた遠端音声のラウドネス密度Ly_i[j]も、同様に、すべてのフレーム番号(i)、すべての周波数帯域番号(j)に関して加算した加算値を計算する。最後に、原音声の加算値を遠端音声の加算値で割った係数を計算し、この係数を、遠端音声のラウドネス密度Ly_i[j]に乗算する。これにより、原音声と遠端音声のラウドネスの合計値が一致するように正規化される。

509は、各フレームにおける原音声、遠端音声のラウドネス密度の差を計算する。この計算は、309と同一である。この結果、 i番目のフレームのラウドネス差分D_iが得られる。

510は、509で求めた各フレームのラウドネス差分から、発話区間でのラウドネス差分の平均値を求め、これを音声ひずみ量とする。この方法は、310と同一である。この結果、音声ひずみ量D_totalが得られる。
以降、得られた音声ひずみ量より主観評価予測値を出力する方法はすでに説明したため、説明を省略する。

この音声ひずみ量の算出方法を用いれば、ヒトが実際に感じる音の大きさであるラウドネスを考慮したパワー特性の減算がなされるため、よりヒトの知覚に沿った主観評価値の算出を行うことができる。
なお、506、507で行った原音声、遠端音声のラウドネス密度の計算は、別の方法でも行うことができる。聴覚心理学の知見から、背景雑音が存在する場合の音の絶対閾値は、その音の周波数を含む臨界帯域フィルタのなかに存在する背景雑音のパワーだけ上昇することが知られている。まず、506の原音声のラウドネス密度Lx_i[j]の計算は、(15)式によって行う。つぎに、507の遠端音声のラウドネス密度Ly_i[j]は、以下の式で計算する。

iはフレーム番号、jは周波数帯域の番号である。kは、重み付与部の番号である。すなわち、聴覚閾値P₀[j]に対して、ノイズのパワーによる閾値の上昇分としてPbNA[k、j]が加算された形となる。ここで使うPbNA[k、j]は、ノイズ特性算出部230で計算される値であるが、上記で説明した臨界帯域フィルタを考慮して計算されたノイズ特性を使用してもよい。これにより、ノイズが存在するほどラウドネスが低減するという効果を得ることができる。

なお、ラウドネス尺度を考慮した減算処理は、図5のフローチャートによらずとも、図3のフローチャートにおける303の減算処理方法を変更することでも実現できる。
303での演算は、減算処理後の遠端音声のパワーPys_i[k]（i：フレーム番号、k：周波数bin番号）は、式(7)によって計算していた。ここでは、これをLochnerらのラウドネスの式に則り、以下の式が成り立つようにPys_i[k]を計算することに改める。

Py_i[k]はフレーム番号i、周波数bin番号kでの遠端音声のパワー、PNA[j,k]は、j番目の重み付与部240が出力したk番目の周波数binに対応するノイズのパワーである。Ip[k]は、さきほどと同様、k番目の周波数binの周波数帯域における聴覚閾値を決定する生理学上のノイズパワーであり、聴覚閾値の測定実験などから求められる値である。Ip[k]の値としては、k番目の周波数binの帯域における聴覚閾値のパワーを用いることができる。K、 nは、定数である。この式より、Pys_i[k]は以下の式で求められる。

また、式(32)の右辺のn乗根の計算対象となる括弧内の値が負となるときには、Pys_i[k]は式(8)で計算する。
なお、Pys_i[k]を計算するための式として(32)式と(8)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(32)式の右辺と(8)式の右辺の値を比較し、大きかった値をPys_i[k]として使用する方法もある。

この方法によれば、ノイズによるラウドネスの低減度合いが考慮された遠端音声のパワーが計算される。
なお、以上で説明した各処理は、それぞれを組み合わせても、実施することが可能である。たとえば、上記では、303において、ノイズによるラウドネスの低減が起こったときと等価なパワーを、Lochnerのラウドネス計算式にのっとった(31)式、(32)式により計算した。この方法を、(30)式のラウドネス計算式にのっとった方法で計算することに変更してもよい。具体的には、最初に、(30)式でノイズ影響下でのラウドネスLy_i[j]を計算する。つぎに、(16)式により、求められたLy_i[j]となるときの遠端音声のパワーPbys’_i[j]を計算する。このPbys’_i[j]を遠端音声のパワーとして、304の処理へと進む。さきほど説明した304の処理では、原音声、遠端音声のパワーは周波数binごとに求められていたのに対し、この変形では、遠端音声のパワーはBark尺度での帯域ごとに求められている。そのため、304での正規化処理は、原音声のパワーをBark尺度での周波数-パワー特性に変換した上で行う方法、遠端音声のパワーを周波数binごとの値に換算した上で行う方法、などで実施できる。

（ラウドネスの減算）
ノイズ特性を遠端音声から減算する処理は、周波数-パワー特性を基準とする方法だけでなく、ラウドネス密度を基準とする方法も考えられる。この場合の方法を、図6のフローチャートにしたがって説明する。
処理の最初は、図5の501〜505と同一であるため、説明を省略する。

601では、505で得られたノイズ特性PbNA[k、j]（k：重み付与部の番号、j：周波数帯域番号）を使い、式(15)に従いラウドネス密度に変換する。すなわち、k番目の重み付与部、j番目の周波数帯域でのノイズのラウドネス密度LN[k,j]は、

で求められる。この式の各定数は、式(15)と同様である。LN[k,j]が負となった場合には、0と置く。

602、603では、原音声のラウドネス密度、遠端音声のラウドネス密度をそれぞれ計算する。この方法は、308での方法を用いることができる。すなわち、これまでのステップで得られた原音声、遠端音声それぞれの周波数-パワー特性Pbx’_i[j]、Pby’_i[j]（i：フレーム番号、j：周波数帯域番号）より、原音声、遠端音声それぞれのラウドネス密度Lｘ_i[j]、Ly_i[j]を以下のように計算する。

ラウドネス密度の計算結果が負となった場合には、0とおく。

604では、遠端音声のラウドネス密度より、ノイズのラウドネス密度を減算する。すなわち、減算後の遠端音声のラウドネス密度Ly’_i[j]を以下の式で求める。

ただし、(36)式が負値となる場合には、以下の式で計算する。

kは、重み付与部の番号であり、fkは、k番目の重み付与部に対応するフロアリング係数である。
なお、Ly’_i[j]を計算するための式として(36)式と(37)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(36)式の右辺と(37)式の右辺の値を比較し、大きかった値をLy’_i[j]として使用する方法もある。

605は、計算したラウドネス密度に対する補正を行う。たとえば、正規化のために、602で得られた原音声のラウドネス密度Lｘ_i[j]を、すべてのフレーム番号(i)、すべての周波数帯域番号(j)に関して加算した加算値を計算する。つぎに、604で得られたノイズ特性減算後の遠端音声のラウドネス密度Ly’_i[j]も、同様に、すべてのフレーム番号(i)、すべての周波数帯域番号(j)で加算した加算値を計算する。最後に、原音声の加算値を遠端音声の加算値で割った係数を計算し、この係数をLy’_i[j]に乗算する。これにより、原音声と遠端音声のラウドネスの合計値が一致するように正規化される。この正規化の方法は、必要に応じて適宜別の方法に変更されてもよい。

以降、図5の509（すなわち309）と同等の処理を行う。つまり、各フレームにおける原音声、遠端音声のラウドネス密度の差を計算する。この計算は、式(17)に従い計算されるが、式(17)の遠端音声のラウドネス密度Ly_i[j]の代わりに、減算処理後のラウドネス密度であるLy’_i[j]を使用する。
以降の処理は、これまで説明したものと同等であるため、説明を省略する。

この方法によれば、ノイズのラウドネスを減算に使用するため、ヒトの感覚と近いひずみ算出を行うことができる。

（まとめ）
以上、本実施形態で説明したように、電話音声の音質評価において、背景ノイズの物理を音声の物理量より低減する処理を入れることにより、ノイズ環境下においてヒト聴覚で聞き取られる音声の特性を模擬することができる。これにより、ノイズ環境下での高精度な音質評価予測が可能となる。
また、複数のノイズ低減処理を併用することにより、複数の主観評価項目に対応する予測値を得ることができる。

（補足事項）
本実施例では説明しなかったが、図2の音質評価装置に入力する原音声、劣化音声には、電話帯域の周波数フィルタによって帯域を制限した音声データを入力してもよい。このようなフィルタの係数は、非特許文献2に記載のIRSフィルタリングの係数を利用できる。

また、本実施例で説明した音声ひずみ量の算出においては、原音声、遠端音声間のレベル合わせを行う処理が複数用いられている（図2のレベル調整部225、図3の処理304、306、図5の処理504、508、図6の処理605）。これらのレベル調整の処理は、音声のどのような側面に着目するかによって必要・不必要が代わるため、必要に応じて行えばよい。

また、全体の処理の流れの中で、ノイズ特性の減算処理が行われる順序は、本実施例で説明した順序に拘束されるものではない。たとえば、図3のフローチャートにおいて、ノイズ特性減算の処理303を、処理307の後に実行するように変更してもよい。

また、ノイズ特性の減算方法に関しては、本実施例において、パワーに基づいた減算方法とラウドネス密度に基づいた減算方法を説明した。しかし、そのほかのノイズ特性を音声の特性より減算するいかなる方法もとることができる。
また、ノイズ特性の計算方法では、本実施例では、臨界帯域フィルタを考慮する方法も説明した。臨界帯域フィルタを考慮した特性計算は、ノイズ特性だけでなく、遠端音声や原音声に適用してもよい。
また、フロアリング係数は、本実施例では一定値を用いたが、主観評価項目ごとに変えてもよいし、周波数帯域ごとに変えてもよい。
また、ノイズ特性に乗算する重みは、1個の重み付与部に対して1個の値を用いたが、周波数ごと、時刻ごとに異なる値を用いてもよい。

また、本実施例では、ノイズ特性として、無発話区間のパワーを平均した値、または、発話区間にて背景ノイズのパワースペクトルを推定した値を用いることを前提として説明したが、この計算方法とは異なる計算方法でも、ノイズ特性を計算することができる。まず、無発話区間または発話区間の全体の平均ではなく、ひずみの算出対象となる音声のフレームの近傍の一定時間における背景ノイズのパワースペクトルを用いることができる。背景ノイズの求め方としては、もしノイズ特性の計算対象となる区間が無発話区間であれば、平均パワーを用いることができるし、もしノイズ特性の計算対象となる区間が発話区間であれば、先に説明した背景ノイズの推定手法を用いることができる。このことにより、ヒトがすでに忘却している過去のノイズ情報の影響を無視した算出が可能となる。また、背景ノイズの量を注目するフレームに近い時間の音声をもとに算出するため、本発明における遠端音声のノイズパワー減算において、ヒトの聞き取りを妨げる正味のノイズに近い特性を用いることにつながる。

１１０・・・電話機、１１５・・・録音装置、１２０・・・電話回線網、１３０・・・携帯電話、１４０・・・ハンズフリー電話装置、１４５・・・録音再生装置、１５０・・・マイク、１６０・・・スピーカ、１７０・・・車室、１８０・・・HATS、１９０・・・再生装置、
２１０・・・発話区間検出部、２２０・・・時間ずれ補正部、２２５・・・レベル調整部、２３０・・・ノイズ特性算出部、２４０・・・重み付与部、２５０・・・音声ひずみ算出部、２６０・・・主観評価予測値算出部。

Claims

評価音声に対して主観評価値の予測値を出力する音質評価装置において、
評価音声の周波数特性を計算したのち、評価音声の周波数特性に対して所定の周波数特性である減算用特性を減算する処理を行い、減算処理後の周波数特性に基づいて音声ひずみ量を算出する音声ひずみ量算出部と、
前記音声ひずみ量に基づいて主観評価値の予測値を算出する主観評価予測値算出部とを備え、
前記音声ひずみ量算出部は、複数の減算用特性を用いて減算処理を行って、複数の音声ひずみ量を算出し、
前記主観評価予測値算出部は、前記複数の音声ひずみ量に基づいて１個ないし複数の主観評価値の予測値を算出することを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
評価の基準となる原音声を入力し、
前記音声ひずみ量算出部は、前記減算処理後の評価音声と、原音声との差分に基づいて音声ひずみ量を算出することを特徴とする音質評価装置。
請求項１または２に記載の音質評価装置において、
無発話区間における評価音声の周波数特性を求めるノイズ特性算出部を備え、
前記音声ひずみ量算出部は、無発話区間における評価音声の周波数特性を、減算処理において使用する減算用特性として用いることを特徴とする音質評価装置。
請求項１または２に記載の音質評価装置において、
発話区間での評価音声における背景雑音の周波数特性を求めるノイズ特性算出部を備え、
前記音声ひずみ量算出部は、発話区間での背景雑音の周波数特性を、減算処理において使用する減算用特性として用いることを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
基準となる減算用特性である周波数特性に、異なる重み係数を乗算することで複数の異なる減算用特性を生成する複数の重み付与部を備え、
前記音声ひずみ量算出部は、前記複数の重み付与部が出力した複数の減算用特性を用いて減算処理を行うことを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
前記主観評価予測値算出部は、
複数の音声ひずみ量を変数とする換算式を用いて、複数の主観評価値の予測値を算出することを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、音声のラウドネスの算出値に基づいて行ない、評価音声のラウドネスより所定の周波数特性のラウドネスが減算されるように計算することを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、評価音声の周波数−パワー特性から、ノイズの周波数−パワー特性を減算することを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、評価音声のＢａｒｋ尺度における周波数−パワー特性から、ノイズのＢａｒｋ尺度における周波数−パワー特性を減算することを特徴とする音質評価装置。
請求項１に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理において使用する周波数特性は、演算対象となる時刻の近傍の時間区間における評価音声の周波数特性であることを特徴とする音質評価装置。
請求項１乃至１０の何れか一つに記載の音質評価装置において、
評価音声は、電話機から発音される遠端音声であることを特徴とする音質評価装置。
コンピュータを、評価音声に対して主観評価値の予測値を出力する音質評価装置として機能させるためのプログラムであって、
コンピュータを、
評価音声の周波数特性を計算したのち、評価音声の周波数特性に対して所定の周波数特性である減算用特性を減算する処理を行い、減算処理後の周波数特性に基づいて音声ひずみ量を算出する音声ひずみ量算出部と、
前記音声ひずみ量に基づいて主観評価値の予測値を算出する主観評価予測値算出部として機能させ、
前記音声ひずみ量算出部は、複数の減算用特性を用いて減算処理を行って、複数の音声ひずみ量を算出し、
前記主観評価予測値算出部は、前記複数の音声ひずみ量に基づいて１個ないし複数の主観評価値の予測値を算出するものであるプログラム。