JP5606764B2 - 音質評価装置およびそのためのプログラム - Google Patents
音質評価装置およびそのためのプログラム Download PDFInfo
- Publication number
- JP5606764B2 JP5606764B2 JP2010080886A JP2010080886A JP5606764B2 JP 5606764 B2 JP5606764 B2 JP 5606764B2 JP 2010080886 A JP2010080886 A JP 2010080886A JP 2010080886 A JP2010080886 A JP 2010080886A JP 5606764 B2 JP5606764 B2 JP 5606764B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- evaluation
- frequency
- speech
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims description 52
- 238000000034 method Methods 0.000 claims description 128
- 238000011156 evaluation Methods 0.000 claims description 116
- 238000004364 calculation method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000009408 flooring Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000011410 subtraction method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
非特許文献1、非特許文献2には、評価用音声の原信号(以下、原音声)と、電話器で聞いた音声(以下、遠端音声)とを比較演算することにより、電話音質の主観評価予測値を予測する技術が開示されている。
非特許文献3には、原音声、遠端音声のほかに、話者側の電話器に入力された音声(以下、近端音声)を用いることによって、主観評価値の予測値を出力する技術が開示されている。この方法では、電話音声の音質とノイズの音質を別個に予測するために、音質の評点(SMOS)、ノイズの評点(NMOS)を算出し、さらに総合評点(GMOS)を算出する。音質の評点を計算する式では、近端音声-遠端音声間のノイズ量の減少幅を用いている。また、非特許文献3に引用されている非特許文献4には、主観評価値の予測に際して、音声の周波数帯域ごとのパワーだけではなく、2 msec単位でのパワーの時間変動を計算している。
特許文献1では、電話に発生するエコー音声の影響を主観評価値の予測に考慮するため、エコー音声の物理量を評価音声の物理量より減算する方法が開示されている。
ノイズが存在する電話音声では、音質の評点が低下することが知られている。しかし、一概にノイズがあると音質が低下するとは限らず、ノイズが存在している場合においても、音声の音質は良好に感じられる場合もある。本発明は、ノイズがあっても良い音質であると感じられるような場合にも対応できるような、主観評価値の予測手法を開発するために行われた。
非特許文献3で開示される技術では、近端音声-遠端音声間のノイズ量の減少幅を主観評価値に反映させる処理がなされているが、音声のノイズの影響を1つのスカラ量に集約させているため、各時刻それぞれにおけるノイズの影響は考慮されていなかった。また、非特許文献4で開示される技術では、2 msec単位の短時間でのパワー変動は考慮されるが、自動車走行時の走行ノイズのような長時間存在するノイズ音声に対する影響は考慮されていなかった。
特許文献1で開示される技術では、遠端音声の音声信号よりエコー音声信号の周波数特性を減算した後に、主観評価値予測を行う。しかし、遠端音声のそのものに含まれるノイズの影響を低減するためには、適用できるものではない。
また、上記引用した文献で予測対象とする項目は、音質に関しては「音質の善し悪し」という一項目に限定されていた。しかし、より高品質の電話音声を実現するためには、さまざまな観点からの音質評価がなされるべきである。よって、主観評価予測も、複数の主観評価項目に対応できることが望ましい。
本発明の音質評価装置において、評価の基準となる原音声を入力し、前記音声ひずみ量算出部は、前記減算処理後の評価音声と、原音声との差分に基づいて音声ひずみ量を算出するものでよい。
また、本発明の音質評価装置において、無発話区間における評価音声の周波数特性を求めるノイズ特性算出部を備え、前記音声ひずみ量算出部は、無発話区間における評価音声の周波数特性を、減算処理において使用する周波数特性として用いるものでよい。
また、本発明の音質評価装置において、発話区間における評価音声に含まれる背景雑音の周波数特性を求めるノイズ特性算出部を備え、前記音声ひずみ量算出部は、発話区間での背景雑音の周波数特性を、減算処理において使用する減算用特性として用いるものでよい。
また、本発明の音質評価装置において、基準となる減算用特性である周波数特性に、異なる重み係数を乗算することで複数の異なる減算用特性を生成する複数の重み付与部を備え、前記音声ひずみ量算出部は、前記複数の重み付与部が出力した複数の減算用特性を用いて減算処理を行うものでよい。
また、本発明の音質評価装置において、前記主観評価予測値算出部は、複数の音声ひずみ量を変数とする換算式を用いて、複数の主観評価値の予測値を算出するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、音声のラウドネスの算出値に基づいて行ない、評価音声のラウドネスより所定の周波数特性のラウドネスが減算されるように計算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、評価音声の周波数−パワー特性から、ノイズの周波数−パワー特性を減算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理は、評価音声のBark尺度における周波数−パワー特性から、ノイズのBark尺度における周波数−パワー特性を減算するものでよい。
また、本発明の音質評価装置において、前記音声ひずみ量算出部における減算処理において使用する周波数特性は、演算対象となる時刻の近傍の時間区間における評価音声の周波数特性でよい。
本発明の音質評価装置において、評価音声は、電話機から発音される遠端音声でよい。
なお、本実施の形態は、自動車で使用するハンズフリー電話における遠端音声の主観評価値予測に関して説明を行うが、本発明は、ハンズフリー電話装置や電話装置の音質評価に限られるものではない。
図1は、ハンズフリー電話の音質評価予測に際して、音声データを採取する構成を示している。
まず、座席にHATS180を設置する。HATS(Head and Torso Simulator)は、音声をヒトの***を模擬したスピーカから再生することにより、実際にヒトが発話したときの音響特性を模擬するものである。HATS180には、再生装置190を接続し、評価用の文言を記録した音声(原音声)を再生する。
携帯電話130と電話器110は、電話回線網120を通じて音声の授受を行う。
録音装置115は、電話器110に送られた音声(遠端音声)の録音を行う。
まず、再生装置190より原音声を再生して、HATS180より再生する。この音声は、マイク150、ハンズフリー電話装置140、携帯電話130、電話回線網120、電話器110に送られ、遠端音声を録音装置115によって録音する。後ほど説明する主観評価予測では、原音声と遠端音声を利用する。
また、評価用音声の録音は停車中の静かな環境で行い、別途採取した走行ノイズを加算した音声をハンズフリー電話装置140に入力することによって、走行中の音声環境を模擬することも可能である。この方法では、まず走行中において、録音再生装置145により、マイク150に入力される走行ノイズのみを録音する。つぎに、停車中において、HATS180から再生した評価用音声を、録音再生装置145によって録音を行う。最後に、先に録音したノイズと評価用音声を重畳した音声を録音再生装置145より再生し、ハンズフリー電話装置140に入力する。これにより、走行中の音声を模擬することができる。
ここで、ハンズフリー電話装置140に入力される音声を、近端音声と呼ぶ。近端音声は、先に説明した通り、HATSから再生した原音声をマイク150から入力したものを用いてもよいし、録音再生装置145から再生した音声を用いても良い。
(前処理部)
図2に、原音声、および評価音声である遠端音声を入力し、主観評価値の予測値を出力する音質評価装置のブロック図を示す。音質評価装置は、発話区間検出部210、時間ずれ補正部220、レベル調整部225、ノイズ特性算出部230、重み付与部240から成る前処理部、音声ひずみ算出部250、主観評価予測値算出部260から構成されている。なお、これらの音質評価装置の構成は、コンピューターやデジタルシグナルプロセッサにそのためのプログラムを組み込むことにより実現される。
原音声、遠端音声は、それぞれ、デジタル信号として入力されるものとする。デジタル信号のフォーマットとしては、サンプリング周波数16kHz、量子化ビット数16bit、無圧縮の信号を仮定する。また、以降の処理では、音声データの分析のための一かたまり(以降、フレーム)ごとの演算を行う。この1フレームに含まれるサンプル数(以降、フレーム長)を512点とし、1つのフレームに引き続くフレームの間隔(以降、フレーム間隔)をサンプル数で256点と仮定する。
ITU-T Recommendation P.56: “Objective measurement of active speech level”
この結果、発話区間のブロックが1個ないし複数個特定される。
第1の段階では、原音声の各サンプル値のパワー、遠端音声の各サンプル値のパワーを計算し、両音声のパワーの間の相互相関関数を計算する。パワーは、各サンプル値を2乗することで算出される。この相互相関関数が最大値となる時間ずれ量を求め、この時間ずれ量だけ、原音声または遠端音声の波形を移動させる。ここでは、遠端音声の波形は固定し、原音声の波形だけを移動させるものとする。
第2の段階では、原音声に対して求められた発話区間のブロックごとに処理を行う。発話区間のそれぞれのブロックごとに、前後に所定の無音区間を付け加えたブロックを作成する。つぎに、原音声の発話区間のブロックごとに、その発話区間に対応する遠端音声との相互相関関数を計算し、最大となる時間ずれ量を求める。求められた時間ずれ量に従い、原音声の各ブロックの時刻を移動させる。
この時間ずれ補正の方法は、非特許文献1に記載に詳しく記載されている。
まず、原音声と遠端音声の発話区間におけるパワーは、発話区間検出部220から得られた発話区間における各サンプル値を2乗し、これを発話区間のサンプル数により平均することにより求められる。つぎに、別途定められた音声の平均パワーの目標値に合わせるような係数を計算する。音声の平均パワーの目標値としては、非特許文献2に記載の値に従い、78 dB SPLとし、また、この値がデジタルデータ上では、-26 dB ovに相当すると仮定する。[dB ov]とは、デジタルデータのダイナミックレンジいっぱいの矩形波の平均パワーにおいて0 dBとなるように換算したデシベル値である。計算された係数を、原音声、遠端音声それぞれの全区間のサンプル値に対して乗算する。
レベル調整の方法にはいくつかの代案も考えられる。非特許文献1の方法を用いると、あらかじめ300Hz以上の帯域に絞った両音声波形に対して、全区間での平均パワーが目標値になるように行われる。このような別手法でもよい。
まず、無発話区間の情報に基づいてノイズの周波数特性を算出する方法を説明する。最初に、発話区間検出部210より出力された発話区間情報を元に、無発話区間を特定する。無発話区間において、各時刻における周波数-パワー特性(パワースペクトル)を計算する。周波数-パワー特性の計算方法は公知であるが、以下に簡単に説明する。
第1に、無発話区間の1フレーム分の音声サンプル512点を用い、これにHanning窓をかけたのち、高速フーリエ変換を行う。これにより、512点のフーリエ変換後のデータが得られる。i番目のフレームのサンプル値をフーリエ変換した結果において、k番目のデータをYi[k]とすると、パワースペクトルPyi[k]は以下の式で計算される。
つぎに、無発話区間における周波数-パワー特性を平均する。これは、式(1)にしたがって無発話区間の各フレームにおけるパワースペクトルを計算し、これを無発話区間のフレーム数で平均する。式に表すと以下の通りとなる。
B.C.J. Moore, B.R. Glasberg: ``Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," Journal of the Acoustical Society of America, vol.74, no.3, pp.750-753, 1983
Ef[k]、El[k]を求めるには、まず、周波数bin番号kに対応する周波数を算出し、つぎに、その周波数に対応する等価矩形帯域幅を計算する。つぎに、周波数bin番号kに対応する周波数から等価矩形帯域幅の半分だけ低い周波数に対応する周波数bin番号をEf[k]とし、周波数bin番号kに対応する周波数から等価矩形帯域幅の半分だけ高い周波数に対応する周波数bin番号をEl[k]として用いる。もちろん、臨界帯域フィルタの幅はここで説明した方法に限られず、別の方法で求められた臨界帯域フィルタの幅を用いても良い。また、臨界帯域のなかでパワーを加算するとき、それぞれの周波数に応じて重みを変えてもよい。
また、このPN[k]を求める際に、上記で説明した臨界帯域フィルタの幅のなかでのパワーの加算を用いてもよい。
また、後ほど使用するノイズ特性は、遠端音声から求めなくとも、別途使用できるノイズ特性がある場合には、そのノイズ特性を音質評価装置にデータとして入力し、ノイズ特性算出部230の出力値とみなして使用することでもよい。
重み付与部の個数をNwと表すこととする。1、 2、 ・・・、Nw番目のそれぞれの重みをα1、α2、・・・、αNwと表すこととする。この場合、i番目の重み付与部が出力するノイズ特性PNA[i,k]は、以下の式で計算される。
音声ひずみ算出部250は、原音声、遠端音声、ノイズ特性を用いて、音声ひずみ量を算出する。音声ひずみ算出部250は、重み付与部240の個数に対応する分だけ用意される。
301では、原音声の各フレームの音声サンプル値から、周波数-パワー特性を算出する。
計算式において説明すると、i番目のフレームに対する原音声のフーリエ変換の結果をXi[k]、遠端音声のフーリエ変換の結果をYi[k]とおくと、原音声のパワーPxi[k]、遠端音声のパワーPyi[k]は以下の式で算出される。
式において説明する。減算処理後の遠端音声の周波数-パワー特性Pysi[k](i:フレーム番号、k:周波数bin番号)は、以下の式で算出される。
なお、Pysi[k]を計算するための式として(7)式と(8)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(7)式の右辺と(8)式の右辺の値を比較し、大きかった値をPysi[k]として使用する方法もある。
式において説明する。まず、発話区間における原音声、遠端音声それぞれのパワーの平均値Tx、Tyを以下の式で計算する。
つぎに、それぞれの音声の平均パワーの目標値を定める。この目標値は、音声サンプルの所定の値が相当する音圧に基づき、決められるものである。ここでは、非特許文献2の値に従い、発話区間での音圧レベルの目標値を78 dB SPLとし、かつこの音圧は音声データ上では-26 dB ovに相当する想定とする。原音声、遠端音声ともに、発話区間における音圧レベルが-26 dB ovになるようにするものとする。
この-26 dB ovに相当するパワーをTrefとおく。つぎに、原音声、遠端音声ともに、発話区間の平均パワーがTrefとなるような正規化処理を行う。正規化後の原音声、遠端音声の周波数-パワー特性をそれぞれPx’i[k]、Pys’i[k]で表す。Px’i[k]、Pys’i[k]は、以下の式で求められる。
また、ここで求められた周波数-パワー特性は、フレーム番号iを行、周波数帯域番号jを列に見立てた二次元表としてとらえることができる。そこで、Pbxi[j]、Pbysi[j]のそれぞれの要素を、セルと呼ぶこととする。
J.G. Beerends、 J.A. Stemerdink: ``A perceptual audio quality measure based on a psychoacoustic sound representation” Journal of the Audio Engineering Society、 vol.40、 no.12、 pp.963-978、 1992
この処理は、ヒトの聴覚で発生する時間方向、周波数方向のマスキング特性を考慮するために行われる。時間方向の平滑化では、あるセルにパワーが存在した場合、そのパワーに所定の係数を掛けた値を後続のフレームのセルに加算する処理を行う。また、周波数方向の平滑化では、ある周波数帯域のセルにパワーが存在する場合、そのパワーに所定の係数を掛けた値を近傍の周波数帯域のセルに加算する処理を行う。
また、306、 307の処理を経て変更された原音声、遠端音声それぞれの周波数-パワー特性を、Pbx’i[j]、Pbys’i[j](i:フレーム番号、j:周波数帯域番号)と表すこととする。
主観評価予測値算出部260は、1個ないし複数の音声ひずみ算出部250が出力した音声ひずみ量を用いて、1個ないし複数の主観評価項目に対応する主観評価値の予測値を算出する。
まず、主観評価項目に関して解説を行う。電話音声の音質は、総合的な音質の良し悪しだけではなく、複数の観点から評価することが可能である。電話音質の主観評価方法を記載した非特許文献5を参照すると、以下のような複数の主観評価項目が挙げられている。
・音質(Listening-quality scale)
・聞き取りのための努力(Listening-effort scale)
・音の大きさ(Loudness-preference scale)
・ノイズによる妨げ(Noise disturbance)
・音の時間的変動による妨げ(Fade disturbance)
これらそれぞれの項目を評価する際、評価者は、それぞれの項目で異なる音声の側面に着目して評価していると考えられる。これまで説明した本発明の実施形態では、遠端音声の背景ノイズの影響を低減させることにより、よりヒトの感覚と近い音声ひずみ量を得ることを説明した。しかし、評価項目が異なると、ノイズの影響の程度も異なると考えられる。よって、それぞれの評価項目に適するノイズの低減量は異なると考えられる。
また、ある評価項目の主観評価値を予測する際、1個の量だけでなく、複数の異なる量を組み合わせて予測することによって、よりヒトの主観評価値に近い値を算出することができる。
そこで、異なるノイズ低減量によって複数の音声ひずみ量を算出し、これを複数の主観評価項目に対応させることとする。また、2個以上の音声ひずみを組み合わせて使用して、ある主観評価値を求めることも行う。
以降、1個のひずみ量または複数個のひずみ量の組み合わせによって、複数の主観評価項目の予測値を算出する方法を説明する。
i番目の主観評価値Uiは、以下の式で計算するものとする。
なお、ここでは2次式により主観評価値を得るものとしたが、より高次の多項式、対数関数、指数関数などの他の関数を用いてもよい。
以上の計算により、複数の主観評価項目に対応する主観評価予測値を得ることができる。
図4は、減算処理をBark尺度に換算した後の周波数-パワー特性をもとに行う方法を図示している。この方法による音声ひずみ量の算出方法を説明する。
処理の最初は、図3の301、302と同一であるため、説明を省略する。
403では、遠端音声のBark尺度における周波数-パワー特性から、402で計算したノイズのBark尺度における周波数-パワー特性を減算する。減算処理後の遠端音声の周波数-パワー特性Pbysi[k](i:フレーム番号、k:周波数帯域番号)は、以下の式で計算される。
なお、Pbysi[k]を計算する式として(23)式と(24)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(23)式の右辺と(24)式の右辺の値を比較し、大きかった値をPbysi[k]として使用する方法もある。
403の後には、図3の306に戻り、処理をつづける。
図5は、遠端音声の周波数-パワー特性の減算処理において、ラウドネス尺度を考慮した計算方法によって行う場合における音声ひずみ量の算出方法である。
502は、遠端音声の各フレームの周波数-パワー特性を計算する。この方法は、302と同一である。
J.P.A. Lochner、 J.F. Burger: ``Form of the loudness function in the presence of masking noise、" Journal of the Acoustical Society of America、 vol.33、 no.12、 pp.1705-1707 (1961)
この文献によれば、ある周波数帯域におけるノイズのパワーIe、その周波数帯域の聴覚閾値を決定する生理学上のノイズのパワーIp、その周波数の純音のパワーI、純音に対してヒトが知覚するラウドネスΨとの間には、以下の式が成立する。
この式に則り、フレームi番目、周波数帯域j番目に対応する原音声のラウドネス密度Lxi[j]を以下のように計算する。
なお、Lyi[j]を計算するための式として(27)式と(28)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(27)式の右辺と(28)式の右辺の値を比較し、大きかった値をLyi[j]として使用する方法もある。
また、(28)式の代わりに、(29)式を用いてもよい。
以降、得られた音声ひずみ量より主観評価予測値を出力する方法はすでに説明したため、説明を省略する。
なお、506、507で行った原音声、遠端音声のラウドネス密度の計算は、別の方法でも行うことができる。聴覚心理学の知見から、背景雑音が存在する場合の音の絶対閾値は、その音の周波数を含む臨界帯域フィルタのなかに存在する背景雑音のパワーだけ上昇することが知られている。まず、506の原音声のラウドネス密度Lxi[j]の計算は、(15)式によって行う。つぎに、507の遠端音声のラウドネス密度Lyi[j]は、以下の式で計算する。
303での演算は、減算処理後の遠端音声のパワーPysi[k](i:フレーム番号、k:周波数bin番号)は、式(7)によって計算していた。ここでは、これをLochnerらのラウドネスの式に則り、以下の式が成り立つようにPysi[k]を計算することに改める。
なお、Pysi[k]を計算するための式として(32)式と(8)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(32)式の右辺と(8)式の右辺の値を比較し、大きかった値をPysi[k]として使用する方法もある。
なお、以上で説明した各処理は、それぞれを組み合わせても、実施することが可能である。たとえば、上記では、303において、ノイズによるラウドネスの低減が起こったときと等価なパワーを、Lochnerのラウドネス計算式にのっとった(31)式、(32)式により計算した。この方法を、(30)式のラウドネス計算式にのっとった方法で計算することに変更してもよい。具体的には、最初に、(30)式でノイズ影響下でのラウドネスLyi[j]を計算する。つぎに、(16)式により、求められたLyi[j]となるときの遠端音声のパワーPbys’i[j]を計算する。このPbys’i[j]を遠端音声のパワーとして、304の処理へと進む。さきほど説明した304の処理では、原音声、遠端音声のパワーは周波数binごとに求められていたのに対し、この変形では、遠端音声のパワーはBark尺度での帯域ごとに求められている。そのため、304での正規化処理は、原音声のパワーをBark尺度での周波数-パワー特性に変換した上で行う方法、遠端音声のパワーを周波数binごとの値に換算した上で行う方法、などで実施できる。
ノイズ特性を遠端音声から減算する処理は、周波数-パワー特性を基準とする方法だけでなく、ラウドネス密度を基準とする方法も考えられる。この場合の方法を、図6のフローチャートにしたがって説明する。
処理の最初は、図5の501〜505と同一であるため、説明を省略する。
なお、Ly’i[j]を計算するための式として(36)式と(37)式からどちらかを選択する基準は、上記以外の基準を取ることもできる。たとえば、(36)式の右辺と(37)式の右辺の値を比較し、大きかった値をLy’i[j]として使用する方法もある。
以降の処理は、これまで説明したものと同等であるため、説明を省略する。
以上、本実施形態で説明したように、電話音声の音質評価において、背景ノイズの物理を音声の物理量より低減する処理を入れることにより、ノイズ環境下においてヒト聴覚で聞き取られる音声の特性を模擬することができる。これにより、ノイズ環境下での高精度な音質評価予測が可能となる。
また、複数のノイズ低減処理を併用することにより、複数の主観評価項目に対応する予測値を得ることができる。
本実施例では説明しなかったが、図2の音質評価装置に入力する原音声、劣化音声には、電話帯域の周波数フィルタによって帯域を制限した音声データを入力してもよい。このようなフィルタの係数は、非特許文献2に記載のIRSフィルタリングの係数を利用できる。
また、ノイズ特性の計算方法では、本実施例では、臨界帯域フィルタを考慮する方法も説明した。臨界帯域フィルタを考慮した特性計算は、ノイズ特性だけでなく、遠端音声や原音声に適用してもよい。
また、フロアリング係数は、本実施例では一定値を用いたが、主観評価項目ごとに変えてもよいし、周波数帯域ごとに変えてもよい。
また、ノイズ特性に乗算する重みは、1個の重み付与部に対して1個の値を用いたが、周波数ごと、時刻ごとに異なる値を用いてもよい。
210・・・発話区間検出部、220・・・時間ずれ補正部、225・・・レベル調整部、230・・・ノイズ特性算出部、240・・・重み付与部、250・・・音声ひずみ算出部、260・・・主観評価予測値算出部。
Claims (12)
- 評価音声に対して主観評価値の予測値を出力する音質評価装置において、
評価音声の周波数特性を計算したのち、評価音声の周波数特性に対して所定の周波数特性である減算用特性を減算する処理を行い、減算処理後の周波数特性に基づいて音声ひずみ量を算出する音声ひずみ量算出部と、
前記音声ひずみ量に基づいて主観評価値の予測値を算出する主観評価予測値算出部とを備え、
前記音声ひずみ量算出部は、複数の減算用特性を用いて減算処理を行って、複数の音声ひずみ量を算出し、
前記主観評価予測値算出部は、前記複数の音声ひずみ量に基づいて1個ないし複数の主観評価値の予測値を算出することを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
評価の基準となる原音声を入力し、
前記音声ひずみ量算出部は、前記減算処理後の評価音声と、原音声との差分に基づいて音声ひずみ量を算出することを特徴とする音質評価装置。 - 請求項1または2に記載の音質評価装置において、
無発話区間における評価音声の周波数特性を求めるノイズ特性算出部を備え、
前記音声ひずみ量算出部は、無発話区間における評価音声の周波数特性を、減算処理において使用する減算用特性として用いることを特徴とする音質評価装置。 - 請求項1または2に記載の音質評価装置において、
発話区間での評価音声における背景雑音の周波数特性を求めるノイズ特性算出部を備え、
前記音声ひずみ量算出部は、発話区間での背景雑音の周波数特性を、減算処理において使用する減算用特性として用いることを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
基準となる減算用特性である周波数特性に、異なる重み係数を乗算することで複数の異なる減算用特性を生成する複数の重み付与部を備え、
前記音声ひずみ量算出部は、前記複数の重み付与部が出力した複数の減算用特性を用いて減算処理を行うことを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
前記主観評価予測値算出部は、
複数の音声ひずみ量を変数とする換算式を用いて、複数の主観評価値の予測値を算出することを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、音声のラウドネスの算出値に基づいて行ない、評価音声のラウドネスより所定の周波数特性のラウドネスが減算されるように計算することを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、評価音声の周波数−パワー特性から、ノイズの周波数−パワー特性を減算することを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理は、評価音声のBark尺度における周波数−パワー特性から、ノイズのBark尺度における周波数−パワー特性を減算することを特徴とする音質評価装置。 - 請求項1に記載の音質評価装置において、
前記音声ひずみ量算出部における減算処理において使用する周波数特性は、演算対象となる時刻の近傍の時間区間における評価音声の周波数特性であることを特徴とする音質評価装置。 - 請求項1乃至10の何れか一つに記載の音質評価装置において、
評価音声は、電話機から発音される遠端音声であることを特徴とする音質評価装置。 - コンピュータを、評価音声に対して主観評価値の予測値を出力する音質評価装置として機能させるためのプログラムであって、
コンピュータを、
評価音声の周波数特性を計算したのち、評価音声の周波数特性に対して所定の周波数特性である減算用特性を減算する処理を行い、減算処理後の周波数特性に基づいて音声ひずみ量を算出する音声ひずみ量算出部と、
前記音声ひずみ量に基づいて主観評価値の予測値を算出する主観評価予測値算出部として機能させ、
前記音声ひずみ量算出部は、複数の減算用特性を用いて減算処理を行って、複数の音声ひずみ量を算出し、
前記主観評価予測値算出部は、前記複数の音声ひずみ量に基づいて1個ないし複数の主観評価値の予測値を算出するものであるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010080886A JP5606764B2 (ja) | 2010-03-31 | 2010-03-31 | 音質評価装置およびそのためのプログラム |
US13/025,970 US9031837B2 (en) | 2010-03-31 | 2011-02-11 | Speech quality evaluation system and storage medium readable by computer therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010080886A JP5606764B2 (ja) | 2010-03-31 | 2010-03-31 | 音質評価装置およびそのためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011215211A JP2011215211A (ja) | 2011-10-27 |
JP5606764B2 true JP5606764B2 (ja) | 2014-10-15 |
Family
ID=44710675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010080886A Active JP5606764B2 (ja) | 2010-03-31 | 2010-03-31 | 音質評価装置およびそのためのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9031837B2 (ja) |
JP (1) | JP5606764B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8599704B2 (en) * | 2007-01-23 | 2013-12-03 | Microsoft Corporation | Assessing gateway quality using audio systems |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
EP2595146A1 (en) * | 2011-11-17 | 2013-05-22 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
EP2595145A1 (en) * | 2011-11-17 | 2013-05-22 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
US9830905B2 (en) | 2013-06-26 | 2017-11-28 | Qualcomm Incorporated | Systems and methods for feature extraction |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
WO2017072958A1 (ja) * | 2015-10-30 | 2017-05-04 | 三菱電機株式会社 | ハンズフリー制御装置 |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
US11176839B2 (en) | 2017-01-10 | 2021-11-16 | Michael Moore | Presentation recording evaluation and assessment system and method |
WO2018164304A1 (ko) * | 2017-03-10 | 2018-09-13 | 삼성전자 주식회사 | 잡음 환경의 통화 품질을 개선하는 방법 및 장치 |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
US11924368B2 (en) * | 2019-05-07 | 2024-03-05 | Nippon Telegraph And Telephone Corporation | Data correction apparatus, data correction method, and program |
CN112449355B (zh) * | 2019-08-28 | 2022-08-23 | ***通信集团浙江有限公司 | 频率重耕质量评估方法、装置及计算设备 |
JP2022082049A (ja) * | 2020-11-20 | 2022-06-01 | パナソニックIpマネジメント株式会社 | 発話評価方法および発話評価装置 |
CN113008572B (zh) * | 2021-02-22 | 2023-03-14 | 东风汽车股份有限公司 | 用于评价n类汽车车内噪声的响度面积图生成***和方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9201236L (sv) * | 1992-04-21 | 1993-04-26 | Televerket | Anordning vid mobila telesystem foer att moejliggoera jaemfoerelser av subjektiv samtalskvalite |
JPH10505718A (ja) * | 1994-08-18 | 1998-06-02 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | オーディオ品質の解析 |
ATE293333T1 (de) | 1998-10-08 | 2005-04-15 | British Telecomm | Messung der qualität von sprachsignalen |
US6577996B1 (en) * | 1998-12-08 | 2003-06-10 | Cisco Technology, Inc. | Method and apparatus for objective sound quality measurement using statistical and temporal distribution parameters |
DE60034212T2 (de) * | 1999-01-07 | 2008-01-17 | Tellabs Operations, Inc., Naperville | Verfahren und vorrichtung zur adaptiven rauschunterdrückung |
US6490552B1 (en) * | 1999-10-06 | 2002-12-03 | National Semiconductor Corporation | Methods and apparatus for silence quality measurement |
US6609092B1 (en) * | 1999-12-16 | 2003-08-19 | Lucent Technologies Inc. | Method and apparatus for estimating subjective audio signal quality from objective distortion measures |
NL1014075C2 (nl) | 2000-01-13 | 2001-07-16 | Koninkl Kpn Nv | Methode en inrichting voor het bepalen van de kwaliteit van een signaal. |
DE60029453T2 (de) * | 2000-11-09 | 2007-04-12 | Koninklijke Kpn N.V. | Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz |
JP3676244B2 (ja) * | 2001-02-02 | 2005-07-27 | 三菱電機株式会社 | 携帯機端末、および携帯機端末の音響試験用周辺装置 |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
EP1465156A1 (en) | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
US7881927B1 (en) * | 2003-09-26 | 2011-02-01 | Plantronics, Inc. | Adaptive sidetone and adaptive voice activity detect (VAD) threshold for speech processing |
PT1792304E (pt) * | 2004-09-20 | 2008-12-04 | Tno | Compensação de frequência para análise de percepção de voz |
JP4341586B2 (ja) * | 2005-06-08 | 2009-10-07 | Kddi株式会社 | 通話品質の客観評価サーバ、方法及びプログラム |
JP4965891B2 (ja) * | 2006-04-25 | 2012-07-04 | キヤノン株式会社 | 信号処理装置およびその方法 |
JP4745916B2 (ja) * | 2006-06-07 | 2011-08-10 | 日本電信電話株式会社 | 雑音抑圧音声品質推定装置、方法およびプログラム |
EP1975924A1 (en) | 2007-03-29 | 2008-10-01 | Koninklijke KPN N.V. | Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system |
KR20080111290A (ko) * | 2007-06-18 | 2008-12-23 | 삼성전자주식회사 | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 |
US20090061843A1 (en) * | 2007-08-28 | 2009-03-05 | Topaltzas Dimitrios M | System and Method for Measuring the Speech Quality of Telephone Devices in the Presence of Noise |
-
2010
- 2010-03-31 JP JP2010080886A patent/JP5606764B2/ja active Active
-
2011
- 2011-02-11 US US13/025,970 patent/US9031837B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9031837B2 (en) | 2015-05-12 |
US20110246192A1 (en) | 2011-10-06 |
JP2011215211A (ja) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5606764B2 (ja) | 音質評価装置およびそのためのプログラム | |
Falk et al. | Modulation spectral features for robust far-field speaker identification | |
Ma et al. | Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
KR101148671B1 (ko) | 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템 | |
JP2011523086A (ja) | ダイナミックサウンド提供システム及び方法 | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
KR20210110622A (ko) | 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법 | |
US8566082B2 (en) | Method and system for the integral and diagnostic assessment of listening speech quality | |
US20080267425A1 (en) | Method of Measuring Annoyance Caused by Noise in an Audio Signal | |
Beerends et al. | Subjective and objective assessment of full bandwidth speech quality | |
US20240221769A1 (en) | Voice optimization in noisy environments | |
US20090161882A1 (en) | Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence | |
JP2005531990A (ja) | 音声品質を評価する方法 | |
Chanda et al. | Speech intelligibility enhancement using tunable equalization filter | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
Fuglsig et al. | Minimum processing near-end listening enhancement | |
Vaziri et al. | Evaluating noise suppression methods for recovering the Lombard speech from vocal output in an external noise field | |
Schmidt et al. | Evaluation of in-car communication systems | |
JP6232710B2 (ja) | 録音音声の明瞭化装置 | |
JP2011141540A (ja) | 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 | |
Cordourier Maruri et al. | V-speech: Noise-robust speech capturing glasses using vibration sensors | |
Voran | Estimation of speech intelligibility and quality | |
Yeung | Improving the intelligibility of synthetic speech over the telephone and in noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5606764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |