JP2005164870A - 帯域制限を考慮した音声品質客観評価装置 - Google Patents

帯域制限を考慮した音声品質客観評価装置 Download PDF

Info

Publication number
JP2005164870A
JP2005164870A JP2003402349A JP2003402349A JP2005164870A JP 2005164870 A JP2005164870 A JP 2005164870A JP 2003402349 A JP2003402349 A JP 2003402349A JP 2003402349 A JP2003402349 A JP 2003402349A JP 2005164870 A JP2005164870 A JP 2005164870A
Authority
JP
Japan
Prior art keywords
band
objective evaluation
signal
evaluation value
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003402349A
Other languages
English (en)
Other versions
JP4309749B2 (ja
Inventor
Chiharu Morioka
千晴 森岡
Rei Takahashi
玲 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003402349A priority Critical patent/JP4309749B2/ja
Publication of JP2005164870A publication Critical patent/JP2005164870A/ja
Application granted granted Critical
Publication of JP4309749B2 publication Critical patent/JP4309749B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】ある信号周波数帯域成分の音声が時間的に全て切れていてもそれを歪とは感じないという人間の聴覚心理特性を考慮した客観評価値を得ることができる。
【解決手段】評価に用いる音声信号を蓄える音声データベース部、評価対象系の出力音声信号をサンプリング周波数に応じて帯域分割する帯域分割部、帯域別に信号パワーを計算する帯域別パワー計算部、帯域別信号パワーをもとに評価対象帯域を決定する評価対象帯域決定部、評価対象系の入力、出力音声信号を評価対象帯域に帯域制限する帯域制限部、帯域制限された評価対象系の入力、出力音声信号の比較から一次的な客観評価値を算出する客観評価値計算部、最終客観評価値を出力するための補正値を蓄えた補正値データベース部、補正値と一次的な客観評価値から最終客観評価値を出力する補正部を備え、音声信号の物理的特徴量の測定結果から客観的音声品質を推定する。
【選択図】図1

Description

本発明は、人間が音声を聴いてその品質を評価する主観評価試験を行うことなく、音声信号の物理的特徴量の測定から主観品質を推定する音声品質客観評価装置に関する。
従来の音声品質客観評価装置では、符号化などの音声信号処理機能を持つ端末、または端末とネットワークで構成される評価対象系(被試験システム)への入力信号と評価対象系からの出力信号の信号周波数帯域が同じ音声信号を対象として、音声品質客観評価アルゴリズム(例えば、ITU−T勧告P.862)に基づいて両者の差分を歪として物理量を計算し、客観評価値を算出する。
PESQ(Perceptual Evaluation of Speech Quality:音声品質の知覚的評価)は、狭帯域電話網および音声符号化器のエンド対エンド音声品質の客観評価法として2001年5月にITU−T勧告P.862として承認された。
図3を参照してPESQ処理の手順を説明する。
(1)知覚モデルで解析される前の信号は、レベル合わせ処理(参照信号(評価の対象となる音声)と被試験信号(参照信号を被試験システムに入力し、その出力信号)は、同一の一定のパワーにレベルが合わされる。)、時間合わせ処理(参照信号と時間が合うよう、被試験信号の時間がシフトされる。)が施される。
(2)知覚モデル処理では、参照信号と被試験信号を、人間の知覚の仕方に対応する内部表現に変換する。このモデルでは、時間−周波数マッピングし、修正バークスケールを用いた周波数ワーピングし(人間の知覚に周波数のスケールの仕方を合わせる)、圧縮的ラウドネススケーリングを行い、人間の音強感度を反映するように非線型にワーピング(変形)する。
知覚モデル処理によって、参照信号と被試験信号の内部表現が作られる。すなわち、この処理の出力は、人間の知覚の特性を反映した参照信号と、被試験信号の時間−周波数表現である。
(3)認知モデル処理は、2つの型の平均ノイズ歪値を計算するために行われる。この2つの平均歪値は、最終的に結合されて、MOS(mean opinion score)スコアを予測するのに使われる。認知モデル処理では、(a)それぞれの時間−周波数セルにおいて、参照信号と被試験信号の差が計算され、(b)それぞれのセル内で、歪レベルに対して、閾値によるソートが行われ、強い信号があったときその影響で知覚されないような小さな歪の影響がマスクされ、(c)正と負の変動に対して異なった重み付けをするスケーリングファクターを用いて、非対称な変動が計算され、(d)正常の(非対称でない)変動と、非対称変動はフレーム帯域全てについて、計算され、積算され、フレーム変動とされ、(e)遅延が変化するときの小さなフレーム変動は誤った悪いスコアを出さないためにキャンセルされ、(f)閾値を越えた一連のフレームの時間乱れに対して時間合わせ処理が行われ、(g)フレームの変動の値と非対称フレーム変動の値は、低い値から順に時間経過に従って集められる。MOSの予測スコアは、平均の変動の値と、平均の非対称な変動の値との線形結合として計算される。
最近ではスケーラブル符号化など出力信号の信号周波数帯域を制限することによりビットレートを下げる符号化方式が開発されており、入力信号と出力信号の信号周波数帯域が同じとは限らない。人間の主観はある信号周波数帯域成分の音が時間的に存在したり切れたりするとそれを歪と感じるが、全て切れている場合はこもり感を感じることはあっても歪とは感じない。そのため、短時間に信号周波数帯域成分が存在したり切れたりしている音声信号の方が、全て切れている音声信号よりも品質を低く感じる。
従来の音声品質客観評価装置では、入力信号と出力信号の差分を歪として計算するため、ある信号周波数帯域成分が存在したり切れたりする信号よりも、全て切れている信号の方が歪が大きいということになり、人間の主観と合わない評価結果となる。
本発明の目的は、評価対象系における出力音声信号の帯域制限を考慮して、入力音声信号と比較して定常的に信号周波数帯域が制限されている出力音声信号の人間の主観に合った客観評価を可能とすることにある。
本発明においては、評価対象系の出力音声信号の周波数特性から評価対象とする信号周波数帯域を決定し、音声品質客観評価アルゴリズムで評価対象とする信号周波数帯域について客観評価を行う。
帯域制限された信号と帯域制限されていない信号では、信号周波数帯域が異なるためこもり感が異なり、歪量が同じでも品質が同じとは限らない。そのため、帯域制限による品質への影響を予め補正値として求めておき、音声品質客観評価アルゴリズムから出力された客観評価値に補正値を適用する。
(作用)
本発明では、評価対象系から出力された音声信号の信号周波数帯域制限を考慮して客観評価および客観評価値の補正を行うため、評価対象系への入力音声信号と比較して定常的に信号周波数帯域が制限されている評価対象系からの出力音声信号に対して人間の主観に合った客観評価を可能にすることができる。
本発明の音声品質客観評価装置によれば、評価対象系への入力音声信号と比較して定常的に信号周波数帯域が制限されている評価対象系からの出力音声信号に対して、ある信号周波数帯域成分の音が時間的に全て切れていてもそれを歪とは感じないという人間の聴覚心理特性を考慮した客観評価値を得ることができる。
(実施例1)
本発明の実施例1の音声品質客観評価装置のブロック構成図を図1に示す。
音声品質客観評価装置は、評価に用いる音声信号を蓄える音声データベース部11、評価対象系(被試験システム)からディジタル信号として出力された出力音声信号をサンプリング周波数に応じて帯域分割する帯域分割部12、帯域分割部12により得られる各帯域の信号について、1フレームずつ信号パワーを計算した値が設定された所定の閾値より大きいフレーム数と全フレーム数をカウントする帯域別パワー計算部13、帯域別パワー計算部13でカウントされた信号パワーが閾値よりも大きいフレーム数と全フレーム数の比が設定された所定の閾値より大きい帯域のうち、最も周波数が高い帯域を評価対象帯域と決定する評価対象帯域決定部14、評価対象系への入力音声信号と評価対象系からの出力音声信号をそれぞれ評価対象帯域に帯域制限する帯域制限部15、帯域制限部15より得られる帯域制限された入力音声信号と出力音声信号の比較から一次的な客観評価値を算出する客観評価値計算部16、評価対象帯域決定部14により得られる評価対象帯域と客観評価値計算部16から得られる一次的な客観評価値から補正値データベース部18を参照することにより補正値を決定し、これを一次的な客観評価値に適用することにより最終客観評価値を出力する補正部17を備える。
客観評価値計算部16では、例えば音声品質客観評価アルゴリズムであるITU−T勧告p.862(スピーチ品質の知覚評価−狭帯域電話網およびスピーチ符号化器のエンド対エンドスピーチ品質の客観評価法)を用いて一次的な客観評価値を算出する。
補正値データベース部18には、評価対象帯域に対応して一次的な客観評価値を最終客観評価値に変換する変換式を備える、あるいは評価対象帯域と一次的な客観評価値の組み合わせに対応した最終客観評価値をテーブルとして保持する。この関係は、評価対象帯域の帯域制限した音声信号について予め主観評価実験を行い、評価対象帯域毎に求めた各音声信号の一次的な客観評価値と主観評価値との関係を主観評価値と最終客観評価値との関係とすることによって得られる。
(実施例2)
本発明の実施例2の音声品質客観評価装置のブロック構成図を図2に示す。
本実施例では、客観評価値計算部26は複数の音声品質客観評価アルゴリズム(例えば、PSQM(Perceptual Speech Quality Measurement),PAMS(Perceptual Analysis Measurement System),PESQ(Perceptual Evaluation of Speech Quality))を備えており、評価対象帯域決定部24により得られる評価対象帯域から客観評価アルゴリズムデータベース29を参照することにより実行する音声品質客観評価アルゴリズム名を決定する点が実施例1と異なる。
客観評価アルゴリズムデータベース29には、評価対象帯域に対応した客観評価アルゴリズム名をテーブルとして保持する。
実施例1の音声品質客観評価装置のブロック構成図。 実施例2の音声品質客観評価装置のブロック構成図。 PESQ処理のアルゴリズムを説明する図。
符号の説明
11,21・・・音声データベース部、12,22・・・帯域分割部、13,23・・・帯域別パワー計算部、14,24・・・評価対象帯域決定部、15,25帯域制限部、16,26・・・客観評価値計算部、17,27・・・補正部、18,28・・・補正値データベース部、29・・・客観アルゴリズムデータベース部

Claims (2)

  1. 音声信号の主観品質(人間が信号を聴いたときに感じる品質)を音声信号の物理的特徴量の測定結果から推定する音声品質客観評価装置において、
    評価に用いる音声信号を蓄える音声データベース部と、
    評価対象系の出力音声信号をサンプリング周波数に応じて帯域分割する帯域分割部と、
    帯域別に信号パワーを計算する帯域別パワー計算部と、
    帯域別の信号パワーをもとに評価対象帯域を決定する評価対象帯域決定部と、
    評価対象系の入力音声信号と出力音声信号を評価対象帯域に帯域制限する帯域制限部と、
    帯域制限された入力音声信号と出力音声信号の比較から一次的な客観評価値を算出する客観評価値計算部と、
    最終客観評価値を出力するための補正値を蓄えた補正値データベース部と、
    補正値と一次的な客観評価値から最終客観評価値を出力する補正部と、
    を備えることを特徴とする音声品質客観評価装置。
  2. 請求項1の音声品質客観評価装置において、
    評価対象帯域に対応した客観評価値算出アルゴリズムに関するデータを保持する客観評価アルゴリズムデータベースを備え、
    前記客観評価値計算部は、複数の客観評価値算出アルゴリズムを有し、客観評価アルゴリズムデータベースを参照することにより評価対象帯域に対応した客観評価値算出アルゴリズムを決定し、帯域制限された入力音声信号と出力音声信号の比較から一次的な客観評価値を算出すること、
    を特徴とする音声品質客観評価装置。
JP2003402349A 2003-12-02 2003-12-02 帯域制限を考慮した音声品質客観評価装置 Expired - Fee Related JP4309749B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003402349A JP4309749B2 (ja) 2003-12-02 2003-12-02 帯域制限を考慮した音声品質客観評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003402349A JP4309749B2 (ja) 2003-12-02 2003-12-02 帯域制限を考慮した音声品質客観評価装置

Publications (2)

Publication Number Publication Date
JP2005164870A true JP2005164870A (ja) 2005-06-23
JP4309749B2 JP4309749B2 (ja) 2009-08-05

Family

ID=34725933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003402349A Expired - Fee Related JP4309749B2 (ja) 2003-12-02 2003-12-02 帯域制限を考慮した音声品質客観評価装置

Country Status (1)

Country Link
JP (1) JP4309749B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065547A (ja) * 2005-09-02 2007-03-15 Nippon Telegr & Teleph Corp <Ntt> 音声品質推定装置および音声品質推定方法
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
CN115547299A (zh) * 2022-11-22 2022-12-30 中国民用航空飞行学院 一种面向管制语音品质划分的量化评价及分类方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192520B (zh) * 2021-07-01 2021-09-24 腾讯科技(深圳)有限公司 一种音频信息处理方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065547A (ja) * 2005-09-02 2007-03-15 Nippon Telegr & Teleph Corp <Ntt> 音声品質推定装置および音声品質推定方法
JP4514149B2 (ja) * 2005-09-02 2010-07-28 日本電信電話株式会社 音声品質推定装置および音声品質推定方法
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN115547299A (zh) * 2022-11-22 2022-12-30 中国民用航空飞行学院 一种面向管制语音品质划分的量化评价及分类方法和装置

Also Published As

Publication number Publication date
JP4309749B2 (ja) 2009-08-05

Similar Documents

Publication Publication Date Title
Emiya et al. Subjective and objective quality assessment of audio source separation
Hines et al. ViSQOL: The virtual speech quality objective listener
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
JPH10505718A (ja) オーディオ品質の解析
JP4570609B2 (ja) 音声伝送システムの音声品質予測方法及びシステム
CN103151049B (zh) 一种面向移动音频的服务质量保障方法及***
EP2037449B1 (en) Method and system for the integral and diagnostic assessment of listening speech quality
KR20000053311A (ko) 오디오 신호의 청취하기 적합한 음질 평가
JP2015535100A (ja) 劣化音声信号の了解度を評価する方法およびそのための機器
Beerends et al. Subjective and objective assessment of full bandwidth speech quality
Wältermann et al. Underlying quality dimensions of modern telephone connections
US20090161882A1 (en) Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence
JP4309749B2 (ja) 帯域制限を考慮した音声品質客観評価装置
Lin et al. A composite objective measure on subjective evaluation of speech enhancement algorithms
Köster et al. Non-intrusive estimation of noisiness as a perceptual quality dimension of transmitted speech
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
Salehi et al. Nonintrusive speech quality estimation based on Perceptual Linear Prediction
Somek et al. Speech quality assessment
Rund et al. Objective quality assessment for the acoustic zoom
Souček et al. Evaluation of itu-t p. 863 polqa in chinese environment
Zaunschirm et al. Audio quality: comparison of peaq and formal listening test results
Hoene et al. Error propagation after Concealing a lost speech frame
Lee et al. Enhancing objective evaluation of speech quality algorithm: current efforts, limitations and future directions
Kondo Estimation of forced-selection word intelligibility by comparing objective distances between candidates
Hovorka Methods for evaluation of speech enhancement algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060412

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090508

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees