JPH06236198A - Tone quality subjective evaluation prediction system - Google Patents

Tone quality subjective evaluation prediction system

Info

Publication number
JPH06236198A
JPH06236198A JP5020916A JP2091693A JPH06236198A JP H06236198 A JPH06236198 A JP H06236198A JP 5020916 A JP5020916 A JP 5020916A JP 2091693 A JP2091693 A JP 2091693A JP H06236198 A JPH06236198 A JP H06236198A
Authority
JP
Japan
Prior art keywords
voice signal
input
extraction unit
characteristic parameter
weighting coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5020916A
Other languages
Japanese (ja)
Other versions
JP2953238B2 (en
Inventor
Keiko Nagano
敬子 永野
Shigeru Ono
茂 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5020916A priority Critical patent/JP2953238B2/en
Publication of JPH06236198A publication Critical patent/JPH06236198A/en
Application granted granted Critical
Publication of JP2953238B2 publication Critical patent/JP2953238B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To provide a tone quality subjective evaluation prediction system capable of improving predictive accuracy by evaluating it using a weighing distance measure considering the auditory sense characteristic of a human. CONSTITUTION:By an input audio signal characteristic extraction part 4, a characteristic parameter is extracted from an input audio signal, and by a regenerative audio signal characteristic extraction part 5, the characteristic parameter is extracted from a regenerative audio signal, and by an input audio signal dynamic characteristic extraction part 6, a dynamic characteristic parameter is extracted from the characteristic parameter of the input audio signal, and by a first weighing coefficient extraction part 7, a first weighing coefficient is extracted from the characteristic parameter of the input audio signal, and by a second weighing coefficient extraction part 8, a second weighing coefficient is extracted from the dynamic characteristic parameter, and by an objective evaluation part 9, a distance between the characteristic parameters of the input and the regenerative audio signals is calculated considering the first and the second weighing coefficients to output an objective evaluation value, and by a subjective evaluation prediction part 10, an subjective evaluation value is predicted using the objective evaluation value.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音質主観評価予測方式
に関し、特に入力音声信号の特徴パラメータと再生音声
信号の特徴パラメータとに重み付け距離尺度を用いて再
生音声信号の主観評価値を予測する方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sound quality subjective evaluation prediction method, and in particular, predicts a subjective evaluation value of a reproduced sound signal by using a weighted distance measure for the characteristic parameter of the input sound signal and the characteristic parameter of the reproduced sound signal. Regarding the scheme.

【0002】[0002]

【従来の技術】従来、音声の音質評価を行なう場合に
は、聴取実験で評価音声を主観的に評価する他に、音声
の特徴パラメータを原音声と評価音声とから抽出し、特
徴パラメータ間の比や距離を求めて客観的に評価する方
法がとられている。
2. Description of the Related Art Conventionally, when performing sound quality evaluation of speech, in addition to subjectively evaluating the evaluation speech in a listening experiment, characteristic parameters of the speech are extracted from the original speech and the evaluation speech, and A method of objectively evaluating the ratio and distance is used.

【0003】この客観評価には、SN比(特開昭63-273
895)やセグメンタルSN比などの他にケプストラム距離
やBSD距離(Proc.ICASSP 91,IEEESpeec
h Processing.,vol.1,pp.493-496,1991) などスペクト
ルの歪みが使われている。
For this objective evaluation, the SN ratio (Japanese Patent Laid-Open No. 63-273) is used.
895) and segmental signal-to-noise ratio, as well as cepstrum distance and BSD distance (Proc.ICASSP 91, IEEESpeec
Distortion of spectrum is used, such as h Processing., vol.1, pp.493-496, 1991).

【0004】また最近では、これら客観評価に用いられ
ている音声の特徴パラメータから、主観評価値を予測す
るモデルも研究されている(電子情報通信学会論文誌A
Vol. J73-ANo.6 pp.1039-1047 1990 年 6月)。
Recently, a model for predicting the subjective evaluation value from the characteristic parameters of the voice used for the objective evaluation has been studied (IEICE Transactions A.
Vol. J73-A No. 6 pp.1039-1047 June 1990).

【0005】一方、音声符号化の分野においては、高音
質な再生音声を得るため適応フィルタによる重み付け距
離が広く用いられている(特開平4-84200)。そして、こ
の重み付け距離を最小化するように符号化パラメータを
決定することで、主観的に良好な再生音声を得ることが
できるとしている。
On the other hand, in the field of voice coding, a weighted distance by an adaptive filter is widely used in order to obtain a reproduced voice with high sound quality (Japanese Patent Laid-Open No. 4-84200). Then, by determining the coding parameter so as to minimize this weighted distance, subjectively good reproduced speech can be obtained.

【0006】しかし、ここで用いられている評価尺度
は、再生音声の相対的な評価を行なうためのもので、再
生音声の主観評価値を決定或いは予測するために適用で
きるものではない。
However, the evaluation scale used here is for making a relative evaluation of the reproduced voice and cannot be applied for determining or predicting the subjective evaluation value of the reproduced voice.

【0007】[0007]

【発明が解決しようとする課題】客観評価に基づいて主
観評価値を予測する従来の音質主観評価予測方式は、低
ビットレートの符号化方式の評価には適していないとい
われている(IEEE Transactions on Selected Area
s in Communications,vol.SAC-6,pp.242-248,Feb.1988
) 、(IEEE Trans.Comm.,vol.COM-30,pp.642-654,
Apr.1982)。
It is said that the conventional sound quality subjective evaluation prediction method for predicting the subjective evaluation value based on the objective evaluation is not suitable for the evaluation of the low bit rate encoding method (IEEE Transactions). on Selected Area
s in Communications, vol.SAC-6, pp.242-248, Feb.1988
), (IEEE Trans.Comm., Vol.COM-30, pp.642-654,
Apr.1982).

【0008】そこで、低ビットレートの符号化音声の主
観評価予測の予測精度を上げるためには、人間が音声を
評価するときに用いている聴覚特性、例えばマスキング
効果を考慮した客観評価を行なう必要がある。
Therefore, in order to improve the prediction accuracy of the subjective evaluation prediction of low bit rate coded speech, it is necessary to perform an objective evaluation in consideration of the auditory characteristics used by humans to evaluate speech, for example, the masking effect. There is.

【0009】このマスキング効果を考慮するためには、
音声信号の始まりから終りまでを同一の重みで評価する
のではなく、聴覚的に重要てある部分とそうでない部分
を反映した重み付けを行なうことが有効であると考えら
れる。
In order to consider this masking effect,
It is considered effective not to evaluate the beginning to the end of the audio signal with the same weight, but to perform weighting that reflects a portion that is auditory important and a portion that is not.

【0010】本発明の目的は、人間が音声信号を評価す
る場合と近いモデルで主観評価値を予測するために、入
力音声信号の特徴パラメータ値が大きい部分や、動的特
徴パラメータ値が小さい部分での評価が、他の部分と比
べて大きく評価されるような重みづけ距離尺度を用いて
評価することにより従来に比し格段に予測精度を向上で
きる音質主観評価予測方式を提供することにある。
An object of the present invention is to predict a subjective evaluation value with a model similar to a case where a human evaluates a speech signal, so that a portion having a large characteristic parameter value of an input speech signal or a portion having a small dynamic characteristic parameter value. The objective is to provide a sound quality subjective evaluation prediction method that can significantly improve the prediction accuracy compared to the conventional method by using a weighted distance measure that makes the evaluation in the above method larger than other parts. .

【0011】[0011]

【課題を解決するための手段】第1の発明の音質主観評
価予測方式は、入力音声信号を符号化/復号化し再生音
声信号を作成する符号化/復号化部と、前記入力音声信
号から少なくとも1つの入力音声信号特徴パラメータを
抽出する入力音声信号特徴抽出部と、前記再生音声信号
から少なくとも1つの再生音声信号特徴パラメータを抽
出する再生音声信号特徴抽出部と、前記入力音声信号特
徴パラメータを用いて少なくとも1つの動的特徴パラメ
ータを抽出する入力音声信号動的特徴抽出部と、前記入
力音声信号特徴パラメータを用いて少なくとも1つの第
1の重み付け係数を抽出する第1の重み付け係数抽出部
と、前記動的特徴パラメータを用いて少なくとも1つの
第2の重み付け係数を抽出する第2の重み付け係数抽出
部と、前記入力音声信号特徴パラメータと前記再生音声
信号特徴パラメータとの距離を求める際に前記第1の重
み付け係数と前記第2の重み付け係数とのうちの少なく
とも1つの重み付け係数を用いて計算し客観評価値を出
力する客観評価部と、前記客観評価値を用いて主観評価
値を予測する主観評価予測部とを含んで構成されてい
る。
According to a first aspect of the present invention, there is provided a sound quality subjective evaluation prediction method, wherein at least an encoding / decoding unit for encoding / decoding an input voice signal to generate a reproduced voice signal, and at least the input voice signal is used. An input audio signal feature extracting section for extracting one input audio signal characteristic parameter, a reproduced audio signal characteristic extracting section for extracting at least one reproduced audio signal characteristic parameter from the reproduced audio signal, and using the input audio signal characteristic parameter An input voice signal dynamic feature extraction unit that extracts at least one dynamic feature parameter by using the input voice signal feature parameter, and a first weighting coefficient extraction unit that extracts at least one first weighting factor using the input voice signal feature parameter. A second weighting coefficient extraction unit that extracts at least one second weighting coefficient using the dynamic feature parameter; and the input sound. When obtaining the distance between the signal characteristic parameter and the reproduced audio signal characteristic parameter, calculation is performed using at least one weighting coefficient of the first weighting coefficient and the second weighting coefficient, and an objective evaluation value is output. It is configured to include an objective evaluation unit and a subjective evaluation prediction unit that predicts a subjective evaluation value using the objective evaluation value.

【0012】第2の発明の音質主観評価予測方式は、第
1の発明の音質主観評価予測方式において、入力音声信
号特徴抽出部に代えて、第1の重み付け係数抽出部と動
的特徴抽出部で用いる入力音声信号の特徴パラメータを
抽出する重み係数抽出用入力音声信号特徴抽出部と、客
観評価部で用いる前記入力音声信号の特徴パラメータを
抽出する評価用入力音声信号特徴抽出部とを含んで構成
されている。
The sound quality subjective evaluation prediction method of the second invention is the same as the sound quality subjective evaluation prediction method of the first invention, but instead of the input speech signal feature extraction unit, a first weighting coefficient extraction unit and a dynamic feature extraction unit. The input voice signal feature extraction unit for extracting a weight coefficient for extracting the feature parameter of the input voice signal used in, and the evaluation input voice signal feature extraction unit for extracting the feature parameter of the input voice signal used in the objective evaluation unit. It is configured.

【0013】[0013]

【実施例】次に、本発明について図面を参照して説明す
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, the present invention will be described with reference to the drawings.

【0014】図1は第1の発明の音質主観評価予測方式
の第1の一実施例を示すブロック図である。
FIG. 1 is a block diagram showing a first embodiment of the sound quality subjective evaluation prediction method of the first invention.

【0015】図1において、入力端子1からは、音声信
号が入力され、符号化/復号化部3と入力音声信号特徴
抽出部4へ送られる。
In FIG. 1, a voice signal is input from an input terminal 1 and sent to an encoding / decoding unit 3 and an input voice signal feature extraction unit 4.

【0016】符号化/復号化部3では、原信号を用いて
符号化/復号化を行ない再生音声信号を作成する。符号
化/復号化には例えばCELP(Proc.Int. Conf.A
coust., Speech,Signal Processing,pp200-203,198
9) などが用いられる。この符号化/復号化部3にて作
成された再生音声信号は、再生音声信号特徴抽出部5へ
送られる。
The encoding / decoding unit 3 performs encoding / decoding using the original signal to create a reproduced voice signal. For encoding / decoding, for example, CELP (Proc. Int. Conf.
coust., Speech, Signal Processing, pp200-203,198
9) etc. are used. The reproduced audio signal created by the encoding / decoding unit 3 is sent to the reproduced audio signal feature extracting unit 5.

【0017】入力音声信号特徴抽出部4では、入力音声
信号Sx を用いて一定時間(フレーム)毎に、特徴パラ
メータxparを求める。入力音声信号特徴抽出部4にて求
められた特徴パラメータxparは、入力音声信号動的特徴
抽出部6と第1の重み付け係数抽出部7へ送られる。入
力音声信号特徴抽出部4で求められる特徴パラメータxp
arとしては、例えばrms 、Bark スペクトル、ピッチ、
ケプストラムなど周知のものを使うことができる。
The input voice signal feature extraction unit 4 obtains a feature parameter xpar using the input voice signal S x at constant time intervals (frames). The feature parameter xpar obtained by the input voice signal feature extraction unit 4 is sent to the input voice signal dynamic feature extraction unit 6 and the first weighting coefficient extraction unit 7. Feature parameter xp obtained by the input voice signal feature extraction unit 4
Examples of ar include rms, Bark spectrum, pitch,
Well-known things such as cepstrum can be used.

【0018】ここでは、入力音声信号{Sx (0),
…,Sx (L−1)}から特徴パラメータxparを求める
例として、以下でrms とBark スペクトルを求める式を
示す。
Here, the input voice signal {S x (0),
As an example of obtaining the characteristic parameter xpar from [..., S x (L-1)], the formulas for obtaining the rms and Bark spectra are shown below.

【0019】まず、入力音声信号から、第kフレームの
rms を求める式(1)を示す。
First, from the input speech signal, the k-th frame
Equation (1) for obtaining rms is shown.

【0020】 [0020]

【0021】次に、入力音声信号から第kフレームのB
ark スペクトルを求める手順を説明する。 1.入力音声信号Sx (k)に対し、FFTを行ない、パワ
ースペクトルX(k) (f)を求める。 2.ワパースペクトルX(k) (f)をBark スケールY
(k) (x)に変換する。xからfへの変換は、以下の関
係式(2)を用いて行なう。
Next, B of the k-th frame from the input voice signal
The procedure for obtaining the ark spectrum will be described. 1. FFT is performed on the input audio signal S x (k ) to obtain the power spectrum X (k) (f). 2. Wapper spectrum X (k) (f) on Bark scale Y
(k) Convert to (x). The conversion from x to f is performed using the following relational expression (2).

【0022】 [0022]

【0023】3.Bark スケール変換したパワースペク
トルY(k) (x)に臨界帯域フィルタF(k) (x)をか
け、excitation patternD(k) (x)を式(4)により
求める。臨界帯域フィルタF(k) (x)は、以下の式
(3)で表される。
3. A critical band filter F (k) (x) is applied to the Bark scale-converted power spectrum Y (k) (x) to obtain an excitation pattern D (k) (x) according to the equation (4). The critical band filter F (k) (x) is expressed by the following equation (3).

【0024】 [0024]

【0025】ここで、α=0.215 とする。Here, it is assumed that α = 0.215.

【0026】 [0026]

【0027】4.Excitation pattern D(k) (x)に
聴感重み付けを式(6)により行なう。
4. The perceptual weighting is applied to the excitation pattern D (k) (x) by the equation (6).

【0028】1800〜3400Hzの聴感重み付けH
(f)は、以下の式(5)より求めることができる。
Hearing weight H from 1800 to 3400 Hz
(F) can be obtained from the following equation (5).

【0029】 [0029]

【0030】1800Hz以下ではH(f)=1とし3
400Hz以上では3400Hzと同じ値をとる。
Below 1800 Hz, H (f) = 1 and 3
Above 400 Hz, it takes the same value as 3400 Hz.

【0031】 [0031]

【0032】5.第i次元目、第kフレームのBark ス
ペクトル{xB(k)[i],i=1, …,T}は、以下の式(7)
によって求められる。
5. The Bark spectrum {xB (k) [i], i = 1, ..., T} of the i-th dimension and the k-th frame is expressed by the following equation (7).
Required by.

【0033】 [0033]

【0034】但し、channel 番号iとBark Scale x
との間には、x=1.0 * iとなる関係がある。
However, channel number i and Bark Scale x
Has a relationship of x = 1.0 * i.

【0035】以上の手順で求めた入力信号のrms やBar
k スペクトルの特徴パラメータは、第1の重み付け係数
抽出部7と入力音声信号動的特徴抽出部6に出力され
る。
The rms and Bar of the input signal obtained by the above procedure
The feature parameter of the k spectrum is output to the first weighting coefficient extraction unit 7 and the input voice signal dynamic feature extraction unit 6.

【0036】第1の重み付け係数抽出部7では、入力音
声信号の特徴パラメータxparを用いて重み付け係数ωを
抽出する。
The first weighting coefficient extraction unit 7 extracts the weighting coefficient ω using the characteristic parameter xpar of the input audio signal.

【0037】人間が音声を聞く場合に、音の大きいとこ
ろでの違いの方が小さい方での違いより見つけやすかっ
たり、定常部での異音の方が変化している部分での異音
より耳障りに聞こえたりすることがある。本方式では、
このような人間の聴覚特性を考慮し、入力音声信号のパ
ラメータ値が大きい部分の評価が小さい部分と比べて重
要になるような重み付け距離尺度を用いている。重み付
け係数を求める1例を、第kフレームの重み付け係数を
ω1 (k)として以下の式(8)によって表す。
When a human hears a voice, a difference in a large sound is easier to find than a difference in a small sound, or an abnormal sound in a stationary part is more jarring than an abnormal sound in a changing part. May be heard. In this method,
In consideration of such human auditory characteristics, a weighted distance scale is used so that the evaluation of a portion where the parameter value of the input speech signal is large is more important than a portion where the evaluation is small. An example of obtaining the weighting coefficient is represented by the following equation (8), where the weighting coefficient of the kth frame is ω 1 (k) .

【0038】 [0038]

【0039】rms を用いた重み付けも、入力音声信号の
rms が大きいところの方が小さいところよりも大きく評
価する重み付けを行なう。ここで、入力音声信号のrms
の特徴パラメータをxrms、重み付け係数をωrms とする
と、第kフレームのrms の重み付け係数ωrms (k)は以下
の式(9)で表すことができる。
Weighting using rms also applies to the input speech signal.
Weighting is performed so that a larger rms is evaluated more than a smaller one. Where rms of the input audio signal
Where x rms is the characteristic parameter and ω rms is the weighting coefficient, the rms weighting coefficient ω rms (k) of the k-th frame rms can be expressed by the following equation (9).

【0040】 [0040]

【0041】特徴パラメータが多次元である場合も各次
元毎に1次元の場合と同様の重みをつける。i次元目の
重み付け係数ω2 (k)[i] は、以下の式(10)により求
めることができる。
When the characteristic parameter is multidimensional, the same weight as in the case of one dimension is assigned to each dimension. The weighting coefficient ω 2 (k) [i] of the i-th dimension can be calculated by the following equation (10).

【0042】 [0042]

【0043】次に、Bark スペクトルの重み付けについ
て説明する。
Next, the weighting of the Bark spectrum will be described.

【0044】Bark スペクトルのエネルギーの大きい部
分で評価した値がより重要になるような重みづけをする
ことによって音声信号の明瞭性や自然性などに影響する
母音定常部の評価に重みをおいた。
By weighting the value evaluated in the high energy part of the Bark spectrum to be more important, the vowel stationary part which affects the clarity and naturalness of the voice signal is weighted.

【0045】入力音声信号のBark スペクトルの特徴パ
ラメータのxB、重み付け係数をωB とすると、第kフ
レームで抽出されたi次元のBark スペクトルの特徴パ
ラメータ{xB(k)[i],i=1,...,T}の重み付け
係数ωB (k)[i] は下の式(11)のように表す。
If xB of the characteristic parameter of the Bark spectrum of the input speech signal and ω B are the weighting coefficients, the characteristic parameter of the i-dimensional Bark spectrum extracted in the k-th frame {xB (k) [i], i = 1. ,. . . , T} weighting coefficient ω B (k) [i] is expressed by the following equation (11).

【0046】 [0046]

【0047】以上のように入力音声信号の特徴パラメー
タから求められた重み付け係数は、客観評価部9へ出力
される。
The weighting coefficient obtained from the characteristic parameters of the input voice signal as described above is output to the objective evaluation section 9.

【0048】次に、入力音声信号特徴抽出部4にて求め
られた入力音声信号Sx の特徴パラメータxparを、動的
特徴パラメータδxparに変換し第2の重み付け係数抽出
部8へと送る動作を行なう入力音声信号動的特徴抽出部
6について説明する。入力音声信号の特徴パラメータxp
arの動的特徴パラメータδxparに変換する方法はいくつ
かあるため、ここではその1例をあげておく。
Next, the operation of converting the characteristic parameter xpar of the input speech signal S x obtained by the input speech signal characteristic extraction unit 4 into the dynamic characteristic parameter δxpar and sending it to the second weighting coefficient extraction unit 8 The input voice signal dynamic feature extraction unit 6 to be executed will be described. Input audio signal feature parameter xp
Since there are several methods for converting the dynamic feature parameter δxpar of ar, one example will be given here.

【0049】入力音声信号の特徴パラメータをxpar1
xpar1 から変換された動的特徴パラメータをδxpar1
すると、第kフレームで抽出された特徴パラメータxpar
1 (k)の動的特徴パラメータδxpar1 (k)は、sフレーム前
の特徴パラメータxpar1 (k+s)からsフレーム後の特徴パ
ラメータxpar1 (k-s)の差によって式(12)のように求
まる。
The characteristic parameters of the input speech signal are xpar 1 ,
When the dynamic feature parameter converted from xpar 1 is δxpar 1 , the feature parameter xpar extracted in the k-th frame is
1 (k) the dynamic characteristic parameter δxpar 1 (k) of, s previous frame feature parameter XPAR 1 (k + s) as in equation (12) by the difference of feature parameters XPAR 1 (ks) after s frames from Sought.

【0050】 [0050]

【0051】入力音声信号の特徴パラメータとしてrms
を用いる場合の動的特徴パラメータは、以下の式(1
3)によって求められる。
Rms as a characteristic parameter of the input voice signal
The dynamic feature parameter in the case of using
3) is required.

【0052】 [0052]

【0053】また、入力音声信号の特徴パラメータxpar
2 が多次元の場合について、xpar2から変換される動的
特徴パラメータをδxpar2 として説明する。第kフレー
ムで抽出されたi次元目の特徴パラメータ{xpar
2 (k)[i],i=1,...,T}の動的特徴パラメータδ
xpar2 (k)[i] は、以下の式(14)より求めることがで
きる。
Also, the characteristic parameter xpar of the input speech signal
In the case where 2 is multidimensional, the dynamic feature parameter converted from xpar 2 will be described as Δxpar 2 . I-th feature parameter {xpar extracted in the kth frame
2 (k) [i], i = 1 ,. . . , T} dynamic feature parameter δ
xpar 2 (k) [i] can be obtained from the following equation (14).

【0054】 [0054]

【0055】入力音声信号のBark スペクトルの特徴パ
ラメータをxB、動的特徴パラメータをδxBとする
と、第kフレームで抽出されたi次元目Bark スペクト
ルの特徴パラメータ{xB(k)[i],i=1,...,T}
の動的特徴パラメータδxB(k)[i]は、以下の式(1
5)より求めることができる。
When the characteristic parameter of the Bark spectrum of the input speech signal is xB and the dynamic characteristic parameter is δxB, the characteristic parameter {xB (k) [i], i = of the i-th dimension Bark spectrum extracted in the k-th frame. 1 ,. . . , T}
The dynamic feature parameter δxB (k) [i] of
It can be obtained from 5).

【0056】 [0056]

【0057】次に、入力音声信号の特徴パラメータを動
的特徴パラメータに変換する上記以外の方法を、入力音
声信号の特徴パラメータxpar3 と、動的特徴パラメータ
δxpar3 とを使って説明する。第kフレームの動的特徴
パラメータδxpar3 (k)は、特徴パラメータxpar3 (k)と特
徴パラメータxpar3 の平均特徴パラメータavgxpar (式
(16))との差により式(17)のように求められ
る。
Next, a method other than the above for converting the characteristic parameter of the input speech signal into the dynamic characteristic parameter will be described using the characteristic parameter xpar 3 of the input speech signal and the dynamic characteristic parameter δxpar 3 . The dynamic feature parameter δxpar 3 (k) of the k-th frame is calculated by the difference between the feature parameter xpar 3 (k) and the average feature parameter avgxpar (equation (16)) of the feature parameter xpar 3 as shown in equation (17). To be

【0058】 [0058]

【0059】 [0059]

【0060】さらに、入力音声信号の特徴パラメータxp
arを、動的特徴パラメータδxparに変換する方法とし
て、第kフレームの動的特徴パラメータをδxpar4 (k)
し、入力音声信号の特徴パラメータxpar4 (k)と予測特徴
パラメータxpar4' (k) の比より求める式(18)を以下
に示す。
Further, the characteristic parameter xp of the input voice signal
As a method for converting ar into a dynamic feature parameter δxpar, the dynamic feature parameter of the k-th frame is δxpar 4 (k), and the feature parameter xpar 4 (k) of the input speech signal and the prediction feature parameter xpar 4 ′ (k The formula (18) obtained from the ratio of () is shown below.

【0061】 [0061]

【0062】第2の重み付け係数抽出部8では、入力音
声信号動的特徴抽出部6にて求められた入力音声信号の
動的特徴パラメータδxparを用いて動的特徴パラメータ
の絶対値が小さいフレームで重みが強くかかるような重
み付け係数δωを抽出する。
The second weighting coefficient extraction unit 8 uses the dynamic feature parameter δxpar of the input voice signal obtained by the input voice signal dynamic feature extraction unit 6 in the frame in which the absolute value of the dynamic feature parameter is small. A weighting coefficient δω with which the weight is strongly applied is extracted.

【0063】従来の客観評価では特徴パラメータの時間
的変化については考慮していない。しかし、低ビットレ
ートの符号化音声信号では、ピッチや声の高さの揺らぎ
などパラメータの変動が原因で音質が劣化しているもの
もある。
The conventional objective evaluation does not consider the temporal change of the characteristic parameter. However, in a low bit rate encoded voice signal, there are some in which the sound quality is deteriorated due to fluctuations in parameters such as fluctuations in pitch and voice pitch.

【0064】本方式では入力音声信号の動的特徴パラメ
ータから求めた重み付けを客観評価尺度に加え、パラメ
ータの時間的変動についても考慮することにした。入力
音声信号の動的特徴パラメータの値が小さい部分は揺ら
ぎが少なく音質が良いため、再生音声信号との違いが目
立ちやすい。
In this method, the weighting obtained from the dynamic feature parameter of the input speech signal is added to the objective evaluation scale, and the temporal variation of the parameter is considered. The part of the input voice signal where the value of the dynamic characteristic parameter is small has little fluctuation and good sound quality, so that the difference from the reproduced voice signal is easily noticeable.

【0065】そこで、動的特徴パラメータの値の小さい
部分の評価が重要視されるような重みをつけている。そ
の一例として、第kフレームの重み付け係数δω1 (k)
求める式(19)を以下に示す。
Therefore, the weighting is performed so that the evaluation of the portion where the value of the dynamic feature parameter is small is considered important. As an example, Equation (19) for obtaining the weighting coefficient δω 1 (k) of the k-th frame is shown below.

【0066】 [0066]

【0067】入力音声信号の動的特徴パラメータδxpar
1 がrms であった場合の重み付け係数の求め方を以下に
示す。声の大きさが変化しているところよりも、変化し
ていないところの方が、音質の違いを見つけやすいた
め、rms の場合も、動的特徴パラメータの値が小さい部
分の評価が大きく影響するような重みづけ係数を求めて
いる。ここで、入力音声信号のrms の動的特徴パラメー
タをδxrms、重み付け係数をδωrms とすると、第kフ
レームのrms の重み付け係数δωrms (k)は、以下の式
(20)で求めることができる。
Dynamic feature parameter δxpar of input speech signal
The method of obtaining the weighting coefficient when 1 is rms is shown below. It is easier to find the difference in sound quality when the voice volume is not changing than when the voice volume is changing, so even in the case of rms, the evaluation of the part where the value of the dynamic feature parameter is small has a large effect. Such a weighting coefficient is sought. Here, if the dynamic feature parameter of rms of the input speech signal is δxrms and the weighting coefficient is δω rms , the weighting coefficient δω rms (k) of rms of the k-th frame can be obtained by the following equation (20). .

【0068】 [0068]

【0069】また、動的特徴パラメータが多次元である
場合は以下のようにして求めることができる。第kフレ
ームで抽出されたi次元の動的特徴パラメータ{δxpar
2 (k)[i],i =1,...,T}の重み付け係数δω2 (k)
[i] は、以下の式(21)より求めることができる。
When the dynamic feature parameter is multidimensional, it can be obtained as follows. I-dimensional dynamic feature parameter {δxpar extracted at the k-th frame
2 (k) [i], i = 1 ,. . . , T} weighting coefficient δω 2 (k)
[i] can be obtained from the following equation (21).

【0070】 [0070]

【0071】入力音声信号の動的Bark スペクトルをδ
xB、δxBより求めた重み付け係数をδωB とする
と、第kフレームで抽出されたi次元の動的Bark スペ
クトル{δxB(k)[i],i=1,...,T}の重み付け
係数δωB (k)[i] は、以下の式(22)で表すことがで
きる。
Let δ be the dynamic Bark spectrum of the input speech signal.
Letting δω B be the weighting coefficient obtained from xB and δxB, the i-dimensional dynamic Bark spectrum {δxB (k) [i], i = 1 ,. . . , T} weighting coefficient δω B (k) [i] can be expressed by the following equation (22).

【0072】 [0072]

【0073】以上のようにして入力音声信号の動的特徴
パラメータから求めた重み付け係数は、客観評価部9へ
出力される。
The weighting coefficient obtained from the dynamic feature parameter of the input voice signal as described above is output to the objective evaluation section 9.

【0074】再生音声信号特徴抽出部5では、再生音声
信号Sy を用いて、一定時間(フレーム)毎に特徴パラ
メータyparを求める。再生音声信号特徴抽出部5にて求
められた特徴パラメータyparは、客観評価部9へ送られ
る。
The reproduced voice signal feature extraction unit 5 uses the reproduced voice signal S y to obtain the characteristic parameter ypar for each constant time (frame). The characteristic parameter ypar obtained by the reproduced voice signal characteristic extraction unit 5 is sent to the objective evaluation unit 9.

【0075】再生音声信号特徴抽出部5で求められる特
徴パラメータyparとして例えば特徴パラメータrms 、B
ark スペクトル、ピッチ、ケプストラムなどがある。
As the characteristic parameter ypar obtained by the reproduced voice signal characteristic extraction unit 5, for example, characteristic parameters rms, B
ark spectrum, pitch, cepstrum, etc.

【0076】再生音声信号Sy から特徴パラメータypar
を求める方法は、前記入力音声信号特徴抽出部4におい
て、入力音声信号Sx を用いて入力音声信号の特徴パラ
メータを求める方法と同じであるため、ここでは説明を
省略する。
From the reproduced voice signal S y , the characteristic parameter ypar
The method of obtaining the above is the same as the method of obtaining the characteristic parameter of the input voice signal using the input voice signal S x in the input voice signal feature extraction unit 4, and therefore the description thereof is omitted here.

【0077】客観評価部9では、入力音声信号特徴抽出
部4と、再生音声信号特徴抽出部5にて求められた特徴
パラメータxparとyparとの距離に、第1の重み付け係数
抽出部7と第2の重み付け係数抽出部8から求められた
重み付け係数をかけた客観評価値ωAVGを求め、主観
評価予測部9へ送る。
In the objective evaluation unit 9, the first weighting coefficient extraction unit 7 and the first weighting coefficient extraction unit 7 are added to the distances between the input sound signal feature extraction unit 4 and the feature parameters xpar and ypar obtained by the reproduced sound signal feature extraction unit 5. The objective evaluation value ωAVG multiplied by the weighting coefficient obtained from the weighting coefficient extraction section 8 of 2 is obtained and sent to the subjective evaluation prediction section 9.

【0078】特徴パラメータが、1次元であった場合の
重み付け客観評価値を求める式(23)を以下に示す。
入力音声信号の特徴パラメータより求めた重み付け係数
をω1 (k)、入力音声信号の動的特徴パラメータより求め
た重み付け係数をδω1 (k)で表す。
The formula (23) for obtaining the weighted objective evaluation value when the characteristic parameter is one-dimensional is shown below.
The weighting coefficient obtained from the characteristic parameter of the input speech signal is represented by ω 1 (k) , and the weighting coefficient obtained from the dynamic characteristic parameter of the input speech signal is represented by δω 1 (k) .

【0079】 [0079]

【0080】入力音声信号の特徴パラメータxpar1 をxr
ms、再生音声信号の特徴パラメータypar1 をyrmsとする
と重み付け客観評価値ωAVGrms は以下の式(24)
で求められる。
The characteristic parameter xpar 1 of the input speech signal is set to xr
ms, and the characteristic parameter ypar 1 of the reproduced audio signal is yrms, the weighted objective evaluation value ωAVG rms is given by the following equation (24).
Required by.

【0081】 [0081]

【0082】また、特徴パラメータが多次元である場合
の重み付け客観評価値は以下の式(25)で求める。入
力音声信号の特徴パラメータより求めた重み付け係数を
ω2、入力音声信号の動的特徴パラメータより求めら重
み付け係数をδω2 、重み付け客観評価値をωAVG2
として説明する。
The weighted objective evaluation value when the characteristic parameter is multidimensional is calculated by the following equation (25). The weighting coefficient obtained from the characteristic parameters of the input speech signal is ω 2 , the weighting coefficient obtained from the dynamic characteristic parameters of the input speech signal is δω 2 , and the weighted objective evaluation value is ωAVG 2.
As described below.

【0083】 [0083]

【0084】ここで、入力音声信号の特徴パラメータxp
ar2 をxB、特徴パラメータypar2をyB、特徴パラメ
ータの重み付け客観評価値ωAVG2 をωAVGBSD
して、BSDの求め方を以下の式(26)で説明する。
Here, the characteristic parameter xp of the input voice signal
Letting ar 2 be xB, the characteristic parameter ypar 2 be yB, and the weighted objective evaluation value ωAVG 2 of the characteristic parameter be ωAVG BSD , the method of obtaining BSD will be described by the following equation (26).

【0085】 [0085]

【0086】以上の方法によって、客観評価部9で求め
られた重み付け客観評価値は、主観評価予測部10へ送
られる。
The weighted objective evaluation value obtained by the objective evaluation section 9 by the above method is sent to the subjective evaluation prediction section 10.

【0087】主観評価予測部8では、少なくとも1つの
重み付け客観評価値と少なくとも2つの予測係数で主観
評価値を予測し、評価結果を出力端子2より出力する。
予測係数は、予め大量の音声データを用いて集めた主観
評価値と予測評価値の誤差が、最小になるように求めら
れる。予測係数aと主観評価値との関係を以下に示す。
The subjective evaluation predicting section 8 predicts the subjective evaluation value using at least one weighted objective evaluation value and at least two prediction coefficients, and outputs the evaluation result from the output terminal 2.
The prediction coefficient is obtained so that the error between the subjective evaluation value and the prediction evaluation value collected in advance using a large amount of voice data is minimized. The relationship between the prediction coefficient a and the subjective evaluation value is shown below.

【0088】 [0088]

【0089】 [0089]

【0090】予測係数と客観評価部9で求めた客観評価
値とを用いて予測主観評価値を求める式(29)を以下
に示す。ここで、予測主観評価値はMOS’、予測係数
はa、b、c、客観評価部9にて求めら特徴パラメータ
の重み付け客観評価値は、ωAVGp とωAVGq とす
る。
The formula (29) for obtaining the predicted subjective evaluation value by using the prediction coefficient and the objective evaluation value obtained by the objective evaluation section 9 is shown below. Here, the prediction subjective evaluation value is MOS ′, the prediction coefficients are a, b, and c, and the weighted objective evaluation values of the characteristic parameters obtained by the objective evaluation unit 9 are ωAVG p and ωAVG q .

【0091】 [0091]

【0092】以上のようにして求められた予測主観評価
値は、出力端子2より出力される。
The predicted subjective evaluation value obtained as described above is output from the output terminal 2.

【0093】図2と図3は、第1の発明の別の実施例を
示すブロック図である。図2は、客観評価値の重みづけ
として、入力音声の特徴パラメータから抽出した重みの
みを使う第2の一実施例で、図3は、入力音声の動的特
徴パラメータから抽出した重みのみを使う第3の一実施
例を示している。
2 and 3 are block diagrams showing another embodiment of the first invention. FIG. 2 shows a second embodiment in which only the weights extracted from the feature parameters of the input voice are used as the weighting of the objective evaluation value, and FIG. 3 uses only the weights extracted from the dynamic feature parameters of the input voice. The 3rd Example is shown.

【0094】図4は第2の発明の音質主観評価予測方式
の実施例を示すブロック図である。図4において、同一
の番号のある構成要素は、図1の同一の動作をするので
説明は省略する。
FIG. 4 is a block diagram showing an embodiment of the sound quality subjective evaluation prediction method of the second invention. In FIG. 4, components having the same numbers perform the same operations as in FIG.

【0095】第2の発明では、入力端子1より入力され
た音声信号が、第1の発明の入力音声信号特徴抽出部4
のかわりに、重み係数抽出用入力音声信号特徴抽出部1
1と評価用入力音声信号抽出部12に送られる。重み係
数抽出用入力音声信号特徴抽出部11では、入力音声信
号の特徴パラメータを抽出し、第1の重み付け係数抽出
部7と入力音声信号動的特徴抽出部6とに送る。
In the second invention, the voice signal input from the input terminal 1 is the input voice signal feature extraction unit 4 of the first invention.
Instead of the input speech signal feature extraction unit 1 for weighting factor extraction
1 and the input voice signal extraction unit 12 for evaluation. The weighting coefficient extraction input voice signal feature extraction unit 11 extracts the feature parameter of the input voice signal and sends it to the first weighting coefficient extraction unit 7 and the input voice signal dynamic feature extraction unit 6.

【0096】評価用入力音声信号特徴抽出部12では、
客観評価部9に送る入力音声信号の特徴パラメータを抽
出する。
In the evaluation input voice signal feature extraction unit 12,
The characteristic parameters of the input voice signal sent to the objective evaluation section 9 are extracted.

【0097】重み係数抽出用入力音声信号特徴抽出部1
1と評価用入力音声信号特徴抽出部12で、入力音声か
ら特徴パラメータを抽出する方法は、第1の発明の入力
音声信号特徴抽出部4と同じ方法が使えるのでここでは
その説明を省略する。この場合それぞれ抽出する特徴パ
ラメータは異なえることができる。
Input voice signal feature extraction unit 1 for weighting factor extraction
1 and the evaluation input voice signal feature extraction unit 12 can extract the feature parameters from the input voice by using the same method as the input voice signal feature extraction unit 4 of the first invention, and the description thereof will be omitted here. In this case, the characteristic parameters to be extracted can be different.

【0098】ここに、従来方式(BSD)と本方式(ω
BSD)とを用いてポストフィルタなしとポストフィル
タありの音声信号の主観評価を予測した結果を示す。表
中の相関係数は、予測主観評価値と実際の主観評価値と
の相関を表している。
Here, the conventional method (BSD) and the present method (ω
The results of predicting the subjective evaluation of a voice signal without a post filter and with a post filter using BSD) are shown below. The correlation coefficient in the table represents the correlation between the predicted subjective evaluation value and the actual subjective evaluation value.

【0099】[0099]

【表1】 [Table 1]

【0100】実験の結果よりポストフィルタの有無に係
わらず、ωBSDの方がBSDよりも主観値との相関が
高くなることがわかる。よって、本方式が音声信号の特
徴パラメータから主観評価値を予測する際の予測精度を
上げるのに有効であることが示された。
From the experimental results, it can be seen that ωBSD has a higher correlation with the subjective value than BSD regardless of the presence or absence of the post filter. Therefore, it is shown that this method is effective to improve the prediction accuracy when predicting the subjective evaluation value from the characteristic parameter of the audio signal.

【0101】[0101]

【発明の効果】以上説明したように、本発明による音質
主観評価予測方式は、人間が音声信号を評価する場合と
近いモデルで主観評価値を予測する目的で、入力音声信
号の特徴パラメータ値が大きい部分や、動的特徴パラメ
ータ値が小さい部分での評価が、他の部分と比べて大き
く評価されるような重みづけ距離尺度を用いている。そ
のため、従来の音質主観評価予測方式よりも予測精度の
向上が実現できるという効果を有する。
As described above, the sound quality subjective evaluation prediction method according to the present invention is characterized in that the characteristic parameter value of the input audio signal is calculated in order to predict the subjective evaluation value with a model similar to the case where a human evaluates the audio signal. The weighted distance measure is used so that the evaluation in a large part or in a part with a small dynamic feature parameter value is evaluated larger than other parts. Therefore, there is an effect that the prediction accuracy can be improved as compared with the conventional sound quality subjective evaluation prediction method.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1の発明の音質主観評価予測方式の第1の一
実施例を示すブロック図である。
FIG. 1 is a block diagram showing a first embodiment of a sound quality subjective evaluation and prediction method of the first invention.

【図2】第1の発明の音質主観評価予測方式の第2の一
実施例を示すブロック図である。
FIG. 2 is a block diagram showing a second embodiment of the sound quality subjective evaluation prediction method of the first invention.

【図3】第1の発明の音質主観評価予測方式の第3の一
実施例を示すブロック図である。
FIG. 3 is a block diagram showing a third embodiment of the sound quality subjective evaluation and prediction method of the first invention.

【図4】第2の発明の音質主観評価予測方式の一実施例
を示すブロック図である。
FIG. 4 is a block diagram showing an embodiment of a sound quality subjective evaluation prediction method of the second invention.

【符号の説明】[Explanation of symbols]

1 入力端子 2 出力端子 3 符号化/復号化部 4 入力音声信号特徴抽出部 5 再生音声信号特徴抽出部 6 入力音声信号動的特徴抽出部 7 第1の重み付け係数抽出部 8 第2の重み付け係数抽出部 9 客観評価部 10 主観評価予測部 11 重み係数抽出用入力音声信号特徴抽出部 12 評価用入力音声信号特徴抽出部 1 Input Terminal 2 Output Terminal 3 Encoding / Decoding Section 4 Input Speech Signal Feature Extraction Section 5 Playback Speech Signal Feature Extraction Section 6 Input Speech Signal Dynamic Feature Extraction Section 7 First Weighting Coefficient Extraction Section 8 Second Weighting Coefficient Extraction unit 9 Objective evaluation unit 10 Subjective evaluation prediction unit 11 Weighted coefficient extraction input speech signal feature extraction unit 12 Evaluation input speech signal feature extraction unit

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 入力音声信号を符号化/復号化し再生音
声信号を作成する符号化/復号化部と、前記入力音声信
号から少なくとも1つの入力音声信号特徴パラメータを
抽出する入力音声信号特徴抽出部と、前記再生音声信号
から少なくとも1つの再生音声信号特徴パラメータを抽
出する再生音声信号特徴抽出部と、前記入力音声信号特
徴パラメータを用いて少なくとも1つの動的特徴パラメ
ータを抽出する入力音声信号動的特徴抽出部と、前記入
力音声信号特徴パラメータを用いて少なくとも1つの第
1の重み付け係数を抽出する第1の重み付け係数抽出部
と、前記動的特徴パラメータを用いて少なくとも1つの
第2の重み付け係数を抽出する第2の重み付け係数抽出
部と、前記入力音声信号特徴パラメータと前記再生音声
信号特徴パラメータとの距離を求める際に前記第1の重
み付け係数と前記第2の重み付け係数とのうちの少なく
とも1つの重み付け係数を用いて計算し客観評価値を出
力する客観評価部と、前記客観評価値を用いて主観評価
値を予測する主観評価予測部とを含むことを特徴とする
音質主観評価予測方式。
1. An encoding / decoding unit that encodes / decodes an input voice signal to create a reproduced voice signal, and an input voice signal feature extraction unit that extracts at least one input voice signal feature parameter from the input voice signal. A reproduced voice signal characteristic extraction unit for extracting at least one reproduced voice signal characteristic parameter from the reproduced voice signal; and an input voice signal dynamic for extracting at least one dynamic characteristic parameter using the input voice signal characteristic parameter. A feature extracting section, a first weighting coefficient extracting section that extracts at least one first weighting coefficient using the input speech signal feature parameter, and at least one second weighting coefficient using the dynamic feature parameter A second weighting coefficient extraction unit for extracting the input audio signal characteristic parameter and the reproduced audio signal characteristic parameter And an objective evaluation unit that outputs an objective evaluation value by calculating using at least one weighting coefficient of the first weighting coefficient and the second weighting coefficient when determining the distance between A subjective evaluation method for sound quality, comprising: a subjective evaluation prediction unit that predicts a subjective evaluation value by using the subjective evaluation value.
【請求項2】 請求項1記載の音質主観評価予測方式に
おいて、入力音声信号特徴抽出部に代えて、第1の重み
付け係数抽出部と動的特徴抽出部で用いる入力音声信号
の特徴パラメータを抽出する重み係数抽出用入力音声信
号特徴抽出部と、客観評価部で用いる前記入力音声信号
の特徴パラメータを抽出する評価用入力音声信号特徴抽
出部とを有することを特徴とする音質主観評価予測方
式。
2. The subjective sound quality estimation and prediction method according to claim 1, wherein instead of the input voice signal feature extraction unit, feature parameters of the input voice signal used in the first weighting coefficient extraction unit and the dynamic feature extraction unit are extracted. A sound quality subjective evaluation prediction method comprising: a weighting factor extraction input voice signal feature extraction unit; and an evaluation input voice signal feature extraction unit that extracts a feature parameter of the input voice signal used in the objective evaluation unit.
JP5020916A 1993-02-09 1993-02-09 Sound quality subjective evaluation prediction method Expired - Lifetime JP2953238B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5020916A JP2953238B2 (en) 1993-02-09 1993-02-09 Sound quality subjective evaluation prediction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5020916A JP2953238B2 (en) 1993-02-09 1993-02-09 Sound quality subjective evaluation prediction method

Publications (2)

Publication Number Publication Date
JPH06236198A true JPH06236198A (en) 1994-08-23
JP2953238B2 JP2953238B2 (en) 1999-09-27

Family

ID=12040553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5020916A Expired - Lifetime JP2953238B2 (en) 1993-02-09 1993-02-09 Sound quality subjective evaluation prediction method

Country Status (1)

Country Link
JP (1) JP2953238B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002018889A1 (en) * 2000-08-29 2002-03-07 National Institute Of Advanced Industrial Science And Technology Sound measuring method and device allowing for auditory sense characteristics
JP2005018076A (en) * 2003-06-25 2005-01-20 Lucent Technol Inc Method of reflecting time/language distortion in objective speech quality assessment
JP2006522349A (en) * 2003-03-31 2006-09-28 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ Voice quality prediction method and system for voice transmission system
JP2007049462A (en) * 2005-08-10 2007-02-22 Ntt Docomo Inc Apparatus, program, and method for evaluating speech quality
US7203641B2 (en) 2000-10-26 2007-04-10 Mitsubishi Denki Kabushiki Kaisha Voice encoding method and apparatus
JP2008513834A (en) * 2004-09-20 2008-05-01 ネーデルラントセ オルハニサティー フォール トゥーヘパスト−ナトゥールウェッテンサッペリーク オンデルズック テーエヌオー Frequency compensation for perceptual speech analysis
US7499856B2 (en) 2002-12-25 2009-03-03 Nippon Telegraph And Telephone Corporation Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors
JP2010078915A (en) * 2008-09-26 2010-04-08 Fujitsu Ltd Audio decoding method, apparatus, and program
JP2010139671A (en) * 2008-12-11 2010-06-24 Fujitsu Ltd Audio decoding apparatus, method, and program
JP2013205831A (en) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> Voice quality objective evaluation device and method
JP2018063135A (en) * 2016-10-12 2018-04-19 日本電信電話株式会社 Evaluation test planning device, subjective evaluation device, method for these devices, and program
JP2022039104A (en) * 2020-08-27 2022-03-10 日本電信電話株式会社 Learning device, learning method, estimation device, estimation method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS622286A (en) * 1985-06-27 1987-01-08 松下電器産業株式会社 Pronounciation practicing apparatus
JPS63273895A (en) * 1987-05-06 1988-11-10 松下電器産業株式会社 Sound quality evaluator for highly efficient voice note decoder
JPH02153397A (en) * 1988-12-06 1990-06-13 Nec Corp Voice recording device
JPH0359700A (en) * 1989-07-28 1991-03-14 Toshiba Corp Vector quantization system for predictive residue signal
JPH0395600A (en) * 1989-08-16 1991-04-19 Philips Gloeilampenfab:Nv Apparatus and method for voice coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS622286A (en) * 1985-06-27 1987-01-08 松下電器産業株式会社 Pronounciation practicing apparatus
JPS63273895A (en) * 1987-05-06 1988-11-10 松下電器産業株式会社 Sound quality evaluator for highly efficient voice note decoder
JPH02153397A (en) * 1988-12-06 1990-06-13 Nec Corp Voice recording device
JPH0359700A (en) * 1989-07-28 1991-03-14 Toshiba Corp Vector quantization system for predictive residue signal
JPH0395600A (en) * 1989-08-16 1991-04-19 Philips Gloeilampenfab:Nv Apparatus and method for voice coding

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002018889A1 (en) * 2000-08-29 2002-03-07 National Institute Of Advanced Industrial Science And Technology Sound measuring method and device allowing for auditory sense characteristics
US6829939B2 (en) 2000-08-29 2004-12-14 National Institute Of Advanced Industrial Science And Technology Method and apparatus for measuring sound that takes hearing characteristics into consideration
US7203641B2 (en) 2000-10-26 2007-04-10 Mitsubishi Denki Kabushiki Kaisha Voice encoding method and apparatus
US7499856B2 (en) 2002-12-25 2009-03-03 Nippon Telegraph And Telephone Corporation Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors
JP2006522349A (en) * 2003-03-31 2006-09-28 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ Voice quality prediction method and system for voice transmission system
JP2005018076A (en) * 2003-06-25 2005-01-20 Lucent Technol Inc Method of reflecting time/language distortion in objective speech quality assessment
JP2008513834A (en) * 2004-09-20 2008-05-01 ネーデルラントセ オルハニサティー フォール トゥーヘパスト−ナトゥールウェッテンサッペリーク オンデルズック テーエヌオー Frequency compensation for perceptual speech analysis
JP4879180B2 (en) * 2004-09-20 2012-02-22 ネーデルラントセ オルハニサティー フォール トゥーヘパスト−ナトゥールウェッテンサッペリーク オンデルズック テーエヌオー Frequency compensation for perceptual speech analysis
JP2007049462A (en) * 2005-08-10 2007-02-22 Ntt Docomo Inc Apparatus, program, and method for evaluating speech quality
JP2010078915A (en) * 2008-09-26 2010-04-08 Fujitsu Ltd Audio decoding method, apparatus, and program
US8619999B2 (en) 2008-09-26 2013-12-31 Fujitsu Limited Audio decoding method and apparatus
JP2010139671A (en) * 2008-12-11 2010-06-24 Fujitsu Ltd Audio decoding apparatus, method, and program
JP2013205831A (en) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> Voice quality objective evaluation device and method
JP2018063135A (en) * 2016-10-12 2018-04-19 日本電信電話株式会社 Evaluation test planning device, subjective evaluation device, method for these devices, and program
JP2022039104A (en) * 2020-08-27 2022-03-10 日本電信電話株式会社 Learning device, learning method, estimation device, estimation method, and program

Also Published As

Publication number Publication date
JP2953238B2 (en) 1999-09-27

Similar Documents

Publication Publication Date Title
KR101213840B1 (en) Decoding device and method thereof, and communication terminal apparatus and base station apparatus comprising decoding device
KR100427753B1 (en) Method and apparatus for reproducing voice signal, method and apparatus for voice decoding, method and apparatus for voice synthesis and portable wireless terminal apparatus
KR101000345B1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
RU2262748C2 (en) Multi-mode encoding device
JP2964879B2 (en) Post filter
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
JPH11143499A (en) Improved method for switching type predictive quantization
JP3189598B2 (en) Signal combining method and signal combining apparatus
JP2004508596A (en) Output-based objective speech quality evaluation method and apparatus
JP2953238B2 (en) Sound quality subjective evaluation prediction method
JPH0850500A (en) Voice encoder and voice decoder as well as voice coding method and voice encoding method
JPH09152896A (en) Sound path prediction coefficient encoding/decoding circuit, sound path prediction coefficient encoding circuit, sound path prediction coefficient decoding circuit, sound encoding device and sound decoding device
JP2006526161A (en) Audio encoding
JPH07261800A (en) Transformation encoding method, decoding method
JP3144009B2 (en) Speech codec
JP3087591B2 (en) Audio coding device
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
KR0155315B1 (en) Celp vocoder pitch searching method using lsp
US7177802B2 (en) Pitch cycle search range setting apparatus and pitch cycle search apparatus
JPH11504733A (en) Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model
JP3353266B2 (en) Audio signal conversion coding method
CN116052700A (en) Voice coding and decoding method, and related device and system
JP2003157100A (en) Voice communication method and equipment, and voice communication program
Gibson et al. New rate distortion bounds for speech coding based on composite source models
JP3496618B2 (en) Apparatus and method for speech encoding / decoding including speechless encoding operating at multiple rates

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990615