JP2001249698A - Method for acquiring sound encoding parameter, and method and device for decoding sound - Google Patents

Method for acquiring sound encoding parameter, and method and device for decoding sound

Info

Publication number
JP2001249698A
JP2001249698A JP2000060932A JP2000060932A JP2001249698A JP 2001249698 A JP2001249698 A JP 2001249698A JP 2000060932 A JP2000060932 A JP 2000060932A JP 2000060932 A JP2000060932 A JP 2000060932A JP 2001249698 A JP2001249698 A JP 2001249698A
Authority
JP
Japan
Prior art keywords
frequency
band
spectrum
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000060932A
Other languages
Japanese (ja)
Other versions
JP3404350B2 (en
Inventor
Teruo Fumoto
照夫 麓
Seiji Sasaki
佐々木誠司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YRP KOKINO IDOTAI TSUSHIN KENK
YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd
Original Assignee
YRP KOKINO IDOTAI TSUSHIN KENK
YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YRP KOKINO IDOTAI TSUSHIN KENK, YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd filed Critical YRP KOKINO IDOTAI TSUSHIN KENK
Priority to JP2000060932A priority Critical patent/JP3404350B2/en
Publication of JP2001249698A publication Critical patent/JP2001249698A/en
Application granted granted Critical
Publication of JP3404350B2 publication Critical patent/JP3404350B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make a voiced-unvoiced decision resistant to frequency spectrum noise, and to synthesize unvoiced sound having less calculation complexity. SOLUTION: A window length is adaptively adjusted according to a sound fundamental frequency by an adaptive window processing part 101, and a spectrum of a sound segment is obtained by a spectrum calculation part 102. A spectrum power of the sound segment is calculated by a frame energy calculation part 103; a spectrum power of each frequency band dividing the frequency spectrum band is calculated by a band energy calculation part 104; an intensity and width of each harmonics are calculated by a band harmonics amplitude calculation part 106 and a band harmonics width calculation part 107; and the number of the harmonics is calculated by a band harmonics number calculation part 108, and based on these, a voiced sound intensity decision part 109 calculates a voiced sound intensity V[k] of each frequency band. A sound decoding part takes out a section equivalent to the frequency band corresponding to unvoiced sound from a symmetric random series and an asymmetric random series, and converts it into a time-domain signal by an inverse FFT, and then, obtains unvoiced sound of a frame length by linear interpolation.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声信号をデジタ
ル化して所定の時間間隔毎にその特徴を表す音声符号化
パラメータを取得する音声符号化パラメータ取得方法お
よび装置、ならびに、前記音声符号化パラメータに基づ
いて元の音声信号を合成する音声復号方法及び装置に関
するものであり、音声符号化パラメータを符号化して伝
送または蓄積し、伝送先または蓄積先から必要な時に音
声符号化パラメータを復元し、復元した音声符号化パラ
メータから音声信号を合成して音声を伝えるデジタル携
帯電話やデジタル音声蓄積装置などに使用して好適なも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and an apparatus for acquiring a speech coding parameter for digitizing a speech signal and for acquiring a speech coding parameter representing its characteristic at predetermined time intervals, and the speech coding parameter. The present invention relates to a speech decoding method and apparatus for synthesizing an original speech signal based on, and encodes and transmits or stores a speech encoding parameter, and restores a speech encoding parameter when necessary from a transmission destination or a storage destination, The present invention is suitable for use in digital cellular phones, digital voice storage devices, and the like that transmit voice by synthesizing voice signals from restored voice coding parameters.

【0002】[0002]

【従来の技術】デジタル化された音声信号は、データ圧
縮、誤り処理、多重化などさまざまなデジタル信号処理
が可能になるため、固定電話や移動電話に限らず音声を
利用するマルチメディアシステムなどに広く取り入れら
れている。アナログの音声信号をデジタル化するには、
一般に入力音声周波数帯域の2倍以上の標本化周波数で
標本化し、耳に識別できない程度の量子化ステップで量
子化することが必要なため、アナログ信号と比較し広い
伝送周波数帯域幅を必要とする。そのため、一旦デジタ
ル化された音声信号は、要求される音声品質に応じてさ
まざまな符号化方式や変調方式によりデータの圧縮が行
われている。音声の持つ特徴を積極的に利用する事によ
り、効率的な圧縮を行う事が出来る。例えば、適応型差
分パルス符号変調(ADPCM)方式は音声波形の周期
性や人間の聴覚感度の対数特性を利用した波形符号化方
式で、128kbpsのデジタル音声を32kbps程度に圧縮
して圧縮前と変わらない音声品質を得ており、電話の基
幹伝送やPHSシステムに利用されている。波形符号化
方式は標本化点を最低1ビットで表現するものであるた
め、標本化周波数が8KHzの場合では原理的に8kbps以
下に音声符号化速度を下げる事は出来ない。
2. Description of the Related Art Digitized audio signals can be subjected to various digital signal processing such as data compression, error processing, and multiplexing. Widely adopted. To digitize analog audio signals,
In general, it is necessary to sample at a sampling frequency twice or more the input audio frequency band and quantize it in a quantization step that cannot be discerned by ears, so that a wider transmission frequency bandwidth is required compared to analog signals. . Therefore, the audio signal once digitized is subjected to data compression by various coding methods and modulation methods according to the required sound quality. Efficient compression can be achieved by actively utilizing the features of audio. For example, the adaptive differential pulse code modulation (ADPCM) method is a waveform coding method that utilizes the periodicity of a sound waveform and the logarithmic characteristic of human auditory sensitivity, and compresses 128 kbps digital sound to about 32 kbps, which is the same as before compression. It has no voice quality and is used for backbone transmission of telephones and PHS systems. In the waveform coding method, the sampling point is represented by at least one bit, so that if the sampling frequency is 8 KHz, the speech coding speed cannot be reduced to 8 kbps or less in principle.

【0003】低い音声符号化速度を得るために、音声を
所定の時間間隔のセグメントに分割し、そのセグメント
毎に、音声合成パラメータと残差音源信号を伝送する符
号励振線形予測(CELP)を基本とする方式がある。
日本の携帯無線電話で用いられているVSELPやPS
I−CELP方式は、20msecや40msec間隔の音声信
号の線形予測分析により得られる人間の声道フィルタ特
性を近似する線形予測係数(LPC)と、聴感的に入力
音声に近い波形を合成する事が出来る残差音源信号を符
号化する事で低い音声符号化速度を実現している。また
残差音源信号を効率良く符号化するために、複数の残差
音源波形を持った符号帳を用意し、その符合帳のエント
リ番号と利得を伝送している。これらの詳細は電波産業
会の規格書RCR−STD27Fに詳しく記載されてい
る。このCELPを基本とする方式は、適切な大きさの
符合帳をうまく設計する事で音声符号化速度3〜4kbps
程度まで実現されている。
[0003] In order to obtain a low speech coding rate, speech is divided into segments at predetermined time intervals, and for each segment, code excitation linear prediction (CELP) for transmitting speech synthesis parameters and a residual excitation signal is used. There is a method.
VSELP and PS used in Japanese mobile radio telephones
The I-CELP method is capable of synthesizing a linear prediction coefficient (LPC) approximating human vocal tract filter characteristics obtained by linear prediction analysis of a speech signal at intervals of 20 msec or 40 msec, and a waveform that is audibly similar to the input speech. By encoding the possible residual excitation signal, a low speech encoding speed is realized. Further, in order to efficiently code the residual excitation signal, a codebook having a plurality of residual excitation waveforms is prepared, and the entry number and gain of the codebook are transmitted. The details of these are described in detail in the standard specification RCR-STD27F of the Association of Radio Industries and Businesses. The method based on CELP is based on the design of a codebook of appropriate size, and the speech coding speed is 3-4kbps.
To a degree.

【0004】更に低い音声符号化速度を得るために、音
声合成パラメータのみを伝送して上記のCELP方式に
おける音源符合帳を用いない音声符号化を行う方式があ
る。米国国防省の標準音声符号化方式のFS−1015
は、ピッチ周波数、LPC係数、ルート二乗平均振幅、
有声/無声判定情報の音声合成パラメータにより音声符
号化・復号を行うLPCボコーダ(Vocoder)方式の音
声符号化方式で、2.4kbpsの音声符号化速度を得てい
る。この方式は音声の特徴を積極的に利用しているが、
合成音声的な音質になり、特に背景雑音下で復号音声品
質が著しく劣化する欠点を有していた。また、衛星携帯
電話に一部使用されているIMBE(Improved Multiba
nd Excitation)方式は、音声時間セグメントを周波数
領域に変換して音声ピッチ、音声ハーモニクス振幅、周
波数帯域を複数に分割した周波数バンドの有声/非有声
情報で音声符号化を行う方式で、音声セグメントの各バ
ンド毎に有声音モデルと無声音モデルを選択して合成す
るために、背景雑音下や混合音声の場合にも合成音声の
劣化が少なく、前記LPCボコーダに比べて優れている
と報告されている。
[0004] In order to obtain a lower voice coding speed, there is a method in which only the voice synthesis parameters are transmitted to perform voice coding without using a sound source codebook in the CELP system. The US Department of Defense's standard voice coding system, FS-1015.
Is the pitch frequency, LPC coefficient, root mean square amplitude,
The voice coding method of the LPC vocoder (Vocoder) that performs voice coding / decoding using voice synthesis parameters of voiced / unvoiced determination information has obtained a voice coding speed of 2.4 kbps. Although this method actively uses the characteristics of speech,
The sound quality is like synthesized speech, and there is a disadvantage that the decoded speech quality is significantly deteriorated especially under background noise. In addition, IMBE (Improved Multiba
The nd Excitation method is a method of converting a speech time segment into a frequency domain and performing speech coding on voice pitch, speech harmonic amplitude, and voiced / unvoiced information in a frequency band obtained by dividing a frequency band into a plurality of parts. Since a voiced sound model and an unvoiced sound model are selected and synthesized for each band, the synthesized voice is less deteriorated even under background noise or mixed voice, and is reported to be superior to the LPC vocoder. .

【0005】図14は、一般的な音声符号化伝送装置の
構成を示した図である。音声符号化パラメータ抽出部3
02は音声入力端子301から入力された標本化・量子
化された音声デジタル信号を、所定の時間間隔のセグメ
ントに分割し、そのセグメント毎に音声符号化パラメー
タを抽出する。抽出する音声符号化パラメータは音声符
号化方式により決定され、例えば前記のIMBE方式で
は、音声ピッチ、音声ハーモニクスの振幅、各周波数バ
ンドの有声/無声情報である。パラメータ符号化部30
3は、抽出した音声符号化パラメータを効果的に符号化
して符号量を低減せしめ、送信部304を介して伝送路
305に送り出す。パラメータ復号化部307は受信部
306で受け取った符号を復号して音声符号化パラメー
タを復元し、音声合成部308は音声符号化パラメータ
抽出部の動作と逆の動作により合成音声を作成し音声出
力端子309から音声デジタル信号を出力する。
FIG. 14 is a diagram showing a configuration of a general speech coded transmission device. Speech coding parameter extraction unit 3
Reference numeral 02 divides the sampled and quantized audio digital signal input from the audio input terminal 301 into segments at predetermined time intervals, and extracts audio encoding parameters for each segment. The speech coding parameters to be extracted are determined by the speech coding method. For example, in the above-mentioned IMBE method, the sound pitch, the amplitude of the sound harmonics, and the voiced / unvoiced information of each frequency band. Parameter encoding unit 30
3 effectively encodes the extracted speech encoding parameters to reduce the code amount, and sends out the extracted speech encoding parameters to the transmission path 305 via the transmission unit 304. The parameter decoding unit 307 decodes the code received by the receiving unit 306 to restore the speech coding parameters, and the speech synthesis unit 308 creates a synthesized speech by the operation reverse to the operation of the speech coding parameter extraction unit, and outputs the speech. An audio digital signal is output from the terminal 309.

【0006】図15は前記IMBE方式の場合における
前記音声符号化パラメータ抽出部302の内部構成図で
ある。デジタル入力音声信号301は基本周波数推定部
401に入力され、ここで音声の基本周波数が推定され
る。基本周波数の推定には、自己相関関数や周波数スペ
クトルの対数の逆フーリエ変換であるケプストラムのピ
ークを検出する方法など多くの方法があり、例えば、古
井著「デジタル音声処理」東海大学出版会、1985年
9月25日 等に記載されている。周波数スペクトル計
算部402では、ハミング窓等の窓関数により切り出し
た有限長の音声セグメントを周波数分析して音声周波数
スペクトルを得る。基本周波数修正部403は、前記基
本周波数推定部401で推定された音声基本周波数の近
傍の周波数範囲でA−b−S(Analysis-by-Synthesi
s)手法により合成スペクトルと前記周波数スペクトル
計算部402で算出した音声周波数スペクトルとの誤差
最小条件により修正した基本周波数ωoを得る。有声強
度計算部404は該修正された基本周波数ωoに基づい
て、周波数帯域を複数の周波数バンド(周波数区間)k
(k=1,2,...,K)に分割し、各周波数バンド毎に合成さ
れた合成スペクトルと音声周波数スペクトルの誤差を計
算し、閾値判定により有声/無声情報V[k]を出力す
る。スペクトル包絡計算部405は有声/無声情報V
[k]により、有声バンドではA−b−S手法で求めた各
ハーモニクスの振幅、無声バンドでは各ハーモニクスの
持つ周波数帯域での周波数スペクトルのルート二乗平均
値(RMS値)をスペクトル包絡絶対値|A(ω)|として
出力する。
FIG. 15 is a diagram showing the internal configuration of the speech coding parameter extraction unit 302 in the case of the IMBE system. The digital input audio signal 301 is input to the fundamental frequency estimator 401, where the fundamental frequency of the audio is estimated. There are many methods for estimating the fundamental frequency, such as a method of detecting a peak of a cepstrum, which is an inverse Fourier transform of an autocorrelation function or a logarithm of a frequency spectrum. For example, Furui, “Digital Speech Processing,” Tokai University Press, 1985 On September 25, 2005. The frequency spectrum calculation unit 402 obtains a voice frequency spectrum by frequency-analyzing a finite-length voice segment cut out by a window function such as a Hamming window. The fundamental frequency correction unit 403 performs an AbS (Analysis-by-Synthesi) in a frequency range near the speech fundamental frequency estimated by the fundamental frequency estimation unit 401.
s) A fundamental frequency ωo corrected by the method with a minimum error condition between the synthesized spectrum and the voice frequency spectrum calculated by the frequency spectrum calculator 402 is obtained. Based on the corrected fundamental frequency ωo, the voiced intensity calculation unit 404 divides the frequency band into a plurality of frequency bands (frequency sections) k
(K = 1,2, ..., K), calculate the error between the synthesized spectrum synthesized for each frequency band and the voice frequency spectrum, and output voiced / unvoiced information V [k] by threshold decision I do. The spectrum envelope calculator 405 calculates the voiced / unvoiced information V
[k], the root-mean-square value (RMS value) of the frequency spectrum in the frequency band of each harmonic in the voiced band and the amplitude of each harmonic obtained by the AbS method in the voiced band, and the spectral envelope absolute value | A (ω) |

【0007】図16は、前記IMBE方式の場合におけ
る前記音声合成部308の内部構成を示す図である。こ
の図に示すように、音声合成部308は、有声音声合成
部508と無声音声合成部509に大別される。有声音
声合成部508において、高調波音源部501では、有
声/無声情報V[k]と基本周波数ωoにより、有声と判定
される周波数区間において、基本周波数ωoとその高調
波の音源をスペクトル包絡|A(ω)|に対応する振幅で駆
動して複数の音源信号を生成する。高調波加算部502
では高調波音源部501で発生した複数の音源信号を加
算合成し、有声バンドに対応する音声信号を生成する。
また、無声音声合成部509において、雑音音源部50
3は、白色雑音を生成し、周波数変換部504で適当な
窓関数により処理した後、フーリエ変換(FFT)して
周波数領域の信号に変換する。雑音抽出部505で、周
波数領域の信号に変換された白色雑音からV[k]により
無声と指定された周波数バンドの白色雑音スペクトルを
取りだし、スペクトル包絡|A(ω)|の周波数バンド毎の
パワーに一致する様に各スペクトルの振幅を調整する。
逆周波数変換部506では無声バンドに対応する雑音区
間の周波数スペクトルを逆フーリエ変換(IFFT)す
ることにより音声波形に変換する。加算部507では、
有声音声合成部508の高調波加算部502からの有声
音声波形と、無声音声合成部509の逆周波数変換部5
06で時間軸波形信号に変換した無声音声波形とを加算
し、最終的な有声音と無声音を持った合成音声を得てい
る。このIMBE方式の詳細は、”Multiband Excitati
on Vocoder”, IEEETransactions on Acoustics,speec
h, and signal processing, vol.36,No.8,August 1988,
pp1223-1235に詳しく記載されている。このように、音
声をデジタル化して低ビットレートの音声符号化を実現
する方法として、音声合成モデルに基づく音声符号化パ
ラメータを抽出して符号化を行うIMBE方式等の分析
合成型の音声符号化方式が提案されている。
FIG. 16 is a diagram showing the internal configuration of the voice synthesizer 308 in the case of the IMBE system. As shown in this figure, the speech synthesis section 308 is roughly divided into a voiced speech synthesis section 508 and an unvoiced speech synthesis section 509. In the voiced speech synthesizer 508, the harmonic source 501 generates the spectral envelope of the fundamental frequency ωo and its harmonics in a frequency section determined to be voiced based on the voiced / unvoiced information V [k] and the fundamental frequency ωo. Driving with an amplitude corresponding to A (ω) | generates a plurality of sound source signals. Harmonic adder 502
Then, a plurality of sound source signals generated by the harmonic sound source unit 501 are added and synthesized to generate an audio signal corresponding to a voiced band.
In the unvoiced speech synthesizer 509, the noise source 50
Reference numeral 3 generates white noise, processes the white noise with an appropriate window function in the frequency conversion unit 504, and converts the noise into a signal in the frequency domain by Fourier transform (FFT). The noise extractor 505 extracts the white noise spectrum of the frequency band designated as unvoiced by V [k] from the white noise converted into the frequency domain signal, and obtains the power of the spectrum envelope | A (ω) | The amplitude of each spectrum is adjusted to match.
The inverse frequency conversion unit 506 converts the frequency spectrum of the noise section corresponding to the unvoiced band into a speech waveform by performing an inverse Fourier transform (IFFT). In the addition unit 507,
The voiced speech waveform from the harmonic addition unit 502 of the voiced speech synthesis unit 508 and the inverse frequency conversion unit 5 of the unvoiced speech synthesis unit 509
At step 06, the unvoiced voice waveform converted into the time-axis waveform signal is added to obtain a final synthesized voice having a voiced voice and an unvoiced voice. The details of this IMBE method are described in “Multiband Excitati
on Vocoder ”, IEEETransactions on Acoustics, speec
h, and signal processing, vol.36, No.8, August 1988,
It is described in detail in pp1223-1235. As described above, as a method of realizing low-bit-rate voice coding by digitizing voice, analysis-synthesis-type voice coding such as an IMBE method in which voice coding parameters based on a voice synthesis model are extracted and coded. A scheme has been proposed.

【0008】[0008]

【発明が解決しようとする課題】以上述べた様に、低ビ
ットレート音声符号化のためには分析合成型の音声符号
化方式が有効であるが、残差音源信号を用いず音声合成
パラメータでのみ音声の合成を行うため、符号化方式に
よっては合成音的な音質になりやすい。低ビットレート
音声符号化を実現する分析合成型の音声符号化としての
IMBE方式は、入力音声をセグメントに分割して音声
フレームを切り出し、フレームの周波数帯域を複数のバ
ンドに分割してそのバンドに含まれる周波数成分が有声
か無声かを判定し、バンド毎に有声音合成モデルと無声
音合成モデルを設定し、それらを加算して合成音声を得
る事で、背景雑音等が入った有声音や、有声と無声の混
在したフレームでの合成音声品質を改善している。符号
化パラメータとしての、音声基本周波数(音声ピッ
チ)、有声/無声情報、スペクトル包絡情報の推定の正
確さは、再生音声の品質を決める上で重要である。音声
基本周波数は前述の自己相関法により求める事も出来る
が、上記IMBE方式では整数倍ピッチまで拡張した自
己相関関数で評価を行い1/2ピッチ精度で基本周波数
推定を行う方法が示されている。また、スペクトル包絡
を求めるには、抽出された基本周波数ωoと周波数分析
窓の周波数スペクトルを用いて前述のA―b−S手法で
推定されるが、前記推定された基本周波数の精度ではス
ペクトル包絡の推定には精度が不足するため、推定基本
周波数の近傍を1/4ピッチ精度で探索しながらスペク
トル包絡を同時に推定する手法を取っている。
As described above, an analysis-synthesis type speech coding method is effective for low bit rate speech coding. However, a speech synthesis parameter is used without using a residual excitation signal. Since only speech is synthesized, the sound quality tends to be a synthesized sound depending on the encoding method. The IMBE method as an analysis-synthesis-type speech coding that realizes a low bit rate speech coding divides an input speech into segments, cuts out a speech frame, divides a frequency band of the frame into a plurality of bands, Judgment of whether the included frequency component is voiced or unvoiced, a voiced sound synthesis model and an unvoiced sound synthesis model are set for each band, and a synthesized voice is obtained by adding the voiced sound synthesis model and the unvoiced sound synthesis model. It improves the quality of synthesized speech in mixed voiced and unvoiced frames. The accuracy of estimating the speech fundamental frequency (speech pitch), voiced / unvoiced information, and spectrum envelope information as encoding parameters is important in determining the quality of reproduced speech. Although the voice fundamental frequency can be obtained by the autocorrelation method described above, the IMBE method describes a method in which evaluation is performed using an autocorrelation function expanded to an integral multiple of the pitch, and the fundamental frequency is estimated with 1/2 pitch accuracy. . Further, the spectrum envelope is obtained by the above-described AbS method using the extracted fundamental frequency ωo and the frequency spectrum of the frequency analysis window. However, the spectral envelope is not accurate with the accuracy of the estimated fundamental frequency. Since the accuracy of the estimation is insufficient, a method of simultaneously estimating the spectral envelope while searching for the vicinity of the estimated fundamental frequency with a quarter pitch accuracy is employed.

【0009】このスペクトル包絡を求める手順は以下の
とおりである。まず、入力音声セグメントの信号s(n)
を周波数分析窓wR(n)で範囲を−110から110サン
プルに制限した後、256段のFFTにより周波数スペ
クトルSw(m)を式(1)により得る。
The procedure for obtaining the spectrum envelope is as follows. First, the input audio segment signal s (n)
Is limited to -110 to 110 samples by the frequency analysis window w R (n), and the frequency spectrum S w (m) is obtained by equation (1) by 256-stage FFT.

【数1】 次に、基本周波数ωoのL次高調波(L=1,2,...,Lma
x;(Lmax+0.5)・ωo<2π)を中心周波数として上記周
波数分析窓wR(n)の周波数スペクトルEw(ω)の広がり
を持ち、式(2)で示す包絡値ALのスペクトルの総和
で上記音声セグメントのスペクトルSw(m)を近似し、そ
の個々の高調波の包絡値ALを求める。
(Equation 1) Next, the L-order harmonic of the fundamental frequency ωo (L = 1, 2,..., Lma
x; (Lmax + 0.5) · ωo <2π) as a center frequency, has a spread of the frequency spectrum E w (ω) of the frequency analysis window w R (n), and has a spectrum of an envelope value A L represented by the equation (2). in sum approximates the spectrum S w (m) of the speech segment, obtaining an envelope value a L of the individual harmonics.

【数2】 (Equation 2)

【0010】この時、ωoを1/4ピッチ精度で変化さ
せながら、誤差最小二乗法で各高調波の包絡値ALを算
出し、求まったωoとALによりスペクトル誤差評価値E
(ωo)
At this time, while changing ωo with 1 / pitch accuracy, the envelope value A L of each harmonic is calculated by the error least squares method, and the spectral error evaluation value E is calculated based on the obtained ωo and A L.
(ωo)

【数3】 が最小となるωoを基本周波数修正値とし、その時の各
高調波の振幅ALをスペクトル包絡値とする。また、
(4)式に示すスペクトル誤差相対値Dkを閾値判定す
る事により各周波数帯域(al〜bl)の有声強度を推定
している。
(Equation 3) There the ωo which minimizes the fundamental frequency correction value, the amplitude A L of each harmonic when the spectral envelope value. Also,
The voiced intensity of each frequency band (al to bl) is estimated by determining the spectral error relative value Dk shown in the equation (4) as a threshold value.

【数4】 (Equation 4)

【0011】ここで、ωoを探索する場合の変化ステッ
プと、実際の音声基本周波数の誤差が判定結果に及ぼす
影響について考察する。音声基本周波数は、個人や男女
により開きはあるが、男性では中心が約125Hz、女性
は約2倍の基本周波数を持ち、全体で70Hzから400
Hzの範囲にある。また評価する基本周波数の誤差はL次
高調波ではL倍の周波数誤差に拡大される。表1は音声
基本周波数ωo(=2πfo)のピッチ誤差ΔPにより発
生する周波数誤差Δfと2kHz付近の高調波領域での周
波数誤差Δf(2kHz)を式(5)により計算したもので
ある。ここでfsは音声セグメントの標本化周波数であ
る。
Here, the change step in searching for ωo and the effect of an error in the actual voice fundamental frequency on the determination result will be considered. Although the voice fundamental frequency varies depending on individuals and men and women, the center frequency is about 125 Hz for men and about twice as high for women, and a total of 70 Hz to 400 Hz.
In the range of Hz. The error of the fundamental frequency to be evaluated is expanded to L times the frequency error of the L-th harmonic. Table 1 shows the calculation of the frequency error Δf generated by the pitch error ΔP of the fundamental voice frequency ωo (= 2πfo) and the frequency error Δf (2 kHz) in the harmonic region near 2 kHz by the equation (5). Here, fs is the sampling frequency of the audio segment.

【数5】 (Equation 5)

【0012】[0012]

【表1】 [Table 1]

【0013】表1からわかるように実際の音声基本周波
数(音声ピッチ)の推定誤差ΔPが1ピッチの場合で
は、2kHz付近の高調波の周波数誤差は±25〜±75H
zまで及び、256段FFTで周波数分析した場合のス
ペクトル間隔8000/256=31.25Hz以上になる。また、f
o=300Hzでは、ΔPが0.5ピッチの時に2kHz付近の高調
波スペクトル誤差は38Hzになり、ΔPが0.25の場合によ
うやく19Hzになる。一方、周波数分析窓をハミング窓と
して式(4)で計算したFFT256段の場合のスペク
トル評価誤差を図17に示す。例えば、fo=275Hzの基
本周波数を持つ標準的な女性の場合、基本周波数ピッチ
はPi=29であるが、基本周波数の推定をPi=28と
推定し、−1ピッチの誤差があった場合、推定した基本
周波数はfo=8000/(29-1)=285.7(Hz)、基本周波数誤
差はΔfo=10.7Hzになり、図17より正規化スペクト
ル誤差Dk=0.1になる。更に、推定ピッチPi=27の
場合では、−2ピッチの推定誤差、基本周波数誤差は2
1Hzになり、Dk=0.3になり、正規化スペクトル誤差に
よる有声/無声判定へ与える影響が大きい。さらに、ハ
ーモニクス高調波の場合には基本周波数誤差は高調波次
数分拡大される。例えば1/4ピッチ誤差の場合では、
推定基本周波数は8000/(29-0.25)=278.26(Hz)にな
り、基本周波数誤差Δfo=3.26Hzであるが、2kHz付近
では2000/275倍拡大して23.7Hzの周波数誤差になり、
図17より正規化スペクトル誤差は0.01程度から0.35以
上にまで拡大し、有声/無声判定誤りの原因となる。有
声/無声情報やスペクトル包絡情報は音声セグメント全
体を特徴づけるパラメータでもあり、これらの推定の誤
りは、既に述べた様に符号化音声の品質に与える影響が
大きい。
As can be seen from Table 1, when the estimated error ΔP of the actual voice fundamental frequency (voice pitch) is one pitch, the frequency error of the harmonic near 2 kHz is ± 25 to ± 75H.
up to z, and the spectrum interval 8000/256 = 31.25 Hz or more when frequency analysis is performed by 256-stage FFT. Also, f
At o = 300 Hz, when ΔP is 0.5 pitch, the harmonic spectrum error around 2 kHz becomes 38 Hz, and finally becomes 19 Hz when ΔP is 0.25. On the other hand, FIG. 17 shows a spectrum evaluation error in the case of 256 steps of FFT calculated by the equation (4) using the frequency analysis window as the Hamming window. For example, for a standard woman with a fundamental frequency of fo = 275 Hz, the fundamental frequency pitch is Pi = 29, but if the fundamental frequency is estimated to be Pi = 28 and there is an error of -1 pitch, The estimated fundamental frequency is fo = 8000 / (29-1) = 285.7 (Hz), the fundamental frequency error is Δfo = 10.7 Hz, and the normalized spectral error Dk = 0.1 from FIG. Further, in the case of the estimated pitch Pi = 27, the estimation error of the -2 pitch and the fundamental frequency error are 2
1 Hz, Dk = 0.3, and the effect of the normalized spectral error on voiced / unvoiced determination is large. Further, in the case of harmonic harmonics, the fundamental frequency error is enlarged by the harmonic order. For example, in the case of a 1/4 pitch error,
The estimated fundamental frequency is 8000 / (29-0.25) = 278.26 (Hz), and the fundamental frequency error Δfo = 3.26 Hz. However, in the vicinity of 2 kHz, the frequency error is enlarged by 2000/275 times to 23.7 Hz.
According to FIG. 17, the normalized spectral error increases from about 0.01 to 0.35 or more, which causes a voiced / unvoiced determination error. Voiced / unvoiced information and spectral envelope information are also parameters that characterize the entire speech segment, and these estimation errors have a large effect on the quality of the encoded speech as described above.

【0014】また、IMBE方式における音声復号にお
いては、前記図16に示したように、無声音ではランダ
ム雑音音源を周波数変換(FFT)し、音声符号化パラ
メータにより指示された無声音の周波数範囲のみ抽出し
た後、逆周波数変換(IFFT)して無声音の音声を合
成している。この場合、周波数変換が2段必要であり、
特に、符号化音声品質を高めるため音声セグメントの更
新周期を短く設定した場合に演算負荷が大きいという欠
点がある。
In voice decoding in the IMBE system, as shown in FIG. 16, for unvoiced sound, a random noise source is frequency-converted (FFT), and only the frequency range of the unvoiced sound specified by the voice coding parameter is extracted. After that, an unvoiced sound is synthesized by inverse frequency conversion (IFFT). In this case, two stages of frequency conversion are required,
In particular, when the update period of the audio segment is set short in order to improve the encoded voice quality, there is a disadvantage that the calculation load is large.

【0015】そこで、本発明は、音声基本周波数の変化
に係らず、高精度の有声強度判定を行うことができ、ス
ペクトル雑音に対し誤り耐性の強い音声符号化方法およ
び装置を提供することを目的としている。また、演算負
荷の小さな音声復号方法および装置を提供することを目
的としている。
It is an object of the present invention to provide a speech encoding method and apparatus capable of performing highly accurate voiced intensity determination regardless of a change in speech fundamental frequency and having high error tolerance to spectral noise. And It is another object of the present invention to provide a speech decoding method and apparatus with a small calculation load.

【0016】[0016]

【課題を解決するための手段】上記目的を達成するため
に、本発明の音声符号化パラメータの取得方法は、デジ
タル化された音声信号を、ある一定の繰り返し周期で、
所定のセグメント長で抜き取った音声セグメントから音
声符号化パラメータを取得する音声符号化パラメータの
取得方法であって、前記音声セグメントから音声基本周
波数を取得するステップ、前記音声基本周波数により決
定される可変長の適応窓により前記音声信号を抜き取っ
た可変長セグメントから第1の周波数スペクトルを取得
するステップ、前記音声信号を固定長の窓により抜き取
った固定長セグメントから第2の周波数スペクトルを取
得するステップ、前記第1の周波数スペクトルを複数の
周波数バンドに分割するステップ、前記第1の周波数ス
ペクトルの周波数スペクトルパワー、前記各周波数バン
ドの周波数スペクトルパワー、前記各周波数バンドに含
まれるハーモニクス数、各ハーモニクスのハーモニクス
振幅およびハーモニクス帯域幅により前記各周波数バン
ド毎の有声強度を決定するステップ、および、前記第2
の周波数スペクトルから前記音声基本周波数の整数倍の
周波数を中心としてその周波数帯域幅が音声基本周波数
になる様に分割した各ハーモニクス帯域のスペクトルパ
ワーを計算するステップを含むものである。また、前記
可変長の適応窓の長さは、前記可変長の適応窓の周波数
スペクトル分布の帯域幅と前記音声基本周波数の関係に
より決定されるものである。さらに、前記可変長の適応
窓は、前記音声基本周波数に対応する周期の4倍以上の
長さを持つハミング窓とされている。
In order to achieve the above object, a method for obtaining a speech coding parameter according to the present invention comprises the steps of:
A method for obtaining a voice coding parameter from a voice segment extracted at a predetermined segment length, comprising: obtaining a voice basic frequency from the voice segment; a variable length determined by the voice basic frequency. Obtaining a first frequency spectrum from a variable-length segment from which the audio signal is extracted by an adaptive window, obtaining a second frequency spectrum from a fixed-length segment from the audio signal by a fixed-length window, Dividing the first frequency spectrum into a plurality of frequency bands, frequency spectrum power of the first frequency spectrum, frequency spectrum power of each frequency band, number of harmonics included in each frequency band, harmonic amplitude of each harmonic band And harmo Determining a voiced strength for each of the respective frequency bands by box bandwidth, and the second
And calculating the spectral power of each of the harmonics bands divided so that the frequency bandwidth becomes the audio fundamental frequency from the frequency spectrum of the audio fundamental frequency. The length of the variable-length adaptive window is determined by the relationship between the bandwidth of the frequency spectrum distribution of the variable-length adaptive window and the fundamental voice frequency. Further, the variable-length adaptive window is a Hamming window having a length four times or more the period corresponding to the voice fundamental frequency.

【0017】さらにまた、本発明の音声復号方法は、デ
ジタル化された音声信号を、ある一定の繰り返し周期で
抜き取った音声セグメントの音声基本周波数と、該音声
セグメントの周波数スペクトルを音声基本周波数の整数
倍を中心としてその周波数帯域幅が音声基本周波数にな
る様に分割した各ハーモニクス帯域のスペクトルパワー
と、前記音声セグメントの周波数スペクトルを複数の周
波数バンドに分割した各周波数バンドが有声音か無声音
かを判別した判別情報からなる音声符号化パラメータに
よって音声を合成する音声復号方法であって、前記判別
情報が有声を示す前記周波数バンドでは、その中心周波
数が前記音声基本周波数の整数倍の周波数を持ち、且
つ、対応する前記ハーモニクス帯域のスペクトルパワー
と同等になる振幅を持った正弦波群を生成し、また、前
記判別情報が無声を示す周波数バンドでは、中心対称ラ
ンダム系列と中心反対称ランダム系列を雑音信号の周波
数スペクトル系列の実部と虚部と見なし、前記2つのラ
ンダム系列から該周波数バンドに対応する区間を抽出
し、対応する前記ハーモニクス帯域のスペクトルパワー
と同じになる様に振幅調整した後、逆フーリエ変換によ
りその実部を得て無声フレーム信号とし、1つ前のセグ
メントの無声フレーム信号と今回得た前記無声フレーム
信号間で線形補間することにより無声音声を生成した
後、前記生成した正弦波群と加算して合成音声を得るも
のである。
Still further, according to the speech decoding method of the present invention, a speech fundamental frequency of a speech segment obtained by extracting a digitized speech signal at a certain repetition period, and a frequency spectrum of the speech segment are converted to integers of the speech fundamental frequency. Spectral power of each harmonic band divided so that its frequency bandwidth becomes the audio fundamental frequency around the frequency, and whether each frequency band obtained by dividing the frequency spectrum of the audio segment into a plurality of frequency bands is voiced or unvoiced. A speech decoding method for synthesizing a speech by a speech encoding parameter including discriminated discrimination information, wherein the discrimination information indicates a voiced frequency band, the center frequency of which has an integer multiple of the voice fundamental frequency, And an amplitude that is equivalent to the spectral power of the corresponding harmonics band. In a frequency band in which the discrimination information indicates unvoiced, the center symmetric random sequence and the central antisymmetric random sequence are regarded as the real part and the imaginary part of the frequency spectrum sequence of the noise signal. A section corresponding to the frequency band is extracted from the two random sequences, and the amplitude is adjusted so as to be the same as the spectral power of the corresponding harmonics band. Then, the real part is obtained by an inverse Fourier transform to obtain an unvoiced frame signal. After generating unvoiced speech by linear interpolation between the unvoiced frame signal of the previous segment and the currently obtained unvoiced frame signal, the synthesized voice is obtained by adding the generated unvoiced speech to the generated sine wave group.

【0018】さらにまた、本発明の音声符号化パラメー
タの取得装置は、デジタル化された音声信号を、ある一
定の繰り返し周期で、所定のセグメント長で抜き取った
音声セグメントから音声符号化パラメータを取得する音
声符号化パラメータの取得装置であって、前記音声セグ
メントから音声基本周波数を取得する手段、前記音声基
本周波数により決定される可変長の適応窓により前記音
声信号を抜き取った可変長セグメントにより第1の周波
数スペクトルを取得する手段、前記音声信号を固定長の
窓により抜き取った固定長セグメントにより第2の周波
数スペクトルを取得する手段、前記第1の周波数スペク
トルを複数の周波数バンドに分割する手段、前記第1の
周波数スペクトルから周波数スペクトルパワー、前記各
周波数バンドの周波数スペクトルパワー、前記各周波数
バンドに含まれるハーモニクス数、各ハーモニクスのハ
ーモニクス振幅およびハーモニクス帯域幅により前記各
周波数バンド毎の有声強度を決定する手段、および、前
記第2の周波数スペクトルから前記音声基本周波数の整
数倍の周波数を中心としてその周波数帯域幅が音声基本
周波数になる様に分割した各ハーモニクス帯域のスペク
トルパワーを計算する手段を有するものである。
Still further, the voice coding parameter obtaining apparatus of the present invention obtains voice coding parameters from voice segments extracted from a digitized voice signal at a certain repetition period and a predetermined segment length. A speech encoding parameter acquisition device, comprising: means for acquiring a speech fundamental frequency from the speech segment; a variable length segment obtained by extracting the speech signal by a variable length adaptive window determined by the speech fundamental frequency. Means for obtaining a frequency spectrum, means for obtaining a second frequency spectrum by a fixed-length segment obtained by extracting the audio signal by a fixed-length window, means for dividing the first frequency spectrum into a plurality of frequency bands, 1 from the frequency spectrum, the frequency spectrum power of each frequency band. Means for determining the voiced intensity of each frequency band based on the number spectral power, the number of harmonics included in each frequency band, the harmonics amplitude of each harmonic, and the harmonics bandwidth, and the voice fundamental frequency from the second frequency spectrum. And a means for calculating the spectral power of each of the harmonics bands divided so that the frequency bandwidth becomes the voice fundamental frequency centered on a frequency that is an integral multiple of.

【0019】さらにまた、本発明の音声復号装置は、デ
ジタル化された音声信号を、ある一定の繰り返し周期で
抜き取った音声セグメントの音声基本周波数と、該音声
セグメントの周波数スペクトルを音声基本周波数の整数
倍を中心としてその周波数帯域幅が音声基本周波数にな
る様に分割した各ハーモニクス帯域のスペクトルパワー
と、前記音声セグメントの周波数スペクトルを複数の周
波数バンドに分割した各周波数バンドが有声音か無声音
かを判別した判別情報からなる音声符号化パラメータに
よって音声を合成する音声復号装置であって、前記判別
情報が有声を示す前記周波数バンドでは、その中心周波
数が前記音声基本周波数の整数倍の周波数を持ち、且
つ、対応する前記ハーモニクス帯域のスペクトルパワー
と同等になる振幅を持った正弦波群を生成する手段、中
心対称ランダム系列と中心反対称ランダム系列の雑音信
号を発生する手段、前記2つのランダム系列から前記判
別情報が無声を示す前記周波数バンドに対応する区間を
抽出する手段、抽出したランダム系列の雑音信号を、そ
のスペクトルパワーが前記判別情報が無声を示す前記周
波数バンドに対応するハーモニクス帯域のスペクトルパ
ワーと同じになる様に振幅調整する手段、該振幅調整さ
れたランダム系列の雑音信号を逆フーリエ変換し、無声
フレーム信号を生成する手段、1つ前のセグメントの無
声フレーム信号と今回の無声フレーム信号を線形補間す
ることにより無声音声を生成する手段、および、前記生
成された正弦波群と生成された無声音声を加算する手段
を有するものである。
Still further, the speech decoding apparatus of the present invention further comprises a speech fundamental frequency of a speech segment obtained by extracting a digitized speech signal at a certain repetition period, and a frequency spectrum of the speech segment as an integer of the speech fundamental frequency. Spectral power of each harmonic band divided so that its frequency bandwidth becomes the audio fundamental frequency around the frequency, and whether each frequency band obtained by dividing the frequency spectrum of the audio segment into a plurality of frequency bands is voiced or unvoiced. A speech decoding device that synthesizes speech by a speech encoding parameter consisting of discriminated discrimination information, wherein the discrimination information indicates a voiced voice in the frequency band, the center frequency of which has an integral multiple of the voice fundamental frequency, And an amplitude that is equivalent to the spectral power of the corresponding harmonics band. Means for generating a group of sinusoidal waves, a means for generating noise signals of a centrally symmetric random sequence and a central antisymmetric random sequence, and extracting a section corresponding to the frequency band in which the discrimination information indicates unvoiced from the two random sequences. Means for adjusting the amplitude of the extracted random-sequence noise signal so that the spectral power thereof becomes the same as the spectral power of the harmonics band corresponding to the frequency band in which the discrimination information indicates unvoiced. Means for generating an unvoiced frame signal by performing an inverse Fourier transform on a random sequence noise signal, means for generating unvoiced speech by linearly interpolating the unvoiced frame signal of the previous segment and the current unvoiced frame signal, and It has means for adding the generated sine wave group and the generated unvoiced voice.

【0020】[0020]

【発明の実施の形態】本発明の音声符号化パラメータの
取得方法、音声復号方法および装置は、例えば、音声符
号化、特に低ビットレートの音声符号化での音声符号化
パラメータを安定に推定する方法および装置、さらには
推定した音声符号化パラメータによって音声復号する方
法および装置に組み込み使用することができるが、ここ
では、前記図14に示した音声符号化伝送装置の音声符
号化パラメータ抽出部302、および音声合成部308
に本発明を適応した場合を例にとって説明する。また、
本発明は、種々の音声符号化方式に適用することが可能
であるが、ここでは、IMBE方式に適用した場合を例
にとって説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A speech encoding parameter acquisition method, speech decoding method and apparatus of the present invention stably estimate speech encoding parameters in, for example, speech encoding, especially in low bit rate speech encoding. The method and apparatus, and further, the method and apparatus for decoding speech based on the estimated speech coding parameter can be incorporated and used. Here, the speech coding parameter extracting unit 302 of the speech coding transmission apparatus shown in FIG. , And the speech synthesis unit 308
An example in which the present invention is applied will be described. Also,
Although the present invention can be applied to various audio coding systems, a case where the present invention is applied to the IMBE system will be described as an example.

【0021】図1は本発明の音声符号化パラメータの取
得方法が適用された音声符号化パラメータ抽出部のブロ
ック構成図である。この図に示すように、本発明の音声
符号化パラメータ抽出部は、入力音声信号301からそ
の基本周波数ωoを推定する基本周波数推定部401、
入力音声信号フレームを周波数分析して得た周波数スペ
クトルを複数の周波数バンドに分割し、各バンドごとに
その有声/無声を示す有声強度情報V[k]を出力する有
声強度計算部404、および、入力音声信号を固定長の
窓を用いて周波数分析し、スペクトル包絡|B(ω)|を計
算するスペクトル包絡計算部405の3つの部分から構
成されている。
FIG. 1 is a block diagram of a speech coding parameter extraction unit to which the speech coding parameter acquiring method of the present invention is applied. As shown in this figure, a speech coding parameter extraction unit of the present invention includes a fundamental frequency estimation unit 401 for estimating the fundamental frequency ωo from an input speech signal 301,
A voiced intensity calculation unit 404 that divides a frequency spectrum obtained by frequency analysis of an input audio signal frame into a plurality of frequency bands, and outputs voiced intensity information V [k] indicating voiced / unvoiced for each band; It is composed of three parts of a spectrum envelope calculation unit 405 that analyzes the frequency of the input speech signal using a fixed-length window and calculates the spectrum envelope | B (ω) |.

【0022】ここで、本発明の音声符号化パラメータの
取得方法においては、従来方式のように合成音声と入力
音声の周波数スペクトル誤差を有声・無声の評価値とす
ることはせず、入力音声の周波数スペクトルのある周波
数バンドに含まれる音声のハーモニクス振幅を入力音声
スペクトル振幅から計測して、そのハーモニクス振幅を
有声強度あるいは有声/無声の判定の評価値としてい
る。そして、前記入力音声の周波数スペクトルを計測す
るにあたり、スペクトル分析窓の幅を入力音声の推定基
本周波数に応じて適応的に調節する事で周波数分解能を
調節し、むやみに時間分解能を低下する事なく、必要な
周波数分解能を得る手法を取っている。また、各周波数
バンドに含まれるハーモニクスの数を計測し、そのハー
モニクス数をもう一つの評価値として、期待されるハー
モニクス数にどれだけ近いかを判定する。更に、各ハー
モニクスの周波数の幅(ハーモニクス幅)を計測して前
記スペクトル分析窓により期待されるハーモニクス幅に
どれだけ近いかを判定することにより、判定の確実性を
向上させている。さらにまた、入力音声のパワー(エネ
ルギー)が小さい場合は無声であるとの知見から、入力
音声の周波数スペクトルパワーさらには各周波数バンド
の音声周波数スペクトルパワーも評価値に加えるように
している。また、スペクトル包絡の抽出にあたっては、
前記スペクトル分析窓と分析長の異なる固定長の窓を用
いた第2の周波数分析により入力音声の周波数スペクト
ルを取りだし、推定音声基本周波数の整数倍の周波数間
隔毎に音声基本周波数幅の領域にあるスペクトルパワー
の平方根として抽出している。
Here, in the method for obtaining speech coding parameters of the present invention, the frequency spectrum error between the synthesized speech and the input speech is not used as the voiced / unvoiced evaluation value as in the conventional method, but the input speech The harmonic amplitude of speech included in a certain frequency band of the frequency spectrum is measured from the input speech spectrum amplitude, and the harmonic amplitude is used as an evaluation value of voiced intensity or voiced / unvoiced determination. Then, in measuring the frequency spectrum of the input voice, the frequency resolution is adjusted by adaptively adjusting the width of the spectrum analysis window according to the estimated fundamental frequency of the input voice, without unnecessarily lowering the time resolution. And a technique for obtaining a necessary frequency resolution. Further, the number of harmonics included in each frequency band is measured, and the number of harmonics is used as another evaluation value to determine how close to the expected number of harmonics is. Further, by measuring the frequency width (harmonics width) of each harmonic and determining how close to the harmonic width expected by the spectrum analysis window, the reliability of the determination is improved. Further, based on the knowledge that the power (energy) of the input voice is unvoiced when the power (energy) of the input voice is small, the frequency spectrum power of the input voice and also the voice frequency spectrum power of each frequency band are added to the evaluation value. In extracting the spectral envelope,
The frequency spectrum of the input voice is extracted by the second frequency analysis using a fixed-length window having a different analysis length from the spectrum analysis window, and is located in the voice basic frequency width region at every integer multiple of the estimated voice basic frequency. Extracted as the square root of the spectral power.

【0023】この理由について、図3、図4、図5を用
いてさらに説明する。図3はほとんど有声音声で出来て
いる音声セグメントの周波数スペクトル振幅値(対数
値)の例である。横軸は256点の高速離散フーリエ変
換(FFT)した場合の離散周波数である。この図に示
すように、スペクトル振幅にはある一定の間隔で適度の
幅を持った明瞭な高調波スペクトルが観測されており、
その対数振幅や幅も広範囲の周波数にわたり安定な振幅
を持っている。この事から、ある周波数バンド内のハー
モニクス振幅とその数は、基本周波数ωoの推定誤差の
影響を受けずに計測できる事が予想できる。また、図4
は無声音声が多い音声セグメントの周波数スペクトル振
幅値(対数値)の例である。この場合は、定められた周
波数バンド内でのハーモニクス振幅やハーモニクス幅は
小さく、また一定レベル以上のハーモニクスの数も少な
くなっている事が読みとれ、その値は基本周波数ωoの
推定誤差Δωoの影響をあまり受けない事も読み取れ
る。以上の考察により、有声/無声の判定に、周波数ス
ペクトル振幅対数値から計測したハーモニクス振幅、あ
る閾値以上の振幅を持った有効なハーモニクス数、ハー
モニクスの幅、さらには入力音声のパワー、周波数バン
ドの音声パワーを判定評価に使用するようにしている。
The reason will be further described with reference to FIGS. 3, 4, and 5. FIG. 3 shows an example of a frequency spectrum amplitude value (logarithmic value) of a voice segment made of almost voiced voice. The horizontal axis represents the discrete frequency when 256 points of fast discrete Fourier transform (FFT) are performed. As shown in this figure, a clear harmonic spectrum with an appropriate width is observed at a certain interval in the spectrum amplitude,
Its logarithmic amplitude and width also have a stable amplitude over a wide range of frequencies. From this, it can be expected that the harmonic amplitude and the number thereof in a certain frequency band can be measured without being affected by the estimation error of the fundamental frequency ωo. FIG.
Is an example of a frequency spectrum amplitude value (logarithmic value) of a voice segment having many unvoiced voices. In this case, it can be seen that the harmonic amplitude and the harmonic width in the specified frequency band are small and the number of harmonics at a certain level or higher is also small, and the value is influenced by the estimation error Δωo of the fundamental frequency ωo. You can also read things that you do not receive much. Based on the above considerations, the judgment of voiced / unvoiced is based on the harmonics amplitude measured from the logarithmic value of the frequency spectrum, the number of effective harmonics having an amplitude above a certain threshold, the width of the harmonics, the power of the input voice, and the frequency band The audio power is used for judgment evaluation.

【0024】また、周波数分析窓の長さ(時間範囲)T
w(sec)又はLw(サンプル)と音声基本周波数fo(Hz)又
はピッチP(サンプル)の関係を考察すると、図5の様に
スペクトル振幅には基本周波数の整数倍にハーモニクス
中心が現れ、周波数分析窓がハミング窓の場合には各ハ
ーモニクスの帯域幅は4/Twになる。従って、ハーモ
ニクスの谷が隣のハーモニクスの谷より中心に侵入しな
い事を条件として、式(6)により周波数分析窓の長さ
を決める。
The length (time range) T of the frequency analysis window
Considering the relationship between w (sec) or L w (sample) and the voice fundamental frequency fo (Hz) or pitch P (sample), the harmonic amplitude appears at an integral multiple of the fundamental frequency in the spectral amplitude as shown in FIG. If the frequency analysis window is a Hamming window bandwidth of each harmonics becomes 4 / T w. Therefore, the length of the frequency analysis window is determined by equation (6), provided that the valley of the harmonics does not enter the center of the valley of the adjacent harmonics.

【数6】 (Equation 6)

【0025】なお、周波数分析窓の長さは、式(6)に
より基本ピッチの4倍として基本周波数に比例して変化
させても良いが、実用的には基本ピッチにより何段階か
に分類して設定しても良い。例えば、ピッチが20増加
する毎に切り替えて、式(7)により第1の周波数分析
窓をピッチの変化に応じて設定しても良い。
The length of the frequency analysis window may be changed in proportion to the fundamental frequency as four times the fundamental pitch according to the equation (6). May be set. For example, switching may be performed every time the pitch is increased by 20, and the first frequency analysis window may be set according to the change in the pitch according to Expression (7).

【数7】 ここでceil(x)はxを超える最小の整数を与える関数で
あり、また、分析窓長は中心対称の奇数で且つ分析窓長
がピッチ範囲より想定される長さ以外になる事を防止す
るため制限をしている。図6に、抽出した基本ピッチP
に対するLwの設定例を示す。また、窓関数として式
(8)に示す適応ハミング窓を用いた場合の窓関数値w
s(n)の計算結果を図7に示す。(ただしFFT段数M=
512として計算した)
(Equation 7) Here, ceil (x) is a function that gives the smallest integer exceeding x, and the analysis window length is a centrally symmetric odd number and prevents the analysis window length from being other than the length expected from the pitch range. Due to restrictions. FIG. 6 shows the extracted basic pitch P
An example of setting L w with respect to. Also, a window function value w when the adaptive Hamming window shown in Expression (8) is used as the window function.
FIG. 7 shows the calculation result of s (n). (However, the number of FFT stages M =
Calculated as 512)

【数8】 (Equation 8)

【0026】さらに、本発明では、基本周波数foの間
に何本のスペクトル本数pを設定するかで必要なFFT
段数のMを決める事が出来る。例えば標本化周波数が8
kHzの場合には式(9)により決定できる。
Further, according to the present invention, the required number of FFTs depends on how many spectral lines p are set between fundamental frequencies fo.
The number M of stages can be determined. For example, if the sampling frequency is 8
In the case of kHz, it can be determined by equation (9).

【数9】 ここで、最小の基本周波数を60Hzとした場合では、p=
4の場合にはM=533になり、512段程度のFFT
段数が必要である事がわかる。
(Equation 9) Here, when the minimum fundamental frequency is 60 Hz, p =
In the case of 4, M = 533, and an FFT of about 512 stages
It turns out that the number of stages is necessary.

【0027】以上のように、本発明の音声符号化パラメ
ータ取得方法によれば、音声基本周波数(ピッチ)によ
り適応的に窓サイズが設定される周波数分析窓を用い、
基本周波数の範囲から決定される段数のFFTにより周
波数スペクトルを得ているため、ハーモニクス間のスペ
クトル相互干渉を少なくすることができる。そして、こ
のようにして得た周波数スペクトルから、ハーモニクス
振幅、ハーモニクス数、ハーモニクス幅、フレームエネ
ルギー(フレームパワー)、バンドエネルギー(バンド
パワー)を計測し、各周波数バンド毎の有声/無声情報
を得るようにしているため、有声/無声の判定に詳細ピ
ッチが不要となり、ピッチ誤りに起因する判定誤りの可
能性を減少させることができる。また、スペクトル包絡
情報の取得は、前記有声/無声判定とは分離して行うよ
うにし、固定窓サイズのFFTによりハーモニクス帯域
毎のエネルギーの平方根から得るようにしている。した
がって、無声/有声判定の誤りがあったとしてもそれに
影響を受けないスペクトル包絡情報を得ることができ
る。
As described above, according to the speech coding parameter acquisition method of the present invention, a frequency analysis window whose window size is adaptively set according to a speech fundamental frequency (pitch) is used.
Since the frequency spectrum is obtained by the FFT of the number of stages determined from the range of the fundamental frequency, spectral interference between harmonics can be reduced. Then, from the frequency spectrum obtained in this way, the harmonics amplitude, the number of harmonics, the harmonics width, the frame energy (frame power), and the band energy (band power) are measured to obtain voiced / unvoiced information for each frequency band. Therefore, a detailed pitch is not required for voiced / unvoiced determination, and the possibility of a determination error due to a pitch error can be reduced. The acquisition of the spectrum envelope information is performed separately from the voiced / unvoiced determination, and is obtained from the square root of the energy for each harmonic band by FFT having a fixed window size. Therefore, even if there is an error in the unvoiced / voiced determination, spectrum envelope information not affected by the error can be obtained.

【0028】図2は、本発明の音声復号方法が適用され
た音声復号装置の一構成例を示すブロック図である。こ
の図に示すように、音声復号装置は、復号された音声パ
ラメータのうちの基本周波数ωoとスペクトル包絡|B
(ω)|が入力され有声音声を合成する有声音声合成部5
08、復号された音声符号化パラメータのうちの有声/
無声情報(有声強度情報)V[k]および前記スペクトル
包絡|B(ω)|が入力される無声音声合成部509、およ
び、加算部507から構成されている。ここで、有声音
声合成部508は前記図16に示した従来の音声合成部
508と同様の高調波音源部501と高調波加算部50
2から構成されており、高調波音源部501は、基本周
波数ωoおよび有声/無声情報に基づいて、該基本周波
数ωoおよび有声とされた周波数バンドに対応するその
高調波信号を発生し、前記スペクトル包絡情報|B(ω)|
に基づいて、それら各周波数の信号の振幅を制御して、
高調波加算部502でそれらを加算する。
FIG. 2 is a block diagram showing a configuration example of a speech decoding apparatus to which the speech decoding method of the present invention is applied. As shown in the figure, the speech decoding apparatus performs the decoding process on the fundamental frequency ωo and the spectrum envelope | B of the decoded speech parameters.
(ω) | is input and a voiced speech synthesizer 5 that synthesizes voiced speech
08, voiced of decoded speech coding parameters /
It comprises an unvoiced speech synthesizer 509 to which unvoiced information (voiced strength information) V [k] and the spectrum envelope | B (ω) | are input, and an adder 507. Here, the voiced speech synthesizer 508 includes a harmonic source 501 and a harmonic adder 50 similar to the conventional speech synthesizer 508 shown in FIG.
2, based on the fundamental frequency ωo and the voiced / unvoiced information, generates the harmonic signal corresponding to the fundamental frequency ωo and the voiced frequency band, and generates the harmonic signal. Envelope information | B (ω) |
Control the amplitude of the signal at each of these frequencies,
The harmonic addition unit 502 adds them.

【0029】また、無声音声合成部509は、対称ラン
ダム系列発生部201、反対称ランダム系列発生部20
2、ランダム系列抽出部203、逆周波数変換部204
およびフレーム補間部205から構成されている。そし
て、有声/無声判別情報V[k]が無声を示す周波数バン
ドでは、対称ランダム系列発生部201で発生される中
心対称ランダム系列と反対称ランダム系列発生部202
で発生される中心反対称ランダム系列を雑音信号の周波
数スペクトル系列の実部と虚部と見なし、前記ランダム
系列抽出部203において前記2つのランダム系列から
対応する無声の周波数バンドを抽出し、そのパワーを対
応した無声のハーモニクス帯域のパワーと同じになる様
に振幅調整した後、逆周波数変換部204で逆フーリエ
変換(IFFT)することによりその実部を得てこれを
無声フレーム信号とし、フレーム補間部205で1つ前
の無声フレーム信号とフレーム間で線形補間することに
より無声音声を生成した後、加算器507において前記
生成した正弦波群と加算して合成音声を得るようにして
いる。
The unvoiced speech synthesizer 509 includes a symmetric random sequence generator 201 and an antisymmetric random sequence generator 20.
2. Random sequence extraction unit 203, inverse frequency conversion unit 204
And a frame interpolation unit 205. In the frequency band in which the voiced / unvoiced discrimination information V [k] indicates unvoiced, the central symmetric random sequence generated by the symmetric random sequence generator 201 and the antisymmetric random sequence generator 202
Is considered as the real part and the imaginary part of the frequency spectrum sequence of the noise signal, and the random sequence extraction unit 203 extracts the corresponding unvoiced frequency band from the two random sequences, Is adjusted so that the power becomes the same as the power of the corresponding unvoiced harmonics band, and the inverse frequency transform unit 204 performs an inverse Fourier transform (IFFT) to obtain a real part thereof, which is used as an unvoiced frame signal. At 205, an unvoiced voice is generated by linearly interpolating between the previous unvoiced frame signal and the frame. Then, an adder 507 adds the generated sine wave group to obtain a synthesized voice.

【0030】すなわち、本発明の音声復号方法において
は、従来方式の様に雑音音源からFFTにより雑音音源
に対応した周波数スペクトルを作成するのではなく、対
称ランダム系列発生部201および反対称ランダム系列
発生部202から発生されるランダム雑音シーケンスか
ら、直接、雑音音源に相当する周波数スペクトルを作成
する方法を取っている。そして、その周波数スペクトル
から無声周波数バンドに対応する周波数帯域を抽出し、
逆FFTによって実時間軸での無声音声を生成した後、
フレーム間で補間重みが1になる線形補間によって必要
なフレーム長さの無声音を合成するようにしている。こ
れにより、1回の逆フーリエ変換のみで無声音声を合成
することが可能となり、演算量を少なくすることが可能
となる。
That is, in the speech decoding method of the present invention, a frequency spectrum corresponding to a noise source is not created from a noise source by FFT as in the conventional method, but a symmetric random sequence generator 201 and an antisymmetric random sequence generator are used. A method of directly creating a frequency spectrum corresponding to a noise source from a random noise sequence generated by the unit 202 is adopted. Then, a frequency band corresponding to the unvoiced frequency band is extracted from the frequency spectrum,
After generating unvoiced voice on the real time axis by inverse FFT,
An unvoiced sound having a required frame length is synthesized by linear interpolation in which the interpolation weight becomes 1 between frames. As a result, unvoiced speech can be synthesized by only one inverse Fourier transform, and the amount of calculation can be reduced.

【0031】ここで、前記ランダムシーケンスの発生に
条件を設定する必要がある。これは、逆FFTによって
時間軸シーケンスに変換した場合に、虚数部分が発生せ
ず、FFTスペクトルの全パワーが実時間軸シーケンス
に現れるようにする条件と同じである。この条件は式
(10)で表現できる。
Here, it is necessary to set conditions for the occurrence of the random sequence. This is the same as the condition that, when converted to a time axis sequence by inverse FFT, no imaginary part is generated and the entire power of the FFT spectrum appears in the real time axis sequence. This condition can be expressed by equation (10).

【数10】 ここで、Sw(m)は周波数スペクトルと見なしたランダム
シーケンス、Reは実部、Imは虚部、mは周波数スペクト
ルでm=0の時がDC成分を表す。
(Equation 10) Here, Sw (m) is a random sequence regarded as a frequency spectrum, Re is a real part, Im is an imaginary part, m is a frequency spectrum, and m = 0 represents a DC component.

【0032】前記図1に示した本発明の音声符号化方法
が適用された音声符号化装置についてさらに詳細に説明
する。図1において、音声入力端子301から入力され
た8kHz程度の標本化周波数で標本化された音声デジタ
ル信号は、基本周波数推定部401に入力され、ここ
で、例えば20msecの時間間隔毎に一定長の音声セグメ
ント(フレーム)を取り出し、そのセグメント内での音
声基本周波数ωoを推定する。基本周波数の推定方法に
は、自己相関を用いる方法や、ケプストラムを用いる方
法がある事は前述の通りである。
The speech coding apparatus to which the speech coding method of the present invention shown in FIG. 1 is applied will be described in further detail. In FIG. 1, an audio digital signal sampled at a sampling frequency of about 8 kHz input from an audio input terminal 301 is input to a fundamental frequency estimating unit 401, where a fixed length of, for example, 20 msec is set. A voice segment (frame) is extracted, and a voice fundamental frequency ωo in the segment is estimated. As described above, the method of estimating the fundamental frequency includes a method using autocorrelation and a method using cepstrum.

【0033】また、前記音声デジタル信号は、有声強度
計算部404およびスペクトル包絡計算部405にも入
力される。スペクトル包絡計算部405において、第2
スペクトル計算部111は、該音声セグメントを固定窓
処理部110でハミング窓等の窓関数で窓処理した信号
を高速フーリエ変換(FFT)することにより離散的な
周波数スペクトル値B[m]を計算する。デジタル音声入
力信号の標本化周波数をfsとし、256点のFFTを
行った場合、計算される周波数スペクトルB[m]は次の
式(11)で表される周波数間隔fd毎に計算される。
The voice digital signal is also input to a voiced strength calculator 404 and a spectrum envelope calculator 405. In the spectrum envelope calculation unit 405, the second
The spectrum calculation unit 111 calculates a discrete frequency spectrum value B [m] by performing a fast Fourier transform (FFT) on a signal obtained by windowing the audio segment with a window function such as a Hamming window in the fixed window processing unit 110. . When the sampling frequency of the digital audio input signal is fs and 256 points of FFT are performed, the calculated frequency spectrum B [m] is calculated for each frequency interval fd represented by the following equation (11).

【数11】 [Equation 11]

【0034】スペクトルパワー計算部112は、前記基
本周波数推定部401で推定された基本周波数ωoの整
数倍の周波数を中心とし該基本周波数と等しい帯域幅を
有する各ハーモニクス帯域毎に、前記周波数スペクトル
B[m]の二乗和の平方根を算出し、これをスペクトル包
絡値|B(ω)|として出力する。
The spectrum power calculator 112 calculates the frequency spectrum B for each harmonics band having a bandwidth equal to the fundamental frequency centered on an integral multiple of the fundamental frequency ωo estimated by the fundamental frequency estimator 401. The square root of the sum of squares of [m] is calculated and output as the spectrum envelope value | B (ω) |.

【0035】有声強度計算部404は、適応窓処理部1
01、第1スペクトル計算部102、フレームエネルギ
ー計算部103、バンドエネルギー計算部104、対数
変換部105、バンドハーモニクス振幅計算部106、
バンドハーモニクス幅計算部107、バンドハーモニク
ス数計算部108、有声強度判定部109により構成さ
れる。
The voiced strength calculation section 404 is adapted to the adaptive window processing section 1
01, a first spectrum calculator 102, a frame energy calculator 103, a band energy calculator 104, a logarithmic converter 105, a band harmonics amplitude calculator 106,
It comprises a band harmonics width calculator 107, a band harmonics number calculator 108, and a voiced intensity determiner 109.

【0036】適応窓処理部101は、音声信号s(n)に
対し、前記基本周波数推定部401で推定された音声基
本周波数ωoから前述した式(6)〜(8)で適応的に
設定した長さのハミング窓で窓処理を行い、第1スペク
トル変換部102で式(12)に示すFFTにより音声
セグメントの周波数スペクトルA[m]を得る。ここでM
はFFTサンプル数である。
The adaptive window processing unit 101 adaptively sets the speech signal s (n) based on the speech fundamental frequency ωo estimated by the fundamental frequency estimation unit 401 using the above-described equations (6) to (8). Window processing is performed with a Hamming window having a length, and the first spectrum conversion unit 102 obtains a frequency spectrum A [m] of the voice segment by FFT shown in Expression (12). Where M
Is the number of FFT samples.

【数12】 (Equation 12)

【0037】フレームエネルギー計算部103は、周波
数スペクトルA[m]から、前記適応窓によるエネルギー
低下分を補償したフレームの平均エネルギー(「フレー
ムエネルギー」あるいは「フレームパワー」と呼ぶ)E
fを式(13)により計算する。ここで、第2項により
窓関数によるエネルギー減少を補償している。
The frame energy calculator 103 calculates, from the frequency spectrum A [m], the average energy of the frame (referred to as "frame energy" or "frame power"), which compensates for the energy reduction due to the adaptive window.
f is calculated by equation (13). Here, the energy reduction due to the window function is compensated by the second term.

【数13】 (Equation 13)

【0038】バンドエネルギー計算部104は、各周波
数バンド毎の平均エネルギー(「バンドエネルギー」あ
るいは「バンドパワー」と呼ぶ)Eb[k](k=1,...,K)
を計算するものであり、バンドエネルギーEb[k]は、第
kバンドのスペクトル区間を[ak,bk]とすると、次の
式(14)で表わされる。
The band energy calculation unit 104 calculates the average energy (referred to as “band energy” or “band power”) for each frequency band Eb [k] (k = 1,..., K)
And the band energy Eb [k] is represented by the following equation (14), where the spectrum section of the k-th band is [ak, bk].

【数14】 ここで、バンドの周波数範囲を基本周波数ωoの3倍に
設定する場合には、ak,bkは、
[Equation 14] Here, when the frequency range of the band is set to be three times the fundamental frequency ωo, ak and bk are:

【数15】 になる。ただし、floor(x)はxを越えない最大の整数を
示す。
(Equation 15) become. Here, floor (x) indicates the largest integer not exceeding x.

【0039】対数変換部105は、前記第1スペクトル
計算部102で計算された周波数スペクトル値|A[m]|
の対数値を計算して、対数スペクトル振幅列LA[m]を
計算する。
The logarithmic converter 105 calculates the frequency spectrum value | A [m] | calculated by the first spectrum calculator 102.
Is calculated, and a logarithmic spectrum amplitude sequence LA [m] is calculated.

【数16】 (Equation 16)

【0040】バンドハーモニクス振幅計算部106は、
各周波数バンド内のハーモニクス振幅AhまたはBhを計
算する。図8を用いて、ハーモニクス振幅の評価方法に
ついて説明する。ハーモニクス振幅はスペクトル振幅|
A[m]|のデータ列の極大値とその最近傍の極小値の差で
あるが、ハーモニクス振幅が線形で表されている場合に
はその振幅はスペクトル強度に比例して増減する。そこ
で、スペクトル振幅の極大値H0とその前後の極小値H
1、H2との差を極大値H0で正規化した値Ah1、Ah2を
ハーモニクス振幅の評価値とすれば、スペクトル強度に
関係しないハーモニクス強度が評価できる。ここで、A
h1とAh2の小さい方をハーモニクス振幅評価値Ahとす
ると、
The band harmonics amplitude calculator 106 calculates
Calculate the harmonic amplitude Ah or Bh in each frequency band. A method for evaluating the harmonics amplitude will be described with reference to FIG. The harmonic amplitude is the spectral amplitude |
This is the difference between the maximum value of the data string of A [m] | and the local minimum value in the vicinity thereof. If the harmonics amplitude is expressed linearly, the amplitude increases and decreases in proportion to the spectrum intensity. Therefore, the local maximum value H0 of the spectral amplitude and the local minimum value H before and after it are obtained.
If the values Ah1 and Ah2 obtained by normalizing the difference from H2 with the local maximum value H0 are used as the evaluation values of the harmonic amplitude, the harmonic intensity that is not related to the spectral intensity can be evaluated. Where A
If the smaller of h1 and Ah2 is the harmonic amplitude evaluation value Ah,

【数17】 となる。または、スペクトル極大値とスペクトル極小値
の比でハーモニクス強度を表したハーモニクス評価値B
hで評価しても良い。すなわち、
[Equation 17] Becomes Alternatively, a harmonics evaluation value B expressing the harmonics intensity by the ratio of the spectrum maximum value to the spectrum minimum value
You may evaluate with h. That is,

【数18】 このBh1やBh2はハーモニクスのピークからの減衰量を
デシベル単位で表したもので、前記図3に示した音声の
スペクトル振幅測定結果からも、スペクトル周波数やス
ペクトル振幅の影響が少ない妥当なハーモニクス強度の
評価単位である事がわかる。
(Equation 18) Bh1 and Bh2 represent the attenuation from the peak of the harmonics in decibels. From the results of the measurement of the spectrum amplitude of the voice shown in FIG. You can see that it is an evaluation unit.

【0041】バンドハーモニクス幅計算部107は、前
記対数変換部105の出力を受けて、前記各スペクトル
振幅極大値の直前の極小値と直後の極小値との間の周波
数間隔をそのハーモニクスの幅として算出する。バンド
ハーモニクス数計算部108は、前記対数変換部105
の出力を受けて、前記式(15)で示した周波数バンド
の周波数スペクトル範囲に含まれるハーモニクスの数H
nを計算する。ハーモニクス数の計算は、FFTで得ら
れる離散的周波数akからbkまで周波数スペクトル振幅
20log10|A[m]|とその前後のスペクトル振幅20log10|
A[m-1]|、20log10|A[m+1]|を比較し、いずれの値よ
りも多きければm番目のスペクトルはスペクトルの極大
点でハーモニクスの中心周波数に最も近いスペクトルで
あると判断する。すなわち、
The band harmonics width calculator 107 receives the output of the logarithmic converter 105 and sets the frequency interval between the local minimum value immediately before each spectral amplitude maximum value and the local minimum value immediately after each spectral amplitude value as the harmonic width. calculate. The band harmonics number calculation unit 108 is
, The number H of harmonics included in the frequency spectrum range of the frequency band represented by the equation (15)
Calculate n. Calculation of the number of harmonics is based on the frequency spectrum amplitude from discrete frequencies ak to bk obtained by FFT.
20log 10 | A [m] | and the spectrum amplitude before and after 20log 10 |
Compare A [m-1] | and 20log 10 | A [m + 1] |, and if more than any value, the m-th spectrum is the spectrum closest to the center frequency of harmonics at the maximum point of the spectrum. Judge. That is,

【数19】 [Equation 19]

【0042】ここで、計算されたスペクトル対数値をそ
のまま用いて上記方法により極大値の数を数えると、ス
ペクトル雑音の影響を受けて雑音によるスペクトル極大
値を数えてしまう弊害があるため、予めスペクトル雑音
除去を行い雑音による誤計数を防止するようにしてい
る。このスペクトル雑音除去の方法について図9を参照
して説明する。図9の(A)と(C)はスペクトル雑音
のある場合を示しており、m+1とm+2のスペクトル
振幅が逆転している。連続した4本のスペクトルの組に
対してスペクトル振幅の差分の符号が−+−または+−
+の場合には極大値があり、その極大値はそれぞれm+
2番目かm+1番目に現れて、その極大値の振幅はm+
1番目とm+2番目の振幅の差になることがわかる。そ
こで、m+1番目とm+2番目のスペクトルの差が雑音
レベルを考慮したある閾値より小さければ、m+1番目
とm+2番目のスペクトル振幅を両者の平均値に置きか
える事により、図9の(B)と(C)に示す様にスペク
トル雑音を除去する事が出来る。
Here, if the number of local maxima is counted by the above method using the calculated logarithmic value of the spectrum as it is, there is an adverse effect of counting the spectral maxima due to the influence of spectral noise. Noise is removed to prevent erroneous counting due to noise. This method of removing spectral noise will be described with reference to FIG. FIGS. 9A and 9C show a case where there is spectral noise, and the spectral amplitudes of m + 1 and m + 2 are reversed. For a set of four consecutive spectra, the sign of the difference in spectral amplitude is-+-or +-
In the case of +, there is a maximum value, and the maximum value is m +
Appears at the second or (m + 1) th, and the maximum amplitude is m +
It can be seen that the difference between the first and the (m + 2) th amplitudes is obtained. If the difference between the (m + 1) -th and (m + 2) -th spectra is smaller than a certain threshold value in consideration of the noise level, the (m + 1) -th and (m + 2) -th spectrum amplitudes are replaced with the average value of the two, and (B) and (C) of FIG. The spectral noise can be removed as shown in FIG.

【0043】有声強度判定部109は、前記フレームエ
ネルギー計算部103、バンドエネルギー計算部10
4、対数変換部105、バンドハーモニクス振幅計算部
106、バンドハーモニクス幅計算部107およびバン
ドハーモニクス数計算部108で算出された、フレーム
エネルギー(フレームパワー)Ef、バンドエネルギー
(バンドパワー)Eb[k]、ハーモニクス振幅Hpw[n]
[0]、ハーモニクス幅Hpw[n][1]、ハーモニクス数Hnの
各パラメータを用いて、バンド毎の有声強度V[k]を計
算し出力する。ここで、Hpw[n][0]はその周波数バンド
におけるハーモニクスの振幅(AhあるいはBh)の上位
n個までの振幅で、Hpw[n][1]はそれに対応するハーモ
ニクス幅を表している。
The voiced intensity judging section 109 is composed of the frame energy calculating section 103 and the band energy calculating section 10.
4. The frame energy (frame power) Ef and the band energy (band power) Eb [k] calculated by the logarithmic converter 105, the band harmonics amplitude calculator 106, the band harmonics width calculator 107, and the band harmonics number calculator 108. , Harmonic amplitude Hpw [n]
[0], the voiced strength V [k] for each band is calculated and output using the parameters of the harmonic width Hpw [n] [1] and the number of harmonics Hn. Here, Hpw [n] [0] is the amplitude of up to n higher harmonics (Ah or Bh) of the harmonics in that frequency band, and Hpw [n] [1] represents the corresponding harmonic width.

【0044】この有声強度V[k]は、入力パラメータを
閾値判定して得られる2値の有声/無声の判定結果でも
良いし、入力パラメータの判定値の重み付き加算による
多値レベルを持った判定結果でも良い。あるいは、入力
パラメータの判定値の重み付き加算結果を閾値判定して
得られる2値の判定結果であっても良い。有声強度V
[k]として2値の判定結果を用いる場合は、各バンド毎
に有声か無声かを切り替えて音声合成を行うこととな
る。多値の判定結果(例えば、0.0〜1.0の範囲の値をと
る)の場合には、個々のバンド毎に合成した有声と無声
の合成音声を重みつき加算合成して最終合成音声を生成
すればよい。
The voiced strength V [k] may be a binary voiced / unvoiced determination result obtained by thresholding the input parameter, or may have a multi-valued level by weighted addition of the input parameter determination value. The judgment result may be used. Alternatively, a binary decision result obtained by performing a threshold decision on the weighted addition result of the decision values of the input parameters may be used. Voiced intensity V
When a binary determination result is used as [k], voice synthesis is performed by switching between voiced and unvoiced for each band. In the case of a multi-valued determination result (for example, a value in the range of 0.0 to 1.0), a voiced and unvoiced synthesized voice synthesized for each band is weighted and added to generate a final synthesized voice. Good.

【0045】図10、図11は、図1における前記有声
強度計算部404の処理内容を示す処理フロー図であ
る。有声強度計算が開始されると、ステップ1401で
基本周波数ωoと周波数スペクトル振幅|A[m]|を受け取
り、1402でそれらをデータ領域に設定する。ここで
基本周波数ωoを使用しているが、これはバンド数やバ
ンドの周波数範囲を決定するのに使用するものであり、
有声強度の判定に直接使用するものではない。ステップ
1403ではバンド数Kを決めるが、各バンドにh本の
ハーモニクスを含む様に設定した場合には、バンド数K
は、
FIGS. 10 and 11 are processing flowcharts showing the processing contents of the voiced intensity calculation unit 404 in FIG. When the voiced strength calculation is started, a fundamental frequency ωo and a frequency spectrum amplitude | A [m] | are received in step 1401 and set in a data area in 1402. Here, the fundamental frequency ωo is used, which is used to determine the number of bands and the frequency range of the bands.
It is not used directly to determine voiced strength. In step 1403, the number of bands K is determined. If each band is set to include h harmonics, the number of bands K
Is

【数20】 で計算される。ここで、ceil(x)はx以上で最小の整数
を示す。例えば、h=3程度に設計してバンド数Kを計
算する。hとωoが決まれば、前記式(15)により各
バンド番号k=1,2,...,Kに対して各バンドの中に入る
FFTスペクトルの周波数領域[ak,bk]を計算する。
(Equation 20) Is calculated. Here, ceil (x) indicates a minimum integer greater than or equal to x. For example, the number of bands K is calculated with h = 3. When h and ωo are determined, the frequency domain [ak, bk] of the FFT spectrum included in each band is calculated for each band number k = 1, 2,...

【0046】ステップ1404では、フレームパワーE
f、および、バンドパワーEb[k](k=1,2,...,K)を、前
記式(13)、式(14)より計算する。
In step 1404, the frame power E
f and the band power Eb [k] (k = 1, 2,..., K) are calculated from the above equations (13) and (14).

【数21】 (Equation 21)

【数22】 次に、ステップ1405でスペクトル振幅|A[m]|の対
数を取りデシベルに変換した対数振幅LA[m]を計算す
る。
(Equation 22) Next, in step 1405, the logarithm of the spectrum amplitude | A [m] | is calculated, and the logarithmic amplitude LA [m] converted to decibels is calculated.

【数23】 次に、1406でスペクトル雑音除去を行う。このスペ
クトル雑音除去の処理フロー(ステップ1421〜14
28)については後述する。
(Equation 23) Next, at 1406, spectral noise is removed. This processing flow for removing the spectral noise (steps 1421-1414)
28) will be described later.

【0047】次に、有声強度V[k]の判定を行う。ま
ず、ステップ1407でフレーム全体のパワー(フレー
ムパワー)Efが所定の閾値Th0より小さいフレームは音
声パワーが少なく雑音領域と考えられる場所であるの
で、ステップ1416ですべてのバンドを無声と設定し
てバンドループに入らずに終了する。一方、フレームパ
ワーEfが閾値Th0より大きいフレームに対しては、ステ
ップ1408〜1415のバンドループに入る。このバ
ンドループでは、まずステップ1409でその周波数バ
ンドのパワーEb[k]を評価し、所定の閾値Th1以下の場
合はそのバンドにはエネルギーが少ないと判断して、無
声V[k]=0と設定する(ステップ1414)。閾値Th1
より大きい場合は、ステップ1410でバンドのハーモ
ニクス振幅Hpw[n][0]とハーモニクス幅Hpw[n][1]とハ
ーモニクス数Hnを計算する。なお、フローチャート中
では、ハーモニクス振幅Hpw[n][0]とハーモニクス幅H
pw[n][1]とをまとめてHpw[n][2]と表記している。この
ステップ1410のハーモニクス振幅とハーモ二クス
幅、ハーモニクス数の計算の処理フロー(ステップ14
30〜1450)については、後述する。
Next, the voiced strength V [k] is determined. First, in step 1407, a frame in which the power (frame power) Ef of the entire frame is smaller than a predetermined threshold value Th0 has a low voice power and is considered to be a noise area. Exit without entering a loop. On the other hand, for a frame whose frame power Ef is larger than the threshold value Th0, a band loop of steps 1408 to 1415 is entered. In this band loop, first, in step 1409, the power Eb [k] of the frequency band is evaluated. If the power Eb [k] is equal to or smaller than a predetermined threshold Th1, it is determined that the band has little energy, and unvoiced V [k] = 0. It is set (step 1414). Threshold Th1
If it is larger, in step 1410, the harmonic amplitude Hpw [n] [0], the harmonic width Hpw [n] [1], and the harmonic number Hn of the band are calculated. In the flowchart, the harmonics amplitude Hpw [n] [0] and the harmonics width H
pw [n] [1] is collectively described as Hpw [n] [2]. Processing flow for calculating the harmonics amplitude, harmonic width, and number of harmonics in step 1410 (step 1410)
30 to 1450) will be described later.

【0048】次に、ステップ1411でハーモニクス数
Hnを評価し、設定したバンド内ハーモニクス数hとの
差がある範囲外(閾値Th20以下、閾値Th21以上)であれ
ば無声V[k]=0と判定する(ステップ1414)。例
えば、バンドあたりのハーモニクス数hを3本と設定し
た場合は2以下、4以上は無声音と判定する。次に、ス
テップ1412でハーモニクス振幅Hpw[n][0]とハー
モニクス幅Hpw[n][1]を評価し、それぞれ所定の閾値Th
3、Th6より小さい場合はハーモニクス振幅が少ないか、
そのバンド幅が狭い無声音と判定する(ステップ141
4)。ハーモニクス幅の閾値は適応窓処理部101で設
定された窓関数により適応的に設定される。たとえば
(8)式の適応ハミング窓の場合は、ハーモニクス幅は
適応ハミング窓スペクトル分布の正、負の第1の谷間距
離で表されるメインローブのスペクトル幅と関連づけて
考えるのが妥当である。ハミング窓のメインローブのス
ペクトル幅Mwは窓長LwとFFT段数Mにより(2
1)式で計算されるので、Th6はこの値と関連して実用
的な閾値を設定する。
Next, in step 1411, the number of harmonics Hn is evaluated. If the difference from the set number of harmonics h in the band is out of a certain range (threshold below Th20 and above threshold Th21), silent V [k] = 0 is set. A determination is made (step 1414). For example, if the number h of harmonics per band is set to 3, two or less and four or more are determined to be unvoiced. Next, in step 1412, the harmonic amplitude Hpw [n] [0] and the harmonic width Hpw [n] [1] are evaluated, and a predetermined threshold Th
3, If smaller than Th6, harmonics amplitude is small,
It is determined that the unvoiced sound has a narrow bandwidth (step 141).
4). The threshold value of the harmonic width is adaptively set by the window function set by the adaptive window processing unit 101. For example, in the case of the adaptive Hamming window of the formula (8), it is appropriate that the harmonic width is considered in relation to the main lobe spectral width represented by the first and negative first valley distances of the adaptive Hamming window spectral distribution. Spectral width Mw of the main lobe of the Hamming window by window length L w and FFT the number of stages M (2
Th6 sets a practical threshold value in association with this value, as calculated by equation (1).

【数24】 同様に、Th3はハミング窓の第1の減衰量に関連してお
り、基本周波数と適応窓処理部の窓長が前記(6)式の
条件を満たしている場合には、ハミング窓の第1の谷の
減衰量をベースとして実用的な値を設定する。以上で無
声音と判定されなかったバンドは、ステップ1413で
有声バンド(V[k]=1)と設定する。以上の動作を各
バンド毎に最大Kバンドまで計算し各有声強度V[k]に
設定し終えると、ステップ1417でこの有声強度計算
部404の処理を終える。
(Equation 24) Similarly, Th3 is related to the first attenuation of the Hamming window, and when the fundamental frequency and the window length of the adaptive window processing unit satisfy the condition of the above expression (6), the first attenuation of the Hamming window is satisfied. Set a practical value based on the amount of attenuation of the valley. The band not determined as unvoiced as described above is set as a voiced band (V [k] = 1) in step 1413. When the above operation has been calculated for each band up to the maximum K band and set to each voiced strength V [k], the processing of the voiced strength calculation unit 404 ends in step 1417.

【0049】このようにして、フレームパワーEfにつ
いて閾値判定し(1407)、各バンドについて、その
バンドパワーEb[k]について閾値判定し(1409)、
ハーモニクス数Hnについて閾値判定し(1411)、
さらに、ハーモニクス振幅Hpw[n][0]とハーモニクス
幅Hpw[n][1]について閾値判定(1412)して、こ
れらの判定結果から2値(0あるいは1)の有声強度V
[k]を決定することができる。なお、前述のように、有
声強度V[k]は、このような2値の情報に限られること
はなく、前記各閾値判定の結果に対してそれぞれ所定の
重みを付け、これらを加算することにより、多値(例え
ば、0.0〜1.0の範囲)の有声強度を算出するようにして
もよい。あるいは、重み付け加算の結果を所定の閾値を
用いて判定し、2値の値とすることもできる。
In this way, the threshold value is determined for the frame power Ef (1407), and for each band, the threshold value is determined for the band power Eb [k] (1409).
A threshold is determined for the number of harmonics Hn (1411),
Further, threshold determination (1412) is performed on the harmonics amplitude Hpw [n] [0] and the harmonics width Hpw [n] [1], and based on these determination results, a binary (0 or 1) voiced intensity V is determined.
[k] can be determined. Note that, as described above, the voiced strength V [k] is not limited to such binary information, and a predetermined weight is given to each of the threshold determination results, and these are added. , The multi-valued (for example, in the range of 0.0 to 1.0) voiced strength may be calculated. Alternatively, the result of the weighted addition may be determined using a predetermined threshold, and may be a binary value.

【0050】次に、前記ステップ1406のスペクトル
雑音除去のサブルーチン1421〜1428の処理内容
について説明する。ステップ1421で受け取ったスペ
クトル振幅の対数値LA[*]に対して、ステップ142
2〜1427のノイズ除去ループに入る。このノイズ除
去ループでは、連続した4点の周波数スペクトル振幅の
中に小さな極大点があるかどうかをチェックしている。
もし小さな極大点があれば、その極大点に最も振幅値が
近いスペクトル振幅との平均を取り、両者のスペクトル
振幅をその平均値で置き換え、小さなスペクトル極大点
を無くす処理を行う。
Next, the processing contents of the subroutines 1421 to 1428 for removing the spectrum noise in the step 1406 will be described. With respect to the logarithmic value LA [*] of the spectrum amplitude received in step 1421, step 142
It enters a noise removal loop of 2-1427. In this noise removal loop, it is checked whether or not there is a small maximum point in the frequency spectrum amplitudes of four consecutive points.
If there is a small local maximum point, a process is performed to take the average with the spectral amplitude whose amplitude value is closest to the local maximum point, replace the two spectral amplitudes with the average value, and eliminate the small spectral maximum point.

【0051】まず、ステップ1423で、連続した4点
の差分d1、d2、d3を計算し、その符号s1、s
2、s3を計算する。次に、ステップ1424でs1と
s3が同じ符号でs2と異なるかを判定する。その結果
が真である場合は極大点が真中の2点のいずれかであ
る。前記図9に示した様に、極大点の振幅はs1とs2
が両方正、両方負の場合いずれでも同じd2の絶対値で
表され、ステップ1425により|d2|が所定の閾値Th
4より小さな場合には、ステップ1426でLA[m+1]と
LA[m+2]をそれらの平均値で置きかえる事で小さな極
大値の平滑除去を行う。以上の平滑化処理を最後の4点
のスペクトルが取れるまでバンド内で繰り返し、スペク
トル雑音による極大点の除去を行っている。なお、前記
図9から、極大点を除去すれば、その直前または直後の
極小点も同時に取れる事がわかる。
First, in step 1423, differences d1, d2, and d3 of four consecutive points are calculated, and their signs s1, s
2. Calculate s3. Next, in step 1424, it is determined whether s1 and s3 have the same sign and differ from s2. If the result is true, the maximum point is one of the middle two points. As shown in FIG. 9, the amplitude of the maximum point is s1 and s2.
Are both positive and both negative, they are represented by the same absolute value of d2 in both cases. In step 1425, | d2 |
If it is smaller than four, LA [m + 1] and LA [m + 2] are replaced with their average values in step 1426 to smooth out the small maximum value. The above smoothing process is repeated in the band until the last four points of the spectrum are obtained, and the maximum point is removed by spectral noise. It is understood from FIG. 9 that if the local maximum point is removed, the local minimum point immediately before or immediately after the local maximum point can be obtained at the same time.

【0052】次に、前記ステップ1410のハーモニク
ス数Hnとハーモニクス振幅Hpw[n][0]、ハーモニクス
幅Hpw[n][1]の計算サブルーチン1430〜1450の
処理内容を図11を用いて説明する。まず、ステップ1
431で対数スペクトル振幅LA[m]、基本周波数ωo、
バンド番号k(k=1,2,...,K)、バンドスペクトル範囲
[ak,bk]を入力として処理を開始する。ステップ14
32で、極大値の数を計数する極大値数カウンタNpk、
極小値の数を計数する極小値数カウンタNbtm、極大値
の振幅を格納する極大値メモリApk[*]、極小値の振幅
を格納する極小値メモリAbtm[*]、ハーモニクスの振幅
を格納するハーモニクス振幅メモリHpw[*][0]、ハーモ
ニクスの帯域幅を格納するハーモニクス幅メモリHpw
[*][1]、ハーモニクスの数を計数するハーモニクス数カ
ウンタHnをそれぞれ0に初期化する。また、ハーモニ
クス幅の開始点mb1と終了点mb2をそのバンドのスペクト
ル開始点akに設定する。
Next, the processing contents of the subroutines 1430 to 1450 for calculating the harmonics number Hn, the harmonics amplitude Hpw [n] [0], and the harmonics width Hpw [n] [1] in step 1410 will be described with reference to FIG. . First, step 1
At 431, the logarithmic spectrum amplitude LA [m], the fundamental frequency ωo,
Band number k (k = 1,2, ..., K), band spectrum range
Processing is started with [ak, bk] as input. Step 14
At 32, a local maximum value counter Npk for counting the number of local maximum values,
A minimum value counter Nbtm for counting the number of minimum values, a maximum value memory Apk [*] for storing the amplitude of the maximum value, a minimum value memory Abtm [*] for storing the amplitude of the minimum value, and a harmonics for storing the amplitude of the harmonics Amplitude memory Hpw [*] [0], harmonic width memory Hpw for storing the bandwidth of harmonics
[*] [1], a harmonics number counter Hn for counting the number of harmonics is initialized to 0. Also, the start point mb1 and the end point mb2 of the harmonic width are set to the spectrum start point ak of the band.

【0053】次に、ステップ1433でピーク・ボトム
計算ループ(ステップ1433〜1448)に入り、ス
テップ1434で対数スペクトル振幅LA[m]がLA[m-
1]、LA[m+1]より大きい場合は、LA[m]が極大値と判
定しステップ1435へ移動する。ステップ1435
で、発見された極大値がバンド内で始めて発見された場
合であるかを検出し、始めて検出された場合には、ステ
ップ1436で極大値数カウンタNpk及び極小値数カウ
ンタNbtmに1を設定し、その極大値LA[m]を極大値メ
モリApk[1]に、初期値LA[ak]を極小値メモリAbtm
[1]に記録する。始めて検出されたものでないときは、
ステップ1437で極大値数カウンタNpkをインクリメ
ントし、極大値LA[m]を極大値メモリApk[Npk]に記
録する。
Next, at step 1433, a peak / bottom calculation loop (steps 1433-1448) is entered, and at step 1434, the logarithmic spectrum amplitude LA [m] is changed to LA [m-
1], if it is larger than LA [m + 1], LA [m] is determined to be the maximum value, and the process moves to step 1435. Step 1435
Then, it is detected whether or not the found local maximum value is found for the first time in the band. If the local maximum value is detected for the first time, 1 is set to the local maximum value counter Npk and the local minimum value counter Nbtm in step 1436. The local maximum value LA [m] is stored in the local maximum value memory Apk [1], and the initial value LA [ak] is stored in the local minimum value memory Abtm.
Record in [1]. If it is not the first time detected,
In step 1437, the maximum value counter Npk is incremented, and the maximum value LA [m] is recorded in the maximum value memory Apk [Npk].

【0054】一方、前記ステップ1434のピーク検出
でピークでないと判定された場合には、引き続いてステ
ップ1438で極小値であるかの判定を行う。この判定
は、前記ステップ1434の極大値判定と同様な手法で
行い、この結果極小値と判定された場合には、ステップ
1439で極小値数カウンタNbtmをインクリメント
し、極小値LA[m]を極小値メモリAbtm[Nbtm]に記録
する。さらに、ハーモニクス幅の計算のため、mb1をmb2
に更新し、mb2には現在のスペクトル周波数mを設定す
る。極大値、極小値判定ともNoと判定された場合は、
ステップ1441でボトム/ピーク検出ループの最後で
あるかを判定し、最後のループの場合はステップ144
2に進み、極大値数カウンタ値Npkと極小値数カウンタ
値Nbtmが同じであるか否かを判定する。同じである場
合には、ステップ1440で極小値数カウンタNbtmを
インクリメントし、極小値メモリAbtm[Nbtm]にLA
[bk]を記録し、ハーモニクス幅の計算のため、mb1をmb
2に更新し、mb2には現在のバンドの最終スペクトル周波
数bkを設定する。この手順ですべての極大値が検出さ
れ、その前後の極小値も記録される。
On the other hand, if it is determined in the step 1434 that the peak is not detected in the peak detection, it is subsequently determined in a step 1438 whether the peak value is the minimum value. This determination is performed in the same manner as the local maximum value determination in step 1434. If the local minimum value is determined as a result, the local minimum value counter Nbtm is incremented in step 1439, and the local minimum value LA [m] is reduced to the local minimum value. It is recorded in the value memory Abtm [Nbtm]. Furthermore, mb1 is changed to mb2 to calculate the harmonic width.
And set the current spectrum frequency m to mb2. When both the maximum value and the minimum value are determined to be No,
In step 1441, it is determined whether the loop is the last of the bottom / peak detection loop.
Then, it is determined whether or not the local maximum value counter value Npk is equal to the local minimum value counter value Nbtm. If they are the same, the minimum value number counter Nbtm is incremented in step 1440, and LA is stored in the minimum value memory Abtm [Nbtm].
Record [bk] and replace mb1 with mb to calculate the harmonic width.
It is updated to 2 and the final spectrum frequency bk of the current band is set in mb2. In this procedure, all local maxima are detected, and local minima before and after that are recorded.

【0055】次に、ステップ1443で、極小値が検出
された時点でその前に極大値があるかを判定し、もしあ
れば、その極大値を新たなハーモニクスとしてステップ
1444でその振幅Haを計算する。ステップ1444
では、その極大値と前後の極小値との振幅差の平均値を
ハーモニクス振幅Haとしている。しかし、ハーモニク
ス振幅形状の対称性を重要と考えて判定する場合には、
前記式(18)で示した様に、最小値でHaを計算して
も良い。次に、ステップ1450でハーモニクス幅Hw
を計算し、ステップ1445で、Haを所定の閾値Th5と
比較し、閾値より大きい場合だけ、ハーモニクス数Hn
を更新し(ステップ1446)、上位n個のハーモニク
ス振幅をHpw[n][0]にハーモニクス幅Hpw[n][1]を記録
する(ステップ1447)。ステップ1447のmaxN
(Hpw[n],Ha,Hw)は、HaがHpw[n][0]の配列要素の最
小値より大きい場合にハーモニクス振幅を示す第1の配
列要素の最小値と置きかえ、同時にハーモニクス幅を示
すその配列番号の第2要素をHwと置き換える関数を示
している。すべてのピーク/ボトム計算ループを終える
と、ステップ1449で、バンド内でのハーモニクスの
数Hnと上位n個のハーモニクス振幅と幅Hpw[n][2]を
戻している。以上、有声強度計算部404の処理内容を
詳細なフロー図で説明した。
Next, at step 1443, when the local minimum value is detected, it is determined whether or not there is a local maximum value, and if so, the local maximum value is set as a new harmonic and its amplitude Ha is calculated at step 1444. I do. Step 1444
, The average value of the amplitude difference between the maximum value and the preceding and following minimum values is defined as the harmonic amplitude Ha. However, when judging the symmetry of the harmonics amplitude shape as important,
As shown in the above equation (18), Ha may be calculated with the minimum value. Next, at step 1450, the harmonic width Hw
Is calculated, and in step 1445, Ha is compared with a predetermined threshold value Th5. Only when the threshold value is larger than the threshold value, the number of harmonics Hn is calculated.
Is updated (step 1446), and the harmonics amplitude Hpw [n] [1] is recorded in the upper n harmonic amplitudes Hpw [n] [0] (step 1447). MaxN of step 1447
(Hpw [n], Ha, Hw) is replaced with the minimum value of the first array element indicating the harmonic amplitude when Ha is larger than the minimum value of the array element of Hpw [n] [0], and at the same time, the harmonic width is changed. The function for replacing the second element of the array number with Hw is shown. When all the peak / bottom calculation loops are completed, in step 1449, the number Hn of harmonics in the band, the upper n harmonic amplitudes, and the width Hpw [n] [2] are returned. The processing content of the voiced intensity calculation unit 404 has been described above with reference to the detailed flowchart.

【0056】次に、前記図2に示した本発明の音声復号
方法が適用された音声復号装置における無声音声合成部
509について詳細に説明する。前述のように対称ラン
ダム系列発生部201は中心対称ランダム系列を発生
し、反対称ランダム系列発生部202は中心反対称ラン
ダム系列を発生する。ここで、中心対称ランダム系列
は、系列中のある1点(中心とする)からみて、振幅極
性ともに左右対称(すなわち、中心で折り返したとき
に、中心の左右にある系列が完全に一致している状態)
であるランダム系列をいい、中心反対称ランダム系列
は、中心からみて振幅は左右対称であるが極性は反転し
ているランダム系列をいう。実際には、逆周波数変換部
204において実行される逆フーリエ変換処理の段数
(逆FFT段数とよぶ)の1/2の長さのランダム系列
を発生させ、これを発生順序の逆方向に複写することに
より、前記中心対称のランダム系列を発生させることが
でき、また、前記逆FFT段数の1/2のランダム系列
を発生させ、これを発生順序の逆方向に極性を反転して
複写することにより、前記中心反対称のランダム系列を
発生させることができる。
Next, the unvoiced speech synthesizer 509 in the speech decoding apparatus to which the speech decoding method of the present invention shown in FIG. 2 is applied will be described in detail. As described above, the symmetric random sequence generator 201 generates a centrally symmetric random sequence, and the antisymmetric random sequence generator 202 generates a central antisymmetric random sequence. Here, the centrally symmetric random sequence is symmetrical in both amplitude polarities as viewed from a certain point in the sequence (centered) (that is, when the sequence is folded back at the center, the sequences at the left and right of the center completely match). State)
The central anti-symmetric random sequence is a random sequence whose amplitude is bilaterally symmetric but whose polarity is inverted from the center. Actually, a random sequence having a length of 1 / of the number of stages of the inverse Fourier transform process (referred to as the number of inverse FFT stages) executed in the inverse frequency transforming unit 204 is generated, and this is copied in the reverse direction of the generation order. Thus, the centrally symmetric random sequence can be generated, and a random sequence having a half of the number of the inverse FFT stages is generated, and the random sequence is inverted in the reverse order of generation and copied. , It is possible to generate a random sequence having the center anti-symmetric.

【0057】このようにして前記対称ランダム系列発生
部201および反対称ランダム系列発生部202で発生
された2つのランダム系列は、ランダム系列抽出部20
3に供給され、ここで、該2つのランダム系列を周波数
スペクトル系列の実部と虚部と見なして、前記有声/無
声情報により無声と指定された周波数バンドに対応する
区間の系列が抽出されるとともに、抽出したスペクトル
パワーを前記スペクトル包絡情報B|(ω)|に対応した無
声ハーモニクス帯域のパワーと同じになる様に振幅調整
される。この振幅調整された無声ハーモニクス帯域スペ
クトルは逆周波数変換部204において逆フーリエ変換
されて時間領域の信号に変換され、無声フレーム信号に
対応する該逆FFTの段数と同じ数の時間軸データ系列
が得られる。
The two random sequences generated by the symmetric random sequence generator 201 and the anti-symmetric random sequence generator 202 are
3, where the two random sequences are regarded as a real part and an imaginary part of a frequency spectrum sequence, and a sequence of a section corresponding to a frequency band designated as unvoiced by the voiced / unvoiced information is extracted. At the same time, the amplitude of the extracted spectral power is adjusted so as to be the same as the power of the unvoiced harmonics band corresponding to the spectral envelope information B | (ω) |. The unvoiced harmonics band spectrum whose amplitude has been adjusted is subjected to inverse Fourier transform in the inverse frequency transform unit 204 to be converted into a signal in the time domain, and the same number of time axis data sequences as the number of stages of the inverse FFT corresponding to the unvoiced frame signal is obtained. Can be

【0058】このようにして得られた例えば256個
(逆FFT段数が256段の場合)のデータは、フレー
ム補間部205に入力され、前記音声セグメントの更新
周期に対応したデータ数(例えば、20msec周期であれ
ば160個のデータ)に補間合成される。これは、前の
セグメントから得られた時間軸データとこのセグメント
の時間軸データとを補間重みの和が1になる条件で線形
補間するものである。このようにして合成された無声音
声は、前記加算器507に供給され、前述した有声音声
合成部508からの有声音声と加算される。
The data of, for example, 256 (in the case where the number of inverse FFT stages is 256) thus obtained is input to the frame interpolation unit 205, and the number of data (for example, 20 msec) corresponding to the update period of the audio segment is obtained. In the case of a cycle, interpolation synthesis is performed to 160 data). This is to linearly interpolate the time axis data obtained from the previous segment and the time axis data of this segment under the condition that the sum of the interpolation weights becomes 1. The unvoiced speech synthesized in this way is supplied to the adder 507 and added to the voiced speech from the voiced speech synthesis unit 508 described above.

【0059】図12は上述した無声音声合成の処理フロ
ーを示す図である。まず、ステップ1602でパラメー
タ復号化部からハーモニクスのスペクトル包絡情報|B
(ω)|、音声基本周波数ωo、バンド有声無声情報V[k]
を受け取り、バンド数Kmaxを(20)式により再生す
る。ここで、各バンドに含まれるハーモニクス数hはシ
ステムで予め決定されている。フレームサイズFsizeは
予め設定している音声セグメント更新間隔で、fs=800
0Hz、セグメント更新周期を10msecとした場合はFsize
=80である。ステップ1603はIFFT段数Mに2
56を使用する場合はFFTスペクトル数の実部、虚部
それぞれ256要素を0に初期化する。ステップ160
4はランダムFFTスペクトル発生の初期化で、システ
ム立ち上げ時のみ必要で、連続音声再生時には不要であ
る。
FIG. 12 is a diagram showing a processing flow of the above-mentioned unvoiced speech synthesis. First, in step 1602, the spectrum decoding unit | B of the harmonics is sent from the parameter decoding unit.
(ω) |, voice fundamental frequency ωo, band voiced unvoiced information V [k]
And the band number Kmax is reproduced by the equation (20). Here, the number h of harmonics included in each band is predetermined by the system. Frame size Fsize is a preset voice segment update interval, fs = 800
Fsize when 0Hz, segment update cycle is 10msec
= 80. Step 1603 sets the number of IFFT stages M to 2
When 56 is used, 256 elements of the real part and the imaginary part of the FFT spectrum number are initialized to zero. Step 160
Reference numeral 4 denotes initialization of random FFT spectrum generation, which is necessary only when the system is started up, and is not necessary for continuous sound reproduction.

【0060】ステップ1605〜1614は処理フレー
ムのバンド数の回数だけ処理されるループで、無声バン
ドの周波数帯域の無声音声のスペクトルをハーモニクス
帯域毎に再生加算し、フレームの無声音スペクトル全体
を再生するループである。ステップ1606は要素数が
IFFT段数の半分のランダムシーケンスを順次生成す
るもので、例えば、前記IMBE方式では(22)式で
発生させており、本方式でも同様の方式で生成しても良
い。但し、ここでは実部と虚部用の2系列のランダムシ
ーケンスu[n]を発生し、u[n]は直流成分を除去するた
め、53125/2を減じた値を用いる。
Steps 1605 to 1614 are loops which are processed by the number of bands of the processing frame. The loop reproduces and adds the unvoiced voice spectrum in the frequency band of the unvoiced band for each harmonic band, and reproduces the entire unvoiced sound spectrum of the frame. It is. Step 1606 is to sequentially generate a random sequence in which the number of elements is half of the number of IFFT stages. For example, in the IMBE method, the random sequence is generated by Expression (22). However, here, two random sequences u [n] for the real part and the imaginary part are generated, and u [n] uses a value obtained by subtracting 53125/2 in order to remove the DC component.

【数25】 (Equation 25)

【0061】ステップ1607〜1613はハーモニク
スループであり、各バンドに含まれるハーモニクス数の
回数だけ処理される。まず、ステップ1608で、各バ
ンド内にある第l次ハーモニクスのスペクトル範囲[a
l,bl]を(23)式により計算し、ステップ1609
で、その範囲だけ前記ランダムシーケンスu[n]から抜
き取り、u[al,bl]を取り出す。
Steps 1607 to 1613 are a harmonics loop, and are processed as many times as the number of harmonics included in each band. First, in step 1608, the spectral range [a of the l-th harmonic in each band
l, bl] is calculated by equation (23), and step 1609
Then, only the range is extracted from the random sequence u [n], and u [al, bl] is extracted.

【数26】 ここで、Mは逆FFT(IFFT)の段数である。(Equation 26) Here, M is the number of stages of the inverse FFT (IFFT).

【0062】次に、ステップ1610で取り出した抽出
スペクトルのパワーが1になる様に(24)式によりス
ペクトルを正規化する。ここでU(m)は実部と虚部のラ
ンダムシーケンスu_real[m]とu_imag[m]をベクトルで表
現したものであり、U1(m)は正規化された抽出スペク
トルu_Real[m]とu_Imag[m]をベクトル表現したものであ
る。
Next, the spectrum is normalized by equation (24) so that the power of the extracted spectrum extracted in step 1610 becomes 1. Here, U (m) is a vector representation of a random sequence u_real [m] and u_imag [m] of a real part and an imaginary part, and U1 (m) is a normalized extracted spectrum u_Real [m] and u_Imag. This is a vector representation of [m].

【数27】 ステップ1611はハーモニクスのスペクトル包絡情報
|B(ω)|により、ハーモニクス帯域内のエネルギーが元
音声の帯域内エネルギーと同じになる様に(25)式に
より抽出スペクトルを振幅調整する。
[Equation 27] Step 1611 is the harmonic envelope information of the harmonics.
With | B (ω) |, the amplitude of the extracted spectrum is adjusted by Expression (25) so that the energy in the harmonics band becomes the same as the energy in the band of the original voice.

【数28】 ここで最後の項のMは、ステップ1616でのM段IF
FTの出力が実時間信号レベルに合うために必要な係数
である。次に、ステップ1612でレベル調整された抽
出スペクトルを対応するFFTスペクトルバッファーS_
real[M],S_imag[M]に設定する。
[Equation 28] Here, M in the last term is the M-stage IF in step 1616.
This is the coefficient required for the output of the FT to match the real-time signal level. Next, the extracted spectrum whose level has been adjusted in step 1612 is stored in the corresponding FFT spectrum buffer S_
Set to real [M] and S_imag [M].

【0063】以上の処理を各バンド、各バンド内のハー
モニクス毎に実行した後、ステップ1615に進み、前
記式(10)の関係を満足する負の周波数のFFTスペ
クトル部分を設定し、ステップ1616でのM段のIF
FTで得る時間軸信号の実部に、全スペクトルエネルギ
ーが集まり、虚部には信号が現れない様にしている。ス
テップ1617では現在フレームと前フレームから得た
それぞれサンプル数Mの信号から、式(26)に示す補
間関数ws(n)のフレーム間補間によりフレームサンプル
数(Fsize)の無声音の復号音声を得る。そして、ステ
ップ1618で無声音の復号音声を報告し、図2の加算
部507にて別に合成された有声音声合成部508の音
声と加算し最終の合成音声を得る。図13は、前記フレ
ーム補間関数ws(n)の例を示す図である。ここで、L1は
補間関数の一定レベル範囲、L2は補間最大範囲、L1〜
L2間は直線補間範囲である。
After the above processing is performed for each band and each harmonic in each band, the flow advances to step 1615 to set a negative frequency FFT spectrum portion that satisfies the relationship of the above equation (10). M-stage IF
The entire spectrum energy is collected in the real part of the time axis signal obtained by the FT, and no signal appears in the imaginary part. In step 1617, unvoiced decoded speech of the number of frame samples (Fsize) is obtained from the signal of the number of samples M obtained from the current frame and the previous frame by inter-frame interpolation of the interpolation function ws (n) shown in equation (26). Then, in step 1618, the decoded voice of the unvoiced sound is reported, and added to the voice of the voiced voice synthesis unit 508 separately synthesized by the addition unit 507 in FIG. 2 to obtain the final synthesized voice. FIG. 13 is a diagram illustrating an example of the frame interpolation function ws (n). Here, L1 is a certain level range of the interpolation function, L2 is a maximum interpolation range, and L1 to
Between L2 is a linear interpolation range.

【数29】 (Equation 29)

【0064】なお、以上においては、音声符号化方式と
してIMBE方式を採用した音声符号化伝送装置の音声
符号化パラメータ抽出部に本発明の音声符号化パラメー
タの取得方法を適用した場合を例にとって説明したが、
本発明の音声符号化パラメータ抽出方法および装置は、
これに限られることはなく、MELP(Mixed Excitati
on Linear Prediction)方式など、1フレームの周波数
スペクトルを複数の周波数バンドに分割し、各周波数バ
ンド毎に有声/無声を判定する場合に全く同様に適用す
ることができる。また、音声復号方式としてIMBE方
式を採用した音声符号化伝送装置の無声音の音声復号部
に適用した場合を例にとって説明したが、本発明の無声
音声復号方法および装置は、これに限られることはな
く、MELP方式など、1フレームの周波数スペクトル
を複数の周波数バンドに分割し、各周波数バンド毎に有
声/無声を判定する場合にも同様に適用することができ
る。
The above description is directed to an example in which the speech encoding parameter acquisition method of the present invention is applied to the speech encoding parameter extracting unit of the speech encoding transmission apparatus that employs the IMBE scheme as the speech encoding scheme. But
The speech encoding parameter extraction method and apparatus of the present invention include:
It is not limited to this, but MELP (Mixed Excitati
For example, when a frequency spectrum of one frame is divided into a plurality of frequency bands and voiced / unvoiced is determined for each frequency band, the present invention can be applied in the same manner. Also, an example has been described in which the present invention is applied to an unvoiced speech decoding unit of a speech encoding and transmitting apparatus employing an IMBE scheme as a speech decoding scheme. However, the unvoiced speech decoding method and apparatus of the present invention are not limited to this. Alternatively, the present invention can be similarly applied to a case where a frequency spectrum of one frame is divided into a plurality of frequency bands and voiced / unvoiced is determined for each frequency band, such as the MELP method.

【0065】[0065]

【発明の効果】以上述べた様に、本発明の音声符号化パ
ラメータの取得方法および装置によれば、音声基本周波
数により、音声ハーモニクス高調波スペクトルがお互い
に分離する様に適応的な可変長窓処理を行った音声セグ
メントから周波数スペクトルを求め、検出するハーモニ
クス振幅とハーモニクス幅とハーモニクス数の信頼性を
高め、さらに、音声セグメントのパワー、音声セグメン
トを複数の周波数バンドに分割した各周波数バンドのパ
ワーにより、有声強度あるいは有声/無声情報を取得し
ているため、音声基本周波数の変化によらず、ハーモニ
クスのレベルの低い部分へのハーモニクス高調波雑音の
影響が少ない有声強度判定を行うことが可能となる。し
たがって、スペクトル雑音に対し、誤り耐性の強い音声
符号化パラメータの取得方法を提供することができる。
また、本発明の音声復号方法および装置によれば、無声
音声の復号において、ランダム雑音からFFTによって
ランダム周波数スペクトルを作成せず、直接ランダム周
波数スペクトルを生成する事が出来るため、無声音声信
号の復号時にFFTとIFFTの計算のうち、IFFT
計算のみで無声音声を合成する事が出来、従来の方法に
比べて演算負荷の小さな音声復号方法を提供する事が出
来る。
As described above, according to the method and apparatus for obtaining speech coding parameters of the present invention, the adaptive variable-length window is adapted so that the speech harmonic harmonic spectrum is separated from each other by the speech fundamental frequency. Obtain the frequency spectrum from the processed audio segment, improve the reliability of the detected harmonic amplitude, harmonic width, and number of harmonics.Further, the power of the audio segment and the power of each frequency band obtained by dividing the audio segment into multiple frequency bands As a result, voiced intensity or voiced / unvoiced information is acquired, so that it is possible to perform voiced intensity determination with little influence of harmonic harmonic noise on a low harmonic level portion regardless of a change in voice fundamental frequency. Become. Therefore, it is possible to provide a method for acquiring a speech coding parameter having high error resilience to spectral noise.
Further, according to the speech decoding method and apparatus of the present invention, in decoding unvoiced speech, a random frequency spectrum can be directly generated without creating a random frequency spectrum by FFT from random noise. Sometimes, when calculating FFT and IFFT, IFFT
Unvoiced speech can be synthesized only by calculation, and a speech decoding method with a smaller computational load than the conventional method can be provided.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の音声パラメータ取得方法が適用され
た音声符号化パラメータ抽出部の構成を示すブロック図
である。
FIG. 1 is a block diagram illustrating a configuration of a speech coding parameter extraction unit to which a speech parameter acquisition method according to the present invention is applied.

【図2】 本発明の音声復号方法が適用された音声合成
部の構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a configuration of a speech synthesis unit to which the speech decoding method according to the present invention is applied.

【図3】 音声セグメントの対数スペクトル振幅(有声
部)の例を示す図である。
FIG. 3 is a diagram illustrating an example of a logarithmic spectrum amplitude (voiced portion) of a voice segment.

【図4】 音声セグメントの対数スペクトル振幅(無声
部)の例を示す図である。
FIG. 4 is a diagram illustrating an example of a logarithmic spectrum amplitude (unvoiced portion) of a voice segment.

【図5】 ハーモニクスのスペクトル形状を説明するた
めの図である。
FIG. 5 is a diagram for explaining a harmonics spectral shape;

【図6】 第1の周波数分析窓長の設定例を示す図であ
る。
FIG. 6 is a diagram showing a setting example of a first frequency analysis window length.

【図7】 第1の周波数分析窓の形状の例を示す図であ
る。
FIG. 7 is a diagram illustrating an example of a shape of a first frequency analysis window.

【図8】 ハーモニクス振幅を説明するための図であ
る。
FIG. 8 is a diagram for explaining harmonics amplitude.

【図9】 スペクトル雑音除去を説明するための図であ
る。
FIG. 9 is a diagram for explaining spectral noise removal.

【図10】 有声強度計算処理の流れを示すフローチャ
ートである。
FIG. 10 is a flowchart showing the flow of voiced intensity calculation processing.

【図11】 ハーモニクス計算処理の流れを示すフロー
チャートである。
FIG. 11 is a flowchart illustrating a flow of a harmonics calculation process.

【図12】 無声音声合成処理の流れを示すフローチャ
ートである。
FIG. 12 is a flowchart showing the flow of an unvoiced speech synthesis process.

【図13】 無声音声のフレーム間補間を説明するため
の図である。
FIG. 13 is a diagram for explaining inter-frame interpolation of unvoiced speech.

【図14】 音声符号化伝送装置の構成を説明するため
の図である。
FIG. 14 is a diagram illustrating a configuration of a speech coded transmission device.

【図15】 従来の音声符号化パラメータ抽出部のブロ
ック図である。
FIG. 15 is a block diagram of a conventional speech coding parameter extraction unit.

【図16】 従来の音声合成部のブロック図である。FIG. 16 is a block diagram of a conventional speech synthesis unit.

【図17】 正規化スペクトル誤差とピッチ周波数誤差
の関係を説明するための図である。
FIG. 17 is a diagram for explaining a relationship between a normalized spectrum error and a pitch frequency error.

【符号の説明】[Explanation of symbols]

101 適応窓処理部 102 第1スペクトル計算部 103 フレームエネルギー計算部 104 バンドエネルギー計算部 105 対数変換部 106 バンドハーモニクス振幅計算部 107 バンドハーモニクス幅計算部 108 バンドハーモニクス数計算部 109 有声強度判定部 110 固定窓処理部 111 第2スペクトル計算部 112 スペクトル包絡計算部 201 対称ランダム系列発生部 202 反対称ランダム系列発生部 203 ランダム系列抽出部 204 逆周波数変換部 205 フレーム補間部 Reference Signs List 101 adaptive window processing unit 102 first spectrum calculation unit 103 frame energy calculation unit 104 band energy calculation unit 105 logarithmic conversion unit 106 band harmonics amplitude calculation unit 107 band harmonics width calculation unit 108 band harmonics number calculation unit 109 voiced intensity determination unit 110 fixed Window processing unit 111 Second spectrum calculation unit 112 Spectrum envelope calculation unit 201 Symmetric random sequence generation unit 202 Antisymmetric random sequence generation unit 203 Random sequence extraction unit 204 Inverse frequency conversion unit 205 Frame interpolation unit

フロントページの続き (72)発明者 佐々木誠司 神奈川県横須賀市光の丘3番2号 株式会 社ワイ・アール・ピー高機能移動体通信研 究所内 Fターム(参考) 5J064 AA00 BB04 BB12 BC08 BC14 BC18 BD01 5K041 AA00 BB08 CC01 DD01 EE23 HH01 HH10 HH24 HH44 9A001 EE04 HH15 Continuation of the front page (72) Inventor Seiji Sasaki 3-2 Hikarinooka, Yokosuka City, Kanagawa Prefecture F.R.P. High-Function Mobile Communication Laboratory F-term (reference) 5J064 AA00 BB04 BB12 BC08 BC14 BC18 BD01 5K041 AA00 BB08 CC01 DD01 EE23 HH01 HH10 HH24 HH44 9A001 EE04 HH15

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 デジタル化された音声信号を、ある一定
の繰り返し周期で、所定のセグメント長で抜き取った音
声セグメントから音声符号化パラメータを取得する音声
符号化パラメータの取得方法であって、 前記音声セグメントから音声基本周波数を取得するステ
ップ、 前記音声基本周波数により決定される可変長の適応窓に
より前記音声信号を抜き取った可変長セグメントから第
1の周波数スペクトルを取得するステップ、 前記音声信号を固定長の窓により抜き取った固定長セグ
メントから第2の周波数スペクトルを取得するステッ
プ、 前記第1の周波数スペクトルを複数の周波数バンドに分
割するステップ、 前記第1の周波数スペクトルの周波数スペクトルパワ
ー、前記各周波数バンドの周波数スペクトルパワー、前
記各周波数バンドに含まれるハーモニクス数、各ハーモ
ニクスのハーモニクス振幅およびハーモニクス帯域幅に
より前記各周波数バンド毎の有声強度を決定するステッ
プ、および、 前記第2の周波数スペクトルから前記音声基本周波数の
整数倍の周波数を中心としてその周波数帯域幅が音声基
本周波数になる様に分割した各ハーモニクス帯域のスペ
クトルパワーを計算するステップを含むことを特徴とす
る音声符号化パラメータの取得方法。
1. A method for obtaining a voice coding parameter from a voice segment extracted from a digitized voice signal at a predetermined repetition period and with a predetermined segment length, comprising: Obtaining a voice fundamental frequency from a segment; obtaining a first frequency spectrum from a variable length segment from which the voice signal is extracted by a variable length adaptive window determined by the voice basic frequency; and fixing the voice signal to a fixed length. Obtaining a second frequency spectrum from the fixed-length segment extracted by the window of (a), dividing the first frequency spectrum into a plurality of frequency bands, frequency spectrum power of the first frequency spectrum, and each of the frequency bands Frequency spectrum power of each said frequency band Determining the voiced intensity of each of the frequency bands by the number of harmonics included, the harmonics amplitude and the harmonics bandwidth of each harmonic, and, from the second frequency spectrum, a frequency centered on an integral multiple of the voice fundamental frequency. A method for obtaining a speech coding parameter, comprising: calculating a spectral power of each harmonic band divided so that a frequency bandwidth becomes a speech fundamental frequency.
【請求項2】 前記可変長の適応窓の長さは、前記可変
長の適応窓の周波数スペクトル分布の帯域幅と前記音声
基本周波数の関係により決定される事を特徴とする前記
請求項1記載の音声符号化パラメータの取得方法。
2. The variable-length adaptive window according to claim 1, wherein the length of the variable-length adaptive window is determined by a relationship between a bandwidth of a frequency spectrum distribution of the variable-length adaptive window and the audio fundamental frequency. Method of obtaining voice encoding parameters of.
【請求項3】 前記可変長の適応窓は、前記音声基本周
波数に対応する周期の4倍以上の長さを持つハミング窓
である事を特徴とする前記請求項1記載の音声符号化パ
ラメータの取得方法。
3. The speech encoding parameter according to claim 1, wherein the variable-length adaptive window is a Hamming window having a length of at least four times a period corresponding to the speech fundamental frequency. Acquisition method.
【請求項4】 デジタル化された音声信号を、ある一定
の繰り返し周期で抜き取った音声セグメントの音声基本
周波数と、該音声セグメントの周波数スペクトルを音声
基本周波数の整数倍を中心としてその周波数帯域幅が音
声基本周波数になる様に分割した各ハーモニクス帯域の
スペクトルパワーと、前記音声セグメントの周波数スペ
クトルを複数の周波数バンドに分割した各周波数バンド
が有声音か無声音かを判別した判別情報からなる音声符
号化パラメータによって音声を合成する音声復号方法で
あって、 前記判別情報が有声を示す前記周波数バンドでは、その
中心周波数が前記音声基本周波数の整数倍の周波数を持
ち、且つ、対応する前記ハーモニクス帯域のスペクトル
パワーと同等になる振幅を持った正弦波群を生成し、ま
た、前記判別情報が無声を示す周波数バンドでは、中心
対称ランダム系列と中心反対称ランダム系列を雑音信号
の周波数スペクトル系列の実部と虚部と見なし、前記2
つのランダム系列から該周波数バンドに対応する区間を
抽出し、対応する前記ハーモニクス帯域のスペクトルパ
ワーと同じになる様に振幅調整した後、逆フーリエ変換
によりその実部を得て無声フレーム信号とし、1つ前の
セグメントの無声フレーム信号と今回得た前記無声フレ
ーム信号間で線形補間することにより無声音声を生成し
た後、前記生成した正弦波群と加算して合成音声を得る
音声復号方法。
4. A digital audio signal having a fundamental frequency of an audio segment extracted at a certain repetition period and a frequency spectrum of the audio segment having a frequency bandwidth centered on an integral multiple of the audio fundamental frequency. Speech coding comprising spectral power of each harmonic band divided so as to be a sound fundamental frequency and discrimination information for discriminating whether each frequency band obtained by dividing the frequency spectrum of the sound segment into a plurality of frequency bands is a voiced sound or an unvoiced sound. A speech decoding method for synthesizing speech according to a parameter, wherein in the frequency band in which the discrimination information indicates voiced, a center frequency thereof has a frequency that is an integral multiple of the speech fundamental frequency, and a spectrum of the corresponding harmonics band. Generate a group of sine waves having an amplitude equivalent to the power, and In the frequency band different information indicates unvoiced regards centrosymmetric random sequence and the center antisymmetric random sequence and the real and imaginary parts of the frequency spectrum sequence of the noise signal, the 2
A section corresponding to the frequency band is extracted from the two random sequences, and the amplitude is adjusted so as to be the same as the spectral power of the corresponding harmonics band. Then, the real part is obtained by an inverse Fourier transform to obtain an unvoiced frame signal. An audio decoding method for generating an unvoiced voice by linear interpolation between the unvoiced frame signal of the previous segment and the currently obtained unvoiced frame signal, and then adding the generated sine wave group to obtain a synthesized voice.
【請求項5】 デジタル化された音声信号を、ある一定
の繰り返し周期で、所定のセグメント長で抜き取った音
声セグメントから音声符号化パラメータを取得する音声
符号化パラメータの取得装置であって、 前記音声セグメントから音声基本周波数を取得する手
段、 前記音声基本周波数により決定される可変長の適応窓に
より前記音声信号を抜き取った可変長セグメントにより
第1の周波数スペクトルを取得する手段、 前記音声信号を固定長の窓により抜き取った固定長セグ
メントにより第2の周波数スペクトルを取得する手段、 前記第1の周波数スペクトルを複数の周波数バンドに分
割する手段、 前記第1の周波数スペクトルから周波数スペクトルパワ
ー、前記各周波数バンドの周波数スペクトルパワー、前
記各周波数バンドに含まれるハーモニクス数、各ハーモ
ニクスのハーモニクス振幅およびハーモニクス帯域幅に
より前記各周波数バンド毎の有声強度を決定する手段、
および、 前記第2の周波数スペクトルから前記音声基本周波数の
整数倍の周波数を中心としてその周波数帯域幅が音声基
本周波数になる様に分割した各ハーモニクス帯域のスペ
クトルパワーを計算する手段を有することを特徴とする
音声符号化パラメータの取得装置。
5. An audio encoding parameter acquiring device for acquiring an audio encoding parameter from an audio segment extracted from a digitized audio signal at a predetermined repetition period and with a predetermined segment length, wherein: Means for obtaining an audio fundamental frequency from a segment; means for obtaining a first frequency spectrum by a variable-length segment obtained by extracting the audio signal by a variable-length adaptive window determined by the audio fundamental frequency; and a fixed-length audio signal. Means for acquiring a second frequency spectrum by a fixed-length segment extracted by a window, means for dividing the first frequency spectrum into a plurality of frequency bands, frequency spectrum power from the first frequency spectrum, and each of the frequency bands Frequency spectrum power of each of the frequency bands Monikusu number, means for determining a voiced strength for each of the respective frequency bands by harmonics amplitude and harmonics bandwidth of each harmonics,
And a means for calculating the spectral power of each harmonic band divided from the second frequency spectrum so that the frequency bandwidth becomes an audio fundamental frequency centered on an integer multiple of the audio fundamental frequency. An apparatus for acquiring a speech coding parameter to be described.
【請求項6】 デジタル化された音声信号を、ある一定
の繰り返し周期で抜き取った音声セグメントの音声基本
周波数と、該音声セグメントの周波数スペクトルを音声
基本周波数の整数倍を中心としてその周波数帯域幅が音
声基本周波数になる様に分割した各ハーモニクス帯域の
スペクトルパワーと、前記音声セグメントの周波数スペ
クトルを複数の周波数バンドに分割した各周波数バンド
が有声音か無声音かを判別した判別情報からなる音声符
号化パラメータによって音声を合成する音声復号装置で
あって、 前記判別情報が有声を示す前記周波数バンドでは、その
中心周波数が前記音声基本周波数の整数倍の周波数を持
ち、且つ、対応する前記ハーモニクス帯域のスペクトル
パワーと同等になる振幅を持った正弦波群を生成する手
段、 中心対称ランダム系列と中心反対称ランダム系列の雑音
信号を発生する手段、 前記2つのランダム系列から前記判別情報が無声を示す
前記周波数バンドに対応する区間を抽出する手段、 抽出したランダム系列の雑音信号を、そのスペクトルパ
ワーが前記判別情報が無声を示す前記周波数バンドに対
応するハーモニクス帯域のスペクトルパワーと同じにな
る様に振幅調整する手段、 該振幅調整されたランダム系列の雑音信号を逆フーリエ
変換し、無声フレーム信号を生成する手段、 1つ前のセグメントの無声フレーム信号と今回の無声フ
レーム信号を線形補間することにより無声音声を生成す
る手段、および、 前記生成された正弦波群と生成された無声音声を加算す
る手段を有することを特徴とする音声復号装置。
6. A voice fundamental frequency of a voice segment obtained by extracting a digitized voice signal at a certain repetition period, and a frequency spectrum of the voice segment having a frequency bandwidth centered on an integral multiple of the voice fundamental frequency. Speech coding comprising spectral power of each harmonic band divided so as to be a sound fundamental frequency and discrimination information for discriminating whether each frequency band obtained by dividing the frequency spectrum of the sound segment into a plurality of frequency bands is a voiced sound or an unvoiced sound. A speech decoding apparatus for synthesizing speech according to a parameter, wherein in the frequency band in which the discrimination information indicates voiced, a center frequency has a frequency that is an integral multiple of the speech fundamental frequency, and a spectrum of the corresponding harmonics band. Means to generate a group of sine waves with amplitude equal to power, center Means for generating a noise signal of a symmetric random sequence and a central antisymmetric random sequence; means for extracting a section corresponding to the frequency band in which the discrimination information indicates unvoiced from the two random sequences; Means for adjusting the amplitude so that the spectral power is the same as the spectral power of the harmonics band corresponding to the frequency band in which the discrimination information indicates unvoiced.Inverse Fourier transform of the amplitude-adjusted random sequence noise signal, Means for generating an unvoiced frame signal; means for generating unvoiced speech by linearly interpolating the unvoiced frame signal of the previous segment and the current unvoiced frame signal; and the generated sine wave group and the generated unvoiced voice An audio decoding device comprising means for adding audio.
JP2000060932A 2000-03-06 2000-03-06 Speech coding parameter acquisition method, speech decoding method and apparatus Expired - Fee Related JP3404350B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000060932A JP3404350B2 (en) 2000-03-06 2000-03-06 Speech coding parameter acquisition method, speech decoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000060932A JP3404350B2 (en) 2000-03-06 2000-03-06 Speech coding parameter acquisition method, speech decoding method and apparatus

Publications (2)

Publication Number Publication Date
JP2001249698A true JP2001249698A (en) 2001-09-14
JP3404350B2 JP3404350B2 (en) 2003-05-06

Family

ID=18581167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000060932A Expired - Fee Related JP3404350B2 (en) 2000-03-06 2000-03-06 Speech coding parameter acquisition method, speech decoding method and apparatus

Country Status (1)

Country Link
JP (1) JP3404350B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096325A1 (en) * 2002-05-07 2003-11-20 Sony Corporation Coding method, coding device, decoding method, and decoding device
JP2005143074A (en) * 2003-11-07 2005-06-02 Psytechnics Ltd Quality evaluation tool
WO2005124739A1 (en) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. Noise suppression device and noise suppression method
WO2006005337A1 (en) * 2004-06-11 2006-01-19 Nanonord A/S A method for analyzing fundamental frequencies and application of the method
US8195469B1 (en) 1999-05-31 2012-06-05 Nec Corporation Device, method, and program for encoding/decoding of speech with function of encoding silent period
JP2013532851A (en) * 2010-07-30 2013-08-19 クゥアルコム・インコーポレイテッド System, method, apparatus and computer readable medium for coding of harmonic signals
CN104681032A (en) * 2013-11-28 2015-06-03 ***通信集团公司 Voice communication method and equipment
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JPWO2013176177A1 (en) * 2012-05-23 2016-01-14 日本電信電話株式会社 Encoding method, decoding method, encoding device, decoding device, program, and recording medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62502572A (en) * 1985-03-18 1987-10-01 マサチユ−セツツ インステイテユ−ト オブ テクノロジ− Acoustic waveform processing
JPH07261796A (en) * 1994-03-17 1995-10-13 Idou Tsushin Syst Kaihatsu Kk Voice encoding and decoding device
JPH07295593A (en) * 1994-04-21 1995-11-10 Matsushita Electric Ind Co Ltd Speech encoding device
JPH08272398A (en) * 1995-02-22 1996-10-18 Digital Voice Syst Inc Speech synthetis using regenerative phase information
JPH10124092A (en) * 1996-10-23 1998-05-15 Sony Corp Method and device for encoding speech and method and device for encoding audible signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62502572A (en) * 1985-03-18 1987-10-01 マサチユ−セツツ インステイテユ−ト オブ テクノロジ− Acoustic waveform processing
JPH07261796A (en) * 1994-03-17 1995-10-13 Idou Tsushin Syst Kaihatsu Kk Voice encoding and decoding device
JPH07295593A (en) * 1994-04-21 1995-11-10 Matsushita Electric Ind Co Ltd Speech encoding device
JPH08272398A (en) * 1995-02-22 1996-10-18 Digital Voice Syst Inc Speech synthetis using regenerative phase information
JPH10124092A (en) * 1996-10-23 1998-05-15 Sony Corp Method and device for encoding speech and method and device for encoding audible signal

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195469B1 (en) 1999-05-31 2012-06-05 Nec Corporation Device, method, and program for encoding/decoding of speech with function of encoding silent period
WO2003096325A1 (en) * 2002-05-07 2003-11-20 Sony Corporation Coding method, coding device, decoding method, and decoding device
US7428489B2 (en) 2002-05-07 2008-09-23 Sony Corporation Encoding method and apparatus, and decoding method and apparatus
JP2005143074A (en) * 2003-11-07 2005-06-02 Psytechnics Ltd Quality evaluation tool
WO2006005337A1 (en) * 2004-06-11 2006-01-19 Nanonord A/S A method for analyzing fundamental frequencies and application of the method
WO2005124739A1 (en) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. Noise suppression device and noise suppression method
JP2013532851A (en) * 2010-07-30 2013-08-19 クゥアルコム・インコーポレイテッド System, method, apparatus and computer readable medium for coding of harmonic signals
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JPWO2013176177A1 (en) * 2012-05-23 2016-01-14 日本電信電話株式会社 Encoding method, decoding method, encoding device, decoding device, program, and recording medium
CN104681032A (en) * 2013-11-28 2015-06-03 ***通信集团公司 Voice communication method and equipment

Also Published As

Publication number Publication date
JP3404350B2 (en) 2003-05-06

Similar Documents

Publication Publication Date Title
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP3277398B2 (en) Voiced sound discrimination method
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6377916B1 (en) Multiband harmonic transform coder
AU2005236596A1 (en) Signal encoding
WO2012108680A2 (en) Method and device for bandwidth extension
KR20020052191A (en) Variable bit-rate celp coding of speech with phonetic classification
WO1999010719A1 (en) Method and apparatus for hybrid coding of speech at 4kbps
JP2002023800A (en) Multi-mode sound encoder and decoder
JPH0744193A (en) High-efficiency encoding method
JP3191926B2 (en) Sound waveform coding method
JP3404350B2 (en) Speech coding parameter acquisition method, speech decoding method and apparatus
JP3325248B2 (en) Method and apparatus for obtaining speech coding parameter
Osman et al. Speech compression using LPC and wavelet
JP3218679B2 (en) High efficiency coding method
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JP3321933B2 (en) Pitch detection method
EP0713208B1 (en) Pitch lag estimation system
JP3398968B2 (en) Speech analysis and synthesis method
Haagen et al. Waveform interpolation
JP3218681B2 (en) Background noise detection method and high efficiency coding method
Li et al. A new distortion measure for parameter quantization based on MELP
JPH07104793A (en) Encoding device and decoding device for voice
Olatunji et al. Improved speech analysis for glottal excited linear predictive speech coding
Hu et al. A pseudo glottal excitation model for the linear prediction vocoder with speech signals coded at 1.6 kbps

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080229

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090228

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100228

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100228

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees