JP5148414B2 - Signal band expander - Google Patents

Signal band expander Download PDF

Info

Publication number
JP5148414B2
JP5148414B2 JP2008222297A JP2008222297A JP5148414B2 JP 5148414 B2 JP5148414 B2 JP 5148414B2 JP 2008222297 A JP2008222297 A JP 2008222297A JP 2008222297 A JP2008222297 A JP 2008222297A JP 5148414 B2 JP5148414 B2 JP 5148414B2
Authority
JP
Japan
Prior art keywords
signal
wideband
narrowband
band
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008222297A
Other languages
Japanese (ja)
Other versions
JP2010055002A (en
Inventor
隆 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008222297A priority Critical patent/JP5148414B2/en
Publication of JP2010055002A publication Critical patent/JP2010055002A/en
Application granted granted Critical
Publication of JP5148414B2 publication Critical patent/JP5148414B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

この発明は、帯域制限された音声や音楽・オーディオなどの信号を広帯域信号に変換する信号帯域拡張装置に関する。   The present invention relates to a signal band extending apparatus for converting a band-limited signal such as voice or music / audio into a wideband signal.

周知のように、従来の信号帯域拡張装置では、入力信号について線形予測分析を行い、この分析によって得た線形予測残差信号から基本周波数成分の存在する周波数帯域のみを切り出し、非線形に歪ませて広帯域残差信号を得るようにしている(例えば、特許文献1参照)。しかしながら、原音との歪みが大きくなるため、音質の向上が望まれていた。
特許第2956548号公報
As is well known, the conventional signal band expansion apparatus performs linear prediction analysis on the input signal, extracts only the frequency band in which the fundamental frequency component exists from the linear prediction residual signal obtained by this analysis, and nonlinearly distorts it. A wideband residual signal is obtained (see, for example, Patent Document 1). However, since the distortion with the original sound becomes large, improvement in sound quality has been desired.
Japanese Patent No. 2956548

従来の信号帯域拡張装置では、原音との歪みが大きくなるため、音質の向上が望まれていた。
この発明は上記の問題を解決すべくなされたもので、原音に忠実で高音質な広帯域信号を生成することが可能な信号帯域拡張装置を提供することを目的とする。
In the conventional signal band extending apparatus, since distortion with the original sound becomes large, improvement in sound quality has been desired.
The present invention has been made to solve the above problems, and an object of the present invention is to provide a signal band extending device capable of generating a wide band signal faithful to the original sound and having high sound quality.

上記の目的を達成するために、請求項1に係る発明は、入力信号を分析し、狭帯域スペクトルパラメータと狭帯域音源信号を求める分析手段と、前記分析手段が得た狭帯域音源信号に対して前記分析手段が求めた狭帯域スペクトルパラメータに基づくフォルマント強調を行うフォルマント強調手段と、前記フォルマント強調手段でフォルマントが強調された狭帯域音源信号から広帯域音源信号に変換する広帯域化手段と、前記分析手段が求めた狭帯域スペクトルパラメータに基づいた広帯域スペクトルパラメータと前記広帯域化手段が得た広帯域音源信号によって、広帯域信号を合成する合成手段と、前記合成手段が合成した広帯域信号から拡張した帯域を抽出して前記入力信号に加算する加算手段とを具備して構成するようにした。 To achieve the above object, the invention according to claim 1 analyzes the input signal, and analyzing means for calculating a narrow-band spectral parameters and narrowband excitation signal, against the narrow-band sound source signal, wherein the analyzing means to obtain Formant emphasizing means for performing formant emphasis based on the narrowband spectral parameters obtained by the analyzing means, broadbanding means for converting the narrowband sound source signal whose formant is emphasized by the formant emphasizing means into a wideband sound source signal, and the analysis extracted by a broadband excitation signal wideband spectral parameters and the broadband unit are obtained based on the narrow-band spectral parameter means is determined, and combining means for combining the wideband signal, the band which extends from the wideband signal the combining means is synthesized And adding means for adding to the input signal.

以上述べたように、この発明では、原音に忠実で高音質な広帯域信号を生成することが可能な信号帯域拡張装置を提供することができる。   As described above, according to the present invention, it is possible to provide a signal band extending device capable of generating a wideband signal faithful to the original sound and having high sound quality.

以下、図面を参照して、この発明の実施形態について説明する。
図1は、この発明の一実施形態に係わる信号帯域拡張装置が適用された通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、帯域拡張処理部3と、D/A変換器4とを備えている。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 shows a configuration of a communication apparatus to which a signal band extending apparatus according to an embodiment of the present invention is applied. The communication apparatus shown in this figure shows a reception system of a wireless communication apparatus such as a cellular phone, for example, and includes a wireless communication unit 1, a decoder 2, a band extension processing unit 3, a D / A converter 4, and the like. It has.

無線通信部1は、移動通信網に収容される無線基地局と無線通信し、そしてこの無線基地局および移動通信網を通じて通信相手局との間に通信リンクを確立して通信する。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…N-1)を得る。ここで1フレームをN=160サンプルとする。ただし、この入力信号x[n]は、サンプリング周波数はfs[Hz]でfs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域の信号である。このようにして得られたディジタルの入力信号x[n]は、フレーム単位で帯域拡張処理部3に出力される。
The wireless communication unit 1 wirelessly communicates with a wireless base station accommodated in a mobile communication network, and establishes a communication link with the communication partner station through the wireless base station and the mobile communication network.
The decoder 2 decodes the reception data received by the wireless communication unit 1 from the communication partner station for each predetermined unit (1 frame = N samples), and outputs a digital input signal x [n] (n = 0 , 1, ... N-1). Here, one frame is assumed to be N = 160 samples. However, the input signal x [n] is a narrowband signal whose sampling frequency is fs [Hz] and band-limited from fs_nb_low [Hz] to fs_nb_high [Hz]. The digital input signal x [n] thus obtained is output to the band extension processing unit 3 in units of frames.

帯域拡張処理部3は、1フレーム単位で上記受話信号x[n] (n=0,1,…N-1)に帯域拡張処理を施し、帯域拡張処理によりfs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張される。このとき、サンプリング周波数はデコーダ2でのサンプリング周波数fs[Hz]のままであるか、あるいはより高いサンプリング周波数fs’[Hz]に変更される。すなわち、帯域拡張処理部3によって、サンプリング周波数fs[Hz]あるいはサンプリング周波数fs’[Hz]の帯域拡張された出力信号y[n]が1フレーム単位で得られる。なお、帯域拡張処理部3の具体的な構成例については後に詳述する。   The bandwidth extension processing unit 3 performs bandwidth extension processing on the received signal x [n] (n = 0, 1,... N−1) in units of one frame, and fs_wb_low [Hz] to fs_wb_high [Hz] by bandwidth extension processing. It is extended to the band up to. At this time, the sampling frequency remains the sampling frequency fs [Hz] at the decoder 2 or is changed to a higher sampling frequency fs' [Hz]. That is, the band extension processing unit 3 obtains the band-extended output signal y [n] of the sampling frequency fs [Hz] or the sampling frequency fs ′ [Hz] in units of one frame. A specific configuration example of the bandwidth extension processing unit 3 will be described in detail later.

D/A変換器4は、上記帯域拡張された出力信号y[n]をアナログ信号y(t)に変換して、スピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。   The D / A converter 4 converts the band extended output signal y [n] into an analog signal y (t) and outputs the analog signal y (t) to the speaker 5. The speaker 5 outputs an output signal y (t) that is an analog signal to the acoustic space.

なお、図1では、この発明に関わる信号帯域拡張装置を通信装置に適用しているが、図2に示すように、ディジタルオーディオプレイヤに適用することも可能である。このディジタルオーディオプレイヤは、無線通信部1に代わって、フラッシュメモリやHDD(Hard Disk Drive)を用いた記憶部6を備え、この記憶部6から読み出した音楽データをデコーダ2が上述したように復号する。   In FIG. 1, the signal band extending apparatus according to the present invention is applied to a communication apparatus. However, as shown in FIG. 2, it can also be applied to a digital audio player. The digital audio player includes a storage unit 6 using a flash memory or HDD (Hard Disk Drive) instead of the wireless communication unit 1, and the decoder 2 decodes the music data read from the storage unit 6 as described above. To do.

次に、帯域拡張処理部3の構成例について説明する。   Next, a configuration example of the bandwidth extension processing unit 3 will be described.

(帯域拡張処理部3の第1の構成例)
図3は、この発明に係わる帯域拡張処理部3の第1の構成例を示すものである。この第1の構成例では、帯域拡張処理部3で、サンプリング周波数をデコーダ2で用いたサンプリング周波数fs[Hz]からfs'[Hz]にアップサンプリングを伴う帯域拡張処理するものとする。すなわち、fs < fs'である。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high ≦ fs_wb_high < fs/2 を満たし、fs_nb_high < fs/2 < fs_wb_high < fs’/2 を満たすものとする。
(First configuration example of the bandwidth extension processing unit 3)
FIG. 3 shows a first configuration example of the bandwidth extension processing unit 3 according to the present invention. In the first configuration example, the band extension processing unit 3 performs band extension processing with upsampling from the sampling frequency fs [Hz] used in the decoder 2 to the sampling frequency fs [Hz]. That is, fs <fs'. However, fs_wb_low ≤ fs_nb_low <fs_nb_high ≤ fs_wb_high <fs / 2 is satisfied, and fs_nb_high <fs / 2 <fs_wb_high <fs' / 2 is satisfied.

また以下の説明では、高域拡張を例に挙げるため、fs_nb_low = fs_wb_lowとして説明し、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=100[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=100[Hz]、fs_wb_high=7950[Hz]とする。これらは例であって、帯域制限の周波数帯域やサンプリング周波数については、これに限らない。   Also, in the following description, fs_nb_low = fs_wb_low will be described as an example of high frequency expansion, for example, fs = 8000 [Hz], fs' = 16000 [Hz], fs_nb_low = 100 [Hz], fs_nb_high = 3950 [ Hz], fs_wb_low = 100 [Hz], fs_wb_high = 7950 [Hz]. These are examples, and the frequency band of the band limitation and the sampling frequency are not limited to this.

この図に示すように、第1の構成例の帯域拡張処理部3は、線形予測分析部301と、逆フィルタ302と、フォルマント強調部303と、アップサンプリング部304と、帯域通過フィルタ305と、広帯域化処理部306と、スペクトル包絡広帯域化処理部307と、信号合成部308と、帯域通過フィルタ309と、アップサンプリング部310と、信号遅延処理部311と、信号加算部312とを備える。これらは、1つのプロセッサと、図示しない記憶媒体に記録されたソフトウェアによって実現することも可能である。   As shown in this figure, the band extension processing unit 3 of the first configuration example includes a linear prediction analysis unit 301, an inverse filter 302, a formant emphasis unit 303, an upsampling unit 304, a band pass filter 305, A broadening processing unit 306, a spectrum envelope widening processing unit 307, a signal synthesis unit 308, a bandpass filter 309, an upsampling unit 310, a signal delay processing unit 311, and a signal addition unit 312 are provided. These can also be realized by one processor and software recorded in a storage medium (not shown).

線形予測分析部301は、狭帯域に帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、これについて線形予測分析して、狭帯域のスペクトル包絡を表す狭帯域スペクトルパラメータとしてDn次の線形予測係数LPC[f,d](d=1,…,Dn)を得る。ここでは例えば、Dn=10とする。具体的には、線形予測分析の対象となる現在のフレームfの入力信号x[n] (n=0,1,…N-1)と、このフレームの直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミング窓として窓関数を入力信号に乗じて、データ長2Nの窓掛けを行い、その信号wx[n] (n=0,1,…2N-1)に対してDn次の線形予測分析を行う。なお、1フレーム前の入力信号は、線形予測分析部301が備えるメモリを用いて保持する。   The linear prediction analysis unit 301 receives an input signal x [n] (n = 0, 1,... N−1) of the current frame f that is band-limited to a narrow band. Dn-th order linear prediction coefficients LPC [f, d] (d = 1,..., Dn) are obtained as narrowband spectral parameters representing the spectral envelope of the band. Here, for example, Dn = 10. Specifically, the sum of the input signal x [n] (n = 0, 1,... N−1) of the current frame f to be subjected to linear prediction analysis and the input signal of the previous frame immediately before this frame. Data of 2N input signal x [n] (n = 0,1, ... 2N-1), which combines two frames in the time direction, is multiplied by the window function as the Hamming window and the input signal. A window of length 2N is performed, and Dn-th order linear prediction analysis is performed on the signal wx [n] (n = 0, 1,... 2N−1). Note that the input signal of the previous frame is held using a memory provided in the linear prediction analysis unit 301.

ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。この実施形態では、狭帯域のスペクトル包絡を表現する狭帯域スペクトルパラメータとして線形予測係数を用いる場合を例にしているが、線スペクトル対(LSP)や線スペクトル周波数(LSF)、PARCOR係数、メルケプストラム係数などを用いてもよい。   Here, as an example, the shift width (N samples here) of the input signal x [n] at the next time (frame) and the data length (2N samples here) of the input signal wx [n] windowed The overlap ratio is 50%. However, the window function used for windowing is not limited to the Hamming window, but is appropriately changed to another symmetric window (Hanning window, Blackman window, sine wave window, etc.) or an asymmetric window used in speech coding processing. You can do it. The overlap is not limited to 50%. In this embodiment, the case where a linear prediction coefficient is used as a narrowband spectral parameter expressing a narrowband spectral envelope is taken as an example, but a line spectrum pair (LSP), a line spectrum frequency (LSF), a PARCOR coefficient, a mel cepstrum A coefficient or the like may be used.

逆フィルタ302は、線形予測分析部301で得た狭帯域スペクトルパラメータである線形予測係数LPC[f,d]を用いて、システム関数を下式(1)とする逆フィルタA(z)を形成し、その逆フィルタA(z)に線形予測分析部301でデータ長2Nの窓掛けした入力信号wx[n]を入力して、狭帯域音源信号としてデータ長2Nの線形予測残差信号e[n]を得る。

Figure 0005148414
The inverse filter 302 uses the linear prediction coefficient LPC [f, d], which is a narrowband spectral parameter obtained by the linear prediction analysis unit 301, to form an inverse filter A (z) having the system function as the following equation (1). Then, the input signal wx [n] windowed by the linear prediction analysis unit 301 to the data length 2N is input to the inverse filter A (z), and the linear prediction residual signal e [ n].
Figure 0005148414

フォルマント強調部303は、狭帯域スペクトルパラメータに基づくシステム関数を下式(2)とするフォルマント強調フィルタF(z)であって、スペクトル包絡の谷の部分を抑圧する特性を持ち、この特性を狭帯域音源信号である上記線形予測残差信号e[n]に掛けることで、フォルマント強調を行う。

Figure 0005148414
The formant emphasis unit 303 is a formant emphasis filter F (z) whose system function based on the narrowband spectrum parameter is expressed by the following equation (2), and has a characteristic of suppressing the valley portion of the spectrum envelope. Formant emphasis is performed by multiplying the linear prediction residual signal e [n], which is a band excitation signal.
Figure 0005148414

なおフォルマント強調は、狭帯域音源信号である上記線形予測残差信号e[n]に、特性を下式(3)とする線形予測合成フィルタを通して、さらに特性を下式(4)とする逆フィルタを通すことで実現してもよい。このようにして、フォルマント強調された線形予測残差信号ew[n]は、線形予測残差信号e[n]と比べて、狭帯域信号のパワースペクトルの谷の部分を抑圧することでフォルマントの谷の信号抑圧し、その分フォルマントの山と谷の差が強調される。ここでは例えば、γn=0.6、γd=0.8とする。

Figure 0005148414
Note that formant emphasis is performed on the linear prediction residual signal e [n], which is a narrow-band sound source signal, through a linear prediction synthesis filter whose characteristic is the following expression (3), and an inverse filter whose characteristic is the following expression (4). It may be realized by passing through. In this way, the formant-enhanced linear prediction residual signal ew [n], compared with the linear prediction residual signal e [n], suppresses the valley part of the power spectrum of the narrowband signal, thereby reducing the formant's The signal of the valley is suppressed, and the difference between the formant peaks and valleys is emphasized accordingly. Here, for example, γ n = 0.6 and γ d = 0.8.
Figure 0005148414

なお、フォルマント強調部303は、狭帯域スペクトルパラメータに基づくフォルマント強調フィルタに限らず、フォルマントの山と谷の差を強調する処理であればどのようなものでも構わない。例えば、特開2004−219757号に示されているフォルマント強調処理あるいはアンチフォルマント減衰処理や、特開2004−86102号に示されているスペクトルパラメータを変更してスペクトル包絡の極の密度を変更する処理であっても構わない。   Note that the formant emphasizing unit 303 is not limited to the formant emphasis filter based on the narrowband spectral parameter, and any process that emphasizes the difference between the peak and valley of the formant may be used. For example, formant emphasis processing or anti-formant attenuation processing disclosed in Japanese Patent Application Laid-Open No. 2004-219757, or processing for changing the spectral parameter pole density by changing spectral parameters disclosed in Japanese Patent Application Laid-Open No. 2004-86102. It does not matter.

アップサンプリング部304は、フォルマント強調部303によりフォルマント強調された線形予測残差信号ew[n]をサンプリング周波数fs[Hz]からそれよりも高いサンプリング周波数fs'[Hz]にアップサンプリングし、エイリアシングを除去し、アップサンプリングされたデータ長4Nの線形予測残差信号ew_us[n]を出力する。
帯域通過フィルタ305は、アップサンプリング部304の出力から広帯域化に用いる周波数帯域(例えば1k[Hz]〜4k[Hz])を通過させる特性であって、アップサンプリング部304で得たデータ長4Nの線形予測残差信号ew_us[n]を入力として、帯域通過フィルタ処理し、帯域通過処理した線形予測残差信号ew2_us[n]を広帯域化処理部306に出力する。
The up-sampling unit 304 up-samples the linear prediction residual signal ew [n] subjected to formant emphasis by the formant emphasizing unit 303 from the sampling frequency fs [Hz] to a higher sampling frequency fs ′ [Hz], and performs aliasing. After removal, the upsampled linear prediction residual signal ew_us [n] having a data length of 4N is output.
The band-pass filter 305 has a characteristic of passing a frequency band (for example, 1 k [Hz] to 4 k [Hz]) used for widening from the output of the up-sampling unit 304, and has a data length of 4N obtained by the up-sampling unit 304. The linear prediction residual signal ew_us [n] is input to the linear prediction residual signal ew_us [n], and the band-pass filtering process is performed.

広帯域化処理部306は、帯域通過フィルタ305で得た線形予測残差信号ew2_us[n]に、半波整流などの非線形処理を施して、有声音では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長4Nの線形予測残差信号ew_wb[n]が得られる。線形予測残差信号ew_wb[n]は、線形予測残差信号e[n]を広帯域化処理した場合に比べて、フォルマントの山と谷の差が強調される。   The wideband processing unit 306 performs nonlinear processing such as half-wave rectification on the linear prediction residual signal ew2_us [n] obtained by the bandpass filter 305, and for voiced sound, a peak is generated in the frequency domain for each overtone of the fundamental frequency. It is converted into a broadband signal that has a structure (harmonic structure). As a result, a linear prediction residual signal ew_wb [n] with a data length of 4N having a wide band is obtained. In the linear prediction residual signal ew_wb [n], the difference between the peak and valley of the formant is emphasized as compared with the case where the linear prediction residual signal e [n] is subjected to the broadband processing.

このような調波構造に変換する非線形処理の一例としては、図4(a)や図4(b)に示すような非線形関数を用いた非線形処理がある。図4(a)は半波整流を表す。また、調波構造にする非線形処理としては図4(b)のように全波整流を用いる。これらの処理に限らないが、帯域制限された入力信号が、この帯域制限によって、有声音において基本周波数が欠落していた場合は基本周波数を生成し、基本周波数が欠落していない場合は基本周波数を生成しないようにするために、少なくとも周期性を残す関数が望ましい。   As an example of the non-linear processing for converting to such a harmonic structure, there is a non-linear processing using a non-linear function as shown in FIG. 4 (a) or 4 (b). FIG. 4A shows half-wave rectification. In addition, full-wave rectification is used as nonlinear processing to make a harmonic structure as shown in FIG. Although not limited to these processes, the band-limited input signal generates a fundamental frequency if the fundamental frequency is missing in the voiced sound due to this band restriction, and the fundamental frequency if the fundamental frequency is not missing. In order not to generate, a function that at least keeps periodicity is desirable.

スペクトル包絡広帯域化処理部307は、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応を事前にモデル化しておき、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータ(ここでは線形予測係数LPC[f,d])を取得し、この狭帯域スペクトルパラメータを用いて、モデル化しておいた狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応から広帯域化されたスペクトル包絡を表す広帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_WB[f,d])を求める処理を行う。狭帯域のスペクトル包絡を表す狭帯域スペクトルパラメータから広帯域のスペクトル包絡を表す広帯域スペクトルパラメータに変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や、GMMを用いる手法(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。ここでは、例えばGMM(Gaussian mixture model)を利用する手法を用いるとして、線形予測分析部301で得た狭帯域スペクトルパラメータである線形予測係数LPC[f,d]を、fs_wb_low[Hz]からfs_wb_high[Hz]までに対応する広帯域スペクトルパラメータであるDw次の広帯域の線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)に、事前に線形予測係数LPC[f,d]と線スペクトル周波数LSF_WB[f,d]の対応をモデル化しておいたGMMを利用して変換する。ここでは例えばDw=18とする。なお、狭帯域スペクトルパラメータであるスペクトル包絡を表す特徴量データは、線形予測係数限らず、PARCOR係数や反射係数、線スペクトル周波数、ケプストラム係数、メルケプストラム係数などでも構わない。同様に、広帯域スペクトルパラメータであるスペクトル包絡を表す特徴量データは、線スペクトル周波数に限らず、例えばLPC係数、PARCOR係数や反射係数、ケプストラム係数、メルケプストラム係数などでも構わない。   The spectral envelope broadening processing unit 307 models in advance the correspondence between the narrowband spectral parameter representing the spectral envelope of the narrowband signal and the wideband spectral parameter representing the spectral envelope of the wideband signal, and calculates the spectral envelope of the narrowband signal. The narrowband spectral parameter (in this case, the linear prediction coefficient LPC [f, d]) is obtained, and the narrowband spectral parameter representing the spectral envelope of the narrowband signal that has been modeled and the broadband A process for obtaining a broadband spectral parameter (here, line spectral frequency LSF_WB [f, d]) representing a spectral envelope that has been widened from the correspondence with the broadband spectral parameter representing the spectral envelope of the signal is performed. A method using a codebook based on vector quantization (VQ) (for example, Yoshida, Abe, “Codebook”) is used to convert a narrowband spectral parameter representing a narrowband spectral envelope into a broadband spectral parameter representing a wideband spectral envelope. "Generating Wideband Speech from Narrowband Speech by Mapping", Theory of Science (D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.) and using GMM Techniques (eg KY Park, HS Kim, “Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.) and vector quantization (VQ) Codebook and HMM-based methods (eg, G. Chen, V. Parsa, “HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004 .) And methods using HMMs (eg, S. Yao, CF Chan, “Block-based Bandwidth Exte nsion of Narrowband Speech Signal by using CDHMM ”, Proc. ICASSP2005, vol.1, pp.793-796, 2005. Here, for example, assuming that a technique using a GMM (Gaussian mixture model) is used, the linear prediction coefficient LPC [f, d], which is a narrowband spectral parameter obtained by the linear prediction analysis unit 301, is changed from fs_wb_low [Hz] to fs_wb_high [ The linear prediction coefficient LPC [f, d] and the line spectrum in advance to the Dw-th order wideband line spectrum frequency LSF_WB [f, d] (d = 1, ..., Dw), which is a wideband spectrum parameter corresponding to Hz] Conversion is performed using a GMM that models the correspondence of the frequency LSF_WB [f, d]. Here, for example, Dw = 18. Note that the feature amount data representing the spectral envelope, which is a narrowband spectral parameter, is not limited to a linear prediction coefficient, and may be a PARCOR coefficient, a reflection coefficient, a line spectral frequency, a cepstrum coefficient, a mel cepstrum coefficient, or the like. Similarly, the feature amount data representing the spectral envelope which is a broadband spectral parameter is not limited to the line spectral frequency, and may be, for example, an LPC coefficient, a PARCOR coefficient, a reflection coefficient, a cepstrum coefficient, a mel cepstrum coefficient, or the like.

スペクトル包絡広帯域化処理部307のより具体的な構成例を図5に示す。スペクトル包絡広帯域化処理部307は、線スペクトル周波数変換部307aと、GMM格納部307bと、スペクトル包絡生成部307cとを備える。   A more specific configuration example of the spectrum envelope broadening processing unit 307 is shown in FIG. The spectrum envelope broadening processing unit 307 includes a line spectrum frequency conversion unit 307a, a GMM storage unit 307b, and a spectrum envelope generation unit 307c.

線スペクトル周波数変換部307aは、狭帯域スペクトルパラメータである線形予測係数LPC[f,d](d=1,…,Dn)を、同じ次数の線スペクトル周波数(LSF)であるLSF_NB[f,d](d=1,…,Dn)に変換して、スペクトル包絡生成部307cに出力する。
GMM格納部307bは、事前に学習された混合数Q(ここではQ=64)のGMM λq={wq,μq,Σq}(q=1,…,Q)を格納している。なお、wqはq番目の混合正規分布の混合重みを示し、μqはq番目の混合正規分布の平均ベクトル、Σqはq次数目の混合正規分布の共分散行列(対角共分散行列または全共分散行列)を表している。なお、平均ベクトルμqと共分散行列Σqの成分の数である次数は、Dn+Dwである。
The line spectrum frequency conversion unit 307a converts the linear prediction coefficient LPC [f, d] (d = 1,..., Dn), which is a narrowband spectrum parameter, to LSF_NB [f, d, which is a line spectrum frequency (LSF) of the same order. ] (D = 1,..., Dn) and output to the spectrum envelope generation unit 307c.
The GMM storage unit 307b stores GMM λq = {wq, μq, Σq} (q = 1,..., Q) of the mixture number Q (here, Q = 64) learned in advance. Here, w q indicates the weight of the q-th mixed normal distribution, μ q is the mean vector of the q-th mixed normal distribution, Σ q is the covariance matrix (diagonal covariance matrix of the q-th mixed normal distribution) Or the total covariance matrix). Note that the order that is the number of components of the average vector μ q and the covariance matrix Σ q is Dn + Dw.

スペクトル包絡生成部307cは、線スペクトル周波数(LSF)であるLSF_NB[f,d](d=1,…,Dn)を入力として、GMM格納部307bからGMM λq={wq,μq,Σq}(q=1,…,Q)を読み出して、最小平均2乗推定(MMSE:Minimam Mean Square Error)に従って以下のように、広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとして線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)を算出して出力する。下式(5)は、次元(d=1,…,Dn+Dw)方向のベクトルとして記載している。また、平均ベクトルμq(d=1,…,Dn+Dw)は次元方向で、μq N(d=1,…,Dn)とμq W(d=Dn,…,Dn+Dw)に分割し、(Dn+Dw)×(Dn+Dw)行列である共分散行列Σqも以下のように、Dn×Dn行列であるΣq NNとDn×Dw行列であるΣq NWとDw×Dn行列であるΣq WNとDw×Dw行列であるΣq WWとに分割する。

Figure 0005148414
The spectrum envelope generation unit 307c receives the line spectrum frequency (LSF) LSF_NB [f, d] (d = 1,..., Dn) as an input, and the GMM λq = {wq, μq, Σq} ( q = 1, ..., Q), and the line spectrum frequency LSF_WB [f, d as a broadband spectral parameter representing the spectral envelope of the broadband signal as follows according to the Minimum Mean Square Error (MMSE) ] (D = 1, ..., Dw) is calculated and output. The following formula (5) is described as a vector in the dimension (d = 1,..., Dn + Dw) direction. Also, the mean vector μ q (d = 1, ..., Dn + Dw) is in the dimensional direction, and μ q N (d = 1, ..., Dn) and μ q W (d = Dn, ..., Dn + Dw) divided, (Dn + Dw) × ( Dn + Dw) covariance matrix sigma q which is a matrix also as follows, sigma q NW and Dw × is a Dn × Dn matrix sigma q NN and Dn × Dw matrix Divide into Σ q WN which is a Dn matrix and Σ q WW which is a Dw × Dw matrix.
Figure 0005148414

事前のGMMの学習生成方法について、フローチャートを図6に示し、説明する。
GMMの生成に用いる信号は、サンプリング周波数fs’[Hz]でfs_wb_low[Hz]からfs_wb_high[Hz]までに対応する理想的な広帯域信号(原音)とし、なるべく多数の音声信号を用いた信号群を用意する。この信号群は、多数の話者、様々な音量、様々な発話内容であることが望ましい。以下では、GMMの生成に用いる理想的な広帯域信号の信号群をまとめて1つにして、広帯域信号データwb[n]と表記する。また、nは時刻(サンプル)を表す。
A flowchart of the prior GMM learning generation method will be described with reference to FIG.
The signal used to generate the GMM is an ideal wideband signal (original sound) corresponding to fs_wb_low [Hz] to fs_wb_high [Hz] at the sampling frequency fs' [Hz], and a signal group using as many audio signals as possible is used. prepare. This signal group is preferably a large number of speakers, various volumes, and various utterance contents. In the following, the ideal wideband signal group used to generate the GMM is grouped into one and represented as wideband signal data wb [n]. N represents time (sample).

まず、広帯域信号データwb[n]を入力して、ダウンサンプリングフィルタによってサンプリング周波数fs[Hz]にダウンサンプリングし、fs_nb_low[Hz]からfs_nb_high[Hz]までの狭帯域に帯域制限された狭帯域信号データnb[n]を得る(ステップS101)。なお、図示しないが、上記ダウンサンプリングフィルタや帯域制限処理でアルゴリズム遅延が生じる場合には、狭帯域信号データnb[n]を広帯域信号データwb[n]と同期を合わせる処理を行う。   First, the wideband signal data wb [n] is input, downsampled to the sampling frequency fs [Hz] by the downsampling filter, and the narrowband signal is limited to the narrow band from fs_nb_low [Hz] to fs_nb_high [Hz]. Data nb [n] is obtained (step S101). Although not shown, when an algorithm delay occurs in the downsampling filter or the band limiting process, a process for synchronizing the narrowband signal data nb [n] with the wideband signal data wb [n] is performed.

次に、上記狭帯域信号データnb[n]からフレームf単位で所定の次数の狭帯域のスペクトル包絡を表す特徴量データを抽出する(ステップS102)。ステップ102ではまず、狭帯域信号データnb[n]からフレーム毎に線形予測分析を行い、Dn次の線形予測係数LPC_NB[f,d](d=1,…,Dn)を得る(ステップS102A)。次にDn次の線形予測係数LPC_NB[f,d]から同じ次数の線スペクトル周波数LSF_NB[f,d](d=1,…,Dn)に変換する(ステップS102B)。   Next, feature amount data representing a narrow-band spectrum envelope of a predetermined order is extracted from the narrow-band signal data nb [n] in units of frame f (step S102). In step 102, first, linear prediction analysis is performed for each frame from the narrowband signal data nb [n] to obtain Dn-th order linear prediction coefficients LPC_NB [f, d] (d = 1,..., Dn) (step S102A). . Next, the Dn-th order linear prediction coefficient LPC_NB [f, d] is converted into a line spectrum frequency LSF_NB [f, d] (d = 1,..., Dn) of the same order (step S102B).

一方、上記に並行して、広帯域信号データwb[n]からフレームf単位で所定の次数の広帯域のスペクトル包絡を表す特徴量データを抽出する(ステップS103)。ステップS103ではまず、広帯域信号データwb[n]からフレーム毎に線形予測分析を行い、Dw次の線形予測係数LPC_WB[f,d](d=1,…,Dw)を得る(ステップS103A)。次にDw次の線形予測係数LPC_WB[f,d]から同じ次数の線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)に変換する(ステップS103B)。   On the other hand, in parallel with the above, feature value data representing a broadband spectral envelope of a predetermined order is extracted in units of frame f from the broadband signal data wb [n] (step S103). In step S103, first, linear prediction analysis is performed for each frame from the wideband signal data wb [n] to obtain Dw-th order linear prediction coefficients LPC_WB [f, d] (d = 1,..., Dw) (step S103A). Next, the Dw-th order linear prediction coefficient LPC_WB [f, d] is converted into a line spectrum frequency LSF_WB [f, d] (d = 1,..., Dw) of the same order (step S103B).

次に、完全に時間的に同期が取れた狭帯域のスペクトル包絡を表す特徴量データである線スペクトル周波数LSF_NB[f,d](d=1,…,Dn)と、広帯域のスペクトル包絡を表す特徴量データである線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)の2つの特徴量データをフレーム単位で次数方向(次元方向)に連結して、次数Dn+Dwの連結特徴量データP[f,d](d=1,…,Dn+Dw)を生成する(ステップS104)。   Next, the line spectrum frequency LSF_NB [f, d] (d = 1,..., Dn), which is feature amount data representing a narrow-band spectrum envelope that is completely synchronized in time, and a broadband spectrum envelope Link the two feature data of the line spectrum frequency LSF_WB [f, d] (d = 1, ..., Dw), which is the feature data, in the order direction (dimension direction) in units of frames, and connect the order Dn + Dw Feature quantity data P [f, d] (d = 1,..., Dn + Dw) is generated (step S104).

最後に、上記連結特徴量データP[f,d] から混合数Q=1の初期GMMを生成し、各GMMの平均ベクトルをわずかにずらして2倍の数のGMMを生成することで混合数Qを増やす処理と、上記連結特徴量データP[f,d]を用いてEMアルゴリズムにより収束するまでGMMの尤度最大化学習を行う処理とを交互に繰り返し行い、混合数Q(ここではQ=64)のGMM λq={wq,μq,Σq}(q=1,…,Q)を生成する(ステップS105)。EMアルゴリズムについては、D.A.Reynols and R.C.Rose,“Robust text-independent speaker identification using Gaussian mixture models”,IEEE Trans. Speech and Audio Processing, Vol.3, no.1, pp.72-83, Jan.1995. などの文献に詳細な記述がある。   Finally, an initial GMM with a mixture number Q = 1 is generated from the connected feature data P [f, d], and the average vector of each GMM is slightly shifted to generate twice as many GMMs. The process of increasing Q and the process of performing likelihood maximization learning of the GMM using the connected feature data P [f, d] until convergence by the EM algorithm are alternately repeated until the number of mixtures Q (here, Q = 64) GMM λq = {wq, μq, Σq} (q = 1,..., Q) is generated (step S105). For the EM algorithm, see DAReynols and RCRose, “Robust text-independent speaker identification using Gaussian mixture models”, IEEE Trans. Speech and Audio Processing, Vol. 3, no.1, pp.72-83, Jan. 1995. There are detailed descriptions in the literature.

信号合成部308は、スペクトル包絡広帯域化処理部307から出力された広帯域スペクトルパラメータである上記線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)に基づいて、線スペクトル対LSP_WB[f,d](d=1,…,Dw)を生成して、広帯域化処理部306で得た広帯域音源信号であるデータ長4Nの線形予測残差信号ew_wb[n]にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1[n]を算出し、データ長4Nの広帯域信号y1[n]の時間的に前半のデータ(データ長2N)と、1フレーム前に信号合成部308が出力した広帯域信号y1[n]の時間的に後半のデータ(データ長2N)とを、これらのオーバーラップ分を考慮して加算し、データ長2Nの広帯域信号y1[n]を算出する。   Based on the line spectrum frequency LSF_WB [f, d] (d = 1,..., Dw), which is the broadband spectrum parameter output from the spectrum envelope broadening processing unit 307, the signal synthesis unit 308 performs line spectrum pair LSP_WB [ f, d] (d = 1,..., Dw) are generated, and the LSP synthesis filter processing is performed on the linear prediction residual signal ew_wb [n] having a data length of 4N, which is the wideband sound source signal obtained by the wideband processing unit 306. To calculate a wideband signal y1 [n] with a data length of 4N, and output the data in the first half of the wideband signal y1 [n] with a data length of 4N (data length 2N) and the signal synthesis unit 308 one frame before The wideband signal y1 [n] in the second half of time (data length 2N) of the wideband signal y1 [n] is added in consideration of these overlaps to calculate the wideband signal y1 [n] having the data length 2N.

帯域通過フィルタ309は、データ長2Nの広帯域信号y1[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長2Nの広帯域信号y2[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が第2の広帯域信号y2[n]として得られる。   The band-pass filter 309 performs a filtering process for allowing only the frequency band desired to be extended to the wideband signal y1 [n] having the data length 2N and passes the signal thus passed, that is, the signal in the frequency band desired to be extended to the data length 2N. Is output as a broadband signal y2 [n]. That is, the band pass filter process allows a frequency band from fs_nb_high [Hz] to fs_wb_high [Hz] to pass, and a signal in this frequency band is obtained as the second wideband signal y2 [n].

アップサンプリング部310は、データ長Nの入力信号x[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長2Nのx_wb[n]として出力する。   The up-sampling unit 310 up-samples the input signal x [n] having the data length N from the sampling frequency fs [Hz] to fs' [Hz], removes aliasing, and outputs it as x_wb [n] having the data length 2N To do.

信号遅延処理部311は、データ長2Nのアップサンプリングされた入力信号x_wb[n]を所定の時間(Dサンプル分)だけバッファし、アップサンプリングされた入力信号x_wb[n-D]として遅延させて出力することで、帯域通過フィルタ309から出力される第2の広帯域信号y2[n]とタイミングを合わせる。すなわち、所定の時間(Dサンプル分)は、線形予測分析部301への入力から帯域通過フィルタ309から出力が得られるまでの処理遅延の時間から、アップサンプリング部310での処理遅延の時間を引いた分の時間に相当する。この値は、事前に求めておき、Dを常に固定値として用いる。   The signal delay processing unit 311 buffers the upsampled input signal x_wb [n] having a data length of 2N for a predetermined time (D samples), and delays and outputs the upsampled input signal x_wb [nD]. Thus, the timing is matched with the second wideband signal y2 [n] output from the bandpass filter 309. That is, the predetermined time (D samples) is obtained by subtracting the processing delay time in the upsampling unit 310 from the processing delay time from the input to the linear prediction analysis unit 301 until the output from the bandpass filter 309 is obtained. Equivalent to minutes. This value is obtained in advance, and D is always used as a fixed value.

信号加算部312は、信号遅延処理部311から出力されるアップサンプリングされたデータ長2Nの入力信号x_wb[n-D]と、帯域通過フィルタ309から出力されるデータ長2Nの広帯域信号y2[n]を、共にサンプリング周波数fs'[Hz]で加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D]は、広帯域信号y2[n]分だけ帯域拡張される。   The signal adder 312 receives the upsampled input signal x_wb [nD] having a data length of 2N output from the signal delay processor 311 and the wideband signal y2 [n] having a data length of 2N output from the band pass filter 309. Both are added at the sampling frequency fs ′ [Hz] to obtain a wideband signal y [n] having a data length of 2N as an output signal. As a result, the upsampled input signal x [n-D] is expanded by the wideband signal y2 [n].

図7に第1の構成例のシミュレーション結果として、入力信号x[n]を音声信号とした場合の出力信号y[n]のパワースペクトルとフォルマントの一例を示す。フォルマント強調部303を設けた場合のパワースペクトルを細実線PS1で、そのフォルマントを太実線F1でそれぞれ示している。また、フォルマント強調部303を設けない場合のパワースペクトルを細破線PS0で、そのフォルマントを太破線F0でそれぞれ示している。この図に示すように、フォルマント強調部303を設けた場合の出力信号y[n]のパワースペクトルは、帯域拡張を行った帯域4000〜8000[Hz]においてフォルマントの谷が深くなることが分かる。   FIG. 7 shows an example of the power spectrum and formant of the output signal y [n] when the input signal x [n] is an audio signal as a simulation result of the first configuration example. The power spectrum when the formant emphasis unit 303 is provided is indicated by a thin solid line PS1, and the formant is indicated by a thick solid line F1. Further, the power spectrum when the formant emphasizing unit 303 is not provided is indicated by a thin broken line PS0, and the formant is indicated by a thick broken line F0. As shown in this figure, it can be seen that the power spectrum of the output signal y [n] when the formant emphasizing unit 303 is provided has a deep formant valley in the band 4000 to 8000 [Hz] in which the band is expanded.

以上のように、上記構成の信号帯域拡張装置では、フォルマント強調部303を設けて、線形予測残差信号にフォルマント強調を行い、線形予測残差信号についてフォルマントの山と谷の差を強調するようにしている。そして、フォルマント強調後の線形予測残差信号を広帯域化して、広帯域化したフォルマント強調後の線形予測残差信号に基づいて広帯域信号を求めるようにしている。
したがって、上記構成の信号帯域拡張装置によれば、広帯域化した信号のフォルマントの山と谷の差をはっきりすることができるので、原音に忠実で高音質な広帯域信号を生成することができる。
As described above, in the signal band extending apparatus having the above-described configuration, the formant emphasis unit 303 is provided to perform formant emphasis on the linear prediction residual signal and emphasize the difference between the peak and valley of the formant in the linear prediction residual signal. I have to. Then, the linear prediction residual signal after formant emphasis is widened, and a wideband signal is obtained based on the linear prediction residual signal after formant emphasis after widening.
Therefore, according to the signal band extending apparatus having the above configuration, it is possible to clarify the difference between the peak and valley of the formant of the widened signal, and thus it is possible to generate a broadband signal that is faithful to the original sound and has high sound quality.

また、スペクトル包絡広帯域化処理部307のように、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応を事前に複数の信号からモデル化する場合、得られる広帯域化されたスペクトル包絡を表す広帯域スペクトルパラメータは、平均化され平滑化されているためフォルマントの山と谷の差が浅いようなスペクトルパラメータとなる。これに対して、上記構成の信号帯域拡張装置によれば、フォルマント強調部303を設けて、線形予測残差信号にフォルマント強調を行い、広帯域化し、広帯域化されたスペクトル包絡を表すスペクトルパラメータと合成することにより広帯域信号を得るため、広帯域化されたスペクトル包絡を表す広帯域スペクトルパラメータによってフォルマントの山と谷の差が浅くなる傾向を防ぐことができ、広帯域化した信号のフォルマントの山と谷の差をはっきりすることができるので、原音に忠実で高音質な広帯域信号を生成することができる。   In addition, when the correspondence between the narrowband spectrum parameter representing the spectrum envelope of the narrowband signal and the broadband spectrum parameter representing the spectrum envelope of the wideband signal is modeled from a plurality of signals in advance, as in the spectrum envelope broadening processing unit 307 The obtained wideband spectral parameters representing the broadened spectral envelope are averaged and smoothed, so that the difference between the formant peaks and valleys is shallow. On the other hand, according to the signal band extending apparatus having the above-described configuration, the formant emphasis unit 303 is provided to perform formant emphasis on the linear prediction residual signal, to broaden the band, and to combine the spectral parameter representing the broadened spectrum envelope. In order to obtain a wideband signal, it is possible to prevent the tendency of the difference between the peak and valley of the formant from being reduced by the broadband spectral parameter representing the broadened spectrum envelope, and the difference between the peak and valley of the formant of the broadband signal. Therefore, it is possible to generate a broadband signal that is faithful to the original sound and has high sound quality.

(帯域拡張処理部3の第1の構成例の変形例1)
なお、図3に示した構成の変形例として、図8に示すような構成も考えられる。図8に示す信号帯域拡張装置の帯域拡張処理部は、図3に示した構成に加え、有声/無声推定部313と、雑音生成部314と、パワー制御部315と、パワー制御部316と、信号加算処理部317とを備え、信号合成部308が広帯域化処理部306の出力に代わって、信号加算処理部317の出力を入力として用いるようにしたものである。
(Modification 1 of the first configuration example of the bandwidth extension processing unit 3)
As a modification of the configuration shown in FIG. 3, a configuration as shown in FIG. 8 is also conceivable. The band extension processing unit of the signal band extension apparatus shown in FIG. 8 includes, in addition to the configuration shown in FIG. 3, a voiced / unvoiced estimation unit 313, a noise generation unit 314, a power control unit 315, a power control unit 316, A signal addition processing unit 317, and the signal synthesis unit 308 uses the output of the signal addition processing unit 317 as an input instead of the output of the wideband processing unit 306.

有声/無声推定部313は、入力信号x[n]と、線形予測分析部301が線形予測分析したDn次の線形予測係数LPC[f,d]とを入力として、入力信号x[n]がフレーム単位で「有声音」であるか「無声音」であるかを推定し、その推定情報vuv[f]を出力する。具体的には、有声/無声推定部313は、まず入力信号x[n]からフレーム単位での零交差の数を算出し、それをフレーム長Nで割って平均化した上でマイナスにした、負の平均零交差数Zi[f]を算出する。次に、下式(6)に示すように、フレーム単位での入力信号x[n]の2乗和を以下のようにdB単位で計算し、これをフレームパワーCi[f]とする。

Figure 0005148414
The voiced / unvoiced estimation unit 313 receives the input signal x [n] and the Dn-th order linear prediction coefficient LPC [f, d] that the linear prediction analysis unit 301 performs linear prediction analysis, and receives the input signal x [n]. Estimate whether it is “voiced sound” or “unvoiced sound” in frame units, and output the estimation information vuv [f]. Specifically, the voiced / unvoiced estimation unit 313 first calculates the number of zero crossings per frame from the input signal x [n], divides it by the frame length N, and then makes it negative. The negative average zero crossing number Zi [f] is calculated. Next, as shown in the following equation (6), the sum of squares of the input signal x [n] in units of frames is calculated in dB as follows, and this is set as the frame power Ci [f].
Figure 0005148414

また、下式(7)に示すように、フレーム単位での1次自己相関係数In[f]を以下のように計算する。

Figure 0005148414
Further, as shown in the following equation (7), the first-order autocorrelation coefficient In [f] in units of frames is calculated as follows.
Figure 0005148414

そして、Dn次の線形予測係数LPC[f,d]に零詰めして256点の信号として256点FFTを行い、周波数スペクトルL[f,ω]を得て、周波数スペクトルL[f,ω]の2乗であるパワースペクトル|L[f,ω]|2に対して10を底とする対数を取り−10倍することでLPCによるスペクトル包絡をdB単位で算出し、基本周波数が存在すると想定される帯域におけるLPCによるスペクトル包絡の平均値Vi[f]を下式(8)に示すように算出する。なお、例えば基本周波数が存在すると想定される帯域を75[Hz]≦fs・ω/256[Hz]≦325[Hz]とし、つまりVi[f]として2≦ω≦11の平均を求める。

Figure 0005148414
The Dn-th order linear prediction coefficient LPC [f, d] is zero-padded to perform 256-point FFT as a 256-point signal to obtain a frequency spectrum L [f, ω], and the frequency spectrum L [f, ω] The power envelope | L [f, ω] | 2 , which is the square of, is calculated by taking the logarithm of base 10 and multiplying it by -10 to calculate the spectral envelope due to LPC in dB units, assuming that a fundamental frequency exists The average value Vi [f] of the spectrum envelope by LPC in the band to be calculated is calculated as shown in the following equation (8). For example, the band in which the fundamental frequency is assumed to be 75 [Hz] ≦ fs · ω / 256 [Hz] ≦ 325 [Hz], that is, the average of 2 ≦ ω ≦ 11 is obtained as Vi [f].
Figure 0005148414

そして有声/無声推定部313は、負の平均零交差数Zi[f]、フレームパワーCi[f]、1次自己相関係数In[f]、LPCスペクトル包絡の平均値Vi[f]に対してそれぞれ適宜重みを付けた線形和をフレーム毎に監視し、所定の閾値を超えた場合に「有声音」であると推定し、所定の閾値を超えない場合に「無声音」と推定し、その推定情報vuv[f]を出力する。
雑音生成部314は、有声/無声推定部313の推定結果である推定情報vuv[f]が「無声音」の場合に、一様にランダムな乱数を生成し、それを信号の振幅値にすることにより、白色化された雑音信号wn[n]をデータ長4N分生成して出力する。
The voiced / unvoiced estimation unit 313 then calculates the negative average zero crossing number Zi [f], the frame power Ci [f], the primary autocorrelation coefficient In [f], and the average value Vi [f] of the LPC spectrum envelope. The weighted linear sum is monitored for each frame, and when it exceeds a predetermined threshold, it is estimated as “voiced sound”, and when it does not exceed the predetermined threshold, it is estimated as “unvoiced sound”. The estimation information vuv [f] is output.
When the estimation information vuv [f], which is the estimation result of the voiced / unvoiced estimation unit 313, is “unvoiced sound”, the noise generation unit 314 generates a uniformly random random number and sets it as the amplitude value of the signal. Thus, the whitened noise signal wn [n] is generated and output for a data length of 4N.

パワー制御部315は、アップサンプリング部304から出力されたデータ長4Nの線形予測残差信号ew_us[n]と有音/無声推定部313から出力された1次自己相関係数In[f]に基づいて、雑音生成部314が生成した雑音信号wn[n]を所定のレベルまで増幅し、信号加算処理部317に出力する。具体的には、まずデータ長4Nの線形予測残差信号ew_us[n]の2乗和を求め、データ長4Nの雑音信号wn[n]の2乗和を求め、線形予測残差信号ew_us[n]の2乗和を雑音信号wn[n]の2乗和で割って増幅ゲインg1[f]を求める。次に、無声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が0に近づけば1に近づき、1次自己相関係数In[f]の絶対値が1に近づけば0に近づく増幅ゲインg2[f]を求める。そして、増幅ゲインg1[f]とg2[f]を雑音信号wn[n]に乗じる。   The power control unit 315 applies the linear prediction residual signal ew_us [n] having a data length of 4N output from the upsampling unit 304 and the primary autocorrelation coefficient In [f] output from the voiced / unvoiced estimation unit 313. Based on this, the noise signal wn [n] generated by the noise generation unit 314 is amplified to a predetermined level and output to the signal addition processing unit 317. Specifically, first, a square sum of a linear prediction residual signal ew_us [n] having a data length of 4N is obtained, a square sum of a noise signal wn [n] having a data length of 4N is obtained, and a linear prediction residual signal ew_us [ The square gain of n] is divided by the square sum of the noise signal wn [n] to obtain an amplification gain g1 [f]. Next, in order to amplify the level as the sound is unvoiced, the absolute value of the primary autocorrelation coefficient In [f] approaches 1 when the absolute value of the primary autocorrelation coefficient In [f] approaches 0, and the absolute value of the primary autocorrelation coefficient In [f] becomes An amplification gain g2 [f] that approaches 0 when 1 is approached is obtained. Then, the noise gain wn [n] is multiplied by the amplification gains g1 [f] and g2 [f].

パワー制御部316は、アップサンプリング部304から出力されたデータ長4Nの線形予測残差信号ew_us[n]と有音/無声推定部313から出力された1次自己相関係数In[f]に基づいて、広帯域化処理部306で得られた広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]を所定のレベルまで増幅し、信号加算処理部317に出力する。具体的には、まずデータ長4Nの線形予測残差信号ew_us[n]の2乗和を求め、データ長4Nの線形予測残差信号e_wb[n]の2乗和を求め、線形予測残差信号ew_us[n]の2乗和を線形予測残差信号e_wb[n]の2乗和で割って増幅ゲインg3[f]を求める。次に、有声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が1に近づけば1に近づき、1次自己相関係数In[f]の絶対値が0に近づけば0に近づく増幅ゲインg4[f]を求める。そして、増幅ゲインg3[f]とg4[f]を線形予測残差信号e_wb[n]に乗じる。   The power control unit 316 outputs the 4N linear prediction residual signal ew_us [n] output from the upsampling unit 304 and the primary autocorrelation coefficient In [f] output from the voiced / unvoiced estimation unit 313. Based on this, the wideband linear prediction residual signal e_wb [n] having a data length of 4N obtained by the wideband processing unit 306 is amplified to a predetermined level and output to the signal addition processing unit 317. Specifically, first, a square sum of a linear prediction residual signal ew_us [n] having a data length of 4N is obtained, and a square sum of a linear prediction residual signal e_wb [n] having a data length of 4N is obtained to obtain a linear prediction residual. An amplification gain g3 [f] is obtained by dividing the square sum of the signal ew_us [n] by the square sum of the linear prediction residual signal e_wb [n]. Next, in order to amplify the level of voiced sound, if the absolute value of the primary autocorrelation coefficient In [f] approaches 1, it approaches 1, and the absolute value of the primary autocorrelation coefficient In [f] When A approaches 0, an amplification gain g4 [f] that approaches 0 is obtained. Then, the linear prediction residual signal e_wb [n] is multiplied by the amplification gains g3 [f] and g4 [f].

信号加算処理部317は、パワー制御部315から出力される雑音信号と、パワー制御部316から出力される線形予測残差信号e_wb[n]とを加算して、広帯域音源信号として、信号合成部308に出力する。
信号合成部308は、スペクトル包絡広帯域化処理部307から出力された広帯域スペクトルパラメータである上記線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)に基づいて、線スペクトル対LSP_WB[f,d](d=1,…,Dw)を生成して、信号加算処理部317から出力される広帯域音源信号であるデータ長4Nの信号にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1[n]を算出し、データ長4Nの広帯域信号y1[n]の時間的に前半のデータ(データ長2N)と、1フレーム前に信号合成部308が出力した広帯域信号y1[n]の時間的に後半のデータ(データ長2N)とを、これらのオーバーラップ分を考慮して加算し、データ長2Nの広帯域信号y1[n]を算出する。
The signal addition processing unit 317 adds the noise signal output from the power control unit 315 and the linear prediction residual signal e_wb [n] output from the power control unit 316 to obtain a wideband sound source signal as a signal synthesis unit. Output to 308.
Based on the line spectrum frequency LSF_WB [f, d] (d = 1,..., Dw), which is the broadband spectrum parameter output from the spectrum envelope broadening processing unit 307, the signal synthesis unit 308 performs line spectrum pair LSP_WB [ f, d] (d = 1,..., Dw) are generated, and the LSP synthesis filter process is performed on the signal having the data length 4N, which is the broadband sound source signal output from the signal addition processing unit 317, to obtain the broadband having the data length 4N. The signal y1 [n] is calculated, and the first half time data (data length 2N) of the wideband signal y1 [n] having the data length 4N and the wideband signal y1 [n] output by the signal synthesis unit 308 one frame before The data in the latter half of time (data length 2N) are added in consideration of these overlaps to calculate a wideband signal y1 [n] having a data length 2N.

このような構成であっても、同様の効果を発揮する。また、このような構成によれば、有音/無声推定部313により有声音と無声音でそれぞれに適した信号を生成することができ、広帯域化して帯域拡張された信号を原音に近づけて、音質を向上させることができる。   Even with such a configuration, the same effect is exhibited. In addition, according to such a configuration, the voiced / unvoiced estimation unit 313 can generate signals suitable for voiced and unvoiced sounds, and the bandwidth-expanded band-expanded signal is brought close to the original sound, Can be improved.

(帯域拡張処理部3の第1の構成例の変形例2)
なお、図3に示した構成のさらなる変形例として、図9に示すような構成も考えられる。図9に示す信号帯域拡張装置の帯域拡張処理部は、図3に示した構成に加え、広帯域フォルマント強調部318を備え、信号合成部308が広帯域化処理部306の出力に代わって、広帯域フォルマント強調部318の出力を入力に用いるようにしたものである。
(Modification 2 of the first configuration example of the bandwidth extension processing unit 3)
As a further modification of the configuration shown in FIG. 3, a configuration as shown in FIG. 9 is also conceivable. 9 includes a wideband formant emphasis unit 318 in addition to the configuration shown in FIG. 3, and the signal synthesis unit 308 replaces the output of the wideband processing unit 306 with a wideband formant. The output of the enhancement unit 318 is used as an input.

広帯域フォルマント強調部318は、スペクトル包絡広帯域化処理部307から出力される広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータと広帯域化処理部306から出力される広帯域化された広帯域音源信号であるデータ長4Nの線形予測残差信号ew_wb[n]を入力として、広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータから広帯域のフォルマント強調フィルタを生成し、広帯域化された線形予測残差信号ew_wb[n]に掛けてフォルマント強調を行い、そのフォルマント強調され広帯域化された線形予測残差信号をew_wb2[n]として信号合成部308に出力する。ここでは具体的に、まずスペクトル包絡広帯域化処理部307から出力される広帯域スペクトルパラメータである線スペクトル周波数LSF_WB[f,d](d=1,…,Dw)を同じ次数の線形予測係数LPC_WB[f,d](d=1,…,Dw)に変換して、システム関数を下式(9)である広帯域のフォルマント強調フィルタF’(z)を生成する。

Figure 0005148414
The wideband formant emphasizing unit 318 has a wideband spectral parameter representing the spectral envelope of the wideband signal output from the spectral envelope widening processing unit 307 and a data length 4N which is a wideband wideband sound source signal output from the widening processing unit 306. The linear prediction residual signal ew_wb [n] is used as an input to generate a broadband formant emphasis filter from the broadband spectral parameters representing the spectral envelope of the broadband signal, and multiplied by the wideband linear prediction residual signal ew_wb [n] Formant emphasis is performed, and the formant-enhanced linear prediction residual signal having a wide band is output to the signal synthesis unit 308 as ew_wb2 [n]. Specifically, first, the line spectral frequency LSF_WB [f, d] (d = 1,..., Dw), which is a broadband spectral parameter output from the spectral envelope broadening processing unit 307, is converted into a linear prediction coefficient LPC_WB [ f, d] (d = 1,..., Dw) to generate a broadband formant emphasis filter F ′ (z) whose system function is the following equation (9).
Figure 0005148414

ここでは例えば、γ=0.6、γd=0.8とする。このフォルマント強調フィルタF’(z)も上記フォルマント強調フィルタF(z)と同様にスペクトル包絡の谷の部分を抑圧する特性を持ち、この特性を広帯域化された線形予測残差信号ew_wb[n]に掛けてることで、フォルマント強調を行う。同様に、広帯域のフォルマント強調は、広帯域化された線形予測残差信号ew_wb[n]に、特性を下式(10)とする線形予測合成フィルタを通して、さらに特性を下式(11)とする逆フィルタを通すことで実現してもよい。

Figure 0005148414
Here, for example, γ n = 0.6 and γ d = 0.8. This formant emphasis filter F ′ (z) also has the characteristic of suppressing the valley portion of the spectral envelope in the same manner as the above formant emphasis filter F (z), and this characteristic is broadened to the linear prediction residual signal ew_wb [n]. By emphasizing the formant, the formant is emphasized. Similarly, wideband formant emphasis is applied to the wideband linear prediction residual signal ew_wb [n] through a linear prediction synthesis filter whose characteristic is the following expression (10), and further, whose characteristic is the following expression (11). You may implement | achieve by letting a filter pass.
Figure 0005148414

このようにすることで、フォルマント強調され広帯域化された線形予測残差信号ew_wb2[n]は、広帯域化された線形予測残差信号ew_wb[n]と比べて、信号のパワースペクトルの谷の部分を抑圧することでフォルマントの谷の信号抑圧し、その分フォルマントの山と谷の差が強調される。   In this way, the formant-enhanced and widened linear prediction residual signal ew_wb2 [n] is compared with the wideband linear prediction residual signal ew_wb [n], which is the valley portion of the signal power spectrum. Suppresses the signal in the formant valley, and the difference between the formant mountain and valley is emphasized.

以上のように、上記構成の信号帯域拡張装置では、広帯域フォルマント強調部318を設けて、広帯域化された線形予測残差信号にフォルマント強調を行い、広帯域化された線形予測残差信号についてフォルマントの山と谷の差を強調するようにしている。そして、フォルマント強調後の広帯域化された線形予測残差信号に基づいて広帯域信号を求めるようにしている。
したがって、上記構成の信号帯域拡張装置によれば、広帯域化されたスペクトル包絡を表す広帯域スペクトルパラメータによってフォルマントの山と谷の差が浅くなる傾向を防ぐことができ、広帯域化した信号のフォルマントの山と谷の差を第1の構成例よりもよりはっきりすることができるので、原音に忠実で高音質な広帯域信号を生成することができる。
As described above, in the signal band extending apparatus having the above configuration, the wideband formant emphasis unit 318 is provided to perform formant emphasis on the wideband linear prediction residual signal, and the formant of the wideband linear prediction residual signal is increased. The difference between the mountain and the valley is emphasized. Then, a broadband signal is obtained based on the linear prediction residual signal that has been widened after formant enhancement.
Therefore, according to the signal band extending apparatus having the above configuration, it is possible to prevent a tendency that the difference between the peak and valley of the formant becomes shallow due to the broadband spectrum parameter representing the broadband spectrum envelope. Since the difference between the valley and the valley can be made clearer than in the first configuration example, it is possible to generate a broadband signal that is faithful to the original sound and has high sound quality.

また、広帯域フォルマント強調部318は、信号合成部308で算出する広帯域スペクトルパラメータである線スペクトル対LSP_WB[f,d](d=1,…,Dw)に基づいて線形予測係数LPC_WB[f,d](d=1,…,Dw)に変換し、広帯域のフォルマント強調フィルタF’(z)を生成するようにしてもよく、同様の効果が得られる。   The wideband formant emphasizing unit 318 also performs linear prediction coefficient LPC_WB [f, d based on the line spectrum pair LSP_WB [f, d] (d = 1,..., Dw) that is the wideband spectral parameter calculated by the signal synthesis unit 308. ] (D = 1,..., Dw) to generate a broadband formant emphasis filter F ′ (z), and the same effect can be obtained.

(帯域拡張処理部3の第2の構成例)
さらに、図3では、帯域拡張処理部が高域拡張処理を行うものとして構成例を示したが、図10に示すように低域拡張処理を行う帯域拡張処理部に対しても本発明を適用することができる。
(Second configuration example of the bandwidth extension processing unit 3)
Further, in FIG. 3, the configuration example is shown on the assumption that the band extension processing unit performs the high band extension process, but the present invention is also applied to the band extension processing unit that performs the low band extension process as shown in FIG. can do.

この第2の構成例では、帯域拡張処理部3の帯域拡張処理で、サンプリング周波数fs[Hz]のまま、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるものとする。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high ≦ fs_wb_high < fs/2 を満たすものとする。   In the second configuration example, it is assumed that the bandwidth extension processing of the bandwidth extension processing unit 3 extends the bandwidth from fs_wb_low [Hz] to fs_wb_high [Hz] while maintaining the sampling frequency fs [Hz]. However, fs_wb_low ≦ fs_nb_low <fs_nb_high ≦ fs_wb_high <fs / 2.

また以下の説明では、低域拡張を例に挙げるため、fs_wb_low < fs_nb_low、fs_nb_high = fs_wb_highとして説明し、例えば、fs=8000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=3950[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。   In the following explanation, fs_wb_low <fs_nb_low, fs_nb_high = fs_wb_high, for example, fs_8000 [Hz], fs_nb_low = 340 [Hz], fs_nb_high = 3950 [Hz], fs_wb_low = 50 [Hz], fs_wb_high = 3950 [Hz]. The frequency band of the band limitation and the sampling frequency are not limited to this.

図10に示す信号帯域拡張装置の帯域拡張処理部は、図3に示した構成から、アップサンプリング部304と、帯域通過フィルタ305と、スペクトル包絡広帯域化処理部307と、アップサンプリング部310とを除いて、広帯域化処理部306を広帯域化処理部306aに、信号合成部308を線形予測合成部308aに、帯域通過フィルタ部309を帯域通過フィルタ部309aに、信号遅延処理部311を信号遅延処理部311aに、信号加算部312を信号加算部312aにそれぞれ置き換えて、アップサンプリングは行わずに信号処理を行うものである。これに伴い、各処理部の入出力のデータ長は半分になる。これらは、1つのプロセッサと、図示しない記憶媒体に記録されたソフトウェアによって実現することも可能である。 The band extension processing unit of the signal band extension apparatus shown in FIG. 10 includes an upsampling unit 304, a bandpass filter 305, a spectrum envelope widening processing unit 307, and an upsampling unit 310 from the configuration shown in FIG. Except for, the wideband processing unit 306 is a wideband processing unit 306a, the signal synthesis unit 308 is a linear prediction synthesis unit 308a, the bandpass filter unit 309 is a bandpass filter unit 309a, and the signal delay processing unit 311 is a signal delay process. The signal adder 312 is replaced with the signal adder 312a in the unit 311a, and signal processing is performed without performing upsampling. Accordingly, the input / output data length of each processing unit is halved. These can also be realized by one processor and software recorded in a storage medium (not shown).

広帯域化処理部306aは、フォルマント強調部303で得た線形予測残差信号ew[n]に、半波整流などの非線形処理を施して、有声音では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長2Nの線形予測残差信号ew_wb[n]が得られ、これを広帯域音源信号として線形予測合成部308aに出力する。線形予測残差信号ew_wb[n]は、線形予測残差信号e[n]を広帯域化処理した場合に比べて、フォルマントの山と谷の差が強調される。   The wideband processing unit 306a performs non-linear processing such as half-wave rectification on the linear prediction residual signal ew [n] obtained by the formant emphasizing unit 303, and for voiced sound, a peak is generated in the frequency domain for each overtone of the fundamental frequency. It is converted into a broadband signal that has a structure (harmonic structure). As a result, a wideband linear prediction residual signal ew_wb [n] having a data length of 2N is obtained, and is output to the linear prediction synthesis unit 308a as a wideband sound source signal. In the linear prediction residual signal ew_wb [n], the difference between the peak and valley of the formant is emphasized as compared with the case where the linear prediction residual signal e [n] is subjected to the broadband processing.

線形予測合成部308aは、線形予測分析部301で得られた狭帯域スペクトルパラメータである線形予測係数LPC[f,d](d=1,…,Dn)をそのまま広帯域スペクトルパラメータとして、この広帯域スペクトルパラメータに基づいて、システム関数を下式(12)とする線形予測合成フィルタを生成し、このフィルタを用いて広帯域処理部306から出力される広帯域音源信号であるデータ長2Nの線形予測残差信号ew_wb[n]に線形予測合成を行い、データ長2Nの広帯域信号y1[n]を算出し、データ長2Nの広帯域信号y1[n]の時間的に前半のデータ(データ長N)と、1フレーム前に線形予測合成部308aが出力した広帯域信号y1[n]の時間的に後半のデータ(データ長N)とを、これらのオーバーラップ分を考慮して加算し、データ長Nの広帯域信号y1[n]を算出する。

Figure 0005148414
The linear prediction synthesis unit 308a uses the linear prediction coefficient LPC [f, d] (d = 1,..., Dn), which is a narrowband spectral parameter obtained by the linear prediction analysis unit 301, as it is as a wideband spectral parameter. Based on the parameters, a linear prediction synthesis filter having a system function as the following expression (12) is generated, and using this filter, a linear prediction residual signal having a data length of 2N, which is a broadband sound source signal output from the broadband processing unit 306 Linear prediction synthesis is performed on ew_wb [n], a wideband signal y1 [n] with a data length of 2N is calculated, and the first half time data (data length N) of the wideband signal y1 [n] with a data length of 2N is 1 The wideband signal y1 [n] output from the linear prediction synthesis unit 308a before the frame is added to the data in the latter half of the time (data length N) in consideration of the overlap, and the wideband signal having the data length N is added. Calculate y1 [n].
Figure 0005148414

帯域通過フィルタ309aは、データ長Nの広帯域信号y1[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長Nの広帯域信号y2[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が第2の広帯域信号y2[n]として得られる。   The band-pass filter 309a performs a filtering process on the wideband signal y1 [n] having the data length N so as to pass only the frequency band desired to be extended, and the signal thus passed, that is, the signal in the frequency band desired to be extended is converted to the data length N Is output as a broadband signal y2 [n]. That is, by the band pass filter process, a frequency band from fs_wb_low [Hz] to fs_nb_low [Hz] is passed, and a signal in this frequency band is obtained as the second wideband signal y2 [n].

信号遅延処理部311aは、データ長Nの入力信号x[n]を所定の時間(D1サンプル分)だけバッファし、入力信号x[n-D1]として遅延させて出力することで、帯域通過フィルタ309aから出力される第2の広帯域信号y2[n]とタイミングを合わせる。すなわち、所定の時間(D1サンプル分)は、線形予測分析部301への入力から帯域通過フィルタ309aから出力が得られるまでの処理遅延の時間に相当する。この値は、事前に求めておき、D1を常に固定値として用いる。   The signal delay processing unit 311a buffers the input signal x [n] having the data length N for a predetermined time (D1 samples), and delays and outputs the input signal x [n−D1], thereby providing a bandpass filter. The timing is matched with the second wideband signal y2 [n] output from 309a. That is, the predetermined time (D1 sample) corresponds to the processing delay time from the input to the linear prediction analysis unit 301 until the output is obtained from the bandpass filter 309a. This value is obtained in advance, and D1 is always used as a fixed value.

信号加算部312aは、信号遅延処理部311aから出力されるデータ長Nの入力信号x[n-D1]と、帯域通過フィルタ309aから出力されるデータ長Nの広帯域信号y2[n]を、共にサンプリング周波数fs[Hz]で加算して、データ長Nの広帯域信号y[n]を出力信号として得る。これにより、入力信号x[n-D1]は、広帯域信号y2[n]分だけ帯域拡張される。   The signal adder 312a uses both the data length N input signal x [n-D1] output from the signal delay processor 311a and the data length N wideband signal y2 [n] output from the bandpass filter 309a. By adding at the sampling frequency fs [Hz], a broadband signal y [n] having a data length N is obtained as an output signal. As a result, the input signal x [n-D1] is band-extended by the wideband signal y2 [n].

このような構成によれば、サンプリング周波数の変更を伴わない帯域拡張においても、広帯域化した信号のフォルマントの山と谷の差をはっきりすることができるので、原音に忠実で高音質な広帯域信号を生成することができる。
また、図3から図8に追加した構成を、図10に適用することも可能である。
また、図3から図9に追加した構成を、図10に適用することも可能である。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
According to such a configuration, even in the band expansion without changing the sampling frequency, the difference between the formant peaks and valleys of the widened signal can be clarified, so that a high-quality broadband signal faithful to the original sound can be obtained. Can be generated.
Further, the configuration added to FIGS. 3 to 8 can be applied to FIG.
Also, the configuration added to FIGS. 3 to 9 can be applied to FIG.
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. Further, for example, a configuration in which some components are deleted from all the components shown in the embodiment is also conceivable. Furthermore, you may combine suitably the component described in different embodiment.

この発明に係わる信号帯域拡張装置を適用した通信装置の構成を示す回路ブロック図。The circuit block diagram which shows the structure of the communication apparatus to which the signal band expansion apparatus concerning this invention is applied. この発明に係わる信号帯域拡張装置を適用したディジタルオーディオプレイヤの構成を示す回路ブロック図。1 is a circuit block diagram showing a configuration of a digital audio player to which a signal band extending device according to the present invention is applied. 図1や図2に示した信号帯域拡張装置の帯域拡張処理部の構成例を示す回路ブロック図。FIG. 3 is a circuit block diagram showing a configuration example of a band extension processing unit of the signal band extension apparatus shown in FIG. 1 or FIG. 2. 図3に示した広帯域化処理部の非線形処理で用いる非線形関数の例を示す図。The figure which shows the example of the nonlinear function used by the nonlinear process of the wideband processing part shown in FIG. 図3に示したスペクトル包絡広帯域化処理拡張部の構成例を示す回路ブロック図。FIG. 4 is a circuit block diagram illustrating a configuration example of a spectrum envelope broadening processing extension unit illustrated in FIG. 3. 図5のGMM記憶部が記憶するGMMの生成方法について説明するための図。The figure for demonstrating the production | generation method of GMM which the GMM memory | storage part of FIG. 5 memorize | stores. 図3に示した帯域拡張処理部のシミュレーション結果を示す図。The figure which shows the simulation result of the band expansion process part shown in FIG. 図3に示した帯域拡張処理部の変形例1の構成を示す回路ブロック図。FIG. 4 is a circuit block diagram illustrating a configuration of a first modification of the band extension processing unit illustrated in FIG. 3. 図3に示した帯域拡張処理部の変形例2の構成を示す回路ブロック図。FIG. 4 is a circuit block diagram showing a configuration of a second modification of the band extension processing unit shown in FIG. 3. 図1や図2に示した信号帯域拡張装置の帯域拡張処理部の第2の構成例を示す回路ブロック図。FIG. 3 is a circuit block diagram showing a second configuration example of a band extension processing unit of the signal band extension apparatus shown in FIG. 1 or FIG. 2.

符号の説明Explanation of symbols

1…無線通信部、2…デコーダ、3…帯域拡張処理部、4…D/A変換器、5…スピーカ、6…記憶部、301…線形予測分析部、302…逆フィルタ、303…フォルマント強調部、304…アップサンプリング部、305…帯域通過フィルタ、306…広帯域化処理部、307…スペクトル包絡広帯域化処理部、307a…線スペクトル周波数変換部、307b…GMM格納部、307c…スペクトル包絡生成部、308…信号合成部、309…帯域通過フィルタ、310…アップサンプリング部、311…信号遅延処理部、312…信号加算部、313…有声/無声推定部、314…雑音生成部、315…パワー制御部、316…パワー制御部、317…信号加算処理部。   DESCRIPTION OF SYMBOLS 1 ... Wireless communication part, 2 ... Decoder, 3 ... Band extension process part, 4 ... D / A converter, 5 ... Speaker, 6 ... Memory | storage part, 301 ... Linear prediction analysis part, 302 ... Inverse filter, 303 ... Formant emphasis , 304: Upsampling unit, 305: Band pass filter, 306 ... Broadband processing unit, 307 ... Spectral envelope wideband processing unit, 307a ... Line spectral frequency conversion unit, 307b ... GMM storage unit, 307c ... Spectral envelope generation unit 308: Signal synthesis unit 309 Band-pass filter 310 310 Upsampling unit 311 Signal delay processing unit 312 Signal addition unit 313 Voiced / unvoiced estimation unit 314 Noise generation unit 315 Power control 316, power control unit, 317, signal addition processing unit.

Claims (7)

入力信号を分析し、狭帯域スペクトルパラメータと狭帯域音源信号を求める分析手段と、
前記分析手段が得た狭帯域音源信号に対して前記分析手段が求めた狭帯域スペクトルパラメータに基づくフォルマント強調を行うフォルマント強調手段と、
前記フォルマント強調手段でフォルマントが強調された狭帯域音源信号から広帯域音源信号に変換する広帯域化手段と、
前記分析手段が求めた狭帯域スペクトルパラメータに基づいた広帯域スペクトルパラメータと前記広帯域化手段が得た広帯域音源信号によって、広帯域信号を合成する合成手段と、
前記合成手段が合成した広帯域信号から拡張した帯域を抽出して前記入力信号に加算する加算手段とを具備することを特徴とする信号帯域拡張装置。
Analyzing means for analyzing the input signal to obtain a narrowband spectral parameter and a narrowband sound source signal;
A formant emphasizing means for performing formant emphasis based on narrowband spectral parameter is the analyzing means is determined for narrowband excitation signal the analyzing means is obtained,
Widening means for converting a narrowband sound source signal in which the formant is emphasized by the formant emphasizing means into a wideband sound source signal;
A synthesizing unit for synthesizing a wideband signal based on the wideband spectral parameter based on the narrowband spectral parameter obtained by the analyzing unit and the wideband sound source signal obtained by the broadbanding unit;
It said combining means the signal band extending apparatus, wherein a comprises an adding means for adding to the input signal to extract the band which extends from the synthesized wideband signal.
前記合成手段は、前記分析手段が求めた狭帯域スペクトルパラメータをそのまま広帯域スペクトルパラメータとして用いることを特徴とする請求項1に記載の信号帯域拡張装置。   2. The signal band extending apparatus according to claim 1, wherein the synthesizing unit uses the narrowband spectral parameter obtained by the analyzing unit as a wideband spectral parameter as it is. 入力信号を分析し、狭帯域スペクトルパラメータと狭帯域音源信号を求める分析手段と、
前記分析手段が得た狭帯域音源信号に対して前記分析手段が求めた狭帯域スペクトルパラメータに基づくフォルマント強調を行うフォルマント強調手段と、
前記フォルマント強調手段でフォルマントが強調された狭帯域音源信号をアップサンプリングする第1アップサンプリング手段と、
前記第1アップサンプリング手段でアップサンプリングされた狭帯域音源信号から広帯域音源信号に変換する広帯域化手段と、
前記分析手段が求めた狭帯域スペクトルパラメータと、予めモデル化しておいた狭帯域スペクトルパラメータと広帯域スペクトルパラメータの対応に基づいて、広帯域スペクトルパラメータを求めるスペクトルパラメータ広帯域化手段と、
前記スペクトルパラメータ広帯域化手段が求めた広帯域スペクトルパラメータと前記広帯域化手段が得た広帯域音源信号に基づいて、広帯域信号を合成する合成手段と、
前記入力信号をアップサンプリングする第2アップサンプリング手段と、
前記合成手段が合成した広帯域信号から拡張した帯域を抽出した信号を、前記第2アップサンプリング手段でアップサンプリングされた入力信号に加算する加算手段とを具備することを特徴とする信号帯域拡張装置。
Analyzing means for analyzing the input signal to obtain a narrowband spectral parameter and a narrowband sound source signal;
A formant emphasizing means for performing formant emphasis based on narrowband spectral parameter is the analyzing means is determined for narrowband excitation signal the analyzing means is obtained,
First upsampling means for upsampling a narrowband sound source signal in which formants are emphasized by the formant emphasizing means;
A broadening means for converting a narrowband sound source signal upsampled by the first upsampling means into a wideband sound source signal;
A spectral parameter broadening means for obtaining a wideband spectral parameter based on a correspondence between the narrowband spectral parameter obtained by the analyzing means, and a narrowband spectral parameter and a wideband spectral parameter that have been modeled in advance;
Based on the wide-band excitation signal is the spectral parameter broadband means wideband spectral parameters and the broadband unit determined to give a synthesizing means for synthesizing a wideband signal,
Second upsampling means for upsampling the input signal;
A signal band extending apparatus comprising: an adding means for adding a signal obtained by extracting a band extended from the wide band signal synthesized by the synthesizing means to the input signal up-sampled by the second up-sampling means.
前記広帯域化手段が得た広帯域音源信号に対してスペクトルパラメータ広帯域化手段が求めた広帯域スペクトルパラメータに基づくフォルマント強調を行う広帯域フォルマント強調手段をさらに有することを特徴とする請求項3に記載の信号帯域拡張装置。   4. The signal band according to claim 3, further comprising broadband formant emphasizing means for performing formant emphasis based on the broadband spectral parameter obtained by the spectral parameter broadening means with respect to the wideband sound source signal obtained by the broadening means. Expansion unit. 前記広帯域化手段は、予め設定した非線形関数に基づいて、フォルマント強調手段でフォルマントが強調された狭帯域音源信号から広帯域音源信号に変換することを特徴とする請求項1乃至請求項のいずれか1項に記載の信号帯域拡張装置。 The broadband unit, based on the non-linear function set in advance, any of narrowband excitation signal formant is emphasized by the formant emphasis means of claims 1 to 4, characterized in that into a wideband excitation signal 2. The signal band extending apparatus according to item 1. さらに、前記入力信号と前記分析手段が求めた狭帯域スペクトルパラメータとに基づいて、前記入力信号が有声か無声かを推定する推定手段と、
前記推定手段が無声と推定した場合に、雑音信号を生成する雑音生成手段と、
前記雑音生成手段が生成した雑音信号を、前記広帯域化手段が得た信号に加算する加算処理手段とを備え、
前記合成手段は、前記広帯域スペクトルパラメータと前記加算処理手段が得た信号を合成することを特徴とする請求項1乃至請求項のいずれか1項に記載の信号帯域拡張装置。
And estimating means for estimating whether the input signal is voiced or unvoiced based on the input signal and the narrowband spectral parameter obtained by the analyzing means;
When said estimating means has estimated that unvoiced, a noise generating means for generating a noise signal,
The noise signals said noise generating means has generated, and an addition processing means for adding the signals the broadband unit has obtained,
The combining means, the signal band extending apparatus according to any one of claims 1 to 5, wherein the combining signals the broadband spectral parameter and the addition processing means is obtained.
前記分析手段は線形予測分析を行い、狭帯域スペクトルパラメータとして線形予測係数を得、狭帯域音源信号として線形予測残差信号を得ることを特徴とする請求項1乃至請求項のいずれか1項に記載の信号帯域拡張装置。 The analyzing means performs linear prediction analysis, narrow obtain a linear prediction coefficient as a band spectral parameters, any one of claims 1 to 6, characterized in that to obtain a linear prediction residual signal as a narrowband excitation signal The signal band extending apparatus described in 1.
JP2008222297A 2008-08-29 2008-08-29 Signal band expander Expired - Fee Related JP5148414B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008222297A JP5148414B2 (en) 2008-08-29 2008-08-29 Signal band expander

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008222297A JP5148414B2 (en) 2008-08-29 2008-08-29 Signal band expander

Publications (2)

Publication Number Publication Date
JP2010055002A JP2010055002A (en) 2010-03-11
JP5148414B2 true JP5148414B2 (en) 2013-02-20

Family

ID=42070959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008222297A Expired - Fee Related JP5148414B2 (en) 2008-08-29 2008-08-29 Signal band expander

Country Status (1)

Country Link
JP (1) JP5148414B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5450298B2 (en) * 2010-07-21 2014-03-26 Toa株式会社 Voice detection device
JP5777041B2 (en) * 2010-07-23 2015-09-09 沖電気工業株式会社 Band expansion device and program, and voice communication device
JP6284003B2 (en) 2013-03-27 2018-02-28 パナソニックIpマネジメント株式会社 Speech enhancement apparatus and method
MY180722A (en) 2013-10-18 2020-12-07 Fraunhofer Ges Forschung Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
MY187944A (en) 2013-10-18 2021-10-30 Fraunhofer Ges Forschung Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
JP6386237B2 (en) * 2014-02-28 2018-09-05 国立研究開発法人情報通信研究機構 Voice clarifying device and computer program therefor
CN106992003A (en) * 2017-03-24 2017-07-28 深圳北斗卫星信息科技有限公司 Voice signal auto gain control method
JP2019008206A (en) * 2017-06-27 2019-01-17 日本放送協会 Voice band extension device, voice band extension statistical model learning device and program thereof

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (en) * 1992-10-05 1998-07-23 日本電信電話株式会社 Wideband audio signal restoration method
JP2956548B2 (en) * 1995-10-05 1999-10-04 松下電器産業株式会社 Voice band expansion device
JP2000206996A (en) * 1999-01-13 2000-07-28 Sony Corp Receiver and receiving method, communication equipment and communicating method
JP4047296B2 (en) * 2004-03-12 2008-02-13 株式会社東芝 Speech decoding method and speech decoding apparatus
JP2005331783A (en) * 2004-05-20 2005-12-02 Fujitsu Ltd Speech enhancing system, speech enhancement method, and communication terminal
JP4447546B2 (en) * 2005-11-18 2010-04-07 三菱電機株式会社 Wideband voice restoration method and wideband voice restoration apparatus

Also Published As

Publication number Publication date
JP2010055002A (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP4818335B2 (en) Signal band expander
JP4945586B2 (en) Signal band expander
JP5127754B2 (en) Signal processing device
JP5148414B2 (en) Signal band expander
JP4892021B2 (en) Signal band expander
RU2552184C2 (en) Bandwidth expansion device
JP5419876B2 (en) Spectrum smoothing device, coding device, decoding device, communication terminal device, base station device, and spectrum smoothing method
JP5535241B2 (en) Audio signal restoration apparatus and audio signal restoration method
JP5975243B2 (en) Encoding apparatus and method, and program
JP3881946B2 (en) Acoustic encoding apparatus and acoustic encoding method
JP2004101720A (en) Device and method for acoustic encoding
JPH10124088A (en) Device and method for expanding voice frequency band width
JPWO2010098112A1 (en) Encoding device, decoding device and methods thereof
Kornagel Techniques for artificial bandwidth extension of telephone speech
KR20050049103A (en) Method and apparatus for enhancing dialog using formant
JP5443547B2 (en) Signal processing device
JP2009223210A (en) Signal band spreading device and signal band spreading method
JP5711645B2 (en) Audio signal output apparatus and audio signal output method
JP2004151423A (en) Band extending device and method
JP2019090930A (en) Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program
JP4413546B2 (en) Noise reduction device for audio signal
JP2015206958A (en) Audio sound signal processor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees