JP5323144B2 - Decoding device and spectrum shaping method - Google Patents
Decoding device and spectrum shaping method Download PDFInfo
- Publication number
- JP5323144B2 JP5323144B2 JP2011172221A JP2011172221A JP5323144B2 JP 5323144 B2 JP5323144 B2 JP 5323144B2 JP 2011172221 A JP2011172221 A JP 2011172221A JP 2011172221 A JP2011172221 A JP 2011172221A JP 5323144 B2 JP5323144 B2 JP 5323144B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source signal
- spectrum
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
この発明は、音声信号のスペクトル整形を行うスペクトル整形方法および装置に関する。 The present invention relates to a spectrum shaping method and apparatus for performing spectrum shaping of an audio signal.
従来のCELPベースの音声符号化方式では、復号部において、復号した音源信号を合成フィルタに入力することにより音声信号を生成し、この音声信号を適応ポストフィルタに通過させたものを出力音声信号とする。この適応ポストフィルタは、スペクトル強調部を備え、このスペクトル強調部において、合成フィルタの係数を利用したスペクトル強調フィルタで音声信号のスペクトル包絡(スペクトルの概形)を強調することによりスペクトル整形を行う(例えば、非特許文献1参照)。このようなスペクトル整形により、符号化音声の雑音感が低減するので主観品質が改善される。 In a conventional CELP-based speech coding method, a decoding unit generates a speech signal by inputting a decoded excitation signal to a synthesis filter, and passes the speech signal through an adaptive post filter as an output speech signal. To do. This adaptive post filter includes a spectrum emphasizing unit, and in this spectrum emphasizing unit, spectrum shaping is performed by emphasizing a spectrum envelope (general shape of spectrum) of a speech signal with a spectrum emphasizing filter using a coefficient of a synthesis filter ( For example, refer nonpatent literature 1). By such spectrum shaping, the noise quality of the encoded speech is reduced, so that the subjective quality is improved.
一般に、理想モデルとしては音源信号のスペクトルの形状は平坦であることを想定しているが、実音声を予測分析して得られる音源信号や、符号化して得られる音源信号は、実際には理想的な平坦ではなく、通常はスペクトル包絡の形状にかなりの凹凸がある。この要因としては、予測分析については、予測分析の精度や予測の次数の不足が要因となっている。 In general, the ideal model assumes that the shape of the spectrum of the sound source signal is flat, but the sound source signal obtained by predictive analysis of actual speech and the sound source signal obtained by encoding are actually ideal. In general, there is considerable unevenness in the shape of the spectral envelope. As this factor, in the prediction analysis, the accuracy of the prediction analysis and the lack of the order of the prediction are factors.
また、符号化の影響としては、CELP系の符号化などでは、合成された音声信号の歪みが小さくなるように音源信号の符号化が行われるため、音声信号のパワーが大きい周波数帯域を表すために音源信号の符号化ビットが多く消費され、結果、その周波数帯域に音源信号のエネルギが集中する傾向が強くなることにある。 In addition, as an influence of encoding, in CELP encoding or the like, since the sound source signal is encoded so that the distortion of the synthesized audio signal is reduced, it represents a frequency band in which the power of the audio signal is large. As a result, many encoded bits of the sound source signal are consumed, and as a result, the tendency of the energy of the sound source signal to concentrate in the frequency band becomes stronger.
音源信号のエネルギが集中する傾向は、符号化された音源信号の周波数帯域を狭くする傾向につながる。音源信号の周波数帯域が狭くなる傾向は、即ち、その音源信号を合成フィルタで合成して得られる音声信号の周波数帯域も狭くなる傾向につながるので、結果的に、音のこもり感や狭帯域感となって音質の自然性が低下し、主観品質が低下することになる。 The tendency for the energy of the sound source signal to concentrate leads to the tendency to narrow the frequency band of the encoded sound source signal. The tendency that the frequency band of the sound source signal becomes narrower, that is, the frequency band of the audio signal obtained by synthesizing the sound source signal with the synthesis filter also tends to become narrower. As a result, the naturalness of the sound quality is lowered, and the subjective quality is lowered.
従来法では、合成フィルタの周波数特性の形状を利用したスペクトル強調フィルタA(z/α)/A(z/β)を用いてスペクトル強調を行うことにより、符号化後の音源信号の周波数帯域が狭くなることについて何ら考慮をしていない。このため、符号化の結果により音源信号の周波数帯域が狭くなっている符号化区間では、この音源信号から生成された音声信号に対してスペクトル強調を行うと、他の符号化区間よりも、音声信号にこもり感や狭帯域感の程度を増加させることになる。 In the conventional method, by performing spectrum enhancement using the spectrum enhancement filter A (z / α) / A (z / β) using the shape of the frequency characteristic of the synthesis filter, the frequency band of the sound source signal after encoding is reduced. No consideration is given to narrowing. For this reason, in the coding section where the frequency band of the sound source signal is narrowed due to the coding result, if the spectrum enhancement is performed on the sound signal generated from this sound source signal, the sound is more effective than the other coding sections. This will increase the degree of feeling of being crowded and feeling narrow in the signal.
このように、音源信号の周波数帯域が狭くなる程度は、符号化区間毎の音声信号の特性や、符号化の結果の影響を受けて不規則なものとなり、スペクトル強調を行って得られる音声信号に付与されるこもり感や狭帯域感も不規則に現れる傾向にある。このことも主観品質を劣化させる要因となっている。 In this way, the degree to which the frequency band of the sound source signal becomes narrower becomes irregular due to the influence of the characteristics of the sound signal for each coding section and the result of the coding, and the sound signal obtained by performing spectrum enhancement There is also a tendency for the feeling of being confined and the feeling of a narrow band to appear irregularly. This is also a factor that degrades subjective quality.
このように、従来のポストフィルタを用いたスペクトル整形では、音声信号を合成するための合成フィルタの係数を利用して、音声信号のスペクトル包絡を強調するが、このスペクトル強調により符号化音声の雑音感はある程度まで低減できるももの、副作用として、スペクトル強調された音声信号にこもり感や狭帯域感が付与されやすく、より高品質なスペクトル整形が難しいという問題があった。 As described above, in the spectrum shaping using the conventional post filter, the spectrum envelope of the voice signal is enhanced by using the coefficient of the synthesis filter for synthesizing the voice signal. Although the feeling can be reduced to a certain extent, as a side effect, there is a problem that a feeling of being muffled or a narrow band is easily imparted to the spectrum-enhanced audio signal, and it is difficult to shape a higher quality spectrum.
従来のポストフィルタを用いたスペクトル整形では、合成フィルタの係数を利用したスペクトル強調フィルタで音声信号のスペクトル包絡を強調することによりスペクトル強調により符号化音声の雑音感はある程度まで低減できるももの、副作用として、こもり感や狭帯域感が付与されやすくなり、より高品質なスペクトル整形が難しいという問題があった。 In spectrum shaping using a conventional post filter, noise emphasis can be reduced to some extent by spectrum enhancement by emphasizing the spectral envelope of the speech signal with a spectrum enhancement filter that uses the coefficients of the synthesis filter. As described above, there is a problem that a feeling of being obscured or a feeling of a narrow band is easily given, and it is difficult to shape a spectrum with higher quality.
この発明は上記の問題を解決すべくなされたもので、音のこもり感や狭帯域感を低減して、従来よりも安定的に主観品質を改善するための、高品質なスペクトル整形が容易な復号装置およびスペクトル整形方法を提供することを目的とする。 The present invention has been made to solve the above-mentioned problems, and it is easy to perform high-quality spectrum shaping to improve the subjective quality more stably than in the past by reducing the feeling of noise and a narrow band. An object is to provide a decoding device and a spectrum shaping method.
上記の目的を達成するために、この発明の復号装置は、符号化データを復号して第1の音源信号を生成する音源生成手段と、第1の音源信号を重み付き予測して第1の音源信号のスペクトルを平坦化した第2の音源信号を生成する重み付き予測手段と、第2の音源信号を用いて音声信号を合成する合成手段とを具備することを特徴とする。 In order to achieve the above object, a decoding apparatus according to the present invention includes a sound source generating unit that decodes encoded data to generate a first sound source signal, and performs weighted prediction of the first sound source signal to generate a first sound source signal . It is characterized by comprising weighted prediction means for generating a second sound source signal in which the spectrum of the sound source signal is flattened, and synthesis means for synthesizing an audio signal using the second sound source signal.
以下、図面を参照して、この発明の一実施形態について説明する。
図1は、この発明の一実施形態に係わる復号装置の構成を示すものである。復号装置は、合成フィルタ係数生成部10と、音源生成部20と、音源分析部30と、音源スペクトル平坦化部40と、合成フィルタ部50と、ポストフィルタ部60とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 shows the configuration of a decoding apparatus according to an embodiment of the present invention. The decoding apparatus includes a synthesis filter
合成フィルタ係数生成部10は、合成フィルタ用の符号化データから、後述する合成フィルタ部50およびポストフィルタ部60で用いる合成フィルタ係数を生成し、これを合成フィルタ部50およびポストフィルタ部60に出力する。
音源生成部20は、音源信号用の符号化データを復号して音源信号を生成し、これを合成フィルタ部50および音源分析部30に出力する。
The synthesis filter
The sound
音源分析部30は、音源生成部20にて生成された音源信号を分析し、この音源信号のスペクトル包絡を平坦化するための平坦化パラメータを求め、これを音源スペクトル平坦化部40に出力する。その一例としては、上記音源信号をLPC分析して、上記音源信号についての短期予測係数を求め、これを上記平坦化パラメータとして出力する。
The sound
音源スペクトル平坦化部40は、音源分析部30にて求めた平坦化パラメータを用いて、音源生成部20から与えられる音源信号のスペクトル包絡の過度な傾きや凹凸を平坦化するようにスペクトル整形する。
The sound source
ここで、音源分析部30と音源スペクトル平坦化部40の具体的な構成について図2を用いて説明する。
図2にあるように、音源分析部30は、自己相関算出部301と、予測係数算出部302とを備えている。自己相関算出部301は、音源信号e(n)の自己相関Ree(k)を下式(1)にしたがって求める。
Here, specific configurations of the sound
As shown in FIG. 2, the sound
予測係数算出部302は、自己相関算出部301で求められた自己相関Ree(k)を用いて、例えば、下式(2)の正規方程式を解くことにより平坦化パラメータ(短期予測係数)di(i=1,…,q)を求める。下式(2)の正規方程式を解くための具体的なアルゴリズムとしては、例えば、Levinson-Durbin法が知られている。
一方、音源スペクトル平坦化部40は、重み付き予測フィルタ401と、ゲイン調整部402とを備えている。
なお、平坦化に関しては、音源信号のスペクトル包絡の凹凸を完全に平坦化するのではなく、弱い平坦化を行うようにすることで音質改善の効果が現れる。このような、弱い平坦化処理を実現する方法として、本実施例では、以下に述べるような、重み付き予測フィルタを用いる方法について説明する。重み付き予測フィルタの重み係数を適切な値に設定することによって平坦化の程度が弱くなるなるように制御することができる。
On the other hand, the sound source
As for flattening, the effect of improving the sound quality appears by performing weak flattening instead of completely flattening the unevenness of the spectrum envelope of the sound source signal. In this embodiment, as a method for realizing such a weak flattening process, a method using a weighted prediction filter as described below will be described. By setting the weighting coefficient of the weighted prediction filter to an appropriate value, it is possible to control the degree of flattening to be weakened.
重み付き予測フィルタ401は、音源分析部30にて求めた平坦化パラメータが設定され、これにより音源生成部20から与えられる音源信号のスペクトル包絡を平坦化する重み付きの予測フィルタとして機能する。重み付き予測フィルタとしては種々の構成が考えられるが、ここでは一例として、下式(3)、(4)で示すDw(z)を用いることにする。ここで、λ1,λ2は重み係数を表す。
この例では、Dw(z)が重み付き予測フィルタとして機能するためには、λ2<λ1、かつ、0≦λ2≦1の関係になるように重み係数λ1とλ2を設定すればよい。λ1を1以下に設定する場合は、Dw(z)が重み付き予測フィルタとして機能するためには0≦λ2<λ1≦1の関係になるように重み係数λ1とλ2を設定すればよい。こうすることにより、Dw(z)の分子側の予測フィルタの特性を分母側の予測フィルタの特性が弱めるので、重み付き予測フィルタDw(z)が“弱い”予測フィルタとして機能するようになる。この“弱い”予測フィルタで音源信号をフィルタリングすることにより、スペクトルが“弱く”平坦化された音源信号を生成することができる。 In this example, in order for Dw (z) to function as a weighted prediction filter, the weighting factors λ1 and λ2 may be set so that λ2 <λ1 and 0 ≦ λ2 ≦ 1. When λ1 is set to 1 or less, in order for Dw (z) to function as a weighted prediction filter, the weighting factors λ1 and λ2 may be set so that 0 ≦ λ2 <λ1 ≦ 1. By doing so, the characteristics of the prediction filter on the numerator side of Dw (z) are weakened by the characteristics of the prediction filter on the denominator side, so that the weighted prediction filter Dw (z) functions as a “weak” prediction filter. By filtering the sound source signal with this “weak” prediction filter, it is possible to generate a sound source signal whose spectrum is “weak” and flattened.
この場合、具体的な処理の例は、下式(5)のようになる。下式(5)のe(n)は平坦化される前の音源信号を表し、e‘(n)は平坦化された音源信号を表している。
上記の重み付き予測フィルタの構成は極零型となるが、これに限られるものではない。例えば、重み付き予測フィルタとして、下式(6)に示すような全零型の構成でも有効である。この場合、具体的な処理の例は、下式(7)のようになる。
このとき、β(i)として減少する指数窓(即ち、β(i)=λ1 i)を用いれば、式(3)でλ2=0とすることと等価となる。さらに、β(i)として指数窓と異なる減少窓を用いることで、より自由度の高い平坦化を行うことが可能となる。 At this time, if an exponent window that decreases as β (i) (that is, β (i) = λ 1 i ) is used, this is equivalent to setting λ 2 = 0 in Equation (3). Furthermore, it is possible to perform flattening with a higher degree of freedom by using a reduction window different from the exponent window as β (i).
このように、“弱い”予測フィルタとして機能するような重み付き予測フィルタには種々の構成が考えられるが、どのような構成を用いたとしても、本発明に含まれることは言うまでもない。 As described above, various configurations of the weighted prediction filter functioning as the “weak” prediction filter can be considered, but it goes without saying that any configuration is used in the present invention.
また、音源信号のスペクトル形状を平坦化する特性を付与する対象は、音源信号に対してだけに限定されるものではない。すなわち、音源信号のスペクトル形状を平坦化する特性を音声信号のレベルの信号に付与することも可能である。このように、音源信号のスペクトル形状を平坦化する特性を付与するための対象は音源信号のレベルの信号でも音声信号のレベルの信号でも構わない。また、音源信号のスペクトル形状を平坦化する特性を付与する対象は、時間領域の信号でも周波数領域の信号でもよく、同様の効果が得られる。 Further, the object to which the characteristic for flattening the spectrum shape of the sound source signal is not limited to the sound source signal. In other words, it is possible to impart a characteristic for flattening the spectrum shape of the sound source signal to the signal at the level of the audio signal. Thus, the target for imparting the characteristic of flattening the spectrum shape of the sound source signal may be a signal at the level of the sound source signal or a signal at the level of the audio signal. Further, the target to which the characteristic for flattening the spectrum shape of the sound source signal may be a time domain signal or a frequency domain signal, and the same effect can be obtained.
その骨子とするところは、音源信号のスペクトル形状を平坦化する特性が、結果として最終的に出力される音声信号に反映されるような構成であればよいので、実現方法や構成の違いに依らず、本発明に含まれる。 The essential point is that the characteristic that flattens the spectrum shape of the sound source signal may be reflected in the audio signal that is finally output, so that it depends on the implementation method and the difference in configuration. It is included in the present invention.
ゲイン調整部402は、音源生成部20から与えられる音源信号に基づいて、重み付き予測フィルタ401から出力される、スペクトル包絡が平坦化された音源信号のゲインを調整して出力する。
Based on the sound source signal given from the sound
図1に戻ると、合成フィルタ部50は、合成フィルタ係数生成部10で生成した合成フィルタ係数を用いて、音源スペクトル平坦化部40(ゲイン調整部402)から出力される音源信号に基づいて、音声信号を合成し、これをポストフィルタ部60に出力する。
Returning to FIG. 1, the
ポストフィルタ部60は、合成フィルタ係数生成部10で合成した合成フィルタ係数を用いて、合成フィルタ部50から与えられる音声信号に対して、スペクトル包絡を強調して、上記音声信号のスペクトルを整形する。これにより出力音声信号が得られる。
The
以上のように、上記構成の復号装置は、音源分析部30が、音源生成部20にて生成された音源信号に基づいて、この音源信号のスペクトルを平坦化するための平坦化パラメータを求め、音源スペクトル平坦化部40が、上記平坦化パラメータを用いて、音源生成部20から与えられる音源信号に対応するスペクトル包絡の過度な傾きや凹凸を平坦化するようにスペクトル整形するようにしている。
As described above, in the decoding device configured as described above, the sound
したがって、上記構成の復号装置によれば、音源信号の凹凸が平坦化されているので、合成フィルタ部50の特性が持つスペクトル包絡の形状をポストフィルタ部60で強調しても、合成フィルタのスペクトル包絡を強調したスペクトルの凹凸と音源信号のスペクトルの凹凸とが重なることで生じる過度なスペクトル強調を防止することができ、これにより過度なスペクトル強調に起因する音のこもり感や不安定感が低減されるので、主観的な品質が改善できる。
Therefore, according to the decoding apparatus configured as described above, since the unevenness of the sound source signal is flattened, even if the shape of the spectral envelope possessed by the characteristics of the
図5は、音源生成部20の内部の構成の一例をより詳細に表したものである。
音源生成部20は、音源信号用の符号化データを復号して音源信号を生成し、これを合成フィルタ部50および音源分析部30に出力する。この例では、音源生成部20は、G.729やAMR方式と同様の構成であり、適応コードブック(適応CB)22、固定コードブック(固定CB)24、ゲインコードブック(ゲインCB)26、結合部28から構成されている。
FIG. 5 shows an example of the internal configuration of the
The sound
適応CB22は、音源信号用の符号化データのうち、適応CB用の符号を基に、適応CBから適応コードブックベクトルe1(n)を生成する。固定CB24は、音源信号用の符号化データのうち、固定CB用の符号を基に固定CBから固定コードブックベクトルe2(n)を生成する。
The
ゲインCB26は、音源信号用の符号化データのうち、ゲインCB用の符号を基に、ゲインCBから適応コードブックベクトル用のゲインg1と固定コードブックベクトル用のゲインg2を生成する。
The
結合部28は適応コードブックベクトル用のゲインを乗じた適応コードブックベクトルと、固定コードブックベクトル用のゲインを乗じた固定コードブックベクトルとを結合させることにより、音源信号を生成し、これを合成フィルタ部50および音源分析部30に出力する。結合の方法の一例は、e(n)=g1×e1(n)+g2×e2(n)とすることである。また、次の符号化に備えてこの音源信号を適応コードブックに格納する。
The combining
図5に示すような音源生成部20を図1に用いたものが図6である。ここでは図1と同様の箇所については、説明を省略する。図6に示すように、合成フィルタ処理される前の音源信号は適応コードブックと固定コードブックの両方の寄与から生成されている。このような合成フィルタ処理される前の音源信号を対象に、この音源信号のスペクトル包絡を平坦化するための平坦化パラメータを求めることで、合成前の音源信号のスペクトル包絡を安定的に平坦化することが可能となる効果がある。
FIG. 6 shows the sound
この場合も、平坦化に関しては、音源信号のスペクトル包絡の凹凸を完全に平坦化するのではなく、弱い平坦化を行うようにすることで音質改善の効果が現れる。適応コードブックには、次の符号化に備えて音源信号を適応コードブックに格納する必要がある。その際、適応コードブックを符号化側と復号側で同じ内容にするために、復号側でも符号化側と同じ音源信号を格納する必要がある。 In this case as well, regarding the flattening, the unevenness of the spectrum envelope of the sound source signal is not completely flattened, but the effect of improving the sound quality appears by performing weak flattening. The adaptive code book needs to store the sound source signal in the adaptive code book in preparation for the next encoding. At this time, in order to make the adaptive codebook have the same content on the encoding side and the decoding side, it is necessary to store the same excitation signal on the decoding side as on the encoding side.
図6は、符号化側で平坦化する前の音源信号を適応コードブックに格納する場合に対応しており、平坦化する前の音源信号を適応コードブックに格納している。もし、符号化側で平坦化後の音源信号を適応コードブックに格納する場合は、図7に点線で示すように、復号側でも平坦化後の音源信号を適応コードブックに格納する必要がある。 FIG. 6 corresponds to the case where the excitation signal before flattening on the encoding side is stored in the adaptive codebook, and the excitation signal before flattening is stored in the adaptive codebook. If the encoding side stores the flattened excitation signal in the adaptive codebook, the decoding side needs to store the flattened excitation signal in the adaptive codebook as shown by a dotted line in FIG. .
なお、上記実施の形態では、合成フィルタ部50の前段に音源スペクトル平坦化部40を設けて音源信号を平坦化するようにしたが、これに代わって例えば、図3に示すように、音源スペクトル平坦化部40を合成フィルタ部50とポストフィルタ部60との間に設けるようにしても同様の効果が得られる。
In the above embodiment, the sound source
さらには、図4に示すように、音源スペクトル平坦化部40を、ポストフィルタ部60内に設けるようにしてもよい。図4の例では、音源スペクトル平坦化部40がポストフィルタ部60内のスペクトル強調部601の後段に設けられている。
Furthermore, as shown in FIG. 4, the sound source
この場合、ポストフィルタ部60内では、スペクトル強調部601が、合成フィルタ係数生成部10で生成した合成フィルタ係数を用いて、合成フィルタ部50から与えられる音声信号に対して、スペクトル包絡を強調して、上記音声信号のスペクトルを整形する。
In this case, in the
そして、音源スペクトル平坦化部40が、音源分析部30にて求めた平坦化パラメータを用いて、スペクトル強調部601から与えられる音声信号に対し、前述した、重み付き予測フィルタを用いることにより、平坦化処理が行われる。この重み付き予測フィルタの特性は音源分析部30にて求めた平坦化パラメータを用いているため、音声信号を重み付き予測フィルタに通過させることにより、音声信号を構成する音源信号のスペクトル包絡についての過度な傾きや凹凸が平坦化された音声信号を生成することができる。
Then, the sound source
傾き補償フィルタ602は、スペクトル強調部601の処理により付与されたスペクトルの傾きを補償する役割を持つ。この実施形態では、傾き補償フィルタ602が、音源スペクトル平坦化部40から与えられる音声信号に対し、スペクトル強調部601で使用されたスペクトル強調フィルタの係数から傾き補償特性を求めて、この傾きを補償する。
The
ゲイン調整部603は、傾き補償フィルタ602からの音声信号について、合成フィルタ部50から与えられる音声信号と同程度のエネルギになるように、ゲインを調整したものを出力音声信号として出力する。
The
このような構成であっても、合成フィルタのスペクトル包絡を強調したスペクトルの凹凸と音源信号のスペクトルの凹凸とが重なることで生じる過度なスペクトル強調を防止することができ、これにより過度なスペクトル強調に起因する音のこもり感や不安定感が低減されるので、主観的な品質が改善できる。 Even with such a configuration, it is possible to prevent excessive spectral enhancement caused by overlapping of the spectral irregularity that emphasizes the spectral envelope of the synthesis filter and the spectral irregularity of the sound source signal. Since the feeling of volume and instability caused by sound is reduced, subjective quality can be improved.
図4の例では、音源スペクトル平坦化部40がポストフィルタ部60内のスペクトル強調部601の後段に設けられているが、音源スペクトル平坦化部を設ける位置はこれに限られるものではない。ポストフィルタ自体も様々な構成が可能であるが、そのような場合でも、音源スペクトル平坦化部に相当する処理は、ポストフィルタ部の中の他にある処理の前段に配置しても、後段に配置しても、同じ機能を提供することができるため、ポストフィルタ部の中に音源スペクトル平坦化部を設ける場合、どの位置に配置する場合でも、本発明の一例に含まれることは明白である。
In the example of FIG. 4, the sound source
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. Further, for example, a configuration in which some components are deleted from all the components shown in the embodiment is also conceivable. Furthermore, you may combine suitably the component described in different embodiment.
10…合成フィルタ係数生成部、20…音源生成部、22…適応コードブック(適応CB)、24…固定コードブック(固定CB)、26…ゲインコードブック(ゲインCB)、28…結合部、30…音源分析部、40…音源スペクトル平坦化部、50…合成フィルタ部、60…ポストフィルタ部、301…自己相関算出部、302…予測係数算出部、401…予測フィルタ、402…ゲイン調整部、601…スペクトル強調部、602…補償フィルタ、603…ゲイン調整部。
DESCRIPTION OF
Claims (6)
第1の音源信号を重み付き予測して第1の音源信号のスペクトルを平坦化した第2の音源信号を生成する重み付き予測手段と、
第2の音源信号を用いて音声信号を合成する合成手段とを具備することを特徴とする復号装置。 Sound source generating means for decoding the encoded data to generate a first sound source signal;
Weighted prediction means for generating a second sound source signal obtained by weighted prediction of the first sound source signal and flattening the spectrum of the first sound source signal ;
And a synthesizing unit that synthesizes an audio signal using the second sound source signal.
第1の音源信号を重み付き予測して第1の音源信号のスペクトルを平坦化した第2の音源信号を生成する重み付き予測手段と、
第2の音源信号を用いて音声信号を合成する合成手段と、
合成手段で合成した音声信号に対してスペクトル整形を行うポスト処理手段とを具備することを特徴とする復号装置。 Sound source generating means for decoding the encoded data to generate a first sound source signal;
Weighted prediction means for generating a second sound source signal obtained by weighted prediction of the first sound source signal and flattening the spectrum of the first sound source signal ;
Synthesizing means for synthesizing an audio signal using the second sound source signal;
A decoding apparatus comprising: post-processing means for performing spectrum shaping on the audio signal synthesized by the synthesizing means.
第1の音源信号を重み付き予測して第1の音源信号のスペクトルを平坦化した第2の音源信号を生成する重み付き予測ステップと、
第2の音源信号を用いて音声信号を合成する合成ステップとを具備することを特徴とするスペクトル整形方法。 A sound source generating step of decoding encoded data to generate a first sound source signal;
A weighted prediction step of generating a second sound source signal in which the spectrum of the first sound source signal is flattened by weighted prediction of the first sound source signal ;
And a synthesis step of synthesizing an audio signal using the second sound source signal.
第1の音源信号を重み付き予測して第1の音源信号のスペクトルを平坦化した第2の音源信号を生成する重み付き予測ステップと、
第2の音源信号を用いて音声信号を合成する合成ステップと、
合成ステップで合成した音声信号に対してスペクトル整形を行うポスト処理ステップとを具備することを特徴とするスペクトル整形方法。 A sound source generating step of decoding encoded data to generate a first sound source signal;
A weighted prediction step of generating a second sound source signal in which the spectrum of the first sound source signal is flattened by weighted prediction of the first sound source signal ;
A synthesis step of synthesizing an audio signal using the second sound source signal;
And a post-processing step of performing spectrum shaping on the audio signal synthesized in the synthesis step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172221A JP5323144B2 (en) | 2011-08-05 | 2011-08-05 | Decoding device and spectrum shaping method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172221A JP5323144B2 (en) | 2011-08-05 | 2011-08-05 | Decoding device and spectrum shaping method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006188355A Division JP5127170B2 (en) | 2006-07-07 | 2006-07-07 | Decoding device and spectrum shaping method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012003277A JP2012003277A (en) | 2012-01-05 |
JP5323144B2 true JP5323144B2 (en) | 2013-10-23 |
Family
ID=45535228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011172221A Expired - Fee Related JP5323144B2 (en) | 2011-08-05 | 2011-08-05 | Decoding device and spectrum shaping method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5323144B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2965315B1 (en) * | 2013-03-04 | 2019-04-24 | Voiceage Evs Llc | Device and method for reducing quantization noise in a time-domain decoder |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01304500A (en) * | 1988-06-02 | 1989-12-08 | Nec Corp | System and device for speech synthesis |
JP3478209B2 (en) * | 1999-11-01 | 2003-12-15 | 日本電気株式会社 | Audio signal decoding method and apparatus, audio signal encoding and decoding method and apparatus, and recording medium |
-
2011
- 2011-08-05 JP JP2011172221A patent/JP5323144B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012003277A (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10186272B2 (en) | Bandwidth extension with line spectral frequency parameters | |
US8069040B2 (en) | Systems, methods, and apparatus for quantization of spectral envelope representation | |
JP5006398B2 (en) | Broadband vocoder time warping frame | |
KR102007972B1 (en) | Unvoiced/voiced decision for speech processing | |
JP6356159B2 (en) | System and method for mitigating potential frame instability | |
US20200219521A1 (en) | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information | |
JP2010501896A5 (en) | ||
KR101706123B1 (en) | User-customizable voice revision method of converting voice by parameter modification and voice revision device implementing the same | |
ES2856199T3 (en) | Concept for encoding an audio signal and decoding an audio signal using spectral shaping information related to speech | |
US20130246055A1 (en) | System and Method for Post Excitation Enhancement for Low Bit Rate Speech Coding | |
JP2008503786A (en) | Audio signal encoding and decoding | |
JP6644848B2 (en) | Vector quantization device, speech encoding device, vector quantization method, and speech encoding method | |
JP5323144B2 (en) | Decoding device and spectrum shaping method | |
US11996110B2 (en) | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program | |
JP5127170B2 (en) | Decoding device and spectrum shaping method | |
JP5323145B2 (en) | Decoding device and spectrum shaping method | |
JP2004151424A (en) | Transcoder and code conversion method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130716 |
|
LAPS | Cancellation because of no payment of annual fees |