KR100513815B1 - 신호부호화방법및장치 - Google Patents

신호부호화방법및장치 Download PDF

Info

Publication number
KR100513815B1
KR100513815B1 KR10-1998-0010611A KR19980010611A KR100513815B1 KR 100513815 B1 KR100513815 B1 KR 100513815B1 KR 19980010611 A KR19980010611 A KR 19980010611A KR 100513815 B1 KR100513815 B1 KR 100513815B1
Authority
KR
South Korea
Prior art keywords
quantization
vector
coefficients
scalar
bit allocation
Prior art date
Application number
KR10-1998-0010611A
Other languages
English (en)
Other versions
KR19980080742A (ko
Inventor
준 마쯔모또
마사유끼 니시구찌
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR19980080742A publication Critical patent/KR19980080742A/ko
Application granted granted Critical
Publication of KR100513815B1 publication Critical patent/KR100513815B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/008Vector quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 다음을 포함해서 신호부호 장치를 공급한다. 정규화회로(101)은 선형예측 또는 입력신호의 특징을 추출하고, 백색화를 수행한다. 백색화된 신호는 주파수축상의계수 y를 얻기 위해 MDCT와 같은 신호가 변환이 된 T/F(시간축/주파수축)변환 회로(102)에 전송한다. 이 계수 y는 양자화(스칼라양자화(SQ)와 벡터양자화(VQ))회로(103)에 공급한다. 비트할당회로(104)는 각 계수에 대한 양자화된 비트할당을 수행하기 위한 정규화 회로(101)로부터 LPC계수, 피치와 같은 계수 y와 파라미터를 사용한다. 양자화(SQ 및 VQ)회로(103)는, 이 할당비트에 의거해, 각 계수에 대해서 (SQ) 및 (VQ)를 실행할 것인지 아닌지를 제어한다.

Description

신호 부호화방법 및 장치
본 발명은 입력신호가 시간축/주파수축 변환되는 신호 부호화방법 및 장치에 관한 것으로, 특히 오디오신호를 고능률적으로 부호화할 때 사용되는 방법 및 장치에 관한 것이다.
종래, 오디오신호(음성신호와 음향신호를 포함해서)의 시간영역과 주파수영역에서 통계적특성 및 사람의 청각 특성을 사용해서 신호 압축을 실행하기위한 다양한 신호 부호화 방법이 알려져 있다. 이러한 부호화 방법은 시간영역에서 부호화, 주파수영역에서 부호화, 분석종합부호화 등으로 분류될 수 있다.
오디오신호, 특히 음향신호 및 음악신호를 부호와 할 때는, 양자화효율 보다는 음질이 더 중요시 된다. 이 때문에 스칼라 양자화방법에 의한 양자화가 일반적으로 사용되며 따라서 신호비트율의 하한은 비교적 높다.
그러나 통신미디어에서 멀티미디어 시스템으로의 급속한 발전에서, 음질의 열화를 억제하면서 저비율의 부호화기술이 요구된다.
이것을 위해서 벡터양자화의 설명이 요구되지만, 벡터양자화에서는, 소위 고립된 스펙트럼의 재생 즉, 오디오신호 스펙트럼에 나타난 어떤 피크부분이 바람직하지 못하고, 그것에 대한 개선의 여지가 있다. 따라서 본 발명의 목적은 벡터양자화방법에 의해 저비율를 실현시키는 동안 음성의 질을 증가시킬 뿐 아니라 피크부분인 고립된 스펙트럼의 재생을 증가 할 수 있는 신호 부호화방법 및 장치를 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위해서 본 발명은, 입력신호가 주파수축상에서 계수를 얻기 위해 시간축/주파수축 변환이 되며, 계수의 비트할당에 따라 스칼라양자화와 벡터양자화는 상기 계수를 수행하기 위해 제어된다는 점을 기술한다.
스칼라양자화와 벡터양자화 사이의 제어방법으로서 소정의 임계치 이상의 할당비트를 가진 주파수축상의 계수에 대해 스칼라양자화를 실행하기 위한 선택적 방법을 예로 들 수 있다.
여기에서, 벡터양자화는 스칼라양자화가된 계수에 대해서 가중치 0으로 수행되고, 벡터양자화 출력 중에서 무시하기 위해, 상기 스칼라양자화에 의해 양자화된 계수에 대응하고, 이들 출력들은 상기 스칼라양자화의 출력으로 교체된다.
게다가, 스칼라양자화에 의해 양자화된 계수에 대해, 계수의 양자화 오차는 벡터양자화의 입력으로 사용되고 벡터양자화의 출력은 출력하기 위해 상기 스칼라 양자화의 출력에 부가된다.
상기 벡터양자화는 입력벡터를 복수의 서브벡터로 분할함으로써 실행되므로, 각각의 서브벡터에 대응하는 비트할당에 따라 복수의 코드북이 하나에서 다른 것으로 전환된다.
또한 시간축/주파수축 변환이 되기 전에 시간축신호를 특징 추출에 의해 정규화하고 상기 할당비트 계산을 위해 이 정규화 파라미터를 사용하는 것이 바람직하다.
또한 입력벡터를 인터리브하여 얻어진 복수의 서브벡터에 대해 상기 벡터양자화를 수행할 수 있다.
벡터양자화에 의해 재생이 낮은 주파수축상의 계수는 스칼라양자화에 의해 양자화 된다.
본 발명의 바람직한 실시예에 관해서 도면을 참조해 설명한다.
도 1은 본 발명의 실시예에 따라서 신호 부호화장치의 기본구성을 나타내는 블록도이다.
도 1에서, 입력단자(100)에는 시간축상의 파형신호가 공급되고, 예를 들면 디지털 오디오 신호가 공급된다. 특히, 16kHz의 샘플링주파수(Fs)로 0 ~ 8kHz정도의 소위 광대역오디오 신호를 예시한다. 그러나 본 발명은 이러한 신호에 제한되지 않는다.
입력단자(100)에서의 입력신호는 정규화회로(101)에 공급된다. 이 정규화회로(101)는 또한 공급된 시간파형 신호의 특징을 추출함으로써 백색화가 실행되는 백색화회로로 불리어지며, 예측잔차를 출력하도록 한다. 시간파형의 백색화는 선형예측 또는 비선형 예측으로 실행될 수 있다. 예를 들면, 입력시간파형 신호는 선형예측부호화(LPC)와 피치분석에 의해 백색화될 수 있다.
백색화된 시간파형신호는 이 정규화회로(101)에서 신호가 주파수축신호로 변환되는 시간축/주파수축변환(T/F mapping)회로(102)로 전송된다. 이 T/F 매핑에 대하여, 직교변환은 이산코사인 변환(DCT), 개량DCT(MDCT), 고속푸리에변환(FFT)과 같은 것이 사용된다. T/F 변환회로에서 얻어진 MDCT계수 또는 FFT계수와 같은 파라미터는 양자화 수단으로서 사용되고 스칼라양자화(SQ) 및 벡터양자화(VQ)가 연합되어 실행되는 양자화회로(103)에 공급된다. 각 프레임에 대하여 이 T/F변환으로부터 얻어진 계수가 N차 벡터(y)로 가정되면, 이 계수벡터 (y =(y(0), y(1) ......y(N - 1 )t 의 효율적인 양자화를 실행하기 위해, 각각의 계수에 대해서 양자화 비트할당을 결정할 필요가 있다. 이 비트할당은 청각마스킹모델에서 얻어지거나 또는 간단하게 상기 정규화회로(101)에서 백색화하는 동안 얻어진 LPC계수와 같은 파라미터와 상기 계수 y에서 계산된 양(P(i))에서 구해진다. 이후에 이 P(i)는 비트할당 결정인덱스로서 칭한다. 비트할당 결정인덱스(P(i))의 구체적인 예에 대하여 이후 상세히 설명한다.
비트할당회로(104)는 정규화회로(101)에서 얻은 상기 파라미터 및 T/F변환회로(102)에서의 계수(y)에 따라 분할비트를 계산한다. 일반적으로 할당비트(ba(i)), 즉 i번째 계수에 대한 비트할당은 상기 비트할당결정인덱스(P(i))를 이용해서 다음과 같이 표현할 수 있다.
ba(i) = log2 (P(i)) + q
여기서 q는 일반화하기 위한 보정량을 나타낸다. 1 프레임내에서 계수양자화하기 위해 허용된 총 비트수(B)는 일정치 또는 일정치근처의 값이어야 하고, 따라서 상기 보정량(q)는 다음과 같이 결정한다.
[수학식 1]
각 계수에 대하여 얻어진 할당 비트 ba(i)에 따라, 스칼라양자화(SQ)와 벡터양자화(VQ)를 실행하기 위한 제어가 행해진다. 특히, 예를 들면, 할당비트 임계치는 미리 결정되므로, 스칼라양자화와 벡터양자화가 다음과 같은 조건에 의해 선택된다.
ba(i) ≥ bSQ 이면 스칼라양자화(SQ)
ba(i) < bSQ 이면 벡터양자화(VQ)
상기 언급한 할당비트 ba(i)는 정수가 아니므로 정상 스칼라양자화에서 직접 사용되지 않는다. ba(i)에서, 정수치 f(ba(i))는 스칼라양자화를 수행하기 위한 양자화비트로 이용된다. 다음은 f(x)의 예로, rint(x)는 x에 가장 가까운 정수를 주는 함수이다.
[수학식 2]
이 식에서, bSQ 와 bhigh 의 값으로서 bSQ =2 및 bhigh=4 로 예를 들 수 있다. 그러나, 이 값에 한정되지는 않는다.
이 방법으로 할당비트 수가 정수로 만들어지면, 최후프레임에서 상기 보정량(q)에 의해 조정된 필요한 비트수는 큰 차이를 발생시킨다. 결과적으로, B에 가까운 다음의 수식을 만드는 q'는 q근처에서 탐색된다.
[수학식 3]
이 q'로 각 계수에 대하여 최종 할당비트 ba' (i) 가 결정된다.
비트할당회로(104)는 양자화(SQ 와 VQ)회로(103)에 전송된 ba'(i)를 결정한다. 양자화 (SQ 와 VQ)회로(103)에서, 이 할당비트 ba'(i)에 의해 스칼라양자화(SQ)와 벡터양자화(VQ)가 제어된다. 구체적으로, 위에서 기술한 것처럼, 소정의 임계치이상의 계수에 대하여 스칼라양자화(SQ)가 실행되고 다른 계수에 대해서 벡터양자화가 실행된다. 이런 경우, 스칼라 계수가 된 계수를 제외한 후 잔여 계수에 대해 벡터양자화가 실행되면, 스칼라양자화된 계수의 수는 프레임에서 프레임으로 변화될 것이며, 결국 벡터양자화의 차수는 프레임에서 프레임으로 변화될 것이다. 결과적으로, 벡터양자화의 차수를 전체 계수의 총수에 고정하는 것이 바람직하다. 예를들어, 양자화될 모든 계수 중에서 SQ에 의해 양자화된 계수가 있으면, 계수는 가중치(0)으로 벡터양자화되고 VQ 출력에서, 그 계수에 대한 결과는 SQ출력에 의해 대체되도록 무시된다. 여기서, 양자화되는 벡터가 복수의 서브벡터로 분할되는 것이 바람직하므로, 각각의 서브벡터에 대하여 벡터양자화가 실행되고, 각각의 서브벡터에 대해 할당비트에 따라 복수의 코드북이 선택적으로 사용된다.
더욱이 비트할당회로(104)는 양자화(SQ 및 VQ)회로(103)에 있는 벡터양자화(VQ)에서 청각 가중을 위한 가중 w(i)를 계산하고, 계산된 w(i)는 양자화(SQ와 VQ)회로(103)에 공급된다. 이 가중W(i)에 대해서는 나중에 설명한다.
양자화(SQ 및 VQ)회로(103)에서 출력인덱스는 출력단자(105)에서 거두어 드리는 반면, 정규화회로(101)에서 상기 언급한 LPC계수와 피치 등의 파라미터는 출력단자(106)에서 거두어 드린다.
도 1의 신호 부호화장치는 하드웨어 구성으로 나타내지만, 디지털 신호프로세서(DSP) 등을 사용해 소프트웨어로 실현될 수 있다. 도 2는 이러한 경우에 신호부호화처리를 나타내는 플로우차트이다. 도 2와 도 1을 참조해서 본 발명의 실시예를 상세히 설명한다.
도 2에서, 스텝(S1)에서, 정규화 처리는 상기 백색화에 대하여 실행되고, 상기 정규화회로(101)에 대응한다. 여기서, 선형예측부호(LPC) 및 피치분석으로 백색화한 것을 설명한다.
입력 신호로서 시간파형신호(x(n))는 해밍창거리와 같은 적당한 시간 창거리 함수에 의해 창거리되고, LPC계수가 추출된다. LPC계수는 LCP파라미터로 변환되고 양자화되고 보간된다. 양자화된 LCP파라미터는 다시 LCP계수로 만들어지고 LCP역 필터를 구성한다. 입력시간파형신호(x(n))는 이 LPC역필터를 통해서 정규화 및 백색화되고, LPC 잔차r1'(n)이 얻어지도록 한다. 여기서, 프레임크기를 N으로 가정할 경우, 1프레임 과거의 즉, 프레임 전의 LPC잔차r1'(n)이 사용되어 r1(n)의 정의역을 0≤n<N에서 - N≤n<N으로 확장한다. n<0의 영역에서, 다음의
r1(n) = r1'(n+N)
이 정의되고 이 r1(n)가 피치계산에 사용된다. 피치게인은 피치의 1점에 대한 분석이지만, 이 예에서, 피치(주기 즉, 소위 피치레그) 및 피치게인의 정확도를 높이기 위해, 피치 중심(p)과 중심(p±1)의 전후 두 점에 대하여 세 가지 피치게인(g0, g1 및 g-1)이 계산된다.
[수학식 4]
상기 수식을 최소화하는 k는 피치(p)로 가정하고, 그 중심의 3점에서 3개의 피치게인이 피치게인벡터(g = (g-1 , g0 , g1))로 구성된다.
이 피치(p) 및 피치게인벡터(g)가 피치역필터를 구성하기 위해 사용되는 양자화된 피치게인벡터(Q(g))를 얻기 위해 양자화되고, 그 다음 r2(n)를 얻기 위해 LPC잔차r1(n)을 정규화하는데 사용된다. 정규화된 이 LPC잔차(r2(n))는 위에서 언급한 T/F변환회로(102)에 입력된다.
스텝(S2)에서, 시간축파형인 LPC잔차 r2(n)는 T/F(시간축/주파수축)변환된다. 이 T/F변환에 대해서, 예에서, MDCT가 사용된다.
스텝(S3)에서, 도1에서 비트할당회로(104)에 대응하는 비트할당의 계산이 행해진다. 상기 기술한 것처럼, 이 비트할당은 예들 들면, 상기 정규화(백색화)로 얻어진 LPC계수와 상기 계수(y)에서 계산된 비트할당결정인덱스p(i)와 같은 청각마스킹모델 또는 파라미터에 따라 계산된다. 게다가, 이 스텝(S3)에서, 가중(w(i))은 다음 단에서 벡터양자화 동안 청각 가중을 위해 또한 계산된다.
우선, 상기 비트할당 결정인덱스(p(i))에 대해 설명한다.
상기 정규화(백색화)에서 구해진 양자화된 LPC계수 Q(αi) (i는 예를 들면 1≤i≤10으로 가정한다), 피치(p), 양자화된 피치게인벡터 Q(g)가 LPC 합성 필터와 피치합성필터를 구성하는데 사용된다. 이들 필터는 전송 함수(H(z)와 P(z))를 가지고 다음과 같이 표현된다.
[수학식 5]
게다가, 함수 H(z) 및 P(z)의 각 주파수응답(h(i)) 및 pch(i)가 구해진다. 여기서, i는 주파수축상의 각 포인트를 나타낸다. 또한, 상기 T/F변환 후의 계수는 각각의 임계대역폭 또는 블록으로 나누어진 임계대역폭 마다 조정된다. j번째 블록의 피크치(Pb(j))를 거둬 드리고 양자화되므로, 그 양자화치(Q(Pb(j))는 그 블록의 정규화벡터로 사용된다. 따라서, 주파수축상의 일반적인 정규화벡터인 상기 비트할당 결정인덱스(p(i))는 다음과 같이 표현될 수 있다.
다음, 가중에 대해서는, 우선 LPC 및 피치청각 가중필터가 구성된다. 이 필터는 예를 들면 다음과 같이 표현된 전송 함수(W1(z) 와 W2(z))를 갖는다.
[수학식 6]
여기서, 정수( 1, 2 및 λ)는 예를 들면, 1= 0.8 , 2 = 0.5 λ= 0.7이다. 그러나, 정수는 이들 값에 제한되는 것은 아니다.
Q(Pb(j)에서 얻어진 상기 함수 W1(z), W2(z), Q(P'b(j))의 주파수응답(w1(i) w2(i))을 사용해서 상기 가중(w1(i))이 계산된다.
상기 Q(P'b(j))는, 예를 들면, 아래처럼 이용되지만 이것에 한정되는 것은 아니다.
다음, 도 2의 스텝(S4) 또는 도 1의 양자화(SQ와 VQ)회로(103)에서 수행된 스칼라양자화와 벡터양자화에서 도 3을 참조하여 설명한다.
도 3에서, 입력단자(21)는 상기 T/F변환되는 N계수로 구성되는 계수벡터(y =(y(0), y(1) ......y(N - 1 )t )가 공급된다. 여기서, ISQ를 스칼라양자화(SQ)되는 계수의 인덱스 집합으로, IVQ 를 벡터양자화(VQ)되는 계수의 인덱스집합으로 가정한다. 즉, 양자화되는 모든 계수의 인덱스는 ISQ 와 IVQ 로 분리된다.
상기처럼 SQ 와 VQ는 SQ/VQ선택기(22)에 의해 상기 비트할당 (ba'(i)에 따라 선택된다.
우선 i ∈ ISQ에 대하여 스칼라양자화가 실행된다. 스칼라양자화의 코드북은 한 개의 코드북 또는 복수의 코드북으로 사용할 수 있다. 본 실시예는 각각의 양자비트수(2, 3, 4)를 가지는 코드북(S2 ,S3 ,와 S4)를 사용한다. SQ코드북선택기(24)는 어느 코드북이 사용될 것인지 상기 비트할당(ba'(i))에 의해 결정한다. SQ(스칼라양자화)블럭(25)에 의해 양자화된 출력(Q(y(i)))은 0 ≤ j〈2ba'(j)에 있어서 |y(i) - Sba'(i)(j)|2 을 최소화하는 j=SQindex를 사용하여 다음과 같이 구해진다.
y(i) =Sba'(i)(SQindex)
스칼라양자화(SQ)의 결과는 N차원 벡터(y SQ)를 만들어 낸다. 이 벡터(0 ≤ I 〈 N) 의 i번째의 요소 ySQ(i)는 다음과 같다.
[수학식 7]
다음은 벡터양자화(VQ)에 대해서 설명한다. 상기 인덱스집합(IVQ)의 요소 수는 프레임에서 프레임으로 변화한다. 벡터양자화가 되기위해 이 요소들이 수집되면, 차원 수의 조정이 복잡해지고 요구된 코드북이 요구된 차원수에 의거해 다양해진다. 본 실시예에서, 모든 N은 고정 차원으로 양자화된다. 그러나, 이미 스칼라양자화가 된 이들 계수에 대해서는 벡터양자화 가중은 0으로 설정된다.
구체적으로, 우선 N계수를 M차원의 서브벡터로 분할한다. 예를 들면, 계수는 각 M차원마다 간단히 분할되고, 저역에서 시작된다. k번째 서브벡터에 대해 N/M 서브벡터가 얻어질 때,
yk = (y(kM) , y(kM+1) , ..... y(kM + M -1)t
위에서 얻어진 가중 벡터 또한 분할되어 w k를 만든다.
w k 의 j번째 요소(w k(j))는 다음과 같이 정의되는 것을 알 수 있다.
[수학식 8]
상기 경우 SQ경우와 같은 방법으로, 하나에서 다른 것으로 전환되는 하나의 VQ 코드북 또는 복수의 VQ 코드북을 이용하는 것이 가능하다. 우선 서브벡터 y k 의 총 비트할당 Byk는 도 3의 VQ비트할당 계산부(23)에 의해 계산된다. 예를 들면, 평균비트할당이 다음과 같이 사용되지만 이것에 비트할당이 한정되지는 않는다
[수학식 9]
상기 Byk 가 주어질 때 L코드북( C0, C1, ....... CL-1 )에서 어느 코드북이 사용되는지 매핑규칙이 결정된다. 매핑규칙에 따라 서브벡터(y k)에 대하여 코드북(Cr)이 사용된다 이 코드북 선택은 도3에 있는 VQ코드북 선택기(26)에 의해 실행된다.
선택된 코드북 (Cr)에 대해서, 이 비트할당이 Br 로 가정되면, 0〈 m〈 2Br 범위에서 ∥WK(yk -Cr m)∥2를 최소화하는 m = VQindex가 탐색된다. 따라서, 벡터 양자화(VQ) 블록 (27)에서 얻어진 양자화 출력 Q(yk)는 곱셈기(28)를 통해서 다음과 같이 표현될 수 있다.
[수학식 10]
Q(yk) = ACr(VQindex)
여기서,
Wk = diag(wk)
Cr(1)은 Cr의 첫 번째 요소벡터
곱셈기(28)는 출력에 대한 이 식의 매트릭스(A)를 VQ블록 (27)에서 곱셈한다.
벡터양자화에 의해 얻어진 M차원 양자화 출력 Q(yk) ( 0 ≤ k ≤ N/M) 은 서로 연결되어 있고, 상기 분할에 역으로 N차원 벡터 Q(y)VQ를 만들기 위해 가산기(29)에서 상기 스칼라양자화된 Q(y)SQ에 가산되고, N계수(y)에 대해서 양자화 블록의 최종 출력 Q(y)를 다음과 같이 얻는다.
Q(y) = Q(y)SQ + Q(y) VQ
여기서, 양자화에 있어 가중을 결정하는 파라미터를 전송함으로써 인코더에 동일한 동작을 복원할 수 있는 것을 주의한다. 즉, 상기 비트할당(ba'(i))에서만 SQ(위치정보)로 되는 계수인덱스와 SQ 및 VQ에서 사용된 코드북을 결정할 수 있다. 따라서, 디코더는 보조정보없이 해석과 엔코더 출력의 역양자화를 수행할 수 있다.
다음은 도4를 참조해서 상기 실시예의 구체적 구성 예로서 오디오 신호 부호화 장치를 설명한다.
도 4에서, 입력단자(10)는 예를 들면 0 ~ 8 KHz정도의 소위 광대역 음성신호를 샘플주파수 FS = 16KHz 로 A/D 변환하여 얻어지는 디지털 오디오 신호가 공급된다. 이 입력신호는 예를 들면 1프레임 512샘플정도의 분석길이로 해밍창걸이가 만들어지는 LPC 분석양자화 블록(30)에 공급되어, 약 10차원 즉, α파라미터의 LPC계수를 산출하도록 하고 LPC 잔차를 얻기 위해 LPC 역필터(11)에 공급된다. LPC 분석에서는 분석의 단위인 1프레임의 512 샘플 중에서 일부가 다음 블록으로 오버랩 된다. 이 LPC 분석양자화블록(30)에서, 양자화되기 위해 LPC계수가 LSP(선형계수쌍)로 변환되어 전송된다.
LPC 분석회로(32)에서 α파라미터는 선스펙트럼쌍(LSP) 파라미터로 변환되는 α/LSP변환회로(33)에 전송된다. 이것은 직접형 타입 필터계수로 얻어진 α파라미터가 예를 들면 10파라미터, 즉 5쌍의 LSP파라미터로 변환된 것을 의미한다. 예를 들면, 변환은 뉴튼랩슨방법 등을 사용해서 수행된다. 이 LSP 파라미터를 변환하는 것은 α파라미터보다 더 나은 보간특성을 얻을 수 있기 때문에 실행된다.
α/LSP 변환회로(33)에서의 LSP파라미터는 LSP양자화(33)에서 벡터양자화 또는 매트릭스 양자화가 된다. 여기서, 매트릭스 양자화에 대해서 벡터양자화를 수행하거나 복수프레임을 수집하기 전에 프레임간 차를 결정할 수 있다.
이 LSP양자화기(34)에서의 양자화된 출력, 즉 LSP벡터양자화 인덱스는 단자(31)에서 출력되며, 양자화된 LSP벡터 또는 역양자화 출력은 LSP보간회로(36) 및 LSP/α 변환회로(38)에 전송된다.
LSP 보간회로(36)는 LSP양자화기(34)에서 상기 프레임마다 벡터양자화에서 얻어진 LSP 벡터의 전 프레임과 현 프레임 한 쌍의 보간을 수행한다. 이 보간은 후에 요구될 비율을 얻기 위해 실행된다. 이 예에서, 8배 높은 비율에 대해 보간이 실행된다.
그래서 보간된 LSP벡터를 사용해서 입력음성의 역 필터를 실행하기 위해서 LSP파라미터는 약 10차 정도의 직접형 필터의 계수인 α파라미터로 변환되는 LSP/α변환회로(37)에 공급된다. 이 LSP/α변환회로(37)에서의 출력은 상기 LPC잔차를 얻기위해 LPC역필터회로(11)에 공급된다. 이 LPC역변환회로(11)에서, 역필터링은 스무스한 출력을 얻기 위해 8배 승산비율로 갱신된 α파라미터로 실행된다.
더욱이 LSP 양자화회로(34)에서 1배 비율 LSP계수는 LSP/α 변환회로(38)에 공급되며 α파라미터로 변환되고, 상기 비트할당을 실행하기 위해 할당비트 계산회로(18)에 공급된다. 할당비트 계산회로(18)는, 상기 할당비트 ba'(i)외에, 위에서 기술한 것처럼 MDCT계수의 양자화를 위해서 사용된 가중 w(i)의 계산을 실행한다.
LPC역필터(11)에서의 출력은 장기 예측된 피치예측을 위해 사용된 피치역필터(12)와 피치 분석회로(15)에 공급된다.
다음은 장기예측에 대해 설명한다. 장기예측은 피치예측 잔차를 얻기위해 피치 분석에 의해 얻어진 피치주기 또는 피치레그에 의해 시간축상에 이동된 파형을 원래의 파형에서 감산해서 실행한다. 이 예에서, 3점의 예측을 통해서 실행된다. 피치레그는 샘플된 시간축의 피치 주기에 대응하는 샘플수이다.
즉, 피치분석회로(15)에서, 피치분석은 각 하나의 프레임 즉, 분석 길이가 하나의 프레임인 것에서 실행한다. 피치분석결과 중에서, 피치레그는 피치역필터(12) 및 출력단자(42)에 공급되고, 피치게인은 피치게인 VQ 회로(16)에 공급된다. 피치게인 VQ회로(16)에서, 상기 3점 예측에 대응하는 3점에서의 피치게인은 벡터양자화되고, 코드북인덱스는 출력단자(43)에서 출력된다. 상기 피치분석결과에 따라서, 피치역필터(12)는 3점피치예측의 피치예측잔차를 출력한다. 이 피치예측 잔차는 직교변환 수단으로, 예를 들면 MDCT회로(13)에 공급되고, 상기 기술된 양자화(SQ 와 VQ)회로(20)에 의해 스칼라양자화와 청각 가중 벡터양자화가 되기전에 MDCT처리가 된다. 임계대역피크 추출양자화회로(17)는 위에서 기술한 것 처럼, T/F변환인 MDCT처리된 계수에 대해 각 임계대역폭 혹은 임계대역폭을 블록으로 더 분할한다. 이 양자화된 값은 블록의 정규화벡터로서 할당비트계산회로(18)에 전송되고, 출력단자(44)로 부터 출력된다.
양자화(SQ와 VQ)회로(20)에서, 위에서 기술한 것처럼, 할당비트 계산회로(18)에서의 비트할당 ba'(i)에 따라서 SQ또는 VQ를 선택하도록 제어되므로 스칼라양자화는 MDCT 계수의 일부에 대하여 실행되고 벡터양자화는 상기 기술된 VQ가중(w(i))에 의해 청각 가중으로 잔여 계수에 대해 수행된다.
그런데, 상기 구체적 예에서, 그 벡터양자화(VQ)는 스칼라양자화(SQ)(실제로, 가중은 SQ가 되는 계수에 대해 0으로 설정된다)가 된 그 계수들을 제외한 계수에 대해 실행된다. VQ가 될 계수들과 SQ가되어진 계수의 양자화오차에 대해 즉시 VQ를 실행할 수 있다.
예를 들면, 스칼라양자화(SQ)된 계수들이 q(y)SQ로 가정되면, 벡터(u)는 다음과 같이 안전하게 만들어진다
u = y - q(y)SQ
이 벡터(u)는 서브벡터(uk( = uk(0) , uk(1), ...... uk(M-1)))로 나누어진다. 즉,
uk(j) = y(kM+j) - Q(y(kM-j))SQ
이 분할 후, 상기 VQ 처리에 따라 양자화가 실행된다. 이 VQ에서, 가중 wk(j) 은 간단하게 다음과 같이 정의될 수 있다.
wk(j) = w(kM + j)
벡터양자화는 이 가중으로 실행되고 이 양자화결과(Q(u))에서, 최종 결과(Q(y))는 다음과 같이 얻어질 수 있다.
Q(y) =Q(u) + Q(y)VQ
위에서 설명한 것처럼, 스칼라양자화는 벡터양자화를 수행하기 전에 수행한다. 그러나, 우선, 주파수축상의 모든 계수에 대해 벡터양자화를 수행할 수 있으며, 큰 양자화 오차를 가진 것에 대해 스칼라양자화를 실행할 수 있다.
즉 예에서, 우선 벡터양자화는 상기 T/F변환이 된 주파수축상에서 분해된 계수(y)에 의해 얻어진 모든 서브벡터(y k)에 대해서 수행한다. 여기 벡터양자화는 다음과 같이 정의된 가중(wk(j))로 실행된다.
wk(j) = w(kM+j)
양자화의 결과를 연결하여 Q(y)VQ를 만들고 다음과 같이 양자화오차벡터가 만들어진다.
e = y - Q(y)VQ
e요소에 대하여, 어떤 방법에 의해, 예를 들면 오차치의 소오링(soring)에 의해 오차량이 큰 것을 가진 소정의 수를 선택 출력한다. 또는 가중 W에서 큰 값을 가진 소정의 수에 대응하는 오차를 선택한다. 이 스칼라양자화에서 선택된 오차는 그 자체로 양자화 된다.
그러나 이 방법에서는, 스칼라양자화된 계수들에 대한 부가 정보를 분리해서 전송할 필요가 있다.
본 발명은 상기 실시예에 제한되지 않는다. 예로 상기벡터양자화는 인터리브와 양자화하기 위해 주어진 복수 서브벡터를 분할한 후 수행할 수 있다. 즉, 벡터양자화가 되기위해 주파수축에 있는 계수는 서로 쉽게 복수의 서브벡터로 나누어지고, 저역에서 시작되며 하나의 서브벡터내의 계수들이 소정 대역 근처에서 집중될 위험은 없다.
위 설명에서 명백히 한 것처럼, 본 발명의 경우 입력신호는 주파수축상에서 계수를 얻기위해 시간축/주파수축 변환됨으로, 계수들은 주파수축상의 계수들의 비트할당에 따라서 제어된 스칼라양자화와 벡터양자화가 된다.
이것은 양자화 오차를 벡터양자화에 의해 쉽게 발생된 그 계수들에 대해 스칼라양자화를 수행하면서 벡터양자화에 의해 감소율을 얻을 수 있다. 따라서 이들 계수들의 저하를 막는다. 더욱이 스칼라양자화와 벡터양자화는 비트할당에 의해 제어되며, 별도의 부가 정보를 전송할 필요가 없다.
여기에는 주파수축상의 계수들이 소정의 임계치가 스칼라양자화된 것 이상의 할당비트를 가진다. 벡터양자화에 의해 발생된 신호 저하에서 고립된 스펙트럼의 스칼라양자화를 실행해서 양자화차를 감소시키고, 신호의 질을 증가시킨다.
이 과정에서 스칼라양자화에 의해 양자화된 계수들에 대해 가중이 0이 됨으로 벡터양자화는 모든 계수에 대해 수행한다. 스칼라양자화한 계수 외의 계수를 출력해 벡터계수들을 실행하는 경우를 비교하면 본 발명은 벡터양자화 차수를 고정할 수 있으며, 차수에 따라서 코드북을 선택하거나 벡터양자화에 있어서 차수를 조정할 필요가 없으므로, 처리와 시스템구성을 간단히 할 수 있다. 이것은 또한 벡터양자화의 입력으로 사용함으로써 스칼라양자화한 계수들의 양자화 오차를 줄일 수 있다.
더욱이 벡터양자화를 실행하기 전에 입력 벡터를 복수의 서브벡터로 나누어 벡터양자화 코드북 크기를 줄일 수 있다. 따라서 부담을 줄일 수 있다.
또한, 미리 특징 추출에 의해 정규화된 시간축 신호는 상기 시간축/주파수축 변환이 되며, 정규화한 파라미터는 상기 할당비트 계산에 사용됨으로, 정규화한 파라미터는 스칼라양자화(SQ)와 벡터양자화(VQ)사이의 선택 제어를 특별히 규정하는데 사용한다. 따라서 SQ/VQ 제어를 위해 전용된 부가정보를 전송할 필요가 없으며, 전송 비트율의 증가를 막을 수 있다.
도 1은 본 발명의 실시예의 기본 구성을 나타내는 블록도이다.
도 2는 본 발명의 실시예에 따른 동작을 설명하기 위한 플로우차트이다.
도 3은 스칼라양자화(SQ)와 벡터양자화(VQ)를 수행하기위한 상세한 구성을 나타내는 블록도이다.
도 4는 본 발명의 실시예에 따른 오디오신호 부호화장치의 구성을 나타내는 블록도이다.
* 도면의 주요부분에 대한 부호설명
11. LPC 역필터 12. 피치 역필터
13. MDCT회로 15. 피치 분석회로
16. 피치게인 VQ회로 17. 임계대역피크 추출양자화회로
18. 할당비트 계산회로 22. SQ 및 VQ선택부
24. SQ코드 선택부 25. SQ(스칼라양자화)부
26. VQ코드북 선택부 27. VQ(벡터양자화)부
29. 가산기 30. LPC분석·양자화부
32. LPC분석회로 33. α/LSP 변환회로
34. LSP 양자화 회로 36. LSP 보간회로
37,38. LSP/α변환회로

Claims (11)

  1. 입력신호에 있어 시간축/주파수축 변환을 행하는 단계와,
    상기 시간축/주파수축 변환에 의해 얻어진 주파수축상의 계수의 비트할당에 따라서 스칼라양자화 및 벡터양자화를 제어하고 상기 계수의 양자화를 실행하는 양자화단계를 포함하며,
    특징 추출에 의해 미리 정규화된 시간축신호는 상기 시간축/주파수축 변환에 입력신호로서 사용되고 상기 정규화에 대한 파라미터가 상기 할당비트를 계산하기 위해 사용되며,
    상기 벡터양자화는 입력벡터를 인터리브하여 얻어진 복수의 서브벡터에 실행되도록 구성되어 있는 것을 특징으로 하는 오디오신호 부호화방법.
  2. 제 1항에 있어서,
    상기 양자화 단계는 소정의 임계치 이상의 상기 비트할당의 할당비트수를 가지는 계수에 대해 스칼라양자화를 실행하는 것을 특징으로 하는 오디오신호 부호화 방법.
  3. 제 2항에 있어서,
    상기 양자화단계는 상기 스칼라양자화에 의해 양자화된 계수에 가중 0으로 벡터양자화를 실행하는 것을 특징으로 하는 오디오신호 부호화방법.
  4. 제 2항에 있어서,
    상기 스칼라양자화에 의해 양자화된 계수에 대하여, 상기 양자화단계는 입력으로서 상기 계수의 양자화 오차를 벡터양자화에 사용하고 벡터양자화 출력을 상기 스칼라양자화출력에 부가하는 것을 특징으로 하는 오디오신호 부호화방법.
  5. 제 1항에 있어서,
    상기 벡터양자화는 입력 벡터를 복수의 서브벡터로 분할하고 각 서브벡터에 대해 비트할당에 따라 복수의 코드북 사이를 전환하여 실행하는 것을 특징으로 하는 오디오신호 부호화방법.
  6. 입력신호에 시간축/주파수축 변환을 행하는 단계와,
    상기 시간축/주파수축 변환에 의해 얻어진 주파수축상의 모든 계수에 벡터양자화를 실행하고 큰 양자화 오차를 가지는 계수에 스칼라양자화를 실행하는 양자화 단계를 포함하여 구성되어 있는 것을 특징으로 하는 오디오신호 부호화방법.
  7. 입력신호에 시간축/주파수축 변환을 행하는 시간축/주파수축 변환수단과,
    상기 시간축/주파수축 변환에 의해 얻어진 주파수축상의 계수의 비트할당을 얻기위한 비트할당수단과,
    상기 비트할당에 따라서 스칼라양자화 및 벡터양자화를 제어하고 상기 계수를 양자화하는 양자화수단을 포함하여 구성되어 있는 것을 특징으로 하는 오디오신호 부호화장치.
  8. 제 7항에 있어서,
    상기 양자화 수단은 소정의 임계치 이상의 상기 비트할당의 할당비트수를 가지는 계수에 대해 스칼라양자화를 실행하는 것을 특징으로 하는 오디오신호 부호화장치.
  9. 제 8항에 있어서,
    상기 양자화수단은 상기 스칼라양자화에 의해 양자화된 계수에 가중 0으로 벡터양자화를 실행하는 것을 특징으로 하는 오디오신호 부호화장치.
  10. 제 8 항에 있어서,
    상기 스칼라양자화에 의해 양자화된 계수에 대하여, 상기 양자화수단은 입력으로서 상기 계수의 양자화 오차를 벡터양자화에 사용하고 벡터양자화 출력을 상기 스칼라양자화 출력에 부가하는 것을 특징으로 하는 오디오신호 부호화장치.
  11. 제 7항에 있어서,
    특징 추출에 의해 정규화된 시간축 신호로 상기 시간축/주파수축 변환수단을 공급하는 정규화수단을 추가로 포함하고,
    상기 비트할당수단은 상기 정규화 수단에서 정규화의 파라미터를 사용해 상기 할당비트를 계산하는 것을 특징으로 하는 오디오신호 부호화장치.
KR10-1998-0010611A 1997-03-28 1998-03-26 신호부호화방법및장치 KR100513815B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP07861697A JP3684751B2 (ja) 1997-03-28 1997-03-28 信号符号化方法及び装置
JP97-078616 1997-03-28

Publications (2)

Publication Number Publication Date
KR19980080742A KR19980080742A (ko) 1998-11-25
KR100513815B1 true KR100513815B1 (ko) 2005-12-06

Family

ID=13666830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1998-0010611A KR100513815B1 (ko) 1997-03-28 1998-03-26 신호부호화방법및장치

Country Status (9)

Country Link
US (1) US6034632A (ko)
EP (1) EP0868031B1 (ko)
JP (1) JP3684751B2 (ko)
KR (1) KR100513815B1 (ko)
CN (1) CN1124588C (ko)
AU (1) AU5969798A (ko)
DE (1) DE69801536T2 (ko)
SG (1) SG68656A1 (ko)
TW (1) TW403890B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
US6278385B1 (en) * 1999-02-01 2001-08-21 Yamaha Corporation Vector quantizer and vector quantization method
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
CN101521010B (zh) * 2008-02-29 2011-10-05 华为技术有限公司 一种音频信号的编解码方法和装置
US9373332B2 (en) * 2010-12-14 2016-06-21 Panasonic Intellectual Property Corporation Of America Coding device, decoding device, and methods thereof
CN108911743A (zh) * 2016-04-20 2018-11-30 天津中天精科科技有限公司 一种耐腐蚀陶瓷刀具及其制备方法
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63268387A (ja) * 1987-04-27 1988-11-07 Toshiba Corp 直交変換ベクトル、スカラ−混合量子化方式
US5309232A (en) * 1992-02-07 1994-05-03 At&T Bell Laboratories Dynamic bit allocation for three-dimensional subband video coding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5136374A (en) * 1990-04-03 1992-08-04 At&T Bell Laboratories Geometric vector quantization
US5128757A (en) * 1990-06-18 1992-07-07 Zenith Electronics Corporation Video transmission system using adaptive sub-band coding
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
GB9422738D0 (en) * 1994-11-10 1995-01-04 Univ Western Ontario Context-based, adaptive, progressive, lossless compression of still continuous -tone images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63268387A (ja) * 1987-04-27 1988-11-07 Toshiba Corp 直交変換ベクトル、スカラ−混合量子化方式
US5309232A (en) * 1992-02-07 1994-05-03 At&T Bell Laboratories Dynamic bit allocation for three-dimensional subband video coding

Also Published As

Publication number Publication date
DE69801536D1 (de) 2001-10-11
US6034632A (en) 2000-03-07
DE69801536T2 (de) 2002-05-08
CN1197975A (zh) 1998-11-04
JPH10268897A (ja) 1998-10-09
EP0868031A1 (en) 1998-09-30
KR19980080742A (ko) 1998-11-25
CN1124588C (zh) 2003-10-15
SG68656A1 (en) 1999-11-16
AU5969798A (en) 1998-10-01
JP3684751B2 (ja) 2005-08-17
TW403890B (en) 2000-09-01
EP0868031B1 (en) 2001-09-05

Similar Documents

Publication Publication Date Title
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
US5684920A (en) Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
KR100469002B1 (ko) 오디오 코딩 방법 및 장치
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
CA2524243C (en) Speech coding apparatus including enhancement layer performing long term prediction
JPS6161305B2 (ko)
JPS5912186B2 (ja) 雑音の影響を減少した予測音声信号符号化
JP3636094B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3254687B2 (ja) 音声符号化方式
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
KR100513815B1 (ko) 신호부호화방법및장치
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JP3087814B2 (ja) 音響信号変換符号化装置および復号化装置
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3138574B2 (ja) 線形予測係数補間装置
JP3616307B2 (ja) 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
KR20060067016A (ko) 음성 부호화 장치 및 방법
JP4618823B2 (ja) 信号符号化装置及び方法
JPH0738119B2 (ja) 音声波形符号復号化装置
JPH0426119B2 (ko)
JPH0632030B2 (ja) 音声符号化方法
JPH04243300A (ja) 音声符号化方式
JPH05127699A (ja) コード励振線形予測符号化方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080813

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee