KR20040028750A - 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 - Google Patents

음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 Download PDF

Info

Publication number
KR20040028750A
KR20040028750A KR10-2003-7014370A KR20037014370A KR20040028750A KR 20040028750 A KR20040028750 A KR 20040028750A KR 20037014370 A KR20037014370 A KR 20037014370A KR 20040028750 A KR20040028750 A KR 20040028750A
Authority
KR
South Korea
Prior art keywords
spectral
coefficients
quantized
distortion
vectors
Prior art date
Application number
KR10-2003-7014370A
Other languages
English (en)
Inventor
래모안시
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20040028750A publication Critical patent/KR20040028750A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

LSF 계수들 및 잔여 부호록(codebook) 벡터들과 함께, 이전에 복호화된 출력 값들에 기초하는 예측된 LSF 값들이 스펙트럼 왜곡을 추정하는데 사용되는 음성 부호기에서 LSF 벡터들을 양자화하는 방법 및 시스템이 제공된다. 상기 방법은 상기 대응하는 예측된 LSF 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 LSF 계수들을 획득하는 단계; 주파수 영역에서의 양자화된 LSF 계수들을 순서대로 재배열하는 단계; 상기 재배열된 양자화된 LSF 계수들 및 상기 대응하는 LSF 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계; 및 최적 부호 벡터가 스펙트럼 왜곡에 기초하여 선택되는 단계를 포함한다.

Description

음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템{Method and system for line spectral frequency vector quantization in speech codec}
음성 및 오디오 부호화 알고리즘들은 통신, 멀티미디어 및 저장 시스템에서 매우 다양한 응용을 갖는다. 부호화 알고리즘들의 개발은 고품질의 동기화된 신호를 유지하면서 전송 및 저장 능력을 절약할 필요성에 의해 유도된다. 부호기의 복잡함은 응용 플랫폼의 처리 능력에 의해 제한된다. 몇몇 응용들, 예를 들어 음성 저장에 있어서, 부호기는 매우 복잡할 수 있지만 복호기는 가능한 한 간단해야 한다.
전형적인 음성 부호기에 있어서, 입력 음성 신호는 프레임들로 지칭되는 세그먼트들에서 처리된다. 보통 프레임 길이는 10-30ms이고, 다음 프레임의 5-15ms의 미리보기(look-ahead) 세그먼트가 또한 이용가능하다. 프레임은 다수의 서브 프레임들로 더 분할될 수 있다. 모든 프레임에 대해, 부호기는 입력 신호의 매개변수 표현을 결정한다. 매개변수들은 양자화되고 통신 채널을 통해 전송되거나 디지털 형태로 저장 매체에 저장된다. 수신단에서, 복호기는 수신된 매개변수들에 기초하여 동기화된 신호를 구성한다.
대부분의 현재 음성 부호기들은 여기(excitation) 신호가 생성되는 선형 예측(LP; linear prediction) 필터를 포함한다. 상기 LP 필터는 전형적으로 수학식 1에 의해 주어지는 바와 같은 올-폴(all-pole) 구조를 갖는다.
여기서, A(z)는 양자화되지 않은 LP 계수들(a1, a2, ..., ap)을 갖는 역필터이고, p는 보통 8-12인 예측기 차수이다.
입력 음성 신호는 프레임들에서 처리된다. 각 음성 프레임에 있어서, 부호기는 예를 들어 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여 LP 계수들을 결정한다. ("AMR Speech Codec; Transcoding function" 3G TS 26.090 v3.1.0(1999-12) 참조). 결과적인 안정 필터가 순서 벡터(order vector)에 의해 표현되는 선스펙트럼 주파수(LSF; Line Spectral Frequency) 표현 또는 선스펙트럼 쌍(LSP; Line Spectral Pair), 이미턴스 스펙트럼 주파수(ISF; Immittance Spectral Frequency) 및 이미턴스 스펙트럼 쌍(ISP; Immittance Spectral Pair)과 같은 다른 유사한 표현들이 계수들의 양자화를 위해 사용되는데, 왜냐하면 그들이 좋은 양자화 특성들을 갖기 때문이다. 중간 서브 프레임들에 있어서, 계수들은 LSF 표현을 사용하여 선형으로 보간된다.
LSF들을 정의하기 위하여, 역 LP 필터(A(z)) 다항식이 2개의 다항식을 구성하는데 사용된다.
다항식들(P(z) 및 Q(z))의 루트(root)들은 LSF 계수들로 지칭된다. 이들 다항식들의 모든 루트들은 i=1, 2, ..., p를 갖는 단위원상에 있다. 다항식들(P(z) 및 Q(z))은 다음 특성들을 갖는다: 1) 다항식들의 모든 제로들(루트들)은 단위원상에 있다. 2) P(z) 및 Q(z)의 제로들은 서로 보간된다. 보다 상세하게는, 다음 관계가 항상 충족된다:
이러한 오름순은 종종 음성 부호화 응용들에서 요구되는 필터 안정성을 보장한다. 제1 및 최종 매개변수들은 각각 항상 0 및 π이고, p값들만이 전송되어야 하는 것을 유의한다.
음성 부호기들에서 LSF 정보를 저장하기 위해 효율적인 표현이 필요한 경우,LSF들은 종종 예측과 함께 벡터 양자화(VQ; Vector Quantization)를 이용하여 양자화된다(도 1 참조). 보통, 예측된 값들은 이전에 복호화된 출력 값들(자동 회귀(AR; auto-regressive)-예측기) 또는 이전에 양자화된 값들(이동 평균(MA; moving average)-예측기)에 기초하여 추정된다.
여기서 Aj및 Bi는 예측기 매트릭스들이고, m 및 n은 예측기들의 차수들이다. pLSFk, qLSFk및 CBk는 각각 프레임(k)에 대한 예측된 LSF, 양자화된 LSF 및 부호록(codebook) 벡터이다. mLSF는 평균 LSF 벡터이다.
예측된 값이 계산된 이후에, 양자화된 LSF 값이 획득될 수 있다:
여기서, CBk는 프레임(k)에 대한 최적 부호록 엔트리이다.
실제로, 예측 양자화 또는 제약된 VQ를 사용하는 경우, 결과적인 qLSFk의 안정성은 LP 계수들로 변환되기 전에 검사되어야 한다. 직접 VQ(비-예측, 단일 스테이지, 비분할)의 경우에 있어서만, 부호록이 결과적인 양자화된 벡터가 항상 순서에 맞도록 설계될 수 있다.
선행기술 해결책들에 있어서, 양자화 및 부호록 선택 이후에 LSF 벡터를 정렬함으로써 필터 안정성이 보장된다.
최선의 부호록 벡터에 대해 검색하는 경우, 종종 모든 벡터들이 시도되고(전체 검색), 모든 경우에 대해 몇몇 지각에 중요한 우량 측정이 계산된다. 보통 사용되는 검색 절차의 블록도가 도 1a에 도시된다.
최적으로, 선택은 수학식 7과 같은 스펙트럼 왜곡(SDi)에 기초한다.
여기서,는 각각 양자화를 갖는 그리고 갖지 않는 음성 프레임의 스펙트럼이다. 이것은 계산이 매우 복잡하므로, 더 간단한 방법들이 대신 사용된다.
보통 사용되는 방법은 가중치(Wk)를 가지고 LSF 오차(rLSFi k)에 가중치를 주는 것이다. 예를 들어, 다음의 가중화가 사용된다. ("AMR Speech Codec; Transcoding function" 3G TS 26.090 v3.1.0(1999-12) 참조).
for dk< 450 Hz
그 외.
여기서, LSF0= 0 Hz 및 LSF11= 4000 Hz를 갖는 dk= LSFk+1- LSFk-1이다.
기본적으로, 이러한 왜곡 측정은 LSF 주파수들간의 거리에 의존한다. LSF들이 서로 더 근접할수록, 그들은 더 큰 가중치를 갖는다. 지각적으로, 이것은 포르만트(formant) 영역들이 더 정밀하게 양자화된다는 것을 의미한다.
왜곡값에 기초하여, 최저값을 제공하는 부호록 벡터가 최선 부호록 인덱스로서 선택된다. 보통, 그 기준은 수학식 9이다.
도 1a에서 볼 수 있는 바와 같이, 타깃 LSF 계수들(LSFk) 및 대응하는 예측된 LSF 계수들(pLSFk) 간의 차는 우선 가산기(12)에서 결정되고, 그 차는 다른 가산기(14)에서 제j 부호록 엔트리의 대응하는 잔여 부호록 벡터(CBj 1k)에 의해 추가로 조정된다. 수학식 9는 수학식 10으로 될 수 있다.
추가로 수학식 11로 될 수 있다.
수학식 10 및 수학식 11에 표시된 바와 같은 축소 단계들은 도 1b에 도시된 바와 같이 부호기에서 더 쉽게 가시화될 수 있다. 도 1b에 도시된 바와 같이, 가산기(16)는 양자화된 LSF 계수들을 계산하는데 사용된다. 그 다음, LSF 오차는 가산기(18)에 의해 양자화된 LSF 계수들 및 타깃 LSF 계수들로부터 계산된다.
양자화된 LSF 계수들(qLSF i k)이 k에 관하여 오름순이 아닌 경우 선행기술 해결책이 반드시 최적 부호록 인덱스를 발견하는 것은 아니다. 도 2a 내지 도 2e는 이러한 문제를 도시한다. 간략화를 위해, 처음 3개의 LSF 계수들만이 도시된다(k=1,2,3). 그러나, 이러한 간략화된 예시는 스플릿 VQ의 경우에서의 보다 일반적인 제1 스플릿을 적절하게 나타낸다. 타깃 LSF 벡터는 LSF1...LSF3로 표시되고, 이전 프레임들의 LSF에 기초하는 예측된 값들도 또한 표시된다(pLSF1...pLSF3). 도 2a에 도시된 바와 같이, 몇몇 예측된 값들은 각각의 타깃 벡터들보다 더 크고, 몇몇은 더 작다. 벡터 양자화기 잔여 부호록에서의 제1 부호록 엔트리는 도 2b에 도시된 바와 같은 부호록 벡터들과 같을 수 있다. qLSF1 1-3= pLSF1-3+ CB1 1-3을 가지고, 양자화된 LSF 계수들이 계산되고 도 2c에 도시된다. 간략화를 위해, 가중치가 사용되기 않거나, Wk=1이고, 스펙트럼 왜곡은 타깃 및 양자화 값(양자화된 LSF 계수)간의 제곱되거나 절대의 거리에 정비례한다. 타깃 및 양자화 값간의 거리는 rLSFi k이다. 따라서 제1 스플릿에 대한 전체 왜곡은 수학식 12이다.
제2 부호록 엔트리(미도시)는 도 2d에 도시된 바와 같이 양자화된 LSF 벡터(qLSF 2 1-3) 및 스펙트럼 왜곡(SD2 1-3)을 산출할 수 있다. 도 2d가 도 2c에 비교되는 경우, 결과적인 qLSF 벡터들은 아주 상이하지만, 전체 왜곡들은 거의 동일하거나 (SD1 SD2)이다. 처음 2개의 부호록 엔트리들에 있어서, 결과적인 양자화된 LSF 벡터들은 순서대로 되어 있다.
선행기술 양자화 방법과 관련된 문제를 나타내기 위하여, 제3 부호록 엔트리(미도시)로부터 생성되는 양자화된 LSF 계수들(qLSF3 1-3) 및 대응하는 스펙트럼 왜곡들(SD3 1-3)이 도 2e에 도시된 바와 같이 분포된다. 도 2e에 도시된 바와 같이 스펙트럼 왜곡에 따른 전체 왜곡()은 매우 큰 값이다. 이것은 선행기술 방법에 따라 제1 스플릿으로부터의 최선 부호록 인덱스가 SD1및 SD2보다 더 작다는 것을 의미한다. 그러나, 이렇게 선택된 "최선"부호록 인덱스는 도 4a에 도시되는 바와 같이 최적 부호 벡터를 산출하지 못한다. 이것은 결과적인 양자화된 LSF 벡터들이 제3 부호록 엔트리에 관하여 순서대로가 아니기 때문이다.
일반적으로, 음성 부호기들은 상기 음성 부호기에 사용되는 선형 예측(LP) 필터가 안정적일 것을 요구한다. 도 1a에 도시된 것과 같이 선행기술 부호록 검색 루틴은 결과적인 양자화된 LSF 벡터들이 순서가 맞지 않고 불안정하게 될 수 있다. 선행기술에 있어서, 벡터의 안정화는 양자화 이후에 LSF 벡터들을 정렬함으로써 달성된다. 그러나, 획득된 부호 벡터는 최적이 아닐 수 있다.
선형 예측 계수들을 나타내는 선스펙트럼 쌍(LSP) 벡터들, 이미턴스 스펙트럼 주파수(ISF) 벡터들 및 이미턴스 스펙트럼 쌍(ISP) 벡터들과 같은 스펙트럼 (쌍) 매개변수 벡터들이 또한 안정되도록 정돈되어야 한다는 것을 유의해야 한다.
획득된 부호 벡터가 최적인 스펙트럼 매개변수(또는 표현) 양자화 방법 및 시스템을 제공하는 것이 유리하고 바람직하다.
본 발명은 일반적으로 음성 및 오디오 신호들의 부호화에 관한 것으로, 특히 선스펙트럼 주파수 영역에서의 선형 예측 계수들의 양자화에 관한 것이다.
도 1a는 종래기술 LSF 양자화 시스템을 나타내는 블록도이다.
도 1b는 상이한 시스템 성분 배열을 갖는 종래기술 LSF 양자화 시스템을 나타내는 블록도이다.
도 2a는 주파수 영역에서 타깃 LSF 벡터 및 예측된 LSF 값들의 분포를 나타내는 도면이다.
도 2b는 벡터 양자화기 잔여 부호록에서의 제1 부호록 엔트리를 나타내는 도면이다.
도 2c는 타깃 LSF 벡터에 비교되는 양자화된 LSF 계수들 및 제1 부호록 엔트리를 갖는 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2d는 제2 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2e는 제3 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2f는 제4 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2g는 도 2c에 도시된 것과는 상이한 제1 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2h는 도 2d에 도시된 것과는 상이한 제2 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 3은 본 발명에 따른 LSF 양자화 시스템을 나타내는 블록도이다.
도 4a는 본 발명에 따른 LSF 양자화 시스템에 의해 재배열된 후에 도 2e에 도시된 바와 같은 제3 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 4b는 본 발명에 따른 LSF 양자화 시스템에 의해 재배열된 후에 도 2f에 도시된 바와 같은 제4 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 5는 본 발명에 따른 음성 부호화를 위한 부호기 및 복호기를 포함하는 음성 코덱을 나타내는 블록도이다.
도 6은 본 발명에 따라 이동 통신 네트워크에서 사용하기 위한 이동국을 나타내는 도면이다.
본 발명의 주요 목적은 원래의 비트 할당을 유지하면서 스펙트럼 왜곡에 관하여 스펙트럼 매개변수 양자화 성능을 개선하기 위한 최적화된 부호 벡터가 선택되는 스펙트럼 매개변수 양자화 방법 및 장치를 제공하는 것이다. 이러한 목적은 부호 벡터가 스펙트럼 왜곡에 기초하여 선택되기 전에 양자화된 스펙트럼 매개변수 벡터들을 주파수 영역에서 순서대로 재배열함으로써 달성될 수 있다.
따라서, 본 발명의 제1 태양에 따라, 음성 부호기에서 스펙트럼 매개변수 벡터들을 양자화하는 방법으로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되며, 최적 부호 벡터가 상기 스펙트럼 왜곡에 기초하여 선택되는 방법이 제공된다. 상기 방법은
상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하는 단계;
상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하는 단계; 및
상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 선스펙트럼 주파수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계를 포함하는 것을 특징으로 한다.
바람직하기로는, 상기 스펙트럼 왜곡은 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 각각 및 상기 대응하는 스펙트럼 매개변수 계수 간의 차를 나타내는 오차에 기초하여 계산된다. 상기 스펙트럼 왜곡을 계산하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치가 주어진다.
본 발명에 따른 방법은 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 단일 스플릿(split)에서 수행되는 경우에 적용가능하다.
본 발명에 따른 방법은 또한 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 복수의 스플릿들에서 수행되는 경우에 적용가능하다. 그 경우에 있어서, 최적 부호 벡터는 각 스플릿에서의 상기 스펙트럼 왜곡에 기초하여 선택된다.
본 발명에 따른 방법은 또한 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 다중스테이지 양자화의 경우에 하나 이상의 스테이지들에서 수행되는 경우에 적용가능하다. 그 경우에 있어서, 최적 부호 벡터는 각 스테이지에서의 스펙트럼 왜곡에 기초하여 선택된다. 각 스테이지는 정렬될 수 있거나 정렬되지 않을 수 있다. 어느 스테이지들이 정렬되고 어느 스테이지들이 정렬되지 않는지에 대한 선택이 미리 결정되는 것이 바람직하다. 그렇지 않으면 정렬 정보가 부가적인 정보로서 수신기에 전송되어야 한다.
본 발명에 따른 방법은 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 다수의 미리 선택된 벡터들에 대한 최적화 스테이지로서 수행되는 경우에 적용가능하다. 제의(proponent) 벡터들이 정렬되고 최종 인덱스 선택은 상기 개시된 방법을 이용하여 미리 선택된 세트의 벡터들로부터 수행된다.
본 발명에 따른 방법은 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 최적화 단계로서 수행되고 (스테이지들 또는 스플릿들에 대한) 부호록에 대한 초기 인덱스들이 재배열되지 않고 선택되며 최종 선택은 개시된 정렬 방법을 가지고 최선으로 미리 선택된 벡터들의 선택에만 기초하여 수행되는 경우에 적용가능하다.
상기 스펙트럼 매개변수는 선스펙트럼 주파수, 선스펙트럼 쌍, 이미턴스 스펙트럼 주파수, 이미턴스 스펙트럼 쌍, 및 그와 같은 종류의 다른 것일 수 있다.
본 발명의 제2 태양에 따라, 음성 부호기에서 스펙트럼 매개변수 벡터를 양자화하는 장치로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터가 선택되도록 허용하는 장치가 제공된다. 상기 장치는
상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하여 상기 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단; 및
상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 수단을 포함하는 것을 특징으로 한다.
상기 스펙트럼 매개변수는 선스펙트럼 주파수, 선스펙트럼 쌍, 이미턴스 스펙트럼 주파수, 이미턴스 스펙트럼 쌍, 및 그와 같은 종류의 다른 것일 수 있다.
본 발명의 제3 태양에 따라, 비트스트림을 복호기에 제공하는 음성 부호기로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치(pitch) 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현(representation) 매개변수들을 나타내는 제2 전송 신호를 포함하며, 여기(excitation) 검색 모듈이 상기 부호 매개변수들, 상기 이득 매개변수들 및 상기 피치 매개변수들을 제공하는데 사용되고, 선형 예측 분석 모듈이 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 음성 부호기가 제공된다. 상기 음성 부호기는
상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들에 기초하여 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및
상기 제3 신호들에 응답하여, 상기 스펙트럼 왜곡에 기초하는 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 한다.
본 발명의 제4 태양에 따라, 입력 음성을 수신하고 전처리하여 통신 네트워크에서 적어도 하나의 기지국에 비트스트림을 제공할 수 있는 이동국으로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현 매개변수들을 나타내는 제2 전송 신호를 포함하고, 여기(excitation) 검색 모듈이 상기 전처리된 입력 신호로부터 상기 제1 전송 신호를 제공하는데 사용되며, 선형 예측 모듈이 상기 전처리된 입력 신호에 기초하여 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 이동국이 제공된다. 상기 이동국은
상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 일련의 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
상기 일련의 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및
상기 스펙트럼 왜곡으로부터 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 한다.
본 발명은 도 3 내지 도 6과 관련된 설명을 읽는 경우 명백하게 될 것이다.
스펙트럼 (쌍) 매개변수 벡터는 안정된 스펙트럼 (쌍) 벡터가 항상 순서가 맞도록 선형 예측 계수들을 나타내는 벡터이다. 이러한 표현들은 선스펙트럼 주파수(LSF), 선스펙트럼 쌍(LSP), 이미턴스 스펙트럼 주파수(ISF), 이미턴스 스펙트럼 쌍(ISP) 및 그와 같은 종류의 다른 것을 포함한다. 간략화를 위해, 본 발명은 LSF 표현에 의해 설명된다.
본 발명에 따른 LSF 양자화 시스템(40)은 도 3에 도시된다. 도 1a에 도시된시스템 성분들에 추가하여 가산기(16) 및 가산기(18) 사이에 정렬 메커니즘(20)이 구현되어 있다. 상기 정렬 메커니즘(20)은 양자화된 LSF 계수들(qLSFi k)을 재배열하는데 사용되어 상기 양자화 LSF 계수들이 주파수에 관하여 오름순으로 분포된다. 예를 들어, 도 2a 및 도 2b에 도시된 바와 같이 양자화된 LSF 계수들(qLSF1 k및 qLSF2 k)은 이미 오른순으로 되어 있거나 qLSFi 1< qLSFi 2< qLSFi 3이고, 정렬 메커니즘(20)의 기능은 양자화된 LSF 계수들의 분포에 영향을 미치지 않는다. 이러한 경우, 양자화된 LSF 벡터(qLSFi)는 적합한 순서로 되어있다고 말한다. 그러나, 도 2e에 도시된 바와 같이 양자화된 LSF 벡터(qLSF3)는 순서가 맞지 않는데, 왜냐하면 qLSF3 1< qLSF3 3< qLSF3 2이기 때문이다. 배열된 이후에, 양자화된 LSF 계수들은 도 4a에 도시된 바와 같이 오름순으로 분포된다.
벡터 정렬이후에, 전체 스펙트럼 왜곡(SD3)(도 4a)은 SD1또는 SD2보다 더 작다. 따라서, 선택되는 처음 3개의 프레임들을 포함하는 제1 스플릿으로부터의 최선 부호록 인덱스는 i=3이다. 복호화된 부호록의 올바른 순서(1 3 2)도 또한 정렬에 의해 복호기에서 자동적으로 발견되고 추가 정보는 필요하지 않다.
정렬 메커니즘(20)에 의해 수행되는 정렬 기능은 다음과 같이 표현될 수 있다.
수학식 13은 추가로 수학식 14로 풀이될 수 있다.
여기서, s(k)는 모든 LSFi k가 SDi계산 전에 오름순으로 되도록, 현재 k번째 LSF 성분들에 대해 올바른 정렬을 제공하는 순열 함수이다. 본 발명에 따라, 무효한 정렬된 LSF 벡터가 될 수 있는 잔여 벡터들을 비교하는 것 대신에 양자화된 벡터가 순서대로 놓여진 이후에 스펙트럼 왜곡 값이 계산된다.
몇몇 경우들에 있어서, 오름순으로 배열되지 않은 양자화된 LSF 계수들로부터 최저 스펙트럼 왜곡(SDi)을 획득하기 위하여 선행기술 검색 방법을 사용하는 것이 가능하다는 것을 유의해야 한다. 예를 들어, 제1 및 제2 부호록 엔트리들은 도 2f 및 도 2g에 도시된 바와 같이 2개의 상이한 세트의 양자화된 LSF 계수들(qLSF1 k및 qLSF2 k)을 산출하고, 반면 제3 양자화된 LSF 계수들(qLSF3 k)은 도 2e에 도시된 것과 동일하다. 그 경우에 있어서, 비록 양자화된 LSF 계수들(qLSF3 k)이 오름순으로 되어 있지 않지만 최저 스펙트럼 왜곡은 제3 부호록 엔트리로부터 생긴다. 따라서, 최저 전체 스펙트럼 왜곡에 기초하여 선택되는 양자화된 LSF 벡터는 불안정하다. 선행기술 부호기에 있어서, 불안정한 양자화된 LSF 벡터는 부호록 선택 이후에 양자화된 LSF 계수들을 정렬함으로써 안정화될 수 있다. 이러한 특별한 경우에 있어서, 선행기술 음성 코덱 및 본 발명에 따른 음성 코덱의 결과는 동일하다.
일반적으로, 선행기술 방법에 따른 결과는 최적이지 않을 수 있는데, 왜냐하면 잘못된 순서로 되어 있는 다른 양자화된 벡터가 있을 수 있기 때문이다. 예를 들어, 도 2h에 도시된 바와 같이 제4 부호록 엔트리가 한 세트의 양자화된 LSF 계수들(qLSF4 k)을 산출하는 경우, 이 양자화된 LSF 벡터는 도 2e, 도 2f, 도 2g 및 도 2h에 도시된 바와 같은 양자화된 벡터들 중에서 가장 큰 스펙트럼 왜곡을 갖는다. 선행기술 부호록 검색 루틴들에 있어서, 최저 전체 스펙트럼 왜곡은 제3 부호록 엔트리(도 2g)로부터 생긴다.
본 발명에 따른 LSF 양자화 방법에 따라, 도 2e 및 도 2h에서의 양자화된 LSF 계수들은 정렬 메커니즘(20)에 의해 재배열된다. 도 2h에 도시된 바와 같은 양자화된 LSF 계수들(qLSF4 k)이 양자화된 LSF 계수들이 오름순이 되도록 재배열된 이후에, 그 결과는 도 4b에 도시된다. 도 2f, 도 2g 및 도 4a에 도시된 바와 같은 양자화된 LSF 벡터들에 비해, 도 4b에 도시된 바와 같은 양자화된 LSF 벡터는 최저 전체 스펙트럼 왜곡을 갖는다.
상기 예들은 선행기술 부호록 검색 루틴들에 따라 양자화 이후의 벡터 안정화(LSF 벡터를 정렬함으로써)가 스펙트럼 왜곡에 관하여 항상 최선 벡터가 되는 것은 아니라는 것을 나타내었다.
본 발명에 따른 LSF 양자화 방법에 있어서, LSF 벡터들은 전송하기 위해 선택되기 전에 순서대로 놓여진다. 이러한 방법은 항상 최선 벡터들을 발견한다. 벡터 양자화기 부호록이 하나의 스플릿에 있고 최선 벡터의 선택이 단일 스테이지에서 수행되는 경우, 발견된 벡터는 전체적인 최적(global optimum)이다. 이것은 프레임에 대한 전체적인 최소 오차 제공 인덱스(i)가 항상 발견된다는 것을 의미한다. 제한된 벡터 양자화기가 사용되는 경우, 전체적인 최적이 반드시 발견되는 것은 아니다. 그러나, 본 방법이 하나의 스플릿 또는 스테이지내에서만 사용된다 하더라도, 성능은 여전히 개선된다. 스플릿 VQ에 대해 훨씬 더 많은 전체적인 최적을 발견하기 위하여, 다음 접근이 사용될 수 있다:
1) 본 발명에 따라 미리 정렬 방법을 사용하여 제1 스플릿에 대해 최선 부호록 인덱스를 발견한다.
2) 동일한 방식으로, 별도로 제2 스플릿, 제3 스플릿 등에 대해 최선 부호록 인덱스를 발견한다.
그러나, 더 많은 최적 해결책을 발견하기 위하여, 각 스플릿에 대한최선(best) 스플릿 양자화기 인덱스만을 저장하는 것 대신에 다수의 더 좋은(better) 인덱스들이 저장될 수 있다. 그 다음, 저장된 인덱스들에 기초하여 스플릿들에 대한 모든 인덱스 조합들이 시도되고 결과적인 정렬된 양자화된 LSF 벡터(qLSF1...qLSFp)가 생성되며 SDi가 계산된다. 마지막으로, 부호록 인덱스들의 최선 조합이 선택된다.
유사한 접근이 다음과 같이 다중 스테이지 벡터 양자화기들에 대해 사용될 수 있다: 다수의 최선 제1 스테이지 양자화기들이 소위 M-최선 검색(M-best search)에서 선택되고 나중 스테이지들이 이들 위에 추가된다. 각 스테이지에서 결과적인 qLSF가 정렬되고, 요구되는 경우 SD i 가 계산된다. 다시, 부호록 인덱스들의 최선 조합이 수신기에 전송된다. 정렬이 하나 이상의 내부 스테이지들에서 사용될 수 있다. 그 경우에 있어서, 복호기는 올바르게 복호화하기 위하여 동일한 스테이지들에서 정렬을 수행해야 한다(정렬이 있는 스테이지들이 설계 단계동안 결정될 수 있다).
스플릿 벡터 양자화기에 있어서, 다음 절차가 사용될 수 있다:
1) 제1 스플릿에 대해 최적 부호록 검색을 수행한다;
2) 정상적으로 수행된 것보다 약간 더 작은 최종 계수 오차에 가중치를 준다;
3) 다음 단계에서 사용하기 위해 다수의 더 좋은 인덱스들을 기억한다;
4) 다음 스플릿으로 진행한다 - 스플릿내의 오차를 계산하는 것 대신에, 현재 벡터(물론 정렬이후) 및 제1 스플릿의 값들의 모든 조합들을 포함하는 오차를 계산한다; 및
5) 모든 스플릿들이 계산될 때까지 동일한 과정을 반복한다.
이 방법은 지금까지 최선으로 발견된 값들인 양자화된 값들의 몇몇 선택을 포함하도록 계속 시도한다. 신규 스플릿이 추가된 이후에, 결과적인 더 긴 벡터가 정렬되고 왜곡에 기초하여 이전 스플릿의 인덱스가 결정될 수 있다. 따라서 스플릿을 정렬하는 제한 효과가 다소 고려된다. 최종 계수에 대한 더 낮은 가중화의 의미는 최종 계수가 정렬이 수행된 이후에 나중 스플릿으로부터의 값으로 대체될 수 있다는 것이다.
도 5는 본 발명에 따른 음성 코덱(1)을 나타내는 블록도이다. 상기 음성 코덱(1)은 부호기(4) 및 복호기(6)를 포함한다. 상기 부호기(4)는 입력 음성 신호를 고역 통과 필터링하는 전처리 유닛(22)을 포함한다. 전처리된 입력 신호에 기초하여, 선형 예측 계수(LPC) 분석 유닛(26)이 LP 필터 계수들의 추정을 수행하는데 사용된다. LP 계수들은 LPC 양자화 유닛(28)에 의해 양자화된다. 여기 검색 유닛(30, excitation search unit)이 또한 전처리된 입력 신호에 기초하여 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 복호기(6)에 제공하는데 사용된다. 상기 전처리 유닛(22), LPC 분석 유닛(26), LPC 양자화 유닛(28) 및 여기 검색 유닛(30) 및 그들의 기능들은 공지된 기술이다. 본 발명의 부호기(4)의 고유한 기능은 정렬 메커니즘(20, sorting mechanism)이다. 상기 정렬 메커니즘(20)은 LSF 매개변수들을 복호기(6)에 전송하기 전에 스펙트럼 왜곡 추정에 사용하기 위해 양자화된 LSF계수들을 재배열하는데 사용된다. 유사하게, 복호기(6)의 LPC 양자화 유닛(40)은 정렬 메커니즘(42)을 구비하여, LPC 보간 유닛(44)에 의한 LPC 보간 이전에 수신된 LSF 계수들을 재배열한다. LPC 보간 유닛(44), 여기 생성 유닛(46), LPC 합성 유닛(48) 및 후처리 유닛(50)도 또한 공지된 기술이다.
도 6은 본 발명의 이동 전화(2)를 나타내는 도면이다. 도 6에 도시된 바와 같이, 상기 이동 전화는 입력 음성을 받아서 상기 입력 음성을 부호기(4)에 전달하는 마이크로폰(60)을 구비한다. 상기 부호기(4)는 부호 매개변수들, 이득 매개변수들, 피치 매개변수들 및 LSF 매개변수들(도 5)을 안테나(80)를 통해 전송하기 위해 비트스트림(82)으로 변환하는 수단(미도시)을 구비한다. 상기 이동 전화(2)는 양자화된 벡터들을 정렬하는 정렬 메커니즘(20)을 구비한다.
요약하면, 본 발명은 항상 안정적인 양자화된 LSF 벡터들을 제공하는 방법 및 장치를 제공한다. 본 발명에 따른 방법 및 장치는 비트 할당을 변경할 필요가 없으면서 스펙트럼 왜곡에 관하여 LSF-양자화 성능을 개선한다. 상기 방법 및 장치는 예측 및 비-예측 스플릿 (분할된) 벡터 양자화기들 및 다중 스테이지 벡터 양자화기로 확장될 수 있다. 본 발명에 따른 방법 및 장치는 고차 LPC 모델들(p>10)이 사용되는 경우 음성 부호기의 성능을 개선하는데 더 효율적인데, 왜냐하면 그 경우들에 있어서 LSF들이 서로 더 근접하고 무효한 정렬이 더 발생할 것 같기 때문이다. 그러나, 상기 방법 및 장치가 낮은 차수 LPC 모델들(p≤10)에 기초하는 음성 부호기들에서도 또한 사용될 수 있다.
LSF와 관련하여 설명된 양자화 방법/장치는 또한 LSP, ISF, ISP과 같은 선형예측 계수들의 다른 표현들 및 다른 유사한 스펙트럼 매개변수들 또는 스펙트럼 표현들에 적용가능하다는 것을 유의해야 한다.
따라서, 비록 본 발명이 본 발명의 바람직한 실시예와 관련하여 기술되었다 하더라도, 본 발명의 범위 및 정신으로부터 벗어나지 않으면서 본 발명의 형태 및 상세에서의 상기 및 다양한 다른 변경, 생략 및 변형이 수행될 수 있다는 것을 당업자는 이해할 것이다.

Claims (20)

  1. 음성 부호기에서 스펙트럼 매개변수 벡터들을 양자화하는 방법으로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터를 선택하는 방법에 있어서,
    상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하는 단계;
    상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하는 단계; 및
    상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  2. 제1항에 있어서, 상기 스펙트럼 왜곡은 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 각각 및 상기 대응하는 스펙트럼 매개변수 계수 간의 차를 나타내는 오차에 기초하여 계산되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  3. 제2항에 있어서,
    상기 스펙트럼 왜곡을 획득하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치를 주는 단계를 더 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  4. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 단일 스플릿(split)에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  5. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 복수의 스플릿들에서 수행되고 최적 부호 벡터는 각 스플릿에서의 상기 스펙트럼 왜곡에 기초하여 선택되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  6. 제1항에 있어서, 상기 스펙트럼 매개변수는 선스펙트럼 주파수를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  7. 제1항에 있어서, 상기 스펙트럼 매개변수는 선스펙트럼 쌍을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  8. 제1항에 있어서, 상기 스펙트럼 매개변수는 이미턴스(immittance) 스펙트럼 주파수를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  9. 제1항에 있어서, 상기 스펙트럼 매개변수는 이미턴스 스펙트럼 쌍을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  10. 제1항에 있어서, 상기 재배열 단계는 단일 스테이지에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  11. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들 중 하나의 스테이지에서 수행되고, 상기 하나의 스테이지는 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 하나의 스테이지에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  12. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들 중 몇몇 스테이지들에서 수행되고, 상기 몇몇 스테이지들은 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 몇몇 스테이지들에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  13. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들에서 수행되고, 상기 복수의 스테이지들은 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 복수의 스테이지들에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  14. 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 미리 선택된 벡터들에 기초하여 최적 벡터 선택을 위해 다수의 미리 선택된 벡터들에 대한 최적화 스테이지로서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
  15. 음성 부호기에서 스펙트럼 매개변수 벡터를 양자화하는 장치로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터가 선택되도록 허용하는 장치에 있어서,
    상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하여 상기 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
    상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단; 및
    상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 수단을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
  16. 제15항에 있어서, 상기 스펙트럼 왜곡은 상기 각각의 재배열된 양자화된 스펙트럼 매개변수 계수들 간의 차를 나타내는 오차에 기초하여 계산되고, 상기 스펙트럼 왜곡 획득 수단은 상기 스펙트럼 왜곡을 획득하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치를 주는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
  17. 제15항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것은 단일 스플릿에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
  18. 제15항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것은 복수의 스플릿들에서 수행되고 최적 부호 벡터는 각 스플릿에서의 스펙트럼 왜곡에 기초하여 선택되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
  19. 부호 매개변수들, 이득 매개변수들 및 피치(pitch) 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현(representation) 매개변수들을 나타내는 제2 전송 신호를 포함하는 비트스트림을 복호기에 제공하는 음성 부호기로서, 여기(excitation) 검색 모듈이 상기 부호 매개변수들, 상기 이득 매개변수들 및 상기 피치 매개변수들을 제공하는데 사용되고, 선형 예측 분석 모듈이 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록(codebook) 벡터들을 제공하는데 사용되는 음성 부호기에 있어서,
    상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들에 기초하여 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
    상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
    상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및
    상기 제3 신호들에 응답하여, 상기 스펙트럼 왜곡에 기초하는 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 하는 음성 부호기.
  20. 입력 음성을 수신하고 전처리하여 통신 네트워크에서 적어도 하나의 기지국에 비트스트림을 제공할 수 있는 이동국으로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현 매개변수들을 나타내는 제2 전송 신호를 포함하고, 여기(excitation) 검색 모듈이 상기 전처리된 입력 신호로부터 상기 제1 전송 신호를 제공하는데 사용되며, 선형 예측 모듈이 상기 전처리된 입력 신호에 기초하여 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 이동국에 있어서,
    상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
    상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
    상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 스펙트럼 왜곡을 나타내는 일련의 제3 신호들을 제공하는 수단; 및
    상기 제3 신호들에 응답하여, 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 상기 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 하는 이동국.
KR10-2003-7014370A 2001-05-16 2002-05-10 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 KR20040028750A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/859,225 2001-05-16
US09/859,225 US7003454B2 (en) 2001-05-16 2001-05-16 Method and system for line spectral frequency vector quantization in speech codec
PCT/IB2002/001608 WO2002093551A2 (en) 2001-05-16 2002-05-10 Method and system for line spectral frequency vector quantization in speech codec

Publications (1)

Publication Number Publication Date
KR20040028750A true KR20040028750A (ko) 2004-04-03

Family

ID=25330384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-7014370A KR20040028750A (ko) 2001-05-16 2002-05-10 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템

Country Status (11)

Country Link
US (1) US7003454B2 (ko)
EP (1) EP1388144B1 (ko)
JP (1) JP2004526213A (ko)
KR (1) KR20040028750A (ko)
CN (1) CN1241170C (ko)
AU (1) AU2002302874A1 (ko)
BR (1) BR0208635A (ko)
CA (1) CA2443443C (ko)
ES (1) ES2649237T3 (ko)
PT (1) PT1388144T (ko)
WO (1) WO2002093551A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020028224A (ko) * 2000-07-05 2002-04-16 요트.게.아. 롤페즈 선 스펙트럼 주파수를 선형 예측 계수로 다시 변환하는 방법
DE602004026645D1 (de) * 2004-07-23 2010-05-27 Telecom Italia Spa Verfahren zum erzeugen und verwenden eines vektorcodebuchs, verfahren und einrichtung zum komprimieren von daten und verteiltes spracherkennungssystem
US8510105B2 (en) * 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
CN100421370C (zh) * 2005-10-31 2008-09-24 连展科技(天津)有限公司 一种amr语音编码的源控制速率中降低sid帧传输速率的方法
JPWO2007114290A1 (ja) * 2006-03-31 2009-08-20 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
US8392176B2 (en) * 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US7805292B2 (en) * 2006-04-21 2010-09-28 Dilithium Holdings, Inc. Method and apparatus for audio transcoding
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
JPWO2008047795A1 (ja) * 2006-10-17 2010-02-25 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
US7813922B2 (en) * 2007-01-30 2010-10-12 Nokia Corporation Audio quantization
US20090192742A1 (en) * 2008-01-30 2009-07-30 Mensur Omerbashich Procedure for increasing spectrum accuracy
CN102089810B (zh) * 2008-07-10 2013-05-08 沃伊斯亚吉公司 多基准线性预测系数滤波器量化和逆量化设备及方法
KR101236054B1 (ko) * 2008-07-17 2013-02-21 노키아 코포레이션 벡터 양자화기를 위한 고속 최근접 이웃 탐색용 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN101630510B (zh) * 2008-07-18 2012-03-28 上海摩波彼克半导体有限公司 Amr语音编码中lsp系数量化的快速码本搜索的方法
RU2519027C2 (ru) * 2009-02-13 2014-06-10 Панасоник Корпорэйшн Устройство векторного квантования, устройство векторного обратного квантования и способы для этого
KR101789632B1 (ko) 2009-12-10 2017-10-25 엘지전자 주식회사 음성 신호 부호화 방법 및 장치
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法***及瞬态信号可分层编解码方法
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
PL3193332T3 (pl) * 2012-07-12 2020-12-14 Nokia Technologies Oy Kwantyzacja wektorowa
CN102867516B (zh) * 2012-09-10 2014-08-27 大连理工大学 一种采用高阶线性预测系数分组矢量量化的语音编解方法
CN102903365B (zh) * 2012-10-30 2014-05-14 山东省计算中心 一种在解码端细化窄带声码器参数的方法
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
RU2665287C2 (ru) * 2013-12-17 2018-08-28 Нокиа Текнолоджиз Ой Кодер звукового сигнала
CN111105807B (zh) * 2014-01-15 2023-09-15 三星电子株式会社 对线性预测编码系数进行量化的加权函数确定装置和方法
EP3136387B1 (en) * 2014-04-24 2018-12-12 Nippon Telegraph and Telephone Corporation Frequency domain parameter sequence generating method, encoding method, decoding method, frequency domain parameter sequence generating apparatus, encoding apparatus, decoding apparatus, program, and recording medium
CN104269176B (zh) * 2014-09-30 2017-11-24 武汉大学深圳研究院 一种isf系数矢量量化的方法与装置
EP3429230A1 (en) * 2017-07-13 2019-01-16 GN Hearing A/S Hearing device and method with non-intrusive speech intelligibility prediction
CN115831130A (zh) * 2018-06-29 2023-03-21 华为技术有限公司 立体声信号的编码方法、解码方法、编码装置和解码装置
CN110660400B (zh) * 2018-06-29 2022-07-12 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651026A (en) * 1992-06-01 1997-07-22 Hughes Electronics Robust vector quantization of line spectral frequencies
DE4236315C1 (de) * 1992-10-28 1994-02-10 Ant Nachrichtentech Verfahren zur Sprachcodierung
WO1994023426A1 (en) * 1993-03-26 1994-10-13 Motorola Inc. Vector quantizer method and apparatus
US5704001A (en) * 1994-08-04 1997-12-30 Qualcomm Incorporated Sensitivity weighted vector quantization of line spectral pair frequencies
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5754733A (en) * 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
KR100322706B1 (ko) * 1995-09-25 2002-06-20 윤종용 선형예측부호화계수의부호화및복호화방법
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
US6141640A (en) * 1998-02-20 2000-10-31 General Electric Company Multistage positive product vector quantization for line spectral frequencies in low rate speech coding
US6148283A (en) * 1998-09-23 2000-11-14 Qualcomm Inc. Method and apparatus using multi-path multi-stage vector quantizer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치

Also Published As

Publication number Publication date
EP1388144B1 (en) 2017-10-18
US7003454B2 (en) 2006-02-21
CA2443443A1 (en) 2002-11-21
US20030014249A1 (en) 2003-01-16
PT1388144T (pt) 2017-12-01
CN1241170C (zh) 2006-02-08
BR0208635A (pt) 2004-03-30
WO2002093551A2 (en) 2002-11-21
CA2443443C (en) 2012-10-02
EP1388144A2 (en) 2004-02-11
EP1388144A4 (en) 2007-08-08
ES2649237T3 (es) 2018-01-11
AU2002302874A1 (en) 2002-11-25
WO2002093551A3 (en) 2003-05-01
JP2004526213A (ja) 2004-08-26
CN1509469A (zh) 2004-06-30

Similar Documents

Publication Publication Date Title
CA2443443C (en) Method and system for line spectral frequency vector quantization in speech codec
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
US5819213A (en) Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
EP2313887B1 (en) Variable bit rate lpc filter quantizing and inverse quantizing device and method
KR20070038041A (ko) 전기 통신을 위한 멀티-레이트 음성 부호화기에 있어서음성 트랜스-레이팅을 위한 방법 및 장치
JPH08263099A (ja) 符号化装置
KR20060131782A (ko) 최적의 다중 부호화 방법
US5884251A (en) Voice coding and decoding method and device therefor
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
EP2557566B1 (en) Method and apparatus for processing an audio signal
US20060080090A1 (en) Reusing codebooks in parameter quantization
EP0755047B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
EP1334485B1 (en) Speech codec and method for generating a vector codebook and encoding/decoding speech signals
JP3350340B2 (ja) 音声符号化方法および音声復号化方法
JPH09127997A (ja) 音声符号化方法及び装置
JPH08254999A (ja) ゲイン量子化装置および音声符号化/復号化装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid