KR20040028750A - 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 - Google Patents
음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 Download PDFInfo
- Publication number
- KR20040028750A KR20040028750A KR10-2003-7014370A KR20037014370A KR20040028750A KR 20040028750 A KR20040028750 A KR 20040028750A KR 20037014370 A KR20037014370 A KR 20037014370A KR 20040028750 A KR20040028750 A KR 20040028750A
- Authority
- KR
- South Korea
- Prior art keywords
- spectral
- coefficients
- quantized
- distortion
- vectors
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 195
- 239000013598 vector Substances 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013139 quantization Methods 0.000 title claims description 35
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 15
- 230000005284 excitation Effects 0.000 claims description 8
- 230000008707 rearrangement Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 9
- 230000001174 ascending effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
LSF 계수들 및 잔여 부호록(codebook) 벡터들과 함께, 이전에 복호화된 출력 값들에 기초하는 예측된 LSF 값들이 스펙트럼 왜곡을 추정하는데 사용되는 음성 부호기에서 LSF 벡터들을 양자화하는 방법 및 시스템이 제공된다. 상기 방법은 상기 대응하는 예측된 LSF 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 LSF 계수들을 획득하는 단계; 주파수 영역에서의 양자화된 LSF 계수들을 순서대로 재배열하는 단계; 상기 재배열된 양자화된 LSF 계수들 및 상기 대응하는 LSF 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계; 및 최적 부호 벡터가 스펙트럼 왜곡에 기초하여 선택되는 단계를 포함한다.
Description
음성 및 오디오 부호화 알고리즘들은 통신, 멀티미디어 및 저장 시스템에서 매우 다양한 응용을 갖는다. 부호화 알고리즘들의 개발은 고품질의 동기화된 신호를 유지하면서 전송 및 저장 능력을 절약할 필요성에 의해 유도된다. 부호기의 복잡함은 응용 플랫폼의 처리 능력에 의해 제한된다. 몇몇 응용들, 예를 들어 음성 저장에 있어서, 부호기는 매우 복잡할 수 있지만 복호기는 가능한 한 간단해야 한다.
전형적인 음성 부호기에 있어서, 입력 음성 신호는 프레임들로 지칭되는 세그먼트들에서 처리된다. 보통 프레임 길이는 10-30ms이고, 다음 프레임의 5-15ms의 미리보기(look-ahead) 세그먼트가 또한 이용가능하다. 프레임은 다수의 서브 프레임들로 더 분할될 수 있다. 모든 프레임에 대해, 부호기는 입력 신호의 매개변수 표현을 결정한다. 매개변수들은 양자화되고 통신 채널을 통해 전송되거나 디지털 형태로 저장 매체에 저장된다. 수신단에서, 복호기는 수신된 매개변수들에 기초하여 동기화된 신호를 구성한다.
대부분의 현재 음성 부호기들은 여기(excitation) 신호가 생성되는 선형 예측(LP; linear prediction) 필터를 포함한다. 상기 LP 필터는 전형적으로 수학식 1에 의해 주어지는 바와 같은 올-폴(all-pole) 구조를 갖는다.
여기서, A(z)는 양자화되지 않은 LP 계수들(a1, a2, ..., ap)을 갖는 역필터이고, p는 보통 8-12인 예측기 차수이다.
입력 음성 신호는 프레임들에서 처리된다. 각 음성 프레임에 있어서, 부호기는 예를 들어 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여 LP 계수들을 결정한다. ("AMR Speech Codec; Transcoding function" 3G TS 26.090 v3.1.0(1999-12) 참조). 결과적인 안정 필터가 순서 벡터(order vector)에 의해 표현되는 선스펙트럼 주파수(LSF; Line Spectral Frequency) 표현 또는 선스펙트럼 쌍(LSP; Line Spectral Pair), 이미턴스 스펙트럼 주파수(ISF; Immittance Spectral Frequency) 및 이미턴스 스펙트럼 쌍(ISP; Immittance Spectral Pair)과 같은 다른 유사한 표현들이 계수들의 양자화를 위해 사용되는데, 왜냐하면 그들이 좋은 양자화 특성들을 갖기 때문이다. 중간 서브 프레임들에 있어서, 계수들은 LSF 표현을 사용하여 선형으로 보간된다.
LSF들을 정의하기 위하여, 역 LP 필터(A(z)) 다항식이 2개의 다항식을 구성하는데 사용된다.
다항식들(P(z) 및 Q(z))의 루트(root)들은 LSF 계수들로 지칭된다. 이들 다항식들의 모든 루트들은 i=1, 2, ..., p를 갖는 단위원상에 있다. 다항식들(P(z) 및 Q(z))은 다음 특성들을 갖는다: 1) 다항식들의 모든 제로들(루트들)은 단위원상에 있다. 2) P(z) 및 Q(z)의 제로들은 서로 보간된다. 보다 상세하게는, 다음 관계가 항상 충족된다:
이러한 오름순은 종종 음성 부호화 응용들에서 요구되는 필터 안정성을 보장한다. 제1 및 최종 매개변수들은 각각 항상 0 및 π이고, p값들만이 전송되어야 하는 것을 유의한다.
음성 부호기들에서 LSF 정보를 저장하기 위해 효율적인 표현이 필요한 경우,LSF들은 종종 예측과 함께 벡터 양자화(VQ; Vector Quantization)를 이용하여 양자화된다(도 1 참조). 보통, 예측된 값들은 이전에 복호화된 출력 값들(자동 회귀(AR; auto-regressive)-예측기) 또는 이전에 양자화된 값들(이동 평균(MA; moving average)-예측기)에 기초하여 추정된다.
여기서 Aj및 Bi는 예측기 매트릭스들이고, m 및 n은 예측기들의 차수들이다. pLSFk, qLSFk및 CBk는 각각 프레임(k)에 대한 예측된 LSF, 양자화된 LSF 및 부호록(codebook) 벡터이다. mLSF는 평균 LSF 벡터이다.
예측된 값이 계산된 이후에, 양자화된 LSF 값이 획득될 수 있다:
여기서, CBk는 프레임(k)에 대한 최적 부호록 엔트리이다.
실제로, 예측 양자화 또는 제약된 VQ를 사용하는 경우, 결과적인 qLSFk의 안정성은 LP 계수들로 변환되기 전에 검사되어야 한다. 직접 VQ(비-예측, 단일 스테이지, 비분할)의 경우에 있어서만, 부호록이 결과적인 양자화된 벡터가 항상 순서에 맞도록 설계될 수 있다.
선행기술 해결책들에 있어서, 양자화 및 부호록 선택 이후에 LSF 벡터를 정렬함으로써 필터 안정성이 보장된다.
최선의 부호록 벡터에 대해 검색하는 경우, 종종 모든 벡터들이 시도되고(전체 검색), 모든 경우에 대해 몇몇 지각에 중요한 우량 측정이 계산된다. 보통 사용되는 검색 절차의 블록도가 도 1a에 도시된다.
최적으로, 선택은 수학식 7과 같은 스펙트럼 왜곡(SDi)에 기초한다.
여기서,및는 각각 양자화를 갖는 그리고 갖지 않는 음성 프레임의 스펙트럼이다. 이것은 계산이 매우 복잡하므로, 더 간단한 방법들이 대신 사용된다.
보통 사용되는 방법은 가중치(Wk)를 가지고 LSF 오차(rLSFi k)에 가중치를 주는 것이다. 예를 들어, 다음의 가중화가 사용된다. ("AMR Speech Codec; Transcoding function" 3G TS 26.090 v3.1.0(1999-12) 참조).
그 외.
여기서, LSF0= 0 Hz 및 LSF11= 4000 Hz를 갖는 dk= LSFk+1- LSFk-1이다.
기본적으로, 이러한 왜곡 측정은 LSF 주파수들간의 거리에 의존한다. LSF들이 서로 더 근접할수록, 그들은 더 큰 가중치를 갖는다. 지각적으로, 이것은 포르만트(formant) 영역들이 더 정밀하게 양자화된다는 것을 의미한다.
왜곡값에 기초하여, 최저값을 제공하는 부호록 벡터가 최선 부호록 인덱스로서 선택된다. 보통, 그 기준은 수학식 9이다.
도 1a에서 볼 수 있는 바와 같이, 타깃 LSF 계수들(LSFk) 및 대응하는 예측된 LSF 계수들(pLSFk) 간의 차는 우선 가산기(12)에서 결정되고, 그 차는 다른 가산기(14)에서 제j 부호록 엔트리의 대응하는 잔여 부호록 벡터(CBj 1k)에 의해 추가로 조정된다. 수학식 9는 수학식 10으로 될 수 있다.
추가로 수학식 11로 될 수 있다.
수학식 10 및 수학식 11에 표시된 바와 같은 축소 단계들은 도 1b에 도시된 바와 같이 부호기에서 더 쉽게 가시화될 수 있다. 도 1b에 도시된 바와 같이, 가산기(16)는 양자화된 LSF 계수들을 계산하는데 사용된다. 그 다음, LSF 오차는 가산기(18)에 의해 양자화된 LSF 계수들 및 타깃 LSF 계수들로부터 계산된다.
양자화된 LSF 계수들(qLSF i k)이 k에 관하여 오름순이 아닌 경우 선행기술 해결책이 반드시 최적 부호록 인덱스를 발견하는 것은 아니다. 도 2a 내지 도 2e는 이러한 문제를 도시한다. 간략화를 위해, 처음 3개의 LSF 계수들만이 도시된다(k=1,2,3). 그러나, 이러한 간략화된 예시는 스플릿 VQ의 경우에서의 보다 일반적인 제1 스플릿을 적절하게 나타낸다. 타깃 LSF 벡터는 LSF1...LSF3로 표시되고, 이전 프레임들의 LSF에 기초하는 예측된 값들도 또한 표시된다(pLSF1...pLSF3). 도 2a에 도시된 바와 같이, 몇몇 예측된 값들은 각각의 타깃 벡터들보다 더 크고, 몇몇은 더 작다. 벡터 양자화기 잔여 부호록에서의 제1 부호록 엔트리는 도 2b에 도시된 바와 같은 부호록 벡터들과 같을 수 있다. qLSF1 1-3= pLSF1-3+ CB1 1-3을 가지고, 양자화된 LSF 계수들이 계산되고 도 2c에 도시된다. 간략화를 위해, 가중치가 사용되기 않거나, Wk=1이고, 스펙트럼 왜곡은 타깃 및 양자화 값(양자화된 LSF 계수)간의 제곱되거나 절대의 거리에 정비례한다. 타깃 및 양자화 값간의 거리는 rLSFi k이다. 따라서 제1 스플릿에 대한 전체 왜곡은 수학식 12이다.
제2 부호록 엔트리(미도시)는 도 2d에 도시된 바와 같이 양자화된 LSF 벡터(qLSF 2 1-3) 및 스펙트럼 왜곡(SD2 1-3)을 산출할 수 있다. 도 2d가 도 2c에 비교되는 경우, 결과적인 qLSF 벡터들은 아주 상이하지만, 전체 왜곡들은 거의 동일하거나 (SD1 SD2)이다. 처음 2개의 부호록 엔트리들에 있어서, 결과적인 양자화된 LSF 벡터들은 순서대로 되어 있다.
선행기술 양자화 방법과 관련된 문제를 나타내기 위하여, 제3 부호록 엔트리(미도시)로부터 생성되는 양자화된 LSF 계수들(qLSF3 1-3) 및 대응하는 스펙트럼 왜곡들(SD3 1-3)이 도 2e에 도시된 바와 같이 분포된다. 도 2e에 도시된 바와 같이 스펙트럼 왜곡에 따른 전체 왜곡()은 매우 큰 값이다. 이것은 선행기술 방법에 따라 제1 스플릿으로부터의 최선 부호록 인덱스가 SD1및 SD2보다 더 작다는 것을 의미한다. 그러나, 이렇게 선택된 "최선"부호록 인덱스는 도 4a에 도시되는 바와 같이 최적 부호 벡터를 산출하지 못한다. 이것은 결과적인 양자화된 LSF 벡터들이 제3 부호록 엔트리에 관하여 순서대로가 아니기 때문이다.
일반적으로, 음성 부호기들은 상기 음성 부호기에 사용되는 선형 예측(LP) 필터가 안정적일 것을 요구한다. 도 1a에 도시된 것과 같이 선행기술 부호록 검색 루틴은 결과적인 양자화된 LSF 벡터들이 순서가 맞지 않고 불안정하게 될 수 있다. 선행기술에 있어서, 벡터의 안정화는 양자화 이후에 LSF 벡터들을 정렬함으로써 달성된다. 그러나, 획득된 부호 벡터는 최적이 아닐 수 있다.
선형 예측 계수들을 나타내는 선스펙트럼 쌍(LSP) 벡터들, 이미턴스 스펙트럼 주파수(ISF) 벡터들 및 이미턴스 스펙트럼 쌍(ISP) 벡터들과 같은 스펙트럼 (쌍) 매개변수 벡터들이 또한 안정되도록 정돈되어야 한다는 것을 유의해야 한다.
획득된 부호 벡터가 최적인 스펙트럼 매개변수(또는 표현) 양자화 방법 및 시스템을 제공하는 것이 유리하고 바람직하다.
본 발명은 일반적으로 음성 및 오디오 신호들의 부호화에 관한 것으로, 특히 선스펙트럼 주파수 영역에서의 선형 예측 계수들의 양자화에 관한 것이다.
도 1a는 종래기술 LSF 양자화 시스템을 나타내는 블록도이다.
도 1b는 상이한 시스템 성분 배열을 갖는 종래기술 LSF 양자화 시스템을 나타내는 블록도이다.
도 2a는 주파수 영역에서 타깃 LSF 벡터 및 예측된 LSF 값들의 분포를 나타내는 도면이다.
도 2b는 벡터 양자화기 잔여 부호록에서의 제1 부호록 엔트리를 나타내는 도면이다.
도 2c는 타깃 LSF 벡터에 비교되는 양자화된 LSF 계수들 및 제1 부호록 엔트리를 갖는 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2d는 제2 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2e는 제3 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2f는 제4 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2g는 도 2c에 도시된 것과는 상이한 제1 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 2h는 도 2d에 도시된 것과는 상이한 제2 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 3은 본 발명에 따른 LSF 양자화 시스템을 나타내는 블록도이다.
도 4a는 본 발명에 따른 LSF 양자화 시스템에 의해 재배열된 후에 도 2e에 도시된 바와 같은 제3 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 4b는 본 발명에 따른 LSF 양자화 시스템에 의해 재배열된 후에 도 2f에 도시된 바와 같은 제4 부호록 엔트리를 갖는 양자화된 LSF 계수들 및 결과적인 스펙트럼 왜곡을 나타내는 도면이다.
도 5는 본 발명에 따른 음성 부호화를 위한 부호기 및 복호기를 포함하는 음성 코덱을 나타내는 블록도이다.
도 6은 본 발명에 따라 이동 통신 네트워크에서 사용하기 위한 이동국을 나타내는 도면이다.
본 발명의 주요 목적은 원래의 비트 할당을 유지하면서 스펙트럼 왜곡에 관하여 스펙트럼 매개변수 양자화 성능을 개선하기 위한 최적화된 부호 벡터가 선택되는 스펙트럼 매개변수 양자화 방법 및 장치를 제공하는 것이다. 이러한 목적은 부호 벡터가 스펙트럼 왜곡에 기초하여 선택되기 전에 양자화된 스펙트럼 매개변수 벡터들을 주파수 영역에서 순서대로 재배열함으로써 달성될 수 있다.
따라서, 본 발명의 제1 태양에 따라, 음성 부호기에서 스펙트럼 매개변수 벡터들을 양자화하는 방법으로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되며, 최적 부호 벡터가 상기 스펙트럼 왜곡에 기초하여 선택되는 방법이 제공된다. 상기 방법은
상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하는 단계;
상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하는 단계; 및
상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 선스펙트럼 주파수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계를 포함하는 것을 특징으로 한다.
바람직하기로는, 상기 스펙트럼 왜곡은 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 각각 및 상기 대응하는 스펙트럼 매개변수 계수 간의 차를 나타내는 오차에 기초하여 계산된다. 상기 스펙트럼 왜곡을 계산하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치가 주어진다.
본 발명에 따른 방법은 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 단일 스플릿(split)에서 수행되는 경우에 적용가능하다.
본 발명에 따른 방법은 또한 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 복수의 스플릿들에서 수행되는 경우에 적용가능하다. 그 경우에 있어서, 최적 부호 벡터는 각 스플릿에서의 상기 스펙트럼 왜곡에 기초하여 선택된다.
본 발명에 따른 방법은 또한 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 다중스테이지 양자화의 경우에 하나 이상의 스테이지들에서 수행되는 경우에 적용가능하다. 그 경우에 있어서, 최적 부호 벡터는 각 스테이지에서의 스펙트럼 왜곡에 기초하여 선택된다. 각 스테이지는 정렬될 수 있거나 정렬되지 않을 수 있다. 어느 스테이지들이 정렬되고 어느 스테이지들이 정렬되지 않는지에 대한 선택이 미리 결정되는 것이 바람직하다. 그렇지 않으면 정렬 정보가 부가적인 정보로서 수신기에 전송되어야 한다.
본 발명에 따른 방법은 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 다수의 미리 선택된 벡터들에 대한 최적화 스테이지로서 수행되는 경우에 적용가능하다. 제의(proponent) 벡터들이 정렬되고 최종 인덱스 선택은 상기 개시된 방법을 이용하여 미리 선택된 세트의 벡터들로부터 수행된다.
본 발명에 따른 방법은 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것이 최적화 단계로서 수행되고 (스테이지들 또는 스플릿들에 대한) 부호록에 대한 초기 인덱스들이 재배열되지 않고 선택되며 최종 선택은 개시된 정렬 방법을 가지고 최선으로 미리 선택된 벡터들의 선택에만 기초하여 수행되는 경우에 적용가능하다.
상기 스펙트럼 매개변수는 선스펙트럼 주파수, 선스펙트럼 쌍, 이미턴스 스펙트럼 주파수, 이미턴스 스펙트럼 쌍, 및 그와 같은 종류의 다른 것일 수 있다.
본 발명의 제2 태양에 따라, 음성 부호기에서 스펙트럼 매개변수 벡터를 양자화하는 장치로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터가 선택되도록 허용하는 장치가 제공된다. 상기 장치는
상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하여 상기 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단; 및
상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 수단을 포함하는 것을 특징으로 한다.
상기 스펙트럼 매개변수는 선스펙트럼 주파수, 선스펙트럼 쌍, 이미턴스 스펙트럼 주파수, 이미턴스 스펙트럼 쌍, 및 그와 같은 종류의 다른 것일 수 있다.
본 발명의 제3 태양에 따라, 비트스트림을 복호기에 제공하는 음성 부호기로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치(pitch) 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현(representation) 매개변수들을 나타내는 제2 전송 신호를 포함하며, 여기(excitation) 검색 모듈이 상기 부호 매개변수들, 상기 이득 매개변수들 및 상기 피치 매개변수들을 제공하는데 사용되고, 선형 예측 분석 모듈이 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 음성 부호기가 제공된다. 상기 음성 부호기는
상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들에 기초하여 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및
상기 제3 신호들에 응답하여, 상기 스펙트럼 왜곡에 기초하는 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 한다.
본 발명의 제4 태양에 따라, 입력 음성을 수신하고 전처리하여 통신 네트워크에서 적어도 하나의 기지국에 비트스트림을 제공할 수 있는 이동국으로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현 매개변수들을 나타내는 제2 전송 신호를 포함하고, 여기(excitation) 검색 모듈이 상기 전처리된 입력 신호로부터 상기 제1 전송 신호를 제공하는데 사용되며, 선형 예측 모듈이 상기 전처리된 입력 신호에 기초하여 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 이동국이 제공된다. 상기 이동국은
상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;
상기 일련의 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;
상기 일련의 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및
상기 스펙트럼 왜곡으로부터 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 한다.
본 발명은 도 3 내지 도 6과 관련된 설명을 읽는 경우 명백하게 될 것이다.
스펙트럼 (쌍) 매개변수 벡터는 안정된 스펙트럼 (쌍) 벡터가 항상 순서가 맞도록 선형 예측 계수들을 나타내는 벡터이다. 이러한 표현들은 선스펙트럼 주파수(LSF), 선스펙트럼 쌍(LSP), 이미턴스 스펙트럼 주파수(ISF), 이미턴스 스펙트럼 쌍(ISP) 및 그와 같은 종류의 다른 것을 포함한다. 간략화를 위해, 본 발명은 LSF 표현에 의해 설명된다.
본 발명에 따른 LSF 양자화 시스템(40)은 도 3에 도시된다. 도 1a에 도시된시스템 성분들에 추가하여 가산기(16) 및 가산기(18) 사이에 정렬 메커니즘(20)이 구현되어 있다. 상기 정렬 메커니즘(20)은 양자화된 LSF 계수들(qLSFi k)을 재배열하는데 사용되어 상기 양자화 LSF 계수들이 주파수에 관하여 오름순으로 분포된다. 예를 들어, 도 2a 및 도 2b에 도시된 바와 같이 양자화된 LSF 계수들(qLSF1 k및 qLSF2 k)은 이미 오른순으로 되어 있거나 qLSFi 1< qLSFi 2< qLSFi 3이고, 정렬 메커니즘(20)의 기능은 양자화된 LSF 계수들의 분포에 영향을 미치지 않는다. 이러한 경우, 양자화된 LSF 벡터(qLSFi)는 적합한 순서로 되어있다고 말한다. 그러나, 도 2e에 도시된 바와 같이 양자화된 LSF 벡터(qLSF3)는 순서가 맞지 않는데, 왜냐하면 qLSF3 1< qLSF3 3< qLSF3 2이기 때문이다. 배열된 이후에, 양자화된 LSF 계수들은 도 4a에 도시된 바와 같이 오름순으로 분포된다.
벡터 정렬이후에, 전체 스펙트럼 왜곡(SD3)(도 4a)은 SD1또는 SD2보다 더 작다. 따라서, 선택되는 처음 3개의 프레임들을 포함하는 제1 스플릿으로부터의 최선 부호록 인덱스는 i=3이다. 복호화된 부호록의 올바른 순서(1 3 2)도 또한 정렬에 의해 복호기에서 자동적으로 발견되고 추가 정보는 필요하지 않다.
정렬 메커니즘(20)에 의해 수행되는 정렬 기능은 다음과 같이 표현될 수 있다.
수학식 13은 추가로 수학식 14로 풀이될 수 있다.
여기서, s(k)는 모든 LSFi k가 SDi계산 전에 오름순으로 되도록, 현재 k번째 LSF 성분들에 대해 올바른 정렬을 제공하는 순열 함수이다. 본 발명에 따라, 무효한 정렬된 LSF 벡터가 될 수 있는 잔여 벡터들을 비교하는 것 대신에 양자화된 벡터가 순서대로 놓여진 이후에 스펙트럼 왜곡 값이 계산된다.
몇몇 경우들에 있어서, 오름순으로 배열되지 않은 양자화된 LSF 계수들로부터 최저 스펙트럼 왜곡(SDi)을 획득하기 위하여 선행기술 검색 방법을 사용하는 것이 가능하다는 것을 유의해야 한다. 예를 들어, 제1 및 제2 부호록 엔트리들은 도 2f 및 도 2g에 도시된 바와 같이 2개의 상이한 세트의 양자화된 LSF 계수들(qLSF1 k및 qLSF2 k)을 산출하고, 반면 제3 양자화된 LSF 계수들(qLSF3 k)은 도 2e에 도시된 것과 동일하다. 그 경우에 있어서, 비록 양자화된 LSF 계수들(qLSF3 k)이 오름순으로 되어 있지 않지만 최저 스펙트럼 왜곡은 제3 부호록 엔트리로부터 생긴다. 따라서, 최저 전체 스펙트럼 왜곡에 기초하여 선택되는 양자화된 LSF 벡터는 불안정하다. 선행기술 부호기에 있어서, 불안정한 양자화된 LSF 벡터는 부호록 선택 이후에 양자화된 LSF 계수들을 정렬함으로써 안정화될 수 있다. 이러한 특별한 경우에 있어서, 선행기술 음성 코덱 및 본 발명에 따른 음성 코덱의 결과는 동일하다.
일반적으로, 선행기술 방법에 따른 결과는 최적이지 않을 수 있는데, 왜냐하면 잘못된 순서로 되어 있는 다른 양자화된 벡터가 있을 수 있기 때문이다. 예를 들어, 도 2h에 도시된 바와 같이 제4 부호록 엔트리가 한 세트의 양자화된 LSF 계수들(qLSF4 k)을 산출하는 경우, 이 양자화된 LSF 벡터는 도 2e, 도 2f, 도 2g 및 도 2h에 도시된 바와 같은 양자화된 벡터들 중에서 가장 큰 스펙트럼 왜곡을 갖는다. 선행기술 부호록 검색 루틴들에 있어서, 최저 전체 스펙트럼 왜곡은 제3 부호록 엔트리(도 2g)로부터 생긴다.
본 발명에 따른 LSF 양자화 방법에 따라, 도 2e 및 도 2h에서의 양자화된 LSF 계수들은 정렬 메커니즘(20)에 의해 재배열된다. 도 2h에 도시된 바와 같은 양자화된 LSF 계수들(qLSF4 k)이 양자화된 LSF 계수들이 오름순이 되도록 재배열된 이후에, 그 결과는 도 4b에 도시된다. 도 2f, 도 2g 및 도 4a에 도시된 바와 같은 양자화된 LSF 벡터들에 비해, 도 4b에 도시된 바와 같은 양자화된 LSF 벡터는 최저 전체 스펙트럼 왜곡을 갖는다.
상기 예들은 선행기술 부호록 검색 루틴들에 따라 양자화 이후의 벡터 안정화(LSF 벡터를 정렬함으로써)가 스펙트럼 왜곡에 관하여 항상 최선 벡터가 되는 것은 아니라는 것을 나타내었다.
본 발명에 따른 LSF 양자화 방법에 있어서, LSF 벡터들은 전송하기 위해 선택되기 전에 순서대로 놓여진다. 이러한 방법은 항상 최선 벡터들을 발견한다. 벡터 양자화기 부호록이 하나의 스플릿에 있고 최선 벡터의 선택이 단일 스테이지에서 수행되는 경우, 발견된 벡터는 전체적인 최적(global optimum)이다. 이것은 프레임에 대한 전체적인 최소 오차 제공 인덱스(i)가 항상 발견된다는 것을 의미한다. 제한된 벡터 양자화기가 사용되는 경우, 전체적인 최적이 반드시 발견되는 것은 아니다. 그러나, 본 방법이 하나의 스플릿 또는 스테이지내에서만 사용된다 하더라도, 성능은 여전히 개선된다. 스플릿 VQ에 대해 훨씬 더 많은 전체적인 최적을 발견하기 위하여, 다음 접근이 사용될 수 있다:
1) 본 발명에 따라 미리 정렬 방법을 사용하여 제1 스플릿에 대해 최선 부호록 인덱스를 발견한다.
2) 동일한 방식으로, 별도로 제2 스플릿, 제3 스플릿 등에 대해 최선 부호록 인덱스를 발견한다.
그러나, 더 많은 최적 해결책을 발견하기 위하여, 각 스플릿에 대한최선(best) 스플릿 양자화기 인덱스만을 저장하는 것 대신에 다수의 더 좋은(better) 인덱스들이 저장될 수 있다. 그 다음, 저장된 인덱스들에 기초하여 스플릿들에 대한 모든 인덱스 조합들이 시도되고 결과적인 정렬된 양자화된 LSF 벡터(qLSF1...qLSFp)가 생성되며 SDi가 계산된다. 마지막으로, 부호록 인덱스들의 최선 조합이 선택된다.
유사한 접근이 다음과 같이 다중 스테이지 벡터 양자화기들에 대해 사용될 수 있다: 다수의 최선 제1 스테이지 양자화기들이 소위 M-최선 검색(M-best search)에서 선택되고 나중 스테이지들이 이들 위에 추가된다. 각 스테이지에서 결과적인 qLSF가 정렬되고, 요구되는 경우 SD i 가 계산된다. 다시, 부호록 인덱스들의 최선 조합이 수신기에 전송된다. 정렬이 하나 이상의 내부 스테이지들에서 사용될 수 있다. 그 경우에 있어서, 복호기는 올바르게 복호화하기 위하여 동일한 스테이지들에서 정렬을 수행해야 한다(정렬이 있는 스테이지들이 설계 단계동안 결정될 수 있다).
스플릿 벡터 양자화기에 있어서, 다음 절차가 사용될 수 있다:
1) 제1 스플릿에 대해 최적 부호록 검색을 수행한다;
2) 정상적으로 수행된 것보다 약간 더 작은 최종 계수 오차에 가중치를 준다;
3) 다음 단계에서 사용하기 위해 다수의 더 좋은 인덱스들을 기억한다;
4) 다음 스플릿으로 진행한다 - 스플릿내의 오차를 계산하는 것 대신에, 현재 벡터(물론 정렬이후) 및 제1 스플릿의 값들의 모든 조합들을 포함하는 오차를 계산한다; 및
5) 모든 스플릿들이 계산될 때까지 동일한 과정을 반복한다.
이 방법은 지금까지 최선으로 발견된 값들인 양자화된 값들의 몇몇 선택을 포함하도록 계속 시도한다. 신규 스플릿이 추가된 이후에, 결과적인 더 긴 벡터가 정렬되고 왜곡에 기초하여 이전 스플릿의 인덱스가 결정될 수 있다. 따라서 스플릿을 정렬하는 제한 효과가 다소 고려된다. 최종 계수에 대한 더 낮은 가중화의 의미는 최종 계수가 정렬이 수행된 이후에 나중 스플릿으로부터의 값으로 대체될 수 있다는 것이다.
도 5는 본 발명에 따른 음성 코덱(1)을 나타내는 블록도이다. 상기 음성 코덱(1)은 부호기(4) 및 복호기(6)를 포함한다. 상기 부호기(4)는 입력 음성 신호를 고역 통과 필터링하는 전처리 유닛(22)을 포함한다. 전처리된 입력 신호에 기초하여, 선형 예측 계수(LPC) 분석 유닛(26)이 LP 필터 계수들의 추정을 수행하는데 사용된다. LP 계수들은 LPC 양자화 유닛(28)에 의해 양자화된다. 여기 검색 유닛(30, excitation search unit)이 또한 전처리된 입력 신호에 기초하여 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 복호기(6)에 제공하는데 사용된다. 상기 전처리 유닛(22), LPC 분석 유닛(26), LPC 양자화 유닛(28) 및 여기 검색 유닛(30) 및 그들의 기능들은 공지된 기술이다. 본 발명의 부호기(4)의 고유한 기능은 정렬 메커니즘(20, sorting mechanism)이다. 상기 정렬 메커니즘(20)은 LSF 매개변수들을 복호기(6)에 전송하기 전에 스펙트럼 왜곡 추정에 사용하기 위해 양자화된 LSF계수들을 재배열하는데 사용된다. 유사하게, 복호기(6)의 LPC 양자화 유닛(40)은 정렬 메커니즘(42)을 구비하여, LPC 보간 유닛(44)에 의한 LPC 보간 이전에 수신된 LSF 계수들을 재배열한다. LPC 보간 유닛(44), 여기 생성 유닛(46), LPC 합성 유닛(48) 및 후처리 유닛(50)도 또한 공지된 기술이다.
도 6은 본 발명의 이동 전화(2)를 나타내는 도면이다. 도 6에 도시된 바와 같이, 상기 이동 전화는 입력 음성을 받아서 상기 입력 음성을 부호기(4)에 전달하는 마이크로폰(60)을 구비한다. 상기 부호기(4)는 부호 매개변수들, 이득 매개변수들, 피치 매개변수들 및 LSF 매개변수들(도 5)을 안테나(80)를 통해 전송하기 위해 비트스트림(82)으로 변환하는 수단(미도시)을 구비한다. 상기 이동 전화(2)는 양자화된 벡터들을 정렬하는 정렬 메커니즘(20)을 구비한다.
요약하면, 본 발명은 항상 안정적인 양자화된 LSF 벡터들을 제공하는 방법 및 장치를 제공한다. 본 발명에 따른 방법 및 장치는 비트 할당을 변경할 필요가 없으면서 스펙트럼 왜곡에 관하여 LSF-양자화 성능을 개선한다. 상기 방법 및 장치는 예측 및 비-예측 스플릿 (분할된) 벡터 양자화기들 및 다중 스테이지 벡터 양자화기로 확장될 수 있다. 본 발명에 따른 방법 및 장치는 고차 LPC 모델들(p>10)이 사용되는 경우 음성 부호기의 성능을 개선하는데 더 효율적인데, 왜냐하면 그 경우들에 있어서 LSF들이 서로 더 근접하고 무효한 정렬이 더 발생할 것 같기 때문이다. 그러나, 상기 방법 및 장치가 낮은 차수 LPC 모델들(p≤10)에 기초하는 음성 부호기들에서도 또한 사용될 수 있다.
LSF와 관련하여 설명된 양자화 방법/장치는 또한 LSP, ISF, ISP과 같은 선형예측 계수들의 다른 표현들 및 다른 유사한 스펙트럼 매개변수들 또는 스펙트럼 표현들에 적용가능하다는 것을 유의해야 한다.
따라서, 비록 본 발명이 본 발명의 바람직한 실시예와 관련하여 기술되었다 하더라도, 본 발명의 범위 및 정신으로부터 벗어나지 않으면서 본 발명의 형태 및 상세에서의 상기 및 다양한 다른 변경, 생략 및 변형이 수행될 수 있다는 것을 당업자는 이해할 것이다.
Claims (20)
- 음성 부호기에서 스펙트럼 매개변수 벡터들을 양자화하는 방법으로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터를 선택하는 방법에 있어서,상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하는 단계;상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하는 단계; 및상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 단계를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 스펙트럼 왜곡은 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 각각 및 상기 대응하는 스펙트럼 매개변수 계수 간의 차를 나타내는 오차에 기초하여 계산되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제2항에 있어서,상기 스펙트럼 왜곡을 획득하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치를 주는 단계를 더 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 단일 스플릿(split)에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 복수의 스플릿들에서 수행되고 최적 부호 벡터는 각 스플릿에서의 상기 스펙트럼 왜곡에 기초하여 선택되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 스펙트럼 매개변수는 선스펙트럼 주파수를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 스펙트럼 매개변수는 선스펙트럼 쌍을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 스펙트럼 매개변수는 이미턴스(immittance) 스펙트럼 주파수를 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 스펙트럼 매개변수는 이미턴스 스펙트럼 쌍을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 재배열 단계는 단일 스테이지에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들 중 하나의 스테이지에서 수행되고, 상기 하나의 스테이지는 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 하나의 스테이지에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들 중 몇몇 스테이지들에서 수행되고, 상기 몇몇 스테이지들은 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 몇몇 스테이지들에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 최적 부호 벡터 선택을 위해 복수의 스테이지들에서 수행되고, 상기 복수의 스테이지들은 미리 결정되며 상기 최적 부호 벡터의 선택은 상기 복수의 스테이지들에서의 스펙트럼 왜곡에 기초하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 제1항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 단계는 미리 선택된 벡터들에 기초하여 최적 벡터 선택을 위해 다수의 미리 선택된 벡터들에 대한 최적화 스테이지로서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 방법.
- 음성 부호기에서 스펙트럼 매개변수 벡터를 양자화하는 장치로서, 선형 예측 필터가 주파수 영역에서의 복수의 스펙트럼 매개변수 계수들을 계산하는데 사용되고, 상기 복수의 스펙트럼 매개변수 계수들과 함께, 복수의 잔여 부호록(codebook) 벡터들 및 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 매개변수 값들이 스펙트럼 왜곡을 추정하는데 사용되어 상기 스펙트럼 왜곡에 기초하여 최적 부호 벡터가 선택되도록 허용하는 장치에 있어서,상기 대응하는 예측된 스펙트럼 매개변수 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 매개변수 계수들을 획득하여 상기 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 매개변수 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단; 및상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 매개변수 계수들 및 상기 대응하는 스펙트럼 매개변수 계수들로부터 상기 스펙트럼 왜곡을 획득하는 수단을 포함하는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
- 제15항에 있어서, 상기 스펙트럼 왜곡은 상기 각각의 재배열된 양자화된 스펙트럼 매개변수 계수들 간의 차를 나타내는 오차에 기초하여 계산되고, 상기 스펙트럼 왜곡 획득 수단은 상기 스펙트럼 왜곡을 획득하기 전에 상기 스펙트럼 매개변수 계수들에 기초하여 상기 오차에 가중치를 주는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
- 제15항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것은 단일 스플릿에서 수행되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
- 제15항에 있어서, 상기 양자화된 스펙트럼 매개변수 계수들을 재배열하는 것은 복수의 스플릿들에서 수행되고 최적 부호 벡터는 각 스플릿에서의 스펙트럼 왜곡에 기초하여 선택되는 것을 특징으로 하는 스펙트럼 매개변수 벡터 양자화 장치.
- 부호 매개변수들, 이득 매개변수들 및 피치(pitch) 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현(representation) 매개변수들을 나타내는 제2 전송 신호를 포함하는 비트스트림을 복호기에 제공하는 음성 부호기로서, 여기(excitation) 검색 모듈이 상기 부호 매개변수들, 상기 이득 매개변수들 및 상기 피치 매개변수들을 제공하는데 사용되고, 선형 예측 분석 모듈이 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록(codebook) 벡터들을 제공하는데 사용되는 음성 부호기에 있어서,상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들에 기초하여 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 일련의 제3 신호들을 제공하는 수단; 및상기 제3 신호들에 응답하여, 상기 스펙트럼 왜곡에 기초하는 상기 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 하는 음성 부호기.
- 입력 음성을 수신하고 전처리하여 통신 네트워크에서 적어도 하나의 기지국에 비트스트림을 제공할 수 있는 이동국으로서, 상기 비트스트림은 부호 매개변수들, 이득 매개변수들 및 피치 매개변수들을 나타내는 제1 전송 신호 및 스펙트럼 표현 매개변수들을 나타내는 제2 전송 신호를 포함하고, 여기(excitation) 검색 모듈이 상기 전처리된 입력 신호로부터 상기 제1 전송 신호를 제공하는데 사용되며, 선형 예측 모듈이 상기 전처리된 입력 신호에 기초하여 주파수 영역에서의 복수의 스펙트럼 표현 계수들, 이전에 복호화된 출력 값들에 기초하는 복수의 예측된 스펙트럼 표현 값들, 및 복수의 잔여 부호록 벡터들을 제공하는데 사용되는 이동국에 있어서,상기 대응하는 예측된 스펙트럼 표현 값들 및 상기 잔여 부호록 벡터들로부터 복수의 양자화된 스펙트럼 표현 계수들을 획득하여 상기 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제1 신호들을 제공하는 수단;상기 제1 신호들에 응답하여, 상기 주파수 영역에서의 양자화된 스펙트럼 표현 계수들을 순서대로 재배열하고, 상기 재배열된 양자화된 스펙트럼 표현 계수들을 나타내는 일련의 제2 신호들을 제공하는 수단;상기 제2 신호들에 응답하여, 상기 재배열된 양자화된 스펙트럼 표현 계수들 및 상기 대응하는 스펙트럼 표현 계수들로부터 상기 스펙트럼 왜곡을 획득하고, 스펙트럼 왜곡을 나타내는 일련의 제3 신호들을 제공하는 수단; 및상기 제3 신호들에 응답하여, 스펙트럼 표현 매개변수들을 나타내는 복수의 최적 부호 벡터들을 선택하고, 상기 최적 부호 벡터들을 나타내는 상기 제2 전송 신호를 제공하는 수단을 포함하는 것을 특징으로 하는 이동국.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/859,225 | 2001-05-16 | ||
US09/859,225 US7003454B2 (en) | 2001-05-16 | 2001-05-16 | Method and system for line spectral frequency vector quantization in speech codec |
PCT/IB2002/001608 WO2002093551A2 (en) | 2001-05-16 | 2002-05-10 | Method and system for line spectral frequency vector quantization in speech codec |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20040028750A true KR20040028750A (ko) | 2004-04-03 |
Family
ID=25330384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-7014370A KR20040028750A (ko) | 2001-05-16 | 2002-05-10 | 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7003454B2 (ko) |
EP (1) | EP1388144B1 (ko) |
JP (1) | JP2004526213A (ko) |
KR (1) | KR20040028750A (ko) |
CN (1) | CN1241170C (ko) |
AU (1) | AU2002302874A1 (ko) |
BR (1) | BR0208635A (ko) |
CA (1) | CA2443443C (ko) |
ES (1) | ES2649237T3 (ko) |
PT (1) | PT1388144T (ko) |
WO (1) | WO2002093551A2 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
KR100647290B1 (ko) * | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020028224A (ko) * | 2000-07-05 | 2002-04-16 | 요트.게.아. 롤페즈 | 선 스펙트럼 주파수를 선형 예측 계수로 다시 변환하는 방법 |
DE602004026645D1 (de) * | 2004-07-23 | 2010-05-27 | Telecom Italia Spa | Verfahren zum erzeugen und verwenden eines vektorcodebuchs, verfahren und einrichtung zum komprimieren von daten und verteiltes spracherkennungssystem |
US8510105B2 (en) * | 2005-10-21 | 2013-08-13 | Nokia Corporation | Compression and decompression of data vectors |
CN100421370C (zh) * | 2005-10-31 | 2008-09-24 | 连展科技(天津)有限公司 | 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 |
JPWO2007114290A1 (ja) * | 2006-03-31 | 2009-08-20 | パナソニック株式会社 | ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法 |
US8392176B2 (en) * | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
US7805292B2 (en) * | 2006-04-21 | 2010-09-28 | Dilithium Holdings, Inc. | Method and apparatus for audio transcoding |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
JPWO2008047795A1 (ja) * | 2006-10-17 | 2010-02-25 | パナソニック株式会社 | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
US7813922B2 (en) * | 2007-01-30 | 2010-10-12 | Nokia Corporation | Audio quantization |
US20090192742A1 (en) * | 2008-01-30 | 2009-07-30 | Mensur Omerbashich | Procedure for increasing spectrum accuracy |
CN102089810B (zh) * | 2008-07-10 | 2013-05-08 | 沃伊斯亚吉公司 | 多基准线性预测系数滤波器量化和逆量化设备及方法 |
KR101236054B1 (ko) * | 2008-07-17 | 2013-02-21 | 노키아 코포레이션 | 벡터 양자화기를 위한 고속 최근접 이웃 탐색용 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
CN101630510B (zh) * | 2008-07-18 | 2012-03-28 | 上海摩波彼克半导体有限公司 | Amr语音编码中lsp系数量化的快速码本搜索的方法 |
RU2519027C2 (ru) * | 2009-02-13 | 2014-06-10 | Панасоник Корпорэйшн | Устройство векторного квантования, устройство векторного обратного квантования и способы для этого |
KR101789632B1 (ko) | 2009-12-10 | 2017-10-25 | 엘지전자 주식회사 | 음성 신호 부호화 방법 및 장치 |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法***及瞬态信号可分层编解码方法 |
KR101747917B1 (ko) * | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
PL3193332T3 (pl) * | 2012-07-12 | 2020-12-14 | Nokia Technologies Oy | Kwantyzacja wektorowa |
CN102867516B (zh) * | 2012-09-10 | 2014-08-27 | 大连理工大学 | 一种采用高阶线性预测系数分组矢量量化的语音编解方法 |
CN102903365B (zh) * | 2012-10-30 | 2014-05-14 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
CN108172239B (zh) * | 2013-09-26 | 2021-01-12 | 华为技术有限公司 | 频带扩展的方法及装置 |
RU2665287C2 (ru) * | 2013-12-17 | 2018-08-28 | Нокиа Текнолоджиз Ой | Кодер звукового сигнала |
CN111105807B (zh) * | 2014-01-15 | 2023-09-15 | 三星电子株式会社 | 对线性预测编码系数进行量化的加权函数确定装置和方法 |
EP3136387B1 (en) * | 2014-04-24 | 2018-12-12 | Nippon Telegraph and Telephone Corporation | Frequency domain parameter sequence generating method, encoding method, decoding method, frequency domain parameter sequence generating apparatus, encoding apparatus, decoding apparatus, program, and recording medium |
CN104269176B (zh) * | 2014-09-30 | 2017-11-24 | 武汉大学深圳研究院 | 一种isf系数矢量量化的方法与装置 |
EP3429230A1 (en) * | 2017-07-13 | 2019-01-16 | GN Hearing A/S | Hearing device and method with non-intrusive speech intelligibility prediction |
CN115831130A (zh) * | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
CN110660400B (zh) * | 2018-06-29 | 2022-07-12 | 华为技术有限公司 | 立体声信号的编码、解码方法、编码装置和解码装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651026A (en) * | 1992-06-01 | 1997-07-22 | Hughes Electronics | Robust vector quantization of line spectral frequencies |
DE4236315C1 (de) * | 1992-10-28 | 1994-02-10 | Ant Nachrichtentech | Verfahren zur Sprachcodierung |
WO1994023426A1 (en) * | 1993-03-26 | 1994-10-13 | Motorola Inc. | Vector quantizer method and apparatus |
US5704001A (en) * | 1994-08-04 | 1997-12-30 | Qualcomm Incorporated | Sensitivity weighted vector quantization of line spectral pair frequencies |
US5675701A (en) * | 1995-04-28 | 1997-10-07 | Lucent Technologies Inc. | Speech coding parameter smoothing method |
US5754733A (en) * | 1995-08-01 | 1998-05-19 | Qualcomm Incorporated | Method and apparatus for generating and encoding line spectral square roots |
KR100322706B1 (ko) * | 1995-09-25 | 2002-06-20 | 윤종용 | 선형예측부호화계수의부호화및복호화방법 |
KR100198476B1 (ko) * | 1997-04-23 | 1999-06-15 | 윤종용 | 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법 |
TW408298B (en) * | 1997-08-28 | 2000-10-11 | Texas Instruments Inc | Improved method for switched-predictive quantization |
US6141640A (en) * | 1998-02-20 | 2000-10-31 | General Electric Company | Multistage positive product vector quantization for line spectral frequencies in low rate speech coding |
US6148283A (en) * | 1998-09-23 | 2000-11-14 | Qualcomm Inc. | Method and apparatus using multi-path multi-stage vector quantizer |
-
2001
- 2001-05-16 US US09/859,225 patent/US7003454B2/en not_active Expired - Lifetime
-
2002
- 2002-05-10 ES ES02730559.8T patent/ES2649237T3/es not_active Expired - Lifetime
- 2002-05-10 CN CNB028098293A patent/CN1241170C/zh not_active Expired - Lifetime
- 2002-05-10 WO PCT/IB2002/001608 patent/WO2002093551A2/en active Application Filing
- 2002-05-10 CA CA2443443A patent/CA2443443C/en not_active Expired - Lifetime
- 2002-05-10 KR KR10-2003-7014370A patent/KR20040028750A/ko not_active Application Discontinuation
- 2002-05-10 EP EP02730559.8A patent/EP1388144B1/en not_active Expired - Lifetime
- 2002-05-10 AU AU2002302874A patent/AU2002302874A1/en not_active Abandoned
- 2002-05-10 PT PT2730559T patent/PT1388144T/pt unknown
- 2002-05-10 BR BR0208635-2A patent/BR0208635A/pt not_active Application Discontinuation
- 2002-05-10 JP JP2002590143A patent/JP2004526213A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100647290B1 (ko) * | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP1388144B1 (en) | 2017-10-18 |
US7003454B2 (en) | 2006-02-21 |
CA2443443A1 (en) | 2002-11-21 |
US20030014249A1 (en) | 2003-01-16 |
PT1388144T (pt) | 2017-12-01 |
CN1241170C (zh) | 2006-02-08 |
BR0208635A (pt) | 2004-03-30 |
WO2002093551A2 (en) | 2002-11-21 |
CA2443443C (en) | 2012-10-02 |
EP1388144A2 (en) | 2004-02-11 |
EP1388144A4 (en) | 2007-08-08 |
ES2649237T3 (es) | 2018-01-11 |
AU2002302874A1 (en) | 2002-11-25 |
WO2002093551A3 (en) | 2003-05-01 |
JP2004526213A (ja) | 2004-08-26 |
CN1509469A (zh) | 2004-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2443443C (en) | Method and system for line spectral frequency vector quantization in speech codec | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
US7149683B2 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
US5819213A (en) | Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks | |
EP2313887B1 (en) | Variable bit rate lpc filter quantizing and inverse quantizing device and method | |
KR20070038041A (ko) | 전기 통신을 위한 멀티-레이트 음성 부호화기에 있어서음성 트랜스-레이팅을 위한 방법 및 장치 | |
JPH08263099A (ja) | 符号化装置 | |
KR20060131782A (ko) | 최적의 다중 부호화 방법 | |
US5884251A (en) | Voice coding and decoding method and device therefor | |
US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
KR100421648B1 (ko) | 음성코딩을 위한 적응성 표준 | |
EP2557566B1 (en) | Method and apparatus for processing an audio signal | |
US20060080090A1 (en) | Reusing codebooks in parameter quantization | |
EP0755047B1 (en) | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits | |
EP1334485B1 (en) | Speech codec and method for generating a vector codebook and encoding/decoding speech signals | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JPH09127997A (ja) | 音声符号化方法及び装置 | |
JPH08254999A (ja) | ゲイン量子化装置および音声符号化/復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |