KR20140005201A - 계층적 인코더에서 개선 스테이지의 개선된 인코딩 - Google Patents
계층적 인코더에서 개선 스테이지의 개선된 인코딩 Download PDFInfo
- Publication number
- KR20140005201A KR20140005201A KR20137018623A KR20137018623A KR20140005201A KR 20140005201 A KR20140005201 A KR 20140005201A KR 20137018623 A KR20137018623 A KR 20137018623A KR 20137018623 A KR20137018623 A KR 20137018623A KR 20140005201 A KR20140005201 A KR 20140005201A
- Authority
- KR
- South Korea
- Prior art keywords
- coding
- stage
- coder
- input signal
- quantization
- Prior art date
Links
- 230000006872 improvement Effects 0.000 title claims description 43
- 238000013139 quantization Methods 0.000 claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 241001123248 Arma Species 0.000 claims 1
- 238000007493 shaping process Methods 0.000 description 26
- 238000001914 filtration Methods 0.000 description 13
- 230000000873 masking effect Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 B 비트들을 갖는 코어 코딩 스테이지 및 적어도 하나의 현재 개선 코딩 스테이지 k를 포함하는 계층적 코더에서 디지털 오디오 입력 신호(x(n))를 코딩하고, 코어 코딩 및 현재 스테이지 k 이전의 개선 스테이지들의 코딩은 이전 임베디드 코더의 인덱스들(IB +k-1)을 형성하도록 연쇄된 양자화 인덱스들을 전달하기 위한 방법이다. 상기 방법이 그러하여, 상기 방법은 이전 임베디드 코더의 인덱스들(IB +k-1)에 기초하여 단지 현재 스테이지 k의 절대 재구성 레벨들을 결정함으로써 현재 개선 스테이지 k에 대한 가능한 양자화 값들()을 획득하는 단계(303), 스테이지 k에 대한 스칼라 양자화 인덱스() 및 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호()를 형성하기 위해 상기 가능한 양자화 값들()에 기초하여, 지각적 가중 프로세싱을 겪거나 겪지 않은 계층적 코더의 입력 신호(x(n) 또는 x'(n))를 양자화하는 단계(306)를 포함한다.
본 발명은 또한 기재된 바와 같은 코딩 방법을 구현하는 계층적 코더에 관한 것이다.
본 발명은 또한 기재된 바와 같은 코딩 방법을 구현하는 계층적 코더에 관한 것이다.
Description
본 발명은 디지털 신호들의 코딩 분야에 관한 것이다.
본 발명에 따른 코딩은 특히 가청 주파수 신호들(스피치, 음악 등)과 같은 디지털 신호들의 전송 및/또는 저장을 위해 적응된다.
본 발명은 더 상세하게 PCM(Pulse Code Modulation) 코딩 또는 ADPCM(Adaptive Differential Pulse Code Modulation) 코딩 형태의 적응형 파형 코딩과 같은 파형 코딩에 관한 것이다. 본 발명은 특히 스케일링 가능 이진 트레인 양자화 인덱스들을 전달하는 것을 가능하게 하는 임베디드-코딩에 관한 것이다.
ITU-T 권고안 G722 또는 ITU-T에 의해 명시된 임베디드-코드 ADPCM 코딩/디코딩의 일반적인 원리는 도 1 및 도 2를 참조하여 설명된 바와 같다.
따라서, 도 1은 샘플 당 B 및 B+K 비트들 사이에서 동작하는 ADPCM 형태(예를 들면, G.722 저대역, G.727)의 임베디드-코드 코더를 나타내고, 스케일링 불가 ADPCM 코딩(예를 들면, G.726, G.722 고대역)의 경우가 K=0에 대응하고, 여기서 B는 다양한 가능한 비트레이트들 중에서 선택될 수 있는 고정값이라는 것을 유의하라.
임베디드-코드 코더는,
- 양자화된 에러 신호 (여기서, 은 양자화 스케일 팩터임) 및 재구성된 신호(reconstructed signal) (여기서, n은 현재 인스턴트(current instant)임)의 이전 샘플들에 기초하여 상기 신호의 예측 을 제공할 수 있도록 하는 예측 모듈(110),
- B+K 비트들로 이루어지는 양자화 인덱스들 을 제공하기 위하여 에러 신호 e(n)을 입력으로서 수신하는 에러 신호용 양자화 모듈(130) 를 포함한다. 양자화 모듈 은 임베디드-코드 타입이며, 즉, 양자화 모듈은 B 비트들을 갖는 "코어" 양자화기(core quantizer) 및 "코어" 양자화기 상에 임베딩되는 B+k(k=1,...,K) 비트들을 갖는 양자화기들을 포함한다.
ITU-T G.722 표준의 저대역 코딩의 경우, 양자화기들 , , (단. B=4)의 결정 레벨들과 재구성 레벨들은 X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas in Communication, Vol.6, No.2, February 1988에 의한 G.722 표준을 기술하고 있는 개관 논문의 테이블들 IV 및 VI에 의해 정의된다.
코더는 또한,
도 1에서, (155)로 참조된 음영 부분은 예측기들(165 및 175) 및 역 양자화기(120)를 포함하는 낮은 비트레이트 로컬 디코더를 나타낸다는 것이 유의될 수 있다. 따라서, 이러한 로컬 디코더는, 낮은 비트레이트 인덱스 I B (n) 에 기초하여 (170)에서 역 양자화기를 적응시키고 재구성된 낮은 비트레이트 데이터에 기초하여 예측기들(165 및 175)을 적응시키는 것을 가능하게 한다.
이러한 부분은 도 2를 참조하여 기술된 바와 같이 임베디드-코드 ADPCM 디코더에서 동일하게 발견된다.
도 2의 임베디드-코드 ADPCM 디코더는, 입력으로서 상기 전송 채널(140)에서 발생한 인덱스들 , 어쩌면 바이너리 에러들에 의해 왜곡(disturb)되는 의 한 버전을 수신하고, 상기 신호 를 얻기 위하여 샘플당 비트레이트 B 비트들의 역 양자화 모듈(210) 에 의하여 역 양자화를 실시한다. 심볼 " ' "은 전송 에러들 때문에 코더에 의해 사용되는 것과 어쩌면 상이한, 수신된 비트들에 기초하여 디코딩된 값을 나타낸다.
B 비트들에 대한 출력 신호 는 신호의 예측 및 B 비트들을 갖는 역 양자화기의 출력의 합계와 동일할 것이다. 디코더의 이러한 부분(255)은 도 1의 낮은 비트레이트 로컬 디코더(155)와 동일하다.
모드 비트레이트 표시자 및 선택기(220)를 사용하여, 디코더는 재구성된 신호를 개선할 수 있다.
z-변환 표기법을 이용하면, 우리는 이러한 루프형 구조에 대하여 하기와 같이,
ITU-T 표준 G.722(이하, G.722라 명명됨)의 임베디드-코드 ADPCM 코딩은, [50-7000 Hz]의 최소 대역폭으로 정의되고 16 kHz로 샘플링되는 광대역에서 신호들의 코딩을 실시한다. G.722 코딩은, 직교 미러 필터들(quadrature mirror filters)에 의한 신호의 분해(decomposition)에 의해 얻어지는 2 개의 신호 부대역들(sub-band) [0-4000 Hz] 및 [4000-8000 Hz] 각각의 ADPCM 코딩이다. 저대역은 6, 5 및 4 비트들에 대하여 임베디드-코드 ADPCM 코딩에 의해 코딩되고, 반면에 고대역은 샘플 당 2 비트들의 ADPCM 코더에 의해 코딩된다. 전체 비트레이트는 저대역을 디코딩하는데 사용되는 비트들의 수에 따라 64, 56 또는 48 bit/s일 것이다.
이러한 코딩은 우선 ISDN(Integrated Services Digital Network)에서 사용하기 위해 개발되었다. 이것은 최근에 IP 네트워크를 통한 "고해상도(HD) 음성" 통신으로 불리는 개선된 품질의 텔레포니의 애플리케이션들에서 전개되고 있다.
수많은 레벨들을 갖는 양자화기에 대해, 양자화 잡음의 스펙트럼은 비교적 평탄할 것이다. 그러나, 신호가 낮은 에너지를 갖는 주파수 구역들에서, 잡음은 신호보다 비교 가능하거나 실제로 더 큰 레벨을 가질 수 있고, 따라서 반드시 더 이상 마스킹되지는 않는다. 이어서, 잡음은 이러한 영역들에서 들릴 수 있게 될 수 있다.
따라서, 코딩 잡음의 성형(shaping)이 필요하게 된다. G.722와 같은 코더에서, 임베디드-코드 코딩에 적응된 코딩 잡음 성형이 또한 바람직하다.
일반적으로, 코딩 잡음을 성형하는 목적은, 스펙트럼 엔벨로프가 단기간 마스킹 임계치를 뒤따르는 양자화 잡음을 획득하는 것이고, 이러한 원칙은 종종 간소화되어, 잡음의 스펙트럼이 대략 신호의 스펙트럼을 따르게 하여, 더 낮은 에너지의 신호의 구역들에서조차 잡음이 들리지 않도록 더 동질적인 신호-대-잡음 비를 보장한다.
임베디드 코드 PCM("Pulse Code Modulation") 타입의 코딩을 위한 잡음 성형 기술은 ITU-T 권고안 G.711.1 "Wideband embedded extension for G.711 pulse code modulation" 또는 "G.711.1: A wideband extension to ITU-T G.711". Y. Hiwasaki, S. Sasaki, H. Ohmuro, T.Mori, J. Seong, M. S. Lee, B. Kovesi, S. Ragot, J.-L. Garcia, C. Marro, L. M., J. Xu, V. Malenovsky, J. Lapierre, R. Lefebvre. EUSIPCO, Lausanne, 2008에 기재되어 있다.
따라서, 이러한 권고안은 코어 비트레이트 코딩을 위한 코딩 잡음의 성형을 구비한 코딩을 기술하고 있다. 코딩 잡음을 성형하기 위한 지각 필터(perceptual filter)는, 역 코어 양자화기에서 발생하는 과거 디코딩된 신호들에 기초하여 계산된다. 그러므로, 코어 비트레이트 로컬 디코더가 상기 잡음 성형 필터를 계산할 수 있도록 한다. 따라서, 디코더에서는, 코어 비트레이트 디코딩된 신호들에 기초하여 이러한 잡음 성형 필터를 계산하는 것이 가능하다.
개선 비트들을 전달하는 양자화기가 코더에 사용된다.
코어 바이너리 스트림과 개선 비트들을 수신하는 디코더는 코어 비트레이트 디코딩된 신호에 기초하여 코더에서와 동일한 방식으로 코딩 잡음을 성형하기 위한 필터를 계산하고, 이러한 필터를 개선 비트들의 역 양자화기의 출력 신호에 적용하고, 성형된 고-비트레이트 신호는 필터링된 신호를 디코딩된 코어 신호에 합산함으로써 획득된다.
따라서, 잡음의 성형은 코어 비트레이트 신호의 지각 품질을 개선시킨다. 잡음의 성형은 개선 비트들에 대해 제한된 품질 개선을 제공한다. 실제로, 코딩 잡음의 성형은 개선 비트들의 코딩에 대하여 수행되지 않고, 양자화기의 입력은 개선된 양자화에 대한 것과 코어 양자화에 대한 것이 동일하다.
이어서, 디코더는, 코어 비트들에 부가하여 개선 비트들이 디코딩될 때, 적절한 필터링에 의한 결과적인 스퓨리어스 컴포넌트(spurious component)를 삭제해야 한다.
디코더에서의 필터의 추가적인 연산은 디코더의 복잡성을 증가시킨다.
이러한 기술은 이미 현존하는 일반적인 G.722 또는 G.727 디코더 타입의 스케일링 가능 디코더들에는 사용되지 않는다. 그러므로, 현존하는 일반적인 스케일링 가능 디코더들과 호환 가능하게 유지되면서 어떠한 비트레이트일지라도 신호들의 품질을 증대시키기 위한 필요성이 존재한다.
디코더에서 상보적인 신호 프로세싱을 수행할 필요가 없게 하는 해결책이 특허 출원 WO 2010/058117에 기재되어 있다. 이러한 출원에서, 디코더에서 수신된 신호는, 잡음 또는 교정 항(corrective term)을 성형하기 위한 임의의 계산을 요구하지 않고, 코어 비트레이트 및 임베디드-비트레이트들을 코딩할 수 있는 일반적인 디코더에서 디코딩될 수 있다.
이러한 문헌은, 계층적 코더 개선 스테이지에 대해, 지각적으로 필터링된 도메인에서 직교 에러 기준을 최소화함으로써 양자화가 수행되는 것을 기재하고 있다.
따라서, 코딩 잡음 성형 필터가 정의되고, 적어도 이전 코딩 스테이지의 재구성된 신호에 기초하여 결정된 에러 신호에 적용된다. 상기 방식은 또한 다음의 코딩 스테이지의 예상으로서 현재 개선 스테이지의 재구성된 신호의 계산을 요구한다.
또한, 현재 개선 스테이지에 대해 개선 항들이 계산되고 저장된다. 따라서, 이것은 이전 스테이지들의 개선 항들 또는 재구성된 신호 샘플들의 상당한 복잡성 및 상당한 저장을 도입한다.
따라서, 이러한 해결책은 복잡성의 관점에서 최적이지 않다.
따라서, 기존의 계층적 디코더들과 호환 가능하면서, 개선 코딩 잡음을 코딩 및 성형하기 위한 종래 기술의 방식들을 개선할 필요성이 존재한다.
본 발명은 상기 상황을 개선하는데 적합하다.
이러한 목적으로, 본 발명은 B 비트들을 갖는 코어 코딩 스테이지 및 적어도 하나의 현재 개선 코딩 스테이지 k를 포함하는 계층적 코더에서 디지털 오디오 입력 신호(x(n))를 코딩하기 위한 방법을 제안하고, 코어 코딩 및 현재 스테이지 k 이전의 개선 스테이지들의 코딩은 이전 임베디드 코더의 인덱스들(IB +k-1)을 형성하도록 연쇄된 양자화 인덱스들을 전달한다. 상기 방법이 그러하여, 상기 방법은 다음의 단계들:
- 단지 상기 현재 스테이지 k의 절대 재구성 레벨들 및 이전 임베디드 코더의 인덱스들에 기초하여 현재 개선 스테이지 k에 대한 가능한 양자화 값들을 획득하는 단계;
- 스테이지 k에 대한 양자화 인덱스 및 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호를 형성하기 위해 상기 가능한 양자화 값들에 기초하여, 지각적 가중 프로세싱을 겪거나 겪지 않은 계층적 코더의 입력 신호를 양자화하는 단계를 포함한다.
따라서, 개선 스테이지의 양자화는 이전 스테이지들의 인덱스들로 직접적으로 연쇄된 양자화 인덱스 비트 또는 비트들을 결정한다. 종래 기술의 방식들과 대조적으로, 개선 신호 또는 개선 항들의 계산이 존재하지 않는다.
또한, 양자화의 입력에서의 신호는 직접적으로 계층적 코더 입력 신호 또는 지각적 가중 프로세싱을 직접적으로 겪은 이러한 동일한 입력 신호 중 어느 하나이다. 여기서, 이것은 종래 기술들에서와 같이 입력 신호 및 앞선 코딩 스테이지들의 재구성된 신호 사이의 차이에 대한 차이 신호를 수반하지 않는다.
이로써, 계산적 로드에 관한 복잡성이 감소된다.
또한, 종래 기술의 방식들과 대조적으로, 저장된 양자화 값들이 차동 값들이 아니다. 따라서, 이것은 개선 스테이지에 대한 양자화 딕셔너리를 구성하기 위해 이전 스테이지들에서 재구성으로서 기능하는 양자화 값들을 저장하는데 유용하지 않다.
또한, 종래 기술의 방식들과 대조적으로, 개선 스테이지가 기존의 계층적 인코더 및 디코더에 의해 저장된 절대 레벨들()을 직접적으로 사용하기 때문에, 차동 딕셔너리를 구성 및 저장할 필요가 없다. 따라서, 본 발명은, 차동 딕셔너리가 코더에서 사용되고 절대 딕셔너리가 디코더에서 사용되는 종래 기술의 방식들에서 당면할 수 있는 딕셔너리들의 중복(duplication)을 회피한다.
따라서, 딕셔너리들의 저장을 위해 요구되는 메모리 및 코더에서의 양자화 및 디코더에서의 역 양자화의 동작들이 감소된다.
마지막으로, 차를 수행하지 않고, 개선 스테이지의 양자화 값들을 직접적으로 획득하는 것은, 예를 들면, 한정된 정확성으로 작동할 때, 코더에서 획득된 값들 및 디코더에서 획득된 값들 사이의 부가적인 정확성을 도입한다.
이후에 언급되는 다양한 특정 실시예들은 독립적으로 또는 서로와 조합하여 위에 정의된 방법의 단계들에 부가될 수 있다.
특정 실시예에서, 입력 신호는 양자화 단계 전에 수정된 입력 신호를 제공하기 위해 미리 결정된 가중 필터를 사용하는 지각적 가중 프로세싱을 겪고, 상기 방법은 현재 개선 코딩 스테이지의 양자화된 신호에 기초하여 가중 필터의 메모리들을 적응시키는 단계를 더 포함한다.
스테이지 k의 개선 코딩을 위해 계층적 코더의 입력 신호에 직접적으로 적용되는 이러한 지각적 가중 프로세싱은, 입력 신호 및 이전 코딩 스테이지들의 재구성된 신호 사이의 차이에 대한 차이 신호에 대해 이러한 지각적 가중 프로세싱을 수행하는 종래 기술들에 관련하여 계산적 로드에 관하여 복잡성을 또한 감소시킨다.
따라서, 기재된 코딩 방법은, 효과적인 코딩 잡음 성형에 의해 신호의 개선으로부터 이득을 얻으면서, 임의의 수정들이 이루어지지 않거나 부가적인 프로세싱이 예상되지 않고 기존의 디코더들이 신호를 디코딩하도록 또한 허용한다.
특정 실시예에서, 개선 스테이지 k에 대한 가능한 양자화 값들은 적응 타입의 코어 코딩으로부터 발생된 예측 값 및 스케일 팩터를 더 포함한다.
이것은 코어 코딩에서 정의된 값들에 관련하여 양자화 값들을 적응시키는 것을 가능하게 한다.
대안적인 실시예에서, 개선 스테이지 k에서 양자화될 수정된 입력 신호는, 적응 타입의 코어 코딩으로부터 발생된 예측 값이 감산되는 지각적으로 가중된 입력 신호이다.
이것은 또한 각각의 양자화 값보다는 양자화기의 입력에서 이러한 적응을 수행함으로써 코어 코딩에서 정의된 값들에 관련하여 양자화 값들을 적응시키는 것을 가능하게 한다.
특정 방식에서, 지각적 가중 프로세싱은 ARMA 타입의 필터를 형성하는 예측 필터들에 의해 수행된다.
이어서, 개선 코딩 잡음의 성형은 양호한 품질을 갖는다.
본 발명은 또한 B 비트들을 갖는 코어 코딩 스테이지 및 적어도 하나의 현재 개선 코딩 스테이지 k를 포함하는, 디지털 오디오 입력 신호(x(n))의 계층적 코더에 관한 것이며, 코어 코딩 및 현재 스테이지 k 이전의 개선 스테이지들의 코딩은 이전 임베디드 코더의 인덱스들을 형성하도록 연쇄된 양자화 인덱스들을 전달한다. 상기 코더가 그러하여, 상기 코더는:
- 이전 임베디드 코더의 인덱스들에 기초하여 단지 현재 스테이지 k의 절대 재구성 레벨들을 결정함으로써 현재 개선 스테이지 k에 대한 가능한 양자화 값들을 획득하기 위한 모듈;
스테이지 k에 대한 양자화 인덱스 및 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호를 형성하기 위해 상기 가능한 양자화 값들에 기초하여, 지각적 가중 프로세싱을 겪거나 겪지 않은 계층적 코더의 입력 신호를 양자화하기 위한 모듈을 포함한다.
계층적 코더는 양자화 모듈의 입력에서 수정된 입력 신호를 제공하기 위해 미리 결정된 가중 필터를 사용하는 지각적 가중 모듈 및 현재 개선 코딩 스테이지의 양자화된 신호에 기초하여 가중 필터의 메모리들을 적응시키기 위한 모듈에 대한 사전 프로세싱을 더 포함한다.
계층적 코더는 그가 구현하는 상기 방법의 이점들과 동일한 이점들을 제공한다.
본 발명은 또한 코드 명령들이 프로세서에 의해 실행될 때 본 발명에 따른 코딩 방법의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이다.
본 발명은 마지막으로 기재된 바와 같은 컴퓨터 프로그램을 저장하는 프로세서에 의해 판독 가능한 저장 수단에 관한 것이다.
본 발명의 다른 특징들 및 이점들은, 비제한적인 예시로서 유일하게 주어지고 첨부된 도면들을 참조하여 주어진 다음의 설명을 해독하면 더욱 명백해질 것이다.
도 1은 상술된 바와 같은 최신 기술에 따른 ADPCM 타입의 임베디드-코드 코더를 예시한 도면.
도 2는 상술된 바와 같은 최신 기술에 따른 ADPCM 타입의 임베디드-코드 코더를 예시한 도면.
도 3은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 일반적인 실시예를 예시한 도면.
도 4는 본 발명에 따른 코딩 방법 및 코더의 제 1 특정 실시예를 예시한 도면.
도 5는 본 발명에 따른 코딩 방법 및 코더의 제 2 특정 실시예를 예시한 도면.
도 6은 본 발명에 따른 코딩 방법 및 코더의 제 3 특정 실시예를 예시한 도면.
도 7은 본 발명에 따른 코딩 방법 및 코더의 일반적인 대안 실시예를 예시한 도면.
도 7b는 본 발명에 따른 코딩 방법 및 코더의 또 다른 일반적인 대안 실시예를 예시한 도면.
도 8은 본 발명에 따른 코딩 방법 및 코더의 예시적인 실시예를 예시한 도면.
도 9는 최신 기술에서 사용되는 양자화 재구성 레벨들의 예를 예시한 도면.
도 10은 본 발명에 따른 코더의 하드웨어 실시예를 예시한 도면.
도 2는 상술된 바와 같은 최신 기술에 따른 ADPCM 타입의 임베디드-코드 코더를 예시한 도면.
도 3은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 일반적인 실시예를 예시한 도면.
도 4는 본 발명에 따른 코딩 방법 및 코더의 제 1 특정 실시예를 예시한 도면.
도 5는 본 발명에 따른 코딩 방법 및 코더의 제 2 특정 실시예를 예시한 도면.
도 6은 본 발명에 따른 코딩 방법 및 코더의 제 3 특정 실시예를 예시한 도면.
도 7은 본 발명에 따른 코딩 방법 및 코더의 일반적인 대안 실시예를 예시한 도면.
도 7b는 본 발명에 따른 코딩 방법 및 코더의 또 다른 일반적인 대안 실시예를 예시한 도면.
도 8은 본 발명에 따른 코딩 방법 및 코더의 예시적인 실시예를 예시한 도면.
도 9는 최신 기술에서 사용되는 양자화 재구성 레벨들의 예를 예시한 도면.
도 10은 본 발명에 따른 코더의 하드웨어 실시예를 예시한 도면.
도 3을 참조하여, 본 발명의 일 실시예에 따른 코더 및 코딩 방법이 설명된다.
B 비트들을 갖는 코어 코딩 및 랭크 k의 적어도 하나의 개선 스테이지가 예상되는 임베디드-코더 또는 계층적 코더의 경우가 본원에서 고려된다는 것이 상기된다. (306)으로 표시된 것과 같은 코딩의 개선 스테이지 k 이전의 코어 코딩 및 개선 스테이지들은 샘플 당 B+k-1의 인덱스 IB +k-1(n)로 다중화된 스칼라 양자화 인덱스들을 전달한다.
이후에 설명되는 예시적인 실시예들에서, 프리젠테이션을 간략히 하기 위해, (랭크 k의) 개선 스테이지가 샘플 당 부가적인 비트를 생성하는 것으로 제시된다. 이러한 경우에, 각각의 개선 스테이지에서의 코딩은 2 개의 가능한 값들 중에서 하나를 선택하는 것을 수반한다. 후속으로 명백해질 바와 같이, 랭크 k의 개선 스테이지가 생성할 수 있는 모든 양자화 값에 대응하는 ― ("비-차동"의 의미에서) 절대 레벨들에 관하여 ― "절대 딕셔너리(absolute dictionary)"는 크기 2B+k를 갖거나, 예를 들면, 저대역 6 비트 양자화기에서 64 개의 레벨 대신에 60 개의 가능한 레벨들만을 갖는 G.722 코더에서와 같이, 때때로 2B+k보다 약간 더 작다. 계층적 코딩은 "절대 딕셔너리"의 이진 트리 구조를 수반하고, 이것은 이전 스테이지들의 B+k-1 비트들이 주어지면 하나의 개선 비트가 코딩을 수행하기에 충분하다는 것을 설명한다.
도 9는 상술된 X. Maitre 논문의 테이블 VI로부터의 발췌이고, B=4 비트들에 대한 B 비트들의 경우에 코어 양자화기의 제 1의 4 개의 레벨들 및 G.722 코더의 저대역의 코딩의 B+1 및 B+2 비트들의 경우에 양자화기들의 레벨들뿐만 아니라 B+2 비트들에 대한 종래 기술의 개선 양자화기의 출력 값들을 나타낸다.
이러한 도면에 예시된 바와 같이, B+1=5 비트들의 경우에 임베디드 양자화기는 B=4 비트들의 경우에 양자화기의 레벨들을 "분할"함으로써 획득된다. B+2=6 비트들의 경우에 임베디드 양자화기는 B+1=5 비트들의 경우에 양자화기의 레벨들을 "분할"함으로써 획득된다. 재구성 레벨들의 분할은 사실상, (샘플 당 4, 5 또는 6 비트들 경우에) 트리-구조의 스칼라 양자화 딕셔너리의 형태로 G.722에서 구현되는 저대역에 대한 계층적 코딩 제약의 시퀀스이다.
o B+k 비트들의 경우에 임베디드 양자화기의 양자화의 재구성 레벨들을 지정하는 값들(B는 코어 코딩의 비트들의 수를 지정함) 및
o B+k-1 비트들의 경우에 임베디드 양자화기의 양자화 재구성 레벨들을 지정하는 값들, B+k 비트들의 경우에 임베디드 양자화기의 재구성 레벨들은 B+k-1 비트들의 경우에 임베디드 양자화기의 재구성 레벨들을 분할함으로써 정의됨.
본 발명을 통해, 우측에 열거되고 점선들에 의한 프레임 내의 차동 재구성 레벨들 이 계산 또는 저장되지 않아야 한다. 본 발명에 따라, 스테이지 k의 절대 재구성 레벨들 이 계산 및 저장된다.
스테이지 k의 이러한 절대 재구성 레벨들 은, 재구성된 신호가 도 2의 설명을 참조하여 이미 제공된 바와 같이 스케일 팩터 v(n)에 의해 곱셈하고 예측 신호 를 합산함으로써 이러한 절대 재구성 레벨들 에 기초하여 ADPCM의 일반적인 경우에서 획득될 수 있다는 점에서 디코더와 동일한 방식으로 코더에서 사용되고, 도 2는 일반적인 임베디드-코드 ADPCM 디코더를 나타낸다. 이러한 레벨들은 이미 정의되고 디코더에 저장되고, 따라서, 코더는 임의의 부가적인 양자화 테이블을 코덱(코더 + 디코더)에 부가하지 않는다.
본 발명에 따른 개선 스테이지의 코딩은, 개선 스테이지가 샘플 당 몇몇의 비트들을 부가하는 경우들에 대해 매우 용이하게 일반화 가능하다. 이러한 경우에, 후속으로 정의되는 바와 같이, 개선 스테이지에서 사용되는 딕셔너리의 크기 Dk(n)은 간단히 2U이고, 여기서 U>1는 개선 스테이지의 샘플 당 비트들의 수이다.
도 3에 표현된 바와 같은 코더는, B 비트들의 경우의 코어 코딩 및 랭크 k의 적어도 하나의 개선 스테이지가 예상되는 임베디드-코드 코더 또는 계층적 코더를 도시한다. (306)으로 표현된 바와 같은 코딩의 개선 스테이지 k 이전의 코어 코딩 및 개선 스테이지들은 이전 임베디드 코더의 인덱스들 IB +k-1(n)을 형성하도록 연쇄된 스칼라 양자화 인덱스들을 전달한다.
도 3은 (306)에서 개선 코딩 이전에 임베디드 코딩을 나타내는 PCM/ADPCM 코딩 모듈(302)을 간단한 방식으로 예시한다.
이전의 임베디드 코딩의 코어 코딩은 "코어" 코딩 잡음을 성형하기 위해 (301)에서 결정된 마스킹 필터를 사용하여 선택적으로 수행될 수 있다. 이러한 타입의 코어 코딩의 예는 도 8을 참조하여 후속으로 설명된다.
따라서, 이러한 모듈(302)은, 누군가 실제로 도 1을 참조하여 기재된 것과 유사한 ADPCM 예측 코딩을 취급하는 경우에, 임베디드 코더의 인덱스들 IB +k-1(n)뿐만 아니라 예측 신호 및 스케일 팩터 v(n)를 전달한다.
PCM 코딩의 경우에, 모듈(302)은 임베디드 양자화 인덱스들 IB +k-1(n)을 간단히 전달한다. 또한, PCM 코딩이 및 v(n)=1을 취함으로써 ADPCM 예측 코딩의 특정 경우라는 것이 유의될 수 있다.
임베디드 양자화 인덱스들 IB +k-1(n) 및 절대 재구성 레벨들 뿐만 아니라, 적절하다면, 예측 신호 및 스케일 팩터 v(n)의 지식은, 양자화 값들의 딕셔너리를 구성하기 위한 모듈(303)에서 현재 개선 스테이지 k에 대한 양자화 값들 을 결정하는 것을 가능하게 한다. 이러한 딕셔너리 Dk(n)는 랭크 k의 개선 스테이지에 대한 "개선 양자화기"로서 본원에서 지칭되는 양자화기에 의해 사용된다.
따라서, 바람직한 실시예에 따라, ADPCM 코딩의 경우에, 딕셔너리의 양자화 값들이 다음의 방식으로 정의되고,
여기서, j=0 또는 1인 경우에 는 B+k 비트들의 임베디드 양자화기의 2 개의 가능한 양자화 값들이고, 이러한 값들은 미리 정의되고, 코더 및 디코더에 저장된다. 이전 스테이지 k-1의 딕셔너리 의 "분할"로부터 발생한 바와 같이 값 을 보는 것이 가능하다.
딕셔너리 Dk(n)의 2 개의 엘리먼트들이 IB +k-1에 의존한다는 것이 유의된다. 사실상, 이러한 딕셔너리는 다음과 같이 정의된 "절대 딕셔너리"의 서브세트이다.
"절대 딕셔너리"는 트리-구조의 딕셔너리이다. 인덱스 IB +k- 1는 스테이지 k의 가능한 양자화 값들 Dk(n)을 결정하기 위해 고려될 트리의 다양한 브랜치들을 컨디셔닝한다.
스케일 팩터 v(n)는 도 1에 예시된 바와 같은 ADPCM의 코어 스테이지에 의해 결정되고, 따라서, 개선 스테이지는 양자화 딕셔너리의 코드 워드들을 스케일링하기 위해 이러한 동일한 스케일 팩터를 사용한다.
본 발명의 일 실시예에서, 도 3의 코더는 모듈들(301 및 310)을 포함하지 않고, 즉, 임의의 코딩 잡음 성형 프로세싱에 대해 어떠한 제공도 이루어지지 않는다. 따라서, 이것은 양자화 모듈(306)에 의해 양자화된 입력 신호 x(n) 자체이다.
특정 실시예에서, 코더는 마스킹 필터를 계산하고 가중 필터 W(z) 또는 후속으로 기재된 예측 버전 WPRED(z)을 결정하기 위한 모듈(310)을 또한 포함한다. 마스킹 또는 가중 필터는 여기서 입력 신호 x(n)에 기초하여 결정되지만, 디코딩된 신호, 예를 들면, 이전 임베디드 코더의 디코딩된 신호 에 기초하여 매우 잘 결정될 수 있다. 마스킹 필터는 샘플마다 또는 샘플들의 블록마다 결정되거나 적응될 수 있다.
실제로, 본 발명에 따른 코더는 필터 W(z)에 의해 가중된 도메인에서 양자화를 사용함으로써, 즉, W(z)에 의해 필터링된 양자화 잡음의 에너지를 최소화함으로써 개선 스테이지의 코딩 잡음의 성형을 수행한다.
이러한 가중 필터는 필터링 모듈에 의해 (311)에서 및 더 일반적으로 입력 신호 x(n)의 지각적 가중 사전 프로세싱을 위한 모듈(310)에 의해 사용된다. 이러한 사전 프로세싱은 종래 기술들에서의 경우에서 있을 수 있는 바와 같이 에러 신호가 아닌 입력 신호 x(n)에 직접적으로 적용된다.
이러한 사전 프로세싱 모듈(310)은 개선 양자화기(307)의 입력에서 수정된 신호 x'(n)를 전달한다.
개선 스테이지 k의 양자화 모듈(307)은, 여기에 표현되지 않은 모듈에 의해, 현재 임베디드 코딩의 인덱스들(IB +k)을 형성하기 위해 이전 임베디드 코딩의 인덱스들(IB +k-1)로 연쇄될 양자화 인덱스 를 전달한다.
양자화 모듈은 입력으로서 신호 x'(n)를 수신하고, 로컬 디코딩 모듈(308)을 통과하고 x'(n) 및 사이의 직교 에러를 최소화함으로써 출력으로서 양자화된 값 (여기서 은 또는 중 어느 하나와 동일함)을 제공한다. 따라서, 적응 딕셔너리 Dk(n)는 직접적으로 스테이지 k의 양자화된 출력 값을 포함한다.
모듈(308)은 인덱스 의 역 양자화에 의해 입력 신호의 양자화된 값을 제공한다. 디코더에서, 스테이지 k의 역 양자화 및 연쇄된 인덱스: 를 직접적으로 사용함으로써 동일한 값이 간단히 획득된다.
이러한 양자화된 신호는 입력 에 대응하는 메모리들을 획득하기 위해 개선 스테이지의 가중 필터 W(z)의 메모리들을 업데이트하는데 사용된다. 통상적으로, 디코딩된 신호 의 현재 값은 더 최근의 메모리(또는 ARMA 타입 필터의 경우에 메모리들)로부터 감산된다.
따라서, 신호 x(n)의 양자화는 가중 도메인에서 이루어지고, 이것은 우리가 필터 W(z)에 의한 필터링 후에 x(n) 및 사이의 직교 에러를 최소화하는 것을 의미한다. 따라서, 개선 스테이지의 양자화 잡음은 이러한 잡음이 덜 들릴 수 있게 렌더링하도록 필터 1/W(z)에 의해 성형된다. 따라서, 가중된 양자화 잡음의 에너지가 최소화된다.
도 3에 제공된 블록(310)의 일반적인 실시예는, W(z)가 무한 임펄스 응답(IIR) 필터 또는 유한 임펄스 응답(FIR) 필터인 일반적인 경우를 도시한다. 신호 x'(n)는 W(z)를 사용하여 x(n)을 필터링함으로써 획득되고, 이어서, 양자화된 값 이 알려질 때, 필터링이 신호 에 대해 수행된 것처럼 필터 W(z)의 메모리들이 업데이트된다.
점선 화살표는 필터의 메모리들의 업데이팅을 나타낸다.
따라서, 도 3에 예시된 바와 같이 코더에서 구현된 단계들이 또한 표현된다. 실제로, 다음의 단계들이 여기서 알려진다.
- 이전 임베디드 코더의 인덱스들(IB +k-1)에 기초하여 단지 현재 스테이지 k의 절대 재구성 레벨들을 결정함으로써 현재 개선 스테이지 k에 대한 가능한 양자화 값들 을 (303)에서 획득하는 단계;
- 스테이지 k에 대한 양자화 인덱스 및 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호 를 형성하기 위해 상기 가능한 양자화 값들 에 기초하여 지각적 가중 프로세싱을 겪거나 겪지 않은 계층적 코더의 입력 신호(x(n) 또는 x'(n))를 (306)에서 양자화하는 단계.
도 3에 표현된 경우에, 입력 신호는 (306)에서의 양자화 단계 전에 수정된 입력 신호 x'(n)를 제공하기 위해 (301)에서 미리 결정된 가중 필터를 사용하여 (310)에서 지각적 가중 프로세싱을 겪는다.
도 4, 도 5 및 도 6은 이제 사전 프로세싱 블록(310)의 특정 실시예들을 설명한다.
이어서, 블록들(301, 302, 303, 306, 307 및 308)은 도 3을 참조하여 설명된 것들과 여전히 동일하다.
도 4는 유한 임펄스 응답(FIR)을 갖는 필터 W(z)=A'(z)를 갖는 사전 프로세싱 블록(310)의 제 1 실시예를 나타낸다.
이러한 실시예에서, 필터의 메모리는,
ND는 지각 필터 W(z)의 차수이다.
(302)에서, 입력 신호 x(n)는 임베디드 코더 B+k-1의 코딩 잡음을 성형하거나 이를 성형하지 않고 PCM/ADPCM 코딩 모듈(302)에 의해 코딩된다.
(303)에서, 적응 딕셔너리 Dk는 도 3을 참조하여 설명된 바와 같이, 예측 값 , ADPCM 적응 타입의 경우에 코어 스테이지의 스케일 팩터 v(n) 및 코딩 인덱스들 IB +k-1(n)의 함수로서 구성된다. 적응 딕셔너리 Dk는, 단일 개선 비트가 개선 스테이지 k에서 예상되는 특정 실시예에서, 다음의 2 개의 항들:
이러한 실시예에서, (301)에서 마스킹 필터를 계산하는 단계 및 예측들, 즉, 과거 샘플들만을 사용한 계산들에 기초하여 가중 필터 W(z) 및 그의 예측 버전 WPRED(z)을 결정하는 단계가 알려진다.
예측 필터의 정의를 여기서 상기해보자.
결과로서 신호 y(n)를 제공하여, 차수 4의 모두-제로 전달 함수(또한 FIR(Finite Impulse Response)로 명명됨) 를 갖는 비순환 필터를 사용하여 신호 x(n)를 필터링하는 경우를 예로서 취해보자. z 변환의 도메인에서, 수학식 은 계차 방정식 에 대응한다.
y(n)에 대한 이러한 표현식은 2 개의 부분들로 분할될 수 있고,
제 2 부분은 과거 입력 : 에만 의존하고, 따라서 이것은 선형 예측을 사용하여 유추에 의한 필터링의 예측 부분인 것으로 고려될 것이고, 여기서 이것은 이전 샘플들에 기초한 x(n)의 예측을 나타낸다.
이러한 제 2 부분은 샘플 인스턴트 n에 대해 "제로 입력 응답(ZIR)" 또는 아니면 사실상 일반화된 예측인 "링잉(ringing)"에 대응한다. 이러한 컴포넌트의 z-변환은, 인 경우에 이다.
계차 방정식은,
필터(ARMA(AutoRegressive Moving average) 필터)가 1 및 동일한 시간에서 영점들 및 극점들을 포함하는 경우에 동일하게 유지되고,
계차 방정식(이러한 예에서 A(z) 및 B(z)는 차수 4를 가짐)은,
본 경우에서, 도 4에서, 필터링을 혁신 및 예측 부분들로 분리함으로써, 에너지가 최소화되어야 하는 항은,
따라서, 스테이지 k의 개선 양자화기에 의해 양자화될 신호는,
여기서 및 는 예측 필터 를 사용하여 x(n) 및 를 필터링함으로써 획득된다. 이러한 2 개의 필터링들은 하나로 결합될 수 있고, 이어서 공통 필터 의 출력은 (예를 들면, 필터의 메모리를 업데이트함으로써) 일 것이다. 이어서, 필터링의 출력,
x'(n)의 양자화는 개선 스테이지 k의 양자화 인덱스 및 스테이지 k의 디코딩된 신호 를 제공하기 위해 개선 스테이지 k의 양자화 모듈에 의해 (306)에서 수행된다. 모듈(307)은, x'(n) 및 양자화 값들 및 사이의 직교 에러를 최소화는 적응 딕셔너리 Dk의 코드 워드의 인덱스 (예시적인 예시에서 1 비트)를 제공한다. 이러한 인덱스는 스테이지 k의 코드 워드의 인덱스 IB +K를 디코더에서 획득하기 위해 이전 임베디드 코더의 인덱스 IB +K- 1와 연쇄되어야 한다. 모듈(308)은 인덱스 의 역 양자화에 의해 입력 신호의 양자화된 값, 을 제공한다.
(409)에서, 스테이지 k를 포함하는 코더의 코딩 잡음 을 계산하는 단계는 현재 샘플들(n=0)에 대해 스테이지 k의 합성된 신호 로부터 입력 신호 x(n)를 감산함으로써 수행된다.
따라서, 블록(310)을 사전 프로세싱하는 동작들은 입력 신호 x(n)의 지각적 가중을 수행함으로써 스테이지 k의 개선 코딩 잡음을 성형하는 것을 가능하게 한다. 이것은 지각적으로 가중되고 종래 기술의 방식들에서의 경우에서와 같이 에러 신호가 아닌 입력 신호 자체이다.
도 5는 본 실시예에서 전달 함수, 를 갖는 ARMA(AutoRegressive Moving Average) 타입의 필터링을 사용하는 사전 프로세싱 모듈의 또 다른 예시적인 실시예를 예시한다.
도 5에 따른 동작들은 다음과 같이 함께 연결된다.
- B+k-1의 PCM/ADPCM의 임베디드 코더에 의한 입력 신호 x(n)의 (302)에서의 코딩, 및 선택적으로 코딩 잡음을 성형하기 위해 (301)에서 결정된 마스킹 필터를 사용하는 코딩 잡음의 성형;
이러한 단계들은 도 3을 참조하여 설명된 것과 동등하다.
사전 프로세싱 모듈(310)은, 필터링된 재구성된 잡음의 샘플들에 기초하여 (510)에서 계산된 예측 을 합산하고, 재구성된 잡음에 기초하여 (511)에서 계산된 예측 을 도출함으로써 필터링된 양자화 잡음 의 예측 신호 를 (512)에서 계산하는 단계를 포함한다.
수정된 신호 x'(n)를 양자화하는 단계는 도 3 및 도 4를 참조하여 설명된 것과 동일한 방식으로 양자화 모듈(306)에 의해 수행된다.
사전 프로세싱 블록(310)의 모듈들에 의해 (505, 509, 510, 511, 512 및 513)에서 수행되는 모든 단계들은 개선 코딩 스테이지 k에 대한 코딩 잡음을 성형하는 것을 가능하게 한다. 이어서, 잡음의 이러한 성형은, 결국 잡음 성형의 더 양호한 정확성을 제공하는 ARMA 필터를 구성하는 2 개의 예측 필터들에 의해 수행된다.
도 6은, 여기서 필터링된 재구성된 신호 가 계산되는 방식에서 차이가 존재하는 사전 프로세싱 블록(310)의 또 다른 실시예를 예시한다. 필터링된 재구성된 신호 는 여기서 (614)에서 신호 x'(n)로부터 재구성된 신호 를 감산함으로써 획득된다.
도 7은 코어 코딩으로부터 발생된 예측 신호 를 상이하게 프로세싱함으로써 신호 x'(n)를 양자화하는 단계(306)에 대한 대안적인 실시예를 예시한다. 이러한 실시예에는, 도 3에 제공되지만 도 4, 도 5 및 도 6에 기재된 사전 프로세싱 블록들과 명백히 통합될 수 있는 예시적인 사전 프로세싱 블록(310)이 제공된다. 도 7에 따른 동작들은 다음과 같이 함께 연결된다.
- 마스킹 필터의 (301)에서의 계산 및 가중 필터 W(z) 또는 그의 예측 버전 WPRED(z)의 결정;
- 선택적으로 코딩 잡음을 성형하기 위해 (301)에서 결정된 마스킹 필터를 사용하는 코딩 잡음의 성형과 함께, B+k-1 비트들의 PCM/ADPCM 타입의 임베디드 코더에 의한, 입력 신호 x(n)의 (302)에서의 코딩;
- 코어 스테이지(ADPCM 코딩의 경우에)의 스케일 팩터 v(n) 및 스테이지 k에 앞서는 임베디드 코딩의 양자화 인덱스들 IB +k-1(n)의 함수로서 적응 딕셔너리 Dk' ( 및 );
- 개선 양자화기의 수정된 입력 신호 x'(n)를 획득하기 위해 (311)에서 W(z)를 사용하여 신호 x(n)를 필터링 ― 값들은 필터 W(z)의 메모리들로서 입력 신호 에 대응함 ― ;
모듈(707)은 적응 딕셔너리 Dk'의 코드 워드의 인덱스 (예시적인 예시에서 1 비트)를 제공하고, 이것은 x"(n) 및 코드 워드들 및 사이의 직교 에러를 최소화한다. 이러한 인덱스는 스테이지 k를 포함하는 현재 임베디드 코딩의 인덱스 IB +k를 디코더에서 획득하기 위해 이전 임베디드 신호의 인덱스 IB+k-1와 연쇄되어야 한다.
모듈(708)은 인덱스 의 역 양자화에 의해 신호 x"(n)의 양자화된 값 을 제공한다. 모듈(703)은 양자화기로부터의 예측 신호 및 출력 신호를 함께 합산함으로써 스테이지 k의 양자화된 신호 를 계산한다.
마지막으로, 필터 W(z)의 메모리들을 업데이트하는 단계는 입력 에 대응하는 메모리들을 획득하기 위해 (311)에서 수행된다. 통상적으로, 디코딩된 신호의 현재 값 은 더 최근의 메모리(또는 ARMA 타입 필터의 경우에 메모리들)로부터 감산된다.
도 7의 해결책은 도 3의 것과 품질 및 저장에 관하여 동등하지만, 개선 스테이지가 1보다 많은 비트를 사용하는 경우에 더 적은 계산들을 요구한다. 실제로, 예측된 값 을 모든 코드 워드들(>2)에 합산하는 대신에, 우리는 양자화된 값 을 리트리브(retrieve)하기 위해 양자화 전에 단지 하나의 감산 및 단지 하나의 합산을 한다. 따라서, 복잡성이 감소된다.
또 다른 대안적인 실시예가 도 7b에 예시된다. 여기서, 적응 딕셔너리 Dk"는 수정된 입력 신호로부터 스테이지 k의, 적절하다면 스케일 팩터 v(n)에 의해 가중된 재구성 레벨들을 감산함으로써 구성된다( 및 ). 이러한 통상적인 경우에, 그것은 직교 에러를 최소화함으로써 양자화된 예측 신호 이다. 다음에, 메모리들을 업데이트하기 위한 디코딩된 신호 는 다음의 방식: 으로 획득된다.
도 8은 코어 코딩에서 잡음의 성형의 가능한 구현을 상세히 열거한다. 모듈(801)은 잡음 성형 필터의 계수들 또는 을 계산한다. 모듈(802)은 이전 샘플 인스턴트들 n-1, n-2,...의 코딩 에러 를 계산한다. 이러한 에러는 예측 신호 를 획득하기 위해 예측 필터 HPRED(z)에 의해 필터링된다. HPRED(z)에 대응하는 필터 H(z)는, 예를 들면, 또는 중 어느 하나와 동일할 수 있다.
PCM/ADPCM 코더-PCM/ADPCM 디코더 체인의 입력 및 출력 사이의 차이 는, 이러한 코더들이 더 많은 수의 레벨들로 양자화기를 사용할 때 입력 신호가 정지된 것으로 가정하여 단기간에서 화이트 잡음인 것으로 고려될 수 있다.
인 예를 취하라. PCM/ADPCM 일반적인 코딩 체인의 입력 신호는 기여의 감산 에 의해 수정되다. 이것의 결과로서 완전한 체인의 코딩 잡음 이 필터 에 의해 성형될 것이고, , 여기서 수학식들에 관련하여 증명이 존재하고,
사실상, 필터 는 (인스턴트 n에 대해) z0에서 제로 계수를 갖고, 따라서 이것은 디코딩된 값 이 알려질 때 PCM/ADPCM 프로세싱의 종료에서만 그의 부분에 대해 알려지는 에 대해 작동하는 예측자이다.
도 8의 동작들의 시퀀스는 다음과 같다.
- 일반적인 PCM/ADPCM 코더/디코더에 의한 수정된 신호 x'(n)의 (805-806)에서의 코딩/디코딩. 로컬 디코더는 표준들 G711, G721, G726, G.722 또는 아니면 G.727의 PCM/ADPCM 타입의 일반적인 로컬 디코더일 수 있다.
둘러싸인 부분(807)은, 일반적인 코더/디코더 체인의 입력을 수정하는 잡음 성형 사전 프로세싱처럼 보이고 잡음 성형 사전 프로세싱으로서 구현될 수 있다.
본 발명에 따른 코더의 예시적인 실시예가 이제 도 10을 참조하여 설명된다.
하드웨어의 관점에서는, 본 발명의 의미 내에서 위의 실시예에 따라 기술된 바와 같은 코더(900)는 통상적으로 저장 및/또는 워크 메모리를 포함하는 메모리 블럭 BM과 협력하는 프로세서 μP 뿐만 아니라, 예를 들면, 양자화 재구성 레벨들의 딕셔너리 또는 도 3, 도 4, 도 5, 도 6 및 도 7을 참조하여 기술된 바와 같은 코딩 방법의 구현을 위해 필요한 임의의 다른 데이터를 저장하기 위한 수단으로서 상술된 버퍼 메모리 MEM를 포함한다. 이러한 코더는 디지털 신호 x(n)의 연속적인 프레임들을 입력으로서 수신하고, 연쇄된 양자화 인덱스들 IB +K를 전달한다.
메모리 블럭 BM은, 코드 명령들이 코더의 프로세서 μP 에 의해 실행되는 경우 본 발명에 따른 방법의 단계들 및 특히 이전 임베디드 코더의 인덱스들에 기초하여 단지 현재 스테이지 k의 절대 재구성 레벨들을 결정함으로써 현재 개선 스테이지 k에 대한 가능한 양자화 값들을 획득하는 단계, 스테이지 k에 대한 양자화 인덱스 및 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호를 형성하기 위해 상기 가능한 양자화 값들에 기초하여 지각적인 가중 프로세싱을 겪거나 겪지 않은 계층 코더의 입력 신호(x(n) 또는 x'(n))를 양자화하는 단계의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 포함할 수 있다.
더 일반적인 방식에서, 컴퓨터 또는 프로세서에 의해 판독 가능하고, 가능하게는 코더에 통합되고, 선택적으로 제거 가능한 저장 수단은 본 발명에 따른 코딩 방법을 구현하는 컴퓨터 프로그램을 저장한다.
도 3 내지 도 7은, 예를 들면, 그러한 컴퓨터 프로그램의 알고리즘을 예시할 수 있다.
Claims (8)
- B 비트들을 갖는 코어 코딩 스테이지 및 적어도 하나의 현재 개선 코딩 스테이지 k를 포함하는 계층적 코더에서 디지털 오디오 입력 신호(x(n))를 코딩하기 위한 방법으로서,
상기 코어 코딩 및 상기 현재 스테이지 k 이전의 개선 스테이지들의 코딩은 이전 임베디드 코더의 인덱스들(IB +k-1)을 형성하도록 연쇄된 양자화 인덱스들을 전달하고, 상기 방법은,
단지 상기 현재 스테이지 k의 절대 재구성 레벨들() 및 상기 이전 임베디드 코더의 인덱스들(IB +k-1)에 기초하여 상기 현재 개선 스테이지 k에 대한 가능한 양자화 값들()을 획득하는 단계(303);
상기 스테이지 k에 대한 양자화 인덱스() 및 상기 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호()를 형성하기 위해 상기 가능한 양자화 값들()에 기초하여, 지각적 가중 프로세싱을 겪거나 겪지 않은 상기 계층적 코더의 입력 신호(x(n) 또는 x'(n))를 양자화하는 단계(306)를 포함하는,
디지털 오디오 입력 신호를 코딩하기 위한 방법. - 제 1 항에 있어서,
상기 개선 스테이지 k에 대한 가능한 양자화 값들은 적응 타입의 코어 코딩으로부터 발생된 예측 값 및 스케일 팩터를 더 포함하는,
디지털 오디오 입력 신호를 코딩하기 위한 방법. - 제 2 항에 있어서,
상기 개선 스테이지 k에서 양자화될 수정된 입력 신호(x"(n))는, 상기 적응 타입의 코어 코딩으로부터 발생된 예측 값이 감산되는 지각적으로 가중된 입력 신호인,
디지털 오디오 입력 신호를 코딩하기 위한 방법. - 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 지각적 가중 프로세싱은 ARMA 타입의 필터를 형성하는 예측 필터들에 의해 수행되는,
디지털 오디오 입력 신호를 코딩하기 위한 방법. - B 비트들을 갖는 코어 코딩 스테이지 및 적어도 하나의 현재 개선 코딩 스테이지 k를 포함하는, 디지털 오디오 입력 신호(x(n))의 계층적 코더로서,
상기 코어 코딩 및 상기 현재 스테이지 k 이전의 개선 스테이지들의 코딩은 이전 임베디드 코더의 인덱스들(IB +k-1)을 형성하도록 연쇄된 양자화 인덱스들을 전달하고, 상기 방법은,
상기 이전 임베디드 코더의 인덱스들(IB +k-1)에 기초하여 단지 상기 현재 스테이지 k의 절대 재구성 레벨들을 결정함으로써 상기 현재 개선 스테이지 k에 대한 가능한 양자화 값들()을 획득하기 위한 모듈(303);
상기 스테이지 k에 대한 양자화 인덱스() 및 상기 가능한 양자화 값들 중 하나에 대응하는 양자화된 신호()를 형성하기 위해 상기 가능한 양자화 값들()에 기초하여, 지각적 가중 프로세싱을 겪거나 겪지 않은 상기 계층적 코더의 입력 신호(x(n) 또는 x'(n))를 양자화하기 위한 모듈(306)을 포함하는,
디지털 오디오 입력 신호의 계층적 코더. - 코드 명령들이 프로세서에 의해 실행될 때, 제 1 항 내지 제 5 항 중 어느 한 항에 청구된 바와 같은 코딩 방법의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1060631 | 2010-12-16 | ||
FR1060631A FR2969360A1 (fr) | 2010-12-16 | 2010-12-16 | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique |
PCT/FR2011/052959 WO2012080649A1 (fr) | 2010-12-16 | 2011-12-13 | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140005201A true KR20140005201A (ko) | 2014-01-14 |
Family
ID=44356295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20137018623A KR20140005201A (ko) | 2010-12-16 | 2011-12-13 | 계층적 인코더에서 개선 스테이지의 개선된 인코딩 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20130268268A1 (ko) |
EP (1) | EP2652735B1 (ko) |
JP (1) | JP5923517B2 (ko) |
KR (1) | KR20140005201A (ko) |
CN (1) | CN103370740B (ko) |
FR (1) | FR2969360A1 (ko) |
WO (1) | WO2012080649A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
EP2980793A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, system and methods for encoding and decoding |
CN105679312B (zh) * | 2016-03-04 | 2019-09-10 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
WO2020086067A1 (en) * | 2018-10-23 | 2020-04-30 | Nine Energy Service | Multi-service mobile platform for well servicing |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100261253B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
EP1483759B1 (en) * | 2002-03-12 | 2006-09-06 | Nokia Corporation | Scalable audio coding |
ATE531037T1 (de) * | 2006-02-14 | 2011-11-15 | France Telecom | Vorrichtung für wahrnehmungsgewichtung bei der tonkodierung/-dekodierung |
WO2008151408A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
EP2171713B1 (fr) * | 2007-06-15 | 2011-03-16 | France Telecom | Codage de signaux audionumériques |
ES2416056T3 (es) * | 2007-07-06 | 2013-07-30 | France Telecom | Codificación jerárquica de señales digitales de audio |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
CA2777601C (en) * | 2009-10-15 | 2016-06-21 | Widex A/S | A hearing aid with audio codec and method |
FR2960335A1 (fr) * | 2010-05-18 | 2011-11-25 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
FR2981781A1 (fr) * | 2011-10-19 | 2013-04-26 | France Telecom | Codage hierarchique perfectionne |
-
2010
- 2010-12-16 FR FR1060631A patent/FR2969360A1/fr not_active Withdrawn
-
2011
- 2011-12-13 KR KR20137018623A patent/KR20140005201A/ko not_active Application Discontinuation
- 2011-12-13 JP JP2013543859A patent/JP5923517B2/ja not_active Expired - Fee Related
- 2011-12-13 CN CN201180067643.2A patent/CN103370740B/zh not_active Expired - Fee Related
- 2011-12-13 EP EP11811097.2A patent/EP2652735B1/fr not_active Not-in-force
- 2011-12-13 WO PCT/FR2011/052959 patent/WO2012080649A1/fr active Application Filing
- 2011-12-13 US US13/995,014 patent/US20130268268A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP2652735B1 (fr) | 2015-08-19 |
US20130268268A1 (en) | 2013-10-10 |
JP2014501395A (ja) | 2014-01-20 |
EP2652735A1 (fr) | 2013-10-23 |
FR2969360A1 (fr) | 2012-06-22 |
WO2012080649A1 (fr) | 2012-06-21 |
CN103370740A (zh) | 2013-10-23 |
JP5923517B2 (ja) | 2016-05-24 |
CN103370740B (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2326450C2 (ru) | Способ и устройство для векторного квантования с надежным предсказанием параметров линейного предсказания в кодировании речи с переменной битовой скоростью | |
JP5474088B2 (ja) | スケーラブルエンコーダでのノイズ変換を伴う音声デジタル信号の符号化 | |
JP5085543B2 (ja) | 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用 | |
KR101344174B1 (ko) | 오디오 신호 처리 방법 및 오디오 디코더 장치 | |
US7684981B2 (en) | Prediction of spectral coefficients in waveform coding and decoding | |
US7693709B2 (en) | Reordering coefficients for waveform coding or decoding | |
JP5710476B2 (ja) | スーパーフレームにおいてlpcフィルタの量子化および逆量子化を行うためのデバイスおよび方法 | |
JP5143193B2 (ja) | スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法 | |
WO2002080149A1 (en) | Noise suppression | |
KR20160144978A (ko) | 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더 | |
KR20140005201A (ko) | 계층적 인코더에서 개선 스테이지의 개선된 인코딩 | |
KR100789368B1 (ko) | 잔차 신호 부호화 및 복호화 장치와 그 방법 | |
EP2936484A1 (en) | Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |