KR20120061826A - 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당 - Google Patents

디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당 Download PDF

Info

Publication number
KR20120061826A
KR20120061826A KR1020127003329A KR20127003329A KR20120061826A KR 20120061826 A KR20120061826 A KR 20120061826A KR 1020127003329 A KR1020127003329 A KR 1020127003329A KR 20127003329 A KR20127003329 A KR 20127003329A KR 20120061826 A KR20120061826 A KR 20120061826A
Authority
KR
South Korea
Prior art keywords
coding
decoding
bits
band
module
Prior art date
Application number
KR1020127003329A
Other languages
English (en)
Other versions
KR101703810B1 (ko
Inventor
데이비드 비레트테
피에르 베르테
Original Assignee
프랑스 텔레콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프랑스 텔레콤 filed Critical 프랑스 텔레콤
Publication of KR20120061826A publication Critical patent/KR20120061826A/ko
Application granted granted Critical
Publication of KR101703810B1 publication Critical patent/KR101703810B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

본 발명은 제 1 주파수 대역에서의 코어 코딩/디코딩 및 제 2 주파수 대역에서의 대역 확장 코딩/디코딩을 포함하는 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위해 개선 코딩/디코딩의 이진 할당의 방법에 관련된다. 본 발명에 따른 이 방법은, 개선 코딩/디코딩을 위해 할당되는 미리 결정된 비트들의 수에 대하여, 코딩/디코딩의 제 1 모드에 따라, 그리고 제 1 주파수 대역에서의 코어 코딩/디코딩을 보정하기 위한 코딩/디코딩에 제 1 비트들의 수(
Figure pct00062
)가 할당되고, 코딩/디코딩의 제 2 모드에 따라, 그리고 제 2 주파수 대역에서의 확장 코딩/디코딩을 개선하기 위한 개선 코딩/디코딩에 제 2 비트들의 수(
Figure pct00063
)가 할당되게 된다. 본 발명은 또한 이 방법을 구현하는 할당 모듈 및 이 모듈을 포함하는 코더, 디코더에 관련된다.

Description

디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당{ALLOCATION OF BITS IN AN ENHANCEMENT CODING/DECODING FOR IMPROVING A HIERARCHICAL CODING/DECODING OF DIGITAL AUDIO SIGNALS}
본 발명은 사운드 데이터의 처리를 위한 이진 할당의 방법에 관한 것이다.
이 처리는 오디오 주파수 신호들(음성, 음악 등)과 같은 디지털 신호들의 전송 및/또는 저장에 특히 적합하다.
보다 구체적으로, 본 발명은 코어 비트레이트와 하나 이상의 개선 계층(들)을 포함함으로 인해 이른바 "계층적" 이진 스트림을 생성하는 계층적 코딩(또는 "스케일러블(scalable)" 코딩)에 관한 것이다(48, 56, 및 64 kbit/s에서 G.722에 따라 표준화된 코딩은 통상적으로 비트레이트-스케일러블 한 반면에, UIT-T G.729.1 및 MPEG-4 CELP 코덱들은 비트레이트 및 대역폭 둘 다의 견지에서 스케일러블함).
이하, 코딩될 오디오 신호에 관한 정보를 계층적 서브셋들로 배분함으로써(이 정보가 오디오의 연주(rendition)의 품질의 관점에서 중요도의 순서에 따라 이용될 수 있는 방식으로), 가변 비트레이트들을 제공하는 성능을 갖는 계층적 코딩이 상세히 설명된다. 이 순서를 결정하는데 고려되는 기준은 코딩된 오디오 신호의 품질의 최적화의(또는, 오히려 더 적은 열화의) 기준이다. 계층적 코딩은 특히 이종(heterogeneous)의 네트워크들 또는 시간-가변 가용 비트레이트들을 표출하는 네트워크들 상의 전송, 또는 그 밖에 가변 성능들을 표출하는 단말기들로 향하는 전송에 특히 적합하게 된다.
계층적(또는 "스케일러블") 오디오 코딩의 기본적인 개념은 다음과 같이 기술될 수 있다.
이진 스트림은 기저 계층 및 하나 이상의 개선 계층들을 포함한다. 기저 계층은 이른바 "코어 코덱(core codec)"이라 불리는 고정된-비트레이트 코덱에 의해 생성되어, 코딩의 최소 품질을 보장한다. 이 계층은 수용 가능한 품질 레벨을 유지하도록 디코더에 의해 수신되어야만 한다. 개선 계층들은 품질을 개선하도록 기능한다. 그러나 이들이 디코더에 의해 모두 수신되지는 않는 상황이 발생할 수 있다.
계층적 코딩의 주요 이점은 단순한 "이진 스트림의 잘라버림(truncation of the binary stream)"에 의한 비트레이트의 적응(adaptation)을 허용한다는 것이다. 계층들의 수(다시 말하면, 이진 스트림의 가능한 잘라버림들의 수)는 코딩의 입도(granularity)를 정의한다. 이진 스트림이 몇 개의(대략 2 내지 4의) 계층들을 포함하는 경우 "높은 입도" 코딩이라 말하고, 예를 들어, 대략 1 내지 2kbit/s의 증가를 허용하는 경우 "미세 입도(fine granularity)"라고 말한다.
전화 대역에서 CELP 타입의 코어 코더를 통한 비트레이트-스케일러블 코딩 및 대역폭-스케일러블 코딩의 기법들 및 넓어진 대역(widedned band)의 하나 이상의 개선 계층(들)이 보다 구체적으로 후술된다. 이러한 시스템들의 예는 미세 정밀도를 갖는 8 내지 32kbit/s의 표준 UIT-T G.729.1에서 주어진다. G.729.1 코딩/디코딩 알고리즘은 이후에 요약된다.
* G.729.1 코더에 관한 리마인더들
G.729.1 코더는 UIT-T G.729의 확장이다. 이것은 대역이 대화 서비스들을 위해 8 내지 32 kbit/s의 비트레이트를 갖는, 협 대역(50-4000 Hz) 내지 넓어진 대역(50-7000 Hz)의 범위에 있는 신호를 생성하는 수정된 G.729-코어 계층적 코더를 수반한다. 이 코덱은 G.729 코덱을 이용하는 기존의 보이스 오버 IP 장비와 호환 가능하다.
G.729.1 코더는 도 1에서 개략적으로 도시된다. 16 kHz로 샘플링된 넓어진 대역 입력 신호(SWB)는 QMF("Quadrature Mirror Filter") 필터링에 의해 우선 2개의 서브-대역들로 분해된다. 저 대역(0-4000Hz)은 저역-통과 필터링(LP)(블록 100) 및 데시메이션(decimation)(블록 101)에 의해 획득되고, 고 대역(4000-8000 Hz)은 고역-통과 필터링(HP)(블록 102) 및 데시메이션(블록 103)에 의해 획득된다. 필터들(LP 및 HP)의 길이는 64이다.
저 대역은 8 및 12 kbit/s의 협-대역 CELP 코딩(블록 105) 이전에 신호(SLB)를 획득하기 위해 50 Hz 미만의 컴포넌트를 제거하는 고역 통과 필터(HP)(블록 104)에 의해 사전 처리된다. 이 고역-통과 필터링은 유용한 대역이 간격 50-7000 Hz를 커버하는 것으로서 정의된다는 사실을 고려한다. 협-대역 CELP 코딩은 제 1 스테이지로서 사전처리 필터 없이 수정된 G.729 코딩 및 제 2 스테이지로서 부가적인 고정된 CELP 딕셔너리(dictionary)를 포함하는 케스케이드(cascade) CELP 코딩이다.
고 대역은 우선 데시메이션(블록 103)과 조합된 고역-통과 필터(블록 102)로 인한 에일리어싱(aliasing)를 보상하도록 사전처리(블록 106)된다. 그 후, 고 대역은 신호(SHB)를 획득하기 위해 고 대역의 3000과 4000 Hz 사이의 컴포넌트(다시 말하면, 원래 신호에서 7000과 8000 Hz 사이의 컴포넌트들)를 제거하는 저역-통과 필터(블록 107)에 의해 필터링된다. 그 후, 파라메트릭(parametric) 대역 확장(블록(108)이 수행된다.
도 1에 따른 G.729.1 인코더의 중요한 특징은 다음과 같다: 저 대역의 에러 신호(dLB)는 CELP 코더(블록 105)의 출력에 기초하여 계산(블록 109)되고, (G.729.1 표준에서 "Time Domain Aliasing Cancellation" 타입에 대한 TDAC의) 예측성 변형 코딩은 블록(110)에서 수행된다. 도 1을 참조하면, 특히 TDAC 인코딩이 저 대역 상의 에러 신호 및 고 대역 상의 필터링된 신호 둘 다에 적용된다는 것을 알 수 있다.
부가적인 파라미터들은 블록(111)에 의해 동질성의(homologous) 디코더로 전송될 수 있으며, 이 블록(111)은 만약 있다면, 소거된 프레임들을 재구성할 목적으로 "FEC(Frame Erasure Concealment)"라 칭하는 처리를 수행한다.
코딩 블록들(105, 108, 110 및 111)에 의해 생성된 다양한 이진 스트림들은 최종적으로 멀티플렉싱 블록(112)의 계층적 이진 트레인으로서 멀티플렉싱되고 구조화된다. 코딩은 20ms의 샘플들(또는 프레임들)의 블록 당, 즉 프레임당 320 샘플들로 수행된다.
그러므로 G.729.1 코덱은,
- 캐스케이스 CELP 코딩,
- TDBWE("Time Domain Bandwidth Extension") 타입의, 모듈(108)에 의한 파라메트릭 대역 확장, 및
- MDCT("Modified Discrete Cosine Transform") 타입의 변형 이후에 적용되는 예측성 TDAC 변형 코딩
을 포함하는 3개의 코딩 단계들과 같은 아키텍처를 갖는다.
* G.729.1 디코더에 관한 리마인더들
G.729.1 디코더는 도 2에서 예시된다. 각각의 20 ms 프레임을 기술하는 비트들은 블록(200)에서 디멀티플렉싱된다.
8 및 12 kbit/s의 계층들의 이진 스트림은 협-대역 합성(0-4000 Hz)을 생성하기 위해 CELP 디코더(블록 201)에 의해 이용된다. 14 kbit/s의 계층과 연관된 이진 스트림의 그 부분은 대역 확장 모듈(블록 202)에 의해 디코딩된다. 14 kbit/s 를 초과하는 비트레이트들과 연관된 이진 스트림의 그 부분은 TDAC 모듈(블록 203)에 의해 디코딩된다. 사전-에코(pre-echo)들 및 사후-에코들의 처리는 블록들(204 및 207)은 물론, 저 대역의 개선(블록 205) 및 사후-처리(206)에 의해 수행된다.
16 kHz로 샘플링된 넓어진-대역 출력 신호(
Figure pct00001
)는 역 에일리어싱(블록 208)을 포함해서 합성 QMF 필터들의 뱅크(블록들 209, 210, 211, 212 및 213)에 의해 획득된다.
변형-코딩 계층의 설명은 후술된다.
* G.729.1 코더의 TDAC 변형 기반 코더에 관한 리마인더들
G.729.1 코더에서 TDAC 타입의 변형 코딩은 도 3에서 예시된다.
필터 WLB(z)(블록 300)은 저-대역 에러 신호(dLB)에 적용되는, 이득 보상을 갖는 지각 가중 필터(perceptual weighting filter)이다. MDCT 변형들은 그 후,
- 지각적으로 필터링된, 차이 신호의 MDCT 스펙트럼(
Figure pct00002
) 및
- 고 대역의 원래 신호의 MDCT 스펙트럼(SHB)
을 획득하기 위해 계산(블록 301 및 302)된다.
이들 MDCT 변형들(블록 301 및 302)은 8 kHz(160 계수들)로 샘플링된 신호의 20 ms에 적용된다. 이에 따라, 융합(fusion) 블록(303)으로부터 발생하는 스펙트럼 Y(k)은 2 x 160 즉, 320 계수들을 포함한다. 이는 다음과 같이 정의된다.
Figure pct00003
이 스펙트럼은 18개의 서브-대역들로 분할되고, 서브-대역 j는
Figure pct00004
로 표시된 다수의 계수들이 할당된다. 서브-대역들로의 이 슬라이싱(slicing)은 아래의 표 1에서 특정된다.
따라서, 서브-대역 j는
Figure pct00005
를 갖는 계수 Y(k)를 포함한다.
7000 Hz - 8000 Hz 주파수 대역에 대응하는 계수들(280-319)은 코딩되지 않고, 이들은 코덱의 통과 대역이 50-7000 Hz이므로 디코더에서 0으로 설정된다는 것에 유념한다.
Figure pct00006
TDAC 코딩에서 서브-대역들의 제한치들 및 크기
스펙트럼 엔벨로프
Figure pct00007
는 다음의 공식에 따라 블록(304)에서 계산된다.
Figure pct00008
여기서,
Figure pct00009
.
스펙트럼 엔벨로프는 블록(305)에서 가변 비트레이트로 코딩된다. 이 블록(305)은
Figure pct00010
(여기서 j=0,...,17)로 표시되고, 단순 스칼라 양자화
Figure pct00011
에 의해 획득되는 양자화된 정수값들을 생성하며, 여기서 표시 "round"는 제약
Figure pct00012
를 갖고 가장 근접한 정수로의 반올림을 나타낸 다.
이 양자화된 값(
Figure pct00013
)은 비트 할당 블록(306)에 전송된다.
스펙트럼 엔벨로프의 코딩 그 자체는 저 대역(
Figure pct00014
, 여기서 j=0,...,9) 및 고대역(
Figure pct00015
, 여기서 j=10,...,17)에 대해, 블록(305)에 의해 개별적으로 추가로 수행된다. 각 대역에서, 2개의 타입들의 코딩은 정해진 기준에 따라 선택될 수 있으며, 보다 구체적으로, 값들(
Figure pct00016
)은,
- 이른바 "차동 허프먼(differential Huffman)" 코딩에 의해 코딩될 수 있거나, 또는
- 자연 이진 코딩(natural binary coding)에 의해 코딩될 수 있다.
비트(0 또는 1)는 선택된 코딩 모드를 표시하기 위해 디코더에 전송된다.
각 서브-대역의 양자화를 위해 각 서브-대역에 할당된 비트들의 수는 블록(305)으로부터 발생하는 양자화된 스펙트럼 엔벨로프에 기초하여 블록(306)에서 결정된다.
수행되는 비트 할당은 서브-대역 당 할당된 정수개의 비트들 및 비트들의 최대 수가 초과되지 않는다는 제약을 고수하면서 2차 에러(quadratic error)를 최소화한다. 그 후 서브-대역들의 스펙트럼 콘텐트는 구형 벡터 양자화(블록 307)에 의해 코딩된다.
그 후 블록들(305 및 307)에 의해 생성된 다양한 이진 스트림들은 멀티플렉싱 블록(308)의 계층적 이진 트레인으로서 멀티플렉싱 및 구조화된다.
* G.729.1 디코더의 변형 기반 디코더에 관한 리마인더
G.729.1 디코더의 TDAC 타입 변형 기반 디코딩의 단계는 도 4에서 예시된다.
인코더(도 3)에 대칭적인 방식으로, 디코딩된 스펙트럼 엔벨로프(블록 401)는 비트들의 할당(블록 402)을 리트리브(retrieve)하는 것을 가능하게 한다. 엔벨로프 디코딩(블록 401)은 블록(305)에 의해 생성된 (멀티플렉싱된) 이진 트레인에 기초하여 스펙트럼 엔벨로프(
Figure pct00017
, 여기서 j=0,...,17)의 양자화된 값들을 재구성하고, 이로부터 디코딩된 엔벨로프를 추론한다:
Figure pct00018
서브-대역들 각각의 스펙트럼 콘텐트는 역 구형 벡터 양자화(블록 403)에 의해 리트리브된다. 비트들의 충분한 "버짓(budget)"의 결여로, 전송되지 않은 서브-대역들은 대역 확장 블록(도 2의 블록 202)에 의해 출력된 신호의 MDCT 변형에 기초하여 외삽(블록 404)된다.
스펙트럼 엔벨로프의 함수로서 이 스펙트럼(블록 405)의 업그레이딩 및 사후-처리(블록 406) 이후에, MDCT 스펙트럼은 2개로, 즉
- 지각적으로 필터링된, 저-대역 디코딩된 차이 신호의 스펙트럼(
Figure pct00019
)에 대응하는 160개의 제 1 계수들,
- 고-대역 디코딩된 원래 신호의 스펙트럼(
Figure pct00020
)에 대응하는 160개의 후속 계수들
로 분할된다(블록 407).
이 2개의 스펙트럼들은 IMDCT(블록 408 및 블록 410)로 표시된 역 MDCT 변형에 의해 시간적인 신호들로 변형되고, 역 지각 가중(
Figure pct00021
로 표시된 필터)은 역 변환에 기인하여 발생하는 신호(
Figure pct00022
)에 적용된다(블록 409).
서브-대역들으로의 비트들의 할당(도 3의 블록 306 또는 도 4의 블록 402)은 추후에 보다 구체적으로 기술된다.
블록들(306 및 402)은 값들(
Figure pct00023
)에 기초하여 동일한 동작을 수행한다. 그러므로 추후에 블록(306)의 동작만이 기술된다.
이진 할당의 목적은
Figure pct00024
로 표시된 비트들의 특정한(가변) 버짓을 각각의 서브-대역들 사이에서 배분하기 위한 것이며, 여기서,
Figure pct00025
이고, 여기서
Figure pct00026
는 스펙트럼 엔벨로프의 코딩에 의해 이용된 비트들의 수이다.
할당의 결과는 전반적인 제약으로서
Figure pct00027
를 갖고 각각의 서브-대역들에 할당된,
Figure pct00028
로 표시된 정수개의 비트들이다.
G.729.1 표준에서, 값들(
Figure pct00029
)은 또한
Figure pct00030
가 아래의 표 2에서 특정된 값들의 감소된 세트 중에서 선택되어야 한다는 사실로 제한된다.
Figure pct00031
표 2: TDAC 서브-대역들에 할당된 비트들의 수의 가능한 값들
G.729.1 표준의 할당은
Figure pct00032
로 표시된 서브-대역의 에너지에 관련된 서브-대역 당 "지각적 중요도"에 의존하며, ip(j)는 다음과 같이 정의된다:
Figure pct00033
여기서 Offset = -2.
값들이
Figure pct00034
이므로, 이 공식은 다음과 같은 형태로 단순화된다.
Figure pct00035
각 서브-대역의 지각적 중요도에 기초하여, 할당(
Figure pct00036
)은 다음과 같이 계산된다.
Figure pct00037
여기서,
Figure pct00038
는 임계치(
Figure pct00039
)를 최상으로 근사화함으로써 전반적인 제약
Figure pct00040
을 만족하도록 이분법에 의해 최적화되는 파라미터이다.
여기서 상술된 것과 같은 G.729.1 타입 또는 G.918 타입의 코어 코더를 극도로 넓어진 대역("SWB(Super Wide Band)")로 확장하기 위한 새로운 발의들이 현재 논의중에 있다.
가능한 확장 해법은 예를 들어, 저자들 M.Tammi, L. Laaksonen, A. Ramo, H.Toukomaa에 의한 ICASSP, 2009, "Scalable Superwideband Extension for Wideband Coding"란 명칭의 문서에 기술된다.
이 문서는 G.729.1 또는 G.718 타입의 코어 코딩 스테이지 및 대역 확장 스테이지를 포함하는 극도로-넓어진 대역 코딩/디코딩 시스템을 기술한다.
코어 코딩은 0 내지 7 kHz 범위에 있는 주파수 대역의 코딩을 수행하는 반면에, 확장 대역은 7 내지 14 kHz의 범위의 주파수 대역의 코딩을 수행한다.
제 1 확장 코딩 계층은 2개의 코딩 모드들 즉, 일반 모드 및 사인(sinusoidal) 모드에 의존하는 파라메트릭 모델에 기초한다.
일반 모드는 저 주파수(0-7kHz)에 기초하여 고주파수(7-14kHz) MDCT 계수들을 인공적으로 생성하기 위해 MDCT 도메인에서의 전위(transposition)를 위한 절차를 이용하다. 고 주파수 대역의 코딩을 가능하게 하는 저 주파수 대역은 정규화된 상관(normalized correlation)을 최대화하기 위한 기준을 통해 선택된다.
사인 모드는 특히 고조파 또는 토널(tonal) 신호들에 대해 통상적으로 이용된다. 이 모드에서, 최고-에너지 컴포넌트들이 선택된다. 그 다음, 그들의 위치들, 그들의 진폭들 및 그들의 부호들이 전송된다.
이러한 제 1 계층은 4kbit/s의 비트레이트로 전송된다. 이 항목에서, 7-14kHz 대역을 개선하기 위한 제 2 계층이 제안되는데, 이는 입력 신호의 MDCT 스펙트럼을 최상으로 근사화하는 것을 가능하게 하는 추가의 사인들(sinusoids)의 코딩에 기초한다. 이러한 제 2 확장 계층에 대한 비트들의 할당은 한번에 그리고 모두에 대해 고정된다.
따라서, 이 문서에서 제시되는 확장 코딩은 7 내지 14kHz의 범위의 확장 주파수 대역에 있는 신호만을 개선한다. 코어 코딩의 0 내지 7kHz의 주파수 대역은 수정되지 않는다.
그러나 코어 주파수 대역의 특정한 주파수 서브-대역들이 충분한 비트레이트를 수신하지 못하는 경우가 발생할 수 있다.
0 비트가 코어 코딩 서브-대역에 할당되는 경우에, 디코더는 이어서 할당되지 않은 대역들을 매우기 위해 4 - 7 kHz 대역에 대한 제 1 대역 확장 코딩 계층 TDBWE으로부터 발생하는 합성된 신호를 직접 사용한다.
그러나 이 대역들은 코더가 7 - 14 kHz 대역 확장 모듈과 조합될 때, 지각되는 품질을 때때로 열화시킬 수 있다는 것이 판명되었다.
실제로, 고 주파수들의 부가는 때때로 저 주파수들로부터 발생하는 결함들의 지각을 증가시킨다.
따라서, 대역 확장은 코어 계층 코딩 결함들을 더욱 악화시킬 수 있다.
그러므로 확장 주파수 대역 상에서만이 아니라 전체 주파수 대역 상에서의 코딩된 신호들의 품질에 대한 전반적인 개선에 대한 요구가 존재한다.
본 발명은 이 상황을 개선한다.
이런 목적을 위해, 본 발명은 제 1 주파수 대역에서의 코어 코딩/디코딩 및 제 2 주파수 대역에서의 대역 확장 코딩/디코딩을 포함하는 디지털 오디오 신호들의 계층적 코딩/디코딩을 향상시키기 위해 개선 코딩/디코딩의 이진 할당의 방법을 제안한다. 이 방법은,
개선 코딩/디코딩을 위해 할당되는 미리 결정된 비트들의 수에 대하여, 코딩/디코딩의 제 1 모드에 따른, 그리고 제 1 주파수 대역에서의 코어 코딩/디코딩을 보정하기 위한 코딩/디코딩에 제 1 비트들의 수(
Figure pct00041
)가 할당되고, 코딩/디코딩의 제 2 모드에 따른, 그리고 제 2 주파수 대역에서의 확장 코딩/디코딩을 개선하기 위한 코딩/디코딩에 제 2 비트들의 수(
Figure pct00042
)가 할당되게 된다.
따라서 본 발명의 일 실시예에 따른 할당 방법은 코어 코딩을 위한 주파수 대역 확장 코딩의 개선을 수행하면서 제 1 주파수 대역에서의 코어 코딩을 또한 보정하도록 부가적인 비트들을 할당하는 것을 가능하게 한다.
이는 코어 코딩에 대한 개선 코딩 및 확장 대역에 대한 개선 코딩 사이에서 양호한 절충(compromise)을 획득하는 것을 가능하게 한다. 이 절충은 구현된 코딩 포멧 및 코딩될 신호에 최상으로 적응되게 하는 적응형 방식으로 획득된다.
따라서 코딩된 신호의 전반적인 품질이 개선된다.
아래에서 언급되는 다양한 특정한 실시예들은 독립적으로, 또는 서로 조합하여 위에 정의된 할당 방법의 단계들에 부가될 수 있다.
특정 실시예에서, 방법은 다음의 단계들 즉,
- 제 1 주파수 대역의 주파수 서브-대역 당, 코어 코딩/디코딩에 대한 할당된 비트들의 수(nbit(j))를 획득하는 단계;
- 코어 코딩/디코딩에 대한 할당된 비트들의 수가 미리 결정된 임계치를 초과하지 않는 주파수 서브-대역들에서, 코어 코딩/디코딩을 보정하기 위해 코딩/디코딩을 위한 제 1 비트들의 수를 구성하는 단계;
- 제 1 할당된 비트들의 수 및 할당될 미리 결정된 비트들의 수의 함수로서 확장 코딩/디코딩을 개선하기 위해 코딩/디코딩에 대한 제 2 할당된 비트들의 수를 할당하는 단계를 포함한다.
따라서, 매우 적은 비트들의 할당만을 수신한 코어 코딩의 주파수 서브-대역들에 대하여, 본 발명의 일 실시예에 따른 할당은 이 서브-대역들에서의 코어 코딩을 개선하고, 확장 코딩에 대한 개선을 또한 보증하면서 서브-대역들에서의 코어 코딩을 개선하도록 이 주파수 서브-대역들에 대해 부가적인 비트들을 할당하는 것을 가능하게 한다.
특정한 실시예에서, 최소 비트들의 수는 제 1 비트들의 수의 할당을 위한 주파수 서브-대역 당 고정된다.
따라서, 각 주파수 서브-대역은 보증된 연관 비트레이트 및 그에 따른 보증된 코딩을 갖는다.
단순한 방식으로, 미리 결정된 임계치는 0으로 고정된다.
다른 실시예에서, 미리 결정된 임계치는 0보다 크고, 제 1 할당된 비트들의 수가 미리 결정된 비트들의 수보다 큰 경우, 임계치의 값은 감소된다.
할당은 신호에 더 잘 적응되고, 다음으로 할당된 비트레이트를 최상으로 최적화하도록 코어 코딩의 최대 보정이 수행된다. 이 최적화는 임계치를 적응시킴으로써 줄곧 행해진다.
특정한 실시예에서, 방법은 제 1 대역 확장 계층으로부터 발생하는 신호와 원래의 신호 간의 차이에 기인하여 발생하는 잔여 신호에 대한 토널리티 정보(tonality information)를 수신하는 단계를 포함하고, 토널 잔여 신호(tonal residual signal)의 경우에, 대역 확장을 개선하기 위한 코딩/디코딩에 대한 제 2 할당된 비트들의 수가 제 1 수보다 크다. 다른 예에서, 이 토널리티 정보는 예를 들어, 스펙트럼에서의 에너지 스파이크(energy spike)를 검출함으로써 원래의 신호 상에서 직접 계산된다.
따라서, 대역 확장 개선 계층은 코딩해야 하는 신호의 타입에 적응된다. 따라서, 확장 코딩 모드에 따른 코딩이 토널 타입의 신호에 특별히 적응되는 경우에는, 따라서 우선순위가 이 코딩 모드에 주어진다.
본 발명의 특별히 적응된 응용에서, 코어 코딩/디코딩은 G.729.1 표준화된 코딩/디코딩 타입이고, 코딩/디코딩의 제 1 모드는 변형(transform) 코딩/디코딩이고 코딩/디코딩의 제 2 모드는 파라메트릭(parametric) 코딩/디코딩이다.
본 발명은 또한 제 1 주파수 대역에서의 코어 코딩/디코딩을 위한 모듈 및 제 2 주파수 대역에서의 대역 확장 코딩/디코딩을 위한 모듈을 포함하는 디지털 오디오 신호들의 계층적 코더/디코더를 개선하기 위한 코더/디코더에서의 이진 할당을 위한 모듈에 관련된다. 이 할당 모듈은,
- 개선 코더/디코더에 대해 할당되는 미리 결정된 비트들의 수에 대하여, 코딩/디코딩의 제 1 모드에 따라, 그리고 제 1 주파수 대역에서의 코어 코더/디코더를 보정하기 위한 코딩/디코딩 모듈에 제 1 비트들의 수(
Figure pct00043
)를 할당하기 위한 수단; 및
- 코딩/디코딩의 제 2 모드에 따라, 그리고 제 2 주파수 대역에서의 확장 코더/디코더를 개선하기 위한 코딩/디코딩 모듈에 제 2 비트들의 수(
Figure pct00044
)를 할당하기 위한 수단을 포함한다.
본 발명은 본 발명에 따른 할당 모듈을 포함하는 계층적 코더에 관련된다.
본 발명은 본 발명에 따른 할당 모듈을 포함하는 계층적 코더에 또한 관련된다.
마지막으로, 본 발명은 코드 명령들이 처리기에 의해 실행될 때, 본 발명에 따른 할당 방법의 단계들의 구현을 위한 상기 코드 명령들을 포함하는 컴퓨터 프로그램에 관련된다.
본 발명의 다른 특징들 및 이점들은 첨부된 도면들을 참조하고, 비-제한적인 예로서만 주어지는 아래의 설명을 읽으면 더 명확하게 명백해질 것이다.
도 1은 G.729.1 타입의 이전에 기술된 코더의 구조를 예시하는 도면.
도 2는 G.729.1 타입의 이전에 기술된 디코더의 구조를 예시하는 도면.
도 3은 G.729.1 타입의 코더에 포함된 이전에 기술된 TDAC 코더의 구조를 예시하는 도면.
도 4는 G.729.1 타입에 포함된, 이전에 기술된 것과 같은 TDAC 디코더의 구조를 예시하는 도면.
도 5는 본 발명이 구현될 수 있는 주파수 대역 확장된 G.729.1 코더의 구조를 예시하는 도면.
도 6은 본 발명이 구현될 수 있는 주파수 대역 확장된 G.729.1 디코더의 구조를 예시하는 도면.
도 7은 본 발명의 일 실시예에 따른 할당 방법을 구현하는, 본 발명에 따라 비트들을 할당하기 위한 모듈을 포함하는 개선 코더를 예시하는 도면.
도 8은 본 발명에 따른 할당 모듈의 하드웨어 실시예의 예를 예시하는 도면.
G.729.1 인코더의 확장, 특히 극도로-넓어진 대역으로의 본 발명의 가능한 응용이 이제 기술된다.
도 5를 참조하면, 일 실시예에 따라 발명을 포함하는 G.729.1 타입의 코어 코더의 극도로-넓어진 대역 확장이 이제 기술된다.
표현된 것과 같은 이러한 코더는 모듈(515)에 의해 코딩된 주파수들의 확장(이용되는 주파수 대역은 [50Hz - 7kHz]로부터 [50Hz - 14kHz]까지임) 및, 도 7을 참조하여 후속적으로 기술되는 것과 같은 TDAC 코딩 모듈(블록 510)에 의한 G.729.1의 기저 계층의 개선으로 구성된다.
도 5에 표시된 것과 같은 코더는 도 1에서 표시된 G.729.1 코어 코딩과 동일한 모듈 및 확장 신호를 멀티플렉싱 모듈(512)에 제공하는 대역 확장을 위한 부가적인 모듈(515)을 포함한다.
이러한 확장 코딩 모듈(515)은 코어 코딩의 0 내지 7 kHz 범위에 있는 제 1 주파수 대역에 대하여 제 2 주파수 대역이라 칭하는 7 내지 14 kHz 범위에 있는 주파수 대역에서 동작한다.
이러한 주파수 대역 확장은 전 대역 원래 신호(SSWB) 상에서 계산되는 반면에, 코어 코더에 대한 입력 신호는 데시메이션(블록 516) 및 저역-통과 필터링(블록 517)에 의해 획득된다. 이 블록들의 출력에서, 넓어진-대역 입력 신호(SWB)가 획득된다.
모듈(515)은 ICASSP, 2009, 저자들 M.Tammi, L. Laaksonen, A. Ramo, H.Toukomaa에 의한 "Scalable Superwideband Extension for Wideband Coding"란 명칭의 문서에 기술된 것과 같이, 원래의 신호(SWB)가 토널 또는 비-토널인지에 의존하여, 2개의 코딩 모드들 즉, 일반 모드 및 사인 모드에 의존하는 파라메트릭 모델에 기초하는 제 1 확장 코딩 계층을 포함한다.
또한, 그것은 사인 모드에서 코딩에 의해 이 제 1 코딩 계층을 개선하기 위한 코딩 계층을 포함하며, 그 비트 할당은 도 7을 참조하여 기술되는 것과 같은 비트 할당 방법에 따라 수행된다.
이에 따라, 확장 모듈(515)은 TDAC 코더(510)로부터의 정보, 특히 코어 코딩의 주파수 서브-대역들에 할당된 비트들의 수를 수신한다.
가능한 실시예에서, 도 7을 참조하여 후술되는 것과 같은 할당 모듈은 확장 모듈(515)에 통합된다.
다른 실시예에서, 이 모듈은 TDAC 모듈(510)에 통합된다. 또 다른 실시예에서, 이 모듈은 2개의 모듈들(510 및 515)과 독립적이며, 비트 할당 결과들을 2개의 각각의 모듈들에 통신한다.
따라서, 본 발명에 따르면, 비트들을 할당하기 위한 모듈은 제 1 코딩 모드에 따라, 본 경우에서는, 변형 코딩에 따라, 그리고 제 1 주파수 대역에서 코어 코딩을 보정하기 위한 코딩에 제 1 비트들의 수를 할당한다. 이 할당은 개선 코딩을 위해 할당될 미리 결정된 비트들의 수에 따라 수행된다.
모듈은 제 2 코딩 모드, 여기서는 사인 파라메트릭 모드에 따라, 그리고 제 2 주파수 대역에서 확장 코딩을 개선하기 위한 코딩에 제 2 비트들의 수를 할당한다.
코어 코딩 및 대역 확장의 모델들이 상이할 때, 이들 2개의 모델들 간의 비트레이트 할당은 난해하다고 판명될 수 있다. 실제로, 일반적으로는 코어를 위한 파형 코딩 모델, 예를 들어, 원래의 신호를 최상으로 코딩하기 위해 시도하는 변형 코더가 존재할 것이다. 대역 확장을 위해, 파라메트릭 모델들이 더 일반적으로 사용되며, 그들의 목적은 파형을 충실하게 코딩하기 위한 노력 없이, 고 주파수들을 지각적으로 표현하기 위한 것이다.
2개의 모델들 간의 비트레이트 할당은 이 경우 난해할 수 있다. 코어 코더 및 대역 확장을 위한 개선 기준들은 상이하며, 이들을 비교하는 것은 난해하다.
이 할당은 도 7을 참조하여 상세할 후술될 것이다.
따라서, TDAC 코딩 모듈(510)은 특정한 수의 서브-대역들에서 코어 코딩 보정을 수행하도록 부가적인 비트들의 할당을 수신한다. 코어 코딩된 신호 외에, 그것은 코어 코딩 보정 코딩을 위해 부가적인 비트들을 멀티플렉싱 모듈에 제공한다.
동일한 방식으로, 극도로-넓어진 모드의 G.729.1 디코더는 도 6을 참조하여 기술된다. 이는 도 2를 참조하여 기술된 G.729.1 디코더와 동일한 모듈을 포함한다.
그러나 그것은 디멀티플렉싱 모듈(600)로부터, 도 7을 참조하여 기술되는 할당 모듈에 의해 정의된 할당에 따라 확장 코딩을 위한 개선 신호는 물론 대역 확장 신호를 수신하는 대역 확장을 위한 부가적인 모듈(614)을 포함한다. 디코더는 또한 극도로-넓어진 대역 출력 신호(
Figure pct00045
)를 획득하는 것을 가능하게 하는 합성 필터들(블록 616 및 블록 615)의 뱅크를 포함한다.
TDAC 디코딩 모듈(603)은 코딩된 코어 신호 외에, 멀티플렉싱 모듈로부터, 도 7을 참조하여 기술되는 할당 모듈에 의해 정의된 비트들의 할당에 따른 코어 코딩을 보정하기 위해 부가적인 비트들을 수신한다.
그러므로 기술되는 디코더는 도 7을 참조하여 이제 기술되는 것과 같은 개선 코더에 의해 구현되는 개선 코딩으로부터 혜택을 받는다.
일 실시예에서, 이진 할당은 디코더에서 재계산될 수 없고, 그 다음, 이 정보는 대응하는 개선 계층에서 전송된다.
다른 실시예에서, 디코더는 코어 코더의 보정과 대역 확장 사이에서 비트레이트를 배분함으로써 코더에서와 동일한 이진 할당 계산을 수행할 수 있다. 이 할당 모듈은 코어 코더의 이진 할당 및 선택적으로는 제 1 대역 확장 계층으로부터 발생하는 정보의 아이템, 즉 토널리티 표시(tonality indication)에 의존한다.
도 7을 참조하여 기술되는 것과 같은 할당 모듈은 본 발명에 따른 할당 방법을 구현한다.
이 모듈은 코더에 대한 것과 동일한 방식으로, TDAC 디코더 모듈(603) 또는, 확장 모듈(614)에 통합될 수 있거나, 또는 독립적일 수 있다.
도 7은 본 발명에 따라 비트들을 할당하기 위한 모듈(701)을 표현하며, 본 발명에 따라 비트들을 할당하기 위한 방법의 주요 단계들을 이용한다.
도 7에 표현된 블록(306)은 예를 들어, G.729.1 코어 코딩을 위해 이를테면, 도 3의 TDAC 코더에서 기술되고 코어 코딩에 대해 비트들을 할당하기 위한 블록에 대응한다.
이 코어 할당 블록은 코어 주파수 대역의 주파수 서브-대역 당, 코어 코딩의 비트들 nbit(j)의 할당에 관한 정보의 아이템을 전달한다.
이 정보는 비트들을 공동으로 할당하기 위한 모듈(701)에 의해 수신된다. 개선 코딩을 위해 이용 가능한 비트레이트의 함수로서, 모듈(701)은 제 1 주파수 대역에서의 변형 타입의 코어 코딩의 보정을 수행하도록 제 1 비트들의 수(
Figure pct00046
) 및, 제 2 주파수 대역에서의 확장 코딩을 개선하기 위해 사인 파라메트릭 타입의 코딩을 위해 제 2 비트들의 수(
Figure pct00047
)를 할당한다.
보다 구체적으로, 모듈(701)은 제 1 주파수 대역의 서브-대역들 각각에 대해 코어 코딩을 위해 할당된 비트들의 수를 수신한다.
서브-대역 당 상기 비트들의 수는 미리 결정된 임계치에 비교된다. 할당된 비트들의 수가 임계치 미만인 주파수 서브-대역들에서, 모듈(701)은 미리 정해진 값의 최소 비트들의 수, 예를 들어, 9비트들을 할당한다.
개선 코딩을 위해 인가된 비트레이트에 대하여 잔여의 이용 가능한 비트들, 예를 들어, 4kbit/s의 인가된 비트레이트가 확장 코딩 개선 코딩, 다시 말하면 도 5를 참조하여 기술되는 것과 같은 제 2 확장 코딩 계층에 할당된다.
단순한 방식으로, 임계치는 0으로 고정될 수 있다. 따라서, 어떠한 비트레이트도 수신하지 않은 주파수 서브-대역만이 이 서브-대역들에서의 코어 코딩을 보정하기 위한 부가적인 비트들의 할당을 갖는다.
다양한 실시예들에서, 미리 결정된 임계치는 0보다 클 수 있다. 제 1 시도는 이 임계치 미만의 할당을 갖는 서브-대역들에 대해 할당되는 최소 비트들의 수를 이용하여 수행된다. 다수의 서브-대역들이 임계치 미만의 비트들의 할당을 갖는 경우, 이용 가능한 비트레이트가 초과되는 상황이 발생할 수 있다. 이 경우에, 임계치는 제 2 시도를 수행하도록 감소될 수 있다. 이러한 감소는 서브-대역당 최소 비트들의 수를 할당하는 것을 가능하게 하는 임계치가 발견될 때까지 예를 들어, 이분법에 의해 실행될 수 있다.
그 다음, 잔여 비트들의 수는 대역 확장 사인 코딩을 위해 할당된다. 이는 확장 코딩 개선 코딩을 위해 코딩될 수 있는 사인들의 수에 대응한다.
그러므로 할당 모듈(701)은 G.729.1 코어 코딩의 TDAC 코더의 구형 벡터 양자화로부터 발생한 잔여 신호(
Figure pct00048
)와 원래의 신호(
Figure pct00049
)의 구형 벡터 양자화를 수행하는 코어 코딩(703)을 보정하기 위한 코딩 블록에 서브-대역 당 제 1 비트들의 할당(
Figure pct00050
)을 제공한다.
따라서 보정 코딩 블록(703)은 멀티플렉서 블록(704)에, 이 코딩을 위해 할당된 비트들의 수에 따라 코어 코딩에 대한 보정 신호를 전달한다.
할당 모듈(701)은 대역 확장 코딩을 개선하기 위해 코딩 블록(702)에 제 2 비트들의 할당(
Figure pct00051
)을 전달한다.
이 코딩 블록은 원래의 신호(
Figure pct00052
)는 물론, 제 1 대역 확장 계층의 신호(
Figure pct00053
)를 수신하고 이들 두 신호들의 차이 계산으로부터 발생한 잔여 신호를 코딩한다.
다양한 실시예들에서, 모듈(701)은 잔여 신호의 토널리티에 관한 정보의 아이템을 또한 수신한다. 이 토널리티 계산은 예를 들어, 위에서 참조된 문서 ICASSP 2009에서 주어진다.
블록(702)으로부터 발생한 코딩된 개선 신호는 할당 방법에 의해 결정된 비트 할당에 따라 멀티플렉싱 블록(704)에 전송된다.
상기 도 7에서 예시된 개선 코딩은 예를 들어, 도 5를 참조하여 기술된 것과 같이 극도로-넓어진 대역 G.729.1 코더에 통합된다.
할당 모듈은 예를 들어, 대역 확장 모듈(515)에 위치된다. 이것은 TDAC(510)로부터의 코어 코딩 할당 정보를 수신한다. 이것은 블록(703)의 구형 벡터 양자화를 수행하는 TDAC 코더에 제 1 할당된 비트들의 수를 전송한다. 이것은 블록(702)의 사인-모드 코딩에 대한 제 2 할당된 비트들의 수를 확장 모듈(515)에 대한 제 2 코딩 계층에 전송한다.
다른 실시예에서, 비트들을 할당하기 위한 이 모듈은 도 5의 TDAC 모듈(510)에 통합된다. 이것은 TDAC 코더에 대한 양자화 블록에 할당된 제 1 비트들의 수 및 블록(702)에 대한 개선 코딩을 위해 확장 모듈(515)에 할당된 제 2 비트들의 수를 전달한다.
또 다른 실시예에서, 할당 모듈은 모듈들(510 및 515)에 독립적이며, 2개의 모듈들 제 1 할당된 비트들의 수 및 제 2 할당된 비트들의 수를 각각에 디스패치한다.
본 발명은 극도로-넓어진 대역 G.729.1 코더에서의 실시예에 관하여 여기서 기술되었다.
그것이 G.718 타입의 넓어진 대역 코더에, 또는 제 1 주파수 대역에서의 코어 코딩 및 제 2 주파수 대역에서의 개선 코딩을 갖는 임의의 다른 계층적 코더에 매우 명백히 통합될 수 있다.
상기 도 7은 개선 코딩 스테이지를 표현한다. 개선 디코딩을 위해, 동일한 동작들이 수행될 수 있다. 그 다음, 할당 모듈(701)은 예를 들어, 도 6의 TDAC 디코딩 모듈(603)에서 수행되는 코어 디코딩의 개선 디코딩(SVQ 디코딩(decod))을 위한 비트들의 수(
Figure pct00054
) 및 예를 들어, 도 6의 확장 디코딩 모듈(614)에 의해 수행되는 확장 계층 개선 디코딩(사인 디코딩(sine decod))을 위한 비트들의 수(
Figure pct00055
)를 제공한다.
도 7을 참조하여 표현되고 기술되는 것과 같은 할당 모듈의 하드웨어 실시예의 예는 도 8을 참조하여 이제 기술된다.
따라서 도 8은 저장소 및/또는 작업 메모리(MEM)를 포함하는 메모리 블록(BM)과 협력하는 처리기(PROC)를 포함하는 할당 모듈을 예시한다.
이 모듈은 코어 코더의 제 1 주파수 대역의 서브-대역 당 비트들의 수( nbit(j))를 수신할 수 있는 입력 모듈을 포함한다.
메모리 블록(BM)은 처리기(PROC)에 의해 실행될 때 본 발명의 범주 내에 있는 할당 방법의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 유리하게 포함할 수 있고, 특히, 상기 단계들은 미리 결정된 비트들의 수가 개선 코딩/디코딩되도록 하기 위해,
- 코딩/디코딩의 제 1 모드에 따라, 그리고 제 1 주파수 대역에서의 코어 코딩/디코딩을 보정하기 위해 코딩/디코딩에 제 1 비트들의 수를 할당하는 단계; 및
코딩/디코딩의 제 2 모드에 따라, 그리고 제 2 주파수 대역에서의 확장 코딩/디코딩을 개선하기 위해 코딩/디코딩에 제 2 비트들의 수를 할당하는 단계를 포함한다.
통상적으로, 도 7의 설명은 상기와 같은 컴퓨터 프로그램의 알고리즘의 단계들을 이용한다. 컴퓨터 프로그램은 또한 모듈의 또는 할당 모듈을 통합하는 코더의 판독기에 의해 판독 가능하거나 메모리 매체 상에 저장될 수 있거나 후자의 메모리 공간에 다운로딩 가능하게 될 수 있다.
할당 모듈은 코어 코딩 보정 코딩을 위해 할당된 제 1 비트들의 수
Figure pct00056
및 확장 코딩 개선 코딩을 위한 제 2 비트들의 수
Figure pct00057
를 전송할 수 있는 출력 모듈을 포함한다.
이 할당 모듈은 G.729.1 타입의 극도로-넓어진 대역 계층적 코더/디코더에 또는 보다 일반적으로는 주파수 대역 확장을 갖는 임의의 계층적 코더/디코더에 통합될 수 있다.

Claims (11)

  1. 제 1 주파수 대역에서의 코어 코딩/디코딩 및 제 2 주파수 대역에서의 대역 확장 코딩/디코딩을 포함하는 디지털 오디오 신호들의 계층적 코딩/디코딩을 향상시키기 위한 개선 코딩/디코딩에서의 이진 할당의 방법으로서,
    상기 개선 코딩/디코딩을 위해 할당되는 미리 결정된 비트들의 수에 대하여, 코딩/디코딩의 제 1 모드에 따른, 그리고 상기 제 1 주파수 대역에서의 코어 코딩/디코딩을 보정하기 위한 코딩/디코딩에 제 1 비트들의 수(
    Figure pct00058
    )가 할당되고,
    코딩/디코딩의 제 2 모드에 따른, 그리고 상기 제 2 주파수 대역에서의 확장 코딩/디코딩을 개선하기 위한 코딩/디코딩에 제 2 비트들의 수(
    Figure pct00059
    )가 할당되는,
    이진 할당의 방법.
  2. 제 1 항에 있어서,
    - 상기 제 1 주파수 대역의 주파수 서브-대역 당, 상기 코어 코딩/디코딩에 대한 할당된 비트들의 수(nbit(j))를 획득하는 단계;
    - 상기 코어 코딩/디코딩에 대한 할당된 비트들의 수가 미리 결정된 임계치를 초과하지 않는 주파수 서브-대역들에서, 상기 코어 코딩/디코딩을 보정하기 위한 코딩/디코딩을 위한 상기 제 1 비트들의 수를 구성하도록 서브-대역당 비트들의 수를 할당하는 단계; 및
    - 상기 제 1 할당된 비트들의 수 및 할당되는 미리 결정된 비트들의 수의 함수로서 상기 확장 코딩/디코딩을 개선하기 위한 코딩/디코딩에 대한 제 2 할당된 비트들의 수를 할당하는 단계를 포함하는,
    이진 할당의 방법.
  3. 제 2 항에 있어서,
    최소 비트들의 수가 상기 제 1 비트들의 수의 할당을 위한 주파수 서브-대역 당 고정되는,
    이진 할당의 방법.
  4. 제 2 항에 있어서,
    상기 미리 결정된 임계치는 0으로 고정되는,
    이진 할당의 방법.
  5. 제 3 항에 있어서,
    상기 미리 결정된 임계치는 0보다 크고,
    상기 제 1 할당된 비트들의 수가 상기 미리 결정된 비트들의 수보다 큰 경우, 상기 임계치의 값은 감소되는,
    이진 할당의 방법.
  6. 제 2 항에 있어서,
    상기 제 1 대역 확장 계층으로부터 발생하는 신호와 원래의 신호 간의 차이에 기인하여 발생하는 잔여 신호에 대한 토널리티 정보(tonality information)를 수신하는 단계를 포함하고,
    토널 잔여 신호(tonal residual signal)의 경우에, 상기 대역 확장을 개선하기 위한 코딩/디코딩에 대한 제 2 할당된 비트들의 수가 상기 제 1 할당된 비트들의 수보다 큰,
    이진 할당의 방법.
  7. 제 1 항에 있어서,
    상기 코어 코딩/디코딩은 G.729.1 표준화된 코딩/디코딩 타입이고,
    상기 코딩/디코딩의 제 1 모드는 변형(transform) 코딩/디코딩이고,
    상기 코딩/디코딩의 제 2 모드는 파라메트릭(parametric) 코딩/디코딩인,
    이진 할당의 방법.
  8. 제 1 주파수 대역에서의 코어 코딩/디코딩을 위한 모듈 및 제 2 주파수 대역에서의 대역 확장 코딩/디코딩을 위한 모듈 포함하는 디지털 오디오 신호들의 계층적 코더/디코더를 개선하기 위한 코더/디코더에서의 이진 할당을 위한 모듈로서,
    개선 코더/디코더에 대해 할당되는 미리 결정된 비트들의 수에 대하여, 코딩/디코딩의 제 1 모드에 따라, 그리고 상기 제 1 주파수 대역에서의 코어 코더/디코더를 보정하기 위한 코딩/디코딩 모듈에 제 1 비트들의 수(
    Figure pct00060
    )를 할당하기 위한 수단; 및
    코딩/디코딩의 제 2 모드에 따라, 그리고 상기 제 2 주파수 대역에서의 확장 코더/디코더를 개선하기 위한 코딩/디코딩 모듈에 제 2 비트들의 수(
    Figure pct00061
    )를 할당하기 위한 수단
    을 포함하는,
    이진 할당을 위한 모듈.
  9. 제 8 항에 청구된 것과 같은 할당 모듈을 포함하는 계층적 코더.
  10. 제 8 항에 청구된 것과 같은 할당 모듈을 포함하는 계층적 디코더.
  11. 코드 명령들이 처리기에 의해 실행될 때, 제 1 항 내지 제 7 항 중 어느 한 항에 청구된 할당 방법의 단계들의 구현을 위한 상기 코드 명령들을 포함하는 컴퓨터 프로그램.

KR1020127003329A 2009-07-07 2010-06-25 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당 KR101703810B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0954688A FR2947945A1 (fr) 2009-07-07 2009-07-07 Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
FR0954688 2009-07-07
PCT/FR2010/051308 WO2011004098A1 (fr) 2009-07-07 2010-06-25 Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques

Publications (2)

Publication Number Publication Date
KR20120061826A true KR20120061826A (ko) 2012-06-13
KR101703810B1 KR101703810B1 (ko) 2017-02-16

Family

ID=41531495

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127003329A KR101703810B1 (ko) 2009-07-07 2010-06-25 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당

Country Status (8)

Country Link
US (1) US8965775B2 (ko)
EP (1) EP2452337B1 (ko)
KR (1) KR101703810B1 (ko)
CN (1) CN102511062B (ko)
CA (1) CA2766777C (ko)
FR (1) FR2947945A1 (ko)
WO (1) WO2011004098A1 (ko)
ZA (1) ZA201200906B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160145559A (ko) * 2014-03-24 2016-12-20 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
US11676614B2 (en) 2014-03-03 2023-06-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924222B2 (en) * 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
NO2669468T3 (ko) * 2011-05-11 2018-06-02
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及***
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
BR112015025092B1 (pt) 2013-04-05 2022-01-11 Dolby International Ab Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP6319753B2 (ja) 2013-12-02 2018-05-09 華為技術有限公司Huawei Technologies Co.,Ltd. 符号化方法および装置
BR112016019838B1 (pt) * 2014-03-31 2023-02-23 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação, método de decodificação e mídia de registro legível por computador não transitória
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US11276412B2 (en) 2017-09-20 2022-03-15 Voiceage Corporation Method and device for efficiently distributing a bit-budget in a CELP codec
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100385A2 (en) * 2007-02-14 2008-08-21 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
KR100923300B1 (ko) * 2003-03-22 2009-10-23 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7343291B2 (en) * 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR100921867B1 (ko) * 2007-10-17 2009-10-13 광주과학기술원 광대역 오디오 신호 부호화 복호화 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100385A2 (en) * 2007-02-14 2008-08-21 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676614B2 (en) 2014-03-03 2023-06-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
KR20160145559A (ko) * 2014-03-24 2016-12-20 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
KR20220070549A (ko) * 2014-03-24 2022-05-31 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
US11688406B2 (en) 2014-03-24 2023-06-27 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device

Also Published As

Publication number Publication date
CN102511062A (zh) 2012-06-20
FR2947945A1 (fr) 2011-01-14
CN102511062B (zh) 2013-07-31
EP2452337B1 (fr) 2013-05-29
US20120185256A1 (en) 2012-07-19
ZA201200906B (en) 2012-10-31
EP2452337A1 (fr) 2012-05-16
CA2766777A1 (fr) 2011-01-13
WO2011004098A1 (fr) 2011-01-13
US8965775B2 (en) 2015-02-24
CA2766777C (fr) 2015-12-15
KR101703810B1 (ko) 2017-02-16

Similar Documents

Publication Publication Date Title
KR101703810B1 (ko) 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당
JP2022123060A (ja) 符号化オーディオ信号を復号する復号装置および復号方法
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
RU2488897C1 (ru) Кодирующее устройство, декодирующее устройство и способ
KR101698371B1 (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
KR101423737B1 (ko) 오디오 신호의 디코딩 방법 및 장치
JP5161069B2 (ja) 広帯域音声符号化のためのシステム、方法、及び装置
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
US20080140393A1 (en) Speech coding apparatus and method
KR20100086032A (ko) 오디오 코딩 장치 및 그 방법
JP2012518194A (ja) 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US20090299755A1 (en) Method for Post-Processing a Signal in an Audio Decoder
WO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
RU2459283C2 (ru) Кодирующее устройство, декодирующее устройство и способ
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant