KR101411759B1 - 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 - Google Patents

오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 Download PDF

Info

Publication number
KR101411759B1
KR101411759B1 KR1020127012548A KR20127012548A KR101411759B1 KR 101411759 B1 KR101411759 B1 KR 101411759B1 KR 1020127012548 A KR1020127012548 A KR 1020127012548A KR 20127012548 A KR20127012548 A KR 20127012548A KR 101411759 B1 KR101411759 B1 KR 101411759B1
Authority
KR
South Korea
Prior art keywords
domain
aliasing
linear
encoded
audio content
Prior art date
Application number
KR1020127012548A
Other languages
English (en)
Other versions
KR20120128123A (ko
Inventor
브루노 베세테
맥스 누엔도르프
랄프 가이어
필리프 그루네
로흐 르페브르
베른하르트 그릴
제레미 르콤테
스테판 바이어
니콜라우스 레텔바흐
라스 빌레모에스
레드반 살라미
알베르투스 씨. 덴 브린커
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
돌비 인터네셔널 에이비
코닌클리케 필립스 엔.브이.
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베., 돌비 인터네셔널 에이비, 코닌클리케 필립스 엔.브이., 보이세지 코포레이션 filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20120128123A publication Critical patent/KR20120128123A/ko
Application granted granted Critical
Publication of KR101411759B1 publication Critical patent/KR101411759B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 콘텐츠의 인코딩된 표현(310)에 기초하여 오디오 콘텐츠의 디코딩된 표현(212)을 제공하는 오디오 신호 디코더(200)는, 스펙트럼 계수의 제 1 세트(220), 앨리어싱-소거 자극 신호의 표현(224) 및 다수의 선형-예측-도메인 매개 변수(222)에 기초하여 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(212)을 획득하도록 구성되는 변환 도메인 경로(230, 240, 242, 250, 260)를 포함한다. 변환 도메인 경로는 선형-예측-도메인 매개 변수의 적어도 서브세트에 따라 스펙트럼 형상화를 스펙트럼 계수의 제 1 세트에 적용하여, 스펙트럼 계수의 제 1 세트의 스펙트럼 형상화된 버전(232)을 획득하도록 구성되는 스펙트럼 프로세서(230)를 포함한다. 변환 도메인 경로는 스펙트럼 계수의 제 1 세트의 스펙트럼 형상화된 버전에 기초하여 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 제 1 주파수-도메인-대-시간-도메인-변환기(240)를 포함한다. 변환 도메인 경로는 선형-예측-도메인 매개 변수(222)의 적어도 서브세트에 따라 앨리어싱-소거 자극 신호(324)를 필터링하여(250), 앨리어싱-소거 자극 신호로부터 앨리어싱-소거 합성 신호(252)를 도출하도록 구성되는 앨리어싱-소거 자극 필터를 포함한다. 변환 도메인 경로는 또한 앨리어싱-감소된 시간-도메인 신호를 획득하기 위해 앨리어싱-소거 합성 신호(252) 또는 이의 사후-처리된 버전과 오디오 콘텐츠의 시간-도메인 표현(242)을 조합하도록 구성되는 조합기(260)를 포함한다.

Description

오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법{AUDIO SIGNAL ENCODER, AUDIO SIGNAL DECODER, METHOD FOR ENCODING OR DECODING AN AUDIO SIGNAL USING AN ALIASING-CANCELLATION}
본 발명에 따른 실시예들은 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 오디오 신호 디코더에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 입력 표현에 기초하여 스펙트럼 계수의 제 1 세트, 앨리어싱-소거 자극 신호의 표현 및 다수의 선형-예측-도메인 매개 변수를 포함하는 오디오 콘텐츠의 인코딩된 표현을 제공하는 오디오 신호 인코더에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 입력 표현에 기초하여 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법에 관한 것이다.
본 발명에 따른 실시예들은 상기 방법 중 하나를 수행하는 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 실시예들은 통합된-음성-및-오디오-코딩(또는 간략히 USAC로 명시됨) 윈도잉 및 프레임 전환(transitions)의 통합을 개념에 관한 것이다.
다음에는, 본 발명의 배경이 본 발명의 이해 및 이점을 용이하게 하기 위해 간략히 설명된다.
과거 10 년 동안, 오디오 콘텐츠를 디지털식으로 저장하여 분배할 수 있는 가능성을 생성하는데 많은 노력이 기울어져 왔다. 이런 방식의 하나의 중요한 업적은 국제 표준 ISO/IEC 14496-3의 정의이다. 이 표준의 파트 3은 오디오 콘텐츠의 코딩 및 디코딩에 관한 것이고, 파트 3의 서브파트 4는 일반적인 오디오 코딩에 관한 것이다. ISO/IEC 14496 파트 3, 서브파트 4는 일반적인 오디오 콘텐츠의 인코딩 및 디코딩에 대한 개념을 정의한다. 게다가, 품질을 개선하고, 및/또는 필요한 비트율을 감소시키기 위해 추가적인 개선 사항이 제안되었다. 더욱이, 주파수-도메인 기반의 오디오 코더의 성능은 음성을 포함하는 오디오 콘텐츠에 최적이 아닌 것으로 발견되었다. 최근에, 두 워드, 즉, 음성 코딩 및 오디오 코딩으로부터의 기술을 효율적으로 조합하는 통합된 음성-및-오디오 코덱이 제안되었다. 약간의 상세 사항을 위해, (2009년 5월 7-10일 독일 뮌헨 오디오 엔지니어링 학회의 126차 컨벤션에서 제시된) M. Neuendorf 등의 공보 "A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG-RM0"에 대한 참조가 행해진다.
이러한 오디오 코더에서, 일부 오디오 프레임은 주파수-도메인으로 인코딩되며, 일부 오디오 프레임은 선형-예측-도메인으로 인코딩된다.
그러나, 상당량의 비트율을 희생하지 않고 다른 도메인으로 인코딩되는 프레임 사이에서 전환하는 것은 곤란한 것으로 발견되었다.
이러한 상황에 비추어, 서로 다른 모드를 이용하여 인코딩되는 부분 사이의 전환의 효율적인 실현을 허용하는 음성 및 일반적인 오디오의 양방을 포함하는 오디오 콘텐츠를 인코딩 및 디코딩하기 위한 개념을 생성하는 바람직하다.
본 발명에 따른 실시예는 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 오디오 신호 디코더를 생성한다. 오디오 신호 디코더는, 스펙트럼 계수의 제 1 세트, 앨리어싱-소거 자극 신호(aliasing- cancellation stimulus signal)의 표현, 및 다수의 선형-예측-도메인 매개 변수(예컨대, 선형-예측-코딩 필터 계수)에 기초하여 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현을 획득하도록 구성되는 변환 도메인 경로(예컨대, 변환-코딩된 여기 선형-예측-도메인-경로)를 포함한다. 변환 도메인 경로는 적어도 선형-예측-도메인 매개 변수의 서브세트에 따라 스펙트럼 형상화(spectral shaping)를 스펙트럼 계수의 (제 1) 세트에 적용하여, 스펙트럼 계수의 제 1 세트의 스펙트럼 형상화된 버전을 획득하도록 구성되는 스펙트럼 프로세서를 포함한다. 변환 도메인 경로는 또한 스펙트럼 계수의 제 1 세트의 스펙트럼 형상화된 버전에 기초하여 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 (제 1) 주파수-도메인-대-시간-도메인-변환기를 포함한다. 변환 도메인 경로는 또한 선형-예측-도메인 매개 변수의 적어도 서브세트에 따라 앨리어싱-소거 자극 신호를 필터링하여, 앨리어싱-소거 자극 신호로부터 앨리어싱-소거 합성 신호를 도출하도록 구성되는 앨리어싱-소거 자극 필터를 포함한다. 변환 도메인 경로는 또한 앨리어싱-감소된 시간-도메인 신호를 획득하기 위해 앨리어싱-소거 합성 신호 또는 이의 사후-처리된 버전과 오디오 콘텐츠의 시간-도메인 표현을 조합하도록 구성되는 조합기를 포함한다.
본 발명의 이러한 실시예는 주파수-도메인에서 스펙트럼 계수의 제 1 세트의 스펙트럼 계수의 스펙트럼 형상화를 수행하여, 앨리어싱-소거 자극 신호를 필터링하는 시간-도메인에 의해 앨리어싱-소거 합성 신호를 계산하며, 스펙트럼 계수의 스펙트럼 형상화 및 앨리어싱-소거-자극 신호를 시간-도메인 필터링의 양방이 선형-예측-도메인 매개 변수에 따라 수행되는 오디오 디코더가 서로 다른 잡음 형상화로 인코딩되는 오디오 신호의 부분(예컨대, 프레임) 간의 전환 및, 또한 서로 다른 도메인으로 인코딩되는 프레임 간의 전환에 적합하다는 연구 결과에 기초한다. 따라서, 멀티-모드 오디오 신호 코딩의 서로 다른 모드로 인코딩되는 오디오 신호의 (예컨대, 중복 또는 비중복 프레임 사이의) 전환은 오버헤드의 보통의 레벨(moderate level of overhead)에서 양호한 청각 품질을 가진 오디오 신호 디코더 의해 렌더링될 수 있다.
예컨대, 주파수-도메인에서 계수의 제 1 세트의 스펙트럼 형상화를 수행하는 것은 변환 도메인에서 서로 다른 잡음 형상화 개념을 이용하여 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임) 간의 전환을 갖는 것을 허용하며, 앨리어싱-소거는 서로 다른 잡음 형상화 방법(예컨대, 스케일-팩터-기반 잡음 형상화 및 선형-예측-도메인-매개 변수-기반 잡음-형상화)을 이용하여 인코딩되는 오디오 콘텐츠의 서로 다른 부분 사이의 양호한 효율로 획득될 수 있다. 더욱이, 상술한 개념은 또한, 서로 다른 도메인(예컨대, 하나는 변환 도메인, 하나는 대수-코드-여기된-선형-예측-도메인)으로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임) 사이의 앨리어싱 아티팩트의 효율적인 감소를 허용한다. 앨리어싱-소거 자극 신호의 시간-도메인 필터링의 사용은 (예컨대, 변환-코딩된-여기 선형 예측-도메인 모드로 인코딩될 수 있는) 오디오 콘텐츠의 현재 부분의 잡음 형상화가 시간-도메인 필터링에 의해서보다 주파수-도메인에서 수행될지라도 대수-코드-여기된-선형-예측 모드로 인코딩되는 오디오 콘텐츠의 부분 간의 전환에서 앨리어싱-소거를 허용한다.
상술한 바를 요약하면, 본 발명에 따른 실시예들은 3개의 서로 다른 모드(예컨대, 주파수-도메인 모드, 변환-코딩된-여기 선형-예측-도메인 모드, 및 대수-코드-여기된-선형-예측 모드)로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환의 지각적 품질 및 필요한 보조(side) 정보 사이의 양호한 트레이드오프(tradeoff)를 허용한다.
바람직한 실시예에서, 오디오 신호 디코더는 다수의 코딩 모드 사이에서 스위칭하도록 구성되는 멀티-모드 오디오 신호 디코더이다. 이 경우에, 변환 도메인 브랜치는, 앨리어싱-소거 중복-및-추가 동작을 허용하지 않는 오디오 콘텐츠의 이전의 부분을 뒤따르거나, 앨리어싱-소거 중복-및-추가 동작을 허용하지 않는 오디오 콘텐츠의 다음 부분이 뒤따르는 오디오 콘텐츠의 부분에 대한 앨리어싱 소거 합성 신호를 선택적으로 획득하도록 구성된다. 스펙트럼 계수의 제 1 세트의 스펙트럼 계수의 스펙트럼 형상화에 의해 수행되는 잡음 형상화의 적용은, 앨리어싱-소거 신호를 이용하지 않고 서로 다른 잡음 형상화 개념(예컨대, 스케일-팩터-기반 잡음 형상화 개념 및 선형-예측-도메인-매개 변수-기반 잡음-형상화 개념)을 이용하여 변환 도메인으로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환을 허용하는데, 그 이유는 스펙트럼 형상화 후에 제 1 주파수-도메인-대-시간-도메인-변환기의 사용이 다음 오디오 프레임에서 서로 다른 잡음-형상화 접근법을 이용할지라도 변환 도메인으로 인코딩되는 다음 프레임 사이에서 효율적인 앨리어싱 소거를 허용하기 때문이다. 따라서, 비트율 효율은 비변환 도메인(예컨대, 대수-코드-여기된-선형-예측 모드)으로 인코딩되는 오디오 콘텐츠의 부분 간의 전환을 위해서만 앨리어싱-소거 합성 신호를 선택적으로 획득함으로써 획득될 수 있다.
바람직한 실시예에서, 오디오 신호 디코더는 변환-코딩된-여기 정보 및 선형-예측-도메인 매개 변수 정보를 이용하는 변환-코딩된-여기-선형-예측-도메인 모드와, 스펙트럼 계수 정보 및 스케일 팩터 정보를 이용하는 주파수-도메인 모드 사이에서 스위칭하도록 구성된다. 이 경우에, 변환-도메인-경로는, 변환-코딩된-여기 정보에 기초하여 스펙트럼 계수의 제 1 세트를 획득하고, 선형-예측-도메인-매개 변수 정보에 기초하여 선형-예측-도메인 매개 변수를 획득하도록 구성된다. 오디오 신호 디코더는, 스펙트럼 계수 정보에 의해 나타내는 스펙트럼 계수의 주파수-도메인 모드 세트에 기초하고, 스케일 팩터 정보에 의해 나타내는 스케일 팩터의 세트에 따라 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 주파수 도메인 경로를 포함한다. 주파수-도메인 경로는, 스펙트럼 계수의 스펙트럼으로-형상화된 주파수-도메인 모드 세트를 획득하기 위해 스케일 팩터에 따라 스펙트럼 형상화를 스펙트럼 계수의 주파수-도메인 모드 세트 또는 이의 사전 처리된 버전에 적용하도록 구성되는 스펙트럼 프로세서를 포함한다. 주파수-도메인 경로는 또한 스펙트럼 계수의 스펙트럼으로-형상화된 주파수-도메인 모드 세트에 기초하여 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 주파수-도메인-대-시간-도메인-변환기를 포함한다. 오디오 신호 디코더는, 오디오 콘텐츠의 두 다음 부분, 오디오 콘텐츠의 두 다음 부분 중 하나는 변환-코딩된-여기 선형-예측-도메인 모드로 인코딩되고, 오디오 콘텐츠의 두 다음 부분 중 다른 하나는 주파수-도메인 모드로 인코딩되는 시간-도메인 표현이 주파수-도메인-대-시간-도메인-변환에 의해 발생된 시간-도메인 앨리어싱을 소거하는 시간적 중복을 포함하도록 구성된다.
이미 논의된 바와 같이, 본 발명의 실시예에 따른 개념은 변환-코딩된-여기 선형-예측-도메인 모드 및 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에 적합하다. 스펙트럼 형상화가 주파수-도메인에서 변환-코딩된-여기 선형-예측-도메인 모드로 수행된다는 사실로 인해 매우 양호한 품질의 앨리어싱-소거가 획득된다.
바람직한 실시예에서, 오디오 신호 디코더는 변환-코딩된-여기 정보 및 선형-예측-도메인 매개 변수 정보를 이용하는 변환-코딩된-여기-선형-예측-도메인 모드와, 대수-코드-여기-정보 및 선형-예측-도메인-매개 변수 정보를 이용하는 대수-코드-여기된-선형-예측 모드 사이에서 스위칭하도록 구성된다. 이 경우에, 변환-도메인-경로는, 변환-코딩된-여기 정보에 기초하여 스펙트럼 계수의 제 1 세트를 획득하고, 선형-예측-도메인-매개 변수 정보에 기초하여 선형-예측-도메인 매개 변수를 획득하도록 구성된다. 오디오 신호 디코더는, 대수-코드-여기-정보 및 선형-예측-도메인-매개 변수 정보에 기초하여 대수-코드-여기된-선형-예측(또한 다음에는 간단히 ACELP로 명시됨) 모드로 인코딩되는 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 대수-코드-여기된-선형-예측 경로를 포함한다. 이 경우에, ACELP 경로는 대수-코드-여기-정보에 기초하여 시간-도메인 여기 신호를 제공하도록 구성되는 ACELP 여기 프로세서 및, 시간-도메인 필터링을 수행하도록 구성되는 합성 필터를 포함하여, 시간-도메인 여기 신호에 기초하고, 선형-예측-도메인-매개 변수 정보에 기초하여 획득되는 선형-예측-도메인 필터 계수에 따라 재구성된 신호를 제공한다. 변환 도메인 경로는, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르는 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분 및, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분에 선행하는 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 콘텐츠의 부분에 앨리어싱-소거 합성 신호를 선택적으로 제공하도록 구성된다. 앨리어싱-소거 합성 신호는 변환-코딩된-여기-선형-예측-도메인(다음에는 또한 간략히 TCX-LPD로 명시됨) 모드 및 ACELP 모드로 인코딩되는 부분(예컨대, 프레임) 사이의 전환에 매우 적합한 것으로 발견되었다.
바람직한 실시예에서, 앨리어싱-소거 자극 필터는 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르는 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분에 대한 제 1 주파수-도메인-대-시간-도메인-변환기의 좌측 앨리어싱 폴딩 포인트(left-sided aliasing folding point)에 상응하는 선형-예측-도메인 필터 매개 변수에 따라 앨리어싱-소거 자극 신호를 필터링하도록 구성된다. 앨리어싱-소거 자극 필터는 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분에 선행하는 변환-코딩된-여기-선형-예측-모드로 인코딩되는 오디오 콘텐츠의 부분에 대한 제 2 주파수-도메인-대-시간-도메인-변환기의 우측 앨리어싱 폴딩 포인트에 상응하는 선형-예측-도메인 필터 매개 변수에 따라 앨리어싱-소거 자극 신호를 필터링하도록 구성된다. 앨리어싱 폴딩 포인트에 상응하는 선형-예측-도메인 필터 매개 변수를 적용함으로써, 지극히 효율적인 앨리어싱-소거가 획득될 수 있다. 또한, 앨리어싱 폴딩 포인트에 상응하는 선형-예측-도메인 필터 매개 변수는 통상적으로 앨리어싱 폴딩 포인트가 종종 어쨌든 상기 선형-예측-도메인 필터 매개 변수의 전송을 필요로 하도록 한 프레임에서 다음 프레임으로서 전환 시에 존재할 시에 쉽게 획득할 수 있다. 따라서, 오버헤드는 최소로 유지된다.
추가적 실시예에서, 오디오 신호 디코더는, 앨리어싱-소거 합성 신호를 제공하기 위해 앨리어싱-소거 자극 필터의 메모리 값을 제로(0)로 초기화하고, 앨리어싱-소거 자극 신호의 M 샘플을 앨리어싱-소거 자극 필터에 공급하며, 앨리어싱-소거 합성 신호의 상응하는 비제로 입력 응답 샘플을 획득하며, 앨리어싱-소거 합성 신호의 다수의 제로-입력 응답 샘플을 추가로 획득하도록 구성된다. 조합기는 바람직하게는 비제로 입력 응답 샘플 및 다음 제로-입력 응답 샘플과 오디오 콘텐츠의 시간-도메인 표현을 조합하여, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분에서 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르는 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환 시에 앨리어싱-감소된 시간-도메인 신호를 획득하도록 구성된다. 비제로 입력 응답 샘플 및 다음 제로-입력 응답 샘플의 양방을 이용함으로써, 매우 양호한 용법은 앨리어싱-소거 자극 필터로 구성될 수 있다. 또한, 매우 순조로운 앨리어싱-소거 합성 신호는 앨리어싱-소거 자극 신호의 필요한 샘플의 수를 가능한 적게 유지하면서 획득될 수 있다. 더욱이, 앨리어싱-소거 합성 신호는 상술한 개념을 이용함으로써 통상적인 앨리어싱 아티팩트에 매우 잘 적응되는 것으로 발견되었다. 따라서, 코딩 효율과 앨리어싱-소거 사이의 매우 양호한 트레이드오프가 획득될 수 있다.
바람직한 실시예에서, 오디오 신호 디코더는 TCX-LPD 모드를 이용하여 획득되는 오디오 콘텐츠의 다음 부분의 시간-도메인 표현과 ACELP 모드를 이용하여 획득되는 시간-도메인 표현의 적어도 부분의 윈도잉된 및 폴딩된 버전을 조합하여, 적어도 부분적으로 앨리어싱을 소거하도록 구성된다. 앨리어싱-소거 합성 신호의 생성 이외에 이와 같은 앨리어싱-소거 메카니즘의 용법은 상당한 비트율 효율적인 방식으로 앨리어싱-소거를 획득하는 가능성을 제공하는 것으로 발견되었다. 특히, 필요한 앨리어싱-소거 자극 신호는 앨리어싱-소거 합성 신호가, 앨리어싱-소거 시에, ACELP 모드를 이용하여 획득되는 시간-도메인 표현의 적어도 부분의 윈도잉된 및 폴딩된 버전에 의해 지원될 경우에 높은 효율로 인코딩될 수 있다.
바람직한 실시예에서, 오디오 신호 디코더는 TCX-LPD 모드를 이용하여 획득되는 오디오 콘텐츠의 다음 부분의 시간-도메인 표현과 ACELP 브랜치의 합성 필터의 제로 임펄스 응답의 윈도잉된 버전을 조합하여, 적어도 부분적으로 앨리어싱을 소거하도록 구성된다. 이와 같은 제로 임펄스 응답은 또한, ACELP 브랜치의 합성 필터의 제로 임펄스 응답이 통상적으로 오디오 콘텐츠의 TCX-LPD-인코딩된 부분에서 앨리어싱의 적어도 부분을 소거하기 때문에 앨리어싱-소거 자극 신호의 코딩 효율을 개선하는데 도움을 줄 수 있는 것으로 발견되었다. 따라서, 앨리어싱-소거 합성 신호의 에너지는 감소되어, 결과적으로, 앨리어싱-소거 자극 신호의 에너지를 감소시킨다. 그러나, 보다 적은 에너지를 가진 인코딩 신호는 통상적으로 비트율 요구 조건을 감소시킬 수 있다.
바람직한 실시예에서, 오디오 신호 디코더는, 랩핑된(lapped) 주파수-도메인-대-시간-도메인-변환을 이용하는 TCX-LPD 모드와, 랩핑된 주파수-도메인-대-시간-도메인-변환을 이용하는 주파수-도메인 모드 뿐만 아니라 대수-코드-여기된-선형-예측 모드 사이에서 스위칭하도록 구성된다. 이 경우에, 오디오 신호 디코더는, 오디오 콘텐츠의 다음 중복 부분의 시간 도메인 샘플 사이에 중복-및-추가 동작을 수행시킴으로써 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분과 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에서 적어도 부분적으로 앨리어싱을 소거하도록 구성된다. 또한, 오디오 신호 디코더는 앨리어싱-소거 합성 신호를 이용하여 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분과 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에서 적어도 부분적으로 앨리어싱을 소거하도록 구성된다. 오디오 신호 디코더는 또한 동작의 서로 다른 모드 사이의 스위칭에 적합하여, 앨리어싱이 매우 효율적으로 소거하는 것으로 발견되었다.
바람직한 실시예에서, 오디오 신호 디코더는, 변환 도메인 경로(예컨대, TCX-LPD 경로)의 제 1 주파수-도메인-대-시간-도메인 변환기에 의해 제공되는 시간-도메인 표현의 이득 스케일링 및, 앨리어싱-소거 자극 신호 또는 앨리어싱-소거 합성 신호의 이득 스케일링에 공통의 이득 값을 적용하도록 구성된다. 제 1 주파수-도메인-대-시간-도메인 변환기에 의해 제공되는 시간-도메인 표현의 스케일링 및, 앨리어싱-소거 자극 신호 또는 앨리어싱-소거 합성 신호의 스케일링의 양방에 대한 이런 공통의 이득 값의 재사용은 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에 필요한 비트율의 감소를 허용하는 것으로 발견되었다. 이것은, 비트율 요구 조건이 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환의 환경에서 앨리어싱-소거 자극 신호의 인코딩에 의해 증가되기 때문에 매우 중요하다.
바람직한 실시예에서, 오디오 신호 디코더는 선형-예측-도메인 매개 변수의 적어도 서브세트에 따라 수행되는 스펙트럼 형상화 이외에, 스펙트럼 계수의 제 1 세트의 적어도 서브세트에 스펙트럼 디쉐이핑(deshaping)을 적용하도록 구성된다. 이 경우에, 오디오 신호 디코더는 앨리어싱-소거 자극 신호가 도출되는 앨리어싱-소거 스펙트럼 계수의 세트의 적어도 서브세트에 스펙트럼 디쉐이핑을 적용하도록 구성된다. 스펙트럼 계수의 제 1 세트, 및 앨리어싱 소거 자극 신호가 도출되는 앨리어싱-소거 스펙트럼 계수의 양방에 스펙트럼 디쉐이핑을 적용함으로써, 앨리어싱 소거 합성 신호가 제 1 주파수-도메인-대-시간-도메인 변환기에 의해 제공되는 "주요" 오디오 콘텐츠 신호에 확실히 잘 적응된다. 다시 말하면, 앨리어싱 소거 자극 신호를 인코딩하기 위한 코딩 효율이 개선된다.
바람직한 환경에서, 오디오 신호 디코더는 앨리어싱-소거 자극 신호를 나타내는 스펙트럼 계수의 세트에 따라 앨리어싱-소거 자극 신호의 시간-도메인 표현을 획득하도록 구성되는 제 2 주파수-도메인-대-시간-도메인 변환기를 포함한다. 이 경우에, 제 1 주파수-도메인-대-시간-도메인 변환기는 시간-도메인 앨리어싱을 포함하는 랩핑된 변환을 수행하도록 구성된다. 제 2 주파수-도메인-대-시간-도메인 변환기는 비랩핑된 변환을 수행하도록 구성된다. 따라서, 높은 코딩 효율은 "주요" 신호 합성을 위한 랩핑된 변환을 이용하여 유지될 수 있다. 그럼에도 불구하고, 앨리어싱-소거는 비랩핑되는 추가적인 주파수-도메인-대-시간-도메인 변환을 이용하여 달성된다. 그러나, 랩핑된 주파수-도메인-대-시간-도메인 변환 및 비랩핑된 주파수-도메인-대-시간-도메인 변환의 조합은 단일 비랩핑된 주파수-도메인-대-시간-도메인 전환의 더욱 효율적인 인코딩을 허용하는 것으로 발견되었다.
본 발명에 따른 실시예는 오디오 콘텐츠의 입력 표현에 기초하여 스펙트럼 계수의 제 1 세트, 앨리어싱-소거 자극 신호의 표현 및 다수의 선형-예측-도메인 매개 변수를 포함하는 오디오 콘텐츠의 인코딩된 표현을 제공하는 오디오 신호 인코더를 생성한다. 오디오 신호 인코더는 오디오 콘텐츠의 주파수-도메인 표현을 획득하기 위해 오디오 콘텐츠의 입력 표현을 처리하도록 구성되는 시간-도메인-대-주파수-도메인 변환기를 포함한다. 오디오 신호 인코더는 또한, 오디오 콘텐츠의 스펙트럼으로-형상화된 주파수-도메인 표현을 획득하기 위해 선형-예측-도메인으로 인코딩되는 오디오 콘텐츠의 부분에 대한 선형-예측-도메인 매개 변수의 세트에 따라 스펙트럼 계수의 세트 또는 이의 사전 처리된 버전에 스펙트럼 형상화를 적용하도록 구성되는 스펙트럼 프로세서를 포함한다. 오디오 신호 인코더는 또한, 선형 예측 도메인 매개 변수의 적어도 서브세트에 따른 앨리어싱-소거 자극 신호의 필터링이 오디오 신호 디코더에서 앨리어싱 아티팩트를 소거하기 위해 앨리어싱-소거 합성 신호를 생성하도록 앨리어싱-소거 자극 신호의 표현을 제공하도록 구성되는 앨리어싱-소거 정보 제공자를 포함한다.
여기서 논의된 오디오 신호 인코더는 전에 설명된 오디오 신호 인코더와 협력하는데 적합하다. 특히, 오디오 신호 인코더는 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임) 사이의 전환에서 앨리어싱을 소거하기 위해 필요한 비트율 오버헤드가 상당히 작게 유지되는 오디오 콘텐츠의 표현을 제공하도록 구성된다.
본 발명에 따른 추가적 실시예들은 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법을 생성한다. 상기 방법은 상술한 장치와 동일한 사상에 기초한다.
본 발명에 따른 실시예들은 상기 방법 중 하나를 수행하는 컴퓨터 프로그램을 생성한다. 컴퓨터 프로그램은 또한 동일한 고려에 기초한다.
본 발명에 따른 실시예들은 이후에 첨부된 도면을 참조로 설명될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 신호 인코더의 개략적인 블록도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 오디오 신호 디코더의 개략적인 블록도를 도시한 것이다.
도 3a는 통합된 음성 및 오디오 코딩(USAC) 초안 표준(draft standard)의 작업(working) 초안 4에 따른 참조 오디오 신호 디코더의 개략적인 블록도를 도시한 것이다.
도 3b는 본 발명의 다른 실시예에 따른 오디오 신호 디코더의 개략적인 블록도를 도시한 것이다.
도 4는 USAC 초안 표준의 작업 초안 4에 따른 참조 윈도우 전환의 그래프 표현을 도시한 것이다.
도 5는 본 발명의 실시예에 따라 오디오 신호 코딩에 이용될 수 있는 윈도우 전환의 개략적 표현을 도시한 것이다.
도 6은 본 발명의 실시예에 따른 오디오 신호 인코더 또는 본 발명의 실시예에 따른 오디오 신호 디코더에 이용되는 모든 윈도우 타입의 개요를 제공하는 개략적 표현을 도시한 것이다.
도 7은 본 발명의 실시예에 따른 오디오 신호 인코더, 또는 본 발명의 실시예에 따른 오디오 신호 디코더에 이용될 수 있는 허용된 윈도우 시퀀스의 테이블 표현을 도시한 것이다.
도 8은 본 발명의 실시예에 따른 오디오 신호 인코더의 개략적인 상세 블록도를 도시한 것이다.
도 9는 본 발명의 실시예에 따른 오디오 신호 디코더의 개략적인 상세 블록도를 도시한 것이다.
도 10은 ACELP 간의 전환을 위한 포워드(forward)-앨리어싱-소거(FAC) 디코딩 동작의 개략적 표현을 도시한 것이다.
도 11은 인코덩서 FAC 타겟의 계산의 개략적 표현을 도시한 것이다.
도 12는 주파수-도메인-잡음-형상화(FDNS)와 관련한 FAC 타겟의 양자화의 개략적 표현을 도시한 것이다.
테이블 1은 비트스트림에서 주어진 LPC 필터의 존재를 위한 조건을 도시한 것이다.
도 13은 가중된 대수 LPC 역 양자화기의 원리의 개략적 표현을 도시한 것이다.
테이블 2는 "mode_lpc"의 가능한 절대 및 상대 양자화 모드 및 상응하는 비트스트림 신호의 표현을 도시한 것이다.
테이블 3은 코드북 수 nk에 대한 코딩 모드의 테이블 표현을 도시한 것이다.
테이블 4는 AVQ 양자화에 대한 정규화 벡터 W의 테이블 표현을 도시한 것이다.
테이블 5는 평균 여기 에너지
Figure 112012038836218-pct00001
에 대한 매핑의 테이블 표현을 도시한 것이다.
테이블 6은 "mod[]"의 함수로서 스펙트럼 계수의 수의 테이블 표현을 도시한 것이다.
도 14는 주파수-도메인 채널 스트림 "fd_channel_stream()"의 구문의 표현을 도시한 것이다.
도 15는 선형-예측-도메인 채널 스트림 "lpd_channel_stream()"의 구문의 표현을 도시한 것이다.
도 16은 포워드 앨리어싱-소거 데이터 "fac_data()"의 구문의 표현을 도시한 것이다.
1. 도 1에 따른 오디오 신호 디코더
도 1은 본 발명의 실시예에 따른 오디오 신호 인코더(100)의 개략적인 블록도를 도시한 것이다. 오디오 신호 인코더(100)는 오디오 콘텐츠의 입력 표현(110)을 수신하여, 이에 기초하여, 오디오 콘텐츠의 인코딩된 표현(112)을 제공하도록 구성된다. 오디오 콘텐츠의 인코딩된 표현(112)은 스펙트럼 계수의 제 1 세트(112a), 다수의 선형-예측-도메인 매개 변수(112b) 및 앨리어싱-소거 자극 신호의 표현(112c)을 포함한다.
오디오 신호 인코더(100)는, (스펙트럼 계수의 세트의 형식을 취할 수 있는) 오디오 콘텐츠의 주파수-도메인 표현(122)을 획득하기 위해 오디오 콘텐츠의 입력 표현(110)(또는 동등하게 이의 사전 처리된 버전(110'))을 처리하도록 구성되는 시간-도메인-대-주파수-도메인 변환기(120)를 포함한다.
오디오 신호 인코더(100)는 또한, 오디오 콘텐츠의 스펙트럼으로-형상화된 주파수-도메인 표현(132)을 획득하기 위해 선형-예측-도메인으로 인코딩되는 오디오 콘텐츠의 부분에 대한 선형-예측-도메인 매개 변수의 세트(140)에 따라 오디오 콘텐츠의 주파수-도메인 표현(122) 또는 이의 사전 처리된 버전(122')에 스펙트럼 형상화를 적용하도록 구성되는 스펙트럼 프로세서(130)를 포함한다. 스펙트럼 계수의 제 1 세트(112a)는 오디오 콘텐츠의 스펙트럼으로-형상화된 주파수-도메인 표현(132)과 동등할 수 있거나, 오디오 콘텐츠의 스펙트럼으로-형상화된 주파수-도메인 표현(132)으로부터 도출될 수 있다.
오디오 신호 인코더(100)는 또한, 선형-예측-도메인 매개 변수(140)의 적어도 서브세트에 따른 앨리어싱-소거 자극 신호의 필터링이 오디오 신호 디코더에서 앨리어싱 아티팩트를 소거하기 위해 앨리어싱-소거 합성 신호를 생성하도록 앨리어싱-소거 자극 신호의 표현(112c)을 제공하도록 구성되는 앨리어싱-소거 정보 제공자(150)를 포함한다.
또한, 선형-예측-도메인 매개 변수(112b)는, 예컨대, 선형-예측-도메인 매개 변수(140)와 동등할 수 있는 것으로 언급된다.
오디오 신호 인코더(110)는 오디오 콘텐츠의 서로 다른 부분(예컨대, 프레임 또는 서브프레임)이 서로 다른 모드로 인코딩될지라도 오디오 콘텐츠의 표현에 적합한 정보를 제공한다. 선형-예측-도메인, 예컨대, 변환-코딩된-여기 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에 대해, 잡음 형상화를 가져와서, 비교적 작은 비트율을 가진 오디오 콘텐츠의 양자화를 허용하는 스펙트럼 형상화는 시간-도메인-대-주파수-도메인 변환 후에 수행된다. 이것은, 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전 또는 다음 부분과 함께 선형-예측-도메인으로 인코딩되는 오디오 콘텐츠의 부분의 앨리어싱-소거 중복-및-추가를 허용한다. 스펙트럼 형상화를 위해 선형-예측-도메인 매개 변수(140)를 이용함으로써, 스펙트럼 형상화는, 특히 양호한 코딩 효율이 음성형 오디오 콘텐츠에 대해 획득될 수 있도록 음성형 오디오 콘텐츠에 잘 적응된다. 앨리어싱-소거 자극 신호의 표현은 대수-코드-여기된-선형-예측 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임) 간의 전환에서 효율적인 앨리어싱-소거를 허용한다. 선형 예측 도메인 매개 변수에 따라 앨리어싱-소거 자극 신호의 표현을 제공함으로써, 앨리어싱-소거 자극 신호의 특히 효율적인 표현이 획득되어, 결국 디코더에서 알려지는 선형-예측-도메인 매개 변수를 고려하여 디코더 측에서 디코딩될 수 있다.
요약하면, 오디오 신호 인코더(110)는 서로 다른 코딩 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환을 가능하게 하는데 적합하여, 특히 콤팩트한 형식으로 앨리어싱-소거 정보를 제공할 수 있다.
2. 도 2에 따른 오디오 신호 디코더
도 2는 본 발명의 실시예에 따른 오디오 신호 디코더(200)의 개략적인 블록도를 도시한 것이다. 오디오 신호 디코더(200)는 오디오 콘텐츠의 인코딩된 표현(210)을 수신하여, 이에 기초하여, 예컨대, 앨리어싱-감소된-시간-도메인 신호의 형식으로 오디오 콘텐츠의 디코딩된 표현(212)을 제공하도록 구성된다.
오디오 신호 디코더(200)는, 스펙트럼 계수의 (제 1) 세트(220), 앨리어싱-소거 자극 신호의 표현(224) 및 다수의 선형-예측-도메인 매개 변수(222)에 기초하여 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 시간-도메인 표현(212)을 획득하도록 구성되는 변환 도메인 경로(예컨대, 변환-코딩된-여기 선형-예측-도메인-경로)를 포함한다. 변환 도메인 경로는 선형-예측-도메인 매개 변수(222)의 적어도 서브세트에 따라 스펙트럼 형상화를 스펙트럼 계수의 (제 1) 세트(220)에 적용하여, 스펙트럼 계수의 제 1 세트(220)의 스펙트럼으로 형상화된 버전(232)을 획득하도록 구성되는 스펙트럼 프로세서(230)를 포함한다. 변환 도메인 경로는 또한 스펙트럼 계수의 (제 1) 세트(220)의 스펙트럼으로 형상화된 버전(232)에 기초하여 오디오 콘텐츠의 시간-도메인 표현(242)을 획득하도록 구성되는 (제 1) 주파수-도메인-대-시간-도메인-변환기(240)를 포함한다. 변환 도메인 경로는 또한 앨리어싱-소거 자극 신호로부터 앨리어싱-소거 합성 신호(252)를 도출하기 위해 선형-예측-도메인 매개 변수(222)의 적어도 서브세트에 따라 (표현(224)으로 나타내는) 앨리어싱-소거 자극 신호를 필터링하도록 구성되는 앨리어싱-소거 자극 필터(250)를 포함한다. 변환 도메인 경로는 또한 앨리어싱-감소된 시간-도메인 신호(212)를 획득하기 위해 앨리어싱-소거 합성 신호(252)(또는 동등하게 이의 사후-처리된 버전(252'))와 오디오 콘텐츠의 시간-도메인 표현(242)(또는 동등하게 이의 사후-처리된 버전(242'))을 조합하도록 구성되는 조합기(260)를 포함한다.
오디오 신호 디코더(200)는, 선형-예측-도메인 매개 변수의 적어도 서브세트로부터, 예컨대, 스케일링 및/또는 주파수-도메인 잡음 형상화를 수행하는 스펙트럼 프로세서(230)의 세팅을 도출하기 위한 선택적 프로세싱(270)을 포함할 수 있다.
오디오 신호 디코더(200)는 또한, 선형-예측-도메인 매개 변수(222)의 적어도 서브세트로부터, 예컨대, 앨리어싱-소거 합성 신호(252)를 합성하기 위한 합성 필터링을 수행할 수 있는 앨리어싱-소거 자극 필터(250)의 세팅을 도출하도록 구성되는 선택적 프로세싱(280)을 포함한다.
오디오 신호 디코더(200)는, 오디오 콘텐츠를 나타내고, 동작의 주파수-도메인 모드로 획득되는 시간-도메인 신호와, 오디오 콘텐츠를 나타내고, 동작의 ACELP 모드로 인코딩되는 시간-도메인 신호와 조합하는데 적합한 앨리어싱-감소된 시간-도메인 신호(212)를 제공하도록 구성된다. 주파수-도메인에서 스펙트럼 프로세서(230)에 의해, 즉 주파수-도메인-대-시간-도메인-변환(240) 전에 잡음 형상화가 수행됨에 따라, (도 2에 도시되지 않은 주파수-도메인 경로를 이용하는) 동작의 주파수-도메인 모드를 이용하여 디코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임)과, 도 2의 변환 도메인 경로를 이용하여 디코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임) 사이에는 특히 양호한 중복-및-추가 특성이 존재한다. 더욱이, 앨리어싱-소거 합성 신호(252)가 선형-예측-도메인 매개 변수에 따라 앨리어싱-소거 자극 신호의 필터링에 기초하여 제공된다는 사실로 인해, 도 2의 변환 도메인 경로를 이용하여 디코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)과, ACELP 디코딩 경로를 이용하여 디코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임) 사이에는 특히 양호한 앨리어싱-소거가 또한 획득될 수 있다. 이런 식으로 획득되는 앨리어싱-소거 합성 신호(252)는 통상적으로 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분과, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에서 발생하는 앨리어싱 아티팩트에 잘 적응된다. 오디오 신호 디코딩의 동작에 관한 추가적인 선택적 상세 사항은 다음에 설명될 것이다.
3. 도 3a 및 3b에 따라 스위칭된 오디오 디코더
다음에는, 멀티-모드 오디오 신호 디코더에 대한 개념이 도 3a 및 3b를 참조로 간략히 논의될 것이다.
3.1 도 3a에 따른 오디오 신호 디코더(300)
본 발명의 실시예에 따라, 도 3a는 참조 멀티-모드 오디오 신호 디코더의 개략적인 블록도를 도시하고, 도 3b는 멀티-모드 오디오 신호 디코더의 개략적인 블록도를 도시한다. 환언하면, 도 3a는 (예컨대, USAC 초안 표준의 작업 초안 4에 따른) 참조 시스템의 기본 디코더 신호 흐름을 도시하고, 도 3b는 본 발명의 실시예에 따른 제안된 시스템의 기본 디코더 신호 흐름을 도시한다.
오디오 신호 디코더(300)는 먼저 도 3a를 참조로 설명될 것이다. 오디오 신호 디코더(300)는 입력 비트스트림을 수신하여, 비트스트림에 포함된 정보를 처리 브랜치의 적절한 처리 유닛에 제공하도록 구성되는 비트 멀티플렉서(310)를 포함한다.
오디오 신호 디코더(300)는, 스케일 팩터 정보(322) 및 인코딩된 스펙트럼 계수 정보(324)를 수신하여, 이에 기초하여, 주파수-도메인 모드로 인코딩되는 오디오 프레임의 시간-도메인 표현(326)을 제공하도록 구성되는 주파수-도메인 모드 경로(320)를 포함한다. 오디오 신호 디코더(300)는 또한, 인코딩된 변환-코딩된-여기 정보(332) 및 선형-예측 계수 정보(334)(또한, 선형-예측 코딩 정보, 또는 선형-예측-도메인 정보 또는 선형-예측-코딩 필터 정보로 명시됨)를 수신하여, 이에 기초하여, 변환-코딩된-여기-선형-예측-도메인(TCX-LPD) 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임의 시간-도메인 표현을 제공하도록 구성되는 변환-코딩된-여기-선형-예측-도메인 경로(330)를 포함한다. 오디오 신호 디코더(300)는 또한, 인코딩된 여기 정보(342) 및 선형-예측-코딩 정보(344)(또한, 선형-예측 계수 정보 또는 선형 예측 도메인 정보 또는 선형-예측-코딩 필터 정보로 명시됨)를 수신하여, 이에 기초하여, ACELP 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임의 표현으로서 시간-도메인 선형-예측-코딩 정보를 제공하도록 구성되는 대수-코드-여기된-선형-예측(ACELP) 경로(340)를 포함한다. 오디오 신호 디코더(300)는 또한 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 프레임 또는 서브프레임의 시간-도메인 표현(326, 336, 346)을 수신하여, 전환 윈도잉을 이용하여 시간 도메인 표현을 조합하도록 구성되는 전환 윈도잉을 포함한다.
주파수-도메인 경로(320)는, 인코딩된 스펙트럼 표현(324)을 디코딩하여, 디코딩된 스펙트럼 표현(320b)을 획득하도록 구성되는 산술 디코더(320a), 디코딩된 스펙트럼 표현(320b)에 기초하여 역 양자화된 스펙트럼 표현(320e)을 제공하도록 구성되는 역 양자화기(320d), 스케일 팩터에 따라 역 양자화된 스펙트럼 표현(320d)을 스케일링하여, 스케일링된 스펙트럼 표현(320f)을 획득하도록 구성되는 스케일링(320e) 및, 스케일링된 스펙트럼 표현(320f)에 기초하여 시간-도메인 표현(326)을 제공하는 (역) 수정된 이산 코사인 변환(320g)을 포함한다.
TCX-LPD 브랜치(330)는, 인코딩된 스펙트럼 표현(332)에 기초하여 디코딩된 스펙트럼 표현(330b)을 제공하도록 구성되는 산술 디코더(330a), 디코딩된 스펙트럼 표현(330b)에 기초하여 역 양자화된 스펙트럼 표현(330d)을 제공하도록 구성되는 역 양자화기(330c), 역 양자화된 스펙트럼 표현(330d)에 기초하여 여기 신호(330f)를 제공하는 (역) 수정된 이산 코사인 변환(330e) 및, 여기 신호(330f) 및 선형-예측-코딩 필터 계수(334)(또한, 때때로 선형-예측-도메인 필터 계수로 명시됨)에 기초하여 시간-도메인 표현(336)을 제공하는 선형-예측-코딩 합성 필터(330g)를 포함한다.
ACELP 브랜치(340)는 인코딩된 여기 신호(342)에 기초하여 ACELP 여기 신호(340b)를 제공하도록 구성되는 ACELP 여기 프로세서(340a) 및, ACELP 여기 신호(340b) 및 선형-예측-코딩 필터 계수(344)에 기초하여 시간-도메인 표현(346)을 제공하는 선형-예측-코딩 합성 필터(340c)를 포함한다.
3.2 도 4에 따른 전환 윈도잉
이제 도 4를 참조하면, 전환 윈도잉(350)이 더욱 상세히 설명될 것이다. 먼저, 오디오 신호 디코더(300)에 대한 일반적인 프레임 구조가 설명될 것이다. 그러나, 약간의 차이만을 가진 매우 유사한 프레임 구조, 또는 심지어 동일한 일반적인 프레임 구조가 여기에 설명된 다른 오디오 신호 인코더 또는 디코더에 이용되는 것으로 언급되어야 한다. 또한, 오디오 프레임은 통상적으로 N 샘플의 길이를 포함하는 것으로 언급되어야 하며, 여기서, N은 2048과 동일할 수 있다. 오디오 콘텐츠의 다음 프레임은 대략 50 % 만큼, 예컨대, N/2 오디오 샘플만큼 중복할 수 있다. 오디오 프레임은 오디오 프레임의 N 시간-도메인 샘플이 예컨대 N/2 스펙트럼 계수의 세트로 나타내도록 주파수-도메인으로 인코딩될 수 있다. 대안적으로, 오디오 프레임의 N 시간-도메인 샘플은 또한 예컨대 128 스펙트럼 계수의 다수의 8 세트로 나타낼 수 있다. 따라서, 더욱 높은 시간적 해상도가 획득될 수 있다.
오디오 프레임의 N 시간-도메인 샘플이 스펙트럼 계수의 단일 세트를 이용하여 주파수-도메인 모드로 인코딩되면, 예컨대, 소위 "STOP_START" 윈도우, 소위 "AAC Long" 윈도우, 소위 "AAC Start" 윈도우, 또는 소위 "AAC Stop" 윈도우와 같은 단일 윈도우는 역 수정된 이산 코사인 변환(320g)에 의해 제공되는 시간 도메인 샘플(326)을 윈도잉하는데 적용될 수 있다. 이에 반해, 예컨대, 타입 "AAC Short"의 다수의 짧은 윈도우는 오디오 프레임의 N 시간-도메인 샘플이 스펙트럼 계수의 다수의 세트를 이용하여 인코딩될 경우에 스펙트럼 계수의 서로 다른 세트를 이용하여 획득되는 시간-도메인 표현을 윈도잉하는데 적용될 수 있다. 예컨대, 별도의 짧은 윈도우는 단일 오디오 프레임과 관련된 스펙트럼 계수의 개별 세트에 기초하여 획득되는 시간-도메인 표현에 적용될 수 있다.
선형-예측-도메인 모드로 인코딩되는 오디오 프레임은 때때로 "프레임"으로 명시되는 다수의 서브프레임으로 세분될 수 있다. 서브프레임의 각각은 TCX-LPD 모드 또는 ACELP 모드로 인코딩될 수 있다. 그러나, 따라서, TCX-LPD 모드에서는, 서브프레임의 둘 또는 심지어 넷은 변환 인코딩된 여기를 나타내는 스펙트럼 계수의 단일 세트를 이용하여 함께 인코딩될 수 있다.
TCX-LPD 모드로 인코딩되는 서브프레임(또는 2 또는 4개의 서브프레임의 그룹)은 스펙트럼 계수의 세트 및 선형-예측-코딩 필터 계수의 하나 이상의 세트로 나타낼 수 있다. ACELP 도메인으로 인코딩되는 오디오 콘텐츠의 서브프레임은 인코딩된 ACELP 여기 신호 및 선형-예측-코딩 필터 계수의 하나 이상의 세트로 나타낼 수 있다.
지금 도 4를 참조하면, 프레임 또는 서브프레임 사이의 전환의 구현이 설명될 것이다. 도 4의 개략적 표현에서, 가로 좌표(402a 내지 402i)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(404a 내지 404i)는 시간 도메인 샘플을 제공하는 윈도우 및/또는 시간적 영역을 나타낸다.
참조 번호(410)에서, 주파수-도메인으로 인코딩되는 두 중복 프레임 사이의 전환이 표시된다. 참조 번호(420)에서, ACELP 모드로 인코딩되는 서브프레임에서 주파수-도메인 모드로 인코딩되는 프레임으로의 전환이 도시된다. 참조 번호(430)에서, TCX-LPD 모드(또한 "wLPT" 모드로 명시됨)로 인코딩되는 프레임(또는 서브프레임)에서 주파수-도메인 모드로 인코딩되는 프레임으로의 전환이 예시된다. 참조 번호(440)에서, 주파수-도메인 모드로 인코딩되는 프레임과, ACELP 모드로 인코딩되는 서브프레임 사이의 전환이 도시된다. 참조 번호(450)에서, ACELP 모드로 인코딩되는 서브프레임 사이의 전환이 도시된다. 참조 번호(460)에서, TCX-LPD 모드로 인코딩되는 서브프레임에서 ACELP 모드로 인코딩되는 서브프레임으로의 전환이 도시된다. 참조 번호(470)에서, 주파수-도메인 모드로 인코딩되는 프레임에서 TCX-LPD 모드로 인코딩되는 서브프레임으로의 전환이 도시된다. 참조 번호(480)에서, ACELP 모드로 인코딩되는 서브프레임과, TCX-LPD 모드로 인코딩되는 서브프레임 사이의 전환이 도시된다. 참조 번호(490)에서, 모드로 인코딩되는 서브프레임 사이의 전환이 도시된다.
흥미롭게도, 참조 번호(430)에 도시도는 TCX-LPD 모드에서 주파수-도메인 모드로의 전환은 디코더로 전송되는 정보의 부분이 폐기된다는 사실로 인해 약간 비효율적이거나 심지어 TCX-LPD이 매우 비효율적이다. 마찬가지로, 참조 번호(460 및 480)에 도시되는 ACELP 모드와 TCX-LPD 모드 사이의 전환은 디코더로 전송되는 정보의 부분이 폐기된다는 사실로 인해 비효율적으로 구현된다.
3.3. 도 3b에 따른 오디오 신호 디코더(360)
다음에는, 본 발명의 실시예에 따른 오디오 신호 디코더(360)가 설명될 것이다.
오디오 신호(360)는 오디오 콘텐츠의 비트스트림 표현(361)을 수신하여, 이에 기초하여, 정보 요소를 오디오 신호 디코더(360)의 서로 다른 브랜치에 제공하도록 구성되는 비트 멀티플렉서 또는 비트스트림 파서(bitstream parser)(362)를 포함한다.
오디오 신호 디코더(360)는, 비트 멀티플렉서(362)로부터 인코딩된 스케일 팩터 정보(372) 및 인코딩된 스펙트럼 정보(374)를 수신하여, 이에 기초하여, 주파수-도메인 모드로 인코딩되는 프레임의 시간-도메인 표현(376)을 제공하는 주파수-도메인 브랜치(370)를 포함한다. 오디오 신호 디코더(360)는 또한, 인코딩된 스펙트럼 표현(382) 및 인코딩된 선형-예측-코딩 필터 계수(384)를 수신하여, 이에 기초하여, TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임의 시간-도메인 표현(386)을 제공하도록 구성되는 TCX-LPD 경로(380)를 포함한다.
오디오 신호 디코더(360)는, 인코딩된 ACELP 여기(392) 및 인코딩된 선형-예측-코딩 필터 계수(394)를 수신하여, 이에 기초하여, ACELP 모드로 인코딩되는 오디오 서브프레임의 시간-도메인 표현(396)을 제공하도록 구성되는 ACELP 경로(390)를 포함한다.
오디오 신호 디코더(360)는 또한 서로 다른 모드로 인코딩되는 프레임 및 서브프레임의 시간-도메인 표현(376, 386, 396)에 적절한 전환 윈도잉을 적용하여, 연속적 오디오 신호를 도출하도록 구성되는 전환 윈도잉(398)을 포함한다.
주파수-도메인 브랜치(370)는, 주파수-도메인 브랜치(370)에 서로 다른 또는 추가적인 앨리어싱-소거 메카니즘이 있을지라도 일반적인 구조 및 기능에서 주파수-도메인 브랜치(320)와 동일할 수 있는 것으로 여기에 언급되어야 한다. 더욱이, ACELP 브랜치(390)는 상기 설명이 또한 적용하도록 일반적인 구조 및 기능에서 ACELP 브랜치(340)와 동일할 수 있다.
그러나, TCX-LPD 브랜치(380)는 TCX-LPD 브랜치(380)에서 역 수정된 이산 코사인 변환 전에 잡음-형상화가 수행된다는 점에서 TCX-LPD 브랜치(330)와 다르다. 또한, TCX-LPD 브랜치(380)는 추가적인 앨리어싱 소거 기능을 포함한다.
TCX-LPD 브랜치(380)는 인코딩된 스펙트럼 표현(382)을 수신하여, 이에 기초하여, 디코딩된 스펙트럼 표현(380b)을 제공하도록 구성되는 산술 디코더(380a)를 포함한다. TCX-LPD 브랜치(380)는 또한 디코딩된 스펙트럼 표현(380b)을 수신하여, 이에 기초하여, 역 양자화된 스펙트럼 표현(380d)을 제공하도록 구성되는 역 양자화기(380c)를 포함한다. TCX-LPD 브랜치(380)는 또한 역 양자화된 스펙트럼 표현(380d) 및 스펙트럼 형상화 정보(380f)를 수신하여, 이에 기초하여, 스펙트럼으로 형상화된 스펙트럼 표현(380g)을 역 수정된-이산-코사인-변환(380h)에 제공하도록 구성되는 스케일링 및/또는 주파수-도메인 잡음-형상화(380e)를 포함하며, 역 수정된-이산-코사인-변환(380h)은 스펙트럼으로 형상화된 스펙트럼 표현(380g)에 기초하여 시간-도메인 표현(386)을 제공한다. TCX-LPD 브랜치(380)는 또한 선형-예측-코딩 필터 계수(384)에 기초하여 스펙트럼 스케일링 정보(380f)를 제공하도록 구성되는 선형-예측-계수-대-주파수-도메인 변환기(380i)를 포함한다.
오디오 신호 디코더(360)의 기능에 관해, 주파수-도메인 브랜치(370) 및 TCX-LPD 브랜치(380)는 이들의 각각이 동일한 처리 순서로 산술 디코딩, 역 양자화, 스펙트럼 스케일링 및 역 수정된-이산-코사인-변환을 가진 처리 체인(chain)을 포함한다는 점에서 매우 유사하다. 따라서, 주파수-도메인 브랜치(370) 및 TCX-LPD 브랜치(380)의 출력 신호(376, 386)는 이들이 양자 모두 역 수정된-이산-코사인-변환의 (전환 윈도잉을 제외하고) 필터링되지 않은 출력 신호일 수 있다는 점에서 매우 유사하다. 따라서, 시간-도메인 신호(376, 386)는 중복-및-추가 동작에 매우 적합하며, 여기서, 중복-및-추가 동작에 의해 시간-도메인 앨리어싱-소거가 달성된다. 따라서, 주파수-도메인 모드로 인코딩되는 오디오 프레임과 TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임 사이의 전환은 어떤 추가적인 앨리어싱-소거 정보를 필요로 하지 않고 및 어떤 정보를 폐기하지 않고 간단한 중복-및-추가 동작에 의해 효율적으로 수행될 수 있다. 따라서, 최소량의 보조(side) 정보가 충분하다.
더욱이, 스케일 팩터 정보에 따라 주파수-도메인 경로(370)에서 수행되는 역 양자화된 스펙트럼 표현의 스케일링은 인코더-측(encoder-sided) 양자화 및 디코더-측 역 양자화(320c)에 의해 도입되는 양자화 잡음의 잡음-형상화를 효과적으로 가져오며, 이런 잡음-형상화는, 예컨대, 음악 신호와 같은 일반적인 오디오 신호에 잘 적응된다. 이에 반해, 선형-예측-코딩 필터 계수에 따라 수행되는 스케일링 및/또는 주파수-도메인 잡음-형상화(380e)는 인코더-측 양자화 및 디코더-측 역 양자화(380c)에 의해 유발되고, 음성형 오디오 신호에 잘 적응되는 양자화 잡음의 잡음-형상화를 효과적으로 가져온다. 따라서, 주파수-도메인 브랜치(370) 및 TCX-LPD 브랜치(380)의 기능은 단지, 코딩 효율(또는 오디오 품질)이 특히 주파수-도메인 브랜치(370)를 이용할 시에 일반적인 오디오 신호에 대해 양호하고, 코딩 효율 또는 오디오 품질이 특히 TCX-LPD 브랜치(380)를 이용할 시에 음성형 오디오 신호에 대해 높도록 주파수-도메인에 서로 다른 잡음-형상화가 적용된다는 점에서 상이하다.
TCX-LPD 브랜치(380)는 바람직하게는 TCX-LPD 모드 및 ACELP 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임 사이의 전환을 위한 추가적인 앨리어싱-소거 메카니즘을 포함한다.
3.4 도 5에 따른 전환 윈도잉
도 5는 본 발명에 따라 오디오 신호 디코더(360) 또는 어떤 다른 오디오 신호 인코더 및 디코더에 적용될 있는 구상중인 윈도잉 기법의 일례의 그래픽 표현을 도시한 것이다. 도 5는 서로 다른 노드로 인코딩되는 프레임 또는 서브프레임 사이의 가능한 전환에서의 윈도잉을 나타낸다. 가로 좌표(502a 내지 502i)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(504a 내지 504i)는 오디오 콘텐츠의 시간-도메인 표현을 제공하는 윈도우 또는 서브프레임을 나타낸다.
참조 번호(510)에서의 그래픽 표현은 주파수-도메인 모드로 인코딩되는 다음 프레임 사이의 전환을 나타낸다. 알 수 있는 바와 같이, (예컨대, 역 수정된 이산 코사인 변환(MDCT)(320g)에 의해) 프레임의 제 1 오른쪽 절반(right half)에 제공되는 시간-도메인 샘플은, 예컨대, 윈도우 타입 "AAC Long" 또는 윈도우 타입 "AAC Stop"일 수 있는 윈도우의 오른쪽 절반(512)에 의해 윈도잉된다. 마찬가지로, (예컨대, MDCT(320g)에 의해) 다음 제 2 프레임의 왼쪽 절반에 제공되는 시간-도메인 샘플은, 예컨대, 윈도우 타입 "AAC Long" 또는 "AAC Start"일 수 있는 윈도우의 왼쪽 절반(514)을 이용하여 윈도잉될 수 있다. 오른쪽 절반(512)은, 예컨대, 비교적 긴 우측 전환 기울기(right sided transition slope)를 포함할 수 있고, 다음 윈도우의 왼쪽 절반(514)은 비교적 긴 좌측 전환 기울기를 포함할 수 있다. (오른쪽 윈도우 절반(512)을 이용하여 윈도잉되는) 제 1 오디오 프레임의 시간-도메인 표현의 윈도잉된 버전 및 (왼쪽 윈도우 절반(514)을 이용하여 윈도잉되는) 다음 제 2 오디오 프레임의 시간-도메인 표현의 윈도잉된 버전은 중복 및 추가될 수 있다. 따라서, MDCT로부터 발생하는 앨리어싱은 효율적으로 소거될 수 있다.
참조 번호(520)에서의 그래픽 표현은 ACELP 모드로 인코딩되는 서브프레임에서 주파수-도메인 모드로 인코딩되는 프레임으로의 전환을 나타낸다. 포워드-앨리어싱-소거는 이와 같은 전환에서 앨리어싱 아티팩트를 감소시키기 위해 적용될 수 있다.
참조 번호(530)에서의 그래픽 표현은 TCX-LPD 모드로 인코딩되는 서브프레임에서 주파수-도메인 모드로 인코딩되는 프레임으로의 전환을 나타낸다. 알 수 있는 바와 같이, 윈도우(532)는 TCX-LPD 경로의 역 MDCT(380h)에 의해 제공되는 시간-도메인 샘플에 적용되며, 윈도우(532)는, 예컨대, 윈도우 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있다. 윈도우(532)는 길이 128 시간-도메인 샘플의 우측 전환 기울기(533)를 포함할 수 있다. 윈도우(534)는 주파수-도메인 모드로 인코딩되는 다음 오디오 프레임에 대한 주파수-도메인 경로(370)의 MDCT에 의해 제공되는 시간-도메인 샘플에 적용된다. 윈도우(534)는, 예컨대, 윈도우 타입 "AAC Start" 또는 "AAC Stop"일 수 있고, 예컨대, 128 시간-도메인 샘플의 길이를 가진 좌측 전환 기울기(535)를 포함할 수 있다. 우측 전환 기울기(533)에 의해 윈도잉되는 TCX-LPD 모드 서브프레임의 시간-도메인 샘플은 좌측 전환 기울기(535)에 의해 윈도잉되는 주파수-도메인 모드로 인코딩되는 다음 오디오 프레임의 시간-도메인 샘플과 중복 및 추가된다. 전환 기울기(533 및 535)는 앨리어싱-소거가 TCX-LPD-모드-인코딩된 서브프레임 및 다음 주파수-도메인-모드-인코딩된 서브프레임에서의 전환에서 획득되도록 부합(match)된다. 앨리어싱-소거는 역 MDCT(380h)의 실행 전에 스케일링/주파수-도메인 잡음-형상화(380e)의 실행에 의해 가능하게 행해진다. 환언하면, 앨리어싱-소거는, 주파수-도메인 경로(370)의 역 MDCT(320g) 및 TCX-LPD 경로(380)의 역 MDCT(380h)의 양방이 (예컨대, 스케일링 팩터-의존 스케일링 및 LPC 필터 계수 의존 스케일링의 형식으로) 잡음-형상화를 이미 적용한 스펙트럼 계수로 공급된다는 사실에 의해 발생된다.
참조 번호(540)에서의 그래픽 표현은 주파수-도메인 모드로 인코딩되는 오디오 프레임에서 ACELP 모드로 인코딩되는 서브프레임으로의 전환을 나타낸다. 알 수 있는 바와 같이, 포워드 앨리어싱-소거(FAC)는 상기 전환에서 앨리어싱 아티팩트를 감소시키거나, 심지어 제거하기 위해 적용된다.
참조 번호(550)에서의 그래픽 표현은 ACELP 모드로 인코딩되는 오디오 서브프레임에서 ACELP 모드로 인코딩되는 다른 오디오 서브프레임으로의 전환을 나타낸다. 여기서 일부 실시예에서는 특정 앨리어싱-소거 처리를 필요로 하지 않는다.
참조 번호(560)에서의 그래픽 표현은 TCX-LPD 모드(또한, wLPT 모드로 명시됨)로 인코딩되는 서브프레임에서 ACELP 모드로 인코딩되는 오디오 서브프레임으로의 전환을 나타낸다. 알 수 있는 바와 같이, TCX-LPD 브랜치(380)의 MDCT(380h)에 의해 제공되는 시간-도메인 샘플은, 예컨대, 윈도우 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있는 윈도우(562)를 이용하여 윈도잉된다. 윈도우(562)는 비교적 짧은 우측 전환 기울기(563)를 포함한다. ACELP 모드로 인코딩되는 다음 오디오 서브프레임에 제공되는 시간-도메인 샘플은 윈도우(562)의 우측 전환 기울기(563)에 의해 윈도잉되는 이전의 TCX-LPD-모드-인코딩된 오디오 서브프레임에 제공되는 오디오 샘플과의 부분 시간적 중복을 포함한다. ACELP 모드로 인코딩되는 오디오 서브프레임에 제공되는 시간-도메인 오디오 샘플은 참조 번호(564)에서의 블록에 의해 예시된다.
알 수 있는 바와 같이, 포워드 앨리어싱-소거 신호(566)는 앨리어싱 아티팩트를 감소시키거나 심지어 제거하기 위해 TCX-LPD 모드로 인코딩되는 오디오 프레임에서 ACELP 모드로 인코딩되는 오디오 프레임으로의 전환에서 추가된다. 앨리어싱-소거 신호(566)의 제공에 관한 상세 사항은 아래에 설명될 것이다.
참조 번호(570)에서의 그래픽 표현은 주파수-도메인 모드로 인코딩되는 프레임에서 TCX-LPD 모드로 인코딩되는 다음 프레임으로의 전환을 나타낸다. 주파수-도메인 브랜치(370)의 역 MDCT(320g)에 의해 제공되는 시간-도메인 샘플은, 비교적 짧은 우측 전환 기울기(573)를 가진 윈도우(572), 예컨대, 타입 "Stop Start"의 윈도우 또는 타입 "AAC Start"의 윈도우에 의해 윈도잉될 수 있다. TCX-LPD 모드로 인코딩되는 다음 오디오 서브프레임에 대한 TCX-LPD 브랜치(380)의 역 MDCT(380h)에 의해 제공되는 시간-도메인 표현은 비교적 짧은 좌측 전환 기울기(575)를 포함하는 윈도우(574)에 의해 윈도잉될 수 있으며, 윈도우(574)는, 예컨대, 윈도우 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있다. 우측 전환 기울기(573)에 의해 윈도잉되는 시간-도메인 샘플 및 좌측 전환 기울기(575)에 의해 윈도잉되는 시간-도메인 샘플은 앨리어싱 아티팩트가 감소되거나, 심지어 제거되도록 전환 윈도잉(398)에 의해 중복 및 추가된다. 따라서, 주파수-도메인 모드로 인코딩되는 오디오 프레임에서 TCX-LPD 모드로 인코딩되는 오디오 서브프레임으로의 전환을 수행하기 위해 어떤 추가적인 보조 정보가 필요치 않다.
참조 번호(580)에서의 그래픽 표현은 ACELP 모드로 인코딩되는 오디오 프레임에서 TCX-LPD 모드(또한, wLPT 모드로 명시됨)로 인코딩되는 오디오 프레임으로의 전환을 나타낸다. 시간-도메인 샘플이 ACELP 브랜치에 의해 제공되는 시간적 영역은 (582)로 명시된다. 윈도우(584)는 TCX-LPD 브랜치(380)의 역 MDCT(380h)에 의해 제공되는 시간-도메인 샘플에 적용된다. 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있는 윈도우(584)는 비교적 짧은 좌측 전환 기울기(585)를 포함할 수 있다. 윈도우(584)의 좌측 전환 기울기(585)는 블록(582)으로 나타내는 ACELP 브랜치에 의해 제공되는 시간-도메인 샘플과 부분적으로 중복한다. 게다가, 앨리어싱-소거 신호(586)는 ACELP 모드로 인코딩되는 오디오 서브프레임에서 TCX-LPD 모드로 인코딩되는 오디오 서브프레임으로의 전환에서 발생하는 앨리어싱 아티팩트를 감소시키거나 심지어 제거하도록 제공된다. 앨리어싱-소거 신호(586)의 제공에 관한 상세 사항은 아래에서 논의될 것이다.
참조 번호(590)에서의 그래픽 표현은 TCX-LPD 모드로 인코딩되는 오디오 서브프레임에서 TCX-LPD 모드로 인코딩되는 다른 오디오 서브프레임으로의 전환을 나타낸다. TCX-LPD 모드로 인코딩되는 제 1 오디오 서브프레임의 시간-도메인 샘플은, 예컨대, 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있고, 비교적 짧은 우측 전환 기울기(593)를 포함할 수 있는 윈도우(592)를 이용하여 윈도잉된다. TCX-LPD 모드로 인코딩되고, TCX-LPD 브랜치(380)의 역 MDCT(380h)에 의해 제공되는 제 2 오디오 서브프레임의 시간-도메인 오디오 샘플은, 예컨대, 윈도우 타입 "TCX256", "TCX512", 또는 "TCX1024"일 수 있고, 비교적 짧은 좌측 전환 기울기(595)를 포함할 수 있는 윈도우(594)를 이용하여 윈도잉된다. 우측 전환 기울기(593)를 이용하여 윈도잉되는 시간-도메인 샘플 및 좌측 전환 기울기(595)를 이용하여 윈도잉되는 시간-도메인 샘플은 전환 윈도잉(398)에 의해 중복 및 추가된다. 따라서, (역) MDCT(380h)에 의해 발생되는 앨리어싱은 감소되거나, 심지어 제거된다.
4. 모든 윈도우 타입에 관한 개요
다음에는, 모든 윈도우 타입의 개요가 제공될 것이다. 이를 위해, 서로 다른 윈도우 타입 및 이들의 특성의 그래픽 표현을 도시하는 도 6에 대한 참조가 행해진다. 도 6의 테이블에서, 열(610)은 좌측 전환 기울기의 길이와 동일할 수 있는 좌측 중복 길이를 나타낸다. 열(612)은 변환 길이, 즉 각각의 윈도우에 의해 윈도잉되는 시간-도메인 표현을 생성하는데 이용되는 스펙트럼 계수의 수를 나타낸다. 열(614)은 우측 전환 기울기의 길이와 동일할 수 있는 우측 중복 길이를 나타낸다. 열(616)은 윈도우 타입의 이름을 나타낸다. 열(618)은 각각의 윈도우의 그래픽 표현을 나타낸다.
제 1 행(630)은 타입 "AAC Short"의 윈도우의 특성을 나타낸다. 제 2 행(632)은 타입 "TCX256"의 윈도우의 특성을 나타낸다. 제 3 행(634)은 타입 "TCX512"의 윈도우의 특성을 나타낸다. 제 4 행(636)은 타입 "TCX1024" 및 "Stop Start"의 윈도우의 특성을 나타낸다. 제 5 행(638)은 타입 "AAC Long"의 윈도우의 특성을 나타낸다. 제 6 행(640)은 타입 "AAC Start"의 윈도우의 특성을 나타내고, 제 7 행(642)은 타입 "AAC Stop"의 윈도우의 특성을 나타낸다.
특히, 타입 "TCX256", "TCX512", 및 "TCX1024"의 윈도우의 전환 기울기는, 윈도우의 서로 다른 타입을 이용하여 윈도잉되는 시간-도메인 표현을 중복 및 추가하여 시간-도메인 앨리어싱-소거를 허용하기 위해 타입 "AAC Start"의 윈도우의 우측 전환 기울기 및 타입 "AAC Stop"의 윈도우의 좌측 전환 기울기에 적응된다. 바람직한 실시예에서, 동일한 좌측 중복 길이를 가진 모든 윈도우 타입의 좌측 윈도우 기울기(전환 기울기)는 동일할 수 있고, 동일한 우측 중복 길이를 가진 모든 윈도우 타입의 우측 전환 기울기는 동일할 수 있다. 또한, 동일한 중복 길이를 가진 좌측 전환 기울기 및 우측 전환 기울기는 앨리어싱-소거를 허용하고, MDCT 앨리어싱-소거에 대한 조건을 충족하도록 적응될 수 있다.
5. 허용된 윈도우 시퀀스
다음에는, 허용된 윈도우 시퀀스가 도 7을 참조로 설명되며, 도 7은 이와 같이 허용된 윈도우 시퀀스의 테이블 표현을 도시한다. 도 7의 테이블에서 알 수 있는 바와 같이, 시간-도메인 샘플이 타입 "AAC Long"의 윈도우 또는 타입 "AAC Start"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임은 시간-도메인 샘플이 타입 "AAC Stop"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임을 뒤따를 수 있다.
시간-도메인 샘플이 타입 "AAC Long" 또는 "AAC Start"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임은 시간-도메인 샘플이 타입 "AAC Long"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임을 뒤따를 수 있다.
시간-도메인 샘플이 타입 "AAC Short"의 8개의 윈도우를 이용하고, 타입 "AAC Short"의 윈도우를 이용하거나 타입 "AAC StopStart"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임은 시간-도메인 샘플이 타입 "AAC Start"의 윈도우를 이용하고, 타입 "AAC Short"의 8개의 윈도우를 이용하거나 타입 "AAC StopStart"의 윈도우를 이용하여 윈도잉되는 선형 예측 모드로 인코딩되는 오디오 프레임을 뒤따를 수 있다. 대안적으로, TCX-LPD 모드(또한 TCX-LPD로 명시됨)로 인코딩되는 오디오 프레임 또는 서브프레임, 또는 ACELP 모드(또한 LPD ACELP로 명시됨)로 인코딩되는 오디오 프레임 또는 오디오 서브프레임은 시간-도메인 샘플이 타입 "AAC Start"의 윈도우를 이용하고, 타입 "AAC Short"의 8개의 윈도우를 이용하거나 타입 "AAC StopStart"의 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임을 뒤따를 수 있다.
시간-도메인 샘플이 8개의 "AAC Short" 윈도우를 이용하고, "AAC Stop" 윈도우를 이용하거나 "AAC StopStart" 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임, 또는 TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임 또는 ACELP 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임은 TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임을 뒤따를 수 있다.
시간-도메인 샘플이 8개의 "AAC Short" 윈도우를 이용하고, "AAC Stop" 윈도우를 이용하며, "AAC StopStart" 윈도우를 이용하여 윈도잉되는 주파수-도메인 모드로 인코딩되는 오디오 프레임, TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 ACELP 모드로 인코딩되는 오디오 프레임은 ACELP 모드로 인코딩되는 오디오 프레임을 뒤따를 수 있다.
ACELP 모드로 인코딩되는 오디오 프레임에서 주파수-도메인 모드로 인코딩되는 오디오 프레임 또는 TCX-LPD 모드로 인코딩되는 오디오 프레임으로의 전환을 위해, 소위 포워드-앨리어싱-소거(FAC)가 수행된다. 따라서, 앨리어싱-소거 합성 신호는 이와 같은 프레임 전환에서 시간-도메인 표현에 추가되어, 앨리어싱 아티팩트가 감소되거나 심지어 제거된다. 마찬가지로, 주파수-도메인 모드로 인코딩되는 프레임 또는 서브프레임, 또는 TCX-LPD 모드로 인코딩되는 프레임 또는 서브프레임에서 ACELP 모드로 인코딩되는 프레임 또는 서브프레임으로 스위칭할 때에 FAC가 또한 수행된다
FAC에 관한 상세 사항은 아래에서 논의될 것이다.
6. 도 8에 따른 오디오 신호 인코더
다음에는, 멀티-모드 오디오 신호 인코더(800)가 도 8을 참조로 설명될 것이다.
오디오 신호 인코더(800)는 오디오 콘텐츠의 입력 표현(810)을 수신하여, 이에 기초하여, 오디오 콘텐츠를 나타내는 비트스트림(812)을 제공하도록 구성된다. 오디오 신호 인코더(800)는 동작의 서로 다른 모드, 즉 주파수-도메인 모드, 변환-코딩된-여기-선형-예측-도메인 모드 및 대수-코드-여기된-선형-예측-도메인-모드로 동작하도록 구성된다. 오디오 신호 인코더(800)는 오디오 콘텐츠의 입력 표현(810)의 특성 및/또는 달성 가능한 인코딩 효율 또는 품질에 따라 오디오 콘텐츠의 부분을 인코딩하는 모드 중 하나를 선택하도록 구성되는 인코딩 제어기(814)를 포함한다.
오디오 신호 인코더(800)는 오디오 콘텐츠의 입력 표현(810)에 기초하여 인코딩된 스펙트럼 계수(822), 인코딩된 스케일 팩터(824), 및 선택적으로 인코딩된 앨리어싱-소거 계수(826)를 제공하도록 구성되는 주파수-도메인 브랜치(820)를 포함한다. 오디오 신호 인코더(800)는 또한 오디오 콘텐츠의 입력 표현(810)에 따라 인코딩된 스펙트럼 계수(852), 인코딩된 선형-예측-도메인 매개 변수(854) 및 인코딩된 앨리어싱-소거 계수(856)를 제공하도록 구성되는 TCX-LPD 브랜치(850)를 포함한다. 오디오 신호 인코더(800)는 또한 오디오 콘텐츠의 입력 표현(810)에 따라 인코딩된 ACELP 여기(882) 및 인코딩된 선형-예측-도메인 매개 변수(884)를 제공하도록 구성되는 ACELP 브랜치(880)를 포함한다.
주파수-도메인 브랜치(820)는, 오디오 콘텐츠의 입력 표현(810), 또는 이의 사전 처리된 버전을 수신하여, 이에 기초하여, 오디오 콘텐츠의 주파수-도메인 표현(832)을 제공하도록 구성되는 시간-도메인-대-주파수-도메인 변환(830)을 포함한다. 주파수-도메인 브랜치(820)는 또한 오디오 콘텐츠의 주파수 마스킹 효과 및/또는 시간적 마스킹 효과를 추정하여, 이에 기초하여, 스케일 팩터를 나타내는 스케일 팩터 정보(836)를 제공하도록 구성되는 음향 심리학 분석(834)을 포함한다. 주파수-도메인 브랜치(820)는 또한 오디오 콘텐츠의 주파수-도메인 표현(832) 및 스케일 팩터 정보(836)를 수신하고, 주파수-의존 및 시간-의존 스케일링을 스케일 팩터 정보(836)에 따라 주파수-도메인 표현(832)의 스펙트럼 계수에 적용하여, 오디오 콘텐츠의 스케일링된 주파수-도메인 표현(840)을 획득하도록 구성되는 스펙트럼 프로세서(838)를 포함한다. 주파수-도메인 브랜치는 또한 스케일링된 주파수-도메인 표현(840)을 수신하여, 스케일링된 주파수-도메인 표현(840)에 기초하여 인코딩된 스펙트럼 계수(822)를 획득하기 위해 양자화 및 인코딩을 수행하도록 구성되는 양자화/인코딩(842)을 포함한다. 주파수-도메인 브랜치는 또한 스케일 팩터 정보(836)를 수신하여, 이에 기초하여, 인코딩된 스케일 팩터 정보(824)를 제공하도록 구성되는 양자화/인코딩(844)을 포함한다. 선택적으로, 주파수-도메인 브랜치(820)는 또한 앨리어싱-소거 계수(826)를 제공하도록 구성될 수 있는 앨리어싱-소거 계수 계산(846)을 포함한다.
TCX-LPD 브랜치(850)는 오디오 콘텐츠의 입력 표현(810)을 수신하여, 이에 기초하여, 오디오 콘텐츠의 주파수-도메인 표현(861)을 제공하도록 구성될 수 있는 시간-도메인-대-주파수-도메인 변환(860)을 포함한다. TCX-LPD 브랜치(850)는 또한 오디오 콘텐츠의 입력 표현(810), 또는 이의 사전 처리된 버전을 수신하여, 오디오 콘텐츠의 입력 표현(810)으로부터 하나 이상의 선형-예측-도메인 매개 변수(예컨대, 선형-예측-코딩-필터-계수)(863)를 도출하도록 구성될 수 있는 선형-예측-도메인-매개 변수 계산(862)을 포함한다. TCX-LPD 브랜치(850)는 또한 선형-예측-도메인 매개 변수(예컨대, 선형-예측-코딩 필터 계수)를 수신하여, 이에 기초하여 스펙트럼-도메인 표현 또는 주파수-도메인 표현(865)을 제공하도록 구성되는 선형-예측-도메인-대-스펙트럼 도메인 변환(864)을 포함한다. 선형-예측-도메인 매개 변수의 스펙트럼-도메인 표현 또는 주파수-도메인 표현은, 예컨대, 주파수-도메인 또는 스펙트럼-도메인에서 선형-예측-도메인 매개 변수로 정의되는 필터의 필터 응답을 나타낼 수 있다. TCX-LPD 브랜치(850)는 또한 주파수-도메인 표현(861), 또는 이의 사전 처리된 버전(861'), 및 선형-예측-도메인 매개 변수(863)의 주파수-도메인 표현 또는 스펙트럼-도메인 표현을 수신하도록 구성되는 스펙트럼 프로세서(866)를 포함한다. 스펙트럼 프로세서(866)는 주파수-도메인 표현(861), 또는 이의 사전 처리된 버전(861')의 스펙트럼 형상화를 수행하도록 구성되며, 선형-예측-도메인 매개 변수(863)의 주파수-도메인 표현 또는 스펙트럼-도메인 표현(865)은 주파수-도메인 표현(861), 또는 이의 사전 처리된 버전(861')의 서로 다른 스펙트럼 계수의 스케일링을 조정하는 역할을 한다. 따라서, 스펙트럼 프로세서(866)는 선형-예측-도메인 매개 변수(863)에 따라 주파수-도메인 표현(861) 또는 이의 사전 처리된 버전(861')의 스펙트럼 형상화된 버전(867)을 제공한다. TCX-LPD 브랜치(850)는 또한 스펙트럼 형상화된 주파수-도메인 표현(867)을 수신하여, 이에 기초하여, 인코딩된 스펙트럼 계수(852)를 제공하도록 구성되는 양자화/인코딩(868)을 포함한다. TCX-LPD 브랜치(850)는 또한 선형-예측-도메인 매개 변수(863)를 수신하여, 이에 기초하여, 인코딩된 선형-예측-도메인 매개 변수(854)를 제공하도록 구성되는 다른 양자화/인코딩(869)을 포함한다.
TCX-LPD 브랜치(850)는 인코딩된 앨리어싱-소거 계수(856)를 제공하도록 구성되는 앨리어싱-소거 계수 제공을 더 포함한다. 앨리어싱 소거 계수 제공은 인코딩된 스펙트럼 계수뿐만 아니라 오디오 콘텐츠의 입력 표현(810)에 따라 앨리어싱 오류 정보(871)를 계산하도록 구성되는 오류 계산(870)을 포함한다. 오류 계산(870)은 선택적으로 다른 메카니즘에 의해 제공될 수 있는 추가적인 앨리어싱-소거 구성 요소에 관한 정보(872)를 고려할 수 있다. 앨리어싱-소거 계수 제공은 또한 선형-예측-도메인 매개 변수(863)에 따라 오류 필터링을 나타내는 정보(873a)를 제공하도록 구성되는 분석 필터 계산(873)을 포함한다. 앨리어싱-소거 계수 제공은 또한, 앨리어싱 오류 정보(871) 및 분석 필터 구성 정보(873a)를 수신하고, 분석 필터링 정보(873a)에 따라 조정되는 오류 분석 필터링을 앨리어싱 오류 정보(871)에 적용하여, 필터링된 앨리어싱 오류 정보(874a)를 획득하도록 구성되는 오류 분석 필터링(874)을 포함한다. 앨리어싱-소거 계수 제공은 또한, 타입 IV의 이산 코사인 변환의 기능을 가질 수 있고, 필터링된 앨리어싱 오류 정보(874a)를 수신하여, 이에 기초하여, 필터링된 앨리어싱 오류 정보(874a)의 주파수-도메인 표현(875a)을 제공하도록 구성되는 시간-도메인-대-주파수-도메인 변환(875)을 포함한다. 앨리어싱-소거 계수 제공은 또한, 주파수-도메인 표현(875a)을 수신하고, 이에 기초하여, 인코딩된 앨리어싱-소거 계수(856)를 제공하여, 인코딩된 앨리어싱-소거 계수(856)가 주파수-도메인 표현(875a)을 인코딩하도록 구성되는 양자화/인코딩(876)을 포함한다.
앨리어싱-소거 계수 제공은 또한 앨리어싱-소거에 대한 ACELP 기여의 선택적 계산(877)을 포함한다. 계산(877)은 TCX-LPD 모드로 인코딩되는 오디오 프레임에 선행하는 ACELP 모드로 인코딩되는 오디오 서브프레임으로부터 도출될 수 있는 앨리어싱-소거에 대한 기여를 계산하거나 추정하도록 구성될 수 있다. 앨리어싱-소거에 대한 ACELP 기여의 계산은 ACELP 모드로 인코딩되는 이전의 오디오 서브프레임으로부터 도출될 수 있는 추가적인 앨리어싱-소거 구성 요소에 관한 정보(872)를 획득하도록 사후-ACELP 합성의 계산, 사후-ACELP 합성의 윈도잉 및 윈도잉된 사후-ACELP 합성의 폴딩(folding)을 포함할 수 있다. 부가적으로 또는 대안적으로, 계산(877)은 추가적인 앨리어싱-소거 구성 요소에 관한 정보(872)를 획득하도록 ACELP 모드로 인코딩되는 이전의 오디오 서브프레임의 디코딩에 의해 초기화되는 필터의 제로-입력 응답의 계산 및 상기 제로-입력 응답의 윈도잉을 포함할 수 있다.
다음에는, ACELP 브랜치(880)가 간략히 논의될 것이다. ACELP 브랜치(880)는 오디오 콘텐츠의 입력 표현(810)에 기초하여 선형-예측-도메인 매개 변수(890a)를 계산하도록 구성되는 선형-예측-도메인 매개 변수 계산(890)을 포함한다. ACELP 브랜치(880)는 또한 오디오 콘텐츠의 입력 표현(810) 및 선형-예측-도메인 매개 변수(890a)에 따라 ACELP 여기 정보(892)를 계산하도록 구성되는 ACELP 여기 계산(892)을 포함한다. ACELP 브랜치(880)는 또한 ACELP 여기 정보(892)를 인코딩하여, 인코딩된 ACELP 여기(882)를 획득하도록 구성되는 인코딩(894)을 포함한다. 게다가, ACELP 브랜치(880)는 또한 선형-예측-도메인 매개 변수(890a)를 수신하여, 이에 기초하여, 인코딩된 선형-예측-도메인 매개 변수(884)를 제공하도록 구성되는 양자화/인코딩(896)을 포함한다.
오디오 신호 디코더(800)는 또한, 인코딩된 스펙트럼 계수(822), 인코딩된 스케일 팩터 정보(824), 앨리어싱-소거 계수(826), 인코딩된 스펙트럼 계수(852), 인코딩된 선형-예측-도메인 매개 변수(852), 인코딩된 앨리어싱-소거 계수(856), 인코딩된 ACELP 여기(882), 및 인코딩된 선형-예측-도메인 매개 변수(884)에 기초하여 비트스트림(812)을 제공하도록 구성되는 비트스트림 포맷터(898)를 포함한다.
인코딩된 앨리어싱-소거 계수(852)의 제공에 관한 상세 사항은 아래에서 설명될 것이다.
7. 도 9에 따른 오디오 신호 디코더
다음에는, 도 9에 따른 오디오 신호 디코더(900)가 설명될 것이다.
도 9에 따른 오디오 신호 디코더(900)는 도 2에 따른 오디오 신호 디코더(200) 및 또한 도 3b에 따른 오디오 신호 디코더(360)와 유사하여, 상기 설명이 또한 유지된다.
오디오 신호 디코더(900)는 비트스트림을 수신하여, 비트스트림에서 추출된 정보를 상응하는 처리 경로에 제공하도록 구성되는 비트 멀티플렉서(902)를 포함한다.
오디오 신호 디코더(900)는 인코딩된 스펙트럼 계수(912) 및 인코딩된 스케일 팩터 정보(914)를 수신하도록 구성되는 주파수-도메인 브랜치(910)를 포함한다. 주파수-도메인 브랜치(910)는 선택적으로 또한, 예컨대, 주파수-도메인 모드로 인코딩되는 오디오 프레임과 ACELP 모드로 인코딩되는 오디오 프레임 사이의 전환에서 소위 포워드-앨리어싱-소거를 허용하는 인코딩된 앨리어싱-소거 계수를 수신하도록 구성된다. 주파수-도메인 경로(910)는 주파수-도메인 모드로 인코딩되는 오디오 프레임의 오디오 콘텐츠의 시간-도메인 표현(918)을 제공한다.
오디오 신호 디코더(900)는, 인코딩된 스펙트럼 계수(932), 인코딩된 선형-예측-도메인 매개 변수(934) 및 인코딩된 앨리어싱-소거 계수(936)를 수신하여, 이에 기초하여, TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 서브프레임의 시간-도메인 표현을 제공하도록 구성되는 TCX-LPD 브랜치(930)를 포함한다. 오디오 신호 디코더(900)는 또한, 인코딩된 ACELP 여기(982) 및 인코딩된 선형-예측-도메인 매개 변수(984)를 수신하여, 이에 기초하여, ACELP 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임의 시간-도메인 표현(986)을 제공하도록 구성되는 ACELP 브랜치(980)를 포함한다.
7.1 주파수 도메인 경로
다음에는, 주파수 도메인 경로(910)에 관한 상세 사항은 아래에서 설명될 것이다. 이러한 주파수-도메인 경로는 오디오 디코더(300)의 주파수-도메인 경로(320)와 유사하여, 상기 설명에 대한 참조가 행해지는 것으로 언급되어야 한다. 주파수-도메인 브랜치(910)는 인코딩된 스펙트럼 계수(912)를 수신하여, 이에 기초하여, 코딩된 스펙트럼 계수(920a)를 제공하는 산술 디코딩(920), 및 디코딩된 스펙트럼 계수(920a)를 수신하여, 이에 기초하여, 역 양자화된 스펙트럼 계수(921a)를 제공하는 역 양자화(921)를 포함한다. 주파수-도메인 브랜치(910)는 또한 인코딩된 스케일 팩터 정보를 수신하여, 이에 기초하여, 디코딩된 스케일 팩터 정보(922a)를 제공하는 스케일 팩터 디코딩(922)를 포함한다. 주파수-도메인 브랜치는 역 양자화된 스펙트럼 계수(921a)를 수신하고, 스케일 팩터(922a)에 따라 역 양자화된 스펙트럼 계수를 스케일링하여, 스케일링된 스펙트럼 계수(923a)를 획득하는 스케일링(923)을 포함한다. 예컨대, 스케일 팩터(922a)는 스펙트럼 계수(921a)의 다수의 주파수 빈(bins)이 각 주파수-대역과 관련되는 다수의 주파수 대역에 제공될 수 있다. 따라서, 스펙트럼 계수(921a)의 주파수 대역별 스케일링이 수행될 수 있다. 따라서, 오디오 프레임과 관련된 스케일 팩터의 수는 통상적으로 오디오 프레임과 관련된 스펙트럼 계수(921a)의 수보다 작다. 주파수-도메인 브랜치(910)는 또한 스케일링된 스펙트럼 계수(923a)를 수신하여, 이에 기초하여, 현재 오디오 프레임의 오디오 콘텐츠의 시간-도메인 표현(924a)을 제공하도록 구성되는 역 MDCT(924)를 포함한다. 주파수-도메인 브랜치(910)는 또한, 선택적으로, 앨리어싱-소거 합성 신호(929a)와 시간-도메인 표현(924a)을 조합하여, 시간-도메인 표현(918)을 획득하도록 구성되는 조합(925)을 포함한다. 그러나, 일부 다른 실시예에서, 시간-도메인 표현(924a)이 오디오 콘텐츠의 시간-도메인 표현(918)으로 제공되도록 조합(925)은 생략될 수 있다.
앨리어싱-소거 합성 신호(929a)를 제공하기 위해, 주파수-도메인 경로는, 인코딩된 앨리어싱-소거 계수(916)에 기초하여 디코딩된 앨리어싱-소거 계수(926b)를 제공하는 디코딩(926a), 및 디코딩된 앨리어싱-소거 계수(926b)에 기초하여 스케일링된 앨리어싱-소거 계수(926d)를 제공하는 앨리어싱-소거 계수의 스케일링(926c)을 포함한다. 주파수-도메인 경로는 또한, 스케일링된 앨리어싱-소거 계수(926d)를 수신하여, 이에 기초하여, 합성 필터링(927b)으로 입력되는 앨리어싱-소거 자극 신호(927a)를 제공하도록 구성되는 타입 IV의 역 이산-코사인-변환(927)을 포함한다. 합성 필터링(927b)은, 앨리어싱-소거 자극 신호(927a)에 기초하고, 합성 필터 계산(927d)에 의해 제공되는 합성 필터링 계수(927c)에 따라 합성 필터링 동작을 수행하여, 합성 필터링의 결과로서, 앨리어싱-소거 신호(929a)를 획득하도록 구성된다. 합성 필터 계산(927d)은, 예컨대, TCX-LPD 모드로 인코딩되는 프레임, 또는 ACELP 모드로 제공되는 프레임에 대해 비트스트림으로 제공되는 선형-예측-도메인 매개 변수로부터 도출될 수 있는(또는 이와 같은 선형-예측-도메인 매개 변수와 동일할 수 있는) 선형-예측-도메인 매개 변수에 따라 합성 필터 계수(927c)를 제공한다.
따라서, 합성 필터링(927b)은 도 5에 도시된 앨리어싱-소거 합성 신호(522), 또는 도 5에 도시된 앨리어싱-소거 합성 신호(542)와 동등할 수 있는 앨리어싱-소거 합성 신호(929a)를 제공할 수 있다.
7.2 TCX - LPD 경로
다음에는, 오디오 신호 디코더(900)의 TCX-LPD 경로가 간략히 논의될 것이다. 추가적 상세 사항은 아래에 제공될 것이다.
TCX-LPD 경로(930)는 인코딩된 스펙트럼 계수(932) 및 인코딩된 선형-예측-도메인 매개 변수(934)에 기초하여 오디오 프레임 또는 오디오 서브프레임의 오디오 콘텐츠의 시간-도메인 표현(940a)을 제공하도록 구성되는 주요 신호 합성(940)을 포함한다. TCX-LPD 브랜치(930)는 또한 아래에 설명되는 앨리어싱-소거 처리를 포함한다.
주요 신호 합성(940)은 인코딩된 스펙트럼 계수(932)에 기초하여, 디코딩된 스펙트럼 계수(941a)가 획득되는 스펙트럼 계수의 산술 디코딩(941)을 포함한다. 주요 신호 합성(940)은 또한 디코딩된 스펙트럼 계수(941a)에 기초하여 역 양자화된 스펙트럼 계수(942a)를 제공하도록 구성되는 역 양자화(942)를 포함한다. 선택적 잡음 필링(noise filling)은 잡음-필링된 스펙트럼 계수를 획득하도록 역 양자화된 스펙트럼 계수(942a)에 적용될 수 있다. 역 양자화 및 잡음-필링된 스펙트럼 계수(943a)는 또한 r[i]로 명시될 수 있다. 역 양자화 및 잡음-필링된 스펙트럼 계수(943a), r[i]는 스펙트럼 디쉐이핑(de-shaping)에 의해 처리되어, 또한 때때로 r[i]로 명시되는 스펙트럼 디쉐이핑된 스펙트럼 계수(944a)를 획득할 수 있다. 스케일링(945)은 주파수-도메인 잡음 형상화(945)로서 구성될 수 있다. 주파수-도메인 잡음 형상화(945)에서, 스펙트럼 계수(945a)의 스펙트럼 형상화된 세트가 획득되고, 또한 rr[i]로 명시된다. 주파수-도메인 잡음 형상화(945)에서, 스펙트럼 형상화된 스펙트럼 계수(945a)로의 스펙트럼 디쉐이핑된 스펙트럼 계수(944a)의 기여는 다음에 논의되는 주파수-도메인 잡음 형상화 매개 변수 제공에 의해 제공되는 주파수-도메인 잡음 형상화 매개 변수(945b)에 의해 결정된다. 주파수-도메인 잡음 형상화(945)에 의해, 선형-예측-도메인 매개 변수(934)로 나타내는 선형-예측 필터의 주파수-도메인 응답이 고려중인 (스펙트럼 계수의 세트(944a)에서) 각각의 스펙트럼 계수와 관련된 주파수에 대해 비교적 작은 값을 가질 경우에 스펙트럼 계수(944a)의 스펙트럼 디쉐이핑된 세트의 스펙트럼 계수에는 비교적 큰 가중치가 주어진다. 대조적으로, 선형-예측-도메인 매개 변수(934)로 나타내는 선형-예측 필터의 주파수-도메인 응답이 고려중인 (세트(944a)에서) 스펙트럼 계수와 관련된 주파수에 대해 비교적 작은 값을 가질 경우에 스펙트럼 계수의 세트(944a)에서의 스펙트럼 계수에는 스펙트럼 형상화된 스펙트럼 계수의 세트(945a)의 상응하는 스펙트럼 계수를 획득할 때에 비교적 큰 가중치가 주어진다. 따라서, 선형-예측-도메인 매개 변수(934)로 정의되는 스펙트럼 형상화는 스펙트럼 디쉐이핑된 스펙트럼 계수(944a)로부터 스펙트럼 형상화된 스펙트럼 계수(945a)를 도출할 때에 주파수-도메인에 적용된다.
주요 신호 합성(940)은 또한 스펙트럼 형상화된 스펙트럼 계수(945a)를 수신하여, 이에 기초하여, 시간-도메인 표현(946a)을 제공하도록 구성되는 역 MDCT(946)를 포함한다. 이득 스케일링(947)은 시간-도메인 신호(946a)로부터 오디오 콘텐츠의 시간-도메인 표현(940a)을 도출하도록 시간-도메인 표현(946a)에 적용된다. 이득 팩터는 바람직하게는 주파수-독립(비주파수 선택) 동작인 이득 스케일링(947)에 적용된다.
주요 신호 합성은 또한 다음에 설명되는 주파수-도메인 잡음-형상화 매개 변수(945b)의 처리를 포함한다. 주파수-도메인 잡음-형상화 매개 변수(945b)를 제공하기 위해, 주요 신호 합성(940)은 인코딩된 선형-예측-도메인 매개 변수(934)에 기초하여 디코딩된 선형-예측-도메인 매개 변수(950a)를 제공하는 디코딩(950)을 포함한다. 디코딩된 선형-예측-도메인 매개 변수는, 예컨대, 디코딩된 선형-예측-도메인 매개 변수의 제 1 세트 LPC1 및 선형-예측-도메인 매개 변수의 제 2 세트 LPC2의 형식을 취한다. 선형-예측-도메인 매개 변수의 제 1 세트 LPC1는, 예컨대, TCX-LPD 모드로 인코딩되는 프레임 또는 서브프레임의 좌측 전환과 관련될 수 있고, 선형-예측-도메인 매개 변수의 제 2 세트 LPC2는 TCX-LPD 인코딩된 오디오 프레임 또는 오디오 서브프레임의 우측 전환과 관련될 수 있다. 디코딩된 선형-예측-도메인 매개 변수는 선형-예측-도메인 매개 변수(950a)로 정의되는 임펄스 응답의 주파수-도메인 표현을 제공하는 스펙트럼 계산(951)에 공급된다. 예컨대, 주파수-도메인 계수의 별도의 세트 X0[k]는 디코딩된 선형-예측-도메인 매개 변수(950)의 제 1 세트 LPC1 및 제 2 세트 LPC2에 제공될 수 있다.
이득 계산(952)은 스펙트럼 값 X0[k]을 이득 값으로 맵핑하는데, 이득 값 g1[k]의 제 1 세트는 스펙트럼 계수의 제 1 세트 LPC1와 관련되고, 이득 값 g2[k]의 제 2 세트는 스펙트럼 계수의 제 2 세트 LPC2와 관련된다. 예컨대, 이득 값은 상응하는 스펙트럼 계수의 크기에 역 비례할 수 있다. 필터 매개 변수 계산(953)은 이득 값(952a)을 수신하여, 이에 기초하여, 주파수-도메인 형상화(945)를 위한 필터 매개 변수(945b)를 제공할 수 있다. 예컨대, 필터 매개 변수 a[i] 및 b[i]가 제공될 수 있다. 필터 매개 변수(945d)는 스펙트럼 형상화된 스펙트럼 계수(945a)로의 스펙트럼 디쉐이핑된 스펙트럼 계수(944a)의 기여를 결정한다. 필터 매개 변수의 가능한 계산에 관한 상세 사항은 아래에 제공될 것이다.
TCX-LPD 브랜치(930)는 두 브랜치를 포함하는 포워드-앨리어싱-소거 합성 신호 계산을 포함한다. (포워드) 앨리어싱-소거 합성 신호 생성의 제 1 브랜치는, 인코딩된 앨리어싱-소거 계수(936)를 수신하고, 이에 기초하여, 이득 값 g에 따라 스케일링(961)에 의해 스케일링되는 디코딩된 앨리어싱-소거 계수(960a)를 제공하여, 스케일링된 앨리어싱-소거 계수(961a)를 획득하도록 구성되는 디코딩(960)을 포함한다. 동일한 이득 값 g이 앨리어싱-소거 계수(960a)의 스케일링(961) 및, 일부 실시예에서 역 MDCT(946)에 의해 제공되는 시간-도메인 신호(946a)의 이득 스케일링(947)에 이용될 수 있다. 앨리어싱-소거 합성 신호 생성은 또한, 스펙트럼 디쉐이핑을 스케일링된 앨리어싱-소거 계수(961a)에 적용하여, 이득 스케일링 및 스펙트럼 디쉐이핑된 앨리어싱-소거 계수(962a)를 획득하도록 구성될 수 있는 스펙트럼 디쉐이핑(962)을 포함한다. 스펙트럼 디쉐이핑(962)은 아래에 더욱 상세히 설명되는 스펙트럼 디쉐이핑(944)과 유사한 방식으로 수행될 수 있다. 이득 스케일링 및 스펙트럼 디쉐이핑된 앨리어싱-소거 계수(962a)는, 참조 번호(963)로 명시되고, 이득 스케일링 스펙트럼 디쉐이핑된 앨리어싱-소거 계수(962a)에 기초하여 수행되는 역-이산-코사인-변환의 결과로서 앨리어싱-소거 자극 신호(963a)를 제공하는 타입 IV의 역 이산-코사인-변환으로 입력된다. 합성 필터링(964)은, 앨리어싱-소거 자극 신호(963a)를 수신하여, 선형-예측-도메인 매개 변수 LPC1, LPC2에 따라 합성 필터 계산(965)에 의해 제공되는 합성 필터 계수(965a)에 따라 구성되는 합성 필터를 이용하여 앨리어싱-소거 자극 신호(963a)를 합성 필터링함으로써 제 1 포워드 앨리어싱-소거 합성 신호(964a)를 제공한다. 합성 필터링(964)및 합성 필터 계수(965a)의 계산에 관한 상세 사항은 아래에 설명될 것이다.
제 1 앨리어싱-소거 합성 신호(964a)는 결과적으로 앨리어싱-소거 계수(936) 뿐만 아니라 선형-예측-도메인-매개 변수에도 기초한다. 앨리어싱-소거 합성 신호(964a)와 오디오 콘텐츠의 시간-도메인 표현(940a) 사이의 양호한 일관성(consistency)은, 오디오 콘텐츠의 시간-도메인 표현(940a)의 제공 및 앨리어싱-소거 합성 신호(964)의 제공 시에 동일한 스케일링 팩터 g를 적용하고, 오디오 콘텐츠의 시간-도메인 표현(940a)의 제공 및 앨리어싱-소거 합성 신호(964)의 제공 시에 유사하거나, 심지어 동일한 스펙트럼 디쉐이핑(944,962)을 적용함으로써 도달된다.
TCX-LPD 브랜치(930)는 이전의 ACELP 프레임 또는 서브프레임에 따른 추가적인 앨리어싱-소거 합성 신호(973a, 976a)의 제공을 더 포함한다. 앨리어싱-소거에 대한 ACELP 기여의 이러한 계산(970)은, 예컨대, ACELP 브랜치(980)에 의해 제공되는 시간-도메인 표현(986) 및/또는 ACELP 합성 필터의 콘텐츠와 같은 ACELP 정보를 수신하도록 구성된다. 앨리어싱-소거에 대한 ACELP 기여의 계산(970)은 사후-ACELP 합성(971a)의 계산(971), 사후-ACELP 합성(971a)의 윈도잉(972) 및 사후-ACELP 합성(972a)의 폴딩(973)을 포함한다. 따라서, 윈도잉 및 폴딩된 사후-ACELP 합성(973a)은 윈도잉된 사후-ACELP 합성(972a)의 폴딩에 의해 획득된다. 게다가, 앨리어싱-소거에 대한 ACELP 기여의 계산(970)은 또한 이전의 ACELP 서브프레임의 시간-도메인 표현을 합성하는데 이용되는 합성 필터에 대해 계산될 수 있는 제로-입력 응답의 계산(975)을 포함하는데, 상기 합성 필터의 초기 상태는 이전의 ACELP 서브프레임의 끝에서 ACELP 합성 필터의 상태와 동일할 수 있다. 따라서, 윈도잉된 제로-입력 응답(976a)을 획득하기 위해 윈도잉(976)을 적용하는 제로-입력 응답(975a)이 획득된다. 윈도잉된 제로-입력 응답(976a)의 제공에 관한 추가적 상세 사항은 아래에 설명될 것이다.
최종으로, 조합(978)이 오디오 콘텐츠의 시간-도메인 표현(940a), 제 1 포워드-앨리어싱-소거 합성 신호(964a), 제 2 포워드-앨리어싱-소거 합성 신호(973a) 및 제 3 포워드-앨리어싱-소거 합성 신호(976a)를 조합하기 위해 수행된다. 따라서, TCX-LPD 모드로 인코딩되는 오디오 프레임 또는 오디오 서브프레임의 시간-도메인 표현(938)은, 아래에 더욱 상세히 설명되는 바와 같이, 조합(978)의 결과로서 제공된다.
7.3 ACELP 경로
다음에는, 오디오 신호 디코더(900)의 ACELP 브랜치(980)가 간략히 설명될 것이다. ACELP 브랜치(980)는 디코딩된 ACELP 여기(988a)를 획득하도록 인코딩된 ACELP 여기(982)의 디코딩(988)을 포함한다. 그 다음, 여기의 여기 신호 계산 및 사후 처리(989)가 사후 처리된 여기 신호(989a)를 획득하기 위해 수행된다. ACELP 브랜치(980)는 디코딩된 선형-예측-도메인 매개 변수(990a)를 획득하도록 선형-예측-도메인 매개 변수(984)의 디코딩(990)을 포함한다. 사후 처리된 여기 신호(989a)는 필터링되고, 합성 필터링(991)은 합성된 ACELP 신호(991a)를 획득하도록 선형-예측-도메인 매개 변수(990a)에 따라 수행된다. 그 후, 합성된 ACELP 신호(991a)는 ACELP 로드로 인코딩되는 오디오 서브프레임의 시간-도메인 표현(986)을 획득하도록 사후 처리(992)를 이용하여 처리된다.
7.4 조합
최종으로, 조합(996)은, 주파수-도메인 모드로 인코딩되는 오디오 프레임의 시간-도메인 표현(918), TCX-LPD 모드로 인코딩되는 오디오 프레임의 시간-도메인 표현(938), 및 ACELP 모드로 인코딩되는 오디오 프레임의 시간-도메인 표현(986)을 획득하여, 오디오 콘텐츠의 시간-도메인 표현(998)을 획득하기 위해 수행된다.
추가적 상세 사항은 다음에 설명될 것이다.
8. 인코더 및 디코더 상세 사항
8.1 LPC 필터
8.1.1 툴 설명
다음에는, 선형-예측 코딩 필터 계수를 이용한 인코딩 및 디코딩에 관한 상세 사항이 설명될 것이다.
ACELP 모드에서, 전송된 매개 변수는 LPC 필터(984), 적응 및 고정된-코드북 인덱스(982), 적응 및 고정된-코드북 이득(982)을 포함한다.
TCX 모드에서, 전송된 매개 변수는 LPC 필터(934), 에너지 매개 변수, 및 MDCT 계수의 양자화 인덱스(932)를 포함한다. 이러한 섹션은, LPC 필터, 예컨대, LPC 필터 계수 a1 내지 a16,(950a,990a)의 디코딩을 나타낸다.
8.1.2 정의
다음에는 어떤 정의가 주어질 것이다.
매개 변수 "nb_lpc"는 비트 스트림으로 인코딩되는 LPC 매개 변수 세트의 전체 수를 나타낸다.
비트스트림 매개 변수 "mode_lpc"는 다음 LPC 매개 변수 세트의 코딩 모드를 나타낸다.
비트스트림 매개 변수는 "lpc[k][x]"는 세트 k의 LPC 매개 변수의 수 x를 나타낸다.
비트스트림 매개 변수 "qn k"는 상응하는 코드북 수 nk와 관련된 이진 코드를 나타낸다.
8.1.3 LPC 필터의 수
비트스트림 내에 인코딩되는 LPC 필터의 실제 수 "nb_lpc"는 슈퍼 프레임이 다수의 서브프레임을 포함하는 프레임과 동일할 수 있는 슈퍼프레임의 ACELP/TCX 모드 조합에 의존한다. ACELP/TCX 모드 조합은 결과적으로 코딩 모드, "mode[k]"를 결정하는 필드 "lpd_mode"에서 추출되며, k=0 내지 3이고, 4 프레임(또한, 서브프레임으로 명시됨)의 각각은 슈퍼프레임을 구성한다. 모드 값은 ACELP에 대해서는 0이고, 짧은 TCX (256 샘플)에 대해서는 1이며, 중간 크기 TCX (512 샘플)에 대해서는 2이며, 긴 TCX (1024 샘플)에 대해서는 3이다. 여기서, 비트-필드 "모드"로 간주될 수 있는 비트스트림 매개 변수 "lpd_mode"는 (예컨대, 고급-오디오-코딩 프레임 또는 AAC 프레임과 같은 한 주파수-도메인 모드 오디오 프레임에 상응하는) 선형-예측-도메인 채널 스트림의 한 슈퍼프레임 내의 4개의 프레임의 각각에 대한 코딩 모드를 정의하는 것으로 언급되어야 한다. 코딩 모드는 어레이 "mode[]"에 저장되고, 0 내지 3의 값을 갖는다. 비트스트림 매개 변수 "LPD_mode"에서 어레이 "mode[]"로의 맵핑은 테이블 7에서 결정될 수 있다.
어레이 "mode[0... 3]"에 관해, 어레이 "mode[]"는 각 프레임의 각각의 코딩 모드를 나타낸다. 상세 사항을 위해, 어레이 "mode[]"로 나타내는 코딩 모드를 나타내는 테이블 8에 대한 참조가 행해진다.
슈퍼프레임의 1 내지 4 LPC 필터 이외에, 선택적인 LPC 필터 LPC0는 LPD 코어 코덱을 이용하여 인코딩되는 각 세그먼트의 제 1 슈퍼프레임에 전송된다. 이것은 1로 세트된 플래그 "first_lpd_flag"에 의해 LPC 디코딩 절차에 나타낸다.
LPC 필터가 일반적으로 비트스트림에서 발견되는 순서는 LPC4, 선택적 LPC0, LPC2, LPC1 및 LPC3이다. 비트스트림 내에서 주어진 LPC 필터의 존재를 위한 조건은 테이블 1에 요약되어 있다.
비트스트림은 ACELP/TCX 모드 조합에 의해 필요로 된 LPC 필터의 각각에 상응하는 양자화 인덱스를 추출하도록 파스(parse)된다. 다음은 LPC 필터 중 하나를 디코딩하는데 필요한 동작을 설명한다.
8.1. 4 역 양자화기의 일반적 원리
디코딩(950) 또는 디코딩(990)에서 수행될 수 있는 LPC 필터의 역 양자화는 도 13에 나타낸 바와 같이 수행된다. LPC 필터는 라인-스펙트럼-주파수 (LSF) 표현을 이용하여 양자화된다. 제 1 단계 근사치는 먼저 섹션 8.1.6에서 설명되는 바와 같이 계산된다. 그 후, 선택적 대수 벡터 양자화된 (AVQ) 리파인먼트(refinement)(1330)는 섹션 8.1.7에서 설명되는 바와 같이 계산된다. 양자화된 LSF 벡터는 제 1 단계 근사치 및 역 가중된 AVQ 기여(1342)를 추가하여(1350) 재구성된다. AVQ 리파인먼트의 존재는 섹션 8.1.5에서 설명되는 바와 같이 LPC 필터의 실제 양자화 모드에 의존한다. 역 양자화된 LSF 벡터는 나중에 LSP (라인 스펙트럼 쌍) 매개 변수의 벡터로 변환되어, 보간되어 다시 LPC 매개 변수로 변환된다.
8.1.5 LPC 양자화 모드의 디코딩
다음에는, LPC 양자화 모드의 디코딩이 설명되며, 이는 디코딩(950) 또는 디코딩(990)의 부분일 수 있다.
LPC4는 항상 절대적 양자화 접근법을 이용하여 양자화된다. 다른 LPC 필터는 절대적 양자화 접근법, 또는 여러 상대적 양자화 접근법 중 하나를 이용하여 양자화된다. 이들 LPC 필터의 경우, 비트스트림에서 추출된 제 1 정보는 양자화 모드이다. 이러한 정보는 "mode_lpc"로 나타내고, 테이블 2의 마지막 열에 나타낸 바와 같이 가변-길이 이진 코드를 이용하여 비트스트림으로 신호 전송된다.
8.1.6 제 1 단계 근사치
각 LPC 필터의 경우, 양자화 모드는 도 13의 제 1 단계 근사치가 계산되는 방법을 결정한다.
절대적 양자화 모드 (mode_lpc=0)의 경우, 확률적(stochastic) VQ-양자화된 제 1 단계 근사치에 상응하는 8-비트 인덱스는 비트스트림에서 추출된다. 그 후, 제 1 단계 근사치(1320)는 간단한 테이블 룩업(look-up)에 의해 계산된다.
상대적 양자화 모드의 경우, 제 1 단계 근사치는 테이블 2의 제 2 열에 나타낸 바와 같이 이미 역 양자화된 LPC 필터를 이용하여 계산된다. 예컨대, LPC0의 경우, 역 양자화된 LPC4 필터가 제 1 단계 근사치를 구성하는 하나의 상대적 양자화 모드만이 있다. LPC1의 경우, 2개의 가능한 상대적 양자화 모드가 있는데, 하나는 역 양자화된 LPC2가 제 1 단계 근사치를 구성하고, 다른 하나는 역 양자화된 LPC0와 LPC2 필터 사이의 평균치가 제 1 단계 근사치를 구성한다. 모든 다른 동작이 LPC 양자화에 관계될 시에, 제 1 단계 근사치의 계산은 라인 스펙트럼 주파수 (LSF) 도메인에서 행해진다.
8.1.7 AVQ 리파인먼트
8.1.7.1 일반
비트스트림에서 추출된 다음 정보는 역 양자화된 LSF 벡터를 구축하는데 필요한 AVQ 리파인먼트에 관계된다. 유일한 예외는 LPC1의 경우이다. 즉, 비트스트림은 이러한 필터가 상대적으로 (LPC0+LPC2)/2로 인코딩될 때에 AVQ 리파인먼트를 포함하지 않는다는 것이다.
AVQ는 AMR-WB+에서 TCX 모드로 스펙트럼을 양자화하는데 이용되는 8차원 RE8 격자 벡터 양자화기에 기초한다. LPC 필터를 디코딩하는 것은 가중된 잔여 LSF 벡터의 2개의 8차원 서브벡터
Figure 112012038836218-pct00002
를 디코딩하는 것을 포함하며, k=1 및 2이다.
이들 2개의 서브벡터에 대한 AVQ 정보는 비트스트림에서 추출된다. 그것은 2개의 인코딩된 코드북 수 "qn1" 및 "qn2", 및 상응하는 AVQ 인덱스를 포함한다. 이들 매개 변수는 다음과 같이 디코딩된다.
8.1.7.2 코드북 수의 디코딩
AVQ 리파인먼트를 디코딩하기 위해 비트스트림에서 추출되는 제 1 매개 변수는 상술한 2개의 서브벡터의 각각에 대해 2개의 코드북 수 nk, k=1 및 2이다. 코드북 수가 인코딩되는 방식은 LPC 필터(LPC0 내지 LPC4) 및 이의 양자화 모드(절대적 또는 상대적)에 의존한다. 테이블 3에 도시된 바와 같이, 마찬가지로 표 3과 같이, nk를 인코딩하는 4개의 서로 다른 방식이 있다. nk에 이용되는 코드에 대한 상세 사항은 아래에 제공된다.
nk 모드 0 및 3:
코드북 수 nk는 다음과 같이 가변 길이 코드 qnk로 인코딩된다 :
Q2 → nk에 대한 코드는 00이다
Q3 → nk에 대한 코드는 01이다
Q4 → nk에 대한 코드는 10이다
다른 것: nk에 대한 코드가 11인 후에 다음의 것이 따른다:
Q5 → 0
Q6 → 10
Q0 → 110
Q7 → 1110
Q8 → 11110
등.
nk 모드 1:
코드북 수 nk는 다음과 같이 단항(unary) 코드 qnk로 인코딩된다:
Q0 → nk에 대한 단항 코드는 0이다
Q2 → nk에 대한 단항 코드는 10이다
Q3 → nk에 대한 단항 코드는 110이다
Q4 → nk에 대한 단항 코드는 1110이다
등.
nk 모드 2:
코드북 수 nk는 다음과 같이 가변 길이 코드 qnk로 인코딩된다 :
Q2 → nk에 대한 코드는 00이다
Q3 → nk에 대한 코드는 01이다
Q4 → nk에 대한 코드는 10이다
다른 것: nk에 대한 코드가 11인 후에 다음의 것이 따른다:
Q0 → 0
Q5 → 10
Q6 → 110
8.1.7.3 AVQ 인덱스의 디코딩
LPC 필터를 디코딩하는 것은 가중된 잔여 LSF 벡터의 각 양자화된 서브벡터
Figure 112012038836218-pct00003
를 나타내는 대수 VQ 매개 변수를 디코딩하는 것을 포함한다. 각 블록 Bk이 차원 8을 갖는다고 상기한다. 각 블록
Figure 112012038836218-pct00004
의 경우, 이진 인덱스의 3개의 세트가 디코더에 의해 수신된다:
a) 코드북 수 nk는 상술한 바와 같이 엔트로피(entropy) 코드 "qnk"를 이용하여 전송되고;
b) 무슨 순열(permutation)을 나타내는 소위 기본 코드북에서 선택된 격자 점 z의 순위 Ik는 격자 점 z를 획득하기 위해 특정 리더(leader)에 적용되어야 하며;
c) 양자화된 블록
Figure 112012038836218-pct00005
(격자 점)이 기본 코드북에 있지 않으면, Voronoi 확장 인덱스 벡터 k의 8 인덱스; Voronoi 확장 인덱스로부터, 확장 벡터 v가 계산될 수 있다. 인덱스 벡터 k의 각 구성 요소의 비트의 수는 인덱스 nk의 코드 값에서 획득될 수 있는 확장 순서 r에 의해 주어진다. Voronoi 확장의 스케일링 팩터 M은 M = 2r에 의해 주어진다.
그리고 나서, 스케일링 팩터 M, Voronoi 확장 벡터 v (RE8의 격자 점) 및 기본 코드북의 격자 점 z(또한 RE8의 격자 점)에서, 각 양자화 스케일링된 블록
Figure 112012038836218-pct00006
은 다음과 같이 계산될 수 있다:
Figure 112012038836218-pct00007
= Mz + v
Voronoi 확장 (즉, nk < 5, M = 1, z = 0)이 없다면, 기본 코드북은 M. Xie 및 J.-P. Adoul, “Embedded algebraic vector quantization (EAVQ) with application to wideband audio coding, “IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Atlanta, GA, USA, vol. 1, pp. 240-243, 1996로부터 코드북 Q0, Q2, Q3 또는 Q4 중 하나이다. 그 후, 벡터 k를 전송하기 위해 비트를 필요로 하지 않는다. 그렇지 않으면,
Figure 112012038836218-pct00008
가 충분히 크기 때문에 Voronoi 확장이 이용되면, 상기 참고 문헌으로부터 Q3 또는 Q4만이 기본 코드북으로 이용된다. Q3 또는 Q4의 선택은 코드북 수 값 nk에 암시된다.
8.1.7.4 LSF 의 가중치의 계산
인코더에서, AVQ 양자화 전에 잔여 LSF 벡터의 구성 요소에 적용되는 가중치는 다음과 같다:
Figure 112012038836218-pct00009
Figure 112012038836218-pct00010
여기서,
Figure 112012038836218-pct00011
은 제 1 단계 LSF의 근사치이며, W는 양자화 모드에 의존하는 스케일링 팩터이다(테이블 4).
상응하는 역 가중치(1340)는 양자화된 잔여 LSF 벡터를 검색하도록 디코더에 적용된다.
8.1.7. 5 역 양자화된 LSF 벡터의 재구성
역 양자화된 LSF 벡터는, 먼저, 하나의 단일 가중된 잔여 LSF 벡터를 형성하기 위해 섹션 8.1.7.2 및 8.1.7.3에서 설명된 바와 같이 디코딩되는 2개의 AVQ 리파인먼트 서브벡터
Figure 112012038836218-pct00012
Figure 112012038836218-pct00013
를 연관(concatenating)시켜, 잔여 LSF 벡터를 형성하기 위해 섹션 8.1.7.4에서 설명된 바와 같이 계산되는 가중치의 역을 이러한 가중된 잔여 LSF 벡터에 적용하여, 다시 이러한 잔여 LSF 벡터를 섹션 8.1.6에서와 같이 계산된 제 1 단계 근사치에 가산함으로써 획득된다.
8.1.8 양자화된 LSFs 의 재배열
역 양자화된 LSFs는 재배열되고, 50 Hz의 인접한 LSFs 사이의 최소 거리는 이들이 이용되기 전에 도입된다.
8.1.9 LSP 매개 변수로의 변환
지금까지 설명된 역 양자화 과정은 LSF 도메인에서 LPC 매개 변수의 세트를 생성시킨다. 그 후, LSFs는 관계 qi = cos(wi), i=1,...,16를 이용하여 코사인 도메인 (LSPs)로 변환되며, wi은 라인 스펙트럼 주파수(LSF)이다.
8.1.10 LSP 매개 변수의 보간
각 ACELP 프레임(또는 서브프레임)의 경우, 프레임의 끝에 상응하는 단 하나의 LPC 필터가 전송되지만, 선형 보간은 각 서브프레임 (또는 서브프레임의 부분)(ACELP 프레임 또는 서브프레임마다 4개의 필터)에서 서로 다른 필터를 획득하는데 이용된다. 보간은 이전의 프레임(또는 서브프레임)의 끝에 상응하는 LPC 필터와, (현재) ACELP 프레임의 끝에 상응하는 LPC 필터 사이에서 수행된다.
Figure 112012038836218-pct00014
을 새로운 이용 가능한 LSP 벡터라 하고,
Figure 112012038836218-pct00015
를 이전의 이용 가능한 LSP 벡터라 한다.
Figure 112012038836218-pct00016
서브프레임에 대한 보간된 LSP 벡터는 다음에 의해 주어진다:
Figure 112012038836218-pct00017
,
Figure 112012038836218-pct00018
보간된 LSP 벡터는 아래에 설명되는 LSP 대 LP 변환 방법을 이용하여 각 서브프레임에서 서로 다른 LP 필터를 계산하는데 이용된다.
8.1.11 LSP LP 변환
각 서브프레임에 대해, 보간된 LSP 계수는 서브프레임에서 재구성된 신호를 합성하기 위해 이용되는 LP 필터 계수
Figure 112012038836218-pct00019
(950a, 990a)로 변환된다. 정의에 의하면, 제 16 차 LP 필터의 LSPs는 두 다항식의 근이다.
Figure 112012038836218-pct00020
Figure 112012038836218-pct00021
이는 다음과 같이 표현될 수 있다:
Figure 112012038836218-pct00022
Figure 112012038836218-pct00023
Figure 112012038836218-pct00024
Figure 112012038836218-pct00025
여기서, qi, I=1,...,16은 또한 LSPs라 하는 코사인 도메인의 LSPs이다. LP 도메인으로의 변환은 다음과 같이 행해진다. F1(z) 및 F2(z)의 계수는 양자화 및 보간된 LSPs를 알고 있는 상기 식을 확장하여 찾아진다. 다음의 순환 관계(recursive relation)는 F1(z)를 계산하는데 이용된다:
i = 1 내지 8에 대해
Figure 112012038836218-pct00026
j = i-1 내지 1에 대해
Figure 112012038836218-pct00027
종료(end)
종료(end)
초기값 f1(0) = 1 및 f1(-1) = 0. F2(z)의 계수는 유사하게 q2i -1을 q2i로 대체하여 계산된다.
F1(z) 및 F2(z)의 계수가 찾아지면, F1(z) 및 F2(z)은 제각기 1+z-1 및 1-z-1 과 곱해져, F'1(z) 및 F'2(z)를 획득하며; 즉
Figure 112012038836218-pct00028
최종으로, LP 계수는 다음에 의해 f'1(i) 및 f'2(i)로부터 계산된다.
Figure 112012038836218-pct00029
이것은 식
Figure 112012038836218-pct00030
으로부터 직접 유도되고, F'1(z) 및 F'2(z)가 제각기 대칭 및 비대칭 다항식이다 라는 사실을 고려한다.
8.2. ACELP
다음에는, 오디오 신호 디코더(900)의 ACELP 브랜치(980)에 의해 수행되는 처리에 관한 일부 상세 사항이 다음에 설명되는 앨리어싱-소거 메카니즘의 이해를 용이하게 하기 위해 설명된다.
8.2.1 정의
다음에는 일부 정의가 제공된다.
비트스트림 요소 "mean_energy"는 프레임 당 양자화된 평균 여기 에너지를 나타낸다. 비트스트림 요소 "acb_index[sfr]"는 각 서브프레임에 대한 적응 코드북 인덱스를 나타낸다.
비트스트림 요소 "ltp_filtering_flag[sfr]"는 적응 코드북 여기 필터링 플래그이다. 비트스트림 요소 "lcb_index[sfr]"는 각 서브프레임에 대한 이노베이션(innovation) 코드북 인덱스를 나타낸다. 비트스트림 요소 "gains[sfr]"는 여기에 대한 적응 코드북 및 이노베이션 코드북 기여의 양자화된 이득을 나타낸다.
더욱이, 비트스트림 요소 "mean_energy"의 인코딩에 관한 상세 사항에 대해, 테이블 5에 대한 참조가 행해진다.
8.2.2 과거 FD 합성 및 LPC0 을 이용한 ACELP 여기 버퍼의 설정
다음에는, ACELP 여기 버퍼의 선택적 초기화가 설명되고, 블록(990b)에 의해 수행될 수 있다.
FD에서 ACELP로 전환하는 경우에, 과거 여기 버퍼 u(n) 및 과거(past) 사전 강조된 합성
Figure 112012038836218-pct00031
을 포함하는 버퍼는 ACELP 여기의 디코딩 이전에 (FAC를 포함하는) 과거 FD 합성 및 LPC0(즉, 필터 계수 세트 LPC0의 LPC 필터 계수)를 이용하여 업데이트된다. 이를 위해, FD 합성은 사전 강조 필터
Figure 112012038836218-pct00032
를 적용하여 사전 강조되고, 결과는
Figure 112012038836218-pct00033
에 복사된다. 그 후, 생성된 사전 강조된 합성은 여기 신호 u(n)를 획득하도록 LPC0를 이용하여 분석 필터
Figure 112012038836218-pct00034
에 의해 필터링된다.
8.2.3 CELP 여기의 디코딩
프레임에서의 모드가 CELP 모드이면, 여기는 스케일링된 적응 코드북 및 고정된 코드북 벡터의 추가로 구성된다. 각 서브프레임에서, 여기는 다음과 같은 단계를 반복하여 구성된다:
CELP 정보를 디코딩하는데 필요한 정보는 인코딩된 ACELP 여기(982)로 간주될 수 있다. 또한, CELP 여기의 디코딩은 ACELP 브랜치(980)의 블록(988, 989)에 의해 수행될 수 있는 것으로 언급되어야 한다.
8.2.3.1 비트스트림 요소 " acb _ index []"에 따른 적응 코드북 여기의 디코딩
수신된 피치(pitch) 인덱스(적응 코드북 인덱스)는 피치 래그(lag)의 정수 및 소수 부분을 찾는데 이용된다.
초기 적응 코드북 여기 벡터 v'(n)는 FIR 보간 필터를 이용하여 피치 지연 및 위상(분수(fraction))에서 과거 여기 u(n)를 보간하여 찾아진다.
적응 코드북 여기는 64 샘플의 서브프레임 크기에 대해 계산된다. 그 후, 수신된 적응 필터 인덱스(ltp_filtering_flag[])는 필터링된 적응 코드북이 v(n) = v'(n) 또는 v(n) = 0.18v'(n) + 0.64v'(n -1) + 0.18v'(n -2) 인지를 판단하는데 이용된다.
8.2.3.2 비트스트림 요소 " icb _ index []"를 이용한 이노베이션 코드북 여기의 디코딩
수신된 대수 코드북 인덱스는 여기 펄스의 위치 및 진폭(부호)을 추출하여, 대수 코드벡터 c(n)를 찾는데 이용된다. 즉,
Figure 112012038836218-pct00035
여기서, mi 및 si는 펄스 위치 및 부호이며, M은 펄스의 수이다.
대수 코드벡터 c(n)가 디코딩되면, 피치 샤프닝(sharpening) 절차가 수행된다. 먼저, c(n)이 다음과 같이 정의된 사전 강조 필터에 의해 필터링된다:
Figure 112012038836218-pct00036
사전 강조 필터는 낮은 주파수에서 여기 에너지를 감소시키는 역할을 한다. 그 다음, 주기성 향상(periodicity enhancement)은 다음과 같이 정의된 전달 함수를 가진 적응 사전 필터에 의해 수행된다:
Figure 112012038836218-pct00037
여기서, n은 서브프레임 인덱스(n=0,...,63)이고, T는 피치 래그의 정수 부분 T0 및 소수 부분 T0,frac의 라운딩된 버전(rounded version)이며, 다음에 의해 주어진다:
Figure 112012038836218-pct00038
적응 사전 필터 Fp(z)는 유성음 신호(voiced signal)의 경우에 인간의 귀에 성가신 상호 고조파 주파수(inter-harmonic frequencies)를 댐핑(damping)하여 스펙트럼을 컬러링(coloring)한다.
8.2.3.3 비트스트림 요소 " gains []"으로 나타내는 적응 및 이노베이션 코드북 이득의 디코딩
서브프레임당 수신된 7-비트 인덱스는 적응 코드북 이득
Figure 112012038836218-pct00039
및 고정된 코드북 이득 보정 팩터
Figure 112012038836218-pct00040
를 직접 제공한다. 그 후, 고정된 코드북 이득은 추정되는 고정된 코드북 이득과 이득 보정 팩터를 곱하여 계산된다. 추정되는 고정된 코드북 이득 g'c은 다음과 같이 찾아진다. 첫째로, 평균 이노베이션 에너지는 다음에 의해 찾아진다:
Figure 112012038836218-pct00041
그리고 나서, dB의 추정된 이득 G'c은 다음에 의해 찾아진다:
Figure 112012038836218-pct00042
여기서,
Figure 112012038836218-pct00043
은 프레임당 디코딩된 평균 여기 에너지이다. 프레임의 평균 이노베이션 여기 에너지는,
Figure 112012038836218-pct00044
은 "mean_energy"로서 같은 프레임당 2 비트(18, 30, 42 또는 54 dB)로 인코딩된다.
선형 도메인의 예측 이득은 다음에 의해 주어진다:
Figure 112012038836218-pct00045
양자화되는 고정된 코드북 이득은 다음에 의해 주어진다:
Figure 112012038836218-pct00046
8.2.3.4 재구성된 여기의 컴퓨팅
다음 단계는 n = 0, ..., 63에 대한 것이다. 전체 여기는 다음에 의해 구성된다:
Figure 112012038836218-pct00047
여기서, c(n)은 적응 사전 필터 F(z)를 통해 필터링한 후에 고정된 코드북에서의 코드벡터이다. 여기 신호 u'(n)는 적응 코드북의 콘텐츠를 업데이트하는데 이용된다. 그 후, 여기 신호 u'(n)는 합성 필터
Figure 112012038836218-pct00048
의 입력에서 이용되는 사후 처리된 여기 신호 u(n)를 획득하기 위해 다음 섹션에서 설명되는 바와 같이 사후 처리된다.
8.3 여기 사후 처리
8.3.1 일반
다음에는, 여기 신호 사후 처리가 설명되고, 블록(989)에서 수행될 수 있다. 환언하면, 신호의 합성을 위해, 여기 요소의 사후 처리는 다음과 같이 수행될 수 있다.
8.3.2 잡음 향상을 위한 이득 평활화( gain smoothing )
비선형 이득 평활화 기법은 잡음의 여기를 향상시키기 위해 고정된 코드북 이득
Figure 112012038836218-pct00049
에 적용된다. 음성 세그먼트의 안정성 및 유성음에 기초하여, 고정된 코드북 벡터의 이득은 정지 신호의 경우에 여기의 에너지에 변동을 줄이기 위해 평활화된다. 이것은 정지 배경 잡음의 경우에 성능을 향상시킨다. 유성음 팩터는 다음에 의해 주어진다:
Figure 112012038836218-pct00050
Figure 112012038836218-pct00051
여기서, Ev 및 Ec는 제각기 스케일링된 피치 코드벡터 및 스케일링된 이노베이션 코드벡터의 에너지이다(rv는 신호 주기성의 척도를 제공한다). rv의 값이 -1과 1 사이이므로,
Figure 112012038836218-pct00052
의 값은 0과 1 사이에 있음에 주목한다. 팩터
Figure 112012038836218-pct00053
는 순전히 유성음 세그먼트에 대한 0의 값 및 순전히 무성음 세그먼트에 대한 1의 값을 가진 무성음의 양과 관련되어 있음에 주목한다.
안정성 팩터
Figure 112012038836218-pct00054
는 인접한 LP 필터 사이의 거리 측정에 기초하여 계산된다. 여기서, 팩터
Figure 112012038836218-pct00055
는 ISF 거리 측정에 관련되어 있다. ISF 거리는 다음에 의해 주어진다:
Figure 112012038836218-pct00056
여기서,
Figure 112012038836218-pct00057
는 현재 프레임의 ISFs이고,
Figure 112012038836218-pct00058
는 과거 프레임의 ISFs이다. 안정성 팩터
Figure 112012038836218-pct00059
는 다음에 의해 주어진다:
Figure 112012038836218-pct00060
Figure 112012038836218-pct00061
으로 제한됨
ISF 거리 측정치는 안정 신호의 경우에는 작다.
Figure 112012038836218-pct00062
의 값이 ISF 거리 측정치와 역으로 관련됨에 따라,
Figure 112012038836218-pct00063
의 큰 값은 더욱 안정 신호에 상응한다. 이득 평활화 팩터 Sm는 다음에 의해 주어진다:
Figure 112012038836218-pct00064
Sm의 값은 정지 배경 잡음 신호의 경우인 무성음 및 안정 신호에 대해 1에 접근한다. 순전히 유성음 신호의 경우, 또는 불안정 신호의 경우, Sm의 값은 0에 접근한다. 초기 수정된 이득 g0은 이전의 서브프레임, g-1에서 초기 수정된 이득에 의해 주어진 임계값과 고정된 코드북 이득
Figure 112012038836218-pct00065
을 비교하여 계산된다.
Figure 112012038836218-pct00066
가 g-1보다 크거나 동일하면, g0
Figure 112012038836218-pct00067
을 1.5 dB만큼 감소시켜 계산되고, g0 ≥ g-1로 제한된다.
Figure 112012038836218-pct00068
가 g-1보다 작다면, g0
Figure 112012038836218-pct00069
을 1.5 dB만큼 증가시켜 계산되고, g0 ≤ g-1로 제한된다.
최종으로, 이득은 다음과 같이 평활화된 이득의 값으로 업데이트된다:
Figure 112012038836218-pct00070
8.3.3 피치 인핸서( pitch enhancer )
피치 인핸서 기법은, 주파수 응답이 고주파를 강조하고, 이노베이션 코드벡터의 저주파 부분의 에너지를 감소하며, 계수가 신호의 주기성과 관련되는 이노베이션 필터를 통해 고정된 코드북 여기를 필터링하여 전체 여기 u'(n)를 수정한다. 다음의 형식의 필터가 이용된다:
Figure 112012038836218-pct00071
여기서, cpe = 0.125(1 + rv), rv는 상술한 바와 같이 rv = (Ev - Ec)/(Ev + Ec)에 의해 주어진 주기성 팩터이다. 필터링되는 고정된 코드북 코드벡터는 다음에 의해 주어진다:
Figure 112012038836218-pct00072
업데이트된 사후 처리된 여기는 다음에 의해 주어진다:
Figure 112012038836218-pct00073
상기 절차는 다음과 같이 여기(989a)를 업데이트하여 한 단계에 행해질 수 있다:
Figure 112012038836218-pct00074
8.4 합성 및 사후 처리
다음에는, 필터링 합성(991) 및 사후 처리(992)가 설명된다.
8.4.1 일반
LP 합성은 LP 합성 필터
Figure 112012038836218-pct00075
를 통해 사후 처리된 여기 신호(989a) u(n)를 필터링하여 수행된다. 서브프레임당 보간된 LP 필터는 LP 합성 필터링 시에 이용되고, 서브프레임에서 재구성된 신호는 다음에 의해 주어진다:
Figure 112012038836218-pct00076
그 후, 합성된 신호는 필터 1/(1-0.68z-1)를 통해 필터링함으로써 강조되지 않는다(인코더 입력에 적용된 사전 강조 필터의 역).
8.4.2 합성 신호의 사후 처리
LP 합성 후, 재구성된 신호는 저주파 피치 향상을 이용하여 사후 처리된다. 두 대역 분해가 이용되고, 적응 필터링이 낮은 대역에만 적용된다. 이것은 전체 사후 처리를 초래하고, 즉, 주로 합성 음성 신호의 제 1 고조파에 가까운 주파수에 타겟된다. 신호는 두 브랜치로 처리된다. 높은 브랜치에서, 디코딩된 신호는 높은 대역 신호 sH를 생성하도록 고역 통과 필터에 의해 필터링된다. 낮은 브랜치에서, 디코딩된 신호는 먼저 적응 피치 인핸서를 통해 처리되어, 낮은 대역 사후 처리된 신호 sLEF를 획득하기 위해 저역 통과 필터를 통해 필터링된다. 사후 처리된 디코딩된 신호는 낮은 대역 사후 처리된 신호 및 높은 대역 신호를 추가하여 획득된다. 피치 인핸서의 목적은 여기서 전달 함수를 가진 시변 선형 필터에 의해 달성되는 디코딩된 신호의 상호 고조파 잡음을 감소시키는 것이다
Figure 112012038836218-pct00077
다음과 같은 식으로 나타낸다:
Figure 112012038836218-pct00078
여기서,
Figure 112012038836218-pct00079
는 상호 고조파 감쇠를 제어하는 계수이고, T는 입력 신호
Figure 112012038836218-pct00080
의 피치 주기이며, sLE(n)는 피치 인핸서의 출력 신호이다. 매개 변수 T 및
Figure 112012038836218-pct00081
는 시간에 따라 변하고, 피치 추적 모듈에 의해 주어진다.
Figure 112012038836218-pct00082
= 0.5의 값에 의해, 필터의 이득은 주파수 1/(2T), 3/(2T), 5/(2T) 등에서; 즉, 고조파 주파수 1/T, 3/T, 5/T 등 사이의 중간 브랜치에서 정확히 0이다.
Figure 112012038836218-pct00083
가 0에 도달하면, 필터에 의해 생성되는 고조파 사이의 감쇠는 감소한다.
저주파 영역으로 사후 처리를 제한하기 위해, 향상된 신호 sLE는 사후 처리된 합성 신호 sE를 획득하기 위해 고역 통과 필터링된 신호 sH에 추가되는 신호 sLEF를 생성하도록 저역 통과 필터링된다.
상술한 절차에 상응하는 대안적 절차가 이용되어, 고역 통과 필터링의 필요성을 제거한다. 이것은 다음과 같이 z-도메인의 사후 처리된 신호 sE(n)를 표현하여 달성된다:
Figure 112012038836218-pct00084
여기서, PLT(z)는 다음에 의해 주어진 장기 예측(long-term predictor) 필터의 전달 함수이다:
Figure 112012038836218-pct00085
HLP(z)는 저역 통과 필터의 전달 함수이다.
따라서, 사후 처리는 합성 신호
Figure 112012038836218-pct00086
에서 스케일링된 저역 통과 필터링된 장기 오류 신호를 감산하는 것과 같다.
값 T는 각 서브프레임에서 수신된 폐루프 피치 래그(가장 가까운 정수로 반올림되는 분수 피치 래그(fractional pitch lag))에 의해 주어진다. 피치 더블링(doubling)을 검사하기 위한 간단한 추적이 수행된다. 지연 T/2에서 정규화된 피치 상관치가 0.95보다 크면, 값 T/2은 사후 처리를 위한 새로운 피치 래그로 이용된다.
팩터
Figure 112012038836218-pct00087
는 다음에 의해 주어진다:
Figure 112012038836218-pct00088
Figure 112012038836218-pct00089
로 제한됨
여기서,
Figure 112012038836218-pct00090
은 디코딩된 피치 이득이다.
TCX 모드에서 및 주파수 도메인 코딩 중에,
Figure 112012038836218-pct00091
의 값은 0으로 설정되는 것에 주목한다. 25 계수를 가진 선형 위상 FIR 저역 통과 필터는 5Fs/256 kHz에서의 차단 주파수(필터 지연은 12 샘플임)와 함께 이용된다.
8.5 MDCT 기반 TCX
다음에는, MDCT 기반 TCX가 상세히 설명되며, TXC-LPD 브랜치(930)의 주요 신호 합성(940)에 의해 수행된다.
8.5.1 툴 설명
비트스트림 변수 "core_mode"가 선형-예측-도메인 매개 변수를 이용하여 인코딩을 행하는 것을 나타내는 1과 동일하고, 세 TCX 모드 중 하나 이상이 "선형 예측-도메인" 코딩으로 선택되면, 즉, mod[]의 4 어레이 엔트리 중 하나가 0보다 크면, MDCT 기반 TCX 툴이 이용된다. MDCT 기반 TCX는 산술 디코더(941)에서 양자화된 스펙트럼 계수(941a)를 수신한다. 양자화된 계수(941a)(또는 이의 역 양자화된 버전(942a))는 먼저 컴포트 잡음(comfort noise)(잡음 필링(943))에 의해 완성된다. 그 후, LPC 기반 주파수-도메인 잡음 형상화는 생성된 스펙트럼 계수(943a)(또는 이의 스펙트럼 디쉐이핑된 버전(944a))에 적용되고, 역 MDCT 변환(946)은 시간-도메인 합성 신호(946a)를 획득하기 위해 수행된다.
8.5.2 정의
다음에는, 몇몇 정의가 제공된다. 변수 "lg"는 산술 디코더에 의해 출력되는 양자화된 스펙트럼 계수의 수를 나타낸다. 비트스트림 요소 "noise_factor"는 잡음 레벨 양자화 인덱스를 나타낸다. 변수 "noise level"는 재구성된 스펙트럼에 주입되는 잡음의 레벨을 나타낸다. 변수 "noise[]"는 생성된 잡음의 벡터를 나타낸다. 비트스트림 요소 "global_gain"는 재스케일링(re-scaling) 이득 양자화 인덱스를 나타낸다. 변수 "g"는 재스케일링 이득을 나타낸다. 변수 "rms"는 합성된 시간-도메인 신호 x[]의 평균 제곱근(root mean square)을 나타낸다. 변수는 "x[]"는 합성된 시간-도메인 신호를 나타낸다.
8.5.3 디코딩 처리
MDCT 기반 TCX는 mode[] 값에 의해 결정되는 양자화된 스펙트럼 계수의 수를 산술 디코더(941)로부터 요청한다. 이러한 값(lg)은 또한 역 MDCT에 적용되는 윈도우 길이 및 형상을 정의한다. 역 MDCT(946) 동안 또는 후에 적용될 수 있는 윈도우는 세 부분, L 샘플의 좌측 중복, M 샘플의 중간 부분 및 R 샘플의 오른쪽 중복 부분으로 구성되어 있다. 길이 2*lg의 MDCT 윈도우를 획득하기 위해, ZL 제로가 좌측에 추가되고, ZR 제로가 우측에 추가된다. SHORT_WINDOW 간에 전환하는 경우에, 상응하는 중복 영역 L 또는 R은 SHORT_WINDOW의 짧은 윈도우 기울기에 적응하기 위해 128로 축소될 필요가 있을 수 있다. 결과적으로, 영역 M 및 상응하는 제로 영역 ZL 또는 ZR은 제각기 64 샘플에 의해 확장될 필요가 있을 수 있다.
역 MDCT(946) 동안에 적용될 수 있거나 역 MDCT(946)를 따를 수 있는 MDCT 윈도우는 다음에 의해 주어진다:
Figure 112012038836218-pct00092
테이블 6은 mod[]의 함수로서 스펙트럼 계수의 수를 보여준다.
산술 디코더(941)에 의해 전달되는 양자화된 스펙트럼 계수 quant[](941a), 또는 역 양자화된 스펙트럼 계수(942a)는 선택적으로 컴포트 잡음(잡음 필링(943))에 의해 완성된다. 주입된 잡음의 레벨은 다음과 같이 디코딩된 변수 noise_factor에 의해 결정된다:
noise_level = 0.0625*(8-noise_factor)
그 후, 잡음 벡터 noise[]는 값 -1 또는 +1을 랜덤하게 전달하는 랜덤 함수 random_sign()를 이용하여 계산된다.
noise[i] = random_sign()*noise_level;
quant[] 및 noise[] 벡터는, quant[]에서 8 연속 제로의 실행(runs)이 noise[]의 구성 요소로 대체되는 식으로 재구성된 스펙트럼 계수 r[](942a)를 형성하기 위해 조합된다. 8 비제로의 실행은 다음의 식에 따라 검출된다:
Figure 112012038836218-pct00093
하나는 다음과 같이 재구성된 스펙트럼(943a)을 획득한다:
Figure 112012038836218-pct00094
스펙트럼 디쉐이핑(944)은 선택적으로 다음의 단계에 따라 재구성된 스펙트럼(943a)에 적용된다:
1. 스펙트럼의 제 1 쿼터(quarter)의 각 8차원 블록에 대한 인덱스 m에서 8차원 블록의 에너지 Em을 계산한다.
2. 비율
Figure 112012038836218-pct00095
을 계산하며, 여기서 I는 모든 Em의 최대값을 가진 블록 인덱스이다.
3. Rm<0.1이면, Rm = 0.1로 설정
4. Rm<Rm -1이면, Rm = Rm -1로 설정
그 후, 스펙트럼의 제 1 쿼터에 속하는 각 8차원 블록은 팩터 Rm와 승산된다. 따라서, 스펙트럼 디쉐이핑된 스펙트럼 계수(944a)가 획득된다.
역 MDCT(946)를 적용하기 전에, MDCT 블록의 두 끝(즉, 왼쪽 및 오른쪽 폴딩(folding) 포인트)에 상응하는 두 양자화딘 LPC 필터 LPC1, LPC2(이의 각각은 필터 계수 a1 내지 a10로 나타낼 수 있음)이 검색되고(블록(950)), 이들의 가중된 버전은 계산되며, 상응하는 데시메이션된(decimated)(64 포인트, 어떤 변환 길이) 스펙트럼(951a)은 계산된다(블록(951)). 이들 가중된 LPC 스펙트럼(951a)은 ODFT(홀수 이산 푸리에 변환)을 LPC 필터 계수(950a)에 적용하여 계산된다. (스펙트럼 계산(951)에 이용되는) ODFT 주파수 빈(frequency bins)이 (역 MDCT(946)의) MDCT 주파수 빈과 완전히 정렬되도록 ODFT를 계산하기 전에 LPC 계수에 복잡한 변조가 적용된다. 예컨대, (예컨대, 시간-도메인 필터 계수 a1 내지 a16에 의해 정의되는) 주어진 LPC 필터
Figure 112012038836218-pct00096
의 가중된 LPC 합성 스펙트럼(951a)은 다음과 같이 계산된다:
Figure 112012038836218-pct00097
Figure 112012038836218-pct00098
여기서,
Figure 112012038836218-pct00099
은 다음에 의해 주어진 가중된 LPC 필터의 (시간-도메인) 계수이다:
Figure 112012038836218-pct00100
Figure 112012038836218-pct00101
이득 g[k](952a)은 다음에 따른 LPC 계수의 스펙트럼 표현 X0[k](951a)으로부터 계산될 수 있다:
Figure 112012038836218-pct00102
여기서, M=64는 계산된 이득이 적용되는 대역의 수이다.
g1[k] 및 g2[k], k=0...63은 상술한 바와 같이 계산되는 왼쪽 및 오른쪽 폴딩 포인트에 제각기 상응하는 데시메이션된 LPC 스펙트럼이라 한다. 역 FDNS 동작(945)은 순환 필터(recursive filter)를 이용하여 재구성된 스펙트럼 r[i](944a)을 필터링하는데에 있다:
Figure 112012038836218-pct00103
여기서, a[i] 및 b[i](945b)는 다음 식을 이용하여 왼쪽 및 오른쪽 g1[k],g2[k](952a)로부터 유도된다:
Figure 112012038836218-pct00104
상기에서, 변수 k는 LPC 스펙트럼이 데시메이션된다는 사실을 고려하도록 i/(lg/64)와 동일하다.
재구성된 스펙트럼 rr[](945a)은 역 MDCT(946)에 공급된다. 비윈도잉된 출력 신호 x[](946a)는 디코딩된 "global_gain" 인덱스의 역 양자화에 의해 획득된 이득g에 의해 재스케일링된다:
Figure 112012038836218-pct00105
여기서, rms는 다음과 같이 계산된다:
Figure 112012038836218-pct00106
그 후, 재스케일링되는 합성된 시간-도메인 신호(940a)는 다음과 동일하게 된다:
Figure 112012038836218-pct00107
재스케일링한 후, 윈도잉 및 중복 추가는, 예컨대, 블록(978)에 적용된다.
그 후, 재구성된 TCX 합성 x(n)(938)은 선택적으로 사전 강조 필터
Figure 112012038836218-pct00108
를 통해 필터링된다. 그리고 나서, 생성되는 사전 강조된 합성은 여기 신호를 획득하기 위해 분석 필터
Figure 112012038836218-pct00109
에 의해 필터링된다. 계산된 여기는 ACELP 적응 코드북을 업데이트하여, 다음 프레임에 TCX에서 ACELP로 스위칭할 수 있다. 신호는 최종으로 필터
Figure 112012038836218-pct00110
를 적용하여 사전 강조된 합성을 강조하지 않음으로써 재구성된다. 분석 필터 계수는 서브프레임 기반에서 보간되는 것에 주목한다.
또한, TCX 합성의 길이는 (중복 없이) TCX 프레임 길이: 제각기 1,2 또는 3의 mod[]에 대한 256, 512 또는 1024 샘플에 의해 주어진다.
8.6 포워드 앨리어싱-소거( FAC ) 툴
8.6.1 포워드 앨리어싱-소거 툴 설명
다음은 최종 합성 신호를 획득하기 위해 (예컨대, 주파수-도메인 모드에서 또는 TCX-LPD 모드에서) ACELP와 변환 코딩(TC) 사이의 전환 동안에 수행되는 포워드-앨리어싱 소거(FAC) 동작을 설명한다. FAC의 목표는 TC에 의해 도입되고, 이전의 또는 다음 ACELP 프레임에 의해 소거될 수 없는 시간-도메인 앨리어싱을 소거하기 위한 것이다. 여기서, TC의 개념은 긴 및 짧은 블록(주파수-도메인 모드)를 통한 MDCT 뿐만 아니라 MDCT 기반 TCX (TCX-LPD 모드)를 포함한다.
도 10은 TC 프레임에 대한 최종 합성 신호를 획득하기 위해 계산되는 서로 다른 중간 신호를 나타낸 것이다. 도시된 예에서, TC 프레임(예컨대, 주파수-도메인 모드에서 또는 TCX-LPD 모드에서 인코딩되는 프레임(1020))은 양자 모두 ACELP 프레임(프레임(1010 및 1030))에 후행 및 선행한다. 다른 경우(하나 이상의 TC 프레임이 ACELP 프레임을 뒤따르거나, ACELP 프레임이 하나 이상의 TC 프레임을 뒤따르는 경우)에는, 필요한 신호만이 계산된다.
이제 도 10df 참조하면, 포워드-앨리어싱-소거에 관한 개요가 제공되며, 포워드-앨리어싱-소거는 블록(960, 961, 962, 963, 964, 965 및 970)에 의해 수행되는 것으로 언급되어야 한다.
도 10에 도시되는 포워드-앨리어싱-소거 디코딩 동작이 그래픽 표현에서, 가로 좌표(1040a, 1040b, 1040c, 1040d)는 오디오 샘플의 측면에서 시간을 나타낸다. 세로 좌표(1042a)는, 예컨대, 진폭의 측면에서 포워드-앨리어싱-소거 합성 신호를 나타낸다. 세로 좌표(1042b)는 인코딩된 오디오 콘텐츠를 표현하는 신호, 예컨대, ACELP 합성 신호 및 변환 코딩 프레임 출력 신호를 나타낸다. 세로 좌표(1042c)는, 예컨대, 윈도잉된 ACELP 제로-임펄스 응답 및 윈도잉 및 폴딩된 ACELP 합성과 같은 앨리어싱-소거에 대한 ACELP 기여를 나타낸다. 세로 좌표(1042d)는 원래의 도메인에서의 합성 신호를 나타낸다.
알 수 있듯이, 포워드-앨리어싱-소거 합성 신호(1050)는 ACELP 모드로 인코딩되는 오디오 프레임(1010)에서 TCX-LPD 모드로 인코딩되는 오디오 프레임(1020)으로의 전환에 제공된다. 포워드-앨리어싱-소거 합성 신호(1050)는 합성 필터링(964) 및, 타입 IV(963)의 역 DCT에 의해 제공되는 앨리어싱-소거 자극 신호(963a)를 적용하여 제공된다. 합성 필터링(964)은 선형-예측-도메인 매개 변수 또는 LPC 필터 계수의 세트 LPC1에서 유도되는 합성 필터 계수(965a)에 기초한다. 도 10에서 알 수 있듯이. (제 1 )포워드-앨리어싱-소거 합성 신호(1050)의 제 1 부분(1050a)은 비제로 앨리어싱-소거 자극 신호(963a)에 대한 합성 필터링(964)에 의해 제공되는 비제로-입력 응답일 수 있다. 그러나, 포워드-앨리어싱-소거 합성 신호(1050)는 또한 앨리어싱-소거 자극 신호(963a)의 제로 부분에 대한 합성 필터링(964)에 의해 제공될 수 있는 제로-입력 응답 부분(1050b)을 포함한다. 따라서, 포워드-앨리어싱-소거 합성 신호(1050)는 또한 비제로-입력 응답 부분(1050a) 및 제로-입력 응답 부분(1050b)을 포함할 수 있다. 포워드-앨리어싱-소거 합성 신호(1050)는 바람직하게는 프레임 또는 서브프레임(1010)과 프레임 또는 서브프레임(1020) 사이의 전환과 관련되는 선형-예측-도메인 매개 변수의 세트 LPC1에 기초하여 제공될 수 있는 것으로 언급되어야 한다. 더욱이, 다른 포워드 앨리어싱-소거 합성 신호(1054)는 프레임 또는 서브프레임(1020)에서 프레임 또는 서브프레임(1030)으로의 전환에 제공된다. 포워드-앨리어싱-소거 합성 신호(1054)는 앨리어싱-소거 계수에 기초하여 역 DCT IV(963)에 의해 제공되는 앨리어싱-소거 자극 신호(963a)의 합성 필터링(964)에 의해 제공될 수 있다. 포워드-앨리어싱-소거 합성 신호(1054)의 제공은 프레임 또는 서브프레임(1020)과 다음 프레임 또는 서브프레임(1030) 사이의 전환과 관련되는 선형-예측-도메인 매개 변수의 세트 LPC2에 기초할 수 있는 것으로 언급되어야 한다.
게다가, 추가적인 앨리어싱-소거 합성 신호(1060, 1062)는 ACELP 프레임 또는 서브프레임(1010)에서 TXC-LPD 프레임 또는 서브프레임(1020)으로의 전환에 제공될 것이다. 예컨대, ACELP 합성 신호(986, 1056)의 윈도잉 및 폴딩된 버전(973a, 1060)은, 예컨대, 블록(971, 972, 973)에 의해 제공될 수 있다. 또한, 윈도잉된 ACELP 제로-입력-응답(976a, 1062)은, 예컨대, 블록(975, 976)에 의해 제공될 것이다. 예컨대, 윈도잉 및 폴딩된 ACELP 합성 신호(973a, 1060)는, 아래에 더욱 상세히 설명되는 바와 같이, ACELP 합성 신호(986, 1056)를 윈도잉하여, 윈도잉의 결과의 시간적 폴딩(973)을 적용함으로써 획득될 수 있다. 윈도잉된 ACELP 제로-입력-응답(976a, 1062)은 ACELP 합성 신호(986, 1056)를 제공하는데 이용되는 합성 필터(991)와 동일한 합성 필터(975)에 제로 입력을 제공하여 획득될 수 있으며, 합성 필터(975)의 초기 상태는 프레임 또는 서브프레임(1010)의 ACELP 합성 신호(986, 1056)의 제공의 끝에서의 합성 필터(981)의 상태와 동일하다. 따라서, 윈도잉 및 폴딩된 ACELP 합성 신호(1060)는 포워드 앨리어싱-소거 합성 신호(973a)에 상응할 수 있고, 윈도잉된 ACELP 제로 입력-응답(1062)은 포워드 앨리어싱-소거 합성 신호(976a)에 상응할 수 있다.
최종으로, 시간-도메인 표현(940a)의 윈도잉된 버전과 동일할 수 있는 변환 코딩 프레임 출력 신호(1050a)는 포워드 앨리어싱-소거 합성 신호(1052, 1054) 및 앨리어싱-소거에 대한 추가적인 ACELP 기여(1060, 1062)와 조합된다.
8.6.2 정의
다음에는, 몇 가지 정의가 제공될 것이다. 비트스트림 요소 "fac_gain"는 7-비트 이득 인덱스를 나타낸다. 비트스트림 요소 "nq[i]"는 코드북 수를 나타낸다. 구문 요소 "FAC[i]는 포워드 앨리어싱-소거 데이터를 나타낸다. 변수 "fac_length"는, 타입 "EIGHT_SHORT_SEQUENCES"의 윈도우 간의 전환을 위해 64와 동일할 수 있고, 그렇지 않으면 128일 수 있는 포워드 앨리어싱-소거 변환의 길이를 나타낸다. 변수 "use_gain"는 명시적인 이득 정보의 사용을 나타낸다.
8.6.3 디코딩 프로세스
다음에는 디코딩 프로세스가 설명될 것이다. 이를 위해, 여러 단계가 간략하게 요약될 것이다.
1. AVQ 매개 변수를 디코딩한다(블록 960)
- FAC 정보는 LPC 필터의 인코딩에 대해서와 동일한 대수 벡터 양자화 (AVQ) 툴을 이용하여 인코딩된다(섹션 8.1 참조).
- i=0...FAC 변환 길이에 대해:
o 코드북 수 nq[i]는 수정된 단항 코드를 이용하여 인코딩된다
o 상응하는 FAC 데이터 FAC[i]는 4*nq[i] 비트로 인코딩된다
- 그래서, i=0,...,fac_length에 대한 벡터 FAC[i]는 비트스트림에서 추출된다
2. 이득 팩터 g를 FAC 데이터에 적용한다(블록 961)
- MDCT 기반 TCX(wLPT)로의 전환의 경우, 상응하는 "tcx_coding" 요소의 이득이 이용된다
- 다른 전환의 경우, 이득 정보 "fac_gain"는 (7-비트 스칼라 양자화기를 이용하여 인코딩되는) 비트스트림에서 검색되었다. 이득 g은 그 이득 정보를 이용하여 g=10fac _ gain /28로 계산된다.
3. MDCT 기반 TCX와 ACELP 사이의 전환의 경우에, 스펙트럼 디쉐이핑(962)은 FAC 스펙트럼 데이터(961a)의 제 1 쿼터에 적용된다. 디쉐이핑 이득은, FAC 및 MDCT 기반 TCX의 양자화 잡음이 동일한 형상을 갖도록 섹션 8.5.3에서 설명된 바와 같이 (스펙트럼 디쉐이핑(944)에 의해 사용하기 위해) 상응하는 MDCT 기반 TCX에 대해 계산된 것이다.
4. 이득-스케일링된 FAC 데이터의 역 DCT-IV를 계산한다(블록 963).
- FAC 변환 길이 fac_length는 기본적으로 128과 동일하다
- 짧은 블록에 따른 전환의 경우, 이러한 길이는 64로 감소된다.
5. FAC 합성 신호(964a)를 획득하기 위해 (예컨대, 합성 필터 계수(965a)에 의해 나타내는) 가중된 합성 필터
Figure 112012038836218-pct00111
를 적용한다(블록(964)). 생성된 신호는 도 10에서 라인(a)에 표시된다.
- 가중된 합성 필터는 폴딩 포인트에 상응하는 LPC 필터에 기초한다(도 10에서, 그것은 ACELP에서 TCX-LPD로의 전환을 위한 LPC1 및, wLPD TC (TCX-LPD)에서 ACELP로의 전환을 위한 LPC2, 또는 FD TC (주파수 코드 변환 코딩)에서 ACELP로의 전환을 위한 LPC0로서 식별된다).
- 동일한 LPC 가중 팩터는 ACELP 동작에 관해 이용된다:
Figure 112012038836218-pct00112
, 여기서,
Figure 112012038836218-pct00113
- FAC 합성 신호(964a)를 계산하기 위해, 가중된 합성 필터(964)의 초기 메모리는 0으로 설정된다.
- ACELP에서의 전환을 위해, FAC 합성 신호(1050)는 가중된 합성 필터의 제로 입력 응답 (ZIR)(1050b)(128 샘플)을 첨부하여 더 연장된다.
6. ACELP에서의 전환의 경우에는, 윈도잉된 과거 ACELP 합성(972a)을 계산하고, (예컨대, 신호(973a) 또는 신호(1060)를 획득하기 위해) 그것을 폴딩하여, 그것에 윈도잉된 ZIR 신호(예컨대, 신호(976a) 또는 신호(1062))를 추가한다. ZIR 응답은 LPC1를 이용하여 계산된다. fac_length 과거 ACELP 합성 샘플에 적용되는 윈도우는 다음과 같다:
sine[n+fac_length]*sine[fac_length-1-n], n = -fac_length ... -1,
ZIR에 적용되는 윈도우는 다음과 같다:
1-sine[n + fac_length]2, n = 0... fac_length-1,
여기서, sine[n]은 사인 사이클의 쿼터이다:
sine[n] = sin(n*π/2*(fac_length)), n = 0 ... 2*fac_length-1.
생성된 신호는 도 10에서 라인(c)에 표시되고, ACELP 기여(신호 기여(1060, 1062))로 나타낸다.
7. (도 10에서 라인(d)으로 표시되는) 합성 신호(998)를 획득하기 위해 FAC 합성(964a, 1050) (및 ACELP에서의 전환의 경우에는 ACELP 기여(973a, 976a, 1060, 1062))을 (도 10에서 라인(b)으로 표시되는 TC 프레임(또는 시간-도메인 표현(940a)의 윈도잉된 버전)에 추가한다.
8.7 포워드 앨리어싱-소거( FAC ) 인코딩 프로세스
다음에는, 포워드 앨리어싱-소거에 필요한 정보의 인코딩에 관한 몇 가지 상세 사항이 설명된다. 특히, 앨리어싱-소거 계수(936)의 계산 및 인코딩이 설명될 것이다.
도 11은 변환 코딩(TC)로 인코딩되는 프레임(1120)이 ACELP로 인코딩되는 프레임(1110, 1130)에 선행 및 후행할 때에 인코더에서의 처리 단계를 도시한 것이다. 여기에서, TC의 개념은 AAC에서와 같이 긴 및 짧은 블록을 통한 MDCT 뿐만 아니라 MDCT 기반 TCX(TCX-LPD)를 포함한다. 도 11은 시간-도메인 마커(1140) 및 프레임 경계(1142, 1144)를 도시한다. 수직 점선은 TC로 인코딩되는 프레임(1120)의 시작(1142) 및 끝(1144)을 나타낸다. LPC1 및 LPC2는 두 LPC 필터를 계산하기 위한 분석 윈도우의 중심을 나타낸다: LPC1은 TC로 인코딩되는 프레임(1120)의 시작(1142)에서 계산되고, LPC2는 동일한 프레임(1120)의 끝(1144)에서 계산된다. "LPC1" 마커의 왼쪽에 있는 프레임(1110)은 ACELP로 인코딩된 것으로 추정된다. 마커 "LPC2"의 오른쪽에 있는 프레임(1130)은 또한 ACELP로 인코딩된 것으로 추정된다.
도 11에는 4개의 라인(1150, 1160, 1170, 1180)이 있다. 각 라인은 인코더에서 FAC 타겟의 계산의 단계를 나타낸다. 각 라인은 상기 라인과 정렬되는 시간인 것으로 이해되어야 한다.
도 11의 라인 1(1150)은 상술한 바와 같이 프레임(1110, 1120, 1130)으로 세그먼트(segment)되는 원래의 오디오 신호를 나타낸다. 중간 프레임(1120)은 FDNS를 이용하여 MDCT 도메인으로 인코딩되는 것으로 추정되며, TC 프레임이라고 불리질 것이다. 이전의 프레임(1110)의 신호는 ACELP 모드로 인코딩된 것으로 추정된다. 이러한 코딩 모드의 시퀀스(ACELP, 그 후 TC, 그 후 ACELP)는 FAC가 양방의 전환((ACELP 대 TC 및 TC 대 ACELP)에 관계되므로 FAC에서의 모든 처리를 예시하기 위해 선택된다.
도 11의 라인 2(1160)은 (디코딩 알고리즘에 대한 지식을 이용하여 인코더에 의해 결정될 수 있는) 각 프레임에서 디코딩된 (합성) 신호에 상응한다. TC 프레임의 시작에서 끝까지 연장하는 상위 곡선(1162)은 (중간에서는 평평하지만 시작과 끝에서는 평평하지 않은) 윈도잉 효과를 나타낸다. 폴딩 효과는 세그먼트의 시작 및 끝에서의 하위 곡선(1164, 1166)(세그먼트의 시작에서는 "-" 부호 및 세그먼트의 끝에서는 "+" 부호)으로 나타낸다. 그 후, FAC는 이들 효과를 보정하는데 이용될 수 있다.
도 11의 라인 3(1170)은 FAC의 코딩 부담(burden)을 줄이기 위해 TC 프레임의 시작에서 이용되는 ACELP 기여를 나타낸다. 이러한 ACELP 기여는 두 부분: 1) 이전의 프레임의 끝에서 윈도잉 폴딩된 ACELP 합성(877f, 1170), 및 2) LPC1 필터의 윈도잉된 제로 입력 응답(877j, 1172)으로 형성된다.
여기서, 윈도잉 및 폴딩된 ACELP 합성(1110)은 윈도잉 및 폴딩된 ACELP 합성(1060)에 상응할 수 있고, 윈도잉된 제로-입력-응답(1172)은 윈도잉된 ACELP 제로-입력-응답(1062)에 상응할 수 있는 것으로 언급되어야 한다. 환언하면, 오디오 신호 인코더는 오디오 신호 디코더(블록(869a 및 877))의 측에서 획득되는 합성 결과(1162, 1164, 1166, 1170, 1172)를 추정(또는 계산)할 수 있다.
그 후, 라인 4(1180)에 나타낸 ACELP 오류는 라인 1(1150)에서 라인 2(1160) 및 라인 3(1170)을 간단히 감산하여 획득된다. 시간 도메인에서 오류 신호(871, 1182)의 예상된 포락선(expected envelope)의 근사도(approximate view)는 도 11에서 라인 4(1180)에 도시된다. ACELP 프레임(1120)의 오류는 시간 도메인에서 진폭이 거의 평평한 것으로 예상된다. 그 후, (마커 LPC1과 LPC2 사이)의 TC 프레임의 오류는 도 11에서 라인 4(1180)의 이러한 세그먼트(1182)에 도시된 바와 같이 일반적인 형상(시간 도메인 포락선)을 나타내는 것으로 예상된다.
도 10의 라인 4의 TC 프레임의 시작 및 끝에서 윈도잉 및 시간-도메인 앨리어싱 효과를 효율적으로 보상하기 위해, TC 프레임이 FDNS를 이용한다고 가정하면, FAC는 도 11에 따라 적용된다. 도 11은 TC 프레임의 왼쪽 부분(ACELP에서 TC로의 전환) 및 TC 프레임의 오른쪽 부분(TC에서 ACELP로의 전환)의 양방에 대한 이러한 처리를 설명하는 것으로 언급되어야 한다.
요약하면, 인코딩된 앨리어싱-소거 계수(856,936)로 나타내는 변환 코딩 프레임 오류(871, 1182)는, 원래의 도메인(즉, 시간-도메인)에서의 신호(1152)에서 (예컨대, 신호(869b)로 나타내는) 변환 코딩 프레임 출력(1162, 1164, 1166), 및 (예컨대, 신호(872)로 나타내는) ACELP 기여(1170, 1172)의 양방을 감산하여 획득된다.
다음에는, 변환 코딩 프레임 오류(871,1182)의 인코딩이 설명된다.
첫째로, 가중 필터(874, 1210, W1(z))는 LPC1 필터로부터 계산된다. 그 후, (또한, 도 11 및 12에서 FAC 타겟이라 불리는) 도 11의 라인 4(1180)의 TC 프레임(1120)의 시작에서의 오류 신호(871,1182)는 초기 상태, 또는 필터 메모리로서 도 11의 라인 4의 ACELP 프레임(1120)의 ACELP 오류(871,1182)를 갖는 W1(z)를 통해 필터링된다. 그 후, 도 12의 최상부에서의 필터(874, 1210 W1(z))의 출력은 DCT-IV 변환(875, 1220)의 입력을 형성한다. 그리고 나서, DCT-IV(875, 1220)에서의 변환 계수(875a, 1222)는 양자화되어, (Q, 1230으로 나타내는) AVQ 툴(876)을 이용하여 인코딩된다. 이러한 AVQ 툴은 LPC 계수를 양자화하는데에 이용되는 것과 동일하다. 이들 인코딩된 계수는 디코더로 전송된다. 그 다음, AVQ(1230)의 출력은 시간-도메인 신호(963a, 1242)를 형성하기 위한 역 DCT-IV(963, 1240)의 입력이다. 그 후, 이러한 시간-도메인 신호는 제로-메모리(제로 초기 상태)를 가진 역 필터(964, 1250, 1/W1(z)를 통해 필터링된다. 1/W1(z)를 통한 필터링은 FAC 타겟 후에 연장하는 샘플에 대한 제로-입력을 이용하여 FAC 타겟의 길이를 지나 연장된다. 필터(1250, 1/W1(z))의 출력(964a, 1252)은, 이제 윈도잉 및 시간-도메인 앨리어싱 효과를 보상하기 위해 TC 프레임의 시작에서 적용될 수 있는 보정 신호(예컨대, 신호(964a))인 FAC 합성이다.
이제, TC 프레임의 끝에서 윈도잉 및 시간-도메인 앨리어싱 보정을 위한 처리를 참조하면, 도 12의 하부 부분을 고려한다. 도 11의 라인 4의 TC 프레임(1120)의 끝에서의 오류 신호(871,1182)(FAC 타겟)는 초기 상태, 또는 필터 메모리로서 도 11의 라인 4의 TC 프레임(1120)의 오류를 갖는 필터(874, 1210; W2(z))를 통해 필터링된다. 그 후, 모든 추가적 처리 단계는, FAC 합성의 ZIR 연장을 제외하고, TC 프레임의 시작에서 FAC 타겟의 처리를 다루는 도 12의 상부 부분에 대한 것과 동일하다.
도 12의 처리는 (로컬 FAC 합성을 획득하기 위해) 인코더에서 적용될 때에 (왼쪽에서 오른쪽으로) 완전히 수행되는 반면에, 디코더 측에서는 도 12의 처리가 수신되는 디코딩된 DCT-IV 계수부터 시작할 시에만 적용되는 것으로 언급한다.
9. 비트스트림
다음에는, 비트스트림에 관한 몇 가지 상세 사항이 본 발명의 이해를 용이하게 하기 위해 설명된다. 여기서, 구성 정보의 상당량이 비트스트림에 포함될 수 있는 것으로 언급되어야 한다.
그러나, 주파수-도메인 모드에서 인코딩되는 프레임의 오디오 콘텐츠는 주로 "fd_channel_stream()"이라 명명하는 비트스트림 요소로 나타낸다. 이러한 비트스트림 요소 "fd_channel_stream()"는 글로벌 이득 정보 "global_gain", 인코딩된 스케일 팩터 데이터 "scale_factor_data()", 및 산술적으로 인코딩된 스펙트럼 데이터 "ac_spectral_data"를 포함한다. 게다가, 비트스트림 요소 "fd_channel_stream()"는 선택적으로, (또한, 일부 실시예에서 "superframe"로 명시되는) 이전의 프레임이 선형-예측-도메인 모드로 인코딩되었고, 이전의 프레임의 마지막 서브프레임이 ACELP 모드로 인코딩된 경우(및 경우에만) (또한 "fac_data(1)"로 명시되는) 이득 정보를 포함하는 포워드 앨리어싱-소거 데이터를 포함한다. 환언하면, 이득 정보를 포함하는 포워드 앨리어싱-소거 데이터는 선택적으로, 이전의 프레임 또는 서브프레임이 ACELP 모드로 인코딩된 경우에 주파수-도메인 모드 오디오 프레임에 제공된다. 이것은, 상술한 바와 같이, 앨리어싱-소거가 TCX-LPD 모드로 인코딩되는 이전의 오디오 프레임 또는 오디오 서브프레임과, 주파수-도메인 모드로 인코딩되는 현재 오디오 프레임 사이의 단순한 중복-및-추가 기능에 의해 달성될 시에 유리하다.
상세 사항에 대해서는 도 14에 대한 참조가 행해지며, 도 14는 글로벌 이득 정보 "global_gain", 스케일 팩터 데이터 "scale_factor_data()", 산술적으로 코딩된 스펙트럼 데이터 "ac_spectral_data()"를 포함하는 비트스트림 요소 "fd_channel_stream()"의 구문 표현을 도시한다. 변수 "core_mode_last"는 마지막 코어 모드를 나타내고, 스케일 팩터 기반 주파수-도메인 코딩을 위한 0의 값을 취하며, 선형-예측-도메인 매개 변수 (TCX-LPD 또는 ACELP)에 기초하여 코딩을 위한 1의 값을 취한다. 변수 "last_lpd_mode"는 마지막 프레임 또는 서브프레임의 LPD 모드를 나타내고, ACELP 모드로 인코딩되는 프레임 또는 서브프레임에 대해 0의 값을 취한다.
이제 도 15를 참조하면, 선형-예측-도메인 모드로 인코딩되는 (또한 "슈퍼프레임"으로 명시되는) 오디오 프레임의 정보를 인코딩하는 비트스트림 요소 "lpd_channel_stream()"에 대한 구문이 설명된다. 선형-예측-도메인 모드로 인코딩되는 오디오 프레임("슈퍼프레임")은 (때때로 또한, 예컨대, 용어 "슈퍼프레임"와 함께 "프레임"으로 명시되는) 다수의 서브프레임을 포함할 수 있다. 서브프레임 (또는 "프레임")은 서브프레임의 일부가 TCX-LPD 모드로 인코딩될 수 있지만, 다른 서브프레임이 ACELP 모드로 인코딩될 수 있도록 서로 다른 모드일 수 있다.
비트스트림 변수 "acelp_core_mode"는 ACELP가 이용되는 경우에 비트 할당 기법을 나타낸다. 비트스트림 요소 "lpd_mode"에 대해서는 상술되었다. 변수 "first_tcx_flag"는 LPD 모드로 인코딩되는 각 프레임의 시작에서는 사실(true)인 것으로 설정된다. 변수 "first_lpd_flag"는 현재 프레임 또는 슈퍼프레임이 선형-예측 코딩 도메인으로 인코딩되는 프레임 또는 슈퍼프레임의 시퀀스의 첫 번째인지의 여부를 나타내는 플래그이다. 변수 "last_lpd"는 마지막 서브프레임(또는 프레임)이 인코딩된 모드(ACELP; TCX256; TCX512; TCX1024)를 나타내도록 업데이트된다. 참조 번호(1510)에서 알 수 있는 바와 같이, 이득 정보("fac_data_(0)") 없는 포워드-앨리어싱-소거 데이터는, 마지막 서브프레임이 ACELP 모드(last_lpd_mode==0)로 인코딩된 경우에 TCX-LPD 모드(mode[k]>0)로 인코딩되는 서브프레임 및, 이전의 서브프레임이 TCX-LPD 모드(last_lpd_mode>0)로 인코딩된 경우에 ACELP 모드(mode[k]==0)로 인코딩되는 서브프레임에 포함된다.
대조적으로, 이전의 프레임이 주파수-도메인 모드(core_mode_last=0)로 인코딩되고, 현재 프레임의 제 1 서브프레임이 ACELP 모드(mode[0]==0)로 인코딩되는 경우, 이득 정보("fac_data(1)")를 포함하는 포워드-앨리어싱-소거 데이터는 비트스트림 요소 "lpd_channel_stream"에 포함된다.
요약하면, 전용 포워드-앨리어싱-소거 이득 값을 포함하는 포워드-앨리어싱-소거 데이터는 주파수-도메인으로 인코딩된 프레임과 ACELP 모드로 인코딩된 프레임 또는 서브프레임 사이에 직접적인 전환이 있을 경우에 비트스트림에 포함된다. 대조적으로, TCX-LPD 모드로 인코딩된 프레임 또는 서브프레임과 ACELP 모드로 인코딩된 프레임 또는 서브프레임 사이에 전환이 있을 경우에는, 전용 포워드-앨리어싱-소거 이득 값이 없이 포워드-앨리어싱-소거 정보가 비트스트림에 포함된다.
이제, 도 16을 참조하면, 비트스트림 요소 "fac_data()"로 나타내는 포워드-앨리어싱-소거 데이터의 구문이 설명된다. 매개 변수 "useGain"는, 참조 번호(1610)에서 알 수 있듯이, 전용 포워드-앨리어싱-소거 이득 값 비트스트림 요소 "fac_gain"가 있는지의 여부를 나타낸다. 게다가, 비트스트림 요소 "fac_data"는 다수의 코드북 수 비트스트림 요소 "nq[i]" 및 "fac_data" 비트스트림 요소 "fac[i]의 수를 포함한다.
상기 코드북 수 및 상기 포워드-앨리어싱-소거 데이터의 디코딩이 상술되었다.
10. 구현 대안
일부 양태가 장치와 관련하여 설명되었지만, 이들 양태는 또한 상응하는 방법에 대한 설명을 명백히 나타내며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게도, 방법 단계와 관련하여 설명된 양태는 또한 상응하는 장치의 상응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다. 방법 단계의 일부 또는 모두는 예컨대, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계 중 일부의 하나 이상은 이와 같은 장치에 의해 실행될 수 있다.
발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나, 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체 상에서 전송될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이런 구현은 디지털 저장 매체, 예컨대, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 실행될 수 있으며, 이들은 전자식 판독 가능한 제어 신호를 저장하여, 각각의 방법이 실행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다 (또는 협력할 수 있다). 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예들은 여기에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 시에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는, 예컨대, 기계 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은, 기계 판독 가능한 캐리어 상에 저장되고, 여기에 설명된 방법 중 하나를 실행하는 컴퓨터 프로그램을 포함한다.
그래서, 환언하면, 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에, 여기에 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
그래서, 발명의 방법의 추가 실시예는, 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 통상적으로 실체적 및/또는 비과도적(tangible and/or non-transitionary)이다.
그래서, 발명의 방법의 추가 실시예는 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는, 예컨대, 데이터 통신 접속을 통해, 예컨대, 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는, 여기에 설명된 방법 중 하나를 실행하기 위해 구성되거나 적응되는 처리 수단, 예컨대, 컴퓨터, 또는 프로그램 가능한 논리 디바이스를 포함한다.
추가 실시예는 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예컨대, 전자식 또는 광학식으로) 수신기로 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예컨대, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예컨대, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그램 가능한 논리 디바이스 (예컨대, 필드 프로그램 가능 게이트 어레이)는 여기에 설명된 방법의 일부 또는 모든 기능을 실행하는데 이용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이들 방법은 바람직하게는 어떤 하드웨어 장치에 의해 실행된다.
상술한 실시예들은 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기의 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범주에 의해서만 제한되는 것으로 의도된다.
11. 결론
다음에는, 통합된-음성-및-오디오-코딩 (USAC) 윈도잉 및 프레임 전환의 통합을 위한 본 제안이 요약된다.
첫째로, 서론이 주어지고, 일부 배경 정보가 설명된다. USAC 참조 모델의 현재 디자인(또한, 참조 디자인으로 명시됨)은 3개의 서로 다른 코딩 모듈로 구성된다(또는 포함한다). 각 주어진 오디오 신호 섹션(예컨대, 프레임 또는 서브프레임)에 대해, 하나의 코딩 모듈(또는 코딩 모드)은 서로 다른 코딩 모드를 생성하는 섹션을 인코딩/디코딩하도록 선택된다. 이들 모듈이 활동 시에 번갈아 생성함에 따라, 한 모드에서 다른 모드로의 전환에 특별히 유의할 필요가 있다. 과거에는, 여러 기여가 코딩 모드 사이의 이들 전환을 다루는 수정을 제안하였다.
본 발명에 따른 실시예들은 구상된 전체 윈도잉 및 전환 기법을 생성한다. 이러한 기법의 완성으로 향한 도중에 달성된 진보는 품질 및 체계적인 구조적 개선에 대해 매우 유망한 증거를 나타낸다.
본 문서는 USAC에 대한 보다 유연한 코딩 구조를 생성하고, 오버코딩(overcoding)을 줄이며, 코덱의 변환 코딩된 섹션의 복잡성을 줄이기 위해 (또한 작업 초안 4 디자인으로 명시되는) 참조 디자인에 제안된 변경 사항을 요약한다.
값비싸고 중요하지 않은 샘플링(오버코딩)을 방지하는 윈도잉 기법에 도달하기 위해, 일부 실시예들에서 필수적인 것으로 간주될 수 있는 두 개의 구성 요소가 도입된다:
1) 포워드-앨리어싱-소거(FAC) 윈도우; 및
2) LPD 코어 코덱(또한 TCX-LPD 또는 wLPT로 알려진 TCX)의 변환 코딩 브랜치에 대한 주파수-도메인 잡음-형상화(FDNS).
두 기술의 조합은 최소 비트 요구에서 변환 길이의 매우 유연한 스위칭을 허용하는 윈도잉 기법을 채택할 수 있게 한다.
다음에는, 참조 시스템의 난점(challenges of reference systems)이 본 발명에 따른 실시예들에 의해 제공되는 이점에 대한 이해를 용이하게 하도록 설명될 것이다. USAC 초안 표준의 작업 초안 4에 따른 참조 개념은 MPEG 서라운드 및 향상된 SBR 모듈로 구성된(또는 포함하는) 사전/사후 처리 단계와 함께 작업하는 스위칭된 코어 코덱으로 구성된다. 스위칭된 코어는 주파수-도메인(FD) 코덱 및 선형-예측-도메인(LPD) 코덱을 특징으로 한다. 후자는 ACELP 모듈 및, 가중된 도메인(또한 변환-코딩-여기(TCX)로 알려진 "가중된 선형 예측 변환"(wLPT))에서 작업하는 변환 코더를 사용한다. 근본적으로 서로 다른 코딩 원리로 인해, 모드 사이의 전환은 특히 처리하는데 난점이 있는 것으로 발견되었다. 모드들이 효율적으로 섞이는데 주의할 필요가 있는 것으로 발견되었다.
다음에는, 시간-도메인에서 주파수-도메인으로의 전환 시에(ACELP ↔ wLPT, ACELP ↔ FD) 발생하는 난점이 설명될 것이다. 특히, 변환 코더가 MDCT에 인접한 블록의 변환 도메인 앨리어싱-소거(TDAC) 특성에 기초함에 따라 시간-도메인 코딩에서 변환-도메인 코딩으로의 전환은 까다로운 것으로 발견되었다. 주파수 도메인 코딩된 블록은 인접한 중복 블록으로부터 추가 정보 없이 전체 디코딩될 수 없는 것으로 발견되었다.
다음에는, 신호 도메인에서 선형-예측-도메인으로의 전환 시에(FD ↔ ACELP, FD ↔ wLPT) 나타나는 난점이 설명될 것이다. 선형-예측-도메인 사이의 전환은 서로 다른 양자화 잡음-형상화 패러다임의 전환을 암시하는 것으로 발견되었다. 이러한 패러다임은 코딩 모드가 변하는 장소에서 인지된 품질의 불연속을 유발시킬 수 있는 심리 음향적 동기 부여된(psychoacoustically motivated) 잡음-형상화 정보를 전달하고, 적용하는 다양한 방법을 활용하는 것으로 발견되었다.
다음에는, USAC 초안 표준의 작업 초안 4에 따른 참조 개념의 프레임 전환 매트릭스에 관한 상세 사항이 설명된다. 참조 USAC 참조 모델의 하이브리드 특성으로 인해, 다수의 상상할 수 있는 윈도우 전환이 있다. 도 4의 3-by-3 테이블은 USAC 초안 표준의 작업 초안 4의 개념에 따라 현재 구현될 시에 이들 전환의 개요를 표시한다.
상기에 나열된 기여들은 도 4의 테이블에 표시된 전환 중 하나 이상을 다룬다. 비-동질적인(non-homogenous) 전환(주 대각선에 있지 않은 것들)은 각각 다양한 특정 처리 단계를 적용하는 것에 주목할 가치가 있으며, 이러한 특정 처리 단계는 중요한 샘플링을 달성하기 위해 노력하고, 아티팩트의 차단을 방지하며, 공통 윈도잉 기법을 찾으며, 인코더 폐루프 모드 결정을 허용하는 절충안(compromise)의 결과이다. 어떤 경우에, 이러한 절충안은 코딩 및 전송된 샘플을 폐기하는 희생을 통해 얻는다.
다음에는, 몇 가지 제안된 시스템 변경이 설명된다. 환언하면, USAC 작업 초안 4에 따른 참조 개념의 개선이 설명된다. 윈도우 전환에서의 나열된 곤란을 다루기 위해, 본 발명에 따른 실시예들은 USAC 초안 표준의 작업 초안 4에 따라 참조 시스템에 따른 개념에 비해 기존의 시스템에 대한 두 개의 수정을 도입한다. 제 1 수정은 보편적으로 보충적 포워드-앨리어싱-소거 윈도우를 채택하여 시간-도메인에서 주파수-도메인으로의 전환을 개선하기 위한 것이다. 제 2 수정은 주파수-도메인에 적용될 수 있는 LPC 계수에 대한 변환 단계를 도입하여 신호 및 선형-예측 도메인의 처리를 소화한다(assimilate).
다음에는, 주파수-도메인 잡음 형상화(FDNS)의 개념이 설명되며, 주파수-도메인에서 LPC의 적용을 허용한다. 이러한 툴(FDNS)의 목적은 서로 다른 도메인에서 작업하는 MDCT 코더의 TDAC 처리를 허용하는 것이다. USAC의 주파수-도메인 부분의 MDCT는 신호 도메인에서 작동하지만, 참조 개념의 wLPT(또는 TCX)는 가중 필터링된 도메인에서 동작한다. 주파수 도메인에서 상응하는 처리 단계에 의해 참조 개념에서 이용되는 가중된 LPC 합성 필터를 대체함으로써, 두 변환 코더의 MDCT는 동일한 도메인에서 동작하고, TDAC는 양자화 잡음-형상화의 불연속을 도입하지 않고도 달성될 수 있다.
환언하면, 가중된 LPC 합성 필터(330g)는 LPC 대 주파수-도메인 변환(380i)과 함께 스케일링/주파수-도메인 잡음-형상화(380e)로 대체된다. 따라서, 주파수-도메인 경로의 MDCT(320g) 및 TCX-LPD 브랜치의 MDCT(380h)는 변환 도메인 앨리어싱-소거(TDAC)가 달성되도록 동일한 도메인에서 동작한다.
다음에는, 포워드-앨리어싱-소거 윈도우(FAC 윈도우)에 관한 몇 가지 상세 사항이 설명된다. 포워드-앨리어싱-소거(FAC) 윈도우는 이미 도입되어 설명되었다. 이러한 보충적 윈도우는, 지속적으로 실행하는 변환 코드에서, 보통 다음 또는 이전의 윈도우에 의해 기여되는 누락된(missing) TDAC 정보를 보상한다. ACELP 시간-도메인 코더가 인접 프레임에 중복하지 않고 나타나므로, FAC는 이러한 누락된 중복의 부족을 보상할 수 있다.
주파수-도메인에서 LPC 필터를 적용함으로써, LPD 코딩 경로는 ACELP 및 wLPT (TCX-LPD) 코딩된 세그먼트 사이의 보간된 LPC 필터링의 평활 효과의 일부를 늦추는(loose) 것으로 발견되었다. 그러나, FAC가 정확히 이곳에서 유리한 전환을 가능하게 하도록 설계되었으므로, 그것은 또한 이러한 효과를 보상할 수 있는 것으로 발견되었다.
FAC 윈도우 및 FDNS를 도입한 결과로서, 모든 상상할 수 있는 전환은 어떤 고유 오버코딩 없이 달성될 수 있다.
다음에는 윈도잉 기법에 관한 몇 가지 상세 사항이 설명된다.
FAC 윈도우가 ACELP와 wLPT 사이의 전환을 융합(fuse)할 수 있는 방법은 이미 설명되었다. 추가적 상세 사항에 대해서는, 다음의 문서: ISO/IEC JTC1/SC29/WG11, MPEG2009/M16688, June-July 2009, London, United Kingdom, "Alternatives for windowing in USAC"에 대한 참조가 행해진다.
FDNS가 wLPT를 신호 도메인으로 시프트(shift)하므로, FAC 윈도우는 이제 양방에, 정확히 동일한 방식으로 (또는, 적어도, 유사한 방식으로) ACELP과 wLPT 사이의 전환(transitions from/to the ACELP to/from wLPT) 및, 또한 ACELP와 FD 모드 사이의 전환에 적용될 수 있다.
마찬가지로, FD Windows 중간에 또는 wLPT 윈도우 중간에 (즉, FD와 FD 사이에; 또는 wLPT와 wLPT 사이에) 독점적으로 이전에 가능한 TDAC 기반 변환 코더 전환은 이제 또한 주파수-도메인에서 wLPT로, 또는 그 역으로의 범위를 벗어날(transgressing) 때에 적용될 수 있다. 따라서, 조합된 두 기술은 (시간 축에서 "나중에" 쪽으로 향한) 오른쪽으로의 ACELP 프레임 격자 64 샘플의 시프팅을 허용한다. 이렇게 함으로써, 한 단부에서의 64 샘플 중복-추가 및, 다른 단부에서의 여분의 길이(extra-long) 주파수-도메인 변환 윈도우는 더 이상 필요하지 않다. 양방의 경우에, 64 샘플 오버코딩은 참조 개념에 비해 본 발명에 따른 실시예에서 방지될 수 있다. 가장 중요하게는, 다른 모든 전환은 이들이 있는 것처럼 있어서, 더 이상의 수정이 필요하지 않다.
다음에는 새로운 프레임 전환 매트릭스가 간략하게 논의된다. 새로운 전환 매트릭스에 대한 일례는 도 5에 제공된다. 주 대각선 상의 전환은 USAC 초안 표준의 초안 4 작업에 있는 것처럼 있다. 다른 모든 전환은 신호 도메인에서 FAC 윈도우 또는 간단한 TDAC에 의해 처리될 수 있다. 일부 실시예들에서, 다른 중복 길이가 또한 상상할 수 있지만, 인접한 변환 도메인 윈도우 사이에서 두 중복 길이만이 상기 기법, 즉, 1024 샘플 및 128 샘플을 위해 필요하다.
12. 주관적인 평가
두 개의 듣기 테스트는 구현의 현재 상태에서 제안된 새로운 기술이 품질을 손상시키지 않는다는 것을 보여주기 위해 실시된 것으로 언급되어야 한다. 궁극적으로, 본 발명에 따른 실시예들은 샘플이 이전에 폐기되었던 장소에서의 비트 절감(bit savings)으로 인해 품질 증대를 제공할 것으로 예상된다. 다른 측 효과로서, 인코더에서의 분류 제어(classifier control)는 모드 전환이 더 이상 중요하지 않은 샘플링으로 시달리지 않으므로 훨씬 더 유연하게 될 수 있다.
13. 추가적 의견
상술한 바를 요약하면, 본 설명은, USAC 초안 표준의 초안 4 작업에 이용되는 기존의 기법에 비해 여러 가지 장점을 가진 USAC 대한 구상중인 윈도잉 및 전환 기법을 설명한다. 제안된 윈도잉 및 전환 기법은 모든 변환-코딩된 프레임에서 중요한 샘플링을 유지하고, 넌-파워-오프-투(non-power-of-two) 변환의 필요성을 방지하며, 모든 변환-코딩된 프레임을 적절히 정렬한다. 제안서는 두 새로운 툴에 기초한다. 제 1 툴, 포워드-앨리어싱-소거(FAC)는 참조 [M16688]에 설명되어 있다. 제 2 툴, 주파수-도메인-잡음-형상화(FDNS)는 양자와 잡음 형상화에서 불연속을 도입하지 않고도 동일한 도메인 내에서 주파수-도메인 프레임 및 wLPT 프레임을 처리할 수 있다. 따라서, USAC의 모든 모드 전환은 이들 두 기본 툴로 처리되어, 모든 변환-코딩된 모드에 대한 조화된(harmonized) 윈도잉을 허용할 수 있다. 주관적인 테스트 결과는 또한 본 설명에 제공되어, 제안된 툴이 USAC 초안 표준의 작업 초안 4에 따른 참조 개념에 비해 동등하거나 더 양호한 품질을 제공하는 것을 보여주었다.
참조
[M16688] ISO/IEC JTC1/SC29/WG11, MPEG2009/M16688, June-July 2009, London, United Kingdom, “Alternatives for windowing in USAC ”

Claims (17)

  1. 오디오 콘텐츠의 인코딩된 표현(210; 361; 901)에 기초하여 상기 오디오 콘텐츠의 디코딩된 표현(212; 399; 998)을 제공하기 위한 오디오 신호 디코더(200; 360; 900)에 있어서,
    스펙트럼 계수들의 제 1 세트(220; 382; 944a), 앨리어싱-소거 자극 신호(aliasing-cancellation stimulus signal)의 표현(224; 936), 및 다수의 선형-예측-도메인 매개변수들(222; 384 ;950a)에 기초하여 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분의 시간 도메인 표현(212; 386; 938)을 획득하도록 구성되는 변환 도메인 경로(230, 240, 242, 250, 260; 270, 280; 380; 930)를 포함하는데,
    상기 변환 도메인 경로는 적어도 상기 선형-예측-도메인 매개변수들의 서브세트에 따라 스펙트럼 형상화(spectral shaping)를 스펙트럼 계수들의 상기 제 1 세트(944a)에 적용하여, 스펙트럼 계수들의 상기 제 1 세트의 스펙트럼 형상화된 버전(232; 380g; 945a)을 획득하도록 구성되는 스펙트럼 프로세서(230; 380e; 945)를 포함하고,
    상기 변환 도메인 경로는 스펙트럼 계수들의 상기 제 1 세트의 상기 스펙트럼 형상화된 버전에 기초하여 상기 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 제 1 주파수-도메인-대-시간-도메인-변환기(240; 380h; 946)를 포함하며;
    상기 변환 도메인 경로는 상기 선형-예측-도메인 매개변수들(222; 384; 934)의 적어도 서브세트에 따라 앨리어싱-소거 자극 신호(224; 963a)를 필터링하여, 상기 앨리어싱-소거 자극 신호로부터 앨리어싱-소거 합성 신호(252; 964a)를 도출하도록 구성되는 앨리어싱-소거 자극 필터(250; 964)를 포함하며; 그리고
    상기 변환 도메인 경로는 또한 앨리어싱-감소된 시간-도메인 신호를 획득하기 위해 상기 앨리어싱-소거 합성 신호(252; 964) 또는 이의 사후-처리된 버전과 상기 오디오 콘텐츠의 상기 시간-도메인 표현(242; 940a)을 조합하도록 구성되는 조합기(260; 978)를 포함하는,
    오디오 신호 디코더.
  2. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 다수의 코딩 모드들 사이에서 스위칭하도록 구성되는 멀티-모드 오디오 신호 디코더이고,
    변환 도메인 브랜치(230, 240, 242, 250, 260; 270, 280; 380; 930)는 앨리어싱-소거 중복-및-추가(overlap-to-add) 동작을 허용하지 않는 상기 오디오 콘텐츠의 이전의 부분(1010)을 뒤따르는 상기 오디오 콘텐츠의 부분(1020), 또는 앨리어싱-소거 중복-및-추가 동작을 허용하지 않는 상기 오디오 콘텐츠의 다음 부분(1030)이 뒤따르는 상기 오디오 콘텐츠의 부분에 대한 상기 앨리어싱 소거 합성 신호(252; 964a)를 선택적으로 획득하도록 구성되는, 오디오 신호 디코더.
  3. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 변환-코딩된-여기 정보(transform-coded-excitation information)(932) 및 선형-예측-도메인 매개변수 정보(934)를 이용하는 변환-코딩된-여기-선형-예측-도메인 모드와, 스펙트럼 계수 정보(912) 및 스케일 팩터 정보(914)를 이용하는 주파수-도메인 모드 사이에서 스위칭하도록 구성되고;
    상기 변환-도메인-경로(930)는 상기 변환-코딩된-여기 정보(932)에 기초하여 스펙트럼 계수들의 상기 제 1 세트(944a)를 획득하고, 상기 선형-예측-도메인-매개변수 정보(934)에 기초하여 상기 선형-예측-도메인 매개변수들(950a)을 획득하도록 구성되며;
    상기 오디오 신호 디코더는 상기 스펙트럼 계수 정보(912)에 의해 나타내는 스펙트럼 계수들(921a)의 주파수-도메인 모드 세트에 기초하고, 상기 스케일 팩터 정보(914)에 의해 나타내는 스케일 팩터들(922)의 세트(922a)에 따라 상기 주파수-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현(918)을 획득하도록 구성되는 주파수-도메인 경로(910)를 포함하며,
    상기 주파수-도메인 경로(910)는 스케일 팩터들의 상기 세트(922a)에 따라 스펙트럼 형상화를 스펙트럼 계수들(921a)의 상기 주파수-도메인 모드 세트 또는 이의 사전 처리된 버전에 적용하여, 스펙트럼 계수들의 스펙트럼-형상화된 주파수-도메인 모드 세트(923a)를 획득하도록 구성되는 스펙트럼 프로세서(923)를 포함하며, 및
    상기 주파수-도메인 경로(910)는 스펙트럼 계수들(923a)의 상기 스펙트럼-형상화된 주파수-도메인 모드 세트에 기초하여 상기 오디오 콘텐츠의 시간-도메인 표현(924)을 획득하도록 구성되는 주파수-도메인-대-시간-도메인-변환기(924a)를 포함하며;
    상기 오디오 신호 디코더는 상기 오디오 콘텐츠의 두 다음 부분들 - 상기 오디오 콘텐츠의 두 다음 부분들 중 하나는 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되고, 상기 오디오 콘텐츠의 두 다음 부분들 중 하나는 상기 주파수-도메인 모드로 인코딩됨 - 의 시간-도메인 표현들이 상기 주파수-도메인-대-시간-도메인-변환에 의해 발생된 시간-도메인 앨리어싱을 소거하기 위해 시간적 중복을 포함하도록 구성되는, 오디오 신호 디코더.
  4. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 변환-코딩된-여기 정보(932) 및 선형-예측-도메인 매개변수 정보(934)를 이용하는 변환-코딩된-여기-선형-예측-도메인 모드와, 대수-코드-여기-정보(982) 및 선형-예측-도메인-매개변수 정보(984)를 이용하는 대수-코드-여기된-선형-예측(ACELP) 모드 사이에서 스위칭하도록 구성되고;
    상기 변환-도메인-경로(930)는 상기 변환-코딩된-여기 정보(932)에 기초하여 스펙트럼 계수들의 상기 제 1 세트(944a)를 획득하고, 상기 선형-예측-도메인-매개변수 정보(934)에 기초하여 상기 선형-예측-도메인 매개변수들(950a)을 획득하도록 구성되며;
    상기 오디오 신호 디코더는 상기 대수-코드-여기-정보(982) 및 상기 선형-예측-도메인-매개변수 정보(984)에 기초하여 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현(986)을 획득하도록 구성되는 대수-코드-여기된-선형-예측 경로(980)를 포함하며;
    상기 ACELP 경로(980)는 상기 대수-코드-여기-정보(982)에 기초하여 시간-도메인 여기 신호(989a)를 제공하도록 구성되는 ACELP 여기 프로세서(988, 989)를 포함하고, 상기 시간-도메인 여기 신호(989a)에 기초하여 그리고 상기 선형-예측-도메인-매개변수 정보(984)에 기초하여 획득되는 선형-예측-도메인 필터 계수들(990a)에 따라 재구성된 신호(991a)를 제공하기 위해 상기 시간-도메인 여기 신호의 시간-도메인 필터링을 수행하도록 구성되는 합성 필터(991)를 이용하며;
    상기 변환 도메인 경로(930)는 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분을 뒤따르는 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분, 및 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분에 선행하는 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분에 상기 앨리어싱-소거 합성 신호(964)를 선택적으로 제공하도록 구성되는, 오디오 신호 디코더.
  5. 청구항 4에 있어서,
    상기 앨리어싱-소거 자극 필터(964)는 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분을 뒤따르는 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분에 대한 상기 제 1 주파수-도메인-대-시간-도메인-변환기(946)의 좌측 앨리어싱 폴딩 포인트에 대응하는 상기 선형-예측-도메인 필터 매개변수들(950a; LPC1)에 따라 상기 앨리어싱-소거 자극 신호(963a)를 필터링하도록 구성되고, 및
    상기 앨리어싱-소거 자극 필터(964)는 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분에 선행하는 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분에 대한 상기 제 1 주파수-도메인-대-시간-도메인-변환기(946)의 우측 앨리어싱 폴딩 포인트에 대응하는 상기 선형-예측-도메인 필터 매개변수들(950a; LPC2)에 따라 상기 앨리어싱-소거 자극 신호(963a)를 필터링하도록 구성되는, 오디오 신호 디코더.
  6. 청구항 4에 있어서,
    상기 오디오 신호 디코더는 상기 앨리어싱-소거 합성 신호를 제공하기 위해 상기 앨리어싱-소거 자극 필터(964)의 메모리 값들을 제로(0)로 초기화하고, 상기 앨리어싱-소거 자극 신호의 M개의 샘플들을 상기 앨리어싱-소거 자극 필터(964)에 공급하고, 상기 앨리어싱-소거 합성 신호(964a)의 대응하는 비제로-입력 응답 샘플들을 획득하고, 상기 앨리어싱-소거 합성 신호의 다수의 제로-입력 응답 샘플들을 추가적으로 획득하도록 구성되며;
    상기 조합기는 상기 비제로-입력 응답 샘플들 및 상기 제로-입력 응답 샘플들과 상기 오디오 콘텐츠의 상기 시간-도메인 표현(940a)을 조합하여, 상기 ACELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분으로부터 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분으로의 전환 시에 앨리어싱-감소된 시간-도메인 신호를 획득하도록 구성되는, 오디오 신호 디코더.
  7. 청구항 4에 있어서,
    상기 오디오 신호 디코더는 상기 변환-코딩된-여기-선형-예측-도메인 모드를 이용하여 획득되는 상기 오디오 콘텐츠의 다음 부분의 시간-도메인 표현(940; 1050a)과 상기 ACELP 모드를 이용하여 획득되는 상기 시간-도메인 표현의 적어도 부분의 윈도잉 및 폴딩된 버전(973a; 1060)을 조합하여, 적어도 부분적으로 앨리어싱을 소거하도록 구성되는, 오디오 신호 디코더.
  8. 청구항 4에 있어서,
    상기 오디오 신호 디코더는 상기 변환-코딩된-여기-선형-예측-도메인 모드를 이용하여 획득되는 상기 오디오 콘텐츠의 다음 부분의 시간-도메인 표현(940a; 1058)과 ACELP 브랜치의 상기 합성 필터의 제로-입력 응답의 윈도잉된 버전(976a; 1062)을 조합하여, 적어도 부분적으로 앨리어싱을 소거하도록 구성되는, 오디오 신호 디코더.
  9. 청구항 4에 있어서,
    상기 오디오 신호 디코더는 랩핑된(lapped) 주파수-도메인-대-시간-도메인-변환을 이용하는 변환-코딩된-여기-선형-예측-도메인 모드, 랩핑된 주파수-도메인-대-시간-도메인-변환을 이용하는 주파수-도메인 모드, 및 대수-코드-여기된-선형-예측 모드 사이에서 스위칭하도록 구성되고,
    상기 오디오 신호 디코더는 상기 오디오 콘텐츠의 다음 중복 부분들의 시간-도메인 샘플들 사이에 중복-및-추가 동작을 수행함으로써 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분과 상기 주파수-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분 사이의 전환에서 적어도 부분적으로 앨리어싱을 소거하도록 구성되며;
    상기 오디오 신호 디코더는 상기 앨리어싱-소거 합성 신호(964a)를 이용하여 상기 변환-코딩된-여기-선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분과 상기 대수-코드-여기된-선형-예측 모드로 인코딩되는 상기 오디오 콘텐츠의 부분 사이의 전환에서 적어도 부분적으로 앨리어싱을 소거하도록 구성되는, 오디오 신호 디코더.
  10. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 상기 변환 도메인 경로(930)의 상기 제 1 주파수-도메인-대-시간-도메인 변환기(946)에 의해 제공되는 시간-도메인 표현(946a)의 이득 스케일링(947) 및, 상기 앨리어싱-소거 자극 신호(963a) 또는 상기 앨리어싱-소거 합성 신호(964a)의 이득 스케일링(961)에 공통의 이득 값(g)을 적용하도록 구성되는, 오디오 신호 디코더.
  11. 청구항 1에 있어서,
    상기 오디오 신호 디코더는, 선형-예측-도메인 매개변수들의 적어도 상기 서브세트에 따라 수행되는 상기 스펙트럼 형상화 이외에, 스펙트럼 계수들의 상기 제 1 세트의 적어도 서브세트에 스펙트럼 디쉐이핑(deshaping)(944)을 적용하도록 구성되며,
    상기 오디오 신호 디코더는 상기 앨리어싱-소거 자극 신호(963a)가 도출되는 앨리어싱-소거 스펙트럼 계수들의 세트의 적어도 서브세트에 상기 스펙트럼 디쉐이핑(962)을 적용하도록 구성되는, 오디오 신호 디코더.
  12. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 상기 앨리어싱-소거 자극 신호를 나타내는 스펙트럼 계수들(960a)의 세트에 따라 상기 앨리어싱-소거 자극 신호(963a)의 시간-도메인 표현을 획득하도록 구성되는 제 2 주파수-도메인-대-시간-도메인 변환기(963)를 포함하며,
    상기 제 1 주파수-도메인-대-시간-도메인 변환기는 시간-도메인 앨리어싱을 포함하는 랩핑된 변환을 수행하도록 구성되고, 상기 제 2 주파수-도메인-대-시간-도메인 변환기는 비랩핑된 변환을 수행하도록 구성되는, 오디오 신호 디코더.
  13. 청구항 1에 있어서,
    상기 오디오 신호 디코더는 상기 앨리어싱-소거 자극 신호의 필터링을 조정하기 위해 이용되는 동일한 선형-예측-도메인 매개변수들에 따라 스펙트럼 계수들의 상기 제 1 세트에 상기 스펙트럼 형상화를 적용하도록, 오디오 신호 디코더.
  14. 오디오 콘텐츠의 입력 표현(110; 810)에 기초하여 스펙트럼 계수들의 제 1 세트(112a; 852), 앨리어싱-소거 자극 신호(112c; 856)의 표현 및 다수의 선형-예측-도메인 매개변수들(112b; 854)을 포함하는 상기 오디오 콘텐츠의 인코딩된 표현(112; 812)을 제공하기 위한 오디오 신호 인코더(100; 800)에 있어서,
    상기 오디오 콘텐츠의 주파수-도메인 표현(112; 861)을 획득하기 위해 상기 오디오 콘텐츠의 상기 입력 표현을 처리하도록 구성되는 시간-도메인-대-주파수-도메인 변환기(120; 860);
    상기 오디오 콘텐츠의 스펙트럼-형상화된 주파수-도메인 표현(132; 867)을 획득하기 위해 상기 선형-예측-도메인으로 인코딩되는 상기 오디오 콘텐츠의 부분에 대한 선형-예측-도메인 매개변수들(140; 863)의 세트에 따라 상기 오디오 콘텐츠의 주파수-도메인 표현 또는 이의 사전 처리된 버전에 스펙트럼 형상화를 적용하도록 구성되는 스펙트럼 프로세서(130; 866); 및
    상기 선형-예측-도메인 매개변수들의 적어도 서브세트에 따른 상기 앨리어싱-소거 자극 신호의 필터링이 오디오 신호 디코더에서 앨리어싱 아티팩트(artifact)들을 소거하기 위해 앨리어싱-소거 합성 신호를 생성하도록, 앨리어싱-소거 자극 신호의 표현(112c; 856)을 제공하도록 구성되는 앨리어싱-소거 정보 제공자(150, 870, 874, 875, 876)를 포함하는, 오디오 신호 인코더.
  15. 오디오 콘텐츠의 인코딩된 표현에 기초하여 상기 오디오 콘텐츠의 디코딩된 표현을 제공하기 위한 방법에 있어서,
    스펙트럼 계수들의 제 1 세트, 앨리어싱-소거 자극 신호의 표현 및 다수의 선형-예측-도메인 매개변수들에 기초하여 변환 도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분의 시간-도메인 표현을 획득하는 단계를 포함하는데,
    스펙트럼 계수들의 상기 제 1 세트의 스펙트럼 형상화된 버전을 획득하기 위해 상기 선형-예측-도메인 매개변수들의 적어도 서브세트에 따라 스펙트럼 형상화가 스펙트럼 계수들의 상기 제 1 세트에 공급되고,
    스펙트럼 계수들의 상기 제 1 세트의 상기 스펙트럼 형상화된 버전에 기초하여 상기 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 주파수-도메인-대-시간-도메인-변환이 적용되며,
    상기 앨리어싱-소거 자극 신호로부터 앨리어싱-소거 합성 신호를 도출하도록 상기 선형-예측-도메인 매개변수들의 적어도 서브세트에 따라 상기 앨리어싱-소거 자극 신호가 필터링되며, 그리고
    앨리어싱-감소된 시간-도메인 신호를 획득하도록 상기 오디오 콘텐츠의 상기 시간-도메인 표현은 상기 앨리어싱-소거 합성 신호 또는 이의 사후-처리된 버전과 조합되는, 오디오 콘텐츠의 디코딩된 표현을 제공하기 위한 방법.
  16. 오디오 콘텐츠의 입력 표현에 기초하여 스펙트럼 계수들의 제 1 세트, 앨리어싱-소거 자극 신호의 표현 및 다수의 선형-예측-도메인 매개변수들을 포함하는 상기 오디오 콘텐츠의 인코딩된 표현을 제공하기 위한 방법에 있어서,
    상기 오디오 콘텐츠의 주파수-도메인 표현을 획득하기 위해 상기 오디오 콘텐츠의 상기 입력 표현을 처리하도록 시간-도메인-대-주파수-도메인 변환을 수행하는 단계;
    상기 오디오 콘텐츠의 스펙트럼-형상화된 주파수-도메인 표현을 획득하기 위해, 상기 선형-예측-도메인으로 인코딩되는 상기 오디오 콘텐츠의 부분에 대한 선형-예측-도메인 매개변수들의 세트에 따라, 상기 오디오 콘텐츠의 상기 주파수-도메인 표현 또는 이의 사전 처리된 버전에 스펙트럼 형상화를 적용하는 단계; 및
    상기 선형-예측-도메인 매개변수들의 적어도 서브세트에 따른 상기 앨리어싱-소거 자극 신호의 필터링이 오디오 신호 디코더에서 앨리어싱 아티팩트들을 소거하기 위해 앨리어싱-소거 합성 신호를 생성하도록, 앨리어싱-소거 자극 신호의 표현을 제공하는 단계를 포함하는, 오디오 콘텐츠의 인코딩된 표현을 제공하기 위한 방법.
  17. 컴퓨터에서 실행될 때 청구항 15 또는 16에 따른 방법을 수행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터-판독가능 저장 매체.
KR1020127012548A 2009-10-20 2010-10-19 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 KR101411759B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25346809P 2009-10-20 2009-10-20
US61/253,468 2009-10-20
PCT/EP2010/065752 WO2011048117A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation

Publications (2)

Publication Number Publication Date
KR20120128123A KR20120128123A (ko) 2012-11-26
KR101411759B1 true KR101411759B1 (ko) 2014-06-25

Family

ID=43447730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127012548A KR101411759B1 (ko) 2009-10-20 2010-10-19 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법

Country Status (15)

Country Link
US (1) US8484038B2 (ko)
EP (3) EP4358082A1 (ko)
JP (1) JP5247937B2 (ko)
KR (1) KR101411759B1 (ko)
CN (1) CN102884574B (ko)
AR (1) AR078704A1 (ko)
AU (1) AU2010309838B2 (ko)
BR (1) BR112012009447B1 (ko)
CA (1) CA2778382C (ko)
MX (1) MX2012004648A (ko)
MY (1) MY166169A (ko)
RU (1) RU2591011C2 (ko)
TW (1) TWI430263B (ko)
WO (1) WO2011048117A1 (ko)
ZA (1) ZA201203608B (ko)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CA2871498C (en) * 2008-07-11 2017-10-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
WO2010003663A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
EP3352168B1 (en) * 2009-06-23 2020-09-16 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP3998606B8 (en) 2009-10-21 2022-12-07 Dolby International AB Oversampling in a combined transposer filter bank
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
IL295473B2 (en) * 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
RU2562384C2 (ru) * 2010-10-06 2015-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac)
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
EA030776B9 (ru) 2011-03-28 2019-01-31 Долби Лабораторис Лайсэнзин Корпорейшн Преобразование пониженной сложности для канала низкочастотных эффектов
TWI470622B (zh) * 2012-03-19 2015-01-21 Dolby Lab Licensing Corp 用於低頻效應頻道降低複雜度之轉換
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
EP2936486B1 (en) * 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CN103928029B (zh) 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
WO2014118152A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
CA2899542C (en) * 2013-01-29 2020-08-04 Guillaume Fuchs Noise filling without side information for celp-like coders
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CN111179954B (zh) * 2013-03-04 2024-03-12 声代Evs有限公司 用于降低时域解码器中的量化噪声的装置和方法
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
WO2014202770A1 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN105556600B (zh) 2013-08-23 2019-11-26 弗劳恩霍夫应用研究促进协会 用于混迭误差信号来处理音频信号的装置及方法
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
ES2716652T3 (es) * 2013-11-13 2019-06-13 Fraunhofer Ges Forschung Codificador para la codificación de una señal de audio, sistema de transmisión de audio y procedimiento para la determinación de valores de corrección
EP2887350B1 (en) 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
AU2015258241B2 (en) * 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
EP3201918B1 (en) * 2014-10-02 2018-12-12 Dolby International AB Decoding method and decoder for dialog enhancement
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
WO2017050398A1 (en) 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
JP6804528B2 (ja) * 2015-09-25 2020-12-23 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
CN111210831B (zh) * 2018-11-22 2024-06-04 广州广晟数码技术有限公司 基于频谱拉伸的带宽扩展音频编解码方法及装置
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN113574889B (zh) 2019-03-14 2024-01-12 北京字节跳动网络技术有限公司 环路整形信息的信令和语法
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110297357B (zh) 2019-06-27 2021-04-09 厦门天马微电子有限公司 一种曲面背光模组的制备方法、曲面背光模组及显示装置
US11488613B2 (en) * 2019-11-13 2022-11-01 Electronics And Telecommunications Research Institute Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method
KR20210158108A (ko) 2020-06-23 2021-12-30 한국전자통신연구원 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20220117019A (ko) 2021-02-16 2022-08-23 한국전자통신연구원 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 학습 모델의 트레이닝 방법 및 이를 수행하는 부호화기 및 복호화기
CN115050377A (zh) * 2021-02-26 2022-09-13 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质
CN117977635B (zh) * 2024-03-27 2024-06-11 西安热工研究院有限公司 熔盐耦合火电机组的调频方法、装置、电子设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
JP4390803B2 (ja) * 2003-05-01 2009-12-24 ノキア コーポレイション 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
EP1798724B1 (en) * 2004-11-05 2014-06-18 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
CA2574468C (en) * 2005-04-28 2014-01-14 Siemens Aktiengesellschaft Noise suppression process and device
RU2351024C2 (ru) * 2005-04-28 2009-03-27 Сименс Акциенгезелльшафт Способ и устройство для подавления шумов
KR101016224B1 (ko) * 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
CA2691993C (en) * 2007-06-11 2015-01-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3352168B1 (en) * 2009-06-23 2020-09-16 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRUNO BESSETTE ET AL, " Alternatives for windowing in USAC", MPEG MEETING, JUNE 2009 *
BRUNO BESSETTE ET AL, "Alternatives for windowing in USAC", MPEG MEETING, JUNE 2009 *

Also Published As

Publication number Publication date
MX2012004648A (es) 2012-05-29
CN102884574B (zh) 2015-10-14
JP5247937B2 (ja) 2013-07-24
WO2011048117A1 (en) 2011-04-28
RU2012119260A (ru) 2013-11-20
AR078704A1 (es) 2011-11-30
EP4358082A1 (en) 2024-04-24
KR20120128123A (ko) 2012-11-26
US8484038B2 (en) 2013-07-09
US20120271644A1 (en) 2012-10-25
EP4362014A1 (en) 2024-05-01
ZA201203608B (en) 2013-01-30
EP2491556B1 (en) 2024-04-10
BR112012009447A2 (pt) 2020-12-01
AU2010309838A1 (en) 2012-05-31
BR112012009447B1 (pt) 2021-10-13
JP2013508765A (ja) 2013-03-07
CN102884574A (zh) 2013-01-16
MY166169A (en) 2018-06-07
TWI430263B (zh) 2014-03-11
EP2491556C0 (en) 2024-04-10
EP2491556A1 (en) 2012-08-29
TW201129970A (en) 2011-09-01
CA2778382C (en) 2016-01-05
RU2591011C2 (ru) 2016-07-10
AU2010309838B2 (en) 2014-05-08
CA2778382A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
KR101411759B1 (ko) 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
US11238874B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
KR101414305B1 (ko) 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램
JP5555707B2 (ja) マルチ分解能切替型のオーディオ符号化及び復号化スキーム
JP5678071B2 (ja) 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
US9218817B2 (en) Low-delay sound-encoding alternating between predictive encoding and transform encoding
US9047859B2 (en) Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
EP2645367B1 (en) Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180531

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 6