KR20090074070A - 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치 - Google Patents

오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치 Download PDF

Info

Publication number
KR20090074070A
KR20090074070A KR1020097009018A KR20097009018A KR20090074070A KR 20090074070 A KR20090074070 A KR 20090074070A KR 1020097009018 A KR1020097009018 A KR 1020097009018A KR 20097009018 A KR20097009018 A KR 20097009018A KR 20090074070 A KR20090074070 A KR 20090074070A
Authority
KR
South Korea
Prior art keywords
signal
encoder
domain
transform
input signal
Prior art date
Application number
KR1020097009018A
Other languages
English (en)
Other versions
KR101186133B1 (ko
Inventor
벤카테시 크리시난
비베크 라젠드란
아난타파드마나반 에이 칸드하다이
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20090074070A publication Critical patent/KR20090074070A/ko
Application granted granted Critical
Publication of KR101186133B1 publication Critical patent/KR101186133B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

입력 신호를 효율적으로 인코딩하는 기술들이 설명된다. 일 설계에서, 일반화된 인코더는, 적어도 하나의 검출기 및 다수의 인코더들에 기초하여 입력 신호 (예를 들어, 오디오 신호) 를 인코딩한다. 적어도 하나의 검출기는, 신호 활동 검출기, 잡음-유사 신호 검출기, 희소성 검출기, 일부 다른 검출기, 또는 이들의 조합을 포함할 수도 있다. 다수의 인코더들은, 사일런스 인코더, 잡음-유사 신호 인코더, 시간-영역 인코더, 변환-영역 인코더, 일부 다른 인코더, 또는 이들의 조합을 포함할 수도 있다. 입력 신호의 특성들은, 적어도 하나의 검출기에 기초하여 결정될 수도 있다. 입력 신호의 특성들에 기초하여 다수의 인코더들 중에서 인코더가 선택될 수도 있다. 입력 신호는 선택된 인코더에 기초하여 인코딩될 수도 있다. 입력 신호는, 프레임들의 시퀀스를 포함할 수도 있고, 각각의 프레임에 대해 검출 및 인코딩을 수행할 수도 있다.
잡음-유사 검출기, 시간-영역 인코더, 변환-영역 인코더, 메모리, 프로세서

Description

오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNALS}
본원은, 2006년 10월 10일자로 출원된 발명의 명칭이 "A FRAMEWORK FOR ENCODING GENERALIZED AUDIO SIGNALS" 인 미국 가출원번호 제60/828,816호, 및 2007년 6월 8일자로 출원된 발명의 명칭이 "METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNALS" 인 미국 출원번호 제60/942,984호에 대해 우선권을 주장하며, 이들 모두는, 본원의 양수인에게 양도되고 여기에 참조에 의해 포함된다.
배경
분야
본 개시물은 일반적으로 통신에 관한 것으로, 더 상세하게는 오디오 신호들을 인코딩 및 디코딩하는 기술들에 관한 것이다.
배경
오디오 인코더들 및 디코더들이 무선 통신, VoIP (Voice-over-Internet Protocol), 멀티미디어, 디지털 오디오 등과 같은 다양한 애플리케이션용으로 널리 사용된다. 오디오 인코더는, 입력 비트 레이트로 오디오 신호를 수신하고, 그 오디오 신호를 코딩 방식에 기초하여 인코딩하며, 입력 비트 레이트보다 통상적으로 더 낮은 (때로는 훨씬 더 낮은) 출력 비트 레이트로 코딩된 신호를 생성한다. 이것은 코딩된 신호가 보다 소수의 리소스들을 이용하여 전송 또는 저장되는 것을 허용한다.
오디오 인코더는, 오디오 신호의 일정한 추정된 특성들에 기초하여 설계될 수도 있고, 오디오 신호 내의 정보를 나타내는데 가능한 한 소수의 비트들을 이용하기 위하여 이들 신호 특성들을 이용할 수도 있다. 그 때, 오디오 인코더의 유효성은, 오디오 인코더가 설계되는 추정된 특성들에 실제 신호가 얼마나 밀접하게 매칭하는지에 의존할 수도 있다. 오디오 신호가, 오디오 인코더가 설계되는 특성들과는 상이한 특성들을 갖는다면, 오디오 인코더의 성능은 상대적으로 열악할 수도 있다.
개요
입력 신호를 효율적으로 인코딩하고 코딩된 신호를 디코딩하는 기술들이 여기에 설명된다. 일 설계에서, 일반화된 인코더는, 적어도 하나의 검출기 및 다수의 인코더들에 기초하여 입력 신호 (예를 들어, 오디오 신호) 를 인코딩할 수도 있다. 적어도 하나의 검출기는, 신호 활동 검출기, 잡음-유사 (noise-like) 신호 검출기, 희소성 검출기 (sparseness detector), 일부 다른 검출기, 또는 이들의 조합을 포함할 수도 있다. 다수의 인코더들은, 사일런스 인코더 (silence encoder), 잡음-유사 신호 인코더, 시간-영역 인코더, 적어도 하나의 변환-영역 인코더, 일부 다른 인코더, 또는 이들의 조합을 포함할 수도 있다. 적어도 하나의 검출기에 기초하여 입력 신호의 특성들이 결정될 수도 있다. 입력 신호의 특성들에 기초하여 다수의 인코더들 중에서 인코더가 선택될 수도 있다. 그 후, 선택된 인코더에 기초하여 입력 신호가 인코딩될 수도 있다. 입력 신호는, 프레임들의 시퀀스를 포함할 수도 있다. 각각의 프레임에 대해, 그 프레임의 신호 특성들이 결정될 수도 있고, 그 특성들에 기초하여 프레임에 대해 인코더가 선택될 수도 있으며, 선택된 인코더에 기초하여 프레임이 인코딩될 수도 있다.
다른 설계에서, 일반화된 인코더는, 다수의 영역들에 대한 다수의 인코더들 및 희소성 검출기에 기초하여 입력 신호를 인코딩할 수도 있다. 다수의 영역들 각각에서의 입력 신호의 희소성이 결정될 수도 있다. 다수의 영역들에서의 입력 신호의 희소성에 기초하여 다수의 인코더들 중에서 인코더가 선택될 수도 있다. 그 후, 선택된 인코더에 기초하여 입력 신호가 인코딩될 수도 있다. 다수의 영역들은, 시간 영역 및 변환 영역을 포함할 수도 있다. 시간-영역 인코더는, 입력 신호가 변환 영역보다 시간 영역에서 더 희소한 것으로 간주되는 경우 시간 영역에서 입력 신호를 인코딩하도록 선택될 수도 있다. 변환-영역 인코더는, 입력 신호가 시간 영역보다 변환 영역에서 더 희소한 것으로 간주되는 경우 변환 영역 (예를 들어, 주파수 영역) 에서 입력 신호를 인코딩하도록 선택될 수도 있다.
또 다른 설계에서, 희소성 검출기는 제 1 영역 (예를 들어, 시간 영역) 의 제 1 신호를 변환하여 제 2 영역 (예를 들어, 변환 영역) 의 제 2 신호를 획득함으로써 희소성 검출을 수행할 수도 있다. 제 1 신호 및 제 2 신호 내의 값들/컴포넌트들의 에너지에 기초하여 제 1 파라미터 및 제 2 파라미터가 결정될 수도 있다. 또한, 제 1 신호가 더 희소하다는 사전 선언들 (prior declarations) 및 제 2 신호가 더 희소하다는 사전 선언들에 기초하여 적어도 하나의 카운트가 결정 될 수도 있다. 제 1 신호가 더 희소한지 제 2 신호가 더 희소한지는, 제 1 파라미터 및 제 2 파라미터, 및 사용된다면, 적어도 하나의 카운트에 기초하여 결정될 수도 있다.
이하, 본 개시물의 다양한 양태들 및 특징들이 더 상세히 설명된다.
도면의 간단한 설명
도 1 은, 일반화된 오디오 인코더의 블록도이다.
도 2 는, 희소성 검출기의 블록도이다.
도 3 은, 다른 희소성 검출기의 블록도이다.
도 4a 및 도 4b 는, 시간 영역 및 변환 영역에서의 음성 신호의 플롯 및 기악 신호의 플롯이다.
도 5a 및 도 5b 는, 음성 신호 및 기악 신호에 대한 시간-영역 컴팩션 팩터의 플롯 및 변환-영역 컴팩션 팩터의 플롯이다.
도 6a 및 도 6b 는, 오디오 프레임에 대해 시간-영역 인코더나 변환-영역 인코더 중 어느 하나를 선택하는 프로세스를 나타낸 도면이다.
도 7 은, 일반화된 인코더로 입력 신호를 인코딩하는 프로세스를 나타낸 도면이다.
도 8 은, 다수의 영역들에 대해 인코더들로 입력 신호를 인코딩하는 프로세스를 나타낸 도면이다.
도 9 는, 희소성 검출을 수행하는 프로세스를 나타낸 도면이다.
도 10 은, 일반화된 오디오 디코더의 블록도이다.
도 11 은, 무선 통신 디바이스의 블록도이다.
상세한 설명
다양한 유형들의 오디오 인코더들이 오디오 신호들을 인코딩하는데 이용될 수도 있다. 일부 오디오 인코더들은, 상이한 클래스들의 오디오 신호들, 이를 테면, 음성, 음악, 톤들 등을 인코딩할 수도 있다. 이들 오디오 인코더들은, 범용 오디오 인코더들로 지칭될 수도 있다. 일부 다른 오디오 인코더들은, 특정 클래스들의 오디오 신호들, 이를 테면, 음성, 음악, 배경 잡음 등을 위해 설계될 수도 있다. 이들 오디오 인코더들은, 신호 클래스-특정 오디오 인코더들, 특수화된 오디오 인코더들 등으로 지칭될 수도 있다. 일반적으로, 특정 클래스의 오디오 신호들을 위해 설계된 신호 클래스-특정 오디오 인코더는 그 클래스에서 범용 오디오 인코더보다 오디오 신호를 효율적으로 인코딩할 수도 있다. 신호 클래스-특정 오디오 인코더들은, 8Kbps (kilobits per second) 만큼 낮은 비트 레이트로 특정 클래스들의 오디오 신호들의 향상된 소스 코딩을 달성할 수도 있다.
일반화된 오디오 인코더는, 일반화된 오디오 신호들을 효율적으로 인코딩하기 위하여 일 세트의 신호 클래스-특정 오디오 인코더들을 이용할 수도 있다. 일반화된 오디오 신호들은, 상이한 클래스들에 속할 수도 있고, 및/또는 시간에 따라 클래스를 동적으로 변화시킬 수도 있다. 예를 들어, 오디오 신호는, 일부 시간 간격들에서 대개 음악을 포함하고, 일부 다른 시간 간격들에서 대개 음성을 포함하며, 일부 또 다른 시간 간격들에서 대개 잡음을 포함할 수도 있으며, 등등이다. 일반화된 오디오 인코더는, 상이한 시간 간격들에서 적절하게 선택된 상이 한 신호 클래스-특정 오디오 인코더들로 이 오디오 신호를 효율적으로 인코딩할 수도 있다. 일반화된 오디오 인코더는, 상이한 클래스들 및/또는 동적으로 변화하는 클래스들의 오디오 신호들에 대해 양호한 코딩 성능을 달성할 수도 있다.
도 1 은, 상이한 및/또는 변화하는 특성들을 가진 오디오 신호를 인코딩할 수 있는 일반화된 오디오 인코더 (100) 의 일 설계의 블록도를 나타낸다. 오디오 인코더 (100) 는, 일 세트의 검출기들 (110), 선택기 (120), 일 세트의 신호 클래스-특정 오디오 인코더들 (130), 및 멀티플렉서 (Mux; 140) 를 포함한다. 검출기들 (110) 및 선택기 (120) 는, 오디오 신호의 특성들에 기초하여 적절한 클래스-특정 오디오 인코더를 선택하는 메커니즘을 제공한다. 상이한 신호 클래스-특정 오디오 인코더들은 상이한 코딩 모드들로도 지칭될 수도 있다.
오디오 인코더 (100) 내에서, 신호 활동 검출기 (112) 가 오디오 신호에서의 활동에 대해 검출할 수도 있다. 블록 122 에서 결정된 것처럼, 신호 활동이 검출되지 않는다면, 오디오 신호는, 대개 잡음을 인코딩하는데 효율적일 수도 있는 사일런스 인코더 (132) 에 기초하여 인코딩될 수도 있다.
신호 활동이 검출된다면, 주기성/잡음-유사 신호 검출기 (114) 가 오디오 신호의 주기성 및/또는 잡음-유사 특성들에 대해 검출할 수도 있다. 오디오 신호는, 그 오디오 신호가 주기적이지 않고, 예측가능한 구조 또는 패턴을 갖지 않으며, 기본 (피치 (pitch)) 주기를 갖지 않으며, 등등인 경우, 잡음-유사 특성들을 가질 수도 있다. 예를 들어, 문자 's' 의 음은, 잡음-유사 특성들을 갖는 것으로 간주될 수도 있다. 블록 124 에서 결정된 것처럼, 오디오 신호가 잡음-유사 특성들을 갖는다면, 오디오 신호는, 잡음-유사 신호 인코더 (134) 에 기초하여 인코딩될 수도 있다. 잡음-유사 신호 인코더 (134) 는, NELP (Noise Excited Linear Prediction) 기술 및/또는 잡음-유사 특성들을 갖는 신호를 효율적으로 인코딩할 수 있는 일부 다른 코딩 기술을 구현할 수도 있다.
오디오 신호가 잡음-유사 특성들을 갖지 않는다면, 희소성 검출기 (116) 가 오디오 신호를 분석하여, 오디오 신호가 희소성을 시간 영역에서 명시하는지 하나 이상의 변환 영역들에서 명시하는지를 결정할 수도 있다. 오디오 신호는, 일 변환에 기초하여 시간 영역에서 다른 영역 (예를 들어, 주파수 영역) 으로 변환될 수도 있으며, 변환 영역은, 오디오 신호가 변환되는 영역을 지칭한다. 오디오 신호는, 상이한 유형들의 변환에 기초하여 상이한 변환 영역들로 변환될 수도 있다. 희소성은, 소수의 비트들로 정보를 나타내는 능력을 지칭한다. 오디오 신호는, 소정의 영역의 신호에 대한 단지 소수의 값들 또는 컴포넌트들만이 그 신호의 에너지 또는 정보의 대부분을 포함하는 경우에 그러한 영역에서 희소한 것으로 간주될 수도 있다.
블록 126 에서 결정된 것처럼, 오디오 신호가 시간 영역에서 희소하다면, 오디오 신호는, 시간-영역 인코더 (136) 에 기초하여 인코딩될 수도 있다. 시간-영역 인코더 (136) 는, CELP (Code Excited Linear Prediction) 기술 및/또는 시간 영역에서 희소한 신호를 효율적으로 인코딩할 수 있는 일부 다른 코딩 기술을 구현할 수도 있다. 시간-영역 인코더 (136) 는, 오디오 신호의 장기 예측 및 단기 예측의 잔류물 (residual) 들을 결정 및 인코딩할 수도 있다. 그렇지 않고, 오 디오 신호가 변환 영역들 중 하나에서 희소하고, 및/또는 그 변환 영역들 중 하나에서의 코딩 효율성이 시간 영역 및 다른 변환 영역들보다 더 좋다면, 오디오 신호는 변환-영역 인코더 (138) 에 기초하여 인코딩될 수도 있다. 변환-영역 인코더 (138) 는 변환 영역 표시가 희소한 신호를 변환 영역에서 인코딩하는 인코더이다. 변환-영역 인코더 (138) 는, MDCT (Modified Discrete Cosine Transform), 일 세트의 필터 뱅크들, 정현곡선 모델링, 및/또는 신호 변환의 희소 계수들을 효율적으로 나타낼 수 있는 일부 다른 코딩 기술을 구현할 수도 있다.
멀티플렉서 (140) 는, 인코더들 (132, 134, 136, 및 138) 의 출력들을 수신할 수도 있고, 일 인코더의 출력을 코딩된 신호로서 제공할 수도 있다. 인코더들 (132, 134, 136, 및 138) 중 상이한 인코더들은, 오디오 신호의 특성들에 기초하여 상이한 시간 간격들에서 선택될 수도 있다.
도 1 은, 일반화된 오디오 인코더 (100) 의 특정 설계를 나타낸다. 일반적으로, 일반화된 오디오 인코더는, 오디오 신호의 임의의 특성들에 대해 검출하는데 이용될 수도 있는 임의의 개수의 검출기들 및 임의의 유형의 검출기를 포함할 수도 있다. 또한, 일반화된 오디오 인코더는, 오디오 신호를 인코딩하는데 이용될 수도 있는 임의의 개수의 인코더들 및 임의의 유형의 인코더를 포함할 수도 있다. 일부 예시적인 검출기들 및 인코더들이 위에 제공되어 있고 당업자에게 공지되어 있다. 검출기들 및 인코더들은 다양한 방식으로 배열될 수도 있다. 도 1 은, 일 예시적인 세트의 검출기들 및 인코더들을 일 예시적인 배열로 나타낸다. 일반화된 오디오 인코더는, 도 1 에 나타낸 것보다 적은 인코더들 및 검 출기들, 도 1 에 나타낸 것보다 많은 인코더들 및 검출기들, 및/또는 도 1 에 나타낸 것과는 상이한 인코더들 및 검출기들을 포함할 수도 있다.
오디오 신호는, 프레임 단위로 프로세싱될 수도 있다. 프레임은, 소정의 시간 간격, 예를 들어, 10ms (milliseconds), 20ms 등에서 수집된 데이터를 포함할 수도 있다. 또한, 프레임은, 소정의 샘플 레이트에서 소정 개수의 샘플들을 포함할 수도 있다. 또한, 프레임은 패킷, 데이터 블록, 데이터 유닛 등으로 지칭될 수도 있다.
일반화된 오디오 인코더 (100) 는, 도 1 에 나타낸 것처럼 각각의 프레임을 프로세싱할 수도 있다. 각각의 프레임에 대해, 신호 활동 검출기 (112) 는, 그 프레임이 사일런스를 포함하는지 활동을 포함하는지를 결정할 수도 있다. 사일런스 프레임이 검출된다면, 사일런스 인코더 (132) 가 프레임을 인코딩하고 코딩된 프레임을 제공할 수도 있다. 그렇지 않다면, 주기성/잡음-유사 신호 검출기 (114) 가, 프레임이 잡음-유사 신호를 포함하는지 여부를 결정할 수도 있으며, 만약 프레임이 잡음-유사 신호를 포함한다면, 잡음-유사 신호 인코더 (134) 가 프레임을 인코딩할 수도 있다. 그렇지 않다면, 시간-영역 인코더 (136) 나 변환-영역 인코더 (138) 중 어느 하나가 검출기 (116) 에 의한 프레임에서의 희소성의 검출에 기초하여 프레임을 인코딩할 수도 있다. 일반화된 오디오 인코더 (100) 는, 상이한 인코더들 사이에서 매끄러운 전이를 가능하게 하면서 코딩 효율성을 최대화 (예를 들어, 낮은 비트 레이트로 양호한 재구성 품질을 달성) 하기 위하여 각각의 프레임에 대해 적절한 인코더를 선택할 수도 있다.
이하의 설명은 시간 영역과 변환 영역 사이에서의 선택을 가능하게 하는 희소성 검출기들을 설명하지만, 이하의 설계는, 시간 영역 및 임의의 개수의 변환 영역들 중에서 하나의 영역을 선택하는 것으로 일반화될 수도 있다. 마찬가지로, 일반화된 오디오 코더들에서의 인코더들은, 임의의 개수 및 임의의 유형의 변환-영역 인코더들을 포함할 수도 있는데, 이들 중 하나가 신호 또는 그 신호의 일 프레임을 인코딩하도록 선택될 수도 있다.
도 1 에 나타낸 설계에서, 희소성 검출기 (116) 는, 오디오 신호가 시간 영역에서 희소한지 변환 영역에서 희소한지를 결정할 수도 있다. 이 결정의 결과는, 그 오디오 신호에 대해 시간-영역 인코더 (136) 나 변환-영역 인코더 (138) 를 선택하는데 이용될 수도 있다. 희소 정보가 보다 소수의 비트들로 나타내질 수도 있기 때문에, 희소성 기준이 오디오 신호에 대해 효율적인 인코더를 선택하는데 이용될 수도 있다. 희소성은, 다양한 방식으로 검출될 수도 있다.
도 2 는, 희소성 검출기 (116a) 의 블록도를 나타낸 것으로, 이는 도 1 에서의 희소성 검출기 (116) 의 일 설계이다. 이 설계에서, 희소성 검출기 (116a) 는, 오디오 프레임을 수신하고, 그 오디오 프레임이 시간 영역에서 더 희소한지 변환 영역에서 더 희소한지를 결정한다.
도 2 에 나타낸 설계에서, 유닛 (210) 은, 현재의 오디오 프레임의 부근에서 선형 예측 코딩 (LPC; Linear Predictive Coding) 분석을 수행하고, 잔류물들의 프레임을 제공할 수도 있다. 통상적으로, 상기의 부근은 현재의 오디오 프레임을 포함하고, 과거의 프레임 및/또는 미래의 프레임을 더 포함할 수도 있다. 예를 들어, 유닛 (210) 은, 단지 현재의 프레임, 또는 현재의 프레임 및 하나 이상의 과거의 프레임들, 또는 현재의 프레임 및 하나 이상의 미래의 프레임들, 또는 현재의 프레임, 하나 이상의 과거의 프레임들, 및 하나 이상의 미래의 프레임들 등 내의 샘플들에 기초하여 예측된 프레임을 유도할 수도 있다. 예측된 프레임은 또한, 상이한 프레임들 내의 동일하거나 상이한 개수들의 샘플들, 예를 들어, 현재의 프레임으로부터의 160 개의 샘플들, 다음 프레임으로부터의 80 개의 샘플들 등에 기초하여 유도될 수도 있다. 임의의 경우에, 유닛 (210) 은, 현재의 오디오 프레임과 예측된 프레임 사이의 차이를 계산하여 현재의 프레임과 예측된 프레임 사이의 차이들을 포함하는 잔류 프레임 (residual frame) 을 획득할 수도 있다. 이 차이들은 잔류물들, 예측 에러들 등으로도 지칭된다.
현재의 오디오 프레임은, K 개의 샘플들을 포함할 수도 있고, K 개의 잔류물들을 포함하는 잔류 프레임을 획득하도록 유닛 (210) 에 의해 프로세싱될 수도 있으며, 여기서 K 는 임의의 정수일 수도 있다. 유닛 (220) 은, 잔류 프레임을 (예를 들어, 도 1 에서의 변환-영역 인코더 (138) 에 의해 이용된 것과 동일한 변환에 기초하여) 변환하여, K 개의 계수들을 포함하는 변환된 프레임을 획득할 수도 있다.
유닛 (212) 은, 다음과 같이, 잔류 프레임 내의 각각의 잔류물의 제곱 크기 또는 에너지를 계산할 수도 있으며 :
Figure 112009026354148-PCT00001
여기서,
Figure 112009026354148-PCT00002
는, 잔류 프레임 내의 k-번째 복소값 잔류물이고,
Figure 112009026354148-PCT00003
는, k-번째 잔류물의 제곱 크기 또는 에너지이다.
유닛 (212) 은, 잔류물들을 필터링한 후 필터링된 잔류물들의 에너지를 계산할 수도 있다. 또한, 유닛 (212) 은, 잔류물 에너지 값들을 평활화 및/또는 재-샘플링할 수도 있다. 임의의 경우에, 유닛 (212) 은, 시간 영역에서 N 개의 잔류물 에너지 값들을 제공할 수도 있으며, 여기서 N≤K 이다.
유닛 (214) 은, 다음과 같이, N 개의 잔류물 에너지 값들을 내림차순으로 정렬할 수도 있으며 :
Figure 112009026354148-PCT00004
여기서, 유닛 (212) 으로부터의 N 개의
Figure 112009026354148-PCT00005
값들 중에서, X 1 은 최대의
Figure 112009026354148-PCT00006
값이고, X 2 는 두번째로 최대의
Figure 112009026354148-PCT00007
값이며, ..., X N 은 최소의
Figure 112009026354148-PCT00008
값이다.
유닛 (216) 은, N 개의 잔류물 에너지 값들을 합하여 총 잔류물 에너지를 획득할 수도 있다. 또한, 유닛 (216) 은, 다음과 같이, 축적된 잔류물 에너지가 총 잔류물 에너지의 소정 비율을 초과할 때까지, N 개의 정렬된 잔류물 에너지 값들을 한번에 하나의 에너지 값씩 축적할 수도 있으며 :
Figure 112009026354148-PCT00009
여기서,
Figure 112009026354148-PCT00010
는, 모든 N 개의 잔류물 에너지 값들의 총 에너지이고,
Figure 112009026354148-PCT00011
은, 소정의 비율, 예를 들어,
Figure 112009026354148-PCT00012
= 70 또는 일부 다른 값이며,
Figure 112009026354148-PCT00013
는, 총 잔류물 에너지의
Figure 112009026354148-PCT00014
% 를 초과하는 축적된 에너지를 갖는 잔류물 에너지 값들의 최소 개수이다.
유닛 (222) 은, 다음과 같이, 변환된 프레임 내의 각각의 계수의 제곱 크기 또는 에너지를 계산할 수도 있으며 :
Figure 112009026354148-PCT00015
여기서,
Figure 112009026354148-PCT00016
는, 변환된 프레임 내의 k-번째 계수이고,
Figure 112009026354148-PCT00017
은, k-번째 계수의 제곱 크기 또는 에너지이다.
유닛 (222) 은, 유닛 (212) 과 동일한 방식으로 변환된 프레임 내의 계수들에 대해 작용할 수도 있다. 예를 들어, 유닛 (222) 은, 계수 에너지 값들을 평활화 및/또는 재-샘플링할 수도 있다. 유닛 (222) 은, N 개의 계수 에너지 값들을 제공할 수도 있다.
유닛 (224) 은, 다음과 같이, N 개의 계수 에너지 값들을 내림차순으로 정렬 할 수도 있으며 :
Figure 112009026354148-PCT00018
여기서, 유닛 (222) 으로부터의 N 개의
Figure 112009026354148-PCT00019
값들 중에서, Y 1 은 최대의
Figure 112009026354148-PCT00020
값이고, Y 2 는 두번째로 최대의
Figure 112009026354148-PCT00021
값이며, ..., Y N 은 최소의
Figure 112009026354148-PCT00022
값이다.
유닛 (226) 은, N 개의 계수 에너지 값들을 합하여 총 계수 에너지를 획득할 수도 있다. 또한, 유닛 (226) 은, 다음과 같이, 축적된 계수 에너지가 총 계수 에너지의 소정의 비율을 초과할 때까지, N 개의 정렬된 계수 에너지 값들을 한번에 하나의 에너지 값씩 축적할 수도 있으며 :
Figure 112009026354148-PCT00023
여기서,
Figure 112009026354148-PCT00024
은, 모든 N 개의 계수 에너지 값들의 총 에너지이며,
Figure 112009026354148-PCT00025
은, 총 계수 에너지의
Figure 112009026354148-PCT00026
% 를 초과하는 축적된 에너지를 갖는 계수 에너지 값들의 최소 개수이다.
유닛들 (218 및 228) 은, 다음과 같이, 시간 영역에 대한 컴팩션 팩터 및 변환 영역에 대한 컴팩션 팩터를 각각 계산할 수도 있으며 :
Figure 112009026354148-PCT00027
여기서,
Figure 112009026354148-PCT00028
는 시간 영역에 대한 컴팩션 팩터이고,
Figure 112009026354148-PCT00029
는 변환 영역에 대한 컴팩션 팩터이다.
Figure 112009026354148-PCT00030
는 상위 i 개의 잔류물 에너지 값들의 총 에너지를 나타낸다.
Figure 112009026354148-PCT00031
는 시간 영역에 대한 누적 에너지 함수인 것으로 간주될 수도 있다.
Figure 112009026354148-PCT00032
는 상위 i 개의 계수 에너지 값들의 총 에너지를 나타낸다.
Figure 112009026354148-PCT00033
는 변환 영역에 대한 누적 에너지 함수인 것으로 간주될 수도 있다.
유닛 (238) 은, 다음과 같이, 컴팩션 팩터들에 기초하여 델타 파라미터 D(i) 를 계산할 수도 있다 :
Figure 112009026354148-PCT00034
결정 모듈 (240) 은, 유닛들 (216 및 226) 각각으로부터 파라미터들 (N T N M ) 을, 유닛 (238) 으로부터 델타 파라미터 D(i) 를, 그리고 가능하다면 다른 정보 를 수신할 수도 있다. 결정 모듈 (240) 은, N T , N M , D(i) 및/또는 다른 정보에 기초하여 현재의 프레임에 대해 시간-영역 인코더 (136) 나 변환-영역 인코더 (138) 중 어느 하나를 선택할 수도 있다.
일 설계에서, 결정 모듈 (240) 은, 다음과 같이, 현재의 프레임에 대해 시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 를 선택할 수도 있으며 :
Figure 112009026354148-PCT00035
여기서, Q 1 Q 2 는, 소정의 임계값, 예를 들어, Q 1 ≥ 0, Q 2 ≥ 0 이다.
N T 는, 시간 영역에서의 잔류 프레임의 희소성을 나타낼 수도 있으며, 더 작은 N T 값은, 더 희소한 잔류 프레임에 대응하며, 그 역 또한 마찬가지다. 유사하게, N M 은, 변환 영역에서의 변환된 프레임의 희소성을 나타낼 수도 있으며, 더 작은 N M 값은 더 희소한 변환된 프레임에 대응하며, 그 역 또한 마찬가지다. 식 (9a) 는, 잔류물들의 시간-영역 표시가 더 희소한 경우에 시간-영역 인코더 (136) 를 선택하고, 식 (9b) 는, 잔류물들의 변환-영역 표시가 더 희소한 경우에 변환-영역 인코더 (138) 를 선택한다.
식 세트 (9) 에서의 선택이 현재의 프레임에 대해 미결정될 수도 있다. 이는, 예를 들어, N T = N M , Q 1 > 0, 및/또는 Q 2 > 0 인 경우일 수도 있다. 이 경 우에는, 현재의 프레임에 대해 시간-영역 인코더 (136) 를 선택할지 변환-영역 인코더 (138) 할지를 결정하는데 D(i) 와 같은 하나 이상의 부가적인 파라미터들이 이용될 수도 있다. 예를 들어, 식 세트 (9) 만이 인코더를 선택하는데 충분하지 않다면, D(i) 가 0 보다 더 큰 경우에 변환-영역 인코더 (138) 가 선택될 수도 있고, 그렇지 않은 경우에 시간-영역 인코더 (136) 가 선택될 수도 있다.
임계값들 (Q 1 Q 2 ) 은, 다양한 효과들을 달성하는데 이용될 수도 있다. 예를 들어, 임계값들 (Q 1 Q 2 ) 은, N T N M 의 계산 시에 (만약에 있다면) 바이어스 또는 차이들을 고려하기 위해 선택될 수도 있다. 또한, 임계값들 (Q 1 Q 2 ) 은, (i) 작은 Q 1 값 및/또는 큰 Q 2 값을 이용함으로써 변환-영역 인코더 (138) 에 비해 시간-영역 인코더 (136) 를 선호하고, (ii) 작은 Q 2 값 및/또는 큰 Q 1 값을 이용함으로써 시간-영역 인코더 (136) 에 비해 변환-영역 인코더 (138) 를 선호하는데 이용될 수도 있다. 또한, 임계값들 (Q 1 및/또는 Q 2 ) 은, 인코더 (136 또는 138) 의 선택에 있어서 히스테리시스를 획득하는데 이용될 수도 있다. 예를 들어, 시간-영역 인코더 (136) 가 이전의 프레임에 대해 선택되었다면, NM 이 NT 보다 Q2 만큼 더 작은 경우에 변환-영역 인코더 (138) 가 현재의 프레임에 대해 선택될 수도 있으며, 여기서, Q2 는 인코더 (136) 에서 인코더 (138) 로 진행 할 때의 가설량이다. 유사하게, 변환-영역 인코더 (138) 가 이전의 프레임에 대해 선택되었 다면, NT 가 NM 보다 Q1 만큼 더 작은 경우에 시간-영역 인코더 (136) 가 현재의 프레임에 대해 선택될 수도 있으며, 여기서, Q1 은 인코더 (138) 에서 인코더 (136) 로 진행할 때의 가설량이다. 히스테리시스는, 신호 특성들이 충분한 양만큼 변화할 때에만 인코더를 변화시키는데 이용될 수도 있으며, 여기서, 충분한 양이란 Q1 값과 Q2 값의 적절한 선택에 의해 정의될 수도 있다.
다른 설계에서, 결정 모듈 (240) 은, 현재의 프레임 및 과거의 프레임에 대한 초기 결정들에 기초하여 현재의 프레임에 대해 시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 를 선택할 수도 있다. 각각의 프레임에서, 결정 모듈 (240) 은, 예를 들어, 상술된 것처럼, 그 프레임에 대해 시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 를 이용하도록 초기 결정을 행할 수도 있다. 그 후, 결정 모듈 (240) 은, 선택 룰에 기초하여 일 인코더에서 다른 인코더로 스위칭할 수도 있다. 예를 들어, 결정 모듈 (240) 은, 단지 Q 3 개의 가장 최근의 프레임들이 스위칭을 바라는 경우, Q 5 개의 가장 최근의 프레임들 중에서 Q 4 개가 스위칭을 바라는 경우, 등등인 경우에 다른 인코더로 스위칭할 수도 있으며, 여기서, Q 3 , Q 4 , 및 Q 5 는 적절하게 선택된 값들일 수도 있다. 결정 모듈 (240) 은 스위칭이 행해지지 않는다면 현재의 프레임에 대해 현재의 인코더를 이용할 수도 있다. 이 설계는 시간 가설을 제공할 수도 있고, 연속적인 프레임들에서 인코더들 간의 계속적인 스위칭을 방지할 수도 있다.
도 3 은, 희소성 검출기 (116b) 의 블록도를 나타낸 것으로, 이는 도 1 에서의 희소성 검출기 (116) 의 다른 설계이다. 이 설계에서, 희소성 검출기 (116b) 는, 도 2 에 대해 상술된 것처럼, 시간 영역에 대한 컴팩션 팩터 (C T (i)) 및 변환 영역에 대한 컴팩션 팩터 (C M (i)) 를 계산하도록 동작하는 유닛들 (210, 212, 214, 218, 220, 222, 224 및 228) 을 포함한다.
유닛 (330) 은, 다음과 같이, 소정값까지의 C T (i)C M (i) 의 모든 값들에 대해, C T (i)C M (i) 인 횟수, 및 C M (i)C T (i) 인 횟수를 결정할 수도 있으며 :
Figure 112009026354148-PCT00036
여기서, K T 는 시간-영역 희소성 파라미터이고,
K M 은 변환-영역 희소성 파라미터이며,
τ 은 K T K M 결정하는데 고려되는 총 에너지의 비율이다. 일 세트의 기수 (cardinality) 는 그 세트 내의 엘리먼트들의 개수이다.
식 (10a) 에서, 각각의 시간-영역 컴팩션 팩터 (C T (i)) 는, i = 1, ..., N 및 C T (i) ≤ τ 에 대해, 대응하는 변환-영역 컴팩션 팩터 (C M (i)) 와 비교된다. 비교되는 모든 시간-영역 컴팩션 팩터들에 대해, 대응하는 변환-영역 컴팩션 팩터들 이상인 시간-영역 컴팩션 팩터들의 개수는 KT 로 규정된다.
식 (10b) 에서, 각각의 변환-영역 컴팩션 팩터 (C M (i)) 는, i = 1, ..., N 및 C M (i) ≤τ 에 대해, 대응하는 시간-영역 컴팩션 팩터 (C T (i)) 와 비교된다. 비교되는 모든 변환-영역 컴팩션 팩터들에 대해, 대응하는 시간-영역 컴팩션 팩터들 이상인 변환-영역 컴팩션 팩터들의 개수는 K M 으로 규정된다.
유닛 (332) 은 다음과 같이, 파라미터들 (
Figure 112009026354148-PCT00037
T
Figure 112009026354148-PCT00038
M) 을 결정할 수도 있다 :
Figure 112009026354148-PCT00039
K T 는, C T (i)C M (i) 를 충족하거나 초과하는 횟수를 나타내고,
Figure 112009026354148-PCT00040
T 는, C T (i) > C M (i) 일 때 C T (i)C M (i) 를 초과하는 총 양을 나타낸다. K M 은, C M (i)C T (i) 를 충족하거나 초과하는 횟수를 나타내고,
Figure 112009026354148-PCT00041
M 은, C M (i) > C T (i) 일 때 C M (i)C T (i) 를 초과하는 총 양을 나타낸다.
결정 모듈 (340) 은, 유닛들 (330 및 332) 로부터 파라미터들 (K T , K M ,
Figure 112009026354148-PCT00042
T
Figure 112009026354148-PCT00043
M) 을 수신할 수도 있고, 현재의 프레임에 대해 시간-영역 인코더 (136) 나 변환-영역 인코더 (138) 중 어느 하나를 선택할 수도 있다. 결정 모듈 (340) 은, 시간-영역 이력 카운트 (H T ) 및 변환-영역 이력 카운트 (H M ) 를 유지할 수도 있다. 시간-영역 이력 카운트 (H T ) 는, 프레임이 시간 영역에서 더 희소한 것으로 간주될 때마다 증가되고 프레임이 변환 영역에서 더 희소한 것으로 간주될 때마다 감소될 수도 있다. 변환-영역 이력 카운트 (H M ) 는, 프레임이 변환 영역에서 더 희소한 것으로 간주될 때마다 증가되고 프레임이 시간 영역에서 더 희소한 것으로 간주될 때마다 감소될 수도 있다.
도 4a 는 시간 영역 및 변환 영역, 예를 들어 MDCT 영역에서의 일 예시적인 음성 신호의 플롯들을 나타낸다. 이 예에서, 음성 신호는, 시간 영역에서는 비교적 소수의 큰 값들을 갖지만, 변환 영역에서는 다수의 큰 값들을 갖는다. 이 음성 신호는, 시간 영역에서 더 희소하고, 시간-영역 인코더 (136) 에 기초하여 보다 효율적으로 인코딩될 수도 있다.
도 4b 는 시간 영역 및 변환 영역, 예를 들어 MDCT 영역에서의 일 예시적인 기악 신호의 플롯들을 나타낸다. 이 예에서, 기악 신호는, 시간 영역에서는 다수의 큰 값들을 갖지만, 변환 영역에서는 보다 소수의 큰 값들을 갖는다. 이 기악 신호는, 변환 영역에서 더 희소하고, 변환-영역 인코더 (138) 에 기초하여 보다 효율적으로 인코딩될 수도 있다.
도 5a 는, 도 4a 에 나타낸 음성 신호에 대한 시간-영역 컴팩션 팩터 (C T (i)) 의 플롯 (510) 및 변환-영역 컴팩션 팩터 (C M (i)) 의 플롯 (512) 을 나타낸다. 플롯들 (510 및 512) 은, 총 에너지의 소정 비율이 변환-영역 값들보다 더 소수의 시간-영역 값들에 의해 캡쳐링될 수도 있다는 것을 나타낸다,
도 5b 는, 도 4b 에 나타낸 기악 신호에 대한 시간-영역 컴팩션 팩터 (C T (i)) 의 플롯 (520) 및 기악 신호에 대한 변환-영역 컴팩션 팩터 (C M (i)) 의 플롯 (522) 을 나타낸다. 플롯들 (520 및 522) 은, 총 에너지의 소정 비율이 시간-영역 값들보다 더 소수의 변환-영역 값들에 의해 캡쳐링될 수도 있다는 것을 나타낸다.
도 6a 및 도 6b 는, 오디오 프레임에 대해 시간-영역 인코더 (136) 나 변환-영역 인코더 (138) 중 어느 하나를 선택하는 프로세스 (600) 의 일 설계의 흐름도를 나타낸다. 프로세스 (600) 는, 도 3 에서의 희소성 검출기 (116b) 용으로 이용될 수도 있다. 다음의 설명에서, Z T1 Z T2 는 시간-영역 이력 카운트 (H T ) 가 비교되는 임계값들이고, Z M1 , Z M2 , Z M3 은 변환-영역 이력 카운트 (H M ) 가 비교되는 임계값들이다. U T1 , U T2 U T3 은 시간-영역 인코더 (136) 가 선택될 때 H T 에 대한 증분량들이고, U M1 , U M2 U M3 은 변환-영역 인코더 (138) 가 선택될 때 H M 에 대한 증분량들이다. 증분량들은, 동일하거나 상이한 값들일 수도 있다. D T1 , D T2 D T3 은 변환-영역 인코더 (138) 가 선택될 때 H T 에 대한 감소량들이고, D M1 , D M2 D M3 은 시간-영역 인코더 (136) 가 선택될 때 H M 에 대한 감소량들이다. 감소량들은 동일하거나 상이한 값들일 수도 있다. V 1 , V 2 , V 3 V 4 는, 이력 카운트들 (H T H M ) 을 업데이트할지 여부를 결정하는데 이용된 임계값들이다.
도 6a 에서, 먼저, 인코딩할 오디오 프레임이 수신된다 (블록 612). 이전의 오디오 프레임이 사일런스 프레임 또는 잡음-유사 신호 프레임이었는지 여부가 결정된다 (블록 614). 그 응답이 "예" 인 경우, 시간-영역 이력 카운트 및 변환-영역 이력 카운트가 H T = 0 및 H M = 0 으로 리셋된다 (블록 616). 블록 614 에 대한 응답이 "아니오" 인 경우, 그리고 블록 616 후에, 파라미터들 (K T , K M ,
Figure 112009026354148-PCT00044
T
Figure 112009026354148-PCT00045
M) 이 상술된 것처럼 현재의 오디오 프레임에 대해 계산된다 (블록 618).
그 후, K T > K M H M < Z M1 인지 여부가 결정된다 (블록 620). 조건 K T > K M 은, 현재의 오디오 프레임이 변환 영역보다 시간 영역에서 더 희소하다는 것을 나타낼 수도 있다. 조건 H M < Z M1 은, 이전의 오디오 프레임들이 변환 영역에서 강하게 희소하지 않았다는 것을 나타낼 수도 있다. 블록 620 에 대한 응답이 "예" 인 경우, 시간-영역 인코더 (136) 가 현재의 오디오 프레임에 대해 선택된다 (블록 622). 그 후, 다음과 같이, 블록 624 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00046
블록 620 에 대한 응답이 "아니오" 인 경우, K M > K T H M > Z M2 여부가 결정된다 (블록 630). 조건 K M > K T 은, 현재의 오디오 프레임이 시간 영역보다 변환 영역에서 더 희소하다는 것을 나타낼 수도 있다. 조건 H M > Z M2 는, 이전의 오디오 프레임들이 변환 영역에서 희소하다는 것을 나타낼 수도 있다. 블록 630 에 대한 조건들의 세트는 결정을 시간-영역 인코더 (138) 를 보다 빈번히 선택하는 쪽에 치우치게 한다. 블록에서의 두번째 조건은, 블록 620 에 매칭하기 위해 H T > Z T1 으로 대체될 수도 있다. 블록 630 에 대한 응답이 "예" 인 경우, 변환-영역 인코더 (138) 가 현재의 오디오 프레임에 대해 선택된다 (블록 632). 그 후, 다음과 같이, 블록 634 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00047
블록 624 및 블록 634 후에, 프로세스가 종료한다. 블록 630 에 대한 응답이 "아니오" 인 경우, 프로세스는 도 6b 로 나아간다.
도 6b 는, K T = K M 인 경우, 또는 블록 620 및/또는 블록 630 에서의 이력 카운트 조건들이 충족되지 않는 경우에 도달될 수도 있다. 먼저,
Figure 112009026354148-PCT00048
M >
Figure 112009026354148-PCT00049
TH M > Z M2 여부가 결정된다 (블록 640). 조건
Figure 112009026354148-PCT00050
M >
Figure 112009026354148-PCT00051
T 은, 현재의 오디오 프레임이 시간 영역보다 변환 영역에서 더 희소하다는 것을 나타낼 수도 있다. 블록 640 에 대한 응답이 "예" 인 경우, 변환-영역 인코더 (138) 가 현재의 오디오 프레임에 대해 선택된다 (블록 642). 그 후, (
Figure 112009026354148-PCT00052
M -
Figure 112009026354148-PCT00053
T) > V 1 여부가 결정된다 (블록 644). 응답이 "예" 인 경우, 다음과 같이, 블록 646 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00054
블록 640 에 대한 응답이 "아니오" 인 경우,
Figure 112009026354148-PCT00055
M >
Figure 112009026354148-PCT00056
TH T > Z T1 여부가 결정된다 (블록 650). 블록 650 에 대한 응답이 "예" 인 경우, 시간-영역 인코더 (136) 가 현재의 오디오 프레임에 대해 선택된다 (블록 652). 그 후, (
Figure 112009026354148-PCT00057
T -
Figure 112009026354148-PCT00058
M) > V 2 여부가 결정된다 (블록 654). 그 응답이 "예" 인 경우, 다음과 같이, 블록 656 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00059
블록 650 에 대한 응답이 "아니오" 인 경우,
Figure 112009026354148-PCT00060
T >
Figure 112009026354148-PCT00061
MH T > Z T2 여부가 결정된다 (블록 660). 조건
Figure 112009026354148-PCT00062
T >
Figure 112009026354148-PCT00063
M 은, 현재의 오디오 프레임이 변환 영역보다 시간 영역에서 더 희소하다는 것을 나타낼 수도 있다. 블록 660 에 대한 응답이 "예" 인 경우, 시간-영역 인코더 (136) 가 현재의 오디오 프레임에 대해 선택된다 (블록 662). 그 후, (
Figure 112009026354148-PCT00064
T -
Figure 112009026354148-PCT00065
M) > V 3 여부가 결정된다 (블록 664). 그 응답이 "예" 인 경우, 다음과 같이, 블록 666 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00066
블록 660 에 대한 응답이 "아니오" 인 경우,
Figure 112009026354148-PCT00067
T >
Figure 112009026354148-PCT00068
MH M > Z M3 여부가 결정된다 (블록 670). 블록 670 에 대한 응답이 "예" 인 경우, 변환-영역 인코더 (138) 가 현재의 오디오 프레임에 대해 선택된다 (블록 672). 그 후, (
Figure 112009026354148-PCT00069
M -
Figure 112009026354148-PCT00070
T) > V 4 여부가 결정된다 (블록 674). 그 응답이 "예" 인 경우, 다음과 같이, 블록 676 에서 이력 카운트들이 업데이트될 수도 있다 :
Figure 112009026354148-PCT00071
블록 670 에 대한 응답이 "아니오" 인 경우, 현재의 오디오 프레임에 대해 디폴트 인코더가 선택될 수도 있다 (블록 682). 디폴트 인코더는, 선행 오디오 프레임에서 이용된 인코더, 특정 인코더 (예를 들어, 시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 중 어느 하나) 등일 수도 있다.
다양한 임계값들은, 시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 의 선택의 튜닝을 허용하도록 프로세스 (600) 에서 이용된다. 임계값들은, 일정한 상황들에서 일 인코더를 다른 인코더보다 선호하도록 선택될 수도 있다. 일 예시적인 설계에서, Z M1 = Z M2 = Z T1 = Z T2 = 4, U T1 = U M1 = 2, D T1 = D M1 = 1, V 1 = V 2 = V 3 = V 4 = 1 및 U V2 = D T2 = 1 이다. 또한, 다른 임계값들이 프로세스 (600) 용으로 이용될 수도 있다.
도 2 내지 도 6b 는, 도 1 에서의 희소성 검출기 (116) 의 여러 설계들을 나타낸다. 희소성 검출은, 예를 들어, 다른 파라미터들을 이용하여 다른 방식들에서 수행될 수도 있다. 희소성 검출기는, 다음의 목표를 가지고 설계될 수도 있다 :
Figure 112009026354148-PCT00072
시간-영역 인코더 (136) 또는 변환-영역 인코더 (138) 를 선택하기 위해 신호 특성들에 기초한 희소성의 검출,
Figure 112009026354148-PCT00073
유성음 (voiced speech) 신호 프레임들에 대한 양호한 희소성 검출, 예를 들어, 유성음 신호 프레임에 대해 변환-영역 인코더 (138) 를 선택할 확률이 낮다,
Figure 112009026354148-PCT00074
바이올린과 같은 악기로부터 유도된 오디오 프레임들에 대해, 변환-영역 인코더 (138) 가 높은 비율의 시간 동안 선택되어야 한다,
Figure 112009026354148-PCT00075
인공산물 (artifact) 을 줄이기 위해 시간-영역 인코더 (136) 와 변환-영역 인코더 (138) 사이의 빈번한 스위칭을 최소화,
Figure 112009026354148-PCT00076
낮은 복잡도 및 바람직하게는 개루프 동작, 및
Figure 112009026354148-PCT00077
상이한 신호 특성들 및 잡음 조건들을 통한 강건한 성능.
도 7 은, 일반화된 인코더로 입력 신호 (예를 들어, 오디오 신호) 를 인코딩하는 프로세스 (700) 의 흐름도를 나타낸다. 입력 신호의 특성들은, 신호 활동 검출기, 잡음-유사 신호 검출기, 희소성 검출기, 일부 다른 검출기, 또는 이들의 조합을 포함할 수도 있는 적어도 하나의 검출기에 기초하여 결정될 수도 있다 (블록 712). 입력 신호의 특성들에 기초하여 다수의 인코더들 중에서 인코더가 선택될 수도 있다 (블록 714). 다수의 인코더들은, 사일런스 인코더, 잡음-유사 신호 인코더 (예를 들어, NELP 인코더), 시간-영역 인코더 (예를 들어, CELP 인코더), 적어도 하나의 변환-영역 인코더 (예를 들어, MDCT 인코더), 일부 다른 인코더, 또는 이들의 조합을 포함할 수도 있다. 입력 신호는, 선택된 인코더에 기 초하여 인코딩될 수도 있다 (블록 716).
블록 712 및 블록 714 의 경우, 입력 신호에서 활동이 검출될 수도 있으며, 입력 신호에서 활동이 검출되지 않는 경우 사일런스 인코더가 선택될 수도 있다. 입력 신호가 잡음-유사 신호 특성들을 갖는지 여부가 결정될 수도 있으며, 입력 신호가 잡음-유사 신호 특성들을 갖는 경우 잡음-유사 신호 인코더가 선택될 수도 있다. 적어도 하나의 변환-영역 인코더에 대한 적어도 하나의 변환 영역 및 시간 영역에서의 입력 신호의 희소성이 결정될 수도 있다. 입력 신호가 적어도 하나의 변환 영역보다 시간 영역에서 더 희소한 것으로 간주되는 경우에 시간-영역 인코더가 선택될 수도 있다. 적어도 하나의 변환-영역 인코더 중 하나는, 입력 신호가 시간 영역보다, 그리고 다른 변환 영역들이 있더라도 다른 변환 영역들보다 대응하는 변환 영역에서 더 희소한 것으로 간주되는 경우에 선택될 수도 있다. 신호 검출 및 인코더 선택은 다양한 순서로 수행될 수도 있다.
입력 신호는 프레임들의 시퀀스를 포함할 수도 있다. 각각의 프레임의 특성들이 결정될 수도 있고, 그 신호의 특성들에 기초하여 프레임에 대해 인코더가 선택될 수도 있다. 각각의 프레임은, 그 프레임에 대해 선택된 인코더에 기초하여 인코딩될 수도 있다. 특정 인코더는, 소정의 프레임 및 소정 개수의 선행 프레임들이 그 특정 인코더로의 스위칭을 나타내는 경우에 그 소정의 프레임에 대해 선택될 수도 있다. 일반적으로, 각각의 프레임에 대한 인코더의 선택은 임의의 파라미터들에 기초할 수도 있다.
도 8 은, 입력 신호, 예를 들어, 오디오 신호를 인코딩하는 프로세스 (800) 의 흐름도를 나타낸다. 다수의 영역들 각각에서의 입력 신호의 희소성은, 예를 들어, 상술된 설계들 중 임의의 설계에 기초하여 결정될 수도 있다 (블록 812). 다수의 영역들에서의 입력 신호의 희소성에 기초하여 다수의 인코더들 중에서 인코더가 선택될 수도 있다 (블록 814). 입력 신호는, 선택된 인코더에 기초하여 인코딩될 수도 있다 (블록 816).
다수의 영역들은, 시간 영역 및 적어도 하나의 변환 영역, 예를 들어, 주파수 영역을 포함할 수도 있다. 시간 영역 및 적어도 하나의 변환 영역에서의 입력 신호의 희소성은, 상술된 파라미터들, 시간-영역 인코더의 사전 선택들 및 적어도 하나의 변환-영역 인코더의 사전 선택들에 기초하여 업데이트될 수도 있는 하나 이상의 이력 카운트들 등 중 임의의 것에 기초하여 결정될 수도 있다. 시간-영역 인코더는, 입력 신호가 적어도 하나의 변환 영역보다 시간 영역에서 더 희소한 것으로 결정되는 경우에 시간 영역에서 입력 신호를 인코딩하도록 선택될 수도 있다. 적어도 하나의 변환-영역 인코더 중 하나는, 입력 신호가 시간 영역보다, 그리고 다른 변환 영역들이 있더라도 다른 변환 영역들보다 대응하는 변환 영역에서 더 희소한 것으로 결정되는 경우에 그 대응하는 변환 영역에서 입력 신호를 인코딩하도록 선택될 수도 있다.
도 9 는, 희소성 검출을 수행하는 프로세스 (900) 의 흐름도를 나타낸다. 제 1 영역의 제 1 신호가 제 2 영역의 제 2 신호를 획득하도록 (예를 들어, MDCT 에 기초하여) 변환될 수도 있다 (블록 912). 제 1 신호는, 오디오 입력 신호에 대해 선형 예측 코딩 (LPC) 을 수행함으로써 획득될 수도 있다. 제 1 영역은 시간 영역일 수도 있고, 제 2 영역은 변환 영역, 예를 들어, 주파수 영역일 수도 있다. 제 1 신호 및 제 2 신호에 기초하여, 예를 들어, 제 1 신호 및 제 2 신호 내의 값들/컴포넌트들의 에너지에 기초하여 제 1 파라미터 및 제 2 파라미터가 결정될 수도 있다 (블록 914). 제 1 신호가 더 희소하다는 사전 선언들 및 제 2 신호가 더 희소하다는 사전 선언들에 기초하여 적어도 하나의 카운트가 결정될 수도 있다 (블록 916). 제 1 파라미터 및 제 2 파라미터, 및 사용된다면, 적어도 하나의 카운트에 기초하여 제 1 신호가 더 희소한지 제 2 신호가 더 희소한지가 결정될 수도 있다 (블록 918).
도 2 에 나타낸 설계의 경우, 제 1 파라미터는 제 1 신호의 총 에너지의 적어도 특정 비율을 포함하는 제 1 신호 내의 값들의 최소 개수 (N T ) 에 대응할 수도 있다. 제 2 파라미터는 제 2 신호의 총 에너지의 적어도 특정 비율을 포함하는 제 2 신호 내의 값들의 최소 개수 (N M ) 에 대응할 수도 있다. 제 1 신호는, 예를 들어, 식 (9a) 에 나타낸 것처럼, 제 1 파라미터가 제 2 파라미터보다 제 1 임계값만큼 더 작다는 것에 기초하여 더 희소한 것으로 간주될 수도 있다. 제 2 신호는, 예를 들어, 식 (9b) 에 나타낸 것처럼, 제 2 파라미터가 제 1 파라미터보다 제 2 임계값만큼 더 작다는 것에 기초하여 더 희소한 것으로 간주될 수도 있다. 제 1 신호의 누적 에너지를 나타내는 제 3 파라미터 (예를 들어, C T (i)) 가 결정될 수도 있다. 또한, 제 2 신호의 누적 에너지를 나타내는 제 4 파라미터 (예를 들어, C M (i)) 가 결정될 수도 있다. 제 1 신호가 더 희소한지 제 2 신호가 더 희소한지가 제 3 파라미터 및 제 4 파라미터에 또한 기초하여 결정될 수도 있다.
도 3, 도 6a 및 도 6b 에 나타낸 설계의 경우, 제 1 신호에 대한 제 1 누적 에너지 함수 (예를 들어, C T (i)) 및 제 2 신호에 대한 제 2 누적 에너지 함수 (예를 들어, C M (i)) 가 결정될 수도 있다. 제 1 누적 에너지 함수가 제 2 누적 에너지 함수를 충족하거나 초과하는 횟수는 제 1 파라미터 (예를 들어, K T ) 로 규정될 수도 있다. 제 2 누적 에너지 함수가 제 1 누적 에너지 함수를 충족하거나 초과하는 횟수는 제 2 파라미터 (예를 들어, K M ) 로 규정될 수도 있다. 제 1 신호는, 제 1 파라미터가 제 2 파라미터보다 더 크다는 것에 기초하여 더 희소한 것으로 간주될 수도 있다. 제 2 신호는, 제 2 파라미터가 제 1 파라미터보다 더 크다는 것에 기초하여 더 희소한 것으로 간주될 수도 있다. 제 3 파라미터 (예를 들어,
Figure 112009026354148-PCT00078
T) 는, 예를 들어, 식 (11a) 에 나타낸 것처럼, 제 1 누적 에너지 함수가 제 2 누적 에너지 함수를 초과하는 인스턴스 (instance) 들에 기초하여 결정될 수도 있다. 제 4 파라미터 (예를 들어,
Figure 112009026354148-PCT00079
M) 는, 예를 들어, 식 (11b) 에 나타낸 것처럼, 제 2 누적 에너지 함수가 제 1 누적 에너지 함수를 초과하는 인스턴스들에 기초하여 결정될 수도 있다. 제 1 신호가 더 희소한지 제 2 신호가 더 희소한지가 제 3 파라미터 및 제 4 파라미터에 또한 기초하여 결정될 수도 있다.
양자의 설계들의 경우, 제 1 신호가 더 희소하다는 각각의 선언에 대해, 제 1 카운트 (예를 들어, H T ) 가 증분될 수도 있고, 제 2 카운트 (예를 들어, H M ) 가 감소될 수도 있다. 제 2 신호가 더 희소하다는 각각의 선언에 대해, 제 1 카운트가 감소될 수도 있고 제 2 카운트가 증분될 수도 있다. 제 1 신호가 더 희소한지 제 2 신호가 더 희소한지가 제 1 카운트 및 제 2 카운트에 또한 기초하여 결정될 수도 있다.
다수의 인코더들이 상술된 것처럼 오디오 신호를 인코딩하는데 이용될 수도 있다. 오디오 신호가 인코딩되는 방법에 대한 정보는 다양한 방식으로 전송될 수도 있다. 일 설계에서, 각각의 코딩된 프레임은, 그 프레임에 대해 이용된 특정 인코더를 나타내는 인코더/코딩 정보를 포함한다. 다른 설계에서, 코딩된 프레임은, 그 프레임에 대해 이용된 인코더가 선행 프레임에 대해 이용된 인코더와 상이한 경우에만 인코더 정보를 포함한다. 이 설계에서, 인코더 정보는 단지, 인코더에서 스위칭이 행해질 때마다 전송되고, 동일한 인코더가 이용되는 경우에는 어떠한 정보도 전송되지 않는다. 일반적으로, 인코더는, 코딩된 정보 내에, 어느 인코더가 선택되는지를 디코더에 알리는 심볼들/비트들을 포함할 수도 있다. 대안으로, 이 정보는, 사이드 채널을 이용하여 별도로 송신될 수도 있다.
도 10 은, 도 1 에서의 일반화된 오디오 인코더 (100) 로 인코딩된 오디오 신호를 디코딩할 수 있는 일반화된 오디오 디코더 (1000) 의 일 설계의 블록도를 나타낸다. 오디오 디코더 (1000) 는, 선택기 (1020), 일 세트의 신호 클래스-특정 오디오 디코더들 (1030), 및 멀티플렉서 (1040) 를 포함한다.
선택기 (1020) 내에서, 블록 (1022) 은, 코딩된 오디오 프레임을 수신하고, 수신된 프레임이 예를 들어 그 프레임에 포함된 인코더 정보에 기초하여 사일런스 프레임인지 여부를 결정할 수도 있다. 수신된 프레임이 사일런스 프레임인 경우, 사일런스 디코더 (1032) 가 수신된 프레임을 디코딩하고 디코딩된 프레임을 제공할 수도 있다. 그렇지 않다면, 블록 (1024) 이, 수신된 프레임이 잡음-유사 신호 프레임인지 여부를 결정할 수도 있다. 그 응답이 "예" 인 경우, 잡음-유사 신호 디코더 (1034) 가 수신된 프레임을 디코딩하고 디코딩된 프레임을 제공할 수도 있다. 그렇지 않다면, 블록 1026 이, 수신된 프레임이 시간-영역 프레임인지 여부를 결정할 수도 있다. 그 응답이 "예" 인 경우, 시간-영역 디코더 (1036) 가 수신된 프레임을 디코딩하고 디코딩된 프레임을 제공할 수도 있다. 그렇지 않다면, 변환-영역 디코더 (1038) 가 수신된 프레임을 디코딩하고 디코딩된 프레임을 제공할 수도 있다. 디코더들 (1032, 1034, 1036, 및 1038) 은, 도 1 에서의 일반화된 오디오 인코더 (100) 내에서, 인코더들 (132, 134, 136, 및 138) 각각에 의해 수행된 인코딩에 대해 상보적인 방식으로 디코딩을 수행할 수도 있다. 멀티플렉서 (1040) 는, 디코더들 (1032, 1034, 1036, 및 1038) 의 출력들을 수신할 수도 있고, 일 디코더의 출력을 디코딩된 프레임으로서 제공할 수도 있다. 디코더들 (1032, 1034, 1036, 및 1038) 중 상이한 디코더들은, 오디오 신호의 특성들에 기초하여 상이한 시간 간격들에서 선택될 수도 있다.
도 10 은, 일반화된 오디오 디코더 (1000) 의 특정 설계를 나타낸다. 일반적으로, 일반화된 오디오 디코더는, 임의의 개수의 디코더들 및 임의의 유형의 디코더를 포함할 수도 있는데, 이는 다양한 방식으로 배열될 수도 있다. 도 10 은, 일 예시적인 세트의 디코더들을 일 예시적인 배열로 나타낸다. 일반화된 오디오 디코더는, 보다 적은, 보다 많은 및/또는 상이한 디코더들을 포함할 수도 있으며, 이는 다른 방식으로 배열될 수도 있다.
여기에 설명된 인코딩 및 디코딩 기술들은, 통신, 컴퓨팅, 네트워킹, 개인용 전자제품 등의 용으로 이용될 수도 있다. 예를 들어, 이 기술들은, 무선 통신 디바이스들, 핸드헬드 디바이스들, 게임 디바이스들, 컴퓨팅 디바이스들, 소비자 전자제품 디바이스들, 개인용 컴퓨터들 등의 용으로 이용될 수도 있다. 무선 통신 디바이스에 대한 기술들의 일 예시적인 이용이 이하 설명된다.
도 11 은, 무선 통신 시스템 내의 무선 통신 디바이스 (1100) 의 일 설계의 블록도를 나타낸다. 무선 통신 디바이스 (1100) 는, 셀룰러 전화, 단말기, 핸드셋, 개인 휴대 정보 단말기 (PDA), 무선 모뎀, 무선 전화등일 수도 있다. 무선 통신 시스템은, CDMA (코드 분할 다중 액세스) 시스템, GSM (Global System for Mobile communications) 시스템 등일 수도 있다.
무선 통신 디바이스 (1100) 는, 수신 경로 및 송신 경로를 통해 양-방향 통신을 제공할 수 있다. 수신 경로 상에서, 기지국들에 의해 송신된 신호들은, 안테나 (1112) 에 의해 수신되고 수신기 (RCVR; 1114) 에 제공된다. 수신기 (1114) 는, 수신된 신호를 컨디셔닝 및 디지털화하고, 추가 프로세싱을 위해 샘플들을 디지털부 (1120) 에 제공한다. 송신 경로 상에서, 송신기 (TMTR; 1116) 는, 디지털부 (1120) 로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱 및 컨디셔닝하며, 안테나 (1112) 를 통해 기지국들로 송신되는 변조된 신호를 생성한다. 수신기 (1114) 및 송신기 (1116) 는, CDMA, GSM 등을 지원할 수도 있는 트랜시버의 일부일 수도 있다.
디지털부 (1120) 는, 예를 들어, 모뎀 프로세서 (1122), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP; 1124), 제어기/프로세서 (1126), 내부 메모리 (1128), 일반화된 오디오 인코더 (1132), 일반화된 오디오 디코더 (1134), 그래픽/디스플레이 프로세서 (1136), 및 외부 버스 인터페이스 (EBI; 1138) 와 같은, 다양한 프로세싱, 인터페이스 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1122) 는, 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1124) 는, 무선 디바이스 (1100) 에 대한 일반적인 및 특수화된 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1126) 는, 디지털부 (1120) 내의 다양한 프로세싱 및 인터페이스 유닛들의 동작을 지시할 수도 있다. 내부 메모리 (1128) 는, 디지털부 (1120) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.
일반화된 오디오 인코더 (1132) 는, 오디오 소스 (1142), 마이크로폰 (1143) 등으로부터의 입력 신호에 대해 인코딩을 수행할 수도 있다. 일반화된 오디오 인코더 (1132) 는 도 1 에 나타낸 것처럼 구현될 수도 있다. 일반화된 오디오 디코더 (1134) 는, 코딩된 오디오 데이터에 대해 디코딩을 수행할 수도 있고, 출력 신호들을 스피커/헤드셋 (1144) 에 제공할 수도 있다. 일반화된 오디오 디코더 (1134) 는 도 10 에 나타낸 것처럼 구현될 수도 있다. 그래픽/디스플레이 프로 세서 (1136) 는, 디스플레이 유닛 (1146) 에 제공될 수도 있는 그래픽들, 비디오들, 이미지들 및 텍스트들에 대해 프로세싱을 수행할 수도 있다. EBI (1138) 는, 디지털부 (1120) 와 메인 메모리 (1148) 사이에서의 데이터의 전달을 용이하게 할 수도 있다.
디지털부 (1120) 는, 하나 이상의 프로세서들, DSP들, 마이크로-프로세서들, RISC들 등으로 구현될 수도 있다. 또한, 디지털부 (1120) 는, 하나 이상의 주문형 집적 회로들 (ASICs) 및/또는 일부 다른 유형의 집적 회로들 (ICs) 상에 제작될 수도 있다.
일반적으로, 여기에 설명된 임의의 디바이스는, 다양한 유형들의 디바이스들, 이를 테면, 무선 전화, 셀룰러 전화, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통하여 통신하는 디바이스 등을 나타낼 수도 있다. 디바이스는, 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 이동 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 명칭들을 가질 수도 있다. 여기에 설명된 임의의 디바이스는, 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합뿐만 아니라, 명령들 및 데이터를 저장하는 메모리를 가질 수도 있다.
여기에 설명된 인코딩 및 디코딩 기술들 (예를 들어, 도 1 에서의 인코더 (100), 도 2 에서의 희소성 검출기 (116a), 도 3 에서의 희소성 검출기 (116b), 도 10 에서의 디코더 (1000) 등) 은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이들 기술들은, 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합에서 구현될 수도 있다. 하드웨어 구현의 경우, 이 기술들을 수행하는데 이용된 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그램가능한 로직 디바이스들 (PLDs), 필드 프로그램가능한 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 여기에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에 구현될 수도 있다.
펌웨어 및/또는 소프트웨어 구현의 경우, 이 기술들은, 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 프로그램가능한 판독-전용 메모리 (PROM), 전기적으로 소거가능한 PROM (EEPROM), FLASH 메모리, 컴팩트 디스크 (CD), 자기 또는 광학 데이터 저장 디바이스 등과 같이, 프로세서-판독가능한 매체 상에 명령들로서 구현될 수도 있다. 이 명령들은, 하나 이상의 프로세서들에 의해 실행가능할 수도 있고, 프로세서(들)로 하여금 여기에 설명된 일정한 양태의 기능성을 수행하게 할 수도 있다.
본 개시물의 이전 설명은, 임의의 당업자로 하여금 본 개시물을 실시 또는 이용할 수 있게 하기 위해 제공된다. 본 개시물에 대한 다양한 변형들은, 당업자에게 쉽게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시물의 사상 또는 범위로부터 벗어남 없이 다른 변동물에 적용될 수도 있다. 따라서, 본 개시물은, 여기에 설명된 예들로 한정되도록 의도되지 않고, 여기에 개시된 원리들 및 신규한 특징들에 부합하는 최광의 범위에 따르게 될 것이다.

Claims (48)

  1. 잡음-유사 (noise-like) 신호 검출기를 포함하는 적어도 하나의 검출기에 기초하여 입력 신호의 특성들을 결정하고, 상기 결정된 입력 신호의 특성들에 기초하여, 변환 영역에서 희소한 변환-영역 표시들을 갖는 신호들을 인코딩하기 위한 적어도 하나의 변환-영역 인코더 및 시간-영역 인코더를 포함하는 다수의 인코더들 중에서 인코더를 선택하며, 상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하도록 구성된 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 커플링된 메모리를 포함하는, 장치.
  2. 제 1 항에 있어서,
    상기 입력 신호는 오디오 신호인, 장치.
  3. 제 1 항에 있어서,
    상기 다수의 인코더들은 사일런스 인코더를 포함하며,
    상기 적어도 하나의 프로세서는, 상기 입력 신호에서의 활동에 대해 검출하고, 상기 입력 신호에서 활동이 검출되지 않는 경우 상기 사일런스 인코더를 선택하도록 구성되는, 장치.
  4. 제 1 항에 있어서,
    상기 다수의 인코더들은 잡음-유사 신호 인코더를 포함하며,
    상기 적어도 하나의 프로세서는, 상기 입력 신호가 잡음-유사 신호 특성들을 갖는지 여부를 결정하고, 상기 입력 신호가 잡음-유사 신호 특성들을 갖는 경우 상기 잡음-유사 신호 인코더를 선택하도록 구성되는, 장치.
  5. 제 4 항에 있어서,
    상기 잡음-유사 신호 인코더는 NELP (Noise Excited Linear Prediction) 인코더를 포함하는, 장치.
  6. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는, 시간 영역에서의 상기 입력 신호의 희소성을 결정하고, 상기 적어도 하나의 변환-영역 인코더에 대한 적어도 하나의 변환 영역에서의 상기 입력 신호의 희소성을 결정하며, 상기 입력 신호가 상기 적어도 하나의 변환 영역보다 상기 시간 영역에서 더 희소한 것으로 결정되는 경우 상기 시간-영역 인코더를 선택하고, 상기 입력 신호가 상기 시간 영역보다, 그리고 다른 변환 영역들이 있더라도 다른 변환 영역들보다 대응하는 변환 영역에서 더 희소한 것으로 결정되는 경우 상기 적어도 하나의 변환-영역 인코더 중 하나의 변환-영역 인코더를 선택하도록 구성되는, 장치.
  7. 제 6 항에 있어서,
    상기 시간-영역 인코더는 CELP (Code Excited Linear Prediction) 인코더를 포함하고, 상기 적어도 하나의 변환-영역 인코더는 MDCT (Modified Discrete Cosine Transform) 인코더를 포함하는, 장치.
  8. 제 1 항에 있어서,
    상기 입력 신호는 프레임들의 시퀀스를 포함하며,
    상기 적어도 하나의 프로세서는, 상기 시퀀스 내의 각각의 프레임의 특성들을 결정하고, 상기 결정된 프레임의 특성들에 기초하여 각각의 프레임에 대한 인코더를 선택하며, 상기 각각의 프레임에 대해 선택된 상기 인코더에 기초하여 각각의 프레임을 인코딩하도록 구성되는, 장치.
  9. 제 8 항에 있어서,
    상기 적어도 하나의 프로세서는, 특정 프레임 및 소정 개수의 선행 프레임들이 특정 인코더로의 스위칭을 나타내는 경우 상기 특정 프레임에 대해 상기 특정 인코더를 선택하도록 구성되는, 장치.
  10. 제 1 항에 있어서,
    상기 장치는 이동 전화인, 장치.
  11. 제 1 항에 있어서,
    상기 장치는 CDMA (코드 분할 다중 액세스) 트랜시버를 포함하는 이동 전화인, 장치.
  12. 잡음-유사 (noise-like) 신호 검출기를 포함하는 적어도 하나의 검출기에 기초하여 입력 신호의 특성들을 결정하는 단계;
    상기 결정된 입력 신호의 특성들에 기초하여, 변환 영역에서 희소한 변환-영역 표시들을 갖는 신호들을 인코딩하기 위한 적어도 하나의 변환-영역 인코더 및 시간-영역 인코더를 포함하는 다수의 인코더들 중에서 인코더를 선택하는 단계; 및
    상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하는 단계를 포함하는, 방법.
  13. 제 12 항에 있어서,
    상기 다수의 인코더들은 사일런스 인코더를 포함하며,
    상기 입력 신호의 특성들을 결정하는 단계는, 상기 입력 신호에서의 활동에 대해 검출하는 단계를 포함하고,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 단계는, 상기 입력 신호에서 활동이 검출되지 않는 경우 상기 사일런스 인코더를 선택하는 단계를 포함하는, 방법.
  14. 제 12 항에 있어서,
    상기 다수의 인코더들은 잡음-유사 신호 인코더를 포함하며,
    상기 입력 신호의 특성들을 결정하는 단계는, 상기 입력 신호가 잡음-유사 신호 특성들을 갖는지 여부를 결정하는 단계를 포함하고,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 단계는, 상기 입력 신호가 잡음-유사 신호 특성들을 갖는 경우 상기 잡음-유사 신호 인코더를 선택하는 단계를 포함하는, 방법.
  15. 제 12 항에 있어서,
    상기 입력 신호의 특성들을 결정하는 단계는, 상기 적어도 하나의 변환-영역 인코더에 대한 적어도 하나의 변환 영역 및 시간 영역에서의 상기 입력 신호의 희소성을 결정하는 단계를 포함하고,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 단계는,
    상기 입력 신호가 상기 적어도 하나의 변환 영역보다 상기 시간 영역에서 더 희소한 것으로 결정되는 경우 상기 시간-영역 인코더를 선택하는 단계, 및
    상기 입력 신호가 상기 시간 영역보다, 그리고 다른 변환 영역들이 있더라도 다른 변환 영역들보다 대응하는 변환 영역에서 더 희소한 것으로 결정되는 경우 상기 적어도 하나의 변환-영역 인코더 중 하나의 변환-영역 인코더를 선택하는 단계를 포함하는, 방법.
  16. 잡음-유사 (noise-like) 신호 검출기를 포함하는 적어도 하나의 검출기에 기 초하여 입력 신호의 특성들을 결정하는 수단;
    상기 결정된 입력 신호의 특성들에 기초하여, 변환 영역에서 희소한 변환-영역 표시들을 갖는 신호들을 인코딩하기 위한 적어도 하나의 변환-영역 인코더 및 시간-영역 인코더를 포함하는 다수의 인코더들 중에서 인코더를 선택하는 수단; 및
    상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하는 수단을 포함하는, 장치.
  17. 제 16 항에 있어서,
    상기 다수의 인코더들은 사일런스 인코더를 포함하며,
    상기 입력 신호의 특성들을 결정하는 수단은, 상기 입력 신호에서의 활동에 대해 검출하는 수단을 포함하고,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 수단은, 상기 입력 신호에서 활동이 검출되지 않는 경우 상기 사일런스 인코더를 선택하는 수단을 포함하는, 장치.
  18. 제 16 항에 있어서,
    상기 다수의 인코더들은 잡음-유사 신호 인코더를 포함하며,
    상기 입력 신호의 특성들을 결정하는 수단은, 상기 입력 신호가 잡음-유사 신호 특성들을 갖는지 여부를 결정하는 수단을 포함하고,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 수단은, 상 기 입력 신호가 잡음-유사 신호 특성들을 갖는 경우 상기 잡음-유사 신호 인코더를 선택하는 수단을 포함하는, 장치.
  19. 제 16 항에 있어서,
    상기 입력 신호의 특성들을 결정하는 수단은, 상기 적어도 하나의 변환-영역 인코더에 대한 적어도 하나의 변환 영역 및 시간 영역에서의 상기 입력 신호의 희소성을 결정하는 수단을 포함하며,
    상기 결정된 입력 신호의 특성들에 기초하여 인코더를 선택하는 수단은,
    상기 입력 신호가 상기 적어도 하나의 변환 영역보다 상기 시간 영역에서 더 희소한 것으로 결정되는 경우 상기 시간-영역 인코더를 선택하는 수단, 및
    상기 입력 신호가 상기 시간 영역보다, 그리고 다른 변환 영역들이 있더라도 다른 변환 영역들보다 대응하는 변환 영역에서 더 희소한 것으로 결정되는 경우 상기 적어도 하나의 변환-영역 인코더 중 하나의 변환-영역 인코더를 선택하는 수단을 포함하는, 장치.
  20. 잡음-유사 (noise-like) 신호 검출기를 포함하는 적어도 하나의 검출기에 기초하여 입력 신호의 특성들을 결정하고;
    상기 결정된 입력 신호의 특성들에 기초하여, 변환 영역에서 희소한 변환-영역 표시들을 갖는 신호들을 인코딩하기 위한 적어도 하나의 변환-영역 인코더 및 시간-영역 인코더를 포함하는 다수의 인코더들 중에서 인코더를 선택하며;
    상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하는 명령들을 저장하는, 프로세서-판독가능 매체.
  21. 다수의 영역들 각각에서의 입력 신호의 희소성을 결정하고, 상기 다수의 영역들에서의 상기 입력 신호의 희소성에 기초하여 다수의 인코더들 중에서 인코더를 선택하며, 상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하도록 구성된 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 커플링된 메모리를 포함하는, 장치.
  22. 제 21 항에 있어서,
    상기 다수의 영역들은 시간 영역 및 변환 영역을 포함하며,
    상기 적어도 하나의 프로세서는, 상기 시간 영역 및 상기 변환 영역에서의 상기 입력 신호의 희소성을 결정하고, 상기 입력 신호가 상기 변환 영역보다 상기 시간 영역에서 더 희소한 것으로 결정되는 경우 상기 시간 영역에서 상기 입력 신호를 인코딩하도록 시간-영역 인코더를 선택하며, 상기 입력 신호가 상기 시간 영역보다 상기 변환 영역에서 더 희소한 것으로 결정되는 경우 상기 변환 영역에서 상기 입력 신호를 인코딩하도록 변환-영역 인코더를 선택하도록 구성되는, 장치.
  23. 제 21 항에 있어서,
    상기 다수의 영역들은 시간 영역 및 변환 영역을 포함하며,
    상기 적어도 하나의 프로세서는, 상기 시간 영역에서의 상기 입력 신호의 희소성을 나타내는 제 1 파라미터를 결정하고, 상기 변환 영역에서의 상기 입력 신호의 희소성을 나타내는 제 2 파라미터를 결정하며, 상기 제 1 파라미터 및 상기 제 2 파라미터가, 상기 입력 신호가 상기 변환 영역보다 상기 시간 영역에서 더 희소하다는 것을 나타내는 경우 시간-영역 인코더를 선택하고, 상기 제 1 파라미터 및 상기 제 2 파라미터가, 상기 입력 신호가 상기 시간 영역보다 상기 변환 영역에서 더 희소하다는 것을 나타내는 경우 변환-영역 인코더를 선택하도록 구성되는, 장치.
  24. 제 23 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 시간-영역 인코더의 사전 선택들 및 상기 변환-영역 인코더의 사전 선택들에 기초하여 적어도 하나의 카운트를 결정하고, 상기 적어도 하나의 카운트에 또한 기초하여 상기 시간-영역 인코더 또는 상기 변환-영역 인코더를 선택하도록 구성되는, 장치.
  25. 다수의 영역들 각각에서의 입력 신호의 희소성을 결정하는 단계;
    상기 다수의 영역들에서의 상기 입력 신호의 희소성에 기초하여 다수의 인코더들 중에서 인코더를 선택하는 단계; 및
    상기 선택된 인코더에 기초하여 상기 입력 신호를 인코딩하는 단계를 포함하는, 방법.
  26. 제 25 항에 있어서,
    상기 다수의 영역들은 시간 영역 및 변환 영역을 포함하며,
    상기 입력 신호의 희소성을 결정하는 단계는,
    상기 시간 영역에서의 상기 입력 신호의 희소성을 나타내는 제 1 파라미터를 결정하는 단계, 및
    상기 변환 영역에서의 상기 입력 신호의 희소성을 나타내는 제 2 파라미터를 결정하는 단계를 포함하며,
    상기 인코더를 선택하는 단계는,
    상기 제 1 파라미터 및 상기 제 2 파라미터가, 상기 입력 신호가 상기 변환 영역보다 상기 시간 영역에서 더 희소하다는 것을 나타내는 경우 시간-영역 인코더를 선택하는 단계, 및
    상기 제 1 파라미터 및 상기 제 2 파라미터가, 상기 입력 신호가 상기 시간 영역보다 상기 변환 영역에서 더 희소하다는 것을 나타내는 경우 변환-영역 인코더를 선택하는 단계를 포함하는, 방법.
  27. 제 26 항에 있어서,
    상기 시간-영역 인코더의 사전 선택들 및 상기 변환-영역 인코더의 사전 선택들에 기초하여 적어도 하나의 카운트를 결정하는 단계를 더 포함하며,
    상기 인코더를 선택하는 단계는, 상기 적어도 하나의 카운트에 또한 기초하 여, 상기 시간-영역 인코더 또는 상기 변환-영역 인코더를 선택하는 단계를 포함하는, 방법.
  28. 제 1 영역의 제 1 신호를 변환하여 제 2 영역의 제 2 신호를 획득하고, 상기 제 1 신호 및 상기 제 2 신호에 기초하여 제 1 파라미터 및 제 2 파라미터를 결정하며, 상기 제 1 파라미터 및 상기 제 2 파라미터에 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하도록 구성된 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 커플링된 메모리를 포함하는, 장치.
  29. 제 28 항에 있어서,
    상기 제 1 영역은 시간 영역이고, 상기 제 2 영역은 변환 영역인, 장치.
  30. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, MDCT (Modified Discrete Cosine Transform) 에 기초하여 상기 제 1 신호를 변환하여 상기 제 2 신호를 획득하도록 구성되는, 장치.
  31. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호 및 상기 제 2 신호 내의 값 들의 에너지에 기초하여 상기 제 1 파라미터 및 상기 제 2 파라미터를 결정하도록 구성되는, 장치.
  32. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 입력 신호에 대해 LPC (Linear Predictive Coding) 를 수행하여 상기 제 1 신호 내의 잔류물 (residual) 들을 획득하고, 상기 제 1 신호 내의 잔류물들을 변환하여 상기 제 2 신호 내의 계수들을 획득하고, 상기 제 1 신호 내의 잔류물들에 대한 에너지 값들을 결정하고, 상기 제 2 신호 내의 계수들에 대한 에너지 값들을 결정하며, 상기 잔류물들에 대한 상기 에너지 값들 및 상기 계수들에 대한 상기 에너지 값들에 기초하여 상기 제 1 파라미터 및 상기 제 2 파라미터를 결정하도록 구성되는, 장치.
  33. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호의 총 에너지의 적어도 특정 비율을 포함하는 상기 제 1 신호 내의 값들의 최소 개수에 기초하여 상기 제 1 파라미터를 결정하며, 상기 제 2 신호의 총 에너지의 적어도 특정 비율을 포함하는 상기 제 2 신호 내의 값들의 최소 개수에 기초하여 상기 제 2 파라미터를 결정하도록 구성되는, 장치.
  34. 제 33 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 파라미터가 상기 제 2 파라미터보다 제 1 임계값만큼 더 작다는 것에 기초하여 상기 제 1 신호가 더 희소하다는 것을 결정하고, 상기 제 2 파라미터가 상기 제 1 파라미터보다 제 2 임계값만큼 더 작다는 것에 기초하여 상기 제 2 신호가 더 희소하다는 것을 결정하도록 구성되는, 장치.
  35. 제 33 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호의 누적 에너지를 나타내는 제 3 파라미터를 결정하고, 상기 제 2 신호의 누적 에너지를 나타내는 제 4 파라미터를 결정하며, 상기 제 3 파라미터 및 상기 제 4 파라미터에 또한 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하도록 구성되는, 장치.
  36. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호에 대한 제 1 누적 에너지 함수를 결정하고, 상기 제 2 신호에 대한 제 2 누적 에너지 함수를 결정하며, 상기 제 1 누적 에너지 함수가 상기 제 2 누적 에너지 함수를 충족하거나 초과하는 횟수에 기초하여 상기 제 1 파라미터를 결정하고, 상기 제 2 누적 에너지 함수가 상기 제 1 누적 에너지 함수를 충족하거나 초과하는 횟수에 기초하여 상기 제 2 파라미터를 결정하도록 구성되는, 장치.
  37. 제 36 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 파라미터가 상기 제 2 파라미터보다 더 크다는 것에 기초하여 상기 제 1 신호가 더 희소하다는 것을 결정하고, 상기 제 2 파라미터가 상기 제 1 파라미터보다 더 크다는 것에 기초하여 상기 제 2 신호가 더 희소하다는 것을 결정하도록 구성되는, 장치.
  38. 제 36 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 누적 에너지 함수가 상기 제 2 누적 에너지 함수를 초과하는 인스턴스 (instance) 들에 기초하여 제 3 파라미터를 결정하고, 상기 제 2 누적 에너지 함수가 상기 제 1 누적 에너지 함수를 초과하는 인스턴스들에 기초하여 제 4 파라미터를 결정하며, 상기 제 3 파라미터 및 상기 제 4 파라미터에 또한 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하도록 구성되는, 장치.
  39. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호가 더 희소하다는 사전 선언들 및 상기 제 2 신호가 더 희소하다는 사전 선언들에 기초하여 적어도 하나의 카운트를 결정하며, 상기 적어도 하나의 카운트에 또한 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하도록 구성되는, 장치.
  40. 제 28 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 제 1 신호가 더 희소하다는 각각의 선언에 대해, 제 1 카운트를 증분시키고 제 2 카운트를 감소시키며, 상기 제 2 신호가 더 희소하다는 각각의 선언에 대해, 상기 제 1 카운트를 감소시키고 상기 제 2 카운트를 증분시키며, 상기 제 1 카운트 및 상기 제 2 카운트에 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하도록 구성되는, 장치.
  41. 제 1 영역의 제 1 신호를 변환하여 제 2 영역의 제 2 신호를 획득하는 단계;
    상기 제 1 신호 및 상기 제 2 신호에 기초하여 제 1 파라미터 및 제 2 파라미터를 결정하는 단계; 및
    상기 제 1 파라미터 및 상기 제 2 파라미터에 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지를 결정하는 단계를 포함하는, 방법.
  42. 제 41 항에 있어서,
    상기 제 1 파라미터 및 상기 제 2 파라미터를 결정하는 단계는,
    상기 제 1 신호의 총 에너지의 적어도 특정 비율을 포함하는 상기 제 1 신호 내의 값들의 최소 개수에 기초하여 상기 제 1 파라미터를 결정하는 단계; 및
    상기 제 2 신호의 총 에너지의 적어도 특정 비율을 포함하는 상기 제 2 신호 내의 값들의 최소 개수에 기초하여 상기 제 2 파라미터를 결정하는 단계를 포함하는, 방법.
  43. 제 41 항에 있어서,
    상기 제 1 신호에 대한 제 1 누적 에너지 함수를 결정하는 단계, 및
    상기 제 2 신호에 대한 제 2 누적 에너지 함수를 결정하는 단계를 더 포함하며,
    상기 제 1 파라미터 및 상기 제 2 파라미터를 결정하는 단계는,
    상기 제 1 누적 에너지 함수가 상기 제 2 누적 에너지 함수를 충족하거나 초과하는 횟수에 기초하여 상기 제 1 파라미터를 결정하는 단계, 및
    상기 제 2 누적 에너지 함수가 상기 제 1 누적 에너지 함수를 충족하거나 초과하는 횟수에 기초하여 상기 제 2 파라미터를 결정하는 단계를 포함하는, 방법.
  44. 제 43 항에 있어서,
    상기 제 1 누적 에너지 함수가 상기 제 2 누적 에너지 함수를 초과하는 인스턴스 (instance) 들에 기초하여 제 3 파라미터를 결정하는 단계; 및
    상기 제 2 누적 에너지 함수가 상기 제 1 누적 에너지 함수를 초과하는 인스턴스들에 기초하여 제 4 파라미터를 결정하는 단계를 더 포함하며,
    상기 제 3 파라미터 및 상기 제 4 파라미터에 또한 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지가 결정되는, 방법.
  45. 제 41 항에 있어서,
    상기 제 1 신호가 더 희소하다는 사전 선언들 및 상기 제 2 신호가 더 희소하다는 사전 선언들에 기초하여 적어도 하나의 카운트를 결정하는 단계를 더 포함하며,
    상기 적어도 하나의 카운트에 또한 기초하여, 상기 제 1 신호가 더 희소한지 상기 제 2 신호가 더 희소한지가 결정되는, 방법.
  46. 코딩된 신호를 생성하는데 이용되며, 사일런스 인코더, 잡음-유사 신호 인코더, 시간-영역 인코더, 및 변환-영역 인코더를 포함하는 다수의 인코더들 중에서 선택되는 인코더를 결정하고, 상기 코딩된 신호를 생성하는데 이용되는 상기 인코더에 대해 상보적인 디코더에 기초하여 상기 코딩된 신호를 디코딩하도록 구성된 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 커플링된 메모리를 포함하는, 장치.
  47. 제 46 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 코딩된 신호와 함께 전송된 인코더 정보에 기초하여 상기 코딩된 신호를 생성하는데 이용되는 상기 인코더를 결정하도록 구성되는, 장치.
  48. 코딩된 신호를 생성하는데 이용되며, 사일런스 인코더, 잡음-유사 신호 인코더, 시간-영역 인코더, 및 변환-영역 인코더를 포함하는 다수의 인코더들 중에서 선택되는 인코더를 결정하는 단계; 및
    상기 코딩된 신호를 생성하는데 이용되는 상기 인코더에 대해 상보적인 디코더에 기초하여 상기 코딩된 신호를 디코딩하는 단계를 포함하는, 방법.
KR1020097009018A 2006-10-10 2007-10-08 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치 KR101186133B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US82881606P 2006-10-10 2006-10-10
US60/828,816 2006-10-10
US94298407P 2007-06-08 2007-06-08
US60/942,984 2007-06-08
PCT/US2007/080744 WO2008045846A1 (en) 2006-10-10 2007-10-08 Method and apparatus for encoding and decoding audio signals

Publications (2)

Publication Number Publication Date
KR20090074070A true KR20090074070A (ko) 2009-07-03
KR101186133B1 KR101186133B1 (ko) 2012-09-27

Family

ID=38870234

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097009018A KR101186133B1 (ko) 2006-10-10 2007-10-08 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치

Country Status (10)

Country Link
US (1) US9583117B2 (ko)
EP (2) EP2458588A3 (ko)
JP (1) JP5096474B2 (ko)
KR (1) KR101186133B1 (ko)
CN (1) CN101523486B (ko)
BR (1) BRPI0719886A2 (ko)
CA (1) CA2663904C (ko)
RU (1) RU2426179C2 (ko)
TW (1) TWI349927B (ko)
WO (1) WO2008045846A1 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
EP2198424B1 (en) * 2007-10-15 2017-01-18 LG Electronics Inc. A method and an apparatus for processing a signal
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
AU2009267507B2 (en) * 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
KR101227729B1 (ko) * 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010008173A2 (ko) * 2008-07-14 2010-01-21 한국전자통신연구원 오디오 신호의 상태결정 장치
KR101230183B1 (ko) * 2008-07-14 2013-02-15 광운대학교 산학협력단 오디오 신호의 상태결정 장치
KR20100007738A (ko) 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
US10008212B2 (en) * 2009-04-17 2018-06-26 The Nielsen Company (Us), Llc System and method for utilizing audio encoding for measuring media exposure with environmental masking
CN102142924B (zh) * 2010-02-03 2014-04-09 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US9224398B2 (en) * 2010-07-01 2015-12-29 Nokia Technologies Oy Compressed sampling audio apparatus
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
SG11201503788UA (en) * 2012-11-13 2015-06-29 Samsung Electronics Co Ltd Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
BR112016007515B1 (pt) * 2013-10-18 2021-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário.
KR102354331B1 (ko) * 2014-02-24 2022-01-21 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
CN107452390B (zh) * 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
KR101728047B1 (ko) 2016-04-27 2017-04-18 삼성전자주식회사 부호화 방식 결정 방법 및 장치
AU2021479158A1 (en) * 2021-12-15 2024-07-04 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive predictive encoding
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、***、电子设备和存储介质

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
KR0166722B1 (ko) * 1992-11-30 1999-03-20 윤종용 부호화 및 복호화방법 및 그 장치
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
KR100419545B1 (ko) * 1994-10-06 2004-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 다른코딩원리들을이용한전송시스템
JP3158932B2 (ja) * 1995-01-27 2001-04-23 日本ビクター株式会社 信号符号化装置及び信号復号化装置
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5978756A (en) * 1996-03-28 1999-11-02 Intel Corporation Encoding audio signals using precomputed silence
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
DE69819460T2 (de) 1997-07-11 2004-08-26 Koninklijke Philips Electronics N.V. Übertrager mit verbessertem sprachkodierer und dekodierer
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6463407B2 (en) 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
US6697430B1 (en) * 1999-05-19 2004-02-24 Matsushita Electric Industrial Co., Ltd. MPEG encoder
JP2000347693A (ja) * 1999-06-03 2000-12-15 Canon Inc オーディオ符号化復号化システム、符号化装置、復号化装置及びこれらの方法並びに記憶媒体
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6438518B1 (en) 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7085711B2 (en) * 2000-11-09 2006-08-01 Hrl Laboratories, Llc Method and apparatus for blind separation of an overcomplete set mixed signals
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785646B2 (en) * 2001-05-14 2004-08-31 Renesas Technology Corporation Method and system for performing a codebook search used in waveform coding
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
KR100748313B1 (ko) 2001-06-28 2007-08-09 매그나칩 반도체 유한회사 이미지센서의 제조방법
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP4399185B2 (ja) * 2002-04-11 2010-01-13 パナソニック株式会社 符号化装置および復号化装置
JP4022111B2 (ja) * 2002-08-23 2007-12-12 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置及び信号符号化方法
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
KR100604032B1 (ko) 2003-01-08 2006-07-24 엘지전자 주식회사 복수 코덱을 지원하는 장치와 방법
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
CN1312946C (zh) * 2004-11-11 2007-04-25 向为 话音的自适应多速率编码和传输方法
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
JP4699117B2 (ja) * 2005-07-11 2011-06-08 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법

Also Published As

Publication number Publication date
EP2458588A3 (en) 2012-07-04
WO2008045846A1 (en) 2008-04-17
TWI349927B (en) 2011-10-01
CN101523486B (zh) 2013-08-14
EP2458588A2 (en) 2012-05-30
BRPI0719886A2 (pt) 2014-05-06
US9583117B2 (en) 2017-02-28
US20090187409A1 (en) 2009-07-23
CA2663904C (en) 2014-05-27
JP5096474B2 (ja) 2012-12-12
CA2663904A1 (en) 2008-04-17
JP2010506239A (ja) 2010-02-25
CN101523486A (zh) 2009-09-02
EP2092517B1 (en) 2012-07-18
RU2009117663A (ru) 2010-11-20
RU2426179C2 (ru) 2011-08-10
KR101186133B1 (ko) 2012-09-27
EP2092517A1 (en) 2009-08-26
TW200839741A (en) 2008-10-01

Similar Documents

Publication Publication Date Title
KR101186133B1 (ko) 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치
RU2418323C2 (ru) Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
US8660840B2 (en) Method and apparatus for predictively quantizing voiced speech
EP2080193B1 (en) Pitch lag estimation
CN101322182B (zh) 用于检测音调分量的***、方法和设备
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN102985969B (zh) 编码装置、解码装置和编码方法、解码方法
KR20070001276A (ko) 신호 인코딩
KR100827896B1 (ko) 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식 선택 패턴을 사용하는 예측 음성 코더
EP2803068A1 (en) Multiple coding mode signal classification
JP4511094B2 (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置
US20080040104A1 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and computer readable recording medium
US6397175B1 (en) Method and apparatus for subsampling phase spectrum information
WO2006021859A1 (en) Noise detection for audio encoding
KR20140088219A (ko) 신호들에 대한 조합 코딩을 위한 장치 및 방법
US8670980B2 (en) Tone determination device and method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E90F Notification of reason for final refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 8