KR101751354B1 - 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱 - Google Patents

시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱 Download PDF

Info

Publication number
KR101751354B1
KR101751354B1 KR1020167012861A KR20167012861A KR101751354B1 KR 101751354 B1 KR101751354 B1 KR 101751354B1 KR 1020167012861 A KR1020167012861 A KR 1020167012861A KR 20167012861 A KR20167012861 A KR 20167012861A KR 101751354 B1 KR101751354 B1 KR 101751354B1
Authority
KR
South Korea
Prior art keywords
coding schemes
domain
frame coding
frequency
frame
Prior art date
Application number
KR1020167012861A
Other languages
English (en)
Other versions
KR20160060161A (ko
Inventor
랄프 가이거
콘스탄틴 슈미트
베른하트 그릴
맨프레드 러츠키
미카엘 베르너
마크 가이어
요하네스 힐페르트
마리아 루이스 발레로
볼프강 예거스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Publication of KR20160060161A publication Critical patent/KR20160060161A/ko
Application granted granted Critical
Publication of KR101751354B1 publication Critical patent/KR101751354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

레이트/왜곡 비율과 관련하여 저지연 및 증가된 코딩 효율을 갖는, 시간-도메인 및 주파수-도메인 코딩 방식 모두를 지원하는 오디오 코덱은 만일 활성 운용 방식이 제 1 운용 방식이면, 이용가능한 프레임 코딩 방식들의 방식 의존 세트는 시간-도메인 코딩 방식들의 서브세트에서 분리되고 주파수-도메인 코딩 방식들의 제 2 서브세트로 오버랩하고, 반면에, 만일 활성 운용 방식이 제 2 운용 방식이면, 이용가능한 프레임 코딩 방식들의 방식 의존 세트는 두 서브세트들, 즉, 시간-도메인 코딩 방식들의 서브세트뿐만 아니라 주파수-도메인 코딩 방식들의 서브세트로 오버랩하는 것과 같이 만일 오디오 디코더가 서로 다른 방식들로 운용하도록 구성함으로써 획득될 수 있다.

Description

시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱{AUDIO CODEC SUPPORTING TIME-DOMAIN AND FREQUENCY-DOMAIN CODING MODES}
본 발명은 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱에 관한 것이다.
최근에, MPEG 통합 음성 및 오디오 코딩 코덱(USAC codec)이 확정되었다. 통합 음성 및 오디오 코덱은 고급 오디오 코딩(AAC), 변환 코딩 여진(Transform Coded Excitation, TCX) 및 대수 부호 여진 선형 예측(Algebraic Code-Excited Linear Prediction, ACELP)의 혼합을 사용하여 오디오 신호들을 코딩하는 코덱이다. 특히, MPEG 통합 음성 및 오디오 코딩은 1024 샘플들의 길이를 사용하고 1024의 고급 오디오 코딩 유사 프레임들 또는 8x128 샘플들, 변환 코딩 여진 1024 프레임들 또는 하나의 프레임 내의 대수 부호 여진 선형 예측 프레임들(256 샘플들), 변환 코딩 여진 256 및 변환 코딩 여진 512 샘플들의 조합 사이의 전환을 허용한다.
바람직하지 않게, MPEG 통합 음성 및 오디오 코딩 코덱은 저지연(low delay)을 필요로 하는 적용들에 적합하지 않다. 2방향 통신 적용들이 예를 들면, 그러한 짧은 지연들을 필요로 한다. 1024 샘플들의 통합 음성 및 오디오 코딩 프레임 길이 때문에, 통합 음성 및 오디오 코딩은 이러한 저지연 적용들을 위한 후보자가 아니다.
국제특허 WO 2011147950에서, 통합 음성 및 오디오 코딩 코덱의 코딩 방식들을 변환 코딩 여진 및 대수 부호 여진 선형 예측만으로 한정함으로써 저지연 적용들에 적합한 통합 음성 및 오디오 코딩 접근법을 제공하는 것이 제안되었다. 또한 저지연 적용들에 의해 도입되는 저지연 요구사항을 따르기 위하여 프레임 구조를 더 정교하게 하는 것이 제안되었다.
그러나, 레이트(rate)/왜곡(distorsion) 비율과 관련하여 증가된 효율에서 낮은 코딩 지연을 가능하게 하는 오디오 코덱을 제공하기 위한 필요성이 여전히 존재한다. 바람직하게는, 코덱은 음성 및 음악과 같은 서로 다른 종류의 오디오 신호들을 효율적으로 처리할 수 있어야 한다.
[1]: 3GPP, "Audio codec processing functions; Extended Adaptive Multi-rate-Wideband(AMR-WB+) codec; Transcoding functions', 2009, 3GPP TS 26.920. [2]: USAC 코덱 (United Speech and Audio Codec), ISO/IEC CD 23003-3 2010년9월 24일.
따라서, 저지연 적용들을 위한 저지연을 제공하나, 예를 들면 통합 음성 및 오디오 코딩과 비교하여 레이트/왜곡 비율과 관련하여 증가된 코딩 효율에서의 오디오 코덱을 제공하는 것이 본 발명의 목적이다.
본 발명의 목적은 첨부된 독립 항들의 주제에 의해 달성된다.
본 발명을 설명하는 기본 개념은 만일 활성 운용 방식(active operating mode)이 제 1 운용 방식이면, 이용가능한 프레임 코딩 방식들의 방식 의존 세트(mode dependent set)는 시간-도메인 코딩 방식들의 서브세트(subset)에서 분리되고, 주파수-도메인 코딩 방식들의 제 2 서브세트로 오버랩하고, 반면에, 만일 활성 운용 방식이 제 2 운용 방식이면, 이용가능한 프레임 코딩 방식들의 방식 의존 세트는 두 서브세트들, 즉, 시간-도메인 코딩 방식들의 서브세트뿐만 아니라 주파수-도메인 코딩 방식들의 서브세트로 오버랩하는 것과 같이 만일 오디오 디코더가 서로 다른 방식들로 운용하도록 구성되면, 레이트/왜곡 비율과 관련하여 저지연 및 증가된 코딩 효율을 갖는, 시간-도메인 및 주파수-도메인 코딩 방식 모두를 지원하는 오디오 코덱이 획득될 수 있다는 것이다. 예를 들면, 제 1 운용 방식 및 제 2 운용 방식 중 어떤 것이 액세스되는가와 같은 판정은 데이터 스트림을 전송하기 위한 이용가능한 전송 비트레이트들에 따라 실행될 수 있다. 예를 들면, 판정의 의존성은 이용가능한 낮은 전송 비트레이트들의 경우에 제 2 운용 방식이 액세스되고, 이용가능한 높은 전송 비트레이트들의 경우에 제 1 운용 방식이 액세스되는 것과 같을 수 있다. 특히, 인코더에 운용 방식들을 제공함으로써, 인코더가 장기적으로 레이트/왜곡 비율과 관련하여 코딩 효율을 고려할 때 어떠한 코딩 방식의 선택이 코딩 효율 손실을 생성할 확률이 큰 것과 같은, 이용가능한 전송 비트레이트들에 의해 결정되는 것과 같은, 코딩 상황들의 경우에 인코더가 어떠한 시간-도메인 코딩 방식을 선택하는 것을 방지하는 것이 가능하다. 더 정확히 설명하면, 본 발명의 발명자들은 이용가능한 (상대적으로) 높은 전송 대역폭의 경우에 어떠한 시간-도메인 코딩 방식의 선택을 억제하는 것이 코딩 효율 증가를 야기한다는 것을 발견하였고, 반면에 단기적으로, 시간-도메인 코딩 방식은 주파수-도메인 코딩 방식들을 넘어 현재 바람직한 것으로 가정할 수 있는데, 이러한 가정은 만일 장기간 동안 오디오 신호를 분석하면 부정확한 것으로 밝혀질 확률이 크다. 그러나, 그러한 긴 분석 또는 예견(look-ahead)은 저지연 적용들에서 가능하지 않으며, 따라서, 인코더가 어떠한 시간-도메인 코딩 방식을 액세스하는 것을 방지하는 것은 증가된 코딩 효율의 달성을 가능하게 한다.
본 발명의 일 실시 예에 따라, 위의 개념은 데이터 비트레이트가 더 증가되는 정도까지 활용된다. 이는 인코더 및 디코더의 운용 방식을 동시에 제어하기에 꽤 저렴한 비트레이트이거나 또는 일부 다른 수단들에 동시발생이 제공되기 때문에 어떠한 비트레이트도 희생시키지 않으나, 인코더 및 디코더는 동시에 작동 방식들 사이에서 운용되고 전환된다는 사실은 각각 오디오 신호의 연속적인 부분들 내의 데이터 스트림의 개별 프레임들과 관련된 프레임 코딩 방식들을 시그널링하기 위한 시그널링 오버헤드(signaling overhead)를 감소시키기 위하여 활용될 수 있다. 특히, 디코더의 연관기(associator)는 데이터 스트림의 프레임들과 관련된 프레임 방식 구문 요소에 따라 복수의 프레임-코딩 방식의 방식-의존 세트들 중의 하나를 갖는 데이터 스트림의 각각의 연속적인 프레임들의 관련성을 실행하도록 구성되나, 연관기는 특히 활성 운용 방식에 따라 관련성의 실행의 의존도를 변경할 수 있다. 특히, 의존성 변화는 만일 활성 운용 방식이 제 1 운용 방식이면, 방식-의존 세트는 제 1 서브세트와 분리되고 제 2 서브세트로 오버랩하고, 만일 활성 운용 방식이 제 2 운용 방식이면, 방식-의존 세트는 두 서브세트로 오버랩하는 것과 같을 수 있다. 그러나, 운용 방식들과 관련된 상황들에 대한 지식을 활용함으로써 비트레이트를 증가시키는 덜 엄격한 해결책이 또한 실현 가능하다.
본 발명의 실시 예들의 바람직한 양상들이 종속항들의 주제이다.
특히, 본 발명의 바람직한 실시 예들이 도면들을 참조하여 아래에 더 상세히 설명된다.
도 1은 본 발명에 따른 오디오 디코더의 블록 다이어그램을 도시한다.
도 2는 일 실시 예에 따른 프레임 방식 구문 요소 및 방식 의존 세트의 프레임 방식들 사이의 전단사 매핑(bijective mapping)의 개략도를 도시한다.
도 3은 일 실시 예에 따른 시간-도메인 디코더의 블록 다이어그램을 도시한다.
도 4는 일 실시 예에 따른 주파수-도메인 인코더의 블록 다이어그램을 도시한다.
도 5는 일 실시 예에 따른 오디오 인코더의 블록 다이어그램을 도시한다.
도 6은 일 실시 예에 따른 시간-도메인 및 주파수-도메인 인코더를 위한 일 실시 예를 도시한다.
도면들의 설명과 관련하여 명백하게 달리 설명되지 않는 한, 하나의 도면에서의 구성요소들의 설명들은 다른 도면에서 그것과 관련된 동일한 참조 부호를 갖는 구성요소들에 동등하게 적용되어야 한다는 것을 이해하여야 한다.
도 1은 본 발명의 일 실시 예에 따른 오디오 디코더(10)를 도시한다. 오디오 디코더는 시간-도메인 디코더(12) 및 주파수-도메인 디코더(14)를 포함한다. 또한 오디오 디코더(10)는 데이터 스트림(20)의 각각의 연속적인 프레임들(18a-18c)을 바람직하게는 A, B 및 C로서 도 1에 도시된 복수의 프레임 코딩 방식(22)의 방식-의존 세트 이외의 하나에 연관시키도록 구성되는 연관기(16)를 포함한다. 3가지 이상의 프레임 코딩 방식이 존재할 수 있으며, 따라서 수는 3부터 다른 수로 변경될 수 있다. 각각의 프레임(18a-c)은 오디오 디코더가 데이터 스트림(20)으로부터 재구성되는 오디오 신호(26)의 연속적인 부분들(24a-c) 중의 하나와 상응한다.
더 정확히 설명하면, 연관기(16)는 아래에 더 상세히 설명되는 방식으로 이것들을 관련 프레임들(18a-c)에 제공하기 위하여 한편으로는 디코더(10)의 입력(28), 및 다른 한편으로는 시간-도메인 디코더(12)와 주파수-도메인 디코더(14)의 입력들 사이에 연결된다.
시간-도메인 디코더(12)는 그것들과 관련된 복수의 프레임-코딩 방식(22) 중 하나 또는 그 이상의 제 1 서브세트(30) 중의 하나를 갖는 프레임을 디코딩하도록 구성되고, 주파수-도메인 디코더(14)는 그것들과 관련된 복수의 프레임-코딩 방식(22) 중 하나 또는 그 이상의 제 2 서브세트(32) 중의 하나를 갖는 프레임을 디코딩하도록 구성된다. 제 1 및 제 2 서브세트들은 도 1에 도시된 것과 같이 서로 분리된다. 더 정확히 설명하면, 시간-도메인 디코더(12)는 그것들과 관련된 프레임-코딩 방식들의 제 1 서브세트들(30) 중의 하나를 갖는 프레임들과 상응하는 오디오 신호(26)의 재구성된 부분들(24a-c)을 출력하기 위한 출력을 가지며, 주파수-도메인 디코더(14)는 그것들과 관련된 프레임-코딩 방식들의 제 2 서브세트들(32) 중의 하나를 갖는 프레임들과 상응하는 오디오 신호(26)의 재구성된 부분들을 출력하기 위한 출력을 포함한다.
도 1에 도시된 것과 같이, 오디오 디코더(10)는 선택적으로, 한편으로는 시간-도메인 디코더(12)와 주파수-도메인 디코더(14)의 출력들 및 다른 한편으로는 디코더(10)의 출력(36) 사이에 연결되는 결합기(combiner, 34)를 가질 수 있다. 특히, 비록 도 1의 부분들(24a-c)은 서로 오버랩(overlap)하지 않으나, 이 경우에 있어서는 결합기(34)가 누락될 수 있는, 시간(t)에 따라 서로 즉시 뒤따르는 것으로 제안되나, 또한 부분들(24a-c)은 적어도 부분적으로, 시간(t)에 연속적이나, 예를 들면, 그 뒤에 더 상세히 설명되는 주파수-도메인 디코더(14)의 실시 예와 마찬가지로, 예를 들면, 주파수-도메인 디코더(14)에 의해 사용되는 겹침 변환(lapped transform)과 관련되는 시간-에일리어싱 제거(time-aliasing cancellation)를 허용하기 위한 것과 같이 부분적으로 서로 오버랩하는 것이 가능하다.
도 1의 실시 예의 또 다른 설명에 앞서, 도 1에 도시된 프레임-코딩 방식들(A-C)의 수는 단지 설명을 위한 것이라는 것을 이해하여야 한다. 도 1의 오디오 디코더는 3가지 이상의 코딩 방식을 지원할 수 있다. 다음에서, 서브세트(32)의 프레임-코딩 방식들은 주파수-도메인 코딩 방식들로 불리며, 반면에 서브세트(30)의 프레임-코딩 방식들은 시간-도메인 코딩 방식들로 불린다. 연관기(16)는 어떠한 시간-도메인 코딩 방식(30)의 프레임들(15a-c)을 시간-도메인 디코더(12)에 전달하고, 어떠한 주파수-도메인 코딩 방식의 프레임들(18a-c)을 주파수-도메인 디코더(14)에 전달한다. 결합기(34)는 도 1에 표시된 것과 같이 시간(t)에 따라 연속적으로 배치되도록 하기 위하여 시간-도메인 및 주파수-도메인 디코더(12 및 14)에 의한 출력으로서 오디오 신호(26)의 재구성된 부분들을 등록한다. 선택적으로, 결합기(34)는 주파수-도메인 디코더(14)에 의해 출력되는 부분들 사이의 에일리어싱 제거를 실행하기 위하여, 오버랩-가산 기능과 같은, 바로 연속적인 부분들 사이의 전이(transition)들에서 주파수-도메인 코딩 방식 부분들(24) 사이의 오버랩-가산 기능 또는 다른 특정 측정들을 실행할 수 있다. 즉, 주파수-도메인 코딩 방식 부분들(24)로부터 시간-도메인 코딩 방식 부분들(24)로 그리고 반대로의 전이를 위하여, 시간-도메인 및 주파수-도메인 디코더(12 및 14)에 의해 분리되어 출력되는 즉시 뒤따르는 부들(24a-c) 사이에서 전방 에일리어싱 제거가 실행될 수 있다. 가능한 구현들에 대한 상세한 설명을 위하여, 더 상세한 설명의 실시 예들이 아래에 참조된다.
아래에 더 상세히 설명될 것과 같이, 연관기(16)는 그러한 시간-도메인 코딩 방식의 사용이 시간-도메인 코딩 방식들이 주파수-도메인 방식들과 비교하여 레이트/왜곡 비율에 대하여 비효율적인 것 같은 높은 이용가능한 전송 비트레이트의 경우에서와 같은 부적합한 경우에 있어서 시간-도메인 코딩 방식의 사용을 방지하는 방식으로 데이터 스트림(20)이 연속적인 프레임들(18a-c)의 프레임-코딩 방식들(A-C)과의 관련을 실행하도록 구성된다. 따라서 특정 프레임(18a-18c)을 위한 시간-도메인 프레임-코딩 방식은 아마도 코딩 효율에서의 감소에 이르게 할 수 있다.
따라서, 연관기(16)는 데이터 스트림(20) 내의 프레임들(18a-c)과 관련된 구문 요소에 의존하는 프레임 코딩 방식들로의 프레임들의 관련을 실행하도록 구성된다. 예를 들면, 데이터 스트림(20)의 구문은 각각의 프레임(18a-c)이 상응하는 프레임(18a-c)이 속하는, 프레임-코딩 방식의 결정을 위하여 그러한 프레임 방식 구문 요소(38)를 포함하는 것과 같이 구성될 수 있다.
또한, 연관기(16)는 복수의 운용 방식 중 활성인 하나 내에서 운용되거나, 또는 복수의 운용 방식 중 현재 운용 방식을 선택하도록 구성된다. 연관기(16)는 데이터 스트림에 따라 또는 외부 신호에 따라 이러한 선택을 실행할 수 있다. 예를 들면, 아래에 더 상세히 설명될 것과 같이, 디코더(10)는 그것의 운용 방식을 인코더에서의 운용 방식 변화에 동시에 변경하고 동시발생을 구현하기 위하여, 인코더는 활성 운용 방식 및 데이터 스트림(20) 내의 운용 방식들 중 활성인 하나의 변화를 시그널링할 수 있다. 대안으로서, 인코더 및 디코더(10)는 진화된 패킷 시트템(EPS) 또는 실시간 전송 프로토콜(RTP) 등과 같은 낮은 전달 계층들에 의해 제공되는 제어 신호들과 같은 일부 외부 제어 신호에 의해 동시에 제어될 수 있다.
위에서 설명된 것과 같이 시간-도메인 코딩 방식들의 부적합한 선택들 또는 부적합한 사용의 방지를 예시하거나 실현하기 위하여, 연관기(16)는 프레임들(18)의 활성 운용 방식에 따른 코딩 방식들로의 연관의 실행의 의존을 변경하도록 구성된다. 특히, 만일 활성 운용 방식이 제 1 운용 방식이면, 복수의 프레임 코딩 방식의 방식 의존 세트는 예를 들면, 제 1 서브세트(30)에 분리되고 제 2 서브세트(32)를 오버랩하는, 40에 도시된 하나이며, 만일 활성 운용 방식이 제 2 운용 방식이면, 방식 의존 세트는 예를 들면, 도 1의 42에 도시된 것과 같고 제 1 및 제 2 서브세트들(30 및 32)을 오버랩한다.
즉, 도 1의 실시 예에 따라, 오디오 디코더(10)는 제 1 및 제 2 방식 사이의 그것의 활성 운용 방식을 변경하기 위하여 데이터 스트림(20) 또는 외부 제어 신호를 거쳐 제어가능하며, 그렇게 함으로써 주로 40 및 42 사이의, 프레임 코딩 운용 방식들의 운용 방식 의존 세트를 그에 알맞게 변경하며, 따라서 하나의 운용 방식에 따라, 운용 의존 세트(40)는 시간-도메인 코딩 방식들의 세트와 분리되며, 반면에 다른 운용 방식에서 방식 의존 세트(42)는 적어도 하나의 시간-도메인 코딩 방식뿐만 아니라 적어도 하나의 주파수-도메인 코딩 방식을 포함한다.
연관기(16)의 관련성의 성능의 의존성을 더 상세히 설명하기 위하여, 도 2가 참조되는데, 이는 바람직하게는 데이터 스트림 중의 단편(fragment)을 설명하며, 단편은 도 1의 프레임들(18a-18c) 중의 특정 하나와 관련된 프레임 방식 구문 요소(38)를 포함한다. 이와 관련하여, 도 1에 예시된 데이터 스트림(20)의 구조는 단지 설명의 목적을 위하여 적용되었으며, 서로 다른 구조가 또한 적용될 수 있다는 것을 이해하여야 한다. 예를 들면, 도 1의 프레임들(18a 내지 18c)은 그것들 사이의 어떠한 인터리빙(interleaving) 없이 데이터 스트림(20)의 간단히 연결되거나 또는 연속적인 부분들로서 도시되었으나, 그러한 인터리빙이 또한 적용될 수 있다. 게다가, 도 1은 프레임 방식 구문 요소(38)가 프레임 내에 포함되는 것으로 제안되나, 이는 반드시 그럴 필요는 없다. 오히려, 프레임 방식 구문 요소(38)는 프레임들(18a 내지 18c) 외부의 데이터 스트림(20) 내에 위치될 수 있다. 또한, 데이터 스트림(20) 내에 포함되는 프레임 방식 구문 요소(38)의 수는 데이터 스트림(20) 내의 프레임들(18a 내지 18c)의 수와 동일할 필요는 없다. 오히려, 예를 들면, 도 2의 프레임 방식 구문 요소(38)는 데이터 스트림(20) 내의 프레임들(18a 내지 18c) 중의 하나 이상과 관련될 수 있다.
어떤 경우라도, 프레임 방식 구문 요소(38)가 데이터 스트림(20) 내로 삽입되는 방법에 따라, 데이터 스트림(20)을 거쳐 포함되고 전송된 것과 같은 프레임 방식 구문 요소(38), 및 프레임 방식 구문 요소(38)의 가능한 값들 중의 하나의 세트(46) 사이에 매핑(44)이 존재한다. 예를 들면, 프레임 방식 구문 요소(38)는 즉, 예를 들면, 펄스 코드 변조(PCM)와 같은 이진 표현을 사용하거니 또는 가변 길이 코드를 사용하거나 및/또는 허프만(Huffman) 또는 산술 코딩과 같은 엔트로피 코딩을 사용하여 직접 데이터 스트림(20) 내로 삽입될 수 있다. 따라서, 연관기(16)는 가능한 값들 중의 어느 하나를 유래하기 위하여 디코딩에 의한 것과 같이, 데이터 스트림(20)으로부터 프레임 방식 구문 요소(38)를 추출(48)하도록 구성될 수 있는데, 가능한 값들이 작은 삼각형들로 도 2에 표시된다. 인코더 면에서, 삽입(50)은 인코딩에 의한 것과 같이, 상응하게 수행된다.
즉, 프레임 방식 구문 요소(38)가 가능하게 추정할 수 있는 각각의 가능한 값, 즉, 프레임 방식 구문 요소(38)의 가능한 값(46) 범위 내의 각각의 가능한 값은 복수의 프레임 방식 코딩 방식(A, B 및 C) 중의 특정한 하나와 관련된다. 특히, 한편으로는 세트(46)의 가능한 값들 및 다른 한편으로는 프레임 코딩 방식들의 방식 의존 세트 사이에 전단사 매핑이 존재한다. 도 2의 양촉 화살표(52)에 의해 표시된 것과 같이, 매핑은 활성 운용 방식에 따라 변한다. 전단사 매핑(52)은 활성 운용 방식에 따라 매핑(52)을 변경하는 연관기(16)의 기능의 일부이다. 도 1에 대하여 설명된 것과 같이, 방식 의존 세트(40 또는 42)는 도 2의 도시된 제 2 운용 방식의 경우에 두 프레임 코딩 방식 서브세트들(30 및 32)과 함께 오버랩하나, 제 1 운용 방식의 경우에 서브세트(30)와 분리되는데, 즉 서브세트(30)의 어떠한 요소도 포함하지 않는다. 바꾸어 말하면, 전단사 매핑(52)은 프레임 방식 구문 요소(38)의 가능한 값들의 도메인을 각각 방식 의존 세트(50 및 52)로 불리는, 프레임 코딩 방식들의 공동-도메인(co-domain) 상으로 매핑한다. 세트(46)의 가능한 값들을 위하여 삼각형의 실선의 사용에 의해 도 1 및 도 2에 도시된 것과 같이, 전단사 매핑(52)의 도메인은 두 운용 방식, 즉 제 1 운용 방식 및 제 2 운용 방식에서 동일하게 남으나, 전단사 매핑(52)의 공동-도메인은 위에 도시되고 설명된 것과 같이 변한다.
그러나, 세트(46) 내의 가능한 값들의 수도 변할 수 있다. 이는 도 2의 파선으로 도시된 삼각형에 의해 표시된다. 더 정확히 설명하면, 이용가능한 프레임 방식들의 수는 제 1 및 제 2 운용 방식 사이에서 서로 다르다. 그러나, 만일 그렇다면, 연관기(16)는 어떤 경우라도 전단사 매핑(52)의 공동-도메인이 위에 설명된 것과 같이 실행되는 것과 같이 구현된다. 활성인 제 1 운용 방식의 경우에 방식 의존 세트 및 서브세트(30) 사이에 어떠한 오버랩도 존재하지 않는다.
달리 설명하면, 다음과 같이 언급된다. 내부적으로, 프레임 방식 구문 요소(38)의 값은 이의 가능한 값의 범위가 현재의 활성 운용 방식과 관계없는 가능한 값들의 세트(46)를 수용하는, 일부 이진 값에 의해 표현될 수 있다. 더 정확히 설명하면, 연관기(16)는 내부적으로 이진 표현의 이진 값으로 프레임 구문 요소(38)의 값을 표현할 수 있다. 이러한 이진 값들을 사용하여, 세트(46)의 가능한 값들이 서열 척도(ordinal scale) 내로 분류되고 따라서 세트(46)의 가능한 값들은 운용 방식의 변경의 경우에도 서로 유사하게 남는다. 이러한 서열 척도에 따른 세트(46)의 제 1 가능한 값은 예를 들면, 세트(46)의 가능한 값들 중에서 가장 높은 확률, 연속적으로 그 다음의 적은 확률인 세트(46)의 가능한 값들 중 두 번째 등과 관련된 것으로 정의될 수 있다. 따라서, 프레임 방식 구문 요소(38)의 가능한 값들은 운용 방식의 변경에도 불구하고 서로 유사할 수 있다. 후자의 예에 있어서, 전단사 매핑(52)의 도메인 및 공동-도메인, 즉, 프레임 코딩 방식들의 가능한 값들의 세트(46) 및 방식 의존 세트는 제 1 및 제 2 운용 방식 사이를 변경하는 활성 운용 방식에도 불구하고 동일하게 남으나, 전단사 매핑(52)은 한편으로는 방식 의존 세트의 프레임 코딩 방식들 및 다른 한편으로는 세트(46)의 상당히 가능한 값들 사이의 관련성을 변경한다. 후자의 실시 예에서, 도 1의 디코더(10)는 주로 제 1 운용 방식의 경우에 부적합한 시간-도메인 코딩 방식들의 선택을 피함으로써, 여전히 그 뒤에 설명되는 실시 예들에 따라 작동하는 인코더를 이용할 수 있다. 제 1 운용 방식의 경우에 세트(46)의 더 예상 가능한 값들을 주파수-도메인 코딩 방식들(32)과 관련시킴으로써, 제 1 운용 방식 동안에만 시간-주파수 코딩 방식들(30)을 위한 세트(46)의 낮은 예상 가능한 값들의 사용 동안에, 제 2 운용 방식에서의 이러한 방침의 변경은 만일 데이터 스트림(20) 내로/으로부터 프레임 방식 구문 요소(38)의 삽입/추출을 위하여 엔트로피 코딩을 사용하면 데이터 스트림(20)을 위한 높은 압축 비율을 야기한다. 바꾸어 말하면, 제 1 운용 방식 중에, 시간-도메인 코딩 방식들(30) 중 어떤 것도 주파수-도메인 코딩 방식(32) 중 어느 하나 상으로의 매핑(52)에 의해 매핑되는 가능한 값을 위한 확률보다 높은 그것과 관련된 확률을 갖는 세트(46)의 가능한 값과 관련될 수 없는데, 그러한 경우는 적어도 하나의 시간-도메인 코딩 방식(30)이 매핑(52)에 따라 주파수-도메인 코딩 방식(32)과 관련된 다른 가능한 값보다 높은 그것과 관련된 확률을 갖는 그러한 가능한 값과 관련되는 제 2 코딩 방식에 존재한다.
앞서 언급된 가능한 값들(46)과 관련되고 선택적으로 이를 인코딩/디코딩하도록 사용되는 확률은 고정적이거나 또는 적응적으로 변경될 수 있다. 서로 다른 운용 방식들을 위하여 서로 다른 확률 측정들의 세트가 사용될 수 있다. 확률을 적응적으로 변경하는 경우에 있어서, 문맥 적응성(context-adaptive) 엔트로피 코딩이 사용될 수 있다.
도 1에 도시된 것과 같이, 연관기(16)를 위한 바람직한 일 실시 예는 관련성의 성능의 의존성은 활성 운용 방식에 의존하며, 프레임 방식 구문 요소(38)는 세트(46) 내의 서로 다른 가능한 값들의 수가 제 1 또는 제 2 운용 방식인 활성 운용 방식과 독립적인 것과 같이 데이터 스트림(20) 내로 인코딩되고 데이터 스트림으로부터 디코딩되는 것과 같다. 특히, 도 1의 경우에, 서로 다른(구별가능한, differentiable) 가능한 값들(possible values)의 수는 실선들을 갖는 삼각형들을 고려할 때, 또한 도 2에 도시된 것과 같이, 2이다. 그러한 경우에 있어서, 예를 들면, 연관기(16)는 만일 활성 운용 방식이 제 1 운용 방식이면, 방식 의존 세트(40)가 프레임 코딩 방식들의 제 2 서브세트(32)의 제 1 및 제 2 프레임 코딩 방식(A 및 B)을 포함하고, 이러한 프레임 코딩 방식들에 대한 책임을 맡는, 주파수-도메인 디코더(14)는 그것과 관련된 제 1 및 제 2 프레임 코딩 방식(A 및 B) 중 하나를 갖는 프레임들을 디코딩하는데 서로 다른 시간-주파수 해상도들을 사용하도록 구성된다. 이러한 측정에 의해, 예를 들면, 데이터 스트림(20) 내의 프레임 방식 구문 요소(38)를 다른 어떠한 엔트로피 코딩 없이 직접 전송하는데 1 비트면 충분할 수 있으며, 단지 전단사 매핑(54)만이 제 1 운용 방식으로부터 제 2 운용 방식으로의 변경 및 반대의 변경 상에서 변한다.
도 3 및 4와 관련하여 아래에 더 상세히 설명될 것과 같이, 시간-도메인 디코더(12)는 부호 여진 선형 예측(code excited linear-prediction) 디코더일 수 있으며, 주파수-도메인 디코더는 데이터 스트림(20) 내로 인코딩되는 변환 계수 레벨들을 기초로 하여 그것과 관련된 프레임 코딩 방식들의 제 2 서브세트 중 어느 하나를 갖는 프레임들을 디코딩하도록 구성되는 변환 디코더일 수 있다.
예를 들어, 도 3이 참조된다. 도 3은 재구성된 오디오 신호(25)의 상응하는 부들(24)을 생성하도록 시간-도메인 디코더(12)를 통과하도록 하기 위하여 시간-도메인 디코더(12) 및 시간-도메인 코딩 방식과 관련된 프레임의 일 실시 예를 도시한다. 도 3의 실시 예 및 뒤에 설명될 도 4의 실시 예에 따라, 시간-도메인 디코더(12)뿐만 아니라 주파수-도메인 디코더는 데이터 스트림(12)으로부터 각각의 프레임을 위한 선형 예측 필터 계수들을 획득하도록 구성되는 선형 예측 기반 디코더들이다. 도 3 및 4는 각각의 프레임(18)이 그 안에 통합되는 선형 예측 필터 계수들(16)을 가질 수 있다는 것을 제안하나, 반드시 그렇지는 않다. 선형 예측 계수들(60)이 데이터 스트림(12) 내로 전송되는 선형 예측 코딩 전송 비율은 프레임들(18)의 프레임 비율과 동일하거나 또는 서로 다를 수 있다. 그럼에도 불구하고, 인코더 및 디코더는 선형 예측 코딩 전송 비율로부터 선형 예측 코딩 적용 비율 상으로 보간함(interpolate)으로써 동시에 각각의 프레임과 개별적으로 관련된 선형 예측 필터 계수들로 운용하거나 또는 이를 적용할 수 있다.
도 3에 도시된 것과 같이, 시간-도메인 디코더(12)는 선형 예측 합성 필터(62) 및 여진 신호 구성기(excitation signal constructor, 64)를 포함할 수 있다. 도 3에 도시된 것과 같이, 선형 예측 합성 필터(62)에 현재 시간-도메인 코딩 방식 프레임(18)을 위하여 데이터 스트림(12)으로부터 획득되는 선형 예측 필터 계수들이 제공된다. 여진 신호 구성기(64) 및 선형 예측 합성 필터(62)는 합성 필터(62)의 출력에서 재구성되는 상응하는 오디오 신호 부분(24)을 출력하기 위하여 직렬로 연결된다. 특히, 여진 신호 구성기(64)는 도 3에 표시된 것과 같이, 그것과 관련된 어떠한 시간-도메인 코딩 방식을 갖는 현재 디코딩된 프레임 내에 포함될 수 있는 여진 파라미터(66)를 사용하여 여진 신호(68)를 구성하도록 구성된다. 여진 신호(68)는 선형 예측 합성 필터(62)에 의해 스펙트럼 엔벨로프(spectral envelope)가 형성되는, 잔류 신호의 한 종류이다. 특히, 선형 예측 합성 필터는 오디오 신호(26)의 재구성된 부분(24)을 생산하기 위하여, 현재 디코딩된 프레임(그것과 관련된 어떠한 시간-도메인 코딩 방식을 갖는)을 위하여 데이터 스트림(20) 내에 전달되는 선형 예측 필터 계수들에 의해 제어된다.
도 3의 부호 여진 선형 예측 디코더의 가능한 구현에 대한 더 상세한 설명을 위하여, 예를 들면, 위에서 설명된 통합 음성 및 오디오 코딩 [2] 또는 확장 적응성 멀티-레이트-광대역(AMR-WB+) 코덱 [1]과 같은 알려진 코덱들이 참조된다. 후자의 코덱에 따라, 도 3의 여진 부호 선형 예측 디코더는 어떠한 여진 신호(68)가 코드/파라미터 제어된 신호의 결합에 의해 형성되는가에 따라, 즉, 혁신 여진(innovation exitation), 및 또한 현재 디코딩된 시간-도메인 코딩 방식 프레임(18)을 위하여 데이터 스트림(12) 내에 전달되는 적응적 여진 파라미터에 따라 즉시 선행하는 시간-도메인 코딩 방식 프레임을 위하여 최종적으로 획득되고 적용되는 여진 신호의 변환을 야기하는 연속적으로 업데이트되는 적응적 여진에 따라 대수 부호 여진 선형 예측 디코더로서 구현될 수 있다. 적응적 여진 파라미터는 예를 들면, 현재 프레임을 위한 적응적 여진을 획득하기 위하여 피치 및 이득의 의미에 있어서 과거 프레임을 어떻게 변형하는가를 규정하는, 피치 래그(pitch lag) 및 이득(gain)을 정의할 수 있다. 코드(66)는 코드북 룩-업(look-up)을 위하여 사용될 수 있거나, 또는 그렇지 않으면, 논리적으로 또는 산술적으로, 예를 들면, 수 및 위치와 관련하여 혁신 여진의 펄스들을 정의할 수 있다.
유사하게, 도 4는 주파수-도메인 디코더(14)의 가능한 실시 예를 도시한다. 도 4는 그것과 관련된 어떠한 주파수-도메인 코딩 방식을 갖는 프레임(18)과 함께, 주파수-도메인 디코더(14)로 들어가는 현재 프레임(18)을 도시한다. 주파수-도메인 디코더(14)는 출력이 재변환기(retransformer, 72)에 연결되는, 주파수 도메인 잡음 형상기(frequency-domain noise shaper, 70)을 포함한다. 재변환기(72)의 출력은 결과적으로, 현재 디코딩되는 프레임(18)과 상응하는 오디오 신호의 재구성된 부분을 출력하는, 주파수-도메인 디코더(14)의 출력이다.
도 4에 도시된 것과 같이, 데이터 스트림(20)은 그것과 관련된 어떠한 주파수-도메인 코딩 방식을 갖는 프레임들을 위하여 변환 계수 레벨들(74) 및 선형 예측 필터 계수들(76)을 전달할 수 있다. 선형 예측 필터 계수들(76)은 그것과 관련된 어떠한 주파수-도메인 코딩 방식을 갖는 프레임들과 관련된 선형 예측 필터 계수와 동일한 구조를 가질 수 있으나, 변환 계수 레벨들(74)은 변환 도메인 내의 주파수-도메인 프레임들(18)을 위한 여진 신호를 표현하기 위한 것이다. 통합 음성 및 오디오 코딩으로부터 알려진 것과 같이, 변환 계수 레벨들(74)은 스펙트럼 축을 따라 서로 다르게 코딩될 수 있다. 변환 계수 레벨들(74)의 양자화 정확도는 통상의 스케일 팩터(scale factor) 또는 이득 팩터에 의해 제어될 수 있다. 스케일 팩터는 데이터 스트림의 일부일 수 있고 변환 계수 레벨들(74)의 일부로 가정될 수 있다. 그러나, 다른 양자화 방식이 또한 사용될 수 있다. 변환 계수 레벨들(74)은 주파수-도메인 잡음 형상기(70)에 제공된다. 이는 동일하게 현재 디코딩된 주파수-도메인 프레임(18)을 위하여 선형 예측 필터 계수들(76)에 적용된다. 주파수-도메인 잡음 형상기(70)는 그리고 나서 변환 계수 레벨들(74)로부터 여진 신호의 여진 스펙트럼을 획득하고 선형 예측 필터 계수들(76)에 따라 이러한 여진 스펙트럼을 스펙트럼으로 형상화하도록 구성된다. 더 정확히 설명하면, 주파수-도메인 잡음 형상기(70)는 여진 신호의 스펙트럼을 생산하기 위하여 변환 계수 레벨들(74)을 탈양자화하도록 구성된다. 그리고 나서, 주파수-도메인 잡음 형상기(70)는 선형 예측 필터 계수들(76)에 의해 정의되는 선형 예측 합성 필터와 상응하도록 하기 위하여 선형 예측 필터 계수들(76)을 가중스펙트럼 내로 전환한다. 이러한 전환은 선형 예측 코딩들을 스펙트럼 가중 값들로 바꾸도록 하기 위하여 선형 예측 코딩들에 적용되는 홀수 이산 푸리에 변환(ODFT)을 포함할 수 있다. 더 상세한 설명이 통합 음성 및 오디오 코딩으로부터 획득될 것이다. 가중 스펙트럼을 사용하여 주파수-도메인 잡음 형상기(70)는 변환 계수 레벨들(74)에 의해 획득된 여진 스펙트럼을 형상화하거나 또는 가중하며, 그렇게 함으로써, 여진 신호 스펙트럼을 획득한다. 형상화/가중에 의해, 변환 계수들을 양자화함으로써 인코더 면에 도입되는 양자화 잡음은 인지적으로(perceptually) 덜 중요하도록 형상화된다. 재변환기(72)는 그리고 나서 방금 디코딩된 프레임(18)과 상응하는 재구성된 부분을 획득하기 위하여 주파수 도메인 잡음 형상기(70)에 의한 출력으로서 형상화된 여진 스펙트럼을 재변환한다.
위에서 이미 설명된 것과 같이, 도 4의 주파수-도메인 디코더(14)는 서로 다른 코딩 방식들을 지원할 수 있다. 특히, 주파수-도메인 디코더(14)는 그것과 관련된 서로 다른 주파수-도메인 코딩 방식들을 갖는 주파수-도메인 프레임들을 디코딩하는데 있어서 서로 다른 시간-도메인 해상도들을 적용하도록 구성될 수 있다. 예를 들면, 재변환기(72)에 실행되는 재변환은 변환되려는 신호의 어떠한 연속적이고 상호 오버래핑 윈도우잉되는 부분들이 개별 변환들 내로 세분되는가에 따라, 겹침 변환일 수 있는데, 재변환(72)은 이러한 윈도우잉된 부분들(78a, 78b 및 78c)의 재구성을 생산한다. 위에서 이미 설명된 것과 같이, 결합기(34)는 예를 들면, 오버랩-가산 과정에 의해 이러한 윈도우잉된 부분들의 오버랩에서 발생하는 에일리어싱을 상호 보상할 수 있다. 재변환기(72)의 겹침 변환 또는 겹침 재변환은 예를 들면, 시간 에일리어싱 제거를 필요로 하는 임계적으로 샘플링되는 변환/재변환일 수 있다. 예를 들면, 재변환기(72)는 역 변형 이산 코사인 변환을 실행할 수 있다. 어떤 경우에도, 주파수-도메인 코딩 방식들(A 및 B)은 예를 들면, 현재 디코딩된 프레임(18)과 상응하는 부분(18)이 하나의 윈도우잉된 부분(78)에 의해 전환되거나(또한 선행 및 다음 부분들 내로 확장하며, 그렇게 함으로써 프레임(18) 내의 변환 계수 레벨들(74)의 하나의 큰 변환 세트를 생산한다) 또는 두 개의 연속적인 윈도우잉된 서브-부분들(78c 및 78b) 내로(상호 오버래핑되고 각각 선행 부분 및 다음 부분 내로 확장하고 이들로 오버래핑되는, 그렇게 함으로써 프레임(18) 내의 변환 계수 레벨들(74)의 두 개의 작은 변환 세트를 생산하는) 전환된다. 따라서, 디코더 및 주파수-도메인 잡음 형상기(70) 및 재변환기(72)는 예를 들면, 방식(A)의 프레임들을 위하여 두 가지 운용- 형상화 및 재변환-을 실행할 수 있는데, 그것들은 예를 들면 프레임 코딩 방식(B)의 프레임 당 하나의 운용을 상호 실행한다.
위에서 설명된 오디오 디코더를 위한 실시 예들은 시간-도메인 프레임 코딩 방식들이 이러한 운용 방식들 중 하나에서 선택되지 않고, 다른 방식에서 선택되는 정도까지 주로 이러한 운용 방식들 사이의 프레임 코딩 방식들 중에서의 선택을 변경하기 위하여, 서로 다른 운용 방식들에서 운용되는 오디오 인코더를 이용하도록 디자인되었다. 그러나, 아래에 설명되는 오디오 인코더를 위한 실시 예들은 또한 적어도 이러한 실시 예들의 서브세트가 관련되는 한, 서로 다른 운용 방식들을 지원하지 않는 오디오 디코더에 맞을 수 있다는 것을 이해하여야 한다. 이는 어떠한 데이터 스트림이 이러한 운용 방식들 사이에서 바뀌지 않는지에 따라 그러한 인코더 실시 예들을 위하여 적어도 사실이다. 바꾸어 말하면, 아래에 설명되는 오디오 인코더를 위한 일부 실시 예들에 따라, 운용 방식들 중의 하나에서 주파수-도메인 코딩 방식들로의 프레임 코딩 방식의 선택의 제한은 운용 방식 변경들이 투명한 한(활성인 이러한 운용 방식들 중 하나의 동안에 시간-도메인 프레임 코딩 방식들을 제외하고), 자체로 데이터 스트림(12) 내에 반영하지 않는다. 그러나, 특히 위에서 설명된 다양한 실시 예들에 따른 특히 전용 오디오 디코더들은 위에서 설명된 오디오 인코더를 위한 각각의 실시 예들과 함께, 부가적으로 위에서 설명된 것과 같이, 예를 들면, 특정 전송 조건들과 상응하는 특정 운용 방식 동안에 프레임 코딩 방식 선택 제한을 이용하는 오디오 코덱들을 형성한다.
도 5는 본 발명의 일 실시 예에 따른 오디오 인코더를 도시한다. 도 5의 오디오 인코더는 일반적으로 100으로 표시되고 연관기(102), 시간-도메인 인코더(104) 및 주파수-도메인 인코더(106)를 포함하며, 연관기(102)는 한편으로는 오디오 인코더(100)의 입력(108) 및 다른 한편으로는 시간-도메인 인코더(104)와 주파수-도메인 인코더(106)의 입력들 사이에 연결된다. 시간-도메인 인코더(104)와 주파수-도메인 인코더(106)의 출력들은 오디오 인코더(100)의 출력(110)에 연결된다. 따라서, 도 5에서 112로 표시되는, 인코딩되려는 오디오 신호는 입력(108)으로 들어가고 오디오 인코더(100)는 그것으로부터 데이터 스트림(114)을 형성하도록 구성된다.
연관기(102)는 이전에 설명된 오디오 신호(112)의 부분들(24)과 상응하는 연속적인 부분들(116a 내지 116c)을 복수의 프레임 코딩 방식(도 1 내지 4의 40 및 42 참조)의 방식 의존 세트 중의 하나와 관련시키도록 구성된다.
시간-도메인 인코더(104)는 그것과 관련된 하나 또는 그 이상의 복수의 프레임 코딩 방식의 제 1 서브세트(30) 중의 하나를 갖는 부분들(116a 내지 116c)을 데이터 스트림(114)의 상응하는 프레임(118a 내지 118c) 내로 인코딩하도록 구성된다. 주파수-도메인 인코더(106)는 유사하게 그것과 관련된 세트(32)의 어떠한 주파수-도메인 코딩 방식을 갖는 부분들을 데이터 스트림(114)의 상응하는 프레임(118a 내지 118c) 내로 인코딩하는데 책임이 있다.
연관기(102)는 복수의 운용 방식 중 활성의 하나에서 운용하도록 구성된다. 더 정확히 설명하면, 연관기(102)는 복수의 운용 방식 중 하나가 정확하게 활성인 것과 같이 구성되나, 복수의 운용 방식 중 활성인 하나의 선택은 오디오 신호(112)의 연속적으로 인코딩하는 부분들(116a 내지 116c) 동안에 변할 수 있다.
특히, 연관기(102)는 만일 활성 운용 방식이 제 1 운용 방식이면, 방식 운용 세트는 주로 제 1 서브세트(30)와 분리되고 제 2 서브세트(32)로 오버랩하는, 도 1의 세트(40) 같이 행동하나, 만일 활성 운용 방식이 제 2 운용 방식이면, 복수의 인코딩 방식의 방식 의존 세트는 제 1 및 제 2 서브세트(30 및 32)로 오버랩하는 도 1의 방식(42) 같이 행동한다.
위에서 설명된 것과 같이, 도 5의 오디오 인코더의 기능성은 비록 전송 조건들과 같은, 외부 조건들이 어떠한 시간-도메인 프레임 코딩 방식의 예비 선택은 주파수-도메인 프레임 코딩 방식만을 제한하는 것과 비교할 때 레이트/왜곡 비율과 관련하여 낮은 코딩 효율을 생산할 수 있는 것과 같더라도 어떠한 시간-도메인 프레임 코딩 방식을 바람직하지 않게 선택되는 것을 방지하는 것과 같이 인코더(100)를 외부로 제어하는 것을 가능하게 한다. 도 5에 도시된 것과 같이, 연관기(102)는 예를 들면, 외부 제어 신호(120)를 수신하도록 구성될 수 있다. 연관기(102)는 예를 들면, 외부 엔티티(entity)에 의해 제공되는 외부 제어 신호(120)가 데이터 스트림(114)의 이용가능한 전송 대역폭을 나타내는 것과 같이 일부 외부 엔티티에 연결될 수 있다. 이러한 외부 엔티티는 예를 들면, 개방형 시스템 상호접속(OSI) 계층 모델에 대하여 하부와 같은 기본 하부 전송 계층의 일부일 수 있다. 예를 들면, 외부 엔티티는 LTE 통신 네트워크의 일부일 수 있다. 신호(112)는 자연적으로 실제 이용가능한 전송 대역폭의 측정 또는 평균 미래 이용가능한 전송 대역폭의 측정을 기초로 하여 제공될 수 있다. 도 1 내지 4와 관련하여 위에서 이미 설명된 것과 같이, "제 1 운용 방식"은 특정 한계값(threshold)보다 낮은 이용가능한 전송 대역폭들과 관련될 수 있으며, 반면에 "제 2 운용 방식"은 특정 한계값을 초과하는 이용가능한 전송 대역폭들과 관련될 수 있는데, 이렇게 함으로써 주로, 만일 이용가능한 전송 대역폭이 특정 한계값보다 낮으면, 인코더(100)는 시간-도메인 코딩이 더 비효율적인 압축을 생산할 것 같은 부적합한 조건들에서 어떠한 시간-도메인 프레임 코딩 방식을 선택하는 것을 방지한다.
그러나, 제어 신호(120)는 또한 예를 들면, 음성 단계들, 즉, 이 동안에 오디오 신호(112) 내에 음성 컴포넌트들이 우세한, 시간 간격들, 및 음악 등과 같은 다른 오디오 소스들이 오디오 신호(112) 내에 우세한 비-음성 단계들 사이를 구별하기 위하여, 재구성되려는 오디오 신호(112)를 분석하는 음성 검출기와 같은 일부 다른 엔티티에 의해 제공될 수 있다. 제어 신호(120)는 음성 및 비-음성 단계들에서의 이러한 변화를 나타낼 수 있으며 연관기(102)는 운용 방식들 사이를 그에 알맞게 변경하도록 구성될 수 있다. 예를 들면, 음성 단계들에서 연관기(102)는 앞서 언급된 "제 2 운용 방식"으로 들어갈 수 있으나 "제 1 운용 방식"은 비-음성 단계들과 관련될 수 있는데, 그렇게 함으로써 비-음성 단계들 동안에 시간-도메인 프레임 코딩 방식들의 선택은 덜 효율적인 압축을 야기할 것 같다는 사실을 따른다.
각각의 부분(116a 내지 116c)을 위하여 복수의 프레임 코딩 방식 중 어떤 프레임 코딩 방식이 관련되는지를 나타내기 위하여 프레임 방식 구문 요소(112, 도 1의 구문 요소(38)와 비교)를 데이터 스트림(114) 내로 인코딩하도록 구성될 수 있으며, 이러한 프레임 방식 구문 요소(122)의 데이터 스트림(114) 내로의 삽입은 도 1의 프레임 방식 구문 요소(38)를 갖는 데이터 스트림(20)을 생성하기 위하여 운용 방식에 의존하지 않을 수 있다. 위에서 이미 설명된 것과 같이, 데이터 스트림(114)의 데이터 스트림 발생은 현재 활성인 운용 방식과 관계없이 실행될 수 있다.
그러나, 비트레이트 오버헤드와 관련하여, 만일 데이터 스트림(114)이 어떤 데이터 스트림 발생이 현재 활성인 운용 방식에 바람직하게 적용되는지에 따라, 도 1 내지 4의 실시 예들과 관련하여 위에서 논의된 데이터 스트림(20)을 생성하기 위하여 도 5의 오디오 인코더(100)에 의해 발생되면, 이는 바람직하다.
따라서, 도 1 내지 4에 대한 오디오 디코더를 위하여 위에서 설명된 실시 예들과 맞는 도 5의 오디오 인코더(100)의 일 실시 예에 따라, 연관기(102)는 전단사 매핑(52)이 활성 운용 방식에 따라 변하는, 한편으로는 각각의 부분(116a 내지 116c)과 관련된 프레임 방식 구문 요소(122)의 가능한 값들(46)의 세트, 및 다른 한편으로는 프레임 코딩 방식들의 방식 의존 세트 사이의 전단사 매핑(52)을 사용하여 프레임 방식 구문 요소(38)를 데이터 스트림(114) 내로 인코딩하도록 구성될 수 있다. 특히, 변경은 만일 활성 운용 방식이 제 1 운용 방식이면, 방식 의존 세트는 즉 제 1 서브세트(30)와 분리되고 제 2 서브세트(32)로 오버랩하는, 세트(40) 같이 행동하고, 반면에 만일 활성 운용 방식이 제 2 운용 방식이면, 방식 의존 세트는 즉, 제 1 및 제 2 서브세트(30 및 32)로 오버랩하는, 세트(42) 같이 행동하는 것과 같을 수 있다. 특히, 위에서 이미 설명된 것과 같이, 세트(46) 내의 가능한 값들의 수는 제 1 또는 제 2 운용 방식인 것과 관계없이 2일 수 있으며, 연관기(102)는 만일 활성 운용 방식이 제 1 운용 방식이면, 방식 의존 세트는 주파수-도메인 프레임 코딩 방식들(A 및 B)을 포함하는 것과 같이 구성될 수 있고, 주파수-도메인 인코더(106)는 방식 A 또는 방식 B인 그것의 프레임 코딩에 따라 각각의 부분들(116a 내지 116c)을 인코딩하는데 서로 다른 시간-주파수 해상도들을 사용하도록 구성될 수 있다.
도 6은 변환 코딩 여진 선형 예측 코딩은 주파수-도메인 코딩 방식들을 위하여 사용되는 동안에, 시간-도메인 프레임 코딩 방식을 위하여 어떤 부호 여진 선형 예측 코딩이 사용될 수 있는지에 따라, 위에서 이미 설명된 사실과 상응하는 시간-도메인 인코더(104) 및 주파수-도메인 인코더(106)의 가능한 구현을 위한 일 실시 예를 도시한다. 따라서, 도 6에 따라, 시간-도메인 인코더(104)는 부호 여진 선형 예측 인코더이고 주파수-도메인 인코더(106)는 변환 계수 레벨들을 사용하여 그것과 관련된 어떠한 주파수-도메인 프레임 코딩 방식을 갖는 부분들을 인코딩하고 이를 오디오 스트림(114)의 상응하는 프레임들(118a 내지 118c) 내로 인코딩하도록 구성되는 변환 인코더이다.
시간-도메인 인코더(104) 및 주파수-도메인 인코더(106)을 위한 가능한 구현을 설명하기 위하여, 도 6이 참조된다. 도 6에 따라, 주파수-도메인 인코더(106) 및 시간-도메인 인코더(104)는 선형 예측 코딩 분석기(130)를 공유한다. 그러나, 이러한 상황은 본 발명의 실시 예에 중요하지 않으며 두 인코더(104 및 106)가 서로 완전히 분리되는 다른 구현이 또한 사용될 수 있다는 것을 이해하여야 한다. 게다가, 인코더 실시 예들뿐만 아니라 도 1 내지 4에 대하여 위에서 설명된 디코더 실시 예들과 관련하여, 본 발명은 두 코딩 방식들, 즉, 주파수-도메인 프레임 코딩 방식들뿐만 아니라 시간-도메인 프레임 코딩 방식들이 선형 예측 기반인 경우들로 한정되지 않는다는 것을 이해하여야 한다. 오히려, 인코더 및 디코더 실시 예들은 또한 서로 다른 방식으로 시간-도메인 코딩 및 주파수-도메인 코딩 중의 하나가 구현되는 다른 경우들에 이용가능할 수 있다.
다시 도 6을 설명하면, 도 6의 주파수-도메인 인코더(106)는 선형 예측 코딩 분석기(130) 이외에, 변환기(132), 선형 예측 코딩-대-주파수 도메인 가중 전환기(134), 주파수-도메인 잡음 형상기(136) 및 양자화기(138)를 포함한다. 변환기(132), 주파수 도메인 잡음 형상기(136) 및 양자화기(138)는 주파수-도메인 인코더(106)의 공통 입력(140) 및 출력(142) 사이에 직렬 연결된다. 선형 예측 코딩 변환기(134)는 선형 예측 코딩 분석기(130)의 출력 및 주파수 도메인 잡음 형상기(136)의 가중 입력 사이에 연결된다. 선형 예측 코딩 분석기(130)의 입력은 공통 입력(140)에 연결된다.
시간-도메인 인코더(104)와 관련하여, 이는 선형 예측 코딩 분석기(130) 이외에, 모두 시간-도메인 인코더(104)의 공통 입력(140) 및 출력(148) 사이에 직렬로 연결되는, 선형 예측 분석 필터(144) 및 코드 기반 여진 신호 근사장치(code based excitation signal approximation, 146)를 포함한다. 선형 예측 분석 필터(144)의 선형 예측 계수 입력은 선형 예측 코딩 분석기(130)의 출력에 연결된다.
입력(140)에 들어가는 오디오 신호(112)를 인코딩하는데 있어서, 선형 예측 코딩 분석기(130)는 오디오 신호(112)의 각각의 부분(116a 내지 116c)을 위한 선형 예측 계수들을 연속적으로 결정한다. 선형 예측 코딩 결정은 (위너-)레빈슨-더빈 알고리즘 또는 슈어(Schur) 알고리즘 등을 사용하는 것과 같이 연속-오버래핑 또는 비-오버래핑(오디오 신호의 윈도우잉된 부분들)을 결과로서 생기는 자기상관들(선택적으로 미리 자기상관들을 래그 윈도우잉으로 두는 것과 함께) 상으로의 선형 예측 코딩 평가의 실행과 관련시킨다.
도 3 및 4와 관련하여 설명된 것과 같이, 선형 예측 코딩 분석기(130)는 프레임들(118a 내지 118c)의 프레임 비율과 동등한 선형 예측 코딩 전송 비율로 데이터 스트림(114) 내의 신형 예측 계수들에 신호를 보낼 필요는 없다. 그보다 더 높은 비율도 또한 사용될 수 있는데, 일반적으로 선형 예측 코딩 분석기(130)는 예를 들면, 선형 예측 코딩들이 결정되는 것을 기초로 하여, 위에서 설명된 자기 상관들의 비율에 의해 정의되는 선형 예측 코딩 결정 비율로 선형 예측 코딩 정보(60 및 76)를 결정할 수 있다. 그리고 나서, 선형 예측 코딩 분석기(130)는 선형 예측 코딩 결정 비율보다 낮을 수 있는 선형 예측 코딩 전송 비율로 선형 예측 코딩 정보(60 및 76)를 데이터 스트림 내로 삽입할 수 있고, 차례로 시간-도메인 및 주파수 도메인 인코더들(104 및 106)은 데이터 스트림(114)의 프레임들(118a 내지 118c) 내의 전송된 선형 예측 코딩 정보(60 및 76)를 보간함으로써, 선형 예측 계수들을 선형 예측 코딩 전송 비율보다 높은 선형 예측 코딩 적용 비율로 이를 업데이트하는데 적용할 수 있다. 특히, 주파수-도메인 인코더(106) 및 주파수-도메인 디코더는 변환 당 한번 선형 예측 코딩 계수들을 적용하기 때문에, 주파수-도메인 프레임들 내의 선형 예측 코딩 적용은 주파수-도메인 인코더/디코더 내에 적용되는 선형 예측 코딩 계수들이 선형 예측 코딩 전송 비율로부터 보간에 의해 적용되고/업데이트되는 비율보다 낮을 수 있다. 보간이 또한 실행될 수 있기 때문에, 동시에, 디코더 면에서, 동일한 선형 예측 코딩 계수들이 한편으로는 시간-도메인과 주파수-도메인 인코더들 및 다른 한편으로는 시간-도메인과 주파수-도메인 디코더들을 위하여 이용가능하다. 어떤 경우라도, 선형 예측 코딩 분석기(130)는 프레임 비율과 동등하거나 또는 이보다 높은 일부 선형 예측 코딩 결정 비율로 오디오 신호(112)를 위한 선형-예측 계수들을 결정하고 선형 예측 코딩 결정 비율과 동등할 수 있거나 또는 이보다 낮은 선형 예측 코딩 전송 비율로 이를 데이터 스트림 내로 삽입한다. 그러나, 선형 예측 분석 필터(144)는 선형 예측 코딩 전송 비율보다 높은 선형 예측 코딩 적용 비율에서 선형 예측 코딩 분석 필터를 업데이트하도록 보간할 수 있다. 선형 예측 코딩 변환기(134)는 필요한 스펙트럼 가중 변환에 대하여 각각의 변환 또는 각각의 선형 예측 코딩을 위한 선형 예측 코딩 계수들을 결정하도록 실행할 수 있거나 또는 실행하지 않을 수 있다. 선형 예측 코딩 계수들을 전송하기 위하여, 선 스펙트럼 주파수(LSF)/선 스펙트럼 쌍(LSP) 도메인에서와 같은 적합한 도메인에서의 양자화의 대상이 될 수 있다.
시간-도메인 인코더(104)는 다음과 같이 운용할 수 있다. 선형 예측 분석 필터는 선형 예측 코딩 분석기(130)에 의해 출력되는 선형 예측 계수에 따라 오디오 신호(112)의 시간-도메인 코딩 방식 부분들을 필터링할 수 있다. 선형 예측 분석 필터(144)의 출력에서, 따라서 여진 신호(150)가 유래한다. 여진 신호는 근사장치(146)에 의해 근사치가 계산된다. 특히, 근사장치(146)는 예를 들면, 즉, 선형 예측 코딩들에 따른 각각의 합성 필터를 각각의 연진 신호들 상으로 적용한 후에, 합성된 도메인 내의 한편으로는 여진 신호(150) 및 다른 한편으로는 코드북 지수(66)에 의해 정의되는 것과 같은 합성으로 발생된 여진 신호의 유래에 의해, 정의되는 일부 양자화 측정의 최소화 또는 최대화에 의한 것과 같이 여진 신호(150)의 근사치를 계산하기 위하여 코드북 지수 또는 다른 파라미터와 같은 코드를 설정한다. 양자화 측정은 선택적으로 인지적으로 더 관련된 주파수 대역들에서 인지적으로 강조되는 유도들일 수 있다. 근사장치(146)에 의해 코드 세트에 의해 결정되는 혁신 여진은 혁신 파라미터로 불릴 수 있다.
따라서, 근사장치(146)는 예를 들면, 프레임 방식 구문 요소(122)를 거쳐 그것과 관련된 시간-도메인 코딩 방식을 갖는 상응하는 프레임들 내로 삽입되도록 하기 위하여 시간-도메인 프레임 코딩 방식 당 하나 또는 그 이상의 혁신 파라미터를 출력할 수 있다. 차례로, 주파수-도메인 인코더(106)는 다음과 같이 운용할 수 있다. 변환기(132)는 부분 당 또는 그 이상의 스펙트럼을 획득하기 위하여 예를 들면, 겹침 변환을 사용하여 오디오 신호(112)의 주파수-도메인 부분들을 변환한다. 변환기(132)의 출력에서 결과로서 생기는 스펙트로그램은 선형 예측 코딩들에 따라 스펙트로그램을 표현하는 스펙트럼의 시퀀스를 형상화하는 주파수 도메인 잡음 형상기(136)로 들어간다. 이를 위하여, 선형 예측 코딩 변환기(134)는 스펙트럼을 스펙트럼으로 가중하기 위하여 선형 예측 코딩 분석기(130)의 선형 예측 계수들을 주파수-도메인 가중 값들로 전환한다. 이번에, 스펙트럼 가중은 선형 예측 분석 필터의 전달 함수가 생기는 것과 같이 실행된다. 즉, 선형 예측 코딩 계수들을 그리고 나서 스펙트럼 출력을 세분하는데 사용될 수 있는 스펙트럼 가중들로 전환하기 위하여 예를 들면, 홀수 이산 푸리에 변환이 사용될 수 있으며, 디코더 면에서 곱셈이 사용된다.
이후에, 영자화기(138)는 데이터 스트림(114)의 상응하는 프레임들 내로의 삽입을 위하여 변환 계수 레벨들(60) 내로 주파수-도메인 잡음 형상기(136)에 의해 출력되는 결과로서 생기는 여진 스펙트럼을 양자화한다.
위에서 설명된 실시 예에 따라, 본 발명의 일 실시 예는 운용 방식들 중 특정한 하나의 경우에 있어서 대수 부호 여진 선형 예측 방식의 선택을 삼가도록 하기 위하여 서로 다른 운용 방식들로 운용하도록 통합 음성 및 오디오 코딩 인코더를 변형함으로써 본 발명의 적용의 도입부에 논의된 통합 음성 및 오디오 코딩을 변형할 때 유래할 수 있다. 저지연의 달성을 가능하도록 하기 위하여, 통합 음성 및 오디오 코덱이 또한 다음의 방법으로 변형될 수 있다. 예를 들면, 운용 방식과 관계없이, 변환 코딩 여진 및 대수 부호 선형 예측 프레임 코딩 방식들이 사용될 수 있다. 저지연을 달성하기 위하여, 프레임 길이는 20 밀리초의 프레이밍(framing)에 도달하도록 감소될 수 있다. 특히, 위의 실시 예들에 따라 더 효율적인 통합 음성 및 오디오 코덱을 제공하는데 있어서, 통합 음성 및 오디오 코딩, 주로 협대역, 광대역 및 초광대역의 운용 방식은 단지 전체 이용가능한 프레임 코딩 방식들이 적합한 서브세트만이 그 뒤에 설명되는 테이블에 따라 개별 운용 방식들 내에서 이용가능한 것과 같이 수정될 수 있다.
Figure 112016046589317-pat00001
위의 테이블에서 자명한 것과 같이, 위에서 설명된 실시 예들에서, 디코더의 운용 방식은 외부 신호 또는 데이터 신호로부터만 결정될 수 없으며, 둘의 결합을 기초로 하여 결정될 수 있다. 예를 들면, 위의 테이블에서, 데이터 스트림은 프레임 비율보다 낮을 수 있는 일부 비율로 데이터 스트림 내에 존재하는 코스(coarse) 운용 방식 구문 요소를 거쳐 디코더에 주요 방식, 즉, 협대역, 광대역, 초광대역, 주파수 대역을 나타낼 수 있다. 인코더는 이러한 구문 요소를 합성 요소들(38)에 더하여 삽입할 수 있다. 그러나, 정확한 운용 방식은 이용가능한 비트레이트를 나타내는 부가적인 외부 신호의 검사를 필요로 할 수 있다. 초광대역의 경우에, 예를 들면, 정확한 방식은 48kbp 이하, 48kbp 이상이고, 96kbp 이하이거나, 또는 96kbp 이상에 있는 이용가능한 비트레이트에 의존한다.
위의 실시 예들과 관련하여 비록 대안의 실시 예들에 따라 정보 신호의 프레임들/시간 부분들이 관련될 수 있는 모든 복수의 코딩 방식의 세트가 독점적으로 시간-도메인 또는 주파수-도메인 프레임 코딩 방식을 구성하나, 이는 서로 다를 수 있으며, 따라서 또한 시간-도메인 또는 주파수-도메인 코딩 방식이 아닌 하나 이상의 프레임 코딩 방식이 존재할 수 있다는 것을 이해하여야 한다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 상응하는, 상응하는 방법의 설명을 나타내는 것이 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 상응하는 블록 또는 아이템 또는 특징을 나타낸다. 일부 또는 모든 방법 단계들은 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은, 하드웨어 장치에 의해 실행될 수(또는 사용할 수) 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계들이 그러한 장치에 의해 실행될 수 있다.
특정 구현 필요성에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 거기에 저장되는 전자적으로 판독가능한 신호들을 갖는, 플로피 디스크, DVD, CD, ROM,, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있는데, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중의 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 베춤으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에 구동될 때 방법들 중의 하나를 실행하도록 작동할 수 있다. 프로그램 코드는 예를 들면 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 따라서 본 발명의 방법의 일 실시 예는 컴퓨터 프로그램이 컴퓨터상에 구동할 때, 여기에 설명된 방법들 중의 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위하여 그것에 대해 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 고정 또는 비-일시적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전달되도록 구성될 수 있다.
또 다른 실시 예는 처리 수단들, 예를 들면, 여기에 설명된 방법들 중의 하나를 실행하거나 적용하도록 구성되는 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 거기에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
본 발명에 따른 도 다른 실시 예는 여기에 설명된 방법들 중 하나를 수신기 에 실행하도록 컴퓨터 프로그램을 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 기기, 메모리 장치 등일 수 있다. 장치 또는 시스템은 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이(field programmable gate array))는 여기에 설명된 방법들의 기능들이 일부 또는 모두를 실행하도록 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에서 설명된 실시 예들은 단지 본 발명의 원리를 설명하기 위한 것이다. 여기에 설명된 배치들 및 내용들의 변형 및 변경들은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해하여야 한다. 따라서, 본 발명의 실시 예들의 설명에 의해 표현된 특정 상세 내용에 의한 것이 아니라 첨부된 청구항들의 범위에 의해서만 한정되는 것으로 의도된다.
10 : 오디오 디코더
12 : 시간-도메인 디코더
14 : 주파수-도메인 디코더
16 : 연관기
18a-18c : 프레임
20 : 데이터 스트림
24a-c : 오디오 신호의 부분
26 : 오디오 신호
30 : 제 1 서브세트
32 : 제 2 서브세트
34 : 결합기
38 : 프레임 방식 구문 요소
40, 42 : 방식 의존 세트
46 : 세트
52 : 전단사 매핑
62 : 선형 예측 합성 필터
64 : 여진 신호 구성기
66 : 코드북 지수
68 : 여진 신호
70 : 주파수 도메인 잡음 형상기
72 : 재변환기
74 : 변환 계수 레벨
76 : 선형 예측 필터 계수
100 : 오디오 인코더
102 : 연관기
104 : 시간-도메인 인코더
106 : 주파수-도메인 인코더
108 : 오디오 인코더의 입력
114 : 데이터 스트림
120 : 외부 제어 신호
122 : 프레임 방식 구문 요소
130 : 선형 예측 코딩 분석기
132 : 변환기
134 : 선형 예측 코딩-대-주파수 도메인 가중 전환기
136 : 주파수-도메인 잡음 형상기
138 : 양자화기
140 : 주파수-도메인 인코더의 입력
142 : 주파수-도메인 인코더의 출력
144 : 선형 예측 분석 필터
146 : 코드 기반 여진 신호 근사장치
150 : 여진 신호

Claims (8)

  1. 시간-도메인 인코더(104);
    주파수-도메인 인코더(106); 및
    오디오 신호(112)의 각각의 연속적인 부분들(116a-c)을 복수의 프레임 코딩 방식(22)의 하나 이상의 연관가능 프레임 코딩 방식들의 세트 중 하나와 연관시키도록 구성되는 연관기(102);를 포함하되,
    상기 시간-도메인 인코더(104)는 그것과 관련된 하나 또는 그 이상의 상기 복수의 프레임 코딩 방식(22)의 제 1 서브세트(30) 중의 하나를 갖는 부분들을 데이터 스트림(114)의 상응하는 프레임(118a-c) 내로 인코딩하도록 구성되고, 상기 주파수-도메인 인코더(106)는 그것과 관련된 하나 또는 그 이상의 상기 복수의 프레임 코딩 방식의 제 2 서브세트(32) 중의 하나를 갖는 부분들을 상기 데이터 스트림의 상응하는 프레임 내로 인코딩하도록 구성되며,
    상기 연관기(102)는 만일 활성 운용 방식이 제 1 운용 방식이면, 상기 복수의 프레임 코딩 방식의 하나 이상의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 서브세트(30)와 분리되고 상기 제 2 서브세트와 오버랩하며, 만일 상기 활성 운용 방식이 제 2 운용 방식이면, 상기 복수의 프레임 코딩 방식의 하나 이상의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 및 제 2 서브세트(30, 32)와 오버랩하도록 상기 복수의 운용 방식 중 활성 운용 방식에서 운용하도록 구성되며,

    상기 연관기(102)는 각각의 부분을 위하여, 상기 복수의 프레임 코딩 방식 중 어떤 프레임 코딩 방식에 각각의 부분들이 관련되는지를 나타내기 위하여 프레임 방식 구문 요소(122)를 상기 데이터 스트림(114) 내로 인코딩하도록 구성되며,

    상기 연관기(102)는 한편으로는 각각의 부분과 관련된 상기 프레임 방식 구문 요소의 가능한 값들의 세트 및 다른 한편으로는 상기 프레임 코딩 방식들의 하나 이상의 연관가능 프레임 코딩 방식들의 세트 사이의, 상기 활성 운용 방식에 따라 변경되는 전단사 매핑을 사용하여 상기 프레임 방식 구문 요소(122)를 상기 데이터 스트림(114) 내로 인코딩하도록 구성되는 것을 특징을 하는 오디오 인코더.
  2. 제 1항에 있어서, 상기 연관기(102)는 만일 상기 활성 운용 방식이 상기 제 1 운용 방식이면, 상기 복수의 프레임 코딩 방식의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 서브세트(30)와 분리되고 상기 제 2 서브세트(32)로 오버랩하고, 만일 상기 활성 운용 방식이 상기 제 2 운용 방식이면, 상기 복수의 프레임 코딩 방식의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 및 제 2 서브세트(30, 32)로 오버랩하는 것과 같이 구성되는 것을 특징으로 하는 오디오 인코더.
  3. 제 1항에 있어서, 상기 가능한 값들의 세트의 수는 2이고 상기 연관기(102)는 만일 상기 활성 운용 방식이 제 1 운용 방식이면, 상기 연관가능 프레임 코딩 방식들의 세트는 하나 또는 그 이상이 프레임 코딩 방식의 상기 제 2 서브세트의 제 1 및 제 2 프레임 코딩 방식을 포함하며, 상기 주파수-도메인 인코더는 그것과 관련된 상기 제 1 및 제 2 프레임 코딩 방식을 갖는 부분들을 인코딩하는데 서로 다른 시간-주파수 해상도들을 사용하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  4. 제 1항에 있어서, 상기 시간-도메인 인코더(104)는 코드 여진 선형 예측 인코더인 것을 특징으로 하는 오디오 인코더.
  5. 제 1항에 있어서, 상기 주파수-도메인 인코더(106)는 변환 계수 레벨들을 사용하고 이를 상기 데이터 스트림의 상기 상응하는 프레임들 내로 인코딩하여, 그것과 관련된 하나 또는 그 이상의 상기 프레임 코딩 방식의 상기 제 2 서브세트 중 하나를 갖는 부분들을 인코딩하도록 구성되는 변환 인코더인 것을 특징으로 하는 오디오 인코더.
  6. 제 1항에 있어서, 상기 시간-도메인 인코더 및 상기 주파수-도메인 인코더는 상기 오디오 신호(112)의 각각의 부분을 위한 필터 계수들에 신호를 보내도록 구성되는 선형 예측 기반 인코더들이고,
    상기 시간-도메인 인코더(104)는 여진 신호(150)를 획득하기 위하여 상기 필터 계수들에 따라 선형 예측 분석 필터를 그것과 관련된 하나 또는 그 이상의 상기 프레임 코딩 방식의 상기 제 1 서브세트 중 하나를 갖는 상기 오디오 신호(112)의 부분들 상으로 적용하고 코드북 지수들의 사용에 의해 상기 여진 신호의 근사치를 계산하며 이를 상기 상응하는 프레임들 내로 삽입하도록 구성되며,
    상기 주파수-도메인 인코더(106)는 스펙트럼을 획득하기 위하여 그것과 관련된 하나 또는 그 이상의 상기 프레임 코딩 방식의 상기 제 2 서브세트 중 하나를 가지며 여진 스펙트럼을 획득하기 위하여 그것과 관련된 상기 제 2 서브세트 중 하나를 갖는 상기 부분들을 위한 상기 필터 계수들에 따라 상기 스펙트럼을 형상화하는 상기 오디오 신호의 상기 부분들을 변환하고 상기 여진 스펙트럼을 그것과 관련된 상기 제 2 서브세트 중 하나를 갖는 상기 프레임들 내의 변환 계수 레벨들로 양자화하며, 상기 양자화된 여진 스펙트럼을 상기 상응하는 프레임들 내로 삽입하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  7. 시간-도메인 인코더(104)와 주파수-도메인 인코더(106)를 사용하는 오디오 인코딩 방법에 있어서,
    오디오 신호(112)의 각각의 연속적인 부분들(116a-c)을 복수의 프레임 코딩방식(22)의 연관가능 프레임 코딩 방식들의 세트 중 하나에 연관시키는 단계;
    시간-도메인 인코더(104)에 의해 그것과 관련된 하나 또는 그 이상의 상기 복수의 프레임 코딩 방식(22)의 제 1 서브세트(30) 중 하나를 갖는 부분들을 데이터 스트림(114)의 상응하는 프레임(118a-c) 내로 인코딩하는 단계;
    주파수-도메인 인코더(106)에 의해 그것과 관련된 하나 또는 그 이상의 상기 복수의 프레임 코딩 방식(22)의 제 2 서브세트(32) 중 하나를 갖는 부분들을 상기 데이터 스트림(114)의 상응하는 프레임 내로 인코딩하는 단계;를 포함하되,
    상기 관련시키는 단계는 만일 활성 운용 방식이 제 1 운용 방식이면, 상기 복수의 프레임 코딩 방식의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 서브세트(30)와 분리되고 상기 제 2 서브세트(32)로 오버랩하고, 만일 상기 활성 운용 방식이 제 2 운용 방식이면, 상기 복수의 프레임 코딩 방식의 연관가능 프레임 코딩 방식들의 세트는 상기 제 1 및 제 2 서브세트(30, 32)로 오버랩하는 것과 같이, 상기 복수의 운용 방식 중 활성 운용 방식에서 실행되며,

    상기 방법은, 각각의 부분을 위하여, 상기 복수의 프레임 코딩 방식 중 어떤 프레임 코딩 방식에 각각의 부분들이 관련되는지를 나타내기 위하여 프레임 방식 구문 요소(122)를 상기 데이터 스트림(114) 내로 인코딩하는 단계를 더 포함하며,

    한편으로는 각각의 부분과 관련된 상기 프레임 방식 구문 요소의 가능한 값들의 세트 및 다른 한편으로는 상기 프레임 코딩 방식들의 하나 이상의 연관가능 프레임 코딩 방식들의 세트 사이의, 상기 활성 운용 방식에 따라 변경되는 전단사 매핑을 사용하여 상기 프레임 방식 구문 요소(122)가 상기 데이터 스트림(114) 내로 인코딩되는 것을 특징으로 하는 오디오 인코딩 방법.
  8. 컴퓨터상에서 구동할 때, 7항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 매체.
KR1020167012861A 2011-02-14 2012-02-14 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱 KR101751354B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052461 WO2012110480A1 (en) 2011-02-14 2012-02-14 Audio codec supporting time-domain and frequency-domain coding modes

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020137024070A Division KR101648133B1 (ko) 2011-02-14 2012-02-14 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱

Publications (2)

Publication Number Publication Date
KR20160060161A KR20160060161A (ko) 2016-05-27
KR101751354B1 true KR101751354B1 (ko) 2017-06-27

Family

ID=71943598

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137024070A KR101648133B1 (ko) 2011-02-14 2012-02-14 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱
KR1020167012861A KR101751354B1 (ko) 2011-02-14 2012-02-14 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020137024070A KR101648133B1 (ko) 2011-02-14 2012-02-14 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱

Country Status (19)

Country Link
US (1) US9037457B2 (ko)
EP (1) EP2676269B1 (ko)
JP (1) JP5851525B2 (ko)
KR (2) KR101648133B1 (ko)
CN (1) CN103548078B (ko)
AR (1) AR085223A1 (ko)
AU (2) AU2012217160B2 (ko)
BR (1) BR112013020589B1 (ko)
CA (1) CA2827296C (ko)
ES (1) ES2562189T3 (ko)
HK (1) HK1192793A1 (ko)
MX (1) MX2013009302A (ko)
MY (2) MY159444A (ko)
PL (1) PL2676269T3 (ko)
RU (1) RU2547241C1 (ko)
SG (1) SG192715A1 (ko)
TW (2) TWI488176B (ko)
WO (1) WO2012110480A1 (ko)
ZA (1) ZA201306872B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015071173A1 (en) 2013-11-13 2015-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
EP3616197A4 (en) * 2017-04-28 2021-01-27 DTS, Inc. AUDIO ENCODER WINDOW SIZES AND TIME-FREQUENCY TRANSFORMATIONS
WO2019167706A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 符号化装置、符号化方法、プログラム、および記録媒体

Family Cites Families (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9206143A (pt) 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5408580A (en) * 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
CN1090409C (zh) * 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送***
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10214100A (ja) 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
JP4024427B2 (ja) 1999-05-24 2007-12-19 株式会社リコー 線形予測係数抽出装置、線形予測係数抽出方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2000075919A1 (en) 1999-06-07 2000-12-14 Ericsson, Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
ATE341074T1 (de) * 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6701772B2 (en) 2000-12-22 2004-03-09 Honeywell International Inc. Chemical or biological attack detection and mitigation system
US20050130321A1 (en) 2001-04-23 2005-06-16 Nicholson Jeremy K. Methods for analysis of spectral data and their applications
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2469674C (en) 2002-09-19 2012-04-24 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
US7343283B2 (en) 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
BR122018007834B1 (pt) 2003-10-30 2019-03-19 Koninklijke Philips Electronics N.V. Codificador e decodificador de áudio avançado de estéreo paramétrico combinado e de replicação de banda espectral, método de codificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, sinal de áudio avançado codificado de estéreo paramétrico combinado e de replicação de banda espectral, método de decodificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, e, meio de armazenamento legível por computador
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
EP1747554B1 (en) 2004-05-17 2010-02-10 Nokia Corporation Audio encoding with different coding frame lengths
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
TWI253057B (en) * 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
JP5420175B2 (ja) 2005-01-31 2014-02-19 スカイプ 通信システムにおける隠蔽フレームの生成方法
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
AU2006232361B2 (en) 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
WO2006126843A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
JP2008546341A (ja) 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007083931A1 (en) 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
CN101371295B (zh) * 2006-01-18 2011-12-21 Lg电子株式会社 用于编码和解码信号的设备和方法
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
EP2030199B1 (en) 2006-05-30 2009-10-28 Koninklijke Philips Electronics N.V. Linear predictive coding of an audio signal
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
CN102592303B (zh) 2006-07-24 2015-03-11 索尼株式会社 毛发运动合成器***和用于毛发/皮毛流水线的优化技术
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US20080147518A1 (en) 2006-10-18 2008-06-19 Siemens Aktiengesellschaft Method and apparatus for pharmacy inventory management and trend detection
BRPI0718738B1 (pt) * 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP2008261904A (ja) 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
KR101513028B1 (ko) 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
ES2658942T3 (es) 2007-08-27 2018-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
US8566106B2 (en) 2007-09-11 2013-10-22 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
CN101425292B (zh) * 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8879643B2 (en) 2008-04-15 2014-11-04 Qualcomm Incorporated Data substitution scheme for oversampled data
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
AU2009267518B2 (en) 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
RU2515704C2 (ru) 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
ES2683077T3 (es) 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
TWI459375B (zh) 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
KR101441474B1 (ko) * 2009-02-16 2014-09-17 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
EP2234103B1 (en) 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
RU2557455C2 (ru) 2009-06-23 2015-07-20 Войсэйдж Корпорейшн Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
BR112012009032B1 (pt) 2009-10-20 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
PL2491555T3 (pl) 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
WO2011147950A1 (en) 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases

Also Published As

Publication number Publication date
CA2827296A1 (en) 2012-08-23
KR101648133B1 (ko) 2016-08-23
PL2676269T3 (pl) 2016-06-30
US20130332174A1 (en) 2013-12-12
ZA201306872B (en) 2014-05-28
MY160264A (en) 2017-02-28
CN103548078B (zh) 2015-12-23
KR20140000322A (ko) 2014-01-02
HK1192793A1 (zh) 2014-08-29
RU2013141935A (ru) 2015-03-27
AU2012217160B2 (en) 2016-02-18
AU2012217160A1 (en) 2013-10-10
EP2676269A1 (en) 2013-12-25
CN103548078A (zh) 2014-01-29
SG192715A1 (en) 2013-09-30
JP2014507016A (ja) 2014-03-20
TW201241823A (en) 2012-10-16
MY159444A (en) 2017-01-13
AR085223A1 (es) 2013-09-18
TWI488176B (zh) 2015-06-11
JP5851525B2 (ja) 2016-02-03
US9037457B2 (en) 2015-05-19
BR112013020589A2 (pt) 2018-07-10
EP2676269B1 (en) 2015-12-16
TWI484480B (zh) 2015-05-11
RU2547241C1 (ru) 2015-04-10
ES2562189T3 (es) 2016-03-02
MX2013009302A (es) 2013-09-13
AU2016200351B2 (en) 2017-11-30
KR20160060161A (ko) 2016-05-27
BR112013020589B1 (pt) 2021-09-21
AU2016200351A1 (en) 2016-02-11
CA2827296C (en) 2016-08-30
TW201248617A (en) 2012-12-01
WO2012110480A1 (en) 2012-08-23

Similar Documents

Publication Publication Date Title
KR101751354B1 (ko) 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
US8825496B2 (en) Noise generation in audio codecs
US9153236B2 (en) Audio codec using noise synthesis during inactive phases
US8630862B2 (en) Audio signal encoder/decoder for use in low delay applications, selectively providing aliasing cancellation information while selectively switching between transform coding and celp coding of frames
KR101869395B1 (ko) 예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant