KR101831289B1 - 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩 - Google Patents

오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩 Download PDF

Info

Publication number
KR101831289B1
KR101831289B1 KR1020167010037A KR20167010037A KR101831289B1 KR 101831289 B1 KR101831289 B1 KR 101831289B1 KR 1020167010037 A KR1020167010037 A KR 1020167010037A KR 20167010037 A KR20167010037 A KR 20167010037A KR 101831289 B1 KR101831289 B1 KR 101831289B1
Authority
KR
South Korea
Prior art keywords
spectral
spectrum
coefficient
decoder
coefficients
Prior art date
Application number
KR1020167010037A
Other languages
English (en)
Other versions
KR20160060085A (ko
Inventor
구일라우메 푸흐스
마티아스 노이징어
마르쿠스 물트루스
스테판 될라
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Publication of KR20160060085A publication Critical patent/KR20160060085A/ko
Application granted granted Critical
Publication of KR101831289B1 publication Critical patent/KR101831289B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호의 스펙트럼의 코딩 스펙트럼 계수들의 코딩 효율은 엔트로피 인코딩/디코딩에 의해 현재 인코딩/디코딩되는 스펙트럼 계수에 의한 인코딩/디코딩에 의해 증가되고, 그렇게 함으로서, 콘텍스트-적응 방식으로, 이전에 인코딩/디코딩된 스펙트럼 계수에 의존하여 엔트로피 인코딩/디코딩을 실행하고, 스펙트럼의 형상에 관한 정보에 의존하여 이전에 인코딩/디코딩된 스펙트럼 계수 및 현재 인코딩/디코딩되는 계수 사이의 상대 스펙트럼 거리를 조정한다. 스펙트럼의 형상에 관한 정보는 오디오 신호의 피치 또는 주기의 측정, 오디오 신호의 스펙트럼의 고조파-간 거리의 측정 및/또는 스펙트럼의 스펙트럼 엔벨로프의 포먼트들 및/또는 밸리들의 상대 위치들을 포함하고, 이러한 지식을 기초로 하여, 현재 인코딩/디코딩되는 스펙트럼 계수들의 콘텍스트를 형성하기 위하여 이용되는 스펙트럼 이웃이 이에 따라 결정된 스펙트럼에 형성에 적응되며, 이에 의해 엔트로피 코딩 효율을 향상시킨다.

Description

오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩{CODING OF SPECTRAL COEFFICIENTS OF A SPECTRUM OF AN AUDIO SIGNAL}
본 발명은 예를 들면, 다양한 변환 기반 오디오 코덱들에서 사용 가능한 오디오 신호의 스펙트럼의 스펙트럼 계수들을 위한 코딩 전략에 관한 것이다.
콘텍스트 기반 산술 코딩(context-based arithmatic coding)은 변환 기반 코더의 스펙트럼 계수들을 잡음없이 인코딩하는 효율적인 방식이다[1]. 콘텍스트는 스펙트럼 계수 및 그것의 이웃에 위치하는 이미 코딩된 계수들 사이의 상호 정보를 이용한다. 콘텍스트는 인코더 및 디코더 측 모두에서 이용 가능하고 전송되는 어떠한 추가 정보도 필요하지 않다. 이러한 방법으로, 콘텍스트 기반 엔트로피 코딩은 무기억(memoryless) 엔트로피 코딩에 대한 높은 이득을 제공하기 위한 잠재력을 갖는다. 그러나 실제로, 콘텍스트의 디자인은 그중에서도, 메모리 요구, 계산 복잡도 및 채널 오류에 대한 견고성 대문에 심각하게 제약을 받는다. 이러한 제약들은 콘텍스트 기반 엔트로피 코딩의 효율을 제한하고 특히 콘텍스트가 신호의 고조파 구조(harmonic structure)를 이용하는데 너무 제한적이어야만 하는 음조 신호(tonal signal)들에 대하여 낮은 코딩 이득을 야기한다.
게다가, 저지연 오디오 변환 기반 코딩에서, 산술적 지연을 감소시키기 위하여 저-오버랩 윈도우들이 사용된다. 직접적인 결과로서, 변형 이산 코사인 변환(MDCT) 내의 누출(leakage)은 음조 신호들에 있어 중요하고 높은 양자화 잡음을 야기한다. 음조 신호들은 변환을 MPEG2/4-AAC[2]를 위하여 수행되는 것과 같이 주파수 도메인 내의 예측과 결합하거나 또는 시간-도메인 내의 예측과 결합함으로써[3] 처리될 수 있다.
가까운 장래에 코딩 효율을 증가시키는 코딩 개념을 갖는 것이 바람직할 수 있다. 따라서, 본 발명의 목적은 코딩 효율을 증가시키는 오디오 신호의 스펙트럼의 스펙트럼 계수들을 위한 개념을 제공하는 것이다. 본 발명의 목적은 첨부된 독립항들에 의해 달성된다.
오디오 신호의 스펙트럼의 코딩 스펙트럼 계수들의 코딩 효율은 엔트로피 인코딩/디코딩에 의해 현재 인코딩/디코딩되는 스펙트럼 계수에 의한 인코딩/디코딩에 의해 증가될 수 있고, 그렇게 함으로서, 콘텍스트-적응 방식(context-adaptative manner)으로, 이전에 인코딩/디코딩된 스펙트럼 계수에 의존하여 엔트로피 인코딩/디코딩을 실행하고, 스펙트럼의 형상에 관한 정보에 의존하여 이전에 인코딩/디코딩된 스펙트럼 계수 및 현재 인코딩/디코딩되는 계수 사이의 상대 스펙트럼 거리(relative spectrum distance)를 조정하는 것이 본 발명의 기본 발견이다. 스펙트럼의 형상에 관한 정보는 오디오 신호의 피치(pitch) 또는 주기(periodicity)의 측정, 스펙트럼의 스펙트럼 엔벨로프의 밸리(valley)들 및 또는 포먼트(formant)들의 상대 위치들 및/또는 오디오 신호의 스펙트럼의 고조파-간 거리의 측정을 포함할 수 있고, 이러한 지식을 기초로 하여, 현재 인코딩/디코딩되는 스펙트럼 계수들의 콘텍스트를 형성하기 위하여 이용되는 스펙트럼 이웃(spectral neighborhood)이 이에 따라 결정된 스펙트럼에 형성에 적응될 수 있으며, 이에 의해 엔트로피 코딩 효율을 향상시킨다.
바람직한 구현들이 종속항들의 주제이고 도면들과 관련하여 아래에 본 발명의 바람직한 실시 예들에 여기에 설명된다.
도 1은 스펙트럼 계수 인코더 및 오디오 신호의 스펙트럼의 스펙트럼 계수들의 인코딩에서의 작동 모드를 나타내는 개략적인 다이어그램을 도시한다.
도 2는 도 1의 스펙트럼 계수 인코더에 적합한 스펙트럼 계수 디코더를 나타내는 개략적인 다이어그램을 도시한다.
도 3은 일 실시 예에 따라 도 1의 스펙트럼 계수 인코더의 가능한 내부 구조의 블록 다이어그램이다.
도 4는 일 실시 예에 따라 도 2의 스펙트럼 계수 디코더의 가능한 내부 구조의 블록 다이어그램이다.
도 5는 계수들이 피치의 측정 또는 오디오 신호의 주기 또는 고조파-간 거리의 측정에 의존하여 상대 스펙트럼 거리의 적응을 나타내도록 인코딩/디코딩되는, 스펙트럼의 그래프를 개략적으로 나타낸다.
도 6은 스펙트럼이 선형 예측 기반의 지각적으로 가중된 합성 필터, 즉 그것의 가역에 따라 스펙트럼적으로(spectrally) 형상화되는 일 실시 예에 따라 스펙트럼 계수들이 인코딩/디코딩되는, 스펙트럼을 나타내고, 일 실시 예에 따라 포먼트-간 거리 측정에 의존하여 상대 스펙트럼 거리의 적응을 나타내는 개략적인 블록 다이어그램을 도시한다.
도 7은 일 실시 예에 따라 스펙트럼의 형상에 대한 정보에 의존하여 현재 코딩/디코딩되는 스펙트럼 계수를 둘러싸는 콘텍스트 템플릿(template) 및 콘텍스트 템플릿 스펙트럼 확산의 적용을 나타내기 위한 스펙트럼의 일부분을 개략적으로 도시한다.
도 8은 일 실시 예에 따라 현재 스펙트럼 계수의 인코딩/디코딩을 위하여 사용되도록 확률 분포 추정을 유도하기 위하여 스칼라 함수를 사용하여 콘텍스트 템플릿(81)의 기준 스펙트럼 계수들의 하나 이상의 값으로부터의 매핑을 나타내는 개략적인 다이어그램을 도시한다.
도 9a는 인코더 및 디코더 사이의 상대 스펙트럼 거리의 적응을 동기화하기 위한 명시적 시그널링(explicit signaling)의 사용을 개략적으로 도시한다.
도 9b는 인코더 및 디코더 사이의 상대 스펙트럼 거리의 적응을 동기화하기 위한 명시적 시그널링의 사용을 나타내는 개략적인 다이어그램을 도시한다.
도 10a는 일 실시 예에 따른 변환 기반 오디오 인코더의 블록 다이어그램을 도시한다.
도 10b는 도 10a의 인코더에 적합한 변환 기반 오디오 디코더의 블록 다이어그램을 도시한다.
도 11a는 일 실시 예에 따라 주파수 도메인 스펙트럼 형상화를 사용하는 변환 기반 오디오 인코더의 블록 다이어그램을 도시한다.
도 12b는 도 11a의 인코더에 적합한 변환 기반 오디오 디코더의 블록 다이어그램을 도시한다.
도 12a는 일 실시 예에 따른 선형 예측 기반 변환 코딩된 여기 오디오 인코더의 블록 다이어그램을 도시한다.
도 12b는 도 12a의 인코더에 적합한 선형 예측 기반 변환 코딩된 여기 오디오 디코더를 도시한다.
도 13은 또 다른 실시 예에 따른 변환 기반 오디오 인코더의 블록 다이어그램을 도시한다.
도 14는 도 13의 실시 예에 적합한 변환 기반 오디오 디코더의 블록 다이어그램을 도시한다.
도 15는 현재 코딩/디코딩되는 스펙트럼 계수의 이웃을 포함하는 종래의 콘텍스트 또는 콘텍스트 템플릿을 나타내는 개략적인 다이어그램을 도시한다.
도 16a-c는 본 발명의 실시 예들에 따라 변형된 콘텍스트 템플릿 구성들 또는 매핑된 콘텍스트를 도시한다.
도 17은 고조파 스펙트럼에 대한 도 15의 콘텍스트 템플릿 정의에 대하여 도 16a 내지 16c 중 어느 하나의 매핑된 콘텍스트를 사용하는 장점을 나타내기 위하여 고조파 스펙트럼의 그래프를 개략적으로 도시한다.
도 18은 일 실시 예에 따른 콘텍스트 매핑에 대한 상대 스펙트럼 거리(D)를 최적화하기 위한 알고리즘의 플로우 다이어그램을 도시한다.
도 1은 일 실시 예에 따른 스펙트럼 계수 인코더(10)를 도시한다. 인코더는 오디오 신호의 스펙트럼의 스펙트럼 계수들을 인코딩하도록 구성된다. 도 1은 스펙트로그램(12) 형태의 순차적 스펙트럼들을 도시한다. 더 정확하게 설명하면, 스펙트럼 계수들(14)이 시간 축(t) 및 주파수 축(f)을 따라 시간주파수로(spectrotemporally) 배치되는 박스들로서 도시된다. 시간주파수 해상도가 일정하게 유지되는 것이 가능할 수 있으나, 도 1은 시간주파수 해상도가 시간에 따라 변경될 수 있는 것을 나타내고, 그러한 하나의 시간 인스턴트가 도 1의 16에 도시된다. 이러한 스펙트로그램(12)은 예를 들면 변형 이산 코사인 변환 또는 일부 다른 실수 값의 임계적으로(critically) 샘플링된 변환과 같은, 임계적으로 샘플링된 변환과 같은, 래핑된(lapped) 변환과 같이, 상이한 시간 인스턴트들에서 오디오 신호(18)에 적용되는 스펙트럼 분해 변환의 결과일 수 있다. 따라서, 스펙트로그램(12)은 각각 동일한 시간 인스턴트에 속하는 변환 계수들의 시퀀스로 구성되는 스펙트럼(20)의 형태의 스펙트럼 계수 인코더(10)에 의해 수신될 수 있다. 스펙트럼들(20)은 따라서 스펙트로그램의 스펙트럼 슬라이스(spectral slice)들을 표현하고 스펙트로그램(12)의 개별 열(column)들로서 도 1에 도시된다. 각각의 스펙트럼은 변환 계수들(14)의 시퀀스로 구성되고 예를 들면 일부 윈도우 함수(24)를 사용하여, 오디오 신호(18)의 상응하는 시간 프레임(22)으로부터 유도되었다. 특히, 시간 프레임들(22)은 앞서 언급된 시간 인스턴스들에 순차적으로 배치되고 스펙트럼들(20)의 시간 시퀀스와 관련된다. 그것들은 도 1에 도시된 것과 같이, 상응하는 변환 윈도우들(24)이 오버래핑할 수 있는 것과 같이, 서로 오버래핑한다. 즉, 여기서 사용되는 것과 같이, "스펙트럼"은 동일한 시간 인스턴트에 속하는 스펙트럼 계수들을 나타내고, 따라서 주파수 분해이다. "스펙트로그램"은 연속적인 스펙트럼들로 만들어지는 시간-주파수 분해이고, "스펙트럼들"은 복수의 스펙트럼이다. 때때로, "스펙트럼"이 스펙트로그램과 유의어로 사용되더라도, 만일 원래 신호가 시간 도메인 내에 존재하고 변환이 주파수 변환이면, "변환 계수"는 "스펙트럼 계수"와 유의어로 사용된다.
방금 설명된 것과 같이, 스펙트럼 계수 인코더(10)는 오디오 신호(18)의 스펙트로그램(12)의 스펙트럼 계수들(14)을 인코딩하기 위한 것이고 이를 위하여 인코더는 예를 들면, 하나의 스펙트럼(20) 내의 낮은 주파수부터 높은 주파수까지 스펙트럼 계수들(14)을 스펙트럼적으로 스캐닝하고(scan) 그리고 나서 도 1의 26에 나타낸 것과 같이 시간적으로 뒤따르는 스펙트럼(20)의 스펙트럼 계수들로 진행하는 시간주파수 경로(spectrotemporal path)를 따라 스펙트럼 계수들(14)을 가로지르는 미리 결정된 코딩/디코딩 순서를 적용할 수 있다.
아래에 더 상세히 설명되는 방식에서, 인코더(10)는 콘텍스트 적응 방식으로 바람직하게는 도 1의 작은 원을 사용하여 나타낸, 하나 이상의 이전에 인코딩된 스펙트럼 계수에 의존하여, 도 1의 작은 X표를 사용하여 나타낸, 현재 인코딩되는 스펙트럼 계수를 인코딩하도록 구성된다. 특히, 인코더(10)는 스펙트럼의 형상에 관한 정보에 의존하여 이전에 인코딩된 스펙트럼 계수 및 현재 인코딩되는 스펙트럼 계수 사이의 상대 스펙트럼 거리를 조정하도록 구성된다. 스펙트럼 형상에 관한 의존성 및 정보와 관련하여, 상세 내용이 방금 설명된 정보에 의존하여 상대 스펙트럼 거리(28)의 적응으로부터 야기하는 장점들에 대한 고려사항들과 함께 아래에 설명된다.
바꾸어 말하면, 스펙트럼 계수 인코더(10)는 데이터 스트림(30) 내로 스펙트럼 계수들(14)을 순차적으로 인코딩한다. 아래에 더 상세히 설명될 것과 같이, 스펙트럼 계수 인코더(10)는 스펙트럼 계수들(14)에 더하여, 데이터 스트림(30)이 오디오 신호(18)의 재구성을 가능하게 하도록 데이터 스트림(30) 내로 정보를 더 인코딩하는 변환 기반 인코더의 일부분일 수 있다.
도 2는 도 1의 스펙트럼 계수 인코더(10)에 적합한 스펙트럼 계수 디코더(40)를 도시한다. 스펙트럼 계수 디코더(40)의 기능은 실질적으로 도 1의 스펙트럼 계수 인코더(10)의 반대이며: 스펙트럼 계수 디코더(40)는 예를 들면 순차적으로 디코딩 순서(26)를 사용하여, 스펙트럼(12)의 스펙트럼 계수들(14)을 디코딩한다. 엔트로피 디코딩에 의해 바람직하게는 도 2의 작은 X표로 표시된 현재 디코딩되는 스펙트럼 계수의 디코딩에 있어서, 스펙트럼 계수 디코더(40)는 콘텍스트 적응 방식으로, 또한 도 2의 작은 원에 의해 표시된 하나 이상의 이전에 디코딩된 스펙트럼 계수에 의존하여 엔트로피 디코딩을 실행할 수 있다. 그렇게 함으로써, 스펙트럼 계수 디코더(40)는 앞서 언급된 스펙트럼(12)의 형상에 관한 정보에 의존하여 이전에 디코딩된 스펙트럼 계수 및 현재 디코딩되는 스펙트럼 계수 사이의 상대 스펙트럼 거리(28)를 조정한다. 위에 나타낸 것과 동일한 방식으로, 스펙트럼 계수 디코더(40)는 스펙트럼 계수 디코더(40)가 엔트로피 디코딩을 사용하여 스펙트럼 계수들(14)을 디코딩하는, 데이터 스트림(30)으로부터 오디오 신호(18)를 재구성하도록 구성되는 변환 기반 디코더의 일부분일 수 있다. 후자의 변환 기반 디코더는 재구성의 일부분으로서, 스펙트럼(12)이 예를 들면, 오버랩-및-가산 과정에 의해 예를 들면, 스펙트럼 분해 변환으로부터 야기하는 엘리어싱(alising)을 제거하는 윈도우잉된 시간 프레임들(22)의 오버래핑의 시퀀스의 재구성을 야기하는, 역 래핑된 변환(inverse lapped-transform)과 같은, 역 변환의 대상이 되도록 할 수 있다.
아래에 더 상세히 설명될 것과 같이, 스펙트럼(12)의 형상에 관한 정보에 의존하는 상대 스펙트럼 거리(28)의 조정으로부터 야기하는 장점들은 현재 스펙트럼 계수(x)를 엔트로피 인코딩/디코딩하도록 사용되는 확률 분포 추정을 향상시키기 위한 능력에 의존한다. 확률 분포 추정이 더 뛰어날수록, 엔트로피 코딩은 더 효율적인데, 즉 더 압축된다. "확률 분포 추정"은 현재 스펙트럼 계수(14)의 실제 확률 분포의 추정, 즉 현재 스펙트럼 계수(14)가 추정할 수 있는 값들의 도메인의 각각의 값에 대한 확률을 할당하는 함수이다. 스펙트럼(12)의 형상에 대한 거리(28)의 적응의 의존성 때문에, 확률 분포 추정은 실제 확률 분포에 더 가깝게 상응하도록 결정될 수 있는데, 그 이유는 스펙트럼(12)의 형상에 대한 정보의 이용이 현재 스펙트럼 계수(x)의 확률 분포의 더 정확한 추정을 허용하는 현재 스펙트럼 계수(x)의 이웃으로부터 확률 분포 추정을 유도하는 것을 가능하게 하기 때문이다. 이에 관한 상세 내용이 스펙트럼(12)의 형상에 대한 정보의 예들과 함께 아래에 제시된다.
앞서 언급된 스펙트럼(12)의 형상에 대한 정보의 특정 예들을 진행하기 전에, 도 3 및 4는 각각 스펙트럼 계수 인코더(10) 및 스펙트럼 계수 디코더(40)의 가능한 내부 구조들을 도시한다. 특히, 도 3에 도시된 것과 같이, 스펙트럼 계수 인코더(10)는 확률 분포 추정 유도기(probability distribution estimation derivator, 42) 및 엔트로피 인코딩 엔진(44)으로 구성될 수 있고, 유사하게, 스펙트럼 계수 디코더(40)는 확률 분포 추정 유도기(52) 및 엔트로피 디코딩 엔진(54)으로 구성될 수 있다. 확률 분포 추정 유도기들(42 및 52)은 동일한 방식으로 작동하는데, 그것들은 하나 이상의 이전에 디코딩/인코딩된 스펙트럼 계수(o)의 값을 기초로 하여, 현재 스펙트럼 계수(x)를 엔트로피 인코딩/디코딩하기 위한 확률 분포 추정(56)을 유도한다. 특히, 엔트로피 인코딩/디코딩 엔진(44/54)은 유도기(42/52)로부터 확률 분포 추정을 수신하고, 이에 따라 현재 스펙트럼 계수(x)에 관한 엔트로피 인코딩/디코딩을 실행한다.
엔트로피 인코딩/디코딩 엔진(44/54)은 예를 들면, 현재 스펙트럼 계수(x)의 인코딩/디코딩을 위하여 허프만 코딩(Huffman coding)과 같은 가변 길이 코딩(variable length coding)을 사용할 수 있고 이와 관련하여, 엔진(44/54)은 상이한 확률 분포 추정을 위하여 상이한 가변 길이 코딩(VLC) 테이블들을 사용할 수 있다. 대안으로서, 엔진(44/54)은 현재 스펙트럼 계수(x)와 관련하여 산술 인코딩/디코딩을 사용할 수 있고 확률 분포 추정(56)은 산술 코딩/디코딩 엔진들(44/54)의 내부 상태를 표현하는 현재 확률 간격을 세분하는 확률 간격을 제어하며, 각각의 부분 간격은 현재 스펙트럼 계수(x)에 의해 추론될 수 있는 값들의 표적 범위 중에서 상이한 가능한 값에 할당된다. 아래에 더 상세히 설명될 것과 같이, 엔트로피 인코딩 엔진 및 엔트로피 디코딩 엔진(44 및 54)은 제한된 정수 값 간격, 즉 [0,...,2N-1]과 같은 표적 범위 상으로 스펙트럼 계수들(14)의 전체 값 범위를 매핑하기 위하여 탈출 메커니즘을 사용할 수 있다. 표적 범위, 즉 {0,...,2N -1} 내의 정수 값들의 설정은 탈출 심벌{escape symbol, esc})과 함께, 산술 인코딩/디코딩 엔진(44/54)의 심벌 알파벳, 즉 {0,...,2N -1, esc}을 정의한다. 예를 들면, 엔트로피 인코딩 엔진(44)은 스펙트럼 계수(x)를 앞서 언급된 표적 간격 [0,...,2N -1] 내로 이동시키기 위하여 만일 있다면, 필요할 때마다 인바운드(inbound) 스펙트럼 계수(x)가 2로의 나눗셈의 대상이 되도록 하고, 각각의 나눗셈을 위하여, 데이터 스트림(30) 내로의 탈출 부호를 인코딩하며, 그 뒤에 데이터 스트림(30) 내로의 나눗셈 잔여(division remainder, 또는 어떠한 나눗셈도 필요하지 않은 경우에 원래 스펙트럼 값)의 산술적 인코딩이 뒤따른다. 엔트로피 디코딩 엔진(54)은 차례로, 다음과 같이 탈출 메커니즘을 구현할 수 있다: 이는 비-탈출 심벌이 뒤따르는 0, 1 또는 그 이상의 탈출 심벌들(esc)의 시퀀스로서, 즉 비-탈출 심벌의 디코딩으로, 시퀀스들({a}, {esc, a}, {esc, esc, a},...) 중 하나로서 데이터 스트림(30)으로부터 현재 변환 계수(x)를 디코딩할 수 있다. 엔트로피 디코딩 엔진(54)은 비-탈출 부호를 산술적으로 디코딩함으로써, 예를 들면 표적 간격([0,.,2N-1]) 내의 값(a)을 획득할 수 있고, a + 탈출 부호들의 수의 2배와 동일하도록 현재 스펙트럼 계수의 값을 계산함으로써 x의 계수 값을 유도할 수 있다.
확률 분포 추정(56)의 사용 및 현재 스펙트럼 계수(x)를 표현하도록 사용되는 심벌들의 시퀀스 상으로의 이의 적용과 관련하여 상이한 가능성들이 존재하며: 예를 들면, 확률 분포 추정은 만일 필요하면, 스펙트럼 계수(x)를 위한 데이터 스트림(30) 내의 어떠한 심벌, 즉 비-탈출 심벌뿐만 아니라 어떠한 탈출 심벌 상에 적용될 수 있다. 대안으로서, 확률 분포 추정(56)은 단지 예를 들면 동일한 확률 분포와 같은 심벌들의 시퀀스 중 어떠한 뒤따르는 하나에 일부 디폴트 확률 분포 추정을 사용하여, 비-탈출 심벌이 뒤따르는 0 또는 그 이상의 탈출 심벌의 시퀀스의 첫 번째 또는 첫 번째 두 개 또는 첫 번째 n<N을 위하여 사용된다.
도 5는 스펙트로그램(12) 중에서의 바람직한 스펙트럼(20)을 도시한다. 특히, 스펙트럼 계수들의 크기가 y축을 따라 임의의 유닛으로 도 5에 표시되고, 수평 x축은 임의의 유닛에서의 주파수와 상응한다. 이미 설명된 것과 같이, 도 5의 스펙트럼(20)은 특정 시간 인스턴트에서 오디오 신호의 스펙트로그램 위의 스펙트럼 슬라이스와 상응하고, 스펙트로그램(12)은 그러한 스펙트럼들(20)의 시퀀스로 구성된다. 도 5는 또한 현재 스펙트럼 계수(x)의 스펙트럼 위치를 도시한다.
아래에 더 상세히 설명될 것과 같이, 스펙트럼(20)은 예를 들면 아래에 더 상세하게 설명되는 실시 예들에 따라, 오디오 신호의 비-가중된(unweighted) 스펙트럼일 수 있고, 스펙트럼(20)은 지각적(perceptual) 합성 필터 함수의 가역과 상응하는 전달 함수를 사용하여 이미 지각적으로 가중된다. 그러나, 본 발명은 아래에 더 설명되는 특정 경우에 한정되지 않는다.
어떠한 경우든, 도 5는 주파수 방향을 따라 스펙트럼 내의 국부 최대(local maxima) 및 최소의 다소 등거리 배치로 나타나는 주파수 축을 따라 특정 주기를 갖는 스펙트럼(20)을 도시한다. 단지 설명의 목적을 위하여, 도 5는 현재 스펙트럼 계수(x)가 위치되는 스펙트럼의 국부 최대 사이의 스펙트럼 거리에 의해 정의되는 것과 같이 오디오 신호의 피치 또는 주기의 측정(60)을 도시한다. 자연적으로, 측정(60)은 국부 최대 및/또는 국부 최소 사이의 평균 피치 혹은 시간 도메인 신호(18)의 자가 상관 함수에서 측정된 시간 지연 최대와 동등한 주파수 거리와 같이, 다르게 정의되고 결정될 수 있다.
일 실시 예에 따르면, 측정(60)은 스펙트럼 형상에 대한 정보이거나, 또는 정보에 의해 구성된다. 인코더(10) 및 디코더(40), 또는 더 정확히 설명하면, 확률 분포 추정 유도기(42/52)는 예를 들면, 이러한 측정(60)에 의존하여 이전 스펙트럼 계수(o) 및 현재 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리를 조정할 수 있다. 예를 들면, 상대 스펙트럼 거리(28)는 측정(60)이 증가함에 따라 거리(28)가 증가하도록 측정(60)에 의존하여 변경될 수 있다. 예를 들면, 측정(60)과 동일하거나 또는 그것의 정수 배수가 되도록 거리(28)를 설정하는 것이 바람직할 수 있다.
아래에 더 상세히 설명될 것과 같이, 스펙트럼(12)의 형상에 대한 정보가 어떻게 디코더에서 이용 가능한지에 대하여 상이한 가능성들이 존재한다. 일반적으로, 측정(60)과 같은, 이러한 정보는 디코더에 명시적으로 시그널링될 수 있고 인코더(10) 또는 확률 분포 추정 유도기(42)만이 실제로 스펙트럼의 형상에 대한 정보를 결정하거나 혹은 스펙트럼의 형상에 대한 정보는 스펙트럼의 이전에 디코딩된 부분을 기초로 하여 병렬로 인코더 및 디코더 측에서 실행될 수 있거나, 혹은 비트스트림 내에 이미 기록된 또 다른 정보로부터 추론될 수 있다.
상이한 용어를 사용하여, 측정(60)은 또한 "고조파-간 거리"로서 해석될 수 있는데, 그 이유는 앞서 언급된 스펙트럼 내의 국부 최대 또는 경사(hill)들이 서로 고조파를 형성할 수 있기 때문이다.
도 6은 스펙트럼 거리(28)가 독점적으로 또는 이전에 설명된 것과 같은 측정(60)과 같은 또 다른 측정과 함께 조정될 수 있는지를 기초로 하는 스펙트럼의 형상에 대한 정보의 또 다른 예를 제공한다. 특히, 도 6은 스펙트럼 슬라이스가 도 6에 도시된, 인코더(10) 및 디코더(40)에 의해 인코딩/디코딩된 스펙트럼 계수들에 의해 표현되는 스펙트럼(12)이 지각적으로 가중된 합성 필터 함수의 가역을 사용하여 가중되는 바람직한 경우를 도시한다. 즉, 원래 그리고 최종적으로 재구성된 오디오 신호의 스펙트럼은 도 6의 62에 도시된다. 프리-엠퍼시스된 버전은 점선으로 64에 도시된다. 프리-엠퍼시스된 버전(64)의 선형 예측 추정된 엔벨로프는 1점 쇄선으로 도시되고 그것의 지각적으로 변형된 버전, 즉 지각적으로 동기화된 합성 필터 함수의 전달 함수는 2점 쇄선을 사용하여 도 6의 68에 도시된다. 스펙트럼(12)은 지각적으로 가중된 합성 필터 함수(68)의 가역을 갖는 원래 오디오 신호 스펙트럼(62)의 프리-엠퍼시스된 버전의 필터링의 결과일 수 있다. 어떠한 경우든, 인코더 및 디코더 모두는 스펙트럼 엔벨로프(66)로의 액세스를 가질 수 있고, 이는 차례로, 다소 분명한 포먼트들(70) 또는 밸리들(72)을 가질 수 있다. 본 발명의 대안의 일 실시 예에 따르면, 스펙트럼의 형상에 관한 정보는 적어도 부분적으로 스펙트럼(12)의 스펙트럼 엔벨로프(66)의 이러한 포먼트들(70) 및/또는 밸리들(72)의 상대 위치를 기초로 하여 정의된다. 예를 들면, 포먼트들(70) 사이의 스펙트럼 거리(74)는 앞서 언급된 현재 스펙트럼 계수(x) 및 이전 스펙트럼 계수(o) 사이의 상대 스펙트럼 거리(28)를 설정하도록 사용될 수 있다. 예를 들면, 거리(28)는 바람직하게는 거리(74)와 동일하거나 또는 정수 배수가 되도록 설정될 수 있으나, 대안들이 또한 실현 가능하다.
도 6에 도시된 것과 같은 선형 예측 기반 엔벨로프 대신에, 스펙트럼 엔벨로프는 또한 다르게 정의될 수 있다. 예를 들면, 엔벨로프는 스케일 인자들에 의해 데이터 스트림 내로 정의되고 전송될 수 있다. 엔벨로프를 전송하는 다른 방법들이 또한 사용될 수 있다.
도 5 및 6과 관련하여 위에 설명된 방식으로의 거리(28)의 조정 때문에, "기준" 스펙트럼 계수(o)의 값은 예를 들면 현재 스펙트럼 계수(x)에 스펙트럼적으로 더 가깝게 위치하는 다른 스펙트럼 계수들과 비교하여 현재 스펙트럼 계수(x)에 대한 확률 분포 추정을 추정하기 위하여 실질적으로 더 나은 힌트(hint)를 표현한다. 이와 관련하여, 콘텍스트 모델링은 대부분의 경우에 한편으로는 엔트로피 코딩 복잡도 및 다른 한편으로는 코딩 효율 사이에서의 절충이라는 것을 이해하여야 한다. 따라서, 지금까지 설명된 실시 예들은 예를 들면, 측정(60)을 증가시키거나 및/또는 포먼트간 거리(74)를 증가시킴에 따라 거리가 증가하도록 스펙트럼의 형상에 대한 정보에 의존하는 상대 스펙트럼 거리(28)를 제안한다. 그러나, 엔트로피 코딩/디코딩의 콘텍스트 적응이 실행되는 것을 기초로 하는 이전 계수들(o)의 수는 일정할 수 있는데, 즉 증가하지 않을 수 있다. 콘텍스트 적응이 실행되는 것을 기초로 하여, 이전 스펙트럼 계수들(o)의 수는 예를 들면 스펙트럼의 형상에 관한 정보의 변화와 관계없이 일정할 수 있다. 이는 위에 설명된 방식으로의 상대 스펙트럼 거리(28)의 적응이 콘텍스트 모델링의 실행의 오버헤드(overhead)를 상당히 증가시키지 않고 더 나은, 또는 더 효율적인 엔트로피 인코딩/디코딩에 이르게 한다는 것을 의미한다. 단지 스펙트럼 거리(28) 자체의 적응은 콘텍스트 모델링 오버헤드를 증가시킨다.
방금 설명된 주제를 더 상세히 설명하기 위하여, 스펙트로그램(12) 중에서 시간주파수 부분을 도시한, 도 7이 참조되고, 시간주파수 부분은 코딩/디코딩되는 현재 스펙트럼 계수(14)를 포함한다. 또한, 도 7은 현재 스펙트럼 계수(x)의 엔트로피 코딩/디코딩을 위한 콘텍스트 모델링이 실행되는 것을 기초로 하여 바람직하게는 5개의 이전에 코딩/디코딩된 계수(o)의 템플릿을 도시한다. 템플릿은 현재 스펙트럼 계수(x)의 위치에 위치되고 이웃하는 기준 스펙트럼 계수들(o)을 나타낸다. 앞서 언급된 스펙트럼의 형상에 대한 정보에 의존하여, 이러한 기준 스펙트럼 계수들(o)의 스펙트럼 위치들의 스펙트럼 확산이 적응된다. 이는 예를 들면, 적응(80)에 의존하는 기준 스펙트럼 계수들의 스펙트럼 위치들의 스펙트럼 확산의 스케일링의 경우에, 바람직하게는 기준 스펙트럼 계수들의 위치를 나타내는 쌍촉 화살표(80) 및 빗금친(hatched) 작은 원을 사용하여 도 7에 도시된다. 즉, 도 7은 콘텍스트 모델링에 기여하는 기준 스펙트럼 계수들의 수, 즉 현재 스펙트럼 계수(x)를 둘러싸고 기준 스펙트럼 계수들(o)을 식별하는 템플릿의 기준 스펙트럼 계수들의 수가 스펙트럼의 형상에 대한 정보의 변화에 관계없이 일정하게 유지하는 것을 도시한다. 이러한 기준 스펙트럼 계수들 및 현재 스펙트럼 계수 사이의 상대 스펙트럼 거리는 단지 80이고, 본질적으로 기준 스펙트럼 계수들 자체 사이의 거리에 따라 적응된다. 그러나, 기준 스펙트럼 계수들(o)의 수는 반드시 일정하게 유지될 필요는 없다는 것을 이해하여야 한다. 일 실시 예에 따르면, 기준 스펙트럼 계수들의 수는 상대 스펙트럼 거리가 증가함에 따라 증가할 수 있다. 그러나, 반대도 또한 실현 가능할 수 있다.
도 7은 현재 스펙트럼 계수(z)에 대한 스펙트럼 모델링이 또한 초기 스펙트럼/시간 프레임과 상응하는 이전에 코딩/디코딩된 스펙트럼 계수들을 포함하는 바람직한 경우를 도시한다는 사실을 이해하여야 한다. 그러나, 이는 또한 단지 일례로서 이해되어야 하고 그러한 시간적으로 선행하는 이전에 코딩/디코딩된 스펙트럼 계수들에 대한 의존성은 또 다른 실시 예에 따라 제외될 수 있다. 도 8은 확률 분포 추정 유도기(42/52)가 하나 이상의 기준 스펙트럼 계수(o)를 기초로 하여, 어떻게 현재 스펙트럼 계수에 대한 확률 분포 추정을 결정하는지를 도시한다. 도 8에 도시된 것과 같이, 이를 위하여 하나 이상의 기준 스펙트럼 계수(o)는 스칼라 함수(82)의 대상이 될 수 있다. 예를 들면 스칼라 함수를 기초로 하여, 하나 이상의 기준 스펙트럼 계수(o)는 이용 가능한 확률 분포 추정들이 세트 중에서 현재 스펙트럼 계수(x)를 위하여 사용되도록 확률 분포 추정을 지수화하는 지수 상에 매핑된다. 위에서 이미 설명된 것과 같이, 이용 가능한 확률 분포 추정들은 예를 들면, 산술 코딩의 경우에 심벌 알파벳에 대한 상이한 확률 간격 나눗셈들, 또는 가변 길이 코딩을 사용하는 경우에 상이한 가변 길이 코딩 테이블들과 상응할 수 있다.
위에 설명된 스펙트럼 계수 인코더/디코더들의 각각의 변환 기반 인코더들/디코들로의 가능한 적분(integration)을 진행하기 전에, 지금까지 설명된 실시 예들이 어떻게 변경될 수 있는지에 대하여 여기서 몇몇 가능성들이 아래에 설명된다. 예를 들면, 도 3 및 4와 관련하여 위에서 간단하게 설명된 탈출 메커니즘이 단지 설명의 목적을 위하여 선택되었고 대안의 실시 예에 따라 제외될 수 있다. 아래에 설명되는 실시 예에서, 탈출 메커니즘이 사용된다. 게다가, 아래에 설명되는 더 특정한 실시 예들의 설명으로부터 자명해질 것과 같이, 스펙트럼 계수들을 개별적으로 인코딩/디코딩하는 대신에, 이는 n-튜플(tuple)들의 유닛들, 즉 n 스펙트럼적으로 바로 이웃하는 스펙트럼 계수들의 유닛들 내에 인코딩/디코딩될 수 있다. 도 8의 스칼라 함수(82)와 관련하여, 스칼라 함수는 산술 함수 또는 논리 연산일 수 있다는 것을 이해하여야 한다. 게다가, 스펙트럼 측정들은 예를 들면 스펙트럼의 주파수 범위를 초과하거나 또는 스펙트럼이 현재 스펙트럼 계수와 상응하는 시간 인스턴트에서 샘플링되는 시간주파수 해상도와 다른 시간주파수 해상도에서 스펙트럼 계수들에 의해 샘플링되는 스펙트럼의 일부분에 위치하기 때문에 이용 불가능한 그러한 기준 스칼라 계수들(o)을 위하여 획득될 수 있다. 이용 불가능한 기준 스펙트럼 계수들(o)의 값들은 예를 들면 디폴트 값들에 의해 대체될 수 있고, 그리고 나서 다른 (이용 가능한) 기준 스펙트럼 계수들과 함께 스칼라 함수(82) 내로 입력된다. 엔트로피 코딩/디코딩이 위에 설명된 스펙트럼 거리 적응을 사용하여 작동할 수 있는 또 다른 방법은 다음과 같다: 예를 들면, 현재 스펙트럼 계수는 2진화(binarization)의 대상이 될 수 있다. 예를 들면, 스펙트럼 계수(x)는 빈들의 시퀀스 상으로 매핑될 수 있고 빈들은 그리고 나서 상대 스펙트럼 거리 적응의 적응을 사용하여 엔트로피 인코딩된다. 디코딩할 때, 빈들은 유효한 빈 시퀀스가 만날 때까지 순차적으로 엔트로피 디코딩될 수 있고, 이는 그리고 나서 현재 스펙트럼 계수(x)의 각각의 값들에 재-매핑될 수 있다.
또한, 하나 이상의 이전 스펙트럼 계수에 의존하는 콘텍스트 적응은 도 8에 도시된 것과 상이한 방식으로 구현될 수 있다. 특히, 스칼라 함수(82)는 이용 가능한 콘텍스트들 중에서 하나를 지수화하도록 사용될 수 있고 각각의 콘텍스트는 그것들과 관련된 확률 분포 추정을 갖는다. 그러한 경우에, 특정 콘텍스트와 관련된 확률 추정 분포는 현재 코딩/디코딩된 스펙트럼 계수(x)가 각각의 콘텍스트에 할당된 실제 스펙트럼 통계에, 즉 이러한 현재 스펙트럼 계수(x)의 값을 사용하여 적응될 수 있다.
최종적으로, 도 9a 및 9b는 스펙트럼의 형상에 관한 정보의 유도가 어떻게 인코더와 디코더 사이에서 동기화될 수 있는지에 대한 상이한 확률들을 도시한다. 도 9a는 명시적 시그널링이 인코더와 디코더 사이에서 스펙트럼의 형상에 관한 정보의 유도를 동기화하도록 사용되는지에 따른 확률을 도시한다. 여기서, 인코딩 및 디코딩 측 모두에서, 정보의 유도는 각각 비트스트림(30)의 이전에 코딩된 부분 또는 이전에 디코딩된 부분을 기초로 하여 실행되고, 인코딩 측에서의 유도는 도면 부호 83을 사용하여 표시되고 디코딩 측에서의 유도는 도면 부호 84를 사용하여 표시된다. 두 유도 모두는 예를 들면, 유도들(42 및 52) 자체에 의해 실행될 수 있다.
도 9b는 명시적 시그널링이 인코더로부터 디코더로 스펙트럼의 형상에 관한 정보를 전달하도록 사용되는지에 따른 확률을 도시한다. 인코딩 측에서의 유도(83)는 심지어 코딩 손실 때문에 디코딩 측에서 이용 불가능한, 그것들의 성분들을 포함하는 원래 오디오 신호의 분석을 포함할 수 있다. 오히려, 데이터 스트림(30) 내의 명시적 시그널링이 디코딩 측에서 스펙트럼의 형상에 관한 정보를 제공하도록 사용된다. 바꾸어 말하면, 디코딩 측에서의 유도(84)는 스펙트럼의 형상에 관한 정보로의 액세스를 획득하기 위하여 데이터 스트림(30) 내의 명시적 시그널링을 사용한다. 명시적 시그널링(30)은 상이한 코딩을 포함할 수 있다. 아래에 더 상세히 설명될 것과 같이, 예를 들면, 다른 목적을 위하여 데이터 스트림(30) 내에서 이미 이용 가능한 장기간 예측(long term prediction, LTP) 래그 파라미터(lag parameter)가 스펙트럼의 형상에 관한 정보로서 사용될 수 있다. 대안으로서, 그러나, 도 9b의 명시적 시그널링은 측정(60)을 이미 이용 가능한 장기간 예측 래그 파라미터와 관련하여 상이하게 코딩할 수 있는데, 즉 이미 이용 가능한 장기간 예측 래그 파라미터와 상이하게 코딩할 수 있다. 디코딩 측에 이용 가능한 스펙트럼의 형상에 관한 정보를 제공하기 위한 많은 다른 가능성들이 존재한다.
위에 설명된 대안의 실시 예들에 더하여, 스펙트럼 계수들의 인코딩/디코딩은 엔트로피 인코딩/디코딩에 더하여, 현재 인코딩/디코딩되는 스펙트럼 계수의 스펙트럼적으로의 및/또는 시간적으로의 예측을 포함할 수 있다. 예측 잔류는 그리고 나서 위에 설명된 것과 같이 엔트로피 인코딩/디코딩의 대상이 될 수 있다.
스펙트럼 계수 인코더 및 디코더의 다양한 실시 예들을 설명한 후에, 스펙트럼 계수 인코더 및 디코더가 바람직하게는 변환 기반 인코더/디코더 내에서 어떻게 구성될 수 있는지에 대하여 일부 실시 예들이 아래에 설명된다.
도 10a는 예를 들면, 본 발명의 일 실시 예에 따른 변환 기반 오디오 인코더를 도시한다. 도 10a의 변환 기반 오디오 인코더는 일반적으로 도면 부호 100을 사용하여 표시되고 스펙트럼 컴퓨터(102)를 포함하며 도 1의 스펙트럼 계수 인코더(10)가 뒤따른다. 스펙트럼 컴퓨터(102)는 오디오 신호(18)를 수신하고 이를 기초로 하여 스펙트럼 계수들이 위에 설명된 것과 같이 스펙트럼 계수 인코더(10)에 의해 데이터 스트림(30) 내로 인코딩되는, 스펙트럼(12)을 계산한다. 도 10b는 상응하는 디코더(104)의 구성을 도시하고: 디코더(104)는 위에 설명된 것과 같이 형성되는 스펙트럼 계수 디코더(40)의 연결(concatenation)을 포함하며, 도 10a 및 10b의 경우에, 스펙트럼 컴퓨터(102)는 예를 들면, 단지 그것들의 가역을 상응하게 실행하는 스펙트럼 대 시간(spectrum to time) 도메인 컴퓨터(106)와 함께 스펙트럼(20) 상으로의 래핑된 변환을 실행할 수 있다. 스펙트럼 계수 인코더(10)는 인바운드 스펙트럼(20)을 손실 없이 인코딩하도록 구성될 수 있다. 그것과 비교하여, 스펙트럼 컴퓨터(102)는 양자화에 기인하는 코딩 손실을 도입할 수 있다
양자화 잡음을 스펙트럼적으로 형상화하기 위하여, 스펙트럼 컴퓨터(102)는 도 11a에 도시된 것과 같이 구현될 수 있다. 여기서, 스펙트럼(12)은 스케일 인자들을 사용하여 스펙트럼적으로 형상화된다. 특히 도 11a에 따르면, 스펙트럼 컴퓨터(102)는 변환기(transformer, 108) 및 스펙트럼 형상기(spectrum shaper, 110)의 연결을 포함하고 그 중에서 변한기(108)는 오디오 신호(18)의 형상화되지 않은 스펙트럼(112)을 획득하기 위하여 인바운드 오디오 신호(18)를 스펙트럼 분해 변환의 대상이 되도록 하며, 스펙트럼 형상기(110)는 스펙트럼 계수 인코더(10)에 의해 최종적으로 인코딩되는 스펙트럼(12)을 획득하기 위하여 스펙트럼 컴퓨터(102)의 스케일 인자 결정기(116)로부터 획득되는 스케일 인자들(114)을 사용하여 이러한 형상화되지 않은 스펙트럼(112)을 스펙트럼적으로 형상화한다. 예를 들면, 스펙트럼 형상기(110)는 스케일 인자 결정기(116)로부터 스케일 인자 대역 당 하나의 스케일 인자(114)를 획득하고 스펙트럼(12)을 수신하기 위하여 각각의 스케일 인자 대역의 각각의 스펙트럼 계수를 각각의 스케일 인자 대역과 관련된 스케일 인자로 나눈다. 스케일 인자 결정기(116)는 오디오 신호(18)를 기초로 하여 스케일 인자들을 결정하기 위하여 지각적 모델에 의해 구동될 수 있다. 대안으로서, 스케일 인자 결정기(116)는 스케일 인자들이 선형 예측 계수 정보에 의해 정의되는 선형 예측 합성 필터에 의존하여 전달 함수를 나타내도록 선형 예측 분석을 기초로 하여 스케일 인자들을 결정할 수 있다. 선형 예측 계수 정보(118)는 인코더(10)에 의해 스펙트럼(20)의 스펙트럼 계수와 함께 데이터 스트림(30) 내로 코딩된다. 완전성을 위하여, 도 11a는 그리고 나서 스펙트럼 계수 인코더(10)에 의해 손실 없이 코딩되는 양자화된 스펙트럼 계수들을 갖는 스펙트럼(12)을 획득하기 위하여 스펙트럼 형상기(110)의 하류에 위치되는 것과 같은 양자화기(quantizer, 120)를 도시한다.
도 11b는 도 10a의 인코더와 상응하는 디코더를 도시한다. 여기서, 스펙트럼 대 시간 도메인 컴퓨터(106)는 스케일 인자들이 선형 예측 계수 정보(118)에 의해 정의되는 선형 예측 합성 필터에 의존하여 전달 함수를 표현하도록 하기 위하여 데이터 스트림(30) 내에 포함된 선형 예측 계수 정보(118)를 기초로 하여 스케일 인자들(114)을 재구성하는 스케일 인자 결정기(122)를 포함한다. 스펙트럼 형상기는 스케일 인자들에 따라 데이터 스트림(30)으로부터 디코더(40)에 의해 디코딩되는 것과 같이 스펙트럼(12)을 스펙트럼적으로 형상화하는데, 즉 각각의 스케일 인자 대역의 스케일 인자를 사용하여 각각의 스펙트럼 대역 내의 스케일 인자들을 스케일링한다. 따라서, 스펙트럼 형상기(124)의 출력에서, 오디오 신호(18)의 형상화되지 않은 스펙트럼(112)의 재구성이 야기되고 파선에 의해 도 11b에 도시된 것과 같이, 시간-도메인 내의 오디오 신호(18)를 재구성하기 위하여 역 변환기(128)에 의한 스펙트럼(112) 상으로의 역 변환의 적용은 선택적이다.
도 12a는 선형 예측 기반 스펙트럼 형상화를 사용하는 경우에 도 11a의 변환 기반 오디오 인코더의 더 상세한 실시 예를 도시한다. 도 11a에 도시된 부품들에 더하여, 도 12a의 인코더는 초기에 인바운드 오디오 신호(18)가 프리-엠퍼시스(pre-emphasis) 필터링의 대상이 되도록 구성되는 프리-엠퍼시스 필터(128)를 포함한다. 프리-엠퍼시스 필터(128)는 예를 들면, 유한 임펄스 응답(finite impulse response, FIR) 필터로서 구현될 수 있다. 프리-엠퍼시스 필터(128)의 전달 함수는 예를 들면, 고역 통과(high pass) 전달 함수를 표현할 수 있다. 일 실시 예에 따르면, 프리-엠퍼시스 필터(128)는 예를 들면 α가 0.68로 설정된 전달 함수(H(z) = 1 - αz- 1)를 갖는 1차(first order) 고역 통과 필터와 같은, n차 고역 통과 필터로서 구현된다. 따라서, 프리-렘퍼시스 필터(128)의 출력에서, 오디오 신호(18)의 프리-엠퍼시스된 버전이 야기된다. 또한, 도 12a는 선형 예측(LP) 분석기(132) 및 스케일 인자 컨버터(134)에 대한 선형 예측 계수로 구성되는 스케일 인자 결정기를 도시한다. 선형 예측 분석기(132)는 오디오 신호(18)의 프리-엠퍼시스된 버전을 기초로 하여 선형 예측 계수 정보(118)를 계산한다. 따라서 정보(118)의 선형 예측 계수들은 오디오 신호(18)의 선형 예측 기반 스펙트럼 엔벨로프, 또는 더 정확하게는, 그것의 프리-엠퍼시스된 버전(130)을 표현한다. 선형 예측 분석기(132)의 작동 모드는 예를 들면, 선형 예측 분석되는 신호(130)의 윈도우잉된 부분들의 시퀀스를 획득하기 위한 인바운드 신호(130)의 윈도우잉, 각각의 윈도우잉된 부분의 자가상관(autocorrelation)을 결정하기 위한 자가상관 결정 및 선택적인, 자가상관들 상으로 래그 윈도우 함수를 적용하기 위한 래그 윈도우잉을 포함할 수 있다. 선형 예측 파라미터 추정은 그리고 나서 자가상관들 또는 래그 윈도우 출력, 즉 윈도우잉된 자가상관 함수들 상에 실행될 수 있다. 선형 예측 파라미터 추정은 예를 들면, 자가상관 당, 즉 신호(130)의 윈도우잉된 부분 당 선형 예측 계수들을 유도하기 위하여 (래그 윈도우잉된) 자가상관들 상으로의 위너-레빈슨-더빈(Wiener-Levinson-Durbin) 또는 다른 적절한 알고리즘의 실행을 포함할 수 있다. 즉, 선형 예측 분석기(132)의 출력에서, 선형 예측 계수들(118)이 야기된다. 선형 예측 분석기(132)는 데이터 스트림(30) 내로의 삽입을 위한 선형 예측 계수들을 양자화하도록 구성될 수 있다. 선형 예측 계수들은 예를 들면 선 스펙트럼 쌍 또는 선 스펙트럼 주파수 도메인 내에서와 같은 선형 예측 계수 도메인과는 또 다른 도메인 내에서 실행될 수 있다. 그러나, 위너-레빈슨-더빈 알고리즘과 다른 알고리즘들이 또한 사용될 수 있다.
스케일 인자 컨버터(134)에 대한 선형 예측 계수는 선형 예측 계수들을 스케일 인자들(114)로 전환한다. 컨버터(134)는 선형 예측 계수 정보(118)에 의해 정의되는 것과 같은 선형 예측 합성 필터(1/A(z))의 가역과 상응하도록 스케일 인자들(140)을 결정할 수 있다. 대안으로서, 컨버터(134)는 예를 들면 γ=0.92±10%인 1/A(γ·z)와 같은 이러한 선형 예측 합성 필터의 지각적으로 동기화된 변형을 따르도록 스케일 인자를 결정한다. 선형 예측 합성 필터의 지각적으로 동기화된 변형, 즉 1/A(γ·z)은 "지각적 모델"로 불릴 수 있다.
설명의 목적을 위하여, 도 12a는 도 12a의 실시 예를 위한, 그러나 선택적인 또 다른 소자를 도시한다. 이러한 소자는 장기간 예측의 대상이 되도록 하기 위하여 변환기(108)로부터 상류에 위치되는 장기간 예측(LTP) 필터(136)이다. 바람직하게는, 선형 예측 분석기(132)는 비-장기간 예측 필터링된 버전 상에서 작동한다. 바꾸어 말하면, 장기간 예측 필터(136)는 오디오 신호(18) 또는 그것의 프리-엠퍼시스된 버전(130) 상으로의 장기간 예측을 실행하고, 변환기(108)가 프리-엠퍼시스되고 장기간 예측된 잔류 신호(138) 상으로의 변환을 실행하도록 장기간 예측 잔류 버전을 출력한다. 장기간 예측 필터는 예를 들면, 유한 임펄스 응답 필터로서 구현될 수 있고 장기간 예측 필터(136)는 예를 들면 장기간 예측 이득 및 장기간 래그를 포함하는, 장기간 예측 파라미터들에 의해 제어될 수 있다. 두 장기간 예측 파라미터(140) 모두는 데이터 스트림(30) 내로 코딩된다. 장기간 예측 이득은 아래에 더 상세히 설명될 것과 같이, 측정(60)을 위한 일례를 나타내는데, 그 이유는 선형 예측 필터링 없이, 스펙트럼(12) 내에서 완전하게 나타낼 수 있는 피치 또는 주기를 표현하거나, 또는 선형 예측 필터링을 사용하여, 장기간 예측 필터(136)에 의한 장기간 예측 필터링의 강도를 제어하는 장기간 예측 이득 파라미터에 의존하는 감소의 정도를 갖는 점진적으로 감소되는 강도로 스펙트럼(12) 내에서 발생하기 대문이다.
도 12b는 완전성을 위하여, 도 12a의 인코더에 적합한 디코더를 도시한다. 도 11b의 부품들 및 스케일 인자 결정기(122)가 스케일 인자 컨버터(142)에 대한 선형 예측 코딩으로서 구현되는 사실에 더하여, 도 12b의 디코더는 다운스트림 역 변환기(downstream inverse transformer, 126)를 포함하고 오버랩-가산 스테이지(overlap-add stage, 144)는 역 변환기(126)에 의해 출력된 역 변환들이 오버랩 가산 과정의 대상이 되도록 하고, 이에 의해 프리-엠퍼시스되고 장기간 예측 후-필터링의 대상이 되는 장기간 예측 필터링된 버전의 재구성을 획득하며, 장기간 예측 후-필터(146)의 전달 함수는 장기간 예측 필터(136)의 전달 함수의 가역과 상응한다. 장기간 예측 후-필터(146)는 예를 들면, 적외선(IR) 필터의 형태로 구현될 수 있다. 장기간 예측 후-필터(146)에 순차적으로, 바람직하게는 그것의 하류의 도 12b에서, 도 12b의 디코더는 프리-엠퍼시스 필터(128)의 전달 함수의 가역과 상응하는 전달 함수를 사용하여 시간-도메인 신호 상으로 역-엠퍼시스(de-emphasis)를 실행하는 역-엠퍼시스 필터(148)를 포함한다. 역-엠퍼시스 필터(148)는 또한 적외선 필터의 형태로 구현될 수 있다. 엠퍼시스 필터(148)의 출력에서 오디오 신호(18)가 야기된다.
바꾸어 말하면, 위에 설명된 실시 예들은 신호의 주기와 같은 신호의 스펙트럼들의 형상에 대한 산술 코더 콘텍스트와 같은 엔트로피 코더 콘텍스트의 디자인의 적응에 의한 음조 신호들 및 주파수 도메인의 코딩을 위한 가능성을 제공한다. 위에 설명된 실시 예들은 솔직히 표현하면, 이웃의 표기(notation)를 넘어 확장하고 피치 정보를 기초로 하는 것과 같이, 오디오 신호들의 스펙트럼의 형상을 기초로 하여 적응적 콘텍스트 디자인을 제안한다. 그러한 피치 정보는 부가적으로 디코더에 전송될 수 있거나 또는 위에 설명된 장기간 예측 이득과 같은, 다른 코딩 모듈들로부터 이미 이용 가능할 수 있다. 콘텍스트는 그리고 나서 거리 배수 또는 입력 신호의 기본 주파수에 대한 비율에 의해 코딩하기 위하여 현재 계수와 관련된 이미 코딩된 계수들을 가리키도록 매핑된다.
장기간 예측 전/후-필터 개념은 디코더에서 고조파 후-필터가 인코더로부터 디코더로 데이터 스트림(30)을 통하여 보내진 피치(또는 피치-래그)를 포함하는 장기간 예측 파라미터들을 통하여 제어되는지에 따른 고조파 후-필터 개념에 의해 대체될 수 있다는 것을 이해하여야 한다. 장기간 예측 파라미터들은 명시적 시그널링을 사용하여 앞서 언급된 스펙트럼의 형상에 관한 정보를 디코더로 상이하게 전송하기 위한 기준으로서 사용될 수 있다.
달리 표현하면, 위에 설명된 실시 예들은 다시 아래의 도면들과 관련하여 설명되는데, 그 중에서도 도 13은 위에 설명된 스펙트럼 거리 적응 개념을 사용하는 인코딩 과정의 일반적인 블록 다이어그램을 도시한다. 아래의 설명과 지금까지의 설명 사이의 색인을 용이하게 하기 위하여, 도면 부호들이 부분적으로 재사용된다.
입력 신호(18)는 먼저 시간 도메인(TD) 모듈(200) 내의 잡음 형상화/예측에 전달된다. 모듈(200)은 예를 들면, 도 12의 소자들(128 및 136) 중 하나 또는 모두를 포함한다. 이러한 모듈(200)은 우회될 수 있거나 혹은 선형 예측 코딩의 사용에 의한 단기간 예측, 및/또는 도 12a에 도시된 것과 같이, 장기간 예측을 실행할 수 있다. 모든 종류의 예측이 예상될 수 있다. 만일 시간 도메인 처리들 중 하나가 이용되고 피치를 전송하면, 장기간 필터(136)에 의해 출력된 장기간 예측 래그 파라미터에 의해 위에서 간단하게 설명된 것과 같이, 그러한 정보는 그리고 나서 피치 기반 콘텍스트 매핑을 위하여 콘텍스트 기반 산술 코더 모듈에 전송될 수 있다.
그리고 나서, 잔류 및 형상화된 시간-도메인 신호(202)는 변환기(108)에 의해 시간-주파수 변환의 도움으로 주파수 도메인으로 변환된다. 이산 푸리에 변환(DFT) 또는 변형 이산 코사인 변환(MDCT)이 사용될 수 있다. 변환 길이는 적응적일 수 있고 저지연을 위하여 이전 및 그 다음 변환 윈도우들(예를 들면 24)을 갖는 오버랩 영역들이 사용될 것이다. 본 출원서의 나머지 부분에서 본 발명의 발명자들은 실례로서 변형 이산 코사인 변환을 사용할 것이다.
변환된 신호(112)는 그리고 나서 이에 따라 예를 들면 스케일 인자 결정기(116) 및 스펙트럼 형상기(110)를 사용하여 구현되는, 모듈(204)에 의해 주파수 도메인 내에서 형상화된다. 이는 선형 예측 코딩 계수들의 주파수 응답 및 음향 심리학적 모델에 의해 구동되는 스케일 인자들에 의해 수행될 수 있다. 또한 시간 잡음 형상화(time noise shaping, TNS) 또는 피치 정보를 이용하고 전송하는 주파수 도메인 예측을 적용하는 것이 가능하다. 그러한 경우에, 피치 정보는 피치 기반 콘텍스트 매핑을 고려하여 콘텍스트 기반 산술 코더 모듈에 전달될 수 있다. 후자의 가능성은 또한 각각 도 10a 내지 12b의 위의 실시 예들에 적용될 수 있다.
출력된 스펙트럼 계수들은 그리고 나서 콘텍스트 기반 엔트로피 코더(10)에 의해 잡음없이 코딩되기 전에 양자화 스테이지(120)에 의해 양자화된다. 위에 설명된 것과 같이, 이러한 모듈(10)은 예를 들면, 오디오 신호의 스펙트럼에 관한 정보로서 입력 신호의 피치 추정을 사용한다. 그러한 정보는 시간 도메인 또는 주파수 도메인 내에서 미리 실행된 잡음 형상화/예측 모듈(200 또는 204) 중 어느 하나로부터 승계될 수 있다. 만일 정보가 이용 가능하지 않으면, 전용 피치 추정은 그리고 나서 비트스트림(30) 내로 피치 정보를 보내는 피치 추정 모듈(206)에 의한 것과 같이 입력 신호 상에서 실행될 수 있다.
도 14는 도 13에 적합한 디코딩 과정의 일반적인 블록 다이어그램을 도시한다. 이는 도 13에 설명된 역 처리들로 구성된다. 스펙트럼의 형상에 대한 정보의 일례로서 도 13 및 14의 경우에서 사용된 피치 정보가 먼저 디코딩되고 산술 디코더(40)에 전달된다. 만일 필요하면, 정보는 이러한 정보를 필요로 하는 나머지 모듈들에 더 전달된다.
특히, 데이터 스트림(30)으로부터 피치 정보를 디코딩하고 따라서 도 9b의 유도 과정(94)에 책임이 있는 피치 정보 디코더(208)에 더하여, 도 14의 디코더는 콘텍스트 기반 디코더(40) 다음에, 언급되는 순서로, 역양자화기(dequantizer, 210), 주파수 도메인(FD) 모듈 내의 역 잡음 형상화/예측 모듈(212), 역변환기(214) 및 시간 도메인(TD) 모듈 내의 역 잡음 형상화/예측 모듈(216)을 포함하고, 이들 모두는 스펙트럼 계수들이 비트스트림(30)으로부터 디코더에 의해 디코딩되는 스펙트럼적으로부터 시간-도메인 내의 오디오 신호(18)를 재구상하기 위하여 서로 연속적으로 연결된다. 도시된 것들 상으로의 도 14의 소자들의 매핑에서, 예를 들면 도 12b에서, 역변환기(214)는 도 12b의 역변환기(126) 및 오버랩-가산 스테이지(144)를 포함한다. 부가적으로, 도 14는 역양자화기가 예를 들면 모든 스펙트럼 선에 대하여 동일한 양자화 단계 함수를 사용하여, 인코더(40)에 의해 출력된 디코딩된 스펙트럼 계수들 상으로 적용될 수 있는 것을 도시한다. 또한, 도 14는 시간적 잡음 형상화(TNS) 모듈과 같은, 모듈(212)이 스펙트럼 형상기(124 및 126) 사이에 위치될 수 있다는 것을 도시한다. 시간 도메인 내의 역 잡음 형상화/예측 모듈(216)은 도 12b의 소자들(146 및/또는 148)을 포함한다.
다시 본 발명의 실시 예들에 의해 제공되는 장점들을 동기화하기 위하여, 도 15는 스펙트럼 계수들의 엔트로피 코딩을 위한 종래의 콘텍스트를 도시한다. 콘텍스트는 코딩을 위하여 현재 계수들의 과거 이웃의 제한 영역을 포함한다. 즉, 도 15는 예를 들면 MPEG 통합 음성 오디오 코딩(USAC)에서 사용되는 것과 같이, 콘텍스트-적응을 사용하여 스펙트럼 계수들을 엔트로피 코딩하기 위한 일례를 도시한다. 도 15는 따라서 도 1 및 2와 유사하나, 스펙트럼의 이웃하는 스펙트럼 계수들을 그룹화하거나 또는 스펙트럼 계수들의 n-튜플들로 불리는, 클로스터들로 분할하는 방식으로 스펙트럼 계수들을 도시한다. 그러한 n-튜플들을 개별 스펙트럼 계수들과 구별하고, 그럼에도 불구하고 위에 제시된 설명과 일관성을 유지하기 위하여, 이러한 n-튜플들은 도면 부호 14'를 사용하여 표시된다. 도 15는 한편으로는 이미 인코딩/디코딩된 n-튜플들 및 아직 코딩/디코딩되지 않은 n-튜플들을 구별하는데, 하나는 직사각형 외곽선을 사용하고 후자는 원형 외곽선을 사용하여 형태를 도시한다. 또한, 현재 디코딩/코딩되는 n-튜플(14')은 빗금 및 원형 외곽선을 사용하여 도시되고, 현재 처리되는 n-튜플에 위치되는 고정된 이웃 템플릿에 의해 국지화되는(localaized) 이미 코딩/디코딩된 n-튜플들(14')은 빗금이나 직사각형 외곽선을 사용하여 표시된다. 따라서, 도 15의 실시 예에 따르면, 현재 처리되는 n-튜플의 이웃 내의 6개의 n-튜플(14', 즉 동일한 시간 인스턴트이나 바로 이웃하는, 낮은 스펙트럼 선(들)에서의 n-튜플, 즉 c0, 동일한 스펙트럼 선(들)에서, 그러나 바로 선행하는 시간 인스턴트에서의 하나, 즉 c1, 바로 선행하는 시간 인스턴트에서 바로 이웃하는, 높은 스펙트럼 선에서의 n-튜플, 즉 c2 등등을 식별하였다. 즉, 도 15에 따라 사용된 콘텍스트 템플릿은 현재 처리되는 n-튜플, 즉 바로 이웃들에 대한 고정된 상대 거리들에서 기준 n-튜플들(14')을 식별한다. 도 15에 따르면, 스펙트럼 계수들은 바람직하게는, n-튜플들로 불리는, n의 블록들로 고려된다. n의 연속적인 값들의 결합은 계수간 의존성들을 이용하도록 허용한다. 높은 차원들은 코딩을 위한 n-튜플의 알파벳 크기를 기하급수적으로 증가시키며 따라서 코드북 크기를 기하급수적으로 증가시킨다. 나머지 설명에서 n=2의 차원이 바람직하게 사용되고 코딩 이득 및 코드북 크기 사이의 절충을 표현한다. 모든 실시 예에서, 코딩은 예를 들면, 개별적으로 부호를 고려한다. 게다가, 각각의 계수의 2개의 가장 중요한 비트 및 나머지 덜 중요한 비트들이 또한 개별적으로 처리될 수 있다. 콘텍스트 적응은 예를 들면, 비-부호화된(unsigned) 스펙트럼 값들의 2개의 가장 중요한 비트(MSB)에만 적용될 수 있다. 부호 및 덜 중요한 비트들은 균일하게 분포되는 것으로 추정된다. 2-튜플의 가장 중요한 비트들의 16개의 조합과 함께, 탈출 부호, ESC가 하나의 부가적인 덜 중요한 비트(LSB)가 디코더에 의해 실행되어야만 한다는 것을 나타내기 위하여 알파벳 내에 추가된다. 부가적인 덜 중요한 비트들만큼 많은 ESC 부호들이 전송된다. 종합적으로, 17개의 부호가 코드의 알파벳을 형성한다. 본 발명은 위에 설명된 부호들의 발생에 한정되지 않는다.
후자의 특정 상세내용을 도 3 및 4로 전달하면, 이는 다음을 의미한다: 엔트로피 인코딩/디코딩 엔진(44 및 54)의 심벌 알파벳은 값들 {0, 1, 2, 3) 및 탈출 부호를 포함할 수 있고, 인코딩되는 인바운드 스펙트럼 계수는 나눗셈 당 탈출 부호의 인코딩으로 4보다 작도록 하기 위하여 만일 필요할 때마다 3을 초과하면 4로 나뉜다. 따라서, 실제 비-탈출 심벌이 뒤따르는 0 또는 그 이상의 탈출 심벌이 각각의 스펙트럼 계수를 위하여 인코딩되고, 예를 들면, 이러한 심벌들 중 처음 두 개만이 이전에 여기서 설명된 것과 같은 콘텍스트-적응을 사용하여 코딩된다. 이러한 개념의 2-튜플, 즉 바로 스펙트럼적으로 이웃하는 계수들의 쌍으로의 전달에서, 심벌 알파벳은 이러한 2-튜플을 위한 16개의 값 쌍들, 즉 {(0, 0), (0, 1), (1, 0),..., (1, 1)} 및 탈출 심벌(esc, esc는 탈출 심벌의 약어임), 즉 모두 17개의 심벌을 포함할 수 있다. 3을 초과하는 적어도 하나의 계수를 포함하는 모든 인바운드 스펙트럼 계수 n-튜플은 각각의 2-튜플의 각각의 계수에 적용되는 4로의 나눗셈의 대상이 된다. 디코딩 측에서, 탈출 심벌들의 수의 4배는 만일 있다면, 비-탈출 심벌로부터 획득되는 나머지 값에 더해진다.
도 16은 기준 스펙트럼 계수들의 상대 스펙트럼 거리(28)가 예를 들면 신호의 주기 또는 피치 정보의 고려에 의한 것과 같이, 스펙트럼의 형상화에 대한 정보에 의존하는지에 따른 위에 설명된 개념에 따라 도 15의 개념의 변형을 야기하는 매핑된 콘텍스트 매핑을 도시한다. 도 16a 내지 16c는 콘텍스트 내의 앞서 언급된 상대 스펙트럼 거리(28)와 상응하는, 거리(D)가 다음이 공식에 의해 주어진 D0에 의해 대략 추정될 수 있는 것을 도시하며:
Figure 112016036654263-pct00001
여기서, fs는 샘플링 주파수이고, N은 변형 이산 코사인 변환 크기이며 L은 샘플들 내의 래그 주기이다. 도 16(a)의 실시 예에서, 콘텍스트는 D의 배수에 의해 코딩하도록 현재 n-튜플과 떨어져 있는 n-튜플들을 나타낸다. 도 16(b)는 종래의 이웃 콘텍스트를 고조파 관련 콘텍스트와 결합한다. 마지막으로 도 16(c)는 이전의 프레임들과의 어떠한 의존성도 없는 프레임-간 매핑된 콘텍스트의 일례를 도시한다. 즉, 도 16a는 도 7과 관련하여 위에 설명된 가능성들에 더하여, 스펙트럼의 형상에 대한 정보에 의존하는 상대 스펙트럼 거리의 적응이 콘텍스트 템플릿에 속하는 모든 고정된 수의 기준 스펙트럼 계수에 적용될 수 있다는 것을 도시한다. 도 16b는 상이한 실시 예에 따라, 이러한 기준 스펙트럼 계수들의 서브셋만이 예를 들면 콘텍스트 템플릿의 저주파수 측에서의 스펙트럼적으로 가장 바깥쪽의 것들, 여기서는 C3 및 C5와 같은, 적응(80)에 따른 변위의 대상이 되는 것을 도시한다. 나머지 기준 스펙트럼 계수들, 여기서는 C0 내지 C4는 현재 처리되는 스펙트럼 계수에 대하여 고정된 위치들, 즉 현재 처리되는 스펙트럼 계수에 대하여 바로 인접한 시간주파수 위치들에 위치될 수 있다. 마지막으로, 도 16c는 이전에 코딩된 스펙트럼 계수들만이 현재 처리되는 스펙트럼 계수로서 동일한 시간 인스턴트에 위치되는, 콘텍스트 템플릿의 기준 계수들로서 사용되는 가능성을 도시한다.
도 19는 도 16a-c의 매핑된 콘텍스트가 어떻게 고도의 고조파 스펙트럼(X, 예를 들면 20)의 톤(tone)을 예측할 수 없는 도 15에 따른 종래의 콘텍스트보다 더 효율적인지를 설명한다.
그 뒤에, 본 발명이 발명자들은 가능한 콘텍스트 매핑 메커니즘 및 거리(D)의 효율적인 추정과 코딩을 위한 본 발명의 바람직한 구현들을 상세히 설명할 것이다. 설명의 목적을 위하여, 본 발명의 발명자들은 아래의 섹션들에서 도 16c에 따른 프레임-간 매핑된 콘텍스트를 사용할 것이다.
제 1 실시 예: 2-튜플 코딩 및 매핑
우선 선택적 거리는 크기(N)의 현재 양자화되는 스펙트럼(xΠ)을 코딩하는데 필요한 비트들의 수를 최대한으로 감소시키기 위한 방법으로의 탐색이다. 초기 거리는 이전에 실행된 피치 추정에서 발견된 래그 주기(L)의 D0 함수에 의해 추정될 수 있다. 탐색 범위는 다음과 같을 수 있다:
D0 - △<DD0 + △
대안으로서, 범위는 D0의 배수를 고려함으로써 수정될 수 있다. 확정된 범위는 다음과 같이 되며:
{M.D0 - △<DM.D0 + △: MF}
여기서 M은 유한 세트(F)에 속하는 곱셈 계수이다. 예를 들면, M은 반(half) 및 2배 피치를 이용하기 위하여 값들 0.5, 1 및 2를 얻을 수 있다. 최종적으로 또한 D의 철저한 탐색을 만들 수 있다. 실제로, 이러한 마지막 접근법은 너무 복잡할 수 있다. 도 18은 탐색 알고리즘의 일례를 도시한다. 이러한 탐색 알고리즘은 예를 들면, 디코딩 및 인코딩 측에서의 유도 과정 또는 두 유도 과정(82 및 84) 모두의 일부분일 수 있다.
비용은 콘텍스트를 위한 어떠한 비용도 실행되지 않은 때의 비용으로 초기화된다. 만일 어떠한 거리도 더 나은 거리에 이르지 않으면, 어떠한 매핑도 실행되지 않는다. 매핑이 실행될 때 플래그가 시그널링을 위하여 디코더로 전송된다.
만일 최적 거리(Dopt)가 발견되면, 디코더는 이를 전송할 필요가 있다. 만일 인코더의 또 다른 모듈에 의해 L이 이미 전송되었으면, 앞서 언급된 도 9b의 명시적 시그널링과 상응하는, 조정 파라미터들(md)이 다음과 같은 방법으로 전송될 필요가 있다:
Dopt = m.D0 + d
그렇지 않으면, Dopt의 절대 값이 전송되어야만 한다. 도 9b와 관련하여 위에서 두 대안이 논의되었다. 예를 들면, 만일 본 발명의 발명자들이 크기 N=256이고 fs=12800㎐의 변형 이산 코사인 변환을 고려하였으면, 본 발명의 발명자들은 2 및 17 사이의 거리(D)를 제한함으로써 30㎐ 및 256㎐ 사이의 피치 주파수를 커버할 수 있다. 정수 해상도로, D는 4 비트로 코딩될 수 있고, 0.5의 해상도를 위하여 5비트로 그리고 0.25의 해상도를 위하여 6 비트로 코딩될 수 있다.
비용 함수는 콘텍스트 모델링을 발생시키기 위하여 사용되는 D를 갖는 xΠ를 코딩하는데 필요한 비트들의 수로서 계산될 수 있다. 이러한 비용 함수는 일반적으로 획득하기가 복잡한데 그 이유는 스펙트럼을 산술적으로 코딩하거나 또는 적어도 그것들이 필요한 비트들의 수의 뛰어난 추정을 갖는 것이 필요하기 때문이다. 이러한 비용 함수가 각각의 후보(D)를 계산하는데 복잡할 수 있기 때문에, 본 발명의 발명자들은 대안으로서 직접적으로 값(D)으로부터의 콘텍스트 매핑의 유도로부터 비용의 추정을 얻는 것을 제안한다. 콘텍스트 매핑을 유도하는 동안에, 인접한 매핑된 콘텍스트의 표준(norm)의 차이를 쉽게 계산할 수 있다. 콘텍스트가 코딩을 위한 n-튜플을 예측하기 위하여 산술 코더 내에서 사용되기 때문에 그리고 콘텍스트가 표준-L1을 기초로 하여 본 발명이 바람직한 실시 예에서 계산되기 때문에, 인접한 매핑된 콘텍스트들 사이의 표준의 차이의 합계는 주어진 매핑(D)의 효율의 뛰어난 표시이다. 우선 xΠ의 각각의 2-튜플의 표준은 다음과 같이 계산되며:
Figure 112016036654263-pct00002
여기서 바람직한 실시 예에서 NORM=1인데 그 이유는 본 발명이 발명자들이 콘텍스트 계산에서 표준-L1을 고려하기 때문이다. 본 섹션에서, 본 발명의 발명자들은 2의 해상도, 즉 2-튜플 당 하나의 매핑으로 작업하는 콘텍스트 매핑을 설명한다. 해상도는 r=2이고 콘텍스트 매핑 테이블은 N/2의 크기를 갖는다. 콘텍스트 매핑 발생 및 비용 함수 계산의 슈도 코드(pseudo code)가 아래에 주어진다:
입력: 해상도 r
입력: normVect[N/r}
출력: contextMapping[N/r}
Figure 112016036654263-pct00003
일단 최적 거리(D)가 계산되면, 고조파 위치들, 스펙트럼의 밸리들 및 테일(tail)을 주는, 지수 순열 테이블(index permutation table)이 또한 추론된다. 콘텍스트 매핑 규칙들은 그리고 나서 다음과 같이 추론된다:
Figure 112016036654263-pct00004
이는 스펙트럼(x[2*i],x[2*i+1]) 내의 지수(i)의 2-튜플에 대하여, 과거 콘텍스트가 지수들 contextMapping[i-1], contextMapping[i-2]...contextMapping[i-l]의 2-튜플들로 고려될 것이라는 것을 의미하고, 여기서 i는 2-튜플들과 관련한 콘텍스트의 크기이다. 만일 하나 이상의 이전 스펙트럼이 또한 콘텍스트를 위하여 고려되면, 과거 콘텍스트 내에 통합된 이러한 스펙트럼들에 대한 2-튜플들은 지수들 contextMapping[i+l],...,contextMapping[i+1], contextMapping[i], contextMapping[i-1], contextMapping[i-l]로서 가질 것이며, 여기서 2l+1은 이전 스펙트럼 당 콘텍스트의 크기이다.
지수 순열 테이블은 또한 부가적인 관심 정보를 주는데 그 이유는 비-음조 성분들의 지수들을 뒤따르는 음조 성분들의 지수들을 모으기 때문이다. 따라서 본 발명의 발명자들은 상응하는 진폭들이 감소하는 것을 기대할 수 있다. 이는 비-제로 2-튜플과 상응하는, 지수 순열 내의 마지막 지수를 검출함으로써 이용될 수 있다. 이러한 지수는 (lastNz/2-1)과 상응하며, 여기서 lastNz는 다음과 같이 계산된다:
Figure 112016036654263-pct00005
lastNz/2는 스펙트럼 성분들 이전의 실(천장, ceil, log2(N/2)) 비트들 상에서 코딩된다.
산술 인코더 슈도-코드:
입력: 스펙트럼 x[N]
입력: contextMapping[N/2]
입력: lastNz
출력: 코딩된 비트스트림
Figure 112016036654263-pct00006
Figure 112016036654263-pct00007
cum_equiprob[] 테이블들은 대형 훈련 세트 상의 오프라인 훈련 동안에 획득되는 상이한 누적 모델들이다. 이는 본 특정 경우에 17개의 심벌을 포함한다. proba_model_lookup[]은 콘텍스트 지수(t)를 누적 확률 모델(pki)로 매핑하는 룩업 테이블이다. 이러한 테이블은 또한 훈련 위상(training phase)을 통하여 획득된다. cum_equiprob[]은 등가 확률인(equi-probable) 두 개의 심벌의 알파벳을 위한 누적 확률 테이블이다.
제 2 실시 예: 1-튜플 매핑을 갖는 2-튜플
이러한 제 2 실시 예에서, 스펙트럼 성분들은 여전히 2-튜플 × 2-튜플로 코딩되나 contextMapping은 이제 1-튜플의 해상도를 갖는다. 매핑된 콘텍스트는 그리고 나서 주어진 신호에 더 잘 적합할 수 있다. 최적 거리는 섹션 3에서 수행되는 것과 동일한 방법으로 탐색되나, 이번에는 해상도 r=1이다. 이를 위하여, 각각의 변형 이산 코사인 변환 라인에 대하여 nomVect[]가 계산되어야만 한다:
Figure 112016036654263-pct00008
결과로서 생긴 콘텍스트 매핑이 그리고 나서 크기(N)의 테이블에 의해 주어진다. lastNz는 이전 섹션에서와 같이 계산되고 인코딩은 다음과 같이 설명될 수 있다:
입력: lastNz
입력: contextMapping[N]
입력: 스펙트럼 x[N]
출력: 코딩된 비트스트림
로컬(local): context[N/2]
Figure 112016036654263-pct00009
Figure 112016036654263-pct00010
이전 섹션과 반대로, 두 개의 뒤따르지 않는(non-subsequent) 스펙트럼 계수가 동일한 2-튜플 내에 수집될 수 있다. 이러한 이유 때문에, 2-튜플의 두 요소에 대한 콘텍스트 매핑은 콘텍스트 테이블 내의 두 개의 상이한 지수를 나타낼 수 있다. 바람직한 실시 예에서, 분 발명의 발명자들은 가장 낮은 지수를 갖는 매핑된 콘텍스트를 선택하나, 또한 두 개의 매핑된 콘텍스트의 평균 같은, 다른 규칙을 가질 수 있다. 동일한 이유 때문에 콘텍스트의 업데이트가 또한 다르게 처리되어야만 한다. 만일 두 개의 요소가 스펙트럼 내에서 연속적이면, 본 발명의 발명자들은 콘텍스트를 계산하는 종래의 방법을 사용한다. 그렇지 않으면, 콘텍스트는 그것의 고유의 크기만을 고려하여 두 개의 요소에 대하여 개별적으로 업데이트된다.
디코딩은 다음의 단계들로 구성된다:
● 콘텍스트 매핑이 실행되는지를 알도록 플래그를 디코딩한다.
D0에 대한 Dopt를 얻기 위하여 Dopt 또는 파라미터 조정 파라미터들이 디코딩에 의해, 콘텍스트 매핑을 디코딩한다.
● lastNz를 디코딩한다.
● 다음과 같이 양자화된 스펙트럼을 디코딩한다:
입력: lastNz
입력: contextMapping[N]
입력: 코딩된 비트스트림
로컬: context[N/2]
출력: 양자화된 스펙트럼 x[N}
Figure 112016036654263-pct00011
Figure 112016036654263-pct00012
따라서, 위의 실시 예들은 그 중에서도, 예를 들면 음조 신호들의 산술 코딩과 같은, 엔트로피를 위한 피치 기반 콘텍스트 매핑을 나타내었다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.
본 발명의 인코딩된 신호들은 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-전이형이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록(예를 들면, 전자적으로 또는 선택적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
이에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌
[1] Fuchs, G.; Subbaraman, V.; Multrus, M., "Efficient context adaptive entropy coding for real-time applications," Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on , vol., no., pp.493,496, 22-27 May 2011
[2] ISO/IEC 13818, Part 7, MPEG-2 AAC
[3] Juin-Hwey Chen; Dongmei Wang, "Transform predictive coding of wideband speech signals," Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on , vol.1, no., pp.275,278 vol. 1, 7-10 May 1996
10 : 스펙트럼 계수 인코더
12 : 스펙트로그램
14 : 스펙트럼 계수
14' : n-튜플
16 : 시간 인스턴트
18 : 오디오 신호
20 : 스펙트럼
22 : 시간 프레임
24 : 윈도우 함수
26 : 시간주파수 경로
28 : 상대 스펙트럼 거리
30 : 데이터 스트림
40 : 스펙트럼 계수 디코더
42 : 확률 분포 추정 유도기
44 : 엔트로피 인코딩 엔진
52 : 확률 분포 추정 유도기
54 : 엔트로피 디코딩 엔진
56 : 확률 분포 추정
60 : 오디오 신호의 피치 또는 주기의 측정
62 : 원래 그리고 최종적으로 재구성된 오디오 신호의 스펙트럼
64 : 프리-엠퍼시스된 버전
66 : 스펙트럼 엔벨로프
68 : 전달 함수
70 : 포먼트
72 : 밸리
74 : 스펙트럼 거리
80 : 적응
82 : 스칼라 함수
100 : 변환 기반 오디오 인코더
102 : 스펙트럼 컴퓨터
104 : 디코더
108 : 변환기
110 : 스펙트럼 형상기
112 : 스펙트럼
114 : 스케일 인자
116 : 스케일 인자 결정기
118 : 선형 예측 계수 정보
120 : 양자화기
122 : 스케일 인자 결정기
124 : 스펙트럼 형상기
126 : 다운스트림 역 변환기
128 : 프리-엠퍼시스 필터
130 : 인바운드 신호
132 : 선형 예측 분석기
134 : 스케일 인자 컨버터
136 : 장기간 예측 필터
138 : 장기간 예측된 잔류 신호
142 : 스케일 인자 컨버터
144 : 오버랩-가산 스테이지
146 : 장기간 예측 후-필터
148 : 역-엠퍼시스 필터
200 : 시간 도메인 모듈
202 : 시간-도메인 신호
204 : 모듈
208 : 피치 정보 디코더
210 : 역양자화기
212 : 역 잡음 형상화/예측 모듈
214 : 역변환기
216 : 역 잡음 형상화/예측 모듈

Claims (21)

  1. 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 디코딩하는 디코더(40)에 있어서, 상기 스펙트럼 계수들은 동일한 시간 인스턴트에 속하고, 상기 디코더는
    낮은 주파수부터 높은 주파수까지 상기 스펙트럼 계수들을 순차적으로 디코딩하고,
    상기 스펙트럼의 형상에 관한 정보에 의존하여 이전에 디코딩된 스펙트럼 계수(o) 및 현재 디코딩되는 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리(28)의 조정과 함께, 콘텍스트-적응 방식으로, 상기 스펙트럼 계수들의 상기 이전에 디코딩된 스펙트럼 계수(o)에 의존하여 엔트로피 디코딩에 의해 상기 스펙트럼 계수들의 상기 현재 디코딩되는 스펙트럼 계수(x)를 디코딩하는, 디코더.
  2. 제 1항에 있어서, 상기 스펙트럼의 형상에 관한 정보는:
    상기 오디오 신호(18)의 피치 또는 주기의 측정값(60);
    상기 오디오 신호의 스펙트럼(12)의 고조파-간 거리의 측정값;
    상기 스펙트럼의 스펙트럼 엔벨로프의 포먼트들(70) 및/또는 밸리들(72)의 상대 위치들; 중 적어도 하나를 포함하는, 디코더.
  3. 제 1항에 있어서, 상기 디코더(40)는 명시적 시그널링으로부터 상기 스펙트럼의 상기 형상에 관한 정보를 유도하도록 구성되는, 디코더.
  4. 제 1항에 있어서, 상기 디코더(40)는 상기 스펙트럼의 이전에 디코딩된 스펙트럼 계수(o) 또는 이전에 디코딩된 선형 예측 코딩 기반 스펙트럼 엔벨로프로부터 상기 스펙트럼의 형상에 관한 정보를 유도하도록 구성되는, 디코더.
  5. 제 1항에 있어서, 상기 디코더(40)는 콘텍스트-적응 방식으로, 복수의(a plurality) 스펙트럼 계수들의 이전에 디코딩된 스펙트럼 계수(o)에 의존하여 상기 스펙트럼 계수들의 상기 현재 디코딩되는 스펙트럼 계수(x)를 디코딩하며,
    스펙트럼의 형상에 관한 정보에 의존하여 스펙트럼 위치들의 스펙트럼 확산이 조정되는, 디코더,
  6. 제 1항에 있어서, 상기 디코더(40)는:
    상기 스펙트럼 형상에 관한 정보는 상기 오디오 신호의 피치의 측정값(60)이고 상기 디코더는 상기 상대 스펙트럼 거리가 피치의 증가에 따라 증가하도록 상기 피치의 측정값에 의존하여 상기 이전에 디코딩된 스펙트럼 계수(o) 및 상기 현재 디코딩되는 스펙트럼 계수(x) 사이의 상기 상대 스펙트럼 거리(28)를 조정하도록 구성되거나, 또는
    상기 스펙트럼 형상에 관한 정보는 상기 오디오 신호의 주기의 측정값(60)이고 상기 디코더는 상기 상대 스펙트럼 거리가 주기의 증가에 따라 증가하도록 상기 주기의 측정값에 의존하여 상기 이전에 디코딩된 스펙트럼 계수(o) 및 상기 현재 디코딩되는 스펙트럼 계수(x) 사이의 상기 상대 스펙트럼 거리(28)를 조정하도록 구성되거나, 또는
    상기 스펙트럼 형상에 관한 정보는 상기 오디오 신호의 스펙트럼(12)의 고조파-간 거리의 측정값이고 상기 디코더(40)는 상기 상대 스펙트럼 거리가 상기 고조파-간 거리의 증가에 따라 증가하도록 상기 고조파-간 거리의 측정값에 의존하여 상기 이전에 디코딩된 스펙트럼 계수(o) 및 상기 현재 디코딩되는 스펙트럼 계수(x) 사이의 상기 상대 스펙트럼 거리를 조정하도록 구성되거나, 또는
    상기 스펙트럼 형상에 관한 정보는 상기 스펙트럼의 스펙트럼 엔벨로프의 포먼트들(70) 및/또는 밸리들(72)의 상대 위치들을 포함하고 상기 디코더는 상기 상대 스펙트럼 거리가 상기 스펙트럼 엔벨로프 내의 밸리들 사이 및/또는 상기 스펙트럼 엔벨로프 내의 상기 포먼트들 사이의 스펙트럼 거리(74)의 증가에 따라 증가하도록 상기 위치에 의존하여 상기 이전에 디코딩된 스펙트럼 계수(o) 및 상기 현재 디코딩되는 스펙트럼 계수(x) 사이의 상기 상대 스펙트럼 거리를 조정하도록 구성되는, 디코더.
  7. 제 1항에 있어서, 상기 디코더는 엔트포피 코딩에 의한 현재 디코딩되는 스펙트럼 계수의 디코딩에 있어서, 상기 이전에 디코딩된 스펙트럼 계수가 스칼라 함수(82)의 대상이 되도록 함으로써 상기 현재 디코딩되는 스펙트럼 계수에 대한 확률 분포 추정(56)을 유도하고 상기 엔트로피 디코딩을 위한 상기 확률 분포 추정을 사용하도록 구성되는, 디코더.
  8. 제 1항에 있어서, 상기 디코더는 엔트로피 디코딩으로서 산술 디코딩을 사용하도록 구성되는, 디코더.
  9. 제 1항에 있어서, 상기 디코더는 상기 현재 디코딩되는 스펙트럼 계수를 스펙트럼적으로 및/또는 시간적으로 예측하고 상기 엔트로피 디코딩을 통하여 획득되는 예측 잔류에 의해 상기 스펙트럼 및/또는 시간 예측을 보정함으로써 상기 현재 디코딩되는 스펙트럼 계수를 디코딩하도록 구성되는, 디코더.
  10. 제 1항 내지 9항 중 어느 한 항에 따른 오디오 신호의 스펙트럼의 스펙트럼 계수들을 디코딩하도록 구성되는 디코더를 포함하는, 변환 기반 오디오 디코더.
  11. 제 10항에 있어서, 상기 디코더는 스케일 인자들(114)를 사용하여 상기 스펙트럼을 스케일링함으로써 상기 스펙트럼을 스펙트럼적으로 형상화하도록 구성되는, 변환 기반 오디오 디코더.
  12. 제 11항에 있어서, 상기 스케일 인자들이 선형 예측 계수 정보에 의해 정의되는 선형 예측 합성 필터에 의존하여 전달 함수를 표현하도록, 상기 선형 예측 계수 정보를 기초로 하여 상기 스케일 인자들(114)을 결정하도록 구성되는, 변환 기반 오디오 디코더.
  13. 제 12항에 있어서, 상기 선형 예측 계수 정보에 의해 정의되는 상기 선형 예측 합성 필터에 대한 상기 전달 함수의 의존성은 상기 전달 함수가 지각적으로 가중되는, 변환 기반 오디오 디코더.
  14. 제 13항에 있어서, 상기 선형 예측 계수 정보에 의해 정의되는 상기 선형 예측 합성 필터, 1/A(z),에 대한 상기 전달 함수의 의존성은, 상기 전달 함수가, k가 상수인, 1/A(k·z)의 전달 함수가 되는, 변환 기반 오디오 디코더.
  15. 제 10항에 있어서, 상기 변환 기반 오디오 디코더는 명시적으로 시그널링되는 장기간 예측 파라미터들을 통하여 제어되는 장기간 예측 고조파 또는 후-필터링을 지원하고, 상기 변환 기반 오디오 디코더는 상기 명시적으로 시그널링되는 장기간 예측 파라미터들로부터 상기 스펙트럼의 형상에 관한 정보를 유도하도록 구성되는, 변환 기반 오디오 디코더.
  16. 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 인코딩하는 인코더에 있어서, 상기 스펙트럼 계수들은 동일한 시간 인스턴트에 속하고, 상기 인코더는
    낮은 주파수부터 높은 주파수까지 상기 스펙트럼 계수들을 순차적으로 인코딩하고,
    상기 스펙트럼의 형상에 관한 정보에 의존하여 이전에 인코딩된 스펙트럼 계수(o) 및 현재 인코딩되는 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리(28)의 조정과 함께, 콘텍스트-적응 방식으로, 상기 스펙트럼 계수들의 상기 이전에 인코딩된 스펙트럼 계수(o)에 의존하여 엔트로피 인코딩에 의해 상기 스펙트럼 계수들의 상기 현재 인코딩되는 스펙트럼 계수(x)를 인코딩하도록 구성되는, 인코더.
  17. 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 디코딩하기 위한 방법에 있어서,
    상기 스펙트럼 계수들은 동일한 시간 인스턴트에 속하고, 상기 방법은
    낮은 주파수부터 높은 주파수까지 상기 스펙트럼 계수들을 순차적으로 디코딩하는 단계, 및
    상기 스펙트럼의 형상에 관한 정보에 의존하여 이전에 디코딩된 스펙트럼 계수(o) 및 현재 디코딩되는 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리(28)의 조정과 함께, 콘텍스트-적응 방식으로, 상기 스펙트럼 계수들의 상기 이전에 디코딩된 스펙트럼 계수(o)에 의존하여 엔트로피 디코딩에 의해 상기 스펙트럼 계수들의 상기 현재 디코딩되는 스펙트럼 계수(x)를 디코딩하는 단계를 포함하는, 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 디코딩하기 위한 방법.
  18. 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 인코딩하기 위한 방법에 있어서,
    상기 스펙트럼 계수들은 동일한 시간 인스턴트에 속하고, 상기 방법은
    낮은 주파수부터 높은 주파수까지 상기 스펙트럼 계수들을 순차적으로 인코딩하는 단계, 및
    상기 스펙트럼의 형상에 관한 정보에 의존하여 이전에 인코딩된 스펙트럼 계수(o) 및 현재 인코딩되는 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리(28)의 조정과 함께, 콘텍스트-적응 방식으로, 상기 스펙트럼 계수들의 상기 이전에 인코딩된 스펙트럼 계수(o)에 의존하여 엔트로피 인코딩에 의해 상기 스펙트럼 계수들의 상기 현재 인코딩되는 스펙트럼 계수(x)를 인코딩하는 단계를 포함하는, 오디오 신호(18)의 스펙트럼(12)의 스펙트럼 계수들(14)을 인코딩하기 위한 방법.
  19. 컴퓨터 상에서 구동할 때, 제 17항 또는 18항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
  20. 스펙트럼들(12)의 시퀀스로 구성되는, 오디오 신호(18)의 스펙트로그램(20)의 스펙트럼 계수들(14)을 디코딩하는 디코더(40)에 있어서, 상기 디코더는
    하나의 스펙트럼(20) 내의 낮은 주파수부터 높은 주파수까지 상기 스펙트럼 계수들(14)을 스캐닝하고 그리고 나서 시간적으로 뒤따르는 스펙트럼(20)의 스펙트럼 계수들로 진행하는 시간주파수 경로를 따라 상기 스펙트럼 계수들을 디코딩하고,
    상기 스펙트럼의 형상에 관한 정보에 의존하여 현재 스펙트럼에 속하는 스펙트럼 계수(o) 및 현재 디코딩되는 스펙트럼 계수(x) 사이의 상대 스펙트럼 거리(28)의 조정과 함께, 콘텍스트-적응 방식으로, 상기 현재 스펙트럼에 속하는 스펙트럼 계수를 포함하는 이전에 디코딩된 스펙트럼 계수들(o)의 템플릿에 의존하여, 엔트로피 디코딩에 의해, 현재 스펙트럼의 현재 디코딩되는 스펙트럼 계수(x)를 디코딩하며,
    상기 템플릿은 상기 현재 디코딩되는 스펙트럼 계수(x)의 위치에 포지셔닝되는, 디코더.
  21. 제 20항에 있어서, 상기 디코더는 상기 스펙트럼의 형상에 관한 정보가 증가할수록 상대 스펙트럼 거리(28)가 증가하도록 구성되고 상기 스펙트럼의 형상에 관한 정보는 상기 오디오 신호(18)의 피치 또는 주기의 측정값(60)을 포함하는, 디코더.
KR1020167010037A 2013-10-18 2014-10-17 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩 KR101831289B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13189391 2013-10-18
EP13189391.9 2013-10-18
EP14178806 2014-07-28
EP14178806.7 2014-07-28
PCT/EP2014/072290 WO2015055800A1 (en) 2013-10-18 2014-10-17 Coding of spectral coefficients of a spectrum of an audio signal

Publications (2)

Publication Number Publication Date
KR20160060085A KR20160060085A (ko) 2016-05-27
KR101831289B1 true KR101831289B1 (ko) 2018-02-22

Family

ID=51844681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167010037A KR101831289B1 (ko) 2013-10-18 2014-10-17 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩

Country Status (17)

Country Link
US (3) US9892735B2 (ko)
EP (1) EP3058566B1 (ko)
JP (3) JP6385433B2 (ko)
KR (1) KR101831289B1 (ko)
CN (2) CN111009249B (ko)
AU (1) AU2014336097B2 (ko)
BR (1) BR112016008117B1 (ko)
CA (1) CA2925734C (ko)
ES (1) ES2660392T3 (ko)
MX (1) MX357135B (ko)
MY (1) MY181965A (ko)
PL (1) PL3058566T3 (ko)
PT (1) PT3058566T (ko)
RU (1) RU2638734C2 (ko)
SG (1) SG11201603046RA (ko)
TW (1) TWI578308B (ko)
WO (1) WO2015055800A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
BRPI0910796B1 (pt) 2008-07-11 2021-07-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio e decodificador de áudio
CN104025190B (zh) 2011-10-21 2017-06-09 三星电子株式会社 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备
US20190379931A1 (en) 2012-02-21 2019-12-12 Gracenote, Inc. Media Content Identification on Mobile Devices
CN111009249B (zh) * 2013-10-18 2021-06-04 弗劳恩霍夫应用研究促进协会 编码器/解码器、编码/解码方法和非瞬时性存储介质
JP6276846B2 (ja) 2014-05-01 2018-02-07 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
DE102016200637B3 (de) * 2016-01-19 2017-04-27 Sivantos Pte. Ltd. Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals sowie Verfahren zum latenzarmen Betrieb eines Hörsystems
JP2018113414A (ja) * 2017-01-13 2018-07-19 新光電気工業株式会社 半導体装置とその製造方法
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110544472B (zh) * 2019-09-29 2021-12-31 上海依图信息技术有限公司 提升使用cnn网络结构的语音任务的性能的方法
US11227614B2 (en) * 2020-06-11 2022-01-18 Silicon Laboratories Inc. End node spectrogram compression for machine learning speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117015A1 (en) * 2010-03-10 2013-05-09 Stefan Bayer Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583500A (en) 1993-02-10 1996-12-10 Ricoh Corporation Method and apparatus for parallel encoding and decoding of data
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
ES2297083T3 (es) * 2002-09-04 2008-05-01 Microsoft Corporation Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel.
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
JP4736699B2 (ja) * 2005-10-13 2011-07-27 株式会社ケンウッド 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
DE102006027673A1 (de) * 2006-06-14 2007-12-20 Friedrich-Alexander-Universität Erlangen-Nürnberg Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
BRPI0910285B1 (pt) 2008-03-03 2020-05-12 Lg Electronics Inc. Métodos e aparelhos para processamento de sinal de áudio.
EP2346030B1 (en) * 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
KR20130111611A (ko) * 2011-01-25 2013-10-10 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
ES2644131T3 (es) * 2012-06-28 2017-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad
CN111009249B (zh) * 2013-10-18 2021-06-04 弗劳恩霍夫应用研究促进协会 编码器/解码器、编码/解码方法和非瞬时性存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117015A1 (en) * 2010-03-10 2013-05-09 Stefan Bayer Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Max Neuendorf, et al. MPEG unified speech and audio coding-the ISO/MPEG standard for high-efficiency audio coding of all content types. Audio Engineering Society Convention 132. 2012.04.29.

Also Published As

Publication number Publication date
CA2925734A1 (en) 2015-04-23
JP2017501427A (ja) 2017-01-12
KR20160060085A (ko) 2016-05-27
AU2014336097B2 (en) 2017-01-19
JP2018205758A (ja) 2018-12-27
PL3058566T3 (pl) 2018-07-31
SG11201603046RA (en) 2016-05-30
US20160307576A1 (en) 2016-10-20
JP2020190751A (ja) 2020-11-26
RU2016118776A (ru) 2017-11-23
US20190043513A1 (en) 2019-02-07
JP7218329B2 (ja) 2023-02-06
ES2660392T3 (es) 2018-03-22
PT3058566T (pt) 2018-03-01
CN111009249B (zh) 2021-06-04
TW201521015A (zh) 2015-06-01
EP3058566B1 (en) 2017-11-22
JP6748160B2 (ja) 2020-08-26
US10847166B2 (en) 2020-11-24
MY181965A (en) 2021-01-15
AU2014336097A1 (en) 2016-05-19
CA2925734C (en) 2018-07-10
RU2638734C2 (ru) 2017-12-15
CN105723452A (zh) 2016-06-29
CN111009249A (zh) 2020-04-14
TWI578308B (zh) 2017-04-11
BR112016008117B1 (pt) 2021-12-14
CN105723452B (zh) 2020-01-31
MX2016004806A (es) 2016-06-24
EP3058566A1 (en) 2016-08-24
JP6385433B2 (ja) 2018-09-05
US20180122387A1 (en) 2018-05-03
US9892735B2 (en) 2018-02-13
MX357135B (es) 2018-06-27
WO2015055800A1 (en) 2015-04-23
BR112016008117A2 (pt) 2017-08-01
US10115401B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
KR101831289B1 (ko) 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩
JP6744363B2 (ja) スペクトルエンベロープのサンプル値のコンテキストベースエントロピー復号化器、パラメトリック復号化器、コンテキストベースエントロピー符号化器、復号化方法、符号化方法およびコンピュータプログラム
US8626517B2 (en) Simultaneous time-domain and frequency-domain noise shaping for TDAC transforms
KR100958144B1 (ko) 오디오 압축
KR100852482B1 (ko) 추정을 결정하는 방법 및 장치
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
JP5190445B2 (ja) 符号化装置および符号化方法
CN105122357A (zh) 频域中基于cpl进行编码的低频增强
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
RU2621003C2 (ru) Адаптивное к тональности квантование низкой сложности аудиосигналов
KR20080092823A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right