KR101958360B1 - 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법 - Google Patents

독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101958360B1
KR101958360B1 KR1020177004851A KR20177004851A KR101958360B1 KR 101958360 B1 KR101958360 B1 KR 101958360B1 KR 1020177004851 A KR1020177004851 A KR 1020177004851A KR 20177004851 A KR20177004851 A KR 20177004851A KR 101958360 B1 KR101958360 B1 KR 101958360B1
Authority
KR
South Korea
Prior art keywords
spectral
noise
values
region
source
Prior art date
Application number
KR1020177004851A
Other languages
English (en)
Other versions
KR20170063534A (ko
Inventor
사샤 디쉬
랄프 가이거
안드레아스 니더마이어
마티아스 노이징어
콘스탄틴 슈미트
스테판 빌데
벤자민 슈베르트
크리스티안 노이캄
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170063534A publication Critical patent/KR20170063534A/ko
Application granted granted Critical
Publication of KR101958360B1 publication Critical patent/KR101958360B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Picture Signal Circuits (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Tests Of Electronic Circuits (AREA)
  • Dc Digital Transmission (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

입력 신호(600)로부터 향상된 신호를 발생시키기 위한 장치에서, 향상된 신호는 스펙트럼 영역을 위한 스펙트럼 값들을 갖고, 향상 스펙트럼 영역들을 위한 스펙트럼 값들은 입력 신호(600) 내에 포함되지 않으며, 입력 신호의 소스 스펙트럼 영역을 상기 향상 스펙트럼 영역 내의 표적 영역에 매핑하기 위한 매퍼(602), - 소스 스펙트럼 영역은 잡음-충전 영역(302)을 포함함, -; 및 입력 신호의 소스 스펙트럼 영역 내의 잡음-충전 영역(302)을 위한 제 1 잡음 값들을 발생시키고 표적 영역 내의 잡음 영역을 위하여 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키도록, 혹은 표적 영역 내의 소스 영역 내의 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키도록 구성되는 잡음 필러(604);를 포함한다.

Description

독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법{APPARATUS AND METHOD FOR GENERATING AN ENHANCED SIGNAL USING INDEPENDENT NOISE-FILLING}
본 발명은 신호 처리에 관한 것으로서, 특히 오디오 신호 처리에 관한 것이다.
오디오 신호들의 효율적인 저장 또는 전송을 위한 데이터 감소의 목적을 위하여 오디오 신호들의 지각 코딩(perceptual coding)은 광범위하게 사용되는 실행이다. 특히 가장 낮은 비트레이트들이 달성되려 할 때, 사용되는 코딩은 흔히 주로 전송되려는 오디오 신호 대역폭의 인코더 측에서의 제한에 의해 야기되는 오디오 품질의 감소에 이르게 한다. 현대 코덱들에서 오디오 신호 대역폭 확장(BWE), 예를 들면 스펙트럼 대역 복제(SBR)를 통한 디코더 측 신호 저장을 위하여 잘 알려진 방법들이 존재한다.
낮은 비트 레이트 코딩에서, 흔히 또한 이른바 잡음-충전(noise-filling)이 사용된다. 엄격한 비트레이트 제약들에 기인하여 0으로 양자화된 현저한 스펙트럼 영역들은 디코더에서 합성 잡음으로 채워진다.
일반적으로, 두 기술 모두는 낮은 비트 레이트 적용들에서 결합된다. 게다가, 오디오 코딩 잡음-충전 및 스펙트럼 갭 충전을 결합하는 지능형 갭 충전(Intelligent Gap Filling, IGF)과 같은 통합된 해결책이 존재한다.
그러나, 이러한 모든 방법은 공통적으로 제 1 단계에서 기저대역 또는 코어 오디오 신호는 파형 디코딩 및 잡음-충전을 사용하여 재구성되고 제 2 단계에서 BWE 또는 IGF 처리는 쉽게 재구성되는 신호를 사용하여 실행된다. 이는 재구성 동안에 잡음-충전에 의해 기저대역에서 충전된 동일한 잡음 값들이 고대역(BWE 내의)에서의 손실 부분들의 재생을 위하여 또는 나머지 스펙트럼 갭들(IGF 내의)의 충전을 위하여 사용된다는 사실에 이르게 한다. BWE 또는 IGF에서 다중 스펙트럼 영역의 재구성을 위한 고도로 상관된 잡음의 사용은 지각적 장애들에 이르게 한다.
최신 기술에서의 관련 주제는 다음을 포함한다:
● 파형 디코딩에 대한 후처리기로서의 SBR [1-3]
● AAC PNS [4]
● MPEG-D USAC 잡음-충전 [5]
● G.719 및 G.722 1C [6]
● MPEG-H 3D IGF [8].
다음의 문헌들과 특허출원들은 본 명세서와 관련이 있는 것으로 고려되는 방법들을 설명한다.:
[1] M. Dietz, L. Liljeryd, K. Kjoling 및 O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, 2002.
[2] S. Meltzer, R. Bohm 및 F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," in 112th AES Convention, Munich, Germany, 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand 및 M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, Germany, 2002.
[4] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, Audio Engineering Society 104th Convention, Preprint 4720, Amsterdam, Netherlands, 1998
[5] 유럽특허출원 제 EP2304720호 USAC noise-filling
[6] ITU-T 권고 G.719 및 G.221C
[7] 유럽특허 제 EP 2704142호
[8] 유럽특허 제 EP 13177350호.
이러한 방법들로 처리되는 오디오 신호들은 거칠기(roughness), 변조 왜곡(modulation distortion)들 및 특히 낮은 비트 레이트 및 그 결과 낮은 대역폭에서 불쾌한 것과 같이 지각되는 음색(timbre)과 같은 아티팩트(artifact)들 및/또는 저주파수(LF) 범위 내의 스펙트럼 홀(spectral hole)들의 발생으로 곤란을 겪는다. 그 이유는 아래에 설명될 것과 같이, 주로 확장되거나 또는 갭 충전된 스펙트럼의 재구성된 성분들이 기저대역으로부터 잡음을 포함하는 하나 이상의 직접적인 복사(copy)를 기초로 한다는 사실 때문이다. 재구성된 잡음 내의 상기 원치 않는 상관들로부터 야기하는 일시적 변조들은 지각적 거칠기 또는 불쾌한 왜곡(distortion)으로서 불안한 방식으로 청취 가능하다. mp3+SBR, AAC+SBR, USAC, G.719와 G.722. 1C, 및 또한 MPEG-H 3D IGF 같은 현존하는 모든 방법은 우선 스펙트럼 갭들 혹은 코어로부터 복사되거나 또는 미러링된(mirrored) 스펙트럼 데이터를 갖는 고대역의 충전 이전에 잡음-충전을 포함하는 완전한 코어 디코딩을 한다.
향상된 신호를 발생시키는 향상된 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은 청구항 1의 향상된 신호를 발생시키기 위한 장치, 청구항 11의 향상된 신호를 발생시키기 위한 방법, 청구항 13의 인코딩 및 디코딩의 시스템, 청구항 14의 인코딩 및 디코딩의 방법 또는 청구항 15의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 대역폭 확장 또는 지능형 갭 충전 또는 입력 신호 내에 포함되지 않은 향상 스펙트럼 영역(enhancement spectral region)을 위한 스펙트럼 값들을 갖는 향상된 신호를 발생시키는 어떠한 다른 방법에 의해 발생되는 향상된 신호의 오디오 품질의 상당한 향상이 입력 신호의 소스 스펙트럼 영역 내의 잡음-충전 영역을 위한 제 1 잡음 값들의 발생에 의해 그리고 나서 목적지(destination) 또는 표적 영역 내의, 즉 이제 잡음 값들, 즉 제 1 잡음 값들과 독립적인 제 2 잡음 값들을 갖는 향상 영역 내의 잡음 영역을 위한 제 2 독립적 잡음 값들의 발생에 의해 획득된다는 발견을 기초로 한다.
따라서, 스펙트럼 값들 매핑에 기인하여 기저대역 및 향상 대역 내의 종속 잡을 갖는 종래의 문제점이 제거되고 거칠기, 변조 왜곡들 및 특히 낮은 비트레이트들에서 불쾌하게 지각되는 음색과 같은 아티팩트들을 갖는 관련 문제점들이 제거된다.
바꾸어 말하면, 제 1 잡음 값들과 역상관되는 제 2 잡음 값들, 즉 적어도 부분적으로 제 1 잡음 값들과 독립적인 잡음 값들의 잡음-충전은 아티팩트들이 더 이상 발생하지 않고 종래 기술과 관련하여 적어도 감소된다는 것을 보장한다. 따라서, 간단한 대역폭 학장 또는 지능형 갭 충전 연산에 의한 기저대역 내의 잡음-충전 스펙트럼 값들의 종래 처리는 기저대역으로부터의 잡음을 역상관하지 않고, 예를 들면 레벨만을 변경한다. 그러나, 한편으로는 소스 대역 내 및 다른 한편으로는 개별 잡음 과정으로부터 유도되는, 표적 대역 내의 역상관된 잡음 값들의 도입은 최상의 결과들을 제공한다. 그러나, 심지어 완전히 역상관되지 않거나 또는 완전히 독립적이지 않은, 그러나 0의 역상관 값이 완전히 역상관되는 것을 나타낼 때 0.5 이하의 역상관 값에 의한 것과 같이 적어도 부분적으로 역상관되는 잡음 값들의 도입은 종래 기술의 완전한 역상관 문제점을 향상시킨다.
따라서, 실시 예들은 지각적 디코더 내의 파형 디코딩, 대역폭 확장 또는 갭 충전 및 잡음-충전에 관한 것이다.
또 다른 장점들은 이미 존재하는 개념들과 대조적으로, 현재 파형 디코딩과 잡음-충전 이후에 대역폭 확장들 또는 갭 충전의 계산에 일반적인, 신호 왜곡들의 발생 및 지각적 거칠기 아티팩트들이 방지된다는 것이다.
이는 일부 실시 예들에서, 언급된 처리 단계들의 순서의 변화에 기인한다. 파형 디코딩 이후에 대역폭 확장 또는 갭 충전을 직접적으로 실행하는 것이 바람직하며 게다가 그 뒤에 비상관 잡음을 사용하여 이미 재구성된 신호에 대한 잡음-충전을 계산하는 것이 바람직하다.
또 다른 실시 예들에서, 파형 디코딩 및 잡음-충전은 종래의 순서로 그리고 처리에서의 또 다른 하류에서 실행될 수 있으며, 잡음 값들은 적절하게 스케일링된 비-상관된 잡음으로 대체될 수 있다.
따라서, 본 발명은 처리 사슬의 맨 끝으로의 잡음-충전 단계의 시프팅(shifting) 및 패칭(patching) 또는 갭 충전을 위한 비-상관된 잡음의 사용에 의해 잡음 충전된 스펙트럼들 상의 복사 연산 또는 미러 연산에 기인하여 발생하는 문제점들을 처리한다.
그 뒤에, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예들이 설명된다.
도 1a는 오디오 신호의 인코딩을 위한 장치를 도시한다.
도 1b는 도 1a의 인코더와 어울리는 인코딩된 오디오 신호의 디코딩을 위한 디코더를 도시한다.
도 2a는 디코더의 바람직한 구현을 도시한다.
도 2b는 인코더의 바람직한 구현을 도시한다.
도 3a는 도 1b의 스펙트럼 도메인 디코더에 의해 발생되는 것과 같은 스펙트럼의 개략적인 표현을 도시한다.
도 3b는 스케일 인자(scale factor) 대역들을 위한 스케일 인자들 및 재구성 대역들을 위한 에너지들과 잡음-충전 정보를 위한 잡음-충전 정보 사이의 관계를 나타내는 테이블을 도시한다.
도 4a는 스펙트럼 부분들의 제 1 및 제 2 세트들 내로의 스펙트럼 부분들의 선택을 적용하기 위한 스펙트럼 도메인 인코더의 기능성을 도시한다.
도 4b는 도 4a의 기능성의 구현을 도시한다.
도 5a는 변형 이산 코사인 변환(MDCT) 인코더의 기능성을 도시한다.
도 5b는 MDCT 기술을 갖는 디코더의 기능성을 도시한다.
도 5c는 주파수 재생기(frequency regenerator)의 구현을 도시한다.
도 6은 본 발명에 따라 향상된 신호를 발생시키기 위한 장치의 블록 다이어그램을 도시한다.
도 7은 본 발명의 일 실시 예에 따라 디코더 내의 선택 정보에 의해 조종되는 독립적 잡음-충전의 신호 흐름을 도시한다.
도 8은 갭 필링 또는 대역폭 확장 및 잡음-충전의 교환된 순서를 통하여 구현되는 독립적 잡음-충전의 신호 흐름을 도시한다.
도 9는 본 발명의 또 다른 실시 예에 따른 과정의 플로우차트를 도시한다.
도 10은 본 발명의 또 다른 실시 예에 따른 과정의 플로우차트를 도시한다.
도 11은 임의 값(random value)들의 스케일링을 설명하기 위한 플로우차트를 도시한다.
도 12는 일반적인 대역폭 확장 또는 갭 충전 과정 내로의 본 발명의 임베딩(embedding)을 나타내는 플로우차트를 도시한다.
도 13a는 대역폭 확장 파라미터 계산을 갖는 인코더를 도시한다.
도 13b는 도 1a 또는 1b에서와 같이 통합된 절차보다는 오히려 포스트-프로세서로서 구현되는 대역폭 확장을 갖는 디코더를 도시한다.
도 6은 또한 오디오 신호일 수 있는 입력 신호로부터의 오디오 신호와 같은 향상된 신호를 발생시키기 위한 장치를 도시한다. 향상된 신호는 향상 스펙트럼 영역(enhancement spectrum region)을 위한 스펙트럼 값들을 가지며, 향상 스펙트럼 영역을 위한 스펙트럼 값들은 입력 신호 입력(600)에서 원래 입력 신호 내에 포함되지 않는다. 장치는 입력 신호의 소스 스펙트럼 영역의 향상 스펙트럼 영역 내의 표적 영역으로의 매핑을 위한 매퍼(mapper, 602)를 포함하며, 소스 스펙트럼 영역은 잡음-충전 영역을 포함한다.
게다가, 장치는 입력 신호의 소스 스펙트럼 영역 내의 잡음-충전 영역을 위한 제 1 잡음 값들을 발생시키고 표적 영역 내의 잡음 영역을 위한 제 2 잡음 값들을 발생시키도록 구성되는 잡음 필러(noise filler, 604)를 포함하며, 제 2 잡음 값들, 즉 표적 영역 내의 잡음 값들은 잡음-충전 영역 내의 제 1 잡음 값들과 독립적이거나 또는 비-상관되거나 또는 역상관된다.
일 실시 예는 잡음 충전이 실제로 기저 대역 내에서 실행되는, 즉 소스 영역 내의 잡음 값들이 잡음 충전에 의해 발생되는 상황에 관한 것이다. 또 다른 대안에서, 소스 영역 내의 잡음 충전이 실행되지 않은 것이 가정된다. 그럼에도 불구하고 소스 영역은 실제로 바람직하게는 소스 또는 코어 인코더에 의해 스펙트럼 값들로서 인코딩되는 잡음 유사 스펙트럼 값들로 충전되는 잡음 영역을 갖는다. 이러한 잡음 유사 스펙트럼 값들의 향상 영역으로의 매핑은 또한 소스 및 표적 영역들 내의 종속 잡음을 발생시킬 수 있다. 이러한 문제를 다루기 위하여, 잡음 필러는 단지 잡음을 매퍼의 표적 영역 내로 충전하는데, 즉 표적 영역 내의 잡음 영역을 위한 제 2 잡음 값들을 발생시키며, 제 2 잡음 값들은 소스 영역 내의 제 1 잡음 값들과 역상관된다. 이러한 대체 또는 잡음 충전은 또한 소스 타일 버퍼(source tile buffer) 내에서 발생할 수 있거나 또는 표적 자체 내에서 발생할 수 있다. 잡음 영역은 소스 영역의 분석에 의하거나 또는 표적 영역의 분석에 의해 분류자(classifier)에 의해 식별될 수 있다.
이를 위하여, 도 3a가 참조된다. 도 3a는 입력 신호 내의 스케일 인자 대역(301)과 같은 충전 영역을 도시하며, 잡음 필러는 입력 신호의 디코딩 연산으로 이러한 잡음-충전 대역(301) 내의 제 1 잡음 스펙트럼 값들을 발생시킨다.
게다가, 이러한 잡음-충전 대역은 표적 영역에 매핑되는데, 즉 종래 기술에 따라, 발생된 잡음 값들은 표적 영역에 매핑되고, 따라서, 표적 영역은 소스 영역과 독립적이거나 또는 상관된 잡음을 가질 수 있다.
본 발명에 따르면, 그러나, 도 6의 잡음 필러(604)는 제 2 잡음 값들이 도 3a의 잡음-충전 대역 내의 제 1 잡음 값들과 역상관되거나 또는 비-상관되거나 또는 독립적인, 목적지 또는 표적 영역 내의 잡음 영역을 위한 제 2 잡음 값들을 발생시킨다.
일반적으로, 잡음-충전 및 소스 스펙트럼 영역의 목적지 영역으로의 매핑을 위한 매퍼는 바람직하게는 통합된 갭 충전 내의 도 1a 내지 5c의 문맥에 도시된 것과 같이 고주파수 재생기(high frequency regenerator) 내에 포함될 수 있거나 또는 도 13b에 도시된 것과 같은 포스트-프로세서 및 도 13a의 상응하는 인코더로서 구현될 수 있다.
일반적으로, 입력 신호는 역 양자화(700) 또는 어떠한 다른 또는 부가적으로 미리 정의된 디코더 처리(700)의 대상이 되며 이는 블록(700)의 출력에서, 도 6의 입력 신호가 획득되고, 따라서 코어 디코더 잡음-충전 블록 또는 잡음 필러 블록(704) 내로의 입력이 도 6의 입력이라는 것을 의미한다. 도 6의 매퍼는 갭 충전 또는 대역폭 확장 블록(602)과 상응하고 독립 잡음-충전 블록(702)은 또한 도 6의 잡음 필러(604) 내에 포함된다. 따라서, 블록들(704 및 702) 모두는 도 6의 잡음 필러 블록(604) 내에 포함되고 블록(704)은 잡음-충전 영역 내의 잡음 영역을 위한 이른바 제 1 잡음 값들을 발생시키고 블록(702)은 목적지 또는 표적 영역 내의 잡음 영역을 위한 제 2 잡음 값들을 발생시키며, 이는 매퍼 또는 갭 필링 또는 대역폭 확장 블록(602)에 의해 실행되는 대역폭 학장에 의해 기저대역 내의 잡음-충전 영역으로부터 유도된다. 게다가, 뒤에 설명될 것과 같이, 블록(702)에 의해 실행되는 독립 잡음-충전 연산은 제어 라인(706)에 의해 도시된 것과 같이 제어 벡터(PHI)에 의해 제어된다.
1. 단계: 잡음 식별
제 1 단계에서 전송된 오디오 프레임 내의 잡음을 표현하는 모든 스펙트럼 라인이 식별된다. 식별 과정은 이미 존재하는 잡음-충전[4][5]에 의해 사용된 잡음 위치들의 전송된 지식에 의해 제어될 수 있거나 또는 부가적인 분류자로 식별될 수 있다. 잡음 라인 식별의 결과는 0들과 1들을 포함하는 벡터이며 1을 갖는 위치는 잡음을 표현하는 스펙트럼 라인을 나타낸다.
수학 용어들로 이러한 과정은 다음과 같이 설명될 수 있다:
Figure 112017017923026-pct00001
을 길이(N∈N)의 변환 코딩되고, 윈도잉된 신호의 잡음-충전[4][5] 이후에 전송되고 재-양자화된 스펙트럼이라 한다. m∈N, 0≤m<M을 전체 디코딩 과정의 종결 라인이라 한다.
분류기(C 0)는 코어 영역 내의 잡음-충전[4][5]이 사용되는 스펙트럼 라인들을 결정한다:
C 0:CN → {0,1}n,
Figure 112017017923026-pct00002
그리고 결과(
Figure 112017017923026-pct00003
)는 길이(m)의 벡터이다.
부가적인 분류기(C 1)는 잡음을 표현하는
Figure 112017017923026-pct00004
내의 또 다른 라인들을 식별할 수 있다. 이러한 분류기는 다음과 같이 설명될 수 있다:
C 1:CN×{0,1}m → {0,1}m,
Figure 112017017923026-pct00005
잡음 식별 과정 후에 잡음 표시 벡터(
Figure 112017017923026-pct00006
)는 다음과 같이 정의된다:
Figure 112017017923026-pct00007
2. 단계: 독립적 잡음
제 2 단계에서 전송된 스펙트럼의 특정 영역이 선택되고 소스 타일에 복사된다. 이러한 소스 타일 내에서 식별된 잡음은 임의 잡음으로 대체된다. 삽입된 임의 잡음은 소스 타일 내의 원래 잡음의 동일한 에너지로 조정된다.
수학 용어들로 이러한 과정은 다음과 같이 설명될 수 있다:
m, n<m을 단계 3에서 설명되는, 카피 업(copy up) 과정을 위한 시작 라인이라 한다.
Figure 112017017923026-pct00008
을 길이(v<n)의 소스 타일을 표현하는, 전송된 스펙트럼(
Figure 112017017923026-pct00009
)의 연속적인 부분이라 하며, 이는
Figure 112017017923026-pct00010
의 스펙트럼 라인들(lk,lk + 1,...,lk +v- 1)을 포함하며, 여기서 k는 소스 타일(
Figure 112017017923026-pct00011
) 내의 제 1 스펙트럼 라인의 지수이며, 따라서
Figure 112017017923026-pct00012
이다. 게다가,
Figure 112017017923026-pct00013
라 하며, 따라서
Figure 112017017923026-pct00014
이다.
식별된 잡음은 이제 임의 발생된 합성 잡음으로 대체된다. 동일한 레벨로 스펙트럼 에너지를 유지하기 위하여,
Figure 112017017923026-pct00015
에 의해 표시되는 잡음의 에너지(E)가 먼저 계산된다:
Figure 112017017923026-pct00016
만일 E=0이면 소스 타일(
Figure 112017017923026-pct00017
)을 위한 독립적 잡음 대체를 건너뛰고 그렇지 않으면
Figure 112017017923026-pct00018
에 의해 표시되는 잡음을 대체한다:
Figure 112017017923026-pct00019
여기서 r[i]∈C는 모든 0≤iv를 위한 임의 수이다.
그리고 나서 삽입된 임의 수들의 에너지(E')를 계산한다:
Figure 112017017923026-pct00020
만일 E'>0이면 인자(g)를 계산하고, 그렇지 않으면 g=0을 설정한다:
Figure 112017017923026-pct00021
g로, 대체된 잡음을 재스케일링한다:
Figure 112017017923026-pct00022
잡음 대체 후에 소스 타일(
Figure 112017017923026-pct00023
)은
Figure 112017017923026-pct00024
내의 잡음 라인들과 독립적인 잡음 라인들을 포함한다.
3. 단계: 카피 업
소스 타일(
Figure 112017017923026-pct00025
)은
Figure 112017017923026-pct00026
내의 그것의 목적지 영역에 매핑된다:
Figure 112017017923026-pct00027
또는, 만일 IGF 전략[8]이 사용되면:
Figure 112017017923026-pct00028
도 8은 도 1b의 블록(112) 내에 도시된 스펙트럼 도메인 디코딩과 같은 어떠한 후-처리 뒤에, 또는 도 13b의 블록(1326)에 의해 도시된 포스트-프로세서 실시 예에서, 압력 신호가 갭 충전의 대상이 되거나 또는 대역폭 확장이 먼저 매핑 연산의 대상이 되고, 그리고 나서 그 후에, 즉 완전 스펙트럼 내에서 독립적 잡음-충전이 실행되는, 일 실시 예를 도시한다.
도 7의 위의 컨텍스트에서 설명된 과정은 제자리 연산(in place operation)으로서 수행될 수 있으며, 따라서 중간 버퍼(
Figure 112017017923026-pct00029
)는 필요하지 않다. 따라서 실행의 명령이 적용된다.
도 7의 콘텍스트에서 설명된 것과 같이 제 1 단계를 실행하며, 다시
Figure 112017017923026-pct00030
의 스펙트럼 라인들(k,k+1,...,k+v-1)의 세트는 소스 범위이다.
2, 단계: 카피 업(copy up)
Figure 112017017923026-pct00031
또는, 만일 IGF 전략[8]이 사용되면 다음과 같다:
Figure 112017017923026-pct00032
3. 단계: 독립적 잡음-충전
n까지 레거시 잡음 충전(legacy noise-filling)을 실행하고 소스 영역(k,k+1,...,k+v-1) 내의 잡음 스펙트럼 라인들의 에너지를 계산한다:
Figure 112017017923026-pct00033
갭 충전 또는 대역폭 확장 스펙트럼 영역 내의 독립적 잡음-충전을 실행한다:
Figure 112017017923026-pct00034
여기서 r[i],0≤i<v는 다시 임의 수들의 세트이다.
삽입된 임의 수들의 에너지(E')를 계산한다:
Figure 112017017923026-pct00035
다시, 만일 E'>0이면 인자(g)를 계산하고, 그렇지 않으면 g:=0을 설정한다:
Figure 112017017923026-pct00036
인자 g로, 대체된 잡음을 재스케일링한다:
Figure 112017017923026-pct00037
본 발명의 독립적 잡음-충전은 또한 스테레오 채널 쌍 환경에서 사용될 수 있다. 따라서 인코더는 주파수 대역 당 적합한 채널 쌍 표현, L/R 또는 M/S 및 선택적 예측 계수들을 계산한다. 디코더는 뒤따르는 모든 주파수 대역의 L/R 표현으로의 최종 전환의 계산 이전에 위에 설명된 것과 같이 독립적 잡음-충전을 채널들의 적절하게 선택된 표현에 적용한다.
본 발명은 완전 대역폭이 이용 가능하지 않거나 또는 스펙트럼 홀들의 충전을 위하여 갭 충전을 사용하는 모든 오디오 적용에 적용 가능하거나 또는 적합하다. 본 발명은 예를 들면, 디지털 라디오, 인터넷 스트리밍 및 오디오 통신 적용들과 같은 오디오 콘텐츠의 배급 또는 방송에 사용할 수 있다.
그 뒤에, 도 9-12와 관련하여 본 발명의 실시 예들이 설명된다. 단계(900)에서, 잡음 영역들은 소스 범위 내에 식별된다. "잡음 식별"과 관련하여 이전에 설명된, 이러한 과정은 인코더 측으로부터 완전하게 수신된 잡음-충전 부가 정보에 의존할 수 있거나 또는 또한 대안으로서 또는 부가적으로, 이미 발생되었으나, 향상 스펙트럼 영역들을 위한 스펙트럼 값들이 없는, 즉 이러한 향상의 스펙트럼 영역을 위한 스펙트럼 값들이 없는 입력 신호의 신호 분석에 의존하도록 구성될 수 있다.
그리고 나서, 단계(902)에서, 이미 종래에 알려진 것과 같은 간단한 잡음-충전의 대상이 된 소스 범위, 즉 완전한 소스 범위는 소스 파일 버퍼에 복사된다.
그리고 나서, 단계(904)에서, 제 1 잡음 값들, 즉 입력 신호의 잡음-충전 영역 내에 발생된 간단한 잡음 값들은 소스 타일 버퍼 내에서 임의 값들로 대체된다. 그리고 나서, 단계(906)에서, 이러한 임의 값들은 표적 영역을 위한 제 2 잡음 값들을 획득하기 위하여 소스 타일 버퍼 내에서 스케일링된다. 그리고 나서, 단계(908)에서, 매핑 연산이 실행되는데, 즉 단계(904 및 906) 뒤에 이용 가능한 소스 타일 버퍼의 그것들의 콘텐츠가 목적지 범위에 매핑된다. 따라서, 대체 연산(904)에 의해, 그리고 매핑 연산(908) 뒤에, 소스 범위 및 표적 범위 내의 독립적 잡음-충전 연산이 획득되었다.
도 10은 본 발명의 또 다른 실시 예를 도시한다. 다시, 단계(900)에서, 소스 범위 내의 잡음이 식별된다. 그러나, 이러한 단계(900)의 기능성은 도 9에서의 단계(900)의 기능성과 다른데, 그 이유는 도 9의 단계(900)는 이미 수신된 잡음 값들을 갖는, 즉 잡음-충전 연산이 이미 실행된, 입력 신호 스펙트럼 상에서 작동할 수 있기 때문이다.
그러나, 도 10에서, 입력 신호에 대한 잡음-충전 연산은 실행하지 않았으며 입력 신호는 단계(902)에서의 입력에서 잡음-충전 영역 내의 어떠한 잡음 값들도 아직 갖지 않는다. 단계(902)에서, 소스 범위는 잡음-충전 값들이 소스 범위 내에 포함되지 않은 목적지 또는 표적 범위에 매핑된다.
따라서, 단계(900)에서 소스 범위 내의 잡음의 식별은 잡음-충전 영역과 관련하여, 신호 내의 제로 스펙트럼 값들에 의하거나 및/또는 입력 신호로부터의 이러한 잡음-충전 부가 정보, 즉 인코더 측에서 발생된 잡음-충전 정보의 사용에 의해 식별될 수 있다. 그리고 나서, 단계(904)에서, 잡음-충전 정보 및, 특히 디코더 측 입력 신호 내로 도입되려는 에너지를 식별하는 에너지 정보가 판독된다.
그리고 나서, 단계(1006)에 도시된 것과 같이, 소스 범위 내의 잡음-충전이 실행되고, 그 뒤에 또는 동시에, 단계(1008)가 실행되는데, 즉 완전 대역에 대하여 단계(900)에 의해 식별되었거나 혹은 매핑 정보와 함께 기저대역 또는 입력 신호의 사용에 의해 식별된, 임의 값들이 목적지 범위 내의 위치들 내에 삽입되는데, 즉 이러한 (복수의) 소스 범위는 이러한 (복수의) 표적 범위에 매핑된다.
최종적으로, 삽입된 임의 값들은 제 2 독립적 또는 비-상관 또는 역상관 잡음 값들을 획득하도록 스케일링된다.
그 뒤에, 향상 스펙트럼 영역 내의 잡음-충전 값들의 스케일링에 대한 정보, 즉 임의 값들로부터 어떻게 제 2 잡음 값들이 획득되는지를 나타내기 위하여 도 11이 설명된다.
단계(1100)에서, 소스 범위 내의 잡음에 대한 에너지 정보가 획득된다. 그리고 나서, 에너지 정보는 임의 값들로부터, 즉 단계(1102)에 도시된 것과 같이 임의 슈도-랜덤(pseudo-random) 과정에 의해 발생되는 값들로부터 결정된다. 게다가, 단계(1104)는 소스 범위 내의 잡음에 대한 에너지 정보의 사용에 의해 그리고 임의 값들에 대한 에너지 정보의 사용에 의해 스케일 인자를 계산하는 방법을 도시한다. 그리고 나서, 단계(1106)에서, 즉 단계(1102)에서 에너지가 계산된, 임의 값들이 단계(1104)에 의해 발생된 스케일 인자에 곱해진다. 따라서, 도 11에 도시된 과정은 일 실시 예에서 이전에 도시된 스케일 인자(g)의 계산과 상응한다. 그러나, 이러한 모든 계산은 또한 대수 도메인(logarithmic domain) 또는 어떠한 다른 도메인 내에서 실행될 수 있으며 곱셈 단계(1106)는 대수 범위 내의 덧셈 또는 뺄셈으로 대체될 수 있다.
일반적인 지능형 갭 충전 또는 대역폭 확장 전략 내의 본 발명의 삽입을 나타내기 위하여 도 12가 더 참조된다. 단계(1200)에서, 스펙트럼 엔벨로프 정보(envelope information)가 입력 신호로부터 검색된다. 스펙트럼 엔벨로프 정보는 예를 들면, 도 13a의 파라미터 추출기(1306)에 의해 발생될 수 있고 도 13b의 파라미터 디코더(1324)에 의해 제공될 수 있다. 그리고 나서, 목적지 범위 내의 제 2 잡음 값들 및 다른 값들이 1202에 도시된 것과 같이 이러한 스펙트럼 엔벨로프 정보를 사용하여 스케일링된다. 그 뒤에, 대역폭 확장의 경우에 증가된 대역폭을 갖거나 또는 지능형 갭 충전의 콘텍스트 내의 감소된 수의 스펙트럼 홀을 갖거나 또는 어떠한 스펙트럼 홀도 갖지 않는 최종 시간 도메인 향상된 신호를 획득하기 위하여 어떠한 다른 후-처리(1204)가 실행될 수 있다.
이러한 콘텍스트에서, 특히 도 9의 실시 예를 위하여, 몇몇 대안들이 적용될 수 있다는 것이 설명된다. 일 실시 예를 위하여, 입력 신호의 전체 스펙트럼을 갖거나 또는 적어도 잡음-충전 경계 주파수 위인 입력 신호의 스펙트럼의 부분을 갖는 단계(902)가 실행된다. 이러한 주파수는 특정 주파수 아래에, 즉 이러한 주파수 아래에, 어떠한 잡음-충전도 전혀 실행되지 않는다는 것을 보장한다.
그리고 나서, 어떠한 특정 소스 범위/표적 범위 매핑 정보와 관계없이 전체 입력 신호 스펙트럼, 즉 완전한 잠재 소스 범위에 소스 타일 버퍼(902)에 복사되고 그리고 나서 단계(904, 906 및 908)로 진행되며 그리고 나서 이러한 소스 타일 버퍼로부터 특히 구체적으로 필요한 소스 영역을 선택한다.
그러나, 다른 실시 예들에서, 단지 입력 신호의 일부분들일 수 있는 구체적으로 필요한 소스 범위들만이 입력 신호 내에 포함된, 즉 이러한 오디오 입력 신호에 대한 부가 정보로서 관련된 소스 범위/표적 범위 정보를 기초로 하여 단일 소스 타일 버퍼 또는 몇몇 개별 소스 타일 버퍼에 에 복사된다. 상황, 단계(902, 904, 906)에 의해 단지 구체적으로 필요한 소스 범위들만이 처리되는, 제 2 대안에 의존하여, 복잡도 또는 적어도 메모리 요구사항들은 적어도 잡음-충전 경계 주파수 위의 전체 소스 범위가 단계들(902, 904, 906)에 의해 처리되는, 특정 매핑 상황과 항상 독립적인, 상황과 비교하여 감소될 수 있다.
그 뒤에, 스펙트럼-시간 컨버터(118) 앞에 위치되는, 주파수 재생기(116) 내의 본 발명의 특정 구현을 설명하기 위하여 도 1a-5c가 참조된다.
도 1a는 오디오 신호(99)를 인코딩하기 위한 장치를 도시한다. 오디오 신호(99)는 샘플링 레이트를 갖는 오디오 신호를 시간 스펙트럼 컨버터에 의해 출력되는 스펙트럼 표현(101)으로 전환하기 위한 시간 스펙트럼 컨버터(100) 내로 입력된다. 스펙트럼(101)은 스펙트럼 표현(101)을 분석하기 위한 스펙트럼 분석기(102) 내로 입력된다. 스펙트럼 분석기(102)는 제 1 스펙트럼 해상도로 인코딩되도록 제 1 스펙트럼 부분들(103)의 제 1 세트 및 제 2 스펙트럼 해상도로 인코딩되도록 제 2 스펙트럼 부분들(105)의 상이한 제 2 세트를 결정하도록 구성된다. 제 2 스펙트럼 해상도는 제 1 스펙트럼 해상도보다 작다. 제 2 스펙트럼 부분들(105)의 제 2 세트는 제 2 스펙트럼 해상도를 갖는 스펙트럼 엔벨로프 정보를 계산하기 위한 파라미터 계산기 또는 파라미터 코더 내로 입력된다. 게다가, 제 1 스펙트럼 해상도를 갖는 제 1 스펙트럼 부분들의 제 1 세트의 제 1 인코딩된 표현(107)을 발생시키기 위하여 스펙트럼 도메인 오디오 코더(106)가 제공된다. 게다가, 파라미터 계산기/파라미터 코더(104)는 제 2 스펙트럼 부분들의 제 2 세트의 제 2 인코딩된 표현(109)을 발생시키도록 구성된다. 제 1 인코딩된 표현(107) 및 제 2 인코딩된 표현(109)은 비트 스트림 멀티플렉서 또는 비트 스트림 형성기(108) 내로 입력되고 블록(108)은 최종적으로 전송 또는 저장 장치 상의 저장을 위한 인코딩된 오디오 신호를 출력한다.
일반적으로, 도 3a의 306과 같은 제 1 스펙트럼 부분은 307a, 307b와 같은 두 개의 제 2 스펙트럼 부분에 의해 둘러싸일 것이다. 이는 코어 코더 주파수 범위가 대역 제한적인, HE AAC에서는 그렇지 않다.
도 1b는 도 1a의 인코더와 어울리는 디코더를 도시한다. 제 1 인코딩된 표현(107)은 제 1 스펙트럼 부분들의 제 1 세트의 제 1 디코딩된 표현을 발생시키기 위하여 스펙트럼 도메인 오디오 인코더(112) 내로 입력되며, 디코딩된 표현은 제 1 스펙트럼 해상도를 갖는다. 게다가, 제 2 인코딩된 표현(109)은 제 1 스펙트럼 해상도보다 낮은 제 2 스펙트럼 해상도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 제 2 디코딩된 표현을 발생시키기 위하여 파라미터 디코더(114) 내로 입력된다.
디코더는 제 1 스펙트럼 부분을 사용하여 제 1 스펙트럼 해상도를 갖는 재구성된 제 2 스펙트럼 부분을 재생하기 위한 주파수 재생기(116)를 더 포함한다. 주파수 재생기(116)는 타일 충전 연산을 실행하는데, 즉 제 1 스펙트럼 부분들의 제 1 세트의 타일 또는 부분을 사용하고 이러한 제 1 스펙트럼 부분들의 제 1 세트를 제 2 스펙트럼 부분을 갖는 재구성 범위 또는 재구성 대역 내로 복사하며 파라미터 디코더(114)에 의해 출력되는 디코딩된 제 2 표현에 의해, 즉 제 2 스펙트럼 부분들의 제 2 세트에 대한 정보의 사용에 의해 표시되는 것과 같이 스펙트럼 엔벨로프 형상화 또는 또 다른 연산을 실행한다. 라인(117) 상의 주파수 재생기(116)의 출력에서 나타낸 것과 같이 제 1 스펙트럼 부분들의 디코딩된 제 1 세트 및 스펙트럼 부분들의 재구성된 제 2 세트는 제 1 디코딩된 표현 및 재구성된 제 2 스펙트럼 부분을 시간 표현(119)으로 전환하도록 구성되는 스펙트럼-시간 컨버터(118) 내로 입력되며, 시간 표현은 특정 고 샘플링 레이트를 갖는다.
도 2b는 도 1a 인코더의 구현을 도시한다. 오디오 입력 신호(99)는 도 1a의 시간 스펙트럼 컨버터(100)와 상응하는 분석 필터뱅크(220) 내로 입력된다. 그리고 나서, 시간적 잡음 형상화 연산이 TNS 블록(222) 내에서 실행된다. 따라서, 도 2b의 블록 음조 마스크(tonal mask, 226)와 상응하는 도 1a의 스펙트럼 분석기(102) 내로의 입력은 시간적 잡음 형상화/시간적 타일 형상화 연산이 적용되지 않을 때 완전한 스펙트럼 값들일 수 있거나 또는 도 2b에 도시된 것과 같은 TNS 연산 블록(222)이 적용될 때 스펙트럼 잔류 값들일 수 있다. 2-채널 신호들 또는 다중-채널 신호들을 위하여, 조인트 채널 코딩(joint channel coding, 228)이 부가적으로 실행될 수 있으며, 따라서 도 1a의 스펙트럼 도메인 인코더(106)는 조인트 채널 코딩 블록(228)을 포함할 수 있다, 게다가, 또한 도 1a의 스펙트럼 도메인 인코더(106)의 일부분인, 무손실 데이터 압축을 실행하기 위한 엔트로피 코더(232)가 제공된다.
스펙트럼 분석기/음조 마스크(tonal mask, 226)는 TNS 블록(222)의 출력을 제 1 스펙트럼 부분들(103)의 제 1 세트와 상응하는 코어 대역과 음조 성분들 및 도 1a의 제 2 스펙트럼 부분들(105)의 제 2 세트와 상응하는 잔류 성분들로 분리한다. IGF 파라미터 추출 인코딩으로 표시된 블록(224)은 도 1a의 파라미터 코더와 상응하고 비트스트림 멀티플렉서(230)는 도 1a의 비트스트림 멀티플렉서(bitstream multiplexer, 108)와 상응한다.
바람직하게는, 분석 필터뱅크(222)는 변형 이산 코사인 변환(MDCT) 필터뱅크로서 구현되고 MDCT는 신호(99)를 시간 주파수 도메인으로 변환하도록 사용되며 뱐형 이산 코사인 변환은 주파수 분석 툴로서 작용한다.
스펙트럼 분석기(226)는 바람직하게는 음조 마스크를 적용한다. 음조 마스크 추정 단계는 신호 내의 잡음 유사 성분들로부터 음조 성분들을 분리하도록 사용된다. 이는 코어 코더(228)가 음향심리학적 모듈을 갖는 모든 음조 성분을 코딩하도록 허용한다. 음조 마스크 추정 단계는 많은 다양한 방법으로 구현될 수 있으며 바람직하게는 음성/오디오 코딩[8. 9] 또는 [10]에서 설명되는 HILN 모델 기반 오디오 코더를 위한 사인 및 잡음-모델링에서 사용되는 사인파(sinusoidal) 트랙 추정 단계에 대한 그것의 기능과 유사하게 구현된다. 바람직하게는, 출생-사망 궤도(birth-death trajectory)들을 유지할 필요 없이 구현하기에 쉬운 구현이 사용되나, 어떠한 다른 음조 또는 잡음 검출기가 또한 사용될 수 있다.
IGF 모듈은 소스 영역 및 표적 영역 사이에 존재하는 유사성을 계산한다. 표적 영역은 소스 영역으로부터의 스펙트럼에 의해 표현될 것이다. 소스 및 표적 영역들 사이의 유사성의 측정은 교차-상관(cross-correlation) 접근법을 사용하여 수행된다. 표적 영역은 nTar 비-오버래핑 주파수 타일들로 분할된다. 표적 영역 내의 모든 타일을 위하여, nSrc 소스 타일들이 고정된 시작 주파수로부터 생성된다. 이러한 소스 타일들은 0과 1 사이의 인자에 의해 오버랩하며, 여기서 0은 0% 오버랩을 의미하고 1은 100% 오버랩을 의미한다. 각각의 이러한 소스 타일들은 표적 타일과 최상으로 어울리는 소스 타일들을 발견하기 위하여 다양한 래그(lag)들에서 표적 타일들과 상관된다. 최상으로 어울리는 타일 수는 tileNum[idx_tar] 내에 저장되고, 표적과 최상으로 상관하는 래그는 xcorr_lag[idx_tar][idx_src] 내에 저장되며, 상관의 표시는 xcorr_sign[idx_tar][idx_src] 내에 저장된다. 상관이 고도로 음인 경우에, 소스 타일은 디코더에서의 타일 충전 과정 이전에 -1로 곱해질 필요가 있다. IGF 모듈은 또한 스펙트럼 내의 음조 성분들을 겹쳐 쓰지(overwrite) 않는 것에 주의하는데 그 이유는 음조 성분들이 음조 마스크를 사용하여 보존되기 때문이다. 대역 방식 에너지 파라미터는 본 발명자들이 스펙트럼을 정확하게 재구성하는 것을 가능하게 하기 위하여 표적 영역의 에너지를 저장하도록 사용된다.
이러한 방법은 사인파들 사이의 갭들만이 소스 영역으로부터 최상으로 어울리는 "형상화된 잡음(shaped noise)"으로 충전되는 동안에 다중 음조 신호의 고조파 그리드(harmonic grid)가 코어 디코더에 의해 보존된다는 점에서 특정 장점들을 갖는다. ASR(정확한 스펙트럼 대체)[2-4]과 비교하여 이러한 시스템의 장점은 디코더에서 신호의 중요한 부부들을 생성하는 신호 합성 단계의 부재이다. 대신에, 이러한 작업은 코어 디코더에 의해 대체되며, 이는 스펙트럼의 중요한 성분들의 보존을 가능하게 한다. 제안되는 시스템의 또 다른 장점은 특징들이 제공하는 연속적인 확정성(scalability)이다. 모든 타일을 위하여, 단지 tileNum[idx_tar] 및 xcorr-lag=0의 사용은 총 입상도 매칭(gross granularity matching)으로 불리고 낮은 비트레이트들을 위하여 사용될 수 있으며 모든 타일을 위한 변수 xcorr_lag의 사용은 본 발명자들이 표적 및 소스 스펙트럼을 더 잘 일치시키는 것을 가능하게 한다.
트릴링(trilling) 및 음악 잡음과 같은 주파수 도메인 아티팩트들을 제거하는 게다가, 타일 선택 안정화 기술이 제안된다.
스테레오 채널 쌍들의 경우에 부가적인 조인트 스테레오 처리가 적용된다. 이는 필요한데, 그 이유는 특정 목적지 범위를 위하여 신호는 고도로 상관된 패닝된(panned) 음원을 가질 수 있기 때문이다. 이러한 특정 영역을 위하여 선택된 소스 영역이 잘 상관되지 않는 경우에, 비록 에너지를 목적지 영역들에 어울리더라도, 공간 이미지는 상관되지 소스 영역들에 기인하여 곤란을 겪을 수 있다. 인코더는 일반적으로 스펙트럼 값들의 교차-상관을 실행하는, 각각의 목적지 영역 에너지 대역을 분석하고 만일 특정 임계가 초과하면, 이러한 에너지 대역을 위한 조인트 플래그(joint flag)를 설정한다. 디코더에서 왼쪽 및 오른쪽 채널 에너지 대역들은 만일 이러한 조인트 스테레오 플래그가 설정되지 않으면 개별적으로 처리된다. 조인트 스테레오 플래그가 설정된 경우에, 에너지들 및 패칭 모두는 조인트 스테레오 도메인 내에서 실행된다. IGF 영역들을 위한 조인트 스테레오 정보는 예측의 경우에 예측의 방향이 다운믹스로부터 잔류인지 또는 그 반대인지를 나타내는 플래그를 포함하는, 코어 코딩을 위한 조인트 스테레오 정보와 유사하게 시그널링된다.
에너지들은 L/R-도메인 내의 전송된 에너지들로부터 계산될 수 있다.
midNrg[k]=leftNrge[k]+rightNrg[k];
sideNrg[k]=leftNrge[k]-rightNrg[k];
여기서 k는 변환 도메인 내의 주파수 지수이다.
또 다른 해결책은 조인트 스테레오가 활성인 대역들을 위하여 조인트 스테레오 도메인 냐에서 에너지들을 직접적으로 계산하고 전송하는 것이며, 따라서 디코더 측에서 어떠한 부가적인 에너지 변환도 필요하지 않다.
소스 타일들은 항상 중간/측-매트릭스에 따라 생성된다:
midTile[k]=0.5·(leftTile[k]+rightTile[k])
sideTile[k]=0.5·(leftTile[k]-rightTile[k])
에너지 조정:
midTile[k] = midTile[k]*midNrg[k]
sideTile[k] = sideTile[k]*sidNerg[k]
조인트 스테레오 → LR 변환:
만일 어떠한 부가적인 예측 파라미터도 코딩되지 않으면:
leftTile[k] = midTile[k]+sideTile[k]
rightTile[k] = midTile[k]-sideTile[k]
만일 부가적인 예측 파라미터가 코딩되고 만일 시그널링된 방향이 중간으로부터 측 측면이면:
sideTile[k] = sideTile[k]-predictionCoeff·midTile[k]
leftTile[k] = midTile[k]+sideTile[k]
rightTile[k] = midTile[k]-sideTile[k]
만일 시그널링된 방향이 측면으로부터 중간이면:
midTile[k] = mide[k]-predictionCoeff·sideTile[k]
leftTile[k] = midTile[k]-sideTile[k]
rightTile[k] = midTile[k]+sideTile[k]
이러한 처리는 고도로 상관된 목적지 영역들 및 패닝된 목적지 영역들의 재생을 위하여 사용되는 타일들로부터, 결과로서 생긴 왼쪽 및 오른쪽 채널들이 소스 영역들이 상관되지 않더라도 여전히 상관되고 패닝된 음원을 표현하고, 그러한 영역들을 위한 스테레오 이미지를 보존하는 것을 보장한다.
바꾸어 말하면, 비트스트림 내에서, 일반적인 조인트 스테레오 코딩을 위한 예로서 L/R 또는 M/S가 사용되어야만 하는지를 나타내는 조인트 스테레오 플래그들이 전송된다. 디코더에서, 첫 번째로, 코어 신호는 코어 대역들을 위한 조인트 스테레오 플래그들에 의해 표시되는 것과 같이 디코딩된다. 두 번째로, 코어 신호는 L/R 및 M/S 표현 모두 내에서 저장된다. IGF 타일 충전을 위하여, 소스 타일 표현은 IGF 대역들을 위한 조인트 스테레오 정보에 의해 표시되는 것과 같이 표적 타일 표현에 적합하도록 선택된다.
시간적 잡음 형상화(temporal Noise Shaping, TNS)는 표준 기술이고 AAC[11-13]의 일부분이다. TNS는 필터뱅크 및 양자화 단계 사이의 선택적 처리 단계를 삽입하는, 지각적 코더의 기존 전략의 확장으로서 고려될 수 있다. TNS의 주요 작업은 트랜지언트 유사 신호들의 시간적 마스킹 영역 내에 생산된 양자화 잡음을 숨기는 것이며 따라서 이는 더 효율적인 코딩 전략에 이르게 한다. 먼저, TNS는 변환 도메인, 예를 들면 변형 이산 코사인 변환 내의 "순방향 예측(forward prediction)"을 사용하여 예측 계수들의 세트를 계산한다. 이러한 계수들은 그리고 나서 신호의 시간적 엔벨로프의 평탄화(flattening)를 위하여 사용된다. 양자화가 TNS 필터링된 스펙트럼에 영향을 미침에 따라, 또한 양자화 잡음은 TNS 필터의 시간적 엔벨로프에 따라 형상화되고 따라서 양자화 잡음은 트랜지언트에 의해 마스킹된다.
IGF는 MDCT 표현을 기초로 한다. 효율적인 코딩을 위하여, 바람직하게는 약 20ms의 긴 블록들이 사용되어야만 한다. 만일 그러한 긴 블록 내의 신호가 트랜지언트들을 포함하며, 타일 충전에 기인하여 IGF 스펙트럼 대역들 내에 가청 전- 및 후-에코들이 발생한다. 도 7c는 IGF에 기인하는 트랜지언트 개시 전의 일반적인 전-에코(pre-echo) 효과를 도시한다. 왼쪽 면 상에, 원래 신호의 스펙트로그램이 도시되고 오른쪽 면 상에 TNS 필터링이 없는 대역폭 확장된 신호의 스펙트로그램이 도시된다.
이러한 전-에코 효과는 IGF 콘텍스트 내의 TNS의 사용에 의해 감소된다. 여기서, TNS는 시간적 타일 형상화(TTS) 툴로서 사용되는데 그 이유는 디코더 내의 스펙트럼 재생이 TNS 잔류 신호 상에서 실행되기 때문이다. 필요한 TTS 예측 계수들이 계산되고 일반적으로 인코더 측 상에서 완전한 스펙트럼을 사용하여 적용된다. TNS/TTS 시작 및 종결 주파수들은 IGF 툴의 IGF 시작 주파수(f IGFstart )에 의해 영향을 받지 않는다. 레거시(legacy) TNS와 비교하여, TTS 종결 주파수는 IGF 툴의 종결 주파수로 증가되며, 이는 f IGFstart 보다 높다. 디코더 측 상에서 TNS/TTS 계수들은 다시 완전한 스펙트럼, 즉 코어 스펙트럼 플러스 재생된 스펙트럼 플러스 음조 맵으로붙처의 음조 성분들 상에 적용된다(도 7e 참조). TTS의 적용은 다시 원래 신호의 엔벨로프와 어울리도록 재생된 스펙트럼의 시간적 엔벨로프를 형성하는데 필요하다. 따라서 도시된 전-에코들은 감소된다. 게다가, 이는 여전히 TNS에서 일반적인 것과 같이 f IGFstart 아래의 신호 내의 양자화 잡음을 형상화한다.
레거시 디코더들에서, 오디오 신호 상의 스펙트럼 패칭은 패치 경계들에서 스펙트럼 상관에 오류를 일으키고 이에 의해 분산의 도입에 의해 오디오 신호의 시간적 엔벨로프를 손상시킨다. 따라서, 잔류 신호 상의 IGF 타일 충전의 실행의 또 다른 혜택은 형상화 필터의 적용 후에, 타일 경계들은 균일하게 상관되며, 이는 신호의 더 신뢰할 수 있는 시간적 재생을 야기한다는 것이다.
본 발명의 인코더에서, TNS/TTS 필터링, 음조 마스크 처리 및 IGF 파라미터 추정을 수행한 스펙트럼은 음조 성분들을 제외하고는 IGF 시작 주파수 위의 어떠한 신호도 없다. 이러한 희소 스펙트럼(sparse spectrum)은 이제 산술 코딩 및 예측 코딩의 원리들을 사용하여 코어 코더에 의해 코딩된다. 시그널링 비트들과 함께 이러한 코딩된 성분들은 오디오의 비트스트림을 형성한다.
도 2a는 상응하는 디코더 구현을 도시한다. 인코딩된 오디오 신호와 상응하는 도 2a의 비트스트림은 도 1b와 관련하여, 블록들(112 및 114)에 연결될 수 있는 디멀티플렉서/디코더 내로 입력된다. 비트스트림 디멀티플렉서는 입력 오디오 신호를 도 1b의 제 1 인코딩된 표현(107) 및 도 1b의 제 2 인코딩된 표현(109)으로 분리한다. 제 1 스펙트럼 부분들의 제 1 세트를 갖는 제 1 인코딩된 표현은 도 1b의 스펙트럼 도메인 디코더(112)와 상응하는 조인트 채널 디코딩 블록(204) 내로 입력된다. 제 2 인코딩된 표현은 도 2에는 도시되지 않은 파라미터 디코더(114) 내로 입력되고 그리고 나서 도 1b의 주파수 재생기(116)와 상응하는 IGF 블록(202) 내로 입력된다. 주파수 재생을 위하여 필요한 제 1 스펙트럼 부분들의 제 1 세트는 라인(203)을 통하여 IGF 블록(202) 내로 입력된다. 게다가, 조인트 채널 디코딩(204) 뒤에 음조 마스크(206)의 출력이 스펙트럼 도메인 디코더(112)의 출력과 상응하도록 음조 마스크 블록(206) 내에 특정 코어 디코딩이 적용된다. 그리고 나서, 결합기(208)에 의해 결합이 시작되는데, 즉 출력이 이제 완전한 범위 스펙트럼을 프레임을 구성하나, 여전히 TNS/TTS 필터링된 도메인 내에 존재한다. 그리고 나서, 블록(210)에서, 역 TNS/TTS 부가 정보는 바람직하게는 예를 들면, 간단한 AAC 또는 USAC 코어 인코더일 수 있는 스펙트럼 도메인 인코더(106)에 의해 발생되는 제 1 인코딩된 표현 내에 포함되거나, 또는 또한 제 2 인코딩된 표현 내에 포함될 수 있다. 블록(210)의 출력에서, 최대 주파수까지 원래 입력 신호의 샘플링 레이트에 의해 정의되는 완전한 범위 주파수인 완전한 스펙트럼이 제공된다. 그리고 나서, 최종적으로 오디오 출력 신호를 획득하기 위하여 합성 필터 뱅크(212) 내에서 스펙트럼/시간 전환이 실행된다.
도 3a는 스펙트럼의 개략적인 표현을 도시한다. 스펙트럼은 도 3a의 도시된 예에서 7개의 스케일 인자 대역(SCB1 내지 SCB7)이 존재하는 스케일 인자 대역들(SCB)로 세분된다. 스케일 인자 대역들은 AAC 표준에서 정의되고 도 3a에 개략적으로 도시된 것과 같이 상부 주파수들로 증가하는 대역폭을 갖는 AAC 스케일 인자 대역들일 수 있다. 스펙트럼의 맨 처음으로부터, 즉 낮은 주파수들에서가 아니라, 309에 도시된 IGF 시작 주파수에서 IGF 연산을 시작하도록, 지능형 갭 충전을 실행하는 것이 바람직하다. 따라서, 코어 주파수 대역은 가장 낮은 주파수로부터 IGF 시작 주파수로 확장한다. IGF 시작 주파수 위에서, 제 2 스펙트럼 부분들의 제 2 세트에 의해 표현되는 저해상도 성분들로부터 고해상도 스펙트럼 성분들(304, 305, 306, 307), 제 1 스펙트럼 부분들의 제 1 세트)을 분리하기 위하여 스펙트럼 분석이 적용된다. 도 3a는 바람직하게는 스펙트럼 도메인 인코더(106) 또는 조인트 채널 코더(228) 내로 입력되는 스펙트럼을 도시하는데, 즉 코어 인코더는 완전한 범위 내에서 작동하나, 상당한 양의 제로 스펙트럼 값들을 인코딩하며, 즉 이러한 제로 스펙트럼 값들은 양자화 이전에 또는 양자화 뒤에 0으로 양자화되거나 또는 0으로 설정된다. 어쨌든, 코어 인코더는 완전한 범위로, 즉 스펙트럼이 도시된 것과 같을 수 있는 것처럼 작동하는데, 즉 코어 디코더는 어떠한 지능형 갭 충전 또는 낮은 스펙트럼 해상도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 인코딩을 감지할 필요가 없다.
바람직하게는, 고해상도는 MDCT 라인들과 같은 스펙트럼 라인들의 라인 방식 코딩으로 정의 되며, 제 2 해상도 또는 저해상도는 예를 들면, 단지 스케일 인자 대역 당 단일 스펙트럼 값의 계산에 의해 정의되며, 스케일 인자 대역은 몇몇 주파수 라인들을 포함한다. 따라서, 제 2 저해상도는 그것의 스펙트럼 해상도와 관련하여, 일반적으로 AAC 또는 USAC 코어 인코더와 같은 코어 인코더에 의해 적용되는 라인 방식 코딩에 의해 정의되는 제 1 또는 고해상도보다 훨씬 낮다.
스케일 인자 또는 에너지 계산과 관련하여, 상황이 도 3b에 도시된다. 인코더가 코어 인코더인 사실에 기인하여 그리고 각각의 대역 내에 스펙트럼 부분들의 제 1 세트가 존재할 수 있으나, 반드시 그럴 필요는 없다는 사실에 기인하여, 코어 인코더는 샘플링 주파수의 반, 즉 FS /2와 유사하거나 또는 동일한 최대 주파수(f IGFstop )까지 IGF 시작 주파수(309) 아래뿐만 아니라, IGF 시작 주파수 위의 코어 범위 내의 각각의 대역을 위한 스케일 인자를 계산한다. 따라서, 도 3A의 인코딩된 음조 부분들(302, 304, 305, 306, 307)은 그리고 본 실시 예에서는 스케일 인자들(SCB1 내지 SCB7), 고해상도 스펙트럼 데이터와 상응한다. 저해상도 스펙트럼 데이터는 IGF 시작 주파수로부터 시작하여 계산되고 스케일 인자들(SF4 내지 SF7)과 함께 전송되는, 에너지 정보 값들(E1, E2, E3, E4)과 상응한다.
특히, 코어 인코더가 낮은 비트레이트 조건 하일 때, 즉 IGF 시작 주파수보다 주파수가 낮을 때, 즉 스케일 인자 대역들(SCB1 내지 SCB3) 내에서 코어 대역 내의 부가적인 잡음-충전 연산이 부가적으로 적용된다. 잡음-충전에서, 0으로 양자화된 몇몇 인접한 스펙트럼 라인들이 존재한다. 디코더-측 상에서, 제로 스펙트럼 값들로 양자화된 이것들은 재합성되고 재합성된 스펙트럼 값들은 도 3b의 308에 도시된 NF2와 같은 잡음-충전 에너지를 사용하여 그것들의 크기 내에서 조정된다.
바람직하게는, 에너지 정보가 계산되는, 대역들은 스케일 인자 대역들과 일치한다. 다른 실시 예들에서, 에너지 정보 값 그룹화가 적용되며, 따라서 예를 들면 스케일 인자 대역들(4 및 5)을 위하여, 단일 에너지 정보 값만이 전송되나, 심지어 본 실시 예에서도, 그룹화된 재구성 대역들의 경계들은 스케일 인자 대역들의 경계들과 일치한다. 만일 상이한 대역 분리가 적용되면, 특정 재-계산 또는 동기화 계산들이 적용될 수 있으며, 이는 특정 구현에 의존하여 타당할 수 있다.
바람직하게는, 도 1a의 스펙트럼 도메인 인코더(106)는 도 4a에 도시된 것과 같이 음향심리학적으로 구동되는 인코더이다. 일반적으로, 예를 들면 MPEG2/4 AAC 표준 또는 MPEG1/2 계층 3 표준에서 나타낸 것과 같이, 스펙트럼 범위(401, 도 4a)로 변환된 후에 인코딩되려는 오디오 신호는 스케일 인자 계산기(400)로 전송된다. 스케일 인자 계산기는 부가적으로 양자화되려는 오디오 신호를 수신하거나 또는 MPEG1/2 계층 3 또는 MPEG AAC 표준에서와 같이, 오디오 신호의 복합 스펙트럼 표현을 수신하는 음향-심리학적 모델에 의해 제어된다. 음향-심리학적 모델은 각각의 스케일 인자 대역을 위하여, 음향-심리학적 임계를 표현하는 스케일 인자를 계산한다. 부가적으로, 스케일 인자들은 그리고 나서 잘 알려진 내부 및 외부 반복 루프(iteration loop)들의 협력에 의하거나 또는 특정 비트레이트 조건들이 충족되도록 어떤 다른 적절한 인코딩 과정에 의해 조정된다. 그리고 나서, 한편으로는 양자화되려는 스펙트럼 값들 및 다른 한편으로는 계산된 스케일 인자들이 양자화기 프로세서(404) 내로 입력된다. 간단한 오디오 인코더 연산에서, 양자화되려는 스펙트럼 값들은 스케일 인자들에 의해 가중되고, 가중된 스펙트럼 값들은 그리고 나서 일반적으로 상부 진폭 범위들로의 압축 기능을 갖는 고정된 양자화기 내로 입력된다. 그리고 나서, 양자화기 프로세서의 출력에서 그리고 나서 일반적으로 인접한 주파수 값들을 위한 제로-양자화 지수들의 세트를 위하여, 또는 또한 종래에 제로 값들의 "런(run)"으로 불리는 것과 같이, 특이적이고 효율적인 코딩을 갖는 엔트로피 인코더 내로 전송되는 양자화 지수들이 존재한다.
그러나, 도 1a의 오디오 인코더에서, 양자화기 프로세서는 일반적으로 스펙트럼 분서기로부터 제 2 스펙트럼 부분들에 대한 정보를 수신한다. 따라서, 양자화기 프로세서(404)는 양자화기 프로세서(404)의 출력에서, 스펙트럼 분석기(102)에 의해 정의되는 것과 같은 제 2 스펙트럼 부분들이 0이거나 또는 특히 스펙트럼 내에 제로 값들의 "런들"이 존재할 때 매우 효율적으로 코딩될 수 있는 제로 표현으로서 인코더 또는 디코더에 의해 인식되는 표현을 갖는 것을 확실하게 한다.
도 4b는 양자화기 프로세서의 구현을 도시한다. MDCT 스펙트럼 값들은 제로 블록(410)으로의 설정 내로 입력될 수 있다. 그리고 나서, 제 2 스펙트럼 부분들은 블록(412) 내의 스케일 인자들에 의한 가중이 실행되기 전에 이미 0으로 설정된다. 부가적인 구현에서, 블록(410)은 제공되지 않으나, 가중 블록(412) 뒤에 블록(418) 내에서 제로 협력으로의 설정이 실행된다. 심지어 또 다른 구현에서, 양자화기 블록(420) 내의 양자화 뒤에 제로 블록(422)으로의 설정 내에 제로 연산으로의 설정이 또한 실행될 수 있다. 이러한 구현에서, 블록들(410 및 418)은 존재하지 않을 수 있다. 일반적으로, 블록들(410, 418, 422) 중 적어도 하나가 특정 구현에 의존하여 제공된다.
그리고 나서, 블록(422)의 출력에서, 도 3a에 도시된 것과 상응하는 양자화된 스펙트럼ㅇ치 획득된다. 이러한 양자화된 스펙트럼은 그리고 나서 예를 들면 USAC 표준에서 정의된 것과 같은, 허프만 코더(Huffman coder) 또는 산술 코더일 수 있는 도 2b에 232와 같은 엔트로피 코더 내로 입력된다.
대안으로서 서로 또는 평행하게 제공되는, 제로 블록들(410, 418, 422)로의 설정은 스펙트럼 분석기(424)에 의해 제어된다. 스펙트럼 분석기는 바람직하게는 잘 알려진 음조 검출기의 어떠한 구현을 포함하거나 또는 스펙트럼의 고해상도로 인코딩되려는 성분들 및 저해상도로 인코딩되려는 성분들로의 분리를 위하여 작동하는 어떤 상이한 종류의 검출기를 포함한다. 스펙트럼 분석기에서 구현되는 그러한 다른 알고리즘들은 스펙트럼 정보 또는 상이한 스펙트럼 부분들을 위한 해상도 요구조건들에 대한 관련 메타데이터에 의존하여, 음성 활성 검출기, 잡음 검출기, 음향 검출기 또는 어떠한 다른 검출기일 수 있다.
도 5a는 예를 들면 AAC 또는 USAC에서 구현되는 것과 같은 도 1a의 시간 스펙트럼 컨버터(100)의 바람직한 구현을 도시한다. 시간 스펙트럼 컨버터(100)는 트렌지언트 검출기(504)에 의해 제어되는 윈도우어(502)를 포함한다. 트렌지언트 검출기(504)가 트렌지언트를 검출할 때, 신 윈도우들로부터 짧은 윈도우들로의 전환(switchover)이 윈도우어에 시그널링된다. 윈도우어(504)는 그리고 나서 오버래핑 블록들을 위하여, 윈도우잉된 프레임들을 계산하며, 각각의 윈도우잉된 프레임들은 일반적으로 2048 값들과 같은 두 개의 N 값을 갖는다. 그리고 나서, 블록 변환기(506) 내의 변환이 실행되고, 이러한 블록 변환기는 일반적으로 부가적으로 데시메이션(decimation)을 제공하며, 따라서 MDCT 스펙트럼 값들과 같은 N 값들을 갖는 스펙트럼 프레임을 획득하기 위하여 데시메이션/변환이 실행된다. 따라서, 긴 윈도우어 연산을 위하여, 블록(506)의 입력에서 프레임은 2048 값들과 같은 두 개의 N 값을 포함하고 스펙트럼 프레임은 그리고 나서 1024 값들을 갖는다. 그리고 나서, 그러나, 짧은 블록들로의 스위치가 실행되며, 8개의 짧은 블록이 실행될 때, 각각의 짧은 블록은 긴 윈도우와 비교하여 1/8 윈도우잉된 시간 도메인 값들을 갖고 각각의 스펙트럼 블록은 긴 블록과 비교하여 1/8 스펙트럼 값들을 갖는다. 따라서, 이러한 데시메이션이 윈도우어의 50% 오버랩 연산으로 결합될 때, 스펙트럼은 시간 도메인 오디오 신호(99)의 임계적으로 샘플링된 버전이다.
그 뒤에, 도 1b의 주파수 재생기(116) 및 스펙트럼-시간 컨버터(118)의 특정 구현, 또는 도 2a의 블록들(208, 212)의 결합된 연산을 도시한 도 5b가 참조된다. 도 5b에서, 도 3a의 스케일 인자 대역(6)과 같은 특정 재구성 대역이 고려된다. 이러한 재구성 대역 내의 제 1 스펙트럼 부분, 즉 도 3a의 제 1 스펙트럼 부분(306)은 프레임 빌더(frame builder)/조정기 블록(510) 내로 입력된다. 게다가, 스케일 인자 대역(6)을 위한 재구성된 제 2 스펙트럼 부분이 또한 프레임 빌더/조정기(510) 내로 입력된다. 게다가. 스케일 인자 대역(6)을 위한 도 3b의 E3와 같은 에너지 정보가 또한 블록(510) 내로 입력된다. 재구성 대역 내의 재구성된 제 2 스펙트럼 부분은 소스 범위를 사용하여 이미 주파수 타일 충전에 의해 발생되었고 재구성 대역은 그리고 나서 표적 범위와 상응한다. 이제, 그리고 나서 최종적으로 예를 들면 도 2a의 결합기(208)의 출력에서 획득되는, N 값들을 갖는 완전히 재구성된 프레임을 획득하기 위하여 이제 프레임의 에너지 조정이 실행된다. 그리고 나서 블록(512)에서, 예를 들면 블록(5120)의 입력에서 124 스펙트럼 값들을 위한 248 시간 도메인 값들을 획득하기 위하여 역 블록 변환/보간(interpolation)이 실행된다. 그리고 나서, 블록(514)에서 인코딩된 오디오 신호 내의 부가 정보로서 전송되는 긴 윈도우/짧은 윈도우 표시에 의해 다시 제어되는 합성 윈도우잉 연산이 실행된다. 그리고 나서 블록(516)에서, 이전 시간 프레임으로의 오버랩/가산 연산이 실행된다. 바람직하게는, MDCT는 2N 값들의 각각의 새로운 시간 프레임을 위하여, N 시간 도메인 값들이 최종적으로 출력되도록 50% 오버랩을 적용한다. 50% 오버랩은 블록(516) 내의 오버랩/가산 연산에 기인하여 하나의 프레임으로부터 그 다음 프레임으로 임계 샘플링 및 지속적인 교차를 제공한다는 사실에 기인하여 매우 바람직하다.
도 3a의 301에 도시된 것과 같이, 잡음-충전 연산은 부가적으로 예를 들면 도 3a의 스케일 인자 대역(6)과 일치하는 고려되는 재구성 대역을 위한 것과 같이 IGF 시작 주파수 아래뿐만 아니라 IGF 시작 주파수 위에 적용될 수 있다. 그리고 나서, 잡음-충전 스펙트럼 값들은 또한 프레임 빌더/조정기(510) 내로 입력될 수 있고 잡음-충전 스펙트럼 값들의 조정은 또한 이러한 블록 내에서 적용될 수 있거나 또는 잡음-충전 스펙트럼 값들은 프레임 빌더/조정기(510) 내로 입력되기 전에 잡음-충전 에너지를 사용하여 이미 조정될 수 있다.
바람직하게는, IGF 연산, 즉 다른 부분들로부터 스펙트럼 값들을 사용하는 주파수 타일 충전 연산은 완전한 스펙트럼 내에 적용될 수 있다. 따라서, 스펙트럼 타일 충전 연산은 IGF 시작 주파수 위의 고대역 내에 적용될 수 있으나 또한 저대역 내에 적용될 수 있다. 게다가, 주파수 타일 충전이 없는 잡음-충전은 IGF 시작 주파수 아래뿐만 아니라 IGF 시작 주파수 위에 적용될 수 있다. 그러나, 높은 품질 및 고효율적인 오디오 인코딩은 도 3a에 도시된 것과 같이 잡음-충전 연산이 IGF 시작 주파수 아래의 주파수 범위에 한정될 때 그리고 주파수 타일 충전 연산이 IGF 시작 주파수 위의 주파수 범위에 제한될 때 획득될 수 있다는 사실이 발견되었다.
바람직하게는, 표적 타일들(TT, IGF 시작 주파수보다 큰 주파수들을 갖는)은 완전 비율 코더의 스케일 인자 대역 경계들에 구속된다. 정보가 획득되는, 즉, IGF 시작 주파수보다 낮은 주파수들을 위한, 소스 타일들(ST)은 스케일 인자 대역 경계들에 의해 구속되지 않는다. ST의 크기는 관련된 TT의 크기와 상응하여야만 한다. 이는 아래의 예를 사용하여 설명된다. TT[0]은 10 MDCT 빈의 길이를 갖는다. 이는 두 개의 뒤따르는 SCB의 길이와 정확하게 상응한다(4+6과 같이). 그리고 나서, TT[0]과 상관되려는 모든 가능한 ST는 또한 15 빈의 길이를 갖는다. TT[0]에 인접한 제 2 표적 타일(TT[1])은 15 빈의 길이를 갖는다(7+8의 길이를 갖는 SCB). 그리고 나서, 이를 위한 ST는 TT[0]에 대하여 10보다는 15 빈의 길이를 갖는다.
표적 타일의 길이를 갖는 ST를 위한 TT를 발견할 수 없는 경우가 발생하면(예를 들면 TT의 길이가 이용 가능한 소스 범위보다 클 때), 상관은 계산되지 않고 소스 범위는 표적 타일(TT)이 완전히 충전될 때까지, 여러 번 이러한 TT 내로 복사된다(복사는 제 2 복사의 가장 낮은 주파수를 위한 주파수 라인이 주파수에서, 제 1 복사의 가장 높은 주파수를 라인을 바로 뒤따르도록 교대로 수행된다).
그 뒤에, 도 1b의 주파수 재생기(116) 또는 도 2a의 IGF 블록(202)의 또 다른 바람직한 실시 예를 도시한 도 5c가 참조된다. 블록(522)은 표적 대역 ID뿐만 아니라 부가적으로 소스 대역 ID를 수신하는 주파수 타일 재생기이다. 바람직하게는, 도 3a의 스케일 인자 대역(3)이 스케일 인자 대역(7)의 재구성에 매우 적합하다는 것이 결정되었다. 따라서, 소스 대역 ID는 2일 수 있고 표적 대역 ID는 7일 수 있다. 이러한 정보를 기초로 하여, 주파수 타일 발생기(522)는 스펙트럼 성분들(223)의 원시 제 2 부분을 발생시키기 위하여 카피 업(copy up) 또는 고조파 타일 충전 연산 또는 어떠한 다른 타일 충전 연산을 적용한다. 스펙트럼 성분들의 원시 제 2 부분은 제 1 스펙트럼 부분들의 제 1 세트 내에 포함된 주파수 해상도와 동일한 주파수 해상도를 갖는다.
그리고 나서, 도 3a의 307과 같은 재구성 대역의 제 1 스펙트럼 부분은 프레임 빌더(524) 내에 입력되고 원시 제 2 부분(523)이 또한 프레임 빌더(524) 내에 입력된다. 그리고 나서, 재구성된 프레임은 이득 인자 계산기(528)에 의해 계산되는 재구성 대역을 위한 이득 인자를 사용하여 조정기(526)에 의해 조정된다. 중요하게는, 그러나, 프레임 내의 제 1 스펙트럼 부분은 조정기(526)에 의해 영향을 받지 않으며, 재구성 대역을 위한 원시 제 2 부분만이 조정기(526)에 의해 영향을 받는다. 이를 위하여, 이득 인자 계산기(528)는 스케일 인자 대역(7)이 고려될 때 조정기(528)에 의해 출력된 조정된 프레임의 에너지가 에너지(E4)를 갖도록 최종적으로 정확한 이득 인자(527)를 발견하기 위하여 재구성 대역 내의 제 1 스펙트럼 부분을 분석
이러한 맥락에서, HE-AAC와 비교하여 본 발명의 고주파수 재구성 정확도를 평가하는 것이 매우 중요하다. 이는 도 3a의 스케일 인자 대역(7)과 관련하여 설명된다. 도 13a에 도시된 것과 같은 종래의 인코더는 "손실 고조파"로서 고해상도로 인코딩되려는 스펙트럼 부분(307)을 검출할 수 있다는 것이 가정된다. 그리고 나서, 이러한 스펙트럼 성분의 에너지는 스케일 인자 대역(7)과 같은 재구성 대역을 위한 스펙트럼 엔벨로프 정보와 함께 디코더에 전송될 수 있다. 그리고 나서, 디코더는 손실 고조파를 재생성할 수 있다. 그러나, 도 13b의 종래의 디코더에 의해 손실 고조파가 재구성될 수 있는, 스펙트럼 값은 재구성 주파수(390)에 의해 표시되는 주파수에서 대역(7)의 중간에 존재할 수 있다. 따라서, 본 발명은 도 13d의 종래의 디코더에 의해 도입될 수 있는 주파수 오류(391)를 방지한다.
일 구현에서, 스펙트럼 분석기는 또한 제 1 스펙트럼 부분들 및 제 2 스펙트럼 부분들 사이의 유사성들을 계산하고 계산된 유사성들을 기초로 하여, 재구성 범위 내의 제 2 스펙트럼 부분을 위하여 가능한 한 제 2 스펙트럼 부분과 어울리는 제 1 스펙트럼 부분을 결정하도록 구성된다. 그리고 나서, 이러한 가변 소스 범위/목적지 범위 구현에서, 파라미터 코더는 부가적으로 제 2 인코딩된 표현 내로 각각의 목적지 범위를 위하여 매칭 소스 범위를 나타내는 매칭 정보를 도입할 것이다. 디코더 측 상에서, 이러한 정보는 그리고 나서 소스 대역 식별 및 표적 대역 식별을 기초로 하여 원시(raw) 제 2 부분(523)의 발생을 도시한 도 5c의 주파수 타일 발생기(522)에 의해 사용될 수 있다.
게다가, 도 3a에 도시된 것과 같이, 스펙트럼 분석기는 샘플링 주파수의 반 이하의 단지 적은 양이고 바람직하게는 샘풀링 주파수의 적어도 1/4이거나 또는 일반적으로 높은 최대 분석 주파수까지 스펙트럼 표현을 분석하도록 구성된다.
도시된 것과 같이, 인코더는 다운샘플링 없이 작동하고 디코더는 업샘플링 없이 작동한다. 바꾸어 말하면, 스펙트럼 도메인 오디오 코더는 원래 입력 오디오 신호의 샘플링 레이트에 의해 정의되는 나이퀴스트 주파수(Nyquist frequency)를 갖는 스펙트럼 표현을 발생시키도록 구성된다.
게다가, 도 3a에 도시된 것과 같이, 스펙트럼 분석기는 갭 충전 시작 주파수로 시작하여 스펙트럼 표현 내에 포함되는 최대 주파수에 의해 표현되는 최대 주파수로 끝나는 스펙트럼 표현을 분석하도록 구성되며, 최소 주파수로부터 갭 충전 시작 주파수까지 확장하는 스펙트럼 부분은 스펙트럼 부분들의 제 1 세트에 속하고 부가적으로 갭 충전 주파수 위의 주파수 값들을 갖는 304, 305, 306, 307과 같은 또 다른 스펙트럼 부분인 제 1 스펙트럼 부분의 제 1 세트 내에 포함된다.
설명된 것과 같이, 스펙트럼 도메인 오디오 디코더(112)는 제 1 디코딩된 표현 내의 스펙트럼 값에 의해 표현되는 최대 주파수가 샘플링 레이트를 갖는 시간 도메인 내에 포함된 최대 주파수와 동일하도록 구성되며, 제 1 스펙트럼 부분들의 제 1 세트 내의 최대 주파수를 위한 스펙트럼 값은 0이거나 또는 0과 다르다. 어쨌든, 스펙트럼 성분들의 제 1 세트 내의 이러한 최대 주파수를 위하여 스케일 인자 대역을 위한 스케일 인자가 존재하며, 이는 이러한 스케일 인자 내의 모든 스펙트럼 값이 도 3a 및 3b의 맥락에서 설명된 것과 같이 0으로 설정되거나 또는 0으로 설정되지 않는 것과 관계없이 발생되고 전송된다.
본 발명은 따라서, 압축 효율을 증가시키기 위한 다른 파라미터 기술들, 예를 들면 잡음 대체 및 잡음-충전(이러한 기술들은 잡음 유사 로컬 신호 콘텐츠의 효율적인 표현을 위하여 독점적임)과 관련하여 본 발명은 음조 성분들의 정확한 주파수 재생을 허용한다는 점에서 바람직하다. 지금까지, 어떠한 최신 기술도 저대역(LF) 및 고대역(HF)으로의 고정된 선험적 세분의 제한 없이 스펙트럼 갭 충전에 의한 임의 신호 컨텐츠의 효율적인 파라미터 표현을 다루지 않았다.
본 발명의 시스템의 실시 예들은 최신 접근법들을 향상시키고 이에 의해 높은 압축 효율, 무- 또는 적은 지각적 어노이언스(annoyance), 및 심지어 낮은 비트레이트들을 위한 완전 오디오 대역을 제공한다.
일반적인 시스템은 다음과 같이 구성된다:
● 완전 대역 코어 코딩
● 지능형 갭 충전(타일 충전 또는 잡음-충전)
● 음조 마스크에 의해 선택된 코어 내의 희소 음조 부분들
● 타일 충전을 포함하는, 완전 대역을 위한 조인트 스테레오 쌍 코딩
● 타일 상의 TNS
● IGF 범위 내의 스펙트럼 화이트닝(spectral whitening)
더 효율적인 시스템을 향한 첫 번째 단계는 스펙트럼 데이터를 코어 코더들 중 어느 하나와 상이한 제 2 변환 도메인으로 변환하기 위한 필요성을 제거하는 것이다. 예를 들면 AAC와 같은 대부분의 오디오 코덱들이 기본 변환으로서 MDCT를 사용하기 때문에, 또한 MDCT 도메인 내의 BWE를 실행하는 것이 유용하다. BWE 시스템을 두 번째 요구조건은 음조 그리드를 보존하기 위한 필요성일 수 있으며 이에 의해 심지어 고주파수 음조 성분들이 보존되고 코딩된 오디오의 품질은 따라서 현존하는 시스템보다 뛰어나다. 위에 언급된 두 요구조건 모두를 처리하기 위하여, 지능형 갭 충전(IGF)으로 불리는 시스템이 제안되었다. 도 2b는 인코더 측 상에서의 제안된 시스템의 블록 다이어그램을 도시하고 도 2a는 디코더 측 상에서의 시스템을 도시한다.
그 뒤에, 본 발명은 또한 이러한 후-처리 실시 예에서 고주파수 재구성기(1330) 내에 구현될 수 있다는 것을 설명하기 위하여 도 13a 및 도 13b와 관련하여 후-처리 프레임워크가 설명된다.
도 13a는 예를 들면 고효율 고급 오디오 코딩(HE-AAC)에서 사용되는 것과 같은, 대역폭 확장 기술을 위한 오디오 인코더의 개략적인 다이어그램을 도시한다. 라인(1300)에서의 오디오 신호는 저역 통과(1302) 및 고역 통과(1304)를 포함하는 필터 시스템 내로 입력된다. 고역 통과 필터(1304)에 의해 출력된 신호는 파라미터 추출기/코더(1306) 내로 입력된다. 파라미터 추출기/코더(1306)는 예를 들면, 스펙트럼 엔벨로프 파라미터, 잡음 첨가 파라미터, 손실 고조파 파라미터, 또는 역 필터링 파라미터와 같은 파라미터들을 계산하고 코딩하도록 구성된다. 이러한 추출된 파라미터들은 비트 스트림 멀티플렉서(1308) 내로 입력된다. 저역 통과 출력 신호는 일반적으로 다운 샘플러(1310) 및 코어 코더(1312)의 기능성을 포함하는 프로세서 내로 입력된다. 저역 통과(1302)는 라인(1300) 상의 원래 입력 오디오 신호 내의 발생보다 상당히 적은 대역폭으로 코딩되도록 대역폭을 제한한다. 이는 코어 코더 내에서 발생하는 전체 기능성들이 감소된 대역폭을 갖는 신호 상에서 작동하여야만 한다는 사실에 기인하여 상당한 코딩 이득을 제공한다. 예를 들면 샘플링 정리를 충족시키기 위하여, 라인(1300) 상의 오디오 신호의 대역폭이 20㎑일 때 그리고 저역 통과 필터(1302)가 바람직하게는 4㎑의 대역폭을 가질 때, 다운 샘플러 뒤의 신호는 8㎑의 샘플링 주파수를 갖는 것이 이론적으로 충분하며, 이는 적어도 40㎑이어야만 하는 오디오 신호(1300)를 위하여 필요한 샘플링 레이트에 대한 상당한 감소이다.
도 13b는 상응하는 대역폭 확장 디코더의 개략적인 다이어그램을 도시한다. 디코더는 비트스트림 멀티플렉서(1320)를 포함한다. 비트스트림 멀티플렉서(1320)는 코어 디코더(1322)를 위한 입력 신호 및 파라미터 디코더(1324)를 위한 입력 신호를 추출한다. 코어 디코더 출력 신호는 위의 예에서, 8㎑의 샘플링 레이트 및 따라서 4㎑의 대역폭을 갖고 완전한 대역폭 재구성을 위하여, 고주파수 재구성기(1330)의 출력 신호는 적어도 40㎑의 샘플링 레이트를 필요로 하는 20㎑에 존재하여야만 한다. 이를 가능하게 하기 위하여, 업샘플러(upsampler, 1325) 및 필터뱅크(1326)의 기능성을 갖는 디코더 프로세서가 필요하다. 고주파수 재구성기(1330)는 그리고 나서 필터뱅크에 의해 출력된 주파수 분석된 저주파수 신호를 수신하고 고주파수 대역의 파라미터 표현을 사용하여 도 13a의 고역 통과 필터(1304)에 의해 정의되는 주파수 범위를 재구성한다. 고주파수 재구성기(1330)는 저주파수 범위 내의 소스 범위를 사용하는 상부 주파수 범위의 재생, 스펙트럼 엔벨로프 조정, 잡음 첨가 기능성 및 상부 주파수 범위 내의 손실 고조파들의 도입에 대한 기능성과 같은 몇몇 기능들, 그리고 만일 도 13a의 인코더 내에 적용되고 계산되면, 고주파수 범위가 일반적으로 저주파수 범위만큼 음조적이지 않다는 사실을 설명하기 위한 필터링 연산을 갖는다. HE-AAC에서, 손실 고조파들은 디코더 측 상에 재합성되고 재구성 대역의 중간에 정확하게 위치된다. 따라서, 특정 재구성 대역 내에서 결정된 모든 손실 고조파 라인은 그것들이 원래 신호 내에 위치된 주파수 값들에 위치되지 않는다. 대신에, 그러한 손실 고조파 라인들은 특정 대역의 중앙의 주파수들에 위치hels다 따라서, 원래 신호 내의 손실 고조파 라인이 원래 신호 내의 재구성 대역 경계에 매우 가깝게 위치되었을 때, 대역의 중앙에서 재구성된 신호 내의 이러한 손실 고조파 라인의 위치에 의해 도입된 주파수 내의 오류는 파라미터들이 발생되고 전송된, 개별 재구성 대역의 50%에 가깝다.
게다가, 일반적인 오디오 코어 코더들이 스펙트럼 도메인 내에서 작동하더라도, 코어 디코더는 그럼에도 불구하고 그리고 나서 필터 뱅크(1326)기능성에 의해 다시 스펙트럼 도메인으로 전환되는 시간 도메인 신호를 발생시킨다. 이는 부가적인 처리 지연들을 도입하고, 우선 스펙트럼 도메인으로부터 주파수 도메인으로의 변환 및 다시 일반적으로 상이한 주파수 도메인으로의 변환의 탠덤(tandem) 처리에 기인하는 아티팩트들을 도입할 수 있으며, 물론, 이는 또한 상당한 계산 복잡도 및 이에 의한 전력을 필요로 하며, 이는 대역폭 확장 기술이 휴대폰들, 태블릿 또는 랩톱 컴퓨터들 등과 같은 모바일 장치들에 적용될 때 특히 문제가 된다.
인코딩 또는 디코딩을 위한 장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, 하드 디스크 드라이브(HDD), DVD, 블루-레이, CD, RON, PROM, 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-전이형이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록(예를 들면, 전자적으로 또는 선택적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
6 : 스케일 인자 대역
99 : 오디오 입력 신호
100 : 시간 스펙트럼 컨버터
101 : 스펙트럼 표현
102 : 스펙트럼 분석기
103 : 제 1 스펙트럼 부분
104 : 파라미터 계산기/파라미터 코더
105 : 제 2 스펙트럼 부분
106 : 스펙트럼 도메인 오디오 코더
107 : 제 1 인코딩된 표현
108 : 비트 스트림 형성기
109 : 제 2 인코딩된 표현
100 : 시간 스펙트럼 컨버터
112 : 스펙트럼 도메인 오디오 인코더
114 : 파라미터 디코더
116 : 주파수 재생기
117 : 라인
118 : 스펙트럼-시간 컨버터
119 : 시간 표현
202 : IGF 블록
203 : 라인
208 : 결합기
220 : 분석 필터뱅크
222 : TNS 블록
226 : 스펙트럼 분석기/음조 마스크
228 : 조인트 채널 코딩
232 : 엔트로피 코더
307a, 307b : 제 2 스펙트럼 부분
400 : 스케일 인자 계산기
404 : 양자화기 프로세서
410, 418, 422 : 제로 블록
412 : 가중 블록
420 : 양자화기 블록
424 : 스펙트럼 분석기
502 : 윈도우어
504 : 트렌지언트 검출기
506 : 블록 변환기
510 : 프레임 빌더/조정기 블록
522 : 주파수 타일 발생기
223 : 스펙트럼 성분
523 : 원시 제 2 부분
524 : 프레임 빌더
526 : 조정기
528 : 이득 인자 계산기
527 : 이득 인자
390 : 재구성 주파수
523 : 원시 제 2 부분
304, 305, 306, 307 : 제 1 스펙트럼 부분
112 : 스펙트럼 도메인 오디오 디코더
600 : 입력 신호 입력
602 : 매퍼
604 : 잡음 필러
706 : 제어 라인
902 : 소스 타일 버퍼
904 : 대체 연산
908 : 매핑 연산
1106 : 곱셈 단계
1204 : 후-처리
1306 : 파라미터 추출기
1330 : 고주파수 재구성기
1302 : 저역 통과 필터
1304 : 고역 통과 필터
1306 : 파라미터 추출기/코더
1308 : 비트 스트림 멀티플렉서
1310 : 다운 샘플러
1312 : 코어 코더
1320 : 비트스트림 멀티플렉서
1322 : 코어 디코더
1324 : 파라미터 디코더
1325 : 업샘플러
1326 : 필터뱅크
1330 : 고주파수 재구성기

Claims (15)

  1. 입력 신호(600)로부터 향상된 신호를 발생시키기 위한 장치로서,
    상기 향상된 신호는 향상 스펙트럼 영역에 대한 스펙트럼 값들을 가지고, 상기 향상 스펙트럼 영역에 대한 스펙트럼 값들은 상기 입력 신호(600) 내에 포함되지 않고,
    상기 장치는,
    상기 입력 신호의 소스 스펙트럼 영역을 상기 향상 스펙트럼 영역 내의 표적 영역에 매핑하기 위한 매퍼(602); 및
    상기 입력 신호의 상기 소스 스펙트럼 영역 내의 잡음-충전 영역(302)에 대한 제 1 잡음 값들을 발생시키고 상기 표적 영역 내의 잡음 영역에 대해 상기 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키도록, 혹은 상기 표적 영역 내의 잡음 영역에 대해 상기 소스 스펙트럼 영역 내의 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키도록 구성된 잡음 필러(604)로서, 상기 소스 스펙트럼 영역 내의 상기 제 1 잡음 값들은 잡음 충전 연산에서 기인하지 않는, 상기 잡음 필러(604)를 포함하고,
    상기 잡음 필러(604)는 상기 소스 스펙트럼 영역 내의 스펙트럼 위치들에 대한 엔트리들만을 갖거나, 상기 소스 스펙트럼 영역 및 표적 영역 내의 스펙트럼 위치들에 대한 엔트리들을 갖는 식별 벡터(706)를 사용하여 잡음 위치들을 식별하도록 구성되고,
    상기 잡음 필러(604)는 상기 식별 벡터(706)에 의해 지시된 잡음 값들에 대한 에너지 정보를 계산하도록 구성되고,
    상기 잡음 필러(604)는 상기 표적 영역에 대해 의도된 랜덤 값들에 대한 에너지 정보를 계산하도록 구성되고,
    상기 잡음 필러는 상기 식별 벡터(706)에 의해 지시된 잡음 값들에 대한 에너지 정보를 사용하고 상기 표적 영역에 대해 의도된 랜덤 값들에 대한 에너지 정보를 사용하여 상기 표적 영역에 대해 의도된 랜덤 값들을 스케일링하기 위한 이득 인자를 계산하도록 구성되고,
    상기 잡음 필러는 상기 표적 영역에 대해 의도된 상기 랜덤 값들에 상기 이득 인자를 적용하도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  2. 제1항에 있어서,
    상기 입력 신호는 상기 입력 신호의 상기 소스 스펙트럼 영역에 대한 잡음-충전 파라미터들을 포함하는 인코딩된 입력 신호이고,
    상기 잡음 필러는 상기 잡음-충전 파라미터들을 사용하여 상기 제 1 잡음 값들을 발생시키도록 그리고 상기 제 1 잡음 값들에 대한 에너지 정보를 사용하여 상기 제 2 잡음 값들을 발생시키도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  3. 제1항에 있어서,
    상기 잡음 필러(604)는 상기 매퍼(602)의 연산 뒤에 상기 제 2 잡음 값을 발생시키도록, 또는 상기 매퍼(602)의 연산 뒤에 상기 제 1 및 상기 제 2 잡음 값들을 발생시키도록(604) 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  4. 제1항에 있어서,
    상기 매퍼(602)는 상기 소스 스펙트럼 영역을 상기 표적 영역에 매핑하도록 구성되고,
    상기 잡음 필러(604)는 상기 입력 신호에서 송신된 잡음-충전 및 잡음-충전 파라미터들을 사용하여 상기 제 1 잡음 값들을 부가 정보로서 발생시킴으로써 스펙트럼 영역들 내의 잡음-충전을 수행하고, 상기 제 1 잡음 값들에 대한 에너지 정보를 사용하여 상기 제 2 잡음 값들을 발생시키기 위해 상기 표적 영역 내의 잡음-충전을 수행하도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  5. 제1항에 있어서,
    부가 정보로서 상기 입력 신호 내에 포함된 스펙트럼 엔벨로프 정보를 사용하여 상기 향상 스펙트럼 영역 내의 상기 제 2 잡음 값들을 조정하기 위한(1202) 엔벨로프 조정기를 더 포함하는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  6. 제1항에 있어서,
    상기 잡음 필러(604)는 잡음-충전을 위한 스펙트럼 위치들을 식별하기 위해 상기 입력 신호의 부가 정보만을 사용하도록 구성되거나,
    상기 잡음 필러(604)는 잡음-충전을 위한 스펙트럼 위치들을 식별하기 위해 상기 잡음-충전 영역 내의 스펙트럼 값들로 또는 스펙트럼 값들 없이 상기 입력 신호의 시간 또는 스펙트럼 특성을 분석하도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  7. 제1항에 있어서,
    상기 매퍼(602)는 상기 표적 영역을 발생시키도록 갭 충전 연산을 수행하도록 구성되고,
    상기 장치는,
    제 1 스펙트럼 부분들의 제 1 세트의 제 1 디코딩된 표현을 발생시키기 위한 스펙트럼 도메인 오디오 디코더(112)로서, 상기 제 1 디코딩된 표현은 제 1 스펙트럼 해상도를 갖는, 상기 스펙트럼 도메인 오디오 디코더(112);
    상기 제 1 스펙트럼 해상도보다 낮은 제 2 스펙트럼 해상도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 제 2 디코딩된 표현을 발생시키기 위한 파라미터 디코더(114);
    제 1 스펙트럼 부분 및 제 2 스펙트럼 부분들의 제 2 세트의 제 2 스펙트럼 부분에 대한 스펙트럼 엔벨로프 정보를 사용하여 상기 제 1 스펙트럼 해상도를 갖는 재구성된 제 2 스펙트럼 부분을 재생하기 위한 주파수 재생기(116); 및
    상기 재구성된 제 2 스펙트럼 부분 내의 상기 제 1 디코딩된 표현을 시간 표현으로 전환하기 위한 스펙트럼 시간 컨버터(118)를 포함하고,
    상기 매퍼(602) 및 상기 잡음 필러(604)는 적어도 부분적으로 상기 주파수 재생기(116) 내에 포함되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  8. 제7항에 있어서,
    상기 스펙트럼 도메인 오디오 디코더는 스펙트럼 값들의 디코딩된 프레임들의 시퀀스를 출력하도록 구성되고, 상기 디코딩된 프레임은 상기 제 1 디코딩된 표현이며, 상기 디코딩된 프레임은 상기 스펙트럼 부분들의 제 1 세트에 대한 스펙트럼 값들 및 상기 제 2 스펙트럼 부분들의 제 2 세트에 대한 제로 표시들을 포함하며,
    상기 장치는 상기 제 1 스펙트럼 부분들의 제 1 세트 및 상기 제 2 스펙트럼 부분들의 제 2 세트에 대한 스펙트럼 값들을 포함하는 재구성된 스펙트럼 프레임을 획득하기 위해 재구성 대역 내의 상기 제 2 스펙트럼 부분들의 제 2 세트에 대해 상기 주파수 재생기에 의해 발생되는 스펙트럼 값들 및 상기 제 1 스펙트럼 부분들의 제 1 세트의 스펙트럼 값들을 결합하기 위한 결합기(208)를 더 포함하며,
    상기 스펙트럼 시간 컨버터(118)는 상기 재구성된 스펙트럼 프레임을 상기 시간 표현으로 전환하도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  9. 제1항에 있어서,
    각각의 표적 주파수 범위에 대한, 소스 스펙트럼 영역 식별을 더 포함하며,
    상기 매퍼(602)는 상기 소스 스펙트럼 영역 식별을 사용하여 상기 소스 스펙트럼 영역을 선택하고 상기 선택된 소스 스펙트럼 영역을 상기 표적 영역에 매핑하도록 구성되는, 입력 신호로부터 향상된 신호를 발생시키기 위한 장치.
  10. 입력 신호(600)로부터 향상된 신호를 발생시키는 방법으로서,
    상기 향상된 신호는 향상 스펙트럼 영역에 대한 스펙트럼 값들을 가지고, 상기 향상 스펙트럼 영역에 대한 스펙트럼 값들은 상기 입력 신호(600) 내에 포함되지 않고,
    상기 방법은,
    상기 입력 신호의 소스 스펙트럼 영역을 상기 향상 스펙트럼 영역 내의 표적 영역에 매핑하는 단계(602); 및
    상기 입력 신호의 상기 소스 스펙트럼 영역 내의 잡음-충전 영역(302)에 대한 제 1 잡음 값들을 발생시키고, 상기 표적 영역 내의 잡음 영역에 대해 상기 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키는, 혹은 상기 표적 영역 내의 잡음 영역에 대해 상기 소스 스펙트럼 영역 내의 상기 제 1 잡음 값들과 역상관되는 제 2 잡음 값들을 발생시키는 단계(604)로서, 상기 소스 스펙트럼 영역 내의 상기 제 1 잡음 값들은 잡음 충전 연산에서 기인하지 않는, 상기 발생시키는 단계(604)를 포함하며,
    상기 발생시키는 단계(604)는,
    상기 소스 스펙트럼 영역 내의 스펙트럼 위치들에 대한 엔트리들만을 갖거나, 상기 소스 스펙트럼 영역 및 상기 표적 영역 내의 스펙트럼 위치들에 대한 엔트리들을 갖는 식별 벡터(706)를 사용하여 잡음 위치들을 식별하는 단계,
    상기 식별 벡터(706)에 의해 지시된 잡음 값들에 대한 에너지 정보를 계산하는 단계,
    상기 표적 영역에 대해 의도된 랜덤 값들에 대한 에너지 정보를 계산하는 단계,
    상기 식별 벡터(706)에 의해 지시된 잡음 값들에 대한 에너지 정보를 사용하고 상기 표적 영역에 대해 의도된 랜덤 값들에 대한 에너지 정보를 사용하여 표적 영역에 대해 의도된 랜덤 값들을 스케일링하기 위한 이득 인자를 계산하는 단계, 및
    상기 표적 영역에 대해 의도된 랜덤 값에 상기 이득 인자를 적용하는 단계를 포함하는, 입력 신호로부터 향상된 신호를 발생시키는 방법.
  11. 오디오 신호를 처리하기 위한 시스템으로서,
    인코딩된 신호를 발생시키기 위한 인코더; 및,
    제1항 내지 제9항 중 어느 한 항에 따라 향상된 신호를 발생시키기 위한 장치를 포함하고,
    상기 인코딩된 신호는 상기 향상된 신호를 발생시키기 위한 장치 내로 입력 신호(600)를 발생시키기 위한 처리(700)의 대상이 되는, 오디오 신호를 처리하기 위한 시스템.
  12. 오디오 신호를 처리하기 위한 방법으로서,
    상기 오디오 신호로부터 인코딩된 신호를 발생시키는 단계; 및,
    제10항에 따라 향상된 신호를 발생시키는 방법을 포함하고,
    상기 인코딩된 신호는 상기 향상된 신호를 발생시키는 방법으로 입력 신호(600)를 발생시키기 위한 미리 정의된 처리(700)의 대상이 되는, 오디오 신호를 처리하기 위한 방법.
  13. 컴퓨터 상에서 구동할 때, 제10항 또는 제12항의 방법을 수행하기 위한 컴퓨터 프로그램을 저장한 저장 매체.
  14. 삭제
  15. 삭제
KR1020177004851A 2014-07-28 2015-07-24 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법 KR101958360B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178777.0 2014-07-28
EP14178777.0A EP2980792A1 (en) 2014-07-28 2014-07-28 Apparatus and method for generating an enhanced signal using independent noise-filling
PCT/EP2015/067062 WO2016016146A1 (en) 2014-07-28 2015-07-24 Apparatus and method for generating an enhanced signal using independent noise-filling

Publications (2)

Publication Number Publication Date
KR20170063534A KR20170063534A (ko) 2017-06-08
KR101958360B1 true KR101958360B1 (ko) 2019-03-15

Family

ID=51224865

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020177002410A KR101958359B1 (ko) 2014-07-28 2015-07-24 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법
KR1020177004851A KR101958360B1 (ko) 2014-07-28 2015-07-24 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020177002410A KR101958359B1 (ko) 2014-07-28 2015-07-24 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법

Country Status (18)

Country Link
US (7) US10354663B2 (ko)
EP (4) EP2980792A1 (ko)
JP (6) JP6457625B2 (ko)
KR (2) KR101958359B1 (ko)
CN (4) CN113160838B (ko)
AR (2) AR101345A1 (ko)
AU (2) AU2015295549B2 (ko)
BR (2) BR112017000852B1 (ko)
CA (2) CA2947804C (ko)
ES (2) ES2718728T3 (ko)
MX (2) MX365086B (ko)
PL (2) PL3175449T3 (ko)
PT (2) PT3186807T (ko)
RU (2) RU2667376C2 (ko)
SG (2) SG11201700689VA (ko)
TR (2) TR201904282T4 (ko)
TW (2) TWI575511B (ko)
WO (2) WO2016016146A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
US10541772B2 (en) * 2017-04-28 2020-01-21 Qualcomm Incorporated Techniques for transmission of discovery reference signals in new radio shared spectrum
CN108871385B (zh) * 2017-05-12 2021-09-07 西门子公司 编码器、电机、编码器数据处理方法及存储介质
TWI809289B (zh) 2018-01-26 2023-07-21 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
TWI715139B (zh) * 2019-08-06 2021-01-01 原相科技股份有限公司 聲音播放裝置及其透過遮噪音訊遮蓋干擾音之方法
CN110610717B (zh) * 2019-08-30 2021-10-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂频谱环境混合信号的分离方法
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN111986659A (zh) * 2020-07-16 2020-11-24 百度在线网络技术(北京)有限公司 建立音频生成模型的方法以及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002623A2 (ko) 2011-06-30 2013-01-03 삼성전자 주식회사 대역폭 확장신호 생성장치 및 방법

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6931370B1 (en) 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
CN1193342C (zh) 2000-09-08 2005-03-16 皇家菲利浦电子有限公司 具有替换命令的语音识别方法
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
JP4227772B2 (ja) 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
CA2603246C (en) 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
BRPI0815972B1 (pt) * 2007-08-27 2020-02-04 Ericsson Telefon Ab L M método para recuperação de espectro em decodificação espectral de um sinal de áudio, método para uso em codificação espectral de um sinal de áudio, decodificador, e, codificador
DK2186089T3 (en) * 2007-08-27 2019-01-07 Ericsson Telefon Ab L M Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
MX2010002629A (es) * 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
CN101572088A (zh) * 2008-04-30 2009-11-04 北京工业大学 立体声编解码方法、编解码器及编解码***
CN101572092B (zh) * 2008-04-30 2012-11-21 华为技术有限公司 编解码端的固定码本激励的搜索方法及装置
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
AU2009267525B2 (en) * 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
ES2642906T3 (es) * 2008-07-11 2017-11-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
RU2621965C2 (ru) * 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
BR122019023704B1 (pt) * 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
PL3751570T3 (pl) * 2009-01-28 2022-03-07 Dolby International Ab Ulepszona transpozycja harmonicznych
KR101320963B1 (ko) * 2009-03-31 2013-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和***
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、***及噪声水平估计方法
CN102136271B (zh) * 2011-02-09 2012-07-04 华为技术有限公司 舒适噪声生成器、方法及回声抵消装置
CN103620672B (zh) * 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
EP3319087B1 (en) * 2011-03-10 2019-08-21 Telefonaktiebolaget LM Ericsson (publ) Filling of non-coded sub-vectors in transform coded audio signals
KR101520212B1 (ko) * 2011-04-15 2015-05-13 텔레폰악티에볼라겟엘엠에릭슨(펍) 낮은 정확성으로 재구성된 신호 영역의 감쇠를 위한 방법 및 디코더
RU2648595C2 (ru) * 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
US9078653B2 (en) * 2012-03-26 2015-07-14 Ethicon Endo-Surgery, Inc. Surgical stapling device with lockout system for preventing actuation in the absence of an installed staple cartridge
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
WO2014081736A2 (en) 2012-11-20 2014-05-30 Dts, Inc. Reconstruction of a high frequency range in low-bitrate audio coding using predictive pattern analysis
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和***
US8768005B1 (en) * 2013-12-05 2014-07-01 The Telos Alliance Extracting a watermark signal from an output signal of a watermarking encoder
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002623A2 (ko) 2011-06-30 2013-01-03 삼성전자 주식회사 대역폭 확장신호 생성장치 및 방법
US20140188464A1 (en) * 2011-06-30 2014-07-03 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal

Also Published As

Publication number Publication date
JP6943836B2 (ja) 2021-10-06
RU2667376C2 (ru) 2018-09-19
EP2980792A1 (en) 2016-02-03
MX2017001231A (es) 2017-07-07
JP7354193B2 (ja) 2023-10-02
TR201816634T4 (tr) 2018-11-21
US20170069332A1 (en) 2017-03-09
SG11201700631UA (en) 2017-02-27
CN106537499B (zh) 2020-02-21
JP6992024B2 (ja) 2022-01-13
MX365086B (es) 2019-05-22
JP2022046504A (ja) 2022-03-23
JP2017526957A (ja) 2017-09-14
MX363352B (es) 2019-03-20
PT3186807T (pt) 2019-04-02
EP3175449A1 (en) 2017-06-07
RU2665913C2 (ru) 2018-09-04
US11264042B2 (en) 2022-03-01
AU2015295549B2 (en) 2018-11-01
EP3186807B1 (en) 2019-01-02
KR20170063534A (ko) 2017-06-08
US20220148606A1 (en) 2022-05-12
CN106537499A (zh) 2017-03-22
WO2016016144A1 (en) 2016-02-04
RU2017105507A3 (ko) 2018-08-28
US20190295561A1 (en) 2019-09-26
EP3471094A1 (en) 2019-04-17
TWI575511B (zh) 2017-03-21
AU2015295547B2 (en) 2018-07-19
US10529348B2 (en) 2020-01-07
PL3186807T3 (pl) 2019-06-28
ES2718728T3 (es) 2019-07-04
JP2019194704A (ja) 2019-11-07
US20210065726A1 (en) 2021-03-04
MX2017001236A (es) 2017-07-07
US11705145B2 (en) 2023-07-18
TW201618083A (zh) 2016-05-16
BR112017000852B1 (pt) 2022-11-22
CA2947804C (en) 2019-07-02
PL3175449T3 (pl) 2019-01-31
ES2693051T3 (es) 2018-12-07
US11908484B2 (en) 2024-02-20
BR112017001586A2 (pt) 2018-01-30
US10354663B2 (en) 2019-07-16
AR101346A1 (es) 2016-12-14
JP6457625B2 (ja) 2019-01-23
TW201608561A (zh) 2016-03-01
JP2019074755A (ja) 2019-05-16
US20200090668A1 (en) 2020-03-19
AU2015295547A1 (en) 2017-01-12
CA2956024C (en) 2019-05-07
US20170133024A1 (en) 2017-05-11
CN113160838A (zh) 2021-07-23
US20230386487A1 (en) 2023-11-30
US10885924B2 (en) 2021-01-05
AR101345A1 (es) 2016-12-14
JP6535730B2 (ja) 2019-06-26
BR112017001586B1 (pt) 2022-11-22
JP7391930B2 (ja) 2023-12-05
CN113160838B (zh) 2024-05-10
CN106796798B (zh) 2021-03-05
TWI575515B (zh) 2017-03-21
AU2015295549A1 (en) 2017-03-16
EP3186807A1 (en) 2017-07-05
CA2956024A1 (en) 2016-02-04
JP2017526004A (ja) 2017-09-07
CN106796798A (zh) 2017-05-31
BR112017000852A2 (pt) 2017-12-05
KR20170024048A (ko) 2017-03-06
PT3175449T (pt) 2018-11-23
TR201904282T4 (tr) 2019-05-21
EP3175449B1 (en) 2018-08-15
RU2016146738A3 (ko) 2018-08-28
WO2016016146A1 (en) 2016-02-04
CN111261176A (zh) 2020-06-09
CA2947804A1 (en) 2016-02-04
JP2022003397A (ja) 2022-01-11
KR101958359B1 (ko) 2019-03-15
SG11201700689VA (en) 2017-02-27
RU2016146738A (ru) 2018-08-28
RU2017105507A (ru) 2018-08-28
CN111261176B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US11908484B2 (en) Apparatus and method for generating an enhanced signal using independent noise-filling at random values and scaling thereupon

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right