KR100524065B1 - 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 - Google Patents

시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 Download PDF

Info

Publication number
KR100524065B1
KR100524065B1 KR10-2002-0082380A KR20020082380A KR100524065B1 KR 100524065 B1 KR100524065 B1 KR 100524065B1 KR 20020082380 A KR20020082380 A KR 20020082380A KR 100524065 B1 KR100524065 B1 KR 100524065B1
Authority
KR
South Korea
Prior art keywords
block
nearest
information
time
frequency band
Prior art date
Application number
KR10-2002-0082380A
Other languages
English (en)
Other versions
KR20040055916A (ko
Inventor
마쓰마누
장기석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2002-0082380A priority Critical patent/KR100524065B1/ko
Priority to US10/716,873 priority patent/US20040176961A1/en
Priority to EP03257940A priority patent/EP1441330B1/en
Priority to DE60303346T priority patent/DE60303346T2/de
Priority to AT03257940T priority patent/ATE316679T1/de
Priority to JP2003425850A priority patent/JP3824607B2/ja
Priority to CNB2003101237162A priority patent/CN1249669C/zh
Publication of KR20040055916A publication Critical patent/KR20040055916A/ko
Application granted granted Critical
Publication of KR100524065B1 publication Critical patent/KR100524065B1/ko

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 개선된 디지털 오디오 부호화 방법에 관한 것으로서, 본 발명에 따른 디지털 오디오 부호화 방법은 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 단계과, 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하고, 상기 탐색된 최근접 블록에 대한 정보를 생성하는 단계와, 상기 생성된 최근접 블록에 대한 정보를 포함하는 비트 스트림을 생성하는 단계를 포함한다.

Description

시간-주파수 상관성을 이용한 개선된 오디오 부호화 및/또는 복호화 방법과 그 장치 {Advanced method for encoding and/or decoding digital audio using time-frequency correlation and apparatus thereof}
본 발명은 디지털 오디오 부호화 및 복호화 방법과 그 장치에 관한 것으로서, 특히 오디오 신호의 시간-주파수 상관성을 이용하여 기존의 부호화 및 복호화 장치를 개선하기 위한 오디오 부호화 및 복호화 방법과 그 장치에 관한 것이다.
오디오 부호화 및 복호화기, 즉 오디오 코덱은 보다 작은 디스크 저장 공간을 사용하고, 보다 낮은 비트-레이트로 음악 파일을 인터넷을 통해 전송할 수 있도록 하기 때문에, 현재 많이 사용되고 있다. 오디오 코덱들 중, MP 3는 인터넷을 통해 음악을 공유하고, 휴대용 오디오 장치에 사용되는 표준 코덱이 되었다. 인터넷 상에서 구할 수 있는 Mp 3 음악과 Mp 3 음악을 공유하는 사용자들의 수는 기하 급수적으로 증가하고 있다.
최근, 낮은 비트 레이트에서도 원 오디오와 구별할 수 없을 정도의 오디오 압축이 가능한 오디오 코덱을 구현하기 위해, 오디오 코딩 분야에서의 연구가 활발히 진행되고 있다. 이러한 오디오 코덱에는 MPEG(motion picture experts group)-1 레이어 3, MPEG-2 AAC(advanced audio coding), MPEG 4, WMA(windows media audio) 등이 있다.
도 1은 일반적인 MPEG 오디오 부호화기를 도시하는 도면이다. 여기에서는, MPEG 오디오 부호화기 중 MPEG-1 레이어 3, 즉 MP 3 오디오 부호화기를 예를 들어 설명한다.
MP 3 오디오 부호화기는 필터 뱅크(filter bank)(110), 고속 푸리에 변환부(fast fourier transform: FFT)(120), 심리 음향 부호화부(psychoacoustic model unit)(130), 변형 이산 여현 변환부(modified discrete cosine transform: MDCT)(140), 양자화 및 허프만 인코딩부(150)를 포함한다.
필터 뱅크(110)는 오디오 신호의 통계적인 중복성을 제거하기 위해 입력된 시간 영역의 오디오 신호를 32개의 주파수 영역의 서브 밴드로 세분한다.
FFT부(120)는 입력된 오디오 신호를 주파수 영역의 스펙트럼으로 변환하여 심리 음향 모델부(130)로 출력한다.
심리 음향 모델부(130)는 인간의 청각 특성에 의한 지각적인 중복성을 제거하기 위해, FFT부(120)에서 출력된 주파수 스펙트럼을 이용하여, 각각의 서브 밴드에 대한 귀에 들리지 않는 잡음 레벨인 마스킹 임계값 (masking threshold), 즉 신호 대 마스크율 (signal to mask ratio: SMR)을 결정한다. 심리 음향 모델부(130)에서 결정된 SMR 값은 양자화 및 허프만 부호화부(150)로 입력된다.
또한, 심리 음향 모델부(130)는 지각 에너지(perceptual energy)를 계산하여 윈도우 스위칭 여부를 결정하여, 윈도우 스위칭 정보를 MDCT부(140)로 출력한다.
MDCT부(140)는 주파수 분해능(frequency resolution)을 증가시키기 위해, 심리 음향 모델부(130)로부터 입력된 윈도우 스위칭 정보를 이용하여 필터 뱅크(110)에서 분할된 서브 밴드를 보다 세밀한 주파수 대역으로 분할한다.
양자화 및 허프만 부호화부(150)에서는 심리 음향 모델부(140)에서 입력된 SMR 값에 기초하여, MDCT부(120)로부터 입력된 MDCT가 수행된 주파수 영역의 데이터에 대해, 지각적 중복성을 제거하기 위한 비트 할당과 오디오 부호화를 위한 양자화 과정을 수행한다.
도 1에 도시된 심리 음향 모델을 사용한 오디오 부호화 방법은 미국 특허 제6,092,041호에 개시되어 있다. 도 1에 도시된 Mp 3와 같은 오디오 코덱 들은 낮은 비트 레이트에서 부호화 및 복호화가 이루어지기 때문에, 출력 오디오 음질이 낮다는 문제점 있었다.
본 발명은 상기와 같은 종래 오디오 부호화 장치의 성능을 개선하여, 보다 낮은 비트 레이트에서도 보다 향상된 음질을 제공하는 오디오 부호화 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은 또한 종래 오디오 복호화기의 성능을 개선하여, 보다 낮은 비트 레이트에서도 보다 향상된 음질을 제공하는 오디오 복호화 방법 및 장치를 제공하는 것을 목적으로 한다.
상기 목적은 본 발명에 따른 디지털 오디오 부호화 방법에 있어서, 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 단계와, 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하고, 상기 탐색된 최근접 블록에 대한 정보를 생성하는 단계와, 상기 생성된 최근접 블록에 대한 정보를 포함하는 비트 스트림을 생성하는 단계를 포함하는 부호화 방법에 의해 달성된다.
또한, 상기 목적은 본 발명에 따른 디지털 오디오 부호화 방법에 있어서, 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 단계와, 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하는 단계와, 상기 탐색된 최근접 블록에 기초하여, 현재 부호화하는 블록이 중복 블록인지 여부를 판단하는 단계와, 상기 판단된 결과에 기초하여, 출력 비트 스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 디지털 오디오 부호화 방법에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 디지털 오디오 부호화 장치에 있어서, 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와, 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하고, 상기 탐색된 최근접 블록에 대한 정보를 생성하는 최근접 블록 탐색 및 최근접 블록 정보 생성부와, 상기 생성된 최근접 블록에 대한 정보를 포함하는 비트 스트림을 생성하는 비트 스트림 팩킹부를 포함하는 것을 특징으로 하는 디지털 오디오 부호화 장치에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 디지털 오디오 부호화 장치에 있어서, 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와, 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하는 최근접 블록 탐색부와, 상기 탐색된 최근접 블록에 기초하여, 현재 부호화하는 블록이 중복 블록인지 여부를 결정하는 중복 블록 결정부와, 상기 중복 블록 결정부에서 결정된 결과에 기초하여, 출력 비트 스트림을 생성하는 비트스트림 생성부를 포함하는 것을 특징으로 하는 부호화 장치에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 소정 영역의 오디오 신호에 대한 부가 정보를 포함하는 오디오 신호의 복호화 방법에 있어서, 입력 오디오 비트스트림으로부터 소정 영역에 속하지 않는 블록을 복호화하는 단계와, 상기 복호화된 블록 데이터에 기초하여 소정 영역에 대응하는 시간-주파수 대역 테이블을 생성하는 단계와, 상기 생성된 시간-주파수 대역 테이블을 사용하여, 상기 소정 영역의 오디오 신호에 대한 부가 정보에 기초하여, 소정 영역에 속하는 현재 블록을 재구성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 디지털 오디오 복호화 방법에 있어서, 입력 오디오 비트스트림으로부터 최근접 블록 정보를 추출하는 단계와, 상기 입력 오디오 비트스트림에 기초하여 시간-주파수 대역 테이블을 생성하는 단계와, 상기 추출된 최근접 블록 정보에 기초하여, 현재 복호화하는 블록이 중복 블록인지 여부를 판단하는 단계와, 상기 현재 복호화하는 블록이 중복 블록인 경우, 상기 생성된 시간-주파수 대역 테이블을 사용하여 상기 추출된 최근접 블록 정보에 기초하여 중복 블록을 재구성하는 단계를 포함하는 것을 특징으로 하는 디지털 오디오 복호화 방법에 의해서도 달성된다.
또한, 상기 목적은 상기 재구성된 중복 블록을 사용하여 입력된 오디오 비트 스트림에 대응하는 전체 스펙트럼을 재구성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 소정 영역의 오디오 신호에 대한 부가 정보를 포함하는 오디오 신호의 복호화 장치에 있어서, 입력 오디오 비트스트림으로부터 소정 영역에 속하지 않는 블록을 복호화하는 복호화부와, 상기 복호화된 블록 데이터에 기초하여 소정 영역에 대응하는 시간-주파수 대역 테이블을 생성하고, 상기 생성된 시간-주파수 대역 테이블을 사용하여, 상기 소정 영역의 오디오 신호에 대한 부가 정보에 기초하여, 소정 영역에 속하는 현재 블록을 재구성하는 후처리부를 포함하는 것을 특징으로 하는 복호화 장치에 의해서도 달성된다.
또한, 상기 목적은 본 발명에 따른 디지털 오디오 복호화 장치에 있어서, 입력 오디오 비트스트림으로부터 최근접 블록 정보를 추출하는 최근접 블록 정보 추출부와, 상기 입력 오디오 비트스트림에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와, 상기 추출된 최근접 블록 정보에 기초하여, 현재 복호화하는 블록이 중복 블록인지 여부를 판단하여, 상기 현재 복호화하는 블록이 중복 블록인 경우, 상기 생성된 시간-주파수 대역 테이블을 사용하여 상기 추출된 최근접 블록 정보에 기초하여 중복 블록을 재구성하는 중복 블록 재구성부를 포함하는 것을 특징으로 하는 디지털 오디오 복호화 장치에 의해서도 달성된다.
이하에서는, 스펙트럼 계수의 시간적 상관성을 이용한 부호화 방식을 설명한다.
음성 코덱 및 비디오 코덱들은 데이터를 압축하기 위해 신호 샘플들 간의 시간적 상관성(time correlation)을 이용한다. 음성 코덱은 선형 예측 계수(linear prediction coefficient: LPC) 기법을 이용하여 압축을 수행한다. 한편, 비디오 코덱은 움직임 측정을 이용하여 시간적 상관 관계를 이용한다.
오디오 코덱에서 시간적 상관 관계를 이용하여 데이터를 압축하는 것은 일반적으로 적합하지 않다. 이는, 오디오 신호는 속성상 동적이기 때문에, 시간 상관도가 작기 때문이다. 하지만, 주파수 변환 영역에서는, 각 서브-밴드의 데이터는 본질적으로 시간 영역에 비해 정적이다. 따라서, 프레임 간의 상관성을 이용한 선형 예측(linear prediction) 기법은 주파수 변환 영역에서 사용된다.
예를 들어, MPEG 2 AAC는 보다 나은 압축율을 얻기 위해 개개의 변환 계수들에 대해 선형 예측 방식을 수행한다. 또한, MPEG 4 AAC는 장주기성(long term periodicity)를 제거하기 위해 음성 코덱의 선형 예측 방식과 유사한 장주기 예측기(long term predictor)를 사용한다.
이하에서는, 도 2를 참조하여 스펙트럼 계수의 유사성을 이용한 스펙트럼 대역 복제 방식을 설명한다.
스펙트럼 대역 복제(spectrum band replication: SBR) 방식은 주어진 비트 레이트에서 오디오 대역을 증가시키거나 또는 주어진 음질 레벨(quality level)에서 부호화 효율을 개선시킴으로써 낮은 비트 레이트의 오디오 및 음성 코덱의 성능을 개선하기 위한 것이다.
도 2에 도시된 SBR 방식은 인코더에서는 주파수 스펙트럼의 고주파 부분에 대해서는 부호화를 수행하지 않고 저주파 부분에 대해서만 부호화를 수행하여 전송한 후, 전송되지 않은 고주파수 부분에 대해서는 복호화시 저주파 부분의 스펙트럼에 기초하여 재구성한다.
예를 들어, SBR 방식이 채용된 Mp 3 프로 부호화기는 음악 신호를 종래의 방식으로 8 kHz 까지만 부호화한다. 8kHz 까지 부호화된 Mp 3 파일은 종래의 Mp 3 디코더에 의해 복호화될 수 있다. 따라서, SBR 방식은 종래의 Mp 3와 호환성을 유지한다. SBR 방식은 부호화되지 않은 고주파 부분, 즉 8kHz에서 16 kHz 부분을 재구성하기 위해, 스펙트럼의 하모닉 구조(harmonic structure)를 이용하여 8 kHz까지 복호화된 신호를 사용한다.
SBR 방식을 사용하는 경우, 종래의 지각 부호화 방식의 코덱이 저 비트 레이트에서 제공하던 제한된 오디오 대역폭을 증가시켜, 아날로그 FM 오디오 대역폭 (15 kHz) 정도 또는 그 이상의 대역폭을 제공하는 것이 가능하다. 또한, SBR 방식은 협대역 음성 코덱(narrow-band speech codec)의 성능을 향상시켜, 예를 들어 다중 언어 방송(multilingual broadcasting)에 사용되는 12kHz 오디오 대역폭을 갖는 음성 전용 채널을 제공하는 것이 가능하다.
SBR 방식은 디코딩 처리를 가이드 하기 위한 인코더 부가 정보가 인코더에서 일부 처리가 수행되기는 하지만 대부분은 디코더 단에서 수행된다.
기술적인 관점에서 볼 때, SBR 방식은 오디오 압축 알고리즘에서 고주파 신호를 매우 효율적으로 부호화하기 위한 방법이다. SBR 방식이 적용된 부호화 장치는 스펙트럼의 저주파 부분만을 전송한다. 생략된 고주파수 부분은 SBR 디코더에서의 복호화 과정에서 생성된다. 고주파수 부분을 전송하는 대신, SBR 방식에 따른 디코더에서는 인코더에서 전송된 저주파수 부분의 스펙트럼을 분석하여 고주파수 부분을 재구성한다.
이때, 고주파수 부분의 정확한 재구성을 보장하기 위해, 일부 부가적인 정보(guidance information)가 낮은 데이터 레이트로 부호화된 비트-스트림으로 전송된다. 결과적으로, SBR 방식은 매우 낮은 데이터 레이트에서 전역 오디오 부호화가 수행될 수 있도록 함과 동시에, 기존의 Mp 3 인코더와 비교해서 현저히 증가된 압축 효율을 제공한다.
이와 같이, LPC 알고리즘은 시간적 상관성을 이용하고, SBR 알고리즘은 신호의 주파수 상관성을 이용하고 있다.
본 발명에 따른 알고리즘은 오디오 신호의 시간 및 주파수 의존성을 동시에 이용하고 있다. 이하에서는, 도 3 내지 도 11을 참조하여 본 발명에 따른 실시예들을 설명한다.
도 3은 본 발명의 일 실시예를 도시하는 도면이다.
이하에서는 도 3 및 도 4를 참조하여 본 발명의 일 실시예에 따른 오디오 부호화 방식을 설명한다.
본 발명에 따른 부호화 장치는 부호화부(310), 시간-프레임 대역 복제부(320), 및 비트스트림 팩킹부(330)를 포함한다.
부호화부(310)는 기존의 오디오 인코더, 즉 도 1에 도시된 오디오 인코더와 유사한 기능을 수행한다. 따라서, 설명의 간단을 위해 부호화부(310)의 구체적인 기능부에 대한 상세한 설명은 생략한다. 본 실시예에서는 도 1에 도시된 오디오 인코더를 사용하였지만, 선택적으로 다른 오디오 인코더를 사용하는 것도 가능하다.
시간-프레임 대역 복제부(time frame band replication unit: TFBR unit)(320)는 시간-주파수 테이블 생성부(322) 및 최근접 블록 탐색부(nearest neighbor block searching unit)(324)를 포함한다.
시간-주파수 대역 테이블 생성부(322)에서는 부호화부(310)에서 MDCT 변환된 데이터를 각각의 프레임 별로 N 개의 주파수 블록들로 분할하여 도 4에 도시된 시간-주파수 인덱스 조합, 즉 시간-주파수(time-frequency: TF) 대역 테이블을 생성한다.
본 실시예에서는 시간-주파수 변환 방식으로서 MDCT 변환 방식을 사용하였지만, 선택적으로 다른 방식의 시간-주파수 변환 방식을 사용하는 것도 가능하다.
본 발명에 따른 실시예에서 부호화부(310)의 MDCT 변환부에 의해 여러 대역으로 분할된 각각의 대역은 다수의 스펙트럼 계수를 포함한다. 본 실시예에서는 균일한 폭을 가진 대역을 사용하였지만, 선택적으로 임의의 폭을 갖는 대역을 사용하는 것도 가능하다.
도 4에서 "i"는 프레임 인덱스이며, "j=0, 1, 2, . . . j-1, j, j+1, . . N"은 프레임의 주파수 블록 인덱스이다. 여기에서 "i"는 인코딩이 수행되는 현재 프레임을 의미하고, "i-1"은 이전 프레임, "i+1"은 다음 프레임을 의미한다. 또한, j는 인코딩이 수행되는 주파수 대역을 의미하고, j=0는 해당 프레임의 첫 번째 주파수 대역을 의미하며, j는 현재 인코딩하고자 하는 블록의 주파수 대역을 의미한다. 또한, j-1은 이전 주파수 대역을 의미한다.
예를 들어, 도 4의 B(i,j)는 i 번째 프레임의, j 번째 주파수 대역에 해당하는 시간-주파수 대역에 해당하는 블록을 의미하며, 각각의 블록 B(i,j)는 동일한 수의 스펙트럼 계수를 포함한다.
이하에서는, 도 4에 도시된 시간-주파수 대역 테이블을 이용한 시간 주파수 대역 복제 방식에 대해 보다 구체적으로 설명한다.
본 발명에 따른 시간-주파수 대역 복제 방식은 프레임 간의 시간적 상관성과 주파수 대역들간의 스펙트럼의 유사성을 함께 이용한다. 또한, 본 발명은 하나의 블록 B(i,j)는 이전의 블록들 중 하나와 그 값이 유사하다는 점을 이용한다. 이는 아래의 이유들에 근거한다.
1. 고주파수 부분의 스펙트럼과 저주파수 부분의 스펙트럼은 내재적 유사성(inherent similarity)을 가지며,
2. 각각의 플레임의 전체적인 스펙트럼은 다르지만, 현재 프레임의 일부분의 스펙트럼은 이전 프레임의 일부분의 스펙트럼과 유사하다는 점에 근거한다.
최근접 블록 탐색부(324)는 아래 수학식 1을 이용하여 이전 블록들 중 현재 블록과 차이가 가장 작은 블록을 탐색한다. 여기에서, 이전 블록들은 현재 플레임의 j 개의 이전 블록들 뿐만 아니라 선정된 수의 이전 프레임내의 블록들을 포함한다.
여기에서, B(m,n)은 m 번째 프레임의, n 블록을 의미한다.
여기에서, m 번째 프레임이 현재 프레임 인 경우, m = i 이고, n = 0, 1, . . j-1이 된다. 또한, m 번째 프레임이 이전 프레임 인 경우에는, m = i-1, i-2, i-M+1 이고, n = 0, 1, . . N-1 이 된다. Ck는 가중 인자(weighting factor) 집합이며, k = 0, 1, . . K-1이다.
최근접 블록 탐색 및 최근접 블록 정보 생성부(324)는 현재 부호화하는 블록 B(i,j)가 고주파수 대역에 포함되는지 여부를 판단한다. 현재 블록 B(i,j)가 고주파수 대역에 포함되는 경우, 즉 j가 소정의 주파수 jTH이상인 경우에는, m, n, k 값을 달리하면서 B(i,j)와 CkB(m,n)간의 차이값이 최소인 m, n, k를 구하고, D(i,j)가 최소인 m, n, k를 mmin, nmin, kmin으로 결정한다. 결정된 mmin 및 nmin을 현재 블록 B(i,j)와 차이가 가장 작은 블록의 인덱스라고 한다.
선택적으로, 본 실시예에서는 현재 블록 B(i,j)의 주파수 대역이 임계 주파수 jTH 이상, 즉 고 주파수 영역에 포함되는지 여부에 따라 최근접 블록 탐색 여부를 판단하였지만, 선택적으로 임의의 주파수 영역 및 시간 영역에 포함되는지 여부를 기준으로 판단하는 것도 가능하다.
상기 수학식 1에서 사용된 함수 |x,y|는 거리 함수(distance function)를 나타낸다. 본 실시예에서는, 상기 함수는 아래 수학식 2에 따른 유클리디안 거리(eucledian distance) 함수를 의미한다. 하지만, 선택적으로 가중 유클리디안 거리(weighted eucledian distance) 등을 이용한 최근접 분류(nearest neighbor classification) 방법을 사용하는 것도 가능하다.
수학식 2에서는 n 차원의 특성 공간(feature space)을 고려하였으며, 두 개의 포인트 x = (x1, x2, x3, . . . xn)과 y = (y1 , y2, y3, . . . yn) 사이의 기하학적 거리를 의미한다.
본 실시예에 따른 최근접 블록 탐색 및 최근접 블록 정보 생성부(324)는 아래 수학식 3을 이용하여 이전 프레임의 블록들과 현재 프레임의 이전 블록들 중 가장 작은 유클리디안 거리를 갖는 블록을 탐색한다. 최근접 블록 탐색부(324)에 의해 결정된 최근접 블록은 B(mmin, nmin)으로 표시한다.
수학식 1의 D(i,j)는 i, j 번째 블록과 i, j 번째 블록의 최근접 블록간의 거리, 즉 B(i,j)와 Bmin(mmin, nmin) 간의 유클리디안 거리를 의미한다.
수학식 1에 따라 구해진 D(i,j) 중 최소값을 갖는 Dmin(i,j)는 아래 수학식 3과 같다.
비트 스트림 팩킹부(330)는 해당 블록 B(i,j)에 대한 스펙트럼 정보 대신, 최근접 블록의 인덱스 정보 mmin, nmin, kmin를 포함한 비트스트림, 즉 TFBR 비트스트림을 디코더로 출력한다. 여기에서, jTH 이하의 주파수 대역에 해당하는 오디오 신호만 부호화되어 출력 비트스트림에 포함되고, jTH 이상의 주파수 대역에 해당하는 오디오 신호는 비트스트림에 포함되지 않는다.
선택적으로, 최근접 블록 탐색시 스케일 팩터를 사용하지 않은 경우에는 인덱스 정보 mmin 및 nmin 만을 포함한다.
본 실시예에서는 MPEG 비트스트림의 경우 상기 최근접 블록의 인덱스 정보는 보조데이터 1 필드(Ancillary data 1 field)에 포함된다. 하지만, 선택적으로 비트스트림 이외의 영역에 포함시켜 허용하는 것도 가능하다.
또한, 본 실시예에서의 최근접 블록 탐색 범위는 이전 블록이었지만, 선택적으로 이후 블록에 대해서도 최근접 블록을 탐색하도록 하는 것도 가능하다.
도 5는 본 발명의 일 실시예에 따른 오디오 부호화 방법을 도시하는 도면이다.
단계(510)에서는 오디오 신호를 입력받아 입력된 시간 영역의 오디오 신호에 대해 기존의 오디오 부호화 단계에서 수행되는 MDCT 변환을 수행한다.
단계(520)에서는 단계(520)에서 MDCT 변환된 데이터를 각각의 프레임 별로 N 개의 주파수 블록들로 분할하여 도 4에 도시된 시간-주파수 인덱스 조합, 즉 시간-주파수 대역 테이블을 생성한다. 본 실시예에서는 시간-주파수 대역 변환 방식으로서 MDCT 변환 방식을 사용하였지만, 선택적으로 다른 방식의 시간-주파수 변환 방식을 사용하는 것도 가능하다.
단계(530)에서는 현재 블록 B(i,j)의 주파수가 임계 주파수 jTH 이상인지 여부를 판단한다. jTH는 저주파수와 고주파수 부분을 구분하기 위한 임계 주파수 값이다. 현재 블록이 고주파수 영역에 포함되는 경우에는 단계(540)로 진행하고, 저주파수 영역에 포함되는 경우에는 단계(530)로 진행한다.
선택적으로, 본 실시예에서는 현재 블록 B(i,j)가 고 주파수 영역에 포함되는지 여부를 판단하였지만, 선택적으로 임의의 주파수 영역 및 시간 영역에 포함되는지 여부를 기준으로 판단하는 것도 가능하다.
단계(540)에서는 단계(520)에서 생성된 시간-주파수 대역 테이블에 기초하여 현재 블록의 이전 블록들에 대해 현재 블록 B(i,j)에 가장 근접한 최근접 블록B(mmin, nmin)을 탐색하고, 최근접 블록 B(mmin, nmin)에 대한 최근접 블록 정보를 생성한다. 최근접 블록 정보는 B(mmin, nmin)의 인덱스 정보 mmin, n min를 포함한다. 선택적으로, 최근접 블록 탐색시 스케일 팩터를 사용한 경우, 최근접 블록 정보는 스케일 팩터 kmin을 포함한다.
단계(550)에서는 저주파수 대역에 포함되는 현재 블록을 부호화한다.
단계(560)에서는 고주파수 대역 데이터 대신 단계(540)에서 생성된 최근접 블록 정보, 즉 최근접 블록의 인덱스 정보 mmin, nmin, kmin와 단계(550)에서 부호화된 현재 블록 데이터를 포함하는 비트스트림, 즉 TFBR 비트스트림을 생성하여 출력한다.
도 6은 본 발명의 또 다른 실시예에 따른 오디오 부호화 장치를 도시하는 도면이다.
이하에서는 도 6 및 도 4를 참조하여 본 발명의 일 실시예에 따른 오디오 부호화 방식을 설명한다.
본 발명에 따른 오디오 부호화 장치는 부호화부(610), 시간-프레임 대역 복제부(620), 및 비트 스트림 팩킹부(630)를 포함한다.
시간-프레임 대역 복제부(620)는 시간-주파수 대역 테이블 생성부(622), 최근접 블록 탐색부(624), 및 중복 블록 결정부(626)를 포함한다.
부호화부(610), 시간-주파수 대역 테이블 생성부(622), 최근접 블록 탐색부(624), 및 비트 스트림 팩킹부(630)는 도 3의 대응 모듈과 동일한 기능을 수행하므로 설명의 간단을 위해 상세한 설명은 생략한다.
중복 블록 결정부(redundant block decision unit)(626)는 최근접 블록 탐색부(622)에서 탐색된 최근접 블록 B(mmin, nmin)에 기초하여, 현재 블록 B(i,j)이 중복 블록(redundant block)인지 여부를 결정한다.
수학식 1의 D(i,j)는 현재 블록과 현재 블록의 최근접 블록간의 거리, 즉 B(i,j)와 B(mmin, nmin) 간의 유클리디안 거리를 의미한다.
수학식 1에 따라 구해진 D(i,j) 중 최소값을 갖는 Dmin(i,j) 는 상기 수학식 3에 의해 얻어진다.
중복 블록 결정부(626)에서는 Dmin(i,j)가 임계값 Tj보다 작은 경우, 현재 블록 B(i,j)를 중복 블록으로 결정하고, 최근접 블록 탐색부(624)에서 결정된 최근접 블록의 인덱스 정보 mmin, nmin, kmin을 비트 스트림 패킹부(bitstream packing unit)(630)로 전송한다. 여기에서, 임계값 Tj는 주파수 대역 j에서의 임계값이며, 실험적으로 결정된다. 본 실시예에서는 MPEG 비트스트림의 경우 상기 최근접 블록의 인덱스 정보는 보조데이터 1 필드(Ancillary data 1 field)에 포함된다. 하지만, 선택적으로 비트스트림 이외의 영역에 포함시켜 허용하는 것도 가능하다.
비트 스트림 팩킹부(630)는 중복 블록 결정부(626)로부터 전송된 최근접 블록의 인덱스 정보를 이용하여, 해당 블록 B(i,j)의 스펙트럼 정보 대신, 최근접 블록의 인덱스 정보 mmin, nmin, kmin를 포함한 비트스트림, 즉 TFBR 비트스트림을 디코더로 출력한다.
도 7은 본 발명의 또 다른 실시예에 따른 오디오 부호화 방법을 도시하는 플로우 차트이다.
단계(710)에서는 입력된 시간 영역의 오디오 신호에 대해 기존의 오디오 부호화 단계에서 수행되는 MDCT와 같은 시간-주파수 변환을 수행한다.
단계(720)에서는 단계(720)에서 MDCT 변환된 데이터를 각각의 프레임 별로 N 개의 주파수 블록들로 분할하여 도 4에 도시된 시간-주파수 인덱스 조합, 즉 시간-주파수 대역 테이블을 생성한다. 본 실시예에서는 시간-주파수 대역 변환 방식으로서 MDCT 변환 방식을 사용하였지만, 선택적으로 다른 방식의 시간-주파수 변환 방식을 사용하는 것도 가능하다.
단계(730)에서는 단계(720)에서 생성된 시간-주파수 대역 테이블에 기초하여 현재 블록의 이전 블록들을 탐색하여 현재 블록 B(i,j)에 가장 근접한 최근접 블록B(mmin, nmin)을 결정한다.
단계(740)에서는 현재 블록 B(i,j)와 단계(730)에서 결정된 현재 블록의 최근접 블록B(mmin, nmin)간의 수학식 3에 따른 거리 Dmin(i, j)와 임계값 Tj를 비교하여 현재 블록이 중복 블록인지 여부를 판단한다. Dmin(i, j)가 임계값 Tj 보다 작은 경우에는 단계 750으로 진행한다. Dmin(i, j)가 임계값 Tj 보다 큰 경우에는 단계 760으로 진행한다.
단계(750)에서는 현재 블록을 중복 블록으로 판단하여, 최근접 블록 정보를 생성하고, 해당 블록 B(i,j)의 스펙트럼 정보 대신, 최근접 블록의 인덱스 정보 mmin 및 nmin를 포함하는 비트스트림, 즉 TFBR 비트스트림을 생성하여 출력한다. 선택적으로, 최근접 블록 탐색시 스케일 팩터를 사용한 경우, 최근접 블록 정보는 스케일 팩터 kmin을 포함한다.
단계(760)에서는 현재 블록을 정상 블록으로 판단하고, 현재 블록 데이터가 삽입된 비트 스트림을 생성하여 출력한다.
도 8은 본 발명의 일 실시예에 따른 오디오 복호화 장치를 도시하는 도면이다.
도 8에 도시된 오디오 복호화 장치(800)는 비트 스트림 언팩킹부(810), TFBR 디코더(820)를 포함한다. TFBR 디코더(820)는 복호화부(822) 및 중복 블록 재구성부(824)를 포함한다.
비트스트림 언팩킹부(bitstream unpacking unit)(810)는 입력된 TFBR 비트스트림으로부터 TFBR 파라미터를 추출한다. 추출된 TFBR 파라미터는 중복 블록 재구성부(824)로 입력되고, 나머지 데이터는 복호화부(822)로 입력된다.
복호화부(822)는 복호화하려는 현재 블록 B(i,j)이 정상 블록(normal block)인 경우, 일반적인 오디오 복호화 과정을 수행한다. 복호화부(822)를 구성하는 모듈들은 일반적인 오디오 복호화기와 동일한 기능을 수행하므로 설명의 간단을 위해 상세한 설명은 생략한다.
복호화부(822)는 복호화된 정상 블록 데이터와 중복 블록 재구성부(824)로부터 입력된 중복 블록 데이터에 기초하여 도 4에 도시된 시간-주파수 대역 테이블을 생성한다.
중복 블록 재구성부(824)는 비트 스트림 언팩킹부(810)로부터 입력된 TFBR 파라미터, 즉 중복 블록의 최근접 블록의 인덱스 mmin 및 nmin에 기초하여 생성된 시간-주파수 대역 테이블을 사용하여 중복 블록을 근사적으로 재구성한다 (approximately reconstruct). TFBR 인코더부에서 TFBR 파라미터 생성시 스케일 팩터 kmin를 사용한 경우에는 중복 블록 재구성시 스케일 팩터 kmin에 기초하여 최근접 블록의 스케일을 조정한다.
만일, 중복 블록의 최근접 블록, 즉 중복 블록을 근사적으로 재구성하기 위해 참조하려는 최근접 블록이 중복 블록인 경우에는, 최근접 블록이 참조하는 블록을 이용하여 재구성한다.
중복 블록 복원부(822)에서 근사적으로 재구성된 중복 블록 데이터는 복호화부(822)로 입력된다.
복호화부(822)는 중복 블록 복원부(824)로부터 입력된 중복 블록 데이터를 이용하여 전체 스펙트럼을 재구성하여 출력 오디오 신호를 생성한다. 복호화부(822)는 입력된 중복 블록 데이터를 이용하여 시간-주파수 대역 테이블을 갱신하여 다음 중복 블록 데이터 재구성시 사용한다.
도 9는 본 발명의 일 실시예에 따른 오디오 복호화 방법을 도시하는 도면이다.
단계(910)에서는 인코더로부터 전송된 TFBR 비트스트림을 언팩킹하여, TFBR 파라미터를 추출한다.
단계(920)에서는 추출된 TFBR 파라미터에 기초하여, 현재 복호화하려는 블록 B(i,j)가 중복 블록인지 여부를 판단한다. 본 실시예에서는, 현재 블록 B(i,j)에 대응하는 TFBR 파라미터가 존재하는 경우, 현재 블록 B(i,j)를 중복 블록으로 판단한다. 중복 블록으로 판단된 경우에는 단계(930)으로 진행하고, 중복 블록이 아닌, 즉 정상 블록으로 판단된 경우에는 단계(940)으로 진행한다.
단계(930)에서는 TFBR 파라미터, 즉 중복 블록의 최근접 블록의 인덱스 mmin 및 nmin에 기초하여 중복 블록을 재구성한다. 또한, TFBR 파라미터에 스케일 팩터 kmin에 포함된 경우에는, 스케일 팩터 kmin에 기초하여 최근접 블록의 스케일을 조정한다.
단계(940)에서는 현재 블록 B(i,j)을 정상 블록으로 판단하여, 복호화를 수행한다. 또한, 단계(940)에서는 단계(930)에서 재구성된 중복 블록 데이터와 복호화된 블록 데이터에 기초하여 도 4에 도시된 시간-주파수 대역 테이블을 생성한다. 단계(940)에서 생성된 시간-주파수 대역 테이블은 도 9에 도시된 바와 같이 단계(930)에서의 중복 블록 재구성시 사용된다.
단계(950)에서는 단계 (940)에서 복호화된 정상 블록 데이터와 단계 (930)에서 재구성된 중복 블록 데이터에 기초하여, 스펙트럼을 재구성하고, 이에 기초하여 출력 오디오 신호를 생성한다.
도 10은 본 발명의 일 실시예에 따른 오디오 복호화 장치를 도시하는 도면이다.
도 10에 도시된 오디오 복호화 장치(1000)는 비트스트림 언팩킹부(1010), 복호화부(1020), 및 후처리부(1030)를 포함한다.
비트스트림 언팩킹부(1010)는 도 3의 비트 스트림 팩킹부(330)에서 생성된 TFBR 비트스트림을 입력 받아, 이로부터 TFBR 파라미터를 추출한다. 추출된 TFBR 파라미터는 후처리부(1030)로 입력된다.
복호화부(1020)는 일반적인 오디오 인코더, 예를 들어 Mp 3 인코더에서 전송되는 저주파수 부분에 해당하는 비트 스트림에 대해 복호화를 수행하고, 이를 후처리부(1030)로 전송한다.
후처리부(1030)는 복호화부(1020)로부터 입력된 복호화된 저주파수 부분 데이터에 기초하여 도 4에 도시된 시간-주파수 대역 테이블을 생성하고, 비트스트림 언패킹부(1010)로부터 입력된 TFBR 파라미터 mmin 및 nmin에 기초하여 고주파수 부분에 해당하는 데이터 블록을 재구성한다. 이때, 입력된 TFBR 파라미터에 스케일 팩터 kmin가 포함된 경우에는, kmin에 기초하여 스케일을 조정한다.
또한, 재구성된 고주파수 블록 데이터에 기초하여 이전에 작성된 시간-주파수 대역 테이블을 갱신한다. 갱신된 시간-주파수 대역 테이블은 다음 고주파수 부분 블록의 재구성시 사용된다.
결과적으로, TFBR 파라미터 mmin, nmin, kmin는 원래의 블록 정보에 비해 아주 작은 크기를 갖기 때문에, 아주 작은 수의 부가 비트만을 사용한다. 따라서, 기존의 전송 비트레이트를 유지하면서도, 음질을 효과적으로 향상시키는 것이 가능하다.
본 실시예에서는 고주파수 부분 데이터의 전송이 없었던 경우, TFBR 파라미터를 이용하여 고주파수 부분 데이터를 복원하는 것을 예시하였다. 하지만, 선택적으로 데이터의 전송이 없었던 임의의 주파수 대역 및 프레임에 대해 본 발명을 적용하는 것이 가능하다.
도 11은 본 발명의 일 실시예에 따른 오디오 복호화 방법을 도시하는 플로우 차트이다.
단계(1110)에서는 TFBR 비트스트림을 언팩킹하여, TFBR 파라미터를 추출한다.
단계(1120)에서는 입력된 저주파수 대역의 블록 데이터를 복호화하여, 저주파수 부분에 해당하는 스펙트럼을 생성한다. 본 실시예에서는 입력된 비트스트림이 저주파수 대역의 데이터 만을 포함하는 것을 가정하였다. 하지만, 선택적으로 임의의 다른 주파수 대역 및 프레임 만을 포함하는 경우에도 본 발명을 적용하는 것이 가능하다.
단계(1130)에서는 단계(1120)로부터 복호화된 저주파수 부분 데이터에 기초하여 도 4에 도시된 시간-주파수 대역 테이블을 생성하고, 단계(1110)에서 추출된 TFBR 파라미터 mmin 및 nmin와 단계(1120)에서 복호화된 저 주파수 블록에 기초하여, 고주파수 부분에 해당하는 데이터 블록을 재구성한다. 이때, 입력된 TFBR 파라미터에 스케일 팩터 kmin가 포함된 경우에는, kmin에 기초하여 스케일을 조정한다.
단계(1140)에서는 단계(1120)에서 복호화된 저주파수 부분의 복호화된 블록들 및 단계(1130)에서 재구성된 고주파수 부분의 블록을 이용하여 전체 스펙트럼을 재구성한다. 또한, 재구성된 고주파수 부분 블록 데이터에 기초하여 시간-주파수 대역 테이블을 갱신한다. 갱신된 시간-주파수 대역 테이블은, 다음 고주파수 부분의 블록을 재구성하는데 사용된다.
본 발명은 상술한 실시예에 한정되지 않으며, 본 발명의 사상내에서 당업자에 의한 변형이 가능함은 물론이다. 특히, 본 발명은 MPEG-1 레이어 3 뿐만 아니라 MPEG-2 AAC, MPEG 4, WMA 등과 같은 모든 오디오 부호화 장치 및 방법에 적용될 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브 (예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
상술한 바와 같이 본 발명에 따른 개선된 부호화 및 복호화 방법과 그 장치를 이용함으로써, 기존의 오디오 코덱과 비교하여 음질의 저하 없이 전송 비트레이트를 감소시키는 것이 가능하며, 또한 전송 비트레이트의 증가 없이 음질을 향상시키는 것이 가능하다는 효과가 있다.
도 1은 종래의 MPEG 오디오 부호화 장치를 도시하는 블록도
도 2는 스펙트럼 대역 복제 방식을 설명하기 위한 도면
도 3은 본 발명의 일실시예에 따른 부호화 장치를 도시하는 도면
도 4는 본 발명에 사용되는 시간-주파수 대역 테이블을 도시하는 도면
도 5는 본 발명의 일실시예에 따른 부호화 방법을 도시하는 플로우차트
도 6은 본 발명의 일실시예에 따른 부호화 장치를 도시하는 도면
도 7은 본 발명의 일실시예에 따른 부호화 방법을 도시하는 플로우차트
도 8은 본 발명의 일실시예에 따른 복호화 장치를 도시하는 도면
도 9는 본 발명의 일실시예에 따른 복호화 방법을 도시하는 플로우차트
도 10은 본 발명의 일실시예에 따른 복호화 장치를 도시하는 도면
도 11은 본 발명의 일실시예에 따른 복호화 방법을 도시하는 플로우차트

Claims (36)

  1. 디지털 오디오 부호화 방법에 있어서,
    (a) 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블(time-frequency band table)을 생성하는 단계와,
    (b) 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록(nearest neighbor block)을 탐색하고, 상기 탐색된 최근접 블록에 대한 정보를 생성하는 단계와,
    (c) 상기 생성된 최근접 블록에 대한 정보를 포함하는 비트 스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 (b) 단계는 현재 부호화하는 블록의 주파수는 임계 주파수 이상이며, 상기 (c) 단계에서 생성된 비트스트림은 상기 임계 주파수 이하의 대역에 속하는 블록의 블록 정보 및 상기 임계 주파수 이상의 대역에 속하는 블록의 최근접 블록 정보를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 최근접 블록 정보는 상기 탐색된 최근접 블록의 상기 시간-주파수 대역 테이블에서의 인덱스 정보인 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 (b) 단계에서 최근접 블록의 탐색 범위는 현재 부호화하는 블록의 이전 블록인 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 (b) 단계에서 최근접 블록 판단은 현재 블록과 대상 블록간의 유클리디안 거리(eucledian distance)에 기초하여 이루어지는 것을 특징으로 하는 방법.
  6. 제1항에 있어서, 상기 최근접 블록 정보는 스케일 팩터(scale factor) 정보를 포함하는 것을 특징으로 하는 방법.
  7. 디지털 오디오 부호화 방법에 있어서,
    (a) 입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 단계와,
    (b) 상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하는 단계와,
    (c) 상기 탐색된 최근접 블록에 기초하여, 현재 부호화하는 블록이 중복 블록(redundant block)인지 여부를 판단하는 단계와,
    (d) 상기 (c) 단계에서 판단된 결과에 기초하여, 출력 비트 스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서, 상기 (c) 단계에서 현재 부호화하는 블록이 중복 블록인 것으로 판단된 경우, 상기 (d) 단계에서 생성된 비트스트림은 현재 블록 정보 대신 상기 (b) 단계에서 탐색된 최근접 블록에 대한 최근접 블록 정보를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서, 상기 최근접 블록 정보는 상기 탐색된 최근접 블록의 상기 시간-주파수 대역 테이블에서의 인덱스 정보인 것을 특징으로 하는 방법.
  10. 제7항에 있어서, 상기 (c) 단계에서 현재 부호화하는 블록이 중복 블록이 아닌 것으로 판단된 경우, 상기 (d) 단계에서 생성된 비트스트림은 현재 블록 정보를 포함하는 것을 특징으로 하는 방법.
  11. 제7항에 있어서, 상기 (b) 단계에서 최근접 블록의 탐색 범위는 현재 부호화하는 블록의 이전 블록인 것을 특징으로 하는 방법.
  12. 제7항에 있어서, 상기 (b) 단계에서 최근접 블록 판단은 현재 블록과 대상 블록간의 유클리디안 거리에 기초하여 이루어지는 것을 특징으로 하는 방법.
  13. 제7항에 있어서, 상기 최근접 블록 정보는 스케일 팩터 정보를 포함하는 것을 특징으로 하는 방법.
  14. 디지털 오디오 부호화 장치에 있어서,
    입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와,
    상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하고, 상기 탐색된 최근접 블록에 대한 정보를 생성하는 최근접 블록 탐색 및 최근접 블록 정보 생성부와,
    상기 생성된 최근접 블록에 대한 정보를 포함하는 비트 스트림을 생성하는 비트 스트림 팩킹부를 포함하는 것을 특징으로 하는 장치.
  15. 제14항에 있어서, 상기 현재 부호화하는 블록의 최근접 블록은 임계 주파수 이상이며, 상기 비트 스트림 팩킹부는 상기 임계 주파수 이하의 대역에 속하는 블록의 블록의 블록 정보와 상기 임계 주파수 이상의 대역에 속하는 블록의 최근접 블록 정보가 포함된 비트스트림을 생성하는 것을 특징으로 하는 장치.
  16. 제14항에 있어서, 상기 최근접 블록 정보는 상기 탐색된 최근접 블록의 상기 시간-주파수 대역 테이블에서의 인덱스 정보인 것을 특징으로 하는 장치.
  17. 디지털 오디오 부호화 장치에 있어서,
    입력 오디오 신호에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와
    상기 생성된 시간-주파수 대역 테이블에 기초하여, 현재 부호화하는 블록의 최근접 블록을 탐색하는 최근접 블록 탐색부와,
    상기 탐색된 최근접 블록에 기초하여, 현재 부호화하는 블록이 중복 블록인지 여부를 결정하는 중복 블록 결정부와,
    상기 중복 블록 결정부에서 결정된 결과에 기초하여, 출력 비트 스트림을 생성하는 비트스트림 생성부를 포함하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서, 상기 중복 블록 결정부에서 현재 부호화하는 블록이 중복 블록인 것으로 결정된 경우, 상기 비트스트림 생성부는 현재 블록 정보 대신 상기 최근접 블록 탐색부에서 탐색된 최근접 블록 정보를 비트스트림에 포함시키는 것을 특징으로 하는 장치.
  19. 제17항에 있어서, 상기 중복 블록 결정부에서 현재 부호화하는 블록이 중복 블록이 아닌 것으로 결정된 경우, 상기 비트스트림 생성부는 현재 블록 정보를 비트스트림에 포함시키는 것을 특징으로 하는 장치.
  20. 제18항에 있어서, 상기 최근접 블록 정보는 상기 탐색된 최근접 블록의 상기 시간-주파수 대역 테이블에서의 인덱스 정보인 것을 특징으로 하는 장치.
  21. 소정 영역의 오디오 신호에 대한 부가 정보를 포함하는 오디오 신호의 복호화 방법에 있어서,
    (a) 입력 오디오 비트스트림으로부터 소정 영역에 속하지 않는 블록을 복호화하는 단계와,
    (b) 상기 복호화된 블록 데이터에 기초하여 소정 영역에 대응하는 시간-주파수 대역 테이블을 생성하는 단계와,
    (c) 상기 생성된 시간-주파수 대역 테이블을 사용하여, 상기 소정 영역의 오디오 신호에 대한 부가 정보에 기초하여, 소정 영역에 속하는 현재 블록을 재구성하는 단계를 포함하는 것을 특징으로 하는 방법.
  22. 제21항에 있어서, 상기 부가 정보는 소정 영역의 현재 블록의 최근접 블록에 대한 인덱스 정보를 포함하는 것을 특징으로 하는 방법.
  23. 제21항에 있어서, 상기 소정의 영역은 고주파수 영역인 것을 특징으로 하는 방법.
  24. 제21항에 있어서, 상기 (b) 단계에서 생성된 시간-주파수 대역 테이블은 단계 (c)에서 재구성된 현재 블록에 의해 갱신되는 것을 특징으로 하는 방법.
  25. 제21항에 있어서, 상기 부가 정보는 스케일 팩터 정보를 포함하는 것을 특징으로 하는 방법.
  26. 디지털 오디오 복호화 방법에 있어서,
    (a) 입력 오디오 비트스트림으로부터 최근접 블록 정보를 추출하는 단계와,
    (b) 상기 입력 오디오 비트스트림에 기초하여 시간-주파수 대역 테이블을 생성하는 단계와,
    (c) 상기 추출된 최근접 블록 정보에 기초하여, 현재 복호화하는 블록이 중복 블록인지 여부를 판단하는 단계와,
    (d) 상기 현재 복호화하는 블록이 중복 블록인 경우, 상기 생성된 시간-주파수 대역 테이블을 사용하여 상기 추출된 최근접 블록 정보에 기초하여 중복 블록을 재구성하는 단계를 포함하는 것을 특징으로 하는 방법.
  27. 제26항에 있어서, 상기 재구성된 중복 블록을 사용하여 입력된 오디오 비트 스트림에 대응하는 전체 스펙트럼을 재구성하는 단계를 포함하는 것을 특징으로 하는 방법.
  28. 제27항에 있어서, 상기 (c) 단계는 재구성된 중복 블록에 기초하여 상기 시간-주파수 테이블을 갱신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  29. 제27항에 있어서, 상기 최근접 블록 정보는 스케일 팩터 정보를 포함하는 것을 특징으로 하는 방법.
  30. 소정 영역의 오디오 신호에 대한 부가 정보를 포함하는 오디오 신호의 복호화 장치에 있어서,
    입력 오디오 비트스트림으로부터 소정 영역에 속하지 않는 블록을 복호화하는 복호화부와,
    상기 복호화된 블록 데이터에 기초하여 소정 영역에 대응하는 시간-주파수 대역 테이블을 생성하고, 상기 생성된 시간-주파수 대역 테이블을 사용하여, 상기 소정 영역의 오디오 신호에 대한 부가 정보에 기초하여, 소정 영역에 속하는 현재 블록을 재구성하는 후처리부를 포함하는 것을 특징으로 하는 장치.
  31. 제30항에 있어서, 상기 부가 정보는 소정 영역의 현재 블록의 최근접 블록에 대한 인덱스 정보를 포함하는 것을 특징으로 하는 장치.
  32. 제30항에 있어서, 상기 소정의 영역은 고주파수 영역인 것을 특징으로 하는 장치.
  33. 제30항에 있어서, 상기 생성된 시간-주파수 대역 테이블은 재구성된 현재 블록에 의해 갱신되는 것을 특징으로 하는 장치.
  34. 디지털 오디오 복호화 장치에 있어서,
    입력 오디오 비트스트림으로부터 최근접 블록 정보를 추출하는 최근접 블록 정보 추출부와,
    상기 입력 오디오 비트스트림에 기초하여 시간-주파수 대역 테이블을 생성하는 시간-주파수 대역 테이블 생성부와,
    상기 추출된 최근접 블록 정보에 기초하여, 현재 복호화하는 블록이 중복 블록인지 여부를 판단하여, 상기 현재 복호화하는 블록이 중복 블록인 경우, 상기 생성된 시간-주파수 대역 테이블을 사용하여 상기 추출된 최근접 블록 정보에 기초하여 중복 블록을 재구성하는 중복 블록 재구성부를 포함하는 것을 특징으로 하는 장치.
  35. 제34항에 있어서, 상기 중복 블록 재구성부는 상기 재구성된 중복 블록을 사용하여 입력된 오디오 비트 스트림에 대응하는 전체 스펙트럼을 재구성하는 것을 특징으로 하는 장치.
  36. 제35항에 있어서, 상기 시간-주파수 대역 테이블 생성부는 재구성된 중복 블록에 기초하여 상기 시간-주파수 테이블을 갱신하는 것을 특징으로 하는 장치.
KR10-2002-0082380A 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 KR100524065B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
US10/716,873 US20040176961A1 (en) 2002-12-23 2003-11-20 Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
EP03257940A EP1441330B1 (en) 2002-12-23 2003-12-17 Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
DE60303346T DE60303346T2 (de) 2002-12-23 2003-12-17 Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu
AT03257940T ATE316679T1 (de) 2002-12-23 2003-12-17 Encodier- und/oder decodierverfahren für digitale audiosignale, basierend auf zeit- frequenzkorrelation und vorrichtung hierzu
JP2003425850A JP3824607B2 (ja) 2002-12-23 2003-12-22 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置
CNB2003101237162A CN1249669C (zh) 2002-12-23 2003-12-23 使用时间频率相关编码和/或解码数字音频的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Publications (2)

Publication Number Publication Date
KR20040055916A KR20040055916A (ko) 2004-06-30
KR100524065B1 true KR100524065B1 (ko) 2005-10-26

Family

ID=36089201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Country Status (7)

Country Link
US (1) US20040176961A1 (ko)
EP (1) EP1441330B1 (ko)
JP (1) JP3824607B2 (ko)
KR (1) KR100524065B1 (ko)
CN (1) CN1249669C (ko)
AT (1) ATE316679T1 (ko)
DE (1) DE60303346T2 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN100424692C (zh) * 2005-08-31 2008-10-08 中国科学院自动化研究所 音频快速搜索方法
BRPI0520729B1 (pt) * 2005-11-04 2019-04-02 Nokia Technologies Oy Método para a codificação e decodificação de sinais de áudio, codificador para codificação e decodificador para decodificar sinais de áudio e sistema para compressão de áudio digital.
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
US20100111181A1 (en) * 2008-11-06 2010-05-06 Mediatek Inc. Video processing apparatus and methods
KR101390433B1 (ko) * 2009-03-31 2014-04-29 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
PL3570278T3 (pl) 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
CN102934164B (zh) * 2010-03-09 2015-12-09 弗兰霍菲尔运输应用研究公司 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法
RU2596033C2 (ru) 2010-03-09 2016-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
JP5554876B2 (ja) * 2010-04-16 2014-07-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム
CA3027803C (en) 2010-07-19 2020-04-07 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9384749B2 (en) 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
WO2023211443A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Transformer-encoded speech extraction and enhancement

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH589390A5 (ko) * 1975-08-19 1977-06-30 Patelhold Patentverwertung
US4748579A (en) * 1985-08-14 1988-05-31 Gte Laboratories Incorporated Method and circuit for performing discrete transforms
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5867819A (en) * 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
EP0798866A2 (en) * 1996-03-27 1997-10-01 Kabushiki Kaisha Toshiba Digital data processing system
TW432806B (en) * 1996-12-09 2001-05-01 Matsushita Electric Ind Co Ltd Audio decoding device
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5960401A (en) * 1997-11-14 1999-09-28 Crystal Semiconductor Corporation Method for exponent processing in an audio decoding system
US6591241B1 (en) * 1997-12-27 2003-07-08 Stmicroelectronics Asia Pacific Pte Limited Selecting a coupling scheme for each subband for estimation of coupling parameters in a transform coder for high quality audio
US6185525B1 (en) * 1998-10-13 2001-02-06 Motorola Method and apparatus for digital signal compression without decoding
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Also Published As

Publication number Publication date
CN1510661A (zh) 2004-07-07
JP2004206129A (ja) 2004-07-22
JP3824607B2 (ja) 2006-09-20
DE60303346D1 (de) 2006-04-13
US20040176961A1 (en) 2004-09-09
EP1441330A3 (en) 2005-04-27
EP1441330A2 (en) 2004-07-28
ATE316679T1 (de) 2006-02-15
EP1441330B1 (en) 2006-01-25
KR20040055916A (ko) 2004-06-30
CN1249669C (zh) 2006-04-05
DE60303346T2 (de) 2006-11-02

Similar Documents

Publication Publication Date Title
KR100524065B1 (ko) 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
TWI555008B (zh) 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法
KR100958144B1 (ko) 오디오 압축
KR101130355B1 (ko) 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
CA2608030C (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Ravelli et al. Union of MDCT bases for audio coding
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
KR20100085994A (ko) Mdct 스펙트럼의 결합 인코딩을 이용하는 스케일링 가능한 스피치 및 오디오 인코딩
KR20080097178A (ko) 부호화/복호화 장치 및 방법
Zhen et al. Psychoacoustic calibration of loss functions for efficient end-to-end neural audio coding
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
JP3348759B2 (ja) 変換符号化方法および変換復号化方法
Hang et al. A scalable variable bit rate audio codec based on audio attention analysis
Petrovsky et al. Audio/speech coding using the matching pursuit with frame-based psychoacoustic optimized time-frequency dictionaries and its performance evaluation
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR20080092823A (ko) 부호화/복호화 장치 및 방법
KR20080034819A (ko) 부호화/복호화 장치 및 방법
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder
Reyes et al. A new cost function to select the wavelet decomposition for audio compression
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Liu The perceptual impact of different quantization schemes in G. 719
Nanjundaswamy Advances in audio coding and networking by effective exploitation of long term correlations
Yin An audio coding system using subband backward linear prediction
Sathidevi et al. Low complexity scalable perceptual audio coder using an optimum wavelet packet basis representation and vector quantization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee