KR20150034507A - 오디오 신호 부호화 방법 및 장치 - Google Patents

오디오 신호 부호화 방법 및 장치 Download PDF

Info

Publication number
KR20150034507A
KR20150034507A KR20130114685A KR20130114685A KR20150034507A KR 20150034507 A KR20150034507 A KR 20150034507A KR 20130114685 A KR20130114685 A KR 20130114685A KR 20130114685 A KR20130114685 A KR 20130114685A KR 20150034507 A KR20150034507 A KR 20150034507A
Authority
KR
South Korea
Prior art keywords
signal
global gain
bits
audio signal
frame
Prior art date
Application number
KR20130114685A
Other languages
English (en)
Other versions
KR102243217B1 (ko
Inventor
이남숙
김현욱
이상훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130114685A priority Critical patent/KR102243217B1/ko
Publication of KR20150034507A publication Critical patent/KR20150034507A/ko
Application granted granted Critical
Publication of KR102243217B1 publication Critical patent/KR102243217B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 일 실시예에 따르면, 특정 오디오 프레임에서 남는 비트를 이용하여 부호화된 신호의 음질을 향상시키는 오디오 신호 부호화 방법 및 장치가 제공된다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치는, 비트 할당을 수행함에 있어서, 특정 오디오 프레임에 대해 사용된 총 비트수가, 프레임당 사용가능한 최대 비트수보다 작은 경우, 즉 비트가 남는 경우, 글로벌 게인을 조정하거나, 마스킹 임계치에 의해 마스킹된 신호를 복원함으로써 보정된 양자화 신호를 출력한다. 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치는, 보정된 양자화 신호를 부호화함으로써, 부호화된 오디오 신호의 음질을 높일 수 있다.

Description

오디오 신호 부호화 방법 및 장치 {METHOD AND APPARATUS FO ENCODING AUDIO SIGNAL}
본 발명은 오디오 신호 부호화 방법 및 장치에 관한 것이다. 보다 상세하게는, 특정 프레임에서 남는 비트를 이용하여 부호화된 신호의 음질을 향상시키는 오디오 신호 부호화 방법 및 장치에 관한 것이다.
오디오 신호를 부호화 하는데 있어서, 짧은 지연 시간 (latency time) 을 확보하기 위해서는 부호화의 기본 단위인 프레임의 길이가 짧아야 하고, 높은 음질을 확보하기 위해서는 충분한 주파수 분해능이 필요하기 때문에 프레임의 길이가 길어야 한다. 따라서 짧은 지연 시간과 높은 음질은 동시에 만족시키기 어렵다.
종래 기술의 경우, 지연 시간과 음질에 대한 요구 조건을 동시에 만족시키기 위해서, 사용하고자 하는 어플리케이션에 따라서 프레임의 길이를 조절함으로써, 허용 가능한 범위 내의 지연 시간 또는 음질을 갖도록 오디오 신호를 부호화하는 방법이 이용된다. 또는, 오디오 신호의 완벽한 복원 (Perfect reconstruction) 을 포기하고, 특정한 형태의 윈도우 함수를 사용하는 방법이 이용된다.
한편, 지각 음향 부호화 (perceptual audio coding) 방법의 경우, 심리 음향 모델로부터 도출되는 마스킹 임계치 (masking threshold) 를 이용하여 오디오 신호를 양자화 (quantization) 하고, 양자화된 신호에 대해 비트 할당 (bit allocation) 을 수행함으로써 지연 시간과 음질에 대한 요구 조건을 모두 만족시킬 수 있다.
지각 음향 부호화 장치의 경우, 오디오 신호 및 주파수 대역에 따라 청자가 인지할 수 없는 양자화 노이즈의 크기를 결정하게 된다. 오디오 신호를 부호화하는데 있어서, 지각 음향 부호화 장치는, 양자화 노이즈의 크기를 고려하여 양자화 스텝을 결정한다. 또한, 지각 음향 부호화 장치는, 비트 할당을 수행함에 있어서, 특정 오디오 프레임에 대해 사용된 총 비트수가, 한 프레임당 사용 가능한 최대 비트수를 초과하지 않도록 한다. 한 프레임당 사용 가능한 최대 비트수는, 출력 비트 레이트에 의해 결정되고, 모든 프레임에 대해 적용된다.
한편, 지각 음향 부호화 장치가 비트 할당을 수행함에 있어서, 특정 오디오 프레임에 대해 사용된 총 비트수가 출력 비트 레이트에 의해 결정되는 한 프레임당 사용 가능한 최대 비트수보다 작은 경우, 출력되는 비트스트림 (bitstream) 에 남는 비트가 존재하게 된다. 남는 비트 내에는 오디오 신호에 대한 정보가 포함되지 않으므로, 남는 비트를 활용하여 보다 많은 정보를 부호화할 경우, 부호화되는 오디오 신호의 음질을 향상시킬 수 있다. 따라서, 특정 프레임의 오디오 신호를 부호화함에 있어서 남는 비트를 활용하는 방법이 요구된다.
본 발명의 일 실시예는, 특정 프레임의 오디오 신호를 부호화함에 있어서 남는 비트가 존재하는 경우, 남는 비트를 이용하여 음질을 향상시키는 오디오 신호 부호화 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은, 오디오 신호를 제 1 주파수 영역 신호로 변환하는 단계; 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 단계; 상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 단계; 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우, 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 단계; 및 상기 제 2 양자화 신호를 부호화하는 단계를 포함한다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 글로벌 게인을 조정하는 단계; 및 상기 조정된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 감소시키는 단계; 및 상기 감소된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 단계; 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계; 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계; 상기 제 2 사용 비트수가 상기 프레임 비트수를 초과할 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계; 및 상기 제 2 사용 비트수가 상기 프레임 비트수를 초과하는 경우, 이전 반복에서 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 단계; 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계; 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계; 및 상기 갱신된 글로벌 게인이 소정 게인 이하가 될 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은, 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 증가시키는 단계; 및 상기 증가된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은, 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 글로벌 게인을 소정값만큼 증가시켜 갱신하는 단계; 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계; 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계; 및 상기 제 2 사용 비트수가 상기 프레임 비트수보다 작거나 같아질 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 1 양자화 신호를 생성하는 단계는, 심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여, 상기 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹하는 단계; 및 상기 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 상기 제 1 양자화 신호를 생성하는 단계를 포함하고, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 제 1 양자화 신호에, 상기 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 마스킹 임계치에 의해 마스킹된 대역별 에너지와 상기 각 대역에 대한 마스킹 임계치를 비교하는 단계; 상기 비교 결과에 기초하여 상기 마스킹된 적어도 하나의 대역 중 적어도 하나의 대역을 선택하는 단계; 및 상기 제 1 양자화 신호에 상기 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 상기 제 2 양자화 신호를 생성하는 단계는, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이가 소정값 이상일 경우, 상기 제 1 양자화 신호에, 상기 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치는, 오디오 신호를 제 1 주파수 영역 신호로 변환하는 주파수 변환부; 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 양자화부, 상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 비트수 계산부, 및 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 보정부를 포함하는, 비트수 조절 양자화부; 및 상기 제 2 양자화 신호를 부호화하는 부호화부를 포함한다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 글로벌 게인을 조정하고, 상기 조정된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여 상기 글로벌 게인을 감소시키고, 상기 감소된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 제 2 사용 비트수가 상기 프레임 비트수를 초과할 때까지 반복하고, 상기 제 2 사용 비트수가 상기 프레임 비트수를 초과하는 경우, 이전 반복에서 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 갱신된 글로벌 게인이 소정 게인 이하가 될 때까지 반복할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 증가시키고, 상기 증가된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 글로벌 게인을 소정값만큼 증가시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 제 2 사용 비트수가 상기 프레임 비트수보다 작거나 같아질 때까지, 반복할 수 있다.본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 양자화부는, 심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여, 상기 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹하고, 상기 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 상기 제 1 양자화 신호를 생성하고, 상기 보정부는, 상기 제 1 양자화 신호에 상기 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 마스킹 임계치에 의해 마스킹된 대역별 에너지와 상기 각 대역에 대한 마스킹 임계치를 비교하고, 상기 비교 결과에 기초하여 상기 마스킹된 적어도 하나의 대역 중 적어도 하나의 대역을 선택하고, 상기 제 1 양자화 신호에 상기 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 상기 보정부는, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이가 소정값 이상일 경우, 상기 제 1 양자화 신호에 상기 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성할 수 있다.
한편, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서, 상기 방법은, 오디오 신호를 제 1 주파수 영역 신호로 변환하는 단계; 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 단계; 상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 단계; 및 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우, 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 단계; 및 상기 제 2 양자화 신호를 부호화하는 단계를 포함한다.
도 1 은 본 발명이 적용될 수 있는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 3 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 4 는 본 발명의 제 1 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
도 5 는 본 발명의 제 2 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
도 6 은 본 발명의 제 3 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
도 7 은 본 발명의 제 4 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 정보 (information) 는 값 (value), 파라미터 (parameter), 계수 (coefficients), 성분 (elements) 등을 모두 포함하는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으며, 본 발명은 이에 한정되지 아니한다.
한편, 오디오 신호(audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 의미할 수 있다. 오디오 신호는, 협의로는, 음성(speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다. 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되어 사용될 때 협의의 오디오 신호로 이해될 수 있다.
한편, 프레임이란, 오디오 신호를 부호화 또는 복호화하기 위한 데이터 단위를 일컫는 것으로서, 특정 샘플 수나 특정 시간에 한정되지 아니한다.
본 발명에 따른 오디오 신호 부호화 방법 및 장치는, 나아가 이 장치 및 방법이 적용된 오디오 신호 처리 장치 및 방법이 될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1 은 본 발명이 적용될 수 있는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 1 을 참조하면, 본 발명이 적용될 수 있는 오디오 신호 부호화 장치는, 주파수 변환부 (210), 양자화부 (120), 부호화부 (130), 및 심리 음향 모델부 (140) 를 포함한다.
주파수 변환부 (110) 는 입력 오디오 신호를 수신한 후, 이에 대해 주파수 변환을 수행하여 주파수 영역 신호를 생성한다.
심리 음향 모델부 (140) 에서는 사람의 청각 특성을 반영하여 마스킹 임계치 (masking threshold) 를 계산한다. 심리 음향 모델부 (140) 는, 입력된 오디오 신호에 대해 마스킹 효과를 적용하여 마스킹 임계치를 계산한다.
마스킹(masking) 효과란, 심리 음향 이론에 의한 것으로, 크기가 큰 신호에 인접한 작은 신호들은 큰 신호에 의해서 가려지기 때문에 인간의 청각 구조가 이를 잘 인지하지 못한다는 특성을 이용하는 것이다. 예를 들어, 시끄러운 버스가 지나가는 버스 정류장에서와 같이 소음이 심한 공간에서는, 조용한 공간에서 들릴 수 있는 대화 소리가 들리지 않게 된다.
마스킹 임계치란, 청자가 들을 수 있는 한계값을 의미할 수 있다. 마스킹 효과에 의하면, 마스킹 임계치 아래에 위치한 오디오 신호는 청자가 들을 수 없다.
양자화부 (120) 는, 심리 음향 모델 (140) 에서 계산된 마스킹 임계치를 적용하여, 주파수 변환부 (110) 에서 변환된 주파수 영역 신호를 양자화한다. 양자화부 (120) 는 양자화된 신호에 대해 비트 할당을 수행한다.
예를 들어, 양자화부 (120) 는 마스킹 임계치가 낮아 노이즈(noise)가 들리기 쉬운 주파수 대역에 대해서는 비트수를 많이 할당하고, 마스킹 임계치가 높은 주파수 대역에 대해서는 비트수를 적게 할당할 수 있다. 또한, 양자화부 (120) 는, 마스킹 임계치 아래에 위치한 사용자가 들을 수 없는 주파수 대역을 제외하고 나머지 신호에 대해서만 양자화하고, 비트 할당을 수행할 수 있다.
부호화부 (130) 는, 양자화된 오디오 신호에 대해 무잡음 부호화 (Noiseless coding) 및 비트스트림 패킹 (Bitstream Packing) 등의 과정을 거쳐 비트스트림을 출력한다.
도 1 에 도시된 오디오 신호 부호화 장치가 비트 할당을 수행함에 있어서, 양자화부 (120) 는, 특정 오디오 프레임에 대해 사용된 총 비트수가, 한 프레임당 사용 가능한 최대 비트수를 초과하지 않도록 한다. 한 프레임당 사용 가능한 최대 비트수는, 출력 비트 레이트에 의해 결정되고, 모든 프레임에 대해 적용된다.
이 때, 특정 오디오 프레임에 대해 사용된 총 비트수가, 한 프레임당 사용 가능한 최대 비트수보다 작은 경우, 출력되는 비트 스트림 (bitstream) 에 남는 비트가 존재하게 된다. 남는 비트 내에는 오디오 신호에 대한 정보가 포함되지 않으므로, 남는 비트를 활용하여 보다 많은 정보를 부호화할 경우, 부호화되는 오디오 신호의 음질을 향상시킬 수 있다.
따라서, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 남는 비트를 이용하여, 오디오 신호에 대한 보다 많은 정보를 부호화함으로써 음질을 향상시킬 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 대해서 도 2 를 참조하여 자세히 살펴보기로 한다.
도 2 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 2 를 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 주파수 변환부 (210), 비트수 조절 양자화부 (220), 부호화부 (230) 를 포함한다. 또한, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 심리 음향 모델부 (240) 를 더 포함할 수 있다.
도 2 의 주파수 변환부 (210), 부호화부 (230), 및 심리 음향 모델부 (240) 는, 도 1 의 주파수 변환부 (110), 부호화부 (130), 및 심리 음향 모델부 (140) 에 대응되므로 중복되는 설명은 생략한다.
주파수 변환부 (210) 는, 입력된 오디오 신호를 제 1 주파수 영역 신호로 변환한다. 주파수 변환은 FFT (Fast Fourier Transform), MDCT (Modified Discrete Transform), 웨이블릿 변환(wavelet packet transform: WPT), Frequency varying Modulated Lapped Transform (FV-MLT) 및 이와 유사한 방식이 이용될 수 있으며, 이에 한정되지 않는다.
비트수 조절 양자화부 (220) 는, 주파수 변환부 (210) 에서 변환된 주파수 영역 신호를 양자화하고, 양자화된 신호를 보정하여 출력한다. 비트수 조절 양자화부 (220) 는, 양자화부 (222), 비트수 계산부 (224), 및 보정부 (226) 를 포함한다.
양자화부 (222) 는, 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성한다. 글로벌 게인이란, 주파수 영역 신호를 양자화하는데 있어서, 주파수 영역 신호에 포함되는 전대역에 대해 적용되는 양자화 스케일 팩터 (scale factor) 값을 의미한다. 스케일 팩터란, 양자화 스텝 사이즈를 의미한다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치가 사용하는 글로벌 게인의 초기값은, 사용자의 입력에 의해 설정되거나, 어플리케이션 (application) 에 따라 미리 결정된 값일 수 있다. 어플리케이션이란, 오디오 신호를 부호화하기 위해 사용되는 응용 프로그램을 의미할 수 있다. 어플리케이션은 오디오 품질 등을 고려하여 실험적으로 최적화된 값으로 글로벌 게인의 초기값을 결정할 수 있다.
또한, 양자화부 (222) 는, 심리 음향 모델부 (240) 에서 결정된 마스킹 임계치를 적용하여, 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹할 수 있다. 양자화부 (222) 는, 마스킹 임계치에 의해 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성할 수 있다.
심리 음향 모델부 (240) 는, 입력된 오디오 신호에 대해 마스킹 효과를 적용하여 마스킹 임계치 (masking threshold) 를 결정할 수 있다.
마스킹 임계치란, 청자가 들을 수 있는 한계값을 의미할 수 있다. 마스킹 효과에 의하면, 마스킹 임계치 아래에 위치한 오디오 신호는 청자가 들을 수 없다.
예를 들어, 심리 음향 모델을 적용함에 있어서, 오디오 신호가 분할된 하나의 윈도우에 포함되는 복수의 주파수 변환 계수 대역 (frequency scale factor band) 에는 에너지가 가장 큰 신호가 중간에 존재하고, 이 신호보다 훨씬 작은 크기의 신호가 주변에 몇 개 존재하는 경우를 참조하여 설명한다. 이 경우, 가장 큰 신호가 마스커 (masker) 가 되고, 이 마스커를 기준으로 마스킹 커브 (masking curve) 가 그려진다. 이 마스킹 커브에 의해서 가려지는 작은 신호는 마스킹된 신호 (masked signal) 또는 마스키 (maskee) 가 될 수 있다. 이 마스킹된 신호를 제외하고 나머지 신호만을 유효한 신호로 남겨두는 것을 마스킹(masking)이라 한다.
심리 음향 모델은 다양한 알고리즘을 이용하여 인간의 청각 시스템을 모델링한다. 이미 알려진 다양한 심리 음향 모델은 본 발명의 실시예와 함께 이용될 수 있다.
양자화부 (222) 는, 예를 들어, 마스킹 임계치보다 에너지가 낮은 주파수 대역은 사용자가 들을 수 없다고 판단하고, 사용자가 들을 수 없다고 판단된 주파수 대역을 마스킹할 수 있다. 즉, 양자화부 (222) 는, 마스킹 임계치보다 에너지가 낮은 주파수 대역을 제외하고 나머지 신호에 대해서만 양자화하고, 비트 할당을 수행할 수 있다.
비트수 계산부 (224) 는, 양자화부 (222) 에서 양자화된 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산한다.
보정부 (226) 는, 제 1 사용 비트수가 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우, 제 1 양자화 신호를 보정한다. 보정부 (226) 는, 제 1 사용 비트수가 프레임 비트수보다 작은 경우, 즉 비트가 남는 경우, 글로벌 게인을 조정하거나, 마스킹 임계치에 의해 마스킹된 신호를 복원함으로써 제 1 양자화 신호를 보정할 수 있다. 보정부 (226) 는 제 1 양자화 신호를 보정함으로써 제 2 양자화 신호를 생성하고 출력할 수 있다.
또한, 보정부 (226) 는, 제 1 사용 비트수가 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우에도, 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성할 수 있다. 보정부 (226) 는, 제 1 사용 비트수가 프레임 비트수보다 큰 경우, 즉 비트가 부족한 경우, 글로벌 게인을 조정함으로써 제 1 양자화 신호를 보정할 수 있다.
또한, 보정부 (226) 는, 제 1 사용 비트수가 프레임 비트수와 동일한 경우, 별도의 보정없이 제 1 양자화 신호를 제 2 양자화 신호로서 출력할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 가, 제 1 사용 비트수가 프레임 비트수보다 작은 경우, 보정된 양자화 신호를 출력함으로써, 부호화된 오디오 신호의 음질을 향상시키는 구체적인 방법과 관련하여서 이하 도 3 을 참조하여 자세히 살펴보기로 한다.
도 3 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 3 을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은 도 2 에 도시된 오디오 신호 부호화 장치 (200) 에서 처리되는 단계들로 구성된다. 따라서, 이하에 생략된 내용이라 하더라도 도 2 에 도시된 오디오 신호 부호화 장치 (200) 에 관하여 상술된 내용은 도 3 의 오디오 신호 부호화 방법에도 적용됨을 알 수 있다.
단계 S310 에서 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 오디오 신호를 제 1 주파수 영역 신호로 변환한다. 주파수 변환은 FFT (Fast Fourier Transform), MDCT (Modified Discrete Transform), 웨이블릿 변환(wavelet packet transform: WPT), Frequency varying Modulated Lapped Transform (FV-MLT) 및 이와 유사한 방식이 이용될 수 있으며, 이에 한정되지 않는다.
단계 S320 에서 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성한다. 오디오 신호 부호화 장치 (200) 는, 제 1 주파수 영역 신호의 전체 주파수 대역에 공통으로 사용되는 양자화 스케일 팩터로서, 글로벌 게인을 이용한다. 또한, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 기초로 각 주파수 대역마다 대역별 양자화 스케일 팩터를 조정함으로써 필요한 비트들을 할당하고 양자화할 수 있다.
단계 S330 에서 오디오 신호 부호화 장치 (200) 는, 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산한다.
단계 S340 에서 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수가 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은지를 판단한다.
제 1 사용 비트수가 프레임 비트수보다 작지 않은 경우, 오디오 신호 부호화 장치 (200) 는, 단계 S320 에서 양자화된 제 1 양자화 신호를 부호화할 수 있다. 반면에, 제 1 사용 비트수가 프레임 비트수보다 작은 경우, 오디오 신호 부호화 장치 (200) 는 단계 S350 을 수행한다.
단계 S350 에서 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수가 프레임 비트수보다 작은 경우 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성한다. 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수가 프레임 비트수보다 작은 경우, 즉 비트가 남는 경우, 글로벌 게인을 조정하거나, 마스킹 임계치에 의해 마스킹된 신호를 복원함으로써 보정된 양자화 신호를 출력할 수 있다.
본 발명의 제 1 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 조정하고, 조정된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 제 2 양자화 신호를 생성할 수 있다.
이 때, 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수와 프레임 비트수의 차이에 기초하여, 글로벌 게인을 감소시키고, 감소된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 제 2 양자화 신호를 생성할 수 있다.
또한, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 소정값만큼 감소시켜 갱신하고, 갱신된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화할 수 있다. 예를 들어, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인, 즉, 전대역에 대해 적용되는 양자화 스텝 사이즈를 1 만큼 감소시켜 갱신할 수 있다. 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산할 수 있다. 오디오 신호 부호화 장치 (200) 는, 상술한 글로벌 게인을 갱신하는 단계, 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 제 2 사용 비트수를 계산하는 단계를 반복함으로써 제 2 양자화 신호를 생성할 수 있다.
글로벌 게인이 감소되면, 전체 주파수 대역에 대한 양자화 에러 (quantization error) 가 감소된다. 즉, 감소된 글로벌 게인이 적용된 제 2 양자화 신호는, 기존의 글로벌 게인이 적용된 제 1 양자화 신호보다 많은 비트수를 사용함으로써, 부호화되는 오디오 신호의 음질이 높아진다. 본 발명의 제 1 실시예와 관련하여서는 후에 도 4 를 참조하여 보다 구체적으로 살펴본다.
한편, 본 발명의 제 2 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 신호를 복원함으로써 제 2 양자화 신호를 생성할 수 있다.
본 발명의 제 2 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 단계 S320 에서 제 1 주파수 영역 신호를 양자화함에 있어서, 심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여 제 1 주파수 영역 신호를 양자화할 수 있다. 제 2 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 단계 S320 에서, 마스킹 임계치를 이용하여, 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹할 수 있다. 오디오 신호 부호화 장치 (200) 는, 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성할 수 있다.
오디오 신호 부호화 장치 (200) 는, 제 1 양자화 신호에, 마스킹 임계치에 의해 마스킹된 대역들 중 적어도 하나의 대역에 대한 양자화 신호를 추가함으로써 제 1 양자화 신호를 보정할 수 있다. 오디오 신호 부호화 장치 (200) 는, 보정된 제 1 양자화 신호를 제 2 양자화 신호로서 출력할 수 있다.
이 때, 오디오 신호 부호화 장치 (200) 는, 제 1 주파수 영역 신호에 포함되는 각 주파수 대역별 에너지와 마스킹 임계치를 비교하여, 비교 결과에 기초하여 제 2 양자화 신호를 생성할 수 있다. 보다 구체적으로, 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 주파수 대역들의 대역별 에너지와 해당 대역에 대한 마스킹 임계치를 비교할 수 있다. 오디오 신호 부호화 장치 (200) 는, 비교 결과에 기초하여 마스킹된 적어도 하나의 대역 중 적어도 하나의 대역을 선택할 수 있다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 주파수 대역에 대한 에너지와 해당 대역에 대한 마스킹 임계치의 차이가 가장 작은 대역을 우선적으로 선택할 수 있다. 오디오 신호 부호화 장치 (200) 는, 제 1 양자화 신호에, 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 제 2 양자화 신호를 생성할 수 있다. 제 2 양자화 신호는, 마스킹 임계치에 의해 마스킹된 주파수 대역들 중에서 선택된 적어도 하나의 주파수 대역에 대한 양자화 신호를 포함함으로써, 남는 비트를 이용하여 부호화되는 오디오 신호의 음질을 높일 수 있다.
또한, 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수와 프레임 비트수의 차이에 기초하여, 마스킹된 신호가 복원된 제 2 양자화 신호를 생성할 수 있다. 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수와 프레임 비트수의 차이가 소정값 이상일 경우, 제 1 양자화 신호에, 마스킹 임계치에 의해 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 제 2 양자화 신호를 생성 할 수 있다.
예를 들어, 제1 양자화 신호는, 소정 대역에서 마스킹 임계치 이하의 신호 값을 제거한 신호이며, 이때 제거된 신호는 제3 양자화 신호라 하자. 상기 제 2 양자화 신호는 제1 양자화 신호에 상기 제3 양자화 신호 중 적어도 하나의 대역에 대한 신호를 추가한 신호가 될 수 있다.
즉, 오디오 신호 부호화 장치 (200) 는, 미리 결정된 비트수 이상의 비트수가 남는 경우, 마스킹 임계치에 의해 마스킹된 제 1 양자화 신호 대신에, 마스킹 임계치에 의해 마스킹되지 않은 제 2 양자화 신호를 출력할 수 있다.
본 발명의 제 2 실시예에 따라 출력되는 제 2 양자화 신호는, 마스킹 임계치에 의해 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 더 포함함으로써, 제 1 양자화 신호보다 많은 비트수를 사용하여 부호화된다. 따라서, 본 발명의 제 2 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 남는 비트를 이용하도록 양자화 신호를 보정함으로써 오디오 신호의 음질을 높일 수 있다. 본 발명의 제 2 실시예와 관련하여서는 후에 도 5 를 참조하여 보다 구체적으로 살펴본다.
단계 S360 에서 오디오 신호 부호화 장치 (200) 는, 제 2 양자화 신호를 부호화한다. 예를 들어, 오디오 신호 부호화 장치 (200) 는 제 2 양자화 신호에 대해 무잡음 부호화 및 비트스트림 패킹 등의 과정을 거쳐 비트스트림을 출력할 수 있다.
한편, 도 3 에 도시되지는 않았으나, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 단계 S340 에서 제 1 사용 비트수가 프레임 비트수보다 크다고 판단된 경우, 제 1 사용 비트수와 프레임 비트수의 차이에 기초하여, 글로벌 게인을 증가시키는 단계를 더 포함할 수 있다. 오디오 신호 부호화 장치 (200) 는 증가된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 제 2 양자화 신호를 생성할 수 있다.
또한, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 단계 S340 에서 제 1 사용 비트수가 프레임 비트수보다 크다고 판단된 경우, 글로벌 게인을 소정값만큼 증가시켜 갱신할 수 있다. 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화할 수 있다. 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산할 수 있다. 오디오 신호 부호화 장치 (200) 는, 제 2 사용 비트수가 프레임 비트수보다 작거나 같아질 때까지, 글로벌 게인을 소정값만큼 갱신하는 단계, 갱신된 글로벌 게인을 적용하여 양자화하는 단계, 및 상기 제 2 사용 비트수를 계산하는 단계를 반복할 수 있다.
도 4 는 본 발명의 제 1 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
본 발명의 제 1 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 조정하고, 조정된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화함으로써 보정된 양자화 신호를 생성할 수 있다.
단계 S410 에서 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 소정 값만큼 감소시켜 갱신한다. 이 때, 글로벌 게인이 감소되는 소정값은, 미리 결정된 값으로서, 사용자의 입력에 의해 설정되거나, 어플리케이션에 따라 미리 결정되거나, 프레임 비트수에 따라 미리 결정된 값일 수 있다. 예를 들어, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 1 만큼 감소시켜 갱신할 수 있다. 또는, 글로벌 게인이 감소되는 소정값은, 제 1 사용 비트수와 프레임 비트수 간의 차이에 기초하여 결정된 값일 수 있다. 단계 S420 에서 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 제 1 주파수 영역 신호를 양자화한다. 단계 S430 에서 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산한다.
단계 S440 에서 오디오 신호 부호화 장치 (200) 는, 제 2 사용 비트수가 프레임 비트수 보다 큰지를 판단한다. 즉, 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 오디오 신호를 양자화함으로써, 오디오 신호에 대해 할당될 비트가 부족해졌는지를 판단한다.
단계 S450 에서 오디오 신호 부호화 장치 (200) 는, 제 2 사용 비트수가 프레임 비트수 보다 큰 경우, 즉, 할당될 비트가 부족해진 경우, 이전 반복에서 갱신된 글로벌 게인을 적용하여 양자화된 제 1 주파수 영역 신호를 제 2 양자화 신호로서 출력할 수 있다.
단계 S460 에서 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인 또는 제 2 사용 비트수가 반복 종료 조건을 만족하는지 여부를 판단한다. 갱신된 글로벌 게인 또는 제 2 사용 비트수가 반복 종료 조건을 만족하지 않는 경우, 오디오 신호 부호화 장치 (200) 는, 적합한 글로벌 게인 및 적합한 제 2 사용 비트수를 갖는 제 2 양자화 신호를 출력할 수 있을 때까지, 앞선 단계 S410 내지 S450 을 반복할 수 있다.
일 예로서, 반복 종료 조건은, 갱신된 글로벌 게인이 소정 게인 이하가 되는 경우를 포함할 수 있다. 소정 게인은 사용자에 의해 입력된 값이거나, 어플리케이션에 따라 미리 결정된 값이거나, 프레임에 따라 계산되는 값일 수 있다.
오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인이 소정 게인 이하가 되는 경우 글로벌 게인이 더 이상 감소되지 않도록 반복을 종료할 수 있다. 글로벌 게인이 감소되면, 전체 주파수 대역들에 대한 양자화 에러가 감소된다. 그러나, 글로벌 게인이 계속 작아지게 되면, 오디오 신호 부호화 장치 (200) 의 연산량이 증가하게 된다. 따라서, 오디오 신호 부호화 장치 (200) 는 갱신된 글로벌 게인의 최소값을 미리 설정하여 둘 수 있다. 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인의 최소값으로서, 실험적으로 최적화된 값을 미리 설정하여 둘 수 있다.
오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인이 소정 게인 이하가 되면, 갱신된 글로벌 게인을 적용하여 양자화된 신호를 제 2 양자화 신호로서 출력할 수 있다.
다른 예로서, 반복 종료 조건은, 제 2 사용 비트수가 프레임 비트수와 동일한 경우를 포함할 수 있다. 오디오 신호 부호화 장치 (200) 는, 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 총 비트수가, 프레임당 사용 가능한 최대 비트수와 동일한 경우, 프레임 당 할당된 비트를 모두 활용함으로써 부호화된 오디오 신호가 최고의 음질을 갖게 된 것으로 판단할 수 있다.
따라서, 오디오 신호 부호화 장치 (200) 는, 제 2 사용 비트수가 프레임 비트수와 동일하게 되면, 갱신된 글로벌 게인을 적용하여 양자화된 신호를 제 2 양자화 신호로서 출력할 수 있다.
본 발명의 제 1 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 도 4 에 도시된 바와 같이, 글로벌 게인을 소정값만큼 감소시켜 갱신하는 동작을 반복함으로써 글로벌 게인을 조절하는 방법을 이용할 수 있다. 한편, 오디오 신호 부호화 장치 (200) 는, 남는 비트수에 기초하여 글로벌 게인을 감소시키는 방법을 이용함으로써 글로벌 게인 조절 속도를 더욱 향상시킬 수 있다.
남는 비트수, 즉, 제 1 사용 비트수와 프레임 비트수 간의 차이에 기초하여, 조절되어야 할 글로벌 게인은 다음과 같은 방법을 통해 계산될 수 있다.
먼저, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 글로벌 게인이 소정값만큼 증가하거나 감소함에 따라, 양자화된 신호에 의해 사용되는 사용 비트수의 증가 또는 감소율, 즉, 엔트로피 변화율을 추정할 수 있다. 예를 들어, 글로벌 게인, 즉, 전대역에 대해 적용되는 양자화 스텝 사이즈가 1 만큼 증가하거나 1 만큼 감소함에 따라, 양자화된 신호에 의해 사용되는 사용 비트수의 증가 또는 감소율을 추정할 수 있다.
오디오 신호 부호화 장치 (200) 는, 글로벌 게인의 변화에 따른 엔트로피 변화율을 추정함에 있어서, 글로벌 게인이 1 만큼 변화할 때 주파수 데이터 (spectral data) 1 개당 비트수의 변화율을 추정할 수 있다. 따라서, 글로벌 게인이 1만큼 변화함에 따른 사용 비트수의 변화를 추정하기 위해서, 오디오 신호 부호화 장치 (200) 는 전체 주파수 데이터의 수, 즉, 프레임 사이즈를 고려하여야 한다.
이하, 글로벌 게인이 1 만큼 증가함에 따라 주파수 데이터 1 개당 -3/16 bits 가 줄어드는 것으로 글로벌 게인의 변화에 따른 엔트로피 변화율이 추정된 경우를 예로 들어 설명한다. 그러나 본 발명은 이에 한정되지 않는다.
글로벌 게인의 변화에 따른 엔트로피 변화율이 글로벌 게인이 1 만큼 증가함에 따라 3/16 bits 가 줄어드는 것으로 추정된 경우, 프레임 사이즈가 128 비트라면 글로벌 게인이 1 감소함에 따라 3/16*128 = 24 bits 가 추가로 필요함을 알 수 있다.
예를 들어, 프레임 비트수가 600 이고 제 1 사용 비트수가 580 이라면, 제 1 사용 비트수와 프레임 비트수 간의 차이는 20 비트이다. 즉, 20 비트가 남는 것을 알 수 있다. 이 경우, 오디오 신호 부호화 장치 (200) 는 제 1 사용 비트수와 프레임 비트수 간의 차이를 대략 24 비트로 보고 글로벌 게인을 1 만큼 감소시킬 수 있다.
또 다른 예로서, 프레임 비트수가 600 인 경우, 제 1 사용 비트수가 550 이라면, 제 1 사용 비트수와 프레임 비트수 간의 차이는 50 이다. 이 경우, 오디오 신호 부호화 장치 (200) 는 제 1 사용 비트수와 프레임 비트수 간의 차이를 대략 48 비트로 보고 글로벌 게인을 2 만큼 감소시킬 수 있다.
상술한 바와 같이, 본 발명의 제 1 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수와 프레임 비트수 간의 차이에 따라 글로벌 게인을 감소시킬 수 있다. 다만, 제 1 사용 비트수와 프레임 비트수 간의 차이에 따라 얼마만큼의 글로벌 게인을 감소시킬지 여부는 상기 계산식에 한정되지 않는다.
도 5 는 본 발명의 제 2 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
본 발명의 제 2 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 신호를 복원함으로써 보정된 양자화 신호를 생성할 수 있다. 본 발명의 제 2 실시예는, 특정 프레임에서 사용된 비트수가 하나의 프레임에 대해 사용될 수 있는 최대 비트수보다 작은 경우, 마스킹되지 않은 원본 주파수 영역 신호를 이용함으로써, 비트수 조절을 수행할 수 있다.
단계 S510 에서 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역을 선택한다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 각 주파수 대역의 에너지와 마스킹 임계치를 비교하여, 비교 결과에 기초하여 적어도 하나의 대역을 선택할 수 있다. 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 적어도 하나의 주파수 대역에 대한 대역별 에너지와, 해당 대역에 대한 마스킹 임계치 간의 차이가 가장 작은 대역을 우선적으로 선택할 수 있다.
또 다른 예로서, 오디오 신호 부호화 장치 (200) 는, 제 1 사용 비트수와 프레임 비트수의 차이가 소정 비트수 이상일 경우, 마스킹 임계치에 의해 마스킹된 모든 대역을 선택할 수 있다.
단계 S520 에서, 오디오 신호 부호화 장치 (200) 는, 제 1 양자화 신호에, 단계 S510 에서 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가함으로써 제 2 양자화 신호를 생성할 수 있다.
본 발명의 제 2 실시예에 따라 출력되는 제 2 양자화 신호는, 마스킹 임계치에 의해 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 더 포함함으로써, 제 1 양자화 신호보다 많은 비트수를 사용하여 부호화된다. 따라서, 본 발명의 제 2 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 남는 비트를 이용하도록 양자화 신호를 보정함으로써 오디오 신호의 음질을 높일 수 있다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 각 프레임에 포함되는 남는 비트를 활용하여 양자화 신호를 보정하고, 보정된 양자화 신호를 부호화함으로써, 부호화되는 오디오 신호의 음질을 높일 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 각 프레임 신호의 특성 및 남는 비트수에 따라 글로벌 게인을 조절하고, 남는 비트수에 기초하여 마스킹되지 않은 원본 주파수 영역 신호를 이용함으로써 고음질의 부호화된 오디오 신호를 만들 수 있다. 따라서, 지각 음향 부호화 장치가 저지연 오디오 부호화 방법을 이용함으로 인하여, 프레임 비트수가 충분하지 못하여 발생하는 음질 열화와 같은 문제를 본 발명을 통해 해결할 수 있다.
한편, 본 발명의 다른 일 실시예에 따르면, 오디오 신호 부호화 장치 (200) 는, 부호화된 오디오 신호에 대하여 비트가 남는 경우 뿐만 아니라, 비트가 부족한 경우에도, 오디오 신호를 보정함으로써 부호화된 오디오 신호의 비트수를 조절할 수 있다. 따라서, 오디오 신호 부호화 장치 (200) 는, 비트 할당을 수행함에 있어서, 특정 오디오 프레임에 대해 사용된 총 비트수가 한 프레임당 사용 가능한 최대 비트수를 초과하지 않도록 할 수 있다.
도 6 은 본 발명의 제 3 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
도 6 을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은 도 2 에 도시된 오디오 신호 부호화 장치 (200) 에서 처리되는 단계들로 구성된다. 따라서, 이하에 생략된 내용이라 하더라도 도 2 에 도시된 오디오 신호 부호화 장치 (200) 에 관하여 상술된 내용은 도 6 의 오디오 신호 부호화 방법에도 적용됨을 알 수 있다.
도 6 의 단계 S610 내지 S640 는, 도 3 의 단계 S310 내지 S340 에 대응된다. 따라서, 이하에 생략된 내용이라 하더라도 도 3 에 도시된 오디오 신호 부호화 방법에 관하여 상술된 내용은 도 6 의 오디오 신호 부호화 방법에도 적용됨을 알 수 있다.
단계 S610 에서 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 오디오 신호를 주파수 영역 신호로 변환한다. 단계 S620 에서 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 적용하여 주파수 영역 신호를 양자화한다. 단계 S630 에서 오디오 신호 부호화 장치 (200) 는, 양자화된 신호에 의해 사용된 사용 비트수를 계산한다. 단계 S640 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은지를 판단한다.
단계 S350 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 프레임 비트수보다 작은 경우, 적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는지 여부를 판단한다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 적용된 글로벌 게인이 소정 게인 이하인 경우 또는 사용 비트수와 프레임 비트수의 차이가 소정 비트수 이하인 경우, 반복 종료 조건을 만족하는 것으로 판단할 수 있다. 반복 종료 조건과 관련된 소정 게인 및 소정 비트수는, 사용자에 의해 입력된 값이거나, 어플리케이션에 따라 미리 결정된 값이거나, 프레임에 따라 계산되는 값일 수 있다.
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하는 경우, 오디오 신호 부호화 장치 (200) 는 단계 S620 에서 양자화된 신호를 부호화한다.(S670)
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하지 않는 경우, 오디오 신호 부호화 장치 (200) 는 글로벌 게인을 소정값만큼 감소시켜 갱신한다.(S655) 일 예로서, 오디오 신호 부호화 장치 (200) 는, 사용 비트수와 프레임 비트수의 차이에 기초하여, 글로벌 게인을 얼마나 감소시킬지 결정할 수 있다. 다른 예로서, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 1 만큼 감소시켜 갱신할 수 있다. 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 갱신한 후, 단계 S620 으로 돌아가 갱신된 글로벌 게인을 적용하여 주파수 영역 신호를 양자화한다
단계 S660 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 프레임 비트수보다 작지 않은 경우, 적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는지 여부를 판단한다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 적용된 글로벌 게인이 소정 게인 이상인 경우, 사용 비트수와 프레임 비트수의 차이가 소정 비트수 이하인 경우, 또는 사용 비트수와 프레임 비트수가 동일한 경우에, 반복 종료 조건을 만족하는 것으로 판단할 수 있다. 반복 종료 조건과 관련된 소정 게인 및 소정 비트수는, 사용자에 의해 입력된 값이거나, 어플리케이션에 따라 미리 결정된 값이거나, 프레임에 따라 계산되는 값일 수 있다.
적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는 경우, 오디오 신호 부호화 장치 (200) 는 단계 S620 에서 양자화된 신호를 부호화한다.(S670)
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하지 않는 경우, 오디오 신호 부호화 장치 (200) 는 글로벌 게인을 소정값만큼 증가시켜 갱신한다.(S665) 일 예로서, 오디오 신호 부호화 장치 (200) 는, 사용 비트수와 프레임 비트수의 차이에 기초하여, 글로벌 게인을 얼마나 증가시킬지 결정할 수 있다. 다른 예로서, 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 1 만큼 증가시켜 갱신할 수 있다. 오디오 신호 부호화 장치 (200) 는, 글로벌 게인을 갱신한 후, 단계 S620 으로 돌아가 갱신된 글로벌 게인을 적용하여 주파수 영역 신호를 양자화한다.
도 7 은 본 발명의 제 4 실시예에 따라 양자화된 신호를 보정하는 단계를 설명하기 위한 흐름도이다.
단계 S610 에서 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (200) 는, 오디오 신호를 주파수 영역 신호로 변환한다.
단계 S710 에서, 오디오 신호 부호화 장치 (200) 는, 심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여, 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹할 수 있다.
단계 S620 에서, 오디오 신호 부호화 장치 (200) 는 마스킹 임계치에 의해 마스킹된 주파수 대역을 제외하고 나머지 주파수 영역 신호에 대해서만 양자화할 수 있다. 단계 S630 에서 오디오 신호 부호화 장치 (200) 는, 양자화된 신호에 의해 사용된 사용 비트수를 계산할 수 있다. 단계 S640 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은지를 판단할 수 있다.
단계 S720 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 프레임 비트수보다 작은 경우, 적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는지 여부를 판단할 수 있다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 적용된 글로벌 게인이 소정 게인 이하인 경우 또는 사용 비트수와 프레임 비트수의 차이가 소정 비트수 이하인 경우, 반복 종료 조건을 만족하는 것으로 판단할 수 있다. 반복 종료 조건과 관련된 소정 게인 및 소정 비트수는, 사용자에 의해 입력된 값이거나, 어플리케이션에 따라 미리 결정된 값이거나, 프레임에 따라 계산되는 값일 수 있다.
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하는 경우, 오디오 신호 부호화 장치 (200) 는 단계 S620 에서 양자화된 신호를 부호화할 수 있다.(S670)
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하지 않는 경우, 단계 S723 에서 오디오 신호 부호화 장치 (200) 는, 단계 S710 에서 마스킹 임계치에 의해 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역을 선택할 수 있다.
예를 들어, 오디오 신호 부호화 장치 (200) 는, 각 주파수 대역의 에너지와 마스킹 임계치를 비교하여, 비교 결과에 기초하여 적어도 하나의 대역을 선택할 수 있다. 오디오 신호 부호화 장치 (200) 는, 마스킹 임계치에 의해 마스킹된 적어도 하나의 주파수 대역에 대한 대역별 에너지와, 해당 대역에 대한 마스킹 임계치 간의 차이가 가장 작은 대역을 우선적으로 선택할 수 있다.
또 다른 예로서, 오디오 신호 부호화 장치 (200) 는, 사용 비트수와 프레임 비트수의 차이가 소정 비트수 이상일 경우, 마스킹 임계치에 의해 마스킹된 모든 대역을 선택할 수 있다.
단계 S725 에서, 오디오 신호 부호화 장치 (200) 는, 선택된 대역에 대한 주파수 영역 신호가 추가된 주파수 영역 신호를 양자화할 수 있다. 즉, 오디오 신호 부호화 장치 (200) 는, 단계 S710 에서 마스킹된 주파수 영역 신호 중에서 선택된 대역에 대응되는 주파수 영역 신호를 복원함으로써 보정된 양자화 신호를 생성할 수 있다.
한편, 단계 S660 에서 오디오 신호 부호화 장치 (200) 는, 사용 비트수가 프레임 비트수보다 작지 않은 경우, 적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는지 여부를 판단할 수 있다. 적용된 글로벌 게인 및 사용 비트수 중 적어도 하나가 반복 종료 조건을 만족하는 경우, 오디오 신호 부호화 장치 (200) 는 단계 S620 에서 양자화된 신호를 부호화할 수 있다.(S670)
적용된 글로벌 게인 또는 사용 비트수가 반복 종료 조건을 만족하지 않는 경우, 오디오 신호 부호화 장치 (200) 는 글로벌 게인을 소정값만큼 증가시켜 갱신할 수 있다.(S665)
상술한 바와 같이, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 부호화된 오디오 신호에 대하여 비트가 남는 경우 뿐만 아니라, 비트가 부족한 경우에도, 오디오 신호를 보정함으로써 부호화된 오디오 신호의 비트수를 조절할 수 있다. 따라서, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 오디오 신호가 각 프레임 별로 적합한 비트수를 사용하여 부호화됨으로써 부호화되는 오디오 신호의 음질을 높일 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (21)

  1. 오디오 신호를 제 1 주파수 영역 신호로 변환하는 단계;
    글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 단계;
    상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 단계;
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우, 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 단계; 및
    상기 제 2 양자화 신호를 부호화하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 부호화 방법.
  2. 제 1 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 글로벌 게인을 조정하는 단계; 및
    상기 조정된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  3. 제 1 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 감소시키는 단계; 및
    상기 감소된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  4. 제 1 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계;
    상기 제 2 사용 비트수가 상기 프레임 비트수를 초과할 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계; 및
    상기 제 2 사용 비트수가 상기 프레임 비트수를 초과하는 경우, 이전 반복에서 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  5. 제 1 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계; 및
    상기 갱신된 글로벌 게인이 소정 게인 이하가 될 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  6. 제 1 항에 있어서,
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 증가시키는 단계; 및
    상기 증가된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  7. 제 1 항에 있어서,
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 글로벌 게인을 소정값만큼 증가시켜 갱신하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 단계;
    상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 단계; 및
    상기 제 2 사용 비트수가 상기 프레임 비트수보다 작거나 같아질 때까지, 상기 글로벌 게인을 갱신하는 단계, 상기 갱신된 글로벌 게인을 적용하여 양자화하는 단계 및 상기 제 2 사용 비트수를 계산하는 단계를 반복하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  8. 제 1 항에 있어서,
    상기 제 1 양자화 신호를 생성하는 단계는,
    심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여, 상기 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹하는 단계; 및
    상기 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 상기 제 1 양자화 신호를 생성하는 단계를 포함하고,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 제 1 양자화 신호에, 상기 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  9. 제 8 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 마스킹 임계치에 의해 마스킹된 대역별 에너지와 상기 각 대역에 대한 마스킹 임계치를 비교하는 단계;
    상기 비교 결과에 기초하여 상기 마스킹된 적어도 하나의 대역 중 적어도 하나의 대역을 선택하는 단계; 및
    상기 제 1 양자화 신호에 상기 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  10. 제 8 항에 있어서,
    상기 제 2 양자화 신호를 생성하는 단계는,
    상기 제 1 사용 비트수와 상기 프레임 비트수의 차이가 소정값 이상일 경우, 상기 제 1 양자화 신호에, 상기 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  11. 오디오 신호를 제 1 주파수 영역 신호로 변환하는 주파수 변환부;
    글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 양자화부, 상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 비트수 계산부, 및 상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 보정부를 포함하는, 비트수 조절 양자화부; 및
    상기 제 2 양자화 신호를 부호화하는 부호화부를 포함하는 것을 특징으로 하는, 오디오 신호 부호화 장치.
  12. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 글로벌 게인을 조정하고, 상기 조정된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  13. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여 상기 글로벌 게인을 감소시키고, 상기 감소된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  14. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수가 상기 프레임 비트수보다 작은 경우, 상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 제 2 사용 비트수가 상기 프레임 비트수를 초과할 때까지 반복하고,
    상기 제 2 사용 비트수가 상기 프레임 비트수를 초과하는 경우, 이전 반복에서 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  15. 제 11 항에 있어서,
    상기 보정부는,
    상기 글로벌 게인을 소정값만큼 감소시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 갱신된 글로벌 게인이 소정 게인 이하가 될 때까지 반복하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  16. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 제 1 사용 비트수와 상기 프레임 비트수의 차이에 기초하여, 상기 글로벌 게인을 증가시키고, 상기 증가된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  17. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 큰 경우, 상기 글로벌 게인을 소정값만큼 증가시켜 갱신하는 동작, 상기 갱신된 글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화하는 동작, 및 상기 갱신된 글로벌 게인을 적용하여 양자화된 신호에 의해 사용된 제 2 사용 비트수를 계산하는 동작을, 상기 제 2 사용 비트수가 상기 프레임 비트수보다 작거나 같아질 때까지, 반복하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  18. 제 11 항에 있어서,
    상기 양자화부는,
    심리 음향 모델에 기초하여 결정된 마스킹 임계치를 적용하여, 상기 제 1 주파수 영역 신호에 포함되는 복수의 대역들 중에서 적어도 하나의 대역을 마스킹하고, 상기 마스킹된 제 1 주파수 영역 신호를 양자화함으로써 상기 제 1 양자화 신호를 생성하고,
    상기 보정부는,
    상기 제 1 양자화 신호에 상기 마스킹된 적어도 하나의 대역 중에서 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  19. 제 11 항에 있어서,
    상기 보정부는,
    상기 마스킹 임계치에 의해 마스킹된 대역별 에너지와 상기 각 대역에 대한 마스킹 임계치를 비교하고, 상기 비교 결과에 기초하여 상기 마스킹된 적어도 하나의 대역 중 적어도 하나의 대역을 선택하고, 상기 제 1 양자화 신호에 상기 선택된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  20. 제 11 항에 있어서,
    상기 보정부는,
    상기 제 1 사용 비트수와 상기 프레임 비트수의 차이가 소정값 이상일 경우, 상기 제 1 양자화 신호에 상기 마스킹된 적어도 하나의 대역에 대한 양자화 신호를 추가하여 상기 제 2 양자화 신호를 생성하는 것을 특징으로 하는 오디오 신호 부호화 장치.
  21. 오디오 신호 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서,
    상기 방법은,
    오디오 신호를 제 1 주파수 영역 신호로 변환하는 단계;
    글로벌 게인을 적용하여 상기 제 1 주파수 영역 신호를 양자화함으로써 제 1 양자화 신호를 생성하는 단계;
    상기 제 1 양자화 신호에 의해 사용된 제 1 사용 비트수를 계산하는 단계; 및
    상기 제 1 사용 비트수가 상기 오디오 신호의 프레임에 대해 미리 할당된 프레임 비트수보다 작은 경우, 상기 제 1 양자화 신호를 보정하여 제 2 양자화 신호를 생성하는 단계; 및
    상기 제 2 양자화 신호를 부호화하는 단계를 포함하는 것을 특징으로 하는, 컴퓨터로 읽을 수 있는 기록매체.
KR1020130114685A 2013-09-26 2013-09-26 오디오 신호 부호화 방법 및 장치 KR102243217B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130114685A KR102243217B1 (ko) 2013-09-26 2013-09-26 오디오 신호 부호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130114685A KR102243217B1 (ko) 2013-09-26 2013-09-26 오디오 신호 부호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20150034507A true KR20150034507A (ko) 2015-04-03
KR102243217B1 KR102243217B1 (ko) 2021-04-22

Family

ID=53031308

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130114685A KR102243217B1 (ko) 2013-09-26 2013-09-26 오디오 신호 부호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102243217B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767955A (zh) * 2020-07-22 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040073862A (ko) * 2003-02-15 2004-08-21 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
KR20070121568A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 오디오 데이터 부호화 방법 및 장치
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040073862A (ko) * 2003-02-15 2004-08-21 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
KR20070121568A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 오디오 데이터 부호화 방법 및 장치
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767955A (zh) * 2020-07-22 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备
CN112767955B (zh) * 2020-07-22 2024-01-23 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
KR102243217B1 (ko) 2021-04-22

Similar Documents

Publication Publication Date Title
US11621009B2 (en) Audio processing for voice encoding and decoding using spectral shaper model
US8612219B2 (en) SBR encoder with high frequency parameter bit estimating and limiting
RU2752127C2 (ru) Усовершенствованный квантователь
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP6368029B2 (ja) 雑音信号処理方法、雑音信号生成方法、符号化器、復号化器、並びに符号化および復号化システム
EP2186089A1 (en) Method and device for noise filling
WO2009142466A2 (ko) 오디오 신호 처리 방법 및 장치
US8838442B2 (en) Method and system for two-step spreading for tonal artifact avoidance in audio coding
JP2010537261A (ja) 周波数サブバンドのスペクトルダイナミクスに基づくオーディオ符号化における時間マスキング
WO2012005210A1 (ja) 符号化方法、復号方法、装置、プログラムおよび記録媒体
WO2010111876A1 (zh) 一种信号去噪的方法和装置及音频解码***
JP2018041091A (ja) 信号処理方法及び装置
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
JP2012118205A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR102243217B1 (ko) 오디오 신호 부호화 방법 및 장치
KR102231756B1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
RU2662921C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
RU2660633C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения
JP2012519309A (ja) オーディオ符号化のための量子化
US8626501B2 (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
TWI587287B (zh) 柔和噪音產生模式選擇之裝置與方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right