KR20140026279A - 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법 - Google Patents

오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법 Download PDF

Info

Publication number
KR20140026279A
KR20140026279A KR1020130099466A KR20130099466A KR20140026279A KR 20140026279 A KR20140026279 A KR 20140026279A KR 1020130099466 A KR1020130099466 A KR 1020130099466A KR 20130099466 A KR20130099466 A KR 20130099466A KR 20140026279 A KR20140026279 A KR 20140026279A
Authority
KR
South Korea
Prior art keywords
signal
encoding
decoding
audio
unit
Prior art date
Application number
KR1020130099466A
Other languages
English (en)
Other versions
KR102204136B1 (ko
Inventor
백승권
이태진
성종모
강경옥
최근우
Original Assignee
한국전자통신연구원
한국산업은행
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 한국산업은행 filed Critical 한국전자통신연구원
Priority to US14/423,366 priority Critical patent/US9711150B2/en
Priority to PCT/KR2013/007531 priority patent/WO2014030938A1/ko
Publication of KR20140026279A publication Critical patent/KR20140026279A/ko
Priority to US15/652,055 priority patent/US10332526B2/en
Priority to US16/404,334 priority patent/US10783892B2/en
Application granted granted Critical
Publication of KR102204136B1 publication Critical patent/KR102204136B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

무손실 부호화 방법 또는 손실 부호화 방법을 통해 오디오 신호를 부호화하는 오디오 부호화 장치와 부호화된 오디오 신호를 복호화하는 오디오 복호화 장치가 개시된다. 일실시예에 따른 오디오 부호화 장치는 입력 신호의 특성에 기초하여 입력 신호의 형태를 결정하는 입력 신호 타입 결정부; 상기 입력 신호 타입 결정부의 출력 신호에 기초하여 잔차 신호를 생성하는 잔차 신호 생성부; 및 상기 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행하는 부호화부를 포함할 수 있다.

Description

오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법{APPARATUS AND METHOD FOR ENCODING AUDIO SIGNAL, APPARATUS AND METHOD FOR DECODING AUDIO SIGNAL}
아래의 설명은 오디오 신호를 부호화하는 오디오 부호화 장치 및 부호화된 오디오 신호를 복호화하는 오디오 복호화 장치에 관한 것이다.
종래의 기술은 손실 부호화 방식과 무손실 부호화 방식이 분리되어 개발되어 왔다. 즉, 대부분의 무손실 압축방식은 무손실 압축 기능에 초점을 맞추고 있으며, 손실 부호화 방식은 무손실 압축과는 별개로 압축 효율을 높이는 쪽으로 초점을 맞추고 있다.
FLAC 또는 Shorten과 같은 종래의 기술은 아래와 같이 무손실 부호화를 수행한다. 입력 신호는 예측 부호화기를 거쳐 잔차 신호를 생성하게 되며, 잔차신호는 자신의 Dynamic range를 줄이기 위해 differential 연산과 같은 "Residual Handing" 모듈을 거치게 되어 Dynamic range가 줄어든 잔차 신호를 출력한다. 이 잔차신호는 무손실 압축방법인 엔트로피 코딩 방식에 의해 비트스트림으로 표현되어 전송된다. 대부분의 무손실 압축 방식은 하나의 엔트로피 코딩 블록을 통해 압축되고 부호화된다. FLAC의 경우는 Rice coding 방식을 사용하고 있으며, Shorten의 경우는 Huffman coding 방식을 활용하고 있다.
일실시예에 따른 오디오 부호화 장치는, 입력 신호의 형태를 결정하는 입력 신호 타입 결정부; 상기 입력 신호 타입 결정부의 출력 신호에 기초하여 잔차 신호를 생성하는 잔차 신호 생성부; 및 상기 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행하는 부호화부를 포함할 수 있다.
일실시예에 따른 오디오 부호화 장치는, 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신부; 상기 오디오 신호가 부호화된 부호화 방법에 따라 무손실 복호화 또는 손실 복호화를 수행하는 복호화부; 및 상기 무손실 복호화 또는 상기 손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원하는 복원부를 포함할 수 있다.
일실시예에 따른 오디오 부호화 방법은, 입력 신호의 형태를 결정하는 단계; 상기 형태가 결정된 입력 신호에 기초하여 잔차 신호를 생성하는 단계; 및 상기 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행하는 단계를 포함할 수 있다.
일실시예에 따른 오디오 복호화 방법은, 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신하는 단계; 상기 오디오 신호가 부호화된 부호화 방법에 따라 무손실 복호화 또는 손실 복호화를 수행하는 단계 및 상기 무손실 복호화 또는 상기 무손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원하는 단계를 포함할 수 있다.
도 1은 일실시예에 따른 오디오 부호화 장치의 세부 구성을 나타낸 도면이다.
도 2는 일실시예에 따른 입력 신호 타입 결정부의 동작을 설명하기 위한 도면이다.
도 3은 일실시예에 따른 무손실 부호화부의 세부 구성을 도시한 도면이다.
도 4는 일실시예에 따른 부호화 모드 선택부가 부호화 모드를 결정하는 동작을 설명하기 위한 흐름도이다.
도 5는 일실시예에 따른 Entropy Rice Coding 모드의 수행 과정을 설명하기 위한 흐름도이다.
도 6은 일실시예에 따른 손실 부호화부의 세부 구성을 도시한 도면이다.
도 7은 일실시예에 따른 오디오 복호화 장치의 구성을 도시한 도면이다.
도 8은 일실시예에 따른 무손실 복호화부의 세부 구성을 도시한 도면이다.
도 9는 일실시예에 따른 손실 복호화부의 세부 구성을 도시한 도면이다.
도 10은 일실시예에 따른 오디오 부호화 방법의 동작을 설명하기 위한 흐름도이다.
도 11은 일실시예에 따른 오디오 복호화 방법의 동작을 설명하기 위한 흐름도이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 발명의 실시예들을 설명하기 위한 목적으로 예시된 것으로, 발명의 범위가 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 안된다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 오디오 부호화 장치(100)의 세부 구성을 나타낸 도면이다.
오디오 부호화 장치(100)는 무손실 부호화 방법 및 손실 부호화 방법 중 입력 신호의 특성 또는 목적에 따라 최적의 부호화 방법을 수행할 수 있다. 오디오 부호화 장치(100)는 입력 신호의 특성에 기초하여 최적의 부호화 방식을 결정할 수 있다. 이에 따라, 오디오 부호화 장치(100)는 부호화 효율을 개선할 수 있다.
오디오 부호화 장치(100)는 무손실 부호화 방법뿐만 아니라 손실 부호화 방법도 수행하기 위해 잔차 신호를 주파수 영역으로 변환하고, 주파수 영역으로 변환된 잔차 신호를 양자화할 수 있다. 오디오 부호화 장치(100)는 손실 부호화 방법에 적용되는 엔트로피 코딩 방법도 무손실 부호화 방법의 엔트로피 코딩 모듈을 이용할 수 있도록 하여 구조적인 복잡도를 줄이고, 단일 구조에서 무손실 부호화 방법 및 손실 부호화 방법을 수행할 수 있다.
도 1에 따르면, 오디오 부호화 장치(100)는 입력 신호 타입 결정부(110), 잔차 신호 생성부(120), 및 부호화부(130)를 포함할 수 있다.
입력 신호 타입 결정부(110)는 입력 신호의 출력 형태를 결정할 수 있다. 입력 신호는 L 신호 및 R 신호를 포함하는 스테레오 신호일 수 있다. 입력 신호는 프레임 단위로 오디오 부호화 장치(100)에 입력될 수 있다. 입력 신호 타입 결정부(110)는 스테레오 신호의 특성에 따라 출력 L/R 타입을 결정할 수 있다.
프레임 크기를 "N" 이라 할 때, 입력 신호 중 L 신호 및 R 신호는 각각 다음의 수학식 1 및 수학식2와 같이 나타낼 수 있다.
Figure pat00001
Figure pat00002
예를 들어, 입력 신호 타입 결정부(110)는 L 신호, R 신호, 및 L 신호와 R 신호의 합 신호에 기초하여 입력 신호의 변경 여부를 결정할 수 있다. 입력 신호 타입 결정부(110)가 입력 신호의 출력 형태를 결정하는 동작의 보다 자세한 내용은 도 2에서 후술하도록 한다.
잔차 신호 생성부(120)는 입력 신호 타입 결정부(110)의 출력 신호에 기초하여 잔차 신호(residual signal)를 생성할 수 있다. 예를 들어, 잔차 신호 생성부(120)는 LPC(Linear Predictive Coding) 잔차 신호를 생성할 수 있다. 잔차 신호 생성부(120)는 선형 예측 부호화(LPC) 등과 같이 관련 기술분야에서 널리 이용되는 방법들을 이용하여 잔차 신호를 생성할 수 있다.
도 1에서, 입력 신호 타입 결정부(110)의 출력 신호는 각각 M 신호 및 S 신호로 나타내고 있고, M 신호 및 S 신호는 잔차 신호 생성부(120)에 입력된다. 잔차 신호 생성부(120)는 M 신호의 잔차 신호인 M_res 신호 및 S 신호의 잔차 신호인 S_res 신호를 출력할 수 있다.
부호화부(130)는 잔차 신호를 이용하여 무손실 부호화(Lossless coding mode) 또는 손실 부호화(Lossy coding mode)를 수행할 수 있다. 무손실 부호화는 오디오 신호의 품질을 보다 중요시하는 경우에 수행되고, 손실 부호화는 보다 높은 부호화율을 획득하기 위해 수행된다. 부호화부(130)는 무손실 부호화를 수행하는 무손실 부호화부(140), 및 손실 부호화를 수행하는 손실 부호화부(150)를 포함할 수 있다. 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호는 부호화 방식에 따라 무손실 부호화부(140) 또는 손실 부호화부(150)에 입력될 수 있다. 무손실 부호화부(140)는 잔차 신호를 이용하여 무손실 부호화를 수행하고, 비트스트림을 생성할 수 있다. 손실 부호화부(150)는 잔차 신호를 이용하여 손실 부호화를 수행하고, 비트스트림을 생성할 수 있다.
무손실 부호화부(140)의 보다 구체적인 동작은 도 3에서 후술하도록 하고, 손실 부호화부(150)의 보다 구체적인 동작은 도 6에서 후술하도록 한다.
오디오 신호가 부호화되어 생성된 비트스트림은 오디오 복호화 장치에 전송되고, 오디오 복호화 장치에서 복호화 과정이 수행된 후 원래의 오디오 신호가 복원될 수 있다.
도 2는 일실시예에 따른 입력 신호 타입 결정부의 동작을 설명하기 위한 도면이다.
입력 신호 타입 결정부는 입력 신호로서 스테레오 신호가 프레임 단위로 입력될 때, 도 2에 나타난 연산 과정에 따라 입력 신호의 출력 타입을 결정할 수 있다.
단계(210)에서, 입력 신호 타입 결정부는 입력된 L 신호 및 R 신호에 기초하여 M1 신호, M2 신호 및 M3 신호를 결정할 수 있다. 예를 들어, 입력 신호 타입 결정부는 "M1 신호=L 신호", "M2 신호=L 신호 + R 신호", "M3 신호=R 신호"와 같이 입력 신호를 매핑할 수 있다.
단계(220)에서, 입력 신호 타입 결정부는 M1 신호, M2 신호, 및 M3 신호 각각에 절대치를 취한 값의 합(summation)을 계산할 수 있다. 단계(220)의 결과로서, M1 신호에 대한 norm(M1), M2 신호에 대한 norm(M2), M3 신호에 대한 norm(M3)가 계산될 수 있다.
단계(230)에서, 입력 신호 타입 결정부는 M1 신호, M2 신호, 및 M3 신호 중 최소의 norm(ㆍ) 값을 갖게 하는 신호
Figure pat00003
를 결정할 수 있다.
Figure pat00004
신호는 M1 신호, M2 신호, 및 M3 신호 중 어느 하나일 수 있다.
단계(240)에서, 입력 신호 타입 결정부는 최소의 norm(ㆍ) 값이 0 인지 여부를 판단할 수 있다. 최소의 norm(ㆍ) 값은
Figure pat00005
으로 나타낼 수 있다. 입력 신호 타입 결정부는
Figure pat00006
이 0 인 경우, 입력 신호 타입 결정부의 출력 신호인 M 신호와 S 신호를 각각 L 신호 및 R 신호로 출력할 수 있다. 즉, 입력 신호 타입 결정부는
Figure pat00007
이 0 인 경우, "M 신호=L 신호", "S 신호=R 신호"와 같이 입력 신호 타입 결정부의 출력 신호를 결정할 수 있다.
Figure pat00008
이 0 이 아닌 경우, 입력 신호 타입 결정부는 "M 신호=
Figure pat00009
신호 * 0.5", "S 신호=L 신호 - R 신호"와 같이 입력 신호 타입 결정부의 출력 신호를 결정할 수 있다.
위와 같은 과정을 통해 입력 신호 타입 결정부는 L 신호와 R 신호를 입력으로 하고, M 신호와 S 신호를 출력할 수 있다.
도 3은 일실시예에 따른 무손실 부호화부(300)의 세부 구성을 도시한 도면이다.
도 3에 따르면, 무손실 부호화부(300)는 디퍼런스 타입 선택부(Difference Type Selection Unit, 310), 서브 블록 분할부(Sub-block Split Unit, 320), 부호화 모드 선택부(Coding Mode Selection Unit, 330), 오디오 부호화부(340), 비트레이트 제어부(Bitrate Control Unit, 360), 및 비트스트림 전송부(350)를 포함할 수 있다.
디퍼런스 타입 선택부(310)는 잔차 신호의 Dynamic range를 줄이기 위해 디퍼런셜(differential) 연산을 수행하여 Dynamic range가 줄어든 잔차 신호를 출력할 수 있다. 디퍼런스 타입 선택부(310)는 잔차 신호 M_res 및 잔차 신호 S_res를 입력으로 하고, M_res_diff 신호 및 S_res_diff 신호를 출력한다. M_res_diff 신호 및 S_res_diff 신호는 프레임 단위의 신호이며, 수학식 1과 동일 또는 유사한 형태로 표현될 수 있다.
서브 블록 분할부(320)는 디퍼런스 타입 선택부(310)의 출력 신호를 복수 개의 서브 블록들로 분할할 수 있다. 서브 블록 분할부(320)는 입력 신호의 특성에 기초하여 M_res_diff 신호 및 S_res_diff 신호를 균일 크기의 서브 블록으로 분할할 수 있다. 예를 들어, M_res_diff 신호를 분할하는 과정은 다음의 수학식 3과 같이 나타낼 수 있다.
Figure pat00010
여기서
Figure pat00011
이며, 편의상 N 과 M은 2의 자승으로 설정하여 K 값이 정수가 되도록 한다. M 값은 다양한 방법을 통해 결정될 수 있다. 예를 들어, M 값은 입력 프레임 신호의 정적 특성(Stationary property)의 분석을 통해 결정되거나, 평균과 분산 값에 기초한 통계적 특성에 의해 결정되거나, 또는 실제 계산된 코딩 이득에 의해 결정될 수 있다. M 값을 결정하는 방법은 위 기재된 실시예에 한정되지 않으며, M 값은 다양한 방법을 통해 정의될 수 있다.
수학식 3으로부터 서브 블록 m_res_diffj 가 획득될 수 있다. S_res_diff 신호도 M_res_diff 신호를 분할하는 과정과 동일한 과정을 통해 분할될 수 있으며, M_res_diff 신호와 마찬가지로 서브 블록 s_res_diffj 가 획득될 수 있다. 서브 블록 m_res_diffj 또는 서브 블록 s_res_diffj 은 다양한 부호화 방법에 의해 부호화될 수 있다.
부호화 모드 선택부(330)는 서브 블록 m_res_diffj 또는 서브 블록 s_res_diffj 을 부호화하기 위한 부호화 모드를 선택할 수 있다. 일실시예에 따르면, 부호화 모드는 "open loop" 방식과 "closed loop" 방식의 두 가지 방식에 기초하여 결정할 수 있다. "open loop" 방식은 부호화 모드 선택부(330)가 부호화 모드를 결정하는 방식을 나타낸다. "closed loop" 방식은 부호화 모드 선택부(330)가 부호화 모드를 결정하지 않고, 각각의 부호화 모드에 따라 입력 신호를 모두 부호화해 본 후, 부호화 성능이 가장 좋은 부호화 모드를 결정하는 방식을 나타낸다. 예를 들어, "closed loop" 방식에서는 입력 신호를 가장 작은 비트로 부호화시키는 부호화 모드를 수행할 부호화 모드로 결정될 수 있다.
예를 들어, 부호화 모드에는 Normal Rice Coding, Entropy Rice Coding, PCM Rice Coding, Zero Block Coding 등이 포함될 수 있다. 부호화 모드 선택부(330) Normal Rice Coding, Entropy Rice Coding, PCM Rice Coding, 및 Zero Block Coding 중 어느 부호화 모드를 수행할지를 결정할 수 있다. PCM Rice Coding 모드는 closed loop 방식으로 부호화 모드를 결정한다.
각각의 부호화 모드에 대해서 설명하면 아래와 같다.
(1) Zero Block Coding 모드가 선택되면 모드 비트만이 전송된다. 현재 부호화 모드가 4가지 이므로, 2비트로 부호화 모드 정보의 전송이 가능하다. 예를 들어, "00: Zero Block Coding, 01: Normal Rice Coding, 02: PCM Rice Coding, 03: Entropy Rice Coding"와 같이 부호화 모드가 할당되었다고 가정한다. 만약 "00" 비트가 전송되면, 오디오 복호화 장치에서는 오디오 부호화 장치에서 수행된 부호화 모드가 Zero Block Coding 모드라는 것을 식별할 수 있고, 서브 블록의 크기만큼 "Zero" 신호를 생성할 수 있다. Zero Block Coding 모드를 전송하기 위해서는 부호화 모드를 나타내는 비트 정보만이 필요하다.
(2) Normal Rice Coding 모드는 일반적인 Rice coding 모드를 나타낸다. Rice Coding의 경우, 입력 신호를 나누어주는 수를 결정하고, 나누어주는 수가 결정되는 입력 신호를 몫(exponent)와 나머지(mantissa)로 표현한다. exponent와 mantissa를 부호화하는 방식은 기존의 Rice Coding 방식과 동일하다. 예를 들어, exponent을 부호화하는 방식으로 unary coding 방식을 이용하고, mantissa를 부호화하는 방식으로 binary coding 방식을 이용할 수 있다. Normal Rice Coding 모드에서 입력 신호를 나누어주는 수 Dnormal 은 다음의 수학식 4에 기초하여 결정할 수 있다.
Figure pat00012
수학식 4는 입력 신호를 나누어주는 수 Dnormal 가 최대값 Max_value를 최대
Figure pat00013
이하로 만들기 위해 결정되어야 한다는 것을 나타낸다. 이는 최대값의 exponent가
Figure pat00014
이하가 되는 것을 나타낸다.
Normal Rice Coding 에서의 exponent와 mantissa는 다음의 수학식 5와 같이 나타낼 수 있다.
Figure pat00015
s_res_diffj 신호에 대해서도 위와 동일한 과정에 기초하여 exponent와 mantissa가 획득될 수 있다.
(3) PCM Rice Coding 모드는 입력 신호를 PCM(Pulse Code Modulation) 부호화하는 것을 나타낸다. 서브 블록별로 할당되는 PCM 비트는 달라질 수 있고, 입력 신호의 최대값 Max_value 의 크기에 기초하여 PCM 비트가 결정될 수 있다. 예를 들어, Normal Rice Coding 모드와 비교되는 PCM Rice Coding 모드의 PCM 비트 PCM_bitsnormal 는 다음의 수학식 6과 같이 할당될 수 있다.
Figure pat00016
위 수학식 6은 Normal Rice Coding 모드와 비교되는 PCM Rice Coding 모드에서 적용되는 수식을 나타낸다.
Entropy Rice Coding 모드와 비교되는 PCM Rice Coding 모드의 PCM 비트 PCM_bitsentropy 는 다음의 수학식 7에 의해 결정될 수 있다.
Figure pat00017
수학식 7에서, exponents는 Entropy Rice Coding에 의해 획득된 exponents를 나타낸다.
(4) Entropy Rice Coding에서 입력 신호를 나누어주는 값 Dentropy는 다음의 수학식 8에 의해 결정될 수 있다.
Figure pat00018
여기서, codebook_size는 Entropy Coding으로 Huffman Coding을 적용하는 경우의 codebook 크기를 나타낸다. Entropy Rice Coding에서 exponent와 mantissa는 다음의 수학식 9와 같이 나타낼 수 있다.
Figure pat00019
s_res_diffj 신호에 대해서도 위와 동일한 과정에 기초하여 exponent와 mantissa가 획득될 수 있다.
exponent와 mantissa가 획득되면, mantissa는 Normal Rice Coding 모드와 동일한 방법으로 binary coding을 통해 부호화된다. exponent는 Huffman coding을 통해 부호화되며 Huffman coding에 적용되는 Table은 한 개 이상이 이용될 수 있다. Entropy Rice Coding 모드의 보다 구체적인 수행 과정은 도 5에서 설명하도록 한다.
오디오 부호화부(340)는 부호화 모드 선택부(330)에 의해 선택된 부호화 모드에 기초하여 오디오 신호를 부호화할 수 있다. 오디오 부호화부(340)는 부호화의 결과로서 생성된 비트스트림을 비트스트림 전송부(350)에 출력할 수 있다. 오
일실시예에 따르면, 부호화 모드 선택부(330)는 복수 개의 부호화 모드를 수행하는 것으로 결정할 수 있고, 이 경우 오디오 부호화부(340)는 각각의 부호화 모드의 수행 결과로서 생성된 비트스트림의 크기를 비교하여 최종적으로 출력할 비트스트림을 결정할 수 있다. 오디오 부호화부(340)는 복수의 부호화 모드의 수행 결과로서 생성된 비트스트림들 중 크기가 더 작은 비트스트림을 최종적으로 출력할 수 있다. 비트스트림 전송부(350)는 최종적으로 출력된 비트스트림을 오디오 부호화 장치의 외부로 전송할 수 있다.
부호화 모드 선택부(330)가 부호화 모드를 선택하는 "open loop" 방식은 도 4에서 보다 구체적으로 설명하도록 한다.
비트레이트 제어부(360)는 생성된 비트스트림의 비트레이트를 제어할 수 있다. 비트레이트 제어부(360)는 mantissa의 비트 할당량을 조절하면서 비트레이트를 제어할 수 있다. 비트스트림 제어부는 이전 프레임의 부호화 결과로 생성된 비트스트림의 비트레이트가 목표가 되는 타겟 비트레이트(target bitrate)를 초과하는 경우, 현재 무손실 부호화에 적용되는 비트의 분해능을 강제적으로 제한할 수 있다. 비트레이트 제어부(360)는 무손실 부호화에 이용되는 비트의 분해능을 강제적으로 제한하는 것에 의해 비트수가 증가하는 것을 방지할 수 있다. 결국, 무손실 부호화 모드에서도 손실 부호화 동작이 수행될 수 있다. 비트레이트 제어부(360)는 분해능을 강제적으로 제한하기 위해 Dentropy 또는 Dnormal에 의해 결정되는 mantissa의 비트를 제한할 수 있다.
Normal Rice Coding 모드에서 mantissa에 할당되는 비트 (# of mantissa bits at Normal Rice coding)는 다음의 수학식 10과 같이 나타낼 수 있다.
Figure pat00020
Entropy Rice Coding 모드에서 mantissa에 할당되는 비트 (# of mantissa bits at Entropy Rice coding)는 다음의 수학식 11과 같이 나타낼 수 있다.
Figure pat00021
비트레이트를 낮추고자 하는 경우, 비트레이트 제어부(360)는
Figure pat00022
또는
Figure pat00023
과 같이 M_bitsnormal, M_bitsentropy 값을 감소시킬 수 있다. 감소량이 부족한 경우, 비트레이트 제어부(360)는 M_bitsnormal, 또는 M_bitsentropy 의 차감량을 -2, -3, ... 등과 같이 정수배로 늘리고, 각각의 경우마다 부호화를 수행해 가면서 최적의 M_bitsnormal, 또는 최적의 M_bitsentropy 값을 선택할 수 있다.
도 4는 일실시예에 따른 부호화 모드 선택부가 부호화 모드를 결정하는 동작을 설명하기 위한 흐름도이다.
부호화 모드 선택부는 서브 블록 m_res_diffj 또는 서브 블록 s_res_diffj 이 입력되면, 각각의 서브 블록에서 절대값을 취하여 최대값을 탐색(410)한다.
부호화 모드 선택부는 탐색된 최대값과 미리 설정된 문턱치 H 값 간의 대소를 판단(420)한다. 예를 들어, 문턱치 H 값은 Entropy Rice Coding 모드에서 이용되는 Huffman codebook의 크기를 나타낼 수 있다. Huffman codebook의 크기가 400이라면 문턱치 H 값은 400으로 설정된다.
서브 블록의 최대값이 문턱치 H보다 작은 경우, 부호화 모드 선택부는 서브 블록의 최대값이 0 인지 여부를 체크(430)할 수 있다.
서브 블록의 최대값이 0 인 경우, 부호화 모드 선택부는 Zero Block Coding을 수행하는 것으로 선택(440)한다. Zero Block Coding의 수행 결과로서 Zero Block Coding 비트스트림이 출력될 수 있다.
서브 블록의 최대값이 0 이 아닌 경우, 부호화 모드 선택부는 Normal Rice Coding과 PCM Rice Coding을 각각 수행하는 것으로 선택(450)할 수 있다. 그 후, 오디오 부호화부는 Normal Rice Coding에 의해 생성된 비트스트림(이하, Normal 비트스트림)의 크기와 PCM Rice Coding에 의해 생성된 비트스트림(이하, PCM 비트스트림)의 크기를 비교(460)할 수 있다. PCM 비트스트림의 크기가 Normal 비트스트림의 크기보다 큰 경우, Normal Rice Coding에 의해 부호화된 비트스트림이 출력될 수 있다. 이와 반대로, PCM 비트스트림의 크기가 Normal 비트스트림의 크기보다 크지 않은 경우, PCM Rice Coding에 의해 부호화된 비트스트림이 출력될 수 있다.
서브 블록의 최대값이 문턱치 H보다 작지 않은 경우, 부호화 모드 선택부는 PCM Rice Coding과 Entropy Rice Coding을 각각 수행하는 것으로 선택(470)할 수 있다. 그 후, 오디오 부호화부는 PCM Rice Coding에 의해 생성된 비트스트림(이하, PCM 비트스트림)의 크기와 Entropy Rice Coding에 의해 생성된 비트스트림(이하, Entropy 비트스트림)의 크기를 비교(480)할 수 있다. PCM 비트스트림의 크기가 Entropy 비트스트림의 크기보다 작은 경우, PCM Rice Coding에 의해 부호화된 비트스트림이 출력될 수 있다. 이와 반대로, PCM 비트스트림의 크기가 Normal 비트스트림의 크기보다 작지 않은 경우, Entropy Rice Coding에 의해 부호화된 비트스트림이 출력될 수 있다.
도 5는 일실시예에 따른 Entropy Rice Coding 모드의 수행 과정을 설명하기 위한 흐름도이다.
도 5에 따르면, Entropy Rice Coding 모드와 비교되는 PCM Rice Coding 모드는 exponent에 대해서만 PCM Coding을 수행한다. mantissa는 Entropy Rice Coding과 공유된다. 이것이 Normal Rice Coding과 비교되는 PCM Coding 방식과 다른 부분이다.
도 6은 일실시예에 따른 손실 부호화부의 세부 구성을 도시한 도면이다.
도 6에 따르면, 손실 부호화부(600)는 MDCT 변환부(610), 서브 밴드 분할부(Sub Band Split Unit, 620), Scale Factor 탐색부(630), 양자화부(640), 엔트로피 코딩부(650), 비트레이트 제어부(670), 및 비트스트림 전송부(660)를 포함할 수 있다.
손실 부호화부(600)는 기본적으로 주파수 영역에서 양자화를 수행하며, 변환 방법은 MDCT(Modified Discrete Cosine Transform) 변환 방법을 사용한다. 손실 부호화 방법에서는 일반적인 주파수 영역에서 수행하는 양자화 방법이 수행된다. MDCT로 변환되는 신호는 잔차 신호이므로, 양자화를 위한 심리 음향 모델이 적용되지 않는다.
MDCT 변환부(610)는 잔차 신호에 MDCT를 수행한다. MDCT 변환부(610)에는 도 1의 잔차 신호 생성부(120)에서 출력된 잔차 신호 M_res와 잔차 신호 S_res가 입력된다. MDCT 변환부(610)는 M_res 신호와 S_res 신호 각각을 주파수 영역으로 변환한다. 주파수 영역으로 변환된 각각의 M_res 신호 및 S_res 신호는 다음의 수학식 12와 같이 나타낼 수 있다.
Figure pat00024
이하에서는, 설명의 편의상 프레임에 대한 time index는 생략하는 것으로 하고, 한 개의 프레임 신호가 부호화되는 과정을 설명하도록 한다.
서브 밴드 분할부(620)는 각각의 M_res 신호 및 S_res 신호가 주파수 영역으로 변환된 M_res_f 신호 및 S_res_f 신호를 서브 밴드로 분할할 수 있다. 일례로, 서브 밴드로 분할된 M_res_f 신호는 다음의 수학식 13과 같이 나타낼 수 있다.
Figure pat00025
여기서, B 는 서브 밴드의 개수를 나타내고, 하나의 서브 밴드는 서브 밴드 경계 인덱스 Ab 로 구분될 수 있다.
Scale Factor 탐색부(630)는 주파수 영역으로 변환되어 서브 밴드로 분할된 잔차 신호에 대해 스케일 팩터(Scale Factor)를 탐색할 수 있다. Scale Factor는 서브 밴드별로 탐색될 수 있다.
양자화부(640)는 양자화된 Scale Factor를 이용하여 서브 밴드 분할부(620)의 출력 신호(서브 밴드별로 분할된 주파수 영역의 잔차 신호)를 양자화할 수 있다. 양자화부(640)는 관련 기술 분야에서 이용되는 방법을 이용하여 Scale Factor를 양자화할 수 있다. 예를 들어, 양자화부(640)는 일반적인 스칼라 양자화를 통해 Scale Factor를 양자화할 수 있다.
양자화부(640)는 다음의 수학식 14, 수학식 15에 기초하여 서브 밴드별로 분할된 주파수 영역의 잔차 신호를 양자화할 수 있다.
Figure pat00026
각각의 서브 밴드의 주파수 빈(bin)은 양자화된
Figure pat00027
로 나누어 진다. 다시 말해, 각각의 서브 밴드별 신호들은
Figure pat00028
에 의해 exponent와 mantissa 성분으로 나누어 진다.
Figure pat00029
수학식 14에서
Figure pat00030
는 exponent와 mantissa의 양자화 분해능을 조절하기 위한 factor를 나타낸다.
Figure pat00031
가 1이 증가하는 경우, exponent의 dynamic range는 줄일 수 있으나 mantissa의 비트 할당이 1 비트 증가할 수 있다. 이와 반대로,
Figure pat00032
가 1이 감소하는 경우, 각각의 mantissa의 비트는 1 비트 감소할 수 있으나, exponent의 dynamic range는 증가하므로 exponent에 할당되는 비트는 증가할 수 있다.
엔트로피 코딩부(650)는 양자화부(640)의 출력 신호에 대해 엔트로피 부호화를 수행할 수 있다. 엔트로피 코딩부(650)는 exponent와 mantissa를 부호화할 수 있다. 엔트로피 코딩부(650)는 무손실 방식의 Entropy Rice coding 모듈을 이용하여 exponent와 mantissa를 부호화할 수 있다. Entropy Rice coding에 적용되는 exponent의 Huffman table은 별도로 training되어 사용될 수 있다.
비트레이트 제어부(670)는 생성된 비트스트림의 비트레이트를 제어할 수 있다. 비트레이트 제어부(670)는 mantissa의 비트 할당량을 조절하면서 비트레이트를 제어할 수 있다. 비트스트림 제어부는 이전 프레임의 부호화 결과로 생성된 비트스트림의 비트레이트가 목표가 되는 타겟 비트레이트를 초과하는 경우, 현재 손실 부호화에 적용되는 비트의 분해능을 강제적으로 제한할 수 있다.
비트스트림 전송부(660)는 최종적으로 출력된 비트스트림을 오디오 부호화 장치의 외부로 전송할 수 있다.
도 7은 일실시예에 따른 오디오 복호화 장치(700)의 구성을 도시한 도면이다.
도 7을 참조하면, 오디오 복호화 장치(700)는 비트스트림 수신부(710), 복호화부 및 복원부(750)를 포함할 수 있다. 복호화부(720)는 무손실 복호화부(730) 및 손실 복호화부(740)를 포함할 수 있다.
비트스트림 수신부(710)는 외부로부터 부호화된 오디오 신호를 포함하고 있는 비트스트림을 수신할 수 있다.
복호화부(720)는 비트스트림으로부터 오디오 신호가 손실 부호화 방법을 통해 부호화되었는지 또는 오디오 신호가 무손실 부호화 방법을 통해 부호화되었는지 여부를 결정할 수 있다. 복호화부(720)는 부호화된 방법에 따라 비트스트림에 대해 무손실 복호화(Lossless decoding mode) 또는 손실 복호화(Lossy decoding mode)를 수행할 수 있다. 복호화부(720)는 무손실 부호화를 통해 부호화된 신호를 복호화하는 무손실 복호화부(730), 및 손실 부호화를 통해 부호화된 신호를 복호화하는 손실 복호화부(740)를 포함할 수 있다. 손실 복호화 또는 무손실 복호화의 결과로서 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호가 복원될 수 있다.
복원부(750)는 무손실 복호화 또는 손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원할 수 있다. 복원부(750)는 도 1의 잔차 시호 생성부(120)에 대응되는 Forward Synthesis부(미도시) 및, 도 1의 입력 신호 타입 결정부(110)에 대응되는 L/R 타입 디코딩부(미도시)를 포함할 수 있다. Forward Synthesis부는 복호화부에서 복원된 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호에 기초하여 M 신호, S 신호를 복원할 수 있다. L/R 타입 디코딩부는 M 신호 및 S 신호에 기초하여 L 신호, R 신호를 복원할 수 있다. L 신호와 R 신호를 복원하는 과정은 도 2에 기재된 내용을 참고할 수 있다.
도 8은 일실시예에 따른 무손실 복호화부(800)의 세부 구성을 도시한 도면이다.
도 8을 참조하면, 무손실 복호화부(800)는 부호화 모드 판단부(810), 오디오 복호화부(820), 서브 블록 결합부(830), 및 디퍼런스 타입 디코딩부(840)를 포함할 수 있다.
수신된 비트스트림은 M_res 신호에 대한 비트스트림과 S_res 신호에 대한 비트스트림으로 나뉘어져 각각 부호화 모드 판단부(810)에 입력될 수 있다. 부호화 모드 판단부(810)는 입력된 비트스트림에 나타난 부호화 모드를 판단할 수 있다. 예를 들어, 부호화 모드 판단부(810)는 오디오 신호가 Normal Rice Coding, PCM Rice Coding, Entropy Rice Coding, Zero Block Coding 중 어느 부호화 방법을 통해 부호화되었는지를 판단할 수 있다.
오디오 복호화부(820)는 부호화 모드 판단부(810)에서 판단한 부호화 모드에 기초하여 비트스트림을 복호화할 수 있다. 예를 들어, 오디오 복호화부(820)는 오디오 신호가 부호화된 방법에 따라 Normal Rice Decoding, PCM Rice Decoding, Entropy Rice Decoding, Zero Block Decoding 중 해당되는 복호화 방법을 선택하여 복호화를 수행할 수 있다.
서브 블록 결합부(830)는 복호화 결과로서 생성된 서브 블록들을 결합할 수 있다. 복호화 결과로서 서브 블록 m_res_diffj 와 서브 블록 s_res_diffj 가 복원될 수 있다. 서브 블록 결합부(830)는 m_res_diffj 신호들을 결합하여 M_res_diff 신호를 복원하고, s_res_diffj 신호들을 결합하여 S_res_diff 신호를 복원할 수 있다. 디퍼런스 타입 디코딩부(840)는 서브 블록 결합부(830)의 출력 신호에 기초하여 잔차 신호를 복원할 수 있다. 디퍼런스 타입 디코딩부(840)는 M_res_diff 신호를 잔차 신호 M_res로 복원하고, S_res_diff 신호를 잔차 신호 S_res로 복원할 수 있다.
Forward Synthesis부(850)는 디퍼런스 타입 디코딩부(840)에서 복원된 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호에 기초하여 M 신호, S 신호를 복원할 수 있다. L/R 타입 디코딩부(860)는 M 신호 및 S 신호에 기초하여 L 신호, R 신호를 복원할 수 있다. Forward Synthesis부(850)와 L/R 타입 디코딩부(860)는 오디오 복호화 장치(700)의 복원부(750)를 구성할 수 있다. L 신호와 R 신호를 복원하는 과정은 도 2에 기재된 내용을 참고할 수 있다.
도 9는 일실시예에 따른 손실 복호화부(900)의 세부 구성을 도시한 도면이다.
도 9를 참조하면, 손실 복호화부(900)는 엔트로피 디코딩부(910), 역양자화부(920), Scale Factor 디코딩부(930), 서브 밴드 결합부(940), 및 IMDCT 수행부(950)를 포함할 수 있다.
수신된 비트스트림은 M_res 신호에 대한 비트스트림과 S_res 신호에 대한 비트스트림으로 나뉘어져 각각 엔트로피 디코딩부(910)에 입력될 수 있다. 엔트로피 디코딩부(910)는 비트스트림으로부터 부호화된 exponent와 부호화된 mantissa를 복호화할 수 있다.
역양자화부(920)는 복호화된 exponent와 복호화된 mantissa에 기초하여 양자화된 잔차 신호에 역양자화(Dequantization)를 수행할 수 있다. 역양자화부(920)는 양자화된 Scale Factor를 이용하여 서브 밴드별로 잔차 신호를 역양자화할 수 있다. Scale Factor 디코딩부(930)는 양자화된 Scale Factor를 역양자화할 수 있다.
서브 밴드 결합부(940)는 서브 밴드로 분할된 잔차 신호를 결합할 수 있다. 서브 밴드 결합부(940)는 서브 밴드로 분할된 M_res_f 신호를 결합하여 M_res_f 신호를 복원하고, 서브 밴드로 분할된 S_res_f 신호를 결합하여 S_res_f 신호를 복원할 수 있다.
IMDCT 수행부(950)는 서브 밴드 결합부(940)의 출력 신호를 주파수 영역에서 시간 영역으로 변환할 수 있다. IMDCT 수행부(950)는 복원된 M_res_f 신호에 IMDCT(Inverse Modified Discrete Cosine Transform)를 수행하여 주파수 영역의 M_res_f 신호를 시간 영역으로 변환함으로써 M_res 신호를 복원할 수 있다. 마찬가지로, IMDCT 수행부(950)는 복원된 S_res_f 신호에 IMDCT를 수행하여 주파수 영역의 S_res_f 신호를 시간 영역으로 변환함으로써 S_res 신호를 복원할 수 있다.
Forward Synthesis부(960)는 IMDCT 수행부에서 복원된 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호에 기초하여 M 신호, S 신호를 복원할 수 있다. L/R 타입 디코딩부(970)는 M 신호 및 S 신호에 기초하여 L 신호, R 신호를 복원할 수 있다. Forward Synthesis부(960)와 L/R 타입 디코딩부(970)는 오디오 복호화 장치(700)의 복원부(750)를 구성할 수 있다. L 신호와 R 신호를 복원하는 과정은 도 2에 기재된 내용을 참고할 수 있다.
도 10은 일실시예에 따른 오디오 부호화 방법의 동작을 설명하기 위한 흐름도이다.
단계(1010)에서, 오디오 부호화 장치는 입력 신호의 특성에 기초하여 입력 신호의 형태를 결정할 수 있다. 입력 신호는 L 신호 및 R 신호를 포함하는 스테레오 신호일 수 있다. 입력 신호는 프레임 단위로 오디오 부호화 장치에 입력될 수 있다. 오디오 부호화 장치는 스테레오 신호의 특성에 따라 출력 L/R 타입을 결정할 수 있다. 입력 신호의 특성에 기초하여 입력 신호의 형태를 결정하는 과정은 도 2에 기재된 내용을 참고할 수 있다.
단계(1020)에서, 오디오 부호화 장치는 형태가 결정된 입력 신호에 기초하여 잔차 신호를 생성할 수 있다. 오디오 부호화 장치는 선형 예측 부호화(LPC) 등과 같이 관련 기술분야에서 널리 이용되는 방법들을 이용하여 잔차 신호를 생성할 수 있다.
단계(1030)에서, 오디오 부호화 장치는 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행할 수 있다.
오디오 부호화 장치가 무손실 부호화를 수행하는 경우, 오디오 부호화 장치는 잔차 신호에 디퍼런셜 연산을 수행하고, 디퍼런셜 연산의 수행 결과로서 생성된 신호를 복수 개의 서브 블록들로 분할할 수 있다. 그 후, 오디오 부호화 장치는 서브 블록들을 부호화하기 위한 부호화 모드를 선택하고, 선택된 부호화 모드에 기초하여 서브 블록들을 부호화하여 비트스트림을 생성할 수 있다.
오디오 부호화 장치가 손실 부호화를 수행하는 경우, 오디오 부호화 장치는 잔차 신호를 주파수 영역의 신호로 변환하고, 주파수 영역으로 변환된 잔차 신호를 서브 밴드로 분할할 수 있다. 그 후, 오디오 부호화 장치는 서브 밴드의 스케일 팩터를 탐색하고, 탐색된 스케일 팩터를 양자화할 수 있다. 오디오 부호화 장치는 양자화된 스케일 팩터를 이용하여 서브 밴드를 양자화하고, 양자화된 서브 밴드에 엔트로피 부호화를 수행할 수 있다. 부호화 결과 오디오 신호가 부호화된 비트스트림이 생성될 수 있다.
오디오 부호화 장치는 무손실 부호화 또는 손실 부호화에 적용되는 비트의 분해능 또는 비트 할당량을 조절하여 비트스트림의 비트레이트를 제어할 수 있다. 오디오 신호가 부호화되어 생성된 비트스트림은 오디오 복호화 장치에 전송될 수 있다.
도 11은 일실시예에 따른 오디오 복호화 방법의 동작을 설명하기 위한 흐름도이다.
단계(1110)에서, 오디오 복호화 장치는 부호화된 오디오 신호를 포함하는 비트스트림을 수신할 수 있다.
단계(1120)에서, 오디오 복호화 장치는 오디오 신호가 부호화된 부호화 방법에 따라 무손실 복호화 또는 손실 복호화를 수행할 수 있다.
오디오 복호화 장치가 무손실 복호화를 수행하는 경우, 오디오 복호화 장치는 비트스트림에 나타난 부호화 모드를 판단하고, 판단된 부호화 모드에 기초하여 비트스트림을 복호화할 수 있다. 그 후, 오디오 복호화 장치는 복호화 결과로서 생성된 서브 블록들을 결합하는 하고, 결합된 서브 블록에 기초하여 잔차 신호를 복원할 수 있다.
오디오 복호화 장치가 손실 복호화를 수행하는 경우, 오디오 복호화 장치는 비트스트림으로부터 입력 신호의 exponent 및 mantissa를 복호화하고, 복호화된 exponent와 복호화된 mantissa에 기초하여 양자화된 잔차 신호에 역양자화를 수행할 수 있다. 그 후, 오디오 복호화 장치는 양자화된 Scale Factor를 역양자화하고, 서브 밴드로 분할된 잔차 신호를 결합할 수 있다. 오디오 복호화 장치는 IMDCT를 통해 잔차 신호를 주파수 영역에서 시간 영역으로 변환할 수 있다.
단계(1130)에서, 오디오 복호화 장치는 무손실 복호화 또는 무손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원할 수 있다. 오디오 복호화 장치는 단계(1120)에서 복원된 잔차 신호 M_res 신호 및 잔차 신호 S_res 신호에 기초하여 M 신호, S 신호를 복원할 수 있다. 오디오 복호화 장치는 M 신호 및 S 신호에 기초하여 L 신호, R 신호를 복원할 수 있다. L 신호와 R 신호를 복원하는 과정은 도 2에 기재된 내용을 참고할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 오디오 부호화 장치에 입력된 입력 신호의 형태를 결정하는 입력 신호 타입 결정부;
    상기 입력 신호 타입 결정부의 출력 신호에 기초하여 잔차 신호를 생성하는 잔차 신호 생성부; 및
    상기 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행하는 부호화부
    를 포함하는 오디오 부호화 장치.
  2. 제1항에 있어서,
    상기 부호화부는,
    상기 잔차 신호를 이용하여 무손실 부호화를 수행하는 무손실 부호화부; 및
    상기 잔차 신호를 이용하여 손실 부호화를 수행하는 손실 부호화부
    를 포함하는 오디오 부호화 장치.
  3. 제2항에 있어서,
    상기 무손실 부호화부는,
    상기 잔차 신호에 디퍼런셜 연산을 수행하는 디퍼런스 타입 선택부;
    상기 디퍼런스 타입 선택부의 출력 신호를 복수 개의 서브 블록들로 분할하는 서브 블록 분할부;
    상기 서브 블록들을 부호화하기 위한 부호화 모드를 선택하는 부호화 모드 선택부;
    상기 선택된 부호화 모드에 기초하여 상기 서브 블록들을 부호화하고, 비트스트림을 생성하는 오디오 부호화부
    를 포함하는 오디오 부호화 장치.
  4. 제3항에 있어서,
    상기 부호화 모드 선택부는,
    상기 서브 블록의 최대값 및 미리 설정된 문턱치에 기초하여 상기 서브 블록들을 부호화하기 위한 부호화 모드를 선택하는 것을 특징으로 하는 오디오 부호화 장치.
  5. 제3항에 있어서,
    상기 부호화 모드는,
    Zero Block Coding 모드, Normal Rice Coding 모드, PCM Rice Coding 모드, 및 Entropy Rice Coding 모드 중 어느 하나인 것을 특징으로 하는 오디오 부호화 장치.
  6. 제3항에 있어서,
    상기 오디오 부호화부는,
    복수의 부호화 모드에 기초하여 복수의 비트스트림들을 생성하고, 상기 생성된 비트스트림들의 크기에 기초하여 최종적으로 출력할 비트스트림을 결정하는 오디오 부호화 장치.
  7. 제3항에 있어서,
    상기 무손실 부호화부는,
    무손실 부호화에 적용되는 비트의 분해능을 조절하여 비트스트림의 비트레이트를 제어하는 비트레이트 제어부
    를 더 포함하는 오디오 부호화 장치.
  8. 제2항에 있어서,
    상기 손실 부호화부는,
    상기 잔차 신호를 주파수 영역의 신호로 변환하는 MDCT 변환부;
    상기 주파수 영역으로 변환된 잔차 신호를 서브 밴드로 분할하는 서브 밴드 분할부;
    상기 서브 밴드의 스케일 팩터(Scale Factor)를 탐색하는 Scale Factor 탐색부;
    상기 스케일 팩터를 양자화하고, 양자화된 스케일 팩터를 이용하여 상기 서브 밴드 분할부의 출력 신호를 양자화하는 양자화부; 및
    상기 양자화부의 출력 신호에 대해 엔트로피 부호화를 수행하는 엔트로피 코딩부
    를 포함하는 오디오 부호화 장치.
  9. 제8항에 있어서,
    상기 손실 부호화부는,
    손실 부호화에 적용되는 비트 할당량을 조절하여 비트스트림의 비트레이트를 제어하는 비트레이트 제어부
    를 더 포함하는 오디오 부호화 장치.
  10. 제1항에 있어서,
    상기 입력 신호는 L 신호 및 R 신호를 포함하는 스테레오 신호이고,
    상기 입력 신호 형태 결정부는,
    상기 L 신호, 상기 R 신호, 및 상기 L 신호와 상기 R 신호의 합 신호에 기초하여 입력 신호의 변경 여부를 결정하는 오디오 부호화 장치.
  11. 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신부;
    상기 오디오 신호가 부호화된 부호화 방법에 기초하여 무손실 복호화 또는 손실 복호화를 수행하는 복호화부; 및
    상기 무손실 복호화 또는 상기 손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원하는 복원부
    를 포함하는 오디오 복호화 장치.
  12. 제11항에 있어서,
    상기 복호화부는,
    무손실 부호화를 통해 부호화된 신호를 복호화하는 무손실 복호화부; 및
    손실 부호화를 통해 부호화된 신호를 복호화하는 손실 복호화부
    를 포함하는 오디오 복호화 장치.
  13. 제12항에 있어서,
    상기 무손실 복호화부는,
    상기 비트스트림에 나타난 부호화 모드를 판단하는 부호화 모드 판단부;
    상기 판단된 부호화 모드에 기초하여 상기 비트스트림을 복호화하는 오디오 복호화부;
    상기 복호화 결과로서 생성된 서브 블록들을 결합하는 서브 블록 결합부; 및
    상기 서브 블록 결합부의 출력 신호에 기초하여 잔차 신호를 복원하는 디퍼런스 타입 디코딩부
    를 포함하는 오디오 복호화 장치.
  14. 제12항에 있어서,
    상기 손실 복호화부는,
    상기 비트스트림으로부터 입력 신호의 exponent 및 mantissa를 복호화하는 엔트로피 디코딩부;
    상기 복호화된 exponent와 상기 복호화된 mantissa에 기초하여 양자화된 잔차 신호에 역양자화를 수행하는 역양자화부;
    양자화된 Scale Factor를 역양자화하는 Scale Factor 디코딩부;
    서브 밴드로 분할된 잔차 신호를 결합하는 서브 밴드 결합부; 및
    상기 서브 밴드 결합부의 출력 신호를 주파수 영역에서 시간 영역으로 변환하는 IMDCT 수행부
    를 포함하는 오디오 복호화 장치.
  15. 오디오 부호화 장치가 수행하는 오디오 부호화 방법에 있어서,
    오디오 부호화 장치에 입력된 입력 신호의 형태를 결정하는 단계;
    상기 형태가 결정된 입력 신호에 기초하여 잔차 신호를 생성하는 단계; 및
    상기 잔차 신호를 이용하여 무손실 부호화 또는 손실 부호화를 수행하는 단계
    를 포함하는 오디오 부호화 방법.
  16. 제15항에 있어서,
    상기 무손실 부호화를 수행하는 경우, 상기 수행하는 단계는,
    상기 잔차 신호에 디퍼런셜 연산을 수행하는 단계;
    상기 디퍼런셜 연산의 수행 결과로서 생성된 신호를 복수 개의 서브 블록들로 분할하는 단계;
    상기 서브 블록들을 부호화하기 위한 부호화 모드를 선택하는 단계;
    상기 선택된 부호화 모드에 기초하여 상기 서브 블록들을 부호화하고, 비트스트림을 생성하는 단계
    를 포함하는 오디오 부호화 방법.
  17. 제15항에 있어서,
    상기 손실 부호화를 수행하는 경우, 상기 수행하는 단계는,
    상기 잔차 신호를 주파수 영역의 신호로 변환하는 단계;
    상기 주파수 영역으로 변환된 잔차 신호를 서브 밴드로 분할하는 단계;
    상기 서브 밴드의 스케일 팩터를 탐색하는 단계;
    상기 스케일 팩터를 양자화하고, 양자화된 스케일 팩터를 이용하여 상기 서브 밴드를 양자화하는 단계; 및
    상기 양자화된 서브 밴드에 엔트로피 부호화를 수행하는 단계
    를 포함하는 오디오 부호화 방법.
  18. 오디오 복호화 장치가 수행하는 오디오 복호화 방법에 있어서,
    부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신하는 단계;
    상기 오디오 신호가 부호화된 부호화 방법에 따라 무손실 복호화 또는 손실 복호화를 수행하는 단계 및
    상기 무손실 복호화 또는 상기 무손실 복호화의 결과로서 생성된 잔차 신호를 이용하여 원래의 오디오 신호를 복원하는 단계
    를 포함하는 오디오 복호화 방법.
  19. 제18항에 있어서,
    상기 무손실 복호화를 수행하는 경우, 상기 수행하는 단계는,
    상기 비트스트림에 나타난 부호화 모드를 판단하는 단계;
    상기 판단된 부호화 모드에 기초하여 상기 비트스트림을 복호화하는 단계;
    상기 복호화 결과로서 생성된 서브 블록들을 결합하는 단계; 및
    상기 결합된 서브 블록에 기초하여 잔차 신호를 복원하는 단계
    를 포함하는 오디오 복호화 방법.
  20. 제18항에 있어서,
    상기 손실 복호화를 수행하는 경우, 상기 수행하는 단계는,
    상기 비트스트림으로부터 입력 신호의 exponent 및 mantissa를 복호화하는 단계;
    상기 복호화된 exponent와 상기 복호화된 mantissa에 기초하여 양자화된 잔차 신호에 역양자화를 수행하는 단계;
    양자화된 Scale Factor를 역양자화하는 단계;
    서브 밴드로 분할된 잔차 신호를 결합하는 단계 및
    상기 결합된 잔차 신호를 주파수 영역에서 시간 영역으로 변환하는 단계
    를 포함하는 오디오 복호화 방법.
KR1020130099466A 2012-08-22 2013-08-22 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법 KR102204136B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/423,366 US9711150B2 (en) 2012-08-22 2013-08-22 Audio encoding apparatus and method, and audio decoding apparatus and method
PCT/KR2013/007531 WO2014030938A1 (ko) 2012-08-22 2013-08-22 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법
US15/652,055 US10332526B2 (en) 2012-08-22 2017-07-17 Audio encoding apparatus and method, and audio decoding apparatus and method
US16/404,334 US10783892B2 (en) 2012-08-22 2019-05-06 Audio encoding apparatus and method, and audio decoding apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120091569 2012-08-22
KR1020120091569 2012-08-22

Publications (2)

Publication Number Publication Date
KR20140026279A true KR20140026279A (ko) 2014-03-05
KR102204136B1 KR102204136B1 (ko) 2021-01-18

Family

ID=50641049

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130099466A KR102204136B1 (ko) 2012-08-22 2013-08-22 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법

Country Status (2)

Country Link
US (3) US9711150B2 (ko)
KR (1) KR102204136B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN110556117B (zh) 2018-05-31 2022-04-22 华为技术有限公司 立体声信号的编码方法和装置
US11790926B2 (en) 2020-01-28 2023-10-17 Electronics And Telecommunications Research Institute Method and apparatus for processing audio signal
KR20210133554A (ko) * 2020-04-29 2021-11-08 한국전자통신연구원 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1396842A1 (en) * 2002-09-04 2004-03-10 Microsoft Corporation Innovations in pure lossless audio compression
KR20070108302A (ko) * 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
KR20090043498A (ko) * 2006-07-24 2009-05-06 톰슨 라이센싱 유손실 인코딩 데이터 스트림 및 무손실 확장 데이터 스트림을 이용하는 소스 신호의 무손실 인코딩을 위한 방법및 장치
US20090228290A1 (en) * 2002-09-04 2009-09-10 Microsoft Corporation Mixed lossless audio compression
US20090240506A1 (en) * 2006-07-18 2009-09-24 Oliver Wuebbolt Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
US20090262945A1 (en) * 2005-08-31 2009-10-22 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
KR100908114B1 (ko) * 2002-03-09 2009-07-16 삼성전자주식회사 스케일러블 무손실 오디오 부호화/복호화 장치 및 그 방법
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
JP4640020B2 (ja) * 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
KR101428487B1 (ko) 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
WO2011090434A1 (en) * 2010-01-22 2011-07-28 Agency For Science, Technology And Research Method and device for determining a number of bits for encoding an audio signal
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
GB2490879B (en) * 2011-05-12 2018-12-26 Qualcomm Technologies Int Ltd Hybrid coded audio data streaming apparatus and method
WO2014030938A1 (ko) 2012-08-22 2014-02-27 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1396842A1 (en) * 2002-09-04 2004-03-10 Microsoft Corporation Innovations in pure lossless audio compression
US20090228290A1 (en) * 2002-09-04 2009-09-10 Microsoft Corporation Mixed lossless audio compression
US20090262945A1 (en) * 2005-08-31 2009-10-22 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
KR20070108302A (ko) * 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
US20090240506A1 (en) * 2006-07-18 2009-09-24 Oliver Wuebbolt Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
KR20090043498A (ko) * 2006-07-24 2009-05-06 톰슨 라이센싱 유손실 인코딩 데이터 스트림 및 무손실 확장 데이터 스트림을 이용하는 소스 신호의 무손실 인코딩을 위한 방법및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dai Yang, et al. A lossless audio compression scheme with random access property. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2004.* *
Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997, Vol.45. No.10, pp.789-814.* *

Also Published As

Publication number Publication date
US20150255078A1 (en) 2015-09-10
KR102204136B1 (ko) 2021-01-18
US20170316786A1 (en) 2017-11-02
US9711150B2 (en) 2017-07-18
US10783892B2 (en) 2020-09-22
US10332526B2 (en) 2019-06-25
US20190259399A1 (en) 2019-08-22

Similar Documents

Publication Publication Date Title
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
KR101330362B1 (ko) 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
JP4922296B2 (ja) 低ビット率オーディオ信号の符号化/復号化方法及び装置
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
KR101130355B1 (ko) 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
US7774205B2 (en) Coding of sparse digital media spectral data
US10783892B2 (en) Audio encoding apparatus and method, and audio decoding apparatus and method
US20080077412A1 (en) Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
KR20080005325A (ko) 적응적 부호화/복호화 방법 및 장치
JP2019079057A (ja) 先進量子化器
KR102512359B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
US20080071550A1 (en) Method and apparatus to encode and decode audio signal by using bandwidth extension technique
KR20080053739A (ko) 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
KR102121642B1 (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
KR102052144B1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
JP2002091497A (ja) オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体
KR102546098B1 (ko) 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
KR20130007521A (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
KR100928967B1 (ko) 오디오 신호의 부호화/복호화 방법 및 장치
WO2011045927A1 (ja) 符号化装置、復号装置およびこれらの方法
KR101457897B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant