KR20110001130A - 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 - Google Patents

가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 Download PDF

Info

Publication number
KR20110001130A
KR20110001130A KR1020090058530A KR20090058530A KR20110001130A KR 20110001130 A KR20110001130 A KR 20110001130A KR 1020090058530 A KR1020090058530 A KR 1020090058530A KR 20090058530 A KR20090058530 A KR 20090058530A KR 20110001130 A KR20110001130 A KR 20110001130A
Authority
KR
South Korea
Prior art keywords
linear prediction
residual signal
audio frame
encoding
signal
Prior art date
Application number
KR1020090058530A
Other languages
English (en)
Inventor
성호상
오은미
김중회
김미영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090058530A priority Critical patent/KR20110001130A/ko
Priority to JP2012518488A priority patent/JP5894070B2/ja
Priority to CN2010800388727A priority patent/CN102483922A/zh
Priority to PCT/KR2010/004169 priority patent/WO2011002185A2/ko
Priority to US13/381,522 priority patent/US20120173247A1/en
Priority to EP10794320.1A priority patent/EP2450881A4/en
Publication of KR20110001130A publication Critical patent/KR20110001130A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

가변 비트율(Variable Bit Rate; VBR) 오디오 부호화 및 복호화 장치가 개시된다. 오디오 신호의 특성에 따라서 타겟 비트율을 결정하며, 결정된 타겟 비트율에 따라서 가중 선형 예측 변환 부호화를 수행한다.
오디오 신호, 부호화, 복호화, 유성(ACELP), 무성(Unvoiced), 저에너지 노이즈(Low Energy Noise), wLPT, weighted Linear Prediction Transform

Description

가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법{APPARATUS AND METHOD FOR ENCODING AND DECODING AUDIO SIGNALS USING WEIGHTED LINEAR PREDICTION TRANSFORM}
본 발명은 오디오 신호의 부호화 또는/및 복호화 기술에 관한 것이다.
오디오 신호 부호화는 인간 음성 발생 모델(model of human speech generation)에 관련된 파라미터들을 추출함으로써 원 오디오를 압축하는 기술이다. 오디오 신호 부호화에서는 입력 되는 오디오 신호를 소정의 샘플링 레이트로 샘플링하여 시간 블럭 또는 프레임으로 분할한다.
이러한, 오디오 부호화를 수행하는 오디오 부호화 장치는 소정의 파라미터들을 추출하여 입력되는 오디오 신호를 분석하고, 상기 파라미터들을, 예를 들어, 비트들의 세트 또는 이진 데이터 패킷과 같이 이진수로 표현되도록 양자화한다. 이와 같이 양자화된 비트스트림은 유무선 채널을 통해 수신기 및 복호화 장치로 전송되거나 다양한 기록매체에 저장된다. 상기 복호화 장치는 상기 비트스트림에 포함된 오디오 프레임을 처리하고, 이들을 역양자화(dequantization)하여 상기 파라미터들을 생성하며, 상기 파라미터들을 이용하여 오디오 신호를 복원한다.
최근, 복수의 프레임으로 구성된 수퍼 프레임에 대해 최적의 비트율로 부호화하는 방법이 연구되고 있다. 지각적으로 민감하지 않은 오디오 신호에 대해서 낮은 비트율로 부호화하고, 지각적으로 민감한 오디오 신호에 대해서는 높은 비트율로 부호화하는 경우, 음질 열화를 최소화하면서 오디오 신호를 효율적으로 부호화할 수 있다.
본 발명의 목적은, 음질 열화를 최소화하면서 오디오 신호를 효율적으로 부호화하는 것이다.
본 발명의 또 다른 목적은, 무성음 구간의 음질을 향상시키는 것이다.
본 발명의 일실시예에 따르면, 오디오 프레임의 부호화 모드를 선택하는 모드 선택부, 상기 선택된 부호화 모드에 따라서 상기 오디오 프레임의 타겟 비트율을 결정하는 비트율 결정부 및 상기 결정된 타겟 비트율에 따라서 상기 오디오 프레임에 대하여 가중 선형 예측 변환 부호화(Weighted Linear Prediction Transform)을 수행하는 가중 선형 예측 변환 부호화부를 포함하는 오디오 부호화기가 제공된다.
본 발명의 일측에 따르면, 부호화된 오디오 프레임의 비트율을 분석하는 비트율 분석부 및 상기 판단된 비트율에 따라서 상기 프레임에 대하여 가중 선형 예측 역변환(Weighted Linear Prediction Inverse Transform)을 수행하는 가중 선형 예측 변환 복호화부를 포함하는 오디오 복호화기가 제공된다.
본 발명의 또 다른 일측에 따르면, 오디오 프레임의 부호화 모드를 선택하는 단계, 상기 선택된 부호화 모드에 따라서 상기 오디오 프레임의 타겟 비트율을 결정하는 단계 및 상기 결정된 타겟 비트율에 따라서 상기 오디오 프레임에 대하여 가중 선형 예측 변환(Weighted Linear Prediction Transform) 부호화를 수행하는 단계를 포함하는 오디오 부호화 방법이 제공된다.
본 발명의 일실시예에 따르면, 음질 열화를 최소화하면서 부호화된 오디오 신호의 크기를 줄일 수 있다..
본 발명의 일실시예에 따르면, 부호화된 오디오 신호의 무성음 구간의 음질을 향상시킬 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 오디오 신호 부호화 장치의 구성을 도시한 블록도이다. 도 1을 참고하면, 본 발명에 따른 오디오 신호 부호화 장치는 모드 선택부(170), 비트율 결정부(171), 일반 선형 예측 변환 부호화부(181), 무성 선형 예측 변환 부호화부(182) 및 묵음 성형 예측 변환 부호화부(183)를 포함한다.
전처리부(103)는 입력된 오디오 신호에서 원하지 않는 주파수 성분을 제거하고, 사전에 필터링을 수행하여 오디오 신호 부호화를 위한 주파수 특성을 조정할 수 있다. 일례로, 전처리부(103)는 AMR-WB(Adaptive Multi Rate WideBand)의 사전 강조 필터링(Pre-emphasis filtering)을 이용할 수 있다. 여기서, 입력된 오디오 신호는 부호화에 적합한 기설정된(predetermined) 샘플링 주파수로 샘플링된다. 예를 들어, 협대역 오디오 부호화기에서는 8000Hz의 샘플링 주파수를, 광대역 오디오 부호화기에서는 16000Hz의 샘플링 주파수를 가질 수 있다.
일실시예에 따르면, 오디오 신호 부호화 장치는 복수의 프레임으로 구성된 수퍼 프레임 단위로 오디오 신호를 부호화 할 수 있다. 일례로, 수퍼 프레임은 4개의 프레임으로 구성될 수 있다. 즉, 수퍼 프레임(super-frame) 각각의 부호화는 4개의 프레임에 대한 부호화로 구성된다. 예를 들어, 수퍼 프레임의 크기가 1024개의 샘플로 구성되는 경우, 4개의 프레임의 크기는 각각 256개가 된다. 이 때, 수퍼 프레임의 크기는 OLA(OverLap and Add)의 과정을 거쳐 더 큰 크기로 서로 중첩되도록 조정될 수 있다.
프레임 비트율 결정부(120)는 오디오 프레임에 대한 비트율을 결정할 수 있다. 프레임 비트율 결정부(120)는 타겟 비트율과 이전 프레임에서 사용된 비트량을 비교하여 현재 수퍼 프레임에서 사용될 비트율을 결정할 수 있다.
선형 예측 분석/양자화부(130)는 필터링된 입력 오디오 프레임을 통해 선형 예측 계수를 추출한다. 여기서, 선형 예측 분석/양자화부(130)는 선형 예측 계수를 양자화에 유리한 형태(예를 들어, ISF(Imittance spectral Frequencies) 또는 LSF(Line Spectral Frequencies) 계수)로 변환한 후, 다양한 양자화 방법(예를 들어, 벡터 양자화기)를 통해 양자화한다. 추출된 선형 예측 계수와 양자화된 선형 예측 계수는 인지 가중 필터부(140)로 전송된다.
인지 가중 필터부(140)에서는 인지 가중 필터를 통해 전처리를 거친 신호를 필터링한다. 인지 가중 필터부(140)는 인체 청각 구조의 마스킹(masking) 효과를 이용하기 위하여 양자화 잡음을 마스킹 범위 안으로 줄인다. 인지 가중 필터부(140)를 통해 필터링된 신호는 개루프 피치(open-loop pitch) 탐색부(160)로 전송될 수 있다.
개루프 피치 탐색부(160)는 인지 가중 필터부(140)에서 필터링되어 전송하는 신호를 이용하여 개루프 피치를 탐색한다.
음성 활성도 분석부(150)는 전처리부(119)를 통해 필터링된 신호를 수신하여 필터링된 오디오 신호의 음성 활성도(voice activity)를 분석한다. 일례로, 입력 오디오 신호에 대한 특성으로서 주파수 도메인의 기울기(tilt) 정보, 각 바크(Bark) 밴드의 에너지 등을 포함할 수 있다.
일실시예에 따르면, 모드 선택부(170)는 오디오 신호의 특성에 따라 개루프 방식 또는 폐루프 방식을 적용하여 상기 오디오 신호에 대한 부호화 모드를 결정한다.
모드 선택부(170)는 최적 부호화 모드를 선택하기 전에 현재 프레임에 대한 오디오 신호를 분류할 수 있다. 즉, 모드 선택부(109)는 무성음 인지 결과를 이용하여 현재 오디오 프레임을 저에너지 노이즈(Low-Energy Noise), 노이즈(Noise), 무성음(Unvoiced) 및 나머지 신호로 분류할 수 있다. 이때, 모드 선택부(170)는 분류된 결과를 바탕으로 현재 오디오 프레임에서 사용할 부호화 모드를 선택할 수 있다. 부호화 모드는 복수의 오디오 프레임으로 구성된 수퍼 프레임에 포함된 오디오 신호를 부호화하기 위한 일반 선형 예측 변환 부호화 모드, 무성 선형 예측 변환 부호화 모드, 묵음 선형 예측 변환 부호화 모드, 가변 비트율 유성(ACELP) 모드를 포함할 수 있다.
비트율 결정부(171)는 모드 선택부(170)가 선택한 부호화 모드에 따라서 오디오 프레임의 타겟 비트율을 결정한다. 본 발명의 일실시예에 따르면 모드 선택 부(170)는 오디오 프레임에 포함된 오디오 신호가 묵음(silence)라고 판단하고, 묵음 선형 예측 변환 부호화 모드를 프레임의 부호화 모드로 선택할 수 있다. 이 경우, 비트율 결정부(171)는 프레임의 타겟 비트율을 매우 낮게 결정할 수 있다. 반면, 모드 선택부(170)는 오디오 프레임에 포함된 오디오 신호가 유성음이라고 판단할 수 있다. 이 경우, 비트율 결정부(171)는 오디오 프레임의 타겟 비트율을 높게 결정할 수 있다.
선형 예측 변환 부호화부(180)는 모드 선택부(170)가 선택한 부호화 모드에 따라서 일반 선형 예측 변환 부호화부(181), 무성 선형 예측 변환 부호화부(182), 묵음 선형 예측 변환 부호화부(183) 중에서 하나를 활성화시켜 오디오 프레임을 부호화할 수 있다.
만약 모드 선택부(170)가 CELP 부호화 모드를 오디오 프레임에 대한 부호화 모드로 선택한 경우에 CELP 부호화부(190)은 CELP 방식으로 부호화를 수행한다. 일실시예에 따르면 CELP 부호화부(190)는 프레임에 대한 타겟 비트율을 참조하여 매 오디오 프레임에 대하여 서로 다른 비트율로 부호화할 수 있다.
이상, 모드 선택부(170)가 선택한 모드에 따라서 오디오 프레임의 타겟 비트율을 결정하는 실시예에 대하여 설명하였으나, 비트율 결정부(171)가 결정한 타겟 비트율에 따라서 오디오 프레임의 부호화 모드를 선택할 수도 있다. 비트율 결정부(171)가 오디오 신호의 특성에 기반하여 오디오 프레임의 타겟 비트율을 결정하면, 모드 선택부(170)는 비트율 결정부(171)가 결정한 타겟 비트율 내에서 최고의 음질을 유지할 수 있는 부호화 모드를 선택할 수 있다.
일실시예에 따르면, 모드 선택부(170)는 복수의 부호화 모드에 따라서 오디오 프레임을 각각 부호화할 수 있다. 모드 선택부(170)는 부호화된 각 오디오 프레임을 서로 비교하고, 최고의 음질을 유지할 수 있는 부호화 모드를 선택할 수 있다. 모드 선택부(170)는 부호화된 오디오 프레임의 특성을 측정하고, 측정된 특성을 소정의 기준값과 비교하여 부호화 모드를 선택할 수 있다. 일실시예에 따르면 오디오 프레임의 특성은 신호대잡음비일 수 있다. 모드 선택부(170)는 측정된 신호대잡음비를 소정의 기준값과 비교하고, 신호대잡음비가 기준값보다 더 큰 모드들 중에서 부호화 모드를 선택할 수 있다. 다른 실시예에 따르면 모드 선택부(170)는 신호대잡음비가 가장 큰 모드를 부호화 모드로 선택할 수 있다.
도 2는 본 발명의 일실시예에 따라 복수의 선형 예측을 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다. 본 발명에 따른 오디오 신호 부호화기는 제1 선형 예측 분석부(210), 제1 잔여 신호 생성부(220), 제2 선형 예측 분석부(230), 제2 잔여 신호 생성부(240), 가중 선형 예측 변환 부호화부(250)를 포함한다.
제1 선형 예측부(210)는 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 제1 선형 예측 데이터 및 제1 선형 예측 계수를 생성한다. 제1 선형 예측 계수 양자화부(211)는 제1 선형 예측 계수를 양자화할 수 있다. 일실시예에 따르면 오디오 신호 복호화기는 제1 선형 예측 계수를 이용하여 제1 선형 예측 데이터를 복원할 수 있다.
제1 잔여 신호 생성부(220)는 오디오 프레임에 대하여 제1 선형 예측 데이 터를 제거하여 제1 잔여 신호를 생성한다. 제1 잔여 신호 생성부(220)는 복수의 오디오 프레임 또는 단일 오디오 프레임 내에서 오디오 신호를 분석하고, 오디오 신호의 값의 변화를 예상하여 제1 선형 예측 데이터를 생성할 수 있다. 제1 선형 예측 데이터의 값이 오디오 신호의 실제 값과 매우 유사하다면, 오디오 프레임에서 제1 선형 예측 데이터를 제거한 제1 잔여 신호가 가질 수 있는 값의 범위는 작다. 따라서 실제 오디오 신호가 아니라, 제1 잔여 신호를 부호화한다면, 적은 비트 만으로 오디오 프레임을 부호화할 수 있다.
제2 선형 예측부(230)는 제1 잔여 신호에 대하여 선형 예측을 수행하여 제2 선형 예측 데이터 및 제2 선형 예측 계수를 생성한다. 제2 선형 예측 계수 양자화부(231)는 제2 선형 예측 계수를 양자화할 수 있다. 오디오 신호 복호화기는 제2 선형 예측 계수를 이용하여 제1 선형 예측 데이터를 생성할 수 있다.
제2 잔여 신호 생성부(240)는 제1 잔여 신호에서 제2 선형 예측 데이터를 제거하여 제2 잔여 신호를 생성한다. 일반적으로, 제2 잔여 신호가 가질 수 있는 값의 범위는 제1 잔여 신호가 가질 수 있는 값의 범위보다 더 작다. 따라서. 제2 잔여 신호를 부호화한다면, 더 적은 비트 만으로 오디오 프레임을 부호화할 수 있다.
가중 선형 예측 변환 부호화부(250)는 제2 잔여 신호에 대하여 가중 선형 예측 변환 부호화를 수행하여 코드북 인덱스, 코드북의 이득, 노이즈 레벨 등의 파라미터를 생성할 수 있다. 파라미터 양자화부(260)는 가중선형 예측 변환부(250)가 생성한 파라미터 및 부호화된 제2 잔여 신호를 양자화할 수 있다.
오디오 신호 복호화기는 양자화된 제2 잔여 신호, 양자화된 파라미터, 양자화된 제1 선형 예측 계수 및 양자화된 제2 선형 예측 계수에 기반하여 부호화된 오디오 프레임을 복호화할 수 있다.
도 3은 본 발명의 일실시예에 따른 오디오 신호 복호화기의 구성을 도시한 블록도이다. 본 발명의 일실시예에 따른 오디오 신호 복호화기(300)는 복호화 모드 결정부(310), 비트율 판단부(320) 및 가중 선형 예측 변환 복호화부(330)를 포함한다.
복호화 모드 결정부(310)는 오디오 프레임의 복호화 모드를 판단한다. 각 오디오 프레임에 포함된 오디오 신호의 특성은 서로 다르므로, 각 오디오 프레임은 서로 다른 부호화 모드로 부호화될 수 있다. 복호화 모드 판단부(310)는 각 오디오 프레임의 부호화 모드에 상응하는 복호화 모드를 결정할 수 있다.
비트율 판단부(320)는 부호화된 오디오 프레임의 비트율을 판단한다. 일실시예에 따르면, 각 오디오 프레임에 포함되는 오디오 신호의 특성은 서로 다를 수 있다. 따라서 각 오디오 프레임에 포함된 오디오 신호는 서로 다른 비트율로 부호화될 수 있다. 비트율 판단부(320)는 오디오 프레임에 대하여 비트율을 판단할 수 있다.
일실시예에 따르면 비트율 판단부(320)는 결정된 복호화 모드를 참조하여 비트율을 판단할 수 있다.
가중 선형 예측 변환 복호화부(330)는 판단된 복호화율 및 결정된 복호화 모드에 따라서 오디오 프레임에 대하여 가중 예측 변환 복호화를 수행한다. 가중 선형 예측 변환 복호화부(330)의 다양한 실시예에 대해서는 이하 도 4, 도 6 및 도 8에서 상세히 설명하기로 한다.
도 4는 본 발명에 따라 복수의 선형 예측을 이용하여 오디오 신호를 복호화하는 가중 선형 예측 변환 복호화부의 구성을 도시한 블록도이다. 가중 선형 예측 변환 복호화부는 파라미터 복호화부(410), 잔여 신호 복원부(420), 제2 선형 예측 계수 역양자화부(430), 제2 선형 예측 합성부(440), 제1 선형 예측 계수 역양자화부(450) 및 제1 선형 예측 합성부(460)를 포함한다.
파라미터 복호화부(410)는 양자화된 코드북 인덱스, 코드북의 이득, 노이즈 레벨 등의 파라미터를 복호화한다. 일실시예에 따르면, 파라미터들은 부호화된 오디오 프레임에 오디오 신호의 일부로서 포함될 수 있다. 잔여 신호 복원부(420)는 복호화된 코드북 인덱스, 복호화된 코드북의 이득을 참조하여 제2 잔여 신호를 복원한다. 일실시예에 따르면 코드북은 가우시안 분포(Gaussian Distribution)를 따르는 복수의 구성 요소를 포함할 수 있다. 잔여 신호 복원부는 코드북 인덱스를 이용하여 코드북의 구성 요소 중에서 일부 구성 요소를 선택하고, 선택된 구성 요소와 코드북의 이득에 기반하여 제2 잔여 신호를 복원할 수 있다
제2 선형 예측 계수 역양자화부(430)는 양자화된 제2 선형 예측 계수를 복원한다. 제2 선형 예측 합성부(440)는 제2 선형 예측 계수를 이용하여 제2 선형 예측 데이터를 복원할 수 있다. 제2 선형 예측 합성부(440)는 복원된 제2 선형 예측 데이터와 제2 잔여 신호를 더하여 제1 잔여 신호를 복원할 수 있다.
제1 선형 예측 계수 역양자화부(450)는 양자화된 제1 선형 예측 계수를 복 원한다. 제1 선형 예측 합성부(460)는 제1 선형 예측 계수를 이용하여 제1 선형 예측 데이터를 복원할 수 있다. 제1 선형 예측 합성부(460)는 복원된 제1 선형 예측 데이터와 제2 잔여 신호를 더하여 오디오 신호를 복호화할 수 있다.
도 5는 본 발명의 일실시예에 따라 TNS(Temporal Noise Shaping)을 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다. 일실시예에 따른 오디오 신호 부호화기는 선형 예측부(510), 선형 예측 계수 양자화부(511), 잔여 신호 생성부(520) 및 가중 선형 예측 변환 부호화부(530)를 포함한다.
가중 선형 예측 변환 부호화부(530)는 주파수 영역 변환부(540), TNS부(550), 주파수 영역 처리부(560) 및 양자화부(570)를 포함할 수 있다.
선형 예측부(510)는 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 선형 예측 데이터 및 선형 예측 계수를 생성한다. 선형 예측 계수 양자화부(511)는 선형 예측 계수를 양자화할 수 있다. 일실시예에 따르면, 오디오 신호 복호화기는 선형 예측 계수를 이용하여 선형 예측 데이터를 복원할 수 있다.
잔여 신호 생성부(520)는 오디오 프레임에 대하여 선형 예측 데이터를 제거하여 잔여 신호를 생성한다. 가중 선형 예측 변환 부호화부(530)는 잔여 신호를 부호화하여 낮은 비트율로 고음질의 오디오 신호를 부호화할 수 있다.
주파수 영역 변환부(540)는 시간 영역의 잔여 신호를 주파수 영역으로 변환한다. 일실시예에 따르면, 주파수 영역 변환부(540)는 고속 푸리에 변환(FFT: Fast Fourier Transform) 또는 변형 이산 코사인 변환(MDCT: Modified Discrete Cosine Transform)을 이용하여 잔여 신호를 주파수 영역으로 변환할 수 있다.
TNS 부는 주파수 영역의 잔여 신호에 대하여 TNS를 수행한다. TNS는 아날로그의 연속적인 음악 데이터를 양자화하여 디지털 데이터로 만들 때 생기는 오차를 지능적으로 줄여 잡음을 감소시키고 원음에 가깝게 만드는 방법으로서, 시간축 잡음 정형이라고도 한다. 만약 시간 영역에서 갑자기 발생한 신호가 있다면, 부호화된 오디오 신호에는 프리 에코(pre echo) 등으로 인한 노이즈가 발생한다. TNS는 프리 에코로 인한 노이즈를 감소시킬 수 있다.
주파수 영역 처리부(560)는 오디오 신호의 음질을 향상시키고, 부호화를 용이하게 하기 위한 주파수 영역에서의 여러 가지 처리를 수행할 수 있다.
양자화부(570)는 TNS 수행된 잔여 신호를 양자화한다.
도 5에 도시된 실시예에 따르면 TNS를 수행하여 부호화된 오디오 신호의 노이즈를 감소시킬 수 있다. 따라서, 낮은 비트율로 고음질의 오디오 신호를 부호화할 수 있다.
도 6은 본 발명의 일실시예에 따라 TNS 수행된 오디오 신호를 복호화하는 복호화기의 구성을 도시한 블록도이다. 일실시예에 따른 오디오 신호 복호화기는 역양자화부(610), 주파수 영역 처리부(620), 역TNS부(630), 시간 영역 변환부(640), 선형 예측 계수 역양자화부(650) 및 선형 예측 변환 복호화부(660)를 포함한다.
역양자화부(610)는 프레임에 포함된 양자화된 잔여 신호를 역양자화하여 잔여 신호를 복원한다. 역양자화부에서 복원된 잔여 신호는 주파수 영역의 잔여 신호일 수 있다.
주파수 영역 처리부(620)는 오디오 신호의 음질을 향상시키고, 부호화를 용이하게 하기 위한 주파수 영역에서의 여러 가지 처리를 수행할 수 있다.
역TNS부(630)는 역양자화된 잔여 신호를 역TNS 수행한다. 역TNS는 양자화시에 발생한 노이즈를 제거하기 위한 것이다. 시간 영역에서 갑자기 발생한 신호는 양자화 시 프리 에코에 의한 노이즈를 발생시키는데, 역TNS부(630)는 이러한 노이즈를 제거할 수 있다.
시간 영역 변환부(640)는 역TNS 수행된 잔여 신호를 시간 영역으로 변환한다.
선형 예측 계수 역양자화부(650)는 오디오 프레임에 포함된 양자화된 선형 예측 계수를 역양자화한다. 가중 선형 예측 변환 복호화부(660)는 역양자화된 선형 예측 계수에 기반하여 선형 예측 데이터를 생성하고, 선형 예측 데이터와 시간 영역의 잔여 신호를 더하여 부호화된 오디오 신호를 선형 예측 복호화한다.
도 7은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다. 일실시예에 따른 오디오 신호 부호화기는 선형 예측부(710), 선형 예측 계수 양자화부(711), 잔여 신호 생성부(720) 및 가중 선형 예측 변환 부호화부(730)를 포함한다. 도 7에 도시된 선형 예측부(710), 선형 예측 계수 양자화부(711), 잔여 신호 생성부(720)의 동작은 도 5에 도시된 선형 예측부(510), 선형 예측 계수 양자화부(511), 잔여 신호 생성부(520)의 동작과 유사하므로 상세한 설명은 생략하기로 한다.
가중 선형 예측 변환 부호화부(730)는 주파수 영역 변환부(740), 탐색 부(750) 및 부호화부(760)를 포함할 수 있다.
주파수 영역 변환부(740)는 시간 영역의 잔여 신호를 주파수 영역으로 변환한다. 일실시예에 따르면, 주파수 영역 변환부(740)는 고속 푸리에 변환(FFT: Fast Fourier Transform) 또는 변형 이산 코사인 변환(MDCT: Modified Discrete cosine transform)을 이용하여 잔여 신호를 주파수 영역으로 변환할 수 있다.
탐색부(750)는 코드북에 포함된 복수의 구성 요소 중에서 주파수 영역 변환된 잔여 신호에 상응하는 구성 요소를 탐색한다. 일실시예에 따르면, 잔여 신호에 상응하는 구성 요소는 코드북에 포함된 복수의 구성 요소 중에서 잔여 신호와 유사한 구성요소들일 수 있다. 일실시예에 따르면, 코드북의 구성요소들은 가우시안 분포를 따를 수 있다.
부호화부(760)는 잔여 신호에 상응하는 구성 요소의 인덱스를 부호화한다.
일실시예에 따르면, 오디오 신호 부호화기는 잔여 신호를 부호화 하지 않고, 잔여 신호와 유사한 코드북의 인덱스를 부호화할 수 있다. 코드북의 구성 요소들은 잔여 신호와 유사하지만, 코드북의 인덱스는 잔여 신호에 비하여 그 용량이 매우 적다. 따라서, 낮은 비트율로 높은 음질의 오디오 신호를 부호화할 수 있다.
오디오 신호 복호화기는 코드북의 인덱스를 복호화하고, 복호화된 코드북의 인덱스를 참조하여 잔여 신호와 유사한 코드북의 구성 요소를 추출할 수 있다.
도 7에서는 1번의 선형 예측 및 코드북을 이용하여 오디오 신호를 부호화하는 실시예가 도시되었으나, 본 발명의 다른 실시예에 따르면, 복수의 선형 예측 및 코드북을 이용하여 오디오 신호를 부호화할 수 있다. 도 2를 참조하면, 선형 예측 부(710)는 잔여 신호에 대한 선형 예측을 수행하여 제2 선형 예측 데이터를 생성할 수 있다. 잔여 신호 생성부(720)는 잔여 신호에서 제2 선형 예측 데이터를 제거하여 제2 잔여 신호를 생성한다.
탐색부(750)는 코드북의 구성 요소에서 제2 잔여 신호에 상응하는 구성 요소들을 탐색하고, 부호화부(760)는 제2 잔여 신호에 상응하는 구성 요소의 인덱스를 부호화할 수 있다.
도 8은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 복호화하는 복호화기의 구성을 도시한 블록도이다. 일실시예에 따른 오디오 신호 복호화기는 역양자화부(810), 코드북 저장부(820), 추출부(830), 시간 영역 변환부(840), 선형 예측 계수 역양자화부(850) 및 가중 선형 예측 변환 복호화부(860)를 포함한다.
역양자화부(810)는 오디오 프레임에 포함된 양자화된 코드북 인덱스를 역양자화한다.
코드북 저장부(820)는 복수의 구성 요소를 포함하는 코드북을 저장한다. 일실시예에 따르면 코드북의 구성요소들은 가우시안 분포를 따를 수 있다.
추출부(830)는 코드북 인덱스를 참조하여 코드북에서 일부 구성 요소를 추출한다. 코드북 인덱스는 코드북의 구성 요소 중에서 잔여 신호와 유사한 구성 요소들을 지시할 수 있다. 추출부(830)는 역양자화된 코드북 인덱스를 참조하여 잔여 신호와 유사한 코드북의 구성 요소들을 추출할 수 있다.
시간 영역 변환부(840)는 추출된 코드북의 구성 요소들을 시간 영역으로 변 환한다.
선형 예측 계수 역양자화부(850)는 오디오 프레임에 포함된 양자화된 선형 예측 계수를 역양자화한다. 가중 선형 예측 변환 복호화부(860)는 역양자화된 선형 예측 계수에 기반하여 선형 예측 데이터를 생성하고, 선형 예측 데이터와 시간 영역의 코드북의 구성 요소들을 더하여 부호화된 오디오 신호를 가중 선형 예측 변환 복호화한다.
도 9는 본 발명의 일실시예에 따라 오디오 신호의 부호화 모드를 결정하는 모드 선택부의 구성을 도시한 블록도이다. 본 발명에 따른 모드 선택부는 음성 활성도 분석부(910), 무성음 인지부(920), 무성음 부호화부(930) 및 유성음 부호화부(940)를 포함한다.
음성 활성도 분석부(VAD: Voice Activity Detection)(910)는 오디오 프레임에 포함된 오디오 신호의 음성 활성도(voice activity)를 분석한다. 만약 오디오 신호의 음성 활성도가 소정의 임계치보다 낮다면, 음성 활성도 분석부(910)는 오디오 신호가 묵음(silence)라고 판단할 수 있다.
무성음 인지부(Unvoice Detection)(920)는 오디오 신호가 무성음인지 유성음인지 여부를 인지한다. 무성음은 사람의 말소리 중에서 성대를 울리지 않고 발생하는 소리이고, 유성음은 성대를 울리고 발생하는 소리이다.
무성음 인지부(920)가 입력된 오디오 신호가 무성음이라고 인지한 경우, 무성음 부호화부(930)는 입력된 오디오 신호를 부호화할 수 있다.
무성음 부호화부(930)는 가변 비트율 선형 예측 변환 부호화부(951), 무성 선형 예측 변환 부호화부(952), 무성 CELP 부호화부(953)를 포함할 수 있다. 입력신호가 무성음인 경우에 선형 예측 변환 부호화 모드, 무성 선형 예측 변환 부호화 모드, 그리고 무성 CELP 부호화 모드는 각 모드의 부호화부인 선형 예측 변환 부호화부(951)와 무성 선형 예측 변환 부호화부(952), 그리고 무성 CELP 부호화부(953)를 이용하여 오디오 신호를 부호화한다.
제1 부호화 모드 선택부(954)는 각 모드에 따라서 부호화된 오디오 프레임의 부호화된 이후의 특성에 기반하여 부호화 모드를 선택할 수 있다. 일실시예에 따르면 오디오 프레임의 특성은 오디오 프레임의 신호대잡음비(SNR: Signal to Noise Ratio)일 수 있다. 즉, 제1 부호화 모드 선택부(954)는 각 모드에 따라서 부호화된 오디오 프레임의 부호화된 이후의 신호대잡음비에 기반하여 부호화 모드를 선택할 수 있다. 제1 부호화 모드 선택부(954)는 부호화된 오디오 프레임의 신호대잡음비가 높은 부호화 모드를 입력 오디오 프레임에 대한 부호화 모드로 선택할 수 있다.
도 9에서는 제1 부호화 모드 선택부(954)가 3개의 모드 중에서 부호화 모드를 선택하는 실시예가 도시되었으나, 다른 실시예에 따르면 제1 부호화 모드 선택부(954)는 가변 비트율 선형 예측 변환 모드 또는 무성 선형 예측 변환 부호화 모드의 2가지 모드 중에서 부호화 모드를 선택할 수 있다.
또 다른 실시예에 따르면, 제1 부호화 모드 선택부(954)는 각 모드의 오프셋(off)을 달리하여 부호화된 이후의 신호대잡음비에 기반하여 부호화 모드를 선택할 수 있다. 즉, 제1 부호화 모드 선택부(954)는 가변 비트율 선형 예측 변환 부 호화부(951)의 오프셋과 무성 선형 예측 변환 부호화부(952)의 오프셋을 달리하여 오디오 프레임을 부호화하고, 부호화된 오디오 프레임의 신호대잡음비를 서로 비교할 수 있다. 만약 가변 비트율 선형 예측 변환 부호화부(951)의 오프셋이 무성 선형 예측 변환 부호화부(952)의 오프셋보다 더 큰 경우에도, 가변 비트율 선형 예측 변환 부호화 모드에 따라서 부호화된 오디오 프레임의 신호대잡음비가 무성 선형 예측 변환 부호화 모드에 따라서 부호화된 오디오 프레임의 신호대잡음비보다 더 큰 경우에는, 가변 비트율 선형 예측 변환 부호화 모드를 부호화 모드로 선택할 수 있다.
각 모드에 대한 오프셋을 달리하여 오디오 프레임을 각각 부호화하고, 그 중에서 큰 신호대잡음비를 가지는 부호화 모드를 선택하는 방식으로 최적의 부호화 모드를 선택할 수 있다.
무성음 인지부(920)가 오디오 프레임에 포함된 오디오 신호가 유성음이라고 인지한 경우에, 유성음 부호화부(940)에서 오디오 프레임을 부호화할 수 있다.
유성음 부호화부(940)는 가변 비트율 선형 예측 변환 부호화부(961) 및 가변 비트율 CELP 부호화부(962)를 포함할 수 있다.
가변 비트율 선형 예측 변환 부호화부(961)은 가변 비트율 선형 예측 변환 부호화 모드에 따라서, 가변 비트율 CELP 부호화부(962)는 가변 비트율 CELP 부호화 모드에 따라서 오디오 프레임을 부호화한다.
제2 부호화 모드 선택부(963)는 각 모드에 따라서 부호화된 오디오 프레임의 부호화된 이후의 특성에 기반하여 부호화 모드를 선택할 수 있다. 일실시예에 따르면, 오디오 프레임의 특성은 오디오 프레임의 신호대잡음비가 될 수 있다. 즉, 제2 부호화 모드 선택부(963)는 부호화된 오디오 프레임의 신호대잡음비가 높은 부호화 모드를 오디오 프레임에 대한 부호화 모드로 선택할 수 있다.
도 9에서는 음성 활성도 분석부(910)가 모드 선택부에 포함된 실시예가 도시되었으나, 다른 실시예에 따르면 음성 활성도 분석부(910)는 모드 선택부와 별개로 구현될 수 있다.
도 10은 본 발명의 일실시예에 따라 가중 선형 예측 변환을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
단계(S1010)에서는 오디오 프레임의 부호화 모드를 선택한다. 일실시예에 따르면, 단계(S1010)에서는 무성 가중 선형 예측 변환 부호화 모드 및 무성 CELP 부호화 모드 중에서 부호화 모드를 선택할 수 있다. 단계(S1010)에서는 각 부호화 모드에 따라서 부호화된 오디오 프레임의 신호대잡음비에 기반하여 부호화 모드를 선택할 수 있다. 즉, 무성 가중 선형 예측 변환 부호화 모드에 따라서 부호화된 오디오 프레임의 신호대잡음비가 무성 CELP 부호화 모드에 따라서 부호화된 오디오 프레임의 신호대잡음비보다 더 높다면 단계(S1010)에서는 무성 가중 선형 예측 변환 부호화 모드를 부호화 모드로 선택할 수 있다.
단계(S1020)에서는 단계(S1010)에서 선택된 부호화 모드에 따라서 오디오 프레임의 타겟 비트율을 결정한다. 일실시예에 따르면 단계(S1010)에서는 부호화 모드를 무성 가중 선형 예측 변환 부호화 모드로 결정할 수 있다. 이는 오디오 프레임에 포함된 오디오 신호가 무성음임을 의미한다. 오디오 신호가 무성음인 경우 매우 낮은 타겟 비트율을 결정할 수 있다. 단계(S1010)에서는 유성 CELP 모드를 부호화 모드로 결정할 수 있다. 이는 오디오 신호가 유성음임을 의미한다. 단계(S1020)에서는 유성음에 대하여 높은 타겟 비트율을 결정할 수 있다.
단계(S1030)에서는, 결정된 타겟 비트율 및 선택된 부호화 모드에 따라서 오디오 프레임에 대하여 가중 선형 예측 변환 부호화를 수행한다. 일실시예에 따르면, 단계(S1030)에서는 복수의 선형 예측을 이용하여 오디오 프레임을 부호화하거나, TNS를 이용하여 오디오 프레임을 부호화하거나, 코드북을 이용하여 오디오 프레임을 부호화할 수 있다. 각각의 실시예에 대해서는 이하 도 11내지 도 13에서 상세히 설명하기로 한다.
도 11은 본 발명의 일실시예에 따라 복수의 선형 예측을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
단계(S1110)에서는 오디오 프레임에 대하여 선형 예측을 수행하여 제1 선형 예측 데이터 및 제1 선형 예측 계수를 생성한다. 오디오 신호 복호화기는 제1 선형 예측 계수에 기반하여 제1 선형 예측 데이터를 복원할 수 있다.
단계(S1120)에서는, 오디오 프레임에 대해 제1 선형 예측 데이터를 제거하여 제1 잔여 신호를 생성한다. 오디오 프레임에 포함된 오디오 신호에 대한 예측이 정확하다면, 제1 선형 예측 데이터는 실제 오디오 신호와 유사하다. 따라서 제1 잔여 신호의 크기는 오디오 신호의 크기에 비하여 작다.
단계(S1130)에서는, 제1 잔여 신호에 대하여 선형 예측을 수행하여 제2 선형 예측 데이터 및 제2 선형 예측 계수를 생성한다. 오디오 신호 복호화기는 제2 선형 예측 계수에 기반하여 제2 선형 예측 데이터를 복원할 수 있다.
단계(S1140)에서는, 제1 잔여 신호에서 제2 선형 예측 데이터를 제거하여 제2 잔여 신호를 생성한다.
단계(S1030)에서는, 제2 잔여 신호를 부호화한다. 제2 잔여 신호의 크기는 제1 잔여 신호의 크기 및 오디오 신호의 크기보다 더 작다. 따라서 매우 낮은 비트율로 오디오 신호를 부호화하는 경우에도, 오디오 신호의 음질을 유지할 수 있다.
도 12는 본 발명의 일실시예에 따라 TNS를 이용하여 오디오 신호를 부호화하는 방법을 단계 별로 설명한 순서도이다.
단계(S1210)에서는, 오디오 프레임에 대하여 선형 예측을 수행하여 선형 예측 데이터 및 선형 예측 계수를 생성한다. 오디오 신호 복호화기는 선형 예측 계수에 기반하여 선형 예측 데이터를 복원할 수 있다.
단계(S1220)에서는, 오디오 프레임에서 선형 예측 데이터를 제거하여 잔여 신호를 생성한다.
단계(S1030)에서는, 잔여 신호를 가중 선형 예측 변환 부호화한다. 이하 단계(S1030)에 대해서 상세히 설명하기로 한다.
단계(S1230)에서는 잔여 신호를 주파수 영역으로 변환한다. 일실시예에 따르면, 단계(S1230)에서는 고속 푸리에 변환(FFT: Fast Fourier Transform) 또는 변형 이산 코사인 변환(MDCT: Modified Discrete Cosine Transform)을 이용하여 잔여 신호를 주파수 영역으로 변환할 수 있다.
단계(S1240)에서는, 주파수 영역으로 변환된 잔여 신호에 대하여 TNS를 수행한다. 만약 오디오 신호가 시간 영역에서 갑자기 발생한 신호를 포함한다면, 부호화된 오디오 신호에는 프리 에코(pre echo) 등으로 인한 노이즈가 발생한다. TNS는 프리 에코로 인한 노이즈를 감소시킬 수 있다.
단계(S1250)에서는, TNS 수행된 잔여 신호를 양자화 한다. 잔여 신호가 가질 수 있는 값의 범위는 오디오 신호가 가질 수 있는 값의 범위보다 작다. 따라서 오디오 신호가 아니라 잔여 신호를 양자화 하면, 더 적은 비트를 이용하여 오디오 신호를 양자화할 수 있다.
도 13은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
단계(S1310) 및 단계(S1320)은 단계(S1210) 및 단계(S1220)과 유사하므로 상세한 설명은 생략하기로 한다.
단계(S1030)에서는, 잔여 신호를 가중 선형 예측 변환 부호화한다. 이하 단계(S1030)에 대해서 상세히 설명하기로 한다.
단계(S1230)에서는, 잔여 신호를 주파수 영역으로 변환한다. 일실시예에 따르면, 단계(S1330)에서는 고속 푸리에 변환(FFT: Fast Fourier Transform) 또는 변형 이산 코사인 변환(MDCT: Modified Discrete Cosine Transform)을 이용하여 잔여 신호를 주파수 영역으로 변환할 수 있다.
단계(S1340)에서는 코드북의 구성요소 중에서 주파수 영역 변환된 잔여 신호에 상응하는 구성 요소들을 탐색한다. 일실시예에 따르면 상응하는 구성 요소들 은 코드북의 구성 요소 중에서 잔여 신호와 유사한 구성 요소들일 수 있다. 일실시예에 따르면 코드북의 구성요소들은 가우시안 분포를 따를 수 있다.
단계(S1350)에서는, 잔여 신호에 상응하는 코드북의 구성 요소의 인덱스를 부호화한다. 따라서 낮은 비트율로 높은 음질의 오디오 신호를 부호화할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
위에서 설명한 오디오 신호 부호화 방법 또는 오디오 신호 복호화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 신호 파일, 신호 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 신호 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것 과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 범위는 이상에서 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명에 따른 오디오 신호 부호화 장치의 전체 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따라 복수의 선형 예측을 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다.
도 3은 본 발명의 일실시예에 따른 오디오 신호 복호화기의 구성을 도시한 블록도이다.
도 4는 본 발명의 일실시예에 따라 복수의 선형 예측을 이용하여 오디오 신호를 복호화하는 가중 선형 예측 변환 복호화부의 구성을 도시한 블록도이다.
도 5는 본 발명의 일실시예에 따라 TNS를 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다.
도 6은 본 발명의 일실시예에 따라 TNS 수행된 오디오 신호를 복호화하는 복호화기의 구성을 도시한 블록도이다.
도 7은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 부호화하는 부호화기의 구성을 도시한 블록도이다.
도 8은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 복호화하는 복호화기의 구성을 도시한 블록도이다.
도 9는 본 발명의 일실시예에 따라 오디오 신호의 부호화 모드를 결정하는 모드 선택부의 구성을 도시한 블록도이다.
도 10은 본 발명의 일실시예에 따라 가중 선형 예측 변환을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
도 11은 본 발명의 일실시예에 따라 복수의 선형 예측을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
도 12는 본 발명의 일실시예에 따라 TNS를 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.
도 13은 본 발명의 일실시예에 따라 코드북을 이용하여 오디오 신호를 부호화하는 방법을 단계별로 설명한 순서도이다.

Claims (20)

  1. 오디오 프레임의 부호화 모드를 선택하는 모드 선택부;
    상기 선택된 부호화 모드에 따라서 상기 오디오 프레임의 타겟 비트율(Target bit rate)을 결정하는 비트율 결정부; 및
    상기 결정된 타겟 비트율에 따라서 상기 오디오 프레임에 대하여 가중 선형 예측 변환 부호화(Weighted Linear Prediction Transform)를 수행하는 가중 선형 예측 변환 부호화부
    를 포함하는 오디오 신호 부호화기.
  2. 제1항에 있어서,
    상기 모드 선택부는, 무성(Unvoiced) 가중 선형 예측 변환 부호화 모드 또는 무성(Unvoiced) CELP 부호화 모드 중에서, 상기 오디오 프레임의 부호화 후의 신호대잡음비(SNR: Signal to Noise Ratio)에 기반하여 상기 부호화 모드를 선택하는 오디오 신호 부호화기.
  3. 제1항에 있어서, 상기 모드 선택부는
    무성(Unvoiced) 가중 선형 예측 변환 부호화 모드 또는 무성(Unvoiced) CELP 부호화 모드 중에서,
    각 모드의 오프셋을 달리하여 부호화된 상기 오디오 프레임의 신호대잡음비 에 기반하여 상기 부호화 모드를 선택하는 오디오 신호 부호화기.
  4. 제1항에 있어서,
    상기 선택된 부호화 모드에 따라서, 상기 오디오 프레임에 대하여 CELP 방식의 부호화를 수행하는 CELP 부호화부
    를 더 포함하는 오디오 신호 부호화기.
  5. 제4항에 있어서,
    상기 CELP 부호화부는 상기 결정된 비트율을 참조하여 상기 오디오 프레임에 대한 부호화를 수행하는 오디오 신호 부호화기.
  6. 제1항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 제1 선형 예측 데이터를 생성하는 제1 선형 예측부;
    상기 오디오 프레임에서 상기 제1 선형 예측 데이터를 제거하여 제1 잔여 신호(residual signal)을 생성하는 제1 잔여 신호 생성부;
    상기 제1 잔여 신호에 대하여 선형 예측을 수행하여 제2 선형 예측 데이터를 생성하는 제2 선형 예측부;
    상기 제1 잔여 신호에서 상기 제2 선형 예측 데이터를 제거하여 제2 잔여 신호를 생성하는 제2 잔여 신호 생성부
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화부는 상기 제2 잔여 신호에 대한 변환을 수행하는 오디오 신호 부호화기.
  7. 제1항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 선형 예측 데이터를 생성하는 선형 예측부; 및
    상기 오디오 프레임에서 잔여 신호(residual signal)을 생성하는 잔여 신호 생성부
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화부는,
    상기 잔여 신호를 주파수 영역으로 변환하는 주파수 영역 변환부;
    상기 주파수 영역의 잔여 신호에 대하여 TNS를 수행하는 TNS부; 및
    상기 TNS 수행된 잔여 신호를 양자화 하는 양자화부
    를 포함하는 오디오 신호 부호화기.
  8. 제1항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 선형 예측 데이터를 생성하는 선형 예측부; 및
    상기 오디오 프레임에서 잔여 신호(residual signal)을 생성하는 잔여 신호 생성부
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화부는,
    상기 잔여 신호를 주파수 영역으로 변환하는 주파수 영역 변환부;
    코드북에 포함된 복수의 구성 요소 중에서 상기 주파수 영역 변환된 잔여 신호에 상응하는 구성 요소를 탐색하는 탐색부; 및
    상기 상응하는 구성 요소의 인덱스를 부호화하는 부호화부
    를 포함하는 오디오 신호 부호화기.
  9. 부호화된 오디오 프레임의 비트율을 결정하는 비트율 판단부; 및
    상기 판단된 비트율에 따라서 상기 오디오 프레임에 대하여 가중 선형 예측 변환 복호화(Weighted Linear Prediction Inverse Transform)를 수행하는 가중 선형 예측 변환 복호화부
    를 포함하는 오디오 신호 복호화기.
  10. 제9항에 있어서,
    상기 오디오 프레임의 복호화 모드를 판단하는 복호화 모드 결정부
    를 더 포함하고,
    상기 비트율 판단부는 상기 결정된 복호화 모드를 참조하여 상기 비트율을 판단하는 오디오 신호 복호화기.
  11. 제9항에 있어서,
    상기 가중 선형 예측 변환 복호화부는,
    상기 오디오 프레임에 포함된 코드북 인덱스를 참조하여 가우시안 분포에 따른 복수의 구성 요소를 포함하는 코드북으로부터 제2 잔여 신호를 복원하는 잔여 신호 복원부;
    상기 오디오 프레임에 포함된 제2 선형 예측 계수에 기반하여 제2 선형 예측 데이터를 복원하고, 상기 제2 잔여 신호와 상기 제2 선형 예측 데이터를 더하여 제1 잔여 신호를 복원하는 제2 선형 예측 합성부; 및
    상기 오디오 프레임에 포함된 제1 선형 예측 계수에 기반하여 제1 선형 예측 데이터를 복원하고, 상기 제1 잔여 신호와 상기 제1 선형 예측 데이터를 더하여 부호화된 오디오 프레임을 선형 예측 복호화하는 제1 선형 예측 합성부
    를 포함하는 오디오 신호 복호화기.
  12. 제9항에 있어서,
    상기 가중 선형 예측 변환 복호화부는,
    상기 오디오 프레임에 포함된 양자화된 잔여 신호를 역양자화하는 역양자화부;
    상기 역양자화된 잔여 신호를 역TNS 수행하는 역TNS부;
    상기 역TNS 수행된 잔여 신호를 시간 영역으로 변환하는 시간 영역 변환부; 및
    상기 프레임에 포함된 선형 예측 계수에 기반하여 선형 예측 데이터를 생성하고, 상기 선형 예측 데이터와 상기 시간 영역의 잔여 신호를 더하여 상기 오디오 프레임을 선형 예측 복호화(Linear Prediction synthesis)하는 선형 예측 복호화부
    를 포함하는 오디오 신호 복호화기.
  13. 제9항에 있어서,
    상기 가중 선형 예측 변환 복호화부는,
    상기 오디오 프레임에 포함된 코드북 인덱스를 참조하여 가우시안 분포에 따른 복수의 구성 요소를 포함하는 코드북에서 일부 구성 요소를 추출하는 추출부;
    상기 추출된 구성 요소를 시간 영역으로 변환하는 시간 영역 변환부; 및
    상기 오디오 프레임에 포함된 선형 예측 계수에 기반하여 선형 예측 데이터를 생성하고, 상기 선형 예측 데이터와 상기 시간 영역의 코드북의 구성 요소들을 더하여 상기 오디오 프레임을 선형 예측 복호화(Linear Prediction synthesis)하는 선형 예측 복호화부
    를 포함하는 오디오 신호 복호화기.
  14. 오디오 프레임의 부호화 모드를 선택하는 단계;
    상기 선택된 부호화 모드에 따라서 상기 오디오 프레임의 비트율을 결정하 는 단계; 및
    상기 결정된 비트율에 따라서 상기 오디오 프레임에 대하여 가중 선형 예측 변환 부호화(Weighted Linear Prediction Transform)를 수행하는 단계
    를 포함하는 오디오 신호 부호화 방법.
  15. 제14항에 있어서,
    상기 부호화 모드를 선택하는 단계는,
    무성(Unvoiced) 가중 선형 예측 변환 부호화 모드 및 무성(Unvoiced) CELP 부호화 모드 중에서, 상기 오디오 프레임의 부호화 후의 신호대잡음비(SNR: Signal to Noise Ratio)에 기반하여 상기 부호화 모드를 선택하는 오디오 신호 부호화 방법.
  16. 제14항에 있어서, 상기 부호화 모드를 선택하는 단계는
    무성(Unvoiced) 가중 선형 예측 변환 부호화 모드 또는 무성(Unvoiced) CELP 부호화 모드 중에서,
    각 모드의 오프셋을 달리하여 부호화된 상기 오디오 프레임의 신호대잡음비에 기반하여 상기 부호화 모드를 선택하는 것을 특징으로 하는 오디오 신호 부호화 방법.
  17. 제14항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 제1 선형 예측 데이터를 생성하는 단계;
    상기 오디오 프레임에서 상기 제1 선형 예측 데이터를 제거하여 제1 잔여 신호(residual signal)을 생성하는 단계;
    상기 제1 잔여 신호에 대하여 선형 예측을 수행하여 제2 선형 예측 데이터를 생성하는 단계; 및
    상기 제1 잔여 신호에서 상기 제2 선형 예측 데이터를 제거하여 제2 잔여 신호를 생성하는 단계
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화하는 단계는 상기 제2 잔여 신호에 대한 변환을 수행하는 단계인 오디오 신호 부호화 방법.
  18. 제14항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 선형 예측 데이터를 생성하는 단계; 및
    상기 오디오 프레임에서 잔여 신호(residual signal)을 생성하는 단계
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화하는 단계는,
    상기 잔여 신호를 주파수 영역으로 변환하는 단계;
    상기 주파수 영역의 잔여 신호에 대하여 TNS 수행하는 단계; 및
    상기 TNS 수행된 잔여 신호를 양자화 하는 단계
    를 포함하는 오디오 신호 부호화 방법.
  19. 제14항에 있어서,
    상기 오디오 프레임에 대하여 선형 예측(Linear Prediction)을 수행하여 선형 예측 데이터를 생성하는 단계; 및
    상기 오디오 프레임에서 잔여 신호(residual signal)을 생성하는 단계
    를 더 포함하고,
    상기 가중 선형 예측 변환 부호화 하는 단계는,
    상기 잔여 신호를 주파수 영역으로 변환하는 단계;
    코드북에 포함된 복수의 구성 요소들 중에서 상기 주파수 영역 변환된 잔여 신호에 상응하는 구성 요소를 탐색하는 단계;
    상기 상응하는 구성 요소의 인덱스를 부호화 하는 단계
    를 포함하는 오디오 신호 부호화 방법.
  20. 제14항 내지 제19항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
KR1020090058530A 2009-06-29 2009-06-29 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 KR20110001130A (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020090058530A KR20110001130A (ko) 2009-06-29 2009-06-29 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP2012518488A JP5894070B2 (ja) 2009-06-29 2010-06-28 オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法
CN2010800388727A CN102483922A (zh) 2009-06-29 2010-06-28 使用加权线性预测变换对音频信号进行编码和解码的设备和方法
PCT/KR2010/004169 WO2011002185A2 (ko) 2009-06-29 2010-06-28 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US13/381,522 US20120173247A1 (en) 2009-06-29 2010-06-28 Apparatus for encoding and decoding an audio signal using a weighted linear predictive transform, and a method for same
EP10794320.1A EP2450881A4 (en) 2009-06-29 2010-06-28 DEVICE FOR CODING AND DECODING AN AUDIO SIGNAL USING A WEIGHTED LINEAR PROGNOSIS TRANSFORM AND METHOD THEREFOR

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090058530A KR20110001130A (ko) 2009-06-29 2009-06-29 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20110001130A true KR20110001130A (ko) 2011-01-06

Family

ID=43411572

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090058530A KR20110001130A (ko) 2009-06-29 2009-06-29 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법

Country Status (6)

Country Link
US (1) US20120173247A1 (ko)
EP (1) EP2450881A4 (ko)
JP (1) JP5894070B2 (ko)
KR (1) KR20110001130A (ko)
CN (1) CN102483922A (ko)
WO (1) WO2011002185A2 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
WO2012103850A2 (zh) * 2012-04-11 2012-08-09 华为技术有限公司 一种传输模式配置方法和装置
WO2014081736A2 (en) * 2012-11-20 2014-05-30 Dts, Inc. Reconstruction of a high frequency range in low-bitrate audio coding using predictive pattern analysis
US10199044B2 (en) * 2013-03-20 2019-02-05 Nokia Technologies Oy Audio signal encoder comprising a multi-channel parameter selector
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
US11367452B2 (en) 2018-03-02 2022-06-21 Intel Corporation Adaptive bitrate coding for spatial audio streaming
JP7262593B2 (ja) * 2019-01-13 2023-04-21 華為技術有限公司 ハイレゾリューションオーディオ符号化
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
WO2021158737A1 (en) * 2020-02-04 2021-08-12 The Rocket Science Group Llc Predicting outcomes via marketing asset analytics
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
JP3353852B2 (ja) * 1994-02-15 2002-12-03 日本電信電話株式会社 音声の符号化方法
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3531780B2 (ja) * 1996-11-15 2004-05-31 日本電信電話株式会社 音声符号化方法および復号化方法
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7333515B1 (en) * 2002-08-06 2008-02-19 Cisco Technology, Inc. Methods and apparatus to improve statistical remultiplexer performance by use of predictive techniques
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
CN1820306B (zh) * 2003-05-01 2010-05-05 诺基亚有限公司 可变比特率宽带语音编码中增益量化的方法和装置
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100619893B1 (ko) * 2004-07-23 2006-09-19 엘지전자 주식회사 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006107836A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for split-band encoding of speech signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
EP2116997A4 (en) * 2007-03-02 2011-11-23 Panasonic Corp AUDIO DECODING DEVICE AND AUDIO DECODING METHOD
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder

Also Published As

Publication number Publication date
JP2012532344A (ja) 2012-12-13
WO2011002185A3 (ko) 2011-03-31
EP2450881A2 (en) 2012-05-09
US20120173247A1 (en) 2012-07-05
CN102483922A (zh) 2012-05-30
WO2011002185A2 (ko) 2011-01-06
JP5894070B2 (ja) 2016-03-23
EP2450881A4 (en) 2016-08-24

Similar Documents

Publication Publication Date Title
JP5894070B2 (ja) オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
KR101747917B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101797033B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
KR102626320B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
JP6763849B2 (ja) スペクトル符号化方法
KR20100115215A (ko) 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
KR102593442B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
KR102052144B1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
US20090018823A1 (en) Speech coding
KR101857799B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
Girin Adaptive long-term coding of LSF parameters trajectories for large-delay/very-to ultra-low bit-rate speech coding
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR101997897B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치
KR20080034819A (ko) 부호화/복호화 장치 및 방법
KR20170008319A (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application