KR100754389B1 - 음성 및 오디오 신호 부호화 장치 및 방법 - Google Patents

음성 및 오디오 신호 부호화 장치 및 방법 Download PDF

Info

Publication number
KR100754389B1
KR100754389B1 KR1020050091190A KR20050091190A KR100754389B1 KR 100754389 B1 KR100754389 B1 KR 100754389B1 KR 1020050091190 A KR1020050091190 A KR 1020050091190A KR 20050091190 A KR20050091190 A KR 20050091190A KR 100754389 B1 KR100754389 B1 KR 100754389B1
Authority
KR
South Korea
Prior art keywords
bits
signal
band
speech
audio
Prior art date
Application number
KR1020050091190A
Other languages
English (en)
Other versions
KR20070036305A (ko
Inventor
김도형
김미영
이시화
김상욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050091190A priority Critical patent/KR100754389B1/ko
Priority to US11/527,550 priority patent/US20070078651A1/en
Publication of KR20070036305A publication Critical patent/KR20070036305A/ko
Application granted granted Critical
Publication of KR100754389B1 publication Critical patent/KR100754389B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성 및 오디오 신호 부호화 장치 및 방법이 개시된다. 음성 및 오디오 신호 부호화 장치는 입력되는 신호를 음성(speech) 부호화하는 음성 부호화부, 음성 부호화 된 신호를 음성 복호화하는 음성 복호화부 및 음성 복호화된 신호와 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 구분된 대역들에 대한 각각의 비트수들을 할당하여, 차이 신호를 오디오(audio) 부호화하는 오디오 부호화부를 구비하는 것을 특징으로 한다. 따라서, 본 발명에 따르면, 음성 신호 또는 오디오 신호에 따라 적응적인 비트율을 사용하여 부호화함으로써, 음성 신호 및 오디오 신호 모두에 대해 고품질의 부호화 및 복호화를 구현할 수 있도록 한다.

Description

음성 및 오디오 신호 부호화 장치 및 방법{Apparatus and method for encoding a speech signal and an audio signal}
도 1은 본 발명에 의한 음성 및 오디오 신호 부호화장치를 설명하기 위한 일 실시예의 블록도이다.
도 2는 도 1에 도시된 오디오 부호화부를 설명하기 위한 일 실시예의 블록도이다.
도 3은 도 2에 도시된 서브밴드 분석 필터에 의해 부 대역을 갖는 주파수 영역으로 변환된 오디오 신호의 일 예를 나타내는 도면이다.
도 4는 본 발명에 의한 음성 및 오디오 신호 복호화장치를 설명하기 위한 일 실시예의 블록도이다.
도 5는 도 4에 도시된 오디오 복호화부를 설명하기 위한 일 실시예의 블록도이다.
도 6은 본 발명에 의한 음성 및 오디오 신호 부호화방법을 설명하기 위한 일 실시예의 플로차트이다.
도 7은 도 6에 도시된 제504 단계를 설명하기 위한 일 실시예의 플로차트이다.
도 8은 본 발명에 의한 음성 및 오디오 신호 복호화방법을 설명하기 위한 일 실시예의 플로차트이다.
도 9는 도 8에 도시된 제700 단계를 설명하기 위한 일 실시예의 플로차트이다.
<도면의 주요 부호에 대한 간단한 설명>
100: 음성 부호화부 120: 음성 복호화부
140: 오디오 부호화부 200: 서브밴드 분석 필터
220: 심리 음향 모델부 240: 비트수 할당부
260: 양자화부 280: 엔트로피 부호화부
300: 오디오 복호화부 320: 음성 복호화부
400: 엔트로피 복호화부 420: 역양자화부
440: 서브밴드 합성 필터
본 발명은 음성 및 오디오 신호의 부호화에 관한 것으로, 보다 상세하게는 음성 신호 및 오디오 신호를 모두 부호화 및 복호화 할 수 있는 음성 및 오디오 신호의 부호화 장치 및 방법에 관한 것이다.
오디오 신호는 진폭에 있어서 연속적이고 시간상으로도 연속적인 아날로그(Analog) 신호이다. 따라서 파형을 이산 신호로 표현하기 위해서 A/D(Analog-to-Digital) 변환이 필요하다. A/D 변환을 하기 위해서 두 가지의 과정을 필요로 한 다. 하나는 시간상의 연속 신호를 이산 신호를 바꾸어 주는 표본화(Sampling)과정이고 다른 하나는 가능한 진폭의 수를 유한한 값으로 제한하기 위한 진폭 양자화 과정이다. 즉 진폭의 양자화는 시간 n에서 입력 진폭 x(n)을 가능한 진폭의 유한한 집합 중의 한 원소인 y(n)로 변환해 주는 과정이다.
오디오 신호의 저장/복원 방식도 최근 디지탈 신호처리 기술의 발달에 의해 기존의 아날로그 신호를 표본화와 양자화 과정을 거쳐 디지탈 신호인 PCM(Pulse Code Modulation) 데이터로 변환하여 CD(Compact Disc)와 DAT(Digital Audio Tape)와 같은 기록/저장 매체에 신호를 저장해 둔 뒤 사용자가 필요시에 저장된 신호를 다시 재생해서 들을 수 있는 기술이 개발되어 일반인들에게 보편화되어 사용되고 있다. 이런 디지탈 방식에 의한 저장/복원 방식은 LP(Long-Play Record)와 테입(Tape)와 같은 아날로그 방식에 비해 음질의 향상과 저장 기간에 따른 열화를 극복하였으나 디지털 데이터의 크기가 크기 때문에 데이터의 저장 및 전송에 문제를 드러낸다.
이러한 문제를 해결하기 위해 디지털 오디오 신호를 압축하기 위해 개발된 DPCM(Differential Pulse Code Modulaton)이나 ADPCM(Adaptive Differential Pulse Code Modulation)등의 방법을 사용하여 데이타의 양을 줄이려는 노력이 있었으나 신호의 종류에 따라 효율성이 크게 차이가 나는 단점을 보였다.
최근 ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG/audio(Moving Pictures Expert Group)기법이나 Dolby에 의해 개발된 AC-2/AC-3 기법에서는 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 데 이타의 양을 줄이는 방법을 사용했다. 이러한 방법은 신호의 특성에 관계없이 효율적으로 데이타의 양을 줄이는데 크게 기여하였다.
MPEG-1/audio, MPEG-2/audio나 AC-2/AC-3등과 같은 기존의 오디오 신호 압축 기법에서는 시간영역의 신호를 일정할 크기의 블럭으로 묶어서 주파수 영역의 신호로 변환을 한다. 그리고 이 변환된 신호를 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 스칼라 양자화를 한다. 이후, 엔트로피(Entropy) 부호화와 같은 무손실 부호화를 수행한다. 따라서, 단순한 PCM 데이터만을 저장하던 방식보다는 상당히 복잡한 과정을 거치고 비트스트림은 양자화된 PCM 데이터뿐만 아니라 신호를 압축하기 위한 부가적인 정보들로 구성되어 있다.
MPEG/audio 표준이나 AC-2/AC-3 방식은 기존의 디지탈 부호화에 비해 1/6내지 1/8로 줄어든 64Kbps-384Kbps의 비트율로 컴팩트디스크(Compact Disc) 음질과 거의 같은 정도의 음질을 제공한다. 이런 이유 때문에, MPEG/audio 표준은 DAB(Digital Audio Broadcasting), internet phone, AOD(Audio on Demand)와 멀티미디어 시스템과 같은 오디오 신호의 저장과 전송에 중요한 역할을 할 것이다.
이러한 오디오 신호 중에 인간의 발성에 의해 발생하는 오디오 신호를 음성 신호라 한다.
그런데, 음성 신호는 인간의 가청 주파수 대역 중에서 저 주파수 영역에 주요한 오디오 신호가 분포함으로 인해 일반적인 오디오 신호와 다른 부호화 및 복호화 처리가 요구된다.
음성 신호는 입력되는 오디오 신호의 한 프레임 처리단위가 2의 배수가 아니 다. 예를 들어, 음성 신호는 한 프레임 처리단위가 일반적으로 320 샘플들이다. 그러나, 고속 구현을 위해 오디오 신호는 입력되는 오디오 신호의 한 프레임 처리단위가 2의 배수이어야 한다. 예를 들어, 일반적인 오디오 신호는 한 프레임 처리단위가 일반적으로 2의 배수에 해당하는 256 샘플들이다. 따라서, 음성 신호와 오디오 신호 모두를 부호화 할 수 있는 코덱의 구성요소는 음성 신호가 입력되는 경우에 음성 신호의 한 프레임 처리단위를 2의 배수가 되도록 하기 위한 다운 샘플링을 수행하는 구성요소를 구비해야 한다.
또한, 음성 신호와 오디오 신호 모두를 복호화 할 수 있는 코덱의 구성요소는 2의 배수로 다운 샘플링 되어 부호화 된 음성 신호의 한 프레임 처리단위를 원래의 처리단위로 복원하기 위해 업 샘플링을 수행하는 구성요소를 구비해야 하며, 부호화 과정의 다운 샘플링 시에 제거된 고주파수 영역의 신호를 복원하기 위한 고주파수 생성부를 구비해야 한다.
따라서, 종래에는 음성 신호 및 오디오 신호를 모두 부호화 및 복호화 할 수 있는 장치를 구현하기 위해서는 많은 구성요소가 구비되어야 하고, 구성상의 복잡도도 증가하게 되는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 음성 신호 또는 오디오 신호에 따라 적응적인 비트율을 사용하여 부호화 및 복호화 할 수 있는 음성 및 오디오 신호 부호화 장치를 제공하는데 있다.
또한, 본 발명이 이루고자 하는 다른 기술적 과제는 음성 신호 또는 오디오 신호에 따라 적응적인 비트율을 사용하여 부호화 및 복호화 할 수 있는 음성 및 오디오 신호 부호화 방법을 제공하는데 있다.
상기의 과제를 이루기 위해, 본 발명에 의한 음성 및 오디오 신호 부호화장치는 입력되는 신호를 음성(speech) 부호화하는 음성 부호화부, 음성 부호화 된 신호를 음성 복호화하는 음성 복호화부 및 음성 복호화된 신호와 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 구분된 대역들에 대한 각각의 비트수들을 할당하여, 차이 신호를 오디오(audio) 부호화하는 오디오 부호화부를 구비하는 것을 특징으로 한다.
상기의 다른 과제를 이루기 위해, 본 발명에 의한 음성 및 오디오 신호 부호화방법은 입력되는 신호를 음성(speech) 부호화하는 단계; 음성 부호화 된 신호를 음성 복호화하는 단계; 및 음성 복호화된 신호와 상기 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 상기 구분된 대역들에 대한 각각의 비트수들을 할당하여 상기 차이 신호를 오디오(audio) 부호화하는 단계를 구비하는 것을 특징으로 한다.
삭제
이하, 본 발명에 의한 음성 및 오디오 신호 부호화장치를 첨부된 도면을 참조하여 상세히 설명한다.
삭제
도 1은 본 발명에 의한 음성 및 오디오 신호 부호화장치를 설명하기 위한 일 실시예의 블록도로서, 음성 부호화부(100), 음성 복호화부(120) 및 오디오 부호화부(140)로 구성된다.
먼저, 음성 부호화부(100)는 입력단자 IN1을 통해 입력되는 신호를 음성(speech) 부호화하고, 부호화한 결과를 음성 복호화부(120)로 출력한다. 음성 부호화부(100)의 일 예로 G.729 코덱이 있다. G.729 코덱은 64[Kbps]의 신호를 8[Kbps]으로 공역 구조 대수 여진형 선형예측(CS-ACELP:Conjugate Structure - Algebraic Code Excited Linear Prediction)에 따라 압축한 방식을 의미한다.
음성 복호화부(120)는 음성 부호화부(100)에서 음성 부호화 된 신호를 음성 복호화하고, 복호화한 결과를 오디오 부호화부(140)로 출력한다. 예를 들어, 음성 복호화부(120)는 전술한 G.729 코덱에 의해 부호화된 신호를 복호화하는 복호화 장치이다.
오디오 부호화부(140)는 음성 복호화부(120)에서 음성 복호화된 신호와 음성부호화부(100)로 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 구분된 대역들에 대한 각각의 비트수들을 할당하여, 차이 신호 를 오디오 부호화하고, 부호화한 결과를 출력단자 OUT1을 통해 출력한다.
도 2는 도 1에 도시된 오디오 부호화부를 설명하기 위한 일 실시예의 블록도로서, 서브밴드 분석 필터(200), 심리 음향 모델부(220), 비트수 할당부(240), 양자화부(260) 및 엔트로피 부호화부(280)로 구성된다.
서브밴드 분석 필터(subband analysis filter:200)는 차이 신호를 입력단자 IN2를 통해 입력받는다.
서브밴드 분석 필터(200)는 입력된 차이 신호를 소정 개수의 부 대역(subband)들로 주파수 변환하고, 변환한 결과를 비트수 할당부(240)로 출력한다.
도 3은 도 2에 도시된 서브밴드 분석 필터에 의해 부 대역을 갖는 주파수 영역으로 변환된 신호의 일 예를 나타내는 도면이다.
도 3에 도시된 바와 같이, 프레임 처리단위가 320 샘플들을 갖는 8[kHz]의 신호는 32개의 부 대역을 갖는 주파수 영역으로 변환되었음을 나타내고 있다. 이와 같이, 입력되는 신호의 프레임 처리단위가 2의 배수가 아니더라도, 서브밴드 분석 필터(200)는 입력되는 신호를 소정 개수(예를 들어, 32개)로 구분된 주파수 영역의 신호로 변환한다. 서브 밴드 분석 펄터(200)는 프레임 처리단위가 2의 배수가 아니더라도, 입력되는 신호를 소정 개수로 구분된 주파수 영역의 신호로 변환하는 것을 특징으로 하며, 여기서 소정 개수는 2의 배수에 해당하는 개수 예를 들어 32개로 함으로써, 320개의 샘플을 2의 배수에 해당하는 32개의 서브 그룹으로 분할하고, 분할된 서브 그룹들을 주파수 영역으로 변환한다. 따라서, 입력되는 음성 신호가 2의 배수가 아니더라도, 서브 밴드 분석 필터(200)에 의해 2의 배수에 해당하는 서브 밴드로 분할됨으로써, 오디오 신호의 부호화에 적합한 신호로 샘플링되는 것이다.
심리 음향 모델부(220)는 입력단자 IN3을 통해 신호를 입력받으면, 입력된 신호를 이용해, 서브밴드 분석 필터(200)에서 변환된 신호에 대한 각 부 대역들의 마스킹 문턱치(masking threshold)들을 산출하고, 산출한 결과를 비트수 할당부(240)로 출력한다. 마스킹 문턱치는 청각심리 부호화에서 원음과 최소 가청한계의 곡선으로부터 실제로 원음을 감지할 수 있는 한계치를 의미한다.
비트수 할당부(240)는 변환된 오디오신호를 저 대역 및 고 대역으로 구분하여, 구분된 저 대역에 대한 저 대역 비트수 및 구분된 고 대역에 대한 고 대역 비트수를 각각 할당하고, 할당한 결과를 양자화부(260)로 출력한다.
비트수 할당부(240)는 변환된 신호를 주파수 영역 상에서 저 대역과 고 대역으로 구분한다. 저 대역 과 고 대역의 구분은 미리 설정될 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 8[kHz]의 주파수 영역을 갖는 오디오 신호에 대해 3.5 내지 4.0[kHz] 사이의 임의의 주파수를 저 대역과 고 대역을 구분하기 위한 경계 주파수로서 설정할 수 있다. 이렇게 설정된 경계 주파수를 중심으로 저 대역과 고 대역으로 구분한다.
저 대역의 신호를 부호화하기 위한 할당 비트수를 저 대역 비트수라 하고, 고 대역의 신호를 부호화하기 위한 할당 비트수를 고 대역 비트수라 한다.
비트수 할당부(240)는 다음의 수학식 1을 사용하여 저 대역 비트수를 산출하고, 다음의 수학식 2을 사용하여 고 대역 비트수를 산출하는 것을 특징으로 한다.
BLB=BT×TLB/(TLB +THB)
BHB=BT×THB/(TLB +THB)
여기서, BLB는 저 대역 비트수를 의미하고, BHB는 고 대역 비트수를 의미하고, BT는 전체 대역에 대해 할당된 총 비트수를 의미하고, TLB는 저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미하고, THB는 고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미한다.
전체 대역에 대해 할당된 총 비트수는 주파수 영역으로 변환된 신호의 전체 대역에 대해 부호화 할 경우에 할당되는 총 비트수를 의미한다.
저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값은 심리 음향 모델부(220)에서 구해진 마스킹 문턱치들 중 저 대역에 해당하는 마스킹 문턱치들을 평균한 값이다.
고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값은 심리 음향 모델부(220)에서 구해진 마스킹 문턱치들 중 고 대역에 해당하는 마스킹 문턱치들을 평균한 값이다.
비트수 할당부(240)는 음성 신호일 경우에는 저 대역보다 고 대역에 많은 비트수를 할당하는 것을 특징으로 하며, 오디오 신호일 경우에는 고 대역보다 저 대역에 상대적으로 많은 비트수를 할당하는 것을 특징으로 한다.
비트수 할당부(240)는 수학식 1에 의해 구해진 저 대역 비트수 범위 내에서 저 대역에 포함된 부 대역들에 대한 각각의 비트수들을 할당한다. 이때, 비트수 할당부(240)는 심리 음향 모델부(220)에서 구해진 부 대역들 각각에 대응하는 문턱치들을 사용하여 비트수들을 할당하는 것을 특징으로 한다.
예를 들어, 저 대역 비트수가 800[bit]인 경우에, 800[bit] 범위 내에서 저 대역에 속하는 부 대역들의 비트수들을 각각의 문턱치들에 따라 할당한다. 부 대역 의 문턱치가 클 수록 큰 비트수를 할당하고, 문턱치가 작을 수록 작은 비트수를 할당한다.
또한, 비트수 할당부(240)는 수학식 2에 의해 구해진 고 대역 비트수 범위 내에서 고 대역에 포함된 부 대역들에 대한 각각의 비트수들을 할당한다. 이때, 비트수 할당부(240)는 심리 음향 모델부(220)에서 구해진 부 대역들 각각에 대응하는 문턱치들을 사용하여 비트수들을 할당하는 것을 특징으로 한다.
예를 들어, 고 대역 비트수가 200[bit]인 경우에, 200[bit] 범위 내에서 저 대역에 속하는 부 대역들의 비트수들을 각각의 문턱치들에 따라 할당한다. 부 대역의 문턱치가 클 수록 큰 비트수를 할당하고, 문턱치가 작을 수록 작은 비트수를 할당한다.
양자화부(260)는 비트수 할당부(240)에서 할당된 저 대역 비트수 및 고 대역 비트수에 따라, 서브밴드 분석 필터(200)에 의해 변환된 오디오신호를 양자화하고, 양자화한 결과를 엔트로피 부호화부(280)로 출력한다. 양자화부(260)는 부 대역별로 할당된 비트수들에 따라 오디오신호를 각 부대역별로 양자화한다.
엔트로피 부호화부(280)는 양자화부(260)에서 양자화 된 오디오신호를 부호화하고, 부화화 한 결과를 출력단자 OUT2를 통해 출력한다.
이하, 본 발명에 의한 음성 및 오디오 신호 복호화장치를 첨부된 도면을 참조하여 상세히 설명한다.
도 4는 본 발명에 의한 음성 및 오디오 신호 복호화장치를 설명하기 위한 일 실시예의 블록도로서, 오디오 복호화부(300) 및 음성 복호화부(320)로 구성된다.
오디오 복호화부(300)는 오디오 부호화부(140)로부터 입력된 부호화된 오디오 신호를 오디오 복호화하는 것이고, 음성 복호화부(320)는 음성 부호화부(100)로부터 입력된 부호화된 음성 신호를 음성 복호화하는 것이다. 부호화된 오디오 신호 및 음성 신호는 동시에 받아들일 수도 있고, 별개로 받아들일 수도 있다. 동시에 받아들일 경우에는 부호화된 오디오 신호를 오디오 복호화부(300)가 복호화하고, 부호화된 음성 신호를 음성 복호화부(320)가 복호화하고, 복호화된 결과를 출력한다. 만일, 부호화된 오디오 신호만이 입력되는 경우에는 오디오 복호화부(300)에 의해 오디오 신호가 복호화되고, 부호화된 음성 신호만이 입력되는 경우에는 음성 복호화부(320)에 의해 음성 신호가 복호화된다.
오디오 복호화부(300)는 부호화된 오디오 신호를 입력단자 IN4를 통해 입력받으면, 저 대역 및 고 대역으로 구분되어 비트수가 할당된 오디오 신호를 오디오 복호화하고, 복호화한 결과를 출력단자 OUT3을 통해 출력한다.
도 5는 도 4에 도시된 오디오 복호화부(300)를 설명하기 위한 일 실시예의 블록도로서, 엔트로피 복호화부(400), 역양자화부(420) 및 서브밴드 합성 필터(440)로 구성된다.
엔트로피 복호화부(400)는 오디오 부호화된 신호를 입력단자 IN6을 통해 입력받으면, 오디오 부호화된 신호를 오디오 복호화하고, 복호화한 결과를 역양자화부(420)로 출력한다.
역양자화부(420)는 저 대역에 할당된 저 대역 비트수 및 고 대역에 할당된 고 대역 비트수에 따라, 복호화된 오디오신호를 역양자화하고, 역양자화 한 결과를 서브밴드 합성 필터(440)로 출력한다.
역양자화부(420)는 저 대역 비트수 범위 내에서 각 부 대역들에 할당된 비트수들에 따라, 저 대역의 오디오신호를 역양자화한다. 또한, 역양자화부(420)는 고 대역 비트수 범위 내에서 각 부 대역들에 할당된 비트수들에 따라, 고 대역의 오디오신호를 역양자화한다.
한편, 저 대역 비트수는 전술한 수학식 1에 의해 산출된 값이고, 고 대역 비트수는 전술한 수학식 2에 의해 산출된 값이다.
서브밴드 합성 필터(subband synthesis filter:440)는 역양자화부(420)에서 역양자화된 오디오신호를 시간 영역으로 변환하고, 변환한 결과를 출력 단자 OUT5 로 출력한다.
한편, 음성 복호화부(320)는 전술한 음성 부호화부(100)에서 음성 부호화된 신호를 입력단자 IN5를 통해 입력받으면, 입력된 신호를 음성 복호화하고, 복호화한 결과를 출력단자 OUT4를 통해 출력한다.
오디오 복호화부(300)에서 출력된 오디오 복호화 신호와 음성 복호화부(320)에서 출력된 음성 복호화 신호는 합성되어 최종적인 오디오 신호로서 출력된다.
이하, 본 발명에 의한 음성 및 오디오 신호 부호화방법을 첨부된 도면을 참조하여 상세히 설명한다.
도 6은 본 발명에 의한 음성 및 오디오 신호 부호화방법을 설명하기 위한 일 실시예의 플로차트이다.
입력되는 신호를 음성 부호화한다(제500 단계).
제500 단계 후에, 음성 부호화 된 신호를 음성 복호화한다(제502 단계).
제502 단계 후에, 음성 복호화된 신호와 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 구분된 대역들에 대한 각각의 비트수들을 할당하여, 차이 신호를 오디오 부호화한다(제504 단계).
도 7은 도 6에 도시된 제504 단계를 설명하기 위한 일 실시예의 플로차트이다.
음성 복호화된 신호를 소정 개수의 부 대역(subband)들로 주파수 변환한다(제600 단계). 도 3에 도시된 바와 같이, 입력되는 신호의 프레임 처리단위가 2의 배수가 아니더라도, 입력되는 신호를 소정 개수(예를 들어, 32개)로 구분된 주파수 영역의 신호로 변환한다.
한편, 변환된 신호에 대한 각 부 대역들의 마스킹 문턱치(masking threshold)들을 산출한다(제602 단계). 마스킹 문턱치는 청각심리 부호화에서 원음과 최소 가청한계의 곡선으로부터 실제로 원음을 감지할 수 있는 한계치를 의미한다.
제600 단계 및 제602 단계 후에, 변환된 신호를 저 대역 및 고 대역으로 구분하여, 구분된 저 대역에 대한 저 대역 비트수 및 구분된 고 대역에 대한 고 대역 비트수를 각각 할당한다(제604 단계).
저 대역의 신호를 부호화하기 위한 할당 비트수를 저 대역 비트수라 하고, 고 대역의 신호를 부호화하기 위한 할당 비트수를 고 대역 비트수라 한다.
전술한 수학식 1을 사용하여 저 대역 비트수를 산출하고, 수학식 2를 사용하여 고 대역 비트수를 산출하고는 것을 특징으로 한다.
음성 신호일 경우에는 저 대역보다 고 대역에 많은 비트수를 할당하는 것을 특징으로 하며, 오디오 신호일 경우에는 고 대역보다 저 대역에 상대적으로 많은 비트수를 할당하는 것을 특징으로 한다.
수학식 1에 의해 구해진 저 대역 비트수 범위 내에서 저 대역에 포함된 부 대역들에 대한 각각의 비트수들을 할당한다. 이때, 제602 단계에서 구해진 부 대역들 각각에 대응하는 문턱치들을 사용하여 비트수들을 할당하는 것을 특징으로 한다.
또한, 수학식 2에 의해 구해진 고 대역 비트수 범위 내에서 고 대역에 포함 된 부 대역들에 대한 각각의 비트수들을 할당한다. 이때, 제602 단계에서 구해진 부 대역들 각각에 대응하는 문턱치들을 사용하여 비트수들을 할당하는 것을 특징으로 한다.
제604 단계 후에, 할당된 저 대역 비트수 및 할당된 고 대역 비트수에 따라, 변환된 신호를 양자화한다(제606 단계). 즉, 부 대역별로 할당된 비트수들에 따라 오디오신호를 각 부대역별로 양자화한다.
제606 단계 후에, 양자화 된 오디오신호를 부호화한다(제608 단계).
이하, 본 발명에 의한 음성 및 오디오 신호 복호화방법을 첨부된 도면을 참조하여 상세히 설명한다.
도 8은 본 발명에 의한 음성 및 오디오 신호 복호화방법을 설명하기 위한 일 실시예의 플로차트이다.
저 대역 및 고 대역으로 구분된 오디오 신호들에 대해 각각 비트수들이 할당되어 오디오 부호화된 신호를 오디오 복호화한다(제700 단계).
도 9는 도 8에 도시된 제700 단계를 설명하기 위한 일 실시예의 플로차트이다.
오디오 부호화된 신호를 복호화한다(제800 단계).
제800 단계 후에, 저 대역에 대해 할당된 저 대역 비트수 및 고 대역에 대해 할당된 고 대역 비트수에 따라, 복호화된 오디오신호를 역양자화한다(제802 단계).
저 대역 비트수는 전술한 수학식 1에 의해 산출된 값이고, 고 대역 비트수는 전술한 수학식 2에 의해 산출된 값이다.
저 대역 비트수 범위 내에서 각 부 대역들에 할당된 비트수들에 따라, 저 대역의 오디오신호를 역양자화하고, 고 대역 비트수 범위 내에서 각 부 대역들에 할당된 비트수들에 따라, 고 대역의 오디오신호를 역양자화한다.
제802 단계 후에, 역양자화된 오디오신호를 시간 영역으로 변환한다(제804 단계).
한편, 제700 단계 후에, 음성 부호화된 신호를 음성 복호화한다(제702 단계).
한편, 상술한 본 발명의 방법 발명은 컴퓨터에서 읽을 수 있는 코드/명령들(instructions)/프로그램으로 구현될 수 있고, 매체, 예를 들면 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 코드/명령들/프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크, 마그네틱 테이프 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다.
또한, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 코드를 내장하는 매체(들)로서 구현되어, 네트워크를 통해 연결된 다수개의 컴퓨터 시스템들이 분배되어 처리 동작하도록 할 수 있다. 본 발명을 실현하는 기능적인 프로그램들, 코드들 및 코드 세그먼트(segment)들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 쉽게 추론될 수 있다.
이러한 본원 발명인 음성 및 오디오 신호 부호화 및 복호화 장치 및 방법은 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
본 발명에 의한 음성 및 오디오 신호 부호화 및 복호화 장치 및 방법은 음성 신호 또는 오디오 신호에 따라 적응적인 비트율을 사용하여 부호화함으로써, 음성 신호 및 오디오 신호 모두에 대해 고품질의 부호화 및 복호화를 구현할 수 있는 효과가 있다.
또한, 본 발명에 의한 음성 및 오디오 신호 부호화 및 복호화 장치 및 방법은 오디오 신호의 프레임 처리단위가 2의 배수가 아니라도 고품질의 부호화 및 복호화를 구현할 수 있는 효과가 있다.
또한, 본 발명에 의한 음성 및 오디오 신호 부호화 및 복호화 장치 및 방법은 음성 신호 및 오디오 신호의 부호화 및 복호화를 위해 필요한 구성요소의 복잡도를 낮추면서도 고품질의 오디오 부호화 및 복호화를 구현할 수 있는 효과가 있다.

Claims (18)

  1. 입력되는 신호를 음성(speech) 부호화하는 음성 부호화부;
    상기 음성 부호화 된 신호를 음성 복호화하는 음성 복호화부; 및
    상기 음성 복호화된 신호와 상기 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 상기 구분된 대역들에 대한 각각의 비트수들을 할당하여 상기 차이 신호를 오디오(audio) 부호화하는 오디오 부호화부를 구비하는 것을 특징으로 하는 음성 및 오디오 신호 부호화장치.
  2. 제1항에 있어서, 상기 오디오 부호화부는
    상기 차이 신호를 소정 개수의 부 대역(subband)들로 주파수 변환하는 서브밴드 분석 필터(subband analysis filter);
    상기 변환된 신호에 대한 각 부 대역들의 마스킹 문턱치(masking threshold)들을 산출하는 심리 음향 모델부;
    상기 변환된 신호를 상기 저 대역 및 상기 고 대역으로 구분하여, 상기 구분된 저 대역에 대한 저 대역 비트수 및 상기 구분된 고 대역에 대한 고 대역 비트수를 각각 할당하는 비트수 할당부;
    상기 할당된 저 대역 비트수 및 상기 할당된 고 대역 비트수에 따라, 상기 변환된 신호를 양자화하는 양자화부; 및
    상기 양자화 된 신호를 부호화하는 엔트로피 부호화부를 구비하는 것을 특징 으로 하는 음성 및 오디오 신호 부호화장치.
  3. 제2항에 있어서, 상기 비트수 할당부는
    다음의 수학식 1을 사용하여 상기 저 대역 비트수를 산출하는 것을 특징으로 하는 음성 및 오디오 신호 부호화장치.
    [수학식 1]
    BLB=BT×TLB/(TLB +THB)
    여기서, BLB는 상기 저 대역 비트수를 의미하고, BT는 전체 대역에 대해 할당된 총 비트수를 의미하고, TLB는 상기 저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미하고, THB는 상기 고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미한다.
  4. 제3항에 있어서, 상기 비트수 할당부는
    상기 저 대역 비트수 범위 내에서 상기 저 대역에 포함된 부 대역들에 대한 각각의 비트수들을 대응하는 문턱치들을 사용하여 할당하는 것을 특징으로 하는 음성 및 오디오 신호 부호화장치.
  5. 제2항에 있어서, 상기 비트수 할당부는
    다음의 수학식 2을 사용하여 상기 고 대역 비트수를 산출하는 것을 특징으로 하는 음성 및 오디오 신호 부호화장치.
    [수학식 2]
    BHB=BT×THB/(TLB +THB)
    여기서, BHB는 상기 고 대역 비트수를 의미하고, BT는 전체 대역에 대해 할당된 총 비트수를 의미하고, TLB는 상기 저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미하고, THB는 상기 고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미한다.
  6. 제5항에 있어서, 상기 비트수 할당부는
    상기 고 대역 비트수 범위 내에서 상기 고 대역에 포함된 부 대역들에 대한 각각의 비트수들을 대응하는 문턱치들을 사용하여 할당하는 것을 특징으로 하는 음성 및 오디오 신호 부호화장치.
  7. 삭제
  8. 삭제
  9. 입력되는 신호를 음성(speech) 부호화하는 단계;
    상기 음성 부호화 된 신호를 음성 복호화하는 단계; 및
    상기 음성 복호화된 신호와 상기 입력되는 신호와의 차이에 해당하는 차이 신호를 저 대역 및 고 대역으로 구분하고, 상기 구분된 대역들에 대한 각각의 비트수들을 할당하여 상기 차이 신호를 오디오(audio) 부호화하는 단계를 구비하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
  10. 제9항에 있어서, 상기 차이 신호를 오디오 부호화하는 단계는
    상기 차이 신호를 소정 개수의 부 대역(subband)들로 주파수 변환하는 단계;
    상기 변환된 신호에 대한 각 부 대역들의 마스킹 문턱치(masking threshold)들을 산출하는 단계;
    상기 변환된 신호를 상기 저 대역 및 상기 고 대역으로 구분하여, 상기 구분 된 저 대역에 대한 저 대역 비트수 및 상기 구분된 고 대역에 대한 고 대역 비트수를 각각 할당하는 단계;
    상기 할당된 저 대역 비트수 및 상기 할당된 고 대역 비트수에 따라, 상기 변환된 신호를 양자화하는 단계; 및
    상기 양자화 된 신호를 부호화하는 단계를 구비하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
  11. 제10항에 있어서, 상기 비트수를 할당하는 단계는
    다음의 수학식 1을 사용하여 상기 저 대역 비트수를 산출하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
    [수학식 1]
    BLB=BT×TLB/(TLB +THB)
    여기서, BLB는 상기 저 대역 비트수를 의미하고, BT는 전체 대역에 대해 할당된 총 비트수를 의미하고, TLB는 상기 저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미하고, THB는 상기 고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미한다.
  12. 제11항에 있어서, 상기 비트수를 할당하는 단계는
    상기 저 대역 비트수 범위 내에서 상기 저 대역에 포함된 부 대역들에 대한 각각의 비트수들을 대응하는 문턱치들을 사용하여 할당하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
  13. 제10항에 있어서, 상기 비트수를 할당하는 단계는
    다음의 수학식 2을 사용하여 상기 고 대역 비트수를 산출하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
    [수학식 2]
    BHB=BT×THB/(TLB +THB)
    여기서, BHB는 상기 고 대역 비트수를 의미하고, BT는 전체 대역에 대해 할당된 총 비트수를 의미하고, TLB는 상기 저 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미하고, THB는 상기 고 대역에 포함된 부 대역들에 대한 마스킹 문턱치들의 평균값을 의미한다.
  14. 제13항에 있어서, 상기 비트수를 할당하는 단계는
    상기 고 대역 비트수 범위 내에서 상기 고 대역에 포함된 부 대역들에 대한 각각의 비트수들을 대응하는 문턱치들을 사용하여 할당하는 것을 특징으로 하는 음성 및 오디오 신호 부호화방법.
  15. 제9항 내지 제14항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록 한 컴퓨터로 읽을 수 있는 기록매체.
  16. 삭제
  17. 삭제
  18. 삭제
KR1020050091190A 2005-09-29 2005-09-29 음성 및 오디오 신호 부호화 장치 및 방법 KR100754389B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050091190A KR100754389B1 (ko) 2005-09-29 2005-09-29 음성 및 오디오 신호 부호화 장치 및 방법
US11/527,550 US20070078651A1 (en) 2005-09-29 2006-09-27 Device and method for encoding, decoding speech and audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050091190A KR100754389B1 (ko) 2005-09-29 2005-09-29 음성 및 오디오 신호 부호화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070036305A KR20070036305A (ko) 2007-04-03
KR100754389B1 true KR100754389B1 (ko) 2007-08-31

Family

ID=37902926

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050091190A KR100754389B1 (ko) 2005-09-29 2005-09-29 음성 및 오디오 신호 부호화 장치 및 방법

Country Status (2)

Country Link
US (1) US20070078651A1 (ko)
KR (1) KR100754389B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
CN106941004B (zh) * 2012-07-13 2021-05-18 华为技术有限公司 音频信号的比特分配的方法和装置
US10354667B2 (en) 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050046204A (ko) * 2003-11-13 2005-05-18 한국전자통신연구원 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
DE19537338C2 (de) * 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6182031B1 (en) * 1998-09-15 2001-01-30 Intel Corp. Scalable audio coding system
FR2791167B1 (fr) * 1999-03-17 2003-01-10 Matra Nortel Communications Procedes de codage, de decodage et de transcodage audio
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
CA2524243C (en) * 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050046204A (ko) * 2003-11-13 2005-05-18 한국전자통신연구원 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법

Also Published As

Publication number Publication date
US20070078651A1 (en) 2007-04-05
KR20070036305A (ko) 2007-04-03

Similar Documents

Publication Publication Date Title
US7974840B2 (en) Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information
KR100261254B1 (ko) 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100634506B1 (ko) 저비트율 부호화/복호화 방법 및 장치
KR101237413B1 (ko) 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
KR100908117B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
KR100738109B1 (ko) 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
US20040181395A1 (en) Scalable stereo audio coding/decoding method and apparatus
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
KR100754389B1 (ko) 음성 및 오디오 신호 부호화 장치 및 방법
KR100928966B1 (ko) 저비트율 부호화/복호화방법 및 장치
KR100940532B1 (ko) 저비트율 복호화방법 및 장치
Noll et al. Digital audio: from lossless to transparent coding

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee