KR20160098597A

KR20160098597A - 통신 시스템에서 신호 코덱 장치 및 방법

Info

Publication number: KR20160098597A
Application number: KR1020150019632A
Authority: KR
Inventors: 김현우; 정상배; 조근석
Original assignee: 한국전자통신연구원
Priority date: 2015-02-09
Filing date: 2015-02-09
Publication date: 2016-08-19

Abstract

본 발명은, 통신 시스템에서 음성 및 오디오 신호를 부호화 및 복호화하는 코덱(codec) 장치 및 방법에 관한 것으로, 시간 영역의 음성 및 오디오 신호를 주파수 영역으로 변환하여, 상기 음성 및 오디오 신호의 주파수 계수를 산출한 후, 상기 주파수 계수를, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리하고, 상기 포락 파라미터를 인지적 스케일(scale) 변환하고, 상기 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하며, 상기 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여 포락 양자화 인덱스를 산출하고, 상기 주파수 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후 상기 전역이득을 양자화하여 전역이득 양자화 인덱스를 산출하며, 상기 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출한다.

Description

통신 시스템에서 신호 코덱 장치 및 방법{Apparatus and method for codec signal in a communication system}

본 발명은, 통신 시스템에 관한 것으로, 특히 통신 시스템에서 음성 및 오디오 신호를 부호화 및 복호화하는 코덱(codec) 장치 및 방법에 관한 것이다.

통신 시스템에서는 고속의 전송 속도를 가지는 다양한 서비스 품질(QoS: Quality of Service, 이하 'QoS'라 칭하기로 함)의 서비스들을 사용자들에게 제공하기 위한 활발한 연구가 진행되고 있다. 이러한 통신 시스템은, 다양한 형태의 QoS를 가지는 데이터를 한정된 자원을 통해 빠르게 전송하기 위한 방안들이 제안되고 있으며, 최근 네트워크의 발달과 고품질 서비스에 대한 사용자 요구가 증가함에 따라 네트워크에서 음성 및 오디오 신호를 송수신하기 위해 상기 음성 및 오디오 신호를 압축 및 복원하는 방안들이 제안되었으며, 이러한 음성 및 오디오 신호의 압축 및 복원을 위해 많은 음성/오디오 코덱(codec)들이 개발되었다.

한편, 통신 시스템에서는, 음성 및 오디오 신호를 디지털 통신망을 통해 송수신하기 위해, 디지털 신호로 변환된 음성 및 오디오 신호를 압축하는 인코더와, 압축된 데이터로부터 음성 및 오디오 신호를 복원하는 디코더가 필수적으로 필요하다. 여기서, 일반적으로 인코더와 디코더를 합하여 코덱 또는 코더라고 한다. 최근 통신 시스템에서의 음성/오디오 코덱은, 기존 전화망 대역에 해당하는 협대역 음성을 부호화/복호화하는데서 벗어나 보다 나은 자연성과 명료성을 제공하기 위해 광대역 혹은 슈퍼와이드밴드 음성 및 오디오 신호를 부호화/복호화하기 위한 연구가 이루어지고 있다.

또한, 최근 통신 시스템에서의 음성/오디오 코덱은, 신호 대역폭이 확장됨에 따라 음악과 같음 오디오 신호에 대한 부호화/복호화 성능이 중요하게 고려되고 있으며, 이를 위해 전체 신호 대역을 저대역과 고대역으로 분할하여, 저대역 신호에는 파형 부호화 및 코드 여기 선형 예측(CELP: Code Excited Linear Prediction, 이하 'CELP'라 칭하기로 함) 부호화를 적용하고, 고대역 신호에 대해서는 변환 부호화를 기반으로 한 하이브리드(hybrid) 부호화를 적용한다.

이러한 상기 음성/오디오 코덱들은, 전술한 바와 같은, 음성 및 오디오 신호의 부호화 시에, 음성 및 오디오 신호를 시간 영역에서 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform, 이하 'MDCT'라 칭하기로 함) 또는 이산 퓨리에 변환(DFT: Discrete Fourier Transform, 이하 'DFT'라 칭하기로 함)을 통해 주파수 영역으로 변환하여 양자화한다.

하지만, 현재 통신 시스템에서 음성 및 오디오 신호를 음성/오디오 코덱을 이용하여 부호화할 경우, 전술한 바와 같이, 음성 및 오디오 신호를 주파수 영역으로 변환하여 양자화하여야 하나, 현재 음성/오디오 코덱에서 주파수 영역의 음성 및 오디오 신호를 양자화하는 방안, 특히 음성/오디오 코덱에서 음성 및 오디오 신호의 주파수 계수들을 양자화하는 구체적인 방안이 제안되지 못하고 있으며, 그에 따라 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화를 정상적으로 수행하지 못함으로써, 음성 및 오디오 신호의 부호화 성능이 저하되어 고품질의 음성 및 오디오 서비스를 사용자들에게 제공하지 못하는 문제점이 있다. 아울러, 전술한 바와 같이, 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화를 정상적으로 수행하지 못함에 따라, 부호화에 대응하는 복호화, 즉 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 복호화 또한 정상적으로 수행하지 못함으로써, 음성 및 오디오 신호의 복호화 성능이 저하되어 고품질의 음성 및 오디오 서비스를 사용자들에게 제공하지 못하는 문제점이 있다.

따라서, 통신 시스템에서 고품질의 음성 및 오디오 서비스를 제공하기 위해, 음성/오디오 코덱에서 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들을 양자화하여, 상기 음성/오디오 코덱을 기반으로 음성 및 오디오 신호를 정상적으로 부호화 및 복호화하는 방안이 필요하다. 아울러, 통신 시스템에서, 음성/오디오 코덱에서 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들을 보다 정상적으로 양자화하여, 보다 향상된 음질의 음성 및 오디오 서비스를 제공하는 방안이 필요하다.

따라서, 본 발명의 목적은, 통신 시스템에서 신호를 부호화 및 복호화하는 코덱(codec) 장치 및 방법을 제공함에 있다.

또한, 본 발명의 다른 목적은, 통신 시스템에서 음성/오디오 코덱을 이용하여 음성 및 오디오 신호를 부호화 및 복호화하는 코덱 장치 및 방법을 제공함에 있다.

그리고, 본 발명의 다른 목적은, 통신 시스템에서 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화 시에, 상기 음성/오디오 코덱에서 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들을 양자화하여, 상기 음성/오디오 코덱을 기반으로 음성 및 오디오 신호를 정상적으로 부호화 및 복호화하는 신호 코덱 장치 및 방법을 제공함에 있다.

아울러, 본 발명의 또 다른 목적은, 통신 시스템에서 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화 시에, 상기 음성/오디오 코덱에서 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform)을 통해 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들에서 포락(envelope) 파라미터를 보다 정상적으로 양자화함으로써, 상기 음성/오디오 코덱을 기반으로 음성 및 오디오 신호를 정상적으로 부호화 및 복호화하여, 음성 및 오디오 서비스 품질을 향상시키는 신호 코덱 장치 및 방법을 제공함에 있다.

상기한 목적들을 달성하기 위한 본 발명의 장치는, 통신 시스템에서 신호를 부호화하는 코덱(codec) 장치에 있어서, 시간 영역의 음성 및 오디오 신호를 주파수 영역으로 변환하여, 상기 음성 및 오디오 신호의 주파수 계수를 산출하는 변환부; 상기 주파수 계수를, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리하는 분리부; 상기 포락 파라미터를 인지적 스케일(scale) 변환하는 스케일 변환부; 상기 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하는 캡스트럼 추출부; 상기 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여, 포락 양자화 인덱스를 산출하는 벡터 양자화부; 및 상기 주파수 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후, 상기 전역이득을 양자화하여 전역이득 양자화 인덱스를 산출하는 전역이득 양자화부;를 포함한다.

상기한 목적들을 달성하기 위한 본 발명의 다른 장치는, 통신 시스템에서 신호를 복호화하는 코덱(codec) 장치에 있어서, 부호화된 음성 및 오디오 신호에 대한 주파수 계수 양자화 파라미터를 수신하고, 상기 주파수 계수 양자화 파라미터를 복원하여, 상기 부호화된 음성 및 오디오 신호를 복원하는 복원부;를 포함하며; 상기 복원부는, 상기 주파수 계수 양자화 파라미터에서 모양(shape) 양자화 인덱스와 참조 주파수 계수를 이용하여, 모양 파라미터를 복원하는 모양 복원부; 상기 주파수 계수 양자화 파라미터에서 포락(envelope) 양자화 인덱스를 이용하여, 포락 파라미터를 복원하는 포락 복원부; 상기 주파수 계수 양자화 파라미터에서 전역이득 양자화 인덱스 및 상기 참조 주파수 계수를 이용하여, 전역이득을 복원하는 전역이득 복원부; 상기 모양 파라미터를 정규화하는 정규화부; 상기 전역이득을 이용하여 상기 포락 파라미터를 정규화하는 제1연산부; 및 상기 정규화된 모양 파라미터와 상기 정규화된 포락 파라미터를 연산하여, 상기 부호화된 음성 및 오디오 신호의 주파수 계수를 복원하는 제2연산부;를 포함한다.

상기한 목적들을 달성하기 위한 본 발명의 방법은, 통신 시스템에서 신호를 부호화하는 코덱(codec) 방법에 있어서, 시간 영역의 음성 및 오디오 신호를 주파수 영역으로 변환하여, 상기 음성 및 오디오 신호의 주파수 계수를 산출한 후, 상기 주파수 계수를, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리하는 단계; 상기 포락 파라미터를 인지적 스케일(scale) 변환하는 단계; 상기 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하는 단계; 및 상기 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여 포락 양자화 인덱스를 산출하고, 상기 주파수 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후 상기 전역이득을 양자화하여 전역이득 양자화 인덱스를 산출하며, 상기 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출하는 단계;를 포함한다.

상기한 목적들을 달성하기 위한 본 발명의 다른 방법은, 통신 시스템에서 신호를 복호화하는 코덱(codec) 방법에 있어서, 부호화된 음성 및 오디오 신호에 대한 주파수 계수 양자화 파라미터를 수신하는 단계; 상기 주파수 계수 양자화 파라미터를 복원하여, 상기 부호화된 음성 및 오디오 신호를 복원하는 단계;를 포함하며; 상기 복원하는 단계는, 상기 주파수 계수 양자화 파라미터에서 모양(shape) 양자화 인덱스와 참조 주파수 계수를 이용하여, 모양 파라미터를 복원하는 단계; 상기 주파수 계수 양자화 파라미터에서 포락(envelope) 양자화 인덱스를 이용하여, 포락 파라미터를 복원하는 단계; 상기 주파수 계수 양자화 파라미터에서 전역이득 양자화 인덱스 및 상기 참조 주파수 계수를 이용하여, 전역이득을 복원하는 단계; 상기 모양 파라미터를 정규화하고, 상기 전역이득을 이용하여 상기 포락 파라미터를 정규화하는 단계; 및 상기 정규화된 모양 파라미터와 상기 정규화된 포락 파라미터를 연산하여, 상기 부호화된 음성 및 오디오 신호의 주파수 계수를 복원하는 단계;를 포함한다.

본 발명은, 통신 시스템에서 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화 시에, 상기 음성/오디오 코덱에서 MDCT를 통해 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들에서, 포락(envelope) 파라미터를 보다 정확하게 양자화함으로써, 상기 음성 및 오디오 신호의 주파수 계수들에 대한 양자화 오류를 최소화하며, 그에 따라 상기 음성/오디오 코덱을 기반으로 음성 및 오디오 신호의 부호화 및 복호화 성능을 향상시켜 고품질의 음성 및 오디오 서비스를 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 부호화기 구조를 개략적으로 도시한 도면.
도 2는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 복호화기 구조를 개략적으로 도시한 도면.
도 3 및 도 4는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 양자화부의 구조를 개략적으로 도시한 도면.
도 5는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 복원부의 구조를 개략적으로 도시한 도면.
도 6은 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 MDCT 계수 양자화 과정을 개략적으로 도시한 도면.
도 7은 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 MDCT 계수 복원 과정을 개략적으로 도시한 도면.

이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 흩뜨리지 않도록 생략될 것이라는 것을 유의하여야 한다.

본 발명은, 통신 시스템에서 신호 코덱(codec) 장치 및 방법을 제안한다. 여기서, 본 발명의 실시 예에서는, 통신 시스템에서 다양한 서비스 품질(QoS: Quality of Service, 이하 'QoS'라 칭하기로 함)의 서비스들, 예컨대 음성 및 오디오 서비스를 제공하기 위한 음성 및 오디오 신호를 부호화 및 복호화하는 코덱 장치 및 방법을 일 예로 하여 설명하지만, 본 발명에서 제안하는 코덱은, 다른 서비스들에 해당하는 신호를 부호화 및 복호화하는 경우에도 동일하게 적용될 수 있다.

또한, 본 발명의 실시 예에서는, 통신 시스템에서 음성/오디오 코덱을 이용하여 음성 및 오디오 신호를 부호화 및 복호화하는 코덱 장치 및 방법을 제안한다. 여기서, 본 발명의 실시 예에서는, 음성/오디오 코덱을 이용한 음성 및 오디오 신호의 부호화 시에, 상기 음성/오디오 코덱에서 주파수 영역의 음성 및 오디오 신호를 양자화하여, 상기 음성/오디오 코덱을 기반으로 하여 음성 및 오디오 신호를 정상적으로 부호화 및 복호화한다.

그리고, 본 발명의 실시 예에서는, 통신 시스템의 음성/오디오 코덱에서, 음성 및 오디오 신호에 대한 전체 신호 대역을 저대역과 고대역으로 분할하여, 저대역 신호에는 파형 부호화 및 코드 여기 선형 예측(CELP: Code Excited Linear Prediction, 이하 'CELP'라 칭하기로 함) 부호화를 적용하고, 고대역 신호에 대해서는 변환 부호화를 기반으로 한 하이브리드(hybrid) 부호화를 적용한다. 특히,본 발명의 실시 예에 따른 통신 시스템의 음성/오디오 코덱에서는, 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform, 이하 'MDCT'라 칭하기로 함) 또는 이산 퓨리에 변환(DFT: Discrete Fourier Transform, 이하 'DFT'라 칭하기로 함)을 통해 주파수 영역으로 변환한 음성 및 오디오 신호를 양자화하여, 상기 음성/오디오 코덱으로 상기 음성 및 오디오 신호를 정상적으로 부호화하며, 그에 따라 고품질의 음성 및 오디오 서비스를 제공한다. 여기서, 본 발명의 실시 예에서는, 상기 음성/오디오 코덱에서 상기 MDCT를 통해 음성 및 오디오 신호를 주파수 영역으로 변환하는 경우를 중심으로 설명하지만, 본 발명에서 제안하는 음성/오디오 코덱 기반의 코덱은, 상기 DFT를 통해 상기 음성 및 오디오 신호를 주파수 영역으로 변환하는 경우 뿐만 아니라 상기 음성 및 오디오 신호를 다른 변환 방식을 통해 주파수 영역으로 변환하는 경우에도 동일하게 적용될 수 있다.

아울러, 본 발명의 실시 예에 따른 통신 시스템에서는, 상기 음성/오디오 코덱에서, 주파수 영역으로 변환된 음성 및 오디오 신호, 예컨대 상기 MDCT를 통해 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들을, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리한 후 양자화하여, 상기 음성 및 오디오 신호를 정상적으로 부호화 및 복호화하며, 그에 따라 상기 음성 및 오디오 신호의 부호화 및 복호화 성능이 향상되어, 고품질의 음성 및 오디오 서비스를 제공한다. 여기서, 본 발명의 실시 예에 따른 통신 시스템에서는, 상기 음성/오디오 코덱에서 MDCT를 통해 주파수 영역으로 변환된 음성 및 오디오 신호의 주파수 계수들을, 모양 파라미터와 포락 파라미터로 분리하여 양자화, 특히 상기 포락 파라미터를 보다 정확하게 양자화함으로써, 상기 음성 및 오디오 신호의 주파수 계수들에 대한 양자화 오류를 최소화하며, 그에 따라 상기 음성/오디오 코덱을 기반으로 음성 및 오디오 신호의 부호화 및 복호화 성능을 향상시켜 고품질의 음성 및 오디오 서비스를 제공한다.

또한, 본 발명의 실시 예에서는, 음성 및 오디오 신호의 통합 코덱, 특히 MDCT 기반의 음성 및 오디오 신호 통합 코덱에서 음성 및 오디오 신호에 대한 주파수 스펙트럼의 포락(envelope) 정보를 양자화, 즉 주파수 영역으로 변환된 음성 및 오디오 신호에 대한 포락 파라미터를 양자화함으로써, 음성 및 오디오 신호를 정상적으로 부호화하며, 또한 이렇게 부호화된 음성 및 오디오 신호에서 양자화된 포락 파라미터를 복원함으로써, 음성 및 오디오 신호를 정상적으로 복호화하며, 그에 따라 음성 및 오디오 신호의 부호화 및 복호화 성능을 향상시켜 고품질의 음성 및 오디오 서비스를 제공한다. 여기서, 본 발명의 실시 예에서는, MDCT 기반의 음성 및 오디오 신호 통합 코덱에서 음성 및 오디오 신호에 대한 MDCT의 에너지 포락을, 적은 비트 수를 사용하여 양자화하며, 특히 본 발명의 실시 예에서는, 저비트율 기반의 MDCT 에너지 포락 양자화를 위해, 인지적 스케일(scale)에서의 MDCT 주파수 포락을 추정하고, 상기 추정된 포락의 모델링을 위한 캡스트럼 벡터 추출한 후, 상기 추출된 캡스트럼 벡터를 양자화하고, 참조 MDCT 계수의 에너지를 활용하여 전역이득을 추정한다.

그리고, 본 발명의 실시 예에 따른 통신 시스템에서의 음성 및 오디오 신호의 통합 코덱은, 음성 신호 또는 오디오 신호의 전송 시에, 네트워크 대역폭을 고려하여 정보를 압축하여 최소화하기 위해 사용되며, 특히 음성/오디오 코덱은, 음성 및 오디오 신호의 모든 대역폭을 포함하도록 초광대역 신호를 처리, 즉 부호화 및 복호화하여, 고품질의 음성 및 오디오 서비스를 제공한다. 여기서, 본 발명의 실시 예에 따른 통신 시스템에서의 음성/오디오 코덱은, 높은 압축률을 갖는 음성 코덱을 기반으로 하여 오디오 신호의 초광대역 신호까지 처리하는 CELP 부호화를 적용하여 광대역 신호의 잔차 신호 및 초광대역 신호를 부호화하여 전송하도록, 음성 및 오디오 신호에 대한 MDCT 계수를 양자화한다. 그러면 여기서, 도 1 내지 도 5를 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 음성/오디오 코덱에서의 코덱 장치에 대해 보다 구체적으로 설명하기로 한다.

우선, 도 1은 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 부호화기 구조를 개략적으로 도시한 도면이다.

도 1을 참조하면, 상기 코덱 장치는, 입력되는 음성 및 오디오 신호를 저대역/고대역의 음성 및 오디오 신호, 즉 저대역 신호 및 고대역 신호로 분리하는 저역 필터부(110), 상기 저역 필터부(110)를 통해 분리된 저대역 신호를 CELP 부호화를 기반으로 부호화하는 CELP 부호화부(120), 상기 CELP 부호화된 음성 및 오디오 신호의 CELP 파라미터를 복호화하는 CELP 복호화부(130), 상기 CELP 복호화부(130)를 통해 복원된 저대역 신호와 상기 입력되는 음성 및 오디오 신호 간의 차를 통해 저대역 잔차 신호를 산출하는 연산부(140), 상기 저대역 잔차 신호와 상기 고대역 신호를 주파수 영역으로 변환, 다시 말해 MDCT를 통해 상기 저대역 잔차 신호와 상기 고대역 신호에 대한 MDCT 계수를 각각 산출하는 MDCT 변환부(150), 및 상기 산출된 MDCT 계수를 양자화여 MDCT 양자화 파라미터를 산출하는 MDCT 양자화부(160)를 포함한다.

여기서, 상기 코덱 장치는, 상기 입력되는 음성 및 오디오 신호를 부호화하여, 부호화된 음성 및 오디오 신호로서, 상기 CELP 부호화부(120)에서 출력되는 CELP 파라미터와 상기 MDCT 양자화부(160)에서 출력되는 MDCT 양자화 파라미터를 출력한다. 즉, 상기 코덱 장치는, 상기 입력되는 음성 및 오디오 신호를 부호화하는 부호화기로서, 상기 입력되는 음성 및 오디오 신호를 부호화여, 상기 CELP 파라미터와 상기 MDCT 양자화 파라미터를 출력하며, 상기 CELP 파라미터와 상기 MDCT 양자화 파라미터는, 상기 입력되는 음성 및 오디오 신호의 부호화 신호로서, 음성/오디오 코덱 장치에서의 복호화기로 전송된다.

보다 구체적으로 설명하면, 상기 저역 필터부(110)는, 상기 입력되는 음성 및 오디오 신호, 예컨대 표본화율 32kHz(또는, 8 kHz, 혹은 16kHz) 16 bit의 음성 신호 또는 오디오 신호를 입력으로 받아, CELP 부호화를 적용하기 위해 저대역 신호와 고대역 신호로 분리한다.

그리고, 상기 CELP 부호화부(120)는, 상기 저역 필터부(110)를 필터링된 저대역 신호를 CELP 부호화를 기반으로 부호화하여, CELP 파라미터를 출력, 즉 상기 CELP 파라미터를 통신 시스템에서 코덱 장치의 복호화기로 전송한다.

또한, 상기 CELP 복호화부(130)는, 원래의 저대역 신호, 즉 상기 입력된 음성 및 오디오 신호에서의 저대역 신호에 대한 잔차 신호, 즉 상기 저대역 잔차 신호를 획득하기 위해, 상기 CELP 부호화를 기반으로 부호화된 저대역 신호, 즉, 상기 CELP 파라미터를 복호하여 상기 저대역 신호를 복원한다.

아울러, 상기 연산부(140)는, 상기 입력되는 음성 및 오디오 신호와, 상기 복원된 저대역 신호 간의 차를 산출하여, 상기 입력되는 음성 및 오디오 신호에서의 고대역 신호와 저대역 잔차 신호를 산출한다.

그리고, 상기 MDCT 변환부(150)는, 상기 저대역 잔차 신호와 상기 고대역 신호를 효율적으로 양자화하기 위해, 상기 저대역 잔차 신호와 상기 고대역 신호를 시간 영역에서 주파수 영역으로 변환, 즉 MDCT을 통해 상기 저대역 잔차 신호와 상기 고대역 신호의 MDCT 계수를 각각 산출한다.

또한, 상기 MDCT 양자화부(160)는, 상기 저대역 잔차 신호와 상기 고대역 신호의 MDCT 계수를 양자화하여, MDCT 양자화 파라미터를 출력, 즉 상기 MDCT 양자화 파라미터를 통신 시스템에서 코덱 장치의 복호화기로 전송한다. 여기서, 상기 MDCT 양자화부(160)는, SVQ(Spherical Vector Quantization), AVQ(Algebraic Vector Quantization), FPC(Factorial Pulse Coding), 및 SC(Sinusoidal Coding) 등의 다양한 양자화 방식을 통해, 상기 저대역 잔차 신호와 상기 고대역 신호를 양자화, 즉 MDCT 계수를 양자화하여 상기 MDCT 양자화 파라미터를 산출한 후, 코덱 장치의 복호화기로 전송한다. 그리고, 본 발명의 실시 예에 따른 코덱 장치에서의 상기 MDCT 양자화부(160)에 대해서는, 도 3 및 도 4를 참조하여 보다 구체적으로 설명할 것이므로, 여기서는 그에 관한 구체적인 설명을 생략하기로 한다.

그리고, 도 2는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 복호화기 구조를 개략적으로 도시한 도면이다.

도 2를 참조하면, 상기 코덱 장치는, 앞서 도 1에서 설명한 상기 코덱 장치의 부호화기로부터 전송되는 부호화된 음성 및 오디오 신호로서, CELP 파라미터와 MDCT 양자화 파라미터가 입력되며, 상기 입력된 MDCT 양자화 파라미터로부터 MDCT 계수를 복원하는 MDCT 복원부(210), 상기 입력된 CELP 파라미터를 복호화하여 저대역 CELP 신호를 복원하는 CELP 복호화부(220), 및 상기 복원된 MDCT 계수와 상기 복원된 저대역 CELP 신호를 합산하여, 복호화된 음성 및 오디오 신호를 출력하는 연산부(230)를 포함한다.

여기서, 상기 코덱 장치는, 전술한 바와 같이, 상기 코덱 장치의 부호화기로부터 전송되는 부호화된 음성 및 오디오 신호, 즉 상기 CELP 파라미터와 상기 MDCT 파라미터를 수신하며, 수신된 CELP 파라미터와 MDCT 파라미터를 복호화하여, 상기 코덱 장치의 부호화기로 입력된 음성 및 오디오 신호를 복원한다.

보다 구체적으로 설명하면, 상기 MDCT 복원부(210)는, 상기 코덱 장치의 부호화기로부터 전송된 MDCT 양자화 파라미터를 이용하여, 저대역 CELP 신호를 제외한 저대역 잔차 신호와 고대역 신호를 각각 복원한다.

그리고, 상기 CELP 복호화부(220)는, 상기 코덱 장치의 부호화기로부터 전송된 CELP 파라미터를 이용하여, 저대역 CELP 신호를 산출한다.

또한, 상기 연산부(230)는, 상기 저대역 CELP 신호와 상기 저대역 잔차신호 및 고대역 신호를 합산하여, 복원된 음성 및 오디오 신호를 산출한다.

이렇게 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치는, 음성 및 오디오 신호의 부호화 시에, 음성 및 오디오 신호에 대한 MDCT를 통해 MDCT 계수를 산출한 후, 상기 MDCT 계수를 양자화하여, 복호화기로 전송하며, 이때 상기 MDCT 계수를 효율적으로 양자화, 압축 효율을 높이면서 부호화 및 복호화 성능을 향상시켜 보다 고품질의 음성 및 오디오 서비스를 제공하기 위해, 주파수 영역에서의 MDCT 계수를 포락 파라미터와 모양 파라미터로 분리하여 양자화한다. 그러면 여기서, 도 3 및 도 4를 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 계수 양자화에 대해 보다 구체적으로 설명하기로 한다.

도 3 및 도 4는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 양자화부의 구조를 개략적으로 도시한 도면이다.

우선, 도 3을 참조하면, 상기 코덱 장치에서의 MDCT 양자화부는, 앞서 도 1에서 설명한 바와 같이, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 계수를 모양 파라미터와 포락 파라미터로 분리하는 모양/포락 분리부(310), 상기 모양/포락 분리부(310)를 통해 분리된 포락 파라미터를 양자화하여 포락 양자화 인덱스를 산출하는 포락 양자화부(320), 및 상기 모양/포락 분리부(310)를 통해 분리된 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출하는 모양 양자화부(330)를 포함한다.

여기서, 상기 MDCT 양자화부는, 상기 MDCT 변환부(150)를 통해 상기 저대역 잔차 신호와 상기 고대역 신호를 시간 영역에서 주파수 영역으로 변환, 즉 MDCT을 통해 산출된 상기 저대역 잔차 신호와 상기 고대역 신호의 MDCT 계수를, 모양 파라미터 및 포락 파라미터로 각각 양자화하여, 상기 MDCT 양자화 파라미터로서 상기 포락 양자화 인덱스 및 상기 모양 양자화 인덱스를 출력하며, 상기 포락 양자화 인덱스 및 상기 모양 양자화 인덱스는, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송된다.

보다 구체적으로 설명하면, 상기 모양/포락 분리부(310)는, 상기 MDCT 계수, 즉 상기 MDCT를 통한 주파수 영역에서의 저대역 잔차 신호와 고대역 신호를, 모양 파라미터와 포락 파라미터로 분리한다. 여기서, 상기 포락 파라미터는, 상기 MDCT를 통한 주파수 영역에서의 저대역 잔차 신호와 고대역 신호, 즉 상기 MDCT의 에너지 추출을 통해 획득하며, 이때 상기 저대역 잔차 신호와 고대역 신호의 전체 대역을 부분대역으로 분할한 후, 상기 부분대역의 평균 에너지를 산출하여 획득한다. 또한, 상기 모양 파라미터는, 상기 저대역 잔차 신호와 고대역 신호의 전체대역의 MDCT를, 부분대역의 포락 파라미터인 에너지로, 각 부분대역마나 정규화한 MDCT 파라미터를 나타낸다.

그리고, 상기 포락 양자화부(320)는, 상기 포락 파라미터를 양자화하여, 포락 양자화 인덱스를 산출하며, 상기 포락 양자화 인덱스를, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송한다.

또한, 상기 모양 양자화부(330)는, 상기 모양 파라미터를 양자화하여, 모양 양자화 인덱스를 산출하며, 상기 모양 양자화 인덱스를, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송한다.

이러한 본 발명의 실시 예에 따른 통신 시스템에서, 음성/오디오 코덱의 일 예로, G.729.1 코덱에서는, MDCT를 복수개의 부분대역으로 분할한 후, 각 대역마다 평균 에너지를 산출하여, 포락 파라미터를 산출하고, 또한 각 대역에서 포락 파라미터를 정규화하여 모양 파라미터를 산출한다. 그리고, G.729.1 코덱에서의 포락 파라미터는, 로그 영역에서 인접한 부분대역 간의 차이 값을 가지고 허프만 코딩을 이용하여 정보를 압축하게 되며, 모양 파라미터는, 최적화하여 생성한 양자화 테이블을 이용하는 SVQ 방식으로 양자화된다. 또한, G.729.1 코덱에서는, 부분대역마다 포락 파라미터를 산출하여, 실제 MDCT의 에너지 파라미터를 잘 나타내는 방식이지만, 포락 파라미터를 양자화하는데 많은 비트 할당이 이루어져 고정 비트율의 코덱에서 모양을 양자화 하기 위해 사용되는 비트가 상대적으로 작아지는 단점이 있다. 아울러, 모양 파라미터 양자화를 위해 SVQ를 사용하는데, SVQ의 경우 최적화된 테이블이 필요하므로, 테이블의 최적화와 연산량이 많은 단점이 있다.

그리고, 상기 음성/오디오 코덱의 다른 일 예로, G.718 및 G,718 SWB 코덱에서는, MDCT를 복수개의 부분대역으로 분할한 후, G.729.1 코덱과는 달리, 포락 파라미터로 전체 대역에 대해 하나의 전역이득(global gain)을 산출한 후, 모양 파라미터에 대해서, 음성, 또는 음색(tonal) 파라미터가 존재하지 않을 경우에는, AVQ 양자화 방식을 사용하고, 음악, 또는 음색 파라미터가 존재할 경우에는 FPC나 SC 방식을 사용한다. 아울러, G.718 및 G.718 SWB 코덱에서는, G.729.1 코덱과 달리, 포락 파라미터로 전체 대역에 대해 하나의 전체 이득, 즉 전역이득을 산출하므로, MDCT의 에너지 성분을 나타내는 데 한계가 존재하며, 그에 따라 G.718 및 G.718 SWB 코덱에서는, 계층(layer) 구조를 가지며, 계층 별로 MDCT를 양자화하는 방식을 반복적으로 수행한다. 여기서, G.718 및 G.718 SWB 코덱에서는, 주어진 고정 비트율 상에서 포락 파라미터를 더 잘 나타내고자 할 경우, 상대적으로 모양 파라미터를 양자화하기 위한 비트수가 감소되며, 아울러 모양 파라미터를 더 잘 나타내고자 할 경우에는 포락 파라미터를 양자화하기 위한 비트수가 감소된다. 즉, G.718 및 G.718 SWB 코덱에서는, 모양 파라미터를 보다 효율적으로 양자화하기 위해, AVQ, FPC, SC 방식을 이용하여 모양 파라미터를 양자화하며, 이때 포락 파라미터를 보다 잘 나타내기 위해 부분대역의 에너지를 효과적으로 압축하여 양자화한다. 다시 말해, 포락 파라미터를 부분대역의 에너지를 통해 산출한 후, 포락 파라미터에 대해 스칼라 양자화 방식이 아닌 벡터 양자화 방식을 최적화하여 효율적으로 적용할 경우에는, 정보량의 증가 없이 보다 나은 고품질의 음성 및 오디오 신호를 부호화 및 복호화할 수 있다.

그러므로, 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치는, 음성 및 오디오 신호에 대한 MDCT의 에너지 포락을, 적은 비트 수를 사용하여 양자화하며, 특히 저비트율 기반의 MDCT 에너지 포락 양자화를 위해, 인지적 스케일에서의 MDCT 주파수 포락을 추정하고, 상기 추정된 포락의 모델링을 위한 캡스트럼 벡터 추출한 후, 상기 추출된 캡스트럼 벡터를 양자화하고, 참조 MDCT 계수의 에너지를 활용하여 전역이득을 추정한다.

즉, 도 4를 참조하면, 상기 코덱 장치에서의 MDCT 양자화부는, 앞서 도 1에서 설명한 바와 같이, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 계수를 모양 파라미터와 포락 파라미터로 분리하는 모양/포락 분리부(410), 상기 모양/포락 분리부(410)를 통해 분리된 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출하는 모양 양자화부(420), 상기 모양/포락 분리부(410)를 통해 분리된 포락 파라미터를 인지적 스케일로 변환하는 스케일 변환부(430), 상기 스케일 변환부(430)를 통해 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하는 캡스트럼 추출부(440), 상기 캡스트럼 추출부(440)로부터 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여 포락 양자화 인덱스를 산출하는 벡터 양자화부(450), 및 상기 MDCT 변환부(150)로부터 출력되는 MDCT 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득 양자화 인덱스를 산출하는 전역이득 양자화부(460)를 포함한다.

여기서, 상기 MDCT 양자화부는, 상기 MDCT 변환부(150)를 통해 상기 저대역 잔차 신호와 상기 고대역 신호를 시간 영역에서 주파수 영역으로 변환, 즉 MDCT을 통해 산출된 상기 저대역 잔차 신호와 상기 고대역 신호의 MDCT 계수를, 모양 파라미터 및 포락 파라미터로 각각 양자화하여, 상기 MDCT 양자화 파라미터로서 상기 포락 양자화 인덱스, 상기 모양 양자화 인덱스, 및 상기 전역이득 양자화 인덱스를 출력하며, 또한 상기 포락 양자화 인덱스, 상기 모양 양자화 인덱스, 및 상기 전역이득 양자화 인덱스는, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송된다.

보다 구체적으로 설명하면, 상기 모양/포락 분리부(410)는, 상기 MDCT 계수, 즉 상기 MDCT를 통한 주파수 영역에서의 저대역 잔차 신호와 고대역 신호를, 모양 파라미터와 포락 파라미터로 분리한다. 여기서, 상기 포락 파라미터는, 상기 MDCT를 통한 주파수 영역에서의 저대역 잔차 신호와 고대역 신호, 즉 상기 MDCT의 에너지 추출을 통해 획득하며, 이때 상기 저대역 잔차 신호와 고대역 신호의 전체 대역을 부분대역으로 분할한 후, 상기 부분대역의 평균 에너지를 산출하여 획득한다. 또한, 상기 모양 파라미터는, 상기 저대역 잔차 신호와 고대역 신호의 전체대역의 MDCT를, 부분대역의 포락 파라미터인 에너지로, 각 부분대역마나 정규화한 MDCT 파라미터를 나타낸다. 즉, 상기 모양/포락 분리부(410)는, 상기 MDCT 계수로부터 각 주파수 파라미터 또는 주파수 대역에 대해서, 에너지와 모양, 다사 말해 에너지로 정규화된 MDCT 계수를 추정한다.

그리고, 상기 모양 양자화부(420)는, 상기 모양 파라미터를 양자화하여, 모양 양자화 인덱스를 산출하며, 상기 모양 양자화 인덱스를, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송한다. 여기서, 상기 모양 양자화부(420)는, 주파수 대역 단위로 추정되는 에너지로 정규화된 MDCT 계수값을 양자화하하여, 이때, G.729.1 코덱에서의 구형 벡터 양자화 방식, G.718 코덱에서의 AVQ 및 FPC, G.718 초광대역 코덱에서의 MDCT 제너릭 모드 코딩(Generic Mode Coding) 및 SC(Sinusoidal Coding) 등의 다양한 양자화 방식을을 통해 상기 모양 파라미터를 양자화한다.

또한, 상기 스케일 변환부(430)는, 상기 모양/포락 분리부(410)로부터 분리된 모양 파라미터, 즉 MDCT 에너지 포락으로부터, 저주파 대역에서는 정밀도가 높게, 그리고 주파수가 높아질수록 정밀도가 낮게 포락을 변환, 즉 상기 모양 파라미터인 MDCT 에너지 포락을 인지적 스케일로 변환한다. 여기서, 상기 스케일 변환부(430)를 통해 인지적 스케일로 변환된 모양 파라미터, 즉 인지적 스케일의 MDCT 에너지 포락은 하기 수학식 1과 같이 나타낼 수 있다.

수학식 1에서,

는, 임의의 i번째 필터뱅크의 로그 에너지, 즉 임의의 i번째 주파수 대역에서 인지적 스케일의 MDCT 에너지를 의미하고, L은 필터뱅크의 총 개수, 즉 전체 주파수 대역의 총 개수를 의미하고, N(i)는, 임의의 i번째 필터뱅크의 길이를 의미하며,

및

는, 임의의 i번째 필터배킁의 시작 인덱스 및 종단 인덱스를 의미하고, M(k)는, 임의의 k번째 MDCT의 에너지 값을 의미한다. 여기서, 상기 필터뱅크는, 전술한 바와 같이 MDCT 에너지 포락을 인지적 스케일로 변환하기 위해, 저주파 대역에서 좁은 폭을, 고주파 대역으로 갈수록 넓은 폭을 갖게 되며, 맬 스케일(mel-scale), 바크 스케일(bark-scale) 등을 사용한다.

아울러, 상기 캡스트럼 추출부(440)는, 전술한 바와 같이, 인지적 스케일 변환된 포락 파라미터, 즉 인지적 스케일의 MDCT 에너지 포락으로부터 캡스트럼을 추출하며, 특히 상기 스케일 변환부(430)를 통해 추정된 필터뱅크 에너지를 변환하여, MDCT 양자화 파라미터로서 코덱의 복호화 장치로 전송이 용이한 파라미터로 변환, 즉 포락 파라미터의 캡스트럼 계수 벡터를 추출한다. 여기서, 상기 캡스트럼 추출부(440)를 통해 추출된 포락 파라미터의 캡스트럼 계수는 하기 수학식 2와 같이 나타낼 수 있다.

수학식 2에서, c(n)은, 임의의 n번째 캡스트럼 계수 값을 의미하고, P는 캡스트럼 추출 차수를 의미하며,

는, 상기 수학식 1로부터 산출된 임의의 k번째 인지적 스케일의 MDCT 에너지 포락의 로그(log) 값, 즉

를 의미한다.

그리고, 상기 벡터 양자화부(450)는, 상기 캡스트럼 추출부(440)로부터 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여 포락 양자화 인덱스를 산출하며, 상기 포락 양자화 인덱스를, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송한다. 여기서, 상기 벡터 양자화부(450)는, 수학식 2에 나타낸 바와 같이, 상기 캡스트럼 추출부(440)가 추출한 캡스트럼 계수 벡터를 양자화하며, 이때 캡스트럼 계수 벡터에서

값이 로그 에너지에 해당하므로, 상기 캡스트럼 계수 벡터의 양자화 시에 이용하지 않고, 상기 전역이득 양자화부(460)으로 출력한다. 즉, 상기 벡터 양자화부(450)는,

를 입력으로 하여 벡터 양자화를 수행하며, 여기서 로이드 맥스(Lloyd max) 알고리즘, 변형 K-평균 클러스터링(modified K-means clustering) 알고리즘, LBG(Linde-Buzo-Gray) 알고리즘 등을 이용하여,

를 양자화한다.

또한, 상기 전역이득 양자화부(460)는, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득 양자화 인덱스를 산출하며, 상기 전역이득 양자화 인덱스를, 상기 MDCT 양자화 파라미터로서 코덱 장치의 복호화기로 전송한다. 여기서, 상기 전역이득 양자화부(460)는, 상기 캡스트럼 계수 벡터의 양자화 시에 이용되지 않은 캡스트럼 계수, 즉 상기 캡스트럼 계수 벡터에서 로그 에너지에 해당하는

값과 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값을 이용하여, 전역이득을 계산한 후 양자화하여, 전역이득 양자화 인덱스를 산출한다.

예컨대, 음성/오디오 코덱으로 G.729.1 코덱, G.718 코덱에서는 낮은 주파수 대역, 즉 도 1에서 설명한 바와 같이, 저대역 신호는 CELP 부호화부(120)로 전송되어 CELP 부호화를 기반으로 부호화된다. 그러므로, 상기 전역이득 양자화부(460)는, 낮은 주파수 대역, 예컨대 G.718 초광대역 코덱에서 0 ~ 7kHz, 또는 G.729.1 코덱에서 0 ~ 4kHz의 저대역 신호에 대한 MDCT 응답을 미리 알고 있으며, 본 발명의 실시 예에 따른 코덱 장치에서 부호화 시에 MDCT 양자화 파라미터를 산출하여 복호화기로 전송함은, CELP 부호화 기반으로 부호화된 저대역 신호의 부호화 및 복호화 성능을 향상시키며, 아울러 고대역 신호를 부호화하여 복호화기로 전송함을 목적으로 한다. 따라서, 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 MDCT 양자화부는, 고대역 신호의 MDCT 양자화 파라미터를 전송, 즉 고대역 신호의 부호화 및 복호화 성능을 향상시키기 위해, 상기 전역이득 양자화부(460)가, 상기 캡스트럼 계수 벡터에서 로그 에너지에 해당하는

값과 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값을 입력으로 하여 양자화를 수행한다.

여기서, 상기 전역이득 양자화부(460)는, 전역이득 양자화를 수행하기 위해, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값에서 낮은 주파수 대역의 에너지와, 상기 캡스트럼 계수 벡터에서 로그 에너지에 해당하는

값을 입력으로 하며, 이때 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값에서 낮은 주파수 대역의 에너지가 상기 전역이득 양자화부(460)로 입력되도록, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값은 상기 전역이득 양자화부(460)로의 입력 허용 범위를 조정, 다시 말해 동적 범위(dynamic rang)를 가지며, 상기 동적 범위는 하기 수학식 3과 같이 나타낼 수 있다.

수학식 3에서,

는, 전역이득 양자화 인덱스를 의미하고,

는, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값에서 낮은 주파수 대역의 MDCT 계수의 차수, 다시 말해 참조 MDCT 계수의 차수를 나타내며, 상기 참조 MDCT 계수는, 낮은 주파수 대역의 MDCT 계수로서, 전술한 바와 같이 상기 CELP 부호화부(120)를 통해 획득되므로, 상기 전역이득 양자화부(460)뿐만 아니라 도 5에 도시한 코덱에서 복호화기로 전송된다. 그리고, 상기 전역이득 양자화부(460)는, 상기 캡스트럼 계수 벡터에서 로그 에너지에 해당하는

값과, 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값에서 동적 범위의 에너지 값을, 이용하여 전역이득을 산출한 후, 양자화하여 전역이득 양자화 인덱스를 상기 복호화기로 전송된다. 여기서, 상기 전역이득은 상기 캡스트럼 계수 벡터에서 로그 에너지와 상기 MDCT 변환부(150)로부터 출력되는 MDCT 에너지 값 간의 차이로, 스칼라 값이지만, 양자화를 위해 상기 전역이득 양자화부(460)는, 로이드 맥스(Lloyd max) 알고리즘, 변형 K-평균 클러스터링(modified K-means clustering) 알고리즘, LBG(Linde-Buzo-Gray) 알고리즘 등을 이용하여, 상기 전역이득을 양자화한다.

이렇게 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치의 MDCT 양자화부는, MDCT 양자화 파라미터로서 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스를 코덱 장치의 복호화기로 전송하며, 이때 상기 코덱 장치의 복호화기는, 전술한 바와 같이, 저대역 신호가 CELP 부호화 기반으로 부호화되어 상기 복호화기로 전송됨에 따라 낮은 주파수 대역의 MDCT 계수, 다시 말해 참조 MDCT 계수를 수신, 특히 도 2에서 설명한 코덱 장치의 복호화기에서 MDCT 복원부로 입력된다. 그러면 여기서, 도 5를 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 계수 복원에 대해 보다 구체적으로 설명하기로 한다.

도 5는 본 발명의 실시 예에 따른 통신 시스템에서 코덱 장치에서의 MDCT 복원부의 구조를 개략적으로 도시한 도면이다.

도 5를 참조하면, 상기 코덱 장치에서의 MDCT 복원부는, 앞서 도 2에서 설명한 바와 같이, MDCT 양자화 파라미터로서 MDCT 양자화부로부터 전송되는 모양 양자화 인덱스와 참조 MDCT 계수를 이용하여 모양 파라미터를 복원하는 모양 복원부(510), 상기 모양 복원부(510)를 통해 복원된 모양 파라미터를 정규화하는 이득 정규화부(520), 상기 MDCT 양자화 파라미터로서 상기 MDCT 양자화부로부터 전송되는 포락 양자화 인덱스를 이용하여 포락 파라미터를 복원하는 포락 복원부(540), 상기 MDCT 양자화 파라미터로서 상기 MDCT 양자화부로부터 전송되는 전역이득 양자화 인덱스와 상기 참조 MDCT 계수를 이용하여 전역이득을 복원하는 전역이득 복원부(530), 상기 포락 복원부(540)를 통해 복원된 포락 파라미터와 상기 전역이득 복원부(530)를 통해 복원된 전역이득을 연산하여 포락 파라미터를 정규화는 연산부1(550), 및 상기 연산부1(550)로부터 정규화된 포락 파라미터와 상기 이득 정규화부(520)로부터 정규화된 모양 파라미터를 연산하여 MDCT 계수를 복원하는 연산부2(560)를 포함한다.

여기서, 상기 코덱 장치는, 전술한 바와 같이, 상기 코덱 장치의 부호화기, 특히 MDCT 양자화부로부터 전송되는 MDCT 양자화 파라미터, 즉 앞서 도 4에서 설명한 바와 같이, 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스, 및 참조 MDCT 계수를 수신하며, 이들을 이용하여 MDCT 계수를 복원, 즉 저대역 CELP 신호를 제외한 저대역 잔차 신호와 고대역 신호를 각각 복원한다.

보다 구체적으로 설명하면, 상기 모양 복원부(510)는, 상기 모양 양자화 인덱스로부터, AVQ, FPC, SC 등의 방식을 통해, 직접적으로 모양 파라미터를 복원하거나, 또는 상기 모양 양자화 인덱스를 이용한 상기 참조 MDCT 계수로부터 직접 복사를 통해 상기 모양 파라미터를 복원한다.

그리고, 상기 이득 정규화부(520)는, 상기 모양 복원부(510)를 통해 복원된 모양 파라미터를 정규화, 예컨대 복원된 MDCT 모양 계수 값의 크기 및 주파수 대역 에너지를 1로 정규화한다. 여기서, 상기 이득 정규화부(520)를 통해 정규화된 모양 파라미터는 하기 수학식 4와 같이 나타낼 수 있다.

수학식 4에서,

는, 임의의 i번째 주파수 대역에 대해 정규화된 모양 파라미터, 즉 정규화된 MDCT 모양 계수를 의미하고,

는, 임의의 i번째 주파수 대역의 에너지,

는, 상기 모양 복원부(510)를 통해 복원된 모양 파라미터를 의미한다.

또한, 상기 전역이득 복원부(530)는, 상기 전역이득 양자화 인덱스와 상기 참조 MDCT 계수를 이용하여, MDCT 계수 열의 전역이득을 추정함으로써, MDCT 계수의 전역이득을 복원한다. 여기서, 상기 전역이득 복원부(530)를 통해 복원되는 MDCT 계수의 전역이득은 하기 수학식 5 및 수학식 6과 같이 나타낼 수 있다.

수학식 5 및 수학식 6에서,

는, 상기 전역이득 복원부(530)를 통해 복원되는 MDCT 계수의 전역이득을 의미하고,

는, 상기 MDCT 양자화부로부터 수신한 전역이득 양자화 인덱스를 복원하여 획득한 전역이득, 즉 정규화된 전역이득을 의미하고,

는, 상기 참조 MDCT 계수로부터 산출한 에너지를 의미하며,

는, 앞서 설명한 바와 같이, 낮은 주파수 대역의 MDCT 계수의 차수, 다시 말해 참조 MDCT 계수의 차수를 나타낸다.

아울러, 상기 포락 복원부(540)는, 상기 포락 양자화 인덱스로부터 코드북을 검색하여, 양자화된 주파수 대역의 에너지를 복원, 다시 말해 상기 포락 파라미터를 복원한다. 여기서, 상기 포락 복원부(540)는, 상기 포락 양자화 인덱스를 이용하여, 인지적 주파수 스케일에서 추출한 캡스트럼 계수로부터, 0번째(Oth) 캡스트럼 계수, 다시 말해 로그 에너지에 해당하는

값을 0으로 하여, 선형 주파수 응답을 통해, 상기 포락 파라미터를 복원한다.

그리고, 상기 연산부1(550)는, 상기 전역이득 복원부(530)를 통해 복원된 MDCT 계수의 전역이득과, 상기 포락 복원부(540)를 통해 복원된 포락 파라미터를 곱하여, 상기 포락 파라미터를 정규화, 즉 정규화된 포락 파라미터를 산출하며, 상기 정규화된 포락 파라미터, 즉 정규화된 MDCT 포락 계수는 연산부2(560)로 입력된다.

또한, 상기 연산부2(560)는, 상기 이득 정규화부(520)로부터 출력되는 정규화된 모양 파라미터로 상기 정규화된 MDCT 모양 계수와, 상기 연상부1(550)로부터 출력되는 정규화된 포락 파라미터로 상기 정규화된 MDCT 포락 계수를, 곱하여 MDCT 계수를 출력, 즉 앞서 도 2에서 설명한 저대역 CELP 신호를 제외한 저대역 잔차 신호와 고대역 신호를 각각 복원한다. 여기서, 상기 연산부2(560)를 통해 복원된 MDCT 계수는, 하기 수학식 7과 같이 나타낼 수 있다.

수학식 7에서,

는, 임의의 i번째 주파수 대역의 임의의 k번째 MDCT 계수의 복원 값을 의미하고,

는, 임의의 i번째 주파수 대역의 에너지 복원 값을 의미한다.

이렇게 본 발명의 실시 예에 따른 통신 시스템에서의 코덱에서는, 음성 및 오디오 신호의 부호화 시에, 음성 및 오디오 신호를, 저대역 신호 및 고대역 신호로 각각 분리하여 부호화하며, 이때 저대역 신호를 CELP 부호화 기반으로 부호화여 CELP 파라미터를 코덱의 복호화기로 송신하고, 저대역 신호의 잔차 신호와 고대역 신호를 MDCT 기반으로 부호화하여 MDCT 양자화 파라미터를 상기 코덱의 복호화기로 송신하며, 특히 MDCT 양자화 파라미터는, 양자화된 모양 양자화 인덱스와, 포락 파라미터가 인지적 스케일 변환된 후 캡스트럼 추출을 통한 캡스트럼 계수 벡터가 양자화된 포락 양자화 인덱스, 및 전역이득 양자화 인덱스로, 코덱의 복호화기로 송신된다. 아울러, 상기 코덱의 복호화기는, 전술한 바와 같이 코덱의 부호화기로부터 수신한 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스, 및 참조 MDCT 계수를 이용하여, MDCT 계수를 복원한다. 그에 따라, 본 발명의 실시 예에 따른 통신 시스템에서의 코덱에서는, 부호화기와 복호화기가 MDCT 계수의 양자화 및 복원을 최적화하여 효율적으로 MDCT 계수를 송수신으로써, 음성 및 오디오 신호의 부호화 및 복호화 성능을 향상시키며, 그 결과 고품질의 음성 및 오디오 서비스를 제공한다. 그러면 이하에서는, 도 6 및 도 7을 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 부호화 및 복호화 시의 MDCT 계수 양자화 및 복원 동작에 대해 보다 구체적으로 설명하기로 한다.

도 6은 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 MDCT 계수 양자화 과정을 개략적으로 도시한 도면이다.

도 6을 참조하면, 상기 코덱은, 610단계에서, 먼저 음성 및 오디오 신호의 저대역 잔차 신호와 고대역 신호를 주파수 영역으로 변환, 다시 말해 MDCT를 통해 상기 저대역 잔차 신호와 상기 고대역 신호에 대한 MDCT 계수가 각각 산출되면, 상기 MDCT 계수에서 모양 파라미터와 포락 파라미터를 분리한다.

그리고, 620단계에서 상기 MDCT 계수에서 분리한 포락 파라미터를 인지적 스케일 변환, 즉 MDCT 에너지 포락으로부터 저주파 대역에서는 정밀도가 높게, 그리고 주파수가 높아질수록 정밀도가 낮게 포락을 스케일 변환한다.

또한, 630단계에서, 상기 인지적 스케일 변환된 포락 파라미터, 즉 인지적 스케일의 MDCT 에너지 포락으로부터 캡스트럽을 추출, 다시 말해 포락 파라미터의 캡스트럼 계수 벡터를 추출한다.

다음으로, 640단계에서 MDCT 계수와 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후 양자화하며, 또한 상기 캡스트럼 계수 벡터를 양자화하며, 아울러 모양 파라미터를 양자화한다. 여기서, 본 발명의 실시 예에 따른 통신 시스템에서 코덱에서는, MDCT 양자화 파라미터로서, 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스, 및 참조 MDCT 계수를 코덱의 복호화기로 전송하며, 상기 코덱의 MDCT 계수 양자화에 대해서는 앞서 도 4를 참조하여 보다 구체적으로 설명하였음으로 여기서는 그에 관한 구체적인 설명을 생략하기로 한다. 그러면 여기서, 도 7을 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 MDCT 계수 복원에 대해서 보다 구체적으로 설명하기로 한다.

도 7은 본 발명의 실시 예에 따른 통신 시스템에서 코덱의 MDCT 계수 복원 과정을 개략적으로 도시한 도면이다.

도 7을 참조하면, 상기 코덱은, 710단계에서 코덱의 부호화기로부터 MDCT 양자화 파라미터로서, 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스, 및 참조 MDCT 계수를 수신하면, 모양 양자화 인덱스, 포락 양자화 인덱스, 및 전역이득 양자화 인덱스를 각각 복원하여, 모양 파라미터, 포락 파라미터, 전역이득을 각각 산출한다.

그리고, 720단계에서, 상기 모양 파라미터를 정규화, 즉 모양 파라미터의 크기 및 주파수 대역 에너지를 정규화하며, 전역이득을 이용하여 포락 파라미터를 정규화한다.

그런 다음, 730단계에서, 정규화된 모양 파라미터와 정규화된 포락 파라미터를 연산하여, 코덱의 부호화기로부터 수신한 MDCT 양자화 파라미터를, MDCT 계수로 복원한다. 여기서, 본 발명의 실시 예에 따른 통신 시스템에서 코덱에서는, MDCT 양자화 파라미터로서, 모양 양자화 인덱스, 포락 양자화 인덱스, 전역이득 양자화 인덱스, 및 참조 MDCT 계수를 코덱의 부호화기로부터 수신하여, MDCT 계수를 복원하며, 상기 코덱의 MDCT 계수 복원에 대해서는 앞서 도 5를 참조하여 보다 구체적으로 설명하였음으로 여기서는 그에 관한 구체적인 설명을 생략하기로 한다.

이렇게 본 발명의 실시 예에 따른 통신 시스템에서의 코덱은, 기존의 MDCT 기반의 광대역 및 초광대역 음성 오디오 통합 부호화기의 음질을 개선시킬 수 있다. 특히, 본 발명의 실시 예에 따른 통신 시스템에서의 코덱은, 인지적 주파수 스케일에서의 에너지 포락을 전송할 경우에 기존 방식에 비해서 보다 작은 비트 수를 사용하고도 동일한 음질을 얻을 수 있으며, 아울러 감소된 비트를 추가적인 양자화 방식에 할당할 경우에 보다 향상된 음질 제공할 수 있다. 아울러, 본 발명의 실시 예에 따른 통신 시스템에서의 코덱은, 참조 MDCT 계수로부터 높은 주파수 대역의 MDCT 계수의 복원을 시도하는 제너릭 모드 코딩(generic mode coding), 다시 말해 G.718 초광대역 음성/오디오 통합 코덱의 성능을 현저하게 개선하며, 또한 기존의 MDCT 계수의 양자화 방식은, AVQ, FPC, SC(Sinusoidal Coding) 방식에서 전역이득을 전송하지만, 본 발명에서는 전역이득을 양자화하여 전송함으로써 추가적인 보다 향상된 음질을 제공할 수 있다.

한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims

통신 시스템에서 신호를 부호화하는 코덱(codec) 장치에 있어서,
시간 영역의 음성 및 오디오 신호를 주파수 영역으로 변환하여, 상기 음성 및 오디오 신호의 주파수 계수를 산출하는 변환부;
상기 주파수 계수를, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리하는 분리부;
상기 포락 파라미터를 인지적 스케일(scale) 변환하는 스케일 변환부;
상기 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하는 캡스트럼 추출부;
상기 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여, 포락 양자화 인덱스를 산출하는 벡터 양자화부; 및
상기 주파수 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후, 상기 전역이득을 양자화하여 전역이득 양자화 인덱스를 산출하는 전역이득 양자화부;를 포함하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 변환부는, 상기 음성 및 오디오 신호의 저대역 잔차 신호와 고대역 신호를, 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform)을 통해 상기 주파수 계수를 산출하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 스케일 변환부는, 상기 모양 파라미터에 상응하는 에너지 포락을, 저주파 대역에서는 정밀도를 증가시키고, 주파수가 높아질수록 정밀도를 감소시켜, 변환하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 스케일 변환부는, 상기 모양 파라미터에 상응하는 에너지 포락을, 맬 스케일(mel-scale) 또는 바크 스케일(bark-scale)을 이용하여 변환하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 캡스트럼 추출부는, 상기 인지적 스케일 변환된 포락 파라미터의 에너지 포락으로부터 상기 캡스트럼 계수 벡터를 산출하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 벡터 양자화부는, 상기 캡스트럼 계수 벡터에서, 로그 에너지에 해당하는 값을 제외하여 양자화하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 벡터 양자화부는, 로이드 맥스(Lloyd max) 알고리즘, 변형 K-평균 클러스터링(modified K-means clustering) 알고리즘, 또는 LBG(Linde-Buzo-Gray) 알고리즘을 이용하여, 상기 캡스트럼 계수 벡터를 양자화하는 것을 특징으로 코덱 장치.
제1항에 있어서,
상기 전역이득 양자화부는, 상기 캡스트럼 계수 벡터에서 로그 에너지에 해당하는 값과, 상기 주파수 계수의 에너지 값을 이용하여, 상기 전역이득을 산출하는 것을 특징으로 하는 코덱 장치.
제1항에 있어서,
상기 전역이득 양자화부는, 로이드 맥스(Lloyd max) 알고리즘, 변형 K-평균 클러스터링(modified K-means clustering) 알고리즘, 또는 LBG(Linde-Buzo-Gray) 알고리즘을 이용하여, 상기 전역이득을 양자화하는 것을 특징으로 코덱 장치.
제1항에 있어서,
상기 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출하는 모양 양자화부;를 더 포함하는 것을 특징으로 하는 코덱 장치.
통신 시스템에서 신호를 복호화하는 코덱(codec) 장치에 있어서,
부호화된 음성 및 오디오 신호에 대한 주파수 계수 양자화 파라미터를 수신하고, 상기 주파수 계수 양자화 파라미터를 복원하여, 상기 부호화된 음성 및 오디오 신호를 복원하는 복원부;를 포함하며; 상기 복원부는,
상기 주파수 계수 양자화 파라미터에서 모양(shape) 양자화 인덱스와 참조 주파수 계수를 이용하여, 모양 파라미터를 복원하는 모양 복원부;
상기 주파수 계수 양자화 파라미터에서 포락(envelope) 양자화 인덱스를 이용하여, 포락 파라미터를 복원하는 포락 복원부;
상기 주파수 계수 양자화 파라미터에서 전역이득 양자화 인덱스 및 상기 참조 주파수 계수를 이용하여, 전역이득을 복원하는 전역이득 복원부;
상기 모양 파라미터를 정규화하는 정규화부;
상기 전역이득을 이용하여 상기 포락 파라미터를 정규화하는 제1연산부; 및
상기 정규화된 모양 파라미터와 상기 정규화된 포락 파라미터를 연산하여, 상기 부호화된 음성 및 오디오 신호의 주파수 계수를 복원하는 제2연산부;를 포함하는 것을 특징으로 하는 코덱 장치.
제11항에 있어서,
상기 복원부는, 상기 부호화된 음성 및 오디오 신호의 저대역 잔차 신호와 고대역 신호를 복원하는 것을 특징으로 하는 코덱 장치.
제11항에 있어서,
상기 정규화부는, 상기 모양 파라미터의 크기 및 주파수 대역 에너지를 정규화하는 것을 특징으로 하는 코덱 장치.
제11항에 있어서,
상기 전역이득 복원부는, 상기 전역이득 양자화 인덱스 및 상기 참조 주파수 계수를 이용하여, 상기 부호화된 음성 및 오디오 신호에 대한 주파수 계수 열의 전역이득을 추정하는 것을 특징으로 하는 코덱 장치.
제11항에 있어서,
상기 포락 복원부는, 상기 포락 양자화 인덱스로부터 코드북을 검색하여, 상기 부호화된 음성 및 오디오 신호에 대한 양자화된 주파수 대역의 에너지를 복원하는 것을 특징으로 하는 코덱 장치.
제11항에 있어서,
상기 포락 복원부는, 상기 포락 양자화 인덱스를 이용하여, 인지적 주파수 스케일(scale)의 캡스트럼(Cepstrum) 계수로부터 로그 에너지에 해당하는 값을 제외한 선형 주파수 응답을 통해, 상기 포락 파라미터를 복원하는 것을 특징으로 하는 코덱 장치.
통신 시스템에서 신호를 부호화하는 코덱(codec) 방법에 있어서,
시간 영역의 음성 및 오디오 신호를 주파수 영역으로 변환하여, 상기 음성 및 오디오 신호의 주파수 계수를 산출한 후, 상기 주파수 계수를, 모양(shape) 파라미터와 포락(envelope) 파라미터로 분리하는 단계;
상기 포락 파라미터를 인지적 스케일(scale) 변환하는 단계;
상기 인지적 스케일 변환된 포락 파라미터로부터 캡스트럼(Cepstrum)을 추출하는 단계; 및
상기 추출된 포락 파라미터의 캡스트럼 계수 벡터를 양자화하여 포락 양자화 인덱스를 산출하고, 상기 주파수 계수와 상기 캡스트럼 계수 벡터를 이용하여 전역이득을 산출한 후 상기 전역이득을 양자화하여 전역이득 양자화 인덱스를 산출하며, 상기 모양 파라미터를 양자화하여 모양 양자화 인덱스를 산출하는 단계;를 포함하는 것을 특징으로 하는 코덱 방법.
제17항에 있어서,
상기 주파수 영역으로 변환하는 단계는, 상기 음성 및 오디오 신호의 저대역 잔차 신호와 고대역 신호를, 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform)을 통해 상기 주파수 계수를 산출하는 것을 특징으로 하는 코덱 방법.
통신 시스템에서 신호를 복호화하는 코덱(codec) 방법에 있어서,
부호화된 음성 및 오디오 신호에 대한 주파수 계수 양자화 파라미터를 수신하는 단계;
상기 주파수 계수 양자화 파라미터를 복원하여, 상기 부호화된 음성 및 오디오 신호를 복원하는 단계;를 포함하며; 상기 복원하는 단계는,
상기 주파수 계수 양자화 파라미터에서 모양(shape) 양자화 인덱스와 참조 주파수 계수를 이용하여, 모양 파라미터를 복원하는 단계;
상기 주파수 계수 양자화 파라미터에서 포락(envelope) 양자화 인덱스를 이용하여, 포락 파라미터를 복원하는 단계;
상기 주파수 계수 양자화 파라미터에서 전역이득 양자화 인덱스 및 상기 참조 주파수 계수를 이용하여, 전역이득을 복원하는 단계;
상기 모양 파라미터를 정규화하고, 상기 전역이득을 이용하여 상기 포락 파라미터를 정규화하는 단계; 및
상기 정규화된 모양 파라미터와 상기 정규화된 포락 파라미터를 연산하여, 상기 부호화된 음성 및 오디오 신호의 주파수 계수를 복원하는 단계;를 포함하는 것을 특징으로 하는 코덱 방법.
제19항에 있어서,
상기 복원하는 단계는, 상기 부호화된 음성 및 오디오 신호의 저대역 잔차 신호와 고대역 신호를 복원하는 것을 특징으로 하는 코덱 방법.