KR20040055788A

KR20040055788A - 정현파 모델 파라미터들의 주파수 차동 인코딩

Info

Publication number: KR20040055788A
Application number: KR10-2004-7005778A
Authority: KR
Inventors: 젠센제스퍼; 흐덴스리챠드
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-10-19
Filing date: 2002-09-27
Publication date: 2004-06-26
Also published as: CN1571992A; JP2005506581A; DE60214584T2; WO2003036619A1; ATE338999T1; US7269549B2; EP1442453B1; US20040204936A1; EP1442453A1; CN1312659C; DE60214584D1

Abstract

오디오 신호를 코딩 및 디코딩하는 방법들 및 이러한 방법들을 수행하기 위한 장치가 개시된다. 인코딩 방법은 동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없이, 인코딩된 프레임들 내의 소정의 정현파 성분의 파라미터들을 인코딩하는 단계에 의해 특징화된다. 인코딩이 차동 또는 직접인지의 여부는 알고리즘 방식으로 결정된다. 제1 유형의 알고리즘은 그래프 이론으로부터 유도된 방법을 사용하여 최적 결과를 생성한다. 덜 계산 집중적인 대안적인 알고리즘은 반복적인 그리디 검색 알고리즘에 의해 근사 결과를 제공한다.

Description

정현파 모델 파라미터들의 주파수 차동 인코딩{Frequency-differential encoding of sinusoidal model parameters}

최근에, 낮은 비트 레이트 오디오 압축을 위한 모델 기반 접근들에 대한 관심이 증가되고 있다. 통상적으로, 이들 파라메트릭 체계들은 오디오 파형을 다양한 공존 신호 부분들, 예를 들면 정현파 부분, 노이즈형 부분 및/또는 과도 신호로 분해한다. 그 후에, 각각의 신호 부분을 묘사하는 모델 파라미터들이 정량화되고, 인코딩되고 디코더로 전송되며, 여기서 정량화된 신호 부분들이 합성되고 합산되어 재구성된 신호를 형성한다. 종종, 오디오 신호의 정현파 부분은 진폭, 주파수, 및 가능하게는 위상 파라미터들에 의해 규정된 정현파 모델을 사용하여 표현된다. 대부분의 오디오 신호들에서, 정현파 신호 부분은 노이즈 및 과도 부분들보다 지각적으로 더 중요하고, 따라서 비교적 다량의 총 비트 버젯(budget)이 정현파 모델 파라미터들을 표현하기 위해 할당된다. 예를 들면, T.S. 버르마(Verma) 및 T.H.Y. 멩(Meng)의 "6kbps 내지 85kbps 스케일 가능 오디오 코더" Proc. IEEE Inst. Conf.Acous. 음성 신호 처리, 페이지 877-880, 2000년에 의해 설명된 공지된 스케일 가능 오디오 코더에서, 가용 비트들의 70% 이상이 정현파 파라미터들을 표현하기 위해 사용된다.

일반적으로, 정현파 모델에 요구되는 비트 구별되는을 감소시키기 위해, 정현파들 사이의 프레임간 상관이 시간 차동(TD) 인코딩 체계들을 사용하여 이용된다. 현재의 신호 프레임 내의 정현파 성분들은 이전의 프레임의 정량화된 성분들과 연관되고(따라서 시간-주파수 평면에 '톤 트랙들(tonal tracks)'을 형성함), 파라미터 차이들은 정량화되고 인코딩된다. 이전의 성분들에 링크될 수 없는 현재의 프레임 내의 성분들은 새로운 트랙들의 시동들로서 고려되고, 일반적으로 차동 인코딩 없이, 직접 인코딩된다. 정지 신호 영역들에서의 비트 레이트를 감소시키기 위해 효과적이지만, TD 인코딩은 비교적 적은 성분들이 톤 트랙들과 연관될 수 있고 따라서 다수의 성분들이 직접 인코딩되기 때문에 급격한 신호 변화들을 갖는 영역들에서는 덜 효율적이다. 더욱이, 디코더에서의 차동 파라미터들로부터의 신호를 재생할 수 있게 하기 위해, ED 인코딩은 이전 프레임의 파라미터들이 손상 없이 도달한다는 가정에 결정적으로 의존한다. 예를 들면, 인터넷 등의 손실 있는 패킷 네트워크들과 같은 몇몇 전송 채널들에서, 이 가정은 유효하지 않을 수도 있다. 따라서, 몇몇 경우들에 TD 인코딩에 대한 대안이 요구된다.

하나의 이러한 대안은, 정현파 성분들 사이의 프레임내 상관이 이용되는 주파수 차동(FD) 인코딩이다. FD 인코딩에서, 동일한 신호 프레임에 속하는 파라미터들 사이의 차이들이 정량화되고 인코딩되며, 따라서 이전 프레임들로부터의 파라미터들에 대한 의존성을 제거한다. FD 인코딩은 정현파 기반 음성 코딩에 공지되어 있고, 게다가 최근에 오디오 코딩을 위해 사용되고 있다. 통상적으로, 프레임 내의 정현파 성분들은 주파수 증가 순서로 정량화되고 인코딩된다; 먼저, 최저 주파수를 갖는 성분이 직접 인코딩되고, 다음 더 높은 주파수 성분들이 정량화되고 이들의 최근접 더 낮은 주파수 이웃에 대해 한번에 하니씩 인코딩된다. 이 접근은 간단하지만, 최적은 아닐 수도 있다. 예를 들면, 몇몇 프레임들에서, 최근접 이웃 제약을 완화하데 더 효율적일 수도 있다.

본 발명은 정현파 모델 파라미터들의 주파수 차동 인코딩에 관한 것이다.

도 1은 소정의 프레임에서의 정현파 성분들(K=5)의 직접 및 주파수 차동 인코딩의 모든 가능한 조합들을 표현하기 위해 사용되는 다이그래프(digraph).

도 2는 본 발명의 실시예의 스칼라 진폭 정량화기들을 위한 출력 레벨들의 예를 도시하는 도면.

도 3a 내지 도 3c는 K=5의 경우에 허용된 솔루션 트리들(solution trees)의 예들을 도시하는 도면.

도 4는 명료화를 위해 소수의 에지들 및 가중치들만이 도시되어 있는, 할당들로서의 문제 1(이하에 규정됨)의 가능한 솔루션들을 표현하기 위한 그래프(G)(K=5).

도 5는 도 3a 내지 도 3c의 트리들에 대응하는 그래프(G)에서의 할당들을 도시하는 도면.

도 6a 내지 도 6c는 위상적으로 동일한 및 구별되는 솔루션 트리들의 예들을도시하는 도면.

도 7은 정현파 성분들(K)의 수의 함수로서 본 발명을 실시하는 인코딩된 신호의 위상적인 개별 솔루션 트리들의 수의 그래프.

도 8은 본 발명을 실시하는 오디오 데이터를 전송하기 위한 시스템의 단순한 블록 다이어그램.

본 발명에 이르는데 있어, 본 발명자들은 정현파 모델 파라미터들의 FD 인코딩을 위한 더욱 일반적인 방법을 유도하려고 시도했다. 각각의 정량화 레벨에 대응하는 소정의 파라미터 정량화기들 및 코드워드 길이들(비트)에서, 제안된 방법은 프레임 내의 정현파 성분들의 주파수 차동 및 직접 인코딩의 최적 조합을 발견한다. 상기 방법은 임의의 성분 쌍을 수반하는 파라미터 차이들을 허용한다, 즉 주파수 도메인 이웃들이 필수적이지 않다는 점에서 현존하는 체계들보다 더 일반적이다. 더욱이, 상술한 간단한 체계와는 달리, 다수의(극단적인 경우에는, 모든) 성분들이 가장 효율적인 것으로 판명되는 경우에 직접 인코딩될 수도 있다.

오디오 신호를 코딩하는 방법으로부터, 상기 방법은 동일 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩이 없이 인코딩된 프레임들 내의 소정의 정현파 성분의 파라미터들을 인코딩하는 단계에 의해 특징화된다.

다양한 부가의 양태들로부터, 본 발명은 이하의 독립항들에 설명하는 방법들 및 장치를 제공한다. 본 발명의 실시예들의 부가적인 바람직한 특징들이 이하의 종속항들에 설명된다.

이제, 본 발명의 실시예를 첨부 도면들을 참조하여 예시적으로 상세하게 설명할 것이다.

본 발명의 실시예들은 인터넷과 같은 비신뢰적 통신 링크를 통해 오디오 신호들을 전송하기 위한 시스템에 구성될 수 있다. 도 8에 개략적으로 도시된 이러한 시스템은 통상적으로 오디오 신호들(10)의 소스, 및 소스(10)로부터 오디오 신호들을 전송하기 위한 전송 장치(12)를 포함한다. 전송 장치(12)는 소스(10)로부터 오디오 신호를 얻기 위한 입력 유닛(20), 인코딩된 오디오 신호를 얻기 위해 오디오 신호를 코딩하기 위한 인코딩 디바이스(22), 및 네트워크 링크(26)에 인코딩된 신호를 인가함으로써 인코딩된 오디오 신호를 전송하거나 기록하기 위한 출력 유닛(24)을 포함한다. 수신 장치(30)가 인코딩된 오디오 신호를 수신하기 위해 네트워크 링크(26)에 접속된다. 수신 장치(30)는 인코딩된 오디오 신호를 수신하기 위한 입력 유닛(32), 디코딩된 오디오 신호를 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디바이스(34), 및 디코딩된 오디오 신호를 출력하기 위한 출력 유닛(36)을 포함한다. 다음, 출력 신호는 재생되고, 기록되건, 적합한 장치(40)에 의해 요구되는 바와 같이 다른 방식으로 처리될 수 있다.

인코딩 디바이스(22) 내에서, 신호는 동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없이, 소정의 정현파 성분의 파라미터들을 인코딩하는 단계를 포함하는 코딩 방법에 따라 인코딩된다. 상기 방법은 인코딩 프로세스의 임의의 스테이지에서 차동 코딩을 사용할지 않을지의 여부를 결정해야 한다.

이 결정에 도달하도록 상기 방법에 의해 해결되어야 할 문제를 공식화하기 위해, 다수의 정현파 성분들(s₁,...sk)이 신호 프레임에서 추정되어 있는 상황을 고려한다. 각각의 성분(sk)은 진폭(a_k) 및 주파수 값(ω_k)에 의해 묘사된다. 본 발명의 설명을 위해, 이들이 주파수 파라미터들로부터 유도되거나 직접 정량화될 수도 있기 때문에 위상값들을 고려할 필요가 없다. 그럼에도, 본 발명은 실제로는 위상값들 및/또는 댐핑 계수들과 같은 다른 값들로 확장될 수도 있다.

소정의 성분의 파라미터들의 정량화를 위해 이하의 가능성들을 고려한다:

1) 직접 정량화(즉, 비차동), 또는

2) 낮은 주파수들에서 한 성분들의 정량화된 파라미터들에 대한 차동 정량화.

직접 및 차동 정량화의 모든 가능한 조합들의 집합은 도 1에 도시한 바와 같은 다이그래프(D)를 사용하여 표현된다.

정점들(s₁,...,s_k)은 정량화될 정현파 성분들을 표현한다. 이들 정점들 사이의 에지들은 차동 인코딩을 위한 가능성들을 표현한다, 예를 들면 s₁과 s₄사이의에지는 s₁에 대한 s₄의 파라미터들의 정량화(즉, 진폭 파라미터들에 대해)를 표현한다. 정점 s₀는 직접 정량화의 가능성을 표현하도록 도입된 더미 정점이다. 예를 들면, s₀와 s₂사이의 에지는 s₂가 파라미터들의 직접 정량화를 표현한다. 각각의 에지는 에지에 의해 표현된 특정 정량화를 선택하는 왜곡 및 레이트에 대한 비용에 대응하는 가중치(w_ij)가 할당된다. 기본 작업은 직접 및 차동 인코딩의 레이트-왜곡 최적 조합을 발견하는 것이다. 이는 각각의 정점(s₁,...,s_k)이 정확히 1회 인-에지(in-edge) 할당되도록 최소 총 비용을 갖는 D 내의 K개의 에지들의 부분 집합을 발견하는 것에 대응한다.

이제, 에지 가중치들의 계산이 설명될 것이다. 원리적으로, 각각의 에지 가중치는 수학식 1의 형태이다:

여기서, r_ij및 d_ij는 각각 이 특정 정량화와 연관된 레이트(즉, 비트들의 수) 및 왜곡이고,는 라그랑지 승수이다. 일반적으로, 높은 인덱싱된 성분들(s_j)이 도 1에 도시한 바와 같이 (이미 정량화된) 낮은 인덱싱된 성분들에 대해 정량화되기 때문에, 가중치(w_ij)의 정확한 값은 낮은 인덱싱된 성분(s_i)의 특정 정량화에 의존한다. 달리 말하면, w_ij의 값은 s_i가 정량화되기 전에 계산될 수 없다. 이 의존성을 제거하기 위해, 진폭 파라미터들에 대한 도 2에 도시된 바와 같은 직접 및 차동 정량화를 위해 유사한 정량화기들이 사용된다고 가정한다.

도 2에서, 칼럼 1은 직접 진폭 정량화기들을 위한 출력 레벨들을 열거하고, 칼럼 2는 차동 진폭 정량화기들을 위한 출력 레벨들을 열거하고, 칼럼 3은 차동 정량화 후의 도달 가능한 진폭 레벨들의 집합을 열거한다.

이 가정에 의해, 직접 및 차동 정량화를 통해 도달될 수 있는 정량화기 레벨들은 동일하고, 소정의 성분은 직접 또는 차동 정량화가 사용되는지의 여부에 무관하게 동일한 방법으로 정량화될 수 있다. 이는 따라서 직접 및 차동 인코딩의 임의의 조합에 대해 총 왜곡이 일정하고 수학식 1에서=0으로 설정할 수 있다는 것을 의미한다. 더욱이, 이제 D의 모든 가중값들이 미리 w_ij=r_ij로서 계산될 수 있고, 여기서,

정수 r_(·)은 정량화된 파라미터 (·)를 표현하는데 필요한 비트들의 수를 나타낸다. 본 예에서, r_(·)의 값은 미리 계산된 허프만 코드워드 테이블들에서의 엔트리들로서 발견된다.

예를 명백하게 이해하기 위해, 접근되는 문제를 공식화할 필요가 있다. 질문 내의 신호 프레임이 인코딩될 K개의 정현파 성분들을 포함한다고 가정하여, 이하와 같은 최적 FD 인코딩 문제를 공식화한다:

문제 1: 에지 가중치들(w_ij)을 갖는 소정의 그래프(D)에서, 이하와 같은 최소 총 가중치를 갖는 K개의 에지들의 집합을 발견한다:

a) 각각의 정점(s₁,...,s_k)이 정확하게 1회 인-에지 할당된다, 및

b) 각각의 정점(s₁,...,s_k)이 최대 1회 아웃-에지(out-edge) 할당된다.

제약 a)는 K개의 정현파 성분들 각각이 정확하게 1회 정량화되고 인코딩되는 것을 보장하기 때문에 필수적이다. 제약 b)는 K개의 에지 솔루션 트리 상의 특정의 간단한 구조를 실시한다. 이는 전송된 (델타-) 진폭들 및 주파수들을 어떻게 조합하는지를 디코더가 진술하는데 필요한 사이드 정보(side information)의 양을 감소시키기 위해 중요하다. 도 3a 내지 도 3c는 제약들 a) 및 b)를 만족하는 가능한 솔루션 트리들의 예들을 도시한다. 예를 들면 몇몇 종래 기술의 제안들에 사용된 '표준' FD 인코딩 구성이 제시된 프레임워크의 도 3c에 특정 경우이다.

상기 문제를 해결하는데 있어, 두 개의 알고리즘들(알고리즘 1 및 알고리즘 2라 칭함)이 제공된다. 알고리즘 1은 수학적으로 최적이고, 반면 알고리즘 2는 더 낮은 계산 비용에서의 근사 솔루션을 제공한다.

알고리즘 1: 문제 1을 해결하기 위해, 그래프 이론에 공지된 문제인 소위 할당 문제로서 이를 재공식화한다. 다이그래프(D)(도 1)를 사용하여, 도 4에 도시한 바와 같은 그래프(G)를 작성한다. G의 정점들은 두 개의 부분 집합들: 즉 정점들 s₁,...s_K-1및 s₀의 K개의 카피들을 포함하는 좌측의 부분 집합(X), 및정점들(s₁,...,s_k) 및 †로 도시한 K-1개의 더미 정점들을 포함하는 우측의 부분 집합(Y)으로 분할될 수 있다.

다수의 에지들이 X 및 Y의 정점들에 접속된다. X의 정점들에 접속된 에지들은 다이그래프(D)의 아웃-에지들에 대응하고, 정점들(s₁,...,s_k∈Y)에 접속된 에지들은 D의 인-에지들에 대응한다. 예를 들면, G의 s₂∈X로부터 s₄∈Y로의 에지는 다이그래프(D)의 에지 s₂s₄에 대응한다. 따라서, 그래프(G)의 실선 에지들은 다이그래프(D)의 '차동 인코딩' 에지들을 표현한다. 더욱이, 정점들 {s₀}∈X로부터 s₁,...,s_k∈Y로의 점선 에지들은 모두 성분들 s₁,...,s_k의 직접 인코딩에 대응한다. 정점들(s₁,...,s_k∈Y)과 X의 정점들을 접속하는 에지들의 가중치들은 다이그래프(D)의 대응 에지들의 가중치들에 동일하다. 마지막으로, K-1개의 더미 정점들 {†}∈Y는 솔루션 트리들 내의 몇몇 정점들이 '리프들(leaves)'일 수도 있다, 즉 임의의 아웃-에지들을 갖지 않는다는 사실을 표현하는데 사용된다. 예를 들면, 도 3a에서, 정점 s₂는 리프이다. 그래프(G)에서, 이는 s₂∈X로부터 정점들 †∈Y 중 하나로의 에지로서 표현된다. †-정점들에 접속된 모든 에지들은 0의 가중치를 갖는다.

문제 1의 제약들 a) 및 b)를 만족하는 D의 K개의 엔지들의 각각의 집합은, 각각의 정점이 정확하게 하나의 에지에 할당되도록 Y의 정점들로의 X의 정점들의 G 내의 할당, 즉 G의 2K-1개의 에지들의 부분 집합으로서 표현될 수 있다는 것이 보여지고 있다. 도 5a 내지 도 5c는 도 3a 내지 도 3c의 트리들에 대응하는 할당들의 예들을 각각 도시한다. 따라서, 문제 1은 문제 2로서 칭하는 소위 할당 문제로서 재공식화될 수 있다.

문제 2: 각각의 정점이 정확하게 하나의 에지에 할당되도록 최소 총 가중치를 갖는 2K-1개의 에지들의 집합을 그래프(G)에서 발견한다.

O((2K-1)³) 산술 연산들에서의 문제를 해결하는 H.W. 쿤(Kuhn)의 "The Hungarian Method for the Assignment Problem" 해군 보고서 병참학 계간지, 2:83-97, 1955년에 논의된 바와 같은 소위 헝가리안 방법과 같은 다수의 알고리즘들이 문제 2를 해결하기 위해 존재한다. 대안적인 실시는 R. 용커(Jonker) 및 A. 폴게난트(Volgenant)의 "A Shortest Augmenting Path Algorithm for Dense and Sparse Linear Assignment Problem", 계산, vol. 38, 페이지 325-340, 1987년에 설명된 알고리즘이다. 복잡성은 헝가리안 방법과 유사하지만, 용커 및 폴게난트 알고리즘은 실용적으로 더 신속하다. 또한, 이들의 알고리즘은 본 실시예의 다중 프레임 연결 알고리즘에 있어 중요한 희소 문제를 신속하게 해결할 수 있다.

요약하면, 알고리즘 1은 이하의 단계들로 구성된다. 먼저, 다이그래프(D)[및 그래프(G)의 결과]가 작성된다. 다음, 최소 가중치를 갖는 G 내의 할당(문제 2)이 결정된다. 마지막으로, G 내의 할당으로부터, 직접 및 차동 코딩의 최적 조합이 용이하게 유도된다.

알고리즘 2는 인덱스들을 증가시키기 위해 동시에 그래프(D)의정점들(s₁,...,s_k)을 1회 처리하는 반복적인 그리디 알고리즘이다. 반복 k에서, 정점(s_k)의 인-에지들 중 하나가 후보 에지 집합으로부터 선택된다. 후보 에지 집합은 미리 선택된 아웃-에지를 갖지 않는 정점들로부터 기원하는 s_k의 인-에지들 및 직접 인코딩 에지(s₀s_k)로 구성된다. 이 집합으로부터, 최소 가중치를 갖는 에지가 선택된다. 이 절차에 의해, 문제 1의 제약들 a) 및 b)를 만족하는 K개의 에지들의 집합이 얻어진다. 일반적으로, 이 그리디 접근은 최적이지는 않다, 즉 제약들 a) 및 b)를 만족하는 더 낮은 총 가중치를 갖는 K개의 에지들의 다른 집합이 존재할 수도 있다. 알고리즘 2는 O(K²)의 계산적 복잡성을 갖는다.

상술한 바와 같이 인코딩된 정현파(델타-) 파라미터들에 부가하여, 본 발명을 실시하는 인코딩된 신호는 디코더에서 파라미터들이 어떻게 조합되는지를 설명하는 사이드 정보를 포함해야 한다. 하나의 가능성은 사이드 정보 알파벳의 하나의 심벌을 각각의 가능한 솔루션 트리에 할당하는 것이다. 그러나, 상이한 솔루션 트리의 수가 크면, 예를 들면 프레임 내의 K=25의 정현파 성분들을 가지면, 상이한 솔루션 트리들의 수는 사이드 정보 알파벳의 솔루션 트리를 인덱싱하기 위한 62 비트들에 대응하는 대략 10¹⁸으로 보여질 수 있다. 명백하게, 이 수는 대부분의 적용들을 초과한다. 다행스럽게도, 측면 정보 알파벳은 특정 순서화가 (델타-) 파라미터 시퀀스에 적용되면 위상적으로 구별되는 솔루션 트리들을 표현하기만 하면 된다. 위상적으로 구별되는 트리들 및 파라미터 순서화의 개념을 명료하게 하기 위해, 도 6a 내지 도 6c의 솔루션 트리들의 예들 및 트리들의 아래에 열거된 대응 파라미터 시퀀스들을 고려한다. 도 6a 및 도 6b의 스패닝 트리들은 3-에지 및 2-에지 브랜치로 각각 구성되기 때문에 위상적으로 동일하고, 따라서 측면 정보 알파벳의 동일한 심벌로 표현될 수 있다. 반대로, 단일의 5-에지 브랜치로 구성되는 도 6c의 트리는 다른 것들로부터 위상적으로 개별된다. 위상 트리 구조를 인식하고 예를 들면 (델타-) 파라미터들이 최장 브랜치들을 갖는 파라미터 스트림에서 브랜치 방향으로 먼저 발생한다고 가정하면, 디코더가 수신된 파라미터들을 정확하게 조합하도록 하는 것이 가능하다.

따라서, 본 발명의 바람직한 실시예들은 그의 심벌들이 위상적으로 구별되는 솔루션 트리들에 대응하는 사이드 정보 알파벳을 제공한다. 사이드 정보에 대한 상한은 이러한 트리들의 수에 의해 제공된다. 이는 위상 개별 트리들의 수에 대한 표현들을 따른다.

도 6a 내지 도 6c의 예들에 도시한 바와 같이, 솔루션 트리들의 구조는 트리 내의 각각의 브랜치의 길이를 규정함으로써 표현될 수 있다. 최장-브랜치들-우선 순서화를 가정하면, 위상적으로 구별되는 트리들의 집합은 그의 합이 K인 비증가 양의 정수들의 개별 시퀀스들에 의해 규정된다; 조합론에서, 이러한 시퀀스들은 d양의 정수 K의 "정수 분할들(integer partitions)"로서 칭한다. 예를 들면, K=5에 대해서, 이하의 7개의 정수 분할들: {5}(도 1c), {4,1},{3,2}(도 1a 및 도 1b), {3,1,1},{2,2,1},{2,1,1,1}, 및 {1,1,1,1,1}이 존재한다. 따라서, K=5에 대해서, 7개의 위상적으로 구별되는 솔루션 트리들이 존재하고, 사이드 정보 알파벳은 7개의 심벌들로 구성될 수 있다. P_j(K)를 제1 정수가 j인 K의 정수 분할들의 수를 나타낸다고 하면, 개별 솔루션 트리들의 수(P)는 이하의 재귀들에 의해 제공되는 것으로 간단하게 보여진다:

여기서,

도 8은 정현파 성분들의 수(K)의 함수로서의 위상적으로 구별되는 트리들의 수를 도시한다. 따라서, K=25에 대해서 사이드 정보 알파벳의 인덱싱은 최대 11 비트들을 요구할 수 있다. 그래프는 사이드 정보의 상한을 표현하고: 예를 들면 엔트로피 코딩을 사용하여 통계적인 특성들을 이용하는 것은 사이드 정보율을 더욱 감소시킬 수도 있다는 것을 주목하라.

제안된 알고리즘들의 성능은 오디오 신호들을 갖는 시뮬레이션 연구에서 논증될 수 있다. 44.1kHz의 레이트에서 샘플링되고 대략 20초의 기간을 갖는 4개의 상이한 오디오 신호들 각각이 연속적인 프레임들 사이의 50% 오버랩을 갖는 해닝 윈도우(Hanning window)를 사용하여 1024 샘플들의 고정 길이의 프레임들로 분할된다.

각각의 신호 프레임은, 그의 파라미터들이 정합 추적 알고리즘(matching pursuit algorithm)을 사용하여 추출되는 K=25의 일정 진폭, 일정 주파수의 정현파 성분들의 고정수를 갖는 정현파 모델을 사용하여 표현된다. 진폭 및 주파수 파라미터들은 각각 20% 및 0.5%의 상대 정량화기 레벨 간격들을 사용하여 로그-영역에서 균일하게 정량화된다. 유사한 상대 정량화 레벨들이 도 2에 도시한 바와 같이 직접 및 차동 정량화를 위해 사용되고, 정량화된 파라미터들은 허프만 코딩을 사용하여 인코딩된다.

알고리즘들 1 및 2가 각각의 프레임에 대해 어떻게 직접 및 FD 인코딩을 조합하는지를 결정하는데 사용되는 경우에 대한 실험들이 수행되었다. 게다가, 진폭 및 주파수 파라미터들이 K=5에 대해서 도 3c에 도시된 '표준' FD 인코딩 구성을 사용하여 정량화되는 경우에 대한 시뮬레이션들이 실행되었다. 마지막으로, FD 인코딩의 가능한 이득을 결정하기 위해, 파라미터들이 직접, 즉 차동 인코딩 없이 정량화되었다. 각각의 실험은 실험 내에 추정된 상이한 허프만 코드들을 사용하였다.

이들 인코딩 절차들의 각각에 있어서, (델타-) 진폭들 및 주파수들의 인코딩에 요구되는 비트 레이트(R_pars)가 추정되었다(1차 엔트로피들을 사용함). 더욱이, 알고리즘들 1 및 2는 솔루션 트리 구조에 대한 정보가 디코더로 송신될 것을 요구하기 때문에, 이 사이드 정보를 표현하기 위해 요구되는 비트 레이트(R_S.I)가 마찬가지로 추정된다. 이하의 표 1은 다양한 코딩 전략들 및 테스트 신호들에 있어서의 추정된 비트 레이트들을 도시한다. 본 문맥에서, 비트 레이트의 비교는 유사한정량화기들이 모든 실험들에 사용되기 때문에 적당하며, 따라서 테스트 신호들은 동일한 왜곡 레벨에서 인코딩된다.

이하의 표 1에서의 칼럼들은 다양한 코딩 체계들 및 테스트 신호들에 있어서의 비트 레이트들[kbps]을 나타낸다. 테이블 칼럼들은, R_Pars: (델타-) 진폭들 및 주파수들을 표현하기 위한 비트 레이트, R_S.I: 사이드 정보(트리 구조들)에 대해 요구되는 레이트, 및 R_Total; 총 레이트이다. 이득은 직접 인코딩(비차동)에 걸쳐 다양한 FD 인코딩 체계들에 의한 상대적인 개선이다.

표 1은 직접 및 FD 인코딩의 조합을 결정하기 위한 알고리즘 1이 사용이 직접 인코딩에 대해 18.8 내지 27.0%의 범위의 비트 레이트의 감소를 제공한다는 것을 나타낸다. 알고리즘 2는 18.5 내지 26.7%의 범위의 비트 레이트 감소들로 거의 마찬가지로 수행된다. 알고리즘 2로부터 초래하는 약간 낮은 사이드 정보는 알고리즘 2가 더 적지만 더 긴 '브랜치들'을 갖는 솔루션 트리들을 생성하는 경향이 있어, 관찰된 상이한 솔루션 트리들의 수가 감소되는 사실에 기인한다. 마지막으로, FD 인코딩의 '표준' 방법은 12.7 내지 24.0%의 비트 레이트를 감소시킨다.

따라서, 소정의 프레임에서 정현파 성분들의 직접 및 FD 인코딩의 비트 레이트 최적 조합을 결정하기 위한 두 개의 알고리즘들을 사용하는 인코딩 방법들이 제공된다. 오디오 신호들에 의한 시뮬레이션 실험들에서, 제시된 알고리즘들은 직접 인코딩에 대해 최대 27%의 비트 레이트의 감소들을 나타낸다. 더욱이, 제안된 방법은 통상적으로 사용되는 FD 인코딩 체계와 비교하여 최대 7%의 비트 레이트를 감소시킨다. 본 발명의 고려는 자립형 기술로서 FD 인코딩에 초점을 맞추었지만, 부가의 실시예들에서 체계는 TD 인코딩과 조합하여 FD 인코딩을 설명하는 것을 일반화한다. 이러한 조합 TD/FD 인코딩 체계들에 의해, 두 개의 인코딩 기술들의 장점들을 조합하는 실시예들을 제공하는 것이 가능하다.

상술한 실시예들은 본 발명을 한정하기보다는 설명하는 것이며, 당 기술 분야의 숙련자들은 첨부된 청구범위의 범주로부터 일탈하지 않고 다수의 대안적인 실시예들을 설계하는 것이 가능할 수 있다는 것을 주목해야 한다. 청구범위에서, 괄호들 사이에 배치된 임의의 참조 부호들은 청구범위를 한정하는 것으로 해석되어서는 안 된다. 용어 '포함하는'은 청구범위에 열거된 것들 이외의 요소들 또는 단계들의 존재를 배제하는 것은 아니다. 본 발명은 다수의 별개의 요소들을 포함하는 하드웨어에 의해, 및 적절하게 프로그램된 컴퓨터에 의해 실시될 수 있다. 다수의 수단을 열거한 디바이스 청구항에서, 이들 수단의 다수는 하드웨어의 하나 및 동일한 아이템에 의해 실시될 수 있다. 특정 수단들이 서로 상이한 종속항들에 기재되는 단순한 사실은 이들 수단들의 조합이 장점화되어 사용될 수 없다는 것을 지시하는 것은 아니다.

신호1	R_Pars.	R_S.I	R_Total	이득
방향	29.1	0	29.1	-
알고리즘1	20.8	0.6	21.4	26.5%
알고리즘2	20.9	0.5	21.5	26.1%
표준	22.3	0	22.3	23.4%

신호2	R_Pars.	R_S.I	R_Total	이득
방향	27.6	0	27.6	-
알고리즘1	21.6	0.7	22.4	18.8%
알고리즘2	21.8	0.7	22.5	18.5%
표준	24.1	0	24.1	12.7%

신호3	R_Pars.	R_S.I	R_Total	이득
방향	30.0	0	30.0	-
알고리즘1	21.2	0.7	21.9	27.0%
알고리즘2	21.4	0.6	22.0	26.7%
표준	22.8	0	22.8	24.0%

신호4	R_Pars.	R_S.I	R_Total	이득
방향	28.6	0	28.6	-
알고리즘1	21.5	0.7	22.2	22.4%
알고리즘2	21.8	0.7	22.5	21.3%
표준	22.9	0	22.9	19.9%

Claims

오디오 신호를 코딩하는 방법에 있어서,

동일한 프레임의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없이, 인코딩된 프레임들 내의 소정의 정현파 성분의 파라미터들을 인코딩하는 단계를 포함하는 것을 특징으로 하는, 오디오 신호 코딩 방법.
제1 항에 있어서, 파라미터가 차동적으로 또는 직접적으로 인코딩되는지의 여부를 알고리즘 방식으로 결정하는 단계를 포함하는, 오디오 신호 코딩 방법.
제2 항에 있어서, 상기 알고리즘은 파라미터가 차동적으로 또는 직접적으로 인코딩되는지의 여부에 대한 최적 결정을 수행하는, 오디오 신호 코딩 방법.
제2 항 또는 제3 항에 있어서, 상기 알고리즘은,

a. 직접 및 차동 정량화된 성분들의 모든 가능한 조합들의 집합의 다이그래프(digraph: D)를 작성하고, 그로부터 그래프(G)를 작성하는 단계;

b. 최소 총 가중치를 갖는 G 내의 할당을 결정하는 단계; 및

c. G 내의 상기 할당으로부터 직접 및 차동 코딩의 최적 조합을 유도하는 단계를 포함하는, 오디오 신호 코딩 방법.
제2 항에 있어서, 상기 알고리즘은 파라미터가 차동적으로 또는 직접적으로 인코딩되는지의 여부에 대한 근사 결정을 수행하는, 오디오 신호 코딩 방법.
제2 항 또는 제5 항에 있어서, 상기 알고리즘은 반복적인 그리디 알고리즘(greedy algorithm)인, 오디오 신호 코딩 방법.
제6 항에 있어서, 상기 알고리즘은,

a. 직접 및 차동 정량화된 성분들의 모든 가능한 조합들의 집합의 다이그래프(D)를 작성하는 단계;

b. 인덱스들을 증가시키기 위해 한번에 하나씩 그래프(D)의 정점들(s₁,...,s_k)을 처리하는 단계;

c. 반복 k에서, 정점(s_k)의 인-에지들(in-edge) 중 하나가 후보 에지 집합으로부터 선택되고, 상기 후보 에지 집합은 미리 선택된 아웃-에지를 갖지 않는 정점들로부터 기원하는 s_k의 인-에지들 및 직접 인코딩 에지(s₀s_k)를 포함하는 단계; 및

d. 상기 집합으로부터 최소 가중치를 갖는 에지를 선택하는 단계를 포함하는, 오디오 신호 코딩 방법.
제1 항 내지 제7 항 중 어느 한 항에 있어서, 각각의 정점이 정확하게 하나의 에지에 할당되도록 최소 총 가중치를 갖는 2K-1개의 에지들의 집합의 그래프(G)의 최적 조합을 발견하는 단계를 포함하는, 오디오 신호 코딩 방법.
제8 항에 있어서, 상기 최소 가중치를 갖는 에지들의 집합은 할당 문제를 해결하기 위한 헝가리안 방법(Hungarian Method)의 사용을 포함하는 절차에 의해 발견되는, 오디오 신호 코딩 방법.
제8 항에 있어서, 상기 최소 가중치를 갖는 에지들의 집합은 상기 할당 문제를 해결하기 위한 최단 증가 경로 알고리즘의 사용을 포함하는 절차에 의해 발견되는, 오디오 신호 코딩 방법.
제1 항 내지 제10 항 중 어느 한 항에 있어서, 프레임 내의 성분들이 차동적으로 또는 직접적으로 인코딩되는지의 여부를 구체화하는 사이드 정보(side information)를 생성하는, 오디오 신호 코딩 단계를 더 포함하는, 오디오 신호 코딩 방법.
오디오 신호를 코딩하기 위한 디바이스로서, 상기 디바이스는 소정의 정현파 성분의 파라미터들을 인코딩하기 위한 수단을 포함하는, 상기 디바이스에 있어서,

상기 인코딩된 프레임들 내의 파라미터들은 동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없이, 인코딩되는 것을 특징으로 하는, 디바이스.
제12 항에 있어서, 제1 항 내지 제11 항 중 어느 한 항의 방법에 따라 작동하는, 디바이스.
인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 인코딩된 오디오 신호는 소정의 정현파 성분의 파라미터들을 포함하는, 상기 디코딩 방법에 있어서,

상기 파라미터들은 동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없이, 인코딩되는 것을 특징으로 하는, 오디오 신호 디코딩 방법.
제12 항에 있어서, 상기 신호는 제1 항 내지 제11 항 중 어느 한 항의 방법에 따라 인코딩되는 인코딩된 오디오 신호를 디코딩하는, 오디오 신호 디코딩 방법.
제15 항에 있어서, 상기 인코딩된 신호 내의 사이드 정보는 프레임 내의 성분이 차동적으로 또는 직접적으로 디코딩되는지의 여부를 결정하도록 해석되는 인코딩된 오디오 신호를 디코딩하는, 오디오 신호 디코딩 방법.
인코딩된 오디오 신호를 디코딩하기 위한 디바이스로서, 상기 인코딩된 오디오 신호는 동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로,즉 차동 인코딩 없이, 인코딩된 프레임들에서 인코딩되는 소정의 정현파 성분의 파라미터들을 포함하는, 디바이스.
제17 항에 있어서, 제14 항 내지 제16 항 중 어느 한 항의 방법에 따라 작동하는, 디바이스.
동일한 프레임 내의 다른 성분들에 대해 차동적으로 또는 직접적으로, 즉 차동 인코딩 없,이 인코딩된 프레임들에서 인코딩되는 소정의 정현파 성분의 파라미터들을 포함하는, 인코딩된 오디오 신호.
제19 항에 있어서, 프레임 내의 성분들이 차동적으로 또는 직접적으로 인코딩되는지의 여부를 구체화하는 사이드 정보를 포함하는, 인코딩된 오디오 신호.
제19 항 또는 제20 항에 따른 인코딩된 오디오 신호가 저장되어 있는, 기록 매체.
인코딩된 오디오 신호를 전송 또는 기록하기 위한 장치에 있어서,

a. 오디오 신호를 얻기 위한 입력 유닛,

b. 상기 인코딩된 오디오 신호를 얻도록 상기 오디오 신호를 코딩하기 위한 제12 항 또는 제13 항에 따른 디바이스, 및

c. 상기 인코딩된 오디오 신호를 전송 또는 기록하기 위한 출력 유닛을 포함하는, 장치.
인코딩된 오디오 신호를 수신 및/또는 재생하기 위한 장치에 있어서,

a. 상기 인코딩된 오디오 신호를 수신하기 위한 입력 유닛,

b. 디코딩된 오디오 신호를 얻도록 상기 인코딩된 오디오 신호를 디코딩하기 위한 제17 항 또는 제18 항에 따른 디바이스, 및

c. 상기 디코딩된 오디오 신호를 출력하기 위한 출력 유닛을 포함하는, 장치.