KR101712475B1

KR101712475B1 - 부-대역 도메인 내의 자유롭게 선택가능한 주파수 변이를 위한 장치, 방법 및 컴퓨터 프로그램

Info

Publication number: KR101712475B1
Application number: KR1020147037169A
Authority: KR
Inventors: 프레드리크 나겔; 마이클 슈나벨; 크리스티안 노이캄; 제랄드 슐러
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.; 테크니쉐 유니베르시타트 일메나우
Priority date: 2012-07-02
Filing date: 2013-07-01
Publication date: 2017-03-13
Also published as: WO2014005992A1; RU2595889C1; MX2014015749A; JP2015521759A; AU2013286049A1; EP2682941A1; CA2879823C; CA2879823A1; KR20150043250A; BR112014032265A2; AU2013286049B2; US20150110292A1; ES2596457T3; CN104603873B; US9514767B2; EP2867894A1; JP6147337B2; BR112014032265B1; MX342099B; CN104603873A

Abstract

오디오 입력 신호를 기초로 하여 주파수-이동된 오디오 신호를 생산하기 위한 장치(100)가 제공된다. 장치(100)는 인터페이스(110) 및 주파수-이동 유닛(120)을 포함한다. 인터페이스(110)는 오디오 입력 신호를 수신하도록 구성된다. 주파수-이동 유닛(120)은 주파수 이동된 오디오 신호를 생산하도록 구성된다. 주파수-이동 유닛(120)은 부가적으로 이러한 제 2 부대역 값의 제 2 위상 각이 위상 각 차이에 의해 이러한 제 1 부대역 값의 제 1 위상 각과 다를 수 있는 것과 같이 제 1 부대역 값들 중 하나를 기초로 하여 제 2 부대역 값들 중 하나를 생산하도록 구성되며, 위상 각 차이는 주파수-이동된 오디오 신호를 획득하기 위하여 어떠한 주파수 차이에 의해 오디오 입력 신호가 이동되는지를 나타내는 주파수 정보에 의존하고, 위상 각 차이는 제 1 부대역들 중 하나의 주파수 대역폭에 의존한다.

Description

부-대역 도메인 내의 자유롭게 선택가능한 주파수 변이를 위한 장치, 방법 및 컴퓨터 프로그램{DEVICE, METHOD AND COMPUTER PROGRAM FOR FREELY SELECTABLE FREQUENCY SHIFTS IN THE SUB-BAND DOMAIN}

본 발명은 오디오 신호 처리에 관한 것으로서, 특히 부대역 도메인 내의 임의 주파수 변이를 위한 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.

컴퓨터 이용 데이터 처리 시스템들은 뉴 미디어(new media)를 특징으로 하는 오늘날의 사회에서 일상 생활의 없어서는 안 될 부분이다. 뉴 미디어를 소비하기 위한 시스템들은 꽤 오랫동안 거의 모든 가정에 존재하여 왔다. 디지털 형태로 데이터를 전송하고 재생하는 그러한 시스템들의 예들은 예를 들면, DVD와 블루레이(Bluray), CD 및 mp3 파일 포맷과 같은 비디오 및 오디오 데이터용 플레이어들이다. 이러한 재생 시스템들은 미디어 콘텐츠의 거의 손실 없는 재생을 특징으로 한다. 종래의 전자통신을 제외하고, 인터넷은 바람직하게는 보이스 오버 인터넷 프로토콜(Voice over Internet Protocol, VoIP)에 의한, 통신들을 위한 중요한 포털이다. 근본적인 디지털 신호 처리는 언급된 모든 기술에 공통이다. 이는 디지털 기술들의 재생의 품질과 효율에 결정적으로 중요하다.

오디오 신호 처리는 여기서 중요성이 증가하고 있다. 현재, 복수의 오디오 인코더가 시장에서 이용가능하며, 이들은 예를 들면, 저장 또는 전송을 위하여 디지털로 제공하는 오디오 자료용 알고리즘들에 의해 실현된다. 모든 인코딩 방법의 목적은 최소 저장 공간을 필요로 하고 동시에 가능한 최대 재생 품질을 유지하는 것과 같이 신호의 정보 콘텐츠를 압축하는 것이다. 현대 오디오 인코더들의 효율은 주로 필요한 저장장치 및 무엇보다도 알고리즘을 위하여 필요한 복잡도의 계산에 의존한다.

기본적으로, 디지털 오디오 인코더는 오디오 신호들을 저장 또는 전송에 적합한 포맷으로 전달하기 위한 기구이다. 이는 오디오 인코더(인코더)의 전송장치 면(transmitter side) 상에 발생한다. 이러한 방법으로 생산된 데이터는 그리고 나서 수신기(디코더) 내에 원래의 형태로 돌아오며, 이상적인 경우에 있어서, 일정한 지연을 제외하고는 원래의 데이터와 상응한다. 오디오 인코더들의 일반적인 목적은 오디오 신호를 표현하는데 필요한 데이터의 양을 최소화하고 동시에 지각된 재생 품질을 최대화하는 것이다. 오디오 인코더들을 개발할 때, 예를 들면, 재생의 충실도, 데이터 비율 및 복잡도와 같은 다수의 인자에 유의하여야 한다. 이와 별도로, 신호의 처리에 의해 추가된 지연(추가된 지연)이 또한 중요한 역할을 한다(Bosi 및Goldberg, 2003).

특히 오디오 인코딩의 시작에서, 방법들의 효율성이 매우 중요하였는데 그 이유는 매우 제한된 정도로 저장과 계산 실행이 가능하였기 때문이다. 요즘에는, 이러한 요구는 덜 중요한 것으로 보인다. 심지어 가정용 개인 컴퓨터들 또는 휴대용 컴퓨터들도 복잡한 알고리즘들을 실시간으로 쉽게 계산할 수 있고, 광대역 인터넷 연결들이 인코딩된 오디오 자료를 전송하는데 충분한 대역폭을 제공한다. 그럼에도 불구하고, 오디오 인코딩 방법들의 개선이 특히 중요하다. 이동 통신 분야 및 위성 전송 분야에서, 대역폭은 강력하게 제한된다. 전송되려는 데이터의 양을 감소시키는 것이 중요하다. 부가적으로, 이러한 분야에서는 사용되는 인코딩 기술의 효율성의 중요성에 치중한다. 소비 전류를 최소화하기 위하여 계산 실행 및 근본적인 알고리즘은 간단한 구조로 나타내어야만 한다.

또 다른 양상은 재생되는 인코딩된 오디오 신호들의 품질이다. 많은 오디오 인코더들은 무관계(irrelevance)의 감소를 사용하여 데이터의 양을 감소시킨다. 여기서 데이터 비율에 의존하여, 신호 부분들이 손실된다. 낮은 데이터 비율들로, 재생되는 오디오 신호들의 품질이 감소된다.

일반적으로, 두 가지 형태의 오디오 인코딩이 즉 무손실 오디오 인코딩과 손실 오디오 인코딩 사이에 차별화될 수 있다. 무손실 오디오 인코딩은 수신기 면 상에 원래의 신호의 정확한 재생을 허용한다. 이와 대조적으로 손실 방법은 주관적 지각ㅇ의 모델을 거쳐 원래 신호와의 비가역적 편차를 야기한다(Zolzer, 2005).

무손실 오디오 인코딩은 인코딩되려는 신호 내에 포함되는 중복의 감소를 기초로 한다. 여기서 공통 방법은 예를 들면, 뒤따르는 엔트로피 인코딩과 관련된 선형 예측 코딩(LPC)이다. 그러한 오디오 인코딩 방법들은 입력 신호가 인코딩되는 비트 스트림으로부터의 비트에 의해 하나씩 정확하게 재구성되도록 허용된다.

선형 예측은 미래 값들을 예측할 수 있도록 하기 위하여 신호의 연속적인 샘플들 사이의 통계적 의존성을 사용한다. 이는 연속적인 샘플들이 서로 상당한 거리의 샘플들보다 서로 더 유사하다는 사실을 기초로 한다. 예측은 다수의 이전 샘플을 사용하여 현재 샘플을 추정하는 선형 예측 필터에 의해 실현된다. 그러나, 이는 뒤에 처리되려는 추정 자체가 아니라, 여기서는 이러한 값과 실제 샘플 사이의 차이이다. 선형 예측의 목적은 최적화된 필터에 의해 이러한 오류 신호의 에너지를 최소화하고 단지 작은 대역폭만을 필요로 하는 상기 오류 신호를 전송하는 것이다(Weinzierl, 2008).

그 뒤에, 오류 신호는 엔트로피 인코딩된다. 엔트로피는 신호의 평균 정보 콘텐츠의 측정이고 인코딩을 위하여 필요한 이론적인 최소 비트들을 나타낸다. 여기서의 일반적인 방법은 허프만 인코딩(Huffman encoding)이다. 여기서 그것들의 통계적 발생 확률에 의존하여, 특정 코드 워드(code word)들이 개별 샘플들과 관련된다. 짧은 기호(symbol)들이 빈번하게 발생하는 샘플들과 관련되고 긴 코드 워드들에 의해 드물게 발생하는 신호 값들이 표현된다. 평균적으로, 인코딩된 신호는 따라서 가능한 가장 작은 수의 비트들에 의해 표현된다(Bosi 및 Goldberg, 2003).

선형 예측과 엔트로피 인코딩 모두 가역적이며 따라서 신호로부터 어떠한 정보도 제거하지 않는다. 그러한 무손실 접근법들은 신호 특성에 강력하게 의존하기 때문에, 인코딩의 이득은 상대적으로 작다. 달성되는 압축 비율, 즉 입력 비트 레이트 및 코딩된 신호의 비트 레이트의 비율은 1.5:1 및 3:1 사이의 영역 내에 존재한다(Weinziert, 2008).

손실 오디오 인코딩은 무관계의 감소의 원리를 기초로 한다. 이러한 방법은 시간과 주파수 해상도와 관련하여 청각의 음향심리학적 현상을 설명하는 인간 지각의 모델을 필요로 한다. 따라서, 손실 오디오 인코딩은 또한 지각 또는 음향심리학적 인코딩에 적용되는 인코딩으로서 언급된다. 오디오 인코딩의 분야에서, 인간들에 의해 지각될 수 없고 따라서 들리지 않는 모든 신호 부분은 무관한 것으로서 언급된다(Zolzer, 2005). 지각에 적용되는 오디오 인코더의 기능의 방식을 더 정확하게 이해하기 위하여, 음향심리학의 심오한 지식이 매우 중요하다.

인간 청각은 주파수 이벤트를 주파수 그룹들로 분해함으로써 음향 이벤트를 분석한다. 이러한 주파수 그룹들은 바크 스케일(Bark scale) 내에서 표현되고 영문 문헌에서는 임계 대역(critical band)들로서 언급된다. 이러한 주파수 그룹들 각각은 인간 청각에 의해 평가되는 주파수 도메인을 함께 요약한다. 따라서, 주파수 도메인은 기저막(basilar membrane) 상의 국소 영역과 상응한다. 대체로, 24개의 임계 대역이 기저막과 관련되고, 그 대역폭은 주파수의 증가와 함께 증가한다(Fastl 및 Zwicker, 2007). 손실 오디오 인코더들은 또한 광대역 신호들을 부대역들로 분해하고 각각의 대역을 개별적으로 인코딩하기 위하여 이러한 주파수 그룹들의 모델을 사용한다(Zolzer, 2005). 이러한 모델은 빈번하게 적용되고 24 대역 이상의 선형 주파수 분할이 바크 스케일 대신에 빈번하게 사용된다.

청각의 또 다른 중요한 특성은 동일한 음향 압력 레벨의 음향들의 라우드니스(loudness)의 주파수 의존적 감정이다. 청각의 두 가지 특징이 이로부터 야기한다. 한편으로, 서로 다른 주파수들이나 동일한 압력 레벨의 음향들은 서로 다른 라우드니스로서 지각되고, 다른 한편으로 음향들이 여전히 지각될 수 있는 영역으로부터 시작하는 주파수 의존적 한계가 존재한다(Fastl 및 Zwicker, 2007). 이러한 한계는 또한 절대 청각 한계 또는 조용한 상태의 청각 한계로서 언급되며 도 22에 도시된다. 이로부터 오디오 인코딩을 위한 두 가지 결론이 도출될 수 있다. 레벨들이 절대 청각 한계 아래에 존재하는 신호들은 처리될 필요가 없는데 그 이유는 신호들이 어쨌든 지각될 수 없기 때문이다. 이와 별도로, 주파수 대역 당 필요한 양자화 단계들의 수는 또한 조용한 상태의 청각 한계 및 신호 레벨 사이의 거리로부터 결정될 수 있다(Zolzer, 2005).

피복 또는 마스킹(masking) 효과들이 오디오 인코딩에 가장 큰 영향을 갖는다. 시간 및 주파수 의존적 마스킹이 차별화될 수 있다. 두 경우에 있어서, 여기서 마스커(masker)는 또 다른 음향 이벤트가 덮여있는(포함되는) 음향 이벤트로서 언급된다. 따라서, 마스킹된 이벤트는 들리지 않는다. 시간적 마스킹과 함께, 마스커 앞 또는 뒤의 이벤트가 커버된다. 예비-마스킹(pre-masking)은 마스커의 기간과 관계없고 마스커 자제를 지각하기 전에 50 ms까지 음향 이벤트들을 덮는다(Yost, 1994). 이와 대조적으로, 후-마스킹은 마스커의 기간에 의존한다. 여기서 음향 이벤트들은 마스커가 중단된 후에 덮인다. 마스커의 기간에 의존하여, 조용한 상태의 청각 한계의 범위 내에 청각이 다시 신호들에 응답할 때까지 200 ms가지 통과할 수 있다(fastl 및 Zwicker, 2007).

도 21은 시간적 마스킹을 개략적으로 도시한다. 특히, 도 21은 예비-마스킹과 후-마스킹의 영역 및 아래에 신호들이 커버되는 각각의 레벨을 개략적으로 도시한다. 시간적 마스킹은 고-레벨 신호 시퀀스들(트랜지언트들)에 대하여, 예를 들면 양자화 잡음과 같은, 인코딩 과정에 의해 야기되는 스퓨리어스 잡음(spurious noise)을 감추기 위하여 오디오 인코딩에서 사용될 수 있다.

주파수 도메인 내의 마스킹 효과들은 시간적 피복 효과들보다 훨씬 더 중요한 역할을 한다. 주파수-의존적 마스킹은 개별 음향들과 협대역 잡음을 위한 조용한 상태의 청각 한계의 변화를 설명한다. 이러한 신호들은 청각의 특정 마스킹된 한계에 기인하여 조용한 상태의 청각 한계를 상당히 왜곡한다. 레벨이 마스커의 마스킹된 청각 한계보다 작고 상기 한계의 효율적인 범위 내에 위치되는 신호들은 지각될 수 없다(Fastl 및 Zwicker, 2007). 이러한 문맥이 도 22에 도시된다.

도 22는 인간 청각 내의 주파수 의존적 마스킹을 개략적으로 도시한다. 보이는 것과 같이, 마스킹된 음향은 마스커의 마스킹된 청각의 한계 아래에 존재하고 따라서, 들리지 않는다. 이러한 효과는 손실 오디오 인코딩 방법들에서 사용된다. 주파수 의존적 마스킹된 청각의 한계 아래의 신호 부분들은 신호로부터 제거되고 더 이상 처리되지 않는다(Zolzer, 2005).

지각에 적용되는 전형적인 인코더의 일반적인 설정이 도 23에 도시된다. 도 23은 음향심리학적 오디오 인코더의 블록 회로 다이어그램을 도시한다. 처음에, 인코딩되려는 펄스 코드 변조(PCM) 신호는 분석 필터 뱅크에 의해 주파수 대역들로 분해되고 음향심리학적 모델에 제공된다. 여기서, 서로 다른 주파수 대역들을 위하여 양자화의 정확성을 조절하는 시간 의존적 마스킹된 청각의 한계가 설명된 청각의 음향심리학적 특징들에 의해 결정된다. 따라서, 중요한 주파수 대역, 즉 지각하기에 쉬운 주파수 대역들이 매우 높은 해상도로 양자화되고 중요하지 않은 주파수 대역들은 적은 수의 비트들의 해상도에서 표현된다. 그 뒤에, 또한 무손실 오디오 인코딩에서 수행되는 것과 같이, 데이터 감소를 위하여 엔트로피 인코딩이 실행된다. 부가적인 제어 파라미터들이 분석 필터 뱅크 및 음향심리학적 모델에 의해 전송되어야만 하기 때문에, 실제 비트 스트림은 비트 스트림 멀티플렉서(multiplexer)에 의해 설정된다. 손실 오디오 인코더들 내의 인코딩에서의 이득은 여기서는 양자화와 엔트로피 인코딩을 결합함으로써 획득된다(Zolzer, 2005). 달성되려는 품질에 따라, 압축 비율은 4:1 및 50:1 사이이다(Weinzierl, 2008).

디코더는 상대적으로 간단한 설정이다. 처음에, 수신된 비트 스트림은 디멀티플렉서에 의해 다시 신호 데이터와 제어 파라미터들로 세분된다. 그 후에, 엔트로피 디코딩과 역 양자화가 실행된다. 제어 파라미터들은 여기서 유용한 데이터의 역 양자화를 제어한다. 이러한 방법으로 획득된 부대역 신호들은 그리고 나서 광대역 펄스 코드 변조 신호를 재구성하기 위하여 합성 필터 뱅크로 제공된다(Zolzer, 2005). 음향심리학적 오디오 디코더의 각각의 블록 회로 다이어그램이 도 24에 도시된다.

다수의 종래 신호 변환들이 아래에 설명될 것이다. 많은 오디오 인코더들에서의 양자화가 주파수 도메인 내의 인간들의 지각을 설명하는 지각 모델을 기초로 하기 때문에, 인코딩되려는 신호를 주파수 도메인으로 전달하는 것이 또한 필요하다. 이를 위하여 서로 다른 특징들을 갖는 다수의 변환과 적용 분야들이 존재한다. 오디오 인코딩에 적절한 변환들이 아래에 표시될 것이며 필터 뱅크의 설정이 논의될 것이다.

푸리에 변환은 신호의 고조파 구조(harmonic structure)를 분석하기 위한 가장 중요한 방법이다. 이는 푸리에 분석의 일부이고 이를 처음으로 도입한 프랑스 수학자이자 물리학자인 Jean-Baptiste-Joseph Fourier(1768-1830) 이후에 명명되었다. 푸리에 변환은 시간 신호를 주파수 도메인 내의 그것의 표현에 전달하기 위한 함수이다. 무엇보다도, 이는 선형 시불변(linear temporarily invariant, LTI) 시스템들의 실행을 설명하고 이를 예측할 수 있도록 하기 위하여 사용된다(Burrus 및 Parks, 1985). 따라서, 이는 예를 들면 음향학 및 인간 청각의 특징들에서 매우 중요하다. 푸리에 변환의 기본 과정은 시간 신호의 사인과 코사인 진동의 가중 합계로의 분해이다. 비주기적 연속 신호들을 위하여, 이는 다음과 같이 계산된다(Bosi 및 Goldberg, 2003):

(2.1)

여기서, x(t)는 시간 도메인 내의 분석되려는 신호이고 X(f)는 주파수 도메인 내의 각각의 푸리에 스펙트럼이다. 비록 실제 신호가 변환되지만 결과는 복잡하다는 것에 유의하여야 한다. 방정식 2.2에서 오일러 관계식(Eulerean relation)을 사용하여, X(f)의 실수 부분은 x(t)의 코사인 항들과 상응하고 허수 부분은 사인 성분들과 상응한다는 것을 나타낼 수 있다. 다음의 방정식을 사용하여:

e^- ^j2 ^π ^ft = cos(2πft) - jsin(2πft) (2.2)

방정식 2.1의 결과는 다음과 같으며:

(2.3)

(2.4)

다음을 야기한다:

X(f) = Re{X(f)} + jIm{X(f)} (2.5)

사인과 코사인은 그것들의 위상에서만 서로 다르기 대문에, 신호의 위상은 상응하는 항들의 비율로부터 완결될 수 있다. 다음이 적용된다:

(2.6)

및:

(2.7)

(2.8)

따라서, ｜X(f)｜는 절대 값 주파수 응답으로서 언급되고 φ(f)는 위상 주파수 응답 또는 간단하게 위상으로서 언급된다.

역 푸리에 변환(방정식 2.9)에 기인하여, 변환된 신호는 다시 시간 도메인 내의 그것의 원래 표현에 전달된다. 푸리에 변환과 그것의 역은 상수 인자 및 지수 함수의 부호가 다르다(Burrus 및 Parks, 1985).

(2.9)

이산 푸리에 변환이 아래에 더 상세히 설명될 것이다.

실제로, 푸리에 변환을 사용할 때 디지털 컴퓨터들에서 문제점들이 발생한다. 한편으로, 이는 시간 값들의 무한 수만이 처리될 수 있다는 사실에 기인하고, 다른 한편으로, 주파수 변수가 또한 시간 변수를 제외하고 분리되어 샘플링되어야만 한다. 이러한 문제점들의 해결책이 이산 푸리에 변환(DFT)이다. 이산 푸리에 변환을 사용하여, 유한의, 이산-시간 신호가 이산의, 주기적 스펙트럼에 전달된다. 이는 이산 푸리에 변환이 디지털 신호 처리에서 가장 중요한 변환 중의 하나라는 것을 의미한다. 이산 푸리에 변환의 기원은 푸리에 변환에서 발견되며, 정확한 편차가 발견될 수 있다(Lochmann, 1990). 길이(N)의 이산-시간 신호(x[n])의 이산 푸리에 변환은 다음과 같이 정의된다(Burrus 및 Parks, 1985):

(2.10)

유사하게, 역 이산 푸리에 변환(IDFT)은 다음과 같으며:

(2.11)

복소 회전 페이저(complex rotating phasor, W)는 다음과 같다:

(2.12)

따라서, X[k]는 ∀k,n ∈ N을 갖는 x[n]의 이산의 주기적 스펙트럼이다. 스펙트럼의 주기 길이는 변환 길이(N)와 상응하고 정규화 주파수들은 간격([0,2π]) 내에 매핑된다.

실제 입력 신호들을 위하여, 이산 푸리에 변환은 중요한 특징을 갖는다. 여기서, N 독립적 주파수 계수들은 일반적인 경우에서 흔히 있는 경우지만 여기서는 계산되지 않고 그것의 반만이 계산된다. 이러한 특징은 바람직하게는 데이터의 저장 및 전송을 위하여 사용될 수 있다. 재변환을 위하여, 다음의 상관관계를 사용하여 제2(N/2) 값들이 계산된다(Rao 및 Yip, 2001):

X[N - k} = X[k]^* (2.13)

방정식 2.13에서의 연산자(*)는 복소 공액(complex conjugate)을 특징으로 한다. 따라서, X[k]*는 X[k]를 위한 값들의 복소 공액 시퀀스이다.

이산 푸리에 변환과 역 이산 푸리에 변환의 계산 복잡도는 N² 복소수 곱셈들과 덧셈들이다. 계산할 때 대칭들이 사용될 때, 필요한 계산 단계들의 수는 N｜dN으로 감소되고 복잡도는

과 상응한다. 그러나, 고속 방법들로, 변환 길이(N)는 2의 제곱과 상응하여야만 한다. 고속 푸리에 변환은 FFT로서 언급된다(Kiencke 및 Jakel, 2005).

이산 푸리에 변환은 데이터 압축의 분야에서 회복된 수용을 갖지 않는다. 이산 푸리에 변환은 상당한 단점은 높은 계산 복잡도 및 스펙트럼 내에 포함된 중복이다. 비록 이산 푸리에 변환을 위하여 효율적인 방법들, 즉 고속 푸리에 변환이 존재하나, 결과는 항상 복합 스펙트럼일 것이다. 이는 값들의 N 복소수 쌍들이 N 변환 값들로부터 계산된다는 것을 의미한다. 게다가, 제 1 N/2 스펙트럼 값들만이 새로운 정보를 포함한다.

이산 코사인 및 사인 변환들이 아래에 설명될 것이다.

이산 코사인 변환(DCT)은 앞서 언급된 이산 푸리에 변환의 문제점들의 해결책이다. 이산 코사인 변환은 실제, 이산, 선형 및 직교 변환(orthogonal transform)이다. 이러한 특징들 때문에, 이는 디지털 데이터 압축에서 가장 빈번하게 사용된다(Britanak 등, 2007).

이산 코사인 변환은 이산 삼각(trigonometric) 변환이다. 대체로, 8가지 이산 코사인 형태가 그것들 사이에 차별화된다. 그것들의 에지 연속(edge continuation)에 따라, 그것들은 짝수 및 홀수 변환들 및 형태들 Ⅰ, Ⅱ, Ⅲ, Ⅳ로 세분된다. 그러나, 디지털 신호 처리를 위하여, 짝수 형태의 이산 코사인 변환만이 중요하다. 이들에 아래에 열거된다(Rao 및 Yip, 2001):

(2.14a)

(2.14b)

(2.14c)

(2.14d)

여기서:

(2.15)

이러한 형태들 각각은 인코딩에서 그것의 특정 적용을 갖는다. 이산 코사인 변환-Ⅱ는 주로 이미지 데이터의 변환으로서 사용된다. 문헌은 이를 설명되는 이산 변환의 첫 번째 형태로서 간주한다. 이는 일반적으로 용어 "이산 코사인 변환"이 이산 코사인 변환-Ⅱ를 언급한다는 것을 의미한다(Ahmed 등, 1974). 전인자(pre-factor)를 제외하고, 이산 코사인 변환-Ⅲ은 이산 코사인 변환-Ⅱ의 역 변환이고 반대도 마찬가지이다. 오디오 인코딩을 위하여, 이산 코사인 변환-Ⅳ가 특히 중요하다. 이는 변형된 이산 코사인 변환의 기준이다.

이산 코사인 변환의 중요한 특징들을 설명할 수 있도록 하기 위하여, 이산 푸리에 변환과 이산 코사인 변환 사이의 상관관계가 아래에 설명될 것이다. 앞에 도시된 것과 같이, 이산 푸리에 변환은 길이(N)의 실제 값 신호로부터 N/2 독립적 주파수 계수들만을 계산한다. 반대로, 이는 N 스펙트럼 값들을 획득하기 위하여 시간 도메인 내의 N/2 값들이 필요하다는 것을 의미한다. 그러나, 만일 N 시간 값들이 이용가능하면, 신호는 적절하게 계속되어야만 한다. 전체 신호의 반사/미러링(mirroring)에 의한 대칭적 확장이 여기서 적절한 것으로 여겨진다. 확장된 신호는 따라서 2N의 기간 길이에서 자체로 반복하는 것으로 여겨진다. 이는 단축 신호를 갖는 이산 푸리에 변환의 스퓨리어스 누설 효과(spurious leakage effect)가 억제된다는 점에서 바람직하다(Kiencke 및 Jakel, 2005).

길이(N)의 어떠한 실제 값(x[n])이 대칭적으로 확장하고, 결과는 다음과 같으며:

(2.16)

여기서 0≤n≤2N-1이다. 12의 길이는 따라서 2N이다. 방정식 2.12와 함께 2.10으로부터의 이산 푸리에 변환은 그리고 나서 이러한 신호에 적용되고 전환된다(Rao 및 Yip, 2001). 상세한 편차가 별첨 1.1에서 발견된다. 다음이 적용된다:

(2.17)

(2.18)

이러한 결과를 방정식 2.14b에서의 이산 코사인 변환-Ⅱ와 비교할 때, 이러한 두 가지 방정식은 단지 위상 항(

)만이 다르다는 것을 알 수 있다. 위상 항이 신호 독립적이고 어떠한 정보도 포함하지 않기 때문에, 이는 이산 코사인 변환을 계산할 때 무시될 수 있다(Rao 및 Yip, 2005). 이산 코사인 변환-Ⅰ을 위하여, 유사한 상관관계가 나타날 수 있으나, x[n]의 서로 다른 신호 연속성을 사용한다. 이산 코사인 변환-Ⅳ는 그때 위상 코사인 변환-Ⅱ의 기본 함수의 위상 회전으로부터 야기한다. 이를 위한 상세한 편차가 발견될 수 있다(Rao 및 Yip, 2001).

일부 결론들이 이러한 결과로부터 도출될 수 있다. 처음에, 이산 코사인 변환은 이산 푸리에 변환과 비교하여, 순수한 실제 변환인 것을 알 것이다. 이로부터 두 가지 장점을 야기한다. 첫 번째로, 계산을 위하여 어떠한 복소수 곱셈과 덧셈도 실행될 필요가 없으며, 두 번째로, 데이터를 저장하기 위하여 저장 공간의 단지 반만이 필요한데 그 이유는 값들의 어떠한 복소수 쌍들도 존재하지 않기 때문이다. 게다가, N 독립 주파수 계수들을 계산하기 위하여 이산 코사인 변환이 변환을 위하여 정확하게 N 값들을 필요로 한다는 것이 매력적이다. 주파수들을 모두 간격([0, π]) 내에 존재한다. 이산 푸리에 변환과 대조적으로, 실제 값 입력 신호들을 위한 스펙트럼 내에 포함된 중복은 사라졌고 따라서 주파수 해상도는 두 배만큼 높다. 그러나, 이산 코사인 변환 스펙트럼이 절대 값(또는 크기) 및 위상에 대하여 변환될 수 없는 것이 단점이다. 부가적으로, 이산 코사인 변환 기초 함수(예를 들면, 방정식 2.14a 내지 2.14d)와 대응하지만 거기에 대하여 위상이 90도 만큼 회전되는 주파수들이 신호 내에 포함되는 상황이 일어날 수 있다. 이러한 주파수들은 이산 코사인 변환에 의해 표현되지 않는데, 즉 각각의 이산 코사인 변환 계수는 제로이다. 이러한 이유들 때문에, 이산 코사인 변환은 효율적이고 고속 데이터 압축을 위하여 상당히 적합하나, 신호 분석을 위해서는 덜 적합하다(Malvar, 1992).

이산 코사인 변환 이외에, 이산 사인 변환(DST)이 존재한다. 대체로, 그것들 사이에 8가지 형태의 이산 사인 변환이 구별된다. 여기서는 이산 사인 변환-Ⅳ만이 중요하다. 그것의 형태와 특징들과 관련하여, 이는 이산 코사인 변환-Ⅳ와 상응한다(Rao 및 Yip, 2001).

(2.18)

이산 코사인 변환-Ⅳ과 이산 사인 변환-Ⅳ 모두를 사용하여 신호가 변환될 때, 두 개의 실제 스펙트럼의 조합에 의해 형성되는 복합 스펙트럼은 다시 절대 값과 위상에 대한 정보를 포함한다. 여기서 주파수 해상도는 여전히 이산 푸리에 변환에서보다 두 배만큼 높은데, 이는 N 주파수들이 간격([0, π]) 내에 매핑되는 것을 의미한다(Malvar, 1992).

긴 오디오 신호들의 신호 처리를 위하여, 전체로서 신호를 변환하는 것은 가능하지 않다. 한편으로, 여기서 계산 복잡도는 엄청나게 증가하는데 그 이유는 또한 이산 코사인 변환을 계산하기 위하여 N² 계산 연산들이 필요하기 때문이다. 다른 한편으로, 실시간으로 신호를 처리하는 것이 가능하지 않은데 그 이유는 전체 데이터 스트림의 전송은 신호가 재구성될 수 있을 때까지 항상 기다려야만 하기 때문이다. 결론적으로, 신호가 블록들로 세분되는 것이 필요하다. 이 경우에 있어서, 이산 코사인 변환은 이른바 블록 변환으로서 적용된다(Rao 및 Yip, 2001). 블록 지수(b∈N)를 사용하여, 방정식 2.14로부터의 이산 코사인 변환-Ⅳ를 위하여 다음이발생한다:

(2.19)

x[n]의 신호 길이는 bN과 상응한다. 블록 변환으로, 양자화에 의해 블록 아티팩트(block artefact)들이 발생한다. 이러한 형태의 아티팩트들이 인식될 수 있는 알려진 예가 JPEG 압축 방법이다. 블록 아티팩트들은 주기화(periodizing)를 위하여 실행되려는 에지 연장선들로부터 기원한다. 그것들은 원래 추정된 신호 연속성들과 상응하지 않는다(예를 들면, 방정식 2.16). 결과들은 주파수 도메인 내에서 고주파수를 향하여 에너지를 이동시키는 블록 한계들 내의 점프(jump)들이다(Malvar, 1992). 오디오 신호 내의 점프들은 크래클(crackle)들로서 지각될 수 있다. 인간 청각은 그러한 아티팩트들에 매우 민감하다. 따라서, 그것들은 절대적으로 방지되어야만 한다.

변형 이산 코사인 변환이 아래에 설명될 것이다.

변형 이산 코사인 변환(MDCT)은 오디오 압축을 위한 중심 변환이다. 그 중에서도, 이는 mp3, 고급 오디오 코딩(AAC) 및 돌비 디지털(Dolby Digital, ac-3)에서 사용된다. 변형 이산 코사인 변환은 실제, 이산 선형 및 직교 변환이고 이산 코사인 변환-Ⅳ의 변형이다. 이는 다음과 같이 정의된다(Rao 및 Yip, 2001):

(2.20)

이산 코사인 변환-Ⅳ와 비교하여 변형 이산 코사인 변환의 장점은 블록 아티팩트들의 방지이다. 이는 주로 일부 연속적인 블록들의 오버래핑에 의해 달성될 수 있다. 이러한 형태의 변환은 또한 겹침 직교 변환(lapped orthogonal transform, LOT)로 알려져 있다(Malvar 및 Staelin, 1989).

중복은 중첩-가산(overlap-add, OLA) 방법에 의해 다시 제거될 수 있다. 따라서, 역 변환 내에서 형성하는 블록들은 50%까지 중첩되고 가산되며, 이러한 과정은 중첩-가산으로서 언급된다.

변형 이산 코사인 변환의 주파수 해상도는 윈도우 함수와 함께 입력 시퀀스(x[n+bN])을 가중함으로써 더 향상될 수 있다. 방정식 2.20에서, 윈도우는 전체 신호로부터 현재 블록(b)을 클리핑하는(clipping) 직사각형 함수와 상응한다. 주파수 도메인에서, 이는 si 함수를 사용하는 콘볼루션(convolution, 폴딩)과 상응한다. si 함수의 빈약한 저지 대역 감쇠는 이러한 윈도우 함수를 적용함으로써 향상될 수 있고 따라서 증가된 주파수 선택성이 달성될 수 있다. 변형 이산 코사인 변환이 완벽하게 재구성될 수 있도록 하기 위하여, 길이(2N)의 윈도우 함수(w[n])는 프린슨-브래들리(Pricen-Bradley condition)들을 만족시켜야만 한다(Princen 등, 1987):

w[n] = w[2N-1-n] (2.21a)

w²[n] = w²[n+N] = 1 (2.21b)

이러한 조건들을 만족시키고 충분한 저지 대역 감쇠를 나타내는 간단한 윈도우는 사인 반파장 윈도우(sine half wave window)이다. 이는 그중에서도, mp3 및 고급 오디오 코딩에서 사용되고 다음과 같이 정의된다(Malvar, 1992):

(2.22)

윈도우 함수(w[2N-1-n])를 방정식 2.20에 삽입함으로써, 변형 이산 코사인 변환의 또 다른 중요한 특징이 인식될 수 있다. 결과는 변조된 윈도우 함수(w[n])를 사용하는 x[n+bN]의 이산 콘볼루션과 상응한다. 따라서, ∀k∈[0,N-1]을 위하여, 다음이 발생한다(Schuller 및 Smith, 1996):

(2.23)

따라서, 변형 이산 코사인 변환은 블록 변환으로 보일 수 없을 뿐만 아니라 변조된 필터 뱅크로도 보일 수 없다(Malvar, 1992). 따라서, 윈도우 함수는 코사인 커널(cosine kernel)에 의해 변조되고 따라서 필터 뱅크의 주파수 대역들을 표현하는 로-패스(low-pass) 프로토타입 유한 임펄스 응답(FIR) 필터와 상응한다. 이의 결과는 입력 시퀀스(x[n+bN])가 정확하게 N 부대역들로 분해되는 것이다. 시간 도메인 에일리어싱(TDA) 특징과 관련하여, 변형 이산 코사인 변환은 이른바 "임계적으로 샘플링된 필터 뱅크"의 전제조건들을 충족시킨다.

그러한 임계적으로 샘플링된 필터 뱅크가 도 25에 도시된다. 특히, 도 25는 n_d 샘플들의 시스템 지연을 갖는 N-대역 임계적으로 샘플링된 완전한 재구성(PR) 필터 뱅크를 도시한다. 그러한 필터 뱅크들은 오디오 인코딩을 위하여 특히 중요한데 그 이유는 그것들이 가장 적은 수의 샘플들로 가능한 한 정확하고 완전하게 신호를 기술하기 때문이다(Rao 및 Yip, 2001).

기호 ↓N은 인자(1/N)에 의한 샘플 비율의 감소와 상응하고 ↑N은 인자(N)에 의한 증가와 상응한다. 합성 필터 뱅크(

) 이후의 신호는 n_d 샘플들의 고정 지연을 제외하고는, 분석 필터 뱅크 이전의 입력 신호(x[n])와 동일하다. 변형 이산 코사인 변환의 경우에. h_k[n]은 변조된 윈도우 함수(w_k[n])이다. h_k[n]이 완전 재생 조건들을 충족시키기 때문에, 분석 필터들(h_k)은 합성 필터들(g_k)과 동일하다.

수학적 관점으로부터, 벡터 매트릭스 회전에서, 지금까지 언급된 모든 변환을 포함하는 선형 방정식 시스템들을 공식화하는 것이 적합하다. 길이(bN)의 신호(x[n])는 열 벡터(column vector,

)로서 표현된다. 연산자(T)는 여기서 전위(transposition)를 특징짓는다. 블록의 형성은 매트릭스의 모든 열이 x[n]의 블록을 포함하는 매트릭스로서 표현될 수 있다.

(2.24)

변환 규칙은 또한 매트릭스로서 표현될 수 있다. 변조된 윈도우 함수들은 여기서 매트릭스의 라인들을 형성한다. ∀k∈[0.N-1], ∀k∈[0.2N-1]을 위하여, 다음이 적용된다:

(2.25)

의 변형 이산 코사인 변환을 계산할 수 있도록 하기 위하여,

의 블록 구조는 시간 도메인 에일리어싱을 위하여 50% 오버랩에 의해 확장되어야만 한다. 따라서, 변형 이산 코사인 변환은 다음과 같이 작성될 수 있다:

(2.26)

여기서:

(2.27)

의 모든 열은

내의 지수(b)를 갖는 각각의 블록의 변형 이산 코사인 변환 스펙트럼을 형성한다.

블록을 계산하기 위하여, 변형 이산 코사인 변환의 이러한 형태는 2N2 곱셈들과 덧셈들을 필요로 한다. 그러나, 계산 복잡도는 상당히 감소될 수 있다.

따라서, 도 25의 필터 뱅크를 등가 다위상(equivalent polyphase) 필터 뱅크로 전달하는 것이 필요하다(도 26 참조). 다위상 표현과 z-변환을 사용하여, 변형 이산 코사인 변환 같은, 멀티레이트 시스템(multirate system)들이 더 광범위하게 분석될 수 있다.

유한 임펄스 응답 필터(h[n])는 필터의 길이가 M의 정수 배수와 상응할 때 항상 M∈N 위상들로 세분될 수 있다. h[n]의 m번째 위상(p_m[n])은 z^-m에 의한 지연(n[]n) 및 인자 M에 의한 샘플 레이트의 감소에 의해 생산된다(Malvar, 1992). 다음이 적용된다:

p_m[n] = h[nM + m] (2.28)

분해 및 z-변환을 사용하여, 필터(h[n])는 다음과 같이 표현될 수 있다(Malvar, 1992):

(2.29)

(2.30)

덧셈 기호 대신에, 여기서는 또한 벡터 기호가 바람직하다. 방정식 2.30은 따라서 N차원 벡터로서 표현될 수 있다:

(2.31)

여기서:

(2.32)

이러한 다위상 분해는 그리고 나서 변형 이산 코사인 변환 필터 뱅크의 각각의 필터에 적용될 수 있다. 결과는 도 26의 이전에 언급된, 필터 뱅크의 등가 다위상 표현이다(Schuller 및 Smith, 1996). 따라서, 도 26은 등가 N-대역 임계적으로 샘플링된 완전 재생 다위상 필터 뱅크를 표현한다.

변형 이산 코사인 변환 및 시간 도메인 에일리어싱 특징에서의 대칭성을 사용하여, 분석 및 합성 다위상 필터 매트릭스(

및

)은 각각 약하게 점유된 폴딩(콘볼루션) 매트릭스 및 변환 매트릭스로 세분된다(Schuller 및 Smith, 1996). 폴딩 매트릭스들(

및

)은 여기서 z-도메인 내의 다항들로서 윈도우 함수(w[n])의 계수들을 갖는 다이아몬드 구조를 나타낸다. 그것들은 윈도우 매트릭스 및 지연 매트릭스로 더 세분될 수 있다:

(2.33a)

(2.33b)

폴딩 매트릭스들의 정확한 형태 및 스플리팅(splitting)은 아래에 더 나타낼 것이다. 변환 매트릭스들은 이산 코사인 변환-Ⅳ 매트릭스와 상응한다:

(2.34a)

(2.34b)

이러한 매트릭스들을 사용하여, 블록들(

)로 세분되는 입력 신호의 변형 이산 코사인 변환 스펙트럼은 다음과 같이 계산된다(Schuller 및 Smith, 1996):

(2.35)

여기서 역 변환을 위하여 다음이 적용된다:

(2.36)

이러한 해결책은 방정식 2.26에 따른 변형 이산 코사인 변환의 계산과 비교하여 몇몇 장점을 제공한다. 첫 번째로, 시간 도메인 에일리어싱 형성이 더 쉽게 식별될 것이다. 방정식 2.33a에서의 폴딩 매트릭스의 다위상 표현으로, 과정은 블록(b-1)의 가중된 신호 부분들을 현재 블록(b)에 넘겨지는 것으로 해석될 수 있다. 이러한 신호 부분들을 더함으로써, 시간 도메인 에일리어싱이 형성된다. 다위상을 사용하여 변형 이산 코사인 변환을 계산하는 가장 큰 장점은 계산 복잡도가 상당히 감소된다는 것이다.

사각형의 이산 코사인 변환-Ⅳ 매트릭스와 드물게 점유된 폴딩 매트릭스를 사용함으로써, 계산 복잡도는 N(N=2) 곱셈들 및 덧셈들로 감소된다. 고속 푸리에 변환과 유사하게, 이산 코사인 변환의 고속 구현을 사용함으로써, 필요한 연산의 수는 N(logN+2)로 감소될 수 있고 따라서 복잡도는

로 감소된다(Rao 및 Yip, 2001). 이러한 이유들 때문에, 변형 이산 코사인 변환은 여기서는 다위상 접근법에 따라 구현되는 것으로 고려된다.

오디오 신호 처리에 있어서, 저주파수의 신호를 더 높은 주파수로 이동시키는 것이 필요할 수 있으며, 상기 주파수 이동은 자유롭게 선택가능하고 정확하여야만 한다. 신호의 높은 주파수들을 복원하도록 시도하는 오디오 인코더들은 이러한 문제점에 직면한다. 현대 오디오 인코딩 기술들은 오디오 데이터의 더 효율적인 압축을 위하여 대역폭 확장의 방법들을 사용한다. 인간 청각의 음향심리학적 특징들 외에, 데이터 감소를 위하여 고주파수 부분들에 대한 저주파수 부분들의 상관관계가 사용된다.

오디오 인코딩에 의해 데이터 비율을 감소시키는 다양한 방법에도 불구하고, 현재 오디오 인코더들은 낮은 비트 레이트들이 바람직할 때 그것들의 한계들에 도달한다. 특히 이 경우에 있어서 음향심리학적 방법이 사용은 바람직하지 않은 신호 변형들을 생산한다. 이는 재생된 오디오 신호의 손실 높이, 흐릿한 트랜지언트 또는 인공적 히싱(hissing) 같은, 간섭 아티팩트들에서 볼 수 있다. 그러나 많은 적용의 경우에 있어서, 제한된 전송 대역폭만이 이용가능하다. 대역폭 확장(BWE)은 이러한 문제점들을 위한 해결책을 제공한다. 일반적으로, 대역폭 확장은 원래의 대역폭을 다시 획득하기 위하여 어떠한 대역-제한된 오디오 신호가 스펙트럼으로 확장될 수 있는지를 사용하는 다수의 방법을 통합한다. 대체로, 대역폭 확장을 위하여 그것들 사이에 4가지 범주의 방법이 구별된다(Larsen 및 Aarts, 2004). 이것들이 도 27에 그래프로 도시된다.

도 27은 대역폭 확장의 범주들을 도시한다(Larsen 및 aarts, 2004). 도 27에서, 저주파수 음향심리학적 대역폭 확장이 상단 왼쪽에 도시된다. 도 27에서, 고주파수 음향심리학적 대역폭 확장이 상단 오른쪽에 도시된다. 도 27은 하단 왼쪽에 저주파수 대역폭 확장을 도시한다. 게다가, 도 27에서 고주파수 대역폭 확장이 하단 오른쪽에 도시된다. 대역 'a"(파선)의 에너지는 대역 "b"(점선)로 이동된다.

오디오 인코딩을 위하여 범주 Ⅲ(도 27에서 하단 오른쪽)만이 유용하다. 이른바 "고주파수 대역폭 확장"으로, 스펙트럼의 고주파수 범위를 재구성하기 위하여 대역-제한된 신호 내에 존재하는 주파수들이 사용된다. 오디오 신호들의 대역폭 확장을 위하여 그러한 방법을 사용하는 개념은 신호의 고주파수 및 저주파수 부분들 사이에 강력한 상관관계가 존재한다는 사실을 기초로 한다. 따라서, 존재하는 낮은 신호 부분들로부터 손실 고주파수들을 재구성하는 것이 가능하다(Larsen 및 aarts, 2004). 어떠한 대역-제한된 신호가 고주파수 대역폭 확장에 의해 그것의 원래 대역폭으로 확장될 수 있는지를 사용하여, 현재 기술들과 방법들이 아래에 설명될 것이다.

스펙트럼 대역 복제(SBR)는 그중에서도, 고효율 고급 오디오 코딩(HE-AAC)에서 사용되는 것과 같이, 종래 기술로부터 알려져 있다. 스펙트럼 대역 복제와 함께, 스펙트럼으로 인코더에 의해 제공되는 로-패스(low-pass) 신호를 확장하기 위하여 저주파수 및 고주파수 신호 부분들 사이의 상관관계들이 사용된다. 근봅적인 필터 뱅크의 저주파수 대역들은 손실 고 대역에 복제되고 스펙트럼 엔벨로프가 적용된다. 특히 낮은 컷오프(cutoff) 주파수들을 갖는, 이러한 복제 과정은 거칠기 및 음색의 바람직하지 않은 변화 같은 지각가능한 아티팩트들을 야기한다. 이것들은 주로 기저 대역 및 알고리즘으로 생산되는 고주파수 대역들 사이의 한계에서 스펙트럼의 고조파 연속성(harmonic continuation)에 의해 야기된다.

종래 기술의 대역폭 확장 오디오 인코더는 신호의 다위상 직교 미러 필터(pQMF) 부대역 분해를 사용하고 이러한 방법으로 높은 인코딩 효율을 보장한다[Eckstrand, 2002]. 이는 저주파수 대역들만을 전송함으로써 달성되며, 반면에 고주파수 부분들은 부가 정보 및 앞서 언급된 저 대역들의 주파수 이동을 사용하여 재구성된다.

현재의 스펙트럼 대역 복제는 대역폭 확장을 위한 가장 광범위한 방법이다. 그중에서도, 이는 고효율 고급 오디오 코딩 및 mp3PRO에서 사용된다. 스펙트럼 대역 복제는 현존하는 오디오 인코더들의 효율을 증가시키기 위한 목적을 갖는, 코딩 기술들에 의해 개발되어 왔다. 이는 인코더에 의해, 특정 에지 주파수(f_g) 아래의 주파수들만을 처리함으로써 달성된다. 언급된 실시 예들에서, mp3 및 고급 오디오 코딩 인코더들은 코어 인코더들로서 사용된다. 에지 주파수 위의 주파수들은 일부 파라미터들에 의해 기술된다. 달성되려는 품질에 따라, 이것들은 5 ㎑ 및 13 ㎑ 사이이다. 고주파수 부분들은 그리고나서 상기 부가 정보 및 디코딩된 대역-제한된 신호를 사용하여 수신기 내에서 재구성된다(Ekstrand, 2002).

도 28은 확장된 스펙트럼 대역 복제 인코더의 블록 회로 다이어그램을 도시한다. 입력 신호의 샘플 레이트는 감소되고 그 뒤에 실제 인코더에 제공된다. 동시에, 신호는 복합 직교 미러 필터 뱅크(QMF)에 의해 분석되고 에너지 계산이 실행된다. 사용되는 직교 미러 필터 뱅크는 64 부대역으로 구성된다. 스펙트럼 엔벨로프들을 추정하기 위하여 필요한 파라미터들은 이로부터 유래한다. 또 다른 파라미터들은 입력 신호의 스펙트럼 특징들에 반응하도록 허용한다. 스펙트럼 대역 복제를 인지함으로써, 이는 고주파수 대역의 생산에 의한 원래 및 합성된 고주파수(HF) 사이의 강력한 차이를 인식할 수 있다.

예를 들면, 컷오프 주파수 위의 뚜렷이 구별되는 개별 음향들이 신호 내에 존재할 때, 이것들은 부가적인 파라미터들에 의해 기술되고 다시 재구성된 신호로 제공될 수 있다. 생산된 부가 정보는 실제 오디오 데이터를 제외하고는, 발신 비트 스트림 내로 삽입된다(Larsen 및 Aarts, 2004).

도 29는 스펙트럼 대역 복제에 의해 확장된 각각의 디코더의 블록 회로 다이어그램을 도시한다. 대역-제한된 오디오 데이터는 디코더에 의해 디코딩되고 비트 스트림으로부터 제어 파라미터들이 추출된다. 그 뒤에, 오디오 데이터는 고주파수 부분들을 재구성하기 위하여 다시 직교 미러 필터 뱅크로 제공된다. 기저 대역은 이러한 필터 뱅크 내에서 복제되고 컷오프 주파수 위로 삽입된다(예를 들면, 도 30의 왼쪽).

도 30은 절대 값 주파수 응답을 개략적으로 도시한다. 따라서, 도 30은 스펙트럼 대역 복제-고주파수 부분 재구성을 개략적으로 도시한다. 도 30은 왼쪽 상에 기저 대역의 복제와 이동을 도시한다. 도 30은 오른쪽 상에 스펙트럼 엔벨로프의 조정 이후의 스펙트럼을 도시한다.

스펙트럼 대역 복제 인코더 내에서 생산되는, 스펙트럼 엔벨로프에 대한 정보는 복제된 스펙트럼의 엔벨로프를 원래의 엔벨로프와 맞추도록 사용된다. 전송된 제어 파라미터 및 각각의 직교 미러 필터 뱅크 대역의 에너지를 사용하여 적응이 수행된다. 만일 재구성된 스펙트럼의 특징들이 원래의 특징들과 다르면, 부가적으로 신호에 성조(tonal) 성분들 또는 잡음이 추가될 것이다(Larsen 및 Aarts, 2004). 도 30은 오른쪽 상에 적용된 재구성된 스펙트럼을 도시한다.

마지막으로, 대역-제한된 신호 및 재구성된 고주파수 신호가 병합되고 합성 필터 뱅크에 의해 시간 도메인으로 전달된다. 이러한 방법으로, 이제 재생할 준비가 된 대역폭 확장된 신호가 형성되었다.

이러한 형태의 대역폭 확장에서, 매우 독특한 고조파 구조의 높은 성조 신호들과 함께 문제점들이 발생한다. 비록 스펙트럼 대역 복제 방법이 스펙트럼의 성조 적응을 위한 기술들을 제공하더라도, 이것은 파괴된 고조파 구조를 복원하는데 충분하지 않다. 결과는 신호 내의 지각가능한 거칠기이다(Wilde, 2009). 이러한 아티팩트들은 청취자에 매우 불쾌하다. 이는 스펙트럼 대역 복제 디코더의 복제 과정으로부터 기원한다. 이는 신호의 고조파 미세 구조를 고려하지 않고 간단하게 기저 대역을 복제한다. 결과가 도 31에 도시된다.

도 31은 스펙트럼 대역 복제를 갖는 고조파 구조의 파괴를 도시한다. 도 31은 왼쪽 상에 원래의 광대역 스펙트럼을 도시한다. 도 31은 오른쪽 상에 스펙트럼 대역 복제 고주파수 부분 재구성 이후의 스펙트럼을 도시한다.

고조파들이 컷오프 주파수 위의 범위 내에서 원래의 스펙트럼에 대하여 이동되는 것이 분명하게 식별될 수 있다. 재구성된 고주파수 부분 스펙트럼은 고조파이나, 고조파 구조는 컷오프 주파수에서 부가적인 주파수 스윙(f_lag)에 의해 확산된다. 부가적으로, 고조파 서브-톤(sub-tone)들의 진폭 비율은 엔밸로프의 재구성에 의해 왜곡된다. 이러한 효과는 바람직하게는 악기에 의해 발생되는 것과 같이, 모든 고조파 신호와 함께 발생할 것이다.

예를 들면 피치 파이프(pitch pipe)와 같은, 고조파 신호들을 위하여, 스펙트럼 대역 복제 및 등가의 대역폭 확장 방법들은 예를 들면 성조 거칠기 및 불쾌한 음색과 같은, 바람직하지 않은 아티팩트들을 생산하는데, 그 이유는 신호의 고조파 구조가 완전하게 유지되지 않기 때문이다. 독특한 고조파 구조를 나타내는 신호들을 위하여, 스펙트럼 대역 복제를 적용할 때 거칠기 및 음색의 변화 같은, 바람직하지 않은 아티팩트들이 발생한다.

이것이 이러한 구조들을 포함하는 다음의 2가지의 시간-도메인 대역폭 확장이 개발된 이유이다: 위상 보코더-제어(phase vocoder-controlled) 고조파 대역폭 확장 및 특별한 측대역 변조를 사용하는 연속적 변조(CM) 대역폭 확장[Nagel 및 Disch, 2009], [Nagel 등, 2010]. 자유롭게 선택가능한 주파수들을 갖는 연속적 변조 때문에, 특히 연속적 변조 대역폭 확장은 뛰어난 고조파 복원을 달성한다.

비고조파 스펙트럼 연속성의 문제점을 방지하는 일부 대안의 대역폭 확장 방법이 존재한다. 이러한 방법들 중 2가지가 아래에 소개된다. 기본적으로, 이러한 방법들은 도 29의 스펙트럼 대역 복제 디코더의 고주파수 부분 발생기를 대체하고 따라서 단순한 복제 과정에 대한 대안을 표현한다. 스펙트럼 엔벨로프와 성조의 적응은 변하지 않은 채로 남아있다. 입력 신호가 시간 도메인 내에 존재하여야만 하기 때문에, 이러한 방법은 또한 대역폭 확장을 위한 시간 도메인 방법으로서 언급된다.

고조파 대역폭 확장(HBE)이 먼저 언급된다. 고조파 대역폭 확장은 고-피치 범위를 생산하기 위하여 위상 보코더를 사용한다. 스펙트럼은 위상 보코더를 적용함으로써 확장된다. 도 32의 왼쪽 상에 도시된 것과 같이, 기저 대역은 최대 신호 주파수(f_max)까지 확산되고 컷오프 주파수 및 최대 신호 주파수(f_max) 사이의 범위는 클리핑된다(clipped out). 스펙트럼은 그리고 나서 상기 부분과 기저 대역으로 구성된다(예를 들면, 도 32의 오른쪽). 엔벨로프는 또한 스펙트럼 대역 복제에서 수행되는 것과 같이 적용된다(Nagel 및 Disch, 2009).

도 32는 고조파 대역폭 확장-고주파 부분 재구성을 개략적으로 도시한다. 도 32는 왼쪽 상에 인자(2)에 의한 기저 대역의 확장을 도시한다. 도 32는 오른쪽 상에 스펙트럼 엔벨로프를 적용한 이후의 스펙트럼을 도시한다.

적분 확장 인자(σ∈N⁺)의 사용은 컷오프 주파수(f_g)가 고조파 구조를 변경하지 않는 것을 보장한다. 다음이 적용된다:

f_max = σ·f_g (3.1)

단점은 도 33에 도시된 것과 같이, 서브-톤들 사이의 거리가 스펙트럼의 확산에 의해 확장 인자로 변경된다는 사실이다. 게다가, 스펙트럼을 확산시키기 위하여 복잡한 계산이 필요하다. 이들 중에서 고-해상도 이산 푸리에 변환, 위상 적응 및 샘블 레이트 전환이 존재한다(Dolson, 1986). 오디오 신호가 블록들로 세분될 때, 이웃하는 블록들의 위상을 연속적으로 계속할 수 있도록 하기 위하여 부가적으로 중첩-가산 구조가 필요하다. 고도의 성조 신호들을 위하여, 위상 보코더 기술을 사용하여 매우 뛰어난 결과들이 달성될 수 있으나, 충격 신호(percussive signal)들에서 트랜지언트 블러(blur) 및 개별 트랜지언트 처리의 실행이 필요하다(Wilde, 2009).

도 33은 고조파 대역폭 확장을 갖는 고조파 구조를 도시한다. 도 33은 왼쪽 상에 원래의 광대역 스펙트럼을 도시한다. 도 33은 오른쪽 상에 고조파 대역폭 확장 고주파수 부분 재구성 이후의 스펙트럼을 도시한다.

연속적인 단일 측대역 변조가 아래에 설명될 것이다.

연속적으로 변조되는 대역폭 확장(CM-BWE)은 대역폭 확장을 위한 또 다른 시간-도메인 방법이다. 이러한 방법에서, 기저 대역은 단일 측대역 변조에 의한 주파수(f_mod)에 의해 변조되고 따라서 도 34에 도시된 것과 같이, 또 다른 스펙트럼 위치로 이동된다. 가변 변조 주파수는 대역폭-확장된 신호의 고조파 구조가 유지되는 것을 보장한다. 컷오프 주파수(f_g)보다 큰 변조 주파수들과 함께, 스펙트럼 내에 형성하는 갭(gap)은 잡음으로 채워져야만 한다(Nagel 등, 2010).

도 34는 연속적으로 변조되는 대역폭 확장 재구성을 개략적으로 도시한다. 도 34는 왼쪽 상에 주파수(f_mod)를 갖는 기저 대역의 변조를 도시한다. 도 34는 오른쪽 상에 스펙트럼 엔벨로프의 적응 이후의 스펙트럼을 도시한다.

도 34에 도시된 경우를 제외하고, 기저 대역이 또한 몇 번 변조되는 것이 필요할 수 있다. 그러한 경우에 있어서, 각각의 그 다음 다중 적분이 선택되는 모든 변조를 위하여 변조 주파수가 적용되어야만 한다(Nagel 등, 2010). 변조 이전에, 허용된 신호 주파수(fmax)가 변조 후에 초과하지 않도록 하기 위하여, 기저 대역은 변조 주파수에 따른 로-패스에 의해 필터링되어야만 한다. 이미 나타낸 방법들과 유사하게, 그 뒤에 스펙트럼 엔벨로프가 형성되고 조성이 적용된다.

도 35는 연속적으로 변조되는 대역폭 확장에 의해 확장된 신호 내에서 형성되는 것과 같은 고조파 구조를 도시한다. 도 35는 왼쪽 상에 원래의 광대역 스펙트럼을 도시한다. 도 35는 오른쪽 상에 연속적으로 변조되는 대역폭 확장 고주파수 부분 재구성 이후의 스펙트럼을 도시한다. 고조파 대역폭 확장에서와 같이, 연속적으로 변조되는 대역폭 확장은 스펙트럼 내에 고조파 서브-톤이 없다. 그러나, 이는 부정적인 방법으로 이목을 끌지 않는데, 그 이유는 고조파 구조 자체가 유지되기 때문이다.

이러한 방법이 갖는 단점은 단일 측대역 변조를 계산하는 것이다. 정확한 계산을 위하여 분석 신호, 즉 양성 주파수들만을 포함하는 신호가 필요하다. 그러한 신호를 계산하기 위하여 힐버트 변환기(hilbert transformer)가 필요하다. 이는 기본적으로 무한 임펄스 응답의 비-인과적 필터이다. 그러한 필터는 실현될 수 없고 단순화되어야만 한다. 그럼에도 불구하고 최소 필터 순서로 가능한 한 높은 저지 대역을 달성하기 위하여, 필터의 인과관계에 의해 신호에 무시할 수 없는 지연이 추가된다(Wilde, 2009).

그러나, 시간 도메인 내에 주파수 이동이 실현될 때, 이는 매우 복잡할 수 있다. 그에 반해 부대역 오디오 인코더의 부대역 도메인 내의 이동의 실현은 주파수 해상도가 필요한 주파수 이동을 위하여 너무 조잡하도록 야기할 수 있다.

바람직한 것은 오디오 신호들을 인코딩함으로써 필요한 디지털 데이터의 메모리 공간 또는 상기 데이터를 전송하는데 필요한 대역폭을 최소화하는 것이다. 동시에, 재생된 오디오 신호의 지각 품질은 CD 표준에 필적해야만 한다(16 비트의 양자화 깊이에서 샘플링 주파수 44100 ㎐). 따라서, 품질은 데이터 비율의 감소에서 최대화된다.

결론적으로, 본 발명의 목적은 부대역 도메인 내에서 자유롭게 선택가능한 주파수 이동들을 위한 향상된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1항에 따른 장치, 청구항 23항에 따른 방법 및 청구항 24항에 따른 컴퓨터 프로그램에 의해 달성된다.

오디오 입력 신호를 기초로 하여 주파수-이동된 오디오 신호를 생산하기 위한 장치가 제공된다. 복수의 제 1 부대역을 위하여, 오디오 입력 신호는 여기서는 하나 또는 몇몇 부대역 값들에 의해 표현될 수 있다. 장치는 인터페이스 및 주파수-이동 유닛(frequency-shifting unit)을 포함한다. 인터페이스는 오디오 입력 신호를 수신하도록 구성된다. 주파수-이동 유닛은 주파수 이동된 오디오 신호를 생산하도록 구성되며, 복수의 제 2 부대역을 위하여, 주파수 이동된 오디오 신호는 각각 하나 또는 몇몇 제 2 부대역 값들을 포함한다. 게다가, 각각의 제 1 및 제 2 부대역 값들은 하나의 각각의 위상 각에 대한 정보를 포함한다. 주파수-이동 유닛은 부가적으로 상기 제 2 부대역 값의 제 2 위상 각이 위상 각 차이에 의해 상기 제 1 부대역 값의 제 1 위상 각과 다를 수 있는 것과 같이 제 1 부대역 값들 중 하나를 기초로 하여 제 2 부대역 값들 중 하나를 생산하도록 구성되며, 위상 각 차이는 주파수-이동된 오디오 신호를 획득하기 위하여 어떠한 주파수 차이에 의해 오디오 입력 신호가 이동되는지를 나타내는 주파수 정보에 의존하고, 위상 각 차이는 제 1 부대역들 중 하나의 주파수 대역폭에 의존한다.

실시 예들은 대역폭 확장을 위한 향상된 개념들을 제공하며, 이러한 향상된 개념들은 뒤에 "고조파 스펙트럼 대역폭 확장" 또는 "HSBE"로서 언급된다. 주파수 도메인 내의 이러한 개발된 고조파 대역폭 확장은 바람직하지 않은 아티팩트들의 억제를 허용한다. 여기서 복제된 스펙트럼은 원래의 고조파 구조가 유지되는 것과 같이 변조된다. 다른 방법들과 대조적으로, 고조파 스펙트럼 대역폭 확장은 변형 이산 코사인 변환 도메인 내의 신호 표현을 기초로 할 수 있으며 따라서 효율적인 구현을 허용한다. 고조파로 정확한 대역폭 확장은 뒤따르는 변조를 갖는 스펙트럼 값들의 복제 과정에 의해 달성된다.

일 실시 예에 따르면, 오디오 인코더들에서 이미 실현된 변형 이산 코사인 변환의 부대역 도메인이 사용된다. 이러한 방법으로, 변환은 부가적인 복잡도 또는 지연을 야기하지 않는다.

부대역 대역폭의 짝수 다중 적분에 의해 신호가 이동될 때, 실시 예들에서 낮은 주파수들의 부대역 신호들이 상응하는 높은 주파수 대역들로 이동된다.

부대역 대역폭의 홀수 다중 적분에 의해 신호가 이동될 때, 실시 예들에서 복제되려는 부대역 신호들의 모든 제 2 샘플 값에 역 기호(시간의 방향에서, 블록 지수의 증가)가 제공된다. 이러한 방법으로, 주파수-이동되고 복제된 신호를 위하여 변형 이산 코사인 변환 필터 뱅크의 에일리어싱 취소 특성이 여전히 작동한다.

부대역 대역폭의 다중 비-적분에 의해 낮은 주파수들의 신호들이 이동될 때, 실시 예들에서 낮은 주파수들의 부대역들의 복소수 값의 버전이 생산되고, 이들의 카피(copy)가 만들어지며, 복소수 지수 함수에 의해 변조되며(곱해진다), 상기 복소수 지수 함수는 부대역 대역폭의 그 다음 다중 적분의 주파수의 차이와 상응하는 주파수이다(이는 균열된 부대역 대역폭 이동이다). 그러나, 이에 의해 변형 이산 코사인 변환 필터 뱅크의 에일리어싱 보상 특성이 영향을 받거나 또는 파괴된다.

결과로서 생기는 주파수 왜곡을 방지하거나 또는 감소시키기 위하여, 이웃하는 부대역 신호들 사이에 폴딩 같은 처리가 실행되며, 하나의 부대역 신호의 가중된 버전은 그것의 이웃 내의 부대역의 부대역 신호에 더하며. 따라서 이는 에일리어싱 성분의 역 기호를 나타내고, 따라서 에일리어싱은 보상되거나 또는 감소된다. 일 실시 예에서, 가중치들은 여기서 바람직하게 균열된 주파수 이동과 상응한 것과 같이 선택된다.

스펙트럼의 변조는 변형 이산 코사인 변환의 TDAC 특성을 위반하고, 그 결과는 에일리어싱 성분들이다. 이들을 제거하기 위하여, 실시 예들에서 에일리어싱 취소를 위한 유한 임펄스 응답 필터 구조가 제공된다. 이를 위하여 필요한 필터 임펄스 응답들은 연속적 근사화(successive approximation)에 의해 최적화되고 예를 들면, 룩-업(look-up) 테이블로서 저장된다.

그러나, 여기에 존재하는 개념들의 적용을 위하여, 인코딩 과정, 즉, 바람직하게는 음향심리학적 모델의 적용에 의한 데이터의 압축을 적용하는 것이 필요하지 않다.

제공되는 개념들은 이미 존재하는 대역폭 확장방법들을 기초로 하고 이를 향상시킨다. 이러한 새로운 방법을 사용하여, 일정한 저장 요구사항을 갖는, 재생되는 오디오 재료의 품질을 증가시키는 것이 가능하다. 인코딩 과정은 여기서는 영향을 받지 않으나, 디코더는 뒤에 개발된다. 개발된 방법은 고조파 대역폭 확장을 실현한다. 이는 고효율 고급 오디오 코딩에서 사용되는 것과 같이, 스펙트럼 대역 복제를 기초로 한다.

제공되는 본 발명의 효율적인 스펙트럼 대역 복제 개념들은 원래 스펙트럼의 고조파 구조를 유지하고 따라서 종래 스펙트럼 대역 복제 기술의 설명된 아티팩트들을 감소시킨다.

고조파 스펙트럼 대역폭 확장(HSBE)을 위한 개념들이 제공된다. 효율이 중요한 역할을 하기 때문에, 유한 임펄스 응답 필터들에 의해 아티팩트들을 억제하는데 사용되는 필터 뱅크에서 시작하는, 근본적인 신호 처리가 설명될 것이다.

여기서 본 발명의 고조파 스펙트럼 대역폭 확장은 고조파 구조를 지속하는 동안에 오디오 신호의 대역-제한된 스펙트럼을 확장하는 강력하고 효율적인 방법을 제공한다.

스펙트럼이 고조파로 정확한 방식으로 계속되도록 하기 위하여, 고조파 스펙트럼 대역폭 확장에 대한 다수의 문제점이 명심해야만 한다는 것이 설명될 것이다. 스펙트럼의 고조파 구조를 재구성하기 위한 일부 방법이 알려져 있더라도, 이는 그럼에도 불구하고 신규의 더 효율적인 기술들을 개발하는데 유용하다. 특히 고급 오디오 코딩 또는 통합 음성 및 오디오 코딩) 같은, 현대 오디오 인코더 구조들의 통합을 위하여, 일반적인 조건들에 대한 적용이 필수불가결하다.

연속적 고조파 스펙트럼 대역폭 확장의 필수 성분은 발생하는 스퓨리어스 성분들의 억제이다. 이것이 여기서는 이를 위하여 디자인된 기능의 방식 및 에일리어싱 취소의 최적화에 초점을 맞춘 정확한 이유이다. 적절한 유한 임펄스 응답 필터들을 선택함으로써 바람직하지 않은 신호 부분들이 상당히 감소될 수 있다는 것이 알려졌다. 따라서, 종래 기술의 필터링과 대조적으로, 이는 필터 임펄스 응답을 사용하여 중첩된 시간 신호가 아니고, 복소수 변형 이산 코사인 변환/변형 이산 사인 변환 계수들이다. 이러한 방법들이 발생하는 모든 에일리어싱 성분을 취소시킬 수 없더라도, 이는 일부 우세한 스퓨리어스 부분들을 제거하기에 충분하다.

그 외에도, 변형 이산 코사인 변환 계수들을 변형 이산 사인 변환 스펙트럼 값들로 변환하는 것이 고조파 스펙트럼 대역폭 확장의 또 다른 중요한 요소이다. 현대 오디오 인코더들은 변형 이산 코사인 변환 도메인 내에 독점적으로 작동한다. 신호는 그것의 스펙트럼 표현 내에서 충분히 정확하게 기술되나, 그럼에도 불구하고 이러한 정보는 고조파 스펙트럼 대역폭 확장을 사용하여 스펙트럼을 복제하는데 중분하지 않다. 위상 형태는 부가적인 변형 이산 코사인 변환 값들에 의해서만 변형될 수 있다. 여기서는 고정 지연을 사용하여, 종래의 변형 이산 코사인 변환 값들로부터 가능한 한 효율적으로 손실 변형 이산 코사인 변환 계수들의 계산을 허용하는 변환이 도입된다. 정확한 해결책 이외에도, 오류 발생이 쉬운, 그러나 자원 절약 대안들이 존재할 수 있다.

스펙트럼의 변조는 고조파 스펙트럼 대역폭 확장과 함께 중요하다. 이는 스펙트럼의 효율적인 복제를 위하여 두 가지 단계가 유용하다는 것을 나타낸다. 한편으로, 스펙트럼은 적분 변형 이산 코사인 변환 부대역들에 의해 이동되고, 다른 한편으로, 시간 해상도를 위하여 변형 이산 코사인 변환 부대역의 대역폭 내의 변조가 실행된다. CD 품질 내의 신호들을 위하여, 이러한 기술로 달성된 해상도는 약 0.5 ㎐이다. 이는 스펙트럼의 고조파 구조가 고도로 정확하게 복제될 수 있다는 것을 의미한다.

변조를 결정하기 위하여 필요한 래그 주파수는 바람직하게는 인코더에 의해 제공될 수 있다.

실시 예들에서, 주파수-이동된 신호를 생산하기 위하여 시스템, 장치 또는 방법 또는 컴퓨터 프로그램이 제공되고, 부대역 분해가 사용되며, 균열된 부대역 대역폭 이동들을 위하여, 부대역들이 복소수 지수 함수에 의한 곱셈에 의해 곱해진다.

실시 예들에서, 에일리어싱 성분들은 이웃하는 부대역 신호들 사이에 버터플라이 처리(butterfly processing)를 실행함으로써 보상되거나 또는 적어도 감소된다.

또 다른 실시 예들에 따르면, 주파수 이동은 오디오 인코딩 시스템의 부대역 도메인 내에서 실행된다.

실시 예들에서, 주파수 이동은 오디오 인코딩 시스템 내의 신호의 주파수 표현의 손실 주파수 부분들 및/또는 스펙트럼 홀(spectrum hole)들을 충족시키도록 사용된다.

실시 예들에 따르면, 주파수 이동은 재생 속도를 변경하기 위한 샘플 레이트 전환과 조합하여 사용되고, 피치는 그대로 남아있다.

바람직하게는 처음에 주파수 이동에 의해 주파수를 증가시키고 그리고 나서 재생 속도를 감소시킬 때, 오디오 데이터의 특정 양의 재생 시간은 일정한 피치와 함께 길러질 것이다. 다른 한편으로, 바람직하게는 처음에 주파수 이동에 이해 주파수를 감소시키고 그리고 나서 오디오 데이터의 특정 양의 재생 시간을 증가시킬 때, 재생 시간은 일정 피치와 함께 짧아질 것이다.

또 다른 실시 예들에서, 음악 신호를 미세조정하기 위한 개념들이 사용된다. 제공되는 개념들은 바람직하게는 특히 오디오 조율을 위한 바람직한 방식으로 사용될 수 있다. 예를 들면, 디지털 음악 신호의 단지 작은 피치 변화들, 즉 바람직하게는, 부대역의 대역폭보다 작은, 바람직하게는 변형 이산 코사인 변환 또는 직교 미러 필터 뱅크 부대역보다 작은 주파수 변화들만이 실현될 때, 특히 장점인 개념들이 제공된다.

실시 예들에 따르면, 개념들은 스펙트럼의 작은 주파수 부분들의 복제 또는 주파수 이동에 의해 스펙트럼의 더 높은 주파수들을 생산하도록 사용된다.

실시 예들에서, 부대역 분해는 변형 이산 코사인 변환(MDCT)이다.

또 다른 실시 예들에서, 부대역 분해는 다위상 직교 미러 필터 뱅크(QMF)이다.

위의 실시 예들에서 제공되는 개념들은 그중에서도 시스템, 장치 또는 방법 또는 컴퓨터 프로그램 모두로서 실현될 수 있다.

고조파 스펙트럼 대역폭 확장의 실행가능한 구현은 알고리즘들과 기능적 원리들을 기초로 하여 형성되었고 개발되었다.

매트랩(Matlab) 또는 프로그래밍 언어 C 또는 또 다른 프로그램 언어에서의 실시간 구현이 가능하다. 이는 제공되는 개념들이 실시간 시스템에서 적용될 수 있다는 것을 의미한다. 또한 스펙트럼 대역 복제의 경우와 마찬가지로, 재생되는 신호의 품질은 이러한 방법들을 사용하여 증가될 것으로 기대된다.

제공되는 개념들에 따른 스펙트럼의 변조의 복잡도는 매우 뛰어난 값을 제공한다. 계산 복잡도는 여기서는 주로 변형 이산 코사인 변환-변형 이산 사인 변환 변환에 의존한다.

게다가, 오디오 입력 신호를 기초로 하여 주파수-이동된 오디오 신호를 생산하기 위한 방법이 제공되는데, 복수의 제 2 부대역을 위하여, 오디오 입력 신호는 하나 또는 몇몇 제 1 부대역 값들에 의해 표현될 수 있다.

방법은:

오디오 입력 신호를 수신하는 단계, 및

주파수-이동된 오디오 신호를 생산하는 단계를 구비하되, 복수의 제 2 부대역을 위하여, 주파수-이동된 오디오 신호는 하나 또는 몇몇 제 1 부대역 값들에 의해 표현되는, 단계를 포함하며,

각각의 제 1 및 제 2 부대역 값들은 각각 하나의 위상 각에 대한 정보를 포함하며,

제 2 부대역 값들 중 하나는 이러한 제 2 부대역 값의 제 2 위상 각이 위상 각 차이에 의해 제 1 부대역 값의 제 1 위상 각과 다를 수 있는 것과 같이 제 1 부대역 값들 중 하나를 기초로 하여 생산되며, 위상 각 차이는 주파수-이동된 오디오 신호를 획득하기 위하여 어떠한 주파수 차이에 의해 오디오 입력 신호가 이동되는지를 나타내는 주파수 정보에 의존하고, 위상 각 차이는 제 1 부대역들 중 하나의 주파수 대역폭에 의존한다.

게다가, 컴퓨터 프로그램이 컴퓨터 또는 신호 프로세서 상에서 실행될 때, 위의 방법을 실행하기 위한 컴퓨터 프로그램이 제공된다.

바람직한 실시 예들이 종속 항들에서 설명된다.

도면들을 참조하여 바람직한 실시 예들이 아래에 설명될 것이다.
도 1a는 일 실시 예에 따른 대역폭 확장을 위한 장치를 도시한다.
도 1b는 일 실시 예에 따른 대역폭 확장을 위한 장치를 도시하며, 장치는 주파수-확장된 오디오 신호를 생산하도록 구성된다.
도 2는 일 실시 예에 따른 고조파 스펙트럼 대역 확장-고주파 부분 재구성을 개략적으로 도시한다.
도 3은 일 실시 예에 따라 주파수-이동된 오디오 신호를 생산하기 위한 장치(300)를 도시한다.
도 4는 일 실시 예에 따른 변형 이산 코사인 변환-변형 이산 사인 변환 변환 매트릭스의 추정을 도시한다.
도 5는 일 실시 예에 따른 변형 이산 코사인 변환-변형 이산 사인 변환 변환 매트릭스의 임펄스 응답들을 도시한다.
도 6은 백색 잡음을 위한 변형 이산 사인 변환 스펙트럼의 추정을 도시한다.
도 7은 일 실시 예에 따른 고조파 스펙트럼 대역 확장을 갖는 고조파 구조를 도시한다.
도 8은 일 실시 예에 따라 확장된 고조파 스펙트럼 대역 확장-고주파수 부분 재구성의 다이어그램을 도시한다.
도 9는 φ=45^o를 위한 에일리어싱 성분들을 도시한다.
도 10은 일 실시 예에 따른 φ=90^o를 위한 항-에일리어싱 필터의 필터 임펄스 응답을 도시한다.
도 11은 일 실시 예에 따라 φ=90^o를 위한 사인 신호에 대한 항-에일리어싱 필터링의 영향을 도시한다.
도 12는 일 실시 예에 따른 에일리어싱 감소를 위한 버터플라이 구조를 도시한다.
도 13은 일 실시 예에 따른 고조파 스펙트럼 대역 확장-선형 예측 코딩 엔벨로프 적응을 도시한다.
도 14는 고조파 스펙트럼 대역 확장에서 변조 및 항-에일리어싱 필터링의 복잡도를 도시한다.
도 15는 고속 변형 이산 코사인 변환-변형 이산 사인 변환의 복잡도를 도시한다.
도 16은 변형 이산 코사인 변환-변형 이산 사인 변환 변환의 복잡도를 도시한다.
도 17은 변환 길이에 의존하여 고조파 스펙트럼 대역 확장 내의 나머지 외란(disturbance)을 도시한다.
도 18은 고조파 스펙트럼 대역 확장 및 스펙트럼 대역 복제의 비교를 도시한다.
도 19는 고속 일반 이산 코사인 변환-Ⅲ/이산 사인 변환-Ⅲ 구조를 도시한다.
도 20은 고속 이산 코사인 변환-Ⅳ 구조를 도시한다.
도 21은 시간적 마스킹을 개략적으로 도시한다.
도 22는 인간 청각에서의 주파수-의존 마스킹을 개략적으로 도시한다.
도 23은 음향심리학적 오디오 인코더의 블록 회로 다이어그램을 도시한다.
도 24는 음향심리학적 오디오 디코더의 블록 회로 다이어그램을 도시한다.
도 25는 n_d 샘플들의 시스템 지연을 갖는 필터 뱅크를 도시한다.
도 26은 다위상 필터 뱅크를 도시한다.
도 27은 대역폭 확장의 범주들을 도시한다.
도 28은 확장된 스펙트럼 대역 복제 인코더의 블록 회로 다이어그램을 도시한다.
도 29는 스펙트럼 대역 복제에 의해 확장된 디코더의 블록 회로 다이어그램을 도시한다.
도 30은 스펙트럼 대역 복제 고주파수 부분 재구성을 개략적으로 도시한다.
도 31은 스펙트럼 대역 복제를 갖는 고조파 구조의 파괴를 도시한다.
도 32는 고조파 대역폭 확장 고주파수 부분 재구성을 개략적으로 도시한다.
도 33은 고조파 대역폭 확장을 갖는 고조파 구조를 도시한다.
도 34는 연속적 변조-대역폭 확장 고주파수 부분 재구성을 개략적으로 도시한다.
도 35는 연속적 변조-대역폭 확장을 갖는 고조파 구조를 도시한다.

도 1a는 오디오 입력 신호를 기초로 하여 주파수-이동된 오디오 신호를 생산하기 위한 장치(100)를 도시한다. 복수의 제 1 부대역을 위하여, 오디오 입력 신호는 여기서는 하나 또는 몇몇 제 1 부대역 값들에 의해 표현될 수 있다. 장치는 인터페이스(110) 및 주파수-이동 유닛(120)을 포함한다. 인터페이스(110)는 오디오 입력 신호를 수신하도록 구성된다. 주파수-이동 유닛(120)은 주파수-이동된 오디오 신호를 생산하도록 구성되고, 주파수-이동된 오디오 신호는 복수의 제 2 부대역을 위하여, 각각 하나 또는 몇몇 제 2 부대역 값들을 포함한다. 게다가, 각각의 제 1 및 제 2 부대역 값들은 각각의 위상 각에 대한 정보를 포함한다. 주파수-이동 유닛(120)은 부가적으로 이러한 제 2 부대역 값의 제 2 위상 각이 위상 각 차이에 의해 이러한 제 1 부대역 값의 제 1 위상 각과 다를 수 있는 것과 같이 제 1 부대역 값들 중 하나를 기초로 하여 제 2 부대역 값들 중 하나를 생산하도록 구성되고, 위상 각 차이는 어떠한 주파수 차이에 의해 오디오 입력 신호가 이동되는지를 나타내는, 즉 예를 들면, 주파수-이동된 오디오 신호를 획득하기 위하여 어떠한 주파수 차이에 의해 오디오 입력 신호의 부대역들의 제 1 부대역 값들이 이동되는지를 나타내는 주파수 정보에 의존하고, 위상 각 차이는 제 1 부대역들 중 하나의 주파수 대역폭에 의존한다.

일부 실시 예들에서, 인터페이스는 어떠한 주파수 차이에 의해 오디오 입력 신호의 부대역들의 제 1 부대역 값들이 이동되는지를 나타내는 주파수 정보를 수신하도록 구성될 수 있다.

도 1b는 일 실시 예에 따른 장치(150)를 도시한다. 장치(150)는 주파수-확장된 오디오 신호를 생산하도록 구성된다. 장치(150)는 여기서는 주파수-이동된 오디오 신호의 제 2 부대역 값들을 생산하기 위한 장치(150)에 의해 주파수-확장된 오디오 신호를 생산하도록 구성되고, 주파수-확장된 오디오 신호는 오디오 입력 신호의 제 1 부대역 값들 및 주파수-이동된 오디오 신호의 제 2 부대역 값들을 나타낸다.

실시 예들에 따른 대역폭 확장의 개념들이 아래에 설명될 것인데, 이는 고조파 스펙트럼 대역폭 확장(HSBE)으로서 언급된다. 이는 스펙트럼 대역 복제의 장점들 및 연속적 단일 측대역 변조의 장점들을 결합하는 개념들에 관한 것이다. 이는 변형 이산 코사인 변환 도메인 내의 신호 표현을 기초로 한다. 따라서, 고조파 스펙트럼 대역폭 확장은 스펙트럼 대역 복제에서 사용되는 것과 같이, 부가적인 직교 미러 필터 뱅크를 사용하지 않고, 고효율 고급 오디오 코딩 또는 통합 음성 및 오디오 코딩 같은, 현대 오디오 인코더들과 직접적으로 통합될 수 있다. 시간 도메인 방법들과 대조적으로, 분석 신호를 필요로 하지 않고, 고-해상도 이산 푸리에 변환이 계산된다.

고조파 스펙트럼 대역폭 확장의 기능의 방식이 아래에 설명될 것이다. 고조파 스펙트럼 대역폭 확장은 고주파 부분을 발생시키기 위하여 기저 대역의 카피를 사용한다. 기저 대역은 고-주파수 도메인 내의 카피 과정을 사용하여 복사된다.

특정 고조파 서브-톤들이 손실된 갭이 복사에 의해 형성되는, 연속적 변조-대역폭 확장(CM-BWE)과 대조적으로, 고조파 스펙트럼 대역폭 확장에서 기저 대역의 이동이 확장된다.기저 대역은 처음에 또한 위쪽으로 복사되고, 따라서 0 ㎐ 주파수는 그 뒤에 f_g에 존재할 것이다. 기저 대역 내의 주파수(f＜f_g) 및 주파수(f_g)의 마지막 고조파 사이에 형성되는 갭은 고조파 구조가 다시 연속적일 것과 같이 복사된 기저 대역을 다시 아래쪽으로 이동시킴으로써 보상된다. 따라서 시간 도메인 방법들에서와 같은, 고조파 서브-톤(sub-tone)의 스키핑(skipping)에 의해 야기되는 갭이 방지된다. 대역폭 확장 과정은 여기서는 두 부분으로 구성된다. 한 가지 부분은 변형 이산 코사인 변환 도메인 내의 복사 과정에 이해 실현된다. 저-주파수 변형 이산 코사인 변환 계수들이 간단한 복사에 의해 복제된다. 대역폭 확장의 나머지 부분, 즉 고조파 구조의 유지는 위상을 조작함으로써 획득된다. 따라서, 위상 정보는 이러한 목적을 위하여 존재할 필요가 있다. 고조파 스펙트럼 대역폭 확장은 기본적으로 순수하게 실제 변형 이산 코사인 변환 계수들을 사용하여 작동된다. 이는 위상 정보를 변경하기 위하여 복합 스펙트럼으로의 전달이 발생한다는 것을 의미한다. 이는 여기서 제공되는 변형 이산 코사인 변환-변형 이산 사인 변환 변환에 의해 달성된다.

적용 동안에 기저 대역의 고주파수가 복제된 대역의 주파수들을 중첩하지 않도록 하기 위하여, 고주파수 부분 대역은 하이-패스 필터링의 대상이 된다. 변형 이산 코사인 변환 계수들로서 신호를 표현하기 때문에, 이러한 필터링은 매우 간단한데 그 이유는 바람직하지 않은 계수들이 0으로 설정될 수 있기 때문이다. 그러나, 이러한 형태의 이동은 합성된 신호의 대역 한계를 야기한다. 이는 고주파수 부분 대역을 재구성한 후에, 원래의 최대 신호 주파수(f_max)가 획득될 수 없으나, 주파수(f_syn)만이 획득된다는 것을 의미한다. f_max 및 f_syn 사이에서 발생하는 갭은 만일 필요하면, 잡음으로 채워질 수 있다.

도 2는 고조파 적응을 포함하는, 복사 과정을 개략적으로 도시한다. 따라서, 도 2는 고조파 스펙트럼 대역폭 확장-고주파수 부분 재구성을 개략적으로 도시한다. 도 2는 왼쪽 상에 기저 대역의 복사와 이동을 도시한다. 도 2는 오른쪽 상에 스펙트럼 엔벨로프의 적응 이후의 스펙트럼을 도시한다.

필요한 이산의 적용은 신호 내의 부가적인 스퓨리어스 성분들을 야기한다.이것들은 개발된 복합 변형 이산 코사인 변환/변형 이산 사인 변환 스펙트럼 값들의 항-에일리어싱 필터링에 의해 억제된다. 끝으로, 스펙트럼 엔벨로프가 적절한 방법에 의해 그것이 원래 과정에 적용된다.

도 3은 고조파 스펙트럼 대역폭 확장 디코더, 즉 언급된 과정으로부터 발생하는, 고조파 스펙트럼 대역폭 확장에 의해 확장된 디코더를 도시한다.

도 3은 일 실시 예에 따라 주파수-이동된 오디오 신호를 생산하기 위한 장치(300)를 도시한다. 일 실시 예에서, 이는 고조파 스펙트럼 대역폭 확장 디코더, 즉 고조파 스펙트럼 대역폭 확장에 의해 확장된 디코더일 수 있다.

장치(300)는 인터페이스(310) 및 주파수-이동 유닛(320)을 포함한다.

인터페이스(310) 및 주파수-이동 유닛(320) 사이에 변형 이산 코사인 변환/변형 이산 사인 변환 변환 유닛(315)이 위치된다. 부가적으로, 장치(300)는 필터 유닛(330)을 포함한다. 게다가, 장치(300)는 바람직하게는 필터 뱅크 형태의, 합성 변환 유닛(340), 및 엔벨로프 적응 유닛(envelope adaptation unit, 350)을 포함한다. 부가적으로, 도 3의 실시 예에서의 장치(300)는 T 및 φ를 계산하기 위한 유닛(318)을 포함한다.

변형 이산 코사인변환/변형 이산 사인 변환 변환 유닛(315)은 오디오 입력 신호의 하나 또는 몇몇 제 1 변형 이산 코사인 변환 계수들을 획득하도록 구성될 수 있다. 오디오 입력 신호의 변형 이산 코사인 변환의 계수들인, 변형 이산 코사인 변환/변형 이산 사인 변환 변환 유닛(315)은 예를 들면 인터페이스(310)로부터 이러한 제 1 변형 이산 코사인 변환 계수들을 획득할 수 있다.

변형 이산 코사인 변환/변형 이산 사인 변환 변환 유닛(315)은 오디오 입력 신호의 하나 또는 몇몇 제 1 변형 이산 코사인 변환 계수들을 기초로 하여, 변형 이산 사인 변환의 계수들인, 오디오 입력 신호의 하나 또는 몇몇 제 1 변형 이산 사인 변환 계수들을 결정하도록 구성된다.

주파수-이동 유닛(320)은 그때 제 1 부대역 값들 중 각각의 하나를 기초로 하여 제 2 부대역 값들을 생산하도록 구성될 수 있으며, 각각의 제 1 부대역 값들은 제 1 변형 이산 코사인 변환 계수들 중 하나를 기초로 하고 제 1 변형 이산 코사인 변환 계수들 중 하나는 이러한 제 1 변형 이산 코사인 변환 계수를 기초로 하여 결정되었다.

바람직하게는 고조파 스펙트럼 대역폭 확장 디코더로서 실현되는, 도시된 장치(300)의 구조는 구현되는 알고리즘들에 의존한다. 다른 환경들에서 이러한 디코더를 사용할 때, 주파수 도메인 내의 엔벨로프 재구성을 실행할 필요가 있다. 이러한 경우에 있어서 상응하는 블록은 변형 이산 코사인 변환/변형 이산 사인 변환 합성 필터 뱅크의 앞에 존재할 것이다. 스펙트럼 대역 복제에서 사용되는 조성 적용 같은, 또 다른 성분들이 또한 여기에 삽입될 수 있다. 그러나, 이러한 방법들은 고조파 스펙트럼 대역폭 확장의 기능의 일반적인 방식에 영향을 미치지 않는다.

변형 이산 코사인 변환 도메인 내에서 인코딩된 일 실시 예에 따른 디코딩 과정이 또한 도 3으로부터 야기한다. 원하는 것과 같이 스펙트럼의 일부 부분을 이동시키기 위하여, 디코딩된 변형 이산 코사인 변환 계수들은 처음에 결합된 변형 이산 코사인 변환/변형 이산 사인 변환 표현으로 변형된다. 이는 유용한데 그 이유는 복합 스펙트럼의 변조가 각각의 부대역 내에 더 큰 에일리어싱 성분들을 생산할 것이기 때문이다. 따라서, 각각의 부대역 내에서만 보상이 필요하며, 이러한 보상은 제안된 에일리어싱 보상 방법을 사용하여 실행된다.

고주파수 부분 발생기는 비트 스트림으로부터 디코딩된 방식으로 또는 디코더에서 결정되는 방식으로 또는 외부 처리들에 의해, 원하는 이동에 따라 변형 이산 코사인 변환/변형 이산 사인 변환 변환 표현으로부터 복합 주파수 입력들을 이동시킨다. 사용되는 변조 항은 다음과 같다:

b는 블록 지수이고,

는 도(degree)로 표시된 주파수 이동이다(180^o의 주파수 이동은 그 다음 부대역의 중심으로의 이동과 상응한다).

그 후에, 에일리어싱 감소가 실행될 것이며, 그리고 나서 복합 스펙트럼은 시간 도메인으로 역 변환되고 재생된다.

사용된 변조 항은 복합 지수 함수이다. φ는 이에 의해 부대역들의 제 1 부대역 값들이 이동되는 주파수 차이에 의존하는, 도로 표시된 각이다.

고조파 구조를 유지하기 위한 단일 측대역 변조는 위상의 조작을 사용하여 부분적으로 실현된다. 고조파 스펙트럼 대역폭 확장을 위하여, 위상 응답은 필수적으로 중요하다. 이미 설명된 것과 같이, 고조파 스펙트럼 대역폭 확장은 일반적으로 실제 변형 이산 코사인 변환 도메인 내에서 작동한다.

인코더는 변형 이산 코사인 변환 계수들만을 사용하며 따라서 위상 응답을 위하여 부가적으로 변형 이산 사인 변환 계수들이 필요하다. 변형 이산 코사인 변환 계수들의 상응하는 변형 이산 사인 변환 계수들로의 전달이 가능하고 아래에 설명될 것이다.

변형 이산 사인 변환의 정확한 계산이 아래에 설명될 것이다.

이산 코사인 변환에서와 같이, 변형 이산 코사인 변환에서 신호 내의 사인 부분들을 계산하기 위한 상응하는 함수가 존재한다: 변형 이산 사인 변환(MDST)을 위하여 동일한 특징들이 변형 이산 코사인 변환에서와 같이 적용되나, 이는 오디오 인코딩에서는 드물게 사용된다.

예를 들면 고조파 스펙트럼 대역폭 확장 같은, 일부 적용들을 위하여, 이는 그럼에도 불구하고 신호의 변형 이산 사인 변환 스펙트럼을 계산하는데 유용하다. 두 개의스펙트럼을 결합함으로써 정확한 절대 값과 위상 스펙트럼이 획득될 수 있다(Chemg, 2004).

변형 이산 사인 변환은 방정식 2.35의 변형 이산 코사인 변환과 유사하게 계산된다. 변환 매트릭스(

) 및 원도우 매트릭스(

)는 차이들을 나타낸다. 변형 이산 사인 변환 변환 매트릭스는 이산 사인 변환-Ⅳ의 변조를 사용하여 계산된다(방정식 2.18 참조):

(4.1a)

(4.1b)

이산 코사인 변환-Ⅳ와 비교하여 이산 사인 변환-Ⅳ의 다른 대칭 특성들 및 다른 에지 연속성들 때문에, 폴딩 매트릭스가 상응하게 적용되어야만 한다. 변형은 윈도우 매트릭스(

)의 제 2 및 제 4 사분면의 사인의 변화이다.

(4.2)

이러한 적용들을 사용하여, 블록들로 세분되는 신호(

)의 변형 이산 사인 변환은 다음과 같이 계산될 수 있다:

(4.3)

역 변환을 위하여, 다음이 적용된다:

(4.4)

예를 들면, 위상 응답을 조작하기 위하여 변형 이산 코사인 변환과 변형 이산 사인 변환 스펙트럼의 조합으로부터 계산된 복합 전달 함수가 필요하다. 변형 이산 코사인 변환 스펙트럼을 변형 이산 사인 변환 계수들로 전달하도록 구현되는 방법이 아래에 설명될 것이다.

계산에 관한 한 복잡한, 일반적인 방법은 변형 이산 코사인 변환 내의 신호를 다시 시간 도메인으로 전달되고, 뒤따르는 변형 이산 사인 변환은 다음과 같다:

(4.5)

이러한 계산은 필요한 복잡도를 감소시키기 위하여 단순화된다. 따라서, 처음에 다위상 매트릭스(

)는 다음과 같이 정의된다:

(4.6)

매트릭스(

)의 요소들은 각각 z 내의 삼차 다항으로 구성된다. 이러한 특성은 3개의 매트릭스의 추가로서

을 표현하는데 사용될 수 있다

(4.7)

3개의 부-매트릭스(

,

및

)는 효율적인 계산을 야기하는 특징들을 나타낸다. 매트릭스(

)는 요소들(0.5 및 약 0.5)을 갖는 약하게 점유된 매트릭스이다. 매트릭스들(

및

) 사이에 직접적인 연결이 존재하고 따라서 매트릭스(

)는 그것의 이차 대각선에 대하여

의 요소들의 반사가 되도록 생산될 수 있다. 이러한 매트릭스들의 정확한 형태와 상세한 계산이 아래에 설명될 것이다. 블록(b-1)의 변형 이산 사인 변환 스펙트럼은 그리고 나서 다음과 같이 계산될 수 있다:

(4.8)

따라서, X(b)은

의 매트릭스의 b번째 열이다. 이는 또한 변형 이산 사인 변환 스펙트럼을 계산하기 위하여 하나의 블록의 지연이 도입되는 이러한 방정식으로부터 인식될 수 있다. 블록(b)의 변형 이산 사인 변환 스펙트럼이 존재할 때, 처음에 이전 블록의 변형 이산 사인 변환 스펙트럼이 이용가능하다. 이러한 방법으로 달성된 변형 이산 사인 변환 계수들을 사용하여, 위상 응답은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 스펙트럼으로부터 계산될 수 있고 이전에 설명된 것과 같이, 고조파 구조를 유지하기 위하여 위상 회전을 사용하여 조작될 수 있다.

단순화된 변형 이산 사인 변환이 아래에 설명될 것이다.

유래한 방법에 따라, 변형 이산 사인 변환이 계산이 상당히 단순화되더라도, 이러한 변환의 계산은 그럼에도 불구하고 고도의 계산-집중적이다. 게다가, 매트릭스(

)를 저장하기 위하여 많은 메모리 공간이 필요하다. 이는 변환의 더한 단순화가 발견되는 것을 의미한다.

매트릭스들(

및

)을 더 정확하게 분석할 때, 그것들이 제로에 가까운 매우 높은 수의 값들을 포함하는 것이 매력적이다. 가장 큰 절대 값들의 계수들은 매트릭스들의 주 대각선(principal diagonal)에 가까운 좁은 영역에 집중된다. 따라서, 이러한 방법으로 계산 능력 및 저장 요구사항들 모두를 절약하기 위하여 나머지 계수들을 제로로 대체하는 것이 명백해 보인다. 게다가, 대각선들 상의 값들은 매우 유사하다. 그것들은 기본적으로 서로 그것들의 기호에 의해 서로 다르다. 에지들에 가까운 영역들 내에 단독으로 더 큰 계수들의 값들이 존재한다.

단순화 목적을 위하여, 주 대각선 아래 및 위의 값들은 동일한 것으로 가정되며. 이는 주 대각선에 대하여 매트릭스의 축방향 대칭이 존재하는 것을 의미한다. 단순화된 매트릭스가 계산되고, 이 값들은 매트릭스(

)의 중심 열로부터 얻어진다. 따라서, 주 대각선의 요소 및 주 대각선 아래의 어떠한 수의 또 다른 요소들을 포함하는 영역은 중심 열로부터 절단된다. 절단 섹터는 h[n]으로서 언급된다. 새로운 매트릭스의 중심 열이 그리고 나서 h[n] 및 주 축 요소(h_ij)에 대한 h[n]의 점 대칭으로부터 형성되고, 나머지 열은 제로가 된다. 단순화된 매트릭스의 다른 열들은 그리고 나서 이러한 열의 순환 이동에 의해 형성된다. 각각의 열의 기호가 적용된다. 완전히 점유된 매트릭스(

)를 단순화하기 위한 이러한 방법들을 사용하여, 약하게 점유된 매트릭스(

)는 그리고 나서 매우 적은 수의 계수들을 사용하여 결정될 수 있다. 대칭의 테플리츠 유사 구조(Toeplitz-like structure)가 이러한 매트릭스의 독특함이다. 이는 다음과 함께 주 대각선에 대하여 미러링된 클리핑된 임펄스 응답(h[n])의 순환 이동에 의해 형성된다:

(4.9)

따라서, i는 라인 지수이고 j는 매트릭스(

)의 열 지수이며 σ는 섹터의 길이를 결정하는 윈도우 지수이다. 이러한 섹터의 길이는 항상 2σ+1일 것이다. σ=1이고 N=6에 대하여, 매트릭스(

)의 구조를 위하여 다음이 적용된다:

(4.10)

제 1 열로 시작하여, 각각의 열은 -1로 곱해진다는 것에 유의하여야 한다. 다음의 고려사항들에서, 윈도우 지수(σ)는 변환 길이(N)의 약 10%와 상응하는데, 즉 σ=[0,1·N]이다. 이는 변환 매트릭스를 휘한 메모리 요구가 h[n]의 값들의 미러링 때문에 약 20%로 감소되었다는 것을 의미한다.

도 4는 변형 이산 코사인 변환/변형 이산 사인 변환 변환 매트릭스의 추정을 나타낸다. 도 4는 왼쪽 상에 N=64를 위한 완전히 점유된 변환 매트릭스(

)를 도시한다. 도 4는 오른쪽 상에 N=64를 위한 단순화된 변환 매트릭스(

)를 도시한다.

도 4는 왼쪽 상에 완전히 점유된 매트릭스(

)를 도시하고, 이와 대조적으로, 오른쪽 상에 대칭의 테플리츠 유사 구조 내의 단순화된 매트릭스(

)를 도시한다. 보이는 것과 같이 계수들의 상당 부분은 단순화에 의해 야기되는, 제로와 동일한

의 주 대각선 외부에 존재한다.

도 5는 변형 이산 코사인 변환/변형 이산 사인 변환 변환 매트릭스들의 임펄스 응답들을 나타낸다. 도 4는 매트릭스(

, 연속적인 선)의 33번째 열의 원래의 임펄스 응답을 도시한다. 비교를 위하여, 복사 과정과 미러링에 의해 형성된, 새로운 매트릭스(

)의 상응하는 임펄스 응답이 보여진다. 윈도우 지수(σ=6)를 갖는 직사각형 윈도우를 사용하여 값들의 클리핑이 발생한다.

이러한 형태의 변형 이산 코사인 변환/변형 이산 사인 변환 변환의 단순화는 방정식 4.8의 계산에 의해 형성되는 것과 같이, 정확한 변형 이산 사인 변환 스펙트럼을 제공하지 않는다. 실행된 매트릭스들(

및

)의 단순화에 의해 스펙트럼에 오류가 추가된다. 이는 도 6에 도시된 것과 같이, 대략 -70 dB까지 신호-대-잡음 거리의 감소를 야기한다. 도 6은 백색 잡음을 위한 변형 이산 사인 변환의 추정을 도시한다. 변형 이산 사인 변환 스펙트럼의 추정의 오류는 스펙트럼의 에지 영역에서 증가한다. 이러한 효과는 주 대각선의 단부들에 가까운 매트릭스 계수들의 부정확한 추정 때문이다. 생산된 미러는 고조파 스펙트럼 대역폭 확장 알고리즘의 하이-패스 필터링에 의해 감소되고 결과적으로 높은 주파수들 내에만 존재한다.

주파수 스펙트럼의 고조파 구조의 적용이 아래에 설명될 것이다.

고조파 스펙트럼 대역폭 확장 방법의 장점은 대역폭 확장 이후의 고조파 구조의 유지이다. 이미 언급된 것과 같이, 이는 복합 변형 이산 코사인 변환/변형 이산 사인 변환 영역 내의 위상 조작에 의해 발생한다. 대역폭의 점유된 스펙트럼 대역(B=f_max-f_g)이 여기서 고려될 것이다. 목적은 이동 이후에 이러한 대역(바람직하게는 주파수(f_H _,n＞f_g)를 갖는) 내의 제 1 고조파가 주파수(f_H _,α＜f_g)의 기저 대역 내의 가장 높은 고조파의 주파수에 존재할 것과 같이 스펙트럼을 아래쪽으로 이동시키는 것이다. 주파수들(f_H _,n 및 f_H _,α) 사이의 거리는 래그 주파수(f_lag)로서 언급된다.

고조파 구조의 적용은 이러한 주파수를 사용하여 조절된다. 이러한 주파수는 또한 이에 의해 주파수 대역이 아래쪽으로 이동되는, 변형 이산 코사인 변환 부대역들의 각각의 다중 적분 및 비-적분으로서 표현될 수 있다. 이는 개발된 방법의 최대 융통성을 허용한다. 앞에 언급된 조건을 충족한 후에, f_g보다 작은 이산 주파수를 갖는 모든 변형 이산 코사인 변환 계수는 기저 대역과 이동된 대역이 중첩하지 않도록 하기 위하여 제로로 설정된다.

도 7은 성조 신호를 위한 고조파 스펙트럼 대역폭 확장 방법의 원하는 결과를 개략적으로 도시한다. 따라서, 도 7은 고조파 스펙트럼 대역폭 확장에서의 고조파 구조를 도시한다. 도 7은 왼쪽 상에 원래의 광대역 스펙트럼을 도시한다. 도 7은 오른쪽 상에 고조파 스펙트럼 대역폭 확장 고주파수 부분 재구성 이후의 스펙트럼을 도시한다.

원래의 고조파 구조가 여기서 유지된다. 복제된 고-주파수 대역의 컷오프 주파수(f_g)보다 작은 주파수로의 설명된 이동에 의해 어떠한 서브-톤도 배제되지 않는다. 스펙트럼의 이동은 따라서 변조 주파수(f_mod)를 사용하는 하이-패스 필터링된 기저 대역 신호의 단일 측대역 변조인 것으로 해석될 수 있다. 다음이 적용된다:

f_mod = f_g - f_lag (4.11)

따라서, 변형 이산 코사인 변환 대역의 대역폭의 반보다 큰 주파수들(f_lag)과 함께, f=f_max에 가까운 변형 이산 코사인 변환 계수들이 이동에 의해 제로가 된다는 것에 유의하여야 한다. 이것들은 잡음으로 점유된다. 주파수(f_lag)가 변형 이산 코사인 변환 대역의 대역폭의 반보다 작을 때 이는 필요하지 않은데, 그 이유는 어떠한 변형 이산 코사인 변환 계수들도 제로로 설정되지 않기 때문이다.

비-적분 부대역들의 적응이 아래에 설명될 것이다.

변형 이산 코사인 변환 대역이 고조파 구조의 연속적인 서브-톤들의 주파수 차이와 비교하여 높은 대역폭을 포함할 때 고조파 구조의 유지는 복잡하다. 변형 이산 코사인 변환 대역의 대역폭의 다중 적분인 주파수들만을 사용하여 변조를 실행할 때, 고조파 재구성의 해상도는 강력하게 제한되고 결과적으로 미세한 고조파 구조가 복원될 수 없다. 따라서, 변형 이산 코사인 변환 대역 대역폭의 다중 적분뿐만 아니라 그것들의 분수에 의해 변조될 수 없도록 하기 위하여 높은 변조 정확성을 허용하는 것이 필요하다.

다음의 접근법을 사용하여, 변형 이산 코사인 변환 부대역의 대역폭 내의 스펙트럼을 이동시키는 것이 가능하다. 방법은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 스펙트럼의 위상의 변형을 기초로 한다. 여기서 위상은 신호의 시간적 과정에 의존하여, 정규화된 주파수 이동(φ)에 의해 회전된다. 위상 각의 이러한 시간적 회전은 따라서 스펙트럼의 매우 미세한 이동을 허용한다. 다음이 적용된다:

(4.12)

따라서, X(b)는 복합 매트릭스(

)의 b번째 열이고 φ는 도로 표시된 정규화된 주파수 이동이다. 이론적으로, φ를 위하여 어떠한 각들도 사용될 수 있으나, 실용적 이유들 때문에 값들의 범위는 강력하게 제한되고 간격([-90,90]⊂Z) 내에 존재한다. 이러한 간격을 사용하여, 변형 이산 코사인 변환 대역의 대역폭을 포함하는 변조들을 계산하는 것이 가능하다. 표시된 간격으로의 정규화된 주파수 이동의 설정에 의해. 스펙트럼은 변형 이산 코사인 변환의 반에 의해 각각 더 높거나 또는 낮은 주파수들을 향하여 이동될 수 있다.

b 및 φ에 의존하는, 복소수 지수 함수(

)를 위하여, 처음에 결과 값이 계산된다. φ는 이에 의해 부대역들의 제 1 부대역 값들이 이동되는 주파수 차이에 의존하는, 도로 표시되는 각이다. 결정되려는 제 2 부대역 값은 그리고 나서 X(b) 내의 제 1 부대역 값들 중 하나를 결과 값과 곱함으로써 달성될 수 있다.

적분 부대역들의 적응이 아래에 설명될 것이다.

도입된 변조를 사용하여, 위상 각(φ)의 값들의 제한된 범위는 스펙트럼만이 대부분 변형 이산 코사인 변환 대역의 대역폭에 의해 이동되도록 허용한다. 변형 이산 코사인 변환 대역의 대역폭보다 큰 스펙트럼의 이동을 위하여, 이러한 이동은 두 가지 부분, 변형 이산 코사인 변환 대역 대역폭의 다중 적분 및 상기 대역폭의 분수로 세분된다. 처음에, 스펙트럼은 방정식 4.12에 따른 변형 이산 코사인 변환 대역의 대역폭보다 작은 필요한 주파수에 의해 변조되고, 그 뒤에 스펙트럼은 적분 스펙트럼 값들에 의해 이동된다.

그 뒤에, 변형 이산 코사인 변환 대역의 대역폭의 배수와 정확하게 상응하는 이동이 고려될 것이다. 이러한 경우에 있어서, 180^o의 다중 적분인 위상 각(φ)이 존재한다. 따라서, 적분 변형 이산 코사인 변환 스펙트럼 값들에 의한 스펙트럼의 이동은 비-적분 부대역들을 위하여 위에서 소개된 방법의 특별한 경우인 것으로 고려될 수 있다. 방정식 4.12에서의 복합 변조 함수의 평가는 다음의 결과들을 갖는다. 만일 블록 지수(b 및 φ)의 산물이 180^o의 짝수 배수이면, 변조 함수의 결과는 항상 1일 것이며, 그렇지 않으면 -1일 것이다. 이를 알고서, 적분 부대역들의 적용을 위하여 방정식 4.12에서의 함수를 평가하는 것은 필요하지 않으며, 경우들의 간단한 구별이면 충분하다. 다음이 적용된다:

적분 변조 지수(τ)는 다음과 같다:

(4.14)

따라서, X(b, τ : N-1)은 다시 복합 매트릭스(

)의 b번째 열이고, 마지막 요소(N)까지 τ에서 시작하는 벡터 요소들만이 여기서 사용된다. 이러한 벡터 요소들의 클리핑은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 스펙트럼의 위에 언급된 하이-패스 필터링과 상응한다.

변조의 적용을 위하여, 변조 주파수는 f_lag에 의존하여 변조 지수(τ) 및 위상 각(φ)에 전달된다. 처음에, 주파수(f_lag)는 샘플링 주파수(f_s)의 반으로 정규화된다. 그 뒤에, 변형 이산 코사인 변환 대역들(φ_lag) 내의 동등한 이동이 달성되고 변조 지수(τ) 및 위상 각(φ)이 다음과 같이 계산된다:

(4.15)

(4.16)

(4.17)

(4.18)

두 가지 방법을 결합함으로써, 가변 패치(patch( 비율들을 실현하는 것이 가능하다. 패치 비율은 여기서는 가능한 최대 신호 주파수(f_max) 및 기저 대역의 컷오프 주파수(f_g)의 비율이다. 예를 들면 2:1의 패치 비율은 기저 대역의 단일 복사가 달성되고 변조되는 것을 나타낸다(도 2 참조). 2:1보다 큰 패치 비율들은 낮거나 또는 바뀐 전달 비율들과 함께 발생한다. 연속적 변조 대역폭 확장(위 참조)과 유사한, 그러한 비율들은 기저 대역을 여러 번 복사하고 변조함으로써 실현된다. 또한 여기서 필요한 래그 주파수는 2.5:1의 패치 비율을 위하여 도 8에 도시된 것과 같이, 기저 대역의 각각의 복사와 함께 f_lag에 의해 증가된다는 것에 유의하여야 한다.

도 8은 확장된 고주파 스펙트럼 대역폭 확장 고주파수 재구성의 도식을 나타낸다. 도 8은 왼쪽 상에 기저 대역의 복사 및 이동을 도시한다. 도 8은 오른쪽 상에 적용된 스펙트럼 엔벨로프 이후의 스펙트럼을 도시한다.

그 뒤에, 발생하는 스퓨리어스 성분들을 억제하기 위한 개념들이 설명될 것이다. 여기서 설명된 개념들은 바람직하게는 도 3의 필터 유닛(330)에 적용될 수 있다.

변형 이산 코사인 변환 도메인 내의 스펙트럼의 변조는 쉽게 실행될 수 없다. 스펙트럼의 변조 때문에 역 변형 이산 코사인 변환 내의 완전 재생은 더 이상 가능하지 않다. 원인은 형성된 시간 도메인 에일리어싱 성분들이다. 이러한 스퓨리어스 성분들의 에너지는 스펙트럼의 변조에 의해 재분포된다. 변형 이산 코사인 변환의 시간 도메인 에일리어싱 취소(time domain aliasing cancelation, TDAC)는 이에 의해 침해되고 역 변환으로 이러한 성분들을 더 이상 취소할 수 없다. 역 변형 이산 코사인 변환 이후의 변조된 신호를 고려할 때, 스퓨리어스 성분들은 이러한 이유 때문에 이산 푸리에 변환 절대 값 주파수 응답에서 발견될 수 없다. φ=0^o 및 τ＞0에 의해 스펙트럼을 이동시킬 때, 이러한 에일리어싱 성분들은 매우 낮은 진폭만을 나타내고 첫 번째 또는 마지막 변형 이산 코사인 변환 대역 내에 위치된다. 이러한 경우에 있어서, 성분들을 감소시키는 것은 필요하지 않다. 이동 인자들(φ≠0o)로, 형성하는 스퓨리어스 성분들의 진폭은 상당히 크다. 이러한 경우에 있어서, 그것들은 또렷하게 들린다. 결론적으로, 이러한 성분들이 다뤄질 것이다.

도 9는 φ=45^o; y_ref는 원래의 사인 성조; y_mod는 에일리어싱 성분들을 포함하는 변조된 사인 성조에 대한 에일리어싱 성분들을 도시하는데, 이산 코사인 변환-Ⅳ 필터 뱅크가 향상된 도해를 위하여 확대 방식으로 도시된다.

특히, 도 9는 φ=45^o에 의해 이동된 사인 성조(y_mod)의 절대 값 주파수 응답을 도시한다. 원래의 사인 성조(y_mod)의 주파수는 12번째 변형 이산 코사인 변환 대역의 대역 중심과 상응한다. 전체 스펙트럼은 선택된 위상 각에 의해 높은 주파수들을 향하여 변형 이산 코사인 변환 대역의 대역폭의 4번째에 의해 변조된다. 알 수 있는 것과 같이, 8개의 우세한 성분은 각각 12번째 변형 이산 코사인 변환 대역 아래와 위의 각각의 대역 내에 위치된다. 에일리어싱 성분들의 이러한 특징이 어떠한 신호를 위하여 적용된다. 이러한 이유는 각각의 신호가 사인과 코사인 진동의 가중치 합으로 분해될 수 있기 때문이다(위 참조). 이러한 각각의 부-진동들을 위하여, 방정식 4.12에 따라 변조할 때 에일리어싱 성분들의 이러한 특별한 패턴이 발생한다. 이를 알고서, 바람직하지 않은 스퓨리어스 성분들로부터 어떠한 신호를 없애는 것을 허용하는 방법이 개발될 수 있다. 따라서, 이는 사인 신호의 변조에 의해 형성하는 에일리어싱 성분들을 분석하고 취소하는데 충분하다.

그 뒤에, 항-에일리어싱 필터링의 개념들이 제공될 것이다.

부가적인 신호 부분들이 시간 도메인 에일리어싱(time domain aliasing, TDA)을 위한 블록들의 시간적 오버래핑에 의해 주파수 도메인 내에 형성된다. 이것들은 대역폭-확장된 신호의 스펙트럼 내의 스퓨리어스 부분들로서 존재하는데 그 이유는 그것들이 주파수 도메인 내의 이동에 의한 역 변환에서 취소되지 않기 때문이다. 변형 이산 코사인 변환에서, 고속 푸리에 변환(FFT) 스펙트럼 내의 피크들로서 식별가능한 이러한 스퓨리어스 성분들은 일부 오버래핑 변형 이산 코사인 변환 대역들의 부분들의 합에 의해 단지 약 15dB의 이산 코사인 변환-Ⅳ 필터 뱅크의 낮은 저지 대역 감쇠에 의해 설명된다. 고-해상도 이산 푸리에 변환 스펙트럼 내의 스퓨리어스 성분들의 에너지는 따라서 일부 변형 이산 코사인 변환 대역들의 합계를 계산하는 것으로 고려될 수 있다.

이러한 관계 때문에, 변형 이산 코사인 변환 도메인 내의 스퓨리어스 성분들을 감소시키기 위한 필터가 제공된다. 필터는 필터 계수들에 의해 가중된 주파수 값들의 순차적 가산을 기초로 한다. 중심의 주파수 값에 의한 필터의 확장은 스퓨리어스 성분들이 취소되는 주파수 도메인을 나타낸다. 모든 우세한 에일리어싱 성분을 위하여, 이를 최소화하는 필터 계수가 필요하다. 필터는 주파수 이동(φ)에 의존한다. 다음이 적용된다:

(4.19)

따라서, h(φ)는 특정 위상 각(φ)을 위한 실제 항-에일리어싱 필터이고 X(b)은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 스펙트럼이다. 필터링 이후의 스펙트럼(X_ANTIALIAS(b))은 여기서는 원래의 스펙트럼(X(b))보다 길다. 이는 스펙트럼이 다시 변환 길이(N)와 상응하도록 하기 위하여 클리핑되어야만 한다는 것을 의미한다. 필터가 정착되고 감쇠하는 스펙트럼의 그러한 부분은 제거된다. 따라서, 필터 길이의 반의한 클리핑은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 도메인 내의 폴딩 산물의 시작과 끝 모두에서 실행된다.

도 10에서, φ=90^o를 위한 항-에일리어싱 필터(AAF)의 필터 임펄스 응답을 볼 수 있다. 단일 사인 성조의 실시 예를 사용하여, 도시된 필터를 사용하여 총 7개의 우세한 에일리어싱 성분을 취소하는 것이 가능하다. 3개의 성분은 사인 성조의 주파수 아래에 존재한다. 사인 성조의 주파수에 대한 그것들의 위치와 상응하는, 삼차까지의 성분들로서 언급되는 이러한 성분들은 필터 계수들(필터 탭들) 0, 2 및 4에 의해 처리된다. 필터 탭들(8, 10, 12 및 14)은 사인 성조 위의 주파수들에서 4개의 스퓨리어스 성분, 즉, 4차까지의 성분들을 취소한다. 대체로, 필터는 15개의 계수를 포함하고 각각의 값은 제로와 동등하다. 이는 각각의 대역 내에서만 발생하기 위한 에일리어싱 성분들의 위의 관찰과 상응한다.

도 10의 필터 계수들은 따라서 특정 순차 내에 존재한다. 제로와 동일하지 않은 필터 계수를 따르는 이러한 순차 내의 모든 필터 계수는 제로 값을 포함한다.

그러한 필터 구조를 사용하여, 일반적으로 어떠한 수의 에일리어싱 성분들을 억제하는 것이 가능하다. 이는 4차까지 성분들을 취소하기에 충분하다. 이는 적어도 70dB의 신호 잡음 거리의 달성을 허용하고, 이는 충분한 것으로 고려될 수 있다. 게다가, 고-순차 에일리어싱 성분들은 매우 큰 위상 각(φ)으로만 두렷해진다. 4차까지의 취소의 제한은 따라서 에일리어싱 취소를 위한 달성가능한 스펙트럼 대역 복제 및 계산 복잡도 사이의 뛰어난 타협이다.

항-에일리어싱 필터들의 최적화가 아래에 설명될 것이다.

설명된 에일리어싱 취소의 중요한 성분은 사용되는 항-에일리어싱 필터들이다. 달성가능한 개별 스퓨리어스 성분들의 진폭의 감소는 결정적으로 적절한 필터 계수들의 선택에 의해 의존한다. 따라서, 가능한 가장 높은 억제가 보장되는 것과 같이 이러한 필터들을 최적화하는 것이 필요하다. 실현 가능한 방법은 여기서는 연속적인 근사(successive approximation)에 의한 필터 계수들의 수치 최적화이다.

연속적인 근사는 수치 수학의 반복 방법이고 정확한 해결에 대한 계산 문제점을 단계적으로 근사치를 내는 과장으로서 언급한다. 따라서, 계산 방법은 반복적으로 적용되고 하나의 단계의 결과는 각각의 그 다음 단계의 시작 값으로서 사용되었다. 결과들의 순서는 수렴되는 것이다. 정확한 해결을 위한 수용가능한 오류가 최소일 때, 결과는 충분히 정확한 정도로 결정되었다(Jordan-Engeln 및 Reutter, 1978).

최적화 과정의 시작에서, 분석 신호는 특정 위상 각(φ)에 의해, 방정식 4.12를 사용하여 변조된다. 분석 신호는 위에 열거된 이유들 때문에, 사인 성조이다. 성조의 주파수는 이상적으로 기본 샘플링 주파수의 ¼에 위치된다. 이의 장점은 4항까지 형성하는 에일리어싱 성분들이 스펙트럼의 에지들에 대한 가능한 가장 큰 거리를 나타내고 다른 스퓨리어스 성분들을 방해하지 않는다는 것이다. 최적화 목적을 위하여, 32 샘플들의 변형 이산 코사인 변환 변환 길이가 이상적이다. 그 다음은 사인 성조의 주파수가 16번째 변형 이산 코사인 변환 대역의 대역 중심과 상응하는 것이다. 이러한 변환 길이에 대한 제한은 일부 장점들을 제공한다. 한편으로, 이는 변형 이산 코사인 변환의 계산 복잡도의 감소를 허용한다. 다른 한편으로, 최대 거리에서 서로 방해 없이 4차까지의 에일리어싱 성분들이 발생된다. 이는 필요한 신호 피크 인식을 위하여 특히 중요하다. 신호 피크 인식은 고-해상도 이산 푸리에 변환 절대 값 주파수 응답에서 억제되는 에일리어싱 성분들을 자동으로 검출한다.

분석 신호를 변조한 후에, 에일리어싱 성분들은 교차 순서로 번갈아 최적화된다. 이는 스퓨리어스 성분들이 서로 영향을 미치기 때문에 필요하다. 따라서, 순서는 4차의 가장 약한 성분으로부터 가장 우세한 1차 성분까지이다. 이는 1차 에일리어싱 성분들이 가능한 가장 큰 감쇠를 수신하는 것을 보장한다. 직접적인 성분, 즉 에일리어싱 성분들이 취소되는 스펙트럼 값을 위하여, 필터는 1로 설정된다. 이러한 값은 최적화 동안에 변하지 않는다.

실제 수치 최적화는 설명되는 연속적 근사의 원리에 따라 수행된다. 따라서, 시작 값은 최적화되는 필터 계수에 할당되고, 직접적인 성분을 제외하고, 모든 다른 계수는 0으로 남아 있다. 그 뒤에, 복합 변형 이산 코사인 변환/변형 이산 사인 변환이 이러한 필터를 사용하여 폴딩되고 각각의 스퓨리어스 성분에 대하여 절대 값 주파수 응답이 조사된다. 만일 이것이 사실이면, 필터 계수는 단계 크기 설정에 상응하여 증가될 것이다. 이러한 조사 방법 및 증가는 이러한 에일리어싱 성분의 강력한 억제가 더 이상 가능하지 않을 때까지 반복된다. 그 뒤에, 동일한 방법으로 그 다음의 필터 계수들이 처리되며, 이미 최적화된 필터 계수들이 유지된다.

에일리어싱 성분들의 상호 영향 때문에, 이러한 과정의 몇몇 반복을 실행하는 것이 실용적이다. 필터 계수들이 증가되는 단계 크기는 각각의 반복에 의해 감소된다. 이는 최적화된 필터의 품질이 모든 패스와 함께 증가한다는 것을 의미한다. 위상 각 당 하나의 필터로 구성되는 최적 필터 세트를 위하여 3회 반복이 충분한 것으로 보여진다. 이는 ＜-90 dB로의 에일리어싱 성분들의 감소를 허용한다.

도 11은 φ=90^o를 위한 사인 신호에 대한 항-에일리어싱 필터링의 영향을 도시한다. X_alias는 φ=90^o에 의해 변조된 사인 신호이다. X_AntiAlias는 억제된 스퓨리어스 성분들을 포함하는 필터링된 신호이다.

특히, 도 11은 절대 값 주파수 응답에서, φ=90^o의해 변조된 사인 신호에 대한 항-에일리어싱의 영향을 도시한다. X_alias는 변조된 신호의 스펙트럼이고 X_AntiAlias는 상응하는 위상 각을 위하여 최적화된 필터를 사용하여 폴딩된, 변조된 신호의 스펙트럼이다, 피크 인식을 특징으로 하는 스펙트럼 내의 피크들은 직접적인 성분(왼쪽으로부터 4번째 피크 인식된)을 포함하는, 신호 피크 인식에 의해 검출된 에일리어싱 성분들이다. 이러한 실시 예에서, 필터들의 수치 최적화는 평균 ∼103 dB로 스퓨리어스 성분들을 감소시킨다.

이는 값들의 범위 내의 각각의 위상 각을 위한 필터들의 설정을 한 번 달성하는데 충분하다. 신호의 필터링을 위하여, 필요한 필터는 그리고 나서 데이터베이스로부터 로딩될 수 있다.

바람직하게는, 필터의 필터 계수들은 위상 각에 의존하여 주파수-이동된 오디오 신호를 생산하기 한 장치의 데이터베이스 또는 저장장치로부터 판독될 수 있다.

도 12는 버터플라이 구조를 도시한다. 연속적 근사치들에 의해 가중치들이 결정된다. 도 12는 따라서 부대역(X₄ _, 흑색 선)을 위한 에일리어싱 감소를 도시한다. 모든 변형된 부대역을 위하여 동일한 방법이 상응하게 실행된다. X₄의 변조에 의해 야기되는 에일리어싱 성분의 감소를 위하여, X₄는 가중치들(w₀ 내지 w₄)에 의해 곱해지고 부대역 신호들(X₀, X₂, X₄, X₆ 및 X₈)에 더해진다. 가중치는 항상 1과 동일하다는 것에 유의하여야 한다.

역으로, 이는 부대역들 중 하나의 필터링된 부대역 값을 생산하기 위하여 이러한 부대역의 필터링되지 않은 부대역 및 또 다른 가수(addend)들의 합이 형성되어야만 한다는 것을 의미한다(이러한 부대역의 필터링되지 않은 부대역 값에 적용될 수 있는 가중/필터 계수(w₂)는 w₂=1이다). 또 다른 가수들은 가중된 부대역 값들, 즉 다른 가중/필터 계수들에 의해 곱해진/가중된 각각의 다른 부대역들의 하나의 부대역 값이다.

스펙트럼 엔벨로프의 재구성이 아래에 설명될 것이다.

스펙트럼 엔벨로프의 재구성은 선형 예측 코딩(LPC) 필터링을 사용하여 수행된다. 따라서, 신호의 조성 부분들은 선형 예측 필터에 의해 인코더 내에서 제거되고 선형 예측 코딩 계수들로서 개별적으로 전송된다. 이를 위하여 필요한 필터 계수들은 레빈슨-더빈 반복(Levinson-Durbin recursion)을 사용하여 계산될 수 있다(Larsen 및 Aarts, 2004). 결과는 디코더 내의 기저 대역이 백색 스펙트럼 특징을 획득하는 것이다. 고조파 스펙트럼 대역폭 확장에 의한 대역폭 확장 이후에, 선형 예측 코딩 계수들을 사용하여 역 필터링이 실행되고 따라서 원래의 스펙트럼 엔벨로프는 다시 신호 상에 임프레싱된다(impressed).

도 13은 고조파 스펙트럼 대역폭 확장-선형 예측 코딩 적응을 도시한다. 따라서, X는 엔벨로프 적응 이전의 대역폭 확장 신호를 나타낸다. X_LPC는 엔벨로프 적응 이후의 대역폭 확장 신호이다.

특히, 도 13은 고조파 스펙트럼 대역폭 확장을 사용하여 대역폭-확장된 신호의 이산 푸리에 변환 절대 값 주파수 응답들을 도시한다. 신호(X)는 언급된 백색 신호 특징을 포함한다. 역 선형 예측 코딩 필터링에 의한 엔벨로프의 적용 이후에, 엔벨로프는 원래의 스펙트럼 특징과 상응한다. 부가적으로, 도 13은 사용되는 선형 예측 코딩 필터의 전달 함수를 도시한다. 몇몇 필터 계수들은 스펙트럼 엔벨로프의 충분하게 정확한 기술을 위하여 이미 충분하며, 이러한 실시 예에서 14개의 선형 예측 코딩 탭이 사용된다. 엔벨로프 재구성은 고조파 스펙트럼 대역폭 확장의 표준 성분이 아니며 또 다른 방법에 의해 대체될 수 있다.

제공되는 개념들은 이제 평가(evaluatuin)의 대상이 될 것이다. 평가는 여기서는 고조파 스펙트럼 대역 확장과 연속적 변조-대역폭 확장(CM-BWE)에 의한 대역폭 확장의 신규 방법 및 전위와 한계들에 대한 고조파 스펙트럼 대역폭 확장 효율의 조사 사이의 비교, 그리고 알고리즘 계산 복잡도 모두를 의미한다.

스펙트럼 대역 복제 방법들의 비교가 먼저 설명될 것이다.

연속적 단일 측대역 변조에 의한 대역폭 확장은 시간 도메인 방법이다. 이는 의의 적용을 위하여 시간 신호가 항상 필요할 것이라는 것을 의미한다.

대역폭 확장 후에 연속적 변조-대역폭 확장 방법을 적용할 때 각각 스펙트럼 도메인 내의 신호를 필요로 하는, 엔벨로프 및 조성 적용이 발생하기 때문에, 대역폭-확장된 신호는 다시 주파수 도메인으로 변환되어야만 한다. 시간 도메인으로 그리고 다시 주파수 도메인으로의 이러한 변환은 고조파 스펙트럼 대역 확장과 함께 생략될 수 있는데, 그 이유는 변한이 변형 이산 코사인 변환/변형 이산 사인 변환에서 작동하기 때문이다.

부가적으로, 시간 신호는 연속적인 단일 측대역 변조를 적용하기 전에 분석 신호로 전달된다. 필요한 분석 신호의 계산이 문제가 되는데 그 이유는 이는 힐버트 변환기를 사용하여 실현되기 때문이다. 힐버트 변환의 이상적인 전달 함수는 부호 함수(sign function)이다. 이러한 함수는 무한 길이의 필터에 의해서만 시간 도메인 내에 표현될 수 있다. 유한 임펄스 응답의 실현 가능한 필터를 사용할 때, 이상적인 힐버트 변한기만이 가까울 수 있다. 게다가, 신호는 근사 힐버트 변환 후의 완벽한 분석 특징이 아니다. 계산된 슈도-분석 신호의 품질은 따라서 사용된 필터의 길이에 의존한다.

고조파 스펙트럼 대역 확장의 적용은 또한 부가적인 변환을 필요로 한다. 고조파 스펙트럼 대역 확장이 주파수 도메인 내에서 작동하기 때문에, 위상 변조의 계산을 위하여 복합 스펙트럼이 필요하다. 그러나, 대역폭 확장을 적용하기 전에, 디코더 구조 내에 변형 이산 코사인 변환 계수들만이 존재한다. 따라서, 변형 이산 코사인 변환 계수들은 복합 스펙트럼을 획득하고 따라서 필요한 위상 정보를 획득하기 위하여 변형 이산 코사인 변환 도메인으로 전달되어야만 한다. 이는 여기서는 바람직하게는 역 변형 이산 코사인 변환 및 뒤따르는 변형 이산 사인 변환 변환을 단순화함으로써 형성된 매트릭스 곱셈을 사용하여 실현되는 것으로 고려된다. 나타낸 것과 같이, 이를 위하여 필요한 복잡도의 계산은 상당히 최소화될 수 있으며, 그럼에도 불구하고 변형 이산 사인 변환 계수들의 정확한 계산이 실행될 수 있다.

연속적 변조-대역폭 확장 및 고조파 스펙트럼 대역 확장의 적용 이후에 절대 값 주파수 응답의 개략적인 설정을 고려할 때, 연속적 변조-대역폭 확장 내의 스펙트럼의 부분이 백색 잡음으로 채워져야만 한다는 것을 알 수 있다. 이러한 부분의 고조파 구조는 상실되는데 그 이유는 개별 고조파 서브-톤들이 여기서는 반복되지 않기 때문이다. 고조파 스펙트럼 대역 확장을 적용할 때 이러한 문제점은 발생하지 않는다. 고조파 구조는 어떠한 갭들 없이 연속된다.

고조파 스펙트럼 대역 확장의 복잡도가 아래에 고려될 것이다.

항-에일리어싱 필터링에서 실행되는 덧셈(ADD), 곱셈(MULT), 및 곱셈 누적(multiply-and-accumulate, MAC) 명령 같은, 모든 관련 명령이 평가에서 고려된다. 테이블 5.1은 스펙트럼의 변조와 필터링을 위한 결과들이 요약이다. 그것들은 상응하는 알고리즘들이 구현되는 함수(local_HSBE_patching())를 언급한다.

테이블 5.1

테이블 5.1은 테이블 내의 고조파 스펙트럼 대역 확장 변조 및 항-에일리어싱 필터링의 복잡도를 나타낸다. 목록은 변환 길이(N)에 의존하는 관련 연산들의 수를 포함한다. 그 중에서 2N 덧셈들과 3N 곱셈들이 존재하는, N=2048을 위한 스펙트럼을 변조하기 위하여 총 210241 연산이 필요하다. 필요한 에일리어싱 취소는 훨씬 더 복잡하다. 여기서는 16384 곱셈 누적 연산이 실행된다. 이는 변환 길이, 즉 이 경우에 있어서는 8N에 의해 곱해진 항 에일리어싱 필터의 비-제로 요소들의 수와 상응한다(위의 항-에일리어싱 필터링과 관련된 설명 참조). 이러한 결과와 함께, 변조 및 항-에일리어싱 필터(AAF)의 계산을 위하여 복잡도(

)를 갖는 선형 콘텍스트가 발생한다.

도 14는 이러한 콘텍스트의 그래픽 표현이다. 도 14는 따라서 고조파 스펙트럼 대역 확장 및 항-에일리어싱 필터링의 복잡도를 나타낸다.

고조파 스펙트럼 대역 확장의 중심 요소는 변형 이산 코사인 변환과 변형 이산 사인 변환에 의한 신호의 변환이다. 고속 푸리에 변환과 유사하게, 이러한 변환들을 위하여 고속 알고리즘들이 또한 사용된다. 근본적인 고속 이산 코사인 변환-Ⅳ의 구조가 아래에 더 설명될 것이다. 평가의 결과들은 고속 변형 이산 코사인 변환/변형 이산 사인 변환이 이전에 설명된 다위상 접근법에 따라 구현되는 함수[fmdcst1d()]와 관련된다. 고속 변형 이산 코사인 변환과 변형 이산 사인 변환의 분석이 테이블 5.2에 요약된다.

테이블 5.2 - 고속 변형 이산 코사인 변환/변형 이산 사인 변환의 복잡도

이러한 결과들을 평가할 때, 변형 이산 코사인 변환/변형 이산 사인 변환을 계산하기 위하여 대략 총 (

)의 연산이 필요하다는 것을 알 수 있다. 역 변환에서는 N 곱셈들이 더 실행된다. 이러한 이유는 변환을 위하여 필요한 스케일링이 여기서 실행되기 때문이다. 상응하는 평가가 테이블 5.3에 요약된다.

테이블 5.3 - 고속 역 변형 이산 코사인 변환/변형 이산 사인 변환의 복잡도

결과는 순방향 및 역 변환들을 위한

의 복잡도이다. 따라서 구현되는 알고리즘은 기대한 것과 같이 고속 변환을 위한 요구사항을 충족시킨다. 이러한 평가의 결과가 도 15에 도시된다.

도 15는 고속 변형 이산 코사인 변환/변형 이산 사인 변환의 복잡도를 도시한다. 복합 변형 이산 코사인 변환/변형 이산 사인 변환 도메인으로부터 시간 도메인으로 신호를 전달하기 위하여 두 개의 역 변환이 계산되어야만 한다는 것에 유의하여야 한다. 필요한 연산들의 수는 두 배가 된다.

변형 이산 코사인 변환 계수들의 변형 이산 사인 변환 스펙트럼 값들로의 정확한 전달은 고조파 스펙트럼 대역 확장에서 가장 계산-복잡한 과정이다. 여기서는 하나의 블록의 일정한 지연을 형성할 뿐만 아니라 가장 긴 계산 시간을 나타낸다. 도입된 방법에 의해 필요한 복잡도가 감소된 때에도, 이는 테이블 5.4에 요약된 것과 같이, 많은 수의 연산을 야기한다.

테이블 5.4 - 정확한 변형 이산 코사인 변환/변형 이산 사인 변환 변환의 복잡도

완전히 점유된 매트릭스들, 스펙트럼 벡터에 대한

및

모두의 곱셈을 위하여, 각각 총 N² 곱셈들과 N(N-1) 덧셈들이 필요하다. 드물게 점유된 매트릭스(

)는 2N 곱셈들과 N 덧셈들이 여기서 실행되어야만 하도록 하기 위하여 효율적인 구현을 허용한다. 구현되는 알고리즘을 복잡도를 위하여, 변환 길이에 의존하는 제곱이 존재한다. 이는

에 의해 나타낼 수 있다. 단순화된 방법은 대략적으로 비율(

)에 의해, 더 적은 연산을 필요로 한다. 상응하는 콘텍스트가 도 16에 도시된다. 따라서, 도 16은 복합 변형 이산 코사인 변환/변형 이산 사인 변환 변환의 복잡도를 도시한다.

알고리즘 복잡도 이외에도, 효율을 고려할 때 메모리 사용이 중요한 역할을 갖는다. 오디오 인코더가 구현되는 단말기 장치에 따라, 매우 제한된 양의 저장만이 이용가능할 수 있다. 따라서, 가능한 한 낮게 주 저장장치의 이용을 유지하는 것이 필요하다. 테이블 5.5는 사용되는 자원들을 열거한다. 모듈 설명은 동일한 명칭의 C 소스 파일에 관한 것이다. 여기서는 신호 벡터들과 매트릭스들의 저장과 처리를 위하여 필요한 가장 중요한 버퍼들만이 고려된다.

테이블 5.5 - 고조파 스펙트럼 대역 확장에 의한 메모리 사용

()내의 정보는 변형 이산 코사인 변환/변형 이산 사인 변환의 단순화된 계산을 포함한다.

고조파 스펙트럼 대역 확장의 구현은 단일 정밀도 부동 소수점(single precise floating-point) 연산을 기초로 하며, 이는 부동 소수점 숫자가 32 비트에 의해 표현되는 것을 의미한다. 테이블 5.5에 표시된 숫자는 이러한 모듈에 필요한 부동 소수점 숫자들의 수에 관한 것이다. 테이블로부터 수집될 수 있는 것과 같이, 실제 고조파 스펙트럼 대역 확장 알고리즘을 위한 메모리 사용은 변조, 에일리어싱 취소 및 변형 이산 코사인 변환/변형 이산 사인 변환을 위한 약 109 KiB와 비교하여 상대적으로 적다. 항-에일리어싱 필터들을 위한 데이터베이스는 또한 룩-업 테이블로서 저장되고 총 2715 필터 계수들을 위하여 거의 11 KiB를 필요로 한다. 변환 매트릭스(

)는 메모리 공간 요구에 결정적 영향을 미친다. 약 16 MiB의 작동 메모리가 이러한 매트릭스를 위하여 사용된다. 매트릭스(

)의 메모리 요구는 이전에 설명된 변형 이산 코사인 변환/변형 이산 사인 변환 변환의 단순화에 의해 대단히 감소된다.

으로 처리된 실시 예를 위하여 여기서는 단지 약 0.8 KiB 작동 메모리가 소비된다.

제시된 기술을 사용하여, 여기서 제공되는 고조파 스펙트럼 대역 확장에 의한 대역폭 확장은 스펙트럼의 고조파로 정확한 확장을 허용한다. 그 뒤에, 제공되는 개념들의 전위들과 한계들이 설명될 것이다.

일반적으로, 서로 다른 길이의 신호들이 소유될 수 있다. 그러나, 구현된 고속 변형 이산 코사인 변환/변형 이산 사인 변환을 계산하기 위하여, 변환 길이(N)가 숫자 2의 양의 정수 제곱이 되도록 하는 것이 절대적으로 필요하다. 고급 오디오 코딩과 유사하게, 가능한 최대 블록 길이는 2¹¹, 즉 2048로 제한된다. 고조파 스펙트럼 대역 확장으로, 실핼 시간 동안에 블록 길이를 변경하는 것이 또한 가능하다. 이는 특히 현대 오디오 인코더들에서 트랜지언트 처리를 위하여 필요하다. 스펙트럼 대역 복제는 블록 길이에 의해 결정적으로 결정된다. 큰 변환 길이는 매우 짧은 블록 길이들보다 더 나은 결과를 야기하는 경향이 있다. 이는 변조에 의해 발생하는 에일리어싱 성분들에 의해 야기된다. 4차까지의 스퓨리어스 성분들은 항-에일리어싱 필터링에 의해 억제되나. 그럼에도 불구하고 일부 바람직하지 않은 신호들이 신호 내에 남는다. 매우 짧은 블록 길이들로, 이러한 에일리어싱 성분들은 큰 대역폭을 넘어 확장하고 깨끗하게 들린다. 큰 변환 길이들로, 대역폭은 상응하게 작게 되고 에일리어싱 성분들은 마스킹된다. 256의 블록 길이가 서로 다른 시도에서의 한계로 밝혀졌다. 이러한 길이로부터, 아티팩트들은 도 17에 도시된 것과 같이, 거의 지각되지 않는다.

도 17은 변환 길이에 의존하여, 고조파 스펙트럼 대역 확장 내에 남아있는 간섭을 도시한다. 도 17은 왼쪽 상에 N=32 및 φ=90을 갖는 역 변형 이산 코사인 변환 이후의 스펙트럼을 도시한다. 도 17은 오른쪽 상에 N=256 및 φ=90을 갖는 역 변형 이산 코사인 변환 이후의 스펙트럼을 도시한다.

대체로, 고조파 스펙트럼 대역 확장은 신호의 고조파 구조의 고도로 정확한 재구성을 제공한다. 2156의 변환 길이 및 44100 ㎐에 상응하는 오디오 데이터를 위한 샘플링 주파수를 위하여, 개발된 방법의 해상도는 약 0.5 ㎐의 범위 내에 존재한다. 이는 스펙트럼이 ㎐의 정확하게 반으로 변조될 수 있다는 것을 의미한다. 더 작은 샘플링 주파수 또는 더 큰 블록 길이들로, 해상도는 증가하고 변조는 훨씬 더 정확한 범위들 내에서 실행될 수 있다. 고조파 스펙트럼 대역 확장의 다중-사인 신호로의 적용의 결과가 도 18에 도시된다.

도 18은 고조파 스펙트럼 대역 확장 및 스펙트럼 대역 복제의 비교를 도시한다. REF freq. resp.은 원래의 다중-사인 신호의 스펙트럼을 언급한다. SBR freq. resp.은 스펙트럼 대역 복제에 의해 확장된 신호 대역폭을 언급한다. HSBE freq. resp.은 고조파 스펙트럼 대역 확장에 의해 확장된 신호 대역폭을 언급한다.

도시된 절대 값 주파수 응답들에서 알 수 있는 것과 같이, 스펙트럼은 개발된 고조파 스펙트럼 대역 확장 방법을 사용하여 정확하게 재구성된다. 고조파 스펙트럼 대역 확장을 사용하여(HSBE freq. resp.) 대역-제한된 신호를 처리한 후에, 스펙트럼은 정확하게 원래의 스펙트럼(REF freq. resp.) 위에 존재한다. 고조파로 적용되지 않은 상응하는 스펙트럼(SBR freq. resp.)의 비교 목적을 위하여 도시된다. 이러한 신호는 고조파 스펙트럼 대역 확장 알고리즘을 사용하여 계산되나, 기본적으로 스펙트럼 대역 복제 방법과 상응한다. 컷오프 주파수(f_g=6400 ㎐) 및 이러한 주파수의 두 배의 주파수에서 고조파 구조의 이동이 여기서 깨끗하게 보일 수 있다.

그것들의 편차가 아래에 제공될 것이다.

먼저, 이산 푸리에 변환의 이산 코사인 변환-Ⅱ로의 전달이 유도된다. 특히, 이산 코사인 변환-Ⅱ는 방정식 2.12를 사용하여 방정식 2.10에서의 이산 푸리에 변환으로부터 유도된다(또한 Rao 및 Yip, 2001 참조). 다음이 적용된다:

여기서:

그리고 사인 및 코사인 함수들의 특성은 다음과 같다:

이러한 연결은 또한 고속 푸리에 변환을 사용하여 이산 코사인 변환을 효율적으로 계산하는데 사용될 수 있다(또한 Ahmed 등, 1974 참조).

폴딩 매트릭스들이 아래에 설명될 것이다.

변형 이산 코사인 변환을 계산하는데(방정식 2.35 참조) 필요한 폴딩 매트릭스들(

및

)은 지연 매트릭스(

) 및 윈도우 매트릭스(

)로 구성된다. 윈도우매트릭스는 다이아몬드 구조 내에 배치되는, 윈도우 함수(w[n])의 계수들을 포함한다. 다음이 적용된다:

여기서:

그리고:

인과율을 보존하기 위하여, 역 지연 매트릭스(

)가 지연(z^-1)에 곱해진다. 이는 변형 이산 코사인 변환 필터 뱅크의 지연의 기원이다(Schuller 및 Smith, 1996).

변환 매트릭스 H

변환 매트릭스(

)는 변형 이산 코사인 변환 스펙트럼을 각각의 변형 이산 사인 변환 스펙트럼으로 전달하는데 필요하다. 다음이 적용된다:

N=4의 실시 예를 사용하여 상세한 분해를 나타낼 것이다:

지연 요소들(z^-1)을 갖는 매트릭스들은 각각 두 매트릭스의 덧셈들인 것으로 표현될 수 있다. 다음이 발생할 것이다:

이러한 분해 및 매트릭스(

)를 사용하여, 방정식 A.8은 다음과 같이 표현될 수 있다:

방정식의 개별 항들은 그리고 나서 z에 대한 그것들의 의존성을 사용하여 치환되고:

방정식 A.11a 내로 삽입된다:

방정식 4.7로부터 단순화된 표기법이 그 결과이다:

3개의 부-매트릭스(

및

)는 매트릭스(

)의 계산 복잡도를 상당히 감소시키는데 기여를 하는 일부 중요한 실현을 제공한다. 우선

은 약하게 점유된 매트릭스인 것을 알 것이다. 이는 서로 다른 변환 길이(N)를 위하여 항상 동일한 형태를 나타낼 것이고 요소들(0.5 및 -0.5)을 독점적으로 포함한다. 다음이 적용된다:

매트릭스들(

및

) 사이에 직접적인 연결이 존재하며, 다음을 야기한다:

여기서:

따라서,

은 왼쪽으로부터 곱하여 라인들의 순서를 역전하고, 오른쪽으로부터 곱하여 열들의 순서를 역전하는, N×N 매트릭스이다. 따라서, 방정식 A.16은 그것의 이차 대각선들에 대한 매트릭스(

)의 값들의 반영인 것으로 해석될 수 있다. 이러한 특성들을 사용하여,

을 계산하기 위하여 필요한 복잡도는 원래 필요한 4N³ 연산들로부터(방정식 A.11d 참조) 그것들의 ¼로 감소될 수 있다.

고속 이산 코사인 변환-Ⅳ가 아래에 설명될 것이다. 이산 코사인 변환-Ⅳ의 구현은 고속 이산 코사인 변환-Ⅳ의 알고리즘에 의존한다. 이러한 실현의 장점은 변환의 효율적인 계산 및 거기에 연결되는 짧은 알고리즘 지연이다. 이산 코사인 변환-Ⅳ의 코어는 병렬로 연결되는 방정식 2.14c에 따른 두 가지 이산 코사인 변환-Ⅲ 변환이다. 고속 푸리에 변환과 유사하게, 이는 이른바 버터플라이 구조 및 파이프라인(pipeline) 구조로 구성된다(Rao 및 Yip, 2001). 이러한 알고리즘의 복잡도는

이고 고속 푸리에 변환의 필요한 계산 복잡도와 필적한다. 이산 코사인 변환-Ⅲ의 특정 설정이 도 19에 도시된다. 특히, 도 19는 고속 범용 이산 코사인 변환-Ⅲ/이산 사인 변환-Ⅲ 구조를 도시한다(Rao 및 Yip, 2001).

입력 시퀀스(x_n)는 이산 코사인 변환-Ⅱ 스펙트럼 값들(

)에 전달된다. 이산 코사인 변환-Ⅲ이 이산 코사인 변환-Ⅱ에 대한 역 변환을 나타내기 때문에, 이러한 구조를 사용하여 두 가지 변환이 계산될 수 있다. 이산 코사인 변환-Ⅲ/이산 사인 변환-Ⅲ 및 각각의 역 변환들 이산 코사인 변환-Ⅱ와 이산 사인 변환-Ⅱ를 계산하기 위한 이러한 범용 구조는 방정식 2.14d에 따른 이산 코사인 변환-Ⅳ를 위한 기본을 형성한다. 도 20은 구현된 이산 코사인 변환-Ⅳ의 설정을 도시한다. 따라서, 도 20은 고속 이산 코사인 변환-Ⅳ 구조를 도시한다(Rao 및 Yip, 2001).

도시된 구조들은 바람직하게는 프로그래밍 언어 C에서 실현될 수 있다. 상응하는 함수들은 범용 이산 코사인 변환-Ⅲ/이산 사인 변환-Ⅲ를 위한 dct_processor(), 및 고속 이산 코사인 변환-Ⅳ/이산 사인 변환-Ⅳ를 위한 fdcstiv1d()이다. 이러한 변환의 어떠한 고속 변이도 매트랩에서 구현되지 않는데 그 이유는 알고리즘의 실현이 여기서는 중요하지 않기 때문이다.

매트랩 함수들 및 프로그래밍 언어 C의 함수들의 기술을 위하여 다음의 섹션이 제공된다.

매트랩 함수들:

decoder _ hsbe ()

기술:

decoder_hsbe()는 고조파 스펙트럼 대역 확장(HSBE)을 위한 디코더이다. 변형 이산 코사인 변환 도메인 내의 로-패스 신호는 여기서 신호의 고조파 구조가 유지되는 것과 같이 스펙트럼으로 확장된다. 엔벨로프를 재구성하기 위하여 역 선형 예측 코딩 필터링이 실행된다. 신호는 역 변형 이산 코사인 변환에 의해 시간 도메인으로 전달된다.

프로토타입:

[y varargout] = decoder_hsbe(X_core, T_idct, G, sideinfo, ...

aaf_dat, b_noisefill, b_useMDST);

출력:

y 재구성된 시간 신호

varargout(1) 엔벨로프 적응 이전의 확장된 변형 이산 코사인 변환 스펙트럼

varargout(2) 엔벨로프 적응 이전의 확장된 변형 이산 사인 변환 스펙트럼

varargout(1) 엔벨로프 적응 이전의 복합 스펙트럼

입력:

X_core 변형 이산 코사인 변환 도메인 내의 신호의 기저 대역

T_idct 역 이산 코사인 변환-Ⅳ 변환 매트릭스

G 다이아몬드 형태 내의 변형 이산 코사인 변환을 위한 역 폴딩 매트릭스

sedeinfro 부가 정보

aaf_dat 항-에일리어싱 필터 계수들을 갖는 데이터베이스

선택적(optional):

b_noisefill 잡음이 첨가되는지를 나타내는, 불 방식(Boolean)

b_useMDST 미리 계산된 변형 이산 사인 변환이 사용되는지를 나타내는, 불 방식, 만일 진실이면, X_core는 복합일 필요가 있다.

표준: 거짓(false)

AAFCreator .m

기술:

항-에일리어싱 필터(AAF) 유한 임펄스 응답 필터 생성 도구 "AAFCreator": 항-에일리어싱 필터 유한 임펄스 응답 필터 생성 도구는 고조파 스펙트럼 대역 확장 알고리즘의 부대역 이동으로 에일리어싱 계산을 위하여 필요한 항-에일리어싱 필터들을 계산한다. 필터들은 데이터베이스 내의 유한 임펄스 응답 필터들이다. 데이터베이스는 .met 파일로서 저장되고 1차원 구조를 포함한다. 데이터베이스 내의 모든 아이템은 유한 임펄스 응답 필터가 사용되는 각의 표시 및 벡터로서의 필터 계수들을 포함한다.

프로토타입:

매트랩 스트립트, 어떠한 기능적 명칭이 없음.

출력:

bmp 항-에일리어싱 필터 임펄스 응답 및 에일리어싱 취소의 결과를 갖는 비트맵들

.mat MAT 파일 포맷 내의 항-에일리어싱 필터들을 갖는 데이터베이스

.wav RIFF 오디오 파일로서 항-에일리어싱 필터 임펄스 응답

입력:

fs 테스트 신호의 샘플링 주파수

NMDCT 변환 길이 N

syg_typ 테스트 신호 형태

f 테스트 신호의 주파수

t 테스트 신호의 기간

phi 위상 각 φ, 몇몇 각들이 가능

num_opt 최적화 통과들의 수

num_alias 억제되는 에일리어싱 성분들의 가장 높은 순차

b_save_wav .wav 파일들이 저장되는지를 나타내는, 불 방식

b_save_bmp .bmp 파일들이 저장되는지를 나타내는, 불 방식

b_break 브레이크(breask)가 중간 결과들로 만들어지는지를 나타내는, 불 방식

path_bmp .bmp 파일들을 위한 경로

path_wav .wav 파일들을 위한 경로

AAFoptimizer ()

기술:

AAFoptimizer()는 유한 임펄스 응답 필터로서 항-에일리어싱 필터(AAF)를 발생시킨다. 알고리즘은 계수적으로 연속적 근사에 의한 피크 인식에 의해 검출된 에일리어싱 성분을 최적화한다.

프로토타입:

[fir x_antialias] = AAFoptimizer(x, X_cmpx, T_imdct, ...T_imdst, varargin)

출력:

fir 시간 도메인 내의 항-에일리어싱 필터의 필터 임폴스 응답

x_antialias 유한 임펄스 응답에 의해 에일리어싱-없는 입력 신호 x

입력:

X 에일리어싱 성분들과 함께 제공되는 시간 신호

X_cmpx 변형 이산 코사인 변환/변형 이산 사인 변환 도메인 내의 x의 복합 표현

T_imdct 역 변형 이산 코사인 변환 매트릭스

T_imdst 역 변형 이산 사인 변환 매트릭스

선택:

varagin(1) 억제되는 에일리어싱 성분들의 가장 높은 순차

표준: 4

varagin(2) 최적화 통과들의 수; 표준: 3

varagin(3) 어떠한 x가 변조되었는지를 사용하는 위상 각 φ; 표준: 0

varagin(4) 플롯이 달성되는지를 나타내는, 불 방식;

표준: 거짓

varagin(5) 달성된 플롯들이 저장되는지를 나타내는, 불 방식

varagin(6) .bmp 파일들을 위한 경로; 표준: 0

C 함수들

HSBE processing ()

기술:

HSBE processing()은 고조파 스펙트럼 대역 확장에 의한 대역폭 확장을 위하여 달성된 정적 라이브러리(hsbe.lib)를 위한 주 인터페이스이다. 현재 버전 1.0에서, 시간 도메인 내의 신호 부분은 변형 이산 코사인 변환/변형 이산 사인 변환을 사용하여 변환되고 스펙트럼으로 확장되며 따라서 고조파 구조가 유지된다. 복합 대역폭-확장된 신호는 다시 시간 도메인으로 전달되고 출력된다. 매트랩 함수 decoder_hsbe()에서 수행되는 것과 같이, 엔벨로프 재구성은 발생하지 않는다.

프로토타입:

HSBE_RESULT HSBEprocessing(HSBE_HANDLE HSBEhandle, ...

float *pSamplesIn, float *pSamplesOut, ...

unsigned short nSamplesIn, float frequencyOffset);

출력:

HSBE_RESULT 오류 코드

pSsamplesOut 대역폭-확장된 시간 신호의 벡터에 대한 포인터

입력:

HSBEhandle 고조파 스펙트럼 대역 확장 핸들 구조

pSamplasln 입력 신호의 벡터에 대한 포인터

nSamplesln 변환 길이 N

frequencyOffset 정규화된 주파수로서의 래그 주파수 f_lag

HSBEinit ()

기술:

HSBEinit()는 고조파 스펙트럼 대역 확장을 개시하기 위한 함수이다. 여기서, 필요한 작동 메모리가 예비할당되고(reserved), 윈도우 함수가 계산되며 변형 이산 코사인 변환/변형 이산 사인 변환 변환 매트릭스(

)가 계산된다. 게다가, HSBE processing()을 위하여 필요한 모든 파라미터가 핸들 내로 도입된다.

프로토타입:

HSBE_RESULT HSBEinit(HSBE_HANDLE *HSBEhandle, ...

unsigned short nSamplesIn, float f_core, float f_hsbe, ...

unsigned char windowtype, char flags);

출력:

HSBE_RESULT 오류 코드

HSBEhandle 고조파 스펙트럼 대역 확장 핸들 구조에 대한 포인터

입력:

nSamplesln 변환 길이 N

f_core 정규화된 주파수로서 기저 대역의 컷오프 주파수 f_g

f_hsbe 정규화된 주파수로서 재구성되는 최대 주파수

windowtype 사용되는 윈도우 함수의 형태

flags 체크 플래그들

HSBEfree ()

기술:

HSBEfree()는 HSBEinit()에 의해 요구된 자원들을 방출한다.

프로토타입:

HSBE_RESULT HSBEfree(HSBE_HANDLE*HSBEhandle);

출력:

HSBE_RESULT 오류 코드

입력:

장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것을 이해하여야 한다. 유사하게, 방법 단계와 함께 또는 방법 단계로서 설명된 양상들은 또한 상응하는 블록의 설명 또는 상세내용 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 하드웨어 장치를사용하여) 실행될 수 있다. 일부 실시 예들에서, 가장 중요한 방법 단계들 중 일부 또는 몇몇은 그러한 장치에 의해 실행될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력할 수 있거나 또는 협력하는, 그 안에 저장되는 전자적으로 판독가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리, 하드 디스크 드라이브 혹은 또 다른 자기 또는 광학 저장장치와 같은, 디지털 저장 매체를 사용하여 실행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터로 판독가능할 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 포함하는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

프로그램 코드는 바람직하게는 기계-판독가능한 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다. 바꾸어 말하면, 본 발명의 방법의 일 실시 예는 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 기록된, 데이터 캐리어(또는 데이터 저장 매체,또는 컴퓨터 판독가능 매체)이다.

따라서, 본 발명의 방법의 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 바람직하게는 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는 바람직하게는 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 바람직하게는 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모든 기능을 실행하기 위하여 프로그램가능 논리 장치(바람직하게는 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 일부 실시 예들에서, 방법들은 어떠한 하드웨어 장치의 일부분 상에서 실행된다. 이는 컴퓨터 프로세서(CPU) 같은, 범용으로 사용가능한 하드웨어 또는 예를 들면, 주문형 반도체(ASIC) 같은, 방법에 특이적인 하드웨어일 수 있다.

앞서 설명된 실시 예들은 단지 본 발명의 원리들의 설명을 나타낸다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해하여야 한다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

약어의 의미

AAC 고급 오디오 코딩(advanced audio coding)

AAF 항-에일리어싱 필터(anti-aliasing filter)

ac-3 돌비 디지털 적응적 변환 코더 3(Dolby digital adaptive transform coder 3)

BWE 대역폭 확장(bandwidth extension )

CD 콤팩트 디스크(compact disc)

CM-BWE 연속적 변조 대역폭 확장(continuously modulated bandwidth extension)

DCT 이산 코사인 변환(discrete cosine transform)

DFT 이산 푸리에 변환(discrete Fourier transform)

DST 이산 사인 변환(discrete sine transform)

DVD 디지털 다기능 디스크(digital versatile disc)

FFT 고속 푸리에 변환(fast Fourier transform)

FIR 유한 임펄스 응답(finite impulse response)

HBE 고조파 대역폭 확장(harmonic bandwidth extension)

HE-AAC MPEG-4 고효율 고붑 오디오 코딩(MPEG-4 high-efficiency advanced audio coding)

HF 고주파수(high frequency)

HSBE 고조파 스펙트럼 대역폭 확장(harmonic spectral bandwidth extension)

JPEG 공동 영상 전문가 그룹(joint photographic experts group)

KiB 키비바이트(kibibyte) = 2¹⁰ 바이트 =1024 바이트

LOT 직교 겹침 변환(lapped orthogonal transform)

LPC 선형 예측 코딩(linear predictive coding)

LTI 선형 시간-간격(linear time-invariant)

MDCT 변형 이산 코사인 변환(modified discrete cosine transform)

MDST 변형 이산 사인 변환(modified discrete sine transform)

MiB 메비바이트(mebibyte) = 2²⁰바이트 = 1048576 바이트

mp3 MPED-1 오디오 계층 Ⅲ(MPEG-1 audio layer Ⅲ)

PC 개인용 컴퓨터(personal computer)

PCM 펄스 코드 변조(pulse code modulation)

PR 완전한 재구성(perfect reconstruction)

QMF 직교 미러 필터(quadrature mirror filter)

SBR 스펙트럼 대역 복제(spectral band replication)

SNR 신호-대-잡음 비율(signal-to-noise ratio)

TDA 시간 도메인 에일리어싱(time domain aliasing)

TDAC 시간 도메인 에일리어싱 취소(time domain aliasing cancelation)

USAC 통합 음성 및 오디오 코딩(unified speech and audio coding)

VoIP 보이스 오버 인터넷 프로토콜(voice over Internet protocol)

사용된 기호들의 의미

e 오일러의 수

j 허수 단위

lm 함수의 허수 부분

ld 기본 이진 대수

log 기본 10진 대수

* 복합 컨쥬게이트

Re 함수의 실제 부분

복합도를 추정하기 위한 런다우 기호(Landau symbol

T 전치된

반올림 연산자(rounding operator)

잘라버림(rounding down)의 반올림 연산자

R 실제 숫자들의 양

N 비-음 정수들의 양

N+ 양의 정수들의 양

Z 정수들의 양

ε 정규화 인자, ε∈R

σ 확장의 인자, 윈도우 지수, σ∈N⁺

τ 변조 지수, τ∈N

φ 위상 각, φ∈R

ω 정규화된 주파수, ω∈R

b 블록 지수, b∈N

B 대역폭, B∈R

f 주파수, f∈R

k 이산 주파수 지수, k∈N

m 이산 위상 지수, m∈N

M 위상 수, M∈N

n 이산 시간 지수 n∈N

N 변환 길이, N∈N

t 시간, t∈R

W 복합 회전 페이서(phasor)

h[n] 유한 임펄스 응답 필터의 임펄스 응답

H[z] z 도메인 내의 h[n]의 전달 함수

p_m[n] 이산 신호의 m번째 위상

w[n] 이산 시간 도메인 내의 윈도우 함수

x[n] 이산 시간 도메인 내의 실제 신호

x(t) 연속적인 시간 도메인 내의 실제 신호

X(f) 연속적인 주파수 도메인 내의 신호

x[k] 이산 주파수 도메인 내의 신호

h 벡터 쓰기 내의 임펄스 응답 h[n]

H 벡터 쓰기 내의 H[z]

벡터 쓰기 내의 신호 x[n]

지연 매트릭스

다이아몬드 형태 내의 윈도우 매트릭스

폴딩 매트릭스

다위상 변환 매트릭스

다위상 매트릭스

변환 매트릭스

신호 벡터 x의 블록 매트릭스

변환 신호

문헌들

[Ahmed u. a. 1974] Ahmed, N. ; Natarajan, T. ; Rao, K.R.: Discrete Cosine Transform. In: Computers , IEEE Transactions on C-23 (1974), Januar, Nr. 1

[Bosi und Goldberg 2003] Bosi, M. ; Goldberg, R. E.: Introduction to Digital Audio Coding and Standards. 2nd edition. Boston; Dordrecht; London: Kluwer Academic Publishers, 2003

[Britanak u. a. 2007] Britanak, V. ; Yip, P. C. ; Rao, K. R.: Discrete Cosine and Sine Transforms : General Properties , Fast Algorithms and Integer Approximations. Amsterdam; u.a. : Elsevier,2007

[Burrus und Parks 1985] Burrus, C. S. ; Parks, T.: DFT / FFT and Convolution Algorithms : Theory and Implementation. NewYork: John Wiley&SonsLtd., 1985

[Cheng 2004] Cheng, C.: Method for Estimating Magnitude and Phase in the MDCT Domain. In: Audio Engineering Society Convention 116, Mai 2004

[Dolson 1986] Dolson, M: The Phase Vocoder: A Tutorial. In: Computer Music Journal 10 (1986), Nr. 4

[Ekstrand 2002] Ekstrand, P.: Bandwidth Extension of Audio Signals by Spectral Band Replication. In: Proceedings of 1 st IEEE Benelux Workshop on MPCA, Leuven , Belgium . Bd. 1, November 2002

[Fastl und Zwicker 2007] Fastl, H. ; Zwicker, E.: Psychoacoustics : Facts and Models. 3. Auflage. Berlin; Heidelberg; New York : Springer, 2007

[Jordan-Engeln und Reutter 1978] Jordan-Engeln, G. ; Reutter, F.: Numerische Mathematik fr Ingenieure. 2nd revised edition. Mannheim : Bibliographisches Institut, 1978

[Kiencke und Jkel 2005] Kiencke, U. ; Jkel, H.: Signale und Systeme. 3rd revised edition. Mnchen; Wien : Oldenburg Verlag, 2005

[Larsen und Aarts 2004] Larsen, E. ; Aarts, R. M.: Audio Bandwidth Extension: Application of Psychoacoustics , Signal Processing and Loudspeaker Design. Chichester : John Wiley & Sons Ltd., 2004

[Lochmann 1990] Lochmann, D.: Digitale Nachrichtentechnik : Digitale Modulation und Signalverarbeitung. Bd. 1. Berlin: VBE Verlag Technik, 1990

[Malvar 1992] Malvar, H. S.: Signal Processing with Lapped Transforms . Boston; London: Artech House, 1992

[Malvar und Staelin 1989] Malvar, H. S. ; Staelin, D. H.: The LOT: transform coding without blocking effects. In: Acoustics , Speech and Signal Processing, IEEE Transactions on 37 (1989), April, Nr. 4

[Nagel und Disch 2009] Nagel, F. ; Disch, S.: A harmonic bandwidth extension method for audio codecs. In: Acoustics , Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009

[Nagel u. a. 2010] Nagel, F. ; Disch, S. ; Wilde, S.: A continuous modulated single sideband bandwidth extension. In: Acoustics Speech and Signal Processing ( ICASSP ), 2010 IEEE International Conference on, Mrz 2010

[Princen und Bradley 1986] Princen, J. ; Bradley, A.: Analysis/Synthesis filter bank design based on time domain aliasing cancellation. In: Acoustics , Speech and Signal Processing , IEEE Transactions on 34 (1986), oct, Nr. 5

[Princen u. a. 1987] Princen, J. ; Johnson, A. ; Bradley, A.: Subband/Transform coding using filter bank designs based on time domain aliasing cancellation. In: Acoustics , Speech , and Signal Processing, IEEE International Conference on ICASSP 87. Bd. 12, April 1987

[Rao und Yip 2001] Rao, K. R. ; Yip, P. C.: The Transform and Data Compression Handbook. London; New York; Washington, D.C.: CRC Press, 2001

[Schuller und Smith 1996] Schuller, G. D. T. ; Smith, M. J. T.: New framework for modulated perfect reconstruction filter banks. In: Signal Processing, IEEE Transactions on 44 (1996), August, Nr. 8

[Weinzierl 2008] Weinzierl, S.: Handbuch der Audiotechnik . Berlin ; Heidelberg: Springer, 2008

[Wilde 2009] Wilde, Stephan: Entwicklung von Zeitbereichsverfahren zur Bandbreitenerweiterung von Audiosignalen, Friedrich-Alexander-Universitt Erlangen-Nrnberg, dissertation, 2009

[Yost 1994] Yost,W. A.: Fundamentals of Hearing : An Introduction. 3^rdedition. San Diego; New York; Boston; London; Sydney; Tokyo: Academic Press, 1994

[Zlzer 2005] Zlzer, U.: Digitale Audiosignalverarbeitung. 3rd revised and extended edition. Stuttgart; Leipzig; Wiesbaden : Teubner, 2005

100 : 장치
110 : 인터페이스
120 : 주파수-이동 유닛
150 : 장치
300 : 장치
310 : 인터페이스
315 : 변형 이산 코사인 변환/변형 이산 사인 변환 변환 유닛
318 : 유닛
320 : 주파수-이동 유닛
330 : 필터 유닛
340 : 합성 변환 유닛
350 : 엔벨로프 적응 유닛

Claims

복수의 제 1 부대역을 위하여, 하나 이상의 제 1 부대역 값들에 의해 표현될 수 있는, 오디오 입력 신호를 기초로 하여 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300)에 있어서,
상기 오디오 입력 신호를 수신하기 위한 인터페이스(110; 310); 및
복수의 제 2 부대역을 위하여, 각각 하나 이상의 제 2 부대역 값들로 구성되는, 상기 주파수-이동된 오디오 신호를 생산하기 위한 주파수-이동 유닛(120; 320);을 포함하며,
각각의 상기 제 1 및 제 2 부대역 값들은 각각의 위상 각에 대한 정보를 포함하며,
상기 주파수-이동 유닛(120; 320)은 제 2 부대역 값의 제 2 위상 각이 위상 각 차이만큼 제 1 부대역 값의 제 1 위상 각과 다르도록 상기 제 1 부대역 값들 중 하나의 제 1 부대역 값을 기초로 하여 상기 제 2 부대역 값들 중 하나의 제 2 부대역 값을 생산하며, 상기 위상 각 차이는 주파수-이동된 오디오 신호를 획득하기 위하여 오디오 입력 신호가 이동되는 주파수 차이를 나타내는 주파수 정보에 의존하고, 상기 위상 각 차이는 상기 제 1 부대역들 중 하나의 주파수 대역폭에 의존하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서, 상기 주파수-이동 유닛(120; 320)은 각각의 상기 제 2 부대역들을 위하여 상기 주파수 정보를 기초로 하여 상기 제 1 부대역들 중 하나를 결정하며, 상기 주파수-이동 유닛(120; 320)은 또한 결정된 상기 각각의 제 1 부대역의 상기 제 1 부대역 값들 중 하나 이상을 기초로 하여 상기 각각의 제 2 부대역의 상기 제 2 부대역 값들 중 하나 이상을 생산하며, 상기 주파수-이동 유닛(120; 320)은 개별 제 1 부대역 중 각 제 1 부대역들에 기초하여 개별 제 2 부대역 중 각 제2 부대역 값들 중 하나를 생산하며, 상기 각각의 제 2 부대역 값의 상기 위상 각에 대한 정보가 상기 각각의 제 1 부대역 값의 상기 위상 각에 대한 정보 및 오디오 입력 신호가 이동되는 주파수 차이와 제 1 부대역의 주파수 대역폭의 비율에 대한 정보에 의존하여 개별 제 1 부대역 중 각각이 결정되는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서,
각각의 상기 제 1 부대역 값들 및 각각의 상기 제 2 부대역 값들은 복소수들로서 표현될 수 있고,
상기 주파수-이동 유닛(120, 320)은 복소 지수 함수의 결과 값을 결정하며,
상기 주파수-이동 유닛(120, 320)은 상기 제 2 부대역 값들 중 하나를 표현하는 제 2 복소수를 획득하기 위하여 상기 결과 값에 상기 제 1 부대역 값들 중 하나를 표현하는 제 1 복소수를 곱함으로써 제 1 부대역 값들 중 하나에 기초하여 상기 제 2 부대역 값들 중 적어도 하나를 생산하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 3항에 있어서,
상기 주파수-이동 유닛(120, 320)은 상기 복소 지수 함수의 상기 결과 값을 결정하며, 상기 복소 지수 함수는

이며,
여기서 j는 허수 단위이고, b는 정수이며,
는 도 단위로 나타낸 각이며, 상기 부대역들의 상기 제 1 부대역 값들이 이동되는 주파수 차이에 의존하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서,
상기 주파수-이동 유닛(120, 320)은 상기 제 1 부대역 값들 중 하나를 기초로 하여 상기 제 2 부대역 값들 중 하나를 생산하고,
상기 제 1 부대역 값들은 상기 오디오 입력 신호의 변형 이산 코사인 변환 계수들이거나, 또는 상기 오디오 입력 신호의 직교 미러 필터 변환의 계수들인 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서,
상기 장치(100; 150; 300)는 MDCT/MDST 변환 유닛(315)을 더 포함하고,
상기 MDCT/MDST 변환 유닛(315)은 상기 오디오 입력 신호의 변형 이산 코사인 변환의 계수들인 상기 오디오 입력 신호의 하나 이상의 제 1 변형 이산 코사인 변환의 계수들을 획득하며,
상기 MDCT/MDST 변환 유닛(315)은 상기 오디오 입력 신호의 상기 제 1 변형 이산 코사인 변환 계수들 중 하나 이상을 기초로 하여, 변형 이산 사인 변환의 계수들인 상기 오디오 입력 신호의 하나 이상의 제 1 변형 이산 사인 변환 계수들을 결정하며,
상기 주파수-이동 유닛(120; 320)은 각각 상기 제 1 부대역 값들 중 하나를 기초로 하여 상기 제 2 부대역 값들을 생산하며, 각각의 상기 제 1 부대역 값들은 상기 제 1 변형 이산 코사인 변환 계수들 중 하나를 기초로 하고 상기 제 1 변형 이산 사인 변환 계수들 중 하나는 이러한 상기 제 1 변형 이산 코사인 변환 계수를 기초로 하여 결정된 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 6항에 있어서,
상기 주파수-이동 유닛(120; 320)은 각각 상기 제 1 부대역 값들 중 하나를 기초로 하여 각각의 상기 제 2 부대역 값들을 생산하고, 각각의 상기 제 1 변형 이산 코사인 변환 계수들 및 각각의 상기 제 1 변형 이산 사인 변환 계수들은 실수이며, 각각의 상기 제 1 부대역 값들은 제 1 변형 이산 코사인 변환 계수를 기초로 하여 결정된 허수 단위(j)에 의해 곱해진 상기 제 1 변형 이산 사인 변환 계수들 중 하나 및 상기 제 1 변형 이산 코사인 변환 계수들 중 하나의 합을 나타내는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 6항에 있어서,
상기 MDCT/MDST 변환 유닛(315)은 상기 오디오 입력 신호의 상기 제 1 변형 이산 코사인 변환 계수들 중 하나 이상을 기초로 하여 상기 오디오 입력 신호의 하나 이상의 상기 제 1 변형 이산 사인 변환 계수들을 결정하고,
상기 오디오 입력 신호의 상기 제 1 변형 이산 코사인 변환 계수들은 하나 이상의 열들을 포함하는 변형 이산 코사인 변환 계수 매트릭스(
)의 매트릭스 계수들로서 표현될 수 있으며,
상기 오디오 입력 신호는 블록들로 세분되며,
상기 변형 이산 코사인 변환 계수 매트릭스(
)의 각각의 상기 열들은 상기 오디오 입력 신호의 블록들 중 하나를 나타내며,
상기 변형 이산 코사인 변환 계수 매트릭스(
)의 각각의 상기 열들은 오디오 입력 신호의 각 블록의 변형 이산 코사인 변환 스펙트럼을 형성하며,
상기 MDCT/MDST 변환 유닛(315)은, 변환 매트릭스(
)와 상기 변형 이산 코사인 변환 계수 매트릭스(
)의 매트릭스 곱셈에 의해, 매트릭스 계수들이 제 1 변형 이산 사인 변환 계수들을 표현하는 변형 이산 사인 변환 계수 매트릭스(
_MDST)가 획득되도록 상기 변환 매트릭스(
)의 상기 매트릭스 계수들을 결정하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 6항에 있어서,
상기 MDCT/MDST 변환 유닛(315)은 상기 오디오 입력 신호의 상기 제 1 변형 이산 코사인 계수들 중 하나 이상을 기초로 하여 상기 오디오 입력 신호의 상기 하나 이상의 제 1 변형 이산 사인 변환 계수들을 결정하고,
상기 오디오 입력 신호의 상기 제 1 변형 이산 코사인 계수들은 하나 이상의 열들을 포함하는 변형 이산 코사인 변환 매트릭스(
)의 매트릭스 계수들로서 표현될 수 있으며,
상기 오디오 입력 신호는 블록들로 세분되고, 상기 변형 이산 코사인 변환 계수 매트릭스(
)의 각각의 상기 열들은 상기 오디오 입력 신호의 상기 블록들 중 하나를 표현하며,
상기 MDCT/MDST 변환 유닛(315)은 상기 제 1 변형 이산 사인 변환 계수들을 획득하기 위하여 다음의 공식을 적용하며:

여기서 X(b)는 상기 매트릭스(
)의 b번째 열이고,
X(b-1)은 상기 매트릭스(
)의 b-1번째 열이며,
X(b-2)는 상기 매트릭스(
)의 b-2번째 열이며,

₀은 제 1 부-매트릭스이며,

₁은 제 2 부-매트릭스이며,

₂는 제 3 부-매트릭스이며,
상기 X _MDST(b-1)은 상기 제 1 변형 이산 사인 변환 계수들을 포함하는 블록(b-1)의 변형 이산 사인 변환 스펙트럼을 표현하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 9항에 있어서,
상기 MDCT/MDST 변환 유닛(315)은 상기 제 1 변형 이산 사인 변환 계수들을 결정하기 위하여 다음의 공식을 적용하며:

상기 제 1 부-매트릭스(
₀)의 두 개 이상의 매트릭스 계수들은 0의 값을 포함하고, 상기 제 2 부-매트릭스(
₁)의 두 개 이상의 매트릭스 계수들은 0의 값을 포함하며, 상기 제 3 부-매트릭스(
₂)의 두 개 이상의 매트릭스 계수들은 0의 값을 포함하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 9항에 있어서,
상기 MDCT/MDST 변환 유닛(315)은 상기 제 1 변형 이산 사인 변환 계수들을 획득하기 위하여 다음이 공식을 적용하고,

상기 제 2 부-매트릭스(
₁)는 다음과 같으며:

상기 "..."는 상기 제 2 부-매트릭스(
₁)의 이전의 매트릭스 계수들의 동일한 값들이 상기 제 2 부-매트릭스(
₁)의 뒤따르는 매트릭스 계수들에서 계속됨을 의미하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서, 상기 장치(100; 150; 300)는 부가적으로 필터 유닛(330)을 포함하고, 상기 필터 유닛(330)은 상기 제 1 부대역 값들을 기초로 하여 상기 제 2 부대역 값들을 생산할 때 형성된 상기 제 2 부대역 값들의 노이즈 성분들이 감소되도록 복수의 필터 계수를 포함하는 필터를 적용함으로써 상기 제 2 부대역 값들을 필터링하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 12항에 있어서,
상기 주파수-이동 유닛(120; 320)은 제 2 부대역 값의 상기 제 2 위상 각이 상기 위상 각 차이만큼 제 1 부대역 값의 상기 제 1 위상 각과 다르도록 상기 제 1 부대역 값들 중 하나를 기초로 하여 상기 제 2 부대역 값들 중 하나를 생산하고,
상기 필터 유닛(330)은 상기 필터를 적용함으로써 상기 제 2 부대역 값들을 필터링하며, 상기 필터 계수들 중 하나 이상은 상기 위상 각 차이에 의존하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 13항에 있어서,
상기 장치(100; 150; 300)는 부가적으로 저장장치 또는 데이터베이스를 포함하고, 상기 필터 계수들 중 하나 이상은 상기 위상 각 차이에 의존하며,
상기 필터 유닛(330)은 상기 위상 각 차이에 의존하여 상기 저장장치 또는 상기 데이터베이스로부터 상기 필터 계수들을 판독하며,
상기 필터 유닛(330)은 상기 저장장치 또는 상기 데이터베이스로부터 판독된 상기 필터 계수들을 포함하는 상기 필터를 적용함으로써 상기 제 2 부대역 값들을 필터링하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 12항에 있어서,
상기 필터 유닛(330)은 각각의 상기 제 2 부대역들을 위한 하나 이상의 필터링된 부대역 값들을 획득하기 위하여 각각의 상기 제 2 부대역들의 각각의 상기 하나 이상의 제 2 부대역 값들을 필터링하고,
상기 필터 유닛(330)은 제 1 가수 및 하나 이상의 추가 가수들의 합을 계산함으로써 각각의 상기 필터링된 부대역 값들을 결정하며,
상기 제 1 가수는 상기 제 2 부대역들 중 하나의 상기 제 2 부대역 값들 중 하나이며,
상기 하나 이상의 추가 가수들은 하나 이상의 가중된 부대역 값들이며,
상기 필터 유닛(330)은 상기 필터 계수들 중 하나를 또 다른 부대역들의 하나의 상기 또 다른 부대역 값을 곱함으로써 각각 상기 하나 이상의 가중된 부대역 값들을 결정하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 12항에 있어서,
상기 필터 유닛(330)은 상기 제 2 부대역 값들의 노이즈 성분들이 감소되도록 상기 복수의 필터 계수를 포함하는 상기 필터를 적용함으로써 상기 제 2 부대역 값들을 필터링하고,
상기 필터의 상기 필터 계수들은 정렬된 시퀀스(ordered sequence)이고, 이러한 시퀀스에서, 0과 동일하지 않은 모든 필터 계수는 0과 동일한 필터 계수들이 뒤따르는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서, 상기 인터페이스(110; 310)는 상기 오디오 입력 신호의 상기 부대역들의 상기 제 1 부대역 값들이 이동되는 주파수 차이를 나타내는 주파수 정보를 수신하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서,
상기 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300)는 합성 변환 유닛(340)을 더 포함하고,
상기 합성 변환 유닛은 상기 제 2 부대역 값들을 복수의 시간 도메인 샘플로 변환함으로써 상기 주파수-이동된 오디오 신호를 획득하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 1항에 있어서,
상기 주파수-이동된 오디오 신호를 생산하기 위한 장치(150)는 주파수-확장된 오디오 신호를 생산하며,
상기 장치(150)는 상기 주파수-이동된 오디오 신호의 상기 제 2 부대역 값들을 생산하는 상기 장치(150)에 의해 주파수-확장된 오디오 신호를 생산하며, 상기 주파수-확장된 오디오 신호는 상기 오디오 신호의 상기 제 1 부대역 값들 및 상기 주파수-이동된 오디오 신호의 상기 제 2 부대역 값들을 포함하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 19항에 있어서,
상기 주파수-이동된 오디오 신호를 생산하기 위한 장치(150)는 합성 변환 유닛(340)을 더 포함하고,
상기 합성 변환 유닛은 상기 제 1 부대역 값들 및 상기 제 2 부대역 값들을 복수의 시간 도메인 샘플들로 변환함으로써 상기 주파수-확장된 오디오 신호를 획득하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 19항에 있어서, 상기 주파수-이동된 오디오 신호를 생산하기 위한 장치(150)는 부가적으로 스펙트럼 엔벨로프가 상기 주파수-확장된 신호 상에 임프레스되도록(impressed) 상기 주파수-확장된 오디오 신호를 필터링하는 엔벨로프 적응 유닛(350)을 포함하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
제 21항에 있어서, 상기 엔벨로프 적응 유닛(350)은 상기 주파수-확장된 신호 상에 상기 스펙트럼 엔벨로프를 임프레스(impress)하기 위하여 선형 예측 코딩 계수들을 사용하여 역 필터링에 의해 상기 주파수-확장된 오디오 신호를 필터링하는 것을 특징으로 하는 주파수-이동된 오디오 신호를 생산하기 위한 장치(100; 150; 300).
복수의 제 1 부대역을 위하여 하나 이상의 제 1 부대역 값들에 의해 표현될 수 있는, 오디오 입력 신호를 기초로 하여 주파수 이동된 오디오 신호를 생산하는 방법에 있어서,
상기 오디오 입력 신호를 수신하는 단계; 및
복수의 제 2 부대역을 위하여, 하나 이상의 제 2 부대역 값들 각각을 포함하는, 상기 주파수-이동된 오디오 신호를 생산하는 단계;를 포함하며,
각각의 상기 제 1 및 제 2 부대역 값들은 각각의 위상 각에 대한 정보를 포함하며,
상기 제 2 부대역 값들 중 하나는 제 2 부대역 값의 제 2 위상 각이 위상 각 차이만큼 제 1 부대역 값의 제 1 위상 각과 다르도록 상기 제 1 부대역 값들 중 하나를 기초로 하여 생산되고, 상기 위상 각 차이는 상기 주파수-이동된 오디오 신호를 획득하기 위하여 상기 오디오 입력 신호가 이동되는 주파수 차이를 나타내는 주파수 정보에 의존하고, 상기 위상 각 차이는 상기 제 1 부대역들 중 하나의 주파수 대역폭에 의존하는 것을 특징으로 하는 주파수 이동된 오디오 신호를 생산하는 방법.
컴퓨터 프로그램이 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 23항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 매체.