KR20170103042A

KR20170103042A - 오디오 주파수 신호 복호기에서 주파수 대역 확장을 위한 최적화된 스케일 팩터

Info

Publication number: KR20170103042A
Application number: KR1020177024524A
Authority: KR
Inventors: 막달레나 카니에브스카; 스테판 라고트
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2013-07-12
Filing date: 2014-07-04
Publication date: 2017-09-12
Also published as: JP2016528539A; BR122017018553B1; JP6515157B2; CA3108924A1; CA3109028C; US10438600B2; RU2016104466A; BR122017018556B1; RU2017144519A; BR122017018557B1; WO2015004373A1; US10943594B2; RU2668058C2; RU2017144518A3; CN105378837B; US20160203826A1; RU2016104466A3; JP6515158B2; US10943593B2; US20190385626A1

Abstract

본 발명은, 오디오 주파수 신호의 주파수 대역 확장을 위한 과정 동안 여기 신호 또는 필터에 적용되는 최적화된 스케일 팩터를 결정하기 위한 방법에 관한 것이며, 대역 확장 과정(E601)은 제1 주파수 대역에서 여기 신호 및 선형 예측 필터의 계수를 포함하는 제1 주파수 대역의 파라미터를 복호화하거나 추출하는 단계, 적어도 하나의 제2 주파수 대역에서 확장된 여기 신호를 발생시키는 단계, 및 선형 예측 필터에 의해서 2 주파수 대역을 위해 필터링하는 단계를 포함한다. 이 결정 방법은, 제1 주파수 대역의 선형 예측 필터보다 낮은 차수이고 추가 필터로 불리는 선형 예측 필터를 결정하는 단계(E602)로서, 추가 필터의 계수가 제1 주파수 대역으로부터 복호화되었거나 추출된 파라미터로부터 획득되는 단계, 및 최적화된 스케일 팩터를 적어도 추가 필터의 계수들의 함수로서 계산하는 단계(E603)를 포함한다. 본 발명은 또한, 기술된 바와 같은 방법을 이용해서 최적화된 스케일 팩터를 결정하기 위한 장치 및 이와 같은 장치를 포함하는 복호기에 관한 것이다.

Description

오디오 주파수 신호 복호기에서 주파수 대역 확장을 위한 최적화된 스케일 팩터{OPTIMIZED SCALE FACTOR FOR FREQUENCY BAND EXTENSION IN AN AUDIOFREQUENCY SIGNAL DECODER}

본 발명은, 오디오 주파수 신호(예를 들어 음성, 음악 또는 이와 같은 다른 신호)의 전송 또는 저장을 위한, 오디오 주파수 신호의 부호화/복호화 및 처리 분야에 관한 것이다.

더욱 특별하게, 본 발명은, 여기 신호의 레벨을 조정하기 위해, 또는 동등한 방식으로, 오디오 주파수 신호를 향상시키는 복호기 또는 프로세서 내에서 주파수 대역 확장의 부분으로서의 필터의 레벨을 조정하기 위해 사용될 수 있는 최적화된 스케일 팩터를 결정하기 위한 방법 및 장치에 관한 것이다.

음성 또는 음악과 같은 오디오 주파수 신호를 (손실과 함께) 압축하기 위한 많은 기술이 존재한다.

대화형 애플리케이션을 위한 종래의 부호화 방법은 일반적으로 파형 부호화 ("펄스 코드 변조(Pulse Code Modulation)"인 PCM, "적응 차분 펄스 코드 변조(Adaptive Differential Pulse Code Modulation)"인 ADCPM, 변형 부호화 등), 파라메트릭 부호화("선형 예측 부호화(Linear Predictive Coding)"인 LPC, 사인파 부호화 등), 및 CELP("코드 여기 선형 예측(Code Excited Linear Prediction)") 부호화가 가장 잘 알려진 예인 "합성에 의한 분석"에 의한 파라미터의 양자화를 갖는 파라메트릭 하이브리드 부호화로 분류된다.

비-대화형 애플리케이션을 위해, (모노) 오디오 신호 부호화에 대한 선행 기술은 대역 복제(band replication)에 의한 고 주파수의 파라메트릭 부호화와 함께, 변화에 의한 또는 부 대역에서의 지각 부호화(perceptual coding)로 구성된다.

종래의 음성 및 오디오 부호화 방법의 검토는 W.B. Kleijn and K.K. Paliwal (eds.)의 Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg의 Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.)의 Handbook of Speech Processing, Springer 2008에서 발견될 수 있다.

여기서의 초점은 특히 3GPP 표준화 AMR-WB("적응 다중 비율 광대역") 코덱(부호기 및 복호기)에 관한 것으로서, 이 3GPP 표준화 AMR-WB는 16 kHz의 입력/출력 주파수에서 작동하고, 이 3GPP 표준화 AMR-WB 내에서는 신호가 2개의 부 대역으로, 즉 12.8 kHz에서 샘플링되고 CELP 모델에 의해 부호화되는 저 대역(0 내지 6.4 kHz) 및 현재 프레임의 모드에 의존하는 부가적인 정보가 있거나 없는 "대역 확장"(또는 "대역폭 확장(Bandwidth Extension)"인 BWE)에 의해서 파라미터에 의해 재구성되는 고 대역(6.4 내지 7 kHz)으로 분할된다. 7kHz에서 AMR-WB 코덱의 부호화된 대역의 제한은, 광대역 단말의 전송에서의 주파수 응답이 표준 ITU-T P.341에서 정의된 주파수 마스크에 따라, 보다 상세하게는 7 kHz를 초과하는 주파수를 차단하는 표준 ITU-T G.191에서 정의된 소위 "P341" 필터(이 필터는 P.341 에서 정의된 마스크를 관찰함)를 사용해서 표준화 시간(ETSI/3GPP 그 다음에 ITU-T)에 근사하게 된다는 사실과 본질적으로 연결된다는 사실이 주목될 수 있다. 그러나 이론적으로는 16 kHz에서 샘플링된 신호가 0 내지 8000 Hz의 정의된 오디오 대역을 가질 수 있다는 사실이 잘 알려져 있다; 따라서, AMR-WB 코덱은 8 kHz의 이론적인 대역폭과의 비교에 의해서 고 대역의 제한을 소개한다.

3GPP AMR-WB 음성 코덱은 2001년에 주로 GSM(2G) 및 UMTS(3G) 상에서의 회로 모드(CS) 전화 통화 애플리케이션용으로 표준화되었다. 이와 같은 동일한 코덱은 또한 2003년에 ITU-T에 의해서 권장 G.722.2 "적응 다중 비율 광대역(AMR-WB)을 이용한 16 kbit/s 근처에서의 광대역 부호화 음성"의 형태로 표준화되었다.

이 음성 코덱은 6.6 내지 23.85 kbit/s에서 모드로 불리는 9 비트 레이트를 포함하며, 음성 활동 검출(VAD; Voice Activity Detection) 및 무음 서술 프레임("무음 삽입 서술자(Silence Insertion Descriptor)"인 SID)으로부터의 편안한 잡음 발생(CNG; Comfort Noise Generation)을 갖는 연속적인 전송 메커니즘("불연속적인 전송(Discontinuous Transmission)"인 DTX), 및 손실 프레임 보정 메커니즘("프레임 손실 은닉(Frame Erasure Concealment)"인 FEC, 때때로 "패킷 손실 은닉(Packet Loss Concealment)"인 PLC로 불림)을 포함한다.

AMR-WB 부호화 및 복호화 알고리즘의 세부 내용은 여기서 반복되지 않는다; 이와 같은 코덱에 대한 상세한 서술은 3GPP 명세서(TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) 및 ITU-T-G.722.2(해당 부속물 및 부록), 및 "적응 다중 비율 광대역 음성 코덱(AMR-WB)", IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620 내지 636, 및 "the source code of the associated 3GPP and ITU-T standards"라는 제목의 B. Bessette 외의 논문에서 발견될 수 있다.

AMR-WB 코덱에서의 대역 확장 원리는 상당히 기초적이다. 실제로, 고 대역 (6.4 내지 7 kHz)은 시간(서브 프레임 당 이득의 형태로 적용됨)과 주파수(선형 예측 합성 필터 또는 "선형 예측 부호화"인 LPC의 적용에 의해) 포락선을 통해 백색 잡음을 형성함으로써 발생된다. 이와 같은 대역 확장 기술은 도 1에 도시되어 있다.

백색 잡음

는 선형 합동 발생기에에 의해 각 5 ms 서브 프레임에 대해 16 kHz에서 발생된다(블록(100)). 이 소음

은 각 서브 프레임에 대한 이득의 적용에 의해서 제시간에 포맷된다; 이 작동은 2개의 처리 단계로 분할된다(블록(102, 106 또는 109)):

제1 팩터는 저 대역의 12.8 kHz에서 복호화된 여기의 레벨

과 유사한 레벨에서 백색 잡음

을 설정하기 위해(블록(102)) 계산된다(블록(101)):

에너지의 정규화가 샘플링 주파수(12.8 또는 16 kHz)에서 차이의 보상 없이 상이한 크기의 블록(

에 대해 64 그리고

에 대해 80)을 비교함으로써 수행된다는 사실에 주목할 수 있다.

그러므로 고 대역의 여기는 다음과 같은 식으로 획득될 수 있다(블록(106 또는 109)):

이고,

여기서 이득

는 비트 레이트에 의존해서 다르게 획득된다. 현재 프레임의 비트 레이트가 23.85 kbit/s 미만이라면, 이득

는 "블라인드" (즉, 부가 정보 없는 것을 일컬음); 이 경우에, 블록(103)은 신호

을 얻기 위해 400 Hz에서 컷오프 주파수를 갖는 고역 통과 필터에 의해 저 대역에서 복호화된 신호를 필터링 한다 - 이런 고역 통과 필터는 블록(104)에서 형성된 추정치를 왜곡할 수 있는 매우 낮은 주파수의 영향을 제거한다 - 그 다음에 신호

의

로 표시된 "틸트"(스펙트럼 슬로프의 지시자)가 정규화된 자체 상관에 의해 계산된다(블록(104)):

그리고 결국

는 다음의 식으로 계산된다:

여기서,

는 활성 음성(SP) 프레임에 적용된 이득이며,

는 배경(BG) 잡음과 관련된 비활성 음성 프레임에 적용된 이득이며,

는 음성 활동 검출(VAD)에 의존하는 가중 함수이다. 틸트(

)의 추정치는 고 대역의 레벨을 신호의 스펙트럼 특성의 함수로서 조정하는 것을 가능하게 하는 것으로 이해된다; 이 추정치는, CELP 복호화된 신호의 스펙트럼 슬로프가, 주파수가 증가할 때(

가 1에 가까워지고, 이에 따라

가 감소되는 유성음 신호의 경우) 평균 에너지가 감소하는 것일 때에 특히 중요하다. AMR-WB 복호화에서 팩터

는 범위[0.1, 1.0] 내에서 값을 받아들이도록 한다는 사실이 또한 주목되어야 한다. 실제로, 주파수가 증가할 때(

가 -1에 가까워지고,

가 2에 가까워질 때) 에너지가 증가하는 신호에 대해서 이득

는 통상 과소평가된다.

23.85 kbit/s에서는, 보정 정보 아이템이 각 서브 프레임(5 ms 마다 4 비트, 또는 0.8 kbit/s)에 대해 추론된 이득을 개선하기 위해서 AMR-WB 부호기와 복호기(블록(107, 108))에 의해 전송된다. 그리고 인위적 여기(

)는 전달 함수

의 LPC 합성 필터(블록(111))에 의해 필터링 되고(블록(111)), 16 kHz의 샘플링 주파수에서 작동한다. 이 필터의 구성은 현재 프레임의 비트 레이트에 의존한다.

6.6 kbit/s에서, 필터(

)는 팩터

=　0.9에 의해 저 대역 (12.8 kHz에서)에서 복호화된 차수 16의 LPC 필터인

를 "추론하는" 차수 20의 LPC 필터인

에 가중치를 둠으로써 획득된다 - ISP(Imittance Spectral Frequency) 파라미터 영역에서 추론의 세부사항들은 섹션 6.3.2.1의 표준 G.722.2에 기술되어 있다; 이 경우에,

6.6 kbit/s보다 큰 비트 레이트에서 필터(

)는 차수 16이며, 단순히:

에 상응하는데, 여기서

=　0.6이다. 이 경우에는 필터(

)가 16 kHz에서 사용되고, 이는 [0, 6.4 kHz]부터 [0, 8kHz]까지 이 필터의 주파수 응답의 확산(비례적 변형에 의해)을 초래한다는 사실이 주목되어야만 한다.

그 결과,

은 결국 6 내지 7 kHz 대역만을 유지하기 위해 FIR("Finite Impulse Response") 방식의 대역 통과 필터(블록(112))에 의해 처리된다; 23.85 kbit/s에서 또한 FIR 타입의 저역 통과 필터(블록(113))는 7 kHz를 초과하는 주파수들을 더욱 약화시키는 처리에 부가된다. 고 주파수(HF) 합성은 결국, 블록(120 내지 122)에 의해서 획득되고 16 kHz에서 리샘플링 된(블록(123)) 저 주파수(LF) 합성에 부가된다(블록(130)). 따라서, 고 대역이 이론적으로는 AMR-WB 코덱에서 6.4부터 7 kHz까지 확장되더라도, HF 합성은 오히려 LF 합성을 부가하기 전의 6 내지 7kHz 대역에 포함되어 있다.

AMR-WB 코덱의 대역 확장 기술에서의 다수의 결점은 특히 다음과 같은 것으로 나타날 수 있다:

각 서브 프레임(블록(101, 103 내지 105))에 대한 이득의 추론은 최적이 아니다. 부분적으로, 이 추론은 상이한 주파수에서 신호들 간의 서브 프레임 당 "절대적" 에너지의 균등화에 근거한다(블록(101)): 16 kHz에서의 인위적인 여기(백색 잡음) 및 12.8 kHz에서의 신호(복호화된 ACELP 여기). 특히, 이와 같은 접근법이 내재적으로 고-대역 여기(12.8/16　=　0.8의 비율에 의해)의 감쇠를 유도한다는 사실이 주목될 수 있다; 실제로, 또한 어떤 디-엠퍼시스(de-emphasis)도 AMR-WB 코덱에서 고 대역 상에서 수행되지 않으며, (6400 Hz에서

의 주파수 응답의 값에 상응하는) 0.6에 상대적으로 가까운 증폭을 내포적으로 유도한다는 사실도 주목받게 될 것이다. 실제로, 1/0.8 및 0.6의 팩터가 거의 보상된다.

음성에 관해서, 3GPP 리포트 TR 26.976에 기록된 3GPP AMR-WB 코덱 특성 테스트는 23.85 kbit/s에서의 모드가 23.05 kbit/s에서보다 낮은 품질을 가지며 그 품질은 15.85 kbit/s에서 모드의 품질과 유사하다는 것을 보여준다. 이것은 특히 인공 HF 신호의 레벨은 품질이 23.85 kbit/s에서 열화되어 있는 반면에, 프레임당 4 비트가 원래 고 주파수의 에너지에 근접하는 것을 최선으로 가능하게 하는 것으로 고려되기 때문에, 매우 신중하게 제어되어야 한다는 것을 보여준다.

7 kHz(블록(113))에서 저역 통과 필터는 저 대역과 고 대역 사이에서 거의 1　ms의 이동(shift)을 진행하면서 23.85 kbit/s에서 2개 대역을 약간 역동기화하여 특정 신호의 품질을 잠재적으로 저하시킬 수 있다 - 이와 같은 역동기화는 23.85 kbit/s로부터 다른 모드로 비트 레이트가 전환될 때 문제를 또한 제기할 수 있다.

일시적 접근을 통한 대역 확장의 일 실시예가 AMR-WB+ 코덱(2005년에 표준화됨)을 기술하는 3GPP 표준 TS 26.290에 기술되어 있다. 이 실시예는 3GPP 명세서 TS 26.290의 도 16 및 도 10에 각각 상응하는 도 2a(일반적인 블록도) 및 도 2b(반응 레벨 보정에 의한 이득 예측)의 블록도에 도시되어 있다.

AMR-WB+ 코덱 내에서는, 주파수 Fs(Hz로 나타냄)에서 샘플링된 (모노) 입력 신호는 2개의 LPC 필터가 계산되고 개별적으로 부호화된 2개의 별도 주파수 대역으로 분할된다:

저 대역(0 내지 Fs/4)에서

로 표시된 하나의 LPC 필터 - 이 필터의 양자화된 버전은

로 표시되어 있다.

스펙트럼적으로 앨리어싱된 고 대역(Fs/4 내지 Fs/2)에서

로 표시된 다른 LPC 필터 - 이 필터의 양자화된 버전은

로 표시되어 있다.

대역 확장은 3GPP 명세서 TS 26.290의 섹션 5.4(HF 부호화) 및 6.2(HF 복호화)에 상세하게 기재된 바와 같이 AMR-WB+ 코덱에서 수행된다. 그 원리는 다음과 같이 요약된다: 연장은 저 주파수(LFC excit.)에서 복호화된 여기를 이용하는 것 및 서브 프레임 당 시간적 이득(블록(205)) 및 LPC 합성 필터링(블록(207))에 의해서 이와 같은 여기를 포맷하는 것으로 구성된다; 여기를 향상시키고(후처리)(블록(206)), 재구성된 HF 신호의 에너지를 평활화하기(블록(208)) 위한 처리 동작들은 더욱이 도 2a에 도시된 바와 같이 실시된다.

AMR-WB+에서의 이와 같은 연장은 부가적 정보의 전송을 필요로 한다는 사실에 주목하는 것이 중요하다: 204의 필터

의 계수 및 서브 프레임 당 시간 포맷 이득(블록(201)). AMR-WB+에서의 대역 확장 알고리즘의 한가지 특별한 특징은, 서브 프레임 당 이득이 예측적인 접근에 의해서 양자화된다는 것이다; 다른 말로 표현하면, 이득은 직접적으로 부호화되는 것이 아니라 오히려

로 표시되는 이득의 추정치에 상대적인 이득 보정치로 부호화된다는 것이다. 이 추정치(

)는 저 대역과 고 대역(Fs/4) 간 분리 주파수에서 필터

와

간 레벨 등화 팩터에 실제로 상응한다. 팩터

의 계산(블록(203))은 본원의 도 2b에서 재생된 3GPP 명세서 TS 26.290의 도 10에 상세하게 기재되어 있다. 이 도면을 여기서 더 상세하게 기재하지는 않을 것이다. 블록(210 내지 213)은 필터

가 스펙트럼으로 앨리어스 된 고 대역을 모델화한 것임을 연상할 때 (저 대역 및 고 대역을 분리하는 필터 뱅크의 스펙트럼 속성들 때문에),

의 임펄스 반응의 에너지를 계산하는 데 사용된다는 사실에 단순히 주목해야 할 것이다. 필터들이 서브 프레임에 의해 보간(interpolate)되기 때문에, 이득(

)은 프레임당 한 번만 계산되고, 서브 프레임에 의해 보간된다.

AMR-WB+에서의 대역 확장 이득 부호화 기술, 더욱 특별하게는 접속점에서 LPC 필터들의 레벨 보상은 저 대역 및 고 대역에서의 LPC 모델에 의한 대역 확장의 문맥에서 적절한 방법이며, LPC 필터들 사이의 레벨 보상이 AMR-WB 코덱의 대역 확장에서는 나타나지 않는다는 사실이 주목될 수 있다. 그러나 분리 주파수에서 2개 LPC 필터 간 레벨의 직접적인 등화가 최적의 방법이 아닐 수 있다고 검증하는 것이 실제로 가능하며, 고 대역에서는 에너지의 과대평가를 그리고 특정 경우에는 가청 아티팩트를 야기할 수 있다; LPC 필터가 스펙트럼 포락선 및 2개 LPC 포락선의 상대적 레벨을 조정하기 위한 주어진 주파수 양에 대한 2개 LPC 필터 간 레벨의 등화 원리를 나타낸다는 것이 상기될 것이다. 현재 정확한 주파수에서 수행되는 이와 같은 등화는 신호의 주파수 포락선이 그 근방에서 크게 변동할 때 등화점 근방에서(주파수에서) 에너지의 완전한 연속성과 전체적인 일관성을 확보해주지 않는다. 문제를 가정하는 수학적 방법은 2개 곡선 사이의 연속성이 이들을 하나의 동일한 지점에서 만나게 함으로써 확보될 수 있다는 사실을 알리는 것으로 구성되지만, 국소적 속성들(연차 도함수)이 더 포괄적인 일관성을 확보하기 위해 일치한다는 사실을 보장하기 위한 것은 아무 것도 없다. 저 대역 및 고 대역 LPC 포락선들 사이에서 스폿 연속성을 보증하는 것에서의 위험은, 너무 강하거나 너무 약한 상대적인 레벨에서, 즉 더욱 방해적인 아티팩트를 야기하기 때문에 너무 강한 것이 더욱 위협적인 레벨의 경우에, 고 대역에서 LPC 포락선을 설정하는 것이다.

더욱이, AMR-WB+의 이득 보상은 주로 부호기 및 복호기에 알려진 이득의 예측이며, 고-대역 여기 신호를 스케일링하는 이득 정보의 전송에 필요한 비트 레이트를 감소시키는 역할을 한다. 이제, AMR-WB 부호/복호의 상호 운영 가능한 향상의 문맥에서는, AMR-WB 23.85 kbit/s 모드에서 대역 확장의 서브 프레임(0.8 kbit/s)에 의해 이득에 대한 기존의 부호화를 변경하는 것이 가능하지 않다. 게다가, 엄격히 23.85 kbit/s 미만의 비트 레이트에 대해서, 저 대역 및 고 대역에서 LPC 필터의 레벨 보상은 AMR-WB과 양립 가능한 복호의 대역 확장에 적용될 수 있지만, 경험상 최적화 없이 적용된 AMR-WB+ 부호화로부터 파생된 이와 같은 솔(sole) 기술은 고 대역 에너지(6 kHz 초과)의 과대평가라는 문제를 야기할 수 있다.

따라서, 주파수 대역에서 에너지를 전혀 과대평가하지 않고, 부호기로부터 부가 정보를 요구하지 않으면서 AMR-WB 유형의 코덱 또는 이와 같은 코덱의 상호 운영이 가능한 버전에서 주파수 대역 확장에 대한 상이한 주파수 대역들의 선형 예측 필터들 간의 이득 보상을 개선할 필요가 있다.

본 발명의 과제는, 상기와 같은 상황을 개선하는 것이다.

이를 위해, 본 발명은 오디오 주파수 신호 주파수 대역 확장 방법에서 여기 신호 또는 필터에 적용되는 최적화된 스케일 팩터를 결정하는 방법을 목표로 하며, 이 대역 확장 방법은 제1 주파수 대역에서 여기 신호 및 선형 예측 필터의 계수를 포함하는 제1 주파수 대역의 파라미터를 복호화하거나 추출하는 단계, 적어도 하나의 제2 주파수 대역에서 확장된 여기 신호를 발생시키는 단계, 및 선형 예측 필터에 의해서 제2 주파수 대역을 위해 필터링하는 단계를 포함한다. 이 결정 방법은 다음 단계들:

- 제1 주파수 대역의 선형 예측 필터보다 낮은 차수이고 추가 필터로 불리는 선형 예측 필터를 결정하는 단계로서, 이 추가 필터의 계수가 제1 주파수 대역으로부터 복호화되었거나 추출된 파라미터로부터 획득되는 단계; 및

- 최적화된 스케일 팩터를 적어도 추가 필터의 계수들의 함수로서 계산하는 단계를 포함한다.

따라서, 등화되는 제1 주파수 대역의 필터보다 낮은 차수의 추가 필터의 사용은 포락선의 국부적 변화의 원인일 수 있으며, 예측 필터의 등화를 방해할 수 있는 고 주파수에서의 에너지 과대평가를 회피하는 것을 가능하게 한다.

따라서, 제1 및 제2 주파수 대역의 선형 예측 필터들 사이에서의 이득의 등화가 향상된다.

정식으로 획득된 최적화된 스케일 팩터의 유리한 적용예에서, 대역 확장 방법은 최적화된 스케일 팩터를 확장된 여기 신호에 적용하는 단계를 포함하다.

적절한 구현예에서, 최적화된 스케일 팩터의 적용은 제2 주파수 대역에서 필터링 단계와 결합된다.

따라서, 필터링 단계 및 최적화된 스케일 팩터의 적용 단계는 처리 복잡도를 감소시키기 위한 단일의 필터링 단계와 결합된다.

특정 구현예에서, 추가 필터의 계수들은 보다 낮은 차수를 획득하기 위해 제1 주파수 대역의 선형 예측 필터의 전달 함수의 단절(truncation)에 의해서 획득된다.

따라서, 이와 같은 보다 낮은 차수의 추가 필터는 간단한 방식으로 획득된다.

더욱이, 안정적인 필터를 획득하기 위해서, 추가 필터의 계수들이 추가 필터의 안정성 기준의 함수로서 변형된다.

특정 구현예에서, 최적화된 스케일 팩터의 계산 단계는 다음의 단계들:

- 공통 주파수를 위한 제1 및 제2 주파수 대역의 선형 예측 필터의 주파수 응답을 계산하는 단계;

- 이와 같은 공통 주파수를 위한 추가 필터의 주파수 응답을 계산하는 단계; 및

- 최적화된 스케일 팩터를 정식으로 계산된 주파수 응답의 함수로서 계산하는 단계를 포함한다.

따라서, 최적화된 스케일 팩터는 신호의 마루와 골을 보여주는 공통 주파수 부근의 제1 대역의 보다 높은 차수의 필터 주파수 응답에서 일어날 수 있는 방해적인 아티팩트를 피하는 방식으로 계산된다.

특정 구현예에서, 이 방법은 사전에 결정된 복호화 비트 레이트를 위해 실시되는 다음 단계들:

- 서브 프레임 당 계산된 이득에 의해서, 확장된 여기 신호를 복호화된 여기 신호와 확장된 여기 신호 사이의 에너지 비율의 함수로서 제1 스케일링하는 단계;

- 복호화된 보정 이득에 의해서, 제1 스케일링으로부터 획득된 여기 신호를 제2 스케일링하는 단계; 및

- 현재의 서브 프레임에 대해 제2 스케일링 이후에 획득된 신호의 에너지의 함수로서 그리고 최적화된 스케일 팩터의 적용 이후에 획득된 신호의 함수로서 계산된 조정 팩터에 의해서, 여기 에너지를 조정하는 단계를 더 포함한다.

따라서, 부가 정보는 사전에 결정된 작동 모드에 대한 확장된 신호의 품질을 향상시키기 위해 사용될 수 있다.

또한, 본 발명은 오디오 주파수 신호 주파수 대역 확장 장치에서 여기 신호 또는 필터에 적용되는 최적화된 스케일 팩터를 결정하기 위한 장치를 목표로 하며, 이 대역 확장 장치는 제1 주파수 대역에서 여기 신호 및 선형 예측 필터의 계수를 포함하는 제1 주파수 대역의 파라미터를 복호화하거나 추출하는 모듈, 적어도 하나의 제2 주파수 대역에서 확장된 여기 신호를 발생시키는 모듈, 및 선형 예측 필터에 의해서 제2 주파수 대역을 위해 필터링하는 모듈을 포함한다. 이 결정 장치는:

- 제1 주파수 대역의 선형 예측 필터보다 낮은 차수이고 추가 필터로 불리는 선형 예측 필터를 결정하기 위한 모듈로서, 이 추가 필터의 계수가 제1 주파수 대역으로부터 복호화되었거나 추출된 파라미터로부터 획득되는 모듈; 및

- 최적화된 스케일 팩터를 적어도 추가 필터의 계수들의 함수로서 계산하기 위한 모듈을 포함한다.

본 발명은, 기술된 바와 같은 장치를 포함하는 복호기를 목표로 한다.

본 발명은, 프로세서에 의해 실행될 때에, 기술된 바와 같은 최적화된 스케일 팩터를 결정하기 위한 방법의 단계들을 실행하기 위한 코드 명령을 포함하는 컴퓨터 프로그램을 목표로 한다.

마지막으로, 본 발명은, 프로세서에 의해 판독될 수 있고, 최적화된 스케일 팩터를 결정하기 위한 장치에 통합되어 있거나 통합되어 있지 않으며, 아마도 제거 가능하고, 전술된 바와 같은 최적화된 스케일 팩터를 결정하기 위한 방법을 실행하는 컴퓨터 프로그램을 저장하는 저장 매체에 관한 것이다.

본 발명의 다른 특성 및 이점들은, 단순히 비제한적인 예로서 제공된 다음의 상세한 설명을 읽음으로써 그리고 첨부한 도면을 참조함으로써 명백해질 것이다:
- 도 1은 종래의 기술 및 전술된 주파수 대역 확장 단계를 실시하는 AMR-WB 타입의 복호기의 일부분을 도시한다;
- 도 2a 및 도 2b는 종래의 기술 및 전술된 AMR-WB+ 코덱에서 고 대역의 부호화를 제시한다.
- 도 3은 AMR-WB 부호화와 상호 연동 가능하며, 본 발명의 구현예에 따라 사용되는 대역 확장 장치를 통합하는 복호기를 도시한다;
- 도 4는 본 발명의 구현예에 따른 비트 레이트의 함수로서의 서브 프레임에 의해 최적화된 스케일 팩터를 결정하기 위한 장치를 도시한다; 그리고
- 도 5a 및 도 5b는 본 발명의 구현예에 따른 최적화된 스케일 팩터의 계산을 위해 사용되는 필터의 주파수 응답을 도시한다;
- 도 6은 본 발명의 구현예에 따른 최적화된 스케일 팩터를 결정하기 위한 방법의 주요 단계를 흐름도의 형태로 도시한다;
- 도 7은 대역 확장의 부분으로서 최적화된 스케일 팩터를 결정하기 위한 장치의 주파수 영역에서의 구현예를 도시한다;
- 도 8은 본 발명에 따른 대역 확장에서 최적화된 스케일 팩터 결정 장치의 하드웨어 구현예를 도시한다.

도 3은 블록(309)에 도시된 대역 확장 장치에 의해 실시되는 본 발명의 방법의 구현예에 따른 최적화된 스케일 팩터의 결정을 포함하는 대역 확장이 존재하는 AMR-WB/G.722.2 표준과 양립 가능한 예시적인 복호기를 도시한다.

16 kHz에서의 출력 샘플링 주파수와 함께 작동하는 AMR-WB 복호화와 달리, 복호기는 여기서 주파수 fs =　8, 16, 32 또는 48 kHz에서 출력 신호(합성)와 함께 작동할 수 있는 것으로 고려된다. 부호화가 저 대역에서 CELP 부호화를 위한 12.8 kHz의 내부 주파수와 함께, 그리고 23.85 kbit/s에서 16kHz의 주파수에서의 서브 프레임 당 이득 부호화와 함께 AMR-WB 알고리즘에 따라 수행되는 것으로 가정한다는 사실에 주목해야 한다; 본 발명이 여기서는 복호화 레벨에서 기술된다 하더라도, 부호화는 주파수 fs =　8, 16, 32 또는 48 kHz에서 입력 신호와 함께 또한 작동할 수 있으며, 본 발명의 문맥을 넘어서 적절한 리샘플링 작동이 fs의 값의 함수로서 부호화하는 것에서 실행되는 것으로 가정한다. fs = 8 kHz일 때에는, AMR-WB와 양립하는 복호화의 경우에, 주파수(fs)에서 재구성되는 오디오 대역이 0 내지 4000 Hz로 제한되기 때문에, 0 내지 6.4 kHz 저 대역으로 확장할 필요가 없다는 사실이 주목될 수 있다.

도 3에서, CELP 복호화(저주파수용 LF)는 여전히 AMR-WB에서와 같이 12.8 kHz의 내부 주파수에서 작동하고, 본 발명을 위해 사용된 대역 확장(고 주파수인 HF)은 16 kHz의 주파수에서 작동하며, LF 및 HF 합성은 적절한 리샘플링(블록(306) 및 블록(311)에서 내부 처리) 후에 fs 주파수에서 결합된다(블록(312)). 변형 구현예에서, 저 대역과 고 대역의 결합은, fs 주파수에서 결합된 신호를 리샘플링하기 전에 12.8 kHz 내지 16 kHz의 저 대역을 리샘플링한 후에 16 kHz에서 수행될 수 있다.

도 3에 따른 복호화는 수신된 현재 프레임과 연관된 AMR-WB 모드 (또는 비트 레이트)에 의존한다. 지시한 바와 같이, 블록(309)에 영향을 주지 않고, 저 대역에서의 CELL 부분의 복호화는 다음과 같은 단계를 포함한다:

정확하게 수신된 프레임의 경우에 (bfi = 0, 여기서 bfi는 수신된 프레임에 대해 0의 값을 갖고 소실된 프레임에 대해 1의 값을 갖는 "bad frame indicator"임) 부호화된 파라미터의 역다중화(demultiplexing) 단계(블록(300));

표준 G.722.2의 6.1절에 기술된 바와 같은 보간 및 LPC 계수로의 변형을 갖는 ISF 파라미터의 복호화 단계(블록(301));

12.8 kHz에서 길이 64의 각 서브 프레임에서 여기(exc 또는

)를 재구성하기 위한 적응성의 고정된 부분을 이용한 CELP 여기의 복호화 단계(블록(302)):

는 CELP 복호화와 관련해서 AMR-WB 부호기/복호기와 상호 운영 가능한 복호기의 ITU-T 추천 G.718의 7.1.2.1절의 표기법을 따른 것으로, 여기서

및

은 각각 적응성의 고정된 사전의 코드 워드이며,

및

는 연관된 복호화 이득이다. 이와 같은 여기(

)는 다음 서브 프레임의 적응 사전에 사용되며; 그것은 후처리 되고, G.718에서와 같이, 여기(

)(또한 exc로도 표기됨)는 변경되어 후처리 된 버전

(또한 exc2로도 표기됨)과 구별되며, 블록(303)에서는 합성 필터

에 대한 입력의 역할을 하며;

(블록(303))에 의한 합성 필터링 단계로서, 여기서 복호화된 LPC필터

는 차수 16이며;

fs = 8이면, G.718의 7.3 절에 따라 협-대역 후-처리하는 단계(블록(304));

필터

에 의한 디-엠퍼시스 단계(블록(305));

G.718의 7.14.1.1절에 기술된 바와 같이, 저 주파수에서 교차-고조파 잡음을 감쇠하는 저 주파수("베이스 포스 필터"라고 불림)의 후처리 단계(블록(306)). 이와 같은 처리는 고 대역의 복호화에서 고려되는 지연을 도입하며(6.4 kHz 초과);

출력 주파수(fs)에서 12.8 kHz의 내부 주파수를 리샘플링하는 단계(블록(307)). 다수의 구현예가 가능하다. 일반성을 상실하지 않고, 여기서는 실시예를 거쳐서 fs = 8 또는 16 kHz이면 G.718의 7.6절에 기술된 리샘플링이 반복되고, fs = 32 또는 48 kHz이면 추가의 유한 임펄스 응답(FIR) 필터가 사용된다는 점이 고려된다.

레벨 감소에 의해 침묵의 품질을 "증진시키기" 위해서 G.718의 7.14.3절에서 기술된 바와 같이 우선적으로 수행되는 "잡음 게이트"의 파라미터를 계산하는 단계(블록(308)).

본 발명을 위해 실시될 수 있는 변형예에서는, 여기에 적용된 후처리 작동이 변형될 수 있거나(예를 들어, 위상 분산이 향상될 수 있거나) 이와 같은 후처리 작동들이 대역 확장의 속성에 영향을 미치지 않으면서 확장될 수 있다(예를 들어, 교차 고조파 잡음의 축소가 실행될 수 있다).

블록(306, 308, 314)의 사용이 선택적이라는 사실이 주목될 수 있다.

또한, 전술된 저 대역의 복호화가 6.6 내지 23.85 kbit/s의 비트 레이트를 가진 소위 "활성" 현재 프레임을 가정하고 있다는 사실이 또한 주목될 수 있다. 실제로, DTX 모드가 활성화될 때, 특정 프레임은 "비활성"으로 부호화될 수 있으며, 이 경우에는 침묵 서술자(silence descriptor)(35 비트로)를 전송하거나 아무것도 전송하지 않는 것이 가능하다. 특히, SID 프레임이 다수의 파라미터를 기술한다는 사실이 상기될 것이다: 8개 프레임에 걸쳐 평균을 낸 ISF 파라미터, 8개 프레임에 걸친 평균 에너지, 비정상 잡음의 재구성에 대한 "디더링(dithering)" 플래그. 모든 경우에 복호기에서 여기의 재구성 및 현재 프레임에 대한 LPC 필터의 재구성과 함께 활성 프레임에 대한 동일한 복호화 모델이 있으며, 이것은 대역 확장을 비활성 프레임에까지 적용하는 것을 가능하게 한다. 동일한 관찰이 LPC모델이 적용된 "상실된 프레임"(또는 FEC, PLC)의 복호화에 적용된다.

여기에 기술된 구현예에서, 도 7을 참고하면, 복호기는 복호화된 저 대역 (복호기에서 50 Hz 고역 통과 필터를 고려한 50 내지 6400 ㎐, 일반적인 경우에는 0 내지 6400 Hz)을 확장된 대역까지 확장하는 것이 가능하며, 그 대역 폭은 현재 프레임에 구현된 모드에 의존하는 약 50 내지 6900 Hz로부터 50 내지 7700 Hz까지에 걸쳐서 변한다. 따라서, 0 내지 6400 Hz의 제1 주파수 대역 및 6400 내지 8000 Hz의 제2 주파수 대역을 참조하는 것이 가능하다. 실제로, 바람직한 구현예에서, 여기의 확장은 6000 내지 6900 또는 7700 Hz 폭의 대역 통과 필터링을 허용하기 위해서, 5000 내지 8000 Hz 대역의 주파수 대역에서 수행된다.

23.85 kbit/s에서는, 23.85 kbit/s에서 전송된 HF 이득 보정 정보(0.8 kbit/s)가 여기서 복호화된다. 그 사용은 도 4를 참조하여 이하에서 전술된다. 고 대역 합성 부분은 본 발명을 위해 사용된 대역 확장 장치를 나타내는 블록(309)에서 산출되며, 일 구현예의 도 7에 상세하게 기술되어 있다.

복호화된 저 대역 및 고 대역을 정렬하기 위해, 딜레이(블록(310))는 블록(306 및 307)의 출력을 동기화하기 위해 도입되며, 16 kHz에서 합성된 고 대역은 16 kHz에서 fs 주파수까지 리샘플링 된다(블록(311)의 출력). 딜레이 T의 값은 고 대역 신호가 합성되는 방식, 및 저 주파수의 후처리에서와 같이 fs 주파수에 의존한다. 따라서, 일반적으로, 블록(310)에서 T 값은 특정한 구현예에 따라 조절되어야만 할 것이다.

그 다음에 저 대역 및 고 대역은 블록(312)에서 결합(부가) 되며, 획득된 합성은 차수 2의 50 Hz 고역 통과 필터링(IIR 타입)에 의해 후처리 되고, 그 계수는 fs 주파수에 의존하며(블록(313)), G.718과 유사한 방식으로 "잡음 게이트"의 선택적 응용과 함께 후처리를 출력한다(블록(314)).

도 3을 참조하여, 주파수 대역 확장 과정에서 여기 신호에 적용되기 위한 최적화된 스케일 팩터를 결정하기 위한 장치의 구현예가 이제 기술된다. 이 장치는 전술된 대역 확장 블록(309)에 포함된다.

따라서, 블록(400)은 제1 주파수 대역

에서 복호화된 여기 신호로부터 적어도 하나의 제2 주파수 대역에서 확장된 여기 신호

을 얻기 위한 대역 확장을 수행한다.

여기서 본 발명에 따른 최적화된 스케일 팩터 추론은 신호

이 획득되는 방식과 무관하다는 사실이 주목될 것이다. 그러나 그의 에너지와 관련된 한 가지 조건이 중요하다. 실제로, 6000 내지 8000 Hz의 고 대역의 에너지는 블록(302)의 출력에서 복호화된 여기 신호의 4000 내지 6000 Hz 대역의 에너지와 유사한 레벨에 있어야만 한다. 더욱이, 저 대역 신호가 디-엠퍼시스되기 때문에(블록(305)), 디-엠퍼시스는 또한 특정 디-엠퍼시스 필터를 사용하거나 언급된 필터의 평균 감쇠에 상응하는 상수 팩터에 곱함으로써, 고 대역 여기 신호에 적용되어야만 한다. 이 조건은 부호기에 의해 전송되는 추가 정보를 사용하는 23.85 kbit/s 비트 레이트의 경우에는 적용되지 않는다. 이 경우에, 고 대역 여기 신호의 에너지는, 후술되는 바와 같이, 부호기에 상응하는 신호의 에너지와 일치해야만 한다.

주파수 대역의 확장은, 예를 들면, 백색 잡음으로부터, 블록(100 내지 102)에서 도 1을 참조하여 기술된 AMR-WB 타입의 복호기와 동일한 방식으로 실행될 수 있다.

다른 구현예에서, 이 대역 확장은 백색 잡음과 도 7에서 블록(700 내지 707)에 대해 추후에 도시되고 기술될 복호화된 여기 신호의 결합으로부터 수행될 수 있다.

복호화된 여기 신호와 아래에서 기술되는 바와 같은 확장된 여기 신호 사이에서 에너지 레벨을 유지하는 다른 주파수 대역 확장 방법들은 블록(400)을 위해 물론 예상될 수 있다.

더욱이, 대역 확장 모듈은 또한 복호기와 무관할 수 있고, 여기 및 그로부터 LPC 필터를 추출하기 위한 오디오 신호의 분석과 더불어, 확장 모듈에 저장되거나 전송된 기존의 오디오 신호에 대한 대역 확장을 수행할 수 있다. 이 경우에, 확장 모듈의 입력에서 여기 신호는 더 이상 복호화된 신호가 아니라 본 발명의 구현예에서 최적화된 스케일 팩터를 결정하기 위한 방법에 사용되는 제1 주파수 대역의 선형 예측 필터의 계수들과 마찬가지로 분석 후에 추출된 신호이다.

도 4에 도시된 실시예에서, 최적화된 스케일 팩터의 결정이 블록(401)에 한정되는 비트 레이트가 23.85kbit/s 미만인 경우가 먼저 고려된다.

이 경우에는,

으로 표시된 최적화된 스케일 팩터가 계산된다. 일 구현예에서, 이 계산은 각 프레임에 대해 우선적으로 수행되며, 합성된 고 대역의 과도한 에너지를 초래할 수 있는 과대평가의 경우를 피하고 그 결과로 가청 아티팩트를 발생시키기 위한 추가 예방책으로, 도 7을 참조하여 후술되는 바와 같이, 저 주파수 및 고 주파수에서 사용되는 LPC 필터

와

의 주파수 응답의 레벨을 등화시키는 것으로 구성된다.

대안적인 일 구현예에서는, AMR-WB 복호기 또는 AMR-WB 부호기/복호기와 연동할 수 있는 복호기에서 실시된 것으로서, 예를 들어 ITU-T 추천 G.718에 따라, 외삽 HF 합성 필터

를 필터

의 위치에서 유지하는 것이 가능할 수 있다. 이때, 본 발명에 따른 보상은 필터

및

로부터 수행된다.

최적화된 스케일 팩터의 결정은 또한 추가 필터로 불리는, 즉 제1 주파수 대역의 선형 예측 필터

보다 낮은 차수의 선형 예측 필터의 결정에 의해(401a에서) 수행되며, 추가 필터의 계수들은 제1 주파수 대역으로부터 복호화되었거나 추출된 파라미터들로부터 획득된다. 그 다음에 최적화된 스케일 팩터는 확장된 여기 신호

에 적용되는 적어도 이와 같은 계수들의 함수로서 계산된다(401b에서).

블록(401)에서 실시된 최적화된 스케일 팩터의 결정 원리는 16 kHz에서 샘플링된 신호로부터 얻어지는 구체적인 실시예와 함께 도 5a 및 도 5b에 도시되어 있다; 아래에서 R, P, Q로 지시된 3개 필터의 주파수 응답 진폭 값은 현재 서브 프레임의 6000 Hz(수직 점선)의 공통 주파수에서 계산되며, 현재 프레임의 인덱스 m은 여기서 텍스트를 밝게 하기 위한 서브 프레임에 의해 보간된 LPC 필터의 표기법에서 상기되지 않는다. 6000 Hz에서의 값은 저 대역의 나이퀴스트 주파수(Nyquist frequency), 즉 6400 Hz에 가까운 것으로 선택된다. 최적화된 스케일 팩터를 결정하기 위해서 나이퀴스트 주파수를 받아들이지 않는 것이 선호된다. 실제로, 저 주파수에서 복호화된 신호의 에너지는 일반적으로는 이미 6400 Hz에서 감쇠된다. 더욱이, 여기서 기술된 대역 확장은 6000 내지 8000 Hz의 범위에 걸쳐있는 고 대역으로 불리는 제2 주파수에서 수행된다. 본 발명의 변형예에서는, 최적화된 스케일 팩터를 결정하기 위한 일반성의 손실 없이, 6000 Hz가 아닌 주파수가 선택될 수 있다는 사실에 주목해야 한다. 2개의 LPC 필터가 분리 대역을 위해 정의된 경우를 고려하는 것이 또한 가능할 것이다(AMR-WB+에서와 같이). 이 경우에, R, P 및 Q는 분리 주파수에서 계산될 것이다.

도 5a 및 도 5b는 수량 R, P, Q가 정의되는 방법을 도시한다.

제1 단계는 6000 Hz의 주파수에서 제1 주파수 대역(저 대역) 및 제2 주파수 대역(고 대역)의 선형 예측 필터에서 주파수 응답 R 및 P를 계산하는 것으로 구성된다. 다음이 먼저 계산된다:

여기서,

은 복호화된 LPC 필터

의 차수이며,

는 12.8 kHz의 샘플링 주파수를 위해 정규화된 6000 Hz의 주파수에 상응한다, 즉:

이다.

그리고 마찬가지로 다음이 계산된다:

여기서

이다.

바람직한 일 구현예에서, 수량

와

은 다음 의사 코드(pseudo code)에 따라 계산된다:

px = py = 0

rx = ry = 0

i=0 내지 16인 경우에

px = px + Ap[i]*exp_tab_p[i]

py = py + Ap[i]*exp_tab_p[33-i]

rx = rx + Aq[i]*exp_tab_q[i]

ry = ry + Aq[i]*exp_tab_q[33-i]

역으로

P = 1/sqrt (px*px+py*py)

R = 1/sqrt (rx*rx+ry*ry)

여기서, Aq[i]=

는

(차수 16)의 계수에 상응하고, Ap[i]=

는

의 계수에 상응하며, sqrt()는 제곱근 계산에 상응하며, 그리고 사이즈 34의 테이블 exp_tab_p와 exp_tab_q는 6000 Hz의 주파수와 연관된 복합적 지수의 실수부와 허수부를 포함하며, 이때

exp_tab_p[i] =

exp_tab_q[i] =

추가의 예측 필터는 예를 들어 다항식

를 차수 2로 적절하게 단절함으로써(truncating) 획득된다.

사실상, 차수까지의 직접적 단절은 일반적으로 차수 2의 필터가 안정적인 것을 보장할 것이 아무 것도 없기 때문에 문제를 제기할 수 있는 필터

에 도달한다. 따라서, 바람직한 일 구현예에서는, 필터

의 안정성이 검출되고, 필터

가 사용되며, 그 계수들은 불안정성 검출의 함수로서

에서 나온다. 더욱 특별하게는, 다음이 초기화된다:

, i=1, 2

필터

의 안정성은 상이하게 검증될 수 있다; 여기서, 변형은 다음과 같은 계산에 의해 PARCOR 계수(또는 반사 계수) 영역에서 사용된다:

, i=1, 2이면 안정성이 검증된다. 따라서,

의 값은 다음과 같은 단계와 함께 필터의 안정성을 보장하기 전에 조건적으로 변경된다.

여기서, min (.,.)과 max (.,.)는 각각 2개 피연산자의 최소값 및 최대값을 제공한다.

따라서,

에서 0.99이고

에서 0.6인 임계값이 본 발명의 변형예에서 조정될 수 있다는 사실에 주목해야만 한다. 제1 반사 계수

이 차수 1에 모델링된 신호의 스펙트럼 슬로프(또는 틸트)를 특징짓는다는 사실이 상기될 것이다. 본 발명에서,

의 값은 이 슬로프를 유지하고,

의 슬로프와 유사한 틸트를 유지하기 위해, 안정성 한계에 가까운 값에서 포화된다. 제2 반사 계수

가 차수 2에 모델링된 신호의 공명 레벨을 특징짓는다는 사실 또한 상기될 것이다; 차수 2의 필터의 사용이 6000 Hz의 주파수 주변에서, 그와 같은 공명의 영향을 제거하는 것을 목표로 하기 때문에,

의 값은 더 강하게 제한된다; 이와 같은 제한은 0.6에서 설정되어 있다.

그 다음에는

의 계수들이 다음에 의해 획득된다:

따라서, 부가적인 필터의 주파수 반응은 결국 다음과 같이 계산된다:

,

이때

이다. 이 수량은 다음의 의사 코드에 따라 우선적으로 계산된다:

qx = qy = 0

i=0 내지 2인 경우에

qx = qx + As[i]*exp_tab_q[i];

qy = qy + As[i]*exp_tab_q[33-i];

역으로

Q = 1/sqrt (qx*qx+qy*qy)이고

여기서 As[i]=

이다.

일반성의 손실 없이, 그렇지 않으면, 예를 들어 J.D. Markel and A.H. Gray, Linear Prediction of Speech, Springer Verlag, 1976에 기술된 "스텝 다운(STEP DOWN)"이라 불리는 LPC 차수의 환원 절차를 차수 16의 LPC 필터

에 적용하거나, 또는 12.8 kHz에서 합성된(복호화된) 그리고 윈도잉 된 신호에 관해 계산된 자체 상관으로부터 2개의 Levinson-Durbin(또는 스텝-업(STEP-UP)) 알고리즘 반복을 수행함으로써 차수 2의 필터의 계수를 계산하는 것이 가능할 것이다.

일부 신호에 대해서, 복호화된 3개의 제1 LPC 계수로부터 계산된 수량

는 스펙트럼에서 스펙트럼 슬로프(또는 틸트)의 영향을 더 고려하고, 모든 LPC 계수로부터 계산된, 수량

의 값을 왜곡할 수 있거나 상승시킬 수 있는 6000 Hz에 가까운 "위조" 마루 또는 골의 영향을 회피한다.

바람직한 일 구현예에서, 최적화된 스케일 팩터는 미리 계산된 수량 R, P, Q로부터 조건적으로 다음과 같이 추론된다:

틸트(r (i)이 자체 상관인 식 r (1)/r(0)에서 정규화된 자체 상관에 의해 블록(104)의 AMR-WB에서와 같이 계산됨)가 음이면(도 5b에서 나타난 바와 같이 틸트 < 0이면), 스케일 팩터의 계산은 다음과 같이 수행된다:

고 대역 에너지의 과도하게 급격한 변화로 인한 아티팩트를 피하기 위해, 평활화가

의 값에 적용된다. 바람직한 구현예에서, 지수 평활화가 고정 팩터에 의해 제시간(0.5)에 다음과 같은 식으로 수행된다:

여기서

는 전술한 서브 프레임에서

의 값에 상응하며, 팩터 0.5는 경험적으로 최적화된다 - 명백하게 팩터 0.5는 또 다른 값에 대해 변경될 수 있으며, 다른 평활화 방법 또한 가능하다. 이와 같은 평활화가 일시적인 변형을 감소시키는 것을 가능하게 하고, 이에 따라 아티팩트를 회피한다는 사실에 주목해야만 한다.

그 다음에 최적화된 스케일 팩터는 다음의 식에 의해서 주어진다:

대안적인 일 구현예에서는, 다음과 같이

의 평활화를

의 평활화로 대체하는 것이 가능할 것이다:

틸트(블록(104)의 AMR-WB에서와 같이 계산됨)가 양이면(그림 5a에서 나타난 바와 같이 틸트 > 0이면), 스케일 팩터의 계산은 다음과 같이 수행된다:

수량

이 낮을 때에는, 보다 강한 평활화로 수량

이 적응적으로 제시간에 평활화된다 - 전술된 경우에서와 같이, 이와 같은 평활화는 일시적인 변형을 감소시킬 수 있고, 이에 따라 아티팩트를 회피한다:

여기서

그 다음에는, 최적화된 스케일 팩터가 다음의 식에 의해서 주어진다:

대안적인 일 구현예에서는,

의 평활화를 위에서 계산된

의 평활화로 대체하는 것이 가능할 것이다.

,

여기서,

은 전술한 프레임의 최종 서브 프레임에 대해 계산된 스케일 또는 이득 팩터이다.

R, P, Q의 최소값은 여기서 스케일 팩터를 과대평가하는 것을 피하기 위해 받아들여진다.

일 변형예에서, 틸트에만 의존하는 위의 조건은 결정을 개선하기 위해 틸트 파라미터들뿐만 아니라 다른 파라미터까지도 고려하기 위해 확장될 수 있다. 더욱이,

의 계산은 상기 추가 파라미터에 따라 조정될 수 있다.

추가 파라미터의 일 실시예는, 다음과 같이 정의될 수 있는 영점 교차(ZCR, 영점 교차 비율)의 수이다:

여기서,

파라미터

은 일반적으로 틸트와 유사한 결과를 제공한다. 좋은 분류 기준은 합성 신호

에 대해 계산된

및 12 800 Hz에서 여기 신호

에 대해 계산된

사이의 비율이다. 이 비율은 0과 1 사이에 있으며, 여기서 0은 신호가 감소 스펙트럼을 갖는다는 것을 의미하고, 1은 스펙트럼이 증가하고 있다는 것 (

에 상응함)을 의미한다. 이 경우에,

> 0.5의 비율은

<　0의 경우에 상응하고,

<　0.5의 비율은

>　0의 경우에 상응한다.

일 변형예에서는, 파라미터

의 함수를 사용하는 것이 가능할 것이며, 여기서

는 가령 4800 Hz에서의 컷-오프 주파수를 가진 고역 통과 필터에 의해서 필터링된 합성 신호

에 대해 계산된 틸트이다; 이 경우에, (16 kHz에서 적용된) 6에서 8 kHz까지의 응답

은 4.8에서 6.4 kHz까지의 가중 응답

에 상응한다.

이 더 평활화된 응답을 가지기 때문에, 이와 같은 틸트의 변화를 보상할 필요가 있다. 이때,

에 따른 스케일 팩터 함수는 다음과 같은 구현예에 의해서 주어진다:

. 따라서,

와

은

> 0일 때에는

과 곱해지거나

< 0일 때에는

과 곱해진다.

23.85 kbit/s 비트 레이트의 경우가 이제 고려되는데, 그 이유는 이득 보정이 블록(403 내지 408)에서 수행되기 때문이다. 이와 같은 이득 보정은 또한 별도의 발명의 주제가 될 수 있다. 본 발명에 따른 이와 같은 특정 구현예에서,

로 표시되고, 0.8 kbit/s의 비트 레이트를 가진 AMR-WB(양립 가능한) 부호화에 의해 전송되는 보정 이득 정보는 23.85 kbit/s에서 품질을 향상시키기 위해 사용된다.

여기서는, AMR-WB(양립 가능한) 부호화는 ITU-T G.722.2/5.11절에 또는 마찬가지로 3GPP TS 26.190/5.11절에 기술된 바와 같이 4 비트에서 보정 이득 양자화를 수행한 것으로 가정되었다.

AMR-WB 코더에서, 보정 이득은 16 kHz에서 샘플링되고 6 내지 7 kHz의 대역 통과 필터

에 의해 필터링 된 원래 신호의 에너지를 합성 필터

및 6 내지 7 kHz의 대역 통과 필터(필터링 이전에, 잡음 에너지는 12.8 kHz에서 여기 에너지와 유사한 레벨로 설정됨)

에 의해 필터링 된 16 kHz에서의 백색 잡음 에너지와 비교함으로써 계산된다. 이득은 2로 나누어진 잡음 에너지에 대한 최초 신호의 에너지 비율의 루트(root)이다. 가능한 일 구현예에서는, 보다 넓은 대역(예를 들어 6 내지 7.6 kHz)을 갖는 필터를 위해 대역 통과 필터를 변경하는 것이 가능할 것이다.

,

23.85 kbit/s(블록(407)에서)에서 수신된 이득 정보를 적용할 수 있도록 하기 위해, AMR-WB(양립 가능한)의 예상된 것과 유사한 레벨로 여기시키는 것이 중요하다. 따라서, 블록(404)은 다음과 같은 방정식에 따라 여기 신호의 스케일링을 수행한다.

,

여기서,

는 다음과 같은 형식으로 블록(403)에서 계산된 서브 프레임 당 이득이다:

여기서, 분모의 팩터 5는, AMR-WB 부호화에서 HF 여기가 0 내지 8000 Hz 대역을 초과하는 백색 잡음이라는 것을 고려하여, 신호

와 신호

간의 대역폭 차이를 보상하는 역할을 한다.

로 표시되고, 23.85 kbit/s에서 전송된 서브 프레임 당 4 비트의 인덱스는 비트 스트림으로부터 역다중화되고(블록(405)), 다음과 같이 블록(406)에 의해서 복호화된다:

여기서,

는 AMR-WB 부호화에서 정의되어 있고 아래에서 상기된 HF 이득 양자화 사전이다.

[표 1]

(23.85kbit/s에서의 이득 사전)

블록(407)은 다음 방정식에 따라서 여기 신호의 스케일링을 수행한다:

,

결국, 여기 에너지는 다음 조건들과 함께 현재 서브 프레임의 레벨로 조정된다(블록(408)). 다음이 계산된다:

여기서, 분자는 23.05 모드에서 획득될 고-대역 신호 에너지를 나타낸다. 전술된 바와 같이, 23.85 kbit/s 미만의 비트 레이트를 위해서, 복호화된 여기 신호 및 확장된 여기 신호

사이의 에너지 레벨을 유지하는 것이 필요하지만,

가 이 경우에는 이득

에 의해 스케일링되기 때문에, 이 제약은 23.85 kbit/s 비트 레이트의 경우에는 필요치 않다. 2중 곱셈을 피하기 위하여, 블록(400)에서 신호에 적용된 특정 곱셈 계산들이

을 곱함으로써 블록(402)에서 적용된다.

의 값은

합성 알고리즘에 의존하며, 저 대역의 복호화된 여기 신호 및 신호

사이의 에너지 레벨이 유지되도록 조정되어야 한다.

도 7을 참조하여 이하에 상세하게 기술되는 특정한 일 구현예에서,

이며, 여기서

은 신호

에 대해서, 서브 프레임 당 에너지 및 신호

에 관한 프레임 당 에너지 사이의 동일한 비율을 보장하는 이득이며, 0.6은 5000 내지 6400 Hz의 디-엠퍼시스 필터의 평균 주파수 반응 진폭 값에 상응한다.

블록(408)에서는, 저 대역 신호의 틸트에 관한 정보가 있는 것으로 가정되었다 - 바람직한 일 구현예에서, 이와 같은 틸트는 블록(103) 및 블록(104)에 따라 AMR-WB 코덱에서와 같이 계산되지만, 틸트를 평가하는 다른 방법들이 본 발명의 원리를 변경하지 않고 가능하다.

>　1 또는

<　0이면, 다음과 같이 가정된다:

,

그렇지 않으면:

,

특히, 블록(401 및 402)에서는, 여기서 기술된 최적화된 스케일 팩터 산이 다수의 양태에서 AMR-WB+ 코덱에서 수행된 필터 레벨의 상술한 등화와 구별된다는 사실이 주목될 것이다:

최적화된 스케일 팩터는 임의의 시간적 필터링을 수반하지 않고 LPC 필터의 전달 함수로부터 직접 계산된다. 이는 방법을 단순화한다.

등화는 저 대역과 관련된 나이퀴스트 주파수(6400 Hz에서)와 상이한 주파수에서 바람직하게 수행된다. 실제로, LPC 모델링은 리샘플링 계산들에 의해 일반적으로 야기된 신호의 감쇠를 내포적으로 나타내며, 이에 따라 LPC 필터의 주파수 응답은 선택된 공통 주파수가 아닌 감소하는 나이퀴스트 주파수에 적용될 수 있을 것이다.

등화는 여기서, 등화될 2개의 필터에 추가로, 낮은 차수(여기서는 차수 2)의 필터에 의존한다. 이 추가 필터는 예측 필터의 주파수 응답의 계산을 위한 공통 주파수에서 존재할 수도 있는 국부적인 스펙트럼 변동(마루 또는 골)의 영향을 회피할 수 있게 한다.

AMR-WB 복호기에서의 경우와는 다르게, 블록(403 내지 408)에 대해서는, 본 발명에 따른 23.85 kbit/s에서 복호화된 신호의 품질이 23.05 kbit/s에서 복호화된 신호에 대해 상대적으로 개선된다는 것이 본 발명의 장점이다. 실제로, 본 발명의 이와 같은 양태는 23.85 kbit/s에서 수신된 부가 정보(0.8 kbit/s)를 사용하는 것이 가능하지만, 통제된 방식(블록(408))으로 23.85의 비트 레이트에서 확장된 여기 신호의 품질을 개선하기 위해 사용할 수 있게 한다.

도 4의 블록(401 내지 408)에 의해 도시된 바와 같이, 최적화된 스케일 팩터를 결정하기 위한 장치는 이제 도 6을 참조하여 기술된 최적화된 스케일 팩터를 결정하기 위한 방법을 실시한다.

주요 단계는 블록(401)에 의해서 실시된다.

따라서, 연장된 여기 신호

는 저 대역으로 불리는 제1 주파수 대역에서 여기 신호 및 예를 들어, 제1 주파수 대역의 선형 예측 필터의 계수들과 같은 1 주파수 대역의 파라미터를 복호화하거나 추출하는 단계를 포함하는 주파수 대역 확장 방법 E601에서 획득된다.

E602 단계는 제1 주파수 대역보다 낮은 차수이고 추가 필터로 불리는 선형 예측 필터를 결정한다. 이 필터를 결정하기 위하여, 복호화되었거나 추출된 제1 주파수 대역의 파라미터가 사용된다.

일 구현예에서, 이 단계는 보다 낮은 필터 차수, 예를 들어 2를 얻기 위해서 저 대역의 선형 예측 필터의 전달 함수의 단절에 의해 수행된다. 따라서, 이들 계수는 도 4를 참조하여, 전술된 바와 같이 안정성 기준의 함수로서 변경될 수 있다.

추가 필터의 계수가 결정된 것으로부터, 단계 E603은 확장된 여기 신호에 적용될 최적의 스케일 팩터를 계산하도록 실시된다. 이 최적화된 스케일 팩터는 예를 들어, 저 대역(제1 주파수 대역) 및 고 대역(제2 주파수 대역) 사이의 공통 주파수에서 추가 필터의 주파수 응답으로부터 계산된다. 최소값이 이와 같은 필터의 주파수 응답 및 저 대역 및 고 대역 필터들 주파수 응답들 사이에서 선택될 수 있다.

따라서, 이것은 종래 기술의 방법에서 존재할 수 있는 에너지의 과대평가를 회피한다.

최적화된 스케일 팩터의 계산 단계는, 예를 들어 도 4 및 도 5a 및 도 5b를 참조하여 앞에서 기술되었다.

대역 확장을 위한 블록(402 또는 409)(복호화 비트 레이트에 의존함)에 의해 수행되는 단계 E604는 최적화되고 확장된 여기 신호

를 획득하기 위해 확장된 여기 신호에 정식으로 계산되고 최적화된 스케일 팩터를 적용한다.

특정한 일 구현예에서, 최적화된 스케일 팩터(708)를 결정하기 위한 장치는 도 7을 참조하여 지금 기술되는 대역 확장 장치에 통합되어 있다. 블록(708)에 의해 도시된 최적화된 스케일 팩터를 결정하기 위한 장치는, 도 6을 참조하여 앞에서 기술된 최적화된 스케일 팩터를 결정하기 위한 방법을 실시한다.

이 구현예에서, 도 4의 대역 확장 블록(400)은 지금 기술되는 도 7의 블록(700 내지 707)을 포함한다.

따라서, 대역 확장 장치의 입력에서, 분석에 의해 복호화되었거나 추론된 저-대역 여기 신호가 수신된다(

). 여기서의 대역 확장은 도 3의 블록(302)의 출력에서 12.8 kHz에서(exc2 또는

) 복호화된 여기를 사용한다.

이 구현예에서는, 오버 샘플링되어 확장된 여기의 발생이 5 내지 8 kHz에 걸친 주파수 대역에서 수행되며, 이에 따라 제1 주파수 대역(0 내지 6.4 kHz)을 초과하는 제2 주파수 대역(6.4 내지 8 kHz)을 포함한다는 사실에 주목해야만 할 것이다.

따라서, 확장된 여기 신호의 발생은 적어도 제2 주파수 대역뿐만 아니라 제1 주파수 대역의 일 부분을 초과하여 수행된다.

명백히, 이 주파수 대역들을 정의하는 값들은 본 발명이 적용된 복호기 또는 처리 장치에 따라 상이할 수 있다.

이 대표적인 구현예를 위해, 이 신호는 시간-주파수 변형 모듈 500에 의해 여기 신호 스펙트럼

을 획득하기 위해서 변형된다.

특정한 일 구현예에서는, 다음 공식에 따라

을 가진

을 직접적으로 변형하도록 하는 윈도잉 없이, 20 ms(256 샘플)의 현재 프레임에서 DCT-IV("이산 코사인 변형"-IV 타입용)를 사용한다(블록(700)):

여기서,

이고,

이다.

여기서는, 신호 영역에서가 아닌 여기 영역에서 처리가 수행됨으로써 어떠한 아티팩트(블록 효과)도 들을 수 없다는 것이 본 발명의 이 구현예의 중요한 장점을 구성하기 때문에, 윈도잉(또는 동등하게, 프레임 길이의 암시적인 사각 윈도우를 가짐) 없이 변형이 가능하다는 사실이 주목되어야만 한다.

이 구현예에서, DCT-IV 변형은 D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149의 논문에 기술된 소위 "진화된 DCT (EDCT)"알고리즘에 따른 FFT에 의해서 실시되고, ITU-T standards G.718 Annex B 및 G.729.1 Annex E에서 실시된다.

본 발명의 변형예들에서는, 일반성의 손실 없이, DCT-IV 변형이 동일한 길이의 다른 단기 시간-주파수 변형에 의해, ("고속 푸리에 변형"용의) FFT 또는 DCT-II(이산 코사인 변형 - II 타입)와 같은 여기 영역에서 대체될 수 있을 것이다. 대안적으로는 예를 들어 ("변형된 이산 코사인 변형"용의) MDCT를 이용하여, 중첩-가산 및 현재 프레임의 길이보다 긴 길이의 윈도잉을 가진 변형에 의해 프레임에서 DCT-IV를 대체하는 것이 가능할 것이다. 이 경우에는, 도 3의 블록(310)에서 딜레이 T가 이와 같은 변형에 의해, 분석/합성으로 인한 부가적인 딜레이의 함수로서 적절하게 조정(감소)되어야만 할 것이다.

0 내지 6400 Hz의 대역(12.8 kHz에서)을 커버하는 256개 샘플의 DCT 스펙트럼(

)은 그 다음에 아래의 식에서 0 내지 8000 Hz의 대역(16 kHz에서)을 커버하는 320개 샘플의 스펙트럼으로 확장된다(블록(701)):

여기서는, start_band = 160인 것이 우선적으로 받아들여진다.

블록(701)은 오버 샘플링되고 확장된 여기 신호를 발생하기 위한 모듈로서 작동하고, 샘플(

)의 1/4을 스펙트럼에 추가함으로써 주파수 영역에서 12.8 내지 16 kHz의 리샘플링을 수행하여, 16과 12.8 사이의 비율은 5/4가 된다.

더욱이,

의 제1의 200개 샘플이 0으로 설정되기 때문에, 0 내지 5000 Hz의 대역에서 암시적인(implicit) 고역 통과 필터링을 수행한다; 후술되는 바와 같이, 이 고역 통과 필터링은 또한 5000 내지 6400 Hz의 대역에서 색인

의 스펙트럼 값의 점진적인 감쇠의 일부에 의해 보상된다; 이와 같은 점진적인 감쇠는 블록(704)에서 수행되지만, 블록(704)의 밖에서 별도로 수행될 수 있다. 따라서, 그와 마찬가지로, 본 발명의 변형예에서, 변형된 영역에서 감쇠된 계수

에서 0으로 설정된 색인

의 계수들의 블록들로 분리된 고역 통과 필터의 실행은 단일 단계에서 수행될 수 있을 것이다.

이 예시적인 구현예에서 그리고

의 정의에 따라서,

(색인

에 상응하는)의 5000 내지 6000 Hz 대역이

의 5000 내지 6000 Hz 대역으로부터 복사된다는 사실에 주목해야만 할 것이다. 이와 같은 접근 방식은 이 대역에서 원래 스펙트럼을 유지하는 것을 가능하게 하고, LF 합성과 함께 HF 합성의 부가에 있어서 5000 내지 6000 Hz 대역에서 왜곡의 도입을 회피한다 - 특히 이 대역에서는 신호(DCT-IV 영역에 암시적으로 나타남)의 위상이 보존된다.

start_band의 값이 160에서 우선적으로 설정되기 때문에

의 6000 내지 8000 Hz 대역은 여기서

의 4000 내지 6000 Hz 대역을 복사함으로써 정의된다.

본 구현예의 일 변형예에서, start_band의 값은 160 값의 주변에서 적응적으로 형성될 수 있을 것이다. start_band의 값의 적응에 관한 세부적 사항들은 그 범위를 변경시키지 않으면서 본 발명의 틀을 벗어나기 때문에 여기서는 기술되지 않는다.

특정 광대역 신호(16 kHz에서 샘플링됨)에서, 고 대역(6 kHz보다 큼)은 시끄럽거나 조화로울 수 있거나, 잡음과 고조파의 혼합 상태를 포함할 수 있다. 더욱이, 6000 내지 8000 Hz 대역의 고조파의 레벨은 일반적으로 더 낮은 주파수 대역의 것과 상관된다. 따라서, 잡음 발생 블록(702)은 블록(703)에서 추후에 스펙트럼

과 잡음을 결합하기 위해서, 고 주파수로 불리는 제2 주파수 영역에 상응하는 주파수 영역, 즉

를 위한

(80개 샘플)에서 잡음 발생을 수행한다.

특정한 일 구현예에서, 잡음(6000 내지 8000 Hz 대역에서)은 16비트에서 선형 합동 발생기와 함께 의사-무작위적으로 발생된다:

현재 프레임의

는 통상적으로 전술한 프레임의

의 값에 상응하게 발생한다. 본 발명의 변형예들에서는, 다른 방법들에 의해 이와 같은 잡음의 발생을 대체하는 것이 가능할 것이다.

결합 블록(703)은 상이한 방법으로 제조될 수 있다. 우선적으로, 다음과 같은 식의 추가 적응적 믹싱이 고려된다:

,

여기서,

는 두 신호 사이의 에너지 레벨을 등화시키는 데 이용되는 정규화 팩터이며,

= 0.01이고, 계수

(0과 1 사이에 있음)는 복호화된 저 대역으로부터 추론된 파라미터의 함수로서 조정되며, 계수

(0과 1 사이에 있음)는

에 의존한다.

바람직한 일 구현예에서, 잡음 에너지는 3개 대역에서 계산된다:

와 함께, 2000 내지 4000 Hz, 4000 내지 6000 Hz 및 6000 내지 8000 Hz이며,

여기서,

이고,

는 인덱스

의 계수가 잡음과 연관된 것으로 분류되는 되는 인덱스

의 집합이다. 이 집합은 예를 들어,

를 검증하는

에서 국부적인 피크를 검출함으로써 그리고 이와 같은 광선들이 잡음과 (즉, 전술한 조건의 부정을 적용함으로써) 연관되지 않는다는 것을 고려함으로써 획득될 수 있다.

잡음 에너지를 계산하기 위한 다른 방법은 예를 들어, 고려된 대역에서 스펙트럼의 중간 값을 받아들임으로써 또는 대역 당 에너지를 계산하기 전에 각 주파수 선에 평활화를 적용함으로써 가능하다는 사실이 주목될 수 있다.

는 4 내지 6 kHz 및 6 내지 8 kHz 대역에서 잡음 에너지 사이의 비율이 2 내지 4 kHz 및 4 내지 6 kHz 대역 사이의 비율과 같도록 설정된다:

여기서

이다.

본 발명의 변형예들에서는,

의 계산이 다른 방법들에 의해 대체될 수 있을 것이다. 예를 들어, 일 변형예에서는, AMR-WB 코덱에서 계산된 것과 유사한 "틸트" 파라미터를 포함하는 저 대역에서 신호를 특징화하는 서로 상이한 파라미터들(또는 "특징들")을 추출하는(계산하는) 것이 가능할 것이며, 팩터(

)는 0과 1 사이로 그의 값을 제한함으로써 서로 상이한 이들 파라미터로부터 선형 회귀의 함수로서 추론될 것이다. 이 선형 회귀는 예를 들어, 학습 자료의 원래 높은 대역을 교환해서 팩터

를 추론함으로써 감독 방식으로 추론될 수 있을 것이다.

가 계산되는 방식은 본 발명의 본질을 제한하지 않는다는 사실에 주목해야만 할 것이다.

믹싱 후에 확장된 신호의 에너지를 보존하기 위해서, 바람직한 일 구현예에서는, 다음이 받아들여진다:

일 변형예에서, 팩터

및

는, 신호의 주어진 대역으로 주입된 잡음이 동일한 대역에서 동일한 에너지를 갖는 고조파 신호보다 강한 것으로 일반적으로 인지된다는 사실을 고려하기 위해 적응될 수 있을 것이다. 따라서, 팩터

및

는 다음과 같이 변경될 수 있을 것이다:

여기서,

는

의 감소 함수, 예를 들어

,

는 0.3 내지 1로 제한된다.

를 곱한 후에는

이므로, 신호의 에너지

가

의 에너지보다 적다(에너지 차이는

에 의존하며, 잡음이 부가될수록 에너지는 감쇠된다)는 사실에 주목해야만 한다.

본 발명의 다른 변형예들에서는, 다음을 받아들이는 것이 가능할 것이다.

이는 진폭 레벨을 보존하는 것을 가능하게 한다(결합된 신호들이 동일한 기호일 때); 그러나 이 변형예는

의 단조 함수가 아닌 전체 에너지(

의 레벨에서)를 야기한다는 단점을 갖는다.

따라서, 블록(703)은 여기서 대조적으로, 주파수 대역에서 이미 16 kHz의 속도로 확장되는 여기의 함수로서 백색 잡음을 정규화하기 위해 도 1의 블록(101)의 등가를 수행한다는 사실에 주목해야만 한다; 더욱이, 믹싱은 6000 내지 8000 Hz 대역에 제한되어 있다.

단순한 일 변형예에서는, 블록(703)의 구현예를 고려하는 것이 가능하며, 스펙트럼

또는

은 적응적으로 선택되며(스위칭 되며),

에 대해 0 또는 1의 값만을 허용하게 한다; 이와 같은 접근 방식은 6000 내지 8000 Hz 대역에서 발생될 여기의 유형에 해당한다.

블록(704)은 선택적으로 주파수 대역에서 대역 통과 필터 주파수 반응 및 디-엠퍼시스 필터링 적용이라는 2중 동작을 수행한다.

본 발명의 일 변형예에서는, 상기 디-엠퍼시스 필터링도 블록(705) 이후와 심지어 블록(700) 이전의 시간 영역에서 수행될 수 있을 것이다; 그러나 이 경우에 블록(704)에서 수행되는 대역 통과 필터링은 디-엠퍼시스에 의해 증폭되는 매우 낮은 레벨의 어떤 저주파 성분을 남길 수 있으며, 약한 지각 방식으로, 복호화된 저 대역을 변경시킬 수 있다. 이런 이유로, 여기서는 주파수 영역에서의 디-엠퍼시스를 수행하는 것이 선호된다. 바람직한 구현예에서는, 인덱스의 계수

가 0으로 설정되므로, 디-엠퍼시스는 보다 높은 계수로 제한된다.

여기는 먼저 다음 방정식에 따라 디-엠퍼시스된다:

여기서,

는 제한된 이산 주파수 대역을 초과하는 필터

의 주파수 응답이다. DCT-IV의 이산(홀수) 주파수를 고려하여,

는 여기서 다음과 같이 정의된다:

,

여기서,

이다.

DCT-IV와 다른 변형이 사용되는 경우에, 의 정의는 (짝수 주파수를 예를 들어) 조정될 수 있을 것이다.

디-엠퍼시스는 응답

이 12.8 kHz에서 적용된 5000 내지 6400 Hz 주파수 대역에 상응하는

와, 응답이 여기서 16 kHz부터 6.4 내지 8 kHz 대역의 일정한 값까지로 확장되는 6400 내지 8000 Hz의 주파수 대역에 상응하는

의 두 가지 위상에 적용된다.

AMR-WB 코덱에서 HF 합성은 디-엠퍼시스되지 않는다는 사실에 주목할 수 있다.

여기에 제시된 구현예에서, 고 주파수 신호는 반대로 도 3의 블록(305)를 떠나서 저주파 신호(0 내지 6.4 kHz)와 일치하는 대역으로 가기 위해서 디-엠퍼시스된다. 이것은 HF 합성 에너지의 평가 및 후속 조정을 위해 중요하다.

이 구현예의 일 변형예에서는, 복잡성을 감소시키기 위해서, 전술된 구현예의 조건에서

에 대한

의 평균값에 근사하게 상응하는, 예를 들어

를 받아들임으로써

와 무관한 상수 값으로

를 설정하는 것이 가능할 것이다.

확장 장치의 구현예의 다른 변형예에서, 상기 디-엠퍼시스는 역 DCT 이후에 시간 영역에서 동등한 방식으로 수행될 수 있을 것이다.

디-엠퍼시스에 추가로, 대역 통과 필터링은 2개의 분리된 부분에 적용된다: 하나는 고-대역에 고정된 것이고, 다른 하나는 저-대역에 적응적이다(비트 레이트의 함수).

이 필터링은 주파수 영역에서 수행된다.

바람직한 구현예에서, 저역 통과 필터 부분 응답은 다음과 같이 주파수 영역에서 계산된다:

여기서, 6.6 kbit/s에서는

= 60이고, 8.85 kbit/s에서는 40이며, 그리고 8.85　bit/s보다 큰 비트 레이트에서는 20이다.

그 다음에, 대역 통과 필터는 다음과 같은 식에 적용된다:

,

의 정의는 예를 들어 아래 표 2와 같이 주어진다.

[표 2]

본 발명의 변형예에서는,

의 값이 점진적인 감쇠를 유지할 때 변경될 수 있다는 사실에 주목하게 될 것이다. 마찬가지로, 가변 대역폭

를 가진 저역 통과 필터링은 필터링 단계의 원리를 변경하지 않고, 상이한 값이나 주파수 매체로 조절될 수 있을 것이다.

대역 통과 필터링이 고역 통과 및 저역 통과 필터링을 결합한 단일 필터링 단계를 정의함으로써 조정될 수 있을 것이라는 사실에 대해 또한 주목하게 될 것이다.

다른 구현예에서, 대역 통과 필터링은 역 DCT 단계 이후에, 비트 레이트에 따라 상이한 필터 계수와 함께 시간 영역(도 1의 블록(112)에서와 같이)에서 동등한 방식으로 수행될 수 있을 것이다. 그러나 필터링은 LPC 여기 영역에서 수행되고, 이에 따라 순환 컨벌루션의 문제 및 에지 효과의 문제가 이 영역에서 매우 제한되어 있기 때문에, 주파수 영역에서 직접적으로 이 단계를 수행하는 것이 유리하다는 사실에 주목하게 될 것이다.

23.85 kbit/s 비트 레이트의 경우에는, 여기

의 디-엠퍼시스가 보정 이득이 AMR-WB 부호기에서 계산되는 방식과 계속 일치하도록 그리고 2중 곱셈을 회피하도록 수행되지 않는다는 사실에 주목해야 할 것이다. 이 경우에, 블록(704)은 저역 통과 필터링 만을 수행한다.

역변형 블록(705)은 16 kHz에서 샘플링된 고주파 여기를 찾기 위해 320개의 샘플에 대해 역 DCT를 수행한다. 변형의 길이가 256 대신에 320인 경우를 제외하고는 DCT-IV가 정규화된 것이기 때문에, 그 구현예는 블록(700)과 동일하다:

여기서,

이고,

이다.

이때, 16 kHz에서 샘플링된 여기는 80개 샘플(블록(707))의 서브 프레임 당 정의된 이득에 의해 선택적으로 스케일링 된다.

바람직한 일 구현예에서, 이득

은, 각각의 서브 프레임에서 현재 프레임의 인덱스 m = 0, 1, 2 또는 3이 되도록, 서브 프레임의 에너지 비율에 의해서 서브 프레임 당으로 먼저 계산된다(블록(706)).

여기서

이고,

= 0.01이다. 서브 프레임 당 이득은

은 다음의 식으로 쓰여질 수 있다:

이 식은 신호

에 있어서, 서브 프레임 당 에너지와 신호

에서와 프레임 당 에너지 사이에서 동일한 비율이 보장된다는 것을 보여준다.

블록(707)은 다음 방정식에 따라 결합된 신호의 스케일링을 수행한다.

,

현재 프레임 레벨에서는 에너지가 서브 프레임의 에너지에 추가로 고려되기 때문에, 블록(706)의 구현예는 도 1의 블록(101)의 실시예와 다르다는 사실에 주목해야만 할 것이다. 이것은 프레임의 에너지와 관련하여 각 서브 프레임의 에너지의 비율을 갖는 것을 가능하게 한다. 따라서, 저 대역과 고 대역 사이의 절대 에너지보다는 에너지 비율(또는 상대적 에너지)이 비교된다.

따라서, 이 스케일링 단계는 고 대역에서, 저 대역에서와 동일한 방식으로 서브 프레임과 프레임 사이에서 에너지 비율을 유지하는 것을 가능하게 한다.

23.85 kbit/s 비트 레이트의 경우에, 2중 곱셈을 회피하기 위하여, 도 4를 참조하여 설명한 바와 같이, 이득

은 계산되지만, 다음 단계에서 적용된다는 사실에 주목하게 될 것이다. 이 경우에,

이다.

본 발명에 따르면, 도 6을 참조하여 미리 기술되고, 도 4 및 도 5에서 상세히 기술된 바와 같이, 블록(708)은 이때에 신호(도 6의 단계 E602 내지 단계 E603)의 서브 프레임 당 스케일 팩터 계산을 수행한다.

마지막으로, 보정된 여기

가 6.6 kbit/s에서

= 0.9이고 다른 비트 레이트에서

=　0.6인

를 전달 함수로 받아들임으로써, 여기서 수행될 수 있는 필터링 모듈(710)에 의해 필터링 되며, 이는 필터의 차수를 차수 16으로 제한한다.

일 변형예에서, 이와 같은 필터링은 AMR-WB 복호기의 도 1의 블록(111)에 대해 기술된 것과 동일한 방식으로 수행될 수 있을 것이지만, 필터의 차수는 6.6 비트 레이트에서 20으로 변경되고, 합성된 신호의 품질을 크게 변경시키지 못한다. 다른 변형예에서는, 블록(710)에서 실시된 필터의 주파수 응답을 계산한 이후에, 주파수 대역에서 LPC 합성 필터링을 수행하는 것이 가능할 것이다.

일 변형 구현예에서, 선형 예측 필터(710)으로 제2 주파수 대역을 필터링하는 단계는 최적화된 스케일 팩터의 적용과 결합되어 처리 복잡도를 감소시키는 것을 가능하게 한다. 따라서,

를 필터링하고 최적화된 스케일 팩터

을 적용하는 단계는 처리 복잡도를 감소시키기 위해

를 필터링하는 단일 단계에 결합되어 있다.

본 발명의 변형 구현예들에서, 저 대역(0 내지 6.4 kHz)의 부호화는 예를 들어, 8 kbit/s의 G.718에서 CELP 부호기와 같은 AMR-WB에서 사용된 것과 다른 CELP 코더로 대체될 수 있을 것이다. 일반성의 손실 없이, 다른 광대역 부호기 또는 저 대역의 부호화가 12.8 kHz에서의 내부 주파수와 함께 작동하는, 16 kHz 초과의 주파수에서 작동하는 부호기가 사용될 수 있다. 더욱이, 본 발명은 저 주파수 부호기가 최초 신호 또는 재구성된 신호보다 낮은 샘플링 주파수와 함께 작동할 때, 12.8 kHz가 아닌 샘플링 주파수에 명백하게 적응될 수 있다. 저 대역 복호화가 선형 예측을 사용하지 않는 경우에는, 확장될 수 있는 여기 신호가 없으며, 이 경우에는 현재 프레임에서 재구성된 신호의 LPC 분석을 수행하는 것이 가능할 것이며, LPC 여기가 본 발명을 적용할 수 있도록 하기 위해 계산될 것이다.

마지막으로, 본 발명의 다른 변형예에서, 여기 (

)는 길이 320의 변형(예를 들어 DCT-IV) 전에 12.8 kHz에서 16 kHz까지, 예를 들어 선형 보간 또는 큐빅 "스플라인"에 의해 리샘플링된다. 이 변형예는 더 복잡하다는 결함을 갖는데, 그 이유는 여기의 변형(DCT-IV)이 그때에는 더 긴 길이에 걸쳐 계산되고 리샘플링이 변형 영역에서 수행되지 않기 때문이다.

더욱이, 본 발명의 변형예들에서는, 이득 (

,

, ...)의 추론에 필요한 모든 계산이 대수 영역에서 수행될 수 있을 것이다.

대역 확장의 변형예들에서, 저 대역

의 여기 및 LPC 필터

는 대역이 확장되어야만 하는 저-대역 신호의 LPC 분석에 의해, 프레임마다 예측될 것이다. 저-대역 여기 신호는 그때 오디오 신호의 분석에 의해 추출된다.

이와 같은 변형의 가능한 일 구현예에서는, 저 대역 오디오 신호가 여기를 추출하는 단계 이전에 리샘플링 되어 있음으로써, 오디오 신호(선형 예측에 의해)로부터 추출된 여기는 이미 리샘플링 되어 있다.

도 7에 도시된 대역 확장은 이 경우에 복호화되지 않았지만 분석된 저 대역에 적용된다.

도 8은 본 발명에 따른 최적화된 스케일 팩터를 결정하기 위한 장치(800)의 예시적인 물리적 구현예를 나타낸다. 후자는 오디오 주파수 신호 복호기의, 또는 복호화되었거나 복호화되지 않은 오디오 주파수 신호를 수신하는 장비 아이템의 필수적인 부분을 형성할 수 있다.

이와 같은 유형의 장치는 저장 및/또는 작업 메모리(MEM)를 포함하는 메모리 블록(BM)과 협력하는 프로세서(PROC)를 포함한다.

이와 같은 장치는 저 대역(

또는

)으로 불리는 제1 주파수 대역에서 복호화되었거나 추출된 여기 오디오 신호 및 선형 예측 합성 필터(

)의 파라미터를 수신하기에 적합한 입력 모듈(E)을 포함한다. 이 모듈은 합성되고 최적화된 고-주파 신호(

)를 예를 들어 도 7의 블록(710)과 같은 필터링 모듈로 또는 도 3의 모듈(311)과 같은 리샘플링 모듈로 전송하기에 적합한 출력 모듈(S)을 포함한다.

메모리 블록은 유리하게, 프로세서(PROC)에 의해 실행될 때 여기 신호 또는 본 발명의 의미 안에서의 필터에 적용될 최적화된 스케일 팩터를 결정하기 위한 방법의 단계들, 특히 제1 주파수 대역의 선형 예측 필터보다 낮은 차수의 추가 필터로 불리는 선형 예측 필터를 결정하는 단계(E602)로서, 추가 필터의 계수가 제1 주파수 대역으로부터 복호화되었거나 추출된 파라미터로부터 획득되는 단계, 및 최적화된 스케일 팩터를 적어도 추가 필터의 계수들의 함수로서 계산하는 단계(E603)를 실행하기 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 포함할 수 있다.

통상적으로, 도 6의 기술은 이와 같은 컴퓨터 프로그램의 알고리즘 단계들을 반복한다. 컴퓨터 프로그램은 또한 장치의 판독기에 의해 판독될 수 있거나 이들의 메모리 공간에 다운로드 될 수 있는 메모리 매체에 저장될 수 있다.

메모리(MEM)는 일반적으로, 이 방법의 실행을 위해 필요한 모든 데이터를 저장한다.

따라서, 가능한 일 구현예에서는, 기술된 장치가 최적화된 스케일 팩터를 확장된 여기 신호에 적용하기 위한 기능, 주파수 대역 확장 기능, 저 대역 복호화 기능, 및 본 발명에 따른 최적화된 스케일 팩터 결정 기능에 추가로 도 3 및 도 4의 예를 위해 기술된 다른 처리 기능들을 또한 포함할 수 있다.

Claims

오디오 주파수 신호의 주파수 대역 확장 방법에서 여기 신호 또는 필터에 적용될 최적화된 스케일 팩터를 결정하기 위한 방법에 있어서,
주파수 대역의 선형 예측 필터의 주파수 응답(R)을 계산하는 단계, 및
R_smoothed를 얻도록 R 값을 평활화하는 단계를 포함하고, 상기 평활화 방법은 스펙트럼 슬로프, 틸트의 값을 포함하는 복수의 파라미터들을 포함하는 파라미터들의 세트의 함수로서, 적어도 2개의 평활화 방법들을 포함하는 평활화 방법들의 그룹으로부터 선택되고,
상기 최적화된 스케일 팩터를 결정하는 단계를 더 포함하고, 상기 최적화된 스케일 팩터를 결정하는 단계는 max(min(R_smoothed, Q),P)/P 의 계산을 포함하며,
여기서 P는 제 2 주파수 대역에 걸친 선형 예측 필터의 주파수 응답이고, 상기 제 2 주파수 대역은 제 1 주파수 대역보다 높고, Q는 선형 예측 필터 다항식을 절단함으로써 얻어진 추가 필터의 주파수 응답인, 방법.
제 1 항에 있어서,
상기 평활화 방법들의 세트는 시간에 따라 고정된 팩터를 갖는 지수 평활화를 더 포함하는 것을 특징으로 하는, 방법.
제 2 항에 있어서,
상기 지수 평활화는,
R_smoothed = 0.5 R_precomputed + 0.5 R_prev 타입이고,
R_prev는 이전 서브 프레임에서의 R_smoothed값에 대응하고, R_precomputed는 주파수 대역의 선형 예측 필터의 주파수 응답(R)의 계산 단계 동안 계산된 R의 값에 대응하는 것을 특징으로 하는, 방법.
제 1 항에 있어서,
상기 평활화 방법들의 세트는 시간에 따라 적응 가능한 평활화 방법을 포함하는 것을 특징으로 하는, 방법.
제 4 항에 있어서,
상기 평활화는 R보다 작은 값들에 대해 더 강한 것을 특징으로 하는, 방법.
제 4 항 또는 제 5 항에 있어서,
상기 적응 가능한 평활화는 R_smoothed= (1-α)R_precomputed + α·R_prev 의 형태이고, 상기 α는 α= 1-R_precomputed^2 이고,
R_prev는 이전 서브 프레임에서의 R_smoothed의 값에 대응하고, R_precomputed는 주파수 대역의 선형 예측 필터의 주파수 응답(R)의 계산 단계 동안 계산된 R의 값에 대응하는 것을 특징으로 하는, 방법.
제 3 항 또는 제 6 항에 있어서,

이고,
여기서 M=16은 상기 선형 예측 필터의 차수이고, θ는 12.8kHz의 샘플링 레이트에 대해 정규화된 6,000Hz의 주파수에 대응하며, 계수들
은 선형 예측 필터 다항식의 계수들인, 방법.
오디오 주파수 신호의 주파수 대역 확장 장치에서 여기 신호 또는 필터에 적용될 최적화된 스케일 팩터를 결정하기 위한 장치에 있어서,
제 1 주파수 대역에 대한 선형 예측 필터의 주파수 응답(R)을 계산하는 프로세서, 및
R_smoothed 를 얻기 위해, R의 값을 평활화시키는 평활화 블록을 포함하고, 상기 평활화 방법은 스펙트럼 슬로프, 틸트의 값을 포함하는 복수의 파라미터들의 세트에 기초하여 적어도 2개의 평활화 방법들의 그룹 중에서 선택되며,
상기 장치는 max(min(R_smoothed, Q),P)/P 의 계산을 사용하여 상기 최적화된 스케일 팩터를 결정하도록 구성되며,
여기서 P는 제 2 주파수 대역에 걸친 선형 예측 필터의 주파수 응답이고, 상기 제 2 주파수 대역은 제 1 주파수 대역보다 높고, Q는 상기 선형 예측 필터 다항식을 절단함으로써 얻어진 추가 필터의 주파수 응답인, 장치.