KR20050085761A - 오디오 인코딩에서의 사인곡선 선택 - Google Patents

오디오 인코딩에서의 사인곡선 선택 Download PDF

Info

Publication number
KR20050085761A
KR20050085761A KR1020057011327A KR20057011327A KR20050085761A KR 20050085761 A KR20050085761 A KR 20050085761A KR 1020057011327 A KR1020057011327 A KR 1020057011327A KR 20057011327 A KR20057011327 A KR 20057011327A KR 20050085761 A KR20050085761 A KR 20050085761A
Authority
KR
South Korea
Prior art keywords
sinusoid
sinusoids
candidate
phase
frequency band
Prior art date
Application number
KR1020057011327A
Other languages
English (en)
Inventor
안드리스 제이. 게리츠
알버터스 씨. 덴 브링커
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050085761A publication Critical patent/KR20050085761A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호의 적어도 일부를 다수의 사인곡선들로 표현함으로써(12) 오디오 신호(x(t))를 인코딩하는(1) 방법이 개시되어 있고, 상기 방법은 상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 단계, 상기 분석에 기초하여 후보 사인곡선들을 선택하는 단계, 시간적으로 특정 순간에서 상기 후보 사인곡선의 위상이 시간의 다른 순간에서 결정되는 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 정도로 정의되는 위상 일관성을 상기 후보 사인곡선들 중 적어도 하나에 대해 결정하는 단계, 및 상기 위상 일관성이 미리결정된 임계치 이상일 때 선택된 사인곡선으로서 상기 후보 사인곡선을 선택하는 단계를 포함한다. 본 발명에 따른 사인곡선들의 선택은 주어진 오디오 품질로 인코딩될 보다 작은 수의 사인곡선들을 초래할 것이며, 주어진 오디오 품질에 대한 비트율에 대해서 유리하다.

Description

오디오 인코딩에서의 사인곡선 선택{Sinusoid selection in audio encoding}
본 발명은 오디오 신호를 재생하는데 관련된 사인곡선들이 선택되고, 그 파라미터들이 인코딩되는 오디오 신호의 코딩에 관한 것이다.
사인곡선 오디오 인코더에서, 오디오 신호의 적어도 일부는 복수의 사인곡선들로 표현되고, 그 사인곡선들은 통상적으로 자신들의 주파수들, 자신들의 진폭들 및 선택적으로 자신들의 위상들에 의해 기술된다. 인코딩 처리에서, 오디오 신호는 시간 세그먼트들로 분할되는데, 그 세그먼트들은 자신들의 주파수 컨텐트들에 대해 분석된다. 통상적으로, 오디오 인코더에서 사용되는 세그먼트 크기는 5 내지 60 ms의 범위 내 이다. 각각의 세그먼트에 대하여, 복수의 사인곡선들이 선택되며, 그들의 파라미터들이 후속하여 코딩된다. 주어진 오디오 품질에 대한 비트율(bit rate)을 최소화하기 위해, 관련된 사인곡선들, 즉, 인코딩된 오디오 신호를 수용 가능한 지각 품질(acceptable perceptual quality)로 재생하기 위해 필요한 그러한 사인곡선들만이 선택되어 인코딩될 필요가 있다.
알. 맥올레이(R, McAulay) 및 티. 쿼티에리(T. Quartiery)의 "사인곡선 표현에 기초한 음성 분석/합성(Speech analysis/synthesis based on sinusoidal representation.)", 음향학, 음성 및 신호 처리에 대한 IEEE 회보(IEEE transactions on Acoustics, Speech and Signal Processing), 1986, 43:744-754는 피크-픽킹(peak-picking)이라 칭하는 사인곡선을 선택하는 방법을 개시한다. 피크-픽킹 방법은 진폭 스펙트럼에서 피크를 가지는 그러한 주파수들의 선택을 포함한다. 사인곡선들을 선택하는 다른 방법은 알. 호이스덴스(R. Heusdens) 및 에스. 반 데 파르(S. van de Par)로부터의 논문 "정신음향적인 정합 추적들을 이용한 오디오 및 음성의 비율-왜곡 최적 사인곡선 모델링(Rate-distortion optimal sinusodial modeling of audio and speech using psychoacoustical matching pursuits)", 음향. 음성 및 신호에 관한 IEEE 국제 컨퍼런스 회보(Proc. IEEE Int. Conf. Acoust. Speech and signal Proc.), 올랜도(미국)(Orlando(USA)), 2002에 의해 개시된 바와 같은 정합 추적(matching pursuit)이라 칭하는 반복 처리이다. 모든 반복마다, 진폭 스펙트럼에서 최대 피크를 갖는 주파수가 선택되고 나서, 신호로부터 감산된다. 나머지 신호가 다음 반복에서 사용된다. 상기 처리는 통상적으로 고정된 수의 사인곡선들이 선택될 때 중단된다.
피크-픽킹 방법으로 인한 문제점은 모든 피크들이 선택되기 때문에, 얼마나 많은 사인곡선들이 평가되는지가 미리 알려지지 않는다는 것이다. 특히, 진폭 스펙트럼이 잡음이 있을 때, 너무 많은 사인곡선들이 선택된다. 피크-픽킹과 대조적으로, 정합 추적에서는 선택된 사인곡선들의 수가 고정된다. 결과적으로, 모든 관련 사인곡선들이 선택된다는 것을 보장하기 위해, 이 고정된 수는 높게 설정되어야 한다. 또 다시, 너무 많은 사인곡선들이 선택될 것이다. 너무 많은 사인곡선들의 선택은, 모든 이들 사인곡선들이 인코딩되어야만 하기 때문에, 비트율이 높아진다. 다른 단점은 처리시에 추가 비용이 든다는 것이다. 예를 들어, 지각 모델링(perceptual modeling)은 인간의 귀에 의해 들릴 수 있는 단지 그 부분의 오디오 신호만을 인코딩하기 위해 많은 오디오 인코더들에서 사용된 처리이다. 이 모델링은 고가의 처리일 수 있고, 결과적으로, 복수의 사인곡선들이 분석되어야만 한다는 것은 바람직하지 않다.
도 1은 본 발명에 따른 오디오 인코더의 실시예를 도시한 도면.
도 2는 후보 사인곡선의 위상 일관성을 결정하기 위해 보다 작은 부분들에서 오디오 세그먼트를 세분화하는 예를 도시한 도면.
도 3은 본 발명에 따른 선택된 사인곡선에 적용되는 다른 선택 과정을 도시한 블록도.
도 4는 본 발명에 따른 오디오 시스템의 실시예를 도시한 도면.
본 발명의 목적은 주어진 오디오 품질을 위한 비트-레이트에 대하여 유용한 오디오 인코딩을 제공하는 것이다. 이를 위해, 본 발명은 독립 청구항들에 정의된 바와 같은 인코딩 방법, 오디오 인코더 및 오디오 시스템을 제공한다. 유용한 실시예들은 종속 청구항들에서 정의된다.
본 발명의 제 1 특징은 상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 단계, 상기 분석에 기초하여 후보 사인곡선들을 선택하는 단계, 시간적으로 특정 순간에서 상기 후보 사인곡선의 위상이 시간의 다른 순간에서 결정되는 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 정도에 의해 정의되는 위상 일관성을 상기 후보 사인곡선들 중 적어도 하나에 대해 결정하는 단계, 및 상기 위상 일관성이 미리결정된 임계치 이상일 때, 선택된 사인곡선으로 상기 후보 사인곡선을 선택하는 단계를 포함하는 사인곡선 인코딩 방법을 제공한다. 상기 후보 사인곡선들을 선택하기 위한 분석은 일반적으로 주파수 분석일 것이다. 이러한 주파수 분석은, 예를 들면, 피크-피킹 또는 매칭 동작과 같은 종래의 사인곡선 선택 기술들에 사용된다. 시간적으로 특정 순간에서의 상기 후보 사인곡선의 위상은, 그 주파수 및 예측시간과 결정시간 사이의 차이가 알려짐에 따라, 시간의 다른 순간에서 결정된 상기 후보 사인곡선의 위상으로부터 예측될 수 있다. 본 발명은, 사인곡선들이 인코딩된 오디오 신호를 재생하기 위해 디코더에서 합성될 때, 상기 사인곡선의 위상들이 일관될 것이라는 예측에 기초한다. 위상들이 일관하는 인코딩에 대해 이들 사인곡선들을 선택함으로써, 보다 양호한 선택이 이뤄진다. 선택된 사인곡선들만이 인코딩된다. 그 결과, 상기 위상 일관성에 기초한 선택 과정은 주어진 오디오 품질로 인코딩될 보다 작은 수의 사인곡선들을 초래할 것이며, 주어진 오디오 품질에 대한 비트율에 대해서 유리하다.
본 발명의 실시예에서, 상기 후보 사인곡선의 위상 일관성은 상기 오디오 신호의 제 2 세그먼트를 적어도 제 1 및 제 2 부분으로 세분화하고, 상기 적어도 제 1 및 제 2 부분에서의 상기 후보 사인곡선의 실제 위상들을 결정하고, 상기 제 2 부분에서의 상기 실제 위상을 예측하기 위한 입력으로서 동작하도록 상기 제 1 부분에서의 실제 위상을 사용하고, 상기 제 2 부분에서의 상기 실제 위상과 상기 예측된 위상 사이의 예측 에러에 기초하여 상기 후보 사인곡선의 위상 일관성을 결정함으로써 결정된다. 일반적으로, 상기 제 2 세그먼트는 후보 사인곡선들의 선택 시 사용되는 상기 제 1 세그먼트와 동일할 것이지만, 이는 반드시 그런 것은 아니다. 본 실시예의 장점은, 후보 사인곡선의 실제 위상이 오디오 신호의 일부에 대한 분석이 입력으로서 필요하게 되는 FFT 과정과 같은 주파수 분석을 수행함으로써 쉽게 결정될 수 있다.
본 발명의 다른 실시예에서, 다른 선택 과정이 선택된 사인곡선들에 대해 적용된다. 상기 다른 선택 과정은, 상기 선택된 사인곡선의 주파수 부근에 로컬 주파수 대역을 상기 선택된 사인곡선들 중 적어도 하나에 대해 정의하는 단계, 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계, 및 상기 진폭들의 조합에 의존하여 다른 선택된 사인곡선으로서 상기 선택된 사인곡선을 선택한다. 상기 선택된 사인곡선들에 적용된 상기 다른 선택 과정인 경우, 상기 오디오 신호의 제 3 세그먼트에 대해 분석이 수행된다. 일반적으로, 상기 제 3 세그먼트는 상기 선택된 사인곡선들의 선택에 사용되는 제 2 세그먼트와 동일할 것이지만, 이는 반드시 그런 것은 아니다. 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합함으로써, 상기 선택된 사인곡선의 로컬 주파수 대역 내의 백그라운드 주파수 성분들에 대한 측정이 획득된다. 상기 측정을 사용함으로써, 보다 양호한 선택이 이뤄진다. 또한, 다른 선택은 위상과는 독립적인 사인곡선의 진폭에 기초한다. 결과적으로, 상기 다른 선택은 이전의 선택 과정에 의해 선택된 상기 선택된 사인곡선의 수에 비교하여 다른 선택된 사인곡선들의 수의 다른 감소를 초래할 수 있다. 다른 선택된 사인곡선들만이 인코딩되어야 할 것이다. 그 결과, 상기 다른 선택 과정은 주어진 오디오 품질에 대한 비트율에 유리한 주어진 오디오 품질로 인코딩될 보다 작은 수의 사인곡선들을 초래할 것이다. 위상 일관성에 기초한 상기 선택 과정과 진폭들에 기초한 상기 다른 선택 과정 사이의 독립성으로 인해, 또한, 모든 선택 과정들을 병렬로 수행할 수 있다. 모든 선택 과정들은 후보 사인곡선들로부터의 선택이 이뤄지며, 그 결과들은 조합될 수 있다.
본 발명의 또 다른 실시예에서, 상기 선택된 사인곡선의 주파수 부근에서 상기 로컬 주파수 대역의 대역폭은 상기 선택된 사인곡선의 주파수에 의존하여 정의된다. 상기 선택된 사인곡선의 주파수에 대한 상기 의존성으로 인해, 상기 다른 선택 과정은 다른 주파수들에 적절히 튜닝될 수 있다. 본 발명의 또 다른 실시예에서, 상기 선택된 사인곡선의 주파수에 대한 상기 의존성은 인간의 오디오 인식에 의존한다. 이러한 의존성의 예는 바크 대역폭(Bark bandwidth)에 의해 정의된다. 바크는 기술분야에 알려져 있는 인식 주파수의 단위이다. 다른 예들은 기술분야에 알려져 있는 멜 스케일(Mel scale) 및 ERB 스케일이다. 인간의 오디오 인식을 고려함으로써, 다른 선택된 사인곡선으로서 선택된 사인곡선을 더 선택하는 보다 양호한 결정이 이뤄진다.
본 발명의 다른 특징에 따르면, 상기 선택된 사인곡선은, 그 진폭이 상기 진폭들의 조합에 대해 충분(significant)할 때 다른 선택된 사인곡선으로서 더 선택되며, 상기 충분은 상기 선택된 사인곡선의 진폭과 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 선택된 사인곡선의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭 사이의 차이를 임계치화(thresholding)함으로써 평가된다. 상기 차이를 임계치화함으로써, 적절한 방법이 선택된 사인곡선의 피크를 결정하기 위해 획득된다.
본 발명의 또 다른 특징에 따르면, 상기 선택된 사인곡선의 진폭의 상기 충분은, 상기 선택된 사인곡선의 진폭과 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 선택된 사인곡선의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭 사이의 차이와, 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들의 가중된 편차의 비율을 임계치화함으로써 평가된다. 상기 편차에 대해, 표준 편차의 정의가 예로서 사용될 수 있다. 상기 비율을 임계치화함으로써, 선택된 사인곡선의 피크를 결정하기 위해 다른 적절한 방법이 획득된다.
본 발명의 상술된 특징 및 다른 특징들이 이하에 서술된 실시예들로부터 명백해질 것이며, 상기 실시예들을 참조하여 설명될 것이다.
도면은 본 발명을 이해하는데 필요한 그러한 요소들만을 도시하고 있다.
도 1은 입력 오디오 신호(x(t))를 얻기 위한 입력 유닛(10)을 포함하는 본 발명에 따른 오디오 인코더(1)의 실시예를 도시한 것이다. 오디오 인코더(1)는 입력 신호를 세 가지 성분들: 과도 신호 성분들(transient signal components), 사인곡선 신호 성분들 및 잡음 신호 성분들로 분할한다. 오디오 인코더(1)는 과도 인코더(11), 사인곡선 인코더(12) 및 잡음 분석기(13)를 포함한다.
과도 인코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(transient synthesizer)(TS)(112)를 포함한다. 우선, 신호(x(t))는 과도 검출기(110), 과도 분석기(111) 및 감산기(15)에 진입한다. 과도 검출기(110)는 과도 신호 성분이 존재하는지와 어디에 위치하는지를 평가한다. 이 정보는 과도 분석기(111)에 공급된다. 이 정보는 또한 유용한 신호-유도 분할을 달성하기 위해 사인곡선 분석기(SA)(120) 또는 잡음 분석기(NA)(13)에서 사용될 수 있다. 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하는 것을 시도한다. 이것은 예를 들어, 형상 함수를 사인 세그먼트와 정합시키고 형상 함수 아래의 컨텐트, 가령, (작은) 수의 사인곡선들을 결정함으로써 행해진다. 이 정보는 과도 코드(CT) 내에 포함된다. 과도 코드(CT)는 과도 합성기(112) 및 멀티플렉서(14)에 제공된다. 합성된 과도 신호 성분은 감산기(15)에서 입력 신호(x(t))로부터 감산되어, 사인곡선 분석기(120) 및 부가적인 감산기(16)에 제공되는 신호(x1)가 된다. 사인곡선 분석기(120)는 사인곡선 신호 성분들을 결정한다. 이 정보는 사인곡선 분석기(SS)(121) 및 멀티플렉서(14)에 제공되는 사인곡선 코드(CS) 내에 포함된다. 사인곡선 코드(CS)로부터, 사인곡선 신호 성분들은 사인곡선 합성기(121)에 의해 재구성된다. 이 신호는 감산기(16)에서 입력 신호(x1)로부터 감산된다. 남아있는 신호(x2)는 (큰) 과도 신호 성분들 및 (주요) 사인곡선 신호 성분들이 없으므로, 주로 잡음으로 이루어진다고 가정된다. 결과적으로, 신호(x2)는 잡음이 자신의 스펙트럼 및 시간 인벨롭(spectral and temporal envelope)에 대해 분석되는 잡음 분석기(13)에 제공된다. 이 정보는 잡음 코드(CN) 내에 포함된다. 멀티플렉서(14)에서, 코드(CT,CS 및 CN)를 포함하는 오디오 스트림(AS)이 구성된다. 오디오 스트림(AS)은 예를 들어, 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.
다음에서, 본 발명의 실시예에 따른 사인곡선 분석기(120)에서의 사인곡선들의 선택이 논의될 것이다. 단지 적은 수의 사인곡선들이 분석될 때, 실제로 거의 행해지지는 않지만, 과도 분석기(11)에서 사인곡선 선택 과정을 사용할 수 있다.
사인곡선의 실제 선택이 수행되기 전에, 우선 다수의 후보 사인곡선들이 선택된다. 오디오 신호의 제 1 세그먼트에 대한 분석이 수행되며, 이 분석으로부터 후보 사인곡선들이 선택된다. 이 선택은 예를 들어, 제 1 세그먼트에 대한 주파수 분석을 사용하는 피크-픽킹 또는 정합 추적과 같은 종래의 기술에 의해 수행될 수 있다. 그 결과는, 주파수들이 후보 사인곡선들의 수, L 및 헤르쯔(Hz)로 정의된 주파수들 fi을 갖는 F=(f1,f2,...,fL)에 저장되는 다수의 후보 사인곡선들일 것이다. 후보 사인곡선들 중 적어도 하나에서, 보다 특정한 사인곡선 선택 과정은 후보 사인곡선의 위상 일관성에 기초하여 적용될 것이다. 후보 사인곡선의 위상 일관성은, 시간적으로 특정 순간에서 결정된 상기 후보 사인곡선의 위상이 시간의 다른 순간에서 결정된 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 것에 의해 정의된다. 다음에, 상기 후보 사인곡선은, 상기 위상 일관성이 미리결정된 임계치 이상일 때 선택된 사인곡선으로서 선택된다.
본 발명의 실시예에서, 상기 후보 사인곡선의 위상 일관성은 우선 오디오 신호의 제 2 세그먼트를 보다 부분들로 세분화함으로써 결정된다. 상기 제 2 세그먼트는 일반적으로 후보 사인곡선들의 선택에 사용되는 제 1 세그먼트와 동일하거나, 또는 다른 제 2 세그먼트가 사용될 수 있다. 둘 이상의 보다 작은 부분들은 상기 후보 사인곡선의 일관성을 결정하는데 유용해야 한다. 상기 보다 작은 부분들은 상호 중첩할 수 있지만, 이는 반드시 필요한 경우는 아니다. 제 2 세그먼트 xS는, 예를 들면, 도 2에 도시된 3개의 중첩하는 보다 작은 부분들로 세분화될 수 있다. N이 상기 제 2 세그먼트 xS의 샘플 수이고 N이 짝수이면, 상기 보다 작은 부분들은 식(1)에 의해 정의된다.
xs1[k]=xs[k]
xs2[k]=xs[k+M/2] (1)
xs3[k]=xs[k+M]
여기서, M=N/2 및 1≤k≤M이다. 상기 보다 작은 부분들 xs1, xs2, xs3은 각각 길이 M을 갖는다. 이들 3개의 보다 작은 부분들 각각에 대해, F로부터 주파수 fi을 갖는 상기 후보 사인곡선의 실제 위상들이 결정된다. 이러한 목적을 위해, 상기 보다 작은 부분들은, 주파수 분석이 FFT 과정과 같이 수행될 수 있는 이후에 주파수 분석에 적절하도록 윈도우(window)될 수 있다. 위상 결정에 대한 위치들의 예가 φ1, φ2, 및 φ3로 도 2에 도시되어 있다. 다음에, 보다 작은 부분 1에서 2로, 2에서 3으로 그리고 1에서 3으로의 경우에, 위상들이 예측될 수 있다. 실제 위상들과 상기 예측된 위상들 사이의 차이들은 후보 사인곡선에 대한 다음의 예측 에러들을 초래한다.
E1,2=(φ1 - (φ2 - T/2·2π·fi)) mod (2π)
E2,3=(φ3 - (φ2 + T/2·2π·fi)) mod (2π) (2)
E1,3=(φ3 - (φ1 + T·2π·fi)) mod (2π)
여기서, 예측 에러들은 모듈로(mod(2π))로 표시되고, 상기 위상 φ1, φ2, 및 φ3은 라디안으로 제공되며, T는 초로 표시되고 Fs가 샘플링 주파수(예를 들면, 44.1 kHz)인 T=M/Fs로 정의된다. 이들 예측 에러들 E에 기초한 특정 기준을 사용하여, 상기 후보 사인곡선은 선택된 사인곡선으로서 선택될 수 있다. 가능한 기준은, 다음의 조건들 중 적어도 하나가 진실이면 시험일 것이다.
|E1,2| < c
|E2,3| < c (3)
|E1,3| < 2·c
여기서, c는 일반적으로 상기 제 2 세그먼트 xs의 샘플 수, N 및 상기 보다 작은 부분들 xs1, xs2, xs3의 샘플 수, N에 의존한다. c의 정의에 대한 예는 식(4)으로 표현된다.
본 발명의 다른 실시예에서, 상기 선택된 사인곡선의 다른 선택이 수행된다. 도 3은 선택된 사인곡선들에 적용되는 다른 선택 과정을 나타내는 블록도를 도시한다. 이들 선택된 사인곡선들의 주파수들은 선택된 사인곡선들의 수, R 및 헤르쯔(Hz)로 정의된 주파수 fi를 갖는 Fq=(f1, f2, ..., fR)에 저장된다. 제 3 세그먼트는 윈도우된 세그먼트 xw을 초래하는 주파수 분석에 적절하도록 윈도우될 수 있다. 상기 제 3 세그먼트는 일반적으로 사인곡선들의 이전 선택에 사용되는 상기 제 2 세그먼트와 동일할 뿐만 아니라, 다른 제 3 세그먼트가 사용될 수 있다. 우선, 처리 스테이지(PP)가 수행된다. (I)에서, Fp으로부터 각각의 주파수 fi인 경우, 선택된 사인곡선들은 합성되고 상기 윈도우된 세그먼트 xw로부터 감산된다. (II)에서, 최종 세그먼트 xw는 길이 P로 제로-패드(zero-pad)되고, 예를 들면, FFT 과정에 의해 그 주파수 성분들에 대해 분석된다. 최종 진폭 스펙트럼은 |Xs|로 표현된다. 두번째로, (III)에서, 세그먼트 xw는 길이 P로 제로-패드되고 진폭 스펙트럼 |X|을 초래하는 주파수들을 감산시키지 않고 그의 주파수 성분들에 대해 분석된다. 처리 스테이지 이후에, 선택 과정은 (IV)로 초기화된 Fq로부터 주파수 fi를 갖는 선택된 사인곡선들 중 적어도 하나에 대해 시작된다. (V)에서, 로컬 주파수 대역은 상기 주파수 fi 부근에 결정된다. 상기 로컬 주파수 대역을 정의하기 위해, 다른 정의들이 사용될 수 있다. 이 경우에, 바크(Bark) 대역폭을 사용하도록 선택된다. 예를 들면, 임계 대역폭에 의해 정의된다.
b(fi) = 25 + 75·(1+1.4·10-6·fi 2)0.69 (5)
헤르쯔(Hz)로 정의된 임계 대역폭 b(fi)로부터, 경계 주파수들 fa 및 fb는 식(6)에 의해 정의된다.
스펙트럼은 식(7)에 따라 주파수 fspect에 관련하여 0에서 (P-I)로의 인덱스 ispect로 인덱스된다.
(7)
결과적으로, 경계 주파수들 fa 및 fb에 대응하는 스펙트럼에서 인덱스 ia 및 ib는 식(8)에 의해 정의된다.
여기서, round(r)는 가장 근접한 정수에의 r의 반올림을 가리킨다. 로컬 주파수 대역이 정의되고, 상기 선택된 사인곡선의 주파수 대역 의 평균 진폭은 식(9)에 의해 |Xs|으로부터 (VI)에서 계산된다.
여기서, As(k)는 인덱스 k에서 진폭 스펙트럼|Xs|에서의 주파수 성분의 진폭이고 W1(k)은 인덱스 k에 따른 가중 팩터이다. 상기 가중 팩터는 모든 k에 대한 상수일 수 있다. 그러나, 상기 가중 팩터는, 예를 들면, 경계 영향을 감소시키기 위해 경계 주파수 인덱스들 ia 또는 ib 중 하나에 더 근접한 인덱스 k에 대해 감소할 수 있다. 상기 선택된 사인곡선은 또한 로컬 주파수 대역 내에 다른 진폭들에 따라 다른 선택된 사인곡선으로서 선택될 것이다. 따라서, 다른 선택된 사인곡선으로서 선택된 사인곡선을 더 선택하는 방법은 식(9)에 계산된 상기 선택된 사인곡선의 주파수 대역 의 가중된 평균 진폭 및 진폭 스펙트럼에서 인덱스 ifi가 식(10)에 의해 결정되는 선택된 사인곡선 Ai=A(ifi)의 진폭에 기초한 기준을 사용한다.
본 발명의 또 다른 실시예에서, 다른 선택 과정에서 사용되는 기준이 또한 선택된 사인곡선의 로컬 주파수 대역의 표준편차 σi를 포함하며, (VI)에서 식(11)에 의해 계산된다.
여기서, W2(k)는 인덱스 k에 따른 다른 가중 팩터이다. 상기 다른 가중 팩터는 모든 k에 대해 일정할 수 있다. 그러나, 상기 다른 가중 팩터는, 예를 들면, 경계 영향들을 감소시키기 위해 경계 주파수 인덱스들 ia 또는 ib 중 하나에 보다 근접한 인덱스 k에 대해 감소할 수 있다. W2(k)는 식(9)에 사용되는 W1(k)와 동일하게 선택될 수 있지만, 이는 반드시 이러한 경우는 아니다. 선택된 사인곡선 A의 진폭으로부터, 상기 선택된 사인곡선의 주파수 대역, 비율 ri의 평균 진폭 및 표준 편차 σi는 선택된 사인곡선의 피크에 대한 측정이다.
선택 기준(VIII)에서, 상기 비율 ri은 임계치 Ti에 비교된다. Ti는, 예를 들면, 고정 임계치 또는 상기 선택된 사인곡선 fi의 주파수와 같이 특정 파라미터들에 따른 임계치, 주파수 스펙트럼에서 주파수의 인덱스 ifi 및/또는 상기 주파수 분석에 사용되는 샘플들의 수 P일 수 있다. 상기 임계치 Ti에 대한 정의 예가 식(13)에 의해 정의된다.
비율 ri이 상기 임계치 ri 이상이면, 상기 주파수 fi의 선택된 사인곡선은 인코딩하는데 유지된다(S). 다른 경우에, 상기 선택된 사인곡선은 거부된다(NS).
도 4는 도 1에 도시된 바와 같은 오디오 인코더(1)를 포함하는 본 발명에 따른오디오 시스템의 실시예를 도시한 것이다. 이와 같은 시스템은 기록 및/또는 전송 특성들을 제공한다. 오디오 신호(x(t))는 오디오 플레이어, 마이크로폰 또는 오디오 입력 커넥터 등과 같은 오디오 신호 획득 장치(41)에 의하여 얻어진다. 오디오 신호(x(t))는 도 1에 도시된 바와 같은 오디오 인코더(1)에 대한 입력의 역할을 한다. 출력 오디오 스트림(AS)은 출력 인코더(1)에서 포맷팅 유닛(42)에 제공되는데, 이 유닛은 무선 접속, 데이터 버스 또는 저장 매체일 수 있는 통신 채널(43)에 적절하게 오디오 스트림(AS)을 포맷한다. 통신 채널(43)이 저장 매체인 경우에, 저장 매체는 시스템에서 고정되거나 이동 가능한 디스크, 메모리 스틱 등일 수 있다. 통신 채널은 오디오 시스템의 부분일 수 있지만, 종종 오디오 시스템의 외부에 존재할 것이다.
상술된 실시예들이 본 발명을 제한하기 보다는, 오히려 설명하는 것이라는 것과, 당업자들이 첨부된 청구항들의 범위를 벗어나지 않고 많은 대안 실시예들을 설계할 수 있다는 것을 주의해야만 한다. 청구항들에서, 괄호 사이의 임의의 참조 부호들은 청구항을 제한하는 것으로 해석되지 않아야 한다. "포함하는"이라는 단어는 청구항에 올라간 요소들 또는 단계들과 다른 요소 또는 단계의 존재를 배제하지 않는다. 본 발명은 몇 개의 별개의 요소들을 포함하는 하드웨어, 및 적절하게 프로그래밍된 컴퓨터에 의하여 구현될 수 있다. 몇 개의 수단들을 열거한 장치 청구항에서, 몇 개의 이러한 수단들은 하나 및 동일한 항의 하드웨어로 구현될 수 있다. 서로 상이한 종속 청구항에서 특정한 방법들이 재인용된다는 단순한 사실은 이러한 방법들이 조합이 유용하게 사용될 수 없다는 것을 나타내지 않는다.
요약해서, 본 발명은 상기 오디오 신호 중 적어도 일부를 다수의 사인곡선들로 표현함으로써 오디오 신호를 인코딩하는 방법을 제공하며, 상기 방법은 상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 단계, 상기 분석에 기초하여 후보 사인곡선들을 선택하는 단계, 시간적으로 특정 순간에 상기 후보 사인곡선의 위상이 다른 순간에서 결정되는 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 정도로 정의되는 위상 일관성을 상기 후보 사인곡선들 중 적어도 하나에 대해 결정하는 단계, 및 상기 위상 일관성이 미리결정된 임계치 이상일 때 선택된 사인곡선으로서 상기 후보 사인곡선을 선택하는 단계를 포함한다. 본 발명에 따라 사인곡선들을 선택하면 주어진 오디오 품질을 위해 보다 작은 수의 사인곡선들이 인코딩될 것이며, 이는 주어진 오디오 품질을 위한 비트-레이트의 면에서 유용하다.

Claims (10)

  1. 오디오 신호 중 적어도 일부를 다수의 사인곡선들로 표현함으로써 상기 오디오 신호를 인코딩 방법에 있어서,
    상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 단계;
    상기 분석에 기초하여 후보 사인곡선들(candidate sinusoids)을 선택하는 단계;
    시간적으로 특정 순간에서 상기 후보 사인곡선의 위상이 시간의 다른 순간에서 결정되는 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 정도로 정의되는 위상 일관성(phase consistency)을 상기 후보 사인곡선들 중 적어도 하나에 대해 결정하는 단계; 및
    상기 위상 일관성이 미리결정된 임계치 이상일 때, 상기 후보 사인곡선을 선택된 사인곡선으로서 선택하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  2. 제 1 항에 있어서,
    상기 후보 사인곡선의 위상 일관성의 결정은:
    상기 오디오 신호의 제 2 세그먼트를 적어도 제 1 및 제 2 부분으로 세분화하는 단계;
    적어도 상기 제 1 및 제 2 부분에서 상기 후보 사인곡선의 실제 위상들을 결정하는 단계;
    상기 제 2 부분에서의 상기 실제 위상을 예측하기 위한 입력으로서 동작하도록 상기 제 1 부분에서의 실제 위상을 사용하는 단계; 및
    상기 제 2 부분에서의 상기 실제 위상과 상기 예측된 위상 사이의 예측 에러에 기초하여 상기 후보 사인곡선의 위상 일관성을 결정하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  3. 제 1 항에 있어서,
    상기 방법은 상기 선택된 사인곡선들로부터의 다른 선택을 더 포함하며,
    상기 선택된 사인곡선의 주파수 부근에 로컬 주파수 대역을 상기 선택된 사인곡선들 중 적어도 하나에 대해 정의하는 단계;
    상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계; 및
    상기 진폭들의 조합에 의존하여 상기 선택된 사인곡선을 다른 선택된 사인곡선으로서 더 선택하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  4. 제 3 항에 있어서, 상기 선택된 사인곡선의 주파수 부근의 상기 로컬 주파수 대역의 대역폭은 상기 선택된 사인곡선의 주파수에 의존하여 정의되는, 오디오 신호 인코딩 방법.
  5. 제 4 항에 있어서, 상기 선택된 사인곡선의 주파수에 대한 의존성은 인간의 오디오 인식에 기초하는, 오디오 신호 인코딩 방법.
  6. 제 3 항에 있어서,
    상기 선택된 사인곡선은, 그 진폭이 상기 진폭들의 조합에 대해 충분(significant)할 때 다른 선택된 사인곡선으로서 더 선택되며, 상기 충분은 상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 선택된 사인곡선의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭과 상기 선택된 사인곡선의 진폭 사이의 차이를 임계치화함으로써 평가되는, 오디오 신호 인코딩 방법.
  7. 제 3 항에 있어서,
    상기 선택된 사인곡선은, 그 진폭이 상기 진폭들의 조합에 대해 충분할 때 다른 선택된 사인곡선으로서 더 선택되며, 상기 충분은:
    상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 선택된 사인곡선의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭과 상기 선택된 사인곡선의 진폭 사이의 차이와,
    상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들의 가중된 편차의 비율을 임계치화함으로써 평가되는, 오디오 신호 인코딩 방법.
  8. 오디오 신호 중 적어도 일부를 다수의 사인곡선들로 표현함으로써 상기 오디오 신호를 인코딩하기 위한 오디오 인코더에 있어서,
    상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 수단,
    상기 분석에 기초하여 후보 사인곡선들을 선택하는 수단,
    시간적으로 특정 순간에서 상기 후보 사인곡선의 위상이 시간의 다른 순간에서 결정되는 상기 후보 사인곡선의 위상으로부터 예측될 수 있는 정도로 정의되는 위상 일관성을 상기 후보 사인곡선들 중 적어도 하나에 대해 결정하는 수단, 및
    상기 위상 일관성이 미리결정된 임계치 이상일 때, 상기 후보 사인곡선을 선택된 사인곡선으로서 선택하는 수단을 포함하는, 오디오 인코더.
  9. 제 8 항에 있어서,
    상기 오디오 인코더는 상기 선택된 사인곡선들로부터 다른 선택을 수행하도록 더 구성되며, 상기 다른 선택을 위해, 상기 오디오 인코더는:
    상기 선택된 사인곡선의 주파수 부근에서 로컬 주파수 대역을 상기 선택된 사인곡선들 중 적어도 하나에 대해 정의하는 수단,
    상기 로컬 주파수 대역 내의 상기 선택된 사인곡선들 중 적어도 하나가 제외되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 수단, 및
    상기 진폭들의 조합에 의존하여 상기 선택된 사인곡선을 다른 선택된 사인곡선으로서 더 선택하는 수단을 포함하는, 오디오 인코더.
  10. 오디오 신호를 획득하기 위한 수단, 인코딩된 오디오 신호를 획득하기 위해 상기 오디오 신호를 인코딩하기 위한 제 8 항 또는 제 9 항에 청구된 오디오 인코더, 및 저장 및/또는 전송에 적절한 포맷으로 상기 인코딩된 오디오 신호를 포맷팅하기 위한 포맷팅 유닛을 포함하는 오디오 시스템.
KR1020057011327A 2002-12-19 2003-11-19 오디오 인코딩에서의 사인곡선 선택 KR20050085761A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02080496.9 2002-12-19
EP02080496 2002-12-19

Publications (1)

Publication Number Publication Date
KR20050085761A true KR20050085761A (ko) 2005-08-29

Family

ID=32668800

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057011327A KR20050085761A (ko) 2002-12-19 2003-11-19 오디오 인코딩에서의 사인곡선 선택

Country Status (7)

Country Link
US (1) US20060212501A1 (ko)
EP (1) EP1576584A1 (ko)
JP (1) JP2006510937A (ko)
KR (1) KR20050085761A (ko)
CN (1) CN1729510A (ko)
AU (1) AU2003276636A1 (ko)
WO (1) WO2004057576A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180049182A (ko) * 2014-02-28 2018-05-10 구글 엘엘씨 누락 데이터에 대한 사인곡선 보간

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1576583A2 (en) * 2002-12-19 2005-09-21 Koninklijke Philips Electronics N.V. Sinusoid selection in audio encoding
AU2005267955C1 (en) * 2004-08-05 2009-02-19 Lg Electronics Inc. Interrupting use of frequency layer convergence scheme
CN101766056B (zh) * 2007-08-02 2013-05-22 Nxp股份有限公司 具有多个发光器件的电子设备
HK1176805A2 (en) * 2013-01-15 2013-08-02 X On Comm Ltd A method and system for wireless communication

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JP3134455B2 (ja) * 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
JP5485488B2 (ja) * 2000-06-20 2014-05-07 コーニンクレッカ フィリップス エヌ ヴェ 正弦波符号化
WO2002056298A1 (en) * 2001-01-16 2002-07-18 Koninklijke Philips Electronics N.V. Linking of signal components in parametric encoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180049182A (ko) * 2014-02-28 2018-05-10 구글 엘엘씨 누락 데이터에 대한 사인곡선 보간

Also Published As

Publication number Publication date
EP1576584A1 (en) 2005-09-21
WO2004057576A1 (en) 2004-07-08
AU2003276636A1 (en) 2004-07-14
JP2006510937A (ja) 2006-03-30
US20060212501A1 (en) 2006-09-21
CN1729510A (zh) 2006-02-01

Similar Documents

Publication Publication Date Title
EP1738355B1 (en) Signal encoding
Hardwick A 4.8 kbps multi-band excitation speech coder
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US8315860B2 (en) Interoperable vocoder
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6098036A (en) Speech coding system and method including spectral formant enhancer
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6094629A (en) Speech coding system and method including spectral quantizer
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
KR100204740B1 (ko) 정보 코딩 방법
EP2626856B1 (en) Encoding device, decoding device, encoding method, and decoding method
US7197454B2 (en) Audio coding
EP1676262A2 (en) Method and system for speech coding
US5839102A (en) Speech coding parameter sequence reconstruction by sequence classification and interpolation
KR101008529B1 (ko) 오디오 인코딩에서의 정현파 선택
KR20050085761A (ko) 오디오 인코딩에서의 사인곡선 선택
JP2001177416A (ja) 音声符号化パラメータの取得方法および装置
KR0138878B1 (ko) 보코더용 피치검색 처리시간 단축법
JP2000132195A (ja) 信号符号化装置及び方法
Hernandez-Gomez et al. Short-time synthesis procedures in vector adaptive transform coding of speech

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid