KR20150110708A - 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 - Google Patents

주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 Download PDF

Info

Publication number
KR20150110708A
KR20150110708A KR1020157022714A KR20157022714A KR20150110708A KR 20150110708 A KR20150110708 A KR 20150110708A KR 1020157022714 A KR1020157022714 A KR 1020157022714A KR 20157022714 A KR20157022714 A KR 20157022714A KR 20150110708 A KR20150110708 A KR 20150110708A
Authority
KR
South Korea
Prior art keywords
spectrum
frequency
emphasis
spectral
spectral line
Prior art date
Application number
KR1020157022714A
Other languages
English (en)
Other versions
KR101792712B1 (ko
Inventor
스테판 될라
번하드 그릴
크리스티안 헴리히
니콜라우스 레텔바흐
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150110708A publication Critical patent/KR20150110708A/ko
Application granted granted Critical
Publication of KR101792712B1 publication Critical patent/KR101792712B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 비트스트림을 생산하기 위하여 비-음성 오디오 신호를 인코딩하기 위한 인코더 및 방법을 제공하는데, 오디오 인코더는: 복수의 선형 예측 코딩 계수(LC)를 갖는 선형 예측 코딩 필터92) 및 시간-주파수 변환기(3)의 조합(2, 3)을 포함하되, 상기 조합(2, 3)은 프레임(FI)을 기초로 하고 선형 예측 코딩 계수(LC)들을 기초로 하여 스펙트럼(SP)을 출력하기 위하여 오디오 신호(AS)의 프레임(FI)을 필터링하고 오디오 신호(AS)의 프레임(FI)을 주파수 도메인으로 변환하도록 구성됨; 스펙트럼(SP)을 기초로 하여 처리된 스펙트럼(PS)을 계산하도록 구성되는 저주파수 강조기(4)를 포함하되, 기준 스펙트럼 라인(RSL, 도 2 참조)보다 낮은 주파수를 표현하는 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL, 도 2 참조)이 강조됨; 및 선형 예측 코딩 필터(2)의 선형 예측 코딩 계수들(LC)에 의존하여 저주파수 강조기(4)에 의해 처리된 스펙트럼(PS)의 계산을 제어하도록 구성되는 제어 장치(5);를 포함한다. 게다가, 본 발명은 상응하는 오디오 디코더, 시스템, 양자화된 스펙트럼들과 복수의 선형 예측 코딩 계수를 포함하는 비트스트림을 디코딩하기 위한 방법, 및 상응하는 컴퓨터 프로그램을 제공한다.

Description

주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조{LOW-FREQUENCY EMPHASIS FOR LPC-BASED CODING IN FREQUENCY DOMAIN}
본 발명은 오디오 신호 처리를 위한 향상된 개념을 제공하는 것으로서, 특히 적응 저주파수 강조 및 탈-강조를 위한 향상된 개념을 제공하는 것이다.
비-음성 신호들, 예를 들면 악음(musical sound)이 더 넓은 주파수 대역을 차지하는 인간 성음(vocal sound)보다 처리에 있어서 더 복잡할 수 있다는 것이 잘 알려져 있다. 적응 다중 속도 광대역+(AMR-WB+)[3] 및 확장 고효율-고급 오디오 코딩(xHE-AAC)[4]과 같은 최신 오디오 코딩 시스템들은 음악 및 다른 일반적인, 비-음성 신호들을 위한 변환 코딩 도구를 제공한다. 이러한 도구는 통상적으로 변환 코딩 여기(TCX)로 알려져 있고 주파수 도메인 내에 양자화되고 엔트로피 코딩되는, 여기(excitation)로 불리는, 선형 예측 코딩(LPC) 잔류의 전송의 원리를 기초로 한다. 그러나, 선형 예측 코딩 단계에서 사용되는 예측기(predictor)의 한정된 순서 때문에, 특히 인간 청각이 매우 민감한, 낮은 주파수들에서 디코딩된 신호 내에 아티팩트(articfact)들이 발생할 수 있다. 이를 위하여, [1]-[3]에서 저주파수 강조 및 탈-강조 전략이 도입되었다.
상기 종래의 적응 저주파수 강조(ALFE) 전략은 인코더 내에서의 양자화 이전에 저주파수 스펙트럼 라인들을 증폭한다. 특히, 저주파수 라인들은 대역들로 그룹핑되고, 각각의 대역의 에너지가 계산되며, 로컬 에너지(local energy) 최대를 갖는 대역이 발견된다. 에너지 최대의 값과 위치를 기초로 하여, 최대 에너지 대역 아래의 대역들은 뒤따르는 양자화에서 더 정확하게 양자화되도록 부스핑된다(boosted).
상응하는 디코더 내의 적응 저주파수 강조를 역변환하도록(invert) 실행되는 저주파수 탈-강조는 개념적으로 매우 유사하다. 인코더 내에서 수행된 것과 같이, 저주파수 대역들이 설정되고 최대 에너지를 갖는 대역이 결정된다. 인코더에서와 달리, 에너지 피크 아래의 대역들은 이제 감쇄된다(attenuated). 이러한 과정은 원래 스펙트럼의 라인 에너지들을 거칠게 복원한다.
종래 기술에서, 인코더 내의 대역-에너지 계산은 양자화 이전에, 즉 입력 스펙트럼 상에서 실행되나, 디코더 내에서 이는 역으로 양자화된 라인들, 즉 디코딩된 스펙트럼 상에서 수행된다는 것에 주목하여야 한다. 비록 스펙트럼 에너지가 평균적으로 보존되는 것과 같이 양자화 연산이 디자인될 수 있더라도, 개별 스펙트럼 라인들을 위하여 정확한 에너지 보존은 보장될 수 없다. 따라서, 적응 저주파수 강조는 완벽하게 역변환될 수 없다. 게다가, 종래의 적응 저주파수 강조의 바람직한 구현에서 인코더와 디코더 모두에 제곱근 연산이 필요하다. 그러한 상대적으로 복잡한 연산들을 방지하는 것이 바람직하다.
본 발명의 목적은 오디오 신호 처리를 위한 향상된 개념을 제공하는 것이다. 더 구체적으로, 본 발명의 목적은 적응 저주파수 강조 및 탈-강조를 위한 향상된 개념을 제공하는 것이다. 본 발명의 목적은 청구항 1에 따른 오디오 인코더, 청구항 11에 따른 오디오 디코더, 청구항 21에 따른 시스템, 청구항 22와 청구항 23에 따른 방법들 및 청구항 24에 따른 컴퓨터 프로그램에 의해 달성된다.
일 양상에서 본 발명은 그것으로부터 비트스트림을 생산하기 위하여 비-음성 오디오 신호를 인코딩하기 위한 오디오 인코더를 제공하고, 오디오 인코더는:
복수의 선형 예측 코딩 계수를 갖는 선형 예측 코딩 필터 및 시간-주파수 변환기의 조합을 포함하되, 상기 조합은 프레임을 기초로 하고 선형 예측 코딩 계수들을 기초로 하여 스펙트럼을 출력하기 위하여 오디오 신호의 프레임을 필터링하고 오디오 신호의 프레임을 주파수 도메인으로 변환하도록 구성됨;
스펙트럼을 기초로 하여 처리된 스펙트럼을 계산하도록 구성되는 저주파수 강조기(emphasizer)를 포함하되, 기준 스펙트럼 라인(reference spectrum line)보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인들이 강조됨; 및
선형 예측 코딩 필터의 선형 예측 코딩 계수들에 의존하여 저주파수 강조기에 의해 처리된 스펙트럼의 계산을 제어하도록 구성되는 제어 장치;를 포함한다.
선형 예측 코딩 필터는 선형 예측 모델의 정보를 사용하여, 압축 형태로 사운드의 프레이밍된 디지털 신호의 스펙트럼 엔벨로프를 표현하기 위하여 오디오 신호 처리 및 음성 처리에서 사용되는 도구이다.
시간-주파수 변환기는 신호의 스펙트럼을 추정하기 위하여 특히 시간 도메인으로부터 주파수 도메인으로 프레이밍된 신호를 변환하기 위한 도구이다. 시간-주파수 변환기는 래핑되는(lapped) 부가적인 특성과 함께, Ⅳ형 이산 코사인 변환(DCT-Ⅳ)을 기초로 하는 래핑된 변환인 변형 이산 코사인 변환을 사용할 수 있고, 이는 하나의 프레임의 뒤의 반(last half)이 그 다음의 프레임의 앞의 반과 일치하도록 뒤따르는 프레임들이 오버래핑되는, 대용량 데이터세트(dataset)의 연속적인 프레임들 상에서 실행되도록 디자인된다. 이산 코사인 변환의 에너지-압축 품질들에 더하여, 이러한 오버래핑은 변형 이산 코사인 변환을 특히 신호 압축 적용들에 유리하게 하는데, 그 이유는 프레임 경계들로부터 아티팩트 스테밍(stemming)을 방지하는데 도움을 주기 때문이다.
저주파수 강조기는 스펙트럼을 기초로 하여 처리된 스펙트럼을 계산하도록 구성되고, 처리된 스펙트럼 내에 포함된 저주파수들만이 강조되도록 하기 위하여 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인들이 강조된다. 기준 스펙트럼 라인들은 실질적인 경험을 기초로 하여 미리 정의될 수 있다.
제어 장치는 선형 예측 코딩 필터의 선형 예측 코딩 계수들에 의존하여 저주파수 강조기에 의해 처리된 스펙트럼의 계산을 제어하도록 구성된다. 따라서, 본 발명에 따른 인코더는 저주파수 강조의 목적을 위하여 오디오 신호의 스펙트럼을 분석할 필요가 없다. 또한, 인코더 및 뒤따르는 디코더에서 동일한 선형 예측 코딩 계수들이 사용될 수 있기 때문에, 인코더 또는 어떠한 다른 수단에 의해 생산되는 비트스트림 내에서 선형 예측 코딩 계수들이 디코더에 전송되는 한 스펙트럼 양자화와 관계없이 적응 저주파수 강조가 완전하게 역변환된다. 일반적으로 선형 예측 코딩 계수들은 어쨌든 각각의 디코더에 의해 비트스트림으로부터 오디오 출력 신호를 재구성하기 위한 목적을 위하여 비트스트림 내에 전송되어야만 한다. 따라서, 비트스트림의 비트 레이트는 여기서 설명되는 것과 같이 저주파수 강조에 의해 증가되지 않을 것이다.
여기에 설명되는 적응 저주파수 강조 시스템은 저 지연-통합 음성 및 오디오 코딩(LD-USAC)의 변환 코딩 여기 코어-코더, 프레임 당 기준으로 시간-도메인 및 변형 이산 코사인 변환-도메인 코딩 사이에서 변환할 수 있는 확장 고효율-고급 오디오 코딩[4]의 저 지연 변형에서 구현될 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 신호(AS)의 프레임은 선형 예측 코딩 필터에 입력되고, 필터링된 프레임은 선형 예측 코딩 필터(2)에 의해 출력되며 시간-주파수 변환기는 필터링된 프레임을 기초로 하여 스펙트럼을 추정하도록 구성된다. 따라서, 선형 예측 코딩 필터(2)는 그것의 입력으로서 오디오 신호를 갖는, 시간 도메인 내에서 작동할 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 신호의 프레임은 시간-주파수 변환기에 입력되고, 변환된 프레임은 시간-주파수 변환기에 의해 출력되며 선형 예측 코딩 필터는 변환된 프레임을 기초로 하여 스펙트럼을 추정하도록 구성된다. 저주파수 강조기를 갖는 본 발명의 인코더의 제 1 실시 예의 대안으로서 그러나 이와 동등하게, 인코더는 [5]에서 설명된 것과 같이, 주파수-도메인 잡음 형상화(frequency-domain noise shaping, FDNS)에 의해 생산되는 프레임의 스펙트럼을 기초로 하여 처리된 스펙트럼을 계산할 수 있다. 특히, 여기서 도구 명령이 변형되는데, 위에 설명된 것과 같은 시간-주파수 변환기는 오디오 신호의 프레임을 기초로 하여 변환된 프레임을 추정하도록 구성될 수 있고 선형 예측 코딩 필터는 시간-도메인 변환기에 의해 출력되는, 변환된 프레임을 기초로 하여 오디오 스펙트럼을 추정하도록 구성된다. 따라서, 선형 예측 코딩 필터는 그것의 입력으로서 변환된 프레임을 갖는, 주파수 도메인(시간 도메인 대신에) 내에서 작동할 수 있고, 선형 예측 코딩 필터는 선형 예측 코딩 계수들의 스펙트럼 표현의 곱셈을 통하여 적용된다.
통상의 지식을 가진 자들은 이러한 두 가지 접근법(시간 도메인 내의 선형 필터링 이후의 시간-주파수 변환 대 시간-주파수 변환 이후의 주파수 도메인 내의 스펙트럼 가중을 통한 선형 필터링)이 서로 동등한 것과 같이 구현될 수 있다는 것을 분명하게 이해하여야 한다.
본 발명의 바람직한 실시 예에 따르면 오디오 인코더는 처리된 스펙트럼을 기초로 하여 양자화된 스펙트럼을 생산하도록 구성되는 양자화 장치 및 양자화된 스펙트럼과 선형 예측 코딩 계수들을 비트스트림 내로 삽입하도록 구성되는 비트스트림 생산장치(bitstream producer)를 포함한다. 디지털 신호 처리에서, 양자화는 대규모 입력 값들의 세트를 (계수 가능한) 작은 세트로(일부 정밀 단위에서 반올림 값들과 같은) 매핑하는 과정이다. 양자화를 실행하는 장치 또는 알고리즘 함수는 양자화 장치로 불린다. 비트스트림 생산장치는 서로 다른 소스들로부터의 디지털 데이터를 단일의 비트스트림 내로 삽입할 수 있는 어떠한 장치일 수 있다. 이러한 특징들에 의해 적응 저주파수 강조로 생산된 비트스트림은 비트스트림 내에 이미 포함된 정보를 사용하여 뒤따르는 디코더에 의해 단독으로 완전하게 역변환된다.
본 발명의 바람직한 실시 예에서 제어 장치는 선형 예측 코딩 계수들의 스펙트럼 표현을 추정하도록 구성되는 스펙트럼 분석기, 또 다른 기준 스펙트럼 라인 아래의 스펙트럼 표현의 최소 및 스펙트럼 표현의 최대를 추정하도록 구성되는 최소-최대 분석기, 및 최소 및 최대를 기초로 하여 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인을 계산하기 위하여 스펙트럼 라인 강조 인자들을 계산하도록 구성되는 강조 인자 계산기(emphasis factor calculator)를 포함하고, 처리된 스펙트럼의 스펙트럼 라인들은 스펙트럼 라인 강조 인자들을 필터링된 프레임의 스펙트럼의 스펙트럼 라인들에 적용함으로써 강조된다. 스펙트럼 분석기는 위에 설명된 것과 같이 시간-주파수 변환기일 수 있다. 스펙트럼 표현은 선형 예측 코딩 필터의 전달 함수이고 위에 설명된 것과 같이, 주파수-도메인 잡음 형상화를 위하여 사용된 것과 동일한 스펙트럼 표현일 수 있으나, 반드시 그럴 필요는 없다. 스펙트럼 표현은 선형 예측 코딩 계수들의 홀수 이산 푸리에 변환(ODFT)으로부터 계산될 수 있다. 확장 고효율-고급 오디오 코딩 및 저 지연-통합 음성 및 오디오 코딩에서, 전달 함수는 전체 스펙트럼 표현을 포함하는 32 또는 64 변형 이산 코사인 변환-도메인 이득들과 가까울 수 있다.
본 발명의 바람직한 실시 예에서 강조 인자 계산기는 스펙트럼 라인 강조 인자들이 기준 스펙트럼 라인으로부터 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인으로의 방향으로 증가하는 것과 같은 방법으로 구성된다. 이는 가장 낮은 주파수를 표현하는 스펙트럼 라인이 가장 크게 증폭되고 반면에 기준 스펙트럼 라인에 인접한 스펙트럼이 가장 적게 증폭되는 것을 의미한다. 기준 스펙트럼 라인 및 기준 스펙트럼 라인보다 높은 주파수들을 표현하는 스펙트럼 라인들은 전혀 강조되지 않는다. 이는 어떠한 가청 단점 없이 계산 복잡도를 감소시킨다.
본 발명의 바람직한 실시 예에서 강조 인자 계산기는 제 1 공식(γ=(α·min/max)β)에 따라 기본 강조 인자(basis emphasis gactor)를 계산하도록 구성되는 제 1 스테이지를 포함하는데, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 스펙트럼 표현의 최소이며, max는 스펙트럼 표현의 최대이며, γ는 기본 강조 인자이며, 강조 인자 계산기는 제 2 공식(εii'-1)에 따라 스펙트럼 라인 강조 인자들을 계산하도록 구성되는 제 2 스테이지를 포함하는데, 여기서 i'는 강조되려는 스펙트럼 라인들의 수이고, i는 각각의 스펙트럼 라인의 지수이며, 지수는 스펙트럼 라인들의 주파수들과 함께 증가되고, 여기서 i=0 내지 i'-1이다. γ는 기본 강조 인자이며 εi는 지수 i를 갖는 스펙트럼 라인 강조 인자이다. 기본 강조 인자는 쉬운 방법으로 제 1 공식에 의해 최소 및 최대의 비율로부터 계산된다. 기본 강조 인자는 모든 스펙트럼 라인 강조 인자의 계산을 위한 기본의 역할을 하고, 제 2 공식은 스펙트럼 라인 강조 인자들이 기준 스펙트럼 라인으로부터 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인으로의 방향으로 증가하는 것을 보장한다. 종래의 해결책과는 대조적으로 제안된 해결책은 스펙트럼-대역-당 제곱근 또는 유사한 복잡한 연산을 필요로 하지 않는다. 각각의 하나가 인코더 및 디코더 측에 존재하는, 2번의 나눗셈과 2번의 제곱 연산만이 필요하다.
본 발명의 바람직한 실시 예에서 제 1 사전 설정된 값은 42보다 작고 22보다 크며, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작다. 앞서 언급된 간격들은 실질적인 경험들을 기초로 한다. 최상의 결과들은 제 1 사전 설정된 값이 32로 설정될 때 달성될 수 있다. 디코더의 제 1 사전 설정된 값은 인코더의 제 1 사전 설정된 값과 동일해야만 한다는 것에 유의하여야 한다.
본 발명의 바람직한 실시 예에서 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되는데, 여기서 i'는 강조되려는 스펙트럼 라인들의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자이다. 또한 이러한 값들은 실질적인 경험들을 기초로 한다. 제 2 사전 설정된 값이 4로 설정될 때 최상의 결과들이 달성될 수 있다는 것이 알려졌다.
본 발명의 바람직한 실시 예에서 기준 스펙트럼 라인은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현한다. 이러한 경험적으로 알려진 간격들은 충분한 저주파수 강조뿐만 아니라 시스템의 낮은 계산 복잡도를 보장한다. 이러한 간격들은 특히 조밀하게 존재하는 스펙트럼들에서, 저주파수 라인들이 충분한 정확도로 코딩되는 것을 보장한다. 바람직한 실시 예에서 기준 스펙트럼 라인은 800 ㎐를 표현하고, 32 스펙트럼 라인들이 강조된다.
본 발명의 바람직한 실시 예에서 또 다른 기준 스펙트럼 라인은 기준 스펙트럼 라인과 동일하거나 또는 더 높은 주파수를 표현한다. 이러한 특징들은 최소 및 최대의 추정이 관련 주파수 범위 내에서 수행되는 것을 보장한다.
본 발명의 바람직한 실시 예에서 제어 장치는 기준 스펙트럼보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인들이 α, 제 1 사전 설정된 값으로 곱해진 최소보다 작은 경우에만 강조되는 것과 같은 방법으로 구성된다. 이러한 특징들은 인코더의 작업 부하가 최소화되고 스펙트럼 양자화 동안에 지각적으로 중요하지 않은 영역들 상에 어떠한 비트들도 낭비되지 않도록 필요할 때만 저주파수 강조가 실행되는 것을 보장한다.
일 양상에서 본 발명은 비트스트림으로부터 디코딩된 비-음성 오디오 출력 신호를 생산하기 위하여 비-음성 오디오 신호를 기초로 하여 비트스트림을 디코딩하기 위한, 특히 본 발명에 따른 오디오 인코더에 의해 생산된 비트스트림을 디코딩하기 위한 오디오 디코더를 제공하고, 비트스트림은 양자화된 스펙트럼들 및 복수의 선형 예측 코딩 계수를 포함하며, 오디오 디코더는:
비트스트림으로부터 양자화된 스펙트럼 및 선형 예측 코딩 계수들을 추출하도록 구성되는 비트스트림 수신기;
양자화된 스펙트럼을 기초로 하여 탈-양자화된 스펙트럼을 생산하도록 구성되는 탈-양자화 장치;
탈-양자화된 스펙트럼을 기초로 하여 역 처리된 스펙트럼을 계산하도록 구성되는 저주파수 탈-강조기를 포함하되, 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 역 처리된 스펙트럼의 스펙트럼 라인들이 탈-강조됨; 및
비트스트림 내에 포함된 선형 예측 코딩 계수들에 의존하여 저주파수 탈-강조기에 의해 역 처리된 스펙트럼의 계산을 제어하도록 구성되는 제어 장치;를 포함한다.
비트스트림 수신기는 분류된 데이터를 적절한 뒤따르는 처리 단계로 전송하기 위하여 단일 비트스트림으로부터 디지털 데이터를 분류할 수 있는 어떠한 장치일 수 있다. 특히, 비트스트림 수신기는 비트스트림으로부터, 그 뒤에 탈-양자화 장치로 전달되는, 양자화된 스펙트럼 및 그리고 나서 제어 장치로 전달되는, 선형 예측 코딩 계수들을 추출하도록 구성된다.
탈-양자화 장치는 양자화된 스펙트럼을 기초로 하여 탈-양자화된 스펙트럼을 생산하도록 구성되고, 탈-양자화는 위에 설명된 것과 같은 양자화와 관련하여 역 과정이다.
저주파수 탈-강조기는 탈-양자화된 스펙트럼을 기초로 하여 역 처리된 스펙트럼을 계산하도록 구성되고, 역 처리된 스펙트럼 내에 포함된 저주파수들만이 탈-강조되도록 하기 위하여 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 역 처리된 스펙트럼의 스펙트럼 라인들이 탈-강조된다. 기준 스펙트럼 라인은 실질적인 경험을 기초로 하여 미리 정의될 수 있다. 디코더의 기준 스펙트럼 라인은 위에 설명된 것과 같은 인코더의 기준 스펙트럼 라인과 동일한 주파수를 표현해야만 한다는 것에 유의하여야 한다. 그러나 기준 스펙트럼 라인이 언급하는 주파수가 디코더 측 상에 저장될 수 있고 따라서 비트스트림 내에 이러한 주파수를 전송할 필요가 없을 수 있다.
제어 장치는 선형 예측 코딩 필터의 선형 예측 코딩 계수들에 의존하여 저주파수 탈-강조기에 의해 역 처리된 스펙트럼을 제어하도록 구성된다. 비트스트림을 생산하는 인코더 및 디코더 내에서 동일한 선형 예측 코딩 계수들이 사용될 수 있기 때문에, 적응 저주파수 강조는 선형 예측 코딩 계수들이 비트스트림 내의 디코더로 전송되는 한 스펙트럼 양자화와 관계없이 완전하게 역변환된다. 일반적으로 산형 예측 코딩 계수들은 어쨌든 디코더에 의해 비트스트림으로부터 오디오 출력 신호를 재구성하는 목적을 위하여 비트스트림 내에 전송되어야만 한다. 따라서, 비트스트림의 비트 레이트는 여기서 설명되는 것과 같이 저주파수 강조 및 저주파수 탈-강조에 의해 증가되지 않을 것이다.
여기에 설명되는 적응 저주파수 탈-강조 시스템은 저 지연-통합 음성 및 오디오 코딩(LD-USAC)의 변환 코딩 여기 코어-코더, 시간-도메인 및 변형 이산 코사인 변환-도메인 코딩 사이에서 변환할 수 있는 확장 고효율-고급 오디오 코딩[4]의 저 지연 변형에서 구현될 수 있다.
이러한 특징들에 의해 적응 저주파수 강조로 생산되는 비트스트림은 쉽게 디코딩될 수 있고, 적응 저주파수 탈-강조는 비트스트림 내에 이미 포함된 정보를 사용하여 디코더 단독으로 수행될 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 디코더는 주파수-시간 변환기 및 비트스트림 내에 포함된 복수의 선형 예측 코딩 계수를 수신하는 역 선형 예측 코딩 필터의 조합을 포함하고, 상기 조합은 역 처리된 스펙트럼 및 선형 예측 코딩 계수들을 기초로 하여 출력 신호를 출력하기 위하여 역 처리된 스펙트럼을 역 필터링하고 역 처리된 스펙트럼을 시간 도메인으로 변환하도록 구성된다.
주파수-시간 변환기는 위에 설명된 것과 같은 시간-주파수 변환기의 연산의 역 연산을 실행하기 위한 도구이다. 이는 원래 신호를 추정하기 위하여 특히 주파수 도메인 내의 신호의 스펙트럼을 시간 도메인 내의 프레이밍된 디지털 신호로 변환하기 위한 도구이다. 주파수-시간 변환기는 역 변형 이산 코사인 변환(inverse MDCT)을 사용할 수 있고, 변형 이산 코사인 변환은 래핑되는 부가적인 특성과 함께, Ⅳ형 이산 코사인 변환을 기초로 하는 래핑된 변환인 변형 이산 코사인 변환이고, 이는 하나의 프레임의 뒤의 반이 그 다음의 프레임의 앞의 반과 일치하도록 뒤따르는 프레임들이 오버래핑되는, 대용량 데이터세트의 연속적인 프레임들 상에서 실행되도록 디자인된다. 이산 코사인 변환의 에너지 압축 품질들에 더하여, 이러한 오버래핑은 변형 이산 코사인 변환을 특히 신호 압축 적용들에 유리하게 하는데, 그 이유는 프레임 경계들로부터 아티팩트 스테밍을 방지하는데 도움을 주기 때문이다. 통상의 지식을 가진 자들은 다른 변형들이 가능하다는 것을 이해할 것이다. 그러나, 디코더 내의 변환은 인코더 내의 변환의 역 변환이어야만 한다.
역 선형 예측 코딩 필터는 위에 설명된 것과 같은 선형 예측 코딩 필터에 의해 수행된 연산에 대한 역 연산을 실행하기 위한 도구이다. 이는 선형 예측 모델의 정보를 사용하여, 디지털 신호를 재구성하기 위하여 프레이밍된 디지털 신호의 스펙트럼 엔벨로프의 디코딩을 위하여 오디오 신호 처리 및 음성 처리에서 사용되는 도구이다. 선형 예측 코딩 및 디코딩은 동일한 선형 예측 코딩 계수들이 사용되는 한 완전하게 역변환되고, 이는 위에 설명된 것과 같이 인코더로부터의 선형 예측 코딩 계수들을 비트스트림 내에 삽입된 디코더로 전송함으로써 보장될 수 있다.
이러한 특징들에 의해 출력 신호는 쉬운 방법으로 처리될 수 있다.
본 발명의 바람직한 실시 예에 따르면, 주파수-시간 변환기는 역 처리된 스펙트럼을 기초로 하여 시간 신호를 추정하도록 구성되고, 역 선형 예측 코딩 필터는 시간 신호를 기초로 하여 출력 신호를 출력하도록 구성된다. 따라서, 역 선형 예측 코딩 필터는 그것의 입력으로서 역 처리된 스펙트럼을 갖는, 시간 도메인 내에서 작동할 수 있다.
본 발명의 바람직한 실시 예에 따르면 역 선형 예측 코딩 필터는 역 처리된 스펙트럼을 기초로 하여 역 필터링된 신호를 추정하도록 구성되고, 주파수-시간 변환기는 역 필터링된 신호를 기초로 하여 출력 신호를 출력하도록 구성된다.
인코더 측 상에 실행되는 위에 설명된 주파수-도메인 잡음 형상화 과정의 대안으로서 그리고 이와 동등하게, 주파수-시간 변환기 및 역 선형 예측 코딩 필터의 순서는 후자가 먼저 그리고 주파수 도메인(시간 도메인 대신에) 내에서 작동되는 것과 같이 역전될 수 있다. 더 구체적으로, 역 선형 예측 코딩 필터는 역 처리된 스펙트럼을 기초로 하여 역 필터링된 신호를 출력할 수 있고, 역 선형 예측 코딩 필터는 [5]에서와 같이, 선형 예측 코딩 계수들의 스펙트럼 표현과의 곱셈(또는 나눗셈)을 통하여 적용된다. 따라서, 위에 설명된 것과 같은 주파수-시간 변환기는 시간-주파수 변환기에 입력된, 역 필터링된 신호를 기초로 하여 출력 신호의 프레임을 추정하도록 구성될 수 있다.
통상의 지식을 가진 자들은 이러한 두 가지 접근법(주파수 도메인 내의 선형역 필터링 이후의 주파수-시간 변환 대 주파수-시간 변환 이후의 시간 도메인 내의 스펙트럼 가중을 통한 선형 필터링)이 서로 동등한 것과 같이 구현될 수 있다는 것을 분명하게 이해하여야 한다.
본 발명의 바람직한 실시 예에서 제어 장치는 선형 예측 코딩 계수들의 스펙트럼 표현을 추정하도록 구성되는 스펙트럼 분석기, 또 다른 기준 스펙트럼 라인 아래의 스펙트럼 표현의 최소 및 스펙트럼 표현의 최대를 추정하도록 구성되는 최소-최대 분석기 및 최소 및 최대를 기초로 하여 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 역 처리된 스펙트럼의 스펙트럼 라인들을 계산하기 위하여 스펙트럼 라인 탈-강조 인자들을 계산하도록 구성되는 탈-강조 인자 계산기를 포함하고, 역 처리된 스펙트럼의 스펙트럼 라인들은 스펙트럼 라인 탈-강조 인자들을 탈-양자화된 스펙트럼의 스펙트럼 라인들에 적용함으로써 탈-강조된다. 스펙트럼 분석기는 위에 설명된 것과 같이 시간-주파수 변환기일 수 있다. 스펙트럼 표현은 선형 예측 코딩 필터의 전달 함수이고 위에 설명된 것과 같이, 주파수-도메인 잡음 형상화를 위하여 사용된 것과 동일한 스펙트럼 표현일 수 있으나, 반드시 그럴 필요는 없다. 스펙트럼 표현은 선형 예측 코딩 계수들의 홀수 이산 푸리에 변환으로부터 계산될 수 있다. 확장 고효율-고급 오디오 코딩 및 저 지연-통합 음성 및 오디오 코딩에서, 전달 함수는 전체 스펙트럼 표현을 포함하는 32 또는 64 변형 이산 코사인 변환-도메인 이득들과 가까울 수 있다.
본 발명의 바람직한 실시 예에서 탈-강조 인자 계산기는 스펙트럼 라인 탈-강조 인자들이 기준 스펙트럼 라인으로부터 역 처리된 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인으로의 방향으로 감소되는 것과 같은 방법으로 구성된다. 이는 가장 낮은 주파수를 표현하는 스펙트럼 라인이 가장 크게 감쇄되고 반면에 기준 스펙트럼 라인에 인접한 스펙트럼이 가장 적게 감쇄되는 것을 의미한다. 기준 스펙트럼 라인 및 기준 스펙트럼 라인보다 높은 주파수들을 표현하는 스펙트럼 라인들은 전혀 탈-강조되지 않는다. 이는 어떠한 가청 단점 없이 계산 복잡도를 감소시킨다.
본 발명의 바람직한 실시 예에서 탈-강조 인자 계산기는 제 1 공식(δ=(α·min/max))에 따라 기본 탈-강조 인자를 계산하도록 구성되는 제 1 스테이지를 포함하는데, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 스펙트럼 표현의 최소이며, max는 스펙트럼 표현의 최대이며, δ는 기본 탈-강조 인자이며, 탈-강조 인자 계산기는 제 2 공식(ξii '- 1)에 따라 스펙트럼 라인 탈-강조 인자들을 계산하도록 구성되는 제 2 스테이지를 포함하는데, 여기서 i'는 탈-강조되려는 스펙트럼 라인들의 수이고, i는 각각의 스펙트럼 라인의 지수이며, 지수는 i=0 내지 i'-1로, 스펙트럼 라인들의 주파수들과 함께 증가하고. δ는 기본 탈-강조 인자이며 ξi는 지수 i를 갖는 스펙트럼 라인 탈-강조 인자이다. 탈-강조 인자 계산기의 연산은 위에 설명된 것과 같은 강조 인자 계산기의 연산과 반대이다. 기본 탈-강조 인자는 쉬운 방법으로 제 1 공식에 의해 최소 및 최대의 비율로부터 계산된다. 기본 탈-강조 인자는 모든 스펙트럼 라인 탈-강조 인자의 계산을 위한 기본의 역할을 하고, 제 2 공식은 스펙트럼 라인 탈-강조 인자들이 기준 스펙트럼 라인으로부터 역 처리된 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인으로의 방향으로 감소하는 것을 보장한다. 종래의 해결책과는 대조적으로 제안된 해결책은 스펙트럼-대역-당 제곱근 또는 유사한 복잡한 연산을 필요로 하지 않는다. 각각의 하나가 인코더 및 디코더 측에 존재하는, 2번의 나눗셈과 2번의 제곱 연산만이 필요하다.
본 발명의 바람직한 실시 예에서 제 1 사전 설정된 값은 42보다 작고 22보다 크며, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작다. 앞서 언급된 간격들은 실질적인 경험들을 기초로 한다. 최상의 결과들은 제 1 사전 설정된 값이 32로 설정될 때 달성될 수 있다. 디코더의 제 1 사전 설정된 값은 인코더의 제 1 사전 설정된 값과 동일해야만 한다는 것에 유의하여야 한다.
본 발명의 바람직한 실시 예에서 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되는데, 여기서 i'는 탈-강조되려는 스펙트럼 라인들의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자이다. 제 2 사전 설정된 값이 4로 설정될 때 최상의 결과들이 달성될 수 있다는 것이 알려졌다. 디코더의 제 2 사전 설정된 값은 인코더의 제 2 사전 설정된 값과 동일해야만 한다는 것에 유의하여야 한다.
본 발명의 바람직한 실시 예에서 기준 스펙트럼 라인은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현한다. 이러한 경험적으로 알려진 간격들은 충분한 저주파수 강조뿐만 아니라 시스템의 낮은 계산 복잡도를 보장한다. 이러한 간격들은 특히 조밀하게 존재하는 스펙트럼들에서, 저주파수 라인들이 충분한 정확도로 코딩되는 것을 보장한다. 바람직한 실시 예에서 기준 스펙트럼 라인은 800 ㎐를 표현하고, 32 스펙트럼 라인들이 탈-강조된다. 디코더의 기준 스펙트럼 라인이 인코더의 기준 스펙트럼 라인과 동일한 주파수를 표현해야만 한다는 것은 자명한 사실이다.
본 발명의 바람직한 실시 예에서 또 다른 기준 스펙트럼 라인은 기준 스펙트럼 라인과 동일하거나 또는 더 높은 주파수를 표현한다. 이러한 특징들은 최소 및 최대의 추정이 인코더의 경우에서와 같이, 관련 주파수 범위 내에서 수행되는 것을 보장한다.
본 발명의 바람직한 실시 예에서 제어 장치는 만일 최대가 제 1 사전 설정된 값(α)으로 곱해진 최소보다 작으면 기준 스펙트럼보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인들이 탈-강조되는 것과 같은 방법으로 구성된다. 이러한 특징들은 디코더의 작업 부하가 최소화되고 양자화 동안에 지각적으로 무관한 영역들 상에 어떠한 비트들도 낭비되지 않도록 필요할 때만 저주파수 탈-강조가 실행되는 것을 보장한다.
일 양상에서 본 발명은 디코더 및 인코더를 포함하는 시스템을 제공하고, 인코더는 본 발명에 따라 디자인되거나 및/또는 디코더는 본 발명에 따라 디자인된다.
일 양상에서 본 발명은 그것으로부터 비트스트림을 생산하기 위하여 비-음성 오디오 신호를 인코딩하기 위한 방법을 제공하는데, 방법은:
프레임을 기초로 하고 선형 예측 코딩 계수들을 기초로 하여 스펙트럼을 출력하기 위하여 복수의 선형 예측 코딩 계수를 갖는 선형 예측 코딩 필터로 필터링하고 오디오 신호의 프레임을 주파수 도메인으로 변환하는 단계;
필터링된 프레임의 스펙트럼을 기초로 하여 처리된 스펙트럼을 계산하는 단계를 포함하되, 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 처리된 스펙트럼의 스펙트럼 라인들이 강조됨; 및
선형 예측 코딩 필터의 선형 예측 코딩 계수들에 의존하여 처리된 스펙트럼의 계산을 제어하는 단계;를 포함한다.
일 양상에서 본 발명은 비트스트림으로부터 비-음성 오디오 출력 신호를 생산하기 위하여, 비-음성 오디오 신호를 기초로 하여 비트스트림을 디코딩하기 위한, 특히 선행 청구항에 따른 방법에 의해 생산된 비트스트림을 디코딩하기 위한 방법을 제공하고, 비트스트림은 양자화된 스펙트럼들 및 복수의 선형 예측 코딩 계수를 포함하며, 방법은:
비트스트림으로부터 양자화된 스펙트럼 및 선형 예측 코딩 계수들을 추출하는 단계;
양자화된 스펙트럼을 기초로 하여 탈-양자화된 스펙트럼을 생산하는 단계;
탈-양자화된 스펙트럼을 기초로 하여 역 처리된 스펙트럼을 계산하는 단계를 포함하되, 기준 스펙트럼 라인보다 낮은 주파수를 표현하는 역 처리된 스펙트럼의 스펙트럼 라인들이 탈-강조됨; 및
비트스트림 내에 포함된 선형 예측 코딩 계수들에 의존하여 역 처리된 스펙트럼의 계산을 제어하는 단계;를 포함한다.
일 양상에서 본 발명은 컴퓨터 또는 프로세서 상에서 실행될 때 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.
본 발명이 바람직한 실시 예들이 첨부된 도면들을 참조하여 그 뒤에 설명된다.
도 1a는 본 발명에 따른 오디오 인코더의 제 1 실시 예를 도시한다.
도 1b는 본 발명에 따른 오디오 인코더의 제 2 실시 예를 도시한다.
도 2는 본 발명에 따른 오디오 인코더에 의해 실행되는 저주파수 강조를 위한 제 1 실시 예를 도시한다.
도 3은 본 발명에 따른 오디오 인코더에 의해 실행되는 저주파수 강조를 위한 제 2 실시 예를 도시한다.
도 4는 본 발명에 따른 오디오 인코더에 의해 실행되는 저주파수 강조를 위한 제 3 실시 예를 도시한다.
도 5a는 본 발명에 따른 오디오 디코더의 제 1 실시 예를 도시한다.
도 5b는 본 발명에 따른 오디오 디코더의 제 2 실시 예를 도시한다.
도 6은 본 발명에 따른 오디오 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 1 실시 예를 도시한다.
도 7은 본 발명에 따른 오디오 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 2 실시 예를 도시한다.
도 8은 본 발명에 따른 오디오 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 3 실시 예를 도시한다.
도 1a는 본 발명에 따른 오디오 인코더(1)의 제 1 실시 예를 도시한다. 그것으로부터 비트스트림(BS)을 생산하기 위하여 비-음성 오디오 신호(AS)를 인코딩하기 위한 오디오 인코더(1)는:
복수의 선형 예측 코딩 계수(LC)를 갖는 선형 예측 코딩 필터(2) 및 시간-주파수 변환기(3)의 조합(2, 3)을 포함하되, 상기 조합(2, 3)은 프레임(FI)을 기초로 하고 선형 예측 코딩 계수(LC)들을 기초로 하여 스펙트럼(SP)을 출력하기 위하여 오디오 신호(AS)의 프레임(FI)을 필터링하고 오디오 신호(AS)의 프레임(FI)을 주파수 도메인으로 변환하도록 구성됨;
스펙트럼(SP)을 기초로 하여 처리된 스펙트럼(PS)을 계산하도록 구성되는 저주파수 강조기(4)를 포함하되, 기준 스펙트럼 라인(RSL, 도 2 참조)보다 낮은 주파수를 표현하는 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL, 도 2 참조)이 강조됨; 및
선형 예측 코딩 필터(2)의 선형 예측 코딩 계수들(LC)에 의존하여 저주파수 강조기(4)에 의해 처리된 스펙트럼(PS)의 계산을 제어하도록 구성되는 제어 장치(5);를 포함한다.
선형 예측 코딩 필터(2)는 선형 예측 모델의 정보를 사용하여, 압축 형태로 사운드의 프레이밍된 디지털 신호의 스펙트럼 엔벨로프를 표현하기 위하여 오디오 신호 처리 및 음성 처리에서 사용되는 도구이다.
시간-주파수 변환기(3)는 신호의 스펙트럼을 추정하기 위하여 특히 시간 도메인으로부터 주파수 도메인으로 프레이밍된 신호를 변환하기 위한 도구이다. 시간-주파수 변환기(3)는 래핑되는 부가적인 특성과 함께, Ⅳ형 이산 코사인 변환(DCT-Ⅳ)을 기초로 하는 래핑된 변환인 변형 이산 코사인 변환(MDCT)을 사용할 수 있고, 이는 하나의 프레임의 뒤의 반이 그 다음의 프레임의 앞의 반과 일치하도록 뒤따르는 프레임들이 오버래핑되는, 대용량 데이터세트의 연속적인 프레임들 상에서 실행되도록 디자인된다. 이산 코사인 변환의 에너지 압축 품질들에 더하여, 이러한 오버래핑은 변형 이산 코사인 변환을 특히 신호 압축 적용들에 유리하게 하는데, 그 이유는 프레임 경계들로부터 아티팩트 스테밍을 방지하는데 도움을 주기 때문이다.
저주파수 강조기(4)는 필터링된 프레임(FF)의 스펙트럼(SP)을 기초로 하여 처리된 스펙트럼(PS)을 계산하도록 구성되고, 처리된 스펙트럼(PS) 내에 포함된 저주파수들만이 강조되도록 하기 위하여 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL)이 강조된다. 기준 스펙트럼 라인들(RSL)은 실질적인 경험을 기초로 하여 미리 정의될 수 있다.
제어 장치(5)는 선형 예측 코딩 필터(2)의 선형 예측 코딩 계수들(LC)에 의존하여 저주파수 강조기(4)에 의해 처리된 스펙트럼(PS)의 계산을 제어하도록 구성된다. 따라서, 본 발명에 따른 인코더(1)는 저주파수 강조의 목적을 위하여 오디오 신호(AS)의 스펙트럼(SP)을 분석할 필요가 없다. 또한, 인코더(1) 및 뒤따르는 디코더(12, 도 5 참조)에서 동일한 선형 예측 코딩 계수들(LC)이 사용될 수 있기 때문에, 인코더(1) 또는 어떠한 다른 수단에 의해 생산되는 비트스트림(BS) 내에서 선형 예측 코딩 계수들(LC)이 디코더(12)에 전송되는 한 스펙트럼 양자화와 관계없이 적응 저주파수 강조가 완전하게 역변환된다. 일반적으로 선형 예측 코딩 계수들(LC)은 어쨌든 각각의 디코더(12)에 의해 비트스트림(BS)으로부터 오디오 출력 신호(OS, 도 5 참조)를 재구성하기 위한 목적을 위하여 비트스트림(BS) 내에 전송되어야만 한다. 따라서, 비트스트림(BS)의 비트 레이트는 여기서 설명되는 것과 같이 저주파수 강조에 의해 증가되지 않을 것이다.
여기에 설명되는 적응 저주파수 강조 시스템은 저 지연-통합 음성 및 오디오 코딩(LD-USAC)의 변환 코딩 여기 코어-코더, 프레임 당 기준으로 시간-도메인 및 변형 이산 코사인 변환-도메인 코딩 사이에서 변환할 수 있는 확장 고효율-고급 오디오 코딩[4]의 저 지연 변형에서 구현될 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 신호(AS)의 프레임(FI)은 선형 예측 코딩 필터(2)에 입력되고, 필터링된 프레임(FF)은 선형 예측 코딩 필터(2)에 의해 출력되며 시간-주파수 변환기(3)는 필터링된 프레임(FF)을 기초로 하여 스펙트럼(SP)을 추정하도록 구성된다. 따라서, 선형 예측 코딩 필터(2)는 그것의 입력으로서 오디오 신호(AS)를 갖는, 시간 도메인 내에서 작동할 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 인코더(1)는 처리된 스펙트럼(PS)을 기초로 하여 양자화된 스펙트럼(QS)을 생산하도록 구성되는 양자화 장치(6) 및 양자화된 스펙트럼(QS)과 선형 예측 코딩 계수들(LC)을 비트스트림(BS) 내로 삽입하도록 구성되는 비트스트림 생산장치(7)를 포함한다. 디지털 신호 처리에서, 양자화는 대규모 입력 값들의 세트를 (계수 가능한) 작은 세트로(일부 정밀 단위에서 반올림 값들과 같은) 매핑하는 과정이다. 양자화를 실행하는 장치 또는 알고리즘 함수는 양자화 장치(6)로 불린다. 비트스트림 생산장치(7)는 서로 다른 소스들(2, 6)로부터의 디지털 데이터를 단일의 비트스트림(BS) 내로 삽입할 수 있는 어떠한 장치일 수 있다. 이러한 특징들에 의해 적응 저주파수 강조로 생산된 비트스트림(BS)은 비트스트림(BS) 내에 이미 포함된 정보를 사용하여 뒤따르는 디코더(12)에 의해 단독으로 완전하게 역변환된다.
본 발명의 바람직한 실시 예에서 제어 장치(5)는 선형 예측 코딩 계수들(LC)의 스펙트럼 표현을 추정하도록 구성되는 스펙트럼 분석기(8), 또 다른 기준 스펙트럼 라인 아래의 스펙트럼 표현(SR)의 최소(MI) 및 스펙트럼 표현(SR)의 최대(MA)를 추정하도록 구성되는 최소-최대 분석기(9), 및 최소(MI) 및 최대(MA)를 기초로 하여 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 처리된 스펙트럼(PS)의 스펙트럼 라인(SL)을 계산하기 위하여 스펙트럼 라인 강조 인자들(SEF)을 계산하도록 구성되는 강조 인자 계산기(10, 11)를 포함하고, 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL)은 스펙트럼 라인 강조 인자들(SEF)을 필터링된 프레임(FF)의 스펙트럼(SP)의 스펙트럼 라인들에 적용함으로써 강조된다. 스펙트럼 분석기는 위에 설명된 것과 같이 시간-주파수 변환기일 수 있다. 스펙트럼 표현(SR)은 선형 예측 코딩 필터(2)의 전달 함수이다. 스펙트럼 표현(SR)은 선형 예측 코딩 계수들의 홀수 이산 푸리에 변환(ODFT)으로부터 계산될 수 있다. 확장 고효율-고급 오디오 코딩 및 저 지연-통합 음성 및 오디오 코딩에서, 전달 함수는 전체 스펙트럼 표현(SR)을 포함하는 32 또는 64 변형 이산 코사인 변환-도메인 이득들과 가까울 수 있다.
본 발명의 바람직한 실시 예에서 강조 인자 계산기(10)는 스펙트럼 라인 강조 인자들(SEF)이 기준 스펙트럼 라인(RSL)으로부터 처리된 스펙트럼(PS)의 가장 낮은 주파수를 표현하는 스펙트럼 라인(SL0)으로의 방향으로 증가하는 것과 같은 방법으로 구성된다. 이는 가장 낮은 주파수를 표현하는 스펙트럼 라인(SL0)이 가장 크게 증폭되고 반면에 기준 스펙트럼 라인에 인접한 스펙트럼(SLi '- 1)이 가장 적게 증폭되는 것을 의미한다. 기준 스펙트럼 라인(RSL) 및 기준 스펙트럼 라인(RSL)보다 높은 주파수들을 표현하는 스펙트럼 라인들(SLi '+ 1)은 전혀 강조되지 않는다. 이는 어떠한 가청 단점 없이 계산 복잡도를 감소시킨다.
본 발명의 바람직한 실시 예에서 강조 인자 계산기(10, 11)는 제 1 공식(γ=(α·min/max)β)에 따라 기본 강조 인자(BEF)를 계산하도록 구성되는 제 1 스테이지(10)를 포함하는데, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 스펙트럼 표현(SR)의 최소(MI)이며, max는 스펙트럼 표현(SR)의 최대(MA)이며, γ는 기본 강조 인자(BEF)이며, 강조 인자 계산기(10, 11)는 제 2 공식(εii '- 1)에 따라 스펙트럼 라인 강조 인자들(SEF)을 계산하도록 구성되는 제 2 스테이지(11)를 포함하는데, 여기서 i'는 강조되려는 스펙트럼 라인들(SL)의 수이고, i는 각각의 스펙트럼 라인(SL)의 지수이며, 지수는 i=0 내지 i'-1로, 스펙트럼 라인들(SL)의 주파수들과 함께 증가된다. γ는 기본 강조 인자(BEF)이며 εi는 지수 i를 갖는 스펙트럼 라인 강조 인자(SEF)이다. 기본 강조 인자는 쉬운 방법으로 제 1 공식에 의해 최소 및 최대의 비율로부터 계산된다. 기본 강조 인자(BEF)는 모든 스펙트럼 라인 강조 인자(SEF)의 계산을 위한 기본의 역할을 하고, 제 2 공식은 스펙트럼 라인 강조 인자들(SEF)이 기준 스펙트럼 라인(RSL)으로부터 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인(SL0)으로의 방향으로 증가하는 것을 보장한다. 종래의 해결책과는 대조적으로 제안된 해결책은 스펙트럼-대역-당 제곱근 또는 유사한 복잡한 연산을 필요로 하지 않는다. 각각의 하나가 인코더 및 디코더 측에 존재하는, 2번의 나눗셈과 2번의 제곱 연산만이 필요하다.
본 발명의 바람직한 실시 예에서 제 1 사전 설정된 값은 42보다 작고 22보다 크며, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작다. 앞서 언급된 간격들은 실질적인 경험들을 기초로 한다. 최상의 결과들은 제 1 사전 설정된 값이 32로 설정될 때 달성될 수 있다.
본 발명의 바람직한 실시 예에서 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되는데, 여기서 i'는 강조되려는 스펙트럼 라인들(SL)의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자이다. 또한 이러한 값들은 실질적인 경험들을 기초로 한다. 제 2 사전 설정된 값이 4로 설정될 때 최상의 결과들이 달성될 수 있다는 것이 알려졌다.
본 발명의 바람직한 실시 예에서 기준 스펙트럼 라인(RSL)은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현한다. 이러한 경험적으로 알려진 간격들은 충분한 저주파수 강조뿐만 아니라 시스템의 낮은 계산 복잡도를 보장한다. 이러한 간격들은 특히 조밀하게 존재하는 스펙트럼들에서, 저주파수 라인들이 충분한 정확도로 코딩되는 것을 보장한다. 바람직한 실시 예에서 기준 스펙트럼 라인은 800 ㎐를 표현하고, 32 스펙트럼 라인들이 강조된다.
스펙트럼 라인 강조 인자들(SEF)의 계산은 다음의 프로그램 코드의 도입에 의해 수행될 수 있다:
Figure pct00001
본 발명의 바람직한 실시 예에서 또 다른 기준 스펙트럼 라인은 기준 스펙트럼 라인(RSL)보다 높은 주파수를 표현한다. 이러한 특징들은 관련 주파수 범위 내에서 최소(MI) 및 최대(MA)의 추정이 수행되는 것을 보장한다.
도 1b는 본 발명에 따른 오디오 인코더의 제 2 실시 예를 도시한다. 제 2 실시 예는 제 1 실시 예를 기초로 한다. 다음에서 두 실시 예 사이의 차이점만이 설명될 것이다.
본 발명의 바람직한 실시 예에 따르면 오디오 신호(AS)의 프레임(FI)은 시간-주파수 변환기(3)에 입력되고, 변환된 프레임(CF)은 시간-주파수 변환기(3)에 의해 출력되며 선형 예측 코딩 필터(2)는 변환된 프레임(CF)을 기초로 하여 스펙트럼(SP)을 추정하도록 구성된다. 저주파수 강조기를 갖는 본 발명의 인코더의 제 1 실시 예의 대안으로서 그러나 이와 동등하게, 인코더(1)는 [5]에서 설명된 것과 같이, 주파수-도메인 잡음 형상화(FDNS)에 의해 생산되는 프레임(FI)의 스펙트럼(SP)을 기초로 하여 처리된 스펙트럼(PS)을 계산할 수 있다. 더 구체적으로, 여기서 도구 명령이 변형되는데, 위에 설명된 것과 같은 시간-주파수 변환기(3)는 오디오 신호(AS)의 프레임(FI)을 기초로 하여 변환된 프레임(FC)을 추정하도록 구성될 수 있고 선형 예측 코딩 필터(2)는 시간-도메인 변환기(3)에 의해 출력되는, 변환된 프레임(FC)을 기초로 하여 오디오 스펙트럼(SP)을 추정하도록 구성된다. 따라서, 선형 예측 코딩 필터(2)는 그것의 입력으로서 변환된 프레임(FC)을 갖는, 주파수 도메인(시간 도메인 대신에) 내에서 작동할 수 있고, 선형 예측 코딩 필터(2)는 선형 예측 코딩 계수들(LC)의 스펙트럼 표현의 곱셈을 통하여 적용된다.
통상의 지식을 가진 자들은 제 1 및 제 2 실시 예(시간 도메인 내의 선형 필터링 이후의 시간-주파수 변환 대 시간-주파수 변환 이후의 주파수 도메인 내의 스펙트럼 가중을 통한 선형 필터링)가 서로 동등한 것과 같이 구현될 수 있다는 것을 분명하게 이해하여야 한다.
도 2는 본 발명에 따른 인코더에 의해 실행되는 저주파수 강조를 위한 제 1 실시 예를 도시한다. 도 2는 바람직한 스펙트럼(SP), 바람직하게는 스펙트럼 라인 강조 인자들(SEF) 및 바람직하게는 공동 좌표 시스템 내의 처리된 스펙트럼(SP)을 도시하고, 주파수는 x-축에 대하여 플로팅되고 주파수에 의존하는 진폭은 y-축에 대하여 플로팅된다. 기준 스펙트럼 라인(RSL)보다 낮은 주파수들을 표현하는, 스펙트럼 라인들(SL0 내지 SLi '- 1)이 증폭되고, 반면에 기준 스펙트럼 라인(RSL) 및 기준 스펙트럼 라인보다 높은 주파수를 표현하는, 스펙트럼 라인들(SLi'+1)은 증폭되지 않는다. 도 2는 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)의 최소(MI) 및 최대(MA)의 비율이 1에 가까운 상황을 도시한다. 따라서, 스펙트럼 라인(SL0)을 위한 최대 스펙트럼 라인 강조 인자(SEF)는 약 2.5이다.
도 3은 본 발명에 따른 인코더에 의해 실행되는 저주파수 강조를 위한 제 2 실시 예를 도시한다. 도 2에 설명된 것과 같은 저주파수 강조에 대한 차이점은 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)의 최소(MI) 및 최대(MA)의 비율이 작다는 것이다. 따라서, 스펙트럼 라인(SL0)을 위한 최대 스펙트럼 라인 강조 인자(SEF)는 작은데, 즉 2.0 이하이다.
도 4는 본 발명에 따른 인코더에 의해 실행되는 저주파수 강조를 위한 제 3 실시 예를 도시한다. 본 발명의 바람직한 실시 예에서 제어 장치(5)는 최대가 제 1 사전 설정된 값과 곱해진 최소보다 작을 때만 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 처리된 스펙트럼(SP)의 스펙트럼 라인들(SL)이 강조되는 것과 같이 구성된다. 이러한 특징들은 인코더의 작업 부하가 최소화되도록 필요할 때만 저주파수 강조가 실행되는 것을 보장한다. 도 4에서 이러한 조건들이 충족되고 따라서 어떠한 저주파수 강조도 실행되지 않는다.
도 5는 본 발명에 따른 디코더의 실시 예를 도시한다. 오디오 디코더(12)는 비트스트림(BS)으로부터 비-음성 오디오 출력 신호(OS)를 생산하기 위하여 비-음성 오디오 신호를 기초로 하여 비트스트림(BS)을 디코딩하도록, 특히 본 발명에 따른 오디오 인코더(1)에 의해 생산된 비트스트림(BS)을 디코딩하도록 구성하고, 비트스트림(BS)은 양자화된 스펙트럼들(QS) 및 복수의 선형 예측 코딩 계수(LC)를 포함하며, 오디오 디코더(12)는:
비트스트림(BS)으로부터 양자화된 스펙트럼(QS) 및 선형 예측 코딩 계수들(LC)을 추출하도록 구성되는 비트스트림 수신기(13);
양자화된 스펙트럼(QS)을 기초로 하여 탈-양자화된 스펙트럼(DQ)을 생산하도록 구성되는 탈-양자화 장치(14);
탈-양자화된 스펙트럼(DQ)을 기초로 하여 역 처리된 스펙트럼(RS)을 계산하도록 구성되는 저주파수 탈-강조기(15)를 포함하되, 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)이 탈-강조됨; 및
비트스트림(BS) 내에 포함된 선형 예측 코딩 계수들(LC)에 의존하여 저주파수 탈-강조기(15)에 의해 역 처리된 스펙트럼(RS)의 계산을 제어하도록 구성되는 제어 장치(16);를 포함한다.
비트스트림 수신기(13)는 분류된 데이터를 적절한 뒤따르는 처리 단계로 전송하기 위하여 단일 비트스트림(BS)으로부터 디지털 데이터를 분류할 수 있는 어떠한 장치일 수 있다. 특히, 비트스트림 수신기(13)는 비트스트림(BS)으로부터, 그 뒤에 탈-양자화 장치(14)로 전달되는, 양자화된 스펙트럼(QS) 및 그리고 나서 제어장치(16)로 전달되는, 선형 예측 코딩 계수들(LC)을 추출하도록 구성된다.
탈-양자화 장치(16)는 양자화된 스펙트럼(QS)을 기초로 하여 탈-양자화된 스펙트럼(DQ)을 생산하도록 구성되고, 탈-양자화는 위에 설명된 것과 같은 양자화와 관련하여 역 과정이다.
저주파수 탈-강조기(15)는 탈-양자화된 스펙트럼(DQ)을 기초로 하여 역 처리된 스펙트럼(RS)을 계산하도록 구성되고, 역 처리된 스펙트럼(RS) 내에 포함된 저주파수들만이 탈-강조되도록 하기 위하여 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)이 탈-강조된다. 기준 스펙트럼 라인(RSLD)은 실질적인 경험을 기초로 하여 미리 정의될 수 있다. 디코더(12)의 기준 스펙트럼 라인(RSLD)은 위에 설명된 것과 같은 인코더(1)의 기준 스펙트럼 라인(RSL)과 동일한 주파수를 표현해야만 한다는 것에 유의하여야 한다. 그러나, 기준 스펙트럼 라인(RSLD)이 언급하는 주파수가 디코더 측 상에 저장될 수 있고 따라서 비트스트림(BS) 내에 이러한 주파수를 전송할 필요가 없을 수 있다.
제어 장치(16)는 선형 예측 코딩 필터(2)의 선형 예측 코딩 계수들(LC)에 의존하여 저주파수 탈-강조기(15)에 의해 역 처리된 스펙트럼(RS)을 제어하도록 구성된다. 비트스트림(BS)을 생산하는 인코더(1) 및 디코더(12) 내에서 동일한 선형 예측 코딩 계수들(LC)이 사용될 수 있기 때문에, 적응 저주파수 강조는 선형 예측 코딩 계수들(LC)이 비트스트림(BS) 내의 디코더(12)로 전송되는 한 스펙트럼 양자화와 관계없이 완전하게 역변환된다. 일반적으로 산형 예측 코딩 계수들(LC)은 어쨌든 디코더(12)에 의해 비트스트림(BS)으로부터 오디오 출력 신호(OS)를 재구성하는 목적을 위하여 비트스트림(BS) 내에 전송되어야만 한다. 따라서, 비트스트림(BS)의 비트 레이트는 여기서 설명되는 것과 같이 저주파수 강조 및 저주파수 탈-강조에 의해 증가되지 않을 것이다.
여기에 설명되는 적응 저주파수 탈-강조 시스템은 저 지연-통합 음성 및 오디오 코딩(LD-USAC)의 변환 코딩 여기 코어-코더, 시간-도메인 및 변형 이산 코사인 변환-도메인 코딩 사이에서 변환할 수 있는 확장 고효율-고급 오디오 코딩[4]의 저 지연 변형에서 구현될 수 있다.
이러한 특징들에 의해 적응 저주파수 강조로 생산되는 비트스트림(BS)은 쉽게 디코딩될 수 있고, 적응 저주파수 탈-강조는 비트스트림(BS) 내에 이미 포함된 정보를 사용하여 디코더(12) 단독으로 수행될 수 있다.
본 발명의 바람직한 실시 예에 따르면 오디오 디코더(12)는 주파수-시간 변환기(17) 및 비트스트림(BS) 내에 포함된 복수의 선형 예측 코딩 계수(LC)를 수신하는 역 선형 예측 코딩 필터(18)의 조합(17, 18)를 포함하고, 상기 조합(17, 18)은 역 처리된 스펙트럼(RS) 및 선형 예측 코딩 계수들(LC)을 기초로 하여 출력 신호(OS)를 출력하기 위하여 역 처리된 스펙트럼(RS)을 역 필터링하고 역 처리된 스펙트럼(RS)을 시간 도메인으로 변환하도록 구성된다.
주파수-시간 변환기(17)는 위에 설명된 것과 같은 시간-주파수 변환기(3)의 연산의 역 연산을 실행하기 위한 도구이다. 이는 원래 신호를 추정하기 위하여 특히 주파수 도메인 내의 신호의 스펙트럼을 시간 도메인 내의 프레이밍된 디지털 신호로 변환하기 위한 도구이다. 주파수-시간 변환기는 역 변형 이산 코사인 변환(inverse MDCT)을 사용할 수 있고, 변형 이산 코사인 변환은 래핑되는 부가적인 특성과 함께, Ⅳ형 이산 코사인 변환을 기초로 하는 래핑된 변환인 변형 이산 코사인 변환이고, 이는 하나의 프레임의 뒤의 반이 그 다음의 프레임의 앞의 반과 일치하도록 뒤따르는 프레임들이 오버래핑되는, 대용량 데이터세트의 연속적인 프레임들 상에서 실행되도록 디자인된다. 이산 코사인 변환의 에너지 압축 품질들에 더하여, 이러한 오버래핑은 변형 이산 코사인 변환을 특히 신호 압축 적용들에 유리하게 하는데, 그 이유는 프레임 경계들로부터 아티팩트 스테밍을 방지하는데 도움을 주기 때문이다. 통상의 지식을 가진 자들은 다른 변형들이 가능하다는 것을 이해할 것이다. 그러나, 디코더(12) 내의 변환은 인코더(1) 내의 변환의 역 변환이어야만 한다.
역 선형 예측 코딩 필터(18)는 위에 설명된 것과 같은 선형 예측 코딩 필터(2)에 의해 수행된 연산에 대한 역 연산을 실행하기 위한 도구이다. 이는 선형 예측 모델의 정보를 사용하여, 디지털 신호를 재구성하기 위하여 프레이밍된 디지털 신호의 스펙트럼 엔벨로프의 디코딩을 위하여 오디오 신호 처리 및 음성 처리에서 사용되는 도구이다. 선형 예측 코딩 및 디코딩은 동일한 선형 예측 코딩 계수들이 사용되는 한 완전하게 역변환되고, 이는 위에 설명된 것과 같이 인코더(1)로부터의 선형 예측 코딩 계수들(LS)을 비트스트림(BS) 내에 삽입된 디코더(12)로 전송함으로써 보장될 수 있다.
이러한 특징들에 의해 출력 신호는 쉬운 방법으로 처리될 수 있다.
본 발명의 바람직한 실시 예에 따르면, 주파수-시간 변환기(17)는 역 처리된 스펙트럼(RS)을 기초로 하여 시간 신호(TS)를 추정하도록 구성되고, 역 선형 예측 코딩 필터(18)는 시간 신호(TS)를 기초로 하여 출력 신호(OS)를 출력하도록 구성된다. 따라서, 역 선형 예측 코딩 필터(18)는 그것의 입력으로서 시간 신호(TS)를 갖는, 시간 도메인 내에서 작동할 수 있다.
본 발명의 바람직한 실시 예에서 제어 장치(16)는 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)을 추정하도록 구성되는 스펙트럼 분석기(19), 또 다른 기준 스펙트럼 라인 아래의 스펙트럼 표현(SR)의 최소(MI) 및 스펙트럼 표현(SR)의 최대(MA)를 추정하도록 구성되는 최소-최대 분석기(20) 및 최소(MI) 및 최대(MA)를 기초로 하여 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)을 계산하기 위하여 스펙트럼 라인 탈-강조 인자들(SDF)을 계산하도록 구성되는 탈-강조 인자 계산기(21, 22)를 포함하고, 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)은 스펙트럼 라인 탈-강조 인자들(SDF)을 탈-양자화된 스펙트럼(DQ)의 스펙트럼 라인들에 적용함으로써 탈-강조된다. 스펙트럼 분석기는 위에 설명된 것과 같이 시간-주파수 변환기일 수 있다. 스펙트럼 표현은 선형 예측 코딩 필터의 전달 함수이고 위에 설명된 것과 같이, 주파수-도메인 잡음 형상화를 위하여 사용된 것과 동일한 스펙트럼 표현일 수 있으나, 반드시 그럴 필요는 없다. 스펙트럼 표현은 선형 예측 코딩 계수들의 홀수 이산 푸리에 변환으로부터 계산될 수 있다. 확장 고효율-고급 오디오 코딩 및 저 지연-통합 음성 및 오디오 코딩에서, 전달 함수는 전체 스펙트럼 표현을 포함하는 32 또는 64 변형 이산 코사인 변환-도메인 이득들과 가까울 수 있다.
본 발명의 바람직한 실시 예에서 탈-강조 인자 계산기는 스펙트럼 라인 탈-강조 인자들이 기준 스펙트럼 라인으로부터 역 처리된 스펙트럼의 가장 낮은 주파수를 표현하는 스펙트럼 라인으로의 방향으로 감소되는 것과 같은 방법으로 구성된다. 이는 가장 낮은 주파수를 표현하는 스펙트럼 라인이 가장 크게 감쇄되고 반면에 기준 스펙트럼 라인에 인접한 스펙트럼이 가장 적게 감쇄되는 것을 의미한다. 기준 스펙트럼 라인 및 기준 스펙트럼 라인보다 높은 주파수들을 표현하는 스펙트럼 라인들은 전혀 탈-강조되지 않는다. 이는 어떠한 가청 단점 없이 계산 복잡도를 감소시킨다.
본 발명의 바람직한 실시 예에서 탈-강조 인자 계산기(21, 22)는 제 1 공식(δ=(α·min/max))에 따라 기본 탈-강조 인자(BDF)를 계산하도록 구성되는 제 1 스테이지(21)를 포함하는데, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 스펙트럼 표현(SR)의 최소(MI)이며, max는 스펙트럼 표현(SR)의 최대(MA)이며, δ는 기본 탈-강조 인자(BDF)이며, 탈-강조 인자 계산기(21, 22)는 제 2 공식(ξii '- 1)에 따라 스펙트럼 라인 탈-강조 인자들(SDF)을 계산하도록 구성되는 제 2 스테이지(22)를 포함하는데, 여기서 i'는 탈-강조되려는 스펙트럼 라인들(SLD)의 수이고, i는 각각의 스펙트럼 라인(SLD)의 지수이며, 지수는 i=0 내지 i'-1로, 스펙트럼 라인들(SLD)의 주파수들과 함께 증가하고. δ는 기본 탈-강조 인자이며 ξi는 지수 i를 갖는 스펙트럼 라인 탈-강조 인자(SDF)이다. 탈-강조 인자 계산기(21, 22)의 연산은 위에 설명된 것과 같은 강조 인자 계산기(10, 11)의 연산과 반대이다. 기본 탈-강조 인자(BDF)는 쉬운 방법으로 제 1 공식에 의해 최소 및 최대의 비율로부터 계산된다. 기본 탈-강조 인자(BDF)는 모든 스펙트럼 라인 탈-강조 인자(SDF)의 계산을 위한 기본의 역할을 하고, 제 2 공식은 스펙트럼 라인 탈-강조 인자들(SDF)이 기준 스펙트럼 라인(RSLD)으로부터 역 처리된 스펙트럼(RS)의 가장 낮은 주파수를 표현하는 스펙트럼 라인(SL0)으로의 방향으로 감소하는 것을 보장한다. 종래의 해결책과는 대조적으로 제안된 해결책은 스펙트럼-대역-당 제곱근 또는 유사한 복잡한 연산을 필요로 하지 않는다. 각각의 하나가 인코더 및 디코더 측에 존재하는, 2번의 나눗셈과 2번의 제곱 연산만이 필요하다.
본 발명의 바람직한 실시 예에서 제 1 사전 설정된 값은 42보다 작고 22보다 크며, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작다. 앞서 언급된 간격들은 실질적인 경험들을 기초로 한다. 최상의 결과들은 제 1 사전 설정된 값이 32로 설정될 때 달성될 수 있다. 디코더(12)의 제 1 사전 설정된 값은 인코더(1)의 제 1 사전 설정된 값과 동일해야만 한다는 것에 유의하여야 한다.
본 발명의 바람직한 실시 예에서 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되는데, 여기서 i'는 탈-강조되려는 스펙트럼 라인들의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자이다. 제 2 사전 설정된 값이 4로 설정될 때 최상의 결과들이 달성될 수 있다는 것이 알려졌다. 디코더(12)의 제 2 사전 설정된 값은 인코더(1)의 제 2 사전 설정된 값과 동일해야만 한다는 것에 유의하여야 한다.
본 발명의 바람직한 실시 예에서 기준 스펙트럼 라인(RSLD)은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현한다. 이러한 경험적으로 알려진 간격들은 충분한 저주파수 강조뿐만 아니라 시스템의 낮은 계산 복잡도를 보장한다. 이러한 간격들은 특히 조밀하게 존재하는 스펙트럼들에서, 저주파수 라인들이 충분한 정확도로 코딩되는 것을 보장한다. 바람직한 실시 예에서 기준 스펙트럼 라인(RSLD)은 800 ㎐를 표현하고, 32 스펙트럼 라인들(SL)이 탈-강조된다. 디코더의 기준 스펙트럼 라인이 인코더의 기준 스펙트럼 라인(RSL)과 동일한 주파수를 표현해야만 한다는 것은 자명한 사실이다.
스펙트럼 라인 강조 인자들(SEF)의 계산은 다음의 프로그램 코드의 도입에 의해 수행될 수 있다:
Figure pct00002
본 발명의 바람직한 실시 예에서 또 다른 기준 스펙트럼 라인은 기준 스펙트럼 라인(RSLD)보다 높은 주파수를 표현한다. 이러한 특징들은 관련 주파수 범위 내에서 최소(MI) 및 최대(MA)의 추정이 수행되는 것을 보장한다.
도 5b는 본 발명에 따른 오디오 디코더(12)의 제 2 실시 예를 도시한다. 제 2 실시 예는 제 1 실시 예를 기초로 한다. 다음에서 두 실시 예 사이의 차이점만이 설명될 것이다.
본 발명의 바람직한 실시 예에 따르면 역 선형 예측 코딩 필터(18)는 역 처리된 스펙트럼(RS)를 기초로 하여 역 필터링된 신호(IFS)를 추정하도록 구성되고, 주파수-시간 변환기(17)는 역 필터링된 신호(IFS)를 기초로 하여 출력 신호(QS)를 출력하도록 구성된다.
대안으로서 그리고 동등하게, 그리고 인코더 측 상에 실행되는 위에 설명된 주파수-도메인 잡음 형상화 과정과 유사하게, 주파수-시간 변환기(17) 및 역 선형 예측 코딩 필터(18)의 순서는 후자가 먼저 그리고 주파수 도메인(시간 도메인 대신에) 내에서 작동되는 것과 같이 역전될 수 있다. 더 구체적으로, 역 선형 예측 코딩 필터(18)는 역 처리된 스펙트럼(RS)을 기초로 하여 역 필터링된 신호(IFS)를 출력할 수 있고, 역 선형 예측 코딩 필터(2)는 [5]에서와 같이, 선형 예측 코딩 계수들(LC)의 스펙트럼 표현과의 곱셈(또는 나눗셈)을 통하여 적용된다. 따라서, 위에 설명된 것과 같은 주파수-시간 변환기(17)는 시간-주파수 변환기(17)에 입력된, 역 필터링된 신호(IFS)를 기초로 하여 출력 신호(OS)의 프레임을 추정하도록 구성될 수 있다.
통상의 지식을 가진 자들은 이러한 두 가지 접근법(주파수 도메인 내의 선형역 필터링 이후의 주파수-시간 변환 대 주파수-시간 변환 이후의 시간 도메인 내의 스펙트럼 가중을 통한 선형 필터링)이 서로 동등한 것과 같이 구현될 수 있다는 것을 분명하게 이해하여야 한다.
도 6은 본 발명에 따른 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 1 실시 예를 도시한다. 도 2는 탈-양자화된 스펙트럼(DQ), 바람직한 스펙트럼 라인 탈-강조 인자들(SDF) 및 바람직하게는 공동 좌표 시스템 내의 역 처리된 스펙트럼(RS)을 도시하고, 주파수는 x-축에 대하여 플로팅되고 주파수에 의존하는 진폭은 y-축에 대하여 플로팅된다. 기준 스펙트럼 라인(RSLD)보다 낮은 주파수들을 표현하는, 스펙트럼 라인들(SLD0 내지 SLDi '- 1)이 탈-강조되고, 반면에 기준 스펙트럼 라인(RSLD) 및 기준 스펙트럼 라인(RSLD)보다 높은 주파수를 표현하는, 스펙트럼 라인들(SLDi '+ 1)은 x탈-강조되지 않는다. 도 6은 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)의 최소(MI) 및 최대(MA)의 비율이 1에 가까운 상황을 도시한다. 따라서, 스펙트럼 라인(SL0)을 위한 최대 스펙트럼 라인 강조 인자(SEF)는 약 0.4이다. 부가적으로 도 6은 주파수에 의존하는, 양자화 오차(QE)를 도시한다. 강력한 저주파수 탈-강조 때문에 양자화 오차(QE)는 저주파수들에서 매우 낮다.
도 7은 본 발명에 따른 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 2 실시 예를 도시한다. 도 6에 설명된 것과 같은 저주파수 강조와의 차이점은 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)의 최소(MI) 및 최대(MA)의 비율이 작다는 것이다. 따라서, 스펙트럼 라인(SL0)을 위한 최대 스펙트럼 라인 강조 인자(SDF)는 작다. 따라서, 스펙트럼 라인(SL0)을 위한 최대 스펙트럼 라인 탈-강조 인자(SDF)는 약 0.5이다. 이 경우에 있어서 양자화 오차(QE)는 높으나 역 처리된 스펙트럼(RS)의 진폭 훨씬 아래에 존재하기 때문에 중요하지는 않다.
도 8은 본 발명에 따른 디코더에 의해 실행되는 저주파수 탈-강조를 위한 제 3 실시 예를 도시한다. 본 발명의 바람직한 실시 예에서 제어 장치(16)는 최대(MA)가 제 1 사전 설정된 값과 곱해진 최소(MI)보다 작을 때만 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)이 강조되는 것과 같이 구성된다. 이러한 특징들은 디코더(12)의 작업 부하가 최소화되도록 필요할 때만 저주파수 탈-강조가 실행되는 것을 보장한다. 도 8에서 이러한 조건들이 충족되고 따라서 어떠한 저주파수 탈-강조도 실행되지 않는다.
위에 언급된 상대적으로 높은 복잡도 문제점(가능하게는 저-전압 모바일 장치들 상에 구현 문제를 야기하는) 및 종래의 적응 저주파수 강조 접근법의 완벽한 역변환의 결여(충분한 충실도(fidelity)를 위협하는)에 대한 해결책으로서, 다음과 같은 변형된 적응 저주파수 강조 디자인이 제안된다:
● 스펙트럼-대역-당 제곱근 또는 유사한 복잡한 연산을 필요로 하지 않음. 각각의 하나가 인코더 및 디코더 측에 존재하는, 2번의 나눗셈과 2번의 제곱 연산만이 필요.
● 스펙트럼 자체가 아닌, (탈)강조를 위한 제어 정보로서 선형 예측 코딩 필터 계수들의 스펙트럼 표현을 이용. 인코더와 디코더에서 동일한 선형 예측 코딩 필터 계수들이 사용되기 때문에, 적응 저주파수 강조는 스펙트럼 양자화와 관계없이 완전하게 역변환됨.
적응 저주파수 강조 시스템은 저 지연-통합 음성 및 오디오 코딩(LD-USAC)의 변환 코딩 여기 코어-코더, 프레임 당 기준으로 시간-도메인 및 변형 이산 코사인 변환-도메인 코딩 사이에서 변환할 수 있는 확장 고효율-고급 오디오 코딩[4]의 저 지연 변형에서 구현되었다. 인코더와 디코더에서의 과정은 다음과 같이 요약된다:
1. 인코더에서, 선형 예측 코딩 계수들의 스펙트럼 표현의 최소 및 최대는 특정 주파수 아래에서 발견된다. 일반적으로 신호 처리에 적용되는 필터의 스펙트럼 표현은 필터의 전달 함수이다. 확장 고효율-고급 오디오 코딩 및 저 지연-통합 음성 및 오디오 코딩에서, 전달 함수는 필터 계수들의 홀수 이산 푸리에 변환으로부터 계산되는, 전체 스펙트럼 표현을 포함하는 32 또는 64 변형 이산 코사인 변환-도메인 이득들과 가깝다.
2. 만일 최대가 특정 글로벌 최소(예를 들면, 0)보다 크고 α>1(예를 들면, 32)인, 최소보다 α배 큰 것보다 작으면, 다음의 2가지 적응 저주파수 강조 단계들이 실행된다.
3. γ=(α·min/max)β이기 때문에 저주파수 강조 인자(γ)는 최소 및 최대 사이의 비율로부터 계산되는데, 0<β≤1이고 β는 α에 의존한다.
4. 특정 주파수를 표현하는 지수(i')보다 낮은 지수(i)를 갖는 변형 이산 코사인 변환 라인들(즉, 그러한 주파수, 바람직하게는 단계 1에서 사용된 동일한 주파수 아래의 모든 라인)이 이제 γi '-i와 곱해진다. 이는 i'에 가까운 라인이 가장 작게 증폭되고, 직류에 가장 가까운, 제 1 라인이 가장 크게 증폭되는 것을 나타낸다. 바람직하게는, i'는 32이다.
5. 디코더에서, 인코더에서와 같은(동일한 주파수 한계) 단계 1 및 2가 수행된다.
6. 단계 3과 유사하게, 저주파수 탈-강조 인자. 강조 인자(γ)의 역은 δ=(minimum/maximum)=(maximum/(α·))β로서 계산된다.
7. 인코더에서와 같이 선택된, 지수(i')보다 낮은 지수(i)를 갖는 변형 이산 코사인 변환 라인들은 최종적으로 δi '-1에 곱해진다. 그 결과 i'에 가장 가까운 라인아 거장 덜 감쇄되고, 제 1 라인은 가장 많이 감소되며, 전체적으로 인코더 측 적응 저주파수 강조가 완전하게 역변환된다.
본질적으로, 제안된 적응 저주파수 강조 시스템은 조밀하게 존재하는 스펙트럼들에서, 충분한 정확도로 코딩되는 것을 보장한다. 이러한 경우들은 도 8에 도시된 것과 같이, 이를 설명하는데 도움을 줄 수 있다. 최대가 최소보다 α배 큰 큰 것보다 클 때, 어떠한 적응 저주파수 강조도 실행되지 않는다. 이는 저주파수 선형 예측 코딩 형상이 아마도 입력 신호 내의 강력한 분리된 저-피치 음조로부터 기원하는, 강력한 피크를 포함할 때 발생한다. 선형 예측 코딩 코더들은 일반적으로 그러한 신호를 상대적으로 잘 재생할 수 있고, 따라서 적응 저주파수 강조는 필요하지 않다.
선형 예측 코딩 형상이 평평한, 즉 최대가 최소에 접근하는 경우에, 적응 저주파수 강조는 도 6에 도시된 것과 같이 가장 강력하고 음악 잡음 같은 코딩 아티팩트들을 방지할 수 있다.
예를 들면 가깝게 간격을 두는 음조들을 갖는 고조파 신호들 상에서, 선형 예측 코딩 형상이 완전히 평평하지 않고 피크를 갖지 않을 때, 도 7에 도시된 것과 같이 완만한 적응 저주파수 강조만이 실행된다. 단계 4에서의 지수 인자들(γ) 및 단계 7에서의 δ의 적용은 제곱 명령(power instruction)들을 필요로 하지 않으나 곱셈들만을 사용하여 증가적으로 실행될 수 있다. 따라서, 본 발명의 적응 저주파수 강조 전략에 의한 스펙트럼 라인 당 복잡도는 매우 낮다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터로 판독될 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 유형 및/또는 비-일시적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터를 수신기로 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면 컴퓨터 프로그램을 수신기로 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌:
[1] 3GPP TS 26.290, "Extended AMR Wideband Codec - Transcoding Functions," Dec. 2004.
[2] B. Bessette, U.S. Patent 7,933,769 B2, "Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX", Apr. 2011.
[3] J. Makinen et al., "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services,” in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005.
[4] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. 또한 AES, 2013의 저널에도 출현.
[5] T. Baeckstroem et al., European Patent EP 2 471 061 B1, "Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using linear prediction coding based noise shaping".
1 : 오디오 인코더
2 : 선형 예측 코딩 필터
3 : 시간-주파수 변환기
4 : 저주파수 강조기
5 : 제어 장치
6 : 양자화 장치
7 : 비트스트림 생산장치
8 : 스펙트럼 분석기
9 : 최소-최대 분석기
10 : 강조 인자 계산기의 제 1 스테이지
11 : 강조 인자 계산기의 제 2 스테이지
12 : 오디오 디코더
13 : 비트스트림 수신기
14 : 탈-양자화 장치
15 : 저주파수 탈-강조기
16 : 제어 장치
17 : 주파수-시간 변환기
18 : 역 선형 예측 코딩 필터
19 : 스펙트럼 분석기
20 : 최소-최대 분석기
21 : 탈-강조 인자 계산기의 제 1 스테이지
22 : 탈-강조 인자 계산기의 제 1 스테이지
AS : 오디오 신호
LC : 선형 예측 코딩 계수
FF : 필터링된 프레임
FI : 프레임
SP : 스펙트럼
PS : 처리된 스펙트럼
QS : 양자화된 스펙트럼
SR : 스펙트럼 표현
MI : 스펙트럼 표현의 최소
MA : 스펙트럼 표현의 최대
SEF : 스펙트럼 라인 강조 인자
BEF : 기본 강조 인자
FC : 시간 도메인으로 변환된 프레임
RSL : 기준 스펙트럼 라인
SL : 스펙트럼 라인
DQ : 탈-양자화된 스펙트럼
RS : 역 처리된 스ㅍ첵트럼
TS : 시간 신호
SDF : 스펙트럼 라인 탈-강조 인자
BDF : 기본 탈-강조 인자
IFS : 역 필터링된 신호
SLD : 스펙트럼 라인
RSLD : 기준 스펙트럼 라인
QE : 양자화 오차

Claims (28)

  1. 비트스트림을 생산하기 위하여 비-음성 오디오 신호(AS)를 인코딩하기 위한 오디오 인코더에 있어서,
    복수의 선형 예측 코딩 계수(LC)를 갖는 선형 예측 코딩 필터(2) 및 시간-주파수 변환기(3)의 조합(2, 3)을 포함하되, 상기 조합(2, 3)은 프레임(FI)을 기초로 하고 상기 선형 예측 코딩 계수(LC)들을 기초로 하여 스펙트럼(SP)을 출력하기 위하여 상기 오디오 신호(AS)의 상기 프레임(FI)을 필터링하고 상기 오디오 신호(AS)의 상기 프레임(FI)을 주파수 도메인으로 변환하도록 구성됨;
    상기 스펙트럼(SP)을 기초로 하여 처리된 스펙트럼(PS)을 계산하도록 구성되는 저주파수 강조기(4)를 포함하되, 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 상기 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL)이 강조됨; 및
    상기 선형 예측 코딩 필터(2)의 상기 선형 예측 코딩 계수들(LC)에 의존하여 상기 저주파수 강조기(4)에 의해 상기 처리된 스펙트럼(PS)의 계산을 제어하도록 구성되는 제어 장치(5);를 포함하는 것을 특징으로 하는 오디오 인코더.
  2. 선행 항에 있어서, 상기 오디오 신호(AS)의 상기 프레임(FI)은 상기 선형 예측 코딩 필터(2)에 입력되고, 상기 선형 예측 코딩 필터(2)에 의해 필터링된 프레임(FF)이 출력되며 상기 시간-주파수 변환기(3)는 상기 필터링된 프레임(FF)을 기초로 하여 상기 스펙트럼(SP)을 추정하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  3. 제 1항에 있어서, 상기 오디오 신호(AS)의 상기 프레임(FI)은 상기 시간-주파수 변환기(3)에 입력되고, 상기 시간-주파수 변환기(3)에 의해 변환된 프레임(FC)이 출력되며 상기 선형 예측 코딩 필터(2)는 상기 변환된 프레임(FC)을 기초로 하여 상기 스펙트럼(SP)을 추정하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  4. 선행 항 중 어느 한 항에 있어서, 상기 오디오 인코더(1)는 상기 처리된 스펙트럼(PS)을 기초로 하여 양자화된 스펙트럼(QS)을 생산하도록 구성되는 양자화 장치(6) 및 상기 양자화된 스펙트럼(QS)과 상기 선형 예측 코딩 계수들(LC)을 상기 비트스트림(BS) 내로 삽입하도록 구성되는 비트스트림 생산장치(7)를 포함하는 것을 특징으로 하는 오디오 인코더.
  5. 선행 항 중 어느 한 항에 있어서, 상기 제어 장치(5)는 상기 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)을 추정하도록 구성되는 스펙트럼 분석기(8), 또 다른 기준 스펙트럼 라인 아래의 상기 스펙트럼 표현(SR)의 최소(MI) 및 상기 스펙트럼 표현(SR)의 최대(MA)를 추정하도록 구성되는 최소-최대 분석기(9), 및 상기 최소(MI) 및 최대(MA)를 기초로 하여 상기 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 상기 처리된 스펙트럼(PS)의 스펙트럼 라인(SL)을 계산하기 위하여 스펙트럼 라인 강조 인자들(SEF)을 계산하도록 구성되는 강조 인자 계산기(10, 11)를 포함하고, 상기 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL)은 상기 스펙트럼 라인 강조 인자들(SEF)을 상기 필터링된 프레임의 스펙트럼의 스펙트럼 라인들에 적용함으로써 강조되는 것을 특징으로 하는 오디오 인코더.
  6. 선행 항 중 어느 한 항에 있어서, 상기 강조 인자 계산기(10, 11)는 상기 스펙트럼 라인 강조 인자들(SEF)이 상기 기준 스펙트럼 라인(RSL)으로부터 상기 스펙트럼(SP)의 가장 낮은 주파수를 표현하는 상기 스펙트럼 라인(SL)으로의 방향으로 증가하는 것과 같은 방법으로 구성되는 것을 특징으로 하는 오디오 인코더.
  7. 제 5항 또는 6항에 있어서, 상기 강조 인자 계산기(10, 11)는 제 1 공식(γ=(α·min/max)β)에 따라 기본 강조 인자(BEF)를 계산하도록 구성되는 제 1 스테이지(10)를 포함하고, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 상기 스펙트럼 표현(SR)의 최소(MI)이며, max는 상기 스펙트럼 표현(SR)의 최대(MA)이며, γ는 상기 기본 강조 인자(BEF)이며, 상기 강조 인자 계산기(10, 11)는 제 2 공식(εii '- 1)에 따라 스펙트럼 라인 강조 인자들(SEF)을 계산하도록 구성되는 제 2 스테이지(11)를 포함하며, 여기서 i'는 강조되려는 상기 스펙트럼 라인들(SL)의 수이고, i는 각각의 상기 스펙트럼 라인(SL)의 지수이며, 상기 지수는 i=0 내지 i'-1로, 스펙트럼 라인들(SL)의 주파수들과 함께 증가되며. γ는 상기 기본 강조 인자(BEF)이며 εi는 상기 지수(i)를 갖는 상기 스펙트럼 라인 강조 인자(SEF)인 것을 특징으로 하는 오디오 인코더.
  8. 선행 항 중 어느 한 항에 있어서, 상기 제 1 사전 설정된 값은 42보다 작고 22보다 크고, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작은 것을 특징으로 하는 오디오 인코더.
  9. 제 7항 또는 8항에 있어서, 상기 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되고, 여기서 i'는 강조되려는 상기 스펙트럼 라인들(SL)의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자인 것을 특징으로 하는 오디오 인코더.
  10. 선행 항 중 어느 한 항에 있어서, 상기 기준 스펙트럼 라인(RSL)은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현하는 것을 특징으로 하는 오디오 인코더.
  11. 제 5항 내지 10항 중 어느 한 항에 있어서, 상기 기준 스펙트럼 라인(RSL)과 동일하거나 또는 상기 기준 스펙트럼 라인(RSL)보다 높은 주파수를 표현하는 기준 스펙트럼 라인을 더 포함하는 것을 특징으로 하는 오디오 인코더.
  12. 선행 항 중 어느 한 항에 있어서, 상기 제어 장치(5)는 상기 최대(MA)가 제 1 사전 설정된 값과 곱해진 상기 최소(MI)보다 작을 때만 상기 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 상기 처리된 스펙트럼(SP)의 상기 스펙트럼 라인들(SL)이 강조되는 것과 같이 구성되는 것을 특징으로 하는 오디오 인코더.
  13. 비트스트림(BS)으로부터 비-음성 오디오 출력 신호(OS)를 생산하기 위하여 비-음성 오디오 신호(AS)를 기초로 하여 상기 비트스트림(BS)을 디코딩하도록, 특히 제 1항 내지 12항에 따른 오디오 인코더(1)에 의해 생산된 상기 비트스트림(BS)을 디코딩하기 위한 오디오 디코더에 있어서, 상기 비트스트림(BS)은 양자화된 스펙트럼들(QS) 및 복수의 선형 예측 코딩 계수(LC)를 포함하며, 상기 오디오 디코더(12)는:
    상기 비트스트림(BS)으로부터 상기 양자화된 스펙트럼(QS) 및 상기 선형 예측 코딩 계수들(LC)을 추출하도록 구성되는 비트스트림 수신기(13);
    상기 양자화된 스펙트럼(QS)을 기초로 하여 탈-양자화된 스펙트럼(DQ)을 생산하도록 구성되는 탈-양자화 장치(14);
    상기 탈-양자화된 스펙트럼(DQ)을 기초로 하여 역 처리된 스펙트럼(RS)을 계산하도록 구성되는 저주파수 탈-강조기(15)를 포함하되, 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 상기 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)이 탈-강조됨; 및
    상기 비트스트림(BS) 내에 포함된 상기 선형 예측 코딩 계수들(LC)에 의존하여 상기 저주파수 탈-강조기(15)에 의해 상기 역 처리된 스펙트럼(RS)의 계산을 제어하도록 구성되는 제어 장치(16);를 포함하는 것을 특징으로 하는 오디오 디코더.
  14. 선행 항 중 어느 한 항에 있어서, 상기 오디오 디코더(12)는 상기 비트스트림(BS) 내에 포함된 상기 복수의 선형 예측 코딩 계수(LC)를 수신하는 주파수-시간 변환기(17) 및 역 선형 예측 코딩 필터(18)의 조합(17, 18)을 포함하고, 상기 조합(17, 18)은 상기 역 처리된 스펙트럼(RS) 및 상기 선형 예측 코딩 계수들(LC)을 기초로 하여 상기 출력 신호(OS)를 출력하기 위하여 상기 역처리된 스펙트럼을 역 필터링하고 상기 역 처리된 스펙트럼(RS)을 시간 도메인으로 변환하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  15. 선행 항 중 어느 한 항에 있어서, 상기 주파수-시간 변환기(17)는 상기 역 처리된 스펙트럼(PS)을 기초로 하여 시간 신호(TS)를 추정하도록 구성되고, 상기 역 선형 예측 코딩 필터(18)는 상기 시간 신호(TS)를 기초로 하여 상기 출력 신호(OS)를 출력하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  16. 제 14항에 있어서, 상기 역 선형 예측 코딩 필터(18)는 상기 역 처리된 스펙트럼(RS)을 기초로 하여 역 필터링된 신호(IFS)를 추정하도록 구성되고 상기 주파수-시간 변환기(17)는 상기 역 필터링된 신호(IFS)를 기초로 하여 상기 출력 신호(OS)를 출력하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  17. 제 13항 내지 16항 중 어느 한 항에 있어서, 상기 제어 장치(16)는 상기 선형 예측 코딩 계수들(LC)의 스펙트럼 표현(SR)을 추정하도록 구성되는 스펙트럼 분석기(19), 또 다른 기준 스펙트럼 라인 아래의 상기 스펙트럼 표현(SR)의 최소(MI) 및 상기 스펙트럼 표현(SR)의 최대(MA)를 추정하도록 구성되는 최소-최대 분석기(20) 및 상기 최소(MI) 및 상기 최대(MA)를 기초로 하여 상기 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 상기 역 처리된 스펙트럼(RS)의 상기 스펙트럼 라인들(SLD)을 계산하기 위하여 스펙트럼 라인 탈-강조 인자들(SDF)을 계산하도록 구성되는 탈-강조 인자 계산기(21, 22)를 포함하고, 상기 역 처리된 스펙트럼(RS)의 상기 스펙트럼 라인들(SLD)은 상기 스펙트럼 라인 탈-강조 인자들(SDF)을 상기 탈-양자화된 스펙트럼(DQ)의 스펙트럼 라인들에 적용함으로써 탈-강조되는 것을 특징으로 하는 오디오 인코더.
  18. 선행 항 중 어느 한 항에 있어서, 상기 탈-강조 인자 계산기(21, 22)는 상기 스펙트럼 라인 탈-강조 인자들(SDF)이 상기 기준 스펙트럼 라인(RSLD)으로부터 상기 역 처리된 스펙트럼(RS)의 가장 낮은 주파수를 표현하는 상기 스펙트럼 라인(SL)으로의 방향으로 감소되는 것과 같은 방법으로 구성되는 것을 특징으로 하는 오디오 인코더.
  19. 제 17항 또는 18항에 있어서, 상기 탈-강조 인자 계산기(21, 22)는 제 1 공식(δ=(α·min/max))에 따라 기본 탈-강조 인자(BDF)를 계산하도록 구성되는 제 1 스테이지(21)를 포함하고, 여기서 α는 α>1인, 제 1 사전 설정된 값이고, β는 0<β≤1인, 제 2 사전 설정된 값이며, min은 상기 스펙트럼 표현(SR)의 최소(MI)이며, max는 상기 스펙트럼 표현(SR)의 최대(MA)이며, δ는 상기 기본 탈-강조 인자(BDF)이며, 상기 탈-강조 인자 계산기(21, 22)는 제 2 공식(ξii '- 1)에 따라 스펙트럼 라인 탈-강조 인자들(SDF)을 계산하도록 구성되는 제 2 스테이지(22)를 포함하는데, 여기서 i'는 탈-강조되려는 상기 스펙트럼 라인들(SLD)의 수이고, i는 각각의 상기 스펙트럼 라인(SLD)의 지수이며, 지수는 i=0 내지 i'-1로, 상기 스펙트럼 라인들(SLD)의 주파수들과 함께 증가하고. δ는 상기 기본 탈-강조 인자이며 ξi는 지수(i)를 갖는 상기 스펙트럼 라인 탈-강조 인자(SDF)인 것을 특징으로 하는 오디오 인코더.
  20. 선행 항 중 어느 한 항에 있어서, 상기 제 1 사전 설정된 값은 42보다 작고 22보다 크며, 특히 38보다 작고 26보다 크며, 특히 34보다 크고 30보다 작은 것을 특징으로 하는 오디오 인코더.
  21. 제 19항 또는 20항에 있어서, 상기 제 2 사전 설정된 값은 공식(β=1/(θ·i'))에 따라 결정되고, 여기서 i'는 탈-강조되려는 상기 스펙트럼 라인들(SLD)의 수이고, θ는 3 및 5 사이, 특히 3,4 및 4,6 사이, 특히 3,8 및 4,2 사이의 인자인 것을 특징으로 하는 오디오 인코더.
  22. 제 13항 내지 21항 중 어느 한 항에 있어서, 상기 기준 스펙트럼 라인(RSLD)은 600 ㎐ 및 1000 ㎐ 사이, 특히 700 ㎐ 및 900 ㎐ 사이, 특히 750 ㎐ 및 850 ㎐ 사이의 주파수를 표현하는 것을 특징으로 하는 오디오 인코더.
  23. 제 17항 내지 22항 중 어느 한 항에 있어서, 상기 기준 스펙트럼 라인(RSLD)과 동일하거나 또는 상기 기준 스펙트럼 라인(RSLD)보다 높은 주파수를 표현하는 상기 기준 스펙트럼 라인을 더 포함하는 것을 특징으로 하는 오디오 인코더.
  24. 제 13항 내지 23항 중 어느 한 항에 있어서, 상기 제어 장치(16)는 상기 최대(MA)가 상기 제 1 사전 설정된 값과 곱해진 상기 최소(MI)보다 작을 때만 상기 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 상기 처리된 스펙트럼(RS)의 상기 스펙트럼 라인들(SLD)이 강조되는 것과 같이 구성되는 것을 특징으로 하는 오디오 인코더.
  25. 인코더(1) 및 디코더(12)를 포함하는 시스템에 있어서, 상기 인코더(1)는 제 1항 내지 12항 중 어느 한 항에 따라 디자인되거나 및/또는 상기 디코더는 제 13항 내지 24항 중 어느 한 항에 따라 디자인되는 것을 특징으로 하는 시스템.
  26. 비트스트림(BS)을 생산하기 위하여 비-음성 오디오 신호(AS)를 디코딩하기 위한 방법에 있어서,
    프레임(FI)을 기초로 하고 선형 예측 코딩 계수들(LC)을 기초로 하여 스펙트럼(SP)을 출력하기 위하여 상기 복수의 선형 예측 코딩 계수(LC)를 갖는 선형 예측 코딩 필터(@)로 필터링하는 단계;
    상기 스펙트럼(SP)을 기초로 하여 처리된 스펙트럼을 계산하는 단계를 포함하되, 기준 스펙트럼 라인(RSL)보다 낮은 주파수를 표현하는 상기 처리된 스펙트럼(PS)의 스펙트럼 라인들(SL)이 강조됨; 및
    상기 선형 예측 코딩 필터(2)의 상기 선형 예측 코딩 계수들(LC)에 의존하여 상기 처리된 스펙트럼(PS)의 계산을 제어하는 단계;를 포함하는 것을 특징으로 하는 비-음성 오디오 신호를 디코딩하기 위한 방법.
  27. 비트스트림(BS)으로부터 비-음성 오디오 출력 신호(OS)를 생산하기 위하여, 비-음성 오디오 신호(AS)를 기초로 하여 상기 비트스트림(BS)을 디코딩하기 위한, 특히 선행 청구항에 따른 방법에 의해 생산된 비트스트림(BS)을 디코딩하기 위한 방법에 있어서, 상기 비트스트림(BS)은 양자화된 스펙트럼들(QS) 및 복수의 선형 예측 코딩 계수(LC)를 포함하며, 상기 방법은:
    상기 비트스트림(BS)으로부터 상기 양자화된 스펙트럼(QS) 및 상기 선형 예측 코딩 계수들(LC)을 추출하는 단계;
    상기 양자화된 스펙트럼(QS)을 기초로 하여 탈-양자화된 스펙트럼(DQ)을 생산하는 단계;
    상기 탈-양자화된 스펙트럼(DQ)을 기초로 하여 역 처리된 스펙트럼을 계산하는 단계를 포함하되, 기준 스펙트럼 라인(RSLD)보다 낮은 주파수를 표현하는 상기 역 처리된 스펙트럼(RS)의 스펙트럼 라인들(SLD)이 탈-강조됨; 및
    상기 비트스트림(BS) 내에 포함된 상기 선형 예측 코딩 계수들(LC)에 의존하여 상기 역 처리된 스펙트럼(RS)의 계산을 제어하는 단계;를 포함하는 것을 특징으로 하는 비트스트림을 디코딩하기 위한 방법.
  28. 컴퓨터 또는 프로세서 상에서 구동할 때 제 26항 또는 27항의 방법을 실행하기 위한 컴퓨터 프로그램.
KR1020157022714A 2013-01-29 2014-01-28 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 KR101792712B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758103P 2013-01-29 2013-01-29
US61/758,103 2013-01-29
PCT/EP2014/051585 WO2014118152A1 (en) 2013-01-29 2014-01-28 Low-frequency emphasis for lpc-based coding in frequency domain

Publications (2)

Publication Number Publication Date
KR20150110708A true KR20150110708A (ko) 2015-10-02
KR101792712B1 KR101792712B1 (ko) 2017-11-02

Family

ID=50030281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157022714A KR101792712B1 (ko) 2013-01-29 2014-01-28 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조

Country Status (20)

Country Link
US (5) US10176817B2 (ko)
EP (1) EP2951814B1 (ko)
JP (1) JP6148811B2 (ko)
KR (1) KR101792712B1 (ko)
CN (2) CN105122357B (ko)
AR (2) AR094682A1 (ko)
AU (1) AU2014211520B2 (ko)
BR (1) BR112015018040B1 (ko)
CA (1) CA2898677C (ko)
ES (1) ES2635142T3 (ko)
HK (1) HK1218018A1 (ko)
MX (1) MX346927B (ko)
MY (1) MY178306A (ko)
PL (1) PL2951814T3 (ko)
PT (1) PT2951814T (ko)
RU (1) RU2612589C2 (ko)
SG (1) SG11201505911SA (ko)
TW (1) TWI536369B (ko)
WO (1) WO2014118152A1 (ko)
ZA (1) ZA201506314B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX346927B (es) 2013-01-29 2017-04-05 Fraunhofer Ges Forschung Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia.
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US9338627B1 (en) 2015-01-28 2016-05-10 Arati P Singh Portable device for indicating emergency events
WO2018049279A1 (en) * 2016-09-09 2018-03-15 Dts, Inc. System and method for long-term prediction in audio codecs
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
JP7214726B2 (ja) * 2017-10-27 2023-01-30 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
JP7130878B2 (ja) * 2019-01-13 2022-09-05 華為技術有限公司 高分解能オーディオコーディング
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139732A (en) * 1975-01-24 1979-02-13 Larynogograph Limited Apparatus for speech pattern derivation
JPH0738118B2 (ja) * 1987-02-04 1995-04-26 日本電気株式会社 マルチパルス符号化装置
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US5173941A (en) * 1991-05-31 1992-12-22 Motorola, Inc. Reduced codebook search arrangement for CELP vocoders
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3360423B2 (ja) * 1994-06-21 2002-12-24 三菱電機株式会社 音声強調装置
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
US6278972B1 (en) * 1999-01-04 2001-08-21 Qualcomm Incorporated System and method for segmentation and recognition of speech signals
JP3526776B2 (ja) * 1999-03-26 2004-05-17 ローム株式会社 音源装置及び携帯機器
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding
US6748363B1 (en) * 2000-06-28 2004-06-08 Texas Instruments Incorporated TI window compression/expansion method
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2002093561A1 (de) * 2001-05-11 2002-11-21 Siemens Aktiengesellschaft Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
KR100648760B1 (ko) * 2001-11-29 2006-11-23 코딩 테크놀러지스 에이비 고주파 재생 기술 향상을 위한 방법들 및 그를 수행하는 프로그램이 저장된 컴퓨터 프로그램 기록매체
CN100370517C (zh) * 2002-07-16 2008-02-20 皇家飞利浦电子股份有限公司 一种对编码信号进行解码的方法
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
SG135920A1 (en) * 2003-03-07 2007-10-29 St Microelectronics Asia Device and process for use in encoding audio data
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
WO2004097798A1 (ja) * 2003-05-01 2004-11-11 Fujitsu Limited 音声復号化装置、音声復号化方法、プログラム、記録媒体
DE10321983A1 (de) * 2003-05-15 2004-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
WO2005114656A1 (en) * 2004-05-14 2005-12-01 Loquendo S.P.A. Noise reduction for automatic speech recognition
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
BRPI0515453A (pt) * 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006096137A2 (en) * 2005-03-11 2006-09-14 Agency For Science, Technology And Research Predictor
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
RU2414009C2 (ru) * 2006-01-18 2011-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования и декодирования сигнала
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
EP2118892B1 (en) * 2007-02-12 2010-07-14 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
AU2009267459B2 (en) * 2008-07-11 2014-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
CN102150201B (zh) * 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
MX2012004116A (es) 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
EP3693963B1 (en) * 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
EP2673776B1 (en) * 2012-01-20 2015-06-17 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
MX346927B (es) 2013-01-29 2017-04-05 Fraunhofer Ges Forschung Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia.
US20140358529A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Systems, Devices and Methods for Processing Speech Signals

Also Published As

Publication number Publication date
RU2612589C2 (ru) 2017-03-09
EP2951814A1 (en) 2015-12-09
ES2635142T3 (es) 2017-10-02
WO2014118152A1 (en) 2014-08-07
MY178306A (en) 2020-10-07
US20150332695A1 (en) 2015-11-19
TW201435861A (zh) 2014-09-16
TWI536369B (zh) 2016-06-01
CN110047500B (zh) 2023-09-05
US10176817B2 (en) 2019-01-08
PL2951814T3 (pl) 2017-10-31
RU2015136223A (ru) 2017-03-06
BR112015018040A2 (ko) 2017-07-11
US20230087652A1 (en) 2023-03-23
US20180240467A1 (en) 2018-08-23
SG11201505911SA (en) 2015-08-28
CA2898677A1 (en) 2014-08-07
US11568883B2 (en) 2023-01-31
AU2014211520A1 (en) 2015-09-17
EP2951814B1 (en) 2017-05-10
JP2016508618A (ja) 2016-03-22
AR094682A1 (es) 2015-08-19
KR101792712B1 (ko) 2017-11-02
CN110047500A (zh) 2019-07-23
US11854561B2 (en) 2023-12-26
AU2014211520B2 (en) 2017-04-06
US20200327896A1 (en) 2020-10-15
MX2015009752A (es) 2015-11-06
JP6148811B2 (ja) 2017-06-14
CN105122357B (zh) 2019-04-23
PT2951814T (pt) 2017-07-25
CA2898677C (en) 2017-12-05
CN105122357A (zh) 2015-12-02
US10692513B2 (en) 2020-06-23
ZA201506314B (en) 2016-07-27
MX346927B (es) 2017-04-05
HK1218018A1 (zh) 2017-01-27
US20240119953A1 (en) 2024-04-11
AR115901A2 (es) 2021-03-10
BR112015018040B1 (pt) 2022-01-18
US20180293993A9 (en) 2018-10-11

Similar Documents

Publication Publication Date Title
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
US10984810B2 (en) Noise filling without side information for CELP-like coders
US11043226B2 (en) Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
KR20180134379A (ko) 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램
KR101757341B1 (ko) 저-복잡도 음조-적응 오디오 신호 양자화
KR20200077591A (ko) 인코더 및/또는 디코더에서의 대역폭 제어

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant