KR101274802B1 - 오디오 신호를 인코딩하기 위한 장치 및 방법 - Google Patents

오디오 신호를 인코딩하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101274802B1
KR101274802B1 KR1020117017780A KR20117017780A KR101274802B1 KR 101274802 B1 KR101274802 B1 KR 101274802B1 KR 1020117017780 A KR1020117017780 A KR 1020117017780A KR 20117017780 A KR20117017780 A KR 20117017780A KR 101274802 B1 KR101274802 B1 KR 101274802B1
Authority
KR
South Korea
Prior art keywords
audio signal
gain
vector
audio
signal
Prior art date
Application number
KR1020117017780A
Other languages
English (en)
Other versions
KR20110110267A (ko
Inventor
제임스 피. 애슐리
우다르 미탈
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20110110267A publication Critical patent/KR20110110267A/ko
Application granted granted Critical
Publication of KR101274802B1 publication Critical patent/KR101274802B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

수신된 오디오 신호의 재구성된 오디오 벡터
Figure 112011058640492-pct00153
에서 피크들의 세트가 검출되고, 검출된 피크들의 세트에 기초한 스케일링 마스크 ψ(
Figure 112011058640492-pct00154
)가 생성된다. 이득 벡터 g*는 스케일링 마스크, 및 이득 벡터를 나타내는 인덱스 j에 기초하여 생성된다. 재구성된 오디오 신호는 이득 벡터로 스케일링되어 스케일링되고 재구성된 오디오 신호를 생성한다. 왜곡은 오디오 신호, 및 스케일링되고 재구성된 오디오 신호에 기초하여 생성된다. 생성된 왜곡에 기초한 이득 벡터의 인덱스가 출력된다.

Description

오디오 신호를 인코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ENCODING AN AUDIO SIGNAL}
관련 출원들에 대한 교차-참조
본 출원은 모토롤라 인크에 의해 본 출원과 함께 공동 소유되는 이하의 미합중국 출원들과 관련되며, 모두 동일한 일시에 출원되었다.
발명의 명칭이 "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM"인 출원 제12/345,165호(Atty. Docket No. CS36250AUD);
발명의 명칭이 "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM"인 출원 제12/345,117호(Atty. Docket No. CS36627AUD);
발명의 명칭이 "SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION"인 출원 제12/345,096호(Atty. Docket No. CS36655AUD).
본 개시물의 분야
본 개시물은 일반적으로는 통신 시스템들에 관한 것으로, 특히 그러한 통신 시스템들에서 스피치 및 오디오 신호들을 코딩하는 것에 관한 것이다.
디지털 스피치 및 오디오 신호들의 압축은 공지되어 있다. 압축은 일반적으로 통신 채널을 통해 신호들을 효율적으로 송신하거나, 고체상태 메모리 디바이스 또는 컴퓨터 하드 디스크와 같은 디지털 미디어 디바이스에 압축된 신호들을 저장하는데 요구된다. 다수의 압축(또는 "코딩") 기술들이 있지만, 디지털 스피치 코딩에 대해 매우 인기있는 하나의 방법은 "합성에 의한 분석(analysis-by-synthesis)"코딩 알고리즘들의 계열 중 하나인 코드 여기 선형 예측(CELP)으로 알려져 있다. 합성에 의한 분석은 일반적으로 디지털 모델의 복수의 파라미터들이 입력 신호와 비교되고 왜곡에 대해 분석되는 후보(candidate) 신호들의 세트를 합성하는데 이용되는 코딩 프로세스를 지칭한다. 그리고나서, 최저 왜곡을 산출하는 파라미터들의 세트가 송신되거나 저장되고, 최종적으로 원래의 입력 신호의 추정을 재구성하는데 이용된다. CELP는 각각이 코드북 인덱스에 응답하여 코드북으로부터 검색된 코드-벡터들의 세트들을 실질적으로 포함하는 하나 이상의 코드북들을 이용하는 특별한 합성에 의한 분석 방법이다.
현대의 CELP 코더들에서, 상당히 낮은 데이터 레이트들에서 높은 품질의 스피치 및 오디오 재생을 유지하는데 문제가 있다. 이것은 특히 CELP 스피치 모델에 매우 잘 맞지 않는 음악 또는 다른 일반적인 오디오 신호들에 대해 적용된다. 이 경우에, 모델 미스매치는 그러한 방법들을 채용하는 장비의 엔드 사용자에게 수용할 수 없는 심각하게 저하된 오디오 품질을 유발할 수 있다. 그러므로, 특히 음악 및 다른 비-스피치 타입 입력들에 대해, 낮은 비트 레이트들에서 CELP 타입 스피치 코더들의 성능을 개선하기 위한 필요성이 남아있다.
유사한 참조번호들이 분리된 도면들 전체에 걸쳐 동일하거나 기능적으로 유사한 기능요소들을 나타내는 첨부된 도면들은 이하의 상세한 설명과 함께 명세서의 일부에 포함되고 그 일부를 형성하며, 청구된 발명을 포함하는 개념들의 다양한 실시예들을 추가 예시하고 이들 실시예들의 다양한 원리들 및 장점들을 설명하도록 서빙한다.
도 1은 종래 기술 임베디드 스피치/오디오 압축 시스템의 블록도이다.
도 2는 도 1의 인핸스먼트 레이어 인코더의 더 상세화된 예이다.
도 3은 도 1의 인핸스먼트 레이어 인코더의 더 상세화된 예이다.
도 4는 인핸스먼트 레이어 인코더 및 디코더의 블록도이다.
도 5는 멀티-레이어 임베디드 코딩 시스템의 블록도이다.
도 6은 레이어-4 인코더 및 디코더의 블록도이다.
도 7은 도 4 및 도 6의 인코더들의 오퍼레이션을 도시하는 플로우차트이다.
도 8은 종래 기술 임베디드 스피치/오디오 압축 시스템의 블록도이다.
도 9는 도 8의 인핸스먼트 레이어 인코더의 더 상세화된 예이다.
도 10은 다양한 실시예들에 따른 인핸스먼트 레이어 인코더 및 디코더의 블록도이다.
도 11은 다양한 실시예들에 따른 인핸스먼트 레이어 인코더 및 디코더의 블록도이다.
도 12는 다양한 실시예들에 따른 다수 채널 오디오 신호 인코딩의 플로우차트이다.
도 13은 다양한 실시예들에 따른 다수 채널 오디오 신호 인코딩의 플로우차트이다.
도 14는 다양한 실시예들에 따른 다수 채널 오디오 신호의 디코딩의 플로우차트이다.
도 15는 다양한 실시예들에 따른 마스크 생성에 기초한 피크 검출의 주파수 플롯이다.
도 16은 다양한 실시예들에 따른 피크 마스크 생성을 이용한 코어 레이어 스케일링의 주파수 플롯이다.
도 17-19는 다양한 실시예들에 따라, 피크 검출에 기초하여 마스크 생성을 이용함으로써 인코딩 및 디코딩하기 위한 방법을 예시하는 흐름도들이다.
숙련자들이라면 도면들의 구성요소들이 단순성 및 명백성을 위해 예시되어 있고 반드시 스케일링되도록 그려질 필요가 없다는 것을 잘 알고 있을 것이다. 예를 들면, 도면들의 일부 구성요소들의 치수들은 다른 구성요소들에 비해 과장되어 다양한 실시예들의 이해를 개선하는데 도움을 준다. 뿐만 아니라, 설명 및 도면들은 예시된 순서를 반드시 요구하는 것은 아니다. 또한, 일부 액션들 및/또는 단계들은 특정 발생 순서로 기재되거나 도시되어 있지만, 본 기술분야의 숙련자들이라면 시퀀스에 관한 그러한 특수성이 실제로 요구되지 않는다는 것을 이해할 것이라는 것은 자명하다. 장치들 및 방법 컴포넌트들은 도면들에서 적절한 경우에 종래의 심볼들에 의해 표현되어 있고, 본 설명의 잇점을 가지는 본 기술분야의 통상의 기술자들에게 용이하게 명백한 세부사항들로 본 개시를 모호하게 하지 않도록 하기 위해 다양한 실시예들을 이해하는 것에 관련된 일부 특정 세부사항들만을 도시하고 있다. 그러므로, 예시의 단순성 및 명료성을 위해, 상용으로 실시가능한 실시예에 유용하거나 필요한 공지되고 주지된 구성요소들은 이들 다양한 실시예들의 덜 차단된 뷰를 용이하게 하도록 하기 위해 도시되지 않을 수 있다는 것은 자명하다.
상기 언급된 필요성을 다루기 위해, 오디오 코딩 시스템 내에서 인핸스먼트 레이어를 생성하기 위한 방법 및 장치가 여기에 기재된다. 오퍼레이션 동안에 코딩될 입력 신호가 수신되고 코딩되어 코딩된 오디오 신호를 생성한다. 그리고나서, 코딩된 오디오 신호는 복수의 이득 값들로 스케일링되어 각각이 연관된 이득 값을 가지는 복수의 스케일링되고 코딩된 오디오 신호들을 생성하고, 복수의 에러 값들은 입력 신호와, 복수의 스케일링되고 코딩된 오디오 신호들 각각의 사이에 존재하는 것으로 결정된다. 그리고나서, 결과적으로 입력 신호와 스케일링되고 코딩된 오디오 신호 사이에 존재하는 낮은 에러 값으로 나타나는 스케일링되고 코딩된 오디오 신호와 연관된 이득값이 선택된다. 최종적으로, 낮은 에러 값은 인핸스먼트 레이어의 일부로서 이득값과 함께 코딩된 오디오 신호에 송신된다.
종래 기술에 따른 임베디드 스피치/오디오 압축 시스템은 도 1에 도시되어 있다. 입력 오디오 s(n)은 이들 목적들을 위해 CELP 타입 스피치 코딩 알고리즘일 수 있는 코어 레이어 인코더(120)에 의해 처음으로 처리된다. 인코딩된 비트 스트림은 채널(125)에 송신될 뿐만 아니라 로컬 코어 레이어 디코더(115)에도 입력되고, 여기에서 재구성된 코어 오디오 신호 sc(n)이 생성된다. 그리고나서, 인핸스먼트 레이어 인코더(120)는 신호들 s(n) 및 sc(n)의 일부 비교에 기초하여 추가 정보를 코딩하는데 이용되고, 선택적으로는 코어 레이어 디코더(115)로부터의 파라미터들을 이용할 수 있다. 코어 레이어 디코더(115)에서와 같이, 코어 레이어 디코더(130)는 코어 레이어 비트-스트림 파라미터들을 코어 레이어 오디오 신호
Figure 112011058640492-pct00001
으로 변환한다. 그리고나서, 인핸스먼트 레이어 디코더(135)는 채널(125)로부터의 인핸스먼트 레이어 비트-스트림, 및 신호
Figure 112011058640492-pct00002
을 이용하여 인핸스드 오디오 출력 신호
Figure 112011058640492-pct00003
를 생성한다.
그러한 임베디드 코딩 시스템의 주된 장점은, 특정 채널(125)이 고품질 오디오 코딩 알고리즘들과 연관된 대역폭 요구조건을 일관되게 지원할 수 없을 수 있다는 점이다. 그러나, 임베디드 코더는 부분 비트-스트림(예를 들면, 단지 코어 레이어 비트-스트림만)이 채널(125)로부터 수신되어, 예를 들면 인핸스먼트 레이어 비트-스트림이 손실되거나 손상된 경우에 코어 출력 오디오만을 생성할 수 있게 한다. 그러나, 임베디드 대 비-임베디드 코더들 사이, 및 상이한 임베디드 코딩 최적화 목적들 사이에서 품질 측면의 트레이드오프들이 있다. 즉, 더 높은 품질의 인핸스먼트 레이어 코딩은 코어 및 인핸스먼트 레이어들 사이의 더 나은 밸런스를 달성하는데 도움을 줄 수 있고, 또한 더 나은 송신 특성들(예를 들면, 감소된 혼잡)을 위해 전체 데이터 레이트를 감소시키며, 이는 결과적으로 인핸스먼트 레이어들에 대한 더 낮은 패킷 에러 레이트들로 나타날 수 있다.
종래 기술 인핸스먼트 레이어 인코더(120)의 더 상세화된 예는 도 2에서 제공된다. 여기에서, 에러 신호 발생기(210)는 에러 신호 인코더(220)에 의한 처리를 위해, MDCT(변형된 이산 코사인 변환) 도메인으로 변환되는 가중된 차이 신호를 포함한다. 에러 신호 E는 이하와 같이 주어진다.
Figure 112011058640492-pct00004
여기에서, W는 코어 레이어 디코더(115)로부터 LP(선형 예측) 필터 계수들 A(z)에 기초한 개념적인 가중 매트릭스이고, s는 입력 오디오 신호 s(n)으로부터의 샘플들의 벡터(즉, 프레임)이며, sc는 코어 레이어 디코더(115)로부터의 대응하는 샘플들의 벡터이다. 예로 든 MDCT 프로세스는 ITU-T 추천 G.729.1에 기재되어 있다. 그리고나서, 에러 신호 E는 에러 신호 인코더(220)에 의해 처리되어, 코드워드 iE를 생성하고, 이는 후속적으로 채널(125)에 송신된다. 이러한 예에 대해, 에러 신호 인코더(120)는 단지 하나의 에러 신호 E만이 제공되고 하나의 연관된 코드워드 iE를 출력한다는 것을 유의하는 것이 중요하다. 이것에 대한 이유는 나중에 명백하게 될 것이다.
그리고나서, 인핸스먼트 레이어 디코더(135)는 채널(125)로부터 인코딩된 비트-스트림을 수신하고, 비트-스트림을 적절하게 디-멀티플렉싱하여 코드워드 iE를 생성한다. 에러 신호 디코더(230)는 코드워드 iE를 이용하여 인핸스먼트 레이어 에러 신호
Figure 112011058640492-pct00005
를 재구성하고, 그리고나서 이는 신호 조합기(240)에 의해 코어 레이어 출력 오디오 신호
Figure 112011058640492-pct00006
과 이하와 같이 조합되어, 인핸스드 오디오 출력 신호
Figure 112011058640492-pct00007
을 생성한다.
Figure 112011058640492-pct00008
여기에서, MDCT-1은 역 MDCT(중첩-가산)이고, W-1은 역 개념적 가중 매트릭스이다.
인핸스먼트 레이어 인코더의 또 하나의 예는 도 3에 도시되어 있다. 여기에서, 에러 신호 발생기(315)에 의한 에러 신호 E의 생성은 적응형 프리-스케일링에 관련되고, 여기에서 코어 레이어 오디오 출력 sc(n)에 대한 일부 변형이 수행된다. 이러한 프로세스는 결과적으로 일부 개수의 비트들이 생성되는 것으로 나타나고, 이들은 인핸스먼트 레이어 인코더(120)에서 코드워드 is로 도시되어 있다.
추가적으로, 인핸스먼트 레이어 인코더(120)는 에러 신호 인코더(320)에 입력되는 입력 오디오 신호 s(n), 및 변환된 코어 레이어 출력 오디오 Sc를 도시하고 있다. 이들 신호들은 인핸스먼트 레이어 에러 신호 E의 개선된 코딩을 위한 음향심리학적 모델을 구성하는데 이용된다. 그리고나서, 코드워드들 is 및 iE는 MUX(325)에 의해 멀티플렉싱되고, 그리고나서 인핸스먼트 레이어 디코더(135)에 의한 후속 디코딩을 위해 채널(125)에 전송된다. 코딩된 비트-스트림은 비트-스트림을 컴포넌트들 is 및 iE로 분리하는 디먹스(335)에 의해 수신된다. 그리고나서, 코드워드 iE는 에러 신호 디코더(340)에 의해, 인핸스먼트 레이어 에러 신호
Figure 112011058640492-pct00009
를 재구성하는데 이용된다. 신호 조합기(345)는 스케일링 비트들 is를 이용하는 일부 방식으로 신호
Figure 112011058640492-pct00010
을 스케일링하고, 그리고나서 그 결과를 인핸스먼트 레이어 에러 신호
Figure 112011058640492-pct00011
와 조합하여 인핸스드 오디오 출력 신호
Figure 112011058640492-pct00012
을 생성한다.
본 발명의 제1 실시예는 도 4에 주어진다. 이러한 도는 스케일링 유닛(415)에 의해 코어 레이어 출력 신호 sc(n)을 수신하는 인핸스먼트 레이어 인코더(410)를 도시하고 있다. 소정 세트의 이득들 {g}은 복수의 스케일링된 코어 레이어 출력 신호들 {S}를 생성하는데 이용되고, gj 및 Sj는 각 세트들의 j번째 후보들이다. 스케일링 유닛(415) 내에서, 제1 실시예는 (MDCT) 도메인에서 신호 sc(n)을 아래와 같이 처리한다.
Figure 112011058640492-pct00013
여기에서, W는 일부 개념적인 가중 매트릭스일 수 있고, sc는 코어 레이어 디코더(115)로부터의 샘플들의 벡터이며, MDCT는 본 기술분야에 공지된 오퍼레이션이고, Gj는 이득 벡터 후보 gj를 활용함으로써 형성된 이득 매트릭스이며, 여기에서 M은 이득 벡터 후보들의 개수이다. 제1 실시예에서, Gj는 다수의 가능성들이 존재하지만, 대각으로서 벡터 gj 및 기타는 제로들(즉, 대각 매트릭스)인 것을 이용한다. 예를 들면, Gj는 대역 매트릭스이거나 심지어는 단위 매트릭스 I에 의해 승산된 단순한 스칼라 양일 수도 있다. 다르게는, 신호 Sj를 시간 도메인으로 남겨두는 것이 일부 장점일 수 있고, 또는 오디오를, 이산 푸리에 변환(DFT) 도메인과 같은 상이한 도메인으로 변환하는 것이 유리한 경우들도 있을 수 있다. 그러한 다수의 변환들은 본 기술분야에 공지되어 있다. 이들 경우들에서, 스케일링 유닛은 각각의 벡터 도메인에 기초하여 적절한 Sj를 출력할 수 있다.
그러나, 어느 경우든, 코어 레이어 출력 오디오를 스케일링하는 주된 이유는 입력 신호와 코어 레이어 코덱 사이에서 상당한 차이들을 유발시킬 수 있는 모델 미스매치(또는 일부 다른 코딩 결함)를 보상하는 것이다. 예를 들면, 입력 오디오 신호가 주로 음악 신호이고 코어 레이어 코덱은 스피치 모델에 기초하는 경우, 코어 레이어 출력은 심하게 왜곡된 신호 특성들을 포함할 수 있고, 그 경우에 사운드 품질 관점에서, 하나 이상의 인핸스먼트 레이어들을 통한 신호의 부가적 코딩을 적용하기에 앞서서 신호 컴포넌트의 에너지를 선택적으로 감소시키는 것이 유리하다.
그리고나서, 이득 스케일링된 코어 레이어 오디오 후보 벡터 Sj 및 입력 오디오 s(n)는 에러 신호 발생기(420)로의 입력으로 이용될 수 있다. 예로 든 실시예에서, 입력 오디오 신호 s(n)는, S 및 Sj가 대응하여 정렬되도록 벡터 S로 변환된다. 즉, s(n)을 나타내는 벡터 s는 sc와 시간(위상) 정렬되고 대응하는 오퍼레이션들은 본 실시예에서 이하와 같이 적용될 수 있다.
Figure 112011058640492-pct00014
이러한 수학식은 MDCT 스펙트럼 도메인에서 입력 오디오와 이득 스케일링된 코어 레이어 출력 오디오 사이의 가중된 차이를 나타내는 복수의 에러 신호 벡터들 Ej를 산출한다. 상이한 도메인들이 고려되는 다른 실시예들에서, 상기 수학식은 각 처리 도메인에 기초하여 변형될 수 있다.
그리고나서, 이득 선택기(425)는 본 발명의 제1 실시예에 따라 복수의 에러 신호 벡터들 Ej를 평가하여, 최적 에러 벡터 E*, 최적 이득 파라미터 g* 및 후속적으로, 대응하는 이득 인덱스 ig를 생성하는데 이용된다. 이득 선택기(425)는 다양한 방법들을 이용하여, 폐루프 방법들(예를 들면, 왜곡 메트릭의 최소화), 개방루프 방법들(예를 들면, 휴리스틱 분류, 모델 성능 추정, 등), 또는 양쪽 방법들의 조합과 관련될 수 있는 최적 파라미터들 E* 및 g*를 결정할 수 있다. 예로 든 실시예에서, 원래의 오디오 신호 벡터 S와 복합 재구성된 신호 벡터 사이의 바이어싱된 에너지 차이로서 제공되는 바이어싱된 왜곡 메트릭이 이용될 수 있다.
Figure 112011058640492-pct00015
여기에서,
Figure 112011058640492-pct00016
j는 에러 신호 벡터 Ej의 양자화된 추정일 수 있고, βj는 개념적으로 최적인 이득 에러 인덱스 j*를 선택하는 결정을 추가하는데 이용되는 바이어스 항일 수 있다. 신호 벡터의 벡터 양자화에 대한 예로 든 방법은, 다수의 다른 방법들이 가능하지만, 발명의 명칭이 APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING OF SIGNALS인 미국특허출원 일련번호 11/531122에 제공된다. Ej=S-Sj라고 인식하면, 수학식 5는 이하와 같이 다시 기록될 수 있다.
Figure 112011058640492-pct00017
이러한 수학식에서, 항 εj=
Figure 112011058640492-pct00018
는 미양자화된 및 양자화된 에러 신호들 사이의 차이의 에너지를 나타낸다. 명료성을 위해, 이러한 양은 "잔류 에너지"로 지칭될 수 있고, 최적 이득 파라미터 g*이 선택되는 "이득 선택 기준"을 평가하는데 추가적으로 이용될 수 있다. 그러한 하나의 이득 선택 기준은, 다수의 것들이 가능하지만, 수학식 6에 제공된다.
바이어스 항 βj에 대한 필요성은 수학식 3 및 4에서의 에러 가중 함수 W가 벡터
Figure 112011058640492-pct00019
j에 걸쳐 동일하게 인식가능한 왜곡들을 적절하게 생성하지 못할 수 있다는 경우로부터 발생할 수 있다. 예를 들면, 에러 가중 함수 W는 에러 스펙트럼을 어느 정도 "화이트닝"하도록 시도하는데 이용될 수 있지만, 인간 귀에 의한 왜곡의 인지로 인해, 낮은 주파수들에 대해 더 가중을 두는 것이 일부 장점들이 있을 수 있다. 낮은 주파수들에서의 증가된 에러 가중의 결과로서, 높은 주파수 신호들은 인핸스먼트 레이어에 의해 언더-모델링될 수 있다. 이들 경우들에서, 높은 주파수들의 언더-모델링이 결과적으로 최종 재구성된 오디오 신호에서 불쾌하거나 부자유스러운 사운딩 결점들로 나타나지 않도록, Sj의 높은 주파수 컴포넌트들을 감쇄시키지 않는 gj의 값들을 향해 왜곡 메트릭을 바이어싱하는 것이 직접적인 잇점이 있을 수 있다. 하나의 그러한 예는 무성음화된 스피치 신호의 경우일 것이다. 이 경우에, 입력 오디오는 일반적으로 사람 입으로부터의 난류로부터 생성된 중간 내지 높은 주파수 노이즈-유사 신호들로 구성된다. 아마도, 코어 레이어 인코더는 이러한 타입의 파형을 바로 코딩하지 않고 노이즈 모델을 이용하여 유사한 사운딩 오디오 신호를 생성할 수 있을 것이다. 이것은 결과적으로 입력 오디오와 코어 레이어 출력 오디오 신호들 사이의 일반적으로 낮은 상관으로 나타날 수 있다. 그러나, 이러한 실시예에서, 에러 신호 벡터 Ej는 입력 오디오와 코어 레이어 오디오 출력 신호들 사이의 차이에 기초한다. 이들 신호들은 매우 잘 상관될 수 없으므로, 에러 신호 Ej의 에너지는 입력 오디오 또는 코어 레이어 출력 오디오 중 어느 하나보다 반드시 더 낮을 필요는 없다. 그 경우에, 수학식 6에서의 에러의 최소화는 결과적으로 이득 스케일링이 너무 공격적인 것으로 나타날 수 있고, 이는 결과적으로 잠재적인 가청 결점들로 나타날 수 있다.
또 하나의 경우에, 바이어스 인자들 βj는 입력 오디오 및/또는 코어 레이어 출력 오디오 신호들의 다른 신호 특성들에 기초할 수 있다. 예를 들면, 신호의 스펙트럼의 피크-대-평균 비율은 그 신호의 하모닉 컨텐트의 표시를 제공할 수 있다. 스피치 및 일부 타입들의 음악과 같은 신호들은 높은 하모닉 컨텐트, 및 따라서 높은 피크-대-평균 비율을 가질 수 있다. 그러나, 스피치 코덱을 통해 처리된 음악 신호는 코딩 모델 미스매치로 인해 나쁜 품질로 나타날 수 있고, 결과적으로 코어 레이어 출력 신호 스펙트럼은 입력 신호 스펙트럼과 비교할 때 감소된 피크-대-평균 비율을 가질 수 있다. 이 경우에, 코어 레이어 출력 오디오가 더 낮은 에너지로 이득 스케일링될 수 있도록 최소화 프로세스에서 바이어스의 양을 감소시킴으로써, 인핸스먼트 레이어 코딩이 복합 출력 오디오에 더 현저한 효과를 발휘하도록 하는 것이 유리할 수 있다. 반대로, 일부 타입들의 스피치 또는 음악 입력 신호들은 낮은 피크-대-평균 비율들을 나타내고, 이 경우에 신호들은 더 노이즈가 많은 것으로 인식될 수 있고, 따라서 에러 바이어스를 증가시킴으로써 코어 레이어 출력 오디오의 더 적은 스케일링이 이로울 수 있다. βj에 대한 바이어스 인자들을 생성하는 함수의 예는 이하와 같이 제공된다.
Figure 112011058640492-pct00020
여기에서, λ는 일부 임계일 수 있고, 벡터 φy에 대한 피크-대-평균 비율은 이하와 같이 주어질 수 있다.
Figure 112011058640492-pct00021
그리고, 여기에서
Figure 112011058640492-pct00022
Figure 112011058640492-pct00023
=y(k), k1≤k≤k2인 y(k)의 벡터 서브세트이다.
일단 최적 이득 인덱스 j*가 수학식 6으로부터 결정되면, 연관된 코드워드 ig가 생성되고 최적 에러 벡터 E*는 에러 신호 인코더(430)에 전송되며, 여기에서 E*은 다른 코드워드들과 멀티플렉싱하는데(MUX(440)에 의함) 적합한 형태로 코딩되고, 대응하는 디코더에 의해 이용하기 위해 송신된다. 예로 든 실시에에서, 에러 신호 인코더(408)는 팩토리얼 펄스 코딩(FPC)을 이용한다. 이러한 방법은, 벡터 E*의 코딩과 연관된 열거 프로세스가
Figure 112011058640492-pct00024
j를 생성하는데 이용되는 벡터 생성 프로세스와 독립적이므로, 처리 복잡도의 측면에서 유리하다.
인핸스먼트 레이어 디코더(450)는 이들 프로세스들을 반대로 하여 인핸스 오디오 출력
Figure 112011058640492-pct00025
을 생성한다. 더 구체적으로는, ig 및 iE는 디코더(450)에 의해 수신되고, iE는 디먹스(455)에 의해 에러 신호 디코더(460)에 전송되며 여기에서 최적 에러 벡터 E*가 코드워드로부터 도출된다. 최적 에러 벡터 E*가 신호 조합기(465)에 패싱되어, 수신된
Figure 112011058640492-pct00026
이 수학식 2에서와 같이 변형되어
Figure 112011058640492-pct00027
을 생성한다.
본 발명의 제2 실시예는 도 5에 도시된 바와 같은 멀티-레이어 임베디드 코딩 시스템과 관련된다. 여기에서, 이러한 예에 대해 주어진 5개의 임베디드 레이어가 있다는 것을 알 수 있다. 레이어들 1 및 2는 양쪽 모두 스피치 코덱 기반일 수 있고, 레이어들 3, 4 및 5는 MDCT 인핸스먼트 레이어들이다. 그러므로, 인코더들(502 및 503)은 스피치 코덱들을 이용하여, 인코딩된 입력 신호 s(n)를 생성하고 출력한다. 인코더들(510, 610 및 514)은 인핸스먼트 레이어 인코더들을 포함하고, 각각이 다른 인핸스먼트를 인코딩된 신호에 출력한다. 이전 실시예와 유사하게, 레이어 3(인코더(510))에 대한 에러 신호 벡터는 이하와 같이 주어질 수 있다.
Figure 112011058640492-pct00028
여기에서, S=MDCT{Ws}는 가중된 변환 입력 신호이고, S2=MDCT{Ws2}는 레이어 1/2 디코더(506)로부터 생성된 가중된 변환 신호이다. 이러한 실시예에서, 레이어 3은 낮은 레이트 양자화 레이어일 수 있고, 그럼으로써 대응하는 양자화된 에러 신호
Figure 112011058640492-pct00029
3=Q{E3}를 코딩하기 위한 비교적 적은 비트들이 있을 수 있다. 이들 제한들 하에서 양호한 품질을 제공하기 위해, E3 내의 단지 일부의 계수들만이 양자화될 수 있다. 코딩될 계수들의 위치는 고정되거나 가변될 수 있지만, 가변되도록 허용된다면, 이들 위치들을 식별하는데 추가적인 정보를 디코더에 전송하는 것이 요구될 수 있다. 예를 들면, 코딩된 위치들의 범위가 ks에서 시작하고 ke에서 끝나는 경우(여기에서, 0≤ks<ke<N), 양자화된 에러 신호 벡터
Figure 112011058640492-pct00030
3은 그 범위 내에서만 비-제로 값들, 및 그 범위 외부의 위치들에 대해서는 제로들을 포함할 수 있다. 위치 및 범위 정보는 이용되는 코딩 방법에 따라 내재적일 수 있다. 예를 들면, 오디오 코딩에서, 주파수들의 대역이 개념적으로 중요한 것으로 간주될 수 있고 신호 벡터의 코딩은 이들 주파수들에 초점을 맞추고 있다는 것은 공지되어 있다. 이들 상황들에서, 코딩된 범위는 가변될 수 있고, 연속적인 주파수들의 세트에 걸치지 않는다. 그러나, 하여튼, 일단 이러한 신호가 양자화되면, 복합 코딩된 출력 스펙트럼은 이하와 같이 구성될 수 있다.
Figure 112011058640492-pct00031
그리고나서, 이는 레이어 4 인코더(610)에 대한 입력으로서 이용된다.
레이어 4 인코더(610)는 이전 실시예의 인핸스먼트 레이어 인코더(410)와 유사하다. 이득 벡터 후보 gj를 이용하면, 대응하는 에러 벡터가 이하와 같이 기재될 수 있다.
Figure 112011058640492-pct00032
여기에서, Gj는 대각 컴포넌트로서 벡터 gj를 가지는 이득 매트릭스일 수 있다. 그러나, 현재의 실시예에서, 이득 벡터 gj는 이하와 같이 양자화된 에러 신호 벡터
Figure 112011058640492-pct00033
3과 관련될 수 있다. 양자화된 에러 신호 벡터
Figure 112011058640492-pct00034
3이 예를 들면 벡터 위치 ks에서 시작하여 벡터 위치 ke에서 끝나는 주파수 범위로 제한될 수 있으므로, 레이어 3 출력 신호 S3은 그 범위 내에서 꽤 정확하게 코딩될 것으로 추정된다. 그러므로, 본 발명에 따르면, 이득 벡터 gj는 레이어 3 에러 신호 벡터의 코딩된 위치들 ks 및 ke에 기초하여 조정된다. 더 구체적으로는, 이들 로케이션들에서 신호 무결성을 보존하기 위해, 대응하는 개별적인 이득 요소들은 상수값 α로 설정될 수 있다.
Figure 112011058640492-pct00035
여기에서, 일반적으로 0≤γj(k)≤1이고, gj(k)는 j번째 후보 벡터의 k번째 위치의 이득이다. 예로 든 실시예에서, 상수의 값은 1(α=1)이지만, 다수의 값들이 가능하다. 뿐만 아니라, 주파수 범위는 복수의 시작 및 끝나는 위치들에 걸칠 수 있다. 즉, 수학식 12는 에러 신호
Figure 112011058640492-pct00036
3의 일부 함수에 기초한 가변되는 이득들의 비-연속적인 범위들로 세그먼팅될 수 있고, 더 일반적으로는 이하와 같이 기록될 수 있다.
Figure 112011058640492-pct00037
이러한 예에 대해, 고정된 이득 α는 이전에 양자화된 에러 신호
Figure 112011058640492-pct00038
3에서의 대응하는 위치들이 제로가 아닌 경우에 gj(k)를 생성하는데 이용되고, 이득 함수 γj(k)는
Figure 112011058640492-pct00039
3에서의 대응하는 위치들이 제로인 경우에 이용된다. 하나의 가능한 이득 함수는 이하와 같이 정의될 수 있다.
Figure 112011058640492-pct00040
여기에서, Δ는 스텝 크기(예를 들면, Δ≒2.2dB)이고, α는 상수이며, M은 후보들의 개수이고(예를 들면, M=4로서 단지 2개의 비트들을 이용하여 표현될 수 있음), 그리고 kl 및 kh는 각각 이득 감소가 발생할 수 있는 낮고 높은 주파수 컷오프들이다. 파라미터들 kl 및 kh의 도입은 스케일링이 일부 주파수 범위에 걸쳐서만 요구되는 시스템들에 유용하다. 예를 들면, 주어진 실시예에서, 높은 주파수들은 코어 레이어에 의해 적절하게 모델링될 수 없고, 따라서 높은 주파수 대역 내의 에너지는 입력 오디오 신호의 것보다 본질적으로 더 낮을 수 있다. 그 경우에, 전체 에러 에너지가 결과적으로 증가할 수 있으므로, 그 영역 신호에서 레이어 3 출력을 스케일링하는 것이 거의 또는 전혀 잇점이 없다.
요약하면, 복수의 이득 벡터 후보들 gj는 이전에 코딩된 신호 벡터, 이 경우에는
Figure 112011058640492-pct00041
3의 코딩된 요소들의 일부 함수에 기초하고 있다. 이것은 일반적인 항들에서 이하와 같이 표현될 수 있다.
Figure 112011058640492-pct00042
대응하는 디코더 오퍼레이션들은 도 5의 우측 편에 도시되어 있다. 코딩된 비트-스트림들의 다양한 레이어들(i1 내지 i5)이 수신됨에 따라, 더 높은 품질의 출력 신호들이 코어 레이어(레이어 1) 디코더 위에 인핸스먼트 레이어들의 계층 상에 구축된다. 즉, 이러한 특정 실시예에 대해, 제1의 2개의 레이어들이 시간 도메인 스피치 모델 코딩(예를 들면, CELP)을 포함하고 나머지 3개의 레이어들이 변환 도메인 코딩(예를 들면, MDCT)을 포함하므로, 시스템에 대한 최종 출력
Figure 112011058640492-pct00043
은 이하에 따라 생성된다.
Figure 112011058640492-pct00044
여기에서,
Figure 112011058640492-pct00045
은 레이어 2 시간 도메인 인핸스먼트 레이어 신호이고,
Figure 112011058640492-pct00046
2 = MDCT{Ws2}는 레이어 2 오디오 출력
Figure 112011058640492-pct00047
2(n)에 대응하는 가중된 MDCT 벡터이다. 이러한 수학식에서, 전체 출력 신호
Figure 112011058640492-pct00048
(n)은 수신되는 최고 레벨의 연속적인 비트-스트림 레이어들로부터 결정될 수 있다. 이러한 실시예에서, 더 낮은 레벨 레이어들은 채널로부터 적절하게 수신될 더 높은 확률을 가지고 있고, 따라서 코드워드 세트들 {i1}, {i1 i2}, {i1,i2,i3} 등은 수학식 16에서 인핸스먼트 레이어 디코딩의 적절한 레벨을 결정한다고 가정된다.
도 6은 레이어 4 인코더(610) 및 디코더(650)를 도시하는 블록도이다. 도 6에 도시된 인코더 및 디코더는, 스케일링 유닛들(615 및 670)에 의해 이용되는 이득 값이 주파수 선택적 이득 발생기들(630 및 660)을 통해 각각 도출된다는 점을 제외하고는, 도 4에 도시된 것들과 유사하다. 오퍼레이션 동안에, 레이어 3 오디오 출력 S3이 레이어 3 인코더로부터 출력되고 스케일링 유닛(615)에 의해 수신된다. 추가적으로, 레이어 3 에러 벡터
Figure 112011058640492-pct00049
3는 레이어 3 인코더(510)로부터 출력되고 주파수 선택적 이득 발생기(630)에 의해 수신된다. 설명된 바와 같이, 양자화된 에러 신호 벡터
Figure 112011058640492-pct00050
3이 주파수 범위에서 제한될 수 있으므로, 이득 벡터 gj는 예를 들면 수학식 12에 도시된 바와 같은 위치들 ks 및 ke, 또는 수학식 13에서의 더 일반적인 수학식에 기초하여 조정된다.
스케일링된 오디오 Sj는 스케일링 유닛(615)에 의해 출력되고 에러 신호 발생기(620)에 의해 수신된다. 상기 설명된 바와 같이, 에러 신호 발생기(620)는 입력 오디오 신호 S를 수신하고 스케일링 유닛(615)에 의해 활용되는 각 스케일링 벡터에 대한 에러 값 Ej를 결정한다. 이들 에러 벡터들은, 에러 벡터들을 결정할 때 이용되는 이득 값들 및 최적 이득 값 g*에 기초한 특정 에러 E*과 함께, 이득 선택기 회로(635)에 패싱된다. 최적 이득 g*을 나타내는 코드워드(ig)는 최적 에러 벡터 E*와 함께 이득 선택기(635)로부터 출력되고, 에러 신호 인코더(640)에 패싱되어 코드워드 iE가 결정되고 출력된다. 양쪽 ig 및 iE는 멀티플렉서(645)에 출력되고 채널(125)을 통해 레이어 4 디코더(650)에게 송신된다.
레이어 4 디코더(650)의 오퍼레이션 동안에, ig 및 iE는 채널(125)로부터 수신되고 디먹스(655)에 의해 디멀티플렉싱된다. 이득 코드워드 ig 및 레이어 3 에러 벡터
Figure 112011058640492-pct00051
3는 주파수 선택적 이득 발생기(660)에 대한 입력으로 이용되어, 인코더(610)의 대응하는 방법에 따라 이득 벡터 g*를 생성한다. 그리고나서, 이득 벡터 g*는 스케일링 유닛(670) 내에서 레이어 3 재구성된 오디오 벡터
Figure 112011058640492-pct00052
3에 적용되고, 그 출력은 신호 조합기(675)에서, 코드워드 iE의 디코딩을 통해 에러 신호 디코더(655)로부터 얻었던 레이어 4 인핸스먼트 레이어 에러 벡터 E*과 조합되어, 도시된 바와 같이 레이어 4 재구성된 오디오 출력
Figure 112011058640492-pct00053
4를 생성한다.
도 7은 본 발명의 제1 및 제2 실시예들에 따른 인코더의 오퍼레이션을 도시하는 플로우차트(700)이다. 상기 설명된 바와 같이, 양쪽 실시예들은 복수의 스케일링 값들로 인코딩된 오디오를 스케일링한 후 결과적으로 최저 에러로 나타나는 스케일링 값을 선택하는 인핸스먼트 레이어를 활용한다. 그러나, 본 발명의 제2 실시예에서, 주파수 선택적 이득 발생기(630)가 이득 값들을 생성하는데 활용된다.
로직은 코어 레이어 인코더가 코딩될 입력 신호를 수신하고 입력 신호를 코딩하여 코딩된 오디오 신호를 생성하는 블록 710에서 시작한다. 인핸스먼트 레이어 인코더(410)는 코딩된 오디오 신호(sc(n))를 수신하고, 스케일링 유닛(415)은 코딩된 오디오 신호를 복수의 이득값들로 스케일링하여, 각각이 연관된 이득값을 가지는 복수의 스케일링되고 코딩된 오디오 신호들을 생성한다.(블록 720). 블록 730에서, 에러 신호 발생기(420)는 입력 신호와, 복수의 스케일링되고 코딩된 오디오 신호들의 각각의 사이에 존재하는 복수의 에러 값들을 결정한다. 그리고나서, 이득 선택기(425)는 복수의 이득값들로부터 하나의 이득값을 선택한다(블록 740). 상기 설명된 바와 같이, 이득값(g*)은 결과적으로 입력 신호와 스케일링되고 코딩된 오디오 신호의 사이에 존재하는 낮은 에러 값(E*)으로 나타나는 스케일링되고 코딩된 오디오 신호와 연관된다. 최종적으로, 블록 750에서, 송신기(440)는 코딩된 오디오 신호에 대한 인핸스먼트 레이어의 일부로서 이득값(g*)과 함께 낮은 에러 값(E*)을 송신한다. 본 기술분야의 통상의 기술자가 인식하는 바와 같이, 양쪽 E* 및 g*가 송신에 앞서서 적절하게 인코딩된다.
상기 설명된 바와 같이, 수신기 측에서, 코딩된 오디오 신호는 인핸스먼트 레이어와 함께 수신될 것이다. 인핸스먼트 레이어는 이득값(g*) 및 이득값과 연관된 에러 신호(E*)를 포함하는 코딩된 오디오 신호에 대한 인핸스먼트이다.
스테레오를 위한 코어 레이어 스케일링
상기 설명에서, 레이어들 각각이 모노 신호를 코딩하고 있는 임베디드 코딩 시스템이 설명되었다. 이제, 스테레오 또는 다른 다수 채널 신호들을 코딩하기 위한 임베디드 코딩 시스템이다. 간략함을 위해, 2개의 오디오 입력들(소스들)로 구성된 스테레오 신호의 컨텍스트에서의 기술이 설명되지만, 여기에 기재된 예로 든 실시예들은 다수 채널 오디오 입력들의 경우에서와 같이, 스테레오 신호가 2개보다 많은 오디오 입력들을 가지고 있는 경우들로 용이하게 확장될 수 있다. 제한으로서가 아니라 예시의 목적상, 2개의 오디오 입력들은 좌측 신호(sL) 및 우측 신호(sR)로 구성된 스테레오 신호들이고, 여기에서 sL 및 sR은 오디오 데이터의 하나의 프레임을 나타내는 n-차원 칼럼 벡터들이다. 다시, 간략함을 위해, 2개의 레이어들, 즉 코어 레이어 및 인핸스먼트 레이어로 구성된 임베디드 코딩 시스템이 상세하게 설명될 것이다. 제안된 아이디어는 복수 레이어 임베디드 코딩 시스템으로 용이하게 확장될 수 있다. 또한, 코덱은 자체적으로 임베디드되지 않고, 즉 단지 하나의 레이어만을 가질 수 있으며, 그 코덱의 일부 비트들은 스테레오 전용이고, 나머지 비트들은 모노 신호를 위한 것이다.
모노 신호를 단순히 코딩하는 코어 레이어, 및 더 높은 주파수 또는 스테레오 신호들을 코딩하는 인핸스먼트 레이어들로 구성된 임베디드 스테레오 코덱이 알려져 있다. 그 제한된 시나리오에서, 코어 레이어는 sL 및 sR의 조합으로부터 얻어진 모노 신호(s)를 코딩하여, 코딩된 모노 신호
Figure 112011058640492-pct00054
를 생성한다. H를 모노 신호를 생성하는데 이용되는 2x1 조합 매트릭스라고 하자, 즉 이하와 같다.
Figure 112011058640492-pct00055
유의할 점은, 수학식 17에서, sR은 바로 우측 채널 신호 대신에 우측 오디오 신호의 지연된 버전일 수 있다는 점이다. 예를 들면, 지연은 sL 및 sR의 지연된 버전의 상관을 최대화시키도록 계산될 수 있다. 매트릭스 H가 [0.5 0.5]T인 경우, 수학식 17은 결과적으로 각 우측 및 좌측 채널들의 동일한 가중으로 나타나고, 즉 s=0.5sL + 0.5sR이다. 여기에 제시된 실시예들은 모노 신호를 코딩하는 코어 레이어 및 스테레오 신호를 코딩하는 인핸스먼트 레이어로 제한되는 것은 아니다. 인핸스먼트 레이어뿐만 아니라 임베디드 코덱의 코어 레이어 양쪽 모두는 멀티-채널 오디오 신호들을 코딩할 수 있다. 코어 레이어 멀티 채널에 의해 코딩되는 멀티 채널 오디오 신호의 채널들의 개수는 인핸스먼트 레이어에 의해 코딩되는 멀티채널 오디오 신호의 채널들의 개수보다 더 작다. (m, n)을 각각 코어 레이어 및 인핸스먼트 레이어에 의해 코딩될 채널들의 개수라고 하자. s1,s2, s3, ..., sn을 임베디드 시스템에 의해 코딩될 n개의 오디오 채널들의 표현이라고 하자. 코어 레이어에 의해 코딩될 m-채널들은 이들로부터 도출되고, 이하와 같이 얻어진다.
[수학식 17a]
Figure 112011058640492-pct00056
여기에서, H는 n x m 매트릭스이다.
이전에 언급된 바와 같이, 코어 레이어는 모노 신호 s를 인코딩하여 코어 레이어 코딩된 신호
Figure 112011058640492-pct00057
를 생성한다.
Figure 112011058640492-pct00058
로부터 스테레오 컴포넌트들의 추정들을 생성하기 위해, 밸런스 인자가 계산된다. 이러한 밸런스 인자는 이하와 같이 계산된다.
Figure 112011058640492-pct00059
조합 매트릭스 H가 [0.5 0.5]T인 경우라면, 이하와 같다는 것을 알 수 있다.
Figure 112011058640492-pct00060
유의할 점은, 비율은 단지 하나의 파라미터의 양자화를 가능하게 하고 다른 것은 제1의 것으로부터 용이하게 추출될 수 있다는 점이다. 이제, 스테레오 출력은 이하와 같이 계산된다.
Figure 112011058640492-pct00061
후속 섹션에서, 시간 도메인 대신에 주파수 도메인에 대해 다룰 것이다. 그러므로, 주파수 도메인의 대응하는 신호는 대문자로 표현되고, 즉 S,
Figure 112011058640492-pct00062
, SL, SR,
Figure 112011058640492-pct00063
L
Figure 112011058640492-pct00064
R은 각각 s,
Figure 112011058640492-pct00065
,sL, sR,
Figure 112011058640492-pct00066
L
Figure 112011058640492-pct00067
R의 주파수 도메인 표현이다. 주파수 도메인에서의 밸런스 인자는 주파수 도메인의 항들을 이용하여 계산되고, 이하에 의해 제공된다.
Figure 112011058640492-pct00068
그리고,
Figure 112011058640492-pct00069
주파수 도메인에서, 벡터들은 비-중첩하는 서브 벡터들로 추가 분할될 수 있고, 즉 차원 n의 벡터 S는 이하와 같이 차원들 m1,m2,...,mt의 t개의 서브 벡터들, S1,S2,...,St로 분할될 수 있다.
Figure 112011058640492-pct00070
이 경우에, 상이한 서브 벡터들에 대해 상이한 밸런스 인자가 계산될 수 있고, 즉 이하와 같다.
Figure 112011058640492-pct00071
이러한 예에서의 밸런스 인자는 이득 고려와 독립적이다.
이제, 도 8 및 9를 참조하면, 스테레오 및 다른 다수 채널 신호들과 관련된 종래 기술에 따른 도면들이 증명된다. 도 8의 종래 기술 임베디드 스피치/오디오 압축 시스템(800)은 도 1과 유사하지만, 이러한 예에서 좌측 및 우측 스테레오 입력 신호들 S(n)로 도시된 복수의 오디오 입력 신호들을 가지고 있다. 이들 입력 오디오 신호들은 도시된 바와 같이 입력 오디오 s(n)을 생성하는 조합기(810)에 피딩된다. 복수의 입력 신호들은 또한 도시된 바와 같이 인핸스먼트 레이어 인코더(820)에게 제공된다. 디코딩 측에서, 인핸스먼트 레이어 디코더(830)는 도시된 바와 같이 인핸스드 출력 오디오 신호들
Figure 112011058640492-pct00072
L,
Figure 112011058640492-pct00073
R을 생성한다.
도 9는 도 8에 이용될 수 있는 종래 인핸스먼트 레이어 인코더(900)를 예시하고 있다. 복수의 오디오 입력들은 도시된 바와 같이 코어 레이어 출력 오디오 신호와 함께 밸런스 인자 발생기에 제공된다. 인핸스먼트 레이어 인코더(910)의 밸런스 인자 발생기(920)는 복수의 오디오 입력들을 수신하여 신호 iB를 생성하고, 이는 도시된 바와 같이 MUX(325)에 패싱된다. 신호 iB는 밸런스 인자의 표현이다. 양호한 실시예에서, iB는 밸런스 인자들을 나타내는 비트 시퀀스이다. 디코더 측에서, 이러한 신호 iB는 도시된 바와 같이 신호 조합기(950)에 의해 수신되는, 도시된 바와 같이 밸런스 인자 요소들 WL(n) 및 WR(n)을 생성하는 밸런스 인자 디코더(940)에 의해 수신된다.
다수 채널 밸런스 인자 계산
이전에 언급된 바와 같이, 다수의 상황들에서, 모노 신호의 코딩에 이용되는 코덱은 단일 채널 스피치를 위해 설계되어 있고 이는 결과적으로 코덱 모델에 의해 완전하게 지원되지 못하는 신호들을 코딩하는데 이용될 때마다 모델 노이즈를 코딩하는 것으로 나타난다. 음악 신호들 및 다른 비-스피치 유사 신호들은 스피치 모델에 기초한 코어 레이어 코덱에 의해 적절하게 모델링되지 않는 신호들의 일부이다. 도 1-7과 관련한 상기 설명은 코어 레이어에 의해 코딩된 신호에 주파수 선택적 이득을 적용하는 것을 제안했다. 스케일링은 오디오 입력과 스케일링되고 코딩된 신호 사이의 특정 왜곡(에러 값)을 최소화시키도록 최적화되었다. 상기 설명된 접근법은 단일 채널 신호들에 대해 잘 작용하지만, 인핸스먼트 레이어가 스테레오 또는 다른 다수 채널 신호들을 코딩할 때 코어 레이어 스케일링을 적용하는데는 최적이 아닐 수 있다.
스테레오 신호와 같은 다수 채널 신호의 모노 컴포넌트는 2개 이상의 스테레오 오디오 입력들의 조합으로부터 얻어지므로, 조합된 신호들은 또한 단일 채널 스피치 모델과 일치하지 않을 수 있고, 따라서 코어 레이어 코덱은 조합된 신호를 코딩할 때 노이즈를 생성할 수 있다. 그러므로, 임베디드 코딩 시스템에서 코어 레이어 코딩된 신호의 스케일링을 가능하게 하고, 그럼으로써 코어 레이어에 의해 생성된 노이즈를 감소시키는 접근법에 대한 필요성이 존재한다. 상기 설명된 모노 신호 접근법에서, 주파수 선택적 스케일링이 획득되었던 특정 왜곡 측정은 모노 신호의 에러에 기초하였다. 이러한 에러 E4(j)는 상기 수학식 11에 도시되어 있다. 그러나, 단지 모노 신호만의 왜곡은 스테레오 통신 시스템의 품질을 개선하는데 충분하지 않다. 수학식 11에 포함된 스케일링은 단일(1)의 스케일링 인자에 의해 또는 임의의 다른 식별된 함수일 수 있다.
스테레오 신호에 대해, 왜곡 측정은 우측 및 좌측 채널 양쪽 모두의 왜곡을 캡쳐해야 한다. EL 및 ER은 각각 좌측 및 우측 채널들에 대한 에러 벡터라고 하고, 이하와 같이 주어진다.
Figure 112011058640492-pct00074
종래 기술에서, AMR-WB+ 표준에 기재된 바와 같이, 예를 들면, 이들 에러 벡터들은 이하와 같이 계산된다.
Figure 112011058640492-pct00075
이제, 주파수 선택적 이득 벡터들 gj(0≤j<M)이
Figure 112011058640492-pct00076
에 인가되는 경우를 고려한다. 이러한 주파수 선택적 이득 벡터는 Gj로서 매트릭스 형태로 표현되고, 여기에서 Gj는 대각 요소들 gj를 가지는 대각 매트릭스이다. 각 벡터 Gj에 대해, 에러 벡터들은 이하와 같이 계산된다.
Figure 112011058640492-pct00077
여기에서, 스테레오 신호들의 추정들은 항들 W·Gj·
Figure 112011058640492-pct00078
에 의해 주어진다. 이득 매트릭스 G는 단위 매트릭스(1)이거나 임의의 다른 대각 매트릭스라는 것을 알 수 있으며, 모든 스케일링된 신호에 대해 모든 가능한 추정들이 운용되는 것은 아니라는 것은 자명하다.
스테레오의 품질을 개선하도록 최소화되는 왜곡 측정 ε은 2개의 에러 벡터들의 함수이고, 즉, 이하와 같다.
Figure 112011058640492-pct00079
왜곡 값은 복수의 왜곡 측정들을 포함할 수 있다는 것을 알 수 있다.
선택된 주파수 선택적 이득 벡터의 인덱스 j는 이하에 의해 제공된다.
Figure 112011058640492-pct00080
예로 든 실시예에서, 왜곡 측정은 이하에 의해 제공되는 평균 제곱된 왜곡이다.
Figure 112011058640492-pct00081
또는, 이는 이하에 의해 제공되는 가중된 또는 바이어싱된 왜곡일 수 있다.
Figure 112011058640492-pct00082
바이어스 BL 및 BR은 좌측 및 우측 채널 에너지들의 함수일 수 있다.
이전에 언급된 바와 같이, 주파수 도메인에서, 벡터들은 비-중첩되는 서브 벡터들로 추가 분할될 수 있다. 주파수 도메인 벡터를 서브 벡터들로 분할하는 것을 포함하도록 제안된 기술을 확장하기 위해, 수학식 27에 이용된 밸런스 인자가 각 서브 벡터에 대해 계산된다. 그러므로, 각 주파수 선택적 이득에 대한 에러 벡터들 EL 및 ER은 이하에 의해 주어지는 에러 서브 벡터들의 컨캐티네이션(concatenation)에 의해 형성된다.
Figure 112011058640492-pct00083
수학식 28에서의 왜곡 측정 ε은 이제 상기 에러 서브 벡터들의 컨캐티네이션에 의해 형성된 에러 벡터들의 함수이다.
밸런스 인자 계산
종래 기술(수학식 21)을 이용하여 생성된 밸런스 인자는 코어 레이어의 출력과는 무관하다. 그러나, 수학식 30 및 31에서 제공되는 왜곡 측정을 최소화시키기 위해, 대응하는 왜곡을 최소화시키도록 밸런스 인자를 계산하는 것도 또한 유리할 수 있다. 이제, 밸런스 인자 WL 및 WR은 이하와 같이 계산될 수 있다.
Figure 112011058640492-pct00084
여기에서, 예를 들면 도 11의 도면에 도시된 바와 같이, 밸런스 인자는 이득에 무관하다는 것을 알 수 있다. 이러한 수학식은 수학식 30 및 31에서의 왜곡들을 최소화시킨다. 그러한 밸런스 인자를 이용하는 것에 있어서의 문제는 이제, 이하와 같다.
Figure 112011058640492-pct00085
그러므로, WL 및 WR을 양자화하는데 분리된 비트 필드들이 필요하다. 이것은 최적화에 대해 제한 WL(j)=2-WR(j)을 가함으로써 회피될 수 있다. 이러한 제한에 있어서, 수학식 30에 대한 최적 솔루션은 이하에 의해 주어진다.
Figure 112011058640492-pct00086
여기에서, 밸런스 인자는 도시된 바와 같이 이득 항에 종속되며, 도면들의 도 10은 종속되는 밸런스 인자를 예시하고 있다. 바이어싱 인자들 BL 및 BR이 1인 경우, 이하와 같다.
Figure 112011058640492-pct00087
수학식들 33 및 36에서의 항들 STGj
Figure 112011058640492-pct00088
는 스케일링되고 코딩된 오디오 신호와, 다수 채널 오디오 신호의 오디오 신호들 중 적어도 하나 사이의 상관 값들을 나타낸다.
스테레오 코딩에서, 사운드의 발생지의 방향 및 로케이션은 평균 제곱된 왜곡보다 더 중요할 수 있다. 따라서, 좌측 채널 에너지와 우측 채널 에너지의 비율은 최소화하는 가중된 왜곡 측정보다 방향(또는 사운드의 발생지의 로케이션)의 더 나은 표시자일 수 있다. 그러한 시나리오들에서, 수학식 35 및 36에서 계산된 밸런스 인자는 밸런스 인자를 계산하기 위한 양호한 접근법이 아닐 수 있다. 필요한 것은 좌측 및 우측 채널을 코딩하기 이전 및 이후에 좌측 및 우측 채널 에너지의 비율을 유지하는 것이다. 코딩 이전 및 코딩 이후의 채널 에너지의 비율은 각각 이하와 같이 주어진다.
Figure 112011058640492-pct00089
이들 2개의 에너지 비율들을 동일하게 하고 가정 WL(j)=2-WR(j)를 이용하면, 이하를 얻는다.
Figure 112011058640492-pct00090
이는 발생된 밸런스 인자의 밸런스 인자 컴포넌트들을 제공한다. 수학식 38에서 계산된 밸런스 인자는 이제 Gj와 무관하고, 따라서 j의 함수가 더 이상 아니며, 이득 고려와 무관한 자기-상관된 밸런스 인자를 제공한다는 점에 유의하라; 종속되는 밸런스 인자는 도면들의 도 10에 추가 예시되어 있다. 수학식 29 및 32에 있어서 이러한 결과를 이용하면, 이하와 같이, 컨캐티네이팅된 벡터 세그먼트들 k를 포함하도록 최적 코어 레이어 스케일링 인덱스 j의 선택을 확장시킬 수 있다.
Figure 112011058640492-pct00091
이는 최적 이득 값의 표현이다. 이득 값 j*의 이러한 인덱스는 인핸스먼트 레이어 인코더의 출력 신호로서 송신된다.
이제, 도 10을 참조하면, 다양한 실시예들에 따른 인핸스먼트 레이어 인코더 및 인핸스먼트 레이어 디코더의 블록도(1000)가 예시되어 있다. 입력 오디오 신호들 s(n)은 인핸스먼트 레이어 인코더(1010)의 밸런스 인자 발생기(1050) 및 이득 벡터 발생기(1020)의 에러 신호(왜곡 신호) 발생기(1030)에 의해 수신된다. 코어 레이어으로부터의 코딩된 오디오 신호
Figure 112011058640492-pct00092
(n)는 도시된 바와 같이 이득 벡터 발생기(1020)의 스케일링 유닛(1025)에 의해 수신된다. 스케일링 유닛(1025)은 복수의 이득 값들로 코딩된 오디오 신호
Figure 112011058640492-pct00093
(n)을 스케일링하여, 다수의 후보 코딩된 오디오 신호들을 생성하도록 동작하고, 여기에서 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링된다. 이전에 언급된 바와 같이, 단일 스케일링 또는 임의의 원하는 식별 함수가 채용될 수 있다. 스케일링 유닛(1025)은 스케일링된 오디오 Sj를 출력하고, 이는 밸런스 인자 발생기(1030)에 의해 수신된다. 각각이 인핸스먼트 레이어 인코더(1010)에 의해 수신된 다수 채널 오디오 신호들의 오디오 신호와 연관되는 복수의 밸런스 인자 컴포넌트들을 가지는 밸런스 인자를 생성하는 것은 수학식들 18, 21, 24 및 33과 관련하여 상기 설명되었다. 이것은 도시된 바와 같이 밸런스 인자 발생기(1050)에 의해 달성되어, 도시된 바와 같이 밸런스 인자 컴포넌트들
Figure 112011058640492-pct00094
L(n),
Figure 112011058640492-pct00095
R(n)을 생성한다. 상기 수학식 38과 관련하여 설명된 바와 같이, 밸런스 인자 발생기(1030)는 밸런스 인자를 이득에 무관한 것으로 예시하고 있다.
이득 벡터 발생기(1020)는 수학식들 27, 28 및 29에 설명된 바와 같이, 다수 채널 오디오 신호의 추정을 생성하기 위해 코딩된 오디오 신호에 적용될 이득 값을 결정하는 것을 담당한다. 이것은, 함께 동작하여 밸런스 인자 및 적어도 하나의 스케일링되고 코딩된 오디오 신호에 기초하여 추정을 생성하는, 스케일링 유닛(1025) 및 밸런스 인자 발생기(1050)에 의해 달성된다. 이득값은 밸런스 인자 및 다수 채널 오디오 신호에 기초하고 있고, 여기에서 이득 값은 다수 채널 오디오 신호와 다수 채널 오디오 신호의 추정 사이의 왜곡 값을 최소화시키도록 구성된다. 수학식 30은 다수 채널 입력 신호의 추정 및 실제 입력 신호 자체의 함수로서 왜곡 값을 생성하는 것을 설명하고 있다. 그러므로, 밸런스 인자 컴포넌트들은 입력 오디오 신호들 s(n)과 함께, 에러 신호 발생기(1030)에 의해 수신되어, 스케일링 유닛(1025)에 의해 활용되는 각 스케일링 벡터에 대한 에러 값 Ej를 결정한다. 이들 에러 벡터들은 에러 벡터들을 결정할 때 이용되는 이득값들, 및 최적 이득값 g*에 기초한 특정 에러 E*과 함께, 이득 선택기 회로(1035)에 패싱된다. 그리고나서, 이득 선택기(1035)는 가능한 이득값들의 최적 이득값 g*의 표현을 결정하기 위해, 다수 채널 입력 신호의 추정 및 실제 신호 자체에 기초하여 왜곡값을 평가하도록 동작한다. 최적 이득 g*을 표현하는 코드워드(ig)는 이득 선택기(1035)로부터 출력되어, 도시된 바와 같이 MUX 멀티플렉서(1040)에 의해 수신된다.
양쪽 ig 및 iB는 멀티플렉서(1040)에 출력되고, 송신기(1045)에 의해 채널(125)을 통해 인핸스먼트 레이어 디코더(1060)에 송신된다. 이득값 ig의 표현은 도시된 바와 같이 채널(125)로의 송신을 위해 출력되지만, 원하는 경우에 저장될 수도 있다.
디코더 측에서, 인핸스먼트 레이어 디코더(1060)의 오퍼레이션 동안에, ig 및 iE는 채널(125)로부터 수신되고 디먹스(1065)에 의해 디멀티플렉싱된다. 그러므로, 인핸스먼트 레이어 디코더는 코딩된 오디오 신호
Figure 112011058640492-pct00096
(n), 코딩된 밸런스 인자 iB 및 코딩된 이득값 ig을 수신한다. 이득 벡터 디코더(1070)는 도시된 바와 같이 주파수 선택적 이득 발생기(1075) 및 스케일링 유닛(1080)을 포함한다. 이득 벡터 디코더(1070)는 코딩된 이득 값으로부터 디코딩된 이득 값을 생성한다. 코딩된 이득 값 ig는 주파수 선택적 이득 발생기(1075)에 입력되어, 인코더(1010)의 대응하는 방법에 따라 이득 벡터 g*를 생성한다. 그리고나서, 이득 벡터 g*는 스케일링 유닛(1080)에 적용되어, 코딩된 오디오 신호
Figure 112011058640492-pct00097
(n)를 디코딩된 이득값 g*으로 스케일링하여 스케일링된 오디오 신호를 생성한다. 신호 조합기(1095)는 밸런스 인자 디코더(1090)의 코딩된 밸런스 인자 출력 신호들 및 스케일링된 오디오 신호 Gj
Figure 112011058640492-pct00098
(n)를 수신하여, 인핸스드 출력 오디오 신호들로 도시된, 디코딩된 다수 채널 오디오 신호를 생성하고 출력한다.
상기 수학식 33과 관련하여 설명된 바와 같이, 밸런스 인자 발생기(1030)가 이득에 종속되는 밸런스 인자를 생성하는 예로 든 인핸스먼트 레이어 인코더 및 인핸스먼트 레이어 디코더의 블록도(1100)이다. 이것은 Gj 신호(1110)를 생성하는 에러 신호 발생기에 의해 예시되어 있다.
이제 도 12-14를 참조하면, 여기에 제시된 다양한 실시예들의 방법을 커버하는 플로우들이 제공된다. 도 12의 플로우(1200)에서, 다수 채널 오디오 신호를 코딩하기 위한 방법이 제공된다. 블록 1210에서, 복수의 오디오 신호들을 가지는 다수 채널 오디오 신호가 수신된다. 블록 1220에서, 다수 채널 오디오 신호가 코딩되어, 코딩된 오디오 신호를 생성한다. 코딩된 오디오 신호는 모노 또는, 도면들에서 예로서 예시된 바와 같은 스테레오 신호와 같은 다수 채널 신호 중 어느 하나일 수 있다. 더구나, 코딩된 오디오 신호는 복수의 채널들을 포함할 수 있다. 코어 레이어에는 하나 이상의 채널이 있을 수 있고, 인핸스먼트 레이어의 채널들의 개수는 코어 레이어의 채널들의 개수보다 더 클 수 있다. 다음으로, 블록 1230에서, 각각이 다수 채널 오디오 신호의 오디오 신호와 연관되는 밸런스 인자 컴포넌트들을 가지는 밸런스 인자가 생성된다. 수학식 18, 21, 24 및 33은 밸런스 인자의 생성을 설명하고 있다. 각 밸런스 인자 컴포넌트는 수학식 38의 경우와 같이, 생성된 다른 밸런스 인자 컴포넌트들에 종속될 수 있다. 밸런스 인자를 생성하는 것은 수학식 33, 36에서와 같이, 스케일링되고 코딩된 오디오 신호와 다수 채널 오디오 신호의 오디오 신호들 중 적어도 하나 사이의 상관값을 생성하는 것을 포함할 수 있다. 오디오 신호들의 적어도 하나 사이의 자기-상관은 수학식 38에서와 같이 생성될 수 있고, 이로부터 제곱근이 생성될 수 있다. 블록 1240에서, 코딩된 오디오 신호에 적용되어, 밸런스 인자 및 다수 채널 오디오 신호에 기초하여 다수 채널 오디오 신호의 추정을 생성하는 이득 값이 결정된다. 이득값은 다수 채널 오디오 신호와 다수 채널 오디오 신호의 추정 사이의 왜곡값을 최소화시키도록 구성된다. 수학식들 27, 28 29 및 30은 이득 값을 결정하는 것을 기술하고 있다. 이득 값이 복수의 이득값들로부터 선택되어, 코딩된 오디오 신호를 스케일링하고 스케일링되고 코딩된 오디오 신호들을 생성한다. 왜곡 값은 이러한 추정에 기초하여 생성될 수 있고, 이득 값은 왜곡값에 기초할 수 있다. 블록 1250에서, 이득값의 표현은 송신 및/또는 저장을 위해 출력된다.
도 13의 플로우(1300)는 다양한 실시예들에 따라 다수 채널 오디오 신호를 코딩하기 위한 또 하나의 방법을 기술하고 있다. 블록 1310에서, 복수의 오디오 신호들을 가지는 다수 채널 오디오 신호가 수신된다. 블록 1320에서, 다수 채널 오디오 신호가 코딩되어 코딩된 오디오 신호를 생성한다. 블록들 1310 및 1320의 프로세스들은 이전에 설명된 바와 같이, 코어 레이어 인코더에 의해 수행된다. 이전에 인용된 바와 같이, 코딩된 오디오 신호는 모노 또는, 도면들에서 예를 들어 예시된 스테레오 신호와 같은 다수 채널 신호 중 어느 하나일 수 있다. 더구나, 코딩된 오디오 신호는 복수의 채널들을 포함할 수 있다. 코어 레이어에는 하나 이상의 채널이 있을 수 있고, 인핸스먼트 레이어의 채널들의 개수는 코어 레이어의 채널들의 개수보다 더 클 수 있다.
블록 1330에서, 코딩된 오디오 신호는 다수의 이득 값들로 스케일링되어, 다수의 후보 코딩된 오디오 신호들을 생성하고, 후보 코딩된 오디오 신호들 중 적어도 하나가 스케일링된다. 스케일링은 이득 벡터 발생기의 스케일링 유닛에 의해 달성된다. 설명된 바와 같이, 코딩된 오디오 신호를 스케일링하는 것은 단일(unity)의 이득값으로 스케일링하는 것을 포함할 수 있다. 복수의 이득 값들의 이득 값은 이전에 설명된 바와 같이 대각 컴포넌트로서 벡터 gj를 가지는 이득 매트릭스일 수 있다. 이득 매트릭스는 주파수 선택적일 수 있다. 이는 코어 레이어의 출력, 도면들에 예시된 코딩된 오디오 신호에 종속될 수 있다. 이득값이 복수의 이득값들로부터 선택되어, 코딩된 오디오 신호를 스케일링하고 스케일링되고 코딩된 오디오 신호들을 생성한다. 블록 1340에서, 각각이 다수 채널 오디오 신호의 오디오 신호와 연관되는 밸런스 인자 컴포넌트들을 가지는 밸런스 인자가 생성된다. 밸런스 인자 생성은 밸런스 인자 발생기에 의해 수행된다. 각 밸런스 인자 컴포넌트는 수학식 38의 경우와 같이, 생성된 다른 밸런스 인자 컴포넌트들에 종속될 수 있다. 밸런스 인자를 생성하는 것은 수학식들 33 및 36에서와 같이, 스케일링되고 코딩된 오디오 신호와, 다수 채널 오디오 신호의 오디오 신호들의 적어도 하나 사이의 상관 값을 생성하는 것을 포함할 수 있다. 오디오 신호들의 적어도 하나 사이의 자기-상관은 제곱근이 생성될 수 있는 수학식 38에서와 같이, 생성될 수 있다.
블록 1350에서, 다수 채널 오디오 신호의 추정은 밸런스 인자 및 적어도 하나의 스케일링되고 코딩된 오디오 신호에 기초하여 생성된다. 추정은 스케일링되고 코딩된 오디오 신호(들) 및 생성된 밸런스 인자에 기초하여 생성된다. 추정은 복수의 후보 코딩된 오디오 신호들에 대응하는 다수의 추정들을 포함할 수 있다. 왜곡 값은 다수 채널 오디오 신호의 추정, 및 다수 채널 오디오 신호에 기초하여 평가되거나 생성되어, 블록 1360에서 이득 값들의 최적 이득값의 표현을 결정한다. 왜곡 값은 복수의 추정들에 대응하는 복수의 왜곡 값들을 포함할 수 있다. 왜곡 값의 평가는 이득 선택기 회로에 의해 달성된다. 최적 이득값의 제공은 수학식 39에 의해 주어진다. 블록 1370에서, 이득 값의 표현은 송신 및/또는 저장 중 어느 하나를 위해 출력될 수 있다. 인핸스먼트 레이어 인코더의 송신기는 이전에 설명된 바와 같이 이득 값 표현을 송신할 수 있다.
도 14의 플로우차트(1400)에서 실시되는 프로세스는 다수 채널 오디오 신호의 디코딩을 예시하고 있다. 블록 1410에서, 코딩된 오디오 신호, 코딩된 밸런스 인자 및 코딩된 이득값이 수신된다. 디코딩된 이득값은 블록 1420에서, 코딩된 이득값으로부터 생성된다. 이득값은 이전에 설명된 바와 같이 이득 매트릭스일 수 있고, 이득 매트릭스는 주파수 선택적일 수 있다. 이득 매트릭스는 코어 레이어의 출력으로서 수신된 코딩된 오디오에 종속될 수도 있다. 더구나, 코딩된 오디오 신호는 모노, 또는 도면들에서 예로서 예시된 스테레오 신호와 같은 다수 채널 신호 중 어느 하나일 수 있다. 추가적으로, 코딩된 오디오 신호는 복수의 채널들을 포함할 수 있다. 예를 들면, 코어 레이어에 하나 이상의 채널이 있을 수 있고, 인핸스먼트 레이어의 채널들의 개수는 코어 레이어의 채널들의 개수보다 더 클 수 있다.
블록 1430에서, 코딩된 오디오 신호는 디코딩된 이득값으로 스케일링되어 스케일링된 오디오 신호를 생성한다. 코딩된 밸런스 인자가 스케일링된 오디오 신호에 적용되어, 블록 1440에서 디코딩된 다수 채널 오디오 신호를 생성한다. 디코딩된 다수 채널 오디오 신호가 블록 1450에서 출력된다.
피크 검출에 기초한 선택적 스케일링 마스크 계산
대각 요소들이 이득 벡터 gj를 형성하는 대각 매트릭스인 주파수 선택적 이득 매트릭스 Gj는 상기 수학식 14에서와 같이 정의될 수 있다.
Figure 112011058640492-pct00099
여기에서, Δ는 스텝 크기(예를 들면, Δ≒2.0dB)이고, α는 상수이며, M은 후보들의 개수이고(예를 들면, M=8로서 단지 3개의 비트들을 이용하여 표현될 수 있음), 그리고 kl 및 kh는 각각 이득 감소가 발생할 수 있는 낮고 높은 주파수 컷오프들이다. 여기에서, k는 k번째 MDCT 또는 푸리에 변환 계수를 나타낸다. 유의할 점은, gj는 주파수 선택적이지만, 이전 레이어의 출력에 무관하다는 점이다. 이득 벡터들 gj는 이전에 코딩된 신호 벡터의 코딩된 요소들의 일부 함수, 이 경우에는
Figure 112011058640492-pct00100
에 기초할 수 있다. 이것은 이하와 같이 표현될 수 있다.
Figure 112011058640492-pct00101
멀티 레이어링된 임베디드 코딩 시스템(2개 이상의 레이어들을 가짐)에서, 이득 벡터 gj에 의해 스케일링되어야 될 출력
Figure 112011058640492-pct00102
는 적어도 2개의 이전 레이어들의 기여로부터 얻어진다. 즉,
Figure 112011058640492-pct00103
여기에서,
Figure 112011058640492-pct00104
1은 제1 레이어(코어 레이어)의 출력이고,
Figure 112011058640492-pct00105
2는 제2 레이어 또는 제1 인핸스먼트 레이어의 기여이다. 이 경우에, 이득 벡터들 gj는 이전에 코딩된 신호 벡터
Figure 112011058640492-pct00106
의 코딩된 요소들 및 제1 인핸스먼트 레이어의 기여의 일부 함수일 수 있다.
Figure 112011058640492-pct00107
가청 노이즈의 대부분은 더 낮은 레이어의 코딩 모델 때문에, 계곡들에 있고 피크들에는 없는 것으로 관측되었다. 환언하면, 원래의 것과 스펙트럼 피크들에서의 코딩된 스펙트럼 사이에서 더 나은 매치가 있다. 그러므로, 피크들은 변경되지 않아야 되고, 즉 스케일링은 계곡들로 제한되어야 된다. 이러한 관측을 양호하게 이용하기 위해, 실시예들의 하나에서, 수학식 41에서의 함수는
Figure 112011058640492-pct00108
의 피크들 및 계곡들에 기초하고 있다. Ψ(
Figure 112011058640492-pct00109
)가
Figure 112011058640492-pct00110
의 검출된 피크 크기에 기초한 스케일링 마스크라고 하자. 스케일링 마스크는 검츨된 피크들에서 비-제로 값들을 가지는 벡터 값으로 된 함수일 수 있고, 즉, 이하와 같다.
Figure 112011058640492-pct00111
여기에서,
Figure 112011058640492-pct00112
i
Figure 112011058640492-pct00113
의 i번째 요소이다. 이제, 수학식 41은 이하와 같이 변형될 수 있다.
Figure 112011058640492-pct00114
피크 검출을 위해 다양한 접근법들이 이용될 수 있다. 양호한 실시예에서, 피크들은, 2개의 분리된 가중된 평균화 필터들을 통해 절대 스펙트럼 |
Figure 112011058640492-pct00115
|을 통과시킨 후 필터링된 출력들을 비교함으로써 검출된다. A1 및 A2는 2개의 평균화 필터의 매트릭스 표현이라고 하자. l1 및 l2(l1>l2)는 2개의 필터들의 길이라고 하자. 피크 검출 함수는 이하와 같이 주어진다.
Figure 112011058640492-pct00116
여기에서, β는 실험적 임계값이다.
하나의 예시적 예로서, 도 15 및 도 16을 참조하라. 여기에서, MDCT 도메인에서 코딩된 신호의 절대값 |
Figure 112011058640492-pct00117
|은 양쪽 플롯들에서 참조번호 1510으로서 제공된다. 이러한 신호는 "피치 파이프"로부터의 사운드를 나타내고 있고, 이는 도시된 바와 같이 규칙적으로 이격된 하모닉 시퀀스를 생성한다. 이러한 신호는, 이러한 신호의 기본 주파수가 스피치 신호에 대해 적당한 것으로 간주되는 것의 범위를 초과하기 때문에, 코어 레이어 코더를 이용하여 스피치 모델에 기초하여 코딩하기는 어렵다. 이것은 코어 레이어에 의해 생성된 꽤 높은 레벨의 노이즈로 나타나고, 이는 코딩된 신호(1510)와 원래 신호의 모노 버전 |S|(1610)을 비교함으로써 관측될 수 있다.
코딩된 신호(1510)로부터, 임계 발생기는 수학식 45에서의 수식 βA1
Figure 112011058640492-pct00118
|에 대응하는 임계(1520)를 생성하는데 이용된다. 여기에서, A1은 양호한 실시예에서 길이 45의 코사인 윈도우로 신호 |
Figure 112011058640492-pct00119
|의 컨볼루션을 구현하는 컨볼루션 매트릭스이다. 다수의 윈도우 형태들이 가능하고 상이한 길이들을 포함할 수 있다. 또한, 양호한 실시예에서, A2는 단위 매트릭스이다. 그리고나서, 피크 검출기는 신호(1510) 및 임계(1520)를 비교하여, 참조번호 1530으로 도시된 스케일링 마스크 ψ(
Figure 112011058640492-pct00120
)를 생성한다.
그리고나서, 코어 레이어 스케일링 벡터 후보들(수학식 45에서 제공됨)은 코딩된 신호 |
Figure 112011058640492-pct00121
|의 피크들 사이에서의 노이즈를 스케일링하여 스케일링되고 재구성된 신호(1620)를 생성하는데 이용될 수 있다. 최적 후보는 상기 수학식 39에 기재된 프로세스에 따라 또는 그 반대로 선택될 수 있다.
이제 도 17-19를 참조하면, 다양한 실시예들에 따라 상기 설명된 피크 검출에 기초한 선택적 스케일링 마스크 계산과 연관된 방법을 예시하는 흐름도들이 제공된다. 도 17의 흐름도(1700)에서, 블록 1710에서, 수신된 오디오 신호의 재구성된 오디오 벡터
Figure 112011058640492-pct00122
에서의 피크들의 세트가 검출된다. 오디오 신호는 복수의 레이어들에 임베디드될 수 있다. 재구성된 오디오 벡터
Figure 112011058640492-pct00123
는 주파수 도메인에 있고, 피크들의 세트는 주파수 도메인 피크들이다. 피크들의 세트를 검출하는 것은, 예를 들면, 수학식 46에 의해 주어진 피크 검출 함수에 따라 수행된다. 유의할 점은, 모든 것이 감쇠되어 피크들이 전혀 없는 경우에서와 같이 세트가 비어있을 수 있다는 점이다. 블록 1720에서, 검출된 피크들의 세트에 기초한 스케일링 마스크 ψ(
Figure 112011058640492-pct00124
)가 생성된다. 그리고나서, 블록 1730에서, 적어도 스케일링 마스크에 기초한 이득 벡터 g* 및 이득 벡터를 나타내는 인덱스 j가 생성된다. 블록 1740에서, 스케일링되고 재구성된 오디오 신호를 생성하도록 이득 벡터를 가지는 재구성된 오디오 신호가 스케일링된다. 오디오 신호 및 스케일링되고 재구성된 오디오 신호에 기초한 왜곡이 블록 1750에서 생성된다. 생성된 왜곡에 기초한 이득 벡터의 인덱스는 블록 1760에서 출력된다.
이제 도 18을 참조하면, 흐름도(1800)는 일부 실시예들에 따라, 오디오 신호를 인코딩하는 다른 실시예를 예시하고 있다. 블록 1810에서, 오디오 신호가 수신된다. 오디오 신호는 복수 레이어들에 임베디드될 수 있다. 그리고나서, 오디오 신호는 블록 1820에서 인코딩되어, 재구성된 오디오 벡터
Figure 112011058640492-pct00125
를 생성한다. 재구성된 오디오 벡터
Figure 112011058640492-pct00126
는 주파수 도메인에 있고 피크들의 세트는 주파수 도메인 피크들이다. 블록 1830에서, 수신된 오디오 신호의 재구성된 오디오 벡터
Figure 112011058640492-pct00127
에서의 피크들의 세트가 검출된다. 피크들의 세트를 검출하는 것은 예를 들면 수학식 46에 의해 제공된 피크 검출 함수에 따라 수행된다. 또한, 유의할 점은, 모든 것이 감쇠되어 어떠한 피크들이 없는 경우와 같이, 세트가 비어일 수 있다는 점이다. 검출된 피크들의 세트에 기초한 스케일링 마스크 ψ(
Figure 112011058640492-pct00128
)가 블록 1840에서 생성된다. 블록 1850에서, 스케일링 마스크에 기초한 복수의 이득 벡터들 gj이 생성된다. 재구성된 오디오 신호는 복수의 이득 벡터들로 스케일링되어, 블록 1860에서 복수의 스케일링되고 재구성된 오디오 신호들을 생성한다. 다음으로, 오디오 신호에 기초한 복수의 왜곡들, 및 복수의 스케일링되고 재구성된 오디오 신호들이 블록 1870에서 생성된다. 이득 벡터는 블록 1880에서 복수의 왜곡들에 기초하여 복수의 이득 벡터들로부터 선택된다. 이득 벡터는 복수의 왜곡들 중 최소 왜곡과 대응하도록 선택될 수 있다. 이득 벡터를 나타내는 인덱스가 출력되어 블록 1890에서 송신되거나 저장된다.
상기 도 17-18에 예시된 인코더 플로우들은 이전에 설명된 장치 구조에 의해 구현될 수 있다. 플로우(1700)를 참조하면, 오디오 신호를 코딩하도록 동작가능한 장치에서, 인핸스먼트 레이어 인코더(1010)의 이득 벡터 발생기(1020)의 이득 선택기(1035)와 같은 이득 선택기는 수신된 오디오 신호의 재구성된 오디오 벡터
Figure 112011058640492-pct00129
에서의 피크들의 세트를 검출하고, 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
Figure 112011058640492-pct00130
)를 생성한다. 다시, 오디오 신호가 복수의 레이어들에 임베디드될 수 있다. 재구성된 오디오 벡터
Figure 112011058640492-pct00131
는 주파수 도메인에 있고 피크들의 세트는 주파수 도메인 피크들이다. 피크들의 세트를 검출하는 것은 예를 들면 수학식 46에 의해 주어지는 피크 검출 함수에 따라 수행된다. 유의할 점은, 신호의 모든 것이 감쇠되었다면, 피크들의 세트는 없음이 될 수 있다는 점이다. 이득 벡터 발생기(1020)의 스케일링 유닛(1025)과 같은 스케일링 유닛은 적어도 스케일링 마스크에 기초한 이득 벡터 g*, 및 이득 벡터를 나타내는 인덱스 j를 생성하고, 이득 벡터로 재구성된 오디오 신호를 스케일링하여 스케일링되고 재구성된 오디오 신호를 생성한다. 이득 벡터 발생기(1025)의 에러 신호 발생기(1030)는 오디오 신호 및 스케일링되고 재구성된 오디오 신호에 기초하여 왜곡을 생성한다. 인핸스먼트 레이어 디코더(1010)의 송신기(1045)와 같은 송신기는 생성된 왜곡에 기초하여 이득 벡터의 인덱스를 출력하도록 동작가능하다.
도 18의 플로우(1800)를 참조하면, 오디오 신호를 코딩하도록 동작가능한 장치에서, 인코더는 오디오 신호를 수신하고 오디오 신호를 인코딩하여 재구성된 오디오 벡터
Figure 112011058640492-pct00132
를 생성한다. 이득 벡터 발생기(1020)의 스케일링 유닛(1025)과 같은 스케일링 유닛은 수신된 오디오 신호의 재구성된 오디오 벡터
Figure 112011058640492-pct00133
에서 피크들의 세트를 검출하고, 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
Figure 112011058640492-pct00134
)를 생성하며, 스케일링 마스크에 기초하여 복수의 이득 벡터들 gj를 생성하고, 재구성된 오디오 신호를 복수의 이득 벡터들로 스케일링하여 복수의 스케일링되고 재구성된 오디오 신호들을 생성한다. 에러 신호 발생기(1030)는 오디오 신호 및 복수의 스케일링되고 재구성된 오디오 신호들에 기초한 복수의 왜곡들을 생성한다. 이득 선택기(1035)와 같은 이득 선택기는 복수의 왜곡들에 기초하여 복수의 이득 벡터들로부터 이득 벡터를 선택한다. 예를 들면, 송신기(1045)는 나중 송신 및/또는 저장을 위해, 이득 벡터를 나타내는 인덱스를 출력한다.
도 19의 흐름도(1900)에서, 오디오 신호를 디코딩하는 방법이 예시된다. 재구성된 오디오 벡터
Figure 112011058640492-pct00135
, 및 이득 벡터를 나타내는 인덱스는 블록 1910에서 수신된다. 블록 1920에서, 재구성된 오디오 벡터의 피크들의 세트가 검출된다. 피크들의 세트를 검출하는 것은 예를 들면 수학식 46에 의해 제공된 피크 검출 함수에 따라 수행된다. 다시, 유의할 점은, 모든 것이 감쇠되어 어떠한 피크들도 없는 경우에서와 같이, 세트가 비어있을 수 있다는 점이다. 검출된 피크들의 세트에 기초한 스케일링 마스크 ψ(
Figure 112011058640492-pct00136
)가 블록 1930에서 생성된다. 적어도 스케일링 마스크에 기초한 이득 벡터 g* 및 이득 벡터를 나타내는 인덱스가 블록 1940에서 생성된다. 재구성된 오디오 벡터는 이득 벡터로 스케일링되어 블록 1950에서 스케일링되고 재구성된 오디오 신호를 생성한다. 방법은 재구성된 오디오 벡터에 대한 인핸스먼트를 생성하고 그리고나서 스케일링되고 재구성된 오디오 신호와 재구성된 오디오 벡터에 대한 인핸스먼트로를 조합하여 인핸스드 디코딩된 신호를 생성하는 것을 더 포함할 수 있다.
도 19에 예시된 디코더 플로우는 이전에 설명된 장치 구조에 의해 구현될 수 있다. 오디오 신호를 디코딩하도록 동작가능한 장치에서, 예를 들면 인핸스먼트 레이어 디코더(1060)의 이득 벡터 디코더(1070)는 재구성된 오디오 벡터
Figure 112011058640492-pct00137
및 이득 벡터 ig를 나타내는 인덱스를 수신한다. 도 10에 도시된 바와 같이, ig는 이득 선택기(1075)에 의해 수신되고, 그 동안에 재구성된 오디오 벡터
Figure 112011058640492-pct00138
는 이득 벡터 디코더(1070)의 스케일링 유닛(1080)에 의해 수신된다. 이득 벡터 디코더(1070)의 이득 선택기(1075)와 같은 이득 선택기는 재구성된 오디오 벡터에서 피크들의 세트를 검출하고, 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
Figure 112011058640492-pct00139
)를 생성하며, 적어도 스케일링 마스크, 및 이득 벡터를 나타내는 인덱스에 기초하여 이득 벡터 g*를 생성한다. 다시, 세트는 신호가 대부분 감쇠된 경우에 파일의 비어있을 수 있다. 이득 선택기는 예를 들면 수학식 46에 제공된 것과 같은 피크 검출 함수에 따라 피크들의 세트를 검출한다. 스케일링 유닛(1080)은, 예를 들면 재구성된 오디오 벡터를 이득 벡터로 스케일링하여, 스케일링되고 재구성된 오디오 신호를 생성한다.
또한, 도 6의 인핸스먼트 레이어 디코더의 에러 신호 디코더(665)와 같은 에러 신호 디코더는 재구성된 오디오 벡터에 대한 인핸스먼트를 생성할 수 있다. 도 6의 신호 조합기(675)와 같은 신호 조합기는 스케일링되고 재구성된 오디오 신호와, 재구성된 오디오 벡터에 대한 인핸스먼트를 조합하여, 인핸스드 디코딩된 신호를 생성한다.
추가적으로, 유의할 점은, 도 12-14의 플로우들과 관련된 밸런스 인자 및 도 17-19의 플로우들과 관련된 피크 검출을 가지는 선택적 스케일링 마스크가 양쪽 모두 다양한 조합으로 수행되고 그러한 것은 여기에 기재된 장치 및 구조에 의해 지원된다는 점이다.
본 발명은 특정 실시예를 참조하여 특별히 도시되고 기재되어 있지만, 본 기술분야의 숙련자들이라면, 본 발명의 사상 및 범주로부터 벗어나지 않고서도 형태 및 세부사항들의 다양한 변경들이 여기에서 만들어질 수 있다는 것을 잘 알고 있을 것이다. 예를 들면, 상기 기술들이 통신 시스템에서 채널을 통해 송신하고 수신하는 측면에서 기재되어 있지만, 기술들은 고체상태 메모리 디바이스 또는 컴퓨터 하드 디스크와 같은 디지털 미디어 디바이스에 대한 저장 요구조건들을 감소시킬 목적으로 신호 압축 시스템을 이용하는 시스템에 동일하게 적용될 수 있다. 그러한 변경들은 이하의 청구항들의 범주 내에 든다고 할 것이다.

Claims (17)

  1. 오디오 신호를 코딩하도록 동작가능한 장치로서,
    수신된 오디오 신호의 재구성된 오디오 벡터
    Figure 112012109326424-pct00140
    에서 피크들의 세트를 검출하고, 상기 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
    Figure 112012109326424-pct00141
    )를 생성하는 인핸스먼트 레이어 인코더(enhancement layer encoder)의 이득 벡터 발생기의 이득 선택기;
    적어도 상기 스케일링 마스크, 및 이득 벡터를 나타내는 인덱스 j에 기초하여 이득 벡터 g*를 생성하고, 상기 재구성된 오디오 벡터
    Figure 112012109326424-pct00174
    를 상기 이득 벡터로 스케일링하여 스케일링되고 재구성된 오디오 신호를 생성하는 상기 이득 벡터 발생기의 스케일링 유닛(scaling unit);
    상기 오디오 신호 및 상기 스케일링되고 재구성된 오디오 신호에 기초하여 왜곡을 생성하는 상기 이득 벡터 발생기의 에러 신호 발생기; 및
    상기 생성된 왜곡에 기초하여 상기 이득 벡터의 인덱스를 출력하는 상기 인핸스먼트 레이어 인코더의 송신기
    를 포함하는 오디오 신호 코딩 장치.
  2. 제1항에 있어서, 상기 이득 선택기는 또한,
    Figure 112011058640492-pct00142
    와 같이 주어지는 피크 검출 함수에 따라 상기 피크들의 세트를 검출하고, 상기 β는 임계값인 오디오 신호 코딩 장치.
  3. 제1항에 있어서, 상기 오디오 신호는 다수 레이어들에 내장되는(embedded) 오디오 신호 코딩 장치.
  4. 제1항에 있어서, 상기 재구성된 오디오 벡터
    Figure 112011058640492-pct00143
    는 주파수 도메인에 있고, 상기 피크들의 세트는 주파수 도메인 피크들인 오디오 신호 코딩 장치.
  5. 제1항에 있어서,
    복수의 오디오 신호들을 포함하는 다수 채널 오디오 신호를 수신하고 상기 다수 채널 오디오 신호를 코딩하여 코딩된 오디오 신호를 생성하는 인코더; 및
    코딩된 오디오 신호를 수신하고, 상기 다수 채널 오디오 신호의 복수의 오디오 신호들 중 하나의 오디오 신호와 각각 연관되는 복수의 밸런스 인자 컴포넌트들을 갖는 밸런스 인자를 생성하는 상기 인핸스먼트 레이어 인코더의 밸런스 인자 발생기
    를 포함하고,
    상기 인핸스먼트 레이어 인코더의 이득 벡터 발생기는 상기 밸런스 인자 및 상기 다수 채널 오디오 신호에 기초하여 상기 다수 채널 오디오 신호의 추정치를 생성하기 위해 상기 코딩된 오디오 신호에 적용될 이득값을 결정하며, 상기 이득값은 상기 다수 채널 오디오 신호, 및 상기 다수 채널 오디오 신호의 추정치 사이의 왜곡값(distortion value)을 최소화시키도록 구성되고,
    상기 송신기는 또한 송신 및 저장 중 적어도 하나를 위해 상기 이득값의 표현을 송신하는 오디오 신호 코딩 장치.
  6. 제5항에 있어서,
    상기 인핸스먼트 레이어 인코더의 상기 스케일링 유닛은 상기 코딩된 오디오 신호를 복수의 이득값들로 스케일링하여 복수의 후보 코딩된 오디오 신호(candidate coded audio signal)들을 생성하고, 상기 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링되며,
    상기 스케일링 유닛 및 상기 밸런스 인자 발생기는, 상기 밸런스 인자, 및 상기 복수의 후보 코딩된 오디오 신호들 중 적어도 하나의 스케일링되고 코딩된 오디오 신호에 기초하여 상기 다수 채널 오디오 신호의 추정치를 생성하고,
    상기 인핸스먼트 레이어 인코더의 상기 이득 선택기는 상기 다수 채널 오디오 신호의 추정치, 및 상기 다수 채널 오디오 신호에 기초하여 상기 왜곡값을 평가하여 상기 복수의 이득값들 중 최적 이득값의 표현을 결정하는 오디오 신호 코딩 장치.
  7. 오디오 신호를 인코딩하도록 동작가능한 장치로서,
    오디오 신호를 수신하고 상기 오디오 신호를 인코딩하여 재구성된 오디오 벡터
    Figure 112012109326424-pct00144
    를 생성하는 인코더;
    수신된 오디오 신호의 재구성된 오디오 벡터
    Figure 112012109326424-pct00145
    에서 피크들의 세트를 검출하고, 상기 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
    Figure 112012109326424-pct00146
    )를 생성하며, 상기 스케일링 마스크에 기초하여 복수의 이득 벡터들 gj를 생성하고, 상기 재구성된 오디오 벡터
    Figure 112012109326424-pct00175
    를 상기 복수의 이득 벡터들로 스케일링하여 복수의 스케일링되고 재구성된 오디오 신호들을 생성하는 인핸스먼트 레이어 인코더의 이득 벡터 발생기의 스케일링 유닛;
    상기 오디오 신호, 및 상기 복수의 스케일링되고 재구성된 오디오 신호들에 기초하여, 복수의 왜곡들을 생성하는 상기 이득 벡터 발생기의 에러 신호 발생기;
    상기 복수의 왜곡들에 기초하여 상기 복수의 이득 벡터들로부터 하나의 이득 벡터를 선택하는 상기 이득 벡터 발생기의 이득 선택기; 및
    송신하고 저장하는 것 중 적어도 하나를 위해 상기 이득 벡터를 나타내는 인덱스를 출력하는 상기 인핸스먼트 레이어 인코더의 송신기
    를 포함하는 오디오 신호 인코딩 장치.
  8. 제7항에 있어서, 상기 복수의 왜곡들 중 최소 왜곡과 대응하는 이득 벡터가 선택되는 오디오 신호 인코딩 장치.
  9. 제7항에 있어서, 상기 스케일링 유닛은
    Figure 112011058640492-pct00147
    에 의해 주어지는 피크 검출 함수에 따라 피크들의 세트를 검출하고, 상기 β는 임계값인 오디오 신호 인코딩 장치.
  10. 제7항에 있어서, 상기 오디오 신호는 복수 레이어들에 내장되는 오디오 신호 인코딩 장치.
  11. 제7항에 있어서, 상기 재구성된 오디오 벡터
    Figure 112011058640492-pct00148
    는 주파수 도메인에 있고, 상기 피크들의 세트는 주파수 도메인 피크들인 오디오 신호 인코딩 장치.
  12. 오디오 신호를 인코딩하는 방법으로서,
    수신된 오디오 신호의 재구성된 오디오 벡터
    Figure 112012109326424-pct00149
    에서 피크들의 세트를 검출하는 단계;
    상기 검출된 피크들의 세트에 기초하여 스케일링 마스크 ψ(
    Figure 112012109326424-pct00150
    )를 생성하는 단계;
    적어도 상기 스케일링 마스크, 및 이득 벡터를 나타내는 인덱스 j에 기초하여 이득 벡터 g*를 생성하는 단계;
    상기 재구성된 오디오 벡터
    Figure 112012109326424-pct00176
    를 상기 이득 벡터로 스케일링하여 스케일링되고 재구성된 오디오 신호를 생성하는 단계;
    상기 오디오 신호 및 상기 스케일링되고 재구성된 오디오 신호에 기초하여 왜곡을 생성하는 단계; 및
    상기 생성된 왜곡에 기초하여 상기 이득 벡터의 인덱스를 출력하는 단계
    를 포함하는 오디오 신호 인코딩 방법.
  13. 제12항에 있어서, 상기 피크들의 세트를 검출하는 단계는
    Figure 112011058640492-pct00151
    에 의해 주어지는 피크 검출 함수를 더 포함하고, 상기 β는 임계값인 오디오 신호 인코딩 방법.
  14. 제12항에 있어서, 상기 오디오 신호는 다수 레이어들에 내장되는 오디오 신호 인코딩 방법.
  15. 제12항에 있어서, 상기 재구성된 오디오 벡터
    Figure 112011058640492-pct00152
    는 주파수 도메인에 있고, 상기 피크들의 세트는 주파수 도메인 피크들인 오디오 신호 인코딩 방법.
  16. 삭제
  17. 삭제
KR1020117017780A 2008-12-29 2009-12-07 오디오 신호를 인코딩하기 위한 장치 및 방법 KR101274802B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,141 2008-12-29
US12/345,141 US8140342B2 (en) 2008-12-29 2008-12-29 Selective scaling mask computation based on peak detection
PCT/US2009/066927 WO2010077587A1 (en) 2008-12-29 2009-12-07 Selective scaling mask computation based on peak detection

Publications (2)

Publication Number Publication Date
KR20110110267A KR20110110267A (ko) 2011-10-06
KR101274802B1 true KR101274802B1 (ko) 2013-06-13

Family

ID=41694779

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117017780A KR101274802B1 (ko) 2008-12-29 2009-12-07 오디오 신호를 인코딩하기 위한 장치 및 방법

Country Status (8)

Country Link
US (1) US8140342B2 (ko)
EP (1) EP2382627B1 (ko)
JP (1) JP5285162B2 (ko)
KR (1) KR101274802B1 (ko)
CN (1) CN102272832B (ko)
BR (1) BRPI0923750A2 (ko)
ES (1) ES2432625T3 (ko)
WO (1) WO2010077587A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
JP6086999B2 (ja) * 2014-07-28 2017-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
CN113783571B (zh) * 2021-08-25 2024-03-22 深圳市中科蓝讯科技股份有限公司 信号强度自动调节方法、存储介质及芯片

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006070751A1 (ja) 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2007026763A1 (ja) 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
DE68922610T2 (de) 1989-09-25 1996-02-22 Rai Radiotelevisione Italiana Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
EP0932141B1 (en) 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
CA2246532A1 (en) 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US6947886B2 (en) 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
EP1483759B1 (en) 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
JP2005005844A (ja) 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
BRPI0509108B1 (pt) 2004-04-05 2019-11-19 Koninklijke Philips Nv método para codificar uma pluralidade de sinais de entrada, codificador para codificar uma pluralidade de sinais de entrada, método de decodificar dados, e decodificador
US20060022374A1 (en) 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
JP4771674B2 (ja) 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
JP4116628B2 (ja) * 2005-02-08 2008-07-09 株式会社東芝 オーディオ符号化方法およびオーディオ符号化装置
US20060190246A1 (en) 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
EP1866913B1 (en) 2005-03-30 2008-08-27 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
ATE490454T1 (de) 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
CN101273403B (zh) 2005-10-14 2012-01-18 松下电器产业株式会社 可扩展编码装置、可扩展解码装置以及其方法
JP4969454B2 (ja) 2005-11-30 2012-07-04 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8260620B2 (en) 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US20070239294A1 (en) 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
US7230550B1 (en) 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
WO2008062990A1 (en) 2006-11-21 2008-05-29 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
BRPI0910784B1 (pt) 2008-07-11 2022-02-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20100088090A1 (en) 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006070751A1 (ja) 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2007026763A1 (ja) 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM, K. T. et al. A NEW BANDWIDTH SCALABLE WIDEBAND SPEECH/AUDIO CODER. 2002 IEEE International Conference on Acoustics, Speech and Signal Processing. 2002.05.13. (제I-657면 내지 제I-660면) *
RAMPRASHAD, S. A. A TWO STAGE HYBRID EMBEDDED SPEECH/AUDIO CODING STRUCTURE. Proc. of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing. 1998.05.12. (제337면 내지 제340면) *

Also Published As

Publication number Publication date
US8140342B2 (en) 2012-03-20
WO2010077587A1 (en) 2010-07-08
CN102272832B (zh) 2013-06-19
KR20110110267A (ko) 2011-10-06
EP2382627B1 (en) 2013-09-18
US20100169100A1 (en) 2010-07-01
BRPI0923750A2 (pt) 2016-01-19
JP2012512441A (ja) 2012-05-31
EP2382627A1 (en) 2011-11-02
CN102272832A (zh) 2011-12-07
ES2432625T3 (es) 2013-12-04
JP5285162B2 (ja) 2013-09-11

Similar Documents

Publication Publication Date Title
KR101274827B1 (ko) 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
KR101275892B1 (ko) 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
KR101180202B1 (ko) 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
US8209190B2 (en) Method and apparatus for generating an enhancement layer within an audio coding system
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160526

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee