KR20110110093A - 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치 - Google Patents

디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치 Download PDF

Info

Publication number
KR20110110093A
KR20110110093A KR1020117010018A KR20117010018A KR20110110093A KR 20110110093 A KR20110110093 A KR 20110110093A KR 1020117010018 A KR1020117010018 A KR 1020117010018A KR 20117010018 A KR20117010018 A KR 20117010018A KR 20110110093 A KR20110110093 A KR 20110110093A
Authority
KR
South Korea
Prior art keywords
audio signals
channel
audio signal
transform block
window function
Prior art date
Application number
KR1020117010018A
Other languages
English (en)
Inventor
요우스케 다카다
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20110110093A publication Critical patent/KR20110110093A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 저장하기 위한 저장 수단 (11); 시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 인코딩 오디오 신호들을 변환하기 위한 변환 수단 (40); 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호를 승산하기 위한 윈도우 프로세싱 수단 (41); 각각의 채널들의 오디오 신호들을 합성하기 위해 승산된 변환 블록-기반 오디오 신호들을 중첩하기 위한 합성 수단 (43); 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 각각의 채널들의 오디오 신호들을 믹싱하기 위한 믹싱 수단 (14) 을 포함하는 디코딩 장치 (10) 가 개시된다. 또한, 멀티-채널 오디오 신호를 다운믹싱하고, 다운믹싱된 오디오 신호를 인코딩하고, 인코딩되고 다운믹싱된 오디오 신호를 생성하는 인코딩 장치가 개시된다.

Description

디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치{DECODING APPARATUS, DECODING METHOD, ENCODING APPARATUS, ENCODING METHOD, AND EDITING APPARATUS}
본 발명은, 오디오 신호들을 디코딩 및 인코딩하는 것에 관한 것이고, 더욱 상세하게는 오디오 신호들을 다운믹싱 (downmixing) 하는 것에 관한 것이다.
최근, 높은 사운드 품질을 실현하는 AC3 (Audio Code number 3), ATRAC (Adaptive TRansform Acoustic Coding), AAC (Advanced Audio Coding) 등이 오디오 신호들을 인코딩하기 위한 스킴으로서 이용되어 왔다. 또한, 실질적인 음향 효과 (real acoustic effect) 를 재생 (reconstruct) 하기 위해서 7.1 채널 또는 5.1 채널과 같은 다수의 채널들의 오디오 신호들이 이용되어 왔다.
7.1 채널 또는 5.1 채널과 같은 다수의 채널들의 오디오 신호들이 스테레오 (stereo) 오디오 장치에 의해 재생되는 경우, 멀티-채널 오디오 신호들을 스테레오 오디오 신호들로 다운믹싱하기 위한 프로세스가 수행된다.
예를 들어, 인코딩 5.1-채널 오디오 신호들이 스테레오 오디오 장치로 다운믹싱된 오디오 신호를 재생하기 위해 다운믹싱될 때, 먼저, 좌측 채널 (left channel), 우측 채널 (right channel), 중앙 채널 (center channel), 좌측 서라운드 채널 (left surround channel), 및 우측 서라운드 채널 (right surround channel) 의 디코딩 5-채널 오디오 신호들을 생성하기 위해 디코딩 프로세스가 수행된다. 다음으로, 스테레오 좌측-채널 오디오 신호를 생성하기 위해, 좌측 채널, 중앙 채널, 및 좌측 서라운드 채널의 각각의 오디오 신호들이 혼합비 계수에 의해 승산되고, 승산 결과의 합산이 수행된다. 이와 유사하게, 스테레오 우측-채널 오디오 신호를 생성하기 위해, 우측 채널, 중앙 채널, 및 우측 서라운드 채널의 각각의 오디오 신호들에 승산 및 합산이 수행된다.
특허 인용 1: 일본 미심사 특허 출원, 제 1 공보 제2000-276196호
그런데, 오디오 신호는 고속에서 처리할 필요가 있다. 인코딩 오디오 신호들을 디코딩한 후 다운믹싱하기 위한 프로세싱이 CPU 를 이용하여 소프트웨어에 의해 종종 수행되지만, CPU 가 동시에 다른 프로세스도 수행하는 경우, 프로세싱 속도는 쉽게 저하되어 이에 따라 훨씬 많은 시간을 요구할 수도 있다.
따라서, 본 발명의 목적은 새롭고 유용한 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치를 제공하는 것이다. 본 발명의 특정한 목적은, 오디오 신호들을 다운믹싱할 때 승산 프로세스의 횟수를 감소시키는 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치를 제공하는 것이다.
본 발명의 양태에 따르면, 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호를 저장하기 위한 저장 수단; 시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 인코딩 오디오 신호들을 변환하기 위한 변환 수단; 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호를 승산하기 위한 윈도우 프로세싱 수단; 멀티-채널 오디오 신호를 합성하기 위해 승산된 변환 블록-기반 오디오 신호를 중첩시키기 위한 합성 수단; 및 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 멀티-채널 오디오 신호들을 믹싱하기 위한 믹싱 수단을 포함하는 디코딩 장치가 제공된다.
본 발명에 따르면, 믹싱되기 전에 오디오 신호들은 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 승산된다. 따라서, 믹싱 수단은 멀티-채널 오디오 신호들을 믹싱할 때 혼합비의 승산을 수행할 필요가 없을 수도 있다. 또한, 윈도우 프로세싱 수단이 오디오 신호를 승산하는 윈도우 함수가 제 1 윈도우 함수에서 제 2 윈도우 함수로 변화될 때조차도, 계산의 양은 증가하지 않는다. 따라서, 오디오 신호들을 다운믹싱할 때 승산 프로세스의 횟수를 감소시킬 수 있다.
본 발명의 다른 양태에 따르면, 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 저장하는 메모리; 및 CPU 를 포함하는 디코딩 장치가 제공되고, 여기서 CPU 는 시간 도메인에서 변환 블록-기반 오디오 신호를 생성하기 위해 인코딩 오디오 신호들을 변환하고, 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호들을 승산하며, 멀티-채널 오디오 신호들을 합성하기 위해 승산된 변환 블록-기반 오디오 신호들을 중첩하고, 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 멀티-채널 오디오 신호들을 믹싱하도록 구성된다.
본 발명에 따르면, 전술한 디코딩 장치에서 인용되는 것과 같이 본 발명과 동일한 유익한 효과가 획득된다.
본 발명의 다른 양태에 따르면, 멀티-채널 오디오 신호들을 저장하기 위한 저장 수단; 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하기 위한 믹싱 수단; 변환 블록-기반 오디오 신호들을 생성하기 위해 다운믹싱된 오디오 신호를 분리하기 위한 분리 수단; 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호들을 승산하기 위한 윈도우 프로세싱 수단; 및 인코딩 오디오 신호들을 생성하기 위해 승산된 오디오 신호들을 변환하기 위한 변환 수단을 포함하는 인코딩 장치가 제공된다.
본 발명에 따르면, 믹싱된 오디오 신호는 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 승산된다. 따라서, 믹싱 수단은 멀티-채널 오디오 신호들을 믹싱할 때 채널들 중 적어도 일부에 대해 혼합비의 승산을 수행할 필요가 없다. 또한, 윈도우 프로세싱 수단이 오디오 신호들을 승산하는 윈도우 함수가 제 1 윈도우 함수에서 제 2 윈도우 함수로 변화될 때조차도, 계산의 양은 증가하지 않는다. 따라서, 오디오 신호들을 다운믹싱할 때 승산 프로세스들의 횟수를 감소시키는 것이 가능하다.
본 발명의 다른 양태에 따르면, 멀티-채널 오디오 신호들을 저장하는 메모리; 및 CPU 를 포함하는 인코딩 장치가 제공되는데, 여기서 CPU 는 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하고, 변환 블록-기반 오디오 신호들을 생성하기 위해 다운믹싱된 오디오 신호를 분리하고, 오디오 신호의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호를 승산하고, 인코딩 오디오 신호들을 생성하기 위해 승산된 오디오 신호들을 변환하도록 구성된다.
본 발명에 따르면, 전술한 인코딩 장치에서 인용되는 것과 같이 본 발명과 동일한 유익한 효과가 획득된다.
본 발명의 다른 양태에 따르면, 시간 도메인에서 변환 블록-기반 오디오 신호를 생성하기 위해 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 변환하는 단계; 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호들을 승산하는 단계; 멀티-채널 오디오 신호들을 합성하기 위해 승산된 변환 블록-기반 오디오 신호들을 중첩하는 단계; 및 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 멀티-채널 오디오 신호들을 믹싱하는 단계를 포함하는 디코딩 방법이 제공된다.
본 발명에 따르면, 믹싱되기 전에, 오디오 신호들은 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 승산된다. 따라서, 믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 승산된 오디오 신호들을 믹싱할 때 혼합비의 승산을 수행할 필요가 없다. 또한, 오디오 신호들에 승산된 윈도우 함수가 제 1 윈도우 함수에서 제 2 윈도우 함수로 변화될 때조차도, 계산의 양은 증가하지 않는다. 따라서, 오디오 신호들을 다운믹싱할 때 승산 프로세스들의 횟수를 감소시킬 수 있다.
본 발명의 다른 양태에 따르면, 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하는 단계; 변환 블록-기반 오디오 신호들을 생성하기 위해 다운믹싱된 오디오 신호를 분리하는 단계; 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱 (여기서, 곱은 제 2 윈도우 함수임) 에 의해 변환 블록-기반 오디오 신호들을 승산하는 단계; 및 인코딩 오디오 신호들을 생성하기 위해 승산된 오디오 신호들을 변환하는 단계를 포함하는 인코딩 방법이 제공된다.
본 발명에 따르면, 믹싱된 오디오 신호들은 오디오 신호의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 승산된다. 따라서, 멀티-채널 오디오 신호들을 믹싱할 때 채널들의 적어도 일부에 대해 혼합비의 승산을 수행할 필요는 없다. 또한, 오디오 신호에 승산된 윈도우 함수가 제 1 윈도우 함수에서 제 2 윈도우 함수로 변화할 때조차도, 계산의 양은 증가하지 않는다. 따라서, 오디오 신호들의 다운믹싱할 때 승산 프로세스들의 횟수를 감소시킬 수 있다.
본 발명에 따르면, 오디오 신호들을 다운믹싱할 때 승산 프로세스들의 횟수를 감소시키는 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치를 제공할 수 있다.
도 1 은 오디오 신호들을 다운믹싱하는 것과 관련된 구성을 예시하는 블록도이다.
도 2 는 오디오 신호들의 디코딩 프로세스의 흐름을 설명하는 도면이다.
도 3 은 본 발명의 제 1 실시형태에 따른 디코딩 장치의 구성을 예시하는 블록도이다.
도 4 는 스트림의 구조를 예시하는 도면이다.
도 5 는 채널 디코더의 구성을 예시하는 블록도이다.
도 6a 는 윈도우 함수 저장 유닛에 저장된 스케일링된 윈도우 함수를 예시하는 도면이다.
도 6b 는 윈도우 함수 저장 유닛에 저장된 스케일링된 윈도우 함수를 예시하는 도면이다.
도 6c 는 윈도우 함수 저장 유닛에 저장된 스케일링된 윈도우 함수를 예시하는 도면이다.
도 7 은 제 1 실시형태에 따른 디코딩 장치의 기능적 구성도이다.
도 8 은 본 발명의 제 1 실시형태에 따른 디코딩 방법을 예시하는 플로우차트이다.
도 9 는 오디오 신호의 인코딩 프로세스의 흐름을 설명하는 도면이다.
도 10 은 본 발명의 제 2 실시형태에 따른 인코딩 장치의 구성을 예시하는 블록도이다.
도 11 은 채널 인코더의 구성을 예시하는 블록도이다.
도 12 는, 제 2 실시형태에 따른 인코딩 장치의 믹싱 유닛이 기초가 된, 믹싱 유닛의 구성을 예시하는 블록도이다.
도 13 은 제 2 실시형태에 따른 인코딩 장치의 기능적 구성도이다.
도 14 는 본 발명의 제 2 실시형태에 따른 인코딩 방법을 예시하는 플로우차트이다.
도 15 는 본 발명의 제 3 실시형태에 따른 편집 장치의 하드웨어 구성을 예시하는 블록도이다.
도 16 은 제 3 실시형태에 따른 편집 장치의 기능적 구성도이다.
도 17 은 편집 장치의 편집 스크린의 일 예를 예시하는 도면이다.
도 18 은 본 발명의 제 3 실시형태에 따른 편집 방법을 예시하는 플로우차트이다.
이하, 본 발명에 따른 실시형태들이 도면을 참조하여 설명될 것이다.
[제 1 실시형태]
본 발명의 제 1 실시형태에 따른 디코딩 장치는 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 다운믹싱된 오디오 신호들로 디코딩하는 디코딩 장치 및 디코딩 방법에 대한 일례이다. AAC 가 제 1 실시형태에서 예시된다고 할지라도, 본 발명은 AAC 로 제한되지 않는다는 것을 명시할 필요는 없다.
<다운믹싱>
도 1 은 5.1 채널 오디오 신호들을 다운믹싱하는 것과 관련된 구성을 예시하는 블록도이다.
도 1 을 참조하여, 다운믹싱은 승산기 (700a 내지 700e) 및 가산기 (701a 및 701b) 에 의해 수행된다.
승산기 (700a) 는 다운믹싱 계수 δ 에 의해 좌측 서라운드 채널의 오디오 신호 LS0 를 승산한다. 승산기 (700b) 는 좌측 채널의 오디오 신호 L0 를 다운믹싱 계수
Figure pct00001
에 의해 승산한다. 승산기 (700c) 는 중앙 채널의 오디오 신호 C0 를 다운믹싱 계수 β 에 의해 승산한다. 다운믹싱 계수
Figure pct00002
, β, 및 δ 는 각각의 채널의 오디오 신호들의 혼합비이다.
가산기 (701a) 는 승산기 (700a) 로부터 출력된 오디오 신호, 승산기 (700b) 로부터 출력된 오디오 신호, 및 승산기 (700c) 로부터 출력된 오디오 신호를 가산하여 다운믹싱된 좌측-채널 오디오 신호 LDM0 를 생성한다. 우측 채널과 유사하게, 다운믹싱된 우측-채널 오디오 신호 RDM0 가 생성된다.
<오디오 신호의 디코딩 프로세스>
도 2 는 오디오 신호의 디코딩 프로세스의 흐름을 설명하는 도면이다.
도 2 를 참조하면, 디코딩 프로세스시에, MDCT (Modified Discrete Cosine Transform) 계수 (440) 가 인코딩 오디오 신호 (인코딩 신호) 를 포함하는 스트림을 엔트로피-디코딩하고 역으로 양자화함으로써 재생된다. MDCT 계수 (440) 는 변환 (MDCT) 블록-기반 데이터로 형성되고, 변환 블록은 소정의 길이를 갖는다. 재생된 MDCT 계수 (440) 는 IMDCT (역 MDCT) 에 의해 시간 도메인에서 변환 블록-기반 오디오 신호로 변환된다. 윈도우 함수 (441) 에 의해 변환 블록-기반 오디오 신호를 승산함으로써 획득된 신호 (442) 를 중첩 및 가산시킴으로써, 디코딩 프로세스가 수행된 오디오 신호 (443) 가 생성된다.
<디코딩 장치의 하드웨어 구성>
도 3 은 본 발명의 제 1 실시형태에 따른 디코딩 장치의 구성을 예시하는 블록도이다.
도 3 을 참조하면, 디코딩 장치 (10) 는: 인코딩 5.1-채널 오디오 신호 (인코딩 신호) 를 포함하는 스트림을 저장하는 신호 저장 유닛 (11); 스트림으로부터 인코딩 5.1-채널 오디오 신호 (인코딩 신호) 를 추출하는 역다중화 유닛 (12); 각각의 채널의 오디오 신호들의 디코딩 프로세스들을 수행하는 채널 디코더 (13a, 13b, 13c, 13d, 및 13e); 및 2-채널 오디오 신호, 즉, 다운믹싱된 스테레오 오디오 신호들을 생성하기 위해 디코딩 프로세스가 수행된 5-채널 오디오 신호들을 믹싱하는 믹싱 유닛 (14) 을 포함한다. 제 1 실시형태에 따른 디코딩 프로세스는 AAC 에 기초한 엔트로피-디코딩 프로세스이다. 편리한 설명을 위해, 저주파수 효과 (LFE) 채널의 인용은 본 설명의 각각의 실시형태에서 생략된다는 것에 유의한다.
신호 저장 유닛 (11) 으로부터 출력된 스트림 S 는 인코딩 5.1-채널 오디오 신호를 포함한다.
도 4 는 스트림의 구조를 예시하는 도면이다.
도 4 를 참조하면, 여기 도시된 스트림의 구조는 ADTS (Audio Data Transport Stream) 으로 지칭되는 스트림 포맷을 갖는 (1024 개의 샘플들에 대응하는) 일 프레임의 구조이다. 이 스트림은 헤더 (450) 및 CRC (451) 로부터 시작하고, 그에 후속하여 AAC 의 인코딩 데이터를 포함한다.
헤더 (450) 는, 동기 워드 (synchronization word), 프로파일, 샘플링 주파수, 채널 구성, 저작권 정보, 디코더 버퍼 포화 (fullness), 및 일 프레임의 길이 (바이트의 수) 등을 포함한다. CRC (451) 는 헤더 (450) 및 인코딩 데이터 내의 에러들을 검출하기 위한 체크섬 (checksum) 이다. SCE (단일 채널 엘리먼트) (452) 는 인코딩 중앙-채널 오디오 신호이고, 사용된 윈도우 함수 및 양자화 등의 정보뿐만 아니라 엔트로피-인코딩 MDCT 계수를 포함한다.
CPE (Channel Pair Elements) (453 및 454) 는 인코딩 스테레오 오디오 신호이고, 결합 스테레오 정보 이외에도 각각의 채널의 인코딩 정보를 포함한다. 결합 스테레오 정보는, M/S (Mid/Side) 스테레오가 사용되어야만 하는지를 나타내는 정보 및 M/S 스테레오가 이용되는 경우 M/S 스테레오가 어떤 대역상에서 사용되어야 하는지를 나타내는 정보이다. 인코딩 정보는 이용된 윈도우 함수, 양자화에 대한 정보, 인코딩 MDCT 계수 등을 포함하는 정보이다.
결합 스테레오가 이용될 때, 스테레오에 대한 동일한 윈도우 함수들을 이용하는 것이 필요하다. 이 경우, 이용된 윈도우 함수에 대한 정보는 CPE (453 및 454) 에서 하나로 병합된다. CPE (453) 는 좌측 채널과 우측 채널에 대응하고, CPE (454) 는 좌측 서라운드 채널과 우측 서라운드 채널에 대응한다. LFE (LFE 채널 엘리먼트) (455) 는 LFE 채널의 인코딩 오디오 신호이고, SCE (452) 와 동일한 정보를 실질적으로 포함한다. 그러나, 사용가능한 윈도우 함수 또는 MDCT 계수의 사용가능한 범위는 제한된다. FIL (Fill Element) (456) 는 디코더 버퍼의 오버플로우를 방지하기 위해 필요할 때 삽입된 패딩 (padding) 이다.
역다중화 유닛 (12) 은 전술한 구조를 갖는 스트림으로부터 각각의 채널 (인코딩 채널 LS10, L10, C10, R10, 및 RS10) 의 인코딩 오디오 신호를 추출하고, 각각의 채널에 대응하는 채널 디코더 (13a, 13b, 13c, 13d, 및 13e) 에 각각의 채널의 오디오 신호들을 출력한다.
채널 디코더 (13a) 는 좌측 서라운드 채널의 오디오 신호를 인코딩함으로써 획득된 인코딩 신호 LS10 의 디코딩 프로세스를 수행한다. 채널 디코더 (13b) 는 좌측 채널의 오디오 신호를 인코딩함으로써 획득된 인코딩 신호 L10 의 디코딩 프로세스를 수행한다. 채널 디코더 (13c) 는 중앙 채널의 오디오 신호를 인코딩함으로써 획득된 인코딩 신호 C10 의 디코딩 프로세스를 수행한다. 채널 디코더 (13d) 는 우측 채널의 오디오 신호를 인코딩함으로써 획득된 인코딩 신호 R10 의 디코딩 프로세스를 수행한다. 채널 디코더 (13e) 는 우측 서라운드 채널의 오디오 신호를 인코딩함으로써 획득된 인코딩 신호 RS10 의 디코딩 프로세스를 수행한다.
믹싱 유닛 (14) 은 가산기 (30a 및 30b) 를 포함한다. 가산기 (30a) 는 채널 디코더 (13a) 에 의해 처리된 오디오 신호 LS11, 채널 디코더 (13b) 에 의해 처리된 오디오 신호 L11, 및 채널 디코더 (13c) 에 의해 처리된 오디오 신호 C11 를 가산하여 다운믹싱된 좌측-채널 오디오 신호 LDM10 를 생성한다. 가산기 (30b) 는 채널 디코더 (13c) 에 의해 처리된 오디오 신호 C11, 채널 디코더 (13d) 에 의해 처리된 오디오 신호 R11, 및 채널 디코더 (13e) 에 의해 처리된 오디오 신호 RS11 를 가산하여 다운믹싱된 우측-채널 오디오 신호 RDM10 를 생성한다.
도 5 는 채널 디코더의 구성을 예시하는 블록도이다. 도 3 에 도시된 채널 디코더 (13a, 13b, 13c, 13d, 및 13e) 의 각각의 구성이 서로 기본적으로 동일하기 때문에, 채널 디코더 (13a) 의 구성이 도 5 에 도시된다는 것에 유의해야 한다.
도 5 를 참조하면, 채널 디코더 (13a) 는 변환 유닛 (40), 윈도우 프로세싱 유닛 (41), 윈도우 함수 저장 유닛 (42), 및 변환 블록 합성 유닛 (43) 을 포함한다. 변환 유닛 (40) 은 엔트로피 디코딩 유닛 (40a), 역양자화 유닛 (40b), 및 IMDCT 유닛 (40c) 을 포함한다. 각각의 유닛들에 의해 수행된 프로세스들은 역다중화 유닛 (12) 으로부터 출력된 제어 신호들에 의해 제어된다.
엔트로피 디코딩 유닛 (40a) 은 양자화된 MDCT 계수들을 생성하기 위해 엔트로피 디코딩에 의해 인코딩 오디오 신호들 (비트스트림) 을 디코딩한다. 역양자화 유닛 (40b) 은 역-약자화된 MDCT 계수들을 생성하기 위해 엔트로피 디코딩 유닛 (40a) 으로부터 출력된 양자화된 MDCT 계수들을 역으로 양자화한다. IMDCT 유닛 (40c) 은 IMDCT 에 의해 시간 도메인에서 역양자화 유닛 (40b) 으로부터 출력된 MDCT 계수를 오디오 신호들로 변환한다. 식 (1) 은 IMDCT 의 변환을 나타낸다.
Figure pct00003
식 (1) 에서, N 은 윈도우 길이 (샘플들의 수) 를 나타낸다. spec[i][k] 는 MDCT 계수를 나타낸다. i 는 변환 블록들의 인덱스를 나타낸다. k 는 MDCT 계수들의 인덱스를 나타낸다. xi ,n 은 시간 도메인에서의 오디오 신호를 나타낸다. n 은 시간 도메인에서 오디오 신호의 인덱스를 나타낸다. n0 은 (N/2+1)/2 를 나타낸다.
윈도우 프로세싱 유닛 (41) 은 변환 유닛 (40) 으로부터 출력된 시간 도메인에서의 오디오 신호들을 스케일링된 윈도우 함수에 의해 승산한다. 스케일링된 윈도우 함수들은 오디오 신호들의 혼합비인 다운믹싱 계수들과 정규화된 윈도우 함수이다. 윈도우 함수 저장 유닛 (42) 은, 윈도우 프로세싱 유닛 (41) 이 오디오 신호들을 승산하는 윈도우 함수들을 저장하고, 그 윈도우 함수들을 윈도우 프로세싱 유닛 (41) 에 출력한다.
도 6a 내지 도 6c 는 윈도우 함수 저장 유닛 (42) 에 저장된 스케일링된 윈도우 함수들을 예시하는 도면이다. 도 6a 는 좌측 채널 및 우측 채널의 오디오 신호들에 승산되는 스케일링된 윈도우 함수를 나타낸다. 도 6b 는 중앙 채널의 오디오 신호에 승산되는 스케일링된 윈도우 함수를 나타낸다. 도 6c 는 좌측 서라운드 채널 및 우측 서라운드 채널의 오디오 신호들에 승산되는 스케일링된 윈도우 함수를 나타낸다.
도 6a 를 참조하면, N 개의 개별적인 값들
Figure pct00004
W0,
Figure pct00005
W1,
Figure pct00006
W2,..., 및
Figure pct00007
WN -1 이 좌측 채널 및 우측 채널의 오디오 신호들에 승산되는 스케일링된 윈도우 함수로서 윈도우 함수 저장 유닛 (42) (도 5) 에 준비된다. Wm (여기서, m=0, 1, 2,...,N-1) 은 다운믹싱 계수를 포함하지 않는 정규화된 윈도우 함수의 값이다.
Figure pct00008
Wm (여기서, m=0, 1, 2,...,N-1) 은 오디오 신호 xi ,m 에 승산되는 윈도우 함수의 값이고, 인덱스 m 에 대응하는 윈도우 함수 값 Wm 를 다운믹싱 계수
Figure pct00009
에 의해 승산함으로써 획득된다. 즉,
Figure pct00010
W0,
Figure pct00011
W1,
Figure pct00012
W2,..., 및
Figure pct00013
WN -1 은 윈도우 함수 값들 W0, W1, W2,..., 및 WN -1
Figure pct00014
배 스케일링함으로써 획득된 값이다.
윈도우 함수 저장 유닛 (42) 은 N 개의 값들 모두를 저장할 필요는 없지만, 윈도우 함수 저장 유닛 (42) 이 윈도우 함수의 대칭 특성을 이용하여 N/2 값만을 저장할 수도 있다. 또한, 윈도우 함수가 모든 채널들에 대해 필수적으로 요구되지 않지만, 스케일링된 윈도우 함수는 동일한 스케일링 팩터들을 갖는 채널에 의해 공유될 수도 있다.
윈도우 프로세싱 유닛 (41) 은 변환 유닛 (40) 으로부터 출력된 오디오 신호들을 형성하는 데이터의 N 개의 미스들 각각을 도 6a 에 도시된 윈도우 함수 값에 의해 승산한다. 즉, 윈도우 프로세싱 유닛 (41) 은 식 (1) 으로 표현된 데이터 xi , 0 를 윈도우 함수값
Figure pct00015
W0 에 의해 승산하고, 데이터 xi ,1 을 윈도우 함수 값
Figure pct00016
W1 에 의해 승산한다. 다른 윈도우 함수 값들에 대해서도 동일하다. AAC 에서, 상이한 윈도우 길이들을 갖는 복수의 종류의 윈도우 함수들이 이용을 위해 조합되고, 이에 따라, N 값은 윈도우 함수들의 종류에 의존하여 변화한다는 것에 유의해야만 한다.
또한, 도 6b 에 도시된 바와 같이, N 개의 개별적인 값들 βW0, βW1, βW2,..., 및 βWN -1 이 중앙 채널의 오디오 신호들에 승산되는 스케일링된 윈도우 함수로서 윈도우 함수 저장 유닛 (42) (도 5) 에 준비된다.
또한, 도 6c 에 도시된 바와 같이, N 개의 개별적인 값들 δW0, δW1, δW2,..., 및 δWN -1 은 좌측 서라운드 채널 및 우측 서라운드 채널의 오디오 신호들에 승산되는 스케일링된 윈도우 함수로서 윈도우 함수 저장 유닛 (42 (도 5) 에 준비된다.
도 6b 및 도 6c 에 도시된 각각의 값의 정의는 도 6a 에 도시된 각각의 값들의 정의와 동일하다. 또한, 도 6b 및 도 6c 에 도시된 각각의 값들에 대한 윈도우 프로세싱 유닛 (41) 의 처리 세부사항은 도 6a 에 도시된 각각의 값들에 대한 윈도우 프로세싱 유닛 (41) 의 처리 세부사항과 동일하다.
하기의 식 (2) 은 다운믹싱 계수
Figure pct00017
의 예시적인 식이다. 하기의 식 (3) 은 다운믹싱 계수 β 및 δ 의 예시적인 식이다.
Figure pct00018
다양한 함수들이 도 6a 내지 도 6c 에 도시된 값들 W0, W1, W2,..., 및 WN -1 을 계산하기 위한 윈도우 함수로서 이용될 수 있다. 예를 들어, 사인 윈도우 (sine window) 가 이용될 수 있다. 하기의 식 (4) 및 (5) 가 사인 윈도우 함수이다.
Figure pct00019
Figure pct00020
KBD 윈도우 (Kaiser-Bessel Derived window) 가 전술된 사인 윈도우 대신에 이용될 수 있다.
변환 블록 합성 유닛 (43) 은 디코딩 프로세스가 수행된 오디오 신호를 합성하기 위해 윈도우 프로세싱 유닛 (41) 으로부터 출력된 변환 블록-기반 오디오 신호를 중첩시킨다. 하기의 식 (6) 은 변환 블록-기반 오디오 신호의 중첩을 나타낸다.
Figure pct00021
식 (6) 에서, i 는 변환 블록들의 인덱스를 나타낸다. n 은 변환 블록들에서 오디오 신호들의 인덱스를 나타낸다. outi ,n 은 중첩된 오디오 신호를 나타낸다. z 는 윈도우 함수에 의해 승산된 변환 블록-기반 오디오 신호를 나타내고, zi ,n 은 시간 도메인에서 스케일링된 윈도우 함수 w(n) 및 오디오 신호 xi ,n 을 이용하여 이하 나타낸 식 (7) 으로 표현된다.
Figure pct00022
식 (6) 에 따르면, 오디오 신호 outi ,n 은 변환 블록 i 에서의 제 1 하프 오디오 신호와 변환 블록 i 바로 직전의 변환 블록 i-1 에서의 제 2 하프 오디오 신호를 가산함으로써 생성된다. 긴 윈도우가 이용될 때, 식 (6) 으로 표현된 outi,n 은 일 프레임에 대응한다. 또한, 짧은 윈도우가 이용될 때, 8 개의 변환 블록들을 중첩함으로써 획득된 오디오 신호는 일 프레임에 대응한다.
전술한 바와 같이 채널 디코더 (13a, 13b, 13c, 13d, 및 13e) 에 의해 생성된 각각의 채널의 오디오 신호들은 믹싱 유닛 (14) 에 의해 믹싱 및 다운믹싱된다. 다운믹싱 계수들의 승산이 채널 디코더 (13a, 13b, 13c, 13d, 및 13e) 내에서 프로세스들에 의해 수행되기 때문에, 믹싱 유닛 (14) 은 다운믹싱 계수를 승산하지 않는다. 이러한 방식으로, 오디오 신호들의 다운믹싱은 완료된다.
제 1 실시형태의 디코딩 장치에 따르면, 다운믹싱 계수들에 의해 승산된 윈도우 함수들은 믹싱 유닛 (14) 에 의해 아직 프로세싱되지 않은 오디오 신호들에 승산된다. 따라서, 믹싱 우닛 (14) 은 다운믹싱 계수들을 승산할 필요가 없다. 다운믹싱 계수들의 승산이 수행되지 않기 때문에, 오디오 신호들을 다운믹싱할 때 승산 프로세스들의 횟수를 감소시킬 수 있고, 이에 따라 오디오 신호들을 고속으로 처리할 수 있다. 또한, 종래의 다운믹싱에서 다운믹싱 계수들의 승산에 요구된 승산기들이 생략될 수 있기 때문에, 회로 크기 및 전력 소모를 감소시킬 수 있다.
<디코딩 장치의 기능적 구성>
전술한 디코딩 장치 (10) 의 기능은 프로그램을 이용하는 소프트웨어 프로세스들로서 구현될 수도 있다.
도 7 은 제 1 실시형태에 따른 디코딩 장치의 기능적 구성도이다.
도 7 을 참조하면, CPU (200) 는 메모리 (210) 에 배치된 어플리케이션 프로그램에 의해 변환 유닛 (201), 윈도우 프로세싱 유닛 (202), 변환 블록 합성 유닛 (203), 및 믹싱 유닛 (204) 의 각각의 기능 블록들을 구성한다. 변환 유닛 (201) 의 기능은 도 5 에 도시된 변환 유닛 (40) 의 기능과 동일하다. 윈도우 프로세싱 유닛 (202) 의 기능은 도 5 에 도시된 윈도우 프로세싱 유닛 (41) 의 기능과 동일하다. 변환 블록 합성 유닛 (203) 의 기능은 도 5 에 도시된 변환 블록 합성 유닛 (43) 의 기능과 동일하다. 믹싱 유닛 (204) 의 기능은 도 3 에 도시된 믹싱 유닛 (14) 의 기능과 동일하다.
메모리 (210) 는 신호 저장 유닛 (211) 및 윈도우 함수 저장 유닛 (212) 의 기능 블록들을 구성한다. 신호 저장 유닛 (211) 의 기능은 도 3 에 도시된 신호 저장 유닛 (11) 의 기능과 동일하다. 윈도우 함수 저장 유닛 (212) 의 기능은 도 5 에 도시된 윈도우 함수 저장 유닛 (42) 의 기능과 동일하다. 메모리 (210) 는 판독 전용 메모리 (ROM) 와 랜덤 액세스 메모리 (RAM) 중 어느 하나 일 수도 있고, 이들 둘 모두를 포함할 수도 있다. 본 설명에서, 메모리 (210) 가 ROM 및 RAM 모두를 포함하는 것으로 가정하여 설명될 것이다. 메모리 (210) 는 하드 디스크 드라이브 (HDD), 반도체 메모리, 자기 테이프 드라이브, 또는 광학 디스크 드라이브와 같은 기록 매체를 갖는 장치를 포함할 수도 있다. CPU (200) 에 의해 실행된 어플리케이션 프로그램은 ROM 또는 RAM 내에 저장될 수도 있고, 또는 전술한 기록 매체를 갖는 HDD 등에 저장될 수도 있다.
오디오 신호의 디코딩 기능은 전술한 각각의 기능 블록들에 의해 구현된다. CPU (200) 에 의해 프로세싱될 (인코딩 신호를 포함하는) 오디오 신호는 신호 저장 유닛 (211) 내에 저장된다. CPU (200) 는, 신호 저장 유닛 (211) 으로부터 디코딩 프로세스가 수행될 인코딩 신호들을 판독하고, 시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 변환 유닛 (201) 을 이용하여 인코딩 오디오 신호들을 변환하는 프로세스를 수행한다 (여기서, 변환 블록은 소정의 길이를 갖는다).
또한, CPU (200) 는 윈도우 프로세싱 유닛 (202) 을 이용하여 시간 도메인에서 오디오 신호들을 윈도우 함수들에 의해 승산하기 위한 프로세스를 수행한다. 이 프로세스에서, CPU (200) 는 윈도우 함수 저장 유닛 (212) 으로부터 오디오 신호들에 승산될 윈도우 함수들을 판독한다.
또한, CPU (200) 는 변환 블록 합성 유닛 (203) 을 이용하여 디코딩 프로세스가 수행된 오디오 신호들을 합성하기 위해 변환 블록-기반 오디오 신호들을 중첩하기 위한 프로세스를 수행한다.
또한, CPU (200) 는 믹싱 유닛 (204) 을 이용하여 오디오 신호를 믹싱하기 위한 프로세스를 수행한다. 다운믹싱된 오디오 신호들은 신호 저장 유닛 (211) 에 저장된다.
<디코딩 방법>
도 8 은 본 발명의 제 1 실시형태에 따른 디코딩 방법을 예시하는 플로우차트이다. 여기서, 본 발명의 제 1 실시형태에 따른 디코딩 방법은, 5.1-채널 오디오 신호가 디코딩되고 다운믹싱된 예를 이용하여 도 8 을 참조하여 설명될 것이다.
먼저, 단계 (S100) 에서, CPU (200) 는, 좌측 서라운드 채널 (LS), 좌측 채널 (L), 중앙 채널 (C), 우측 채널 (R), 및 우측 서라운드 채널 (RS) 을 포함하는 각각의 채널들의 오디오 신호들을 인코딩함으로써 획득된 인코딩 신호들을 시간 도메인에서 변환 블록-기반 오디오 신호들로 변환한다 (여기서, 변환 블록은 소정의 길이를 갖는다). 이 변환에서, 엔트로피 디코딩, 역양자화, 및 IMDCT 를 포함하는 각각의 프로세스들이 수행된다.
후속하여, 단계 (S110) 에서, CPU (200) 는 윈도우 함수 저장 유닛 (211) 으로부터 스케일링된 윈도우 함수를 판독하고, 이러한 윈도우 함수들에 의해 시간 도메인에서 변환 블록-기반 오디오 신호들을 승산한다. 전술한 바와 같이, 스케일링된 윈도우 함수들은, 오디오 신호들의 혼합비인 다운믹싱 계수들과 정규화된 윈도우 함수의 곱이다. 또한, 일 예로서, 스케일링된 윈도우 함수들은 각각의 채널에 대해 준비되고, 각각의 채널에 대응하는 윈도우 함수들은 각각의 채널의 오디오 신호들에 승산된다.
후속하여, 단계 (S120) 에서, CPU (200) 는 단계 (S110) 에서 처리된 변환 블록-기반 오디오 신호를 중첩하고, 디코딩 프로세스가 수행된 오디오 신호들을 합성한다. 디코딩 프로세스가 수행된 오디오 신호들이 단계 (S110) 에서 다운믹싱 계수들에 의해 승산된다는 것에 유의해야만 한다.
후속하여, 단계 (S130) 에서, CPU (200) 는 다운믹싱된 좌측 채널 (LDM) 오디오 신호 및 다운믹싱된 우측 채널 (RDM) 오디오 신호를 생성하기 위해 단계 (S120) 에서 디코딩 프로세스가 수행된 5-채널 오디오 신호들을 믹싱한다.
구체적으로, CPU (200) 는, 다운믹싱된 좌측 채널 (LDM) 오디오 신호를 생성하기 위해 단계 (S120) 에서 합성된 좌측 서라운드 채널 (LS) 오디오 신호, 단계 (S120) 에서 합성된 좌측 채널 (L) 오디오 신호, 및 단계 (S120) 에서 합성된 중앙 채널 (C) 오디오 신호를 가산한다. 또한, CPU (200) 는 다운믹싱된 우측 채널 (RDM) 오디오 신호를 생성하기 위해 단계(S120) 에서 합성된 중앙 채널 (C) 오디오 신호, 단계 (S120) 에서 합성된 우측 채널 (R) 오디오 신호, 및 단계 (S120) 에서 합성된 우측 서라운드 채널 (RS) 오디오 신호를 가산한다. 이러한 단계 (S130) 에서, 배경 기술과는 다르게 가산 프로세스들만이 수행되고, 다운믹싱 계수들의 승산 프로세스들은 수행될 필요가 없다는 것이 중요하다.
제 1 실시형태의 디코딩 방법에 따르면, 단계 (S110) 에서 다운믹싱 계수들에 의해 승산된 윈도우 함수들은 아직 믹싱되지 않은 오디오 신호들에 승산된다. 따라서, 단계 (S130) 에서, 다운믹싱 계수들의 승산을 수행하는 것이 꼭 필요하지는 않다. 다운믹싱 계수들의 승산이 수행되지 않기 때문에, 단계 (S130) 에서 오디오 신호들을 다운믹싱할 때 승산 프로세스들의 횟수를 감소시킬 수 있고, 이에 따라, 오디오 신호들을 고속으로 프로세싱할 수 있다.
제 1 실시형태에 따른 윈도우 프로세스가 MDCT 블록들의 길이에 의존하지 않고 적용될 수 있기 때문에, 프로세스를 용이하게 실행할 수 있다. 예를 들어, AAC 에서, 윈도우 함수들 (긴 윈도우 및 짧은 윈도우) 의 2 개의 길이들이 존재하지만, 이러한 길이들 중 어느 하나의 길이가 이용되거나 또는 긴 윈도우 및 짧은 윈도우가 각각의 채널에 대한 사용을 위해 임의로 조합되더라도, 제 1 실시형태에 따른 윈도우 프로세스가 적용될 수 있기 때문에, 프로세스를 용이하게 실행할 수 있다. 또한, 제 2 실시형태에 설명되는 바와 같이, 제 1 실시형태에 따른 윈도우 프로세스와 동일한 윈도우 프로세스들이 인코딩 장치에 적용될 수 있다.
제 1 실시형태의 변형예로서, MS 스테레오가 좌측 채널 및 우측 채널에서 턴 온될 때, 즉, 좌측 채널 및 우측 채널의 오디오 신호들이 합산 신호 및 차 (difference) 신호들에 의해 구성될 때, MS 스테레오 프로세스는 합산 신호 및 차 신호로부터 좌측 채널 및 우측 채널의 오디오 신호들을 생성하기 위해 역양자화 프로세스 이후 및 IMDCT 프로세스 이전에 수행될 수도 있다. 또한, MS 스테레오은 좌측 서라운드 채널 및 우측 서라운드 채널에 대해 이용될 수도 있다.
또한, 제 1 실시형태의 다른 변형예로서, [-1.0, 1.0] 의 범위를 갖는 디코딩 신호가 소정의 이득 계수를 승산함으로써 소정의 비트 정밀도를 갖도록 스케일링되고, 이 스케일링된 신호가 디코딩 장치로부터 출력되는 경우에 대처하기 위해, 이득 계수에 의해 승산된 윈도우 함수들은 디코딩시에 신호에 승산될 수도 있다. 예를 들어, 16-비트 신호가 디코딩 장치로부터 출력될 때, 이득 계수는 215 로 설정된다. 이렇게 함으로써, 디코딩한 후에, 이득 계수에 의해 그 신호를 승산할 필요가 없기 때문에, 전술한 것과 동일한 유리한 효과가 획득될 수 있다.
또한, 제 1 실시형태의 다른 변형예로서, 다운믹싱 계수들에 의해 승산된 기본 함수는 IMDCT 를 수행할 때 MDCT 계수에 승산될 수도 있다. 이렇게 함으로써, 다운믹싱시에 다운믹싱 계수들의 승산을 수행할 필요가 없기 때문에, 전술한 것과 동일한 유리한 효과가 획득될 수 있다.
[제 2 실시형태]
본 발명의 제 2 실시형태에 따른 인코딩 장치가 멀티-채널 오디오 신호들로부터 다운믹싱된 인코딩 오디오 신호들을 생성하기 위한 인코딩 장치 및 인코딩 방법과 관련된 일 예이다. AAC 가 제 2 실시형태에서 예시된다고 할지라도, 본 발명은 AAC 로 제한되지 않는다는 것을 명시할 필요는 없다.
<오디오 신호들의 인코딩 프로세스>
도 9 는 오디오 신호들의 인코딩 프로세스의 흐름을 설명하는 도면이다. 도 9 를 참조하면, 인코딩 프로세스에서, 일정한 간격을 갖는 변환 블록 (461) 은 프로세싱될 오디오 신호 (460) 로부터 컷 아웃되고 (분리되고), 윈도우 함수 (462) 에 의해 승산된다. 동시에, 오디오 신호 (460) 의 샘플링 값은 이전에 계산된 윈도우 함수들의 값에 의해 승산된다. 각각의 변환 블록들은 다른 변환 블록들과 중첩하도록 설정된다.
윈도우 함수 (462) 에 의해 승산된 시간 도메인의 오디오 신호 (463) 는 MDCT 에 의해 MDCT 계수 (464) 로 변환된다. MDCT 계수 (464) 는 인코딩 오디오 신호 (인코딩 신호) 를 포함하는 스트림을 생성하기 위해 양자화되고 엔트로피-인코딩된다.
<인코딩 장치의 하드웨어 구성>
도 10 은 본 발명의 제 2 실시형태에 따른 인코딩 장치의 구성을 예시하는 블록도이다.
도 10 을 참조하면, 인코딩 장치 (20) 는 5.1-채널 오디오 신호를 저장하는 신호 저장 유닛 (21); 2-채널 다운믹싱된 스테레오 오디오 신호들을 생성하기 위해 각각의 채널들의 오디오 신호들을 믹싱하는 믹싱 유닛 (22); 오디오 신호들의 인코딩 프로세스를 수행하는 채널 인코더 (23a 및 23b); 및 스트림을 생성하기 위해 2-채널 인코딩 오디오 신호들을 다중화하는 다중화 유닛 (24) 을 포함한다. 제 2 실시형태에 따른 인코딩 프로세스는 AAC 에 기초한 엔트로피 인코딩 프로세스이다.
믹싱 유닛 (22) 은 승산기 (50a, 50c, 및 50e) 및 가산기 (51a 및 51b) 를 포함한다. 승산기 (50a) 는 소정의 계수 δ/
Figure pct00023
에 의해 좌측 서라운드 채널 오디오 신호 LS20 를 승산한다. 승산기 (50c) 는 소정의 계수 β/
Figure pct00024
에 의해 중앙 채널 오디오 신호 C20 를 승산한다. 승산기 (50e) 는 소정의 계수 δ/
Figure pct00025
에 의해 우측 서라운드 채널 오디오 신호 RS20 를 승산한다.
가산기 (51a) 는, 승산기 (50a) 로부터 출력된 오디오 신호 LS21, 신호 저장 유닛 (21) 으로부터 출력된 좌측 채널 오디오 신호 L20, 승산기 (50c) 로부터 출력된 오디오 신호 C21 를 가산하여 다운믹싱된 좌측 채널 오디오 신호 LDM20 를 생성한다. 가산기 (51b) 는 승산기 (50c) 로부터 출력된 오디오 신호 C21, 신호 저장 유닛 (21) 으로부터 출력된 우측 채널 오디오 신호 R20, 및 승산기 (50e) 로부터 출력된 오디오 신호 RS21 를 가산하여 다운믹싱된 우측 채널 오디오 신호 RDM 20 를 생성한다.
채널 인코더 (23a) 는 좌측 채널 오디오 신호 LDM20 의 인코딩 프로세스를 수행한다. 채널 인코더 (23b) 는 우측 채널 오디오 신호 RDM20 의 인코딩 프로세스를 수행한다.
다중화 유닛 (24) 은 채널 인코더 (23a) 로부터 출력된 오디오 신호 LDM21 와 채널 인코더 (23b) 로부터 출력된 오디오 신호 RDM21 를 승산하여 스트림 S 를 생성한다.
도 11 은 채널 인코더의 구성을 예시하는 블록도이다. 도 10 에 도시된 각각의 채널 인코더 (23a 및 23b) 의 구성이 서로 기본적으로 유사하기 때문에, 채널 인코더 (23a) 의 구성은 도 11 에 도시된다.
도 11 을 참조하면, 채널 인코더 (23a) 는 변환 블록 분리 유닛 (60), 윈도우 프로세싱 유닛 (61), 윈도우 함수 저장 유닛 (62), 및 변환 유닛 (63) 을 포함한다.
변환 블록 분리 유닛 (60) 은 입력 오디오 신호를 변환 블록-기반 오디오 신호로 분리하고, 변환 블록은 소정의 길이를 갖는다.
윈도우 프로세싱 유닛 (61) 은 변환 블록 분리 유닛 (60) 으로부터 출력된 오디오 신호들을 스케일링된 윈도우 함수에 의해 승산한다. 스케일링된 윈도우 함수는, 오디오 신호들의 혼합비를 결정하는 다운믹싱 계수와 정규화된 윈도우 함수의 곱이다. 제 1 실시형태와 유사하게, KBD 윈도우 또는 사인 윈도우와 같은 다양한 함수들이 윈도우 함수로서 이용될 수 있다. 윈도우 함수 저장 유닛 (62) 은, 윈도우 프로세싱 유닛 (61) 이 오디오 신호들을 승산하는 윈도우 함수들을 저장하고, 윈도우 프로세싱 유닛 (61) 으로 그 윈도우 함수들을 출력한다.
변환 유닛 (63) 은, MDCT 유닛 (63a), 양자화 유닛 (63b), 및 엔트로피 인코딩 유닛 (63c) 을 포함한다.
MDCT 유닛 (63a) 은 윈도우 프로세싱 유닛 (61) 으로부터 출력된 시간 도메인에서의 오디오 신호들을 MDCT 에 의해 MDCT 계수로 변환한다. 식 (8) 은 MDCT 의 변환을 나타낸다.
Figure pct00026
식 (8) 에서, N 은 윈도우 길이 (샘플들의 수) 를 나타낸다. zi ,n 은 시간 도메인에서 윈도우된 오디오 신호를 나타낸다. i 는 변환 블록의 인덱스를 나타낸다. n 은 시간 도메인에서 오디오 신호들의 인덱스를 나타낸다. Xi ,k 는 MDCT 계수를 나타낸다. k 는 MDCT 계수의 인덱스를 나타낸다. n0 는 (N/2+1)/2 를 나타낸다.
양자화 유닛 (63b) 은 양자화된 MDCT 계수를 생성하기 위해 MDCT 유닛 (63a) 으로부터 출력된 MDCT 계수를 양자화한다. 엔트로피 인코딩 유닛 (63c) 은 인코딩 오디오 신호 (비트스트림) 을 생성하기 위해 엔트로피-인코딩함으로써 양자화된 MDCT 계수들을 인코딩한다.
도 12 는, 본 발명의 제 2 실시형태에 따른 인코딩 장치의 믹싱 유닛이 기초하는, 믹싱 유닛의 구성을 예시하는 블록도이다.
도 12 를 참조하면, 믹싱 유닛 (65) 은 도 10 에 도시된 믹싱 유닛 (22) 에 대응한다. 믹싱 유닛 (65) 은 승산기 (50a, 50b, 50c, 50d, 및 50e) 및 가산기 (51a 및 51b) 를 포함한다. 승산기 (50a) 는 소정의 계수 δ0 에 의해 좌측 서라운드 채널 오디오 신호 LS20 를 승산한다. 승산기 (50b) 는 소정의 계수
Figure pct00027
0 에 의해 좌측 채널 오디오 신호 L20 을 승산한다. 승산기 (50c) 는 소정의 계수 β0 에 의해 중앙 채널 오디오 신호 C20 를 승산한다. 승산기 (50d) 는 소정의 계수
Figure pct00028
0 에 의해 우측 채널 오디오 신호 R20 를 승산한다. 승산기 (50e) 는 소정의 계수 δ0 에 의해 우측 서라운드 채널 오디오 신호 RS20 를 승산한다.
가산기 (51a) 는, 승산기 (50a) 로부터 출력된 오디오 신호 LS21, 승산기 (50b) 로부터 출력된 오디오 신호 L21, 및 승산기 (50c) 로부터 출력된 오디오 신호 C21 를 가산하여 다운믹싱된 좌측 채널 오디오 신호 LDM30 를 생성한다. 가산기 (51b) 는 승산기 (50c) 로부터 출력된 오디오 신호 C21, 승산기 (50d) 로부터 출력된 오디오 신호 R21, 승산기 (50e) 로부터 출력된 오디오 신호 RS21 를 가산하여 다운믹싱된 우측 채널 오디오 신호 RDM30 를 생성한다.
믹싱 유닛 (65) 은, 다운믹싱 계수가
Figure pct00029
, β, 및 δ 로 표현되고, 다운믹싱 계수
Figure pct00030
가 도 12 에 도시된 계수
Figure pct00031
0 로 설정되고, 다운믹싱 계수 β 가 계수 β0 로 설정되고, 다운믹싱 계수 δ 가 계수 δ0 로 설정된 경우, 도 1 에 도시된 것과 동일한 다운믹싱을 수행한다. 이러한 계수들
Figure pct00032
0, β0, 및 δ0 를 적절한 값으로 설정함으로써, 승산의 횟수가 믹싱 유닛 (65) 에서의 승산의 횟수보다 감소된 믹싱 유닛 (22) 을 구성하는 것이 가능하다.
도 12 와 함께 다시 도 10 을 참조하여, 믹싱 유닛 (22) 에서, 좌측 채널 오디오 신호 L20 및 우측 채널 오디오 신호 R20 에 승산될 계수는 1 로 설정된다 (=
Figure pct00033
/
Figure pct00034
). 중앙 채널 오디오 신호 C20 에 승산될 계수는 다운믹싱 계수
Figure pct00035
에 의해 다운 믹스 계수 β 를 나눔으로써 획득된 값 (=β/
Figure pct00036
) 으로 설정된다. 좌측 서라운드 채널 오디오 신호 LS20 및 우측 서라운드 채널 오디오 신호 RS20 에 승산될 계수들은, 다운믹싱 계수
Figure pct00037
에 의해 다운믹싱 계수 δ 를 나눔으로써 획득된 값 (=δ/
Figure pct00038
) 으로 설정된다.
즉, 제 2 실시형태에 따른 오디오 신호에 승산될 계수들은 다운믹싱 계수
Figure pct00039
의 역수 (=1/
Figure pct00040
) 에 의해 도 1 에 도시된 오디오 신호들에 승산될 각각의 계수들을 승산함으로써 획득된 값이다. 또한, 도 10 에 도시된 바과 같이, 좌측 채널 오디오 신호 L20 및 우측 채널 오디오 신호 R20 에 승산되는 계수들이 1 로 설정되기 때문에, 좌측 채널 오디오 신호 L20 및 우측 채널 오디오 신호 R20 에 대해 승산을 수행하는 것은 불필요하다. 따라서, 믹싱 유닛 (65) 의 승산기 (50b 및 50d) 는 믹싱 유닛 (22) 으로부터 생략된다.
오디오 신호에 승산되는 각각의 계수들에 대한 다운믹싱 계수
Figure pct00041
의 역수 (=1/
Figure pct00042
) 의 승산을 소거시키기 위해, 다운믹싱 계수
Figure pct00043
에 의해 다운믹싱된 오디오 신호들을 승산할 필요가 있다. 제 2 실시형태에서, 윈도우 프로세싱 유닛 (61) 이 오디오 신호를 승산하는 윈도우 함수들이 다운믹싱 계수
Figure pct00044
에 의해 윈도우 함수들을 승산함으로써 획득된 스케일링된 윈도우 함수로 설정된다. 따라서, 오디오 신호들에 승산되는 각각의 계수들에 대한 다운믹싱 계수
Figure pct00045
의 역수 (=1/
Figure pct00046
) 의 승산은 소거된다.
도 10 을 다시 참조하면, 다운믹싱 계수
Figure pct00047
및 β 는 서로 동일하거나 또한 다운믹싱 계수
Figure pct00048
및 δ 가 서로 동일한 경우, β/
Figure pct00049
또는 δ/
Figure pct00050
는 1 이고, 이에 따라, 좌측 채널 및 우측 채널과 관련된 승산기 뿐만 아니라 승산기 (50c) 또는 승산기 (50a 및 50e) 가 생략될 수 있다. 다운믹싱 계수
Figure pct00051
, β, 및 δ 이 서로 동일한 경우, β/
Figure pct00052
및 δ/
Figure pct00053
는 1 이고, 이에 따라, 모든 채널들과 관련된 승산기들은 생략될 수 있다.
또한, 전술한 설명에서, 오디오 신호들에 승산되는 각각의 계수들이 다운믹싱 계수
Figure pct00054
의 역수 (=1/
Figure pct00055
) 에 의해 승산되지만, 오디오 신호에 승산되는 각각의 계수들은 다운믹싱 계수 β 의 역수 (=1/β) 또는 다운믹싱 계수 δ 의 역수 (=1/δ) 에 의해 승산될 수도 있다.
오디오 신호들에 승산되는 각각의 계수들이 다운믹싱 계수 β 의 역수 (=1/β) 에 의해 승산되는 경우, 윈도우 프로세싱 유닛 (61) 이 오디오 신호들을 승산하는 스케일링된 윈도우 함수들이 다운믹싱 계수 β 와 정규화된 윈도우 함수들의 곱이다. 또한, 믹싱 유닛 (22) 의 구성은 도 12 에 도시된 믹싱 유닛 (65) 의 구성으로부터 승산기 (50c) 를 생략함으로써 획득된다.
오디오 신호에 승산되는 각각의 계수들이 다운믹싱 계수 δ 의 역수 (=1/δ) 에 의해 승산되는 경우, 윈도우 프로세싱 유닛 (61) 이 오디오 신호를 승산하는 스케일링된 윈도우 함수들은 다운믹싱 계수 δ 와 정규화된 윈도우 함수의 곱이다. 또한, 믹싱 유닛 (22) 의 구성은 도 12 에 도시된 믹싱 유닛 (65) 의 구성으로부터 승산기 (50a 및 50e) 를 생략함으로써 획득된다.
제 2 실시형태의 인코딩 장치에 따르면, 다운믹싱 계수에 의해 승산된 윈도우 함수는 믹싱 유닛 (22) 에 의해 처리된 오디오 신호에 승산된다. 따라서, 믹싱 유닛 (22) 은 채널의 적어도 일부에서 다운믹싱 계수의 승산을 수행할 필요가 없다. 다운믹싱 계수들의 승산이 채널들의 적어도 일부에서는 수행되지 않기 때문에, 오디오 신호를 다운믹싱할 때 승산 프로세스의 횟수를 감소시킬 수 있고, 이에 따라 오디오 신호들을 고속으로 프로세싱할 수 있다. 따라서, 종래의 다운믹싱에서 다운믹싱 계수의 승산에 요구되는 승산기(들)는 생략될 수 있기 때문에, 회로 크기 및 전력 소모를 감소시킬 수 있다.
예를 들어, 다운믹싱 계수들이 채널에 기초하여 상이할 때조차도, 믹싱 유닛 (22) 에서의 다운믹싱 계수들의 승산은 적어도 하나의 채널에 대해 생략될 수 있다. 특히, 복수의 채널들의 다운믹싱 계수들이 서로 동일할 때, 믹싱 유닛 (22) 에서 다운믹싱 계수들의 승산을 더 생략할 수 있다.
<인코딩 장치의 기능적 구성>
인코딩 장치 (20) 의 전술한 기능들은 프로그램을 이용하는 소프트웨어 프로세스들에 의해 사용될 수도 있다.
도 13 은 제 2 실시형태에 따른 인코딩 장치의 기능적 구성도이다.
도 13 을 참조하면, CPU (300) 는 메모리 (310) 내에서 활용된 어플리케이션 프로그램을 이용하여 믹싱 유닛 (301), 변환 블록 분리 유닛 (302), 윈도우 프로세싱 유닛 (303), 및 변환 유닛 (304) 을 구성한다. 믹싱 유닛 (301) 의 기능은 도 10 에 도시된 믹싱 유닛 (22) 의 기능과 동일하다. 변환 블록 분리 유닛 (302) 의 기능은 도 11 에 도시된 변환 블록 분리 유닛 (60) 의 기능과 동일하다. 윈도우 프로세싱 유닛 (303) 의 기능은 도 11 에 도시된 윈도우 프로세싱 유닛 (61) 의 기능과 동일하다. 변환 유닛 (304) 의 기능은 도 11 에 도시된 변호나 유닛 (63) 의 기능과 동일하다.
메모리 (310) 는 신호 저장 유닛 (311) 및 윈도우 함수 저장 유닛 (312) 의 기능 블록들을 구성한다. 신호 저장 유닛 (311) 의 기능은 도 10 에 도시된 신호 저장 유닛 (21) 의 기능과 동일하다. 윈도우 함수 저장 유닛 (312) 의 기능은 도 11 에 도시된 윈도우 함수 저장 유닛 (62) 의 기능과 동일하다. 메모리 (310) 는 판독 전용 메모리 (ROM) 및 랜덤 액세스 메모리 (RAM) 중 어느 하나 일 수도 있고, 이들 둘 모두를 포함할 수도 있다. 본 명세서의 상세한 설명에서, 메모리 (310) 는 ROM 및 RAM 모두를 포함하는 것으로 가정하여 설명될 것이다. 메모리 (310) 는 하드 디스크 드라이브 (HDD), 반도체 메모리, 자기 테이프 드라이브, 또는 광학 디스크 드라이브와 같은 기록 매체를 갖는 장치를 포함할 수도 있다. CPU (300) 에 의해 실행된 어플리케이션 프로그램은 ROM 또는 RAM 내에 저장될 수도 있고, 또는 전술한 기록 매체를 갖는 HDD 내에 저장될 수도 있다.
오디오 신호의 인코딩 기능은 전술한 각각의 기능 블록들에 의해 구현된다. CPU (300) 에 의해 처리되는 (인코딩 신호를 포함하는) 오디오 신호들은 신호 저장 유닛 (311) 내에 저장된다. CPU (300) 는, 메모리 (310) 로부터 다운믹싱될 오디오 신호들을 판독하고 이 오디오 신호들을 믹싱 유닛 (301) 을 이용하여 믹싱하는 프로세스를 수행한다.
또한, CPU (300) 는 시간 도메인에서 변환 블록-기반 오디오 신호를 생성하기 위해 변환 블록 분리 유닛 (302) 을 이용하여 다운믹싱된 오디오 신호들을 분리하는 프로세스를 수행하고, 여기서 변환 블록은 소정의 길이를 갖는다.
또한, CPU (300) 는 윈도우 프로세싱 유닛 (303) 을 이용하여 다운믹싱된 오디오 신호를 윈도우 함수에 의해 승산하기 위한 프로세스를 수행한다. 이 프로세스에서, CPU (300) 는 윈도우 함수 저장 유닛 (312) 으로부터 오디오 신호에 승산되는 윈도우 함수를 판독한다.
또한, CPU (300) 는 변환 유닛 (304) 을 이용하여 인코딩 오디오 신호를 생성하기 위해 오디오 신호를 변환하기 위한 프로세스를 수행한다. 인코딩 오디오 신호는 신호 저장 유닛 (311) 에 저장된다.
<인코딩 방법>
도 14 는 본 발명의 제 2 실시형태에 따른 인코딩 방법을 예시하는 플로우차트이다. 본 발명의 제 2 실시형태에 따른 인코딩 방법은, 5.1-채널 오디오 신호들이 다운믹싱되고 인코딩되는 예를 이용하여 도 14 를 참조하여 설명될 것이다.
먼저, 단계 (S200) 에서, CPU (300) 는 좌측 서라운드 채널 (LS), 좌측 채널 (L), 중앙 채널 (C), 우측 채널 (R), 및 우측 서라운드 채널 (RS) 을 포함하는 각각의 채널들의 오디오 신호들의 일부를 계수(들) 에 의해 승산하고, 그 결과로 획득된 신호를 믹싱하여 다운믹싱된 좌측 채널 (LDM) 오디오 신호 및 다운믹싱된 우측 채널 (RDM) 오디오 신호를 생성한다.
구체적으로, CPU (300) 는 좌측 서라운드 채널 (LS) 오디오 신호를 계수 δ/
Figure pct00056
에 의해 승산하고, 중앙 채널 (C) 오디오 신호를 계수 β/
Figure pct00057
에 의해 승산한다. 계수에 의한 좌측 채널 (L) 오디오 신호의 승산은 수행되지 않는다. CPU (300) 는 계수 δ/
Figure pct00058
에 의해 승산된 좌측 서라운드 채널 (LS) 오디오 신호, 좌측 채널 (L) 오디오 신호, 및 계수 β/
Figure pct00059
에 의해 승산된 중앙 채널 (C) 오디오 신호를 가산하여 다운믹싱된 좌측 채널 (LDM) 오디오 신호를 생성한다.
또한, CPU (300) 는 중앙 채널 (C) 오디오 신호를 계수 β/
Figure pct00060
에 의해 승산하고, 우측 서라운드 채널 (RS) 오디오 신호를 계수 δ/
Figure pct00061
에 의해 승산한다. 계수에 의한 우측 채널 (R) 오디오 신호의 승산은 수행되지 않는다. CPU (300) 는 계수 β/
Figure pct00062
에 의해 승산된 중앙 채널 (C) 오디오 신호, 우측 채널 (R) 오디오 신호, 및 계수 δ/
Figure pct00063
에 의해 승산된 우측 서라운드 채널 (RS) 오디오 신호를 가산하여 다운믹싱된 우측 채널 (RDM) 오디오 신호를 생성한다.
후속하여, 단계 (S210) 에서, CPU (300) 는 시간 도메인에서 변환 블록-기반 신호를 생성하기 위해 단계 (S200) 에서 다운믹싱된 오디오 신호들을 분리하고, 여기서 변환 블록은 소정의 길이를 갖는다.
후속하여, 단계 (S220) 에서, CPU (300) 는 메모리 (310) 에서 윈도우 함수 저장 유닛 (312) 으로부터 윈도우 함수를 판독하고, 윈도우 함수에 의해 단계 (S210) 에서 생성된 오디오 신호를 승산한다. 윈도우 함수는 다운믹싱 계수의 승산으로부터 초래되는 스케일링된 윈도우 함수이다. 또한, 예로서, 윈도우 함수는 각각의 채널에 대해 제공되며, 각각의 채널에 대응하는 윈도우 함수는 각각의 채널의 오디오 신호에 승산된다.
후속하여, 단계 (S230) 에서, CPU (300) 는 인코딩 오디오 신호를 생성하기 위해 단계 (S220) 에서 프로세싱된 오디오 신호들을 변환한다. 이 변환에서, MDCT, 양자화, 및 엔트로피 인코딩을 포함하는 각각의 프로세스들이 수행된다.
제 2 실시형태의 인코딩 방법에 따르면, 다운믹싱 계수들에 의해 승산된 윈도우 함수들은 믹싱된 오디오 신호들에 승산된다. 따라서, 단계 (S200) 에서, 채널들의 적어도 일부에 대해서는 다운믹싱 계수(들) 의 승산을 수행할 필요는 없다. 다운믹싱 계수(들)의 승산이 채널들의 적어도 일부에 대해서는 수행되지 않기 때문에, 다운믹싱 계수의 승산이 모든 채널에 대해 수행되는 배경 기술과 비교하여, 단계 (S200) 에서 오디오 신호들을 더 높은 속도로 프로세싱할 수 있다.
제 2 실시형태의 변형예로서, 인코딩시에, 인코딩 장치에 입력된 소정의 비트 정밀도를 갖는 신호가 소정의 이득 계수를 승산함으로써 [-1.0, 1.0] 의 범위를 갖도록 스케일링되고 스케일링된 신호가 인코딩되는 경우에 대처하기 위해, 신호는 이득 계수에 의해 승산된 윈도우 함수에 의해 승산될 수도 있다. 예를 들어, 16-비트 신호가 인코딩 장치에 입력되는 경우, 이득 계수는 1/215 로 설정된다. 이렇게 함으로써, 인코딩되기 전에, 이득 계수에 의해 신호를 승산할 필요가 없기 때문에, 전술한 것과 동일한 유리한 효과가 획득될 수 있다.
또한, 제 2 실시형태의 다른 변형예로서, MDCT 를 수행할 때, 오디오 신호들은 다운믹싱 계수들에 의해 승산된 기본 함수에 의해 승산될 수도 있다. 이렇게 함으로써, 다운믹싱 계수들의 승산이 다운믹싱시에 수행될 필요가 없기 때문에, 전술한 것과 동일한 유리한 효과가 획득될 수 있다.
[제 3 실시형태]
본 발명의 제 3 실시형태에 따른 편집 장치는, 멀티-채널 오디오 신호들을 편집하기 위한 편집 장치 및 편집 방법에 관한 예이다. AAC 가 제 3 실시형태에서 예시된다고 할지라도, 본 발명은 AAC 로 제한되지 않는다는 것을 명시할 필요는 없다.
<편집 장치의 하드웨어 구성>
도 15 는 본 발명의 제 3 실시형태에 따른 편집 장치의 하드웨어 구성을 예시하는 블록도이다.
도 15 를 참조하면, 편집 장치 (100) 는 광학 디스크 또는 다른 기록 매체를 구동하기 위한 드라이브 (101), CPU (102), ROM (103), RAM (104), HDD (105), 통신 인터페이스 (106), 입력 인터페이스 (107), 출력 인터페이스 (108), AV 유닛 (109), 및 이들을 연결하는 버스 (110) 를 포함한다. 또한, 제 3 실시형태에 따른 편집 장치는, 제 1 실시형태에 따른 디코딩 장치의 기능 및 제 2 실시형태에 따른 인코딩 장치의 기능을 갖는다.
광학 디스크와 같은 탈착가능 매체 (101a) 가 드라이브 (101) 상에 탑재되고, 탈착가능 매체 (101a) 로부터 데이터가 판독된다. 도 15 는, 드라이브 (101) 가 편집 장치 (100) 내에 설치된 경우를 도시하지만, 드라이브 (101) 는 외부 드라이브일 수도 있다. 드라이브 (101) 는 광학 디스크 뿐만 아니라, 자기 디스크, 광자기 디스크, 블루-레이 디스크, 반도체 메모리 등을 채용할 수도 있다. 통신 인터페이스 (106) 를 통해서 연결가능한 네트워크 내의 리소스들로부터 자료 데이터가 판독될 수도 있다.
CPU (102) 는 RAM (104) 과 같은 휘발성 메모리 영역에 ROM (103) 내의 기록된 제어 프로그램을 배치하고, 편집 장치 (100) 의 전체 동작을 제어한다.
HDD (105) 는 편집 장치로서 어플리케이션 프로그램을 저장한다. CPU (102) 는 RAM (104) 에 어플리케이션 프로그램을 배치하여, 이에 따라 컴퓨터가 편집 장치로서 기능하는 것을 허용한다. 또한, 편집 장치 (100) 는, 광학 디스크와 같은 탈착가능 매체 (101a) 로부터 판독된 자료 데이터, 각각의 클립의 편집 데이터 등이 HDD (105) 내에 저장되도록 구성될 수 있다. HDD (105) 내에 저장된 자료 데이터에 대한 액세스 속도는 드라이브 (101) 상에 탑재된 광학 디스크의 액세스 속도에 비해 훨씬 빠르기 때문에, 편집시에 디스플레이의 딜레이는 HDD (105) 에 저장된 자료 데이터를 이용함으로써 감소된다. 편집 데이터의 저장 수단은, 이 수단이 고속 액세스를 허용하는 저장 수단인 한, HDD (105) 로 제한되지 않고, 예를 들어, 자기 디스크, 광자기 디스크, 블루-레이 디스크, 반도체 메모리 등이 이용될 수 있다. 통신 인터페이스 (106) 를 통해서 연결가능한 네트워크에서의 저장 수단은 편집 데이터에 대해 저장 수단으로서 이용될 수도 있다.
통신 인터페이스 (106) 는, USB (Universal Serial Bus) 를 통해서 연결된 비디오 카메라와의 통신을 형성하고, 비디오 카메라 내의 기록 매체에 기록된 데이터를 수신한다. 또한, 통신 인터페이스 (106) 는 LAN 또는 인터넷을 통해서 내트워크의 리소스에 생성된 편집 데이터를 송신할 수 있다.
입력 인터페이스 (107) 는 사용자에 의해 키보드 또는 마우스와 같은 동작 유닛 (400) 을 통해서 명령 입력을 수신하고, 버스 (110) 를 통해서 CPU (102) 에 동작 신호를 공급한다. 출력 인터페이스 (108) 는 스피커와 같은 출력 장치 (500) 또는 LCD (Liquid Crystal Display) 또는 CRT 와 같은 디스플레이 장치에 CPU (102) 로부터의 이미지 데이터 또는 음성 데이터를 공급한다.
AV 유닛 (109) 은 비디오 신호 및 오디오 신호상에서 다양한 프로세스들을 수행하고, 이하의 엘리먼트 및 기능들을 포함한다.
외부 비디오 신호 인터페이스 (111) 가 비디오 신호를 편집 장치 (100) 및 비디오 압축/압축해제 유닛 (112) 의 외부로/로부터 전송한다. 예를 들어, 외부 비디오 신호 인터페이스 (111) 에는 아날로그 복합 신호 및 아날로그 성분 신호에 대한 입력 및 출력 유닛이 제공된다.
비디오 압축/압축해제 유닛 (112) 은 비디오 인터페이스 (113) 를 통해서 공급된 비디오 데이터를 디코딩하고 아날로그-변환하여, 그 결과로 획득된 비디오 신호들을 외부 비디오 신호 인터페이스 (111) 로 출력한다. 또한, 비디오 압축/압축해제 유닛 (112) 은 필요에 따라 외부 비디오 신호 인터페이스 (111) 또는 외부 비디오/오디오 신호 인터페이스 (114) 로부터 공급된 비디오 신호를 디지털-변환하고, 예를 들어, MPEG-2 방법에 의해 변환된 비디오 신호를 압축하여, 그 결과로 획득된 데이터를 비디오 인터페이스 (113) 를 통해서 버스 (110) 에 출력한다.
비디오 인터페이스 (113) 는 비디오 압축/압축해제 유닛 (112) 및 버스 (110) 로/로부터 데이터를 전송한다.
외부 비디오/오디오 신호 인터페이스 (114) 는 외부 장비로부터 입력된 비디오 데이터를 비디오 압축/압축해제 유닛 (112) 에 출력하고, 오디오 데이터를 오디오 프로세서 (116) 에 출력한다. 또한, 외부 비디오/오디오 신호 인터페이스 (114) 는 비디오 압축/압축해제 유닛 (112) 으로부터 공급된 비디오 데이터 및 오디오 프로세서 (116) 로부터 공급된 오디오 데이터를 외부 장비에 출력한다. 예를 들어, 외부 비디오/오디오 신호 인터페이스 (114) 는 SDI (Serial Digital Interface) 등에 기초한 인터페이스이다.
외부 오디오 신호 인터페이스 (115) 는 외부 장비 및 오디오 프로세서 (116) 로/로부터 오디오 신호를 전송한다. 예를 들어, 외부 오디오 신호 인터페이스 (115) 는 아날로그 오디오 신호의 인터페이스 표준에 기초한 인터페이스이다.
오디오 프로세서 (116) 는 외부 오디오 신호 인터페이스 (115) 로부터 공급된 오디오 신호를 아날로그-디지털 변환하고, 그 결과로 획득된 데이터를 오디오 인터페이스 (117) 에 출력한다. 또한, 오디오 프로세서 (116) 는 오디오 인터페이스 (117) 로부터 공급된 오디오 데이터 상에서 디지털-아날로그 변환, 음성 조절, 등을 수행하고, 그 결과로 획득된 신호를 외부 오디오 신호 인터페이스 (115) 에 출력한다.
오디오 인터페이스 (117) 는 데이터를 오디오 프로세서 (116) 에 공급하고, 오디오 프로세서 (116) 로부터의 데이터를 버스 (110) 에 출력한다.
<편집 장치의 기능적 구성>
도 16 은 제 3 실시형태에 따른 편집 장치의 기능적 구성도이다.
도 16 을 참조하면, 편집 장치 (110) 의 CPU (102) 는 메모리 내에 배치된 어플리케이션 프로그램을 이용하여 사용자 인터페이스 유닛 (70), 편집 유닛 (73), 정보 입력 유닛 (74), 정보 출력 유닛 (75) 의 각각의 기능 블록들을 구성한다.
각각의 기능 블록들은 자료 데이터 및 편집 데이터를 포함하는 프로젝트 파일의 가져오기 기능 (import function), 각각의 클립의 편집 기능, 자료 데이터 및/또는 편집 데이터를 포함하는 프로젝트 파일의 내보내기 기능 (export function), 프로젝트 파일을 내보내는 시간에 자료 데이터에 대한 마진 설정 기능 등을 구현한다. 이하, 편집 기능이 상세하게 설명될 것이다.
<편집 기능>
도 17 은 편집 장치의 편집 스크린의 일 예를 예시하는 도면이다.
도 16 과 함께 도 17 을 참조하면, 편집 스크린의 디스플레이 데이터는 디스플레이 제어 유닛 (72) 에 의해 생성되고, 출력 장치 (500) 의 디스플레이에 출력된다.
편집 스크린 (150) 은, 편집된 컨텐츠 또는 획득된 자료 데이터의 재생 스크린을 디스플레이하는 재생 윈도우 (151), 각각의 클립들이 타임 라인을 따라서 배열된 복수의 트랙들에 의해 구성된 타임 라인 윈도우 (152), 아이콘을 이용하여 획득된 자료 데이터를 디스플레이하는 빈 (bin) 윈도우 (153) 등을 포함한다.
사용자 인터페이스 유닛 (70) 은, 사용자에 의해 동작 유닛 (400) 을 통해서 입력된 명령을 수신하는 명령 수신 유닛 (71) 및 디스플레이 또는 스피커와 같은 출력 장치 (500) 상에서 디스플레이 제어를 수행하는 디스플레이 제어 유닛 (72) 을 포함한다.
편집 유닛 (73) 은, 정보 입력 유닛 (74) 을 통해서, 사용자로부터 동작 유닛 (400) 을 통해서 입력된 명령에 의해 지정된 클립으로 지칭된 자료 데이터 또는 디폴트로서 지정된 프로젝트 정보를 갖는 클립으로 지칭된 자료 데이터를 획득한다.
HDD (105) 에 기록된 자료 데이터가 지정되는 경우, 정보 입력 유닛 (74) 은 빈 윈도우 (153) 내에 아이콘을 디스플레이하고, HDD (105) 내에 기록되지 않은 자료 데이터가 지정되는 경우, 정보 입력 유닛 (74) 은 네트워크 내의 리소스들 또는 탈착가능 매체로부터 자료 데이터를 판독하고, 빈 윈도우 (153) 내에 아이콘을 디스플레이한다. 예시된 예에서, 자료 데이터의 3 개 피스가 아이콘 IC1 내지 IC3 로 디스플레이된다.
명령 수신 유닛 (71) 은 편집시에 이용된 클립들의 지정, 자료 데이터의 참조 범위, 및 그 참조 범위에 의해 점유된 컨텐츠의 시간축에서 임시 위치를 편집 스크린상에서 수신한다. 구체적으로, 명령 수신 유닛 (71) 은 클립 ID 의 지정, 참조 범위의 시작 포인트 및 임시 길이, 클립들이 배치된 컨텐츠 상에서의 시간 정보 등을 수신한다. 이를 달성하기 위해, 사용자는 단서 (clue) 로서 디스플레이된 클립 명칭을 이용하는 타임 라인 상에 원하는 자료 데이터의 아이콘을 드래그 및 드롭한다. 명령 수신 유닛 (71) 은 이러한 동작에 의해 클립 ID 의 지정을 수신하여, 이에 따라, 선택된 클립으로서 지칭된 참조 범위에 대응하는 임시 길이를 갖는 선택된 클립은 트랙상에 배치된다.
트랙상에 배치된 클립의 타임 라인 상에서 시작 포인트, 종료 포인트, 및 임시 배열은 적절하게 변경될 수 있고, 입력은 예를 들어 편집 스크린상에서 마우스 커서를 이동시키고 소정의 동작을 행함으로써 입력될 수 있다.
예를 들어, 오디오 자료의 편집은 이하와 같이 수행된다. 사용자가 동작 유닛 (400) 을 이용하여 HDD (105) 에 기록된 AAC 포맷의 5.1-채널 오디오 자료를 지정하는 경우, 명령 수신 유닛 (71) 은 그 지정을 수신하고, 편집 유닛 (73) 은 디스플레이 제어 유닛 (72) 을 통해서 출력 장치 (500) 의 디스플레이 상의 빈 윈도우 (153) 내에 아이콘 (클립) 을 디스플레이한다.
사용자가 동작 유닛 (400) 을 이용하여 타임 라인 윈도우 (152) 의 오디오 트랙 (154) 상에 클립을 배열시키도록 명령하는 경우, 명령 수신 유닛 (71) 은 그 명령을 수신하고, 편집 유닛 (73) 은 디스플레이 제어 유닛 (72) 을 통해서 출력 장치 (500) 의 디스플레이 상의 오디오 트랙 (154) 내에 클립을 디스플레이한다.
예를 들어, 사용자가 동작 유닛 (400) 을 이용하여 소정의 동작에 의해 디스플레이된 편집 컨텐츠들 중에서 스테레오으로 다운믹싱하는 것을 선택하는 경우, 명령 수신 유닛 (71) 은 스테레오 (편집 프로세스 명령) 으로의 다운믹싱에 대한 명령을 수신하고 이 명령을 편집 유닛 (73) 에 통지한다.
편집 유닛 (73) 은, 명령 수신 유닛 (71) 으로부터 통지된 명령에 따라서 AAC 포맷의 2-채널 오디오 자료들을 생성하기 위해 AAC 포맷의 5.1-채널 오디오 자료를 다운믹싱한다. 이때, 편집 유닛 (73) 은 다운믹싱된 디코딩 스테레오 오디오 신호들을 생성하기 위해 제 1 실시형태에 따라서 디코딩 방법을 수행할 수도 있고, 또는 편집 유닛 (73) 은 다운믹싱된 인코딩 스테레오 오디오 신호를 생성하기 위해 제 2 실시형태에 따라서 인코딩 방법을 수행할 수도 있다. 또한, 이 두 방법들은 실질적으로 동시에 수행될 수도 있다.
편집 유닛 (73) 에 의해 생성된 오디오 신호는 정보 출력 유닛 (75) 으로 출력된다. 정보 출력 유닛 (75) 은 버스 (110) 를 통해서, 예를 들어 HDD (105) 에 편집된 오디오 자료를 출력하고, 그 내부에 편집된 오디오 자료를 기록한다.
오디오 트랙 (154) 상에서 클립을 재생하기 위한 명령이 사용자에 의해 주어지는 경우, 편집 유닛 (73) 은 다운믹싱된 자료를 재생했던 것처럼 전술한 디코딩 방법에 의해 5.1-채널 오디오 자료를 다운믹싱하면서 다운믹싱된 디코딩 스테레오 오디오 신호를 출력 및 재생할 수도 있다.
<편집 방법>
도 18 은 본 발명의 제 3 실시형태에 따라서 편집 방법을 예시하는 플로우차트이다. 본 발명의 제 3 실시형태에 따른 편집 방법은, 5.1-채널 오디오 신호가 편집된 예를 이용하는 도 18 을 참조하여 설명될 것이다.
먼저, 단계 (S300) 에서, HDD (105) 내에 기록된 AAC 포맷의 5.1-채널 오디오 자료가 사용자에 의해 명령되는 경우, CPU (102) 는 그 명령을 수신하고 빈 윈도우 (153) 내에 아이콘으로서 오디오 자료를 디스플레이한다. 또한, 타임 라인 윈도우 (152) 내의 오디오 트랙 (154) 상에 디스플레이된 아이콘을 배치하기 위한 명령이 사용자에 의해 주어진 경우, CPU (102) 는 그 명령을 수신하고 타임 라인 윈도우 (152) 내의 오디오 트랙 (154) 상에 오디오 자료의 클립을 배치한다.
후속하여, 단계 (S310) 에서, 예를 들어, 오디오 자료에 대한 스테레오으로의 다운믹싱이 사용자에 의해 동작 유닛 (400) 을 통해서 소정의 동작에 의해 디스플레이된 편집 컨텐츠들 중에서 선택되는 경우, CPU (102) 는 그 선택을 수신한다.
후속하여, 단계 (S320) 에서, 스테레오으로의 다운믹싱을 위한 명령을 수신한 CPU (102) 는 2-채널 스테레오 오디오 신호를 생성하기 위해 AAC 포맷의 5.1-채널 오디오 자료를 다운믹싱한다. 동시에, CPU (102) 는 다운믹싱된 디코딩 스테레오 오디오 신호를 생성하기 위해 제 1 실시형태에 따라서 디코딩 방법을 수행할 수도 있고, 또는 CPU (102) 는 다운믹싱된 인코딩 스테레오 오디오 신호를 생성하기 위해 제 2 실시형태에 따라서 인코딩 방법을 수행할 수도 있다. CPU (102) 는 단계 (S320) 에서 생성된 오디오 신호를 버스 (110) 를 통해서 HDD (105) 에 출력하고 그 내부에 생성된 오디오 신호를 기록한다 (단계 (S330)). 오디오 신호가 HDD 에서 이들을 기록하는 대신에 편집 장치의 외부의 장치에 출력할 수도 있다는 것에 유의해야만 한다.
제 3 실시형태에 따르면, 오디오 신호를 편집할 수 있는 편집 장치에서도, 제 1 실시형태 및 제 2 실시형태와 동일한 유리한 효과가 획득될 수 있다.
본 발명의 바람직한 실시형태들이 앞서 상세하게 설명되었다고 할지라도, 본 발명은 이러한 특정 실시형태에 한정되지 않지만, 다양한 변형이 청구범위에 인용된 본 발명의 범위 내에서 이루어질 수도 있다.
예를 들어, 오디오 신호의 다운믹싱은 스테레오으로의 다운믹싱으로 제한되지 않지만, 모노럴으로의 다운믹싱이 수행될 수도 있다. 또한, 다운믹싱은 5.1-채널 다운믹싱으로 제한되지 않지만, 7.1-채널 다운믹싱이 수행될 수도 있다. 더욱 구체적으로, 7.1-채널 오디오 시스템에서, 예를 들어, 5.1 채널에서와 동일한 채널뿐만 아니라 2 개의 채널들 (좌측 후면 채널 (LB) 및 우측 후면 채널 (RB)) 이 존재한다. 7.1-채널 오디오 신호가 5.1-채널 오디오 신호로 다운믹싱되는 경우, 다운믹싱은 식 (9) 및 식 (10) 에 따라서 수행될 수 있다.
Figure pct00064
Figure pct00065
식 (9) 에서, LSDM 은 좌측 서라운드 채널 오디오 신호를 나타내고, 다운믹싱 이후에, LS 는 좌측 서라운드 채널 오디오 신호를 나타내고, 다운믹싱 이전에, LB 는 좌측 후면 채널 오디오 신호를 나타낸다. 식 (10) 에서, RSDM 은 우측 서라운드 채널 오디오 신호를 나타내고, 다운믹싱 이후에, RS 는 우측 서라운드 채널 오디오 신호를 나타내고, 다운믹싱 이전에, RB 는 우측 후면 채널 오디오 신호를 나타낸다. 식 (9) 및 식 (10) 에서,
Figure pct00066
및 β 는 다운믹싱 계수들을 나타낸다.
식 (9) 및 식 (10) 에 따라서 생성된 좌측 서라운드 채널 오디오 신호 및 우측 서라운드 채널 오디오 신호 및 다운믹싱시에 이용되지 않은 중앙 채널 오디오 신호, 좌측 채널 오디오 신호, 및 우측 채널 오디오 신호는 5.1-채널 오디오 신호를 구성한다. 5.1-채널 오디오 신호들을 2-채널 오디오 신호들로 다운믹싱하는 방법과 유사하게, 7.1-채널 오디오 신호들은 2-채널 오디오 신호로 다운믹싱될 수도 있다는 사실에 유의해야만 한다.
또한, 전술한 실시형태에서 AAC 가 예시된다고 할지라도, 본 발명은 AAC 로 제한되지 않지만 AC3, ATRAC3 등의 MDCT 와 같은 시간-주파수 변환에서 윈도우 함수를 이용하는 코덱이 채용되는 경우에 적용될 수 있다.
10 : 디코딩 장치
11, 21, 211, 311 : 신호 저장 유닛
12 : 역다중화 유닛
13a, 13b, 13c, 13d, 13e : 채널 디코더
14, 22, 204, 301 : 믹싱 유닛
20 : 인코딩 장치
23a, 23b : 채널 인코더
24 : 다중화 유닛
30a, 30b, 51a, 51b : 가산기
40, 63, 201, 304 : 변환 유닛
41, 61, 202, 303 : 윈도우 프로세싱 유닛
42, 62, 212, 312 : 윈도우 함수 저장 유닛
43, 203 : 변환 블록 합성 유닛
50a, 50b, 50c, 50d, 50e : 승산기
60, 302 : 변환 블록 분리 유닛
73 : 편집 유닛
102, 200, 300 : CPU
210, 310 : 메모리

Claims (21)

  1. 디코딩 장치 (10) 로서,
    멀티-채널 오디오 신호들 (multi-channel audio signals) 을 포함하는 인코딩 오디오 신호들을 저장하기 위한 저장 수단 (11);
    시간 도메인에서 변환 블록-기반 오디오 신호들 (transform block-based audio signals) 을 생성하기 위해 상기 인코딩 오디오 신호들을 변환하기 위한 변환 수단 (40);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하기 위한 윈도우 프로세싱 수단 (41) 으로서, 상기 곱은 제 2 윈도우 함수인, 상기 윈도우 프로세싱 수단 (41);
    상기 멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩시키기 위한 합성 수단 (43); 및
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하기 위한 믹싱 수단 (14) 을 포함하는, 디코딩 장치.
  2. 제 1 항에 있어서,
    상기 제 1 윈도우 함수는 정규화된, 디코딩 장치.
  3. 제 1 항에 있어서,
    상기 믹싱 수단은 합성된 상기 멀티-채널 오디오 신호들을 상기 인코딩 오디오 신호들에 포함된 채널들의 수 보다 작은 수의 채널들의 오디오 신호들로 변환하는, 디코딩 장치.
  4. 제 1 항에 있어서,
    상기 인코딩 오디오 신호들은 5.1-채널 또는 7.1-채널 오디오 시스템에 대한 오디오 신호들이고,
    상기 믹싱 수단은 스테레오 (stereo) 오디오 신호 또는 모노럴 (monaural) 오디오 신호를 생성하는, 디코딩 장치.
  5. 디코딩 장치 (10) 로서,
    멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 저장하는 메모리 (210); 및
    CPU (200) 를 포함하고,
    상기 CPU 는
    시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 상기 인코딩 오디오 신호들을 변환하고,
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 상기 변환 블록-기반 오디오 신호들을 승산하고,
    상기 멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩시키고,
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하도록 구성되는, 디코딩 장치.
  6. 제 5 항에 있어서,
    상기 CPU 는 상기 인코딩 오디오 신호들에 포함된 채널들의 수보다 적은 수의 채널들을 포함하는 믹싱 오디오 신호를 생성하도록 구성되는, 디코딩 장치.
  7. 제 5 항에 있어서,
    상기 인코딩 오디오 신호들은 5.1-채널 또는 7.1-채널 오디오 시스템에 대한 오디오 신호들이고,
    상기 CPU 는 스테레오 오디오 신호 또는 모노럴 오디오 신호를 생성하도록 구성되는, 디코딩 장치.
  8. 인코딩 장치 (20) 로서,
    멀티-채널 오디오 신호들을 저장하기 위한 저장 수단 (21);
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 상기 멀티-채널 오디오 신호들을 믹싱하기 위한 믹싱 수단 (22);
    변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하기 위한 분리 수단 (60);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하기 위한 윈도우 프로세싱 수단 (61) 으로서, 상기 곱은 제 2 윈도우 함수인, 상기 윈도우 프로세싱 수단 (61); 및
    인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환시키기 위한 변환 수단 (63) 을 포함하는, 인코딩 장치.
  9. 제 8 항에 있어서,
    상기 믹싱 수단은:
    제 1 채널의 오디오 신호와, 상기 제 1 채널과 관련된 제 1 혼합비 (δ,β) 와 제 2 채널과 관련된 제 2 혼합비 (
    Figure pct00067
    ) 의 역수의 곱을 승산하기 위한 승산 수단 (50a, 50c, 50e) 으로서, 상기 곱은 제 3 혼합비 (δ/, β/
    Figure pct00069
    ) 인, 상기 승산 수단 (50a, 50c, 50e); 및
    상기 제 1 채널 및 상기 제 2 채널을 포함하는 다중의 채널들의 상기 오디오 신호들을 가산하기 위한 가산 수단 (51a, 51b) 을 포함하고,
    상기 윈도우 프로세싱 수단은, 상기 제 2 혼합비와 상기 제 1 윈도우 함수의 곱인 상기 제 2 윈도우 함수에 의해 상기 변환 블록-기반 오디오 신호들을 승산하하는, 인코딩 장치.
  10. 제 8 항에 있어서,
    상기 제 1 윈도우 함수는 정규화된, 인코딩 장치.
  11. 제 8 항에 있어서,
    상기 믹싱 수단은 상기 멀티-채널 오디오 신호들을 더 적은 수의 채널들의 오디오 신호들로 변환하는, 인코딩 장치.
  12. 인코딩 장치 (20) 로서,
    멀티-채널 오디오 신호들을 저장하는 메모리 (310); 및
    CPU (300) 를 포함하고,
    상기 CPU 는
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 상기 멀티-채널 오디오 신호들을 믹싱하고,
    변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하고,
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱인 제 2 윈도우 함수에 의해 상기 변환 블록-기반 오디오 신호들을 승산하고,
    인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환하도록 구성되는, 인코딩 장치.
  13. 제 12 항에 있어서,
    상기 CPU 는 더 적은 수의 채널들의 오디오 신호들을 생성하기 위해 상기 멀티-채널 오디오 신호들을 믹싱하도록 구성되는, 인코딩 장치.
  14. 디코딩 방법으로서,
    시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 변환하는 단계 (S100);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S110) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S110);
    멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩하는 단계 (S120); 및
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하는 단계 (S130) 를 포함하는, 디코딩 방법.
  15. 인코딩 방법으로서,
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하는 단계 (S200);
    변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하는 단계 (S210);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S220) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S220); 및
    인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환하는 단계 (S230) 를 포함하는, 인코딩 방법.
  16. 디코딩 프로그램으로서,
    컴퓨터로 하여금,
    시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 변환하는 단계 (S100);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S110) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S110);
    멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩하는 단계 (S120); 및
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하는 단계 (S130)
    를 실행할 수 있게 하는, 디코딩 프로그램.
  17. 인코딩 프로그램으로서,
    컴퓨터로 하여금,
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하는 단계 (S200);
    변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하는 단계 (S210);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S220) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S220); 및
    인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환시키는 단계 (S230)
    를 실행할 수 있게 하는, 인코딩 프로그램.
  18. 디코딩 프로그램이 기록된 기록 매체로서,
    상기 디코딩 프로그램은 컴퓨터로 하여금,
    시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 변환하는 단계 (S100);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S110) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S110);
    멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩하는 단계 (S120); 및
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하는 단계 (S130)
    를 실행할 수 있게 하는, 기록 매체.
  19. 인코딩 프로그램이 기록된 기록 매체로서,
    상기 인코딩 프로그램은 컴퓨터로 하여금,
    다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 멀티-채널 오디오 신호들을 믹싱하는 단계 (S200);
    시간 도메인에서 변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하는 단계 (S210);
    상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하는 단계 (S220) 로서, 상기 곱은 제 2 윈도우 함수인, 상기 승산하는 단계 (S220); 및
    인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환시키는 단계 (S230)
    를 실행할 수 있게 하는, 기록 매체.
  20. 편집 장치 (100) 로서,
    멀티-채널 오디오 신호들을 포함하는 인코딩 오디오 신호들을 저장하기 위한 저장 수단 (105); 및
    변환 수단 (40), 윈도우 프로세싱 수단 (41), 합성 수단 (43), 및 믹싱 수단 (14) 을 포함하는 편집 수단 (73) 을 포함하고,
    다운믹싱 프로세스에 대한 사용자의 요청에 따라서,
    상기 변환 수단은 변환 블록-기반 오디오 신호들을 생성하기 위해 상기 인코딩 오디오 신호들을 변환하고,
    상기 윈도우 프로세싱 수단은 상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하고, 상기 곱은 제 2 윈도우 함수이고,
    상기 합성 수단은 멀티-채널 오디오 신호들을 합성하기 위해 승산된 상기 변환 블록-기반 오디오 신호들을 중첩하고,
    상기 믹싱 수단은 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 합성된 상기 멀티-채널 오디오 신호들을 믹싱하는, 편집 장치.
  21. 편집 장치 (100) 로서,
    멀티-채널 오디오 신호들을 저장하기 위한 저장 수단 (105); 및
    믹싱 수단 (22), 분리 수단 (60), 윈도우 프로세싱 수단 (61), 및 변환 수단 (63) 을 포함하는 편집 수단 (73) 을 포함하고,
    다운믹싱 프로세스에 대한 사용자의 요청에 따라서,
    상기 믹싱 수단은 다운믹싱된 오디오 신호를 생성하기 위해 채널들 사이에서 상기 멀티-채널 오디오 신호들을 믹싱하고,
    상기 분리 수단은 변환 블록-기반 오디오 신호들을 생성하기 위해 상기 다운믹싱된 오디오 신호를 분리하고,
    상기 윈도우 프로세싱 수단은 상기 오디오 신호들의 혼합비와 제 1 윈도우 함수의 곱에 의해 상기 변환 블록-기반 오디오 신호들을 승산하고, 상기 곱은 제 2 윈도우 함수이고,
    상기 변환 수단은 인코딩 오디오 신호들을 생성하기 위해 승산된 상기 오디오 신호들을 변환하는, 편집 장치.
KR1020117010018A 2008-10-01 2008-10-01 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치 KR20110110093A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/068258 WO2010038318A1 (en) 2008-10-01 2008-10-01 Decoding apparatus, decoding method, encoding apparatus, encoding method, and editing apparatus

Publications (1)

Publication Number Publication Date
KR20110110093A true KR20110110093A (ko) 2011-10-06

Family

ID=40561811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117010018A KR20110110093A (ko) 2008-10-01 2008-10-01 디코딩 장치, 디코딩 방법, 인코딩 장치, 인코딩 방법, 및 편집 장치

Country Status (7)

Country Link
US (1) US9042558B2 (ko)
EP (1) EP2351024A1 (ko)
JP (1) JP5635502B2 (ko)
KR (1) KR20110110093A (ko)
CN (1) CN102227769A (ko)
CA (1) CA2757972C (ko)
WO (1) WO2010038318A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101078379B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 데이터 처리 방법 및 장치
US20100331048A1 (en) * 2009-06-25 2010-12-30 Qualcomm Incorporated M-s stereo reproduction at a device
US8130790B2 (en) 2010-02-08 2012-03-06 Apple Inc. Digital communications system with variable-bandwidth traffic channels
US8605564B2 (en) * 2011-04-28 2013-12-10 Mediatek Inc. Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually
JP6007474B2 (ja) * 2011-10-07 2016-10-12 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体
KR101744361B1 (ko) * 2012-01-04 2017-06-09 한국전자통신연구원 다채널 오디오 신호 편집 장치 및 방법
US10083699B2 (en) * 2012-07-24 2018-09-25 Samsung Electronics Co., Ltd. Method and apparatus for processing audio data
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
EP3422738A1 (en) * 2017-06-29 2019-01-02 Nxp B.V. Audio processor for vehicle comprising two modes of operation depending on rear seat occupation
CN113223539B (zh) * 2020-01-20 2023-05-26 维沃移动通信有限公司 一种音频传输方法及电子设备
CN113035210A (zh) * 2021-03-01 2021-06-25 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093178B2 (ja) * 1989-01-27 2000-10-03 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 高品質オーディオ用低ビットレート変換エンコーダ及びデコーダ
JP3136785B2 (ja) * 1992-07-29 2001-02-19 カシオ計算機株式会社 データ圧縮装置
JPH06165079A (ja) * 1992-11-25 1994-06-10 Matsushita Electric Ind Co Ltd マルチチャンネルステレオ用ダウンミキシング装置
JP3761639B2 (ja) 1995-09-29 2006-03-29 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5867819A (en) * 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6141645A (en) * 1998-05-29 2000-10-31 Acer Laboratories Inc. Method and device for down mixing compressed audio bit stream having multiple audio channels
US6122619A (en) 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
JP2000276196A (ja) 1999-03-29 2000-10-06 Victor Co Of Japan Ltd オーディオ符号化ストリーム復号化方法
JP3598993B2 (ja) * 2001-05-18 2004-12-08 ソニー株式会社 符号化装置及び方法
KR100522593B1 (ko) * 2002-07-08 2005-10-19 삼성전자주식회사 다채널 입체음향 사운드 생성방법 및 장치
JP2004109362A (ja) * 2002-09-17 2004-04-08 Pioneer Electronic Corp フレーム構造のノイズ除去装置、フレーム構造のノイズ除去方法およびフレーム構造のノイズ除去プログラム
JP2004361731A (ja) 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
CN1930914B (zh) 2004-03-04 2012-06-27 艾格瑞***有限公司 对多声道音频信号进行编码和合成的方法和装置
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
WO2007043844A1 (en) * 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for processing a signal
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
JP4725458B2 (ja) 2006-08-22 2011-07-13 ソニー株式会社 編集装置,映像記録再生装置の制御方法及び編集システム
JP2008236384A (ja) * 2007-03-20 2008-10-02 Matsushita Electric Ind Co Ltd 音声ミキシング装置

Also Published As

Publication number Publication date
CN102227769A (zh) 2011-10-26
CA2757972C (en) 2018-03-13
WO2010038318A1 (en) 2010-04-08
US20110182433A1 (en) 2011-07-28
EP2351024A1 (en) 2011-08-03
JP5635502B2 (ja) 2014-12-03
US9042558B2 (en) 2015-05-26
JP2012504775A (ja) 2012-02-23
CA2757972A1 (en) 2010-04-08

Similar Documents

Publication Publication Date Title
JP5635502B2 (ja) 復号装置、復号方法、符号化装置、符号化方法、及び編集装置
TWI395204B (zh) 一種使用下混合的音頻編碼的音頻解碼器、音頻物件編碼器、多音頻物件編碼方法、用於對多音頻物件信號進行解碼的方法,以及執行這些方法的具有程式碼的程式
US20190239018A1 (en) Compatible multi-channel coding/decoding
US8917874B2 (en) Method and apparatus for decoding an audio signal
KR101158698B1 (ko) 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더
JP4519919B2 (ja) コンパクトなサイド情報を用いたマルチチャネルの階層的オーディオ符号化
JP6288100B2 (ja) オーディオエンコード装置及びオーディオデコード装置
US9055371B2 (en) Controllable playback system offering hierarchical playback options
EP1895512A2 (en) Multi-channel encoder
KR20140000240A (ko) 고차 앰비소닉 오디오 데이터를 위한 데이터 구조
JP2013190810A (ja) 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
WO2005081229A1 (ja) オーディオエンコーダ及びオーディオデコーダ
US9595267B2 (en) Method and apparatus for decoding an audio signal
US20070297624A1 (en) Digital audio encoding
Quackenbush et al. MPEG surround
JP2001100792A (ja) 符号化方法、符号化装置およびそれを備える通信システム
RU2395854C2 (ru) Способ и устройство для обработки медиасигнала

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid