KR20070051856A - 공간 오디오 코딩에서의 복수채널 역상관 - Google Patents

공간 오디오 코딩에서의 복수채널 역상관 Download PDF

Info

Publication number
KR20070051856A
KR20070051856A KR1020077003521A KR20077003521A KR20070051856A KR 20070051856 A KR20070051856 A KR 20070051856A KR 1020077003521 A KR1020077003521 A KR 1020077003521A KR 20077003521 A KR20077003521 A KR 20077003521A KR 20070051856 A KR20070051856 A KR 20070051856A
Authority
KR
South Korea
Prior art keywords
signals
filter characteristic
audio
signal
frequency
Prior art date
Application number
KR1020077003521A
Other languages
English (en)
Other versions
KR101178060B1 (ko
Inventor
알란 제프리 시펠드트
마크 스투아르트 빈톤
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20070051856A publication Critical patent/KR20070051856A/ko
Application granted granted Critical
Publication of KR101178060B1 publication Critical patent/KR101178060B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Casting Or Compression Moulding Of Plastics Or The Like (AREA)

Abstract

N 오디오 신호들 각각은 특성이 시간영역에서 인과적 선형 시불변 특성이거나 주파수영역에서 그와 동등한 것인 고유 역상관 필터(38) 특성에 의해 필터링되고, 각각의 역상관 필터 특성에 대해서, 시간 및 주파수 가변하여, 그의 입력(Zi) 및 출력(Zi)신호들을 결합하여(40, 44, 46) 한 세트의 N개의 처리된 신호들(Xi)을 제공한다. 한 세트의 역상관 필터특성은 모든 입력 및 출력신호들이 근사적으로 상호 역상관이 되도록 설계된다. 한 세트의 N 오디오 신호들은 업믹싱(36)함으로써 M 오디오 신호들로부터 -M은 1이상이고 N은 M보다 큼- 합성될 수 있다.

Description

공간 오디오 코딩에서의 복수채널 역상관{Multichannel Decorrelation in Spatial Audio Coding}
본 발명은 오디오 엔코더, 디코더, 및 시스템, 대응 방법들, 이러한 방법들을 구현하기 위한 컴퓨터 프로그램, 및 이러한 엔코더에 의해 생성된 비트스트림에 관한 것이다.
어떤 최근에 도입된 제한된 비트 레이트 코딩 기술들은 다운믹스 복합 신호(입력신호보다 적은 수의 채널들을 포함하는 신호) 및 원 사운드 필드의 파라메트릭 모델을 포함하는 사이드-정보를 도출해내기 위해서 입력 복수-채널 신호를 분석한다. 사이드-정보 및 복합 신호는 디코더에 전송되고 디코더는 원 사운드 필드의 근사를 재생성하기 위해서 복합신호에 파라메트릭 모델을 적용한다. 이러한 "공간 코딩" 시스템들의 주된 목적은 매우 제한된 량의 데이터로 복수-채널 사운드 필드를 재생성하는 것으로, 이에 따라 이것은 원 사운드 필드를 모사하는데 사용되는 파라메트릭 모델에 제한을 둘 수밖에 없다. 이러한 공간 코딩 시스템들의 상세는 "참조문헌" 제하로 이하 인용되는 것들을 포함한, 다양한 문헌들에 있다.
통상적으로 이러한 공간 코딩 시스템들은 원 사운드 필드를 모델링하기 위한, 이를테면 채널간 진폭차, 채널간 시간 혹은 위상차, 및 채널간 교차-상관과 같 은 파라미터들을 채용한다. 통상적으로 이러한 파라미터들은 코딩되는 각 채널마다 복수 스펙트럼 대역들에 대해서 추정되고 시간에 따라 동적으로 추정된다.
전형적인 종래 기술의 코딩 시스템을 도 1a(엔코더) 및 도 1b(디코더)에 도시하였다. 복수 입력신호들은 오버랩 DFT(이산 주파수 변환)를 사용하여 주파수 영역으로 변환된다. DFT 스펙트럼은 사람의 귀(ear)의 임계 대역들을 근사화한 대역들로 세분된다. 채널간 진폭차, 채널간 시간 혹은 위상차, 및 채널간 상관의 추정은 대역들의 각각마다 계산된다. 이들 추정들은 원 입력 신호들을 모노럴 복합신호로 다운믹싱하는데 이용된다. 추정된 공간 파라미터들과 함께 복합신호는 디코더에 보내지고 여기서 복합신호는 동일 오버랩 DFT와 임계 대역 간격을 사용하여 주파수 영역으로 변환된다. 이어서 공간 파라미터들은 이들의 대응 대역들에 적용되어 원 복수-채널 신호의 근사를 생성한다.
디코더에서, 채널간 진폭차와 시간 혹은 위상차의 적용은 비교적 수월하지만 업믹싱된 채널들을 변경시키므로 이들의 채널간 상관이 원 복수채널 신호의 상관과의 일치는 더욱 어렵게 된다. 통상적으로, 디코더에서 단지 진폭 및 시간 혹은 위상차들의 적용시, 업믹싱된 채널들의 결과적인 채널간 상관은 원 신호의 상관보다는 크며, 결과적인 오디오 사운드들은 원래의 것보다 공간적으로 더욱 "약해지거나(collapsed)"되거나 혹은 분위기(ambient)가 덜하다. 대부분 이것은 사이드-정보 전송 코스트를 제한시키기 위해서 주파수 및/또는 시간에 걸쳐 값들을 평균화한 것에 기인할 수 있다. 원 채널간 상관의 인지를 복구하기 위해서, 업믹싱된 채널들의 적어도 일부에 대해 어떤 유형의 상관이 수행되어야 한다. 이하 인용되는 Breebaart 등의 AES Convetion Patper 6072 및 WO03/090206에서, 단일의 다운믹싱된 채널로부터 업믹싱된 두 개의 채널들간의 원하는 채널간 상관을 부과하는 기술이 제안되었다. 먼저, 다운믹싱된 채널은 역상관 필터를 통과하여 제2의 역상관이 된 신호를 생성한다. 그러면 2개의 업믹싱된 채널들이 원 다운믹싱된 신호와 역상관된 신호와의 선형 조합들로서 각각이 계산된다. 역상관 필터는 주파수 의존성 지연으로서 설계되고, 여기서 지연은 주파수가 증가함에 따라 감소한다. 이러한 필터는 과도(transient)의 시간적 분산과 아울러 현저한 가청 역상관을 제공하는 바람직한 특성을 갖는다. 또한, 역상관된 신호를 원 신호에 부가해도 고정된 지연의 역상관 필터에 연관된 콤 필터 결과로는 되지 않는다.
Breebaart 등의 논문 및 적용의 기술은 단지 2개의 업믹싱 채널들용으로만 설계된 것이지만 이러한 기술은 임의의 수의 업믹싱 채널들에도 바람직하다. 본 발명의 면들은 이러한 보다 일반적인 복수-채널 역상관 문제에 대한 해결책만이 아니라 주파수 영역에서 효율적 구현도 제공한다.
도 1a 및 도 1b는 전형적인 종래기술의 공간 코딩 엔코더 및 디코더의 간이화한 블록도이다.
도 2는 본 발명의 면들을 실현하는 엔코더 혹은 엔코딩 기능의 예의 단순화한 개략적인 기능 블록도이다.
도 3은 본 발명의 면들을 실현하는 디코더 혹은 디코딩 기능의 예의 단순화한 개략적인 기능 블록도이다.
도 4는 본 발명의 면들을 구현하는데 적합한 분석/합성 윈도우 쌍을 이상적으로 도시한 것이다.
<발명의 개시>
본 발명의 일면은 한 세트의 시간영역에서 인과적(causal) 선형 시불변 특성이거나 주파수영역에서 그와 동등한 것인 고유 역상관 필터특성으로 N 신호들 각각을 필터링하고, 각각의 역상관 필터 특성에 대해서, 시간 및 주파수 가변하여, 그의 입력 및 출력신호들을 결합하여 한 세트의 N개의 처리된 신호들을 제공함으로써, N 오디오 신호들을 처리하는 것을 제공한다. 결합은 선형결합일 수 있고 수신된 파라미터들을 사용하여 동작할 수 있다. 각 필터 특성의 출력신호가 N 오디오 신호들의 매 신호와의 상관을, 각 필터 특성의 대응 입력신호가 입력신호들의 매 신호와의 상관보다는 낮게 되도록, 그리고 각각의 출력신호가 모든 다른 출력신호와의 상관을, 각 필터특성의 대응 입력신호가 N 입력신호들의 매 다른 신호와의 상관보다 낮게 되도록 각각의 고유 역상관 필터특성이 선택된다. 따라서, 각 필터의 출력신호가 N 오디오 신호들 각각과 근사적으로 역상관이 되도록, 그리고 각 출력신호가 매 다른 출력신호와 근사적으로 역상관이 되도록 선택된다. 한 세트의 N 오디오 신호들은 M 오디오 신호들로부터 합성될 수 있고, M은 1이상이고 N은 M보다 크며, 이 경우 M 오디오 신호들을 N 오디오 신호들로의 업믹싱이 있을 수 있다.
본 발명의 따른 면에 따라서, 상기 N 합성된 오디오 신호들간에 원하는 공간적 관계들을 기술하는 파라미터들이 수신될 수 있고, 이 경우 상기 업믹싱은 수신된 파라미터들을 사용하여 동작한다. 수신된 파라미터들은 N 합성된 오디오 신호들 간 원하는 공간 관계들을 기술할 수 있고 업믹싱은 수신된 파라미터들을 사용하여 동작할 수 있다.
본 발명의 다른 면들에 따라서, 각각의 역상관 필터 특성은 복수의 자유도를 가진 모델인 것이 특징일 수 있다. 각각의 역상관 필터 특성은 지연이 증가하는 주파수에 따라 단조로 감소하는 주파수 가변 지연 형태의 응답을 가질 수 있다. 각각의 필터특성의 상기 임펄스 응답은 이를테면 시퀀스의 기간동안 π에서 제로로 순시 주파수가 단조로 감소하는 정현 시퀀스의 유한기간으로 특정될 수 있다. 예를 들면 어떤 신호 조건하에서 가청 아티팩트를 감소시키기 위해서, 잡음 시퀀스가 상기 정현 시퀀스의 순시위상에 더해질 수 있다.
본 발명의 다른 면들에 따라서, 처리된 N 신호들간 원하는 공간적 관계들을 기술하는 파라미터들이 수신될 수 있고 상기 결합정도는 수신된 파라미터들을 사용할 수 있다. 오디오 신호들 각각은 채널들을 나타내며 상기 결합동작을 돕는 상기 수신된 파라미터들은 채널간 교차-상관에 관계된 파라미터들이다. 다른 수신된 파라미터들은 하나 이상의 채널간 진폭차들 및 채널간 시간 혹은 위상차들에 관계된 파라미터들을 포함한다.
예를 들면, 본 발명은 N 원 오디오 신호들이 엔코더에서 M 신호들(M<N)으로 다운믹싱 되고 엔코더에서 생성된 사이드 정보를 사용하여 디코더에서 N 신호들로 다시 업믹싱되는 공간 코딩 시스템에 적용된다. 본 발명의 면들은 복수채널 다운믹스가 단일 모노럴 채널에 행해지는(업믹스는 이 채널로부터 행해짐) 이하 인용문헌들에 기술된 것들과 같은 공간 코딩 시스템들뿐만 아니라, "Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels Are Represented By Fewer Channels and Auxiliary Information" 명칭으로 2005년 2월 28일 출원된 Mark Franklin Davis의 국제출원 PCT/US2005/006359 -이 전체를 참조문헌으로 여기 포함시킴- 에 기술된 바와 같은 복수채널에 다운믹스가 행해지는(업믹스는 이로부터 행해짐) 시스템에도 적용될 수 있다.
디코더에서, 제1 한 세트의 N 업믹싱된 신호들은 사이드 정보로 보내진 채널간 진폭 및 시간 혹은 위상차들을 적용함으로써 M 다운믹싱된 신호들로부터 생성된다. 다음에, 제2 한 세트의 N 업믹싱된 신호들은 고유 역상관 필터로 제1 세트로부터 N 신호들 각각을 필터링함으로써 생성된다. 필터들은 각 신호마다 하나씩의 N개의 서로 다른 역상관 필터들이 있다는 면에서 "고유"하다. 한 세트의 N개의 고유 역상관 필터들은 필터 입력들에 관하여 역상관되는(이하 식(3a) 참조) N개의 상호 역상관된 신호들(이하 식(3b) 참조)를 생성하도록 설계된다. 이들 적합히 역상관이 된 신호들은 필터링되지 않은 업믹스 신호들과 더불어, 입력신호들을 근사화하는 디코더에서 엔코더로 출력신호들을 생성하는데 사용된다. 근사화 각각은 제1 한 세트의 업믹싱된 신호들로부터의 필터링되지 않은 신호들 각각과 제2 한 세트의 업믹싱된 신호들로부터의 대응 필터링되는 신호와의 선형 결합으로서 계산된다. 이 선형 결합의 계수들은 시간 및 주파수에 따라 가변하고 엔코더에 의해 생성된 사이드 정보로 디코더에 보내진다. 어떤 경우 시스템을 효율적으로 구현하기 위해서, N 역상관 필터들은 바람직하게는 시간영역보다는 주파수 영역에서 적용될 수 있다. 이것은 예를 들면 후술하는 바와 같이 엔코더 및 디코더에서 사용되는 DFT에 적합하 게 제로-패딩 및 윈도우를 적용함으로써 구현될 수 있다. 필터들은 시간영역에서 적용될 수도 있다.
도 2 및 도 3을 참조하면, 원 N 오디오 신호들은 xi, i=1...N으로 표현된다. 엔코더에서 생성된 M개의 다운믹스된 신호들은 yj, j=1...M으로 표현된다. 채널간 진폭과 시간 혹은 위상차들의 적용을 통해 디코더에서 생성된 제1의 한 세트의 업믹싱된 신호들은 zi, i=1...N로 표현된다. 디코더에서 제2의 한 세트의 업믹싱된 신호들은 zi, i=1...N로 표현된다. 이 제2 세트는 역상관 필터들을 사용하여 제1 세트의 콘볼루션을 통해 계산된다.
Figure 112007013536717-PCT00001
(1) hi는 신호(i)에 연관된 역상관 필터의 임펄스 응답이다. 마지막으로, 원 신호들에의 근사는 xi, i=1...N로 표현된다. 이들 신호들은 기술된 제1 및 제2 세트로부터의 신호들을 시간 및 주파수 가변하여, 믹싱함으로써 계산된다.
Figure 112007013536717-PCT00002
여기서 Zi[b,t], Zi[b,t], 및 Xi[b,t]는 임계 대역(b)와 시간 블록(t)에서, 각각, 신호들(zi, zi, xi)의 단시간 주파수 표현들이다. 파라미터들 ai[b,t] 및 β i[b,t]는 엔코더에서 생성된 사이드 정보에 명시된 시간 및 주파수 가변 믹싱 계수들이다. 이들은 이하 "믹싱 계수 계산" 제하로 기술된 바와 같이 계산될 수 있다.
역상관 필터 설계
한 세트의 역상관 필터들 hi, i=1...N은 모든 신호들(zi, zi)가 근사적으로 상호 역상관이 되도록 설계된다.
Figure 112007013536717-PCT00003
Figure 112007013536717-PCT00004
여기서 E는 기대값 연산자를 나타낸다. 즉, 각 필터 특성의 출력신호(zi)가 입력 오디오 신호들(zi)의 매 신호와의 상관을, 각 필터 특성의 대응 입력신호가 입력신호들의 매 신호와의 상관보다는 낮게 되도록, 그리고 각각의 출력신호(zi)의 모든 다른 출력신호와의 상관을, 각 필터특성의 대응 입력신호(zi)가 입력신호들의 매 다른 신호와의 상관보다 낮게 되도록, 각각의 고유 역상관 필터특성이 선택된다. 이 기술에 공지된 바와 같이, 단순 지연이 역상관 필터로서 사용될 수 있고, 이 경우 역상관 효과는 지연이 증가됨에 따라 더 커지게 된다. 그러나, 신호가 이러한 역상관으로 필터링되어 원 신호에 더해질 때, 식(2)에 명시된 바와 같이, 특히 고주파수들에서 에코들이 들릴 수 있다. 이 기술에 공지된 개선은 지연이 주파수에 따라 어떤 최대 지연에서 제로로 선형으로 감소하는 것인 주파수 가변 지연 필터이다. 이러한 필터에서 자유 파라미터만이 이러한 최대 지연이다. 이러한 필터에 있어서는 고주파수들은 현저하게 지연되지 않으므로, 인지되는 에코들을 제거하나, 저주파수들은 여전히 현저한 지연을 받으므로 역상관 효과를 유지한다. 본 발명의 일 면에 따라서, 더 많은 자유도를 갖는 모델에 의해 특징화되는 역상관 필터특성이 바람직하다. 특히, 이러한 필터는 이론적으로 무한이 다양한 형태를 취할 수 있는 단조 감소의 순시 주파수 함수를 가질 수 있다. 각 필터의 임펄스 응답은 예를 들을 시퀀스 기간에 걸쳐 π에서 제로로 순시 주파수가 단조로 감소하는 정현적 시퀀스의 유한한 기간에 의해 명시될 수 있다. 이것은 나이키스트 주파수에 대한 지연이 0이고 DC에 대한 지연이 시퀀스의 길이와 같음을 의미한다. 이의 일반적인 형태에서, 각 필터의 임펄스 응답은 다음 식으로 주어질 수 있다.
Figure 112007013536717-PCT00005
여기서, ωi(t)는 단조로 감소하는 순시 주파수 함수이고, ω'i(t)는 순시 주파수의 1차미분이고, φi(t)는 순시 주파수의 적분에 의해 주어진 순시 위상에 어떤 초기 위상 φ0을 더한 것이고, Li는 필터의 길이다. 곱셈 항 √ω'i(t)는 hi[n]의 주파수 응답을 모든 주파수에 걸쳐 근사적으로 평탄하게 만드는데 필요한 것이며, 필터 진폭 Ai는 크기 주파수 응답이 근사적으로 단위값(unity)이 되도록 선택된다. 이것은 다음이 성립하도록 Ai를 선택하는 것과 같다.
Figure 112007013536717-PCT00006
주파수 ωi(t)의 한 유용한 파라미터화는 다음에 의해 주어진다.
Figure 112007013536717-PCT00007
파라미터 αi는 시퀀스 기간동안 순시 주파수가 얼마나 빠르게 감소하는가를 제어한다. 라디안 주파수 ω의 함수로서 지연 t에 대해 식을 풀기 위해 식(5)를 조작할 수도 있다.
Figure 112007013536717-PCT00008
αi=0일 때, 모든 ω에 대해 ti(ω)=Li인 것에 유의한다. 즉, 필터는 길이 Li의 순수 지연이 된다. αi=∞일 때, 모든 ω에 대해 ti(ω)=0이고, 필터는 단순히 임펄스이다. 청각적 역상관 목적을 위해서, 1과 10 사이의 어느 값으로 αi를 설정하는 것은 최상의 사운드가 나게 결과들을 내는 것으로 알려졌다. 그러나, 식(4a)에서 필터 임펄스 응답 hi[n]은 처프(chirp)와 같은 시퀀스 형태를 갖기 때문에, 이러한 필터로 임펄스성 오디오 신호들을 필터링하게 되면 종종 필터링된 신호에서 "처핑" 아티팩트가 원 과도의 위치들에서 들릴 수 있게 된다. 이러한 효과의 가청성 은 αi가 증가함에 따라 감소하나, 이 효과는 필터의 정현 시퀀스의 순시 위상에 잡음 시퀀스를 더함으로써 더욱 감소될 수 있다. 이것은 필터 응답의 순시 위상에 잡음 항을 더함으로써 달성될 수 있다.
Figure 112007013536717-PCT00009
이 잡음 시퀀스 Ni[n]을 π의 작은 부분 편차를 가진 백색 가우시안 잡음과 같게 만드는 것이, 주파수와 ωi(t)로 명시된 지연간의 바람직한 관계는 여전히 크게 유지되면서도, 임펄스 응답을 처프와 같은 것보다는 더 잡음에 유사하게 들리게 하는데 충분하다. 식(5)에 명시된 바와 같은 ωi(t)을 가진 식(7)의 필터는 4개의 자유 파라미터들로서, Li, ai φ0, Ni[n]을 갖는다. 이들 파라미터들을 모든 필터들 hi[n], i=1...N에 걸쳐 서로간에 충분히 다르게 선택함으로써, 식(3)에서 바람직한 역상관 조건들이 충족될 수 있다.
믹싱 계수 계산
시간 및 주파수 가변 혼합 계수들 αi[b, t] 및 βi[b, t]은 원 신호들(xi)의 쌍들간 대역마다의 상관들로부터 엔코더에서 생성될 수 있다. 구체적으로, 대역 b와 시간 t에서 신호(i)와 신호(j)(여기서 "i"는 신호들 1...N 중 어느 하나이고 "j"는 신호들 1...N 중 다른 어느 하나이다)간 정규화된 상관은 식(8)에 의해 주어진다.
Figure 112007013536717-PCT00010
기대값 E는 시간 t 주위의 이웃의 시간 τ에 대해 수행된다. 식(3)의 조건들과 αi 2[b,t]+βi 2[b,t]=1이라는 추가적인 제약조건이 주어졌을 때, 각각 입력신호를 근사화한 디코더 출력신호들(xi, xj)의 쌍들간의 정규화된 상관들은 식(9)로 주어짐을 보일 수 있다.
Figure 112007013536717-PCT00011
본 발명의 일 면은 N 값들 αi[b,t]이 모든 i 및 j에 대해 Cy[b,t]를 생성하기에는 충분하지 못하나 이들은 모든 다른 신호들 j에 관하여 한 특정의 신호 I에 대해 Cij[b,t]=Cij[b,t]이 되도록 선택될 수 있다고 하는 인식이다. 본 발명의 또 다른 면은 시간 t에서 대역 b에서 가장 우세한 신호로서 신호 i를 선택할 수 있다고 하는 인식이다. 우세 신호는 i=1...N에 대해서 Eτ{|Xi[b,τ]|2}이 가장 큰 신호로서 정의된다. 이 우세 신호의 인덱스를 d로서 표기하면, 파라미터들 αi[b,t]는 다음 식으로 주어진다.
Figure 112007013536717-PCT00012
이들 파라미터들 αi[b,t]은 공간 코딩 시스템의 사이드 정보로 보내진다. 디코더에서, 파라미터들 βi[b,t]은 다음 식으로서 계산될 수 있다.
Figure 112007013536717-PCT00013
사이드 정보의 전송 코스트를 줄이기 위해서, 우세 채널과 제2의 가장 우세한 채널만의 파라미터 αi[b,t]을 보낼 수 있다. 이외 모든 다른 채널들에 대한 αi[b,t]의 값은 제2의 가장 우세한 채널의 값으로 설정된다. 다른 근사화로서, 파라미터는 모든 채널들에 대해 동일한 값으로 설정될 수 있다. 이 경우, 우세 채널과 제2 가장 우세한 채널간 정규화된 상관의 제곱근이 사용될 수 있다.
주파수 영역에서 역상관 필터의 구현
분석 및 합성 윈도들을 적합히 선택한 오버랩 DFT를 본 발명의 면들을 효율적으로 구현하는데 사용할 수 있다. 도 4는 적합한 분석/합성 윈도우 쌍의 예를 도시한 것이다. 도 4는 주파수 영역에서 역상관을 적용하기 위한 오버랩 DFT 분석 및 합성 윈도우들을 도시한 것이다. 오버랩 테이퍼된 윈도우들은 재구성된 신호들에서 아티팩트들을 최소화하는데 필요하다.
분석 윈도우는 선택된 오버랩 간격에서 오버랩 분석 윈도우들의 합이 단위값과 같게 되도록 설계된다. 예를 들면 카이저-베셀-유도(KBD) 윈도우의 제곱을 선택할 수도 있다. 이러한 분석 윈도우를 사용하여, 오버랩 DFT들을 전혀 수정하지 않았다면 합성 윈도우를 전혀 사용하지 않고, 분석된 신호를 완벽하게 합성할 수 있 다. 주파수 영역에서 곱셈을 통해 역상관 필터들과의 콘볼루션을 수행하기 위해서, 분석 윈도우는 제로-패드(zero-padded)되어야 한다. 제로-패딩이 없으면, 정규 콘볼루션이 아니라 순환(circular) 콘볼루션이 발생한다. 가장 큰 역상관 필터 길이가 Lmax로 주어진다면, 최소한 Lmax의 분석 윈도우 다음에 제로-패딩이 필요하다. 그러나, 채널간 진폭과 시간 및 위상차들이 주파수 영역에서 적용되고, 이러한 수정에 따라 분선 윈도우 전과 후 모두에서 컨볼루션 누설이 발생하게 된다. 그러므로, 분석 윈도우의 주 로브(lobe) 전 및 후 모두에 추가의 제로-패딩이 더해진다. 마지막으로, 분석 윈도우의 주 로브와 Lmax 길이의 제로-패딩에 대해 단위값인 합성 윈도우가 이용된다. 그러나, 이 영역 밖에서, 합성 윈도우는 합성된 오디오에서 글리치들을 제거하기 위해서 제로로 점점 작아지게 한다. 본 발명의 면들은 이러한 분석/합성 윈도우 구성들 및 제로-패딩의 이용을 포함한다.
한 세트의 적합한 윈도우 파라미터들을 이하 열거한다.
DFT 길이: 2048
합성 윈도우 주-로브 길이(AWML): 1024
호프 크기(HS): 512
리드(leading) 제로-패드(ZPlead): 256
래그(lagging) 제로-패드(ZPlag): 768
합성 윈도우 테이퍼(SWT): 128
Lmax : 640
이러한 윈도우 파라미터들이 적합한 것으로 발견되었다고 해도, 특정 값들은 본 발명에서 중요한 것은 아니다.
Zi[k,t]를 빈(bin) k와 시간 블록 t에서 신호(zi)의 오버랩 DFT로 놓고 Hi[k]를 역상관 필터(hi)의 DFT로 놓으면, 신호(zi)의 오버랩 DFT는 식(11)로 계산될 수 있다.
Figure 112007013536717-PCT00014
여기서, Zi[k,t]는 논의된 분석 윈도우를 이용하여, 다운믹스된 신호들 yj, j=1...M의 오버랩 DFT들로부터 계산되었다. kbBeging 및 kbEnd를 대역 b에 연관된 시작 및 종료 빈 인덱스들이라 놓으면, 식(2)는 식(12)처럼 구현될 수 있다.
Figure 112007013536717-PCT00015
신호들 xi는 각 블록에 대해 역DFT를 수행하고 결과로 나온 시간영역 세그먼트들을 위에 기술한 합성 윈도우를 사용하여 가산함으로써 Xi[k,t]로부터 합성된다.
본 발명의 면들을 실현하는 엔코더의 간단한 예를 도시한 도 2를 참조하면, 입력신호들 xi, PCM 신호들과 같은 복수의 오디오 입력신호들, 1 내지 n의 각각의 아날로그 오디오 신호들의 시간 샘플들이 각각의 시간영역-주파수 영역 변환기들 혹은 변환기능들("T/F")(22)에 인가된다. 표현의 단순화를 위해서, 단지 하나의 T/F 블록만이 도시되었는데, 1 내지 N 입력신호들 각각마다 하나가 있음을 알 것이다. 입력 오디오 신호들은 예를 들면 좌측, 중앙, 우측 등과 같은 공간적 방향들을 나타낼 수 있다. 각각의 T/F는 예를 들면 입력 오디오 샘플들을 블록들로 분할하고, 블록들에 윈도우를 적용하고, 블록들을 오버랩하고, 윈도우가 적용되고 오버랩된 블록들을 이산 주파수 변환(DFT)를 계산함으로써 주파수 영역으로 변환하고 결과로 나온 주파수 스펙트럼들을 사람의 귀의 임계 대역들을 모사하는 대역들, 예를 들면 동등-직사각형 대역(ERB) 스케일을 사용하여 21 대역들로 분할함으로써 구현될 수 있다. 이러한 DFT 프로세스들은 이 기술에 공지되어 있다. 이외 시간영역에서 주파수 영역으로 변환 파라미터들 및 기술들이 채용될 수도 있다. 특정의 파라미터들이든 특정의 기술이든 본 발명에 중대한 것이 아니다. 그러나, 설명의 용이성을 위해서, 여기서의 설명들은 이러한 DFT 변환 기술이 채용되는 것으로 한다.
T/F(22)의 주파수 영역 출력들은 각각이 한 세트의 스펙트럼 계수들이다. 이들 세트들 전부가 다운믹서 혹은 다운믹싱 기능("다운믹스")(24)에 적용될 수 있다. 다운믹서 혹은 다운믹싱 기능은 인용된 공간 코딩 공보들의 여러 것들에 기술된, 혹은 위에 인용된 Davis 등의 국제특허출원에 기술된 바와 같을 수 있다. 다운믹스(24)의 출력, 인용된 코딩 시스템들의 경우에 단일 채널(yi), 혹은 인용된 Davis 문헌에서와 같은 복수의 채널들(yj)은 AAC, AC-3, 등과 같은 임의의 적합한 코딩을 사용하여 인지적으로 엔코딩될 수 있다. 적합한 인지적 코딩 시스템들의 상세를 개시하는 공보들은 이하 참조문헌 제하에 포함된다. 인지적으로 코딩되건 그 렇지 않건 간에, 다운믹스(24)의 출력(들)은 "오디오 정보"로서 특징화될 수 있다. 오디오 정보는 각각이 일반적으로 위에 기술한 T/F의 역함수들, 즉 역FFT를 수행하고 이어서 윈도우 적용과 오버랩-가산을 행하는 주파수영역-시간영역 변환기 혹은 변환기능("F/T")(26)에 의해 시간영역으로 다시 변환될 수 있다. F/T(26)로부터의 시간영역 정보는 엔코딩된 비트스트림 출력을 제공하는 비트스트림 팩커 혹은 팩킹기능("비트스트림 팩커"(28))에 인가된다.
T/F(22)에 의해 나온 다수 세트의 스펙트럼 계수들은 예를 들면 인용된 공간 코딩 공보들의 여러 공보들에 기술된 바와 같이 채널간 진폭차들, 채널간 시간 혹은 위상차들, 채널간 교차-상관과 같은 "공간 파라미터들"을 포함할 수 있는 "사이드 정보"를 계산하는 공간 파라미터 계산기 혹은 계산기능(30)에 인가된다. 공간 파라미터 사이드 정보는 비트스트림에 공간 파라미터들을 포함할 수 있는 비트스트림 팩커(28)에 적용된다.
T/F(22)에 의해 나온 다수 세트의 스펙트럼 계수들은 위에 기술된 바와 같이 교차-상관 팩터들 αi[b,t]를 계산하는 교차-상관 팩터 계산기 혹은 계산기능("교차-상관 팩터들"을 계산하는)에 인가된다. 교차-상관 팩터들은 비트스트림에 교차-상관 팩터들을 포함할 수 있는 비트스트림 팩커(28)에 인가된다. 교차-상관 팩터들은 "사이드 정보"로서 특징화될 수도 있다. 사이드 정보는 오디오 정보의 디코딩에서 유용한 정보이다.
실제적 실시예들에서, 오디오 정보만이 아니라, 사이드 정보 및 교차-상관 팩터들은 이들의 전송 코스트를 최소화하기 위해서 어떤 방식으로 양자화 혹은 코딩될 것이다. 그러나, 표현의 단순화를 위해서 도면들에서는 양자화 및 역양자화는 도시되지 않았으며 이러한 상세들은 공지되어 있고 본 발명의 이해에 도움이 되지 않기 때문이다.
본 발명의 면들을 실현하는 디코더의 단순예가 도시된 도 3을 참조하면, 예를 들면 도 2에 관련하여 기술된 유형의 엔코더에 의해 생성되는 비트스트림은 공간 정보 사이드 정보, 교차-상관 사이드 정보(αi[b,t]), 및 오디오 정보를 제공하는 비트스트림 언팩커(32)에 인가된다. 오디오 정보는 도 2의 변환기들(22) 중 하나와 동일할 수 있는 시간영역-주파수영역 변환기 혹은 변환기능("T/F")(34)에 인가된다. 주파수영역 오디오 정보는 수신되는 공간 파라미터 사이드 정보을 사용하여 동작하는 업믹서(36)에 인가된다. 업믹서는 인용된 공간 코딩 공보들의 여러 공보들에 기술된 바와 같이 동작하고, 혹은 오디오 정보가 복수 채널들로 전송되는 경우, Davis 등의 상기 국제출원에 기술된 바와 같이 동작할 수 있다. 업믹서는 위에 언급된 바와 같이, 복수의 신호들(zi)이다. 업믹스된 신호들(zi) 각각은 위에 기술된 바와 같은 특성(hi)을 갖는 고유 역상관 필터(38)에 인가된다. 표현의 단순성을 위해서 단지 하나의 필터만이 도시되었으나, 각 업믹싱된 신호마다 별도의 고유의 필터가 있음을 알 것이다. 역상관 필터들의 출력들은 위에 기술된 바와 같이 복수의 신호들(zi)이다. 교차-상관 팩터들 αi[b,t]은 곱셈기(40)에 인가되고 여기서 이들 팩터들은, 위에 기술된 바와 같이, 업믹싱된 신호들(zi) 각각들과 곱해진다. 교차-상관 팩터들 αi[b,t]은 위에 기술된 바와 같이 교차-상관 팩터 αi[b,t]로부터 교차-상관 팩터 βi[b,t]를 도출하는 계산기 혹은 계산기능("βi[b,t]를 계산하는")(42)에 인가된다. 교차-상관 팩터들 βi[b,t]은 곱셈기(44)에 인가되고 여기서 이들 팩터들은, 위에 기술한 바와 같이, 역상관 필터링된 업믹스 신호들(zi) 각각들과 곱해진다. 곱셈기들(40, 44)의 출력들은 가산 조합기 혹은 조합기능("+")(46)에서 합산되어 복수의 출력신호들(xi)를 생성하고 이 각각은 대응 입력신호(xi)에 근사하다.
구현
본 발명은 하드웨어 혹은 소프트웨어, 혹은 이들의 조합(예를 들면, 프로그래머블 로직 어레이들)으로 구현될 수 있다. 다른 것이 명시되지 않는 한, 본 발명의 일부로서 포함되는 알고리즘들은 본질적으로 어떤 특정의 컴퓨터 혹은 그 외 다른 장치에 관계되지 않는다. 특히, 여기 교시된 바에 따라 작성된 프로그램들과 함께 각종의 범용 머신들이 사용될 수 있고, 혹은 요구된 방법의 단계들을 수행하기 위해 보다 전용의 장치(예를 들면, 집적회로)를 구성하는 것이 더욱 편리할 수도 있다. 따라서, 본 발명은 각각이 적어도 한 프로세서, 적어도 한 데이터 저장 시스 템(휘발성 및 비휘발성 메모리 및/또는 저장요소들을 포함함), 적어도 한 입력 디바이스 혹은 포트, 및 적어도 한 출력 디바이스 혹은 포트를 포함하는 하나 이상의 프로그램가능 컴퓨터 시스템들에서 실행되는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기 기술된 기능들을 수행하여 출력 정보를 생성하기 위한 입력 데이터에 적용된다. 출력정보는 하나 이상의 출력 디바이스들에 공지된 방식으로 인가된다.
각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 어떤 원하는 컴퓨터 언어(머신, 어셈블리, 혹은 하이 레벨 절차, 논리, 혹은 객체 지향 프로그래밍 언어들을 포함함)로 구현된다. 어째든, 언어는 컴파일된 혹은 번역된 언어일 수 있다.
각각의 이러한 컴퓨터 프로그램은 여기 기술된 절차들을 수행하기 위해 저장 매체 혹은 디바이스가 컴퓨터 시스템에 의해 읽혀졌을 때 컴퓨터를 구성하고 동작시키기 위해서, 범용 혹은 전용 프로그램가능 컴퓨터에 의해 독출가능한 저장매체 혹은 디바이스(예를 들면, 고체상태 메모리 혹은 매체, 혹은 자기 혹은 광학 매체)에 저장되거나 다운로드된다. 본 발명의 시스템은 컴퓨터 프로그램으로 구성되는, 컴퓨터 독출가능의 저장매체로서 구현될 것으로 간주될 수 있고, 이 경우 이와 같이 구성되는 저장매체는 여기 기술된 기능들을 수행하기 위한 특정하고 기정의된 방식으로 컴퓨터 시스템이 동작하게 한다. 본 발명의 다수의 실시예들이 기술되었다. 그러나, 본 발명의 정신 및 범위 내에서 다양한 수정이 행해질 수 있음을 알 것이다. 예를 들면, 여기 기술된 일부 단계들은 순서가 독립적일 수 있으므로 기술 된 것과는 다른 순서로 수행될 수 있다.
참조문헌
다음 특허들, 특허출원들 및 공보들은 이들 전체 각각을 참조문헌으로 여기 포함시킨다.
AC-3
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001. The A/52A document is available on the World Wide Web at
http://www.atsc.org/standards.html.
"Design and Implementation of AC-3 Coders," by Steve Vernon, IEEE Trans. Consumer Electronics, Vol. 41, No. 3, August 1995.
"The AC-3 Multichannel Coder" by Mark Davis, Audio Engineering Society Preprint 3774, 95th AES Convention, October, 1993.
"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications," by Bosi et al, Audio Engineering Society Preprint 3365, 93rd AES Convention, October, 1992.
United States Patents 5,583,962; 5,632,005; 5,633,981; 5,727,119; and 6,021,386.
AAC
ISO/IEC JTC1/SC29, "Information technology - very low bitrate audio-visual coding," ISO/IEC IS- 14496 (Part 3, Audio), 1996
1) ISO/IEC 13818-7. "MPEG-2 advanced audio coding, AAC". International Standard, 1997;
M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, and Y. Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding". Proc. of the 101st ΛES-Convention, 1996;
M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Y. Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", Journal of the AES, Vol. 45, No. 10, October 1997, pp. 789-814;
Karlheinz Brandenburg: "MP3 and AAC explained". Proc. of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999; and
G. A. Soulodre et al.: "Subjective Evaluation of State-of-the-Art Two- Channel Audio Codecs" J. Audio Eng. Soc, Vol. 46, No. 3, pp 164-177, March 1998.
MPEG Intensity Stereo
United States Patents 5,323,396; 5,539,829; 5,606,618 and 5,621,855. United States Published Patent Application US 2001/0044713, published.
Spatial and Parametric Coding
International Application PCT/US2005/006359 of Mark Franklin Davis, filed February 28, 2005, entitled "Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels Are Represented By Fewer Channels and Auxiliary Information.
United States Published Patent Application US 2003/0026441, published February 6, 2003
United States Published Patent Application US 2003/0035553 , published February 20, 2003
United States Published Patent Application US 2003/0219130 (Baumgarte & Faller) published Nov. 27, 2003,
Audio Engineering Society Paper 5852, March 2003
Published International Patent Application WO 03/090207, published Oct. 30, 2003
Published International Patent Application WO 03/090208,
published October 30, 2003
Published International Patent Application WO 03/007656, published January 22, 2003
Published International Patent Application WO 03/090206, published October 30, 2003.
United States Published Patent Application Publication US 2003/0236583 Al, Baumgarte et al, published December 25, 2003, "Hybrid Multi-Channel/Cue Coding/Decoding of Audio Signals," Application S.N. 10/246,570.
"Binaural Cue Coding Applied to Stereo and Multi-Channel Audio Compression," by Faller et al, Audio Engineering Society Convention Paper 5574, 112th Convention, Munich, May 2002.
"Why Binaural Cue Coding is Better than Intensity Stereo Coding," by Baumgarte et al, Audio Engineering Society Convention Paper 5575, 112th Convention, Munich, May 2002.
"Design and Evaluation of Binaural Cue Coding Schemes," by Baumgarte et al, Audio Engineering Society Convention Paper 5706, 113th Convention, Los Angeles, October 2002.
"Efficient Representation of Spatial Audio Using Perceptual Parameterization," by Faller et al, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics 2001, New Paltz, New York, October 2001, pp. 199-202.
"Estimation of Auditory Spatial Cues for Binaural Cue Coding," by Baumgarte et al, Proc. ICASSP 2002, Orlando, Florida, May 2002, pp. II- 1801-1804. "Binaural Cue Coding: A Novel and Efficient Representation of Spatial Audio," by Faller et al, Proc. ICASSP 2002, Orlando, Florida, May 2002, pp. II- 1841 -II- 1844.
"High-quality parametric spatial audio coding at low bitrates," by Breebaart et al, Audio Engineering Society Convention Paper 6072, 116th Convention, Berlin, May 2004.
"Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing," by Baumgarte et al, Audio Engineering Society Convention Paper 6060, 116th Convention, Berlin, May 2004.
"Low complexity parametric stereo coding," by Schuijers et al, Audio Engineering Society Convention Paper 6073, 116th Convention, Berlin, May 2004.
"Synthetic Ambience in Parametric Stereo Coding," by Engdegard et al, Audio Engineering Society Convention Paper 6074, 116th Convention, Berlin, May 2004.
Other U.S. Patent 5,812,971, Herre, "Enhanced Joint Stereo Coding Method Using Temporal Envelope Shaping," September 22, 1998
"Intensity Stereo Coding," by Herre et al, Audio Engineering Society Preprint 3799, 96th Convention, Amsterdam, 1994.
United States Published Patent Application Publication US 2003/0187663 Al, Truman et al, published October 2, 2003, "Broadband Frequency Translation for High Frequency Regeneration," Application S.N. 10/113,858.

Claims (18)

  1. 한 세트의 N 오디오 신호들을 처리하는 방법에 있어서, 시간영역에서 인과적(causal) 선형 시불변 특성이거나 주파수영역에서 그와 동등한 것인 고유 역상관 필터특성으로 N 신호들 각각을 필터링하는 단계, 및 각각의 역상관 필터 특성에 대해서, 시간 및 주파수 가변하여, 그의 입력 및 출력신호들을 결합하여 한 세트의 N개의 처리된 신호들을 제공하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 각 필터 특성의 출력신호가 N 오디오 신호들의 매 신호와의 상관을, 각 필터 특성의 대응 입력신호가 입력신호들의 매 신호와의 상관보다는 낮게 되도록, 그리고 각각의 출력신호가 모든 다른 출력신호와의 상관을, 각 필터특성의 대응 입력신호가 N 입력신호들의 매 다른 신호와의 상관보다 낮게 되도록 각각의 고유 역상관 필터특성이 선택되는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 한 세트의 N 오디오 신호들은 M 오디오 신호들로부터 합성되고, M은 하나 이상이고 N은 M보다 크며, 상기 M 오디오 신호들을 N 오디오 신호들로 업믹싱하는 단계를 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 N 합성된 오디오 신호들간에 원하는 공간적 관계들을 기술하는 파라미터들을 수신하는 단계를 더 포함하고, 상기 업믹싱은 수신된 파라 미터들을 사용하여 동작하는, 방법.
  5. 제1항 내지 제4항 중 한 항에 있어서, 각각의 역상관 필터 특성은 복수의 자유도를 가진 모델인 것을 특징으로 하는, 방법.
  6. 제1항 내지 제5항 중 한 항에 있어서, 각각의 역상관 필터 특성은 지연이 증가하는 주파수에 따라 단조로 감소하는 주파수 가변 지연 형태의 응답을 갖는, 방법.
  7. 제6항에 있어서, 각각의 필터특성의 상기 임펄스 응답은 순시 주파수가 단조로 감소하는 정현 시퀀스의 유한기간으로 특정되는, 방법.
  8. 제7항에 있어서, 잡음 시퀀스가 상기 정현 시퀀스의 순시위상에 더해지는, 방법.
  9. 제1항 내지 제8항 중 한 항에 있어서, 상기 결합은 선형 결합인, 방법.
  10. 제1항 내지 제9항 중 한 항에 있어서, 상기 결합에 의한 결합 정도는 수신된 파라미터들을 사용하여 동작하는, 방법.
  11. 제1항 내지 제9항 중 한 항에 있어서, 상기 처리된 신호들간 원하는 공간적 관계들을 기술하는 파라미터들을 수신하는 단계를 더 포함하고, 상기 결합에 의한 결합정도는 수신된 파라미터들을 사용하여 동작하는, 방법.
  12. 제19항 또는 제11항에 있어서, 오디오 신호들 각각은 채널들을 나타내며 상기 결합동작을 돕는 상기 수신된 파라미터들은 채널간 교차-상관에 관계된 파라미터들인, 방법.
  13. 제12항에 있어서, 다른 수신된 파라미터들은 하나 이상의 채널간 진폭차들 및 채널간 시간 혹은 위상차들에 관계된 파라미터들을 포함하는, 방법.
  14. 제1항 내지 제13항 중 한 항을 실시하는 오디오 프로세서.
  15. 제1항 내지 제13항 중 한 항의 방법들을 수행하게 구성된 장치.
  16. 제1항 내지 제13항 중 한 항의 방법들을 컴퓨터가 수행하게 하는 것으로, 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램.
  17. 제14항의 오디오 프로세서 혹은 제15항의 장치를 컴퓨터가 제어하게 하는 것으로 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램.
  18. 한 세트의 N 오디오 신호들을 처리하는 장치에 있어서, 시간영역에서 인과적 선형 시불변 특성이거나 주파수영역에서 그와 동등한 것인 고유 역상관 필터특성으로 N 신호들 각각을 필터링하는 수단, 및 각각의 역상관 필터 특성에 대해서, 시간 및 주파수 가변하여, 그의 입력 및 출력신호들을 결합하여 한 세트의 N개의 처리된 신호들을 제공하는 수단을 포함하는, 장치.
KR1020077003521A 2004-08-25 2005-08-24 공간 오디오 코딩에서의 복수채널 역상관 KR101178060B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US60472504P 2004-08-25 2004-08-25
US60/604,725 2004-08-25
US70013705P 2005-07-18 2005-07-18
US60/700,137 2005-07-18
US70578405P 2005-08-05 2005-08-05
US60/705,784 2005-08-05
PCT/US2005/030453 WO2006026452A1 (en) 2004-08-25 2005-08-24 Multichannel decorrelation in spatial audio coding

Publications (2)

Publication Number Publication Date
KR20070051856A true KR20070051856A (ko) 2007-05-18
KR101178060B1 KR101178060B1 (ko) 2012-08-30

Family

ID=35448169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077003521A KR101178060B1 (ko) 2004-08-25 2005-08-24 공간 오디오 코딩에서의 복수채널 역상관

Country Status (16)

Country Link
US (1) US8015018B2 (ko)
EP (1) EP1782417B1 (ko)
JP (1) JP4909272B2 (ko)
KR (1) KR101178060B1 (ko)
CN (1) CN101010723B (ko)
AT (1) ATE447756T1 (ko)
AU (1) AU2005280041B2 (ko)
BR (1) BRPI0514620A8 (ko)
CA (1) CA2576739C (ko)
DE (1) DE602005017502D1 (ko)
HK (1) HK1099839A1 (ko)
IL (1) IL181406A (ko)
MX (1) MX2007001949A (ko)
MY (1) MY143850A (ko)
TW (1) TWI393121B (ko)
WO (1) WO2006026452A1 (ko)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
CN101151660B (zh) * 2005-03-30 2011-10-19 皇家飞利浦电子股份有限公司 多通道音频编码器、解码器以及相应方法
EP1866911B1 (en) * 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
EP1905002B1 (en) 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP1946295B1 (en) 2005-09-14 2013-11-06 LG Electronics Inc. Method and apparatus for decoding an audio signal
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
WO2007091850A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
TWI489886B (zh) * 2006-04-03 2015-06-21 Lg Electronics Inc 音頻訊號解碼方法及其裝置
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
EP2054875B1 (en) 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
US8553891B2 (en) * 2007-02-06 2013-10-08 Koninklijke Philips N.V. Low complexity parametric stereo decoder
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
JPWO2009122757A1 (ja) * 2008-04-04 2011-07-28 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP5326465B2 (ja) * 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
TWI413109B (zh) * 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
CA3076203C (en) 2009-01-28 2021-03-16 Dolby International Ab Improved harmonic transposition
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
CN102157149B (zh) * 2010-02-12 2012-08-08 华为技术有限公司 立体声信号下混方法、编解码装置和编解码***
CN102157150B (zh) * 2010-02-12 2012-08-08 华为技术有限公司 立体声解码方法及装置
RU2683175C2 (ru) 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
JP5775637B2 (ja) * 2011-08-04 2015-09-09 ドルビー・インターナショナル・アーベー パラメトリック・ステレオを使った改善されたfmステレオ電波受信機
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
WO2014105857A1 (en) * 2012-12-27 2014-07-03 Dts, Inc. System and method for variable decorrelation of audio signals
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
WO2014126688A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
IN2015MN01952A (ko) * 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
PT3022949T (pt) * 2013-07-22 2018-01-23 Fraunhofer Ges Forschung Descodificador de áudio multicanal, codificador de áudio de multicanal, métodos, programa de computador e representação de áudio codificada usando uma descorrelação dos sinais de áudio renderizados
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105338446B (zh) * 2014-07-04 2019-03-12 南宁富桂精密工业有限公司 音频声道控制电路
CN104518821B (zh) * 2014-12-12 2019-05-24 上海华为技术有限公司 一种宽带波束成形算法、网元以及***
RU2580796C1 (ru) * 2015-03-02 2016-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки
CN106161820B (zh) * 2015-04-16 2019-04-23 中国科学院声学研究所 一种用于立体声声学回声抵消的通道间去相关方法
ES2808096T3 (es) 2016-11-23 2021-02-25 Ericsson Telefon Ab L M Método y aparato para el control adaptativo de los filtros de decorrelación
US10560661B2 (en) 2017-03-16 2020-02-11 Dolby Laboratories Licensing Corporation Detecting and mitigating audio-visual incongruence
AU2018308668A1 (en) 2017-07-28 2020-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
CN113873420B (zh) * 2021-09-28 2023-06-23 联想(北京)有限公司 音频数据处理方法及装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
US5539829A (en) 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
NL9000338A (nl) 1989-06-02 1991-01-02 Koninkl Philips Electronics Nv Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting.
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
JPH08179786A (ja) * 1994-12-20 1996-07-12 Onkyo Corp 車載用ステレオ再生装置
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6096960A (en) * 1996-09-13 2000-08-01 Crystal Semiconductor Corporation Period forcing filter for preprocessing sound samples for usage in a wavetable synthesizer
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
WO1999053674A1 (en) * 1998-04-08 1999-10-21 British Telecommunications Public Limited Company Echo cancellation
JP2000152399A (ja) 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6175631B1 (en) * 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
GB2353926B (en) 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
GB0018787D0 (en) * 2000-07-31 2000-09-20 Scient Generics Ltd Communication system
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US6458044B1 (en) 2001-06-13 2002-10-01 Taylor Made Golf Company, Inc. Golf club head and method for making it
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
ES2323294T3 (es) 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
AU2003216682A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
US8498422B2 (en) 2002-04-22 2013-07-30 Koninklijke Philips N.V. Parametric multi-channel audio representation
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US20050265558A1 (en) * 2004-05-17 2005-12-01 Waves Audio Ltd. Method and circuit for enhancement of stereo audio reproduction
US7876909B2 (en) * 2004-07-13 2011-01-25 Waves Audio Ltd. Efficient filter for artificial ambience
RU2391714C2 (ru) * 2004-07-14 2010-06-10 Конинклейке Филипс Электроникс Н.В. Преобразование аудиоканалов
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR101370365B1 (ko) * 2005-09-13 2014-03-05 코닌클리케 필립스 엔.브이. 3d 사운드를 발생시키기 위한 방법 및 디바이스
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer

Also Published As

Publication number Publication date
US20080126104A1 (en) 2008-05-29
CA2576739A1 (en) 2006-03-09
JP2008511044A (ja) 2008-04-10
WO2006026452A1 (en) 2006-03-09
IL181406A0 (en) 2007-07-04
JP4909272B2 (ja) 2012-04-04
IL181406A (en) 2011-04-28
HK1099839A1 (en) 2007-08-24
KR101178060B1 (ko) 2012-08-30
AU2005280041A1 (en) 2006-03-09
US8015018B2 (en) 2011-09-06
TW200611241A (en) 2006-04-01
DE602005017502D1 (de) 2009-12-17
BRPI0514620A (pt) 2008-06-17
EP1782417B1 (en) 2009-11-04
CN101010723B (zh) 2011-05-18
EP1782417A1 (en) 2007-05-09
AU2005280041B2 (en) 2010-04-22
CN101010723A (zh) 2007-08-01
BRPI0514620A8 (pt) 2018-07-31
MY143850A (en) 2011-07-15
ATE447756T1 (de) 2009-11-15
TWI393121B (zh) 2013-04-11
MX2007001949A (es) 2007-04-23
CA2576739C (en) 2013-08-13

Similar Documents

Publication Publication Date Title
KR101178060B1 (ko) 공간 오디오 코딩에서의 복수채널 역상관
JP5292498B2 (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
US8543386B2 (en) Method and apparatus for decoding an audio signal
MX2007001972A (es) Ensamble de guia de fruta de carriles multiples para un extractor de jugo y metodos relacionados.
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
AU2012205170B2 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150806

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160809

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170810

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190808

Year of fee payment: 8