KR20010040826A

KR20010040826A - 가드 밴드를 사용하는 비디오 신호에 압축 디지털 오디오신호를 삽입하는 방법

Info

Publication number: KR20010040826A
Application number: KR1020007008721A
Authority: KR
Inventors: 크레이그 캠프벨 토드
Original assignee: 쥬더, 에드 에이.; 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 1998-03-13
Filing date: 1999-03-11
Publication date: 2001-05-15
Also published as: EP1062816A1; DE69910360D1; JP2002507101A; ATE247363T1; CN1292979A; DE69910360T2; AU3183099A; DK1062816T3; WO1999046938A1; ES2203101T3; AU760400B2; AR021444A2; MY125807A; BR9909247A; BR9909247B1; HK1036721A1; US6085163A; CA2323564A1; KR100675562B1; TW473702B

Abstract

오디오 신호 프로세서는 인코딩된 오디오 정보를 반송하는 블록 시퀀스에 갭이나 가드 밴드를 형성하며, 가드 밴드를 비디오 정보와 시간 정렬시킨다. 가드 밴드는 프로세싱이나 회로 지연에 있어서 변화를 허용하도록 형성되며, 따라서 삽입된 오디오 정보를 갖는 비디오 정보의 상이한 스트림의 라우팅이나 스위칭이 어떤 인코딩된 오디오 블록들의 손실로도 귀결되지 않도록 한다.

Description

가드 밴드를 사용하는 비디오 신호에 압축 디지털 오디오 신호를 삽입하는 방법{METHOD OF EMBEDDING COMPRESSED DIGITAL AUDIO SIGNAL IN A VIDEO SIGNAL USING GUARD BANDS}

비디오 정보 프레임 내로 디지털 오디오 정보를 삽입(embed)하는 여러 가지 태양을 정의하는 몇몇 국제 표준이 개발되었다. 예를들면, "Society of Motion Picture and Television Engineers (SMPTE)"에 의해 발표된 표준 "SMPTE 259M"은 직렬 디지털 인터페이스(SDI)를 규정하는 바, 거기에서 디지털 오디오 정보 4개의 채널까지가 컴포넌트 및 합성 직렬 디지털 비디오 신호들 내로 삽입될 수 있다. 표준 "SMPTE 272M"은, 오디오 정보가 비디오 정보의 프레임 내에서 보조 데이터 공간 내에 어떻게 삽입될 것인가에 대한 전체적인 정의를 규정한다.

디지털 오디오 정보 자체의 직렬 전송은 여러 국제 표준의 주제이다. 예를들어, "Audio Engineering Society(AES)"에 의해 발표된 표준 "AES3(ANSI S4.40)"은, 선형 펄스 코드 변조(PCM) 형태로 표현되는 2-채널 디지털 오디오의 직렬 전송을 규정한다. 이 표준에 따르면, 두 채널에 대한 PCM 샘플들이 인터리빙되며, 쌍으로 전달된다.

거의 모든 레코드 및 방송 애플리케이션에서 공통적인 동작은, 삽입(embedded) 비디오/오디오 정보 스트림들을 에디팅(editing)하거나 컷팅하고, 새로운 단일 스트림을 형성하기 위해 컷팅된 정보 스트림들을 맞대어 잇는 것이다. 유사한 동작은, 다중 정보 스트림들을 합병하거나 다중 스트림들간을 스위칭함으로써, 하나의 정보 스트림을 생성한다. 에디팅 또는 컷팅 지점이 통상 비디오 프레임과 정렬되도록 비디오 정보는 통상 일차적인 동기화 레퍼런스이다.

"AES11"과 같은 표준은 스튜디오 동작에서 디지털 오디오 장치를 동기화시키는데 있어 권장되는 프렉티스를 규정한다. "AES11"은, 지터(jitter)에 의해 야기되는 타이밍 불확실성을 제어하거나 지연을 처리하는 방향으로 향하여지며, AES3 디지털 오디오 정보 스트림의 2-샘플 프레임을 갖는 비디오 프레임 정보의 정렬을 제공한다. 이 표준을 고집하는 장치(equipment) 및 방법은, 동기화된 신호들이 주어진 시간 주기에 걸쳐 같은 개수의 프레임들을 가지며 공통 타이밍을 갖는 샘플들을 포함한다는 사실을 보증할 수 있다. 불행히도, 비디오 정보와 더 큰 시간간격을 갖는 오디오 정보 간의 정렬을 규정하는 어떤 표준이나 프렉티스도 존재하지 않는다. 결국, 상이한 제조자로부터의 (심지어 같은 제조자로부터의) 장치는, 오디오 및 비디오 정보의 상대적인 정렬에서 상당한 정도의 불확실성을 초래하는 타이밍 및 처리 지연에 있어서 편차를 갖는다.

정렬에 있어서의 이러한 불확실성은, AES3 표준에서 규정되는 것과 같은 오디오 정보의 선형적 표현을 사용하는 애플리케이션에서는 거의 나타나지 않는다. 에디팅 지점들이 오디오 정보의 2-샘플 프레임들 사이에서 어쩔 수 없이 발생하게 되기 때문에, 비디오/오디오 정렬에 있어서의 임의의 불확실성이 오디오 정보의 손실로 귀결되지는 않을 것이다. 그것은 사람에게 전달될 때에 소리와 화상의 상대적인 타이밍에 영향을 미칠 뿐일 것인 바, 이는 식별가능하지 않을 것 같다.

그러나, 하나의 비디오/오디오 데이터 스트림 내로 점점더 많은 개수의 오디오 채널들을 삽입하기 위해 비트-레이트-감소(bit-rate-reduction) 인코딩 기법을 사용하는 애플리케이션의 개수가 증가하고 있다. 이들 인코딩 기법들은, 인코딩된 정보 블록들을 생성하기 위해 128 이상의 오디오 샘플들의 샘플 블록들에 종종 적용된다. 이들 샘플 블록들은 전형적으로, 3 내지 12 ms 의 시간간격에 걸친 오디오 정보를 나타낸다. 이들 인코딩된 프로세스들에 의해 생성된 인코딩된 정보의 각 블록은 최소의 정보 단위를 나타내는 바, 이로부터 원래의 오디오 정보의 일 세그먼트에 대한 상당히 정확한 복제가 재생될 수 있다. 스플리트-밴드(split-band) 코딩 기법은, 심리음향학 기반의 코딩을 오디오 신호의 주파수-서브밴드 표명(representation)에 적용함으로써, 비트 레이트를 감소시킨다. 주파수-서브밴드 표명은 복수개의 밴드패스 필터나 하나 이상의 변환기를 적용함으로서 생성될 수 있다. 설명을 용이하게 하기 위해, 이들 스플리트-밴드 코딩 기법은 이하에서, 서브밴드 신호들을 생성하기 위해 필터뱅크를 적용하는 관점에서 기술된다.

상기 언급된 정렬에 있어서의 불확실성은 이들 블록 코딩 애플리케이션에서 두드러지는 바, 그 이유는 인코딩된 블록의 경계 내로 들어오는 에디팅 지점이 잔여 신호로부터 컷트되는 그 블록의 일부로 귀결되기 때문이다. 인코딩된 블록의 부분적인 손실은 전형적으로 3 ms 이상의 기간에 대한 재생된 신호에 있어서의 손실에 의해 분명해질 것이다. 아마 그러한 손실은 인간의 청각계에 대해 식별가능하게 될 것이다.

이 문제는 후처리(post-processing) 프로세스를 이용하여 회피할 수 있는 바, 거기에서 원래의 오디오 신호들의 PCM 표명은, 인코딩된 오디오에 디코딩 프로세스를 적용함으로써, 재생된 PCM 표명을 요구되는 대로 에디팅함으로써, 및 에디팅된 PCM 오디오 정보에 인코딩 프로세스를 적용하여 새로운 인코딩된 표명을 생성함으로써, 재생된다. 이 솔루션은, 추가의 비용 및 디코딩/재인코딩 프로세스로부터 연유하는 오디오 품질에 있어서의 열화 때문에 매력적이지 못하다. 더욱이, 이하에서 전개될 설명을 읽은 후에 더 잘 이해될 것이지만, 후처리는, 디코딩/재인코딩 프로세스는 오디오 정보 스트림에서 추가의 지연을 가져오므로 매력적이지 못하다.

본 발명은 일반적으로 비디오/오디오 애플리케이션에서 오디오 신호 처리에 관한 것이다. 보다 상세하게는, 본 발명은 신호 처리 지연에서의 정상적인 변이(variations)가 비디오 및 오디오 정보의 정렬을 혼란시키지 않도록 갭이나 가드 밴드들(guard bands)에 의해 분리된 오디오 정보 블록의 시퀀스를 인코딩 및 디코딩하는 블록 코딩 방식에 관한 것이다.

도 1은 다중 비디오/오디오 데이터 스트림을 기록하고 라우팅 하기 위한 시스템의 일 실시예의 기능 블록도이다.

도 2a 내지 2c는 비디오 프레임 레퍼런스들과 여러 가지 정렬을 가지는 가상 오디오 신호들을 그래픽으로 나타낸다.

도 3은 비디오 신호들을 삽입 오디오 정보로 처리하기 위한 장치의 일 실시예의 기능 블록도이다.

도 4는 본 발명의 여러 측면에 따른 인코딩 오디오 신호 처리기의 일 실시예의 기능 블록도이다.

도 5a 내지 5c는 본 발명에 따라 처리된 및 비디오 프레임 레퍼런스들과 여러 가지 정렬을 가지는 가상 오디오 신호들을 그래픽으로 나타낸다.

도 6은 비디오 신호들을 삽입 오디오 정보로 처리하기 위한 장치의 일 실시예의 기능 블록도이다.

도 7은 본 발명의 여러 측면에 따른 디코딩 오디오 신호 처리기의 일 실시예의 기능 블록도이다.

도 8a 및 8b는 본 발명의 여러 측면에 따라 인코딩 및 디코딩된 가상 오디오 신호들을 그래픽으로 나타낸다.

도 9는 윈도우 함수에 의해 가중치가 부여된 오디오 정보 블록들의 중첩을 그래픽으로 개략적으로 나타낸다.

본 발명의 목적은 이상의 문제점들을 회피하면서 에디팅 및 스위칭과 같은 동작들을 허용하는 비디오/오디오 정보 스트림들을 삽입하는 프로세싱을 제공하는 것이다.

본 발명의 한 특징에 따른 방법은, 오디오 정보를 반송하는 입력 오디오 신호를 수신하고, 비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하고, 블록-인코딩 프로세스를 입력 오디오 신호에 적용하여 비트-레이트 감소 형태로 오디오 정보를 표명하는 인코딩된 정보의 블록들을 생성하고, 해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 해당 시퀀스의 개시 블록이 선행 시퀀스의 종료 블록과 이격되도록 인코딩된 정보 블록들의 복수개의 시퀀스들을 포함하는 출력 신호로 인코딩된 정보 블록들을 취합한다.

본 발명의 다른 특징에 따른 방법은, 비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하고, 입력 신호를 수신하여 그에 응하여 인코딩된 정보 블록들의 복수개의 시퀀스들을 생성하고 (이때, 해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 블록들 중 해당 블록 시퀀스의 개시 블록이 선행 블록 시퀀스의 종료 블록과 이격되도록 한다), 인코딩된 정보 블록들에 블록-디코딩 프로세스를 적용하여 디코딩된 형태로 인코딩된 정보를 표명하는 오디오 정보를 생성한다 (이때, 오디오 정보의 해당 세그먼트는 인코딩된 정보 블록들의 해당 시퀀스로부터 생성되며, 오디오 정보의 해당 세그먼트는 해당 비디오 프레임 레퍼런스에 후속하는 비디오 프레임 레퍼런스와 시간 정렬되도록 한다).

본 발명의 여러 가지 특징들과 그 바람직한 실시예들은 다음의 설명과 몇몇 도면에서 같은 부호가 같은 구성요소들에게 부여된 첨부도면을 참조하여 더욱 잘 이해될 수 있다. 여러 가지 장치들을 도시한 도면들은 본 발명의 이해에 도움이 되는 주요 구성요소들을 나타내고 있다. 다음의 설명의 내용과 도면들은 오직 실예를 위한 것으로서, 본 발명의 범위를 제한하는 것으로 이해되지 않아야 한다.

본 발명을 수행하기 위한 모드들

시스템 개관

도 1은 다중 비디오/오디오 데이터 스트림을 기록하고 라우팅하기 위한 시스템의 일 실시예를 도시하며, 본 발명의 여러 측면들을 유익하게 채용할 수 있는 시스템의 일예를 나타낸다. 간결성을 위해, 다른 모든 도면은 물론 이 도면 역시, 장치(equipment)를 동기시키는데 사용되는 마스터 클록 신호를 운반하는 신호 경로는 도시하지 않는다. 이 설명에서, 경로 21, 22, 23 및 24를 따라 생성된 것들과 같은 신호들은 표준 SMPTE 259M 및 SMPTE 272M을 따른다고 가정한다. 다만, 어떤 특정 표준이나 신호 포맷도 본 발명을 실현하는 데에 필수적인 것은 아니다. 예를들어, 시스템의 또다른 실시예에서는, 각 비디오 정보 및 오디오 정보를 각각 반송하는 별도의 신호들이 경로 21 내지 24를 따라서 생성되며, 라우터(31)는 비디오 및 오디오 정보를 별도로 라우팅하는 회로망을 포함한다. 그러한 일 실시예에서, SDI 탈삽입기(disembedder)가 SDI 삽입기(12) 및 라우터(31) 간에 삽입된다. 이 변형예는, 어떤 특정 신호 포맷도 본 발명에 대해 필수적인 것이 아니라는 사실을 보이기 위해 여기에 언급된다.

비디오 테이프 레코더(VTR)(16)는, 경로 1로부터 비디오 정보를 경로 2로부터 오디오 정보를 수신하며, 이 비디오/오디오 정보를 테이프 상에 기록한다. 그후, VTR(16)은 테이프 상에 기록된 비디오/오디오 정보를 판독하며, 비디오 정보를 삽입 오디오 정보와 함께 반송하는 재생 신호를 경로 21을 따라 생성한다. 유사한 방식으로, VTR 17 은 경로 3 및 4로부터 각각 수신된 비디오 및 오디오 정보를 기록하며, 그후 비디오 정보를 삽입 오디오 정보와 함께 반송하는 재생 신호를 경로 22를 따라 생성한다.

VTR 16, VTR 17 및 VTR 18 은, 재생 도중 비디오 정보 내로 오디오 정보를 삽입하기 위한 직렬 디지털 인터페이스 삽입기(SDI embedder)와 같은 회로망을 포함한다.

SDI 삽입기(11)는, 경로 5 및 6으로부터 각각 비디오 및 오디오 정보를 수신하며, 디지털 비디오 정보를 삽입 디지털 오디오 정보와 함께 반송하는 신호를 경로 14를 따라 생성한다. SDI 탈삽입기와 같은 회로망을 포함하는 VTR 18은, 비디오/오디오 데이터 신호로부터 오디오 정보를 취출하며 테이프 상에 분리된 비디오 및 오디오 정보를 기록한다. 그후, VTR 18은, 테이프로부터 비디오 및 오디오 정보를 재생하고, 비디오 및 삽입 오디오 정보를 반송하는 재생 신호를 경로 23을 따라 생성하기 위해 SDI 삽입기와 같은 회로망을 사용한다. 그러나, 만약 디지털 데이터 레코더가 VTR(18) 대신 사용된다면, 비디오/오디오 데이터 스트림 자체가 기록되고 재생될 수 있으므로, 삽입기나 탈삽입기 회로의 어느 것도 레코더에 필요치 않게 된다.

SDI 삽입기 12 는, 경로 7 및 8 로부터 각각 비디오 및 오디오 정보를 수신하며, 디지털 비디오 정보를 삽입 디지털 오디오 정보와 함께 반송하는 신호를, 경로 24를 따라 생성한다.

SDI 라우터(31)는 경로 21, 22, 23 및 24로부터 비디오/오디오 신호를 수신하며, 이들 신호들을 경로 34를 따라 재생/기록 장치(41)로 선택적으로 라우팅하거나 스위칭한다. SDI 라우터(31)로부터 수신된 신호의 개수는 중요하지 않다. 재생/기록 장치(41)는, 경로 34를 통과하는 신호를 사용하는 임의의 장치를 나타낸다. 예를들어, 그것은 VTR과 같은 기록 장치 또는 텔레비젼 세트와 같은 재생 장치일 수 있다. 더욱이, 재생/기록 시스템(41)은 SDI 삽입기(31)와 이격되어 위치할 수 있는 바, 이 경우, 경로 34는 통신 또는 방송 채널을 나타낸다.

비디오/오디오 정렬에서의 쉬프트

VTR 16, 17 및 18 에 있어서 및 SDI 삽입기 11 및 12 에 있어서의 회로 지연은, 비디오 정보 및 오디오 정보의 상대적인 정렬을 변경할 수 있다. 결과적으로, 예를들어, 재생 신호(21)에서 비디오/오디오 정보의 정렬은, 경로 1 및 2 로부터 각각 수신될 때 비디오 정보 및 오디오 정보 간의 정렬에 대해 쉬프트될 수 있다. 정렬에 있어서의 변화량은 상이한 제조자들로부터의 장치들 간에 변화를 주게되며, 동일한 제조자로부터의 장치의 상이한 부분 간에도 변화를 주게될 수 있으며, 심지어는, 예를들어, 버퍼의 초기 상태의 기능으로서의 장치의 주어진 부분 내에서도 변화를 주게될 수 있다.

도 2a를 참조하면, 신호 111은 비디오 프레임 레퍼런스들 101 및 102와 특정 정렬을 갖는 오디오 정보를 나타낸다. 이들 비디오 프레임 레퍼런스들의 각각은, 각 비디오 프레임에서의 특정 레퍼런스점을 나타낸다. 예를들어, NTSC 비디오 정보에 대한 공통 레퍼런스점은, 각 프레임 내의 라인에 대한 비디오 정보와 일치한다. PAL 비디오 정보에 대한 공통 레퍼런스점은 각 프레임 내의 라인과 일치한다. 어떤 특정 정렬도 본 발명의 실현에 있어서 결정적이지 않다.

도 2b에서, 신호 121은 신호 111에 의해 반송된 그러나 신호 111에 대해 지연된 것과 동일한 오디오 정보를 나타낸다. 결과적으로, 신호 121과 비디오 프레임 레퍼런스들 간의 정렬은 신호 111에 대한 정렬에 대해 쉬프트된다. 도 2c에서, 신호 131은 신호 111에 의해 반송된 그러나 신호 111에 대해 앞선 것과 동일한 오디오 정보를 나타낸다. 그래서, 신호 131과 비디오 프레임 레퍼런스들 간의 정렬은 신호 121의 정렬에 있어서의 쉬프트와 정반대의 방식으로 쉬프트된다.

도 1을 참조하여, 도 2a에 나타난 오디오 정보 및 정렬이 경로 1/2, 3/4, 5/6 및 7/8에 의해 반송된다고 가정한다. 도 2a 내지 도 2c에 도시된 것과 같은 정렬에 있어서의 상이한 쉬프트들은 경로 21 내지 24를 따라서 생성된 신호들에 존재할 것 같다. 도 2 a 내지 도 2c에 도시된 정렬이 경로 21 내지 23을 따라서 생성된 신호들에 존재한다고 또한 가정한다. SDI 라우터(31)가 이들 세 경로로부터 수신된 신호들 사이를 스위칭할 때, 조그만 불연속성이 경로 34를 통과하는 신호에 삽입된 오디오 정보에서 발생할 것이다. 만약 오디오 정보가 PCM과 같은 선형 형태로 나타난다면, 이 불연속성은, 그 불연속성이 몇몇 샘플들에만 존재하기 때문에, 아마 청취자에 의해 감지될 수 없을 것이다. 상이한 오디오 내용을 갖는 두 신호들 간의 불연속성을 감지하는 것은 특히 어렵다.

인코딩의 효과

그러나, 상술한 바와 같이, 비디오/오디오 데이터 스트림에 점점 더 많은 개수의 오디오 채널을 삽입하는 것에 관심이 증가하고 있다. 이들 더 많은 개수의 오디오 채널들 내의 정보 능력이 오디오 정보에 대해 가용 공간의 능력을 초과할 때, 비트-레이트 압축 또는 밴드폭의 몇몇 형태가 채용된다. 그러한 압축의 일예는 심리음향학 원리에 기반을 둔 오디오 코딩이다.

이들 인코딩 기법은 종종 인코딩된 정보의 블록들을 생성하기 위해 오디오 샘플들의 블록들에 적용된다. 이들 샘플 블록들은 전형적으로 3 내지 12 ms의 시간간격에 걸친 오디오 정보를 나타낸다. 이들 인코딩 프로세스들에 의해 생성된 인코딩된 정보의 각 블록은 정보의 최소 단위를 나타내는 바, 그로부터 원래 오디오 정보의 세그먼트의 상당히 정확한 복재가 재생될 수 있다.

인코딩된 정보 블록 (112) 의 시퀀스는 도 2a에서 펄스 열로 표시된다. 이들 블록에 의해 반송되는 정보는 신호 111에서 오디오 정보의 인코딩된 표명이다. 펄스들의 형태 및 크기는 중요하지 않다. 펄스 열은, 상호 인접할 또는 바람직하게는 상호 오버랩될 오디오 샘플들의 블록들에 대응하는 인코딩된 정보를 반송하는 블록 시퀀스를 암시할 목적으로만 사용된다. 도 2a에서 보인 실시예에서, 인접 비디오 프레임 레퍼런스들 간의 간격에 걸친 오디오 정보는, 인코딩된 정보의 6개 블록에 의해 표명된다. 비디오/오디오 애플리케이션에서 오디오 코딩의 품질을 개선하기 위한 여러 가지 고려가 함께 계류중인 미국 특허 출원 제 08/953,106 호에 개시되어 있는 바, 이는 그 전체가 참조로 본 명세서에 편입된다.

블록 인코딩 기법들이 도 1의 시스템에서 사용될 때, SDI 라우터(31)가 경로 21 내지 24로부터 수신하는 신호는 블록 인코딩된 오디오 정보를 포함한다. 상기 설명한 바와 같이, 정렬이 변화하는 쉬프트는, 인코딩된 정보 블록들과 비디오 프레임 레퍼런스들 간에 발생할 수 있다. 이는, 예를들어 비디오 프레임 레퍼런스 101 과 도 2a, 2b 및 2c에서 각각 보인 블록 112, 122 및 132 사이에서 상이한 정렬로 도시될 수 있다. 상술한 바와 같이, 도 2a 내지 2c에 도시된 정렬이 경로 21 내지 23을 따라 생성된 신호들에 존재한다고 가정한다. SDI 라우터(31)가 비디오 프레임 레퍼런스 101에서 도 2b에 도시된 경로 22를 통해 수신된 신호로부터 도 2c에 도시된 경로 23을 통해 수신된 신호로 스위칭될 때, 스위칭 지점에서 상당한 양의 오디오 정보는 경로 23을 따라 라우팅된 신호로부터 재생될 수 없다. 상기 스위칭 지점 이전에 블록 123에 반송된 오디오 정보는, 한편으로는 전체 블록이 오디오 정보를 재생하는데 필요하기 때문에, 그러나 한편으로는 상기 스위칭 지점 후의 블록의 부분이 손실되기 때문에, 재생될 수 없다. 유사하게, 상기 스위칭 지점 후의 블록 133에 반송된 오디오 정보는, 상기 스위칭 지점 이전의 블록 133의 부분이 손실되기 때문에, 재생될 수 없다.

이 문제는 도 1 에 도시된 형태의 시스템에 특유의 것은 아니다. 상기 문제는 또한, 예를들어, 단일 VTR에 대해 테이프 에디트나 오디오 더빙에서도 발생한다.

이하에서 더 충분히 설명되겠지만, 본 발명은, 비디오/오디오 정렬에서의 상당한 변동이 오디오 정보의 손실 없이 허용될 수 있도록 인코딩된 오디오 스트림 내의 가드 밴드나 갭을 형성함으로써, 이상의 문제를 극복한다.

인코딩 신호 프로세서

도 3은, 도 1에 도시된 바와 같은 시스템에 다양한 방식으로 편입될 수 있는 비디오/오디오 신호 프로세서를 도시한다. 상기 실시예에서, 비디오 정보를 삽입 오디오 정보와 함께 반송하는 복수개의 신호들은, 입력 신호 경로 61-1, 61-2 및 61-3으로부터 수신된다. 세 개의 입력 신호 경로가 상기 도면에 보여진다. 그러나, 본 발명의 실시예들은, 임의 개수의 입력 신호들에 대한 신호 경로들을 가질 수 있다. 신호 분배기(62)는, 스위칭, 머어징(merging), 에디팅, 스플라이싱(splicing) 및 저장/검색을 포함하는 광대역 신호 분배 프로세스들의 넓은 범위를 나타낸다. 간결성을 위해, 여기에서의 도시 및 설명은, 신호 분배기(62)가 복수개의 비디오/오디오 신호를 수신하고 그들 신호를 몇몇 방식으로 처리 및/또는 분배하여 비디오 정보를 삽입 오디오 정보와 함께 반송하는 단일 신호를 경로 63을 따라 생성한다고 가정한다. 디포맷터(64)는 비디오/오디오 정보를 경로 63으로부터 수신하여, 삽입 오디오 정보를 취출하고 그것을 경로 65를 따라 패스한다. 비디오 정보는 경로 69를 따라 패스될 수 있다. 오디오 신호 프로세서(66)는, 경로 65로부터 오디오 정보를 수신하고 블록-인코딩 프로세스를 오디오 정보에 적용하여 인코딩된 정보의 블록들을 경로 67을 따라 생성한다. 포맷터(68)는, 경로 67로부터 인코딩된 정보의 블록들을 수신하며, 경로 70을 따라 출력 신호를 생성하는 바, 상기 출력 신호는, 어떤 시퀀스에서의 개시 블록과 선행 시퀀스에서의 종료 블록 간에 갭이나 가드 밴드를 갖는 복수개의 인코딩된 정보의 블록 시퀀스들을 포함한다. 마스터 클록 신호와 같은 레퍼런스 신호를 사용하여, 상기 갭이나 가드 밴드가 비디오 정보와 시간 정렬된다.

이상 언급한 바와 같이, 도면들에는, 장치들을 동기시키는데 사용되는 마스터 클록 신호들을 운반하는 신호 경로들을 도시되어 있지 않다. 바람직한 실시예에서, 오디오 신호 프로세서(66)는, 마스터 클록 신호와 정렬되는 오디오 샘플 블록들을 형성한다. 이 정렬이 도 2a에 도시되어 있는 바, 거기서 인접 샘플 블록들 간의 경계는 비디오 프레임 레퍼런스 101 및 102와 일치한다. 다만, 다른 정렬은 사용되지 않는다.

도 5a를 언급하면, 블록 시퀀스 112-2가 신호 세그먼트 111-2를 나타내는 인코딩된 정보를 반송하는 바, 이는, 비디오 프레임 레퍼런스 101 및 102 사이의 신호부 111의 가상 시간-압축 표명이다. 유사하게, 블록 시퀀스 112-1은 신호 세그먼트 111-1을 나타내는 인코딩된 정보를 반송하며, 블록 시퀀스 112-3은 신호 세그먼트 111-3을 나타내는 인코딩된 정보를 반송한다. 오디오 신호 프로세서(66) 및 포맷터(68)는 오디오 정보의 인코딩된 표명을 반송하는 블록 시퀀스들을 생성하는 바, 거기에서는 일례로 가드 밴드 또는 갭이 시퀀스 112-1 내의 종료 블록과 시퀀스 112-2 내의 개시 블록 간에 형성되어 있다.

도 2a 내지 2c 에 도시된 정렬에 있어서의 쉬프트는 또한 도 5a 내지 5c 에 도시된다. 이들 도면에서, 시퀀스 122-1, 122-2, 122-3, 132-1, 132-2 및 132-3 은, 각각 신호 세그먼트 121-1, 121-2, 121-3, 131-1, 131-2 및 131-3을 나타내는 인코딩된 정보를 반송한다. 도 5b 및 5c로부터 보는 바와 같이, 비디오 프레임 레퍼런스 101 및 102에서의 잠정적인 스위칭 점이 가드 밴드 내에서 발생하기 때문에 정렬에 있어서의 쉬프트의 결과로서 오디오 정보에 있어서 어떤 손실도 발생하지 않는다.

예를들어, 도 3에 도시된 신호 프로세서는, 삽입 AES3 또는 PCM 오디오 정보를 포함하는 비디오 신호를 처리하도록 SDI 라우터 내로 편입될 수 있다. 신호 분배기(62)를 생략하는 실시예가 VTR 또는 SDI 삽입기 내로 편입될 수 있다. 또한 디포맷터(64)를 생략하는 또다른 실시예가 VTR 내로 또는 SDI 삽입기의 입력 회로 내로 편입될 수 있다.

도 4는, 도 3에 도시된 실시예 내로 편입하기에 적절한 그리고 또한 이하에서 설명하는 바와 같이 별도의 활용도를 갖는 인코딩 오디오 신호 프로세서의 일 실시예를 도시한다. 이 실시예에 의하면, 오디오 신호 프로세서(66)는 복수개의 필터뱅크 71, 72 및 73을 포함한다. 필터뱅크 71은 경로 65-1로부터 수신된 신호에 응하여 경로 75-1 내지 75-3을 따라 복수개의 주파수 서브밴드 신호들을 생성한다. 필터뱅크 72는 경로 65-2로부터 수신된 신호에 응하여 경로 76-1 내지 76-3을 따라 복수개의 주파수 서브밴드 신호들을 생성한다. 필터뱅크 73은 경로 65-3으로부터 수신된 신호에 응하여 경로 77-1 내지 77-3을 따라 복수개의 주파수 서브밴드 신호들을 생성한다. 필터뱅크 71, 72 및 73은, 대역통과 필터열, 대역저지 필터들의 종속결합 세트, 및 하나 이상의 시간영역-대-주파수영역 변환기를 포함하는 여러 가지 방식으로 구현될 수 있다. 단지 3개의 필터뱅크가 보여지며 각 필터뱅크에 대해 단지 3개의 서브밴드 신호만이 보여지고 있으나, 일 실시예는 각각이 24 개 이상의 서브밴드 신호를 생성하는 보다 많은 개수의 필터뱅크들 (이때, 각각은 사람의 청각계의 임계 대역폭과 같은 정도의 또는 그보다 미만의 대역폭을 갖는 주파수 서브밴드를 나타낸다) 을 포함할 수 있다. 인코더(79)는, 블록 인코딩 프로세스를 서브밴드 신호들에 적용하며, 경로 65-1, 65-2 및 65-3을 통해 수신된 오디오 정보로부터 인코딩된 형태로 표현하는 블록 시퀀스를 경로 67을 따라 생성한다.

스플리트-밴드(split-band) 코딩이 본 발명의 실현에 필수적인 것은 아니다. 블록-압신된(block-companded) PCM이나 델타-변조와 같은 다른 형태의 코딩이 적용될 수 있다.

하나의 실질적인 실시예에서, 인코딩 오디오 신호 프로세서는, 선형 PCM 형태로 8개 채널의 오디오 정보를 (또는 택일적으로 4개의 AES3 데이터 스트림을) 수신하며, 8개의 필터뱅크들 및 하나의 인코더를 사용하는 바, 상기 인코더는, 선형 PCM 형태로 두 개 채널의 오디오 정보를 (또는 택일적으로 하나의 AES3 데이터 스트림을) 반송하도록 요구되는 것 이하의 대역폭 또는 스페이스 내에서 반송될 수 있는 가드 밴드를 갖는 인코딩된 정보 블록들을 생성하도록 블록 인코딩 프로세스를 적용한다.

디코딩 신호 프로세서

도 6은, 도 1에 도시된 바와 같은 시스템에 다양한 방식으로 편입될 수 있는 비디오/오디오 신호 프로세서를 도시한다. 상기 실시예에서, 비디오 정보를 삽입 인코딩된 오디오 정보와 함께 반송하는 복수개의 신호들은, 입력 신호 경로 81-1, 81-2 및 81-3으로부터 수신된다. 세 개의 입력 신호 경로가 상기 도면에 보여진다. 그러나, 본 발명의 실시예들은, 임의 개수의 입력 신호들에 대한 신호 경로들을 가질 수 있다. 신호 분배기(82)는, 스위칭, 머어징(merging), 에디팅, 스플라이싱(splicing) 및 저장/검색을 포함하는 광대역 신호 분배 프로세스들의 넓은 범위를 나타낸다. 간결성을 위해, 여기에서의 도시 및 설명은, 신호 분배기(82)가 복수개의 비디오/오디오 신호를 수신하고 그들 신호를 몇몇 방식으로 처리 및/또는 분배하여, 비디오 정보와 함께 배열된 시퀀스들 간의 가드 밴드나 갭을 갖는 복수개의 시퀀스들로 배열된, 삽입 인코딩된 오디오 정보와 함께 비디오 정보를 반송하는 신호를 경로 83을 따라 생성한다고 가정한다. 디포맷터(84)는 비디오/오디오 정보를 경로 83으로부터 수신하여, 인코딩된 오디오 정보를 반송하는 삽입 블록 시퀀스들을 취출하고 취출된 시퀀스들을 경로 85를 따라 패스한다. 비디오 정보는 경로 89를 따라 패스될 수 있다. 오디오 신호 프로세서(86)는, 경로 85로부터 인코딩된 오디오 정보의 블록 시퀀스들을 수신하고 블록-디코딩 프로세스를 인코딩된 오디오 정보의 블록의 각 시퀀스에 적용하여 디코딩된 오디오 정보의 각 세그먼트를 경로 87을 따라 생성한다. 각 해당 세그먼트는, 마스터 클록 신호와 같은 레퍼런스 신호 또는 경로 83으로부터 수신된 비디오/오디오 신호로부터 취출(extract)되거나 파생(derive)된 레퍼런스 신호에 따라 비디오 정보와 시간 정렬된다.

도 8a는, 블록 112-2가 신호 세그먼트 111-2를 나타내는 인코딩된 정보를 반송한다는 도 5a의 내용을 재현하고 있는 바, 이는 비디오 프레임 레퍼런스 101 및 102 간의 신호 111의 상기 부분의 가상 시간-압축 표명이다. 오디오 신호 프로세서(86)는, 일례로 신호 세그먼트 111-2를 생성하기 위해, 블록-디코딩 프로세스를 블록 시퀀스 112-2에 적용한다. 다만, 도 8b에서 보는 바와 같이, 신호 세그먼트 111-2에 대응하는 신호 111의 상기 부분이 생성되어, 비디오 프레임 레퍼런스 101과 정렬된다. 이 정렬은, 비디오 레퍼런스와 디코딩된 오디오 정보를 적절한 양만큼 지연시킴으로써 달성될 수 있다. 보여진 실시예에서, 도 8a에서의 비디오 레퍼런스들과 비교하여 도 8b에서의 비디오 레퍼런스들은 하나의 비디오 프레임의 기간과 완전히 동일한 시간간격 만큼 지연된다. 어떤 특정 지연 시간간격도 본 발명의 실현에 결정적인 것은 아니다. 다만, 바람직한 실시예에서, 마스터 클럭과의 동기가 유지되도록, 비디오 레퍼런스들은 프레임의 정수배 (전형적으로 1 프레임) 만큼 지연된다.

도 6에 도시된 신호 프로세서 실시예는, 일례로 삽입 인코딩된 오디오 정보를 포함하는 비디오 신호들을 처리하기 위해, SDI 라우터 내로 삽입될 수 있다. 삽입 인코딩된 오디오 정보를 포함하는 비디오 신호를 수신하고 디코딩할 수 있는 신호 분배기(82)를 생략한 실시예가, VTR, SDI 탈삽입기, 및 재생/기록 장치(41)를 포함하는 다양한 장치 내로 편입될 수 있다.

오디오 신호 프로세서(86)를 디코딩하는 일 실시예가 도 7에 보여진다. 보여진 실시예에서, 디코더(91)는, 경로 85로부터 인코딩된 정보의 블록들의 시퀀스들을 수신하며, 복수개의 채널들에 대해 주파수 서브밴드 신호들을 재생한다. 제 1 채널에 대한 서브밴드 신호들은, 경로 95-1, 95-2 및 95-3을 통해 패스되며, 제 2 채널에 대한 서브밴드 신호들은, 경로 96-1, 96-2 및 96-3을 통해 패스되며, 제 3 채널에 대한 서브밴드 신호들은, 경로 97-1, 97-2 및 97-3을 통해 패스된다. 세 개의 채널들만이 (각각은 세 개의 서브밴드 신호들을 갖는다) 보여진다. 다만, 상술한 바와 같이, 실시예는 다소 많거나 적은 개수의 채널들을 포함할 수 있으며, 이들 채널들은 상당히 많은 개수의 서브밴드 신호들에 의해 표명될 수 있다. 경로 95-1, 95-2 및 95-3으로부터 수신된 서브밴드 신호들에 응하여, 필터뱅크 99-1은 경로 87-1을 따라 제 1 채널에 대해 오디오 정보를 생성한다. 경로 96-1, 96-2 및 96-3으로부터 수신된 서브밴드 신호들에 응하여, 필터뱅크 99-2는 경로 87-2를 따라 제 2 채널에 대해 오디오 정보를 생성한다. 경로 97-1, 97-2 및 97-3으로부터 수신된 서브밴드 신호들에 응하여, 필터뱅크 99-3은 경로 87-3을 따라 제 1 채널에 대해 오디오 정보를 생성한다. 경로 89로부터 수신된 비디오-프레임 레퍼런스 신호는, 필터뱅크 99-1, 99-2 및 99-3에 의해 생성된 오디오 정보를 정렬하는데 사용된다.

블록 및 윈도우 함수들의 오버랩핑

정보 블록을 표명하도록 도면에서 사용된 펄스열은, 인접 블록들이 인접하고 있으나 서로 오버랩하지는 않는다는 사실을 암시한다. 블록들의 어떤 특정 배열도 본 발명의 실현에 결정적인 것은 아닐지라도, 바람직한 실시예들은 서로 오버랩하는 블록들을 처리한다. 일반적으로, 오디오 정보의 오버랩된 블록들은, 가중치가 부여되며 윈도우 함수에 의해 변조되어, 인접 블록들에서 오버랩된 샘플들의 합은 어떤 상수와 실질적으로 같아진다.

도 9는 블록 시퀀스를 도시한다. 시퀀스에서 개시 블록(141)은 인접 블록 142와 오버랩한다. 시퀀스에서 모든 블록들은, 시간 영역에서 대응하는 오디오 정보에 가중치를 부여하는 데 사용되는 윈도우 함수의 형태를 갖는 포락선에 의해 표명된다. 시퀀스에서의 종료 블록(146)은 이전 블록 및 도면에는 미도시된 이후 블록과 오버랩한다. 오버랩의 정도와 윈도우 함수의 선택은 코딩화의 수행에서 중요한 효과를 가질 수 있으나, 어떤 특정 윈도우 함수나 오버랩의 정도도 본 발명의 실현에 있어서 결정적인 것은 아니다. 바람직한 실시예에서, 오버랩의 정도는 블록 길이의 절반이며, 윈도우 함수는 카이저-베셀(Kaiser-Bessel) 함수이다.

상술한 바와 같이, 오디오 신호 프로세서(86)는 비디오 프레임 레퍼런스와 정렬된 오디오 정보를 생성한다. 오디오 정보의 블록 시퀀스를 생성하는 실시예에서, 비디오 프레임이 필수적으로 시퀀스의 임의의 블록에서의 임의의 지점과 일치하도록 상기 정렬이 이루어질 수 있다. 도 9에 보인 실시예에서, 개시 블록(141)의 시작은 비디오 프레임 레퍼런스 100과 일치한다.

몇몇 애플리케이션에서, 정확한 일치점은 비디오 프레임에 따라서 변경될 수 있다. 예를들어, 디지털 오디오 정보를 NTSC 비디오 정보와 결합하는 애플리케이션에 있어서, 오디오 샘플링 레이트(rate)가 비디오 프레임 레이트의 정수배이지 않기 때문에, 후속 비디오 프레임은 변동하는 오디오 샘플 수를 가질 수 있다.

블록 길이에 대한 여러 가지 고려, 윈도우 함수 및 비디오/오디오 정렬은, 위에서 언급된 미국 특허 출원 제 08/953,106 호에 논의되어 있다.

Claims

오디오 정보를 반송하는 입력 오디오 신호를 수신하는 단계;

비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하는 단계;

블록-인코딩 프로세스를 상기 입력 오디오 신호에 적용하여 비트-레이트 감소 형태로 상기 오디오 정보를 표명하는 인코딩된 정보의 블록들을 생성하는 단계; 및

해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 해당 시퀀스의 개시 블록이 선행 시퀀스의 종료 블록과 이격되도록 인코딩된 정보 블록들의 복수개의 시퀀스들을 포함하는 출력 신호로 인코딩된 정보 블록들을 취합하는 단계

를 포함하는 것을 특징으로 하는 오디오 정보의 처리 방법.
제 1 항에 있어서, 상기 블록-인코딩 프로세스는, 더 적은 중복성(redundancy)이나 더 적은 지각적 무관성(perceptual irrelevance) 또는 상기 양자를 포함하는 형태로 상기 오디오 정보를 인코딩하는 것을 특징으로 하는 방법.
제 2 항에 있어서, 상기 블록-인코딩 프로세스는,

밴드패스 필터들의 뱅크나 하나 이상의 변환기를 상기 입력 오디오 신호에 적용하여 상기 입력 오디오 신호의 복수개의 주파수 서브밴드 표명을 생성하는 단계; 및

심리음향학 원리에 따라 상기 주파수 서브밴드 표명에 비트를 적응성으로(adaptively) 할당하여 상기 인코딩된 정보 블록들을 생성하는 단계

를 포함하는 것을 특징으로 하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 비디오 프레임들은 복수개의 비디오 라인들 내에 배열된 비디오 정보를 포함하며, 상기 갭의 각각은 세 개의 비디오 라인들의 기간보다 더 긴 기간을 갖는 것을 특징으로 하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 비디오 프레임들의 각각은 프레임 시간간격과 동일한 기간을 가지며, 상기 갭의 기간은 상기 프레임 시간간격의 약 1퍼센트 내지 상기 프레임 시간간격의 약 20퍼센트의 범위 내에 있는 것을 특징으로 하는 방법.
비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하는 단계;

입력 신호를 수신하며 그에 응하여 인코딩된 정보 블록들의 복수개의 시퀀스들을 생성하되, 이때, 해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 해당 블록 시퀀스의 개시 블록이 선행 블록 시퀀스의 종료 블록과 이격되도록 하는, 이상의 시퀀스 생성 단계; 및

상기 인코딩된 정보 블록들에 블록-디코딩 프로세스를 적용하여 디코딩된 형태로 상기 인코딩된 정보를 표명하는 오디오 정보를 생성하되, 이때, 상기 오디오 정보의 해당 세그먼트는 인코딩된 정보 블록들의 상기 해당 시퀀스로부터 생성되며, 상기 오디오 정보의 해당 세그먼트는 상기 해당 비디오 프레임 레퍼런스에 후속하는 비디오 프레임 레퍼런스와 시간 정렬되도록 하는, 이상의 오디오 정보 생성 단계

를 포함하는 것을 특징으로 하는 인코딩된 오디오 정보의 처리 방법.
제 6 항에 있어서, 상기 블록-디코딩 프로세스는,

심리음향학 원리에 따라 상기 인코딩된 정보 블록들에 비트를 적응성으로(adaptively) 할당하여 오디오 정보의 복수개의 주파수 서브밴드 표명을 생성하는 단계; 및

합성 필터들의 뱅크나 하나 이상의 역 변환기를 상기 주파수 서브밴드 표명에 적용하여 상기 오디오 정보를 합성하는 단계

를 포함하는 것을 특징으로 하는 방법.
제 6 항 또는 제 7 항에 있어서,

상기 비디오 프레임들은 복수개의 비디오 라인들 내에 배열된 비디오 정보를 포함하며, 상기 갭의 각각은 세 개의 비디오 라인들의 기간보다 더 긴 기간을 갖는 것을 특징으로 하는 방법.
제 6 항 또는 제 7 항에 있어서,

상기 비디오 프레임들의 각각은 프레임 시간간격과 동일한 기간을 가지며, 상기 갭의 기간은 상기 프레임 시간간격의 약 1퍼센트 내지 상기 프레임 시간간격의 약 20퍼센트의 범위 내에 있는 것을 특징으로 하는 방법.
오디오 정보를 반송하는 입력 오디오 신호를 수신하는 수단;

비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하는 수단;

블록-인코딩 프로세스를 상기 입력 오디오 신호에 적용하여 비트-레이트 감소 형태로 상기 오디오 정보를 표명하는 인코딩된 정보의 블록들을 생성하는 수단; 및

해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 해당 시퀀스의 개시 블록이 선행 시퀀스의 종료 블록과 이격되도록 인코딩된 정보 블록들의 복수개의 시퀀스들을 포함하는 출력 신호로 인코딩된 정보 블록들을 취합하는 수단

을 포함하는 것을 특징으로 하는 오디오 정보의 처리 장치.
제 10 항에 있어서, 상기 블록-인코딩 프로세스는, 더 적은 중복성(redundancy)이나 더 적은 지각적 무관성(perceptual irrelevance) 또는 상기 양자를 포함하는 형태로 상기 오디오 정보를 인코딩하는 것을 특징으로 하는 장치.
제 11 항에 있어서, 상기 블록-인코딩 프로세스는,

밴드패스 필터들의 뱅크나 하나 이상의 변환기를 상기 입력 오디오 신호에 적용하여 상기 입력 오디오 신호의 복수개의 주파수 서브밴드 표명을 생성하는 수단; 및

심리음향학 원리에 따라 상기 주파수 서브밴드 표명에 비트를 적응성으로(adaptively) 할당하여 상기 인코딩된 정보 블록들을 생성하는 수단

을 포함하는 것을 특징으로 하는 장치.
제 10 항 내지 제 12 항 중 어느 한 항에 있어서,

상기 비디오 프레임들은 복수개의 비디오 라인들 내에 배열된 비디오 정보를 포함하며, 상기 갭의 각각은 세 개의 비디오 라인들의 기간보다 더 긴 기간을 갖는 것을 특징으로 하는 장치.
제 10 항 내지 제 12 항 중 어느 한 항에 있어서,

상기 비디오 프레임들의 각각은 프레임 시간간격과 동일한 기간을 가지며, 상기 갭의 기간은 상기 프레임 시간간격의 약 1퍼센트 내지 상기 프레임 시간간격의 약 20퍼센트의 범위 내에 있는 것을 특징으로 하는 장치.
비디오 프레임들의 시퀀스의 각 비디오 프레임에 대한 비디오 프레임 레퍼런스를 반송하는 레퍼런스 신호를 수신하는 수단;

입력 신호를 수신하며 그에 응하여 인코딩된 정보 블록들의 복수개의 시퀀스들을 생성하는 수단으로서, 이때, 해당 비디오 프레임 레퍼런스와 시간 정렬되는 갭만큼 해당 블록 시퀀스의 개시 블록이 선행 블록 시퀀스의 종료 블록과 이격되도록 하는, 이상의 시퀀스 생성 수단; 및

상기 인코딩된 정보 블록들에 블록-디코딩 프로세스를 적용하여 디코딩된 형태로 상기 인코딩된 정보를 표명하는 오디오 정보를 생성하는 수단으로서, 이때, 상기 오디오 정보의 해당 세그먼트는 인코딩된 정보 블록들의 상기 해당 시퀀스로부터 생성되며, 상기 오디오 정보의 해당 세그먼트는 상기 해당 비디오 프레임 레퍼런스에 후속하는 비디오 프레임 레퍼런스와 시간 정렬되도록 하는, 이상의 오디오 정보 생성 수단

을 포함하는 것을 특징으로 하는 인코딩된 오디오 정보의 처리 장치.
제 15 항에 있어서, 상기 블록-디코딩 프로세스는,

심리음향학 원리에 따라 상기 인코딩된 정보 블록들에 비트를 적응성으로(adaptively) 할당하여 오디오 정보의 복수개의 주파수 서브밴드 표명을 생성하는 수단; 및

합성 필터들의 뱅크나 하나 이상의 역 변환기를 상기 주파수 서브밴드 표명에 적용하여 상기 오디오 정보를 합성하는 수단

을 포함하는 것을 특징으로 하는 장치.
제 15 항 또는 제 16 항에 있어서,

상기 비디오 프레임들은 복수개의 비디오 라인들 내에 배열된 비디오 정보를 포함하며, 상기 갭의 각각은 세 개의 비디오 라인들의 기간보다 더 긴 기간을 갖는 것을 특징으로 하는 장치.
제 15 항 또는 제 16 항에 있어서,

상기 비디오 프레임들의 각각은 프레임 시간간격과 동일한 기간을 가지며, 상기 갭의 기간은 상기 프레임 시간간격의 약 1퍼센트 내지 상기 프레임 시간간격의 약 20퍼센트의 범위 내에 있는 것을 특징으로 하는 장치.