KR20060045675A

KR20060045675A - 디지털 미디어 데이터의 전송 포맷 맵핑 방법

Info

Publication number: KR20060045675A
Application number: KR1020050030768A
Authority: KR
Inventors: 서드히어 시리바라; 제임스 디 존스톤; 나빈 섬푸디; 웨이-제 첸; 크리스 메서; 서지 시미르노브
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-04-14
Filing date: 2005-04-13
Publication date: 2006-05-17
Also published as: JP4724452B2; CN1761308A; US8131134B2; JP2005327442A; CN1761308B; US20050234731A1; EP1587063A2; EP1587063A3; US20120130721A1; KR101159315B1; EP1587063B1; US8861927B2; ATE529857T1

Abstract

개시된 기술 및 도구는 주어진 포맷의 디지털 미디어 데이터(예를 들어, 오디오, 비디오, 정지 화상 및/또는 텍스트 등)를 디지털 비디오 디스크(DVD)와 같은 광 디스크 상의 데이터를 인코딩하는 데 유용한 전송 또는 파일 컨테이너에 맵핑하는 기술 및 도구를 포함한다. 디지털 미디어 유니버설 기본 스트림은 디지털 미디어 스트림(예를 들어, 오디오 스트림, 비디오 스트림 또는 화상)을, 광 디스크 포맷, 및 브로드캐스트 스트림, 무선 전송 등과 같은 다른 전송을 포함하는 임의의 전송 또는 파일 컨테이너에 맵핑하는 데 사용될 수 있다. 스트림 내의 디지털 미디어의 임의의 주어진 프레임을 디코딩하는 정보는 각각의 코딩된 프레임 내에 포함될 수 있다. 디지털 미디어 유니버설 기본 스트림은 청크라고 불리우는 스트림 컴포넌트를 포함한다. 디지털 미디어 유니버설 기본 스트림의 구현예는 미디어 스트림에 대한 데이터를 하나 이상의 청크를 갖는 프레임에 배열한다.

디지털 미디어 데이터, 디지털 미디어 스트림, 기본 스트림

Description

디지털 미디어 데이터의 전송 포맷 맵핑 방법{DIGITAL MEDIA UNIVERSAL ELEMENTARY STREAM}

도 1은 종래 기술에 따른 오디오 인코더 시스템의 블록도.

도 2는 적합한 컴퓨팅 환경의 블록도.

도 3은 일반화된 오디오 인코더 시스템의 블록도.

도 4는 일반화된 오디오 디코더 시스템의 블록도.

도 5는 하나 이상의 청크를 포함하는 프레임 또는 액세스 유닛 배열을 사용하여 제1 포맷의 디지털 미디어 데이터를 전송 또는 파일 컨테이너에 맵핑하는 기술을 도시하는 흐름도.

도 6은 전송 또는 파일 컨테이너로부터 획득된 하나 이상의 청크를 포함하는 프레임 또는 액세스 유닛 배열 내의 디지털 미디어 데이터를 디코딩하는 기술을 도시하는 흐름도.

도 7은 WMA Pro 오디오 기본 스트림을 DVD-A CA 포맷에 맵핑하는 예를 도시.

도 8은 WMA Pro 오디오 기본 스트림을 DVD-AR 포맷에 맵핑하는 예를 도시.

도 9는 임의의 컨테이너에 맵핑하기 위한 유니버설 기본 스트림의 정의를 도시.

<도면의 주요 부분에 대한 부호의 설명>

110 : 입력 오디오 데이터

120 : 인코딩된 출력 데이터

130 : 분석 모듈

140 : 주파수 변환기

150 : 품질 저하기

160 : 무손실 인코더

170 : 제어기

[문헌 1] US 60/562,671 "오디오 기본 스트림의 맵핑" 2004.04.14

[문헌 2] US 60/580,995 "디지털 미디어 유니버설 기본 스트림" 2004.06.18

본 발명은 일반적으로 디지털 미디어(예를 들어, 오디오, 비디오 및/또는 정지 화상 등) 인코딩 및 디코딩에 관한 것이다.

컴팩트 디스크, 디지털 비디오 디스크, 휴대용 디지털 미디어 플레이어, 디지털 무선 네트워크, 및 인터넷을 통한 오디오 및 비디오 전달이 도입되면서, 디지털 오디오 및 비디오가 흔해졌다. 엔지니어들은 다양한 기술을 사용하여, 디지털 오디오 또는 비디오의 품질을 그대로 유지하면서 디지털 오디오 및 비디오를 효율적으로 처리한다.

디지털 오디오 정보는 오디오 정보를 나타내는 일련의 숫자로서 처리된다. 예를 들어, 단일 숫자는 특정 시간에서의 진폭값(즉, 음량)인 오디오 샘플을 나타낼 수 있다. 샘플 깊이, 샘플링 레이트 및 채널 모드를 포함한 몇몇 요인들은 오디오 정보의 질에 영향을 줄 수 있다.

샘플 깊이(또는 정밀도)는 샘플을 나타내는 데 사용된 숫자들의 범위를 나타낸다. 샘플에 대해 더 많은 값들이 가능할 수록, 진폭 내의 숫자는 더 많은 미묘한 변화를 잡을 수 있기 때문에, 품질은 더 높아진다. 예를 들어, 8비트 샘플이 256개의 가능한 값을 갖는 한편, 16비트 샘플은 65,536개의 가능한 값을 갖는다. 24비트 샘플은 보통의 음량 변화를 매우 정교하게 잡을 수 있고, 유난히 높은 음량도 잡을 수 있다.

샘플링 레이트(보통, 초당 샘플들의 개수로 측정됨)도 품질에 영향을 준다. 샘플링 레이트가 높을수록, 더 넓은 대역폭이 나타날 수 있기 때문에 품질은 더 높아진다. 몇몇 흔한 샘플링 레이트로는, 8,000, 11,025, 22,050, 32,000, 44,100, 48,000 및 96,000샘플/초가 있다.

모노 및 스테레오는 오디오에 대한 2개의 흔한 채널 모드이다. 모노 모드에서는, 단일 채널에서 오디오 정보가 제공된다. 스테레오 모드에서는, 보통 좌 채널 및 우 채널로 레이블링된 2개의 채널에서 오디오 정보가 제공된다. 5.1 채널, 7.1 채널 또는 9.1 채널 서라운드 사운드와 같은 더 많은 채널들을 갖는 다른 모드도 흔히 사용된다. 고 품질 오디오 정보의 대가는 높은 비트율이다. 고 품질 오디오 정보는 많은 양의 컴퓨터 저장 장치 및 전송 용량을 소비한다.

많은 컴퓨터 및 컴퓨터 네트워크는 미가공 디지털 오디오 및 비디오를 처리할 저장 장치 또는 자원이 부족하다. 인코딩(코딩 또는 비트율 압축이라고도 불림)은 오디오 또는 비디오 정보를 보다 더 낮은 비트율로 변환함으로써 그 정보를 저장 및 전송하는 비용을 감소시킨다. 인코딩은 손실이 없을 수도 있고(품질이 손상되지 않음) 손실이 많을 수도 있다(지각된 오디오 품질은 손상되지 않을 수 있지만 분석적 품질은 손상됨. 무손실 인코딩에 비하여 비트율 감소가 더 극적임). 디코딩(압축해제라고도 불림)은 인코딩된 형태로부터 원래의 정보의 재구성된 버전을 추출한다.

디지털 미디어 데이터의 효율적인 인코딩 및 디코딩에 대한 요구에 응답하여, 많은 오디오 및 비디오 인코더/디코더 시스템("코덱")이 개발되어 왔다. 예를 들어, 도 1을 참조하면, 오디오 인코더(100)는 입력 오디오 데이터(110)를 취하고, 하나 이상의 인코딩 모듈을 사용하여 그것을 인코딩하여 인코딩된 오디오 출력 데이터(120)를 생성한다. 도 1에서는, 분석 모듈(130), 주파수 변환기 모듈(140), 품질 저하기(손실 인코딩) 모듈(150) 및 무손실 인코더 모듈(160)이 사용되어, 인코딩된 오디오 데이터(120)를 생성한다. 제어기(170)가 이 인코딩 처리를 조정 및 제어한다.

기존 오디오 코덱은 마이크로소프트사의 윈도우 미디어 오디오("WMA") 코덱을 포함한다. MPEG(Motion Picture Experts Group), MP3("Audio Layer 3") 표준, MPEG-2 AAC["Advanced Audio Coding"] 표준에 의해, 또는 (AC-2 및 AC-3 표준을 제 공하는) 돌비(Dolby)와 같은 다른 상업적 제공자에 의해 몇몇 다른 코덱 시스템이 제공 또는 지정된다.

상이한 인코딩 시스템들은 하나 이상의 기본 비트스트림을 가질 수 있는 다중 스트림에 포함되기 위해 특수화된 기본 비트스트림을 사용한다. 그러한 다중 스트림은 전송 스트림으로도 알려져 있다. 전송 스트림은 일반적으로 버퍼 크기 제한과 같은 기본 스트림에 대한 특정 제한을 두고, 특정 정보가 그 기본 스트림 내에 포함되도록 요구하여 디코딩을 용이하게 한다. 기본 스트림은 일반적으로 기본 스트림의 동기화 및 정확한 디코딩을 용이하게 하고 전송 스트림 내의 상이한 기본 스트림들에 대한 식별을 제공하는 액세스 단위를 포함한다.

예를 들어, AC-3 표준의 개정 A는 동기화 프레임들의 시퀀스를 포함하는 기본 스트림을 설명한다. 각각의 동기화 프레임은 동기화 정보 헤더, 비트스트림 정보 헤더, 6개의 코딩된 오디오 데이터 블록들 및 오류 검사 필드를 포함한다. 동기화 정보 헤더는 비트스트림에서 동기화를 획득하고 유지하기 위한 정보를 포함한다. 동기화 정보는 동기화 워드, 순환 중복 검사 워드, 샘플 레이트 정보 및 프레임 크기 정보를 포함한다. 비트스트림 정보 헤더는 동기화 정보 헤더를 후속한다. 비트스트림 정보는 코딩 모드 정보(예를 들어, 채널의 번호 및 타입), 타임 코드 정보 및 다른 파라미터들을 포함한다.

AAC 표준은 고정 헤더, 가변 헤더, 선택적인 오류 검사 블록 및 미가공 데이터 블록들을 포함하는 오디오 데이터 전송 스트림(Audio Data Transport Stream; ADTS) 프레임을 설명한다. 고정 헤더는 프레임들 사이에서 변하지 않는 정보(예를 들어, 동기화 워드, 샘플링 레이트 정보, 채널 구성 정보 등)를 포함하지만, 각각의 프레임에 대해 여전히 반복되어 비트스트림으로의 랜덤 액세스를 허용한다. 가변 헤더는 프레임들 사이에서 변하는 데이터(예를 들면, 프레임 길이 정보, 버퍼 채움 정보, 미가공 데이터 블록의 개수 등)를 포함한다. 오류 검사 블록은 순환 중복 검사를 위한 변수 crc_check를 포함한다.

기존 전송 스트림은 MPEG-2 시스템 또는 전송 스트림을 포함한다. MPEG-2 전송 시스템은 하나 이상의 AC-3 스트림과 같은 복수의 기본 스트림을 포함할 수 있다. MPEG-2 전송 스트림 내에서, AC-3 기본 스트림은 적어도 stream_type 변수, stream_id 변수 및 오디오 설명자에 의해 식별된다. 오디오 설명자는 비트율, 채널 갯수, 샘플 레이트 및 설명적인 텍스트 필드와 같은 개별 AC-3 스트림에 대한 정보를 포함한다.

코덱 시스템에 관한 더 많은 추가 정보에 대해서는, 각각의 표준 또는 기술 간행물을 참조한다.

요약하자면, 이 상세한 설명은 오디오 스트림과 같은 디지털 미디어 인코딩 및 디코딩을 위한 여러 기술 및 도구에 관한 것이다. 설명된 기술 및 도구는 주어진 포맷의 디지털 미디어 데이터(예를 들어, 오디오, 비디오, 정지 화상 및/또는 텍스트 등)를, 디지털 비디오 디스크(DVD)와 같은 광 디스크 상의 데이터를 인코딩하는 데 유용한 전송 또는 파일 컨테이너 포맷에 맵핑하기 위한 기술 및 도구를 포함한다.

본 설명은 이러한 기술 및 도구에 의해 디지털 미디어 스트림(예를 들어, 오디오 스트림, 비디오 스트림 또는 화상)을, 광 디스크 포맷 뿐만 아니라 브로드캐스트 스트림, 무선 전송 등과 같은 다른 전송을 포함하는 임의의 전송 또는 파일 컨테이너에 맵핑하는 데 사용될 수 있는 디지털 미디어 유니버설 기본 스트림을 상세 설명한다. 설명된 디지털 미디어 유니버설 기본 스트림은 스트림 자체 내의 스트림을 디코딩하도록 요구된 정보를 갖는다. 또한, 스트림 내의 디지털 미디어의 임의의 주어진 프레임을 디코딩하는 정보는 각각의 코딩된 프레임 내에 포함될 수 있다.

디지털 미디어 유니버설 기본 스트림은 청크라고 불리우는 스트림 컴포넌트를 포함한다. 디지털 미디어 유니버설 기본 스트림의 구현은 미디어 스트림에 대한 데이터를 하나 이상의 청크를 갖는 프레임에 배열시킨다. 청크는 청크 타입 식별자를 포함하는 청크 헤더, 및 청크 데이터를 포함하지만, 청크 데이터는 청크에 관한 모든 정보가 청크 헤더 내에 있는 청크 타입과 같은 특정 청크 타입(예를 들어, 블록 종단 청크)에 대해서는 제공되지 않을 수 있다. 몇몇 구현예에서, 청크는 청크 헤더, 및 다음 청크 헤더의 시작까지의 모든 후속 정보로서 정의된다.

일 구현예에서, 디지털 미디어 유니버설 기본 스트림은 sync 패턴 및 길이 필드를 갖는 sync 청크를 포함하는 청크를 사용하여, 효율적인 코딩 스킴을 통합한다. 몇몇 구현예는 "긍정 검사(positive check-in)"를 기초로 선택적인 엘리먼트를 사용하여 스트림을 인코딩한다. 일 구현예에서, 블록 종단 청크는 대안적으로 sync 패턴/길이 필드와 함께 사용되어 스트림 프레임의 종단을 표시할 수 있다. 또한, 몇몇 스트림 프레임에서, sync 패턴/길이 청크와 블록 종단 청크 양자는 생략될 수 있다. 따라서, sync 패턴/길이 청크와 블록 종단 청크도 스트림의 선택적인 엘리먼트일 수 있다.

일 구현예에서, 프레임은 미디어 스트림과 그 특징을 정의하는 스트림 속성 청크라고 불리우는 정보를 가질 수 있다. 따라서, 기본 스트림의 기본 형태는 단순히, 코덱 속성을 지정하는 스트림 속성 청크의 단일 인스턴스, 및 미디어 페이로드 청크의 스트림을 포함할 수 있다. 이 기본 형태는 음성 또는 다른 실시간 미디어 스트리밍 어플리케이션과 같은 낮은 지연 또는 낮은 비트율의 어플리케이션에 대해서 유용하다.

디지털 미디어 유니버설 기본 스트림은 또한, 스트림 정의의 확장이 이전 디코더 구현에 대한 호환성을 깨뜨리지 않고서, 나중에 정의된 코덱 또는 청크 타입을 인코딩하도록 하는 확장 메커니즘을 포함한다. 유니버설 기본 스트림 정의는, 이전에 의미를 갖지 않은 청크 타입 코드를 사용하여 새로운 청크 타입이 정의될 수 있고, 그러한 새로 정의된 청크 타입을 포함하는 유니버설 기본 스트림이 유니버설 기본 스트림의 기존 또는 레가시 디코더에 의해 파싱가능하게 남아있다는 점에서 확장가능하다. 새로 정의된 청크는 "길이가 제공된"(청크의 길이는 청크의 신택스 엘리먼트에서 인코딩됨) 것이거나 "길의가 미리 정의된"(길이는 청크 타입 코드로부터 암시됨) 것일 수 있다. 새로 정의된 청크는 비트스트림 파싱 또는 분석의 손실없이, 기존 레가시 디코더의 파서에 의해 "버려지거나" 무시될 수 있다.

설명되는 구현예는 디지털 미디어 인코딩 및 디코딩을 위한 기술 및 도구에 관한 것이며, 특히, 임의의 전송 또는 파일 컨테이너에 맵핑될 수 있는 디지털 미디어 유니버설 기본 스트림을 사용하는 코덱에 관한 것이다. 설명된 기술 및 도구는 주어진 포맷의 오디오 데이터를, 디지털 비디오 디스크(DVD) 및 다른 전송 또는 파일 컨테이너와 같은 광 디스크 상의 오디오 데이터를 인코딩하는 데 유용한 포맷에 맵핑하기 위한 기술 및 도구를 포함한다. 몇몇 구현예에서, 디지털 오디오 데이터는 나중의 DVD 포맷으로의 변환 및 저장에 적합한 중간 포맷으로 배열된다. 중간 포맷은 예를 들어, 윈도우 미디어 오디오(WMA) 포맷일 수 있으며, 특히, 이하에 설명된 유니버설 기본 스트림으로서의 WMA 포맷의 표현일 수 있다. DVD 포맷은 예를 들어, DVD 오디오 기록(DVD-AR) 포맷, 또는 DVD 압축 오디오(DVD-A CA) 포맷일 수 있다. 이 기술이 오디오 스트림에 적용되는 특정 적용이 설명되고 있지만, 이 기술은 또한, 비디오, 정지 화상, 텍스트, 하이퍼텍스트 및 멀티플 미디어 등을 포함하는(이것으로 제한되는 것은 아님) 다른 형태의 디지털 미디어를 인코딩/디코딩하는 데 사용될 수 있다.

다양한 기술 및 도구들이 조합적 또는 독립적으로 사용될 수 있다. 상이한 실시예들이 전술된 기술 및 도구들 중 하나 이상을 구현한다.

Ⅰ. 컴퓨팅 환경

상술된 유니버설 기본 스트림 및 전송 맵핑 실시예는, 컴퓨터, 디지털 미디어 플레이, 전송 및 수신 장치, 휴대용 미디어 플레이어, 오디오 회의, 웹 미디어 스트리밍 어플리케이션 등을 포함하여, 디지털 미디어 및 오디오 신호 처리가 수행되는 다양한 장치들 중 임의의 장치 상에서 구현될 수 있다. 유니버설 기본 스트 림 및 전송 맵핑은 하드웨어 회로(예를 들어, ASIC, FPGA 등의 회로) 뿐만 아니라, {중앙 처리 유닛(CPU) 상에서 실행되는 지, 또는 디지털 신호 프로세서나 오디오 카드 등에서 실행되는 지에 상관없이) 도 1에 도시된 것과 같은 컴퓨터 또는 다른 컴퓨팅 환경 내에서 실행하는 디지털 미디어 또는 오디오 프로세싱 소프트웨어에서 구현될 수 있다.

도 2는 설명된 실시예들이 구현될 수 있는 적합한 컴퓨팅 환경(200)의 일반 예를 도시한다. 본 발명은 범용 또는 특수 목적 컴퓨팅 환경에서 다양하게 구현될 수 있기 때문에, 컴퓨팅 환경(200)은 본 발명의 사용 또는 기능의 범위에 대하여 어떤 제한도 제시하지 않는다.

도 2를 참조하면, 컴퓨팅 환경(200)은 적어도 하나의 프로세싱 유닛(210) 및 메모리(220)를 포함한다. 도 2에서, 이 가장 기본적인 구성(230)은 점선 내로 포함된다. 프로세싱 유닛(210)은 컴퓨터-실행가능 명령어를 실행하며, 실제 또는 가상 프로세서일 수 있다. 멀티-프로세싱 시스템에서, 복수의 프로세싱 유닛이 컴퓨터-실행가능 명령어를 실행하여 프로세싱 능력을 증가시킨다. 메모리(220)는 휘발성 메모리(예를 들어, 레지스터, 캐쉬, RAM), 비휘발성 메모리(예를 들어, ROM, EEPROM, 플래시 메모리 등) 또는 이 둘의 임의의 조합일 수 있다. 메모리(220)는 오디오 인코더 또는 디코더를 구현하는 소프트웨어(280)를 저장한다.

컴퓨팅 환경은 추가적인 특징을 가질 수 있다. 예를 들어, 컴퓨팅 환경(200)은 저장장치(240), 하나 이상의 입력 장치(250), 하나 이상의 출력 장치(260) 및 하나 이상의 통신 접속(270)을 포함한다. 버스, 제어기 또는 네트워크와 같은 상호접속 메커니즘(도시되지 않음)은 컴퓨팅 환경(200)의 컴포넌트들을 상호접속시킨다. 일반적으로, 오퍼레이팅 시스템 소프트웨어(도시되지 않음)는 컴퓨팅 환경(200)에서 실행하는 다른 소프트웨어에게 오퍼레이팅 환경을 제공하고, 컴퓨팅 환경(200)의 컴포넌트들의 활동을 조정한다.

저장 장치(240)는 분리형 또는 비분리형일 수 있으며, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, CD-RW, DVD, 또는 정보를 저장하는 데 사용될 수 있고 컴퓨팅 환경(200) 내에서 액세스될 수 있는 임의의 다른 매체를 포함한다. 저장 장치(240)는 오디오 인코더 또는 디코더를 구현하는 소프트웨어(280)에 대한 명령어들을 저장한다.

입력 장치(들)(250)는 키보드, 마우스, 펜 또는 트랙볼, 음성 입력 장치, 스캐닝 장치, 또는 컴퓨팅 환경(200)으로의 입력을 제공하는 다른 장치와 같은 터치 입력 장치일 수 있다. 오디오에 있어서, 입력 장치(들)(250)는 아날로그 또는 디지털 형태의 오디오 입력을 수용하는 사운드 카드 또는 유사 장치, 또는 컴퓨팅 환경에 오디오 샘플을 제공하는 CD-ROM 또는 CD-RW일 수 있다. 출력 장치(들)(260)는 디스플레이, 프린터, 스피커, CD-라이터, 또는 컴퓨팅 환경(200)으로부터의 출력을 제공하는 다른 장치일 수 있다.

통신 접속(들)(270)은 통신 매체를 통한 다른 컴퓨팅 엔티티로의 통신을 가능하게 한다. 통신 매체는 컴퓨터-실행가능 명령어, 압축 오디오 또는 비디오 정보, 또는 데이터 신호(예를 들어, 변조된 데이터 신호) 내의 다른 데이터와 같은 정보를 변환한다. 변조된 데이터 신호는 신호 내의 정보를 인코딩하는 방식으로 설정 또는 변경된 특성들 중 하나 이상을 갖는 신호이다. 예를 들어, 통신 매체는 전기, 광, RF, 적외선, 음향 또는 다른 반송파로 구현된 유선 또는 무선 기술을 포함하지만, 이것으로 제한되는 것은 아니다.

본 발명은 컴퓨터-판독가능 매체의 일반적 문맥에서 설명될 수 있다. 컴퓨터-판독가능 매체는 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 사용가능한 매체이다. 예를 들어, 컴퓨팅 환경(200)에 있어서, 컴퓨터-판독가능 매체는 메모리(220), 저장 장치(240), 통신 매체, 및 상술한 것들 중 임의의 것의 조합을 포함하지만, 이것으로 제한되는 것은 아니다.

본 발명은 대상으로 되는 실제 또는 가상 프로세서 상에서 컴퓨팅 환경에서 실행되는 프로그램 모듈에 포함된 명령어와 같은 컴퓨터-실행가능 명령어의 일반적 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 라이브러리, 오브젝트, 클래스, 컴포넌트, 데이터 구조 등을 포함한다. 프로그램 모듈의 기능은 다양한 실시예에서 요구되는 대로 프로그램 모듈들 사이에서 조합 또는 분할될 수 있다. 프로그램 모듈에 대한 컴퓨터-실행가능 명령어는 로컬 또는 분산 컴퓨팅 환경 내에서 실행될 수 있다.

Ⅱ. 일반화된 오디오 인코더 및 디코더

몇몇 구현예에서, 디지털 오디오 데이터는 나중의 전송 또는 파일 컨테이너로의 맵핑에 적합한 중간 포맷으로 배열된다. 오디오 데이터는 오디오 인코더를 통해 그러한 중간 포맷으로 배열되고, 그에 이어서 오디오 디코더에 의해 디코딩될 수 있다.

도 3은 일반화된 오디오 인코더(300)의 블록도이고, 도 4는 일반화된 오디오 디코더(400)의 블록도이다. 인코더 및 디코더 내의 모듈들 간에 도시된 관계는 인코더 및 디코더 내의 정보의 주요 흐름을 나타내며, 단순성을 위해 다른 관계는 도시하지 않는다. 구현 및 요구된 압축의 타입에 따라, 인코더 또는 디코더의 모듈이 추가, 생략, 복수의 모듈들로 분할, 다른 모듈과 결합, 및/또는 유사 모듈들로 대체될 수 있다.

A. 오디오 인코더

도 3을 참조하면, 예시적인 오디오 인코더(300)는 선택기(308), 멀티-채널 전처리기(310), 분할기/타일 구성기(320), 주파수 변형기(330), 지각 모형기(perception modeler)(340), 가중기(342), 멀티-채널 변형기(350), 양자화기(360), 엔트로피 인코더(270), 제어기(380) 및 비트스트림 다중화기["MUX"](390)를 포함한다.

인코더(300)는 펄스 부호 변조["PCM"] 포맷의 임의의 샘플링 길이 및 레이트에서의 입력 오디오 샘플(305)의 시계열을 수신한다. 인코더(300)는 오디오 샘플(305)을 압축하고, 인코더(300)의 다양한 모듈에 의해 생성된 정보를 다중화하여 마이크로소프트 윈도우즈 미디어 오디오["WMA"] 포맷과 같은 포맷의 비트스트림(395)을 출력한다.

선택기(308)는 오디오 샘플(305)에 대한 인코딩 모드(예를 들어, 무손실 또는 손실 모드)를 선택한다. 무손실 코딩 모드는 일반적으로 고품질(및 높은 비트 율) 압축에 사용된다. 손실 코딩 모드는 가중기(342) 및 양자화기(360)와 같은 컴포넌트를 포함하고, 일반적으로 조정가능한 품질(및 제어된 비트율) 압축에 사용된다. 선택기(308)에서의 선택 결정은 사용자 입력 또는 다른 기준에 의존한다.

멀티-채널 오디오 데이터의 손실 코딩에 있어서, 멀티-채널 전처리기(310)는 선택적으로 시간 영역 오디오 샘플(305)을 재행렬화한다. 멀티-채널 전처리기(310)는 멀티-채널 후처리기에 대한 명령어와 같은 보조 정보(side information)를 MUX(390)에 송신할 수 있다.

분할기/타일 구성기(320)는 시변(time-varying) 크기 및 윈도우 정형(shaping) 함수를 이용하여 오디오 입력 샘플(305)의 프레임을 서브-프레임 블록들(즉, 윈도우)로 분할한다. 서브-프레임 블록에 대한 크기 및 윈도우는, 프레임 내의 비상주 신호의 검출, 코딩 모드 뿐만 아니라, 다른 요인들에 의존한다. 인코더(300)가 손실 코딩을 사용할 때, 가변-크기 윈도우는 가변적 임시 해상도를 허용한다. 분할기/타일 구성기(320)는 분할된 데이터의 블록들을 주파수 변형기(330)에 출력하고, 블록 크기와 같은 보조 정보를 MUX(390)에 출력한다. 분할기/타일 구성기(320)는 각 채널을 기초로 멀티-채널 오디오의 프레임을 분할할 수 있다.

주파수 변형기(330)는 오디오 샘플을 수신하고, 그것을 주파수 영역 내의 데이터로 변환한다. 주파수 변형기(330)는 주파수 계수 데이터의 블록들을 가중기(342)에 출력하고, 블록 크기와 같은 보조 정보를 MUX(390)에 출력한다. 주파수 변형기(330)는 주파수 계수와 보조 정보 양자를 지각 모형기(340)에 출력한다.

지각 모형기(340)는 인간의 청각 시스템의 속성을 모형화하여, 주어진 비트 율에 대해 재구성된 오디오 신호의 지각된 품질을 개선한다. 일반적으로, 지각 모형기(340)는 청각 모형에 따라 오디오 데이터를 처리하고, 오디오 데이터에 대한 가중 요인들을 생성하는 데 사용될 수 있는 양자화 대역 가중기(342)에 정보를 제공한다. 지각 모형기(340)는 다양한 청각 모형들 중 임의의 것을 사용하고, 자극 패턴 정보 또는 다른 정보를 가중기(342)에 전달한다.

가중기(342)는 지각 모형기(340)로부터 수신된 정보에 기초하여 양자화 행렬에 대한 가중 요인들을 생성하고, 그 가중 요인들을 주파수 변형기(330)로부터 수신된 데이터에 적용시킨다. 양자화 행렬에 대한 가중 요인들은 오디오 데이터 내의 복수의 양자화 대역들 각각에 대한 가중치를 포함한다. 양자화 대역 가중기(342)는 계수 데이터의 가중화된 블록을 채널 가중기(344)에 출력하고, 가중 요인 집합과 같은 보조 정보를 MUX(390)에 출력한다. 가중 요인 집합은 더 효율적인 표현을 위해 압축될 수 있다.

채널 가중기(344)는 지각 모형기(340)로부터 수신된 정보, 및 지역적으로 재구성된 신호의 품질에 기초하여 채널에 대해 채널-특정 가중 요인(스칼라)을 생성한다. 채널 가중기(344)는 계수 데이터의 가중된 블록을 멀티-채널 변형기(350)에 출력하고, 채널 가중 요인의 집합과 같은 보조 정보를 MUX(390)에 출력한다.

멀티-채널 오디오 데이터에 있어서, 채널 가중기(344)에 의해 생성된 잡음-형성된 주파수 계수 데이터의 복수의 채널은 종종 상호관련되기 때문에, 멀티-채널 변형기(350)가 멀티-채널 변형을 적용할 수 있다. 멀티-채널 변형기(350)는 예를 들어, 사용된 멀티-채널 변형, 및 타일의 멀티-채널 변형된 부분을 나타내는 보조 정보를 MUX(390)에 산출한다.

양자화기(360)는 멀티-채널 변형기(350)의 출력을 양자화하여, 양자화된 계수 데이터를 엔트로피 인코더(370)에 산출하고 양자화 단계 크기를 포함하는 보조 정보를 MUX(390)에 산출한다.

엔트로피 인코더(370)는 양자화기(360)로부터 수신된 양자화된 계수 데이터를 손실없이 압축한다. 엔트로피 인코더(370)는 오디오 정보를 인코딩하는 데 소비한 비트수를 계산하고 이 정보를 레이트/품질 제어기(380)에 전달할 수 있다.

제어기(380)는 인코더(300)의 출력의 비트율 및/또는 품질을 정규화하기 위해 양자화기(360)와 함께 동작한다. 제어기(380)는 인코더(300)의 다른 모듈로부터 정보를 수신하고 그 수신된 정보를 처리하여 현재 조건이 주어진 상태에서 요구된 양자화 요인들을 결정한다. 제어기(380)는 품질 및/또는 비트율 제약을 만족시키기 위하여 양자화 요인을 양자화기(360)에 출력한다.

MUX(390)는 엔트로피 인코더(370)로부터 수신된 엔트로피 인코딩된 데이터와 함께 오디오 인코더(300)의 다른 모듈로부터 수신된 보조 정보를 다중화한다. MUX(390)는 인코더(300)에 의해 출력될 비트스트림(395)을 저장하는 가상 버퍼를 포함할 수 있다. 버퍼의 현재 포화상태 및 다른 특징은 제어기(380)에 의해 품질 및/또는 비트율을 조정하는 데 사용될 수 있다.

B. 오디오 디코더

도 4를 참조하면, 대응하는 오디오 디코더(400)는 비트스트림 역다중화기["DEMUX"](410), 하나 이상의 엔트로피 디코더(420), 타일 구성 디코더(430), 역 멀티-채널 변형기(440), 역양자화기/가중기(450), 역주파수 변환기(460), 중첩기/가산기(470) 및 멀티-채널 후처리기(480)를 포함한다. 디코더(400)는 레이트/품질 제어 또는 지각 모형화를 위한 모듈을 포함하지 않기 때문에, 인코더(300)보다 다소 더 단순하다.

디코더(400)는 WMA 포맷 또는 다른 포맷으로 압축된 오디오 정보의 비트스트림(405)을 수신한다. 비트스트림(405)은 엔트로피 인코딩된 데이터 뿐만 아니라, 디코더(400)가 오디오 샘플(495)을 재구성하는 보조 정보도 포함한다.

DEMUX(410)는 비트스트림(405) 내의 정보를 파싱하고 정보를 디코더(400)의 모듈들에 송신한다. DEMUX(410)는 오디오의 복잡도, 네트워크 지터(jitter) 및/또는 다른 요인의 변동으로 인한 비트율의 변화를 보상하기 위해 하나 이상의 버퍼를 포함한다.

하나 이상의 엔트로피 디코더(420)는 DEMUX(410)로부터 수신된 엔트로피 코드를 손실없이 압축해제한다. 엔트로피 디코더(420)는 일반적으로, 인코더(300)에서 사용된 엔트로피 인코딩 기술의 역을 적용한다. 단순성을 위해, 하나의 엔트로피 디코더 모듈이 도 4에 도시되지만, 손실 및 무손실 코딩 모드에 대해, 또는 심지어 모드 내에서 상이한 엔트로피 디코더들이 사용될 수 있다. 또한, 단순성을 위해, 도 4는 모드 선택 논리를 도시하지 않는다. 손실 코딩 모드로 압축된 데이터를 디코딩할 때, 엔트로피 디코더(420)는 양자화된 주파수 계수 데이터를 산출한다.

타일 구성 디코더(430)는 DEMUX(410)로부터 프레임에 대한 타일의 패턴을 나 타내는 정보를 수신하고 필요하다면, 디코딩한다. 타일 구성 디코더(430)는 타일 패턴 정보를 디코더(400)의 다양한 다른 모듈들에 전달한다.

역 멀티-채널 변형기(440)는 엔트로피 디코더(420)로부터 양자화된 주파수 계수 데이터를 수신할 뿐만 아니라, 타일 구성 인코더(430)로부터 타일 패턴 정보를 수신하고, DEMUX(410)로부터 예를 들어, 사용된 멀티-채널 변형, 및 변형된 타일 부분을 나타내는 보조 정보를 수신한다. 이 정보를 사용하면, 역 멀티-채널 변형기(440)는 필요시 변형 행렬을 압축해제하고, 하나 이상의 역 멀티-채널 변형을 선택적이고 유동적으로 오디오 데이터에 적용한다.

역 양자화기/가중기(450)는 DEMUX(410)로부터 타일 및 채널 양자화 요인 뿐만 아니라 양자화 행렬도 수신하고, 역 멀티-채널 변형기(440)로부터 양자화된 주파수 계수 데이터를 수신한다. 역 양자화기/가중기(450)는 필요시, 수신된 양자화 요인/행렬 정보를 압축해제하고, 역 양자화 및 가중화를 수행한다.

역 주파수 변형기(460)는 역 양자화기/가중기(450)에 의해 출력된 주파수 계수 데이터를 수신할 뿐만 아니라, DEMUX(410)로부터 보조 정보를 수신하고 타일 구성 디코더(430)로부터 타일 패턴 정보를 수신한다. 역 주파수 변형기(460)는 인코더에서 사용된 주파수 변형의 역을 적용하고 블록들을 중첩기/가산기(470)에 출력한다.

타일 구성 디코더(430)로부터 타일 패턴 정보를 수신하는 것 외에, 중첩기/가산기(470)는 역 주파수 변형기(460)로부터 디코딩된 정보를 수신한다. 중첩기/가산기(470)는 필요시, 오디오 데이터를 중첩 및 가산하고, 상이한 모드들로 인코 딩된 오디오 데이터의 프레임 또는 다른 시퀀스를 삽입배정한다.

멀티-채널 후처리기(480)는 중첩기/가산기(470)에 의해 출력된 시간-영역의 오디오 샘플을 선택적으로 재행렬화한다. 멀티-채널 후처리기는 오디오 데이터를 선택적으로 재행렬화하여, 재생을 위한 중신 채널(phantom channel)을 생성하고, 스피커들 간의 채널들의 공간적 순환, 더 적은 스피커들 상에서의 재생 또는 임의의 다른 목적을 위한 폴드 다운(fold down) 채널과 같은 특수 효과를 수행한다. 비트스트림-제어된 후처리기에 있어서, 후처리기는 시간에 대한 행렬 변화를 수행하고 비트스트림(405)에 시그널링되거나 포함된다.

WMA 오디오 인코더 및 디코더에 관한 더 많은 정보에 대해서는, 2003년 8월 15일자 미국 특허 출원 제10/642,550호인 "MULTI-CHANNEL AUDIO ENCODING AND DECODING"(공개번호 제2004-0049379호); 및 2003년 8월 15일자 미국 특허 출원 제10/642,551호인 "QUANTIZATION AND INVERSE QUANTIZATION FOR AUDIO"(공개번호 제2004-0044527호)을 참조하고, 이것은 여기에서 참조로서 통합된다.

Ⅲ. 오디오 기본 스트림의 맵핑에 있어서의 혁신

상술된 기술 및 도구는 주어진 중간 포맷(이하 설명되는 유니버설 기본 스트림 포맷 등)의 오디오 기본 스트림을 광 디스크(DVD 등) 상의 저장 및 재생에 적합한 전송 또는 다른 파일 컨테이너 포맷에 맵핑하기 위한 기술 및 도구를 포함한다. 여기에서, 설명 및 도면은 비트스트림 포맷, 및 포맷들 간의 맵핑을 위한 의미 및 기술을 도시 및 설명한다.

여기에서 설명된 구현예에서, 디지털 미디어 유니버설 기본 스트림은 그 스 트림을 인코딩하는 데 청크라고 불리우는 스트림 컴포넌트를 사용한다. 예를 들어, 디지털 미디어 유니버설 기본 스트림의 구현예는 미디어 스트림에 대한 데이터를 프레임 내에 배열하는데, 이때 이 프레임은 sync 청크, 포맷 헤더/스트림 속성 청크, 압축된 오디오 데이터(예를 들어, WMA Pro 오디오 데이터)를 포함하는 오디오 데이터 청크, 메타데이터 청크, 순환 중복 검사 청크, 타임 스탬프 청크, 블록 청크의 종단, 및/또는 임의의 다른 타입의 기존 청크 또는 미래-정의된 청크와 같은 하나 이상의 타입의 하나 이상의 청크를 갖는다. 청크는 청크 헤더(예를 들어, 단일-바이트 청크 타입 신택스 엘리먼트를 포함할 수 있음) 및 청크 데이터를 포함하지만, 청크 데이터는 청크에 대한 모든 정보가 청크 헤더(예를 들어, 블록 청크의 종단) 내에 존재하는 청크 타입과 같은 특정 청크 타입에 대해서는 제공될 수 없다. 몇몇 구현예에서, 청크는 청크 헤더, 및 후속하는 청크 헤더의 시작까지의 모든 정보로서 정의된다.

예를 들어, 도 5는 하나 이상의 청크를 포함하는 프레임 또는 액세스 유닛 배열을 사용하여 제1 포맷의 디지털 미디어 데이터를 전송 또는 파일 컨테이너에 맵핑하기 위한 기술(500)을 도시한다. 510에서, 제1 포맷으로 인코딩된 디지털 미디어 데이터가 획득된다. 520에서, 획득된 디지털 미디어 데이터는 하나 이상의 청크를 포함하는 프레임/액세스 유닛 배열 내에 배열된다. 530에서, 프레임/액세스 유닛 배열 내의 디지털 미디어 데이터는 전송 또는 파일 컨테이너 내에 삽입된다.

도 6은 전송 또는 파일 컨테이너로부터 획득된 하나 이상의 청크를 포함하는 프레임 또는 액세스 유닛 배열 내의 디지털 미디어 데이터를 디코딩하기 위한 기술(600)을 도시한다. 610에서, 전송 또는 파일 컨테이너로부터 하나 이상의 청크를 포함하는 프레임 배열 내의 오디오 데이터가 획득된다. 620에서, 획득된 오디오 데이터는 디코딩된다.

일 구현예에서, 유니버설 기본 스트림 포맷은 DVD-AR 지역 포맷에 맵핑된다. 다른 구현예에서, 유니버설 기본 스트림 포맷은 DVD-CA 지역 포맷에 맵핑된다. 또다른 구현예에서, 유니버설 기본 스트림 포맷은 임의의 전송 또는 파일 컨테이너에 맵핑된다. 그러한 구현예들에서, 상술된 기술 및 도구는 유니버설 기본 스트림 포맷의 데이터를, 광 디스크 상의 저장에 적합한 후속 포맷으로 코드변환(transcode) 또는 맵핑할 수 있기 때문에, 유니버설 기본 스트림 포맷은 중간 포맷으로 간주된다.

몇몇 구현예에서, 유니버설 오디오 기본 스트림은 윈도우즈 미디어 오디오(WMA) 포맷의 변형이다. WMA 포맷에 관한 더 많은 정보에 대해서는, 2003년 7월 18일자 미국 특허 출원 제60/488,508호인 "Lossless Audio Encoding and Decoding Tools and Techniques", 및 2003년 7월 18일자 미국 특허 출원 제60/488,727호인 "Audio Encoding and Decoding Tools and Techniques"를 참조하고, 이것은 여기에서 참조로서 통합된다.

일반적으로, 디지털 정보는 디지털 정보를 처리하고 저장하는 것을 용이하게 하기 위해 데이터 오브젝트의 시리즈(액세스 유닛들, 청크들 또는 프레임들 등)로서 나타날 수 있다. 예를 들어, 디지털 오디오 또는 비디오 파일은 디지털 오디오 또는 비디오 샘플을 포함하는 데이터 오브젝트의 시리즈로서 나타날 수 있다.

데이터 오브젝트의 시리즈가 디지털 정보를 나타낼 때, 그 시리즈를 처리하는 것은 데이터 오브젝트가 동일한 크기일 경우 단순화된다. 예를 들어, 동일한-크기의 오디오 액세스 유닛들의 시퀀스가 데이터 구조 내에 저장되어 있다고 가정해보자. 그 시퀀스 내의 액세스 유닛의 서열수를 사용하고 그 시퀀스 내의 액세스 유닛의 크기를 알면, 특정 액세스 유닛은 데이터 구조의 시작부부터의 오프셋으로서 액세스될 수 있다.

몇몇 구현예에서, 도 3에 도시된 인코더(300)와 같은 오디오 인코더는 유니버설 기본 스트림 포맷과 같은 중간 포맷의 오디오 데이터를 인코딩한다. 오디오 데이터 맵핑기 또는 코드변환기가 중간 포맷의 스트림을 광 디스크 상의 저장에 적합한 포맷(예를 들어, 고정된 크기의 액세스 유닛을 갖는 포맷)에 맵핑하는 데 사용될 수 있다. 도 4에 도시된 디코더(400)와 같은 하나 이상의 오디오 디코더는 인코딩된 오디오 데이터를 디코딩할 수 있다.

예를 들어, 제1 포맷의 오디오 데이터(예를 들어, WMA 포맷)는 제2 포맷(예를 들어, DVD-AR 또는 DVD A-CA 포맷)에 맵핑된다. 우선, 제1 포맷으로 인코딩된 오디오 데이터가 획득된다. 제1 포맷에서, 획득된 오디오 데이터는 고정된 크기 또는 허용가능한 최대 크기(예를 들어, DVD-AR 포맷에 맵핑되는 경우의 2011바이트, 또는 임의의 다른 최대 크기)를 갖는 프레임 내에 배열된다. 프레임은 sync 청크, 포맷 헤더/스트림 속성 청크, 압축된 WMA Pro 오디오 데이터를 포함하는 오디오 데이터 청크, 메타데이터 청크, 순환 중복 검사 청크, 블록 종단 청크 및/또 는 임의의 다른 타입의 기존 청크 또는 미래-정의된 청크와 같은 청크를 포함할 수 있다. 이 배열은 디코더(예를 들어, 디지털 오디오/비디오 디코더)가 오디오 데이터에 액세스하고 그것을 디코딩하는 것을 허용한다. 이 오디오 데이터의 배열은 제2 포맷의 오디오 데이터 스트림 내에 삽입된다. 제2 포맷은 컴퓨터-저장가능 광 데이터 저장 디스크(예를 들어, DVD) 상에 오디오 데이터를 저장하기 위한 포맷이다.

동기화 청크는 동기화 패턴, 및 특정 동기화 패턴이 유효화되는지를 확인하기 위한 길이 필드를 포함할 수 있다. 기본 스트림 프레임의 종단은 대안적으로, 블록 청크의 종단과 함께 시그널링될 수 있다.

또한, 동기화 청크와 블록 청크의 종단(또는 잠재적으로는 다른 타입의 청크) 양자는 실시간 어플리케이션에서 유용할 수 있는 것과 같이, 기본 스트림의 기본 형식에서 생략될 수 있다.

몇몇 구현예에서의 특정 청크 타입에 대한 상세사항은 이하에 제공된다.

Ⅳ. 유니버설 기본 스트림을 DVD 오디오 포맷에 맵핑하는 구현예

다음의 예는 DVD-AR 및 DVD-A CA 지역을 통한 WMA Pro 코딩된 오디오 스트림의 유니버설 기본 스트림 포맷 표현의 맵핑을 상세설명한다. 이 예에서, 맵핑은 WMA Pro가 선택적인 코덱으로서 수용된 DVD-CA 지역의 요구조건을 만족시키고, WMA Pro가 선택적인 코덱으로서 포함되는 DVD-AR 사양의 요구조건을 만족시키기 위해 행해진다.

도 7은 WMA Pro 스트림이 DVD-A CA 지역에 맵핑되는 것을 도시한다. 도 8은 WMA Pro 스트림이 DVD-AR 내의 오디오 오브젝트(AOB)에 맵핑되는 것을 도시한다. 이 도면들에 도시된 예에서, 주어진 WMA Pro 프레임을 디코딩하는 데 요구되는 정보는 액세스 유닛 또는 WMA Pro 프레임 내에 포함된다. 도 4및 도 5에서, 10바이트 데이터를 포함하는 스트림 속성 헤더는 주어진 스트림에 대해 일정하다. 스트림 속성 정보는 예를 들어, WMA Pro 프레임 또는 액세스 유닛 내에 포함될 수 있다. 대안적으로, 스트림 속성 정보는 CA 지역에 대한 CA 매니저 내의 스트림 속성 헤더, 또는 패킷 헤더 또는 DVD-AR PS의 사설 헤더 내에 포함될 수 있다.

도 4 및 도 5에 도시된 특정 비트스트림 엘리먼트들이 이하에 설명된다.

스트림 속성 : 미디어 스트림 및 그 특징을 정의한다. 스트림 속성 헤더는 보통, 주어진 스트림에 대해 일정한 데이터를 포함한다. 스트림 속성에 관한 더 상세한 사항은 이하의 표 1에서 제공된다.

청크 타입 : 단일 바이트 청크 헤더. 이 예에서, 청크 타입 필드는 모든 타입의 데이터 청크에 우선한다. 청크 타입 필드는 후속하는 데이터 청크에 대한 설명을 포함한다.

sync 패턴 : 이 예에서, 이것은 파서가 WMA Pro 프레임의 시작부를 찾을 수 있게 하는 2-바이트 sync 패턴이다. 청크 타입은 sync 패턴의 첫번째 바이트에 포함된다.

길이 필드 : 이 예에서, 길이 필드는 이전 sync 코드의 시작부로의 오프셋을 나타낸다. 길이 필드와 결합된 sync 패턴은 정보의 충분히 독특한 결합을 제공하여 에뮬레이션을 방지한다. 판독기가 sync 패턴에 다가오면, 다음 sync 패턴을 향해 파싱하고, 제2 sync 패턴에서 지정된 길이가 제1 sync 패턴으로부터 제2 sync 패턴으로 도달하기 위하여 파싱했던 파싱한 바이트 길이에 대응한다는 것을 확인한다. 이것이 확인되면, 파서는 유효한 sync 패턴과 만나 디코딩을 시작할 수 있다. 확인되지 않으면, 디코더는 다음 sync 패턴을 기다리기 보다, 그것이 찾은 제1 sync 패턴으로부터 "추론적으로" 디코딩을 시작할 수 있다. 이러한 방법으로, 디코더는 다음 sync 패턴을 파싱하고 확인하기 전에 몇몇 샘플의 재생을 수행할 수 있다.

메타데이터 : 메타데이터의 타입 및 크기에 관한 정보를 포함한다. 이 예에서, 메타데이터 청크는 메타데이터의 타입을 나타내는 1바이트; 청크 크기 N을 바이트로 나타내는 1바이트(메타데이터 > 동일한 ID를 갖는 복수의 청크로서 전송된 256바이트); N-바이트 청크; 및 더 이상의 메타데이터가 없을 때 ID 태그에 대한 인코더 출력 0바이트를 포함한다.

컨텐츠 설명자 메타데이터 : 이 예에서, 메타데이터 청크는 오디오 스트림의 컨텐츠에 관한 기본 설명적인 정보의 통신을 위해 낮은-비트율 채널을 제공한다. 컨텐츠 설명자 메타데이터는 32비트 길이이다. 이 필드는 선택적이고, 필요시, 반대의 대역폭으로 반복(예를 들어, 매 3초마다 한번)될 수 있다. 컨텐츠 설명자 메타데이터에 관한 더 상세한 설명은 이하의 표 2에서 제공된다.

실제 컨텐츠 설명자 스트링은 수신기에 의해, 메타데이터 내에 포함된 바이트 스트림으로부터 조립된다. 스트림 내의 각각의 바이트는 UTF-8 문자를 나타낸다. 메타데이터 스트링이 블록이 끝나기 전에 끝나면, 메타데이터는 0x00으로 채워질 수 있다. 스트링의 시작부 및 종단부는 "Type" 필드 내의 변화에 의해 암시된다. 이로 인해, 전송기는 스트링들 중 하나 이상이 비어있다 하더라도, 컨텐츠 설명자 메타데이터를 송신할 때 4개의 타입 모두에 걸쳐 사이클링(cycle)한다.

CRC(순환 중복 검사; Cyclic Redundancy Check) : CRC는 이전 CRC 이후에 시작하는 모든 것을 커버하고, 어느 것이 더 가깝든지 간에 CRC 자신까지(CRC가 포함되는 것음 아님)의 이전 sync 패턴을 포함한다.

표현 타임 스탬프 : 도 4 및 도 5에서 도시되어 있지는 않지만, 표현 타임 스탬프는 필요하면 언제든지 비디오 스트림과 동기화하는 타임 스탬프 정보를 포함한다. 이 예에서, 이것은 100나노초 세분성을 지원하는 6바이트로서 지정된다. 예를 들어, DVD-AR 사양에서 표현 타임 스탬프를 수용하기 위해, 그것을 포함할 적절한 위치는 패킷 헤더일 것이다.

Ⅴ. 다른 유니버설 기본 스트림 정의

도 9는 유니버설 기본 스트림의 또다른 정의를 설명하며, 이것은 상기 예에서 DVD 오디오 포맷에 맵핑된 WMA 오디오 스트림의 중간 포맷으로서 사용될 수 있다. 더 포괄적으로, 이 예에서 정의된 유니버설 기본 스트림은 다른 다양한 디지털 미디어 스트림을 임의의 전송 또는 파일 컨테이너에 맵핑하는 데 사용될 수 있다.

이 예에서 설명된 유니버설 기본 스트림에서, 디지털 미디어는 디지털 미디어의 이산 프레임(예를 들어, WMA 오디오 프레임)들의 시퀀스로서 인코딩된다. 유니버설 기본 스트림은, 프레임 자체로부터의 디지털 미디어의 임의의 주어진 프레임을 디코딩하는 데 필요한 모든 정보를 포함하는 방법으로 디지털 미디어 스트림을 인코딩한다.

다음은 도 9에 도시된 스트림 프레임 내의 헤더 컴포넌트들에 관한 설명이다.

청크 타입 : 이 예에서, 청크 타입은 데이터 청크의 모든 타입에 우선하는 단일 바이트 헤더이다. 청크 타입 필드는 후속할 데이터 청크에 관한 설명을 포함한다. 기본 스트림 정의는 다수의 청크 타입을 정의하는데, 이것은 기본 스트림 정의가 추가적으로 나중에 정의된 청크 타입으로 보충 또는 확장되도록 하는 확장 메커니즘(escape mechanism)을 포함한다. 새로 정의된 청크는 "길이가 제공된"(청크의 길이는 청크의 신택스 엘리먼트에서 인코딩됨) 것일 수도 있고 "길이가 미리 정의된"(길이는 청크 타입 코드로부터 암시됨) 것일 수도 있다. 새로 정의된 청크는 비트스트림 파싱 또는 분석의 손실없이, 기존 레가시 디코더의 파서에 의해 "버려지거나" 무시될 수도 있다. 청크 타입 및 그 사용의 배후의 논리는 다음 섹션에서 상세설명된다.

sync 패턴 : 이것은 파서가 기본 스트림 프레임의 시작부를 찾을 수 있게 하는 2바이트 sync 패턴이다. 청크 타입은 sync 패턴의 첫번째 바이트 내에 포함된다. 이 예에서 사용된 정확한 패턴은 이하에서 설명된다.

길이 필드 : 이 예에서, 길이 필드는 이전 sync 코드의 시작부로의 오프셋을 나타낸다. 길이 필드와 결합된 sync 패턴은 정보의 충분히 독특한 결합을 제공하여 에뮬레이션을 방지한다. 파서가 sync 패턴에 다가오면, 후속 길이 필드를 파싱하고, 다음의 인접한 sync 패턴으로 파싱하고, 제2 sync 패턴에서 지정된 길이가 제1 sync 패턴으로부터 제2 sync 패턴에 만나기 위하여 파싱했던 바이트 길이에 대응한다는 것을 확인한다. 이것이 확인되면, 파서는 유효한 sync 패턴과 만나고 디코딩을 시작할 수 있다. sync 패턴 및 길이 필드는 낮은 비트율 시나리오에서와 같은 몇몇 프레임에 대한 인코더에 의해 생략될 수 있다. 그러나, 인코더는 양자를 함께 생략해야 한다.

표현 타임 스탬프 : 이 예에서, 표현 타임 스탬프는 필요하면 언제든지 비디오 스트림과 동기화하는 타임 스탬프 정보를 포함한다. 이 설명된 기본 스트림 정의 구현에서, 표현 타임 스탬프는 100나노초 세분성을 지원하는 6바이트로서 지정된다. 그러나, 타임 스탬프 필드의 길이를 지정하는 청크 크기 필드가 이 필드에 우선한다.

몇몇 구현예에서, 표현 타임 스탬프 필드는 파일 컨테이너, 예를 들어, 마이크로소프트 고급 시스템 포맷(ASF) 또는 MPEG-2 프로그램 스트림(PS) 파일 컨테이너에 의해 포함될 수 있다. 표현 타임 스탬프 필드는 여기에 도시된 기본 스트림 정의 구현에 포함되어, 대부분의 기본 상태에서 스트림은 오디오 스트림을 비디오 스트림과 함께 디코딩하고 동기화하는 데 요구되는 모든 정보를 포함할 수 있음을 나타낸다.

스트림 속성 : 이것은 미디어 스트림 및 그 특징을 정의한다. 이 예에서 스트림 속성에 관한 더 상세한 사항은 이하에 제공된다. 내부 데이터는 스트림마다 변하지 않기 때문에, 스트림 속성 헤더는 파일의 시작부에서 사용가능하기만 하면 된다.

몇몇 구현예에서, 스트림 속성 필드는 파일 컨테이너, 예를 들어, ASF 또는 MPEG-2 PS 파일 컨테이너에 의해 포함된다. 스트림 속성 필드는 여기에 도시된 기본 스트림 정의 구현 내에 포함되어, 대부분의 기본 상태에서 스트림은 주어진 오디오 프레임을 디코딩하는 데 요구되는 모든 정보를 포함할 수 있음을 나타낸다. 이 필드가 기본 스트림 내에 포함된다면, 스트림 속성 데이터의 길이를 지정하는 청크 크기 필드가 이 필드에 우선한다.

상기 표 1은 WMA Pro 코덱으로 인코딩된 스트림에 대한 스트림 속성을 도시한다. 유사한 스트림 속성 헤더가 코덱들 각각에 대해 정의될 수 있다.

오디오 데이터 페이로드 : 이 예에서, 오디오 데이터 페이로드 필드는 압축된 윈도우즈 미디어 오디오 프레임 데이터와 같은 압축된 디지털 미디어 데이터를 포함한다. 기본 스트림은 또한, 압축된 오디오보다는 디지털 미디어 스트림과 함께 사용될 수 있고, 이 경우에, 데이터 페이로드는 그러한 스트림의 압축된 디지털 미디어 데이터이다.

메타데이터 : 이 필드는 메타데이터의 타입 및 크기에 관한 정보를 포함한다. 포함될 수 있는 메타데이터의 타입은 컨텐츠 설명자, 폴드 다운, DRC 등이 있다. 메타데이터는 다음과 같이 구조화될 것이다.

이 예에서, 각각의 메타데이터 청크는 다음을 포함한다.

- 메타데이터의 타입을 나타내는 1바이트

- 청크 크기 N을 바이트로 나타내는 1바이트(메타데이터>동일한 ID를 갖는 복수의 청크로서 전송된 256바이트)

- N바이트 청크

CRC : 이 예에서, 순환 중복 검사(CRC) 필드는 이전 CRC 이후에 시작하는 모든 것을 커버하고, 어느 것이 더 가깝든지 간에 CRC 자신까지(CRC가 포함되는 것은 아님)의 이전 sync 패턴을 포함한다.

EOB : 이 예에서, EOB(블록의 종단) 청크는 주어진 블록 또는 프레임의 끝을 시그널링하는 데 사용된다. sync 청크가 제공되면, EOB는 이전 블록 또는 프레임을 종료하도록 요구되지 않는다. 마찬가지로, EOB가 제공되면, sync 청크는 다음 블록 또는 프레임의 시작을 반드시 정의하지는 않는다. 낮은-레이트 스트림에 있어서, 끼어들기 및 시작이 고려사항이 아닌 경우, 이들 중 어느 하나를 포함하는 것이 요구되지 않는다.

A. 청크 타입

이 예에서, 청크 ID(청크 타입)는 유니버설 기본 스트림 내에 포함되는 데이터의 종류를 구별한다. 이것은 오디오, 비디오 또는 다른 데이터 타입을 포함하는 기본 스트림의 확장을 허용하는 한편 스트림 속성 및 임의의 메타데이터를 포함하는 모든 상이한 코덱 타입들 및 관련 코덱 데이터를 나타내기에 충분히 유동적이다. 나중에 추가된 청크 타입은 LENGTH_PROVIDED 또는 LENGTH_PREDEFINED 클래스를 사용하여, 그 길이를 나타낼 수 있으며, 이것은, 기존 기본 스트림 디코더의 파서가 디코더가 디코딩하도록 프로그래밍되지 않은 그러한 나중에 정의된 청크를 뛰어넘게 한다.

여기에 설명된 기본 스트림 정의의 구현에서, 단일 바이트 청크 타입 필드는 모든 코덱 데이터를 나타내고 구별하는 데 사용된다. 이 설명된 구현예에서는, 이하의 표 3에서 정의된 것과 같이 3개의 청크 클래스가 있다.

LENGTH_PROVIDED 클래스의 태그에 있어서, 후속하는 데이터의 길이를 명시적으로 지정하는 길이 필드가 데이터에 우선한다. 데이터가 스스로 길이 표시자를 포함할 수 있지만, 전체 신택스는 길이 필드를 정의한다.

이 클래스 내의 엘리먼트들의 표가 이하의 표 4에서 나타난다.

LENGTH_PROVIDED 클래스 내의 메타데이터의 엘리먼트의 표가 이하의 표 5에서 나타난다.

길이 필드 엘리먼트는 태그들의 LENGTH_PROVIDED 클래스를 후속한다. 길이 필드의 엘리먼트들의 표가 이하의 표 6에서 나타난다.

LENGTH_AND_MEANING_PREDEFINED의 태그에 대하여, 이하의 표 7은 청크 타입을 후속하는 필드의 길이를 정의한다.

LENGTH_PREDEFINED 태그에 대하여, 청크 타입의 3 내지 5비트는, 표 8에 나타난 바와 같이, 그 청크 타입을 이해하지 못하는 디코더, 또는 그 청크 타입에 대해 포함된 데이터를 필요로하지 않는 디코더가 청크 타입 이후에 스킵해야 하는 데이터의 길이를 정의한다. 청크 타입의 두개의 MSB(most-significant bit)(즉, 비트 7과 6)는 11이다.

2바이트, 4바이트, 8바이트, 및 16바이트에 대하여, 8개의 개별 태그까지가 가능하고, 청크 타입의 0 내지 2비트에 의해 나타난다. 1바이트 및 32바이트 데이터에 대하여, 1바이트 및 32바이트 데이터는 각각 두가지 방식(예를 들어, 상기 표 8에 도시되어 있는 바와 같이, 3 내지 5비트에서, 1바이트에 대해서는 000 또는 001, 32바이트에 대해서는 110 또는 111)으로 나타날 수 있기 때문에, 가능한 태그의 개수는 16으로 배가 된다.

B. 메타데이터 필드

폴드 다운 : 이 필드는 제작자 제어된 폴드 다운 시나리오에 대한 폴드 다운 행렬들에 관한 정보를 포함한다. 이것은 폴드 다운 행렬을 포함하는 필드이며, 이것의 크기는 그것을 포함하는 폴드 다운 조합에 따라 달라질 수 있다. 최악의 경우, 그 크기는 7.1(서브우퍼를 포함하는 8개의 채널)에서 5.1(서브우퍼를 포함하는 6개의 채널)로의 폴드 다운에 대한 8×6 행렬일 것이다. 폴드 다운 필드는 각각의 액세스 유닛에서 반복되어, 폴드 다운 행렬이 시간에 대해 변하는 경우를 커버한다.

DRC : 이 필드는 파일에 대한 DRC(동적 범위 제어; Dynamic Range Control) 정보(예를 들어, DRC 계수)를 포함한다.

컨텐츠 설명자 메타데이터 : 이 예에서, 메타데이터 청크는 오디오 스트림의 컨텐츠에 관한 기본 설명 정보의 통신을 위한 낮은-비트율 채널을 제공한다. 컨텐츠 설면자 메타데이터는 32비트 길이이다. 이 필드는 선택적이며, 필요한 경우 매 3초 당 한번씩 반복될 수 있어, 대역폭을 보존한다. 컨텐츠 설명자 메타데이터에 관한 더 상세한 사항은 상기 표 2에서 제공된다.

실제 컨텐츠 설명자 스트링은 메타데이터 내에 포함된 바이트 스트림으로부터 수신기에 의해 조립된다. 스트림 내의 각각의 바이트는 UTF-8 문자를 나타낸다. 메타데이터 스트링이 블록이 끝나기 전에 종료하는 경우, 메타데이터는 0x00으로 채워진다. 스트링의 시작부 및 종단부는 "Type" 필드 내의 변화에 의해 암시된다. 이로 인해, 전송기는 스트링들 중 하나 이상이 비어있다 하더라도, 컨텐츠 설명자 메타데이터을 송신할 때 4개의 타입 모두에 걸쳐 사이클링(cycle)한다.

상세한 설명 및 첨부 도면에서 본 발명의 원리를 설명하였지만, 다양한 실시예가 그러한 원리로부터 벗어나지 않고서 배열 및 세부사항에 있어서 변경될 수 있음을 이해할 것이다. 여기에서 설명된 프로그램, 프로세스 또는 방법은 달리 표시되지 않는 한, 임의의 특정 유형의 컴퓨팅 환경에 관련되거나 그것으로 제한되지 않음을 이해해야 한다. 다양한 유형의 범용 또는 특수화된 컴퓨팅 환경이 여기에 설명된 가르침에 따른 연산과 함께 사용되거나 그 연산을 수행할 수 있다. 소프트웨어에서 나타나는 실시예의 엘리먼트들은 하드웨어에서 구현될 수 있으며, 그 반대도 성립된다.

본 발명의 기술 및 도구는 주어진 포맷의 디지털 미디어 데이터(예를 들어, 오디오, 비디오, 정지 화상 및/또는 텍스트, 등)를, 디지털 비디오 디스크(DVD)와 같은 광 디스크 상의 데이터를 인코딩하는 데 유용한 전송 또는 파일 컨테이너 포맷으로 맵핑하기 위한 기술 및 도구를 제공한다.

Claims

디지털 미디어 시스템에서, 제1 포맷의 디지털 미디어 데이터를 전송 포맷에 맵핑하는 방법으로서,

상기 제1 포맷으로 인코딩된 디지털 미디어 데이터를 획득하는 단계;

상기 획득된 디지털 미디어 데이터를 프레임 배열(frame arrangement)에 배열하는 단계 - 상기 디지털 미디어 데이터의 상기 프레임 배열은 크기를 가지며, 디지털 미디어 데이터 청크 및 메타데이터 청크를 포함하고, 디지털 비디오 디스크 디코더가 디지털 미디어 데이터 청크를 액세스 및 디코딩하도록 동작가능함 - ; 및

상기 디지털 미디어 데이터의 상기 프레임 배열을 상기 전송 포맷의 디지털 미디어 데이터 스트림 내에 삽입하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 디지털 미디어 데이터는 오디오이고, 상기 전송 포맷은 컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 것인 방법.
제1항에 있어서,

상기 제1 포맷은 윈도우즈 미디어 오디오(Windows Media Audio) 포맷이고, 상기 제2 포맷은 DVD-A 압축된 오디오 포맷인 방법.
제1항에 있어서,

상기 제1 포맷은 윈도우즈 미디어 오디오 포맷이고, 상기 제2 포맷은 DVD 오디오 기록 포맷인 방법.
제1항에 있어서,

상기 메타데이터 청크는 메타데이터 크기를 나타내는 정보를 포함하는 방법.
제5항에 있어서,

상기 메타데이터 청크는 메타데이터 타입을 나타내는 정보를 포함하는 방법.
제1항에 있어서,

상기 프레임 배열은 순환 중복 검사 청크를 더 포함하는 방법.
제1항에 있어서,

상기 프레임 배열은 유효 동기화 패턴을 확인하기 위한 길이 필드를 포함하는 동기화 청크를 더 포함하는 방법.
제1항에 있어서,

상기 프레임 배열은 스트림 속성을 포함하는 포맷 헤더 청크를 더 포함하는 방법.
제1항에 있어서,

상기 프레임 배열은 컨텐츠 설명자 메타데이터를 더 포함하는 방법.
제1항에 있어서,

상기 크기는 고정 크기인 방법.
제1항에 있어서,

상기 크기는 가변 크기인 방법.
제1항에 있어서,

상기 제1 포맷은 윈도우즈 미디어 오디오 포맷이고, 상기 제2 포맷은 MPEG-2 프로그램 스트림 포맷인 방법.
디지털 미디어 프로세서가 제1항의 방법을 수행하게 하기 위한 컴퓨터-판독가능 명령어들을 저장한 컴퓨터-판독가능 매체.
디지털 신호 프로세서에서, 오디오 데이터를, 컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 포맷에 맵핑하는 방법으로서,

오디오 데이터를 획득하는 단계;

상기 획득된 오디오 데이터를, 고정 크기를 갖는 오디오 데이터 액세스 유닛으로 변환하는 단계 - 상기 오디오 데이터 액세스 유닛은 오디오 데이터 청크, 동기화 청크, 메타데이터 청크 및 순환 중복 검사 청크를 포함함 - ; 및

상기 오디오 데이터 액세스 유닛을, 컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 포맷의 오디오 데이터 스트림 내에 삽입하는 단계

를 포함하는 방법.
디지털 미디어 시스템에서, 컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 포맷의 오디오 데이터를 디코딩하는 방법으로서,

컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 포맷으로 인코딩된 오디오 데이터를 획득하는 단계 - 상기 인코딩된 오디오 데이터는, 고정 크기를 가지며 오디오 데이터 청크 및 메타데이터 청크를 포함하는 프레임 배열 내에 있고, 상기 프레임 배열은 중간 포맷으로부터 코드변환(transcode)된 오디오 데이터를 포함함 - ; 및

상기 획득된 오디오 데이터를 디코딩하는 단계

를 포함하는 방법.
제16항에 있어서,

상기 중간 포맷은 윈도우즈 미디어 오디오 포맷이고, 컴퓨터-판독가능 광 데이터 저장 디스크 상에 오디오 데이터를 저장하기 위한 상기 포맷은 DVD 포맷인 방법.
디지털 미디어 시스템에서, 전송 컨테이너에 맵핑하기 위한 유니버설 기본 스트림으로서 디지털 미디어 데이터를 인코딩하는 방법으로서,

선택된 디지털 미디어 코덱에 따라 인코딩된 디지털 미디어 스트림을 획득하는 단계;

상기 획득된 디지털 미디어 스트림을 프레임 배열을 갖는 기본 스트림에 배열하는 단계 - 상기 프레임은 적어도 메타데이터 엘리먼트, 동기화 패턴 엘리먼트, 및 다음의 인접한 프레임의 동기화 패턴으로부터의 거리를 표시하는 길이 엘리먼트를 포함하는 복수의 신택스 엘리먼트를 포함함 - ; 및

상기 기본 스트림을 상기 전송 컨테이너에 삽입하는 단계

를 포함하는 방법.
제18항의 방법에 따라 인코딩된 디지털 미디어 데이터를 디코딩하는 방법으로서,

상기 전송 컨테이너로부터 상기 기본 스트림을 분리하는 단계;

상기 기본 스트림을 파싱하여, 상기 동기화 패턴 및 길이의 제1 발생을 식별하는 단계;

상기 기본 스트림을 파싱하여, 상기 길이에 의해 표시된 거리에서 상기 동기화 패턴의 제2 발생을 식별하는 단계; 및

상기 동기화 패턴의 상기 식별된 발생으로부터 상기 기본 스트림의 프레임을 식별하는 단계

를 포함하는 방법.
제18항에 있어서,

상기 신택스 엘리먼트는 복수의 선택적 청크 컴포넌트를 더 포함하고, 상기 각각의 청크 컴포넌트는 상기 청크 컴포넌트의 타입을 표시하는 신택스 엘리먼트를 가지며, 상기 동기화 패턴 및 길이 신택스 엘리먼트는 임의의 특정 타입의 청크 컴포넌트의 프레임에 포함되든지 그로부터 생략되든지에 상관없이 상기 프레임의 범위를 정의하는 방법.
제20항에 있어서,

상기 타입의 청크 컴포넌트 신택스 엘리먼트의 인코딩 스킴은 기본 스트림 정의로의 나중의 확장을 위한 확장 코드를 포함하는 방법.
제18항에 있어서,

상기 프레임 배열 내의 또다른 프레임의 신택스 엘리먼트는 동기화 블록 대신에 블록의 종단 청크 컴포넌트를 포함하여, 그러한 다른 프레임의 종단을 표시하 는 방법.
디지털 미디어 시스템에서, 전송 컨테이너에 맵핑하기 위한 유니버설 기본 스트림으로서 디지털 미디어 데이터를 인코딩하는 방법으로서,

선택된 디지털 미디어 코덱에 따라 인코딩된 디지털 미디어 스트림을 획득하는 단계;

상기 획득된 디지털 미디어 스트림을 프레임 배열을 갖는 기본 스트림에 배열하는 단계 - 프레임은 적어도 상기 선택된 디지털 미디어 코덱을 표시하는 코덱 속성 청크 엘리먼트를 포함하는 복수의 신택스 엘리먼트를 가짐 - ; 및

상기 기본 스트림을 상기 전송 컨테이너 내에 삽입하는 단계

를 포함하는 방법.
제23항에 있어서,

상기 선택된 디지털 미디어 코덱을 표시하는 상기 코덱 속성 청크 엘리먼트는 상기 선택된 디지털 미디어 코덱에 관한 버전 정보를 포함하는 방법.
적어도 하나의 미가공 포맷의 디지털 미디어 데이터를 저장, 송신 또는 전달 전송 컨테이너 포맷에 맵핑하는 방법으로서,

상기 적어도 하나의 미가공 포맷의 데이터, 및 상기 적어도 하나의 미가공 포맷을 스캐닝, 파싱, 전송, 디코딩 또는 제공하는 데 요구되는 임의의 보조 (side), 메타데이터 또는 부속(ancillary) 정보를 획득하는 단계;

청크 컴포넌트의 시퀀스로서의 상기 데이터를 기본 스트림에 배열하는 단계 - 상기 청크 컴포넌트는 상기 청크 컴포넌트의 미리 정해진 청크 타입 헤더 내에 인코딩된 선택적으로 포함되는 청크 타입의 그룹으로부터 나온 것이고, 상기 배열은 상기 디지털 미디어의 포맷, 저장, 전송, 전달 또는 랜더링에 대하여 바람직하거나 요구되는 비트스트림으로의 코딩으로부터 상기 선택적으로 포함되는 청크 타입의 청크 컴포넌트를 포함하거나 생략하며, 상기 청크의 시퀀스는 미가공 미디어 데이터를 포함하는 적어도 하나의 청크 컴포넌트, 및 상기 보조, 메타데이터 또는 부속 정보를 포함하는 적어도 하나의 청크 컴포넌트를 포함함 - ; 및

상기 디지털 미디어의 자기-포함된(self-contained) 저장, 전송, 전달 또는 렌더링을 위해, 상기 기본 스트림의 청크를 순차적인 패키지 집합 또는 전송 컨테이너 포맷의 직렬 스트림으로 결합하는 단계

를 포함하는 방법.