ES2642839T3

ES2642839T3 - Procedimiento y aparato de multiplexión y desmultiplexión de datos de vídeo para identificar el estado de reproducción de datos de vídeo

Info

Publication number: ES2642839T3
Application number: ES12806944.0T
Authority: ES
Inventors: Young-O Park; Kwang-Pyo Choi; Chan-Yul Kim; Hee-Chul Yang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-07-02
Filing date: 2012-07-02
Publication date: 2017-11-20
Anticipated expiration: 2032-07-02
Also published as: RS57976B1; KR101997039B1; TWI578765B; WO2013005969A3; PT3267681T; TWI604720B; JP5905960B2; DK3267681T3; SI2728861T1; ZA201400764B; MY168370A; KR20150000852A; AU2012278485B2; JP2014524196A; JP2016131391A; AU2012278485A1; EP3267681B1; PH12017501056A1; PT2728861T; KR20160129791A

Abstract

Un procedimiento realizado por un aparato de descodificación de vídeo, de descodificación de un vídeo, comprendiendo el procedimiento: recibir (2010), de una secuencia de bits, una unidad de capa de abstracción de red (NAL) que contiene un encabezamiento; obtener (2020), del encabezamiento, información de tipo que indica un tipo de una imagen actual y una bandera de acceso aleatorio que indica que la imagen actual se reproduce de acuerdo con una reproducción normal o de acuerdo con un acceso aleatorio; si la información de tipo y la bandera de acceso aleatorio indican que la imagen actual es una imagen de acceso aleatorio limpia usada en la reproducción normal, descodificar imágenes de comienzo que preceden a la imagen actual en un orden de visualización pero siguen a la imagen actual en un orden de descodificación al hacer referencia a una imagen descodificada antes de la imagen actual; y si la información de tipo y la bandera de acceso aleatorio indican que la imagen actual es una imagen de acceso aleatorio limpia usada en el acceso aleatorio, saltar la descodificación de las imágenes de comienzo, en el que la imagen actual se divide en una pluralidad de unidades de codificación máxima, en el que una de la pluralidad de unidades de codificación máxima se divide en una pluralidad de unidades de codificación.

Description

10

15

20

25

30

35

40

45

DESCRIPCION

Procedimiento y aparato de multiplexion y desmultiplexion de datos de v^deo para identificar el estado de reproduccion de datos de video

Campo tecnico

La presente invencion se refiere a un procedimiento de descodificacion de video.

Antecedentes de la tecnica

Un codec de video que incluye las normas ITU-T H.261, ISO / IEC MPEG-1 Visual, ITU-T H.262 (ISO / lEC MPEG-2 Visual), ITU-T H.264, ISO / IEC MPEG-4 Visual e ITU-T H.264 (ISO / IEC MPEG-4 AVC) realiza una codificacion de proyeccion sobre un macrobloque por medio de una prediccion inter o una prediccion intra, genera una secuencia de bits que contiene datos de imagen codificados de acuerdo con un formato previamente determinado definido por cada codec de video, y emite como salida la secuencia de bits. El documento de normalizacion a nombre de YING CHEN ET AL, “Comments on Clean Decoding Refresh Pictures", 5. JCT-VC MEETING; 96. MPEG MEETING; 16-32011 -23-3-2011; Ginebra; URL:
HTTP://WFTP3.ITU.INT/AV-ARCH/JCTVC-SITE, n.° JCTVC-E400, describe antecedentes adicionales de la tecnica.

Descripcion detallada de la invencion

Problema tecnico

La presente invencion define un nuevo tipo de una imagen intra para la reproduccion de acceso aleatorio, y proporciona un procedimiento y aparato para identificar un estado de reproduccion normal y un estado de reproduccion de acceso aleatorio mediante soporte ffsico o soporte logico relacionado con un aparato de descodificacion.

Solucion tecnica

De acuerdo con algunas realizaciones de la presente invencion, un estado de reproduccion de una imagen intra puede ser identificado por medio de la sintaxis incluida en unos datos de transmision previamente determinados.

Efectos ventajosos

De acuerdo con algunas realizaciones de la presente invencion, un estado de reproduccion normal y un estado de reproduccion de acceso aleatorio pueden ser identificados por un soporte ffsico o soporte logico relacionado con un aparato de descodificacion, de tal modo que es posible reservar un recurso del sistema que es usado para descodificar imagenes que no requieren ser descodificadas.

Descripcion de los dibujos

La figura 1 es un diagrama de bloques de un aparato de codificacion de un video.

La figura 2 es un diagrama de bloques de un aparato de descodificacion de un video.

La figura 3 es un diagrama para describir un concepto de unas unidades de codificacion.

La figura 4 es un diagrama de bloques de un codificador de imagenes sobre la base de una codificacion.

La figura 5 es un diagrama de bloques de un descodificador de imagenes sobre la base de unas unidades de descodificacion.

La figura 6 es un diagrama que ilustra unas unidades de codificacion mas profundas de acuerdo con unas profundidades y unas particiones.

La figura 7 es un diagrama para describir una relacion entre una unidad de codificacion y unas unidades de transformacion.

La figura 8 es un diagrama para describir una informacion de codificacion de unas unidades de codificacion que se corresponden con una profundidad codificada.

La figura 9 es un diagrama de unas unidades de codificacion mas profundas de acuerdo con las profundidades. Las figuras 10 a 12 son unos diagramas para describir una relacion entre las unidades de codificacion, las unidades de prediccion y las unidades de transformacion.

La figura 13 es un diagrama para describir una relacion entre una unidad de codificacion, una unidad de prediccion o una particion, y una unidad de transformacion, de acuerdo con la informacion del modo de codificacion de la tabla 1.

Las figuras 14A y 14B ilustran un proceso de descodificacion o una imagen de acceso aleatorio limpia (CRA, clean random access) en una reproduccion normal y un acceso aleatorio, de acuerdo con una realizacion de la presente invencion.

La figura 15 ilustra una estructura de un aparato de multiplexion de datos de video.

La figura 16 ilustra una estructura de una unidad de capa de abstraccion de red (NAL, network abstraction layer) para su uso en una realizacion de la presente invencion.

Las figuras 17A y 17B ilustran un proceso de descodificacion de una imagen de CRA en una reproduccion

5

10

15

20

25

30

35

40

45

50

55

normal y un acceso aleatorio.

La figura 18 es un diagrama de flujo de un procedimiento de multiplexion de datos de video.

La figura 19 ilustra una estructura de un aparato de multiplexion inversa de datos de video 1900, operable para realizar etapas en unos procedimientos de acuerdo con algunas realizaciones a modo de ejemplo de la presente invencion.

La figura 20 es un diagrama de flujo de un procedimiento de multiplexion inversa de datos de video.

Mejor modo

De acuerdo con un aspecto de la presente invencion, se proporciona un procedimiento tal como se expone en la reivindicacion 1 adjunta.

Modo de la invencion

En lo sucesivo en el presente documento, la presente invencion se describira con detalle mediante la explicacion de algunas realizaciones a modo de ejemplo de la invencion con referencia a los dibujos adjuntos. A lo largo de la totalidad de la memoria descriptiva, una imagen puede incluir una imagen fija y una imagen en movimiento y se puede hacer referencia a la misma como video. Asimismo, a lo largo de la totalidad de la memoria descriptiva, se puede hacer referencia a una trama de imagen como imagen.

La figura 1 es un diagrama de bloques de un aparato de codificacion de video 100.

El aparato de codificacion de video 100 incluye un divisor de unidades de codificacion maxima 110, un determinador de unidades de codificacion 120 y una unidad de salida 130.

El divisor de unidades de codificacion maxima 110 puede dividir una imagen actual sobre la base de una unidad de codificacion maxima para la imagen actual de una imagen. Si la imagen actual es mas grande que la unidad de codificacion maxima, los datos de imagen de la imagen actual se pueden dividir en al menos una unidad de codificacion maxima. La unidad de codificacion maxima puede ser una unidad de datos que tiene un tamano de 32 x 32, 64 x 64, 128 x 128, 256 x 256, etc., en la que una forma de la unidad de datos es un cuadrado que tiene una anchura y una longitud que son, cada una, un multiplo de 2 y mayores que 8. Los datos de imagen pueden ser enviados hacia el determinador de unidades de codificacion 120 de acuerdo al menos con una unidad de codificacion maxima.

Una unidad de codificacion puede ser caracterizada por un tamano maximo y una profundidad. La profundidad denota un numero de veces que la unidad de codificacion es espacialmente dividida a partir de la unidad de codificacion maxima, y a medida que la profundidad se hace mayor, unidades de codificacion mas profundas de acuerdo con las profundidades pueden ser divididas a partir de la unidad de codificacion maxima a una unidad de codificacion minima. Una profundidad de la unidad de codificacion maxima es una profundidad mas alta y una profundidad de la unidad de codificacion minima es una profundidad mas baja. Debido a que un tamano de una unidad de codificacion que se corresponde con cada profundidad disminuye a medida que se hace mayor la profundidad de la unidad de codificacion maxima, una unidad de codificacion que se corresponde con una profundidad superior puede incluir una pluralidad de unidades de codificacion que se corresponden con las profundidades mas bajas.

Tal como se ha descrito en lo que antecede, los datos de imagen de la imagen actual son divididos en las unidades de codificacion maxima de acuerdo con un tamano maximo de la unidad de codificacion, y cada una de las unidades de codificacion maxima puede incluir unidades de codificacion mas profundas que son divididas de acuerdo con las profundidades. Debido a que la unidad de codificacion maxima es dividida de acuerdo con las profundidades, los datos de imagen de un dominio espacial incluido en la unidad de codificacion maxima pueden ser jerarquicamente clasificados de acuerdo con las profundidades.

Una profundidad maxima y un tamano maximo de una unidad de codificacion, que limitan el numero total de veces que una altura y una anchura de la unidad de codificacion maxima son jerarquicamente divididas, pueden ser determinados.

El determinador de unidades de codificacion 120 codifica al menos una region de division obtenida al dividir una region de la unidad de codificacion maxima de acuerdo con las profundidades, y determina una profundidad para emitir como salida unos datos de imagen finalmente codificados, de acuerdo al menos con una region dividida. Dicho de otra forma, el determinador de unidades de codificacion 120 determina una profundidad codificada por la codificacion de los datos de imagen en las unidades de codificacion mas profundas de acuerdo con las profundidades, de acuerdo con la unidad de codificacion maxima de la imagen actual, y seleccionando una profundidad que tiene el menor error de codificacion. De este modo, los datos de imagen codificados de la unidad de codificacion que se corresponde con la profundidad codificada determinada, son finalmente emitidos como salida. Asimismo, las unidades de codificacion que se corresponden con la profundidad codificada pueden ser consideradas como unidades de codificacion codificadas.

5

10

15

20

25

30

35

40

45

50

55

La profundidad codificada determinada y los datos de imagen codificados de acuerdo con la profundidad codificada determinada, son enviados a la unidad de salida 130.

Los datos de imagen en la unidad de codificacion maxima son codificados sobre la base de las unidades de codificacion mas profundas que se corresponden al menos con una profundidad igual a o por debajo de la profundidad maxima, y los resultados de la codificacion de los datos de imagen son comparados sobre la base de cada una de las unidades de codificacion mas profundas. Una profundidad que tiene el menor error de codificacion puede ser seleccionada despues de comparar los errores de codificacion de las unidades de codificacion mas profundas. Al menos una profundidad codificada puede ser seleccionada para cada unidad de codificacion maxima.

El tamano de la unidad de codificacion maxima es dividido debido a que una unidad de codificacion es jerarquicamente dividida de acuerdo con las profundidades, y a medida que se incrementa el numero de unidades de codificacion. Asimismo, incluso si las unidades de codificacion se corresponden con la misma profundidad en una unidad de codificacion maxima, se determina si se dividen o no cada una de las unidades de codificacion que se corresponden con la misma profundidad a una profundidad inferior, por la medicion de un error de codificacion de los datos de imagen de cada unidad de codificacion, de forma separada. En consecuencia, incluso cuando los datos de imagen son incluidos en una unidad de codificacion maxima, los datos de imagen son divididos en regiones de acuerdo con las profundidades y los errores de codificacion pueden diferir de acuerdo con las regiones en una unidad de codificacion maxima y, por lo tanto, las profundidades codificadas pueden diferir de acuerdo con las regiones en los datos de imagen. De este modo, una o mas profundidades codificadas pueden ser determinadas en una unidad de codificacion maxima, y los datos de imagen de la unidad de codificacion maxima se pueden dividir de acuerdo con las unidades de codificacion de al menos una profundidad codificada.

En consecuencia, el determinador de unidades de codificacion 120 puede determinar las unidades de codificacion que tienen una estructura de arbol incluida en la unidad de codificacion maxima. Las “unidades de codificacion que tienen una estructura de arbol” incluyen las unidades de codificacion que se corresponden con una profundidad determinada por ser la profundidad codificada, de entre todas las unidades de codificacion mas profundas incluidas en la unidad de codificacion maxima. Una unidad de codificacion de una profundidad codificada puede ser jerarquicamente determinada de acuerdo con las profundidades en la misma region de la unidad de codificacion maxima, y puede ser independientemente determinada en diferentes regiones. Similarmente, una profundidad codificada en una region actual puede ser independientemente determinada a partir de una profundidad codificada en otra region.

Una profundidad maxima es un mdice relacionado con el numero de tiempos de division de una unidad de codificacion maxima a una unidad de codificacion minima. Una primera profundidad maxima puede denotar el numero total de tiempos de division de la unidad de codificacion maxima a la unidad de codificacion minima. Una segunda profundidad maxima puede denotar el numero total de niveles de profundidad de la unidad de codificacion maxima a la unidad de codificacion minima. Por ejemplo, cuando una profundidad de la unidad de codificacion maxima es 0, una profundidad de una unidad de codificacion, en la cual la unidad de codificacion maxima es dividida una vez, puede ser ajustada a 1, y una profundidad de una unidad de codificacion, en la cual la unidad de codificacion maxima es dividida dos veces, puede ser ajustada a 2. En el presente caso, si la unidad de codificacion minima es una unidad de codificacion en la cual la unidad de codificacion maxima es dividida cuatro veces, existen 5 niveles de profundidad de las profundidades 1, 2, 3 y 4 y, por lo tanto, la primera profundidad maxima puede ser ajustada a 4, y la segunda profundidad maxima puede ser ajustada a 5.

La codificacion de prediccion y la transformacion pueden ser realizadas de acuerdo con la unidad de codificacion maxima. La codificacion de prediccion y la transformacion son tambien realizadas sobre la base de las unidades de codificacion mas profundas de acuerdo con una profundidad igual a o profundidades menores que la profundidad maxima, de acuerdo con la unidad de codificacion maxima. La transformacion puede ser realizada de acuerdo con el procedimiento de transformacion ortogonal o transformacion de numeros enteros.

Debido a que el numero de unidades de codificacion mas profundas se incrementa siempre que la unidad de codificacion maxima es dividida de acuerdo con las profundidades, la codificacion que incluye la codificacion de prediccion y la transformacion, es realizada sobre todas las unidades de codificacion mas profundas generadas a medida que la profundidad se hace mayor. Para conveniencia de la descripcion, la codificacion de prediccion y la transformacion se describira a continuacion sobre la base de una unidad de codificacion de una profundidad actual, en una unidad de codificacion maxima.

El aparato de codificacion de video 100 puede seleccionar variadamente un tamano o forma de una unidad de datos para codificar los datos de imagen. Con el fin de codificar los datos de imagen, las operaciones, tales como la codificacion de prediccion, la transformacion y la codificacion de entropfa, son realizadas y esta vez la misma unidad de datos puede ser usada para todas las operaciones o diferentes unidades de datos pueden ser usadas para cada operacion.

Por ejemplo, el aparato de codificacion de video 100 puede seleccionar no solo una unidad de codificacion para codificar los datos de imagen, sino tambien una unidad de datos diferente de la unidad de codificacion para realizar asf la codificacion de prediccion sobre los datos de imagen en la unidad de codificacion.

5

10

15

20

25

30

35

40

45

50

55

Con el fin de realizar la codificacion de prediccion en la unidad de codificacion maxima, la codificacion de prediccion puede ser realizada sobre la base de una unidad de codificacion que se corresponde con una profundidad codificada, es decir, sobre la base de una unidad de codificacion que ya no es dividida a las unidades de codificacion que se corresponden con una profundidad inferior. En lo sucesivo en el presente documento, se hara referencia a continuacion a la unidad de codificacion que ya no es dividida y que se vuelve una unidad de base para la codificacion de prediccion como una “unidad de prediccion”. Una particion obtenida por la division de la unidad de prediccion puede incluir una unidad de prediccion o una unidad de datos obtenida por la division de al menos una de una altura y una anchura de la unidad de prediccion.

Por ejemplo, cuando una unidad de codificacion 2Nx2N (en la que N es un numero entero positivo) ya no es dividida y se vuelve una unidad de prediccion 2N x 2N, y un tamano de una particion puede ser 2N x 2N, 2N x N, N x 2N, o N x N. Los ejemplos de un tipo de particion incluyen las particiones simetricas que son obtenidas al dividir simetricamente una altura o anchura de la unidad de prediccion, las particiones obtenidas al dividir asimetricamente la altura o la anchura de la unidad de prediccion, tal como 1 : n o n : 1, las particiones que son obtenidas al dividir geometricamente la unidad de prediccion, y las particiones que tienen formas arbitrarias.

El modo de prediccion de la unidad de prediccion puede ser al menos uno de un modo intra, un modo inter o un modo de salto. Por ejemplo, el modo intra o el modo inter pueden ser realizados sobre la particion de 2Nx2N, 2N x N, Nx2N, o N x N. Asimismo, el modo de salto puede ser realizado solo sobre la particion de 2Nx2N. La codificacion es independientemente realizada sobre una unidad de prediccion en una unidad de codificacion, con lo cual se selecciona un modo de prediccion que tiene el menor error de codificacion.

El aparato de codificacion de video 100 puede tambien realizar la transformacion sobre los datos de imagen en una unidad de codificacion no solo sobre la base de la unidad de codificacion para codificar los datos de imagen, sino tambien sobre la base de una unidad de datos que es diferente de la unidad de codificacion.

Con el fin de realizar la transformacion en la unidad de codificacion, la transformacion puede ser realizada sobre la base de una unidad de datos que tiene un tamano mas pequeno que o igual a la unidad de codificacion. Por ejemplo, la unidad de datos para la transformacion puede incluir una unidad de datos para un modo intra y una unidad de datos para un modo inter.

Se hara referencia a continuacion a una unidad de datos usada como una base de la transformacion como una “unidad de transformacion”. Una profundidad de transformacion que indica el numero de tiempos de division para alcanzar la unidad de transformacion por la division de la altura y la anchura de la unidad de codificacion, puede tambien ser ajustada en la unidad de transformacion. Por ejemplo, en una unidad de codificacion actual de 2N x 2N, una profundidad de transformacion puede ser 0 cuando el tamano de una unidad de transformacion es tambien 2N x 2N, puede ser uno cuando cada una de la altura y la anchura de la unidad de codificacion actual es dividida en dos partes iguales, totalmente dividida en 4A1 unidades de transformacion, y el tamano de la unidad de transformacion es de este modo N x N, y puede ser 2 cuando cada una de la altura y la anchura de la unidad de codificacion actual es dividida en cuatro partes iguales, dividida totalmente en 4A2 unidades de transformacion y el tamano de la unidad de transformacion es de este modo N/2xN/2. Por ejemplo, la unidad de transformacion puede ser ajustada de acuerdo con una estructura de arbol jerarquica, en la cual una unidad de transformacion de una profundidad de transformacion superior es dividida en cuatro unidades de transformacion de una profundidad de transformacion mas baja de acuerdo con las caractensticas jerarquicas de una profundidad de transformacion.

De manera similar a la unidad de codificacion, la unidad de transformacion en la unidad de codificacion puede ser recursivamente dividida en regiones de tamano mas pequeno, de tal modo que la unidad de transformacion puede ser determinada independientemente en unidades de regiones. De este modo, los datos residuales en la unidad de codificacion se pueden dividir de acuerdo con la transformacion que tiene la estructura de arbol de acuerdo con las profundidades de transformacion.

La informacion de codificacion de acuerdo con las unidades de codificacion que se corresponden con una profundidad codificada, requiere no solo informacion con respecto a la profundidad codificada, sino tambien con respecto a la informacion relacionada con la codificacion de prediccion y a la transformacion. En consecuencia, el determinador de unidades de codificacion 120 no solo determina una profundidad codificada que tiene el menor error de codificacion, sino tambien determina un tipo de particion en una unidad de prediccion, un modo de prediccion de acuerdo con las unidades de prediccion, y un tamano de una unidad de transformacion para la transformacion.

Las unidades de codificacion de acuerdo con una estructura de arbol en una unidad de codificacion maxima y un procedimiento de determinacion de una particion se describiran con detalle posteriormente con referencia a las figuras 3 a 12.

El determinador de unidades de codificacion 120 puede medir un error de codificacion de unidades de codificacion mas profundas de acuerdo con las profundidades mediante el uso de la Optimizacion de Distorsion de Tasa sobre la base de los multiplicadores Lagrangianos.

La unidad de salida 130 envfa los datos de imagen de la unidad de codificacion maxima, que se codifican sobre la base de al menos una profundidad codificada determinada por el determinador de unidades de codificacion 120, y la

5

10

15

20

25

30

35

40

45

50

55

informacion con respecto al modo de codificacion de acuerdo con la profundidad codificada, en secuencias de bits.

Los datos de imagen codificados pueden ser obtenidos mediante la codificacion de los datos residuales de una imagen.

La informacion con respecto al modo de codificacion de acuerdo con la profundidad codificada puede incluir la informacion con respecto a la profundidad codificada, con respecto al tipo de particion en la unidad de prediccion, el modo de prediccion y el tamano de la unidad de transformacion.

La informacion con respecto a la profundidad codificada puede ser definida mediante el uso de la informacion de division de acuerdo con las profundidades, que indica si la codificacion es realizada o no sobre unidades de codificacion de una profundidad inferior en vez de una profundidad actual. Si la profundidad actual de la unidad de codificacion actual es la profundidad codificada, los datos de imagen de la unidad de codificacion actual son codificados y enviados y, por lo tanto, la informacion de division puede ser definida no para dividir la unidad de codificacion actual a una profundidad mas baja. Como alternativa, si la profundidad actual de la unidad de codificacion actual no es la profundidad codificada, la codificacion es realizada sobre la unidad de codificacion de la profundidad inferior y, por lo tanto, la informacion de division puede ser definida para dividir la unidad de codificacion actual para obtener las unidades de codificacion de la profundidad inferior.

Si la profundidad actual no es la profundidad codificada, la codificacion es realizada sobre la unidad de codificacion que es dividida en la unidad de codificacion de la profundidad inferior. Debido a que al menos una unidad de codificacion de la profundidad inferior existe en una unidad de codificacion de la profundidad actual, la codificacion es repetidamente realizada sobre cada unidad de codificacion de la profundidad inferior y, por lo tanto, la codificacion puede ser recursivamente realizada para las unidades de codificacion que tienen la misma profundidad.

Debido a que las unidades de codificacion que tienen una estructura de arbol son determinadas para una unidad de codificacion maxima, y la informacion con respecto al menos a un modo de codificacion es determinada para una unidad de codificacion de una profundidad codificada, la informacion con respecto al menos a un modo de codificacion puede ser determinada para una unidad de codificacion maxima. Asimismo, una profundidad codificada de los datos de imagen de la unidad de codificacion maxima puede ser diferente de acuerdo con las posiciones debido a que los datos de imagen son jerarquicamente divididos de acuerdo con las profundidades y, por lo tanto, la informacion con respecto a la profundidad codificada y el modo de codificacion puede ser ajustada para los datos de imagen.

En consecuencia, la unidad de salida 130 puede asignar la informacion de codificacion con respecto a una profundidad codificada correspondiente y a un modo de codificacion a al menos una unidad de codificacion, la unidad de prediccion, y una unidad minima incluida en la unidad de codificacion maxima.

La unidad minima puede ser una unidad de datos rectangular obtenida al dividir la unidad de codificacion minima que constituye la profundidad mas baja entre 4, y puede ser una unidad de datos rectangular maximo que puede ser incluida en todas las unidades de codificacion, las unidades de prediccion, las unidades de particion y las unidades de transformacion incluidas en la unidad de codificacion maxima.

Por ejemplo, la salida de la informacion de codificacion a traves de la unidad de salida 130 puede ser clasificada en informacion de codificacion de acuerdo con las unidades de codificacion, e informacion de codificacion de acuerdo con las unidades de prediccion. La informacion de codificacion de acuerdo con las unidades de codificacion puede incluir la informacion con respecto al modo de prediccion y con respecto al tamano de las particiones. La informacion de codificacion de acuerdo con las unidades de prediccion puede incluir la informacion con respecto a una direccion estimada de un modo inter, con respecto a un mdice de imagen de referencia del modo inter, con respecto a un vector de movimiento, con respecto a un componente de croma de un modo intra, y con respecto a un procedimiento de interpolacion del modo intra. Asimismo, la informacion con respecto a un tamano maximo de la unidad de codificacion definido de acuerdo con las imagenes, sectores o GOP, y la informacion con respecto a una profundidad maxima puede ser insertada en un encabezamiento de una secuencia de bits.

El divisor de unidades de codificacion maxima 110 y el determinador de unidades de codificacion 120 se corresponden con las capas de codificacion de video que determinan una trama de referencia de cada una de las tramas de imagen que forman una secuencia de imagenes mediante la realizacion de la estimacion de movimiento y la compensacion de movimiento sobre cada trama de imagen de la secuencia de imagenes de acuerdo con las unidades de codificacion, y codifican cada trama de imagen mediante el uso de la trama de referencia determinada.

Asimismo, tal como se describira posteriormente, la unidad de salida 130 mapea la sintaxis (almacenamiento en memoria intermedia de max_dec_frame) por una unidad de una capa de abstraccion de red (NAL, network abstraction layer) y, por lo tanto, genera una secuencia de bits, en la que la sintaxis indica un tamano maximo de una memoria intermedia requerida para que un descodificador descodifique las tramas de imagen, la sintaxis (num_reorder_frames) que indican el numero de tramas de imagen requeridas para ser reordenadas, y la sintaxis (max_latency_increase) que indica la formacion de latencia de una trama de imagen que tiene la mayor diferencia entre un orden de codificacion y un orden de visualizacion, y que es proveniente de las tramas de imagen que forman la secuencia de imagenes.

5

10

15

20

25

30

35

40

45

50

55

En el aparato de codificacion de v^deo 100, la unidad de codificacion mas profunda puede ser una unidad de codificacion obtenida al dividir una altura o anchura de una unidad de codificacion de una profundidad superior, que es una capa por arriba, entre dos. Dicho de otra forma, cuando el tamano de la unidad de codificacion de la profundidad actual es 2N x 2N, el tamano de la unidad de codificacion de la profundidad inferior es N x N. Asimismo, la unidad de codificacion de la profundidad actual que tiene el tamano de 2N x2N puede incluir maximo 4 de las unidades de codificacion de la profundidad inferior.

En consecuencia, el aparato de codificacion de video 100 puede formar las unidades de codificacion que tienen la estructura de arbol al determinar las unidades de codificacion que tienen una forma optima y un tamano optimo para cada unidad de codificacion maxima, sobre la base del tamano de la unidad de codificacion maxima y la profundidad maxima determinada considerando las caractensticas de la imagen actual. Asimismo, debido a que la codificacion puede ser realizada sobre cada unidad de codificacion maxima mediante el uso de cualquiera de los diversos modos de prediccion y las transformaciones, un modo de codificacion optimo puede ser determinado considerando las caractensticas de la unidad de codificacion de diversos tamanos de imagen.

De este modo, si una imagen que tiene alta resolucion o una gran cantidad de datos es codificada en un macrobloque convencional, un numero de macrobloques por imagen se incrementa de forma excesiva. En consecuencia, un numero de piezas de informacion comprimida generada para cada macrobloque se incrementa y, por lo tanto, es diffcil transmitir la informacion comprimida y la eficiencia de compresion de datos disminuye. No obstante, mediante el uso del aparato de codificacion de video 100, la eficiencia de compresion de imagen puede ser incrementada debido a que una unidad de codificacion es ajustada mientras se consideran las caractensticas de una imagen al tiempo que se incrementa un tamano maximo de una unidad de codificacion, al tiempo que se considera un tamano de la imagen.

La figura 2 es un diagrama de bloques de un aparato de descodificacion de video 200.

El aparato de descodificacion de video 200 incluye un receptor 210, un extractor de datos de imagen y de informacion de codificacion 220, y un descodificador de datos de imagen 230. Las definiciones de los diversos terminos, tal como una unidad de codificacion, una profundidad, una unidad de prediccion, una unidad de transformacion, y la informacion con respecto a diversos modos de codificacion, para diversas operaciones del aparato de descodificacion de video 200, son identicas a aquellas descritas con referencia a la figura 1, y el aparato de codificacion de video 100.

El receptor 210 recibe y analiza sintacticamente una secuencia de bits de un video codificado. El extractor de datos de imagen y de informacion de codificacion 220 extrae los datos de imagen codificados para cada unidad de codificacion a partir de la secuencia de bits analizada sintacticamente, en la que las unidades de codificacion tienen una estructura de arbol de acuerdo con cada unidad de codificacion maxima, y envfa los datos de imagen extrafdos al descodificador de datos de imagen 230. El extractor de datos de imagen y de informacion de codificacion 220 puede extraer la informacion con respecto a un tamano maximo de una unidad de codificacion de una imagen actual, a partir de un encabezamiento con respecto a la imagen actual o SPS.

Asimismo, el extractor de datos de imagen y de informacion de codificacion 220 extrae la informacion con respecto a una profundidad codificada y a un modo de codificacion para las unidades de codificacion que tienen una estructura de arbol de acuerdo con cada unidad de codificacion maxima, a partir de la secuencia de bits analizada sintacticamente. La informacion extrafda con respecto a la profundidad codificada y al modo de codificacion, es enviada al descodificador de datos de imagen 230. Dicho de otra forma, los datos de imagen en una secuencia de bits son divididos en la unidad de codificacion maxima, de tal modo que el descodificador de datos de imagen 230 descodifica los datos de imagen para cada unidad de codificacion maxima.

La informacion con respecto a la profundidad codificada y al modo de codificacion de acuerdo con la unidad de codificacion maxima puede ser ajustada para la informacion con respecto al menos a una unidad de codificacion que se corresponde con la profundidad codificada, y la informacion con respecto a un modo de codificacion puede incluir la informacion con respecto a un tipo de particion de una unidad de codificacion correspondiente, que se corresponde con la profundidad codificada con respecto a un modo de prediccion, y un tamano de una unidad de transformacion. Asimismo, la informacion de division de acuerdo con las profundidades puede ser extrafda como la informacion con respecto a la profundidad codificada.

La informacion con respecto a la profundidad codificada y el modo de codificacion de acuerdo con cada unidad de codificacion maxima extrafda por el extractor de datos de imagen y de informacion de codificacion 220, es informacion con respecto a una profundidad codificada y un modo de codificacion determinado para generar un error de codificacion mmimo cuando un codificador, tal como el aparato de codificacion de video 100 realiza repetidamente la codificacion para cada unidad de codificacion mas profunda de acuerdo con las profundidades de acuerdo con cada unidad de codificacion maxima. En consecuencia, el aparato de descodificacion de video 200 puede restablecer una imagen al descodificar los datos de imagen de acuerdo con una profundidad codificada y un modo de codificacion que genera el error de codificacion mmimo.

5

10

15

20

25

30

35

40

45

50

55

Debido a que la informacion de codificacion con respecto a la profundidad codificada y el modo de codificacion puede ser asignado a una unidad de datos previamente determinada de entre una unidad de codificacion correspondiente, una unidad de prediccion, y una unidad minima, el extractor de datos de imagen y de informacion de codificacion 220 puede extraer la informacion con respecto a la profundidad codificada y al modo de codificacion de acuerdo con las unidades de datos previamente determinadas. Las unidades de datos previamente determinadas a las cuales es asignada la misma informacion con respecto a la profundidad codificada y al modo de codificacion, pueden ser inferidas para ser las unidades incluidas en la misma unidad de codificacion maxima.

El descodificador de datos de imagen 230 restablece la imagen actual al descodificar los datos de imagen en cada unidad de codificacion maxima sobre la base de la informacion con respecto a la profundidad codificada y al modo de codificacion de acuerdo con las unidades de codificacion maxima. Dicho de otra forma, el descodificador de datos de imagen 230 puede descodificar los datos de imagen codificados sobre la base de la informacion extrafda con respecto al tipo de particion, al modo de prediccion, y la unidad de transformacion para cada unidad de codificacion de entre las unidades de codificacion que tienen la estructura de arbol incluida en cada unidad de codificacion maxima. Un proceso de descodificacion puede incluir una prediccion que incluye la prediccion intra y la compensacion de movimiento, y una transformacion inversa. La transformacion inversa puede ser realizada de acuerdo con el procedimiento de transformacion ortogonal inversa o transformacion de numero interno inverso.

El descodificador de datos de imagen 230 puede realizar la prediccion intra o la compensacion de movimiento de acuerdo con una particion y a un modo de prediccion de cada unidad de codificacion, sobre la base de la informacion con respecto al tipo de particion y al modo de prediccion de la unidad de prediccion de la unidad de codificacion de acuerdo con las profundidades codificadas.

Asimismo, el descodificador de datos de imagen 230 puede realizar la transformacion inversa de acuerdo con cada unidad de transformacion en la unidad de codificacion, sobre la base de la informacion con respecto al tamano de la unidad de transformacion de la unidad de codificacion de acuerdo con las profundidades codificadas, para realizar asf la transformacion inversa de acuerdo con las unidades de codificacion maxima.

El descodificador de datos de imagen 230 puede determinar al menos una profundidad codificada de una unidad de codificacion maxima actual mediante el uso de la informacion de division de acuerdo con las profundidades. Si la informacion de division indica que los datos de imagen ya no son divididos en la profundidad actual, la profundidad actual es una profundidad codificada. En consecuencia el descodificador de datos de imagen 230 puede descodificar los datos codificados de al menos una unidad de codificacion que se corresponde con cada profundidad codificada en la unidad de codificacion maxima actual, mediante el uso de la informacion con respecto al tipo de particion de la unidad de prediccion, el modo de prediccion, y el tamano de la unidad de transformacion para cada unidad de codificacion que se corresponde con la profundidad codificada, y la salida de los datos de imagen de la unidad de codificacion maxima actual.

Es decir, las unidades de datos que contienen la informacion de codificacion que incluye la misma informacion de division puede ser obtenida por la observacion de la informacion de codificacion establecida, asignada para la unidad de datos previamente determinada de entre la unidad de codificacion, la unidad de prediccion y la unidad minima, y las unidades de datos obtenidas pueden ser consideradas por ser una unidad de datos para ser codificada por el descodificador de datos de imagen 230 en el mismo modo de codificacion.

Asimismo, el receptor 210 y el extractor de datos de imagen y de informacion de codificacion 220 realizan un proceso de descodificacion NAL en el cual la sintaxis (almacenamiento en memoria intermedia de max_dec_frame) que indica un tamano maximo de una memoria intermedia requerida para que un descodificador descodifique las tramas de imagen, la sintaxis (num_reorder_frames) que indica el numero de tramas de imagen requeridas para ser reordenadas, y sintaxis (max_latency_increase) que indica la informacion de latencia de una trama de imagen que tiene la mayor diferencia entre un orden de codificacion y un orden de visualizacion, y que es proveniente de las tramas de imagen que forman una secuencia de imagenes, son obtenidas de una secuencia de bits y son enviadas al descodificador de datos de imagen 230.

El aparato de descodificacion de video 200 puede obtener la informacion con respecto al menos a una unidad de codificacion que genera el error de codificacion minima cuando la codificacion es recursivamente realizada para cada unidad de codificacion maxima, y puede usar la informacion para descodificar la imagen actual. Dicho de otra forma, las unidades de codificacion que tienen la estructura de arbol determinada para hacer las unidades de codificacion optimas en cada unidad de codificacion maxima, pueden ser descodificadas. Asimismo, el tamano maximo de la unidad de codificacion es determinado considerando la resolucion y una cantidad de datos de imagen.

En consecuencia, incluso si los datos de imagen tienen una alta resolucion y una gran cantidad de datos, los datos de imagen pueden ser eficientemente descodificados y restablecidos mediante el uso de un tamano de una unidad de codificacion y un modo de codificacion, que son determinados de forma adaptativa de acuerdo con las caractensticas de los datos de imagen, mediante el uso de informacion con respecto a un modo de codificacion optimo recibido de un codificador.

5

10

15

20

25

30

35

40

45

50

55

Un procedimiento de determinar las unidades de codificacion que tienen una estructura de arbol, una unidad de prediccion, y una unidad de transformacion se describira a continuacion con referencia a las figuras 3 a 13.

Un tamano de una unidad de codificacion puede ser expresado en anchura por altura, y puede ser 64 x 64, 32 x 32, 16x16, y 8x8. Una unidad de codificacion de 64x64 puede ser dividida en particiones de 64x64, 64x32, 32x64, o 32x32, y una unidad de codificacion 32x32 puede ser dividida en particiones de 32x32, 32x 16, 16x32, o 16x16, una unidad de codificacion de 16x16 puede ser dividida en particiones de 16x16, 16x8, 8x16, o 8x8, y una unidad de codificacion de 8x8 puede ser dividida en particiones de 8x8, 8x4, 4x8, o 4x4.

En los datos de video 310, una resolucion es 1920 x 1080, un tamano maximo de una unidad de codificacion es 64, y una profundidad maxima es 2. En los datos de video 320, una resolucion es 1920 x 1080, un tamano maximo de una unidad de codificacion es 64, y una profundidad maxima es 3. En los datos de video 330, una resolucion es 352x288, un tamano maximo de una unidad de codificacion 16, y una profundidad maxima es 1. La profundidad maxima mostrada en la figura 3 denota un numero total de divisiones a partir de una unidad de codificacion maxima a una unidad de descodificacion minima.

Si una resolucion es alta o una cantidad de datos es grande, un tamano maximo de una unidad de codificacion puede ser grande no solo para incrementar la eficiencia de codificacion, sino tambien para reflejar de manera precisa las caractensticas de una imagen. En consecuencia, el tamano maximo de la unidad de codificacion de los datos de video 310 y 320 que tienen una resolucion mas alta que los datos de video 330, puede ser 64.

Debido a que la profundidad maxima de los datos de video 310 es 2, las unidades de codificacion 315 de los datos de video 310 pueden incluir una unidad de codificacion maxima que tiene un tamano de eje largo de 64, y unidades de codificacion que tienen tamanos de eje largo de 32 y 16 debido a que las profundidades son aumentadas a dos capas por la division de la unidad de codificacion maxima dos veces. Mientas tanto, debido a que la profundidad maxima de los datos de video 330 es 1, las unidades de codificacion 335 de los datos de video 330 pueden incluir una unidad de codificacion maxima que tiene un tamano de eje largo de 16, y unidades de codificacion que tienen un tamano de eje largo de 8 debido a que las profundidades son aumentadas a una capa por la division de la unidad de codificacion maxima una vez.

Debido a que la profundidad maxima de los datos de video 320 es 3, las unidades de codificacion 325 de los datos de video 320 pueden incluir una unidad de codificacion maxima que tiene un tamano de eje largo de 64, y las unidades de codificacion que tienen tamanos de eje largo de 32, 16 y 8 debido a que las profundidades son aumentadas a 3 capas por la division de la unidad de codificacion maxima tres veces. A medida que una profundidad aumenta, la informacion detallada puede ser mas precisamente expresada.

La figura 4 es un diagrama de bloques de un codificador de imagenes 400 sobre la base de unas unidades de codificacion.

El codificador de imagenes 400 realiza las operaciones del determinador de unidades de codificacion 120 del aparato de codificacion de video 100 para codificar los datos de imagen. Dicho de otra forma, un predictor intra 410 realiza la prediccion intra sobre las unidades de codificacion en un modo intra, de entre una trama actual 405 y un estimador de movimiento 420 y un compensador de movimiento 425 realiza la estimacion inter y la compensacion de movimiento sobre las unidades de codificacion en un modo inter de entre la trama actual 405 mediante el uso de la trama actual 405 y una trama de referencia 495.

Los datos enviados desde el predictor intra 410, el estimador de movimiento 420 y el compensador de movimiento 425 son enviados como un coeficiente de transformacion cuantificado a traves de un transformador 430 y un cuantificador 440. El coeficiente de transformacion cuantificado es restablecido como datos en un dominio espacial a traves de un cuantificador inverso 460 y un transformador inverso 470, y los datos restablecidos en el dominio espacial son enviados como la trama de referencia 495 despues de ser post-procesados a traves de una unidad de desbloqueo 480 y una unidad de filtracion de bucle 490. El coeficiente de transformacion cuantificado puede ser enviado como una secuencia de bits 455 a traves de un codificador de entropfa 450. En particular, el codificador de entropfa 450 puede mapear las sintaxis de almacenamiento en memoria intermedia de trama descodificada maxima (almacenamiento en memoria intermedia de max_dec_frame) por una unidad de un NAL y, por lo tanto, puede generar una secuencia de bits, en la que la sintaxis de almacenamiento en memoria intermedia de trama descodificada maxima (almacenamiento en memoria intermedia de max_dec_frame) indica un tamano maximo de una memoria intermedia requerida para que un descodificador descodifique las tramas de imagen, la sintaxis del numero de tramas de reordenacion (num_reorder_frames) indicando el numero de las tramas de imagen requeridas para ser reordenadas, las sintaxis de trama de latencia maxima (MaxLatencyFrame) indicando un valor maximo de un valor de diferencia entre un orden de codificacion y un orden de codificacion y un orden de visualizacion de las tramas de imagen que forman una secuencia de imagenes, o las sintaxis de incremento de latencia maxima (max_latency_increase) para determinar la sintaxis de trama de latencia maxima (MaxLatencyFrame). En particular, el codificador de entropfa 450 de acuerdo con la presente realizacion incluye la sintaxis de memoria intermedia de trama descodificada maxima (almacenamiento en memoria intermedia de max_dec_frame) que indica un tamano

5

10

15

20

25

30

35

40

45

50

55

maximo de una memoria intermedia requerida para que un descodificador descodifique las tramas de imagen, la sintaxis del numero de tramas de reordenacion (num_reorder_frames) que indica el numero de las tramas de imagen requeridas para ser reordenadas, y la sintaxis de incremento de latencia maxima (max_latency_increase) para determinar la sintaxis de trama de latencia maxima (MaxLatencyFrame), como elementos esenciales, en un conjunto de parametros de secuencia (SPS, sequence parameter set) que es la informacion de encabezamiento que incluye la informacion relacionada con la codificacion de la secuencia de imagen completa.

Con el fin de que el codificador de imagenes 400 sea aplicado en el aparato de codificacion de video 100, todos los elementos del codificacion de imagenes 400, es decir, el predictor intra 410, el estimador de movimiento 420, el compensador de movimiento 425, el transformador 430, el cuantificador 440, el codificador de entropfa 450, el cuantificador inverso 460, el transformador inverso 470, la unidad de desbloqueo 480 y la unidad de filtracion de bucle 490 realizan operaciones sobre la base de cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol mientras se considera la profundidad maxima de cada unidad de codificacion maxima.

Espedficamente, el predictor intra 410, el estimador de movimiento 420 y el compensador de movimiento 425 determina las particiones y un modo de prediccion de cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol, mientras se considera el tamano maximo y la profundidad maxima de una unidad de codificacion maxima actual, y el transformador 430 determina el tamano de la unidad de transformacion en cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol.

La figura 5 es un diagrama de bloques de un descodificador de imagenes 500 sobre la base de unas unidades de codificacion.

Un analizador sintactico 510 analiza sintacticamente los datos de imagen codificados que van a ser descodificados, y la informacion con respecto a la codificacion requerida para la descodificacion a partir de una secuencia de bits 505. En particular, el analizador sintactico 510 obtiene las sintaxis de almacenamiento en memoria intermedia de trama descodificada maxima (almacenamiento en memoria intermedia de max_dec_frame) que indica un tamano maximo de una memoria intermedia requerida para descodificar las tramas de imagen incluidas como un elemento esencial en un SPS, la sintaxis numero-de-tramas-de-reordenacion (num_reorder_frames) que indica el numero de las tramas de imagen requeridas para ser reordenadas, y las sintaxis de incremento de latencia maxima (max_latency_increase) para determinar una sintaxis de trama de latencia maxima (MaxLatencyFrame) a partir de una secuencia de bits, y las envfa a un descodificador de entropfa 520. En la figura 5, el analizador sintactico 510 y el descodificador de entropfa 520 son elementos separados. No obstante, la obtencion de los datos de imagen y la obtencion de cada elemento de informacion de sintaxis relacionada con los datos de imagen codificados que son realizados por el analizador sintactico 510, pueden ser implementadas para ser realizadas por el descodificador de entropfa 520.

Los datos de imagen codificados son enviados como datos cuantificados de forma inversa a traves del descodificador de entropfa 520 y un cuantificador inverso 530, y los datos cuantificados de forma inversa son restablecidos a los datos de imagen en un dominio espacial a traves de un transformador inverso 540.

Un predictor intra 550 realiza la prediccion intra sobre las unidades de codificacion en un modo intra con respecto a los datos de imagen en el dominio espacial, y un compensador de movimiento 560 realiza la compensacion de movimiento sobre las unidades de codificacion en un modo inter mediante el uso de una trama de referencia 585.

Las tramas de imagen que son restablecidas mientras pasan a traves del predictor intra 550 y el compensador de movimiento 560 pueden ser post-procesadas a traves de la unidad de desbloqueo 570 y pueden ser enviadas a una memoria intermedia de imagenes descodificadas (DPB, decoded picture buffer) 580. El DPB 580 almacena una trama de referencia, cambia un orden de visualizacion de las tramas de imagen, y almacena las tramas de imagen restablecidas, para enviar las tramas de imagen. El DPB 580 almacena las tramas de imagen restablecidas, y ajusta un tamano maximo de una memoria intermedia requerida para descodificar normalmente la secuencia de imagenes, mediante el uso de la sintaxis de almacenamiento en memoria intermedia de trama descodificada maxima (almacenamiento en memoria intermedia de max_dec_frame) que indica el tamano maximo de la memoria intermedia requerida para descodificar las tramas de imagen, que es emitida como salida desde el analizador sintactico 510 o el descodificador de entropfa 520.

Asimismo, el DPB 580 puede determinar si envfa o no una trama de imagen de referencia que es previamente descodificada y almacenada, mediante el uso de la sintaxis numero-de-tramas-de-reordenacion (num_reorder_frames) que indica el numero de las tramas requeridas para ser reordenadas, y la sintaxis de incremento de latencia maxima (max_latency_increase) para determinar la sintaxis de trama de latencia maxima (MaxLatencyFrame). Un proceso de envfo de la trama de imagen de referencia almacenada en el DPB 580 se describira con detalle posteriormente.

Con el fin de descodificar los datos de imagen en el descodificador de datos de imagen 230 del aparato de descodificacion de video 200, el descodificador de imagenes 500 pueda realizar las operaciones que son realizadas

5

10

15

20

25

30

35

40

45

50

55

despues del analizador sintactico 510.

Con el fin de que el descodificador de imagenes 500 sea aplicado en el aparato de descodificacion de video 200, todos los elementos del descodificador de imagenes 500, es decir, el analizador sintactico 510, el descodificador de entropfa 520, el cuantificador inverso 530, el transformador inverso 540, el predictor intra 550, el compensador de movimiento 560, la unidad de desbloqueo 570 y la unidad de filtracion de bucle 580 pueden realizar las operaciones de descodificacion sobre la base de las unidades de codificacion que tienen una estructura de arbol para cada unidad de codificacion maxima. Espedficamente, la prediccion intra 550 y el compensador de movimiento 560 pueden determinar las particiones y un modo de prediccion para cada una de las unidades de codificacion que tienen una estructura de arbol, y el transformador inverso 540 puede determinar un tamano de una unidad de transformacion para cada unidad de codificacion.

En aparato de codificacion de video 100 y el aparato de descodificacion de video 200 usan unidades de codificacion jerarquica para considerar las caractensticas de una imagen. Una altura maxima, una anchura maxima y una profundidad maxima de las unidades de codificacion pueden ser determinadas de forma adaptativa de acuerdo con las caractensticas de la imagen, o pueden ser ajustadas de manera diferente por un usuario. Los tamanos de las unidades de codificacion mas profundas de acuerdo con las profundidades pueden ser determinadas de acuerdo con el tamano maximo previamente determinado de la unidad de codificacion.

En una estructura jerarquica 600 de las unidades de codificacion, la altura maxima y la anchura maxima de las unidades de codificacion son, cada una, de 64, y la profundidad maxima es de 4. Debido a que una profundidad aumenta a lo largo de un eje vertical de la estructura jerarquica 600, una altura y una anchura de la unidad de codificacion mas profunda son, cada una, divididas. Asimismo, una unidad de prediccion y las particiones, que son bases para la codificacion de prediccion de cada unidad de codificacion mas profunda, son mostradas a lo largo de un eje horizontal de la estructura jerarquica 600.

Dicho de otra forma, una unidad de codificacion 610 es una unidad de codificacion maxima en la estructura jerarquica 600 en la que una profundidad es 0 y un tamano, es decir, una altura por anchura, es 64x64. La profundidad aumenta a lo largo del eje vertical, y existen una unidad de codificacion 620 que tiene un tamano de 32 x 32 y una profundidad de 1, una unidad de codificacion 630 que tiene un tamano de 16 x 16 y una profundidad de 2, una unidad de codificacion 640 que tiene un tamano de 8x8 y una profundidad de 3, y una unidad de codificacion 650 que tiene un tamano de 4x4 y una profundidad de 4. La unidad de codificacion 650 que tiene el tamano de 4x4 y la profundidad de 4 es una unidad de codificacion minima.

La unidad de prediccion y las particiones de una unidad de codificacion son acomodadas a lo largo del eje horizontal de acuerdo con cada profundidad. Dicho de otra forma, si la unidad de codificacion 610 que tiene el tamano de 64 x 64 y la profundidad de 0 es una unidad de prediccion, la unidad de prediccion puede ser dividida en particiones incluidas en la unidad de codificacion 610, es decir, una particion 610 que tiene un tamano de 64x64, las particiones 612 que tienen el tamano de 64x32, las particiones 614 que tienen el tamano de 32x64, o las particiones 616 que tienen el tamano 32 x 32.

De manera similar, una unidad de prediccion de la unidad de codificacion 620 que tiene el tamano 32 x 32 y la profundidad de 1 puede ser dividida en particiones incluidas en la unidad de codificacion 620, es decir una particion 620 que tiene un tamano de 32 x 32, las particiones 622 que tienen un tamano de 32 x 16, las particiones 624 que tienen un tamano de 16 x 32 y las particiones 626 que tienen un tamano de 16 x 16.

De manera similar, una unidad de prediccion de la unidad de codificacion 630 que tiene el tamano de 16 x 16 y la profundidad de 2 puede ser dividida en particiones incluidas en la unidad de codificacion 630, es decir una particion que tiene un tamano de 16x16 e incluida en la unidad de codificacion 630, las particiones 632 que tienen un tamano de 16 x 8, las particiones 634 que tienen un tamano de 8 x 16, y las particiones 636 que tienen un tamano de 8 x 8.

De manera similar, una unidad de prediccion de la unidad de codificacion 640 que tiene el tamano de 8 x 8 y la profundidad de 3 puede ser dividida en particiones incluidas en la unidad de codificacion 640, es decir una particion que tiene un tamano de 8x8 incluida en la unidad de codificacion 640, las particiones 642 que tienen un tamano de 8x4, las particiones 644 que tienen un tamano de 4x8, y las particiones 646 que tienen un tamano de 4x4.

La unidad de codificacion 650 que tiene el tamano de 4 x 4 y la profundidad de 4 es la unidad de codificacion minima y una unidad de codificacion de la profundidad mas baja. Una unidad de prediccion de la unidad de codificacion 650 solo es asignada a una particion que tiene un tamano de 4x4.

Con el fin de determinar al menos una profundidad codificada de las unidades de codificacion que constituyen la unidad de codificacion maxima 610, el determinador de unidades de codificacion 120 del aparato de codificacion de video 100 realiza la codificacion para las unidades de codificacion que se corresponden con cada profundidad incluida en la unidad de codificacion maxima 610.

5

10

15

20

25

30

35

40

45

50

55

Un numero de unidades de codificacion mas profundas de acuerdo con las profundidades que incluyen datos en el mismo intervalo y el mismo tamano se incrementa a medida que se incrementa la profundidad. Por ejemplo, se requiere que cuatro unidades de codificacion que se corresponden con una profundidad de 2 cubran los datos que son incluidos en una unidad de codificacion que se corresponde con una profundidad de 1. En consecuencia, con el fin de comparar los resultados de la codificacion de los mismos datos de acuerdo con las profundidades, la unidad de codificacion que se corresponde con la profundidad de 1 y cuatro unidades de codificacion que se corresponden con la profundidad de 2 son, cada una, codificadas.

Con el fin de realizar la codificacion para una profundidad actual, de entre las profundidades, al menor error de codificacion puede ser seleccionado para la profundidad actual mediante la realizacion de la codificacion para cada unidad de prediccion en las unidades de codificacion que se corresponden con la profundidad actual, a lo largo del eje horizontal de la estructura jerarquica 600. Como alternativa, el error de codificacion mmimo puede ser buscado mediante una comparacion de los menores errores de codificacion de acuerdo con las profundidades, mediante la realizacion de la codificacion para cada profundidad a medida que la profundidad aumenta a lo largo del eje vertical de la estructura jerarquica 600. Una profundidad y una particion que tiene el error de codificacion mmimo en la unidad de codificacion 610 pueden ser seleccionadas como la profundidad codificada y un tipo de particion de la unidad de codificacion 610.

La figura 7 es un diagrama para describir una relacion entre una unidad de codificacion 710 y las unidades de transformacion 720.

El aparato de codificacion de video 100 o 200 codifica o descodifica una imagen de acuerdo con las unidades de codificacion que tienen tamanos mas pequenos que o iguales a una unidad de codificacion maxima para cada unidad de codificacion maxima. Los tamanos de las unidades de transformacion para la transformacion durante la codificacion pueden ser seleccionados sobre la base de las unidades de datos que no son mas grandes que una unidad de codificacion correspondiente.

Por ejemplo, en el aparato de codificacion de video 100 o 200, si un tamano de la unidad de codificacion 710 es de 64 x 64, la transformacion puede ser realizada mediante el uso de las unidades de transformacion 720 que tienen un tamano de 32 x 32.

Asimismo, los datos de la unidad de codificacion 710 que tiene el tamano de 64 x 64 pueden ser codificados por la realizacion de la transformacion sobre cada una de las unidades de transformacion que tienen el tamano de 32 x 32, 16x16, 8 x 8 y 4x4, que son mas pequenas de 64 x 64, y luego una unidad de transformacion que tiene el menor error de codificacion, puede ser seleccionada.

La unidad de salida 130 del aparato de codificacion de video 100 puede codificar y transmitir la informacion 800 con respecto a un tipo de particion, la informacion 810 con respecto a un modo de prediccion, y la informacion 820 con respecto a un tamano de una unidad de transformacion para cada unidad de codificacion que se corresponde con una profundidad codificada, como informacion con respecto a un modo de codificacion.

La informacion 800 indica la informacion con respecto a una forma de una particion obtenida al dividir una unidad de prediccion de una unidad de codificacion actual, en la que la particion es una unidad de datos para la codificacion de prediccion de la unidad de codificacion actual. Por ejemplo, una unidad de codificacion actual CU_0 que tiene un tamano de 2Nx2N puede ser dividida en cualquiera de una particion 802 que tenga un tamano de 2Nx2N, una particion 804 que tenga un tamano de 2N x N, una particion 802 que tenga un tamano de N x 2N, y una particion 808 que tenga un tamano de N x N. En el presente caso, la informacion 800 con respecto a un tipo de particion es ajustada para indicar una de la particion 804 que tiene un tamano de 2N x N, la particion 806 que tiene un tamano de N x 2N, y la particion 808 que tiene un tamano de N x N.

La informacion 810 indica un modo de prediccion de cada particion. Por ejemplo, la informacion 810 puede indicar un modo de codificacion de prediccion realizada sobre una particion indicada por la informacion 800, es decir, un modo intra 812, un modo inter 814 o un modo de salto 816.

La informacion 820 indica una unidad de transformacion que va a estar basada en cuando la informacion es realizada sobre una unidad de codificacion actual. Por ejemplo, la unidad de transformacion puede ser una primera unidad de transformacion intra 822, una segunda unidad de transformacion intra 824, una primera unidad de transformacion inter 826, o una segunda unidad de transformacion intra 828.

El extractor de datos de imagen y de informacion de codificacion 220 del aparato de descodificacion de video 200 puede extraer y usar la informacion 800, 810 y 820 para la descodificacion, de acuerdo con cada unidad de codificacion mas profunda.

La figura 9 es un diagrama de unas unidades de codificacion mas profundas de acuerdo con las profundidades.

5

10

15

20

25

30

35

40

45

50

55

La informacion de division puede ser usada para indicar un cambio de una profundidad. La informacion de division indica si una unidad de codificacion de una profundidad actual es dividida en unidades de codificacion de una profundidad inferior.

Una unidad de prediccion 910 para la codificacion de prediccion de una unidad de codificacion 900 que tiene una profundidad de 0 y un tamano de 2N_0 x 2N_0 puede incluir las particiones de un tipo de particion 912 que tiene un tamano de 2N_0 x 2N_0, un tipo de particion 914 que tiene un tamano de 2N_0 x N_0, un tipo de particion 916 que tiene un tamano de N_0x2N_0, y un tipo de particion 918 que tiene un tamano de N_0 x N_0. La figura 9 solo ilustra los tipos de particion 912 al 918 que son obtenidos al dividir simetricamente la unidad de prediccion 910, pero un tipo de particion no esta limitado a estos, y las particiones de la unidad de prediccion 910 pueden incluir particiones asimetricas, particiones que tienen una forma previamente determinada, y particiones que tienen una forma geometrica.

La codificacion de prediccion es repetidamente realizada sobre una particion que tiene un tamano de 2N_0 x 2N_0, dos particiones que tienen un tamano de 2N_0xN_0, dos particiones que tienen un tamano N_0x2N_0, y cuatro particiones que tienen un tamano de N_0 x N_0, de acuerdo con cada tipo de particion. La codificacion de prediccion en un modo de intra y un modo inter puede ser realizada sobre las particiones que tienen tamanos de 2N_0 x 2N_0, N_0 x 2N_0, 2N_0 x N_0, y N_0 x N_0. La codificacion de prediccion en un modo de salto es realizado solo sobre la particion que tiene el tamano de 2N_0 x 2N_0.

Los errores de la codificacion que incluyen la codificacion de prediccion en los tipos de particion 912 al 918 son comparados, y el menor error de codificacion es determinado de acuerdo con los tipos de particion. Si un error de codificacion es mas pequeno en uno de los tipos de particion 912 al 916, la unidad de prediccion 910 puede no ser dividida en una profundidad mas baja.

Si el error de codificacion es el mas pequeno en el tipo de particion 918, una profundidad es cambiada de 0 a 1 para dividir el tipo de particion 918 en la operacion 920, y la codificacion es repetidamente realizada sobre las unidades de codificacion 930 que tienen una profundidad de 2 y un tamano de N_0 x N_0 para buscar un error de codificacion mmimo.

Una unidad de prediccion 940 para la codificacion de prediccion de la unidad de codificacion 930 que tiene una profundidad de 1 y un tamano de 2N_1 x2N_1 (=N_0x N_0) puede incluir particiones de un tipo de particion 942 que tiene un tamano de 2N_1 x2N_1, un tipo de particion 944 que tiene un tamano de 2N_1 xN_1, un tipo de particion 946 que tiene un tamano de N_1 x 2N_1, y un tipo de particion 948 que tiene un tamano de N_1 x N_1.

Si un error de codificacion es el mas pequeno en el tipo de particion 948, una profundidad es cambiada de 1 a 2 para dividir el tipo de particion 948 en la operacion 950, y la codificacion es repetidamente realizada sobre las unidades de codificacion 960, que tiene una profundidad de 2 y un tamano de N_2 x N_2 para buscar un error de codificacion mmimo.

Cuando una profundidad maxima es d, la operacion y division de acuerdo con cada profundidad puede ser realizada hasta cuando una profundidad se vuelve d -1, y la informacion de division puede ser codificada como hasta cuando una profundidad es de 1 de 0 a d - 2. Dicho de otra forma, cuando la codificacion es realizada hasta cuando la profundidad es d -1 despues de que una unidad de codificacion que se corresponde con una profundidad de d - 2 es dividida en la operacion 970, una unidad de prediccion 990 para la codificacion de prediccion de una unidad de codificacion 980 que tiene una profundidad de d -1 y un tamano de 2N_(d -1) x 2N_(d -1) puede incluir particiones de un tipo de particion 992 que tiene un tamano de 2N_(d -1) x 2N_(d -1), un tipo de particion 994 que tiene un tamano de 2N_(d -1) x N_(d -1), un tipo de particion 996 que tiene un tamano de N_(d -1) x 2N_(d -1), y un tipo de particion 998 que tiene un tamano de N_(d -1) x N_(d -1).

La codificacion de prediccion puede ser repetidamente realizada sobre una particion que tiene un tamano de 2N_(d - 1)x2N_(d-1), dos particiones que tienen un tamano de 2N_(d -1) x N_(d -1), dos particiones que tienen un tamano de N_(d -1) x 2N_(d -1), cuatro particiones que tienen un tamano de N_(d -1) x N_(d -1) de entre los tipos de particion 992 al 998 para buscar un tipo de particion que tiene un error de codificacion mmimo.

Incluso cuando el tipo de particion 998 tiene el error de codificacion mmimo, debido a que una profundidad maxima es d, una unidad de codificacion CU_(d -1) que tiene una profundidad de d -1 ya no es dividida a una profundidad inferior, y una profundidad codificada para las unidades de codificacion que constituyen una unidad de codificacion maxima actual 900 es determinada para ser d -1 y un tipo de particion de la unidad de codificacion maxima actual 900 puede ser determinada para ser N_(d -1) x N_(d -1). Asimismo, debido a que la profundidad maxima es d y una unidad de codificacion minima 980 que tiene una profundidad mas baja de d -1 ya no es dividida a una profundidad inferior, la informacion de division para la unidad de codificacion minima 980 no es ajustada.

Una unidad de datos 999 puede ser una “unidad minima” para la unidad de codificacion maxima actual. Una unidad minima puede ser una unidad de datos rectangular obtenida al dividir una unidad de codificacion minima 980 entre 4. Mediante la realizacion de la codificacion repetidamente, el aparato 100 de codificacion de video puede seleccionar una profundidad que tiene el menor error de codificacion al comparar los errores de codificacion de acuerdo con las profundidades de la unidad de codificacion 900, para determinar una profundidad codificada, y

5

10

15

20

25

30

35

40

45

ajustar un tipo de particion correspondiente y un modo de prediccion como un modo de codificacion de la profundidad codificada.

Como tal, los errores de codificacion mmimos de acuerdo con las profundidades son comparados en todas las profundidades de 1 a d, y una profundidad que tiene el menor error de codificacion puede ser determinada como una profundidad codificada. La profundidad codificada, el tipo de particion de la unidad de prediccion, y el modo de prediccion pueden ser codificados y transmitidos como informacion con respecto a un modo de codificacion. Asimismo, debido a que una unidad de codificacion es dividida de una profundidad de 0 a una profundidad codificada, solo la informacion dividida de la profundidad codificada es ajustada a 0, y la informacion dividida de las profundidades excluyendo la profundidad codificada es ajustada a 1.

El extractor de datos de imagen y de informacion de codificacion 220 del aparato de descodificacion de video 200 puede extraer y usar la informacion con respecto a la profundidad codificada y la unidad de prediccion de la unidad de codificacion 900 para descodificar la particion 912. El aparato de descodificacion de video 200 puede determinar una profundidad, en la cual la informacion de division es 0, como una profundidad codificada mediante el uso de la informacion de division de acuerdo con las profundidades, y usar la informacion con respecto a un modo de codificacion de la profundidad correspondiente, para la descodificacion.

Las figuras 10 a 12 son unos diagramas para describir una relacion entre las unidades de codificacion 1010, las unidades de prediccion 1060 y las unidades de transformacion 1070.

Las unidades de codificacion 1010 son unidades de codificacion que tienen una estructura de arbol, que se corresponde con las profundidades codificadas determinadas por el aparato 100 de codificacion de video, en una unidad de codificacion maxima. Las unidades de prediccion 1060 son particiones de las unidades de prediccion de cada una de las unidades de codificacion 1010, y las unidades de transformacion 1070 son unidades de transformacion de cada una de las unidades de codificacion 1010.

Cuando una profundidad de una unidad de codificacion maxima es 0 en las unidades de codificacion 1010, las profundidades de las unidades de codificacion 1012 y 1054 son 1, las profundidades de las unidades de codificacion 1014, 1016, 1018, 028, 1050 y 1052 son 2, las profundidades de las unidades de codificacion 1020, 1024, 1026, 1030, 1032 y 1048 son 3, y las profundidades de las unidades de codificacion 1040, 1042, 1044 y 1046 son 4.

En las unidades de prediccion 1060, algunas unidades de codificacion 1014, 1016, 1022, 1032, 1048, 1050, 1052 y 1054 son obtenidas al dividir la unidad de codificacion en las unidades de codificacion 1010. Dicho de otra forma, los tipos de particion en las unidades de codificacion 1014, 1022, 1050 y 1054 tienen un tamano de 2N x N, los tipos de particion en las unidades de codificacion 1016, 1048 y 1052 tienen un tamano de N x 2N, y un tipo de particion de la unidad de codificacion 1032 tiene un tamano de N x N. Las unidades de prediccion y las particiones de las unidades de codificacion 1010 son mas pequenas que o iguales a cada unidad de codificacion.

La transformacion o transformacion inversa es realizada sobre los datos de imagen de la unidad de codificacion 1052 en las unidades de transformacion 1070 en una unidad de datos que es mas pequena que la unidad de codificacion 1052. Asimismo, las unidades de codificacion 1014, 1016, 1022, 1032, 1048, 1050 y 1052 en las unidades de transformacion 1070 son diferentes de aquellas en las unidades de prediccion 1060 en terminos de tamanos y formas. Dicho de otra forma, los aparatos de codificacion y descodificacion 100 y 200 pueden realizar la prediccion intra, la estimacion de movimiento, la compensacion de movimiento, la transformacion y la transformacion inversa individualmente sobre una unidad de datos en la misma unidad de codificacion.

En consecuencia, la codificacion es recursivamente realizada sobre cada una de las unidades de codificacion que tienen una estructura jerarquica en cada region de una unidad de codificacion maxima, para determinar una unidad de codificacion optima y, por lo tanto, las unidades de codificacion que tienen una estructura de arbol recursiva pueden ser obtenidas. La informacion de codificacion puede incluir la informacion de division con respecto a una unidad de codificacion, la informacion con respecto a un tipo de particion, la informacion con respecto a un modo de prediccion, y la informacion con respecto a un tamano de una unidad de transformacion. La tabla 1 muestra la informacion de codificacion que puede ser ajustada por los aparatos de codificacion y descodificacion de video 100 y 200.

5

10

15

20

25

30

35

40

Tabla 1

Informacion de division 0 (codificacion sobre la unidad de codificacion que tiene tamano de 2N x 2N y profundidad actual de d): Informacion de division 1

Modo de prediccion: Tipo de particion Tamano de la unidad de transformacion Codificar repetidamente las unidades de codificacion que tienen profundidad inferior de d + 1

Intra Inter Salto (solo 2N x 2N): Tipo de particion simetrica Tipo de particion asimetrica Informacion de division 0 de la unidad de transformacion Informacion de division 1 de la unidad de transformacion

2N x 2N 2N x N N x 2N N x N: 2N x nU 2N x nD nL x 2N nR x 2N 2N x 2N N x N (tipo simetrico) N / 2 x N / 2 (tipo asimetrico)

La unidad de salida 130 del aparato 100 de codificacion de video puede enviar la informacion de codificacion con respecto a las unidades de codificacion que tienen una estructura de arbol, y el extractor de datos de imagen y de informacion de codificacion 220 del aparato de descodificacion de video 200 puede extraer la informacion de codificacion con respecto a las unidades de codificacion que tiene una estructura de arbol a partir de una secuencia de bits recibida.

La informacion de division indica si una unidad de codificacion actual es dividida en unidades de codificacion de una profundidad inferior. Si la informacion de division de una profundidad actual d es 0, una profundidad, en la cual una unidad de codificacion actual ya no es dividida en una profundidad inferior, es una profundidad codificada y, por lo tanto, la informacion con respecto a un tipo de particion, el modo de prediccion, y un tamano de una unidad de transformacion pueden ser definidos para la profundidad codificada. Si la unidad de codificacion actual es adicionalmente dividida de acuerdo con la informacion de division, la codificacion es independientemente realizada sobre las cuatro unidades de codificacion divididas de una profundidad inferior.

Un modo de prediccion puede ser uno de un modo intra, un modo inter, y un modo de salto. El modo intra y el modo inter pueden ser definidos en todos los tipos de particion, y el modo de salto es definido solo en un tipo de particion que tiene un tamano de 2N x 2N.

La informacion con respecto al tipo de particion puede indicar los tipos de particion simetrica que tienen tamanos de 2Nx2N, 2N x N, Nx2N, y N x N, que son obtenidos al dividir simetricamente una altura o una anchura de una unidad de prediccion, y los tipos de particion asimetrica que tienen tamanos de 2N x nU, 2N x nD, nLx2N, y nR x 2N, que son obtenidos al dividir asimetricamente la altura o la anchura de la unidad de prediccion. Los tipos de particion asimetrica que tienen los tamanos de 2N x nU y 2N x nD pueden ser respectivamente obtenidos al dividir la altura de la unidad de prediccion en 1 : 3 y 3:1, y los tipos de particion asimetrica que tienen los tamanos de nL x 2N y nR x 2N pueden ser respectivamente obtenidos al dividir la anchura de la unidad de prediccion en 1 : 3 y 3 : 1.

El tamano de la unidad de transformacion puede ser ajustado para ser dos tipos en el modo intra y dos tipos en el modo inter. Dicho de otra forma, si la informacion de division de la unidad de transformacion es 0, el tamano de la unidad de transformacion puede ser 2Nx2N, el cual es el tamano de la unidad de codificacion actual. Si la informacion de division de la unidad de transformacion es 1, las unidades de transformacion pueden ser obtenidas al dividir la unidad de codificacion actual. Asimismo, si un tipo de particion de la unidad de codificacion actual que tiene el tamano de 2N x2N es un tipo de particion simetrica, un tamano de una unidad de transformacion puede ser de N x N, y si el tipo de particion de la unidad de codificacion actual esta en el tipo de particion asimetrica, el tamano de la unidad de transformacion puede ser N / 2 x N / 2.

La informacion de codificacion con respecto a las unidades de codificacion que tienen una estructura de arbol puede incluir al menos una de una unidad de codificacion que se corresponde con una profundidad codificada, una unidad de prediccion, y una unidad minima. La unidad de codificacion que se corresponde con la profundidad codificada puede incluir al menos una de una unidad de prediccion y una unidad minima que contiene la misma informacion de codificacion.

En consecuencia, se determina si las unidades de datos adyacentes son o no incluidas en la misma unidad de codificacion que se corresponde con la profundidad codificada al comparar la informacion de codificacion de las unidades de datos adyacentes. Asimismo, una unidad de codificacion correspondiente que se corresponde con una profundidad codificada es determinada mediante el uso de la informacion de codificacion de una unidad de datos y, por lo tanto, una distribucion de las profundidades codificadas en una unidad de codificacion maxima puede ser

5

10

15

20

25

30

35

40

45

50

55

determinada.

En consecuencia, si una unidad de codificacion actual es predicha sobre la base de la informacion de codificacion de las unidades de datos adyacentes, se puede hacer directamente referencia a, y usar, la informacion de codificacion de las unidades de datos en unidades de codificacion mas profundas adyacentes a la unidad de codificacion actual.

Como alternativa, si una unidad de codificacion actual es predicha sobre la base de la informacion de codificacion de las unidades de datos adyacentes, las unidades de datos adyacentes a la unidad de codificacion actual son buscadas usando la informacion de codificacion de las unidades de datos, y se puede hacer referencia a las unidades de codificacion adyacentes buscadas para la prediccion de la unidad de codificacion actual.

Una unidad de codificacion maxima 1300 incluye las unidades de codificacion 1302, 1304, 1306, 1312, 1314, 1316 y 1318 de las profundidades codificadas. En el presente caso, debido a que la unidad de codificacion 1318 es una unidad de codificacion de una profundidad codificada, la informacion de division puede ser ajustada a 0. La informacion con respecto a un tipo de particion de la unidad de codificacion 1318 que tiene un tamano de 2N x2N, puede ser ajustada para ser una de un tipo de particion 1322 que tiene un tamano de 2N x 2N, un tipo de particion 1324 que tiene un tamano de 2Nx2N, un tipo de particion 1326 que tiene un tamano de 2Nx2N, un tipo de particion 1328 que tiene un tamano de N x N, un tipo de particion 1332 que tiene un tamano de 2N x nU, un tipo de particion 1334 que tiene un tamano de 2N x nD, un tipo de particion 1336 que tiene un tamano de nL x 2N, y un tipo de particion 1338 que tiene un tamano de nR x 2N.

Cuando el tipo de particion es ajustado para ser simetrico, es decir, el tipo de particion 1322, 1324, 1326 o 1328, un numero de transformacion 1342 que tiene un tamano de 2N x 2N es ajustado si la informacion de division (bandera de tamano TU) de una unidad de transformacion es 0, y una unidad de transformacion 1344 que tiene un tamano de N x N es ajustada si una bandera de tamano TU es 1.

Cuando el tipo de particion es ajustado para ser asimetrico, es decir, el tipo de particion 1332, 1334, 1336 o 1338 una unidad de transformacion 1352 que tiene un tamano de 2N x 2N es ajustado si una bandera de tamano Tu es 0, y una unidad de transformacion 1354 que tiene un tamano de N/2xN/2 es ajustado si una bandera de tamano TU es 1.

Tal como se ha descrito en lo que antecede, el aparato de codificacion de video 100 y el aparato de descodificacion de video 200 realizan la codificacion y la descodificacion al dividir una unidad de codificacion maxima mediante el uso de una unidad de codificacion igual a o menor que la unidad de codificacion maxima. Los datos codificados en el aparato de codificacion de video 100 son multiplexados mediante el uso de una unidad de datos de transmision apropiada para un protocolo o un formato de un canal de comunicacion, un medio de almacenamiento, un sistema de edicion de video, una estructura de medios, o similares, y la unidad de datos de transmision es transmitida al aparato de descodificacion de video 200.

En un caso de reproduccion de datos de video, el aparato de descodificacion de video 200 restablece los datos de video de acuerdo con una de una manera de reproduccion especial y una manera de reproduccion normal, y reproduce los datos de video. La manera de reproduccion especial incluye una manera de reproduccion normal, una manera de avance rapido o una manera de retroceso rapido, y una manera de acceso aleatorio. De acuerdo con la manera de reproduccion normal, todas las imagenes incluidas en los datos de video son procesadas y reproducidas de forma secuencial. De acuerdo con la manera de avance rapido o la manera de retroceso rapido, una imagen I en cada periodo previamente determinado es seleccionada y reproducida de una manera hacia adelante o hacia atras de acuerdo con una velocidad de reproduccion. De acuerdo con la manera de acceso aleatorio, la reproduccion es realizada con un salto a una imagen clave, es decir, una imagen I en una posicion previamente determinada. De acuerdo con la norma H.264, se usa una imagen de refresco de descodificador instantaneo (IDR, instantaneous decoder refresh) como la imagen clave para la manera de acceso aleatorio. La imagen de IDR es una imagen intra para refrescar un aparato de descodificacion cuando una imagen correspondiente es descodificada. Con mas detalle, cuando la imagen de IDR es descodificada, un DPB marca una imagen diferente de la imagen de IDR, la cual es previamente descodificada, como una imagen de no referencia, y un recuento de orden de imagen (POC, picture order count) es tambien inicializado. Asimismo, una imagen que es descodificada despues de la imagen de IDR puede siempre estar detras de la imagen de IDR en un orden de visualizacion, y puede ser descodificada mientras no se hace referencia a una imagen antes de la imagen de IDR.

De acuerdo con la presente realizacion, ademas de la imagen de IDR, se usa una imagen de acceso aleatorio limpia (CRA, clean random access) como la imagen clave para la manera de acceso aleatorio. Se puede hacer referencia a la imagen de CRA como una imagen de refresco de descodificacion limpia (CDR, clean decoding refresh) o una imagen de refresco de descodificacion diferida (DDR, deferred decoding refresh). La imagen de CRA es una imagen intra que tiene unas imagenes que preceden en el orden de visualizacion a, pero son codificadas (o descodificados) despues de, la imagen de CRA en un orden de codificacion (o de descodificacion). Despues de esto, una imagen que esta en el mismo grupo de imagenes (GOP, group of pictures) que la imagen de CRA y que precede a la imagen

5

10

15

20

25

30

35

40

45

50

55

de CRA en el orden de visualizacion pero es codificado (o descodificado) despues de la imagen de CRA en el orden de codificacion (o de descodificacion) es definido como una imagen de comienzo.

La imagen de IDR y la imagen de CRA son comunes debido a que las mismas son unas imagenes clave para la manera de acceso aleatorio y son unas imagenes intra que van a ser codificadas (o descodificadas) sin hacer referencia a otra imagen. Con respecto a la imagen de IDR, una imagen que sigue a la imagen de IDR en el orden de codificacion (o de descodificacion) no precede a la imagen de IDR en el orden de visualizacion. No obstante, tal como se ha descrito en lo que antecede, con respecto a la imagen de CRA, la imagen de comienzo sigue a la imagen de CRA en el orden de codificacion (o de descodificacion) pero precede a la imagen de CRA en el orden de visualizacion. El orden de descodificacion y el orden de codificacion indican los ordenes en un descodificador y un codificador mediante los cuales son procesadas las imagenes, y un orden de codificacion de las imagenes es igual a un orden descodificacion de las imagenes. En consecuencia, a lo largo de la totalidad de la memoria descriptiva, el orden de codificacion puede querer decir el orden de descodificacion, o el orden de descodificacion puede querer decir el orden de codificacion.

Las figuras 14A y 14B ilustran un proceso de descodificacion de una imagen de CRA en una reproduccion normal y un acceso aleatorio, de acuerdo con una realizacion de la presente invencion.

En las figuras 14A y 14B, Bi y bi son unas imagenes Bi-predictivas que son predichas mediante el uso de la prediccion de L0 y la prediccion de L1, en la cual i indica un orden de visualizacion, es decir un POC. Asimismo, Bi que tiene una letra mayuscula “B” indica una imagen que es usada como una imagen de referencia de otra imagen, y bi que tiene una letra minuscula “b” indica una imagen que no es usada como una imagen de referencia de otra imagen.

Con referencia a la figura 14A, en la reproduccion normal, es decir, cuando todas las imagenes son descodificadas y reproducidas, las imagenes de comienzo 1420 que son descodificadas despues de una imagen de CRA24 1410, pueden ser descodificados normalmente por referencia a una imagen de referencia que es previamente descodificada. Por ejemplo, cuando una imagen de B22 1421 es predicha bi-direccionalmente mediante el uso de la prediccion de L0 que se refiere a una imagen de B181401 y la prediccion de L1 que se refiere a la imagen de CRA24 1410, en la reproduccion normal, la imagen de B22 1421 puede ser descodificada normalmente por referencia a la imagen de CRA24 1410 y a la imagen de B18 1401 que son previamente descodificadas y almacenadas en un DPB 1430.

Con referencia a la figura 14B, en un caso en el que la imagen de CRA24 1410 es descodificada por medio del acceso aleatorio despues de que una imagen de B6 1402 sea descodificada, la prediccion de L0 para la prediccion de la imagen de B221421 determina una imagen de referencia de acuerdo con un mdice de imagen de referencia en una direccion de la prediccion de L0. En este caso, la imagen de B6 1402 que es previamente descodificada y almacenada en un DPB 1440 puede ser determinada como la imagen de referencia para la prediccion de L0 de la imagen de B22 1421. En este caso, la imagen de referencia para la prediccion de L0 de la imagen de B22 1421 tiene que ser la imagen de B18 1401 pero, debido al acceso aleatorio, una imagen que se refiere a las imagenes de referencia entre la imagen de B6 1402 y la imagen de CRA241410 no puede ser descodificada normalmente.

Asimismo, con referencia nuevamente a la figura 14A, debido a que las imagenes de comienzo 1420 preceden a la imagen de CRA24 1410 en un orden de visualizacion, despues de que la imagen de CRA241410 sea descodificada y visualizada por medio del acceso aleatorio, las imagenes de comienzo 1420 no se visualizan y, por lo tanto, no se requiere que sean descodificadas.

No obstante, el aparato de descodificacion de video 200 descodifica y envfa simplemente y de forma secuencial una pluralidad de piezas de datos de video de entrada y, por lo tanto, no puede reconocer si las imagenes de comienzo 1420 son unas imagenes que son descodificadas despues de la imagen de CRA241410 en la reproduccion normal o por medio del acceso aleatorio. Dicho de otra forma, el aparato de descodificacion de video 200 no puede reconocer si la imagen de CRA24 1410 es una imagen que es descodificada por medio del acceso aleatorio o es descodificada en la reproduccion normal.

De este modo, las realizaciones de la presente invencion proporcionan procedimientos de multiplexion y desmultiplexion mediante los cuales las sintaxis para la identificacion de un estado de reproduccion de una imagen de CRA es agregada a los datos en una unidad de transmision previamente determinada, en la que los datos son obtenidos mediante la multiplexion de la imagen de CRA que es codificada para ser identificada si la imagen de CRA es codificada o de acuerdo con un acceso aleatorio o es codificada de acuerdo con una reproduccion normal.

En primer lugar, se describiran un aparato de multiplexion de datos de video y un procedimiento del mismo.

La figura 15 ilustra una estructura de un aparato de multiplexion de datos de video 1500.

Con referencia a la figura 15, el aparato de multiplexion de datos de video 1500 incluye un codificador de video 1510, un multiplexor 1520 y un identificador de estado de reproduccion 1530.

5

10

15

20

25

30

35

40

45

El codificador de video 1510 se corresponde con el aparato de codificacion de v^deo 100 de la figura 1, y codifica datos de v^deo sobre la base de la unidad de codificacion jerarquica en una capa de codificacion de video en la cual es procesada la codificacion de los datos de video. El multiplexor 1520 multiplexa los datos de video mediante el uso de una unidad de datos de transmision apropiada para un protocolo o un formato de un canal de comunicacion, un medio de almacenamiento, un sistema de edicion de video, una estructura de medios, o similares. Tal como se describira posteriormente, el multiplexor 1520 puede multiplexar los datos de video mediante el uso de una unidad de NAL que es una unidad de transmision en una NAL.

Cuando existe una solicitud de transmision para los datos de video codificados de parte de un cliente conectado por medio del canal de comunicacion, un aparato que maneja el medio de almacenamiento, el sistema de edicion de video, y la estructura de medios (a la que se hace referencia de forma colectiva en lo sucesivo en el presente documento como un “aparato de descodificacion”), el identificador de estado de reproduccion 1530 identifica si la solicitud de transmision es para la reproduccion secuencial de los datos de video de acuerdo con la reproduccion normal o es para la transmision de los datos de video de acuerdo con un acceso aleatorio. El identificador de estado de reproduccion 1530 puede comparar un tiempo de visualizacion de una imagen requerida por el aparato de descodificacion con un tiempo de visualizacion de una imagen actualmente visualizada por un aparato de descodificacion actual, y luego puede identificar que la solicitud de transmision de los datos de video tiene lugar de acuerdo con el acceso aleatorio.

El multiplexor 1520 agrega la sintaxis previamente determinada a la unidad de NAL que incluye informacion con respecto a una imagen de CRA que es una imagen clave para el acceso aleatorio, sobre la base del resultado de identificacion por el identificador de estado de reproduccion 1530, en la que la sintaxis previamente determinada indica que solicitud de entre una solicitud por medio de la reproduccion normal y una solicitud por medio del acceso aleatorio esta relacionada con la imagen de CRA.

La figura 16 ilustra una estructura de una unidad de NAL 1600 para su uso en una realizacion de la presente invencion.

Con referencia a la figura 16, la unidad de NAL 1600 es formada de un encabezamiento de NAL 1610 y una carga util de secuencia de bytes bruta (RBSP, raw byte sequence payload) 1620. Un bit de relleno de RBSP 1630 es un bit de ajuste de longitud anexado a un extremo del RBSP 1620 para expresar asf una longitud del RBSP 1620 como un multiplo de 8 bits. El bit de relleno de RBSP 1630 tiene un patron tal como “100...” que comienza con “1” y continua con “0” secuencial determinado de acuerdo con la longitud de RBSP 1620. A este respecto, mediante la busqueda de “1” que es un valor de bit inicial, una posicion de un ultimo bit de RBSP 1620 que esta justo antes del valor del bit inicial, puede ser determinada.

El encabezamiento de NAL 1610 incluye un forbidden_zero_bit 1611 que tiene un valor de 0, una bandera nal_ref_idc que indica si la unidad de NAL 1600 incluye un sector que va a ser una imagen de referencia, y similares. En particular, el encabezamiento de NAL 1610 de acuerdo con la presente realizacion incluye la sintaxis de identificacion de estado 1612 que indica cual solicitud de entre una solicitud por medio de la reproduccion normal y una solicitud por medio del acceso aleatorio esta relacionada con una imagen de CRA que se agrega a la unidad de NAL 1600 que incluye la informacion con respecto a la imagen de CRA.

La sintaxis de identificacion de estado 1612 para identificar un estado de reproduccion de la imagen de CRA puede ser incluida en un identificador (tipo unidad de nal) que indica un tipo de la unidad de NAL 1600. Es decir, una unidad de NAL que se usa para descodificar una imagen de CRA que se proporciona de acuerdo con una solicitud por medio de la reproduccion normal puede tener un identificador (tipo de unidad de nal) que es un tipo diferente de un identificador (tipo de unidad de nal) de una unidad de NAL que se usa para descodificar una imagen de CRA que se proporciona de acuerdo con una solicitud por medio de un acceso aleatorio.

La tabla 2 muestra los tipos de la unidad de NAL 1600 de acuerdo con los valores de un identificador (tipo de unidad de nal).

[Tabla 2]

tipo de unidad de nal: Tipos de unidad de NAL

0: No especificado

1: Sector de imagen diferente de las imagenes de RAP, de TFD, de TLA

2: Sector de imagen de TFD

3: Sector de imagen de TLA diferente de TFD

4, 5: Sector de imagen de CRA

6, 7: Sector de imagen de BLA

5

10

15

20

25

30

35

40

(continuacion)

tipo de unidad de nal: Tipos de unidad de NAL

8: Sector de imagen de IDR

9 -24: Reservado para ampliacion futura

25: VPS

26: SPS

27: PPS

28: APS

29: Delimitador de unidad de acceso (AU, Access Unit)

30: Datos de relleno

31: Informacion de potenciacion complementaria (SEI, Supplemental Enhancement Information)

32 -47: Reservado para ampliacion futura

48 -63: No especificado

El multiplexor 1520 asigna diferentes niveles de 4 y 5 en la tabla 2 anterior, como un identificador (tipo de unidad de nal), a la unidad de NAL que se usa para descodificar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal, y a la unidad de NAL que se usa para descodificar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio del acceso aleatorio. Al hacer esto, el multiplexor 1520 puede senalar que una unidad de NAL que incluya la informacion con respecto a una imagen de CRA es cual de entre una imagen de CRA que se proporciona de acuerdo con la reproduccion normal y una imagen de CRA que se proporciona de acuerdo con un acceso aleatorio.

Asimismo, el multiplexor 1520 puede usar una bandera como sintaxis agregada a un encabezamiento de la unidad de NAL, en la que la bandera es ajustada para tener uno de los diferentes valores de 0 y 1, con respecto a la unidad de NAL usada para descodificar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal, y la unidad de NAL usada para descodificar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio del acceso aleatorio.

Las figuras 17A y 17B ilustran un proceso de descodificacion de una imagen de CRA en una reproduccion normal y un acceso aleatorio. Estas figuras ilustran un proceso de descodificacion fuera del alcance de la reivindicacion 1 adjunta.

El multiplexor 1520 agrega una informacion de tipo, que indica directamente el estado de reproduccion de la imagen de CRA, a la unidad de NAL. En otra realizacion mas, el multiplexor 1520 puede no senalar directamente un tipo de estado de reproduccion de la imagen de CRA pero puede identificar si la imagen de CRA es reproducida de acuerdo con la produccion normal o bien es reproducido de acuerdo con el acceso aleatorio, mediante el uso de un contador de imagenes clave que se descodifican antes de la imagen de CRA, y mediante el uso de la informacion con respecto a un POC de una imagen que es usada como una imagen de referencia de las imagenes de comienzo.

Con referencia a las figuras 17A y 17B, una imagen de B38 1710 y una imagen de B40 1720 son unas imagenes que se descodifican antes de una imagen de CRA44 y a las que se hace referencia mediante b41, B42 y b43 que son unas imagenes de comienzo. Se hace referencia a la imagen de B381710 mediante la imagen de B42 que es la imagen de comienzo, y se hace referencia a la imagen de B40 1720 mediante la imagen de B41 que es la imagen de comienzo. La imagen de B381710 y la imagen de B40 1720 que preceden a una imagen de CRA en un orden de descodificacion y son usadas como imagenes de referencia de las imagenes de comienzo son definidas como una imagen hermana. La razon por lo que la imagen hermana es definida es que es posible identificar si la imagen de CRA es reproducida de acuerdo con la reproduccion normal o es reproducido de acuerdo con un acceso aleatorio, mediante el uso de un POC de la imagen hermana. La idea de usar la imagen hermana se ha desvelado en el documento de normalizacion JCTVC-E400 que se ha citado en lo que antecede

Por ejemplo, con referencia a la figura 17A, mientras las imagenes son descodificadas de forma secuencial en un estado de reproduccion normal, cuando la imagen de CRA44 es descodificada, la imagen de B381710 y la imagen de B40 1720 que son previamente descodificadas son almacenadas en un DPB 1740. Si un valor de POC de 38 de la imagen de B38 1710, y un valor de POC de 40 de la imagen de B40 1720, que son imagenes hermanas, son agregados a un encabezamiento de sector de la imagen de CRA44, un descodificador puede comparar un POC de imagenes que son previamente descodificadas y almacenadas en el DPB 1740 a un tiempo de la descodificacion de la imagen de CRA44 con el POC de las imagenes hermanas incluidas en el encabezamiento del sector de la imagen de CRA44 y, por lo tanto, puede identificar si la imagen de CRA44 es reproducida de acuerdo con el acceso aleatorio o bien es reproducido de acuerdo con la reproduccion normal. Debido a que un orden de reproduccion, es decir, un orden de descodificacion, se salta la imagen de CRA44, en la reproduccion de acuerdo con el acceso aleatorio, si el POC de las imagenes que son previamente descodificadas y almacenadas en el DPB 1740 a un tiempo de la

5

10

15

20

25

30

35

40

45

50

55

descodificacion la imagen de CRA44 no se acopla con el POC de las imagenes hermanas, existe una alta posibilidad de que la imagen de CRA44 sea reproducida de acuerdo con el acceso aleatorio.

No obstante, existe tambien una posibilidad de que la imagen de CRA44 se pueda identificar mal con respecto a si la imagen de CRA44 es reproducida de acuerdo con el acceso aleatorio o es reproducida de acuerdo con la reproduccion normal, mediante el uso solo de informacion con respecto al POC de las imagenes hermanas.

Por ejemplo, con referencia a la figura 17B en un caso en el que la imagen de CRA44 es descodificada de acuerdo con el acceso aleatorio despues de que una imagen de B40 1745 sea descodificada, cuando la imagen de CRA44 es descodificada, un valor de POC de 40 de la imagen de B40 1745 es almacenado en un DPB 1780, y un valor de POC de 40 de una imagen hermana almacenada en el encabezamiento de sector de la imagen de CRA44 es igual al valor de POC de una imagen previa almacenada en el DPB 1780, de tal modo que un descodificador puede identificar mal que la imagen de CRA44 es reproducida de acuerdo con la reproduccion normal. Tal como se ha descrito en lo que antecede, un estado de reproduccion de una imagen de CRA puede no ser correctamente identificado mediante el uso solo de informacion con respecto a un POC de una imagen hermana. Es decir, debido a que cada vez que una imagen de IDR es descodificada, un POC es restablecido, de tal modo que una imagen de referencia que es diferente de una imagen de referencia real a la que se va a hacer referencia mediante las imagenes hermanas en un acceso aleatorio, puede tener el mismo POC que un POC de las imagenes hermanas.

De este modo, el multiplexor 1520 agrega la informacion de POC de una imagen hermana a la sintaxis de los datos de unidad de transmision de una imagen de CRA, obtiene un recuento proveniente de un contador de discontinuidad de POC (PDC, POC discontinuity counter) que es un contador que tiene un valor que se incrementa en 1 siempre que un POC es restablecido o la imagen de CRA es codificada mientras las imagenes antes de la imagen de CRA son codificadas, y agrega el recuento desde el PDC a la sintaxis.

Con referencia nuevamente a la figura 17A, tal como se ha descrito en lo que antecede, el multiplexor 1520 incrementa el recuento del PDC en 1 siempre que el POC es restablecido o la imagen de CRA es codificada mientras las imagenes son codificadas. Debido a que el POC es restablecido siempre que la imagen de IDR es codificada, un valor de PDC se incrementa en 1 siempre que la imagen de IDR es codificada, y el valor del recuento del PDC se incrementa en 1 cuando se codifica una imagen de CRA previa excepto por la imagen de CRA 44. El multiplexor 1520 agrega el valor de PDC con el POC de las imagenes hermanas a un encabezamiento 1730 de los datos de unidad de transmision de la imagen de CRA. El descodificador de la misma manera que un codificador incrementa el recuento del PDC en 1 siempre que el POC es restablecido mientras los datos de unidad de transmision de entrada son descodificados, es decir, siempre que la imagen de IDR es descodificada o la imagen de CRA es descodificada. Tal como se ilustra en la figura 17a, en un caso de reproduccion normal, cuando la imagen de CRA44 es descodificada, un valor de PDC incluido en el encabezamiento 1730 de los datos de unidad de transmision que se usan para multiplexar la imagen de CRA44, y un valor de PDC 1745 contado mientras las imagenes son descodificadas por el descodificador, son 3 todos ellos.

Con referencia nuevamente a la figura 17B, en un caso de un acceso aleatorio, existen una imagen de IDR y una imagen de CRA que se descodifican antes de la imagen de CRA44, de modo que, cuando la imagen de CRA44 es descodificada de acuerdo con el acceso aleatorio, un valor de PDC 1785 es 2, el cual es diferente de un valor de PDC que tiene 3 e incluido en un encabezamiento 1770 de los datos de unidad de transmision que se usan para multiplexar la imagen de CRA44. De este modo, sobre la base de la no concordancia entre los valores de PDC, el descodificador puede determinar que una imagen de CRA44 actual se reproduce de acuerdo con el acceso aleatorio.

Con referencia a la figura 18, en la operacion 1810, el codificador de video 1510 codifica las imagenes que forman datos de video sobre la base de las unidades de datos que tienen una estructura jerarquica. Tal como se ha descrito en lo que antecede, el codificador de video 1510 determina las unidades de codificacion de estructura de arbol que incluyen las unidades de codificacion con profundidades de codificacion de entre las unidades de codificacion mas profundas de acuerdo con las profundidades que son jerarquicamente formadas de acuerdo con las profundidades que indican un recuento de division espacial de al menos una unidad de codificacion maxima obtenida al dividir una imagen que forma el video mediante el uso de una unidad de codificacion de tamano maximo, determina una particion para la codificacion de prediccion para cada una de las unidades de codificacion con profundidades de codificacion, realiza la transformacion sobre la base de las unidades de transformacion de estructura jerarquica, y determina luego las unidades de transformacion de estructura de arbol. En la determinacion de una unidad de datos jerarquico, una estructura de una unidad de datos jerarquico optima puede ser determinada sobre la base de un costo de distorsion de tasa (RD, rate distortion).

En la operacion 1820, en respuesta a una solicitud de transmision para los datos codificados provenientes de un aparato de descodificacion, el identificador de estado de reproduccion 1530 determina si la solicitud de transmision es de acuerdo con la reproduccion normal o es para un acceso aleatorio. Tal como se ha descrito en lo que antecede, el aparato de descodificacion puede indicar de forma colectiva los aparatos para el almacenamiento, la reproduccion, y la edicion de datos de video codificados, y puede incluir un cliente conectado por medio de un canal de comunicacion, un aparato que maneja un medio de almacenamiento, un sistema de edicion de video, una

5

10

15

20

25

30

35

40

45

50

55

estructura de medios y similares.

En la operacion 1830, el multiplexor 1520 agrega la sintaxis previamente determinada a los datos de unidad de transmision que se usan para multiplexar una imagen de CRA que es una imagen intra que tiene imagenes de comienzo, de acuerdo con un resultado de la determinacion en la operacion 1820, en la que la sintaxis previamente determinada indica que solicitud de entre una solicitud por medio de la reproduccion normal y una solicitud por medio del acceso aleatorio esta relacionada con la imagen de CRA. Tal como se ha descrito en lo que antecede, la imagen de comienzo quiere decir una imagen que precede a la imagen de CRA en un orden de visualizacion, pero es codificada despues de la imagen de CRA en un orden de codificacion. Asimismo, los datos de unidad de transmision pueden ser los datos de NAL. Asimismo, el multiplexor 1520 puede agregar un identificador (tipo de unidad de nAl) que indica un tipo de una unidad de NAL a un encabezamiento de la unidad de NAL de tal modo que una unidad de nAl que se usa para multiplexar una imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal, puede tener un identificador (tipo de unidad de nal) que es diferente de un identificador (tipo de unidad de nal) de una unidad de NAL que se usa para multiplexar una imagen de CRA que se proporciona de acuerdo con una solicitud por medio del acceso aleatorio. Asimismo, el multiplexor 1520 puede agregar una bandera al encabezamiento de la unidad de NAL, en la que la bandera tiene un valor de 0 o 1 de acuerdo con la unidad de NAL usada para multiplexar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal, y la unidad de NAL usada para multiplexar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio del acceso aleatorio. Tambien el multiplexor 1520 puede obtener un recuento de un PDC que se incrementa en 1 siempre que un POC es restablecido o la imagen de CRA es codificada mientras las imagenes son multiplexadas, y puede agregar informacion de POC de una imagen hermana de la imagen de CRA, y el recuento del PDC al encabezamiento de la unidad de NAL.

La figura 19 ilustra una estructura de un aparato de multiplexion inversa de datos de video 1900.

Con referencia a la figura 19, el aparato de multiplexion inversa de datos de video 1900 incluye un descodificador de video 1910, un multiplexor inverso 1920, y un identificador de estado de reproduccion 1930.

El multiplexor inverso 1920 recibe los datos de unidad de transmision, es decir, los datos de unidad de NAL que se transmiten desde el aparato de multiplexion de datos de video 1500 de la figura 15, y obtiene las sintaxis que indica si una imagen de CRA se descodifica de acuerdo con un estado de reproduccion normal o bien de acuerdo con un estado de acceso aleatorio, a partir de unos datos de unidad de NAL que se usan para multiplexar la imagen de CRA.

El identificador de estado de reproduccion 1930 determina si la imagen de CRA es reproducida de acuerdo con la reproduccion normal o de acuerdo con un acceso aleatorio, mediante el uso de la sintaxis obtenida.

Tal como se ha descrito en lo que antecede, cuando una unidad de NAL que se usa para multiplexar una imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal es ajustado para tener un identificador (tipo de unidad de nal) diferente de un identificador (tipo de unidad de nal) de una unidad de NAL que se usa para multiplexar una imagen de CRA que se proporciona de acuerdo con una solicitud por medio del acceso aleatorio, el identificador de estado de reproduccion 1930 pueda reconocer un estado de descodificacion de una imagen de CRA actual por referencia a los valores de los identificadores (tipo de unidad de nal). De acuerdo con el procedimiento de la reivindicacion 1 adjunta, la unidad de NAL tiene agregada a la misma una bandera. Por ejemplo, esa bandera tiene un valor de 0 o 1 de acuerdo con la unidad de NAL usada para multiplexar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio de la reproduccion normal, y la unidad de NAL usada para multiplexar la imagen de CRA que se proporciona de acuerdo con la solicitud por medio del acceso aleatorio, el identificador de estado de reproduccion 1930 puede reconocer el estado de descodificacion de la imagen de CRA actual por referencia a la informacion con respecto a la bandera.

El descodificador de video 1910 se corresponde con el aparato de descodificacion de video 200 de la figura 2 o el descodificador de imagenes 500 de la figura 5. El descodificador de video 1910 obtiene los datos de imagen codificados, y la informacion de division, la informacion de tipo de particion, la informacion del modo de prediccion, la informacion del tamano de la unidad de transformacion, y la informacion de conjunto de parametros relacionada con un proceso de codificacion, que son con respecto a las unidades de codificacion usadas para generar los datos de imagen codificados de una unidad de NAL y realiza la descodificacion.

Con referencia a la figura 20, en la operacion 2010, el multiplexor inverso 1920 recibe los datos de unidad de transmision que se usan para multiplexar una secuencia de bits generada por la codificacion de las imagenes que forman los datos de video, sobre la base de unidades de datos de estructura jerarquica. Tal como se ha descrito en lo que antecede, los datos de unidad de transmision pueden ser datos de unidad de NAL.

En la operacion 2020, el multiplexor inverso 1920 obtiene la sintaxis que indica si una imagen de CRA se descodifica de acuerdo con un estado de reproduccion normal o bien de acuerdo con un estado de acceso aleatorio, a partir de unos datos de unidad de NAL que se usan para multiplexar la imagen de CRA.

5

10

15

20

25

30

En la operacion 2030, el identificador de estado de reproduccion 1930 identifica si la imagen de CRA es reproducida de acuerdo con la reproduccion normal o de acuerdo con un acceso aleatorio, sobre la base de la sintaxis obtenida. Tal como se ha descrito en lo que antecede, cuando un encabezamiento de una unidad de NAL senala un estado de descodificacion de la imagen de CRA mediante el uso de un identificador (tipo de unidad de NAL), el identificador de estado de reproduccion 1930 puede reconocer un estado de descodificacion de una imagen de CRA actual por referencia a un valor del identificador (tipo de unidad de NAL). Si una bandera que tiene un valor de 0 o 1 es agregada al encabezamiento de la unidad de NAL, el identificador de estado de reproduccion 1930 puede reconocer el estado de descodificacion de la imagen de CRA actual por referencia a la informacion de la bandera. Asimismo, cuando se incluyen un PDC y una informacion de POC de una imagen hermana en el encabezamiento de la unidad de NAL, el identificador 1930 puede reconocer el estado de descodificacion de la imagen de CRA actual mediante la determinacion de una concordancia entre un PDC obtenido en un proceso de descodificacion, y el PDC incluido en el encabezamiento de la unidad de NAL, y una concordancia entre un valor POC de imagenes previas almacenadas en un DPB, y un valor POC de la imagen hermana.

Cuando se determina que la imagen de CRA es reproducida de acuerdo con el acceso aleatorio, las imagenes de comienzo de la imagen de CRA no se visualizan y, por lo tanto, no se requiere que sean descodificadas. De acuerdo con las realizaciones de la presente invencion, la imagen de CRA que es reproducida de acuerdo con el acceso aleatorio puede ser identificada, de tal modo que las imagenes de comienzo de la imagen de CRA pueden no ser descodificadas y, por lo tanto, se puede reservar un recurso del sistema del aparato de descodificacion.

La invencion tambien se puede materializar como codigos legibles por ordenador sobre un medio de grabacion legible por ordenador. El medio de grabacion legible por ordenador es cualquier dispositivo de almacenamiento de datos que pueda almacenar datos que pueden ser posteriormente lefdos por un sistema informatico. Los ejemplos del medio de grabacion legible por ordenador incluyen memoria de solo lectura (ROM, read only memory), memoria de acceso aleatorio (RAM, random access memory), CD-ROM, cintas magneticas, discos flexibles, dispositivos de almacenamiento optico de datos, etc. El medio de grabacion legible por ordenador tambien puede estar distribuido en sistemas informaticos conectados a la red, de tal modo que el codigo legible por ordenador se almacene y se ejecute de una manera distribuida.

A pesar de que la presente invencion se ha mostrado y descrito en particular con referencia a algunas realizaciones preferidas de la misma, los expertos en la materia podran comprender que se pueden realizar en la misma diversos cambios en la forma y los detalles sin apartarse del alcance de la invencion tal como se define por medio de las reivindicaciones adjuntas. Por lo tanto, el alcance de la invencion es definido no por la descripcion detallada de la invencion, sino por las reivindicaciones adjuntas, y todas las diferencias dentro del alcance se han de considerar como incluidas en la presente invencion.

Claims

10

15

REIVINDICACIONES

1. Un procedimiento realizado por un aparato de descodificacion de v^deo, de descodificacion de un video, comprendiendo el procedimiento:

recibir (2010), de una secuencia de bits, una unidad de capa de abstraccion de red (NAL) que contiene un encabezamiento;

obtener (2020), del encabezamiento, informacion de tipo que indica un tipo de una imagen actual y una bandera de acceso aleatorio que indica que la imagen actual se reproduce de acuerdo con una reproduccion normal o de acuerdo con un acceso aleatorio;

si la informacion de tipo y la bandera de acceso aleatorio indican que la imagen actual es una imagen de acceso aleatorio limpia usada en la reproduccion normal, descodificar imagenes de comienzo que preceden a la imagen actual en un orden de visualizacion pero siguen a la imagen actual en un orden de descodificacion al hacer referencia a una imagen descodificada antes de la imagen actual; y

si la informacion de tipo y la bandera de acceso aleatorio indican que la imagen actual es una imagen de acceso

aleatorio limpia usada en el acceso aleatorio, saltar la descodificacion de las imagenes de comienzo,

en el que la imagen actual se divide en una pluralidad de unidades de codificacion maxima,

en el que una de la pluralidad de unidades de codificacion maxima se divide en una pluralidad de unidades de

codificacion.