ES2768573T3

ES2768573T3 - Procedimiento de codificación de imágenes, procedimiento de descodificación de imágenes, dispositivo de codificación de imágenes y dispositivo de descodificación de imágenes

Info

Publication number: ES2768573T3
Application number: ES14854156T
Authority: ES
Inventors: Kengo Terada; Takahiro Nishi; Hisao Sasai
Original assignee: Sun Patent Trust Inc
Current assignee: Sun Patent Trust Inc
Priority date: 2013-10-18
Filing date: 2014-09-24
Publication date: 2020-06-23
Anticipated expiration: 2034-09-24
Also published as: US11778208B2; JP5909026B2; JPWO2015056409A1; JP6377598B2; US20230239484A1; EP3059974A4; JP2016054548A; JP6572353B2; US11785231B2; EP3059974A1; US20200154119A1; EP3611929B1; EP4270954A2; EP4270954A3; JP2018186560A; EP3611929A1; US20230396784A1; US20160234519A1; WO2015056409A1; EP3059974B1

Abstract

Un procedimiento de codificación de imágenes de codificación jerárquica de una pluralidad de instantáneas, que incluye instantáneas I, instantáneas P e instantáneas B, para generar un flujo de bits (124), perteneciendo cada instantánea a una de una pluralidad de capas temporales jerárquicas, perteneciendo dichas instantáneas I y P a la capa más baja de la pluralidad de capas temporales jerárquicas, la pluralidad de instantáneas comprende una pluralidad de las instantáneas de capa más alta que pertenecen a la capa más alta de la pluralidad de capas temporales jerárquicas y una pluralidad de instantáneas de capa inferior que pertenecen a las capas de la pluralidad de capas temporales jerárquicas distintas de la capa más alta, comprendiendo el procedimiento de codificación de imágenes: codificar cada instantánea de la pluralidad de instantáneas con referencia a una instantánea que pertenece a una capa temporal jerárquica que es igual o menor que una capa temporal jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa temporal jerárquica que es mayor que la capa temporal jerárquica a la que pertenece cada una de las instantáneas; y generar el flujo de bits (124) mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas, caracterizado porque la pluralidad de instantáneas de capa más alta son instantáneas B que se predicen a partir de instantáneas B de la pluralidad de instantáneas de capa inferior; y la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para la pluralidad de instantáneas de capa inferior.

Description

DESCRIPCIÓN

Procedimiento de codificación de imágenes, procedimiento de descodificación de imágenes, dispositivo de codificación de imágenes y dispositivo de descodificación de imágenes

La presente invención se refiere a un procedimiento de codificación de imágenes y a un procedimiento de descodificación de imágenes.

Como una técnica con respecto a un procedimiento de codificación de imágenes para codificar imágenes (incluyendo vídeo) o un procedimiento de descodificación de imágenes para descodificar imágenes, existe la técnica desvelada en las referencias no de patente (NPL) 1 a 4 y en la referencia de patente (PTL) 1.

[Referencia de patente]

[PTL 1] US 2012/140825 [Referencia no de patente]

[NPL 1] Equipo de Colaboración Conjunta en Codificación de Vídeo (JCT-VC) de ITU-T SG16 WP3 e ISO/IEC JTC1/SC29/WG11, 12a Reunión: Ginebra, CH, 14-23 de enero de 2013 JCTVC-L1003_v34.doc,_ borrador de especificación de texto de Codificación de Vídeo de Alta Eficiencia (HEVC) 10 (para FDIS y Último Aviso) http://phenix.it-sudpar-es.eu/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip

[NPL 2] YOKOYAMA Y ED - INSTITUTO DE INGENIEROS ELÉCTRICOS Y ELECTRÓNICOS, "ADAPTIVE GOP STRUCTURE SELECTION FOR REAL-TIME MPEG-2 VIDEO ENCODING", ACTAS DE LA CONFERENCIA INTERNACIONAL SOBRE PROCESAMIENTO DE IMÁGENES DE 2000. ICIP 2000. VANCOUVER, CANADÁ, 10 - 13 de sept. de 2000; [CONFERENCIA INTERNACIONAL SOBRE PROCESAMIENTO DE IMAGEN], NUEVA YORK, NY: IEEE, EE. UU., (10-09-2000), vol. CONF. 7, ISBN 978-0-7803-6298-7, páginas 832 - 835 [NPL 3] R. SJOBERG ET AL, "Overview of HEVC high-level syntax and reference picture management", TRANSACCIONES DE IEEE SOBRE CIRCUITOS Y SISTEMAS PARA LA TECNOLOGÍA DE VÍDEO, (01-01-2012), doi:10.1109/TCSVT.2012.2223052, ISSN 1051-8215, páginas 1 -1

[NPL 4] SCHWARZ H ET AL, "Overview of the Scalable Extension of the H.264/MPEG-4 AVC Video Coding Standard", 21. REUNIÓN DE JVT; 78. REUNIÓN DE MPEG; 20-10-2006 - 27-10-2006; HANGZHOU, CN; (EQUIPO CONJUNTO DE VÍDEO DE ISO/IEC JTC1/SC29/WG11 E ITU-T SG.16), (20-10-2006), n.° JVT-U145, ISSN 0000-0405

Sin embargo, en el procedimiento de codificación de imágenes y el procedimiento de descodificación de imágenes de acuerdo con la técnica convencional, hay casos en los que se usa un procesamiento ineficiente.

A la vista de esto, la presente invención tiene, como un objeto, la provisión de un procedimiento de codificación de imágenes capaz de generar un flujo de bits codificado que puede ser descodificado de forma eficiente por un aparato de descodificación de imágenes, o un procedimiento de codificación - descodificación de imágenes capaz de descodificar de forma eficiente una imagen.

Esto se consigue mediante las características de las reivindicaciones independientes.

Se debería hacer notar que estos aspectos generales y específicos anteriormente descritos pueden implementarse usando un sistema, un procedimiento, un circuito integrado, un programa informático, o un medio de grabación legible por ordenador tal como un CD-ROM, o cualquier combinación arbitraria de sistemas, procedimientos, circuitos integrados, programas informáticos, o medio de grabación legible por ordenador.

La presente invención puede proporcionar un procedimiento de codificación de imágenes capaz de generar un flujo de bits codificado puede ser descodificado de forma eficiente por un aparato de descodificación de imágenes, o un procedimiento de codificación - descodificación de imágenes capaz de descodificar de forma eficiente una imagen.

[Figura 1]

La figura 1 es un diagrama que ilustra un ejemplo de una estructura de codificación.

[Figura 2]

La figura 2 es un diagrama que ilustra un ejemplo de una estructura de codificación.

[Figura 3]

La figura 3 es un diagrama que ilustra un ejemplo de una estructura de codificación.

[Figura 4]

La figura 4 es un diagrama que ilustra un ejemplo de un flujo codificado.

[Figura 5]

La figura 5 es un diagrama que ilustra un ejemplo de un flujo codificado.

[Figura 6]

La figura 6 es un diagrama que ilustra un ejemplo de un flujo codificado.

[Figura 7]

La figura 7 es un diagrama de bloques de un aparato de codificación de imágenes de acuerdo con la realización 1.

[Figura 8]

La figura 8 es un diagrama de flujo de un proceso de codificación de imágenes de acuerdo con la realización 1.

[Figura 9]

La figura 9 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la realización 1.

[Figura 10A]

La figura 10A es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 1. [Figura 10B]

La figura 10B es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 1. [Figura 11]

La figura 11 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 1.

[Figura 12]

La figura 12 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 1.

[Figura 13]

La figura 13 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la realización 1.

[Figura 14]

La figura 14 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 1.

[Figura 15]

La figura 15 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 1.

[Figura 16]

La figura 16 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 1.

[Figura 17]

La figura 17 es un diagrama de bloques de un aparato de codificación de imágenes de acuerdo con la realización 2.

[Figura 18]

La figura 18 es un diagrama de flujo de un proceso de codificación de imágenes de acuerdo con la realización 2.

[Figura 19]

La figura 19 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la realización 2.

[Figura 20]

La figura 20 es un diagrama de flujo de un proceso de determinación de SEI de acuerdo con la realización 2. [Figura 21A]

La figura 21A es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 2. [Figura 21B]

La figura 21B es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 2. [Figura 22]

La figura 22 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 2.

[Figura 23]

La figura 23 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 2.

[Figura 24]

La figura 24 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la realización 3.

[Figura 25A]

La figura 25A es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 3. [Figura 25B]

La figura 25B es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 3. [Figura 26]

La figura 26 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 3.

[Figura 27]

La figura 27 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 3.

[Figura 28]

La figura 28 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la realización 3.

[Figura 29]

La figura 29 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 3.

[Figura 30]

La figura 30 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 3.

[Figura 31]

La figura 31 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 3.

[Figura 32]

La figura 32 es un diagrama que ilustra un ejemplo de una estructura de codificación de acuerdo con la realización 3.

[Figura 33]

La figura 33 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la realización 4.

[Figura 34A]

La figura 34A es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 4. [Figura 34B]

La figura 34B es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 4. [Figura 35]

La figura 35 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 4.

[Figura 36]

La figura 36 es un diagrama que ilustra un ejemplo de un flujo codificado de acuerdo con la realización 4.

[Figura 37]

La figura 37 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 4.

[Figura 38]

La figura 38 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 4.

[Figura 39]

La figura 39 es un diagrama que ilustra un ejemplo de conjuntos de instantáneas de referencia de acuerdo con la realización 4.

[Figura 40]

La figura 40 es un diagrama de bloques de un aparato de descodificación de imágenes de acuerdo con la realización 5.

[Figura 41]

La figura 41 es un diagrama de flujo de un proceso de descodificación de imágenes de acuerdo con la realización 5.

[Figura 42]

La figura 42 es un diagrama de flujo de un proceso de obtención de GOP de reproducción de acuerdo con la realización 5.

[Figura 43]

La figura 43 es un diagrama de flujo de un proceso de descodificación de imágenes de acuerdo con la realización 6.

[Figura 44]

La figura 44 es un diagrama de flujo de un proceso de obtención de GOP de reproducción de acuerdo con la realización 6.

[Figura 45]

La figura 45 es un diagrama de flujo de un proceso de descodificación de imágenes de acuerdo con la realización 7.

[Figura 46]

La figura 46 es un diagrama de flujo de un proceso de obtención de GOP de reproducción de acuerdo con la realización 7.

[Figura 47]

La figura 47 es un diagrama de flujo de un proceso de descodificación de imágenes de acuerdo con la realización 8.

[Figura 48]

La figura 48 es un diagrama que ilustra una configuración global de un sistema de provisión de contenido para implementar servicios de distribución de contenido.

[Figura 49]

La figura 49 es un diagrama que ilustra una configuración global de un sistema de difusión digital.

[Figura 50]

La figura 50 es un diagrama de bloques que ilustra un ejemplo de una configuración de una televisión.

[Figura 51]

La figura 51 es un diagrama de bloques que ilustra un ejemplo de una configuración de una unidad de reproducción/grabación de información que lee y escribe información desde o en un medio de grabación que es un disco óptico.

[Figura 52]

La figura 52 es un diagrama que ilustra un ejemplo de una estructura de un medio de grabación que es un disco óptico.

[Figura 53A]

La figura 53A es un diagrama que ilustra un ejemplo de un teléfono celular.

[Figura 53B]

La figura 53B es un diagrama de bloques que ilustra un ejemplo de una configuración de un teléfono celular. [Figura 54]

La figura 54 es un diagrama que ilustra una estructura de datos multiplexados.

[Figura 55]

La figura 55 es un diagrama que ilustra esquemáticamente cómo se multiplexa cada flujo en datos multiplexados.

[Figura 56]

La figura 56 es un diagrama que ilustra con más detalle cómo se almacena un flujo de vídeo en un flujo de paquetes de PES.

[Figura 57]

La figura 57 es un diagrama que ilustra una estructura de paquetes de TS y paquetes de origen en datos multiplexados.

[Figura 58]

La figura 58 es un diagrama que ilustra una estructura de datos de una PMT.

[Figura 59]

La figura 59 es un diagrama que ilustra una estructura interna de información de datos multiplexados.

[Figura 60]

La figura 60 es un diagrama que ilustra una estructura interna de información de atributo de flujo.

[Figura 61]

La figura 61 es un diagrama que ilustra etapas para identificar datos de vídeo.

[Figura 62]

La figura 62 es un diagrama de boques que ilustra un ejemplo de una configuración de un circuito integrado para implementar el procedimiento de codificación de instantáneas en movimiento y el procedimiento de descodificación de instantáneas en movimiento de acuerdo con cada una de las realizaciones.

[Figura 63]

La figura 63 es un diagrama que ilustra una configuración para conmutar entre frecuencias de accionamiento. [Figura 64]

La figura 64 es un diagrama que ilustra etapas para identificar datos de vídeo y conmutación entre frecuencias de accionamiento.

[Figura 65]

La figura 65 es un diagrama que ilustra un ejemplo de una tabla de consulta en la que las normas de datos de vídeo están asociadas con frecuencias de accionamiento.

[Figura 66A]

La figura 66A es un diagrama que ilustra un ejemplo de una configuración para compartir un módulo de una unidad de procesamiento de señal.

[Figura 66B]

La figura 66b es un diagrama que ilustra otro ejemplo de una configuración para compartir un módulo de una unidad de procesamiento de señal.

(Conocimiento subyacente que forma la base de la presente invención)

Los inventores de la presente invención han hallado los siguientes problemas con respecto al aparato de codificación de imágenes que codifica una imagen o el aparato de descodificación de imágenes que descodifica una imagen desvelada en la sección de "Antecedentes de la técnica".

En los últimos años, el progreso de la tecnología de los dispositivos de vídeo digital ha sido notable, y han ido en aumento las oportunidades para codificar por compresión una señal de vídeo (una pluralidad de instantáneas dispuestas en orden cronológico) introducida desde una cámara de vídeo o un sintonizador de televisión, y grabar los datos resultantes en un medio de grabación tal como un DVD o un disco duro. Aunque H.264/AVC (AVC de MPEG-4) existe como una norma de codificación de imágenes, la norma de Codificación de Vídeo de Alta Eficiencia (HEVC) (NPL 1) está siendo considerada una norma de la próxima generación.

En la norma HEVC (NPL 1), se puede usar una estructura jerárquica con el fin de lograr la escalabilidad temporal. Con esto, por ejemplo, se pueden lograr las estructuras de codificación ilustradas en la figura 1, la figura 2 y la figura 3.

En la figura 1, la figura 2 y la figura 3, TemporalId es un identificador de una capa en la estructura de codificación. Un TemporalId más grande indica una capa más profunda (inferior). Un único bloque cuadrado representa una instantánea, e Ix en un bloque indica una instantánea I (instantánea de intra-predicción), Px indica una instantánea P (instantánea de predicción hacia delante), y Bx indica una instantánea B (instantánea de predicción bidireccional). La x en Ix, Px y Bx indica el orden en el que se visualiza la instantánea. Las instantáneas que tienen una Ix, Px o Bx subrayada representan instantáneas que pertenecen al mismo grupo de instantáneas (GOP). Las instantáneas con un sombreado de línea diagonal representan instantáneas con el TemporalId más grande.

Además, la figura 1 ilustra un ejemplo de un caso en el que el TemporalId más grande es 4, la figura 2 ilustra un ejemplo de un caso en el que el TemporalId más grande es 3, y la figura 3 ilustra un ejemplo de un caso en el que el TemporalId más grande es 2.

Se logra la escalabilidad temporal al prohibir el uso de una instantánea con un TemporalId más grande como una instantánea de referencia. Por ejemplo, el vídeo ilustrado en la figura 1 es un vídeo de 120 fps (tramas por segundo). Cuando se va a obtener un vídeo de 60 fps a partir del vídeo de 120 fps, el aparato de descodificación de imágenes descodifica solo instantáneas con un TemporalId de 0 a un TemporalId de 3. En el presente caso, debido a que está prohibido que las instantáneas con un Temporalld de 0 a un Temporalld de 3 hagan referencia a una instantánea con un Temporalld de 4, el aparato de descodificación de imágenes puede descodificar las instantáneas con un TemporalId de 0 a un TemporalId de 3 sin tener que descodificar instantáneas con un TemporalId de 4. De esta forma, el aparato de descodificación de imágenes puede obtener un vídeo de 60 fps al descodificar solo las instantáneas con un TemporalId de 0 a un TemporalId de 3.

Además, solo una instantánea con un TemporalId que es menor o igual que el TemporalId de la instantánea actual a procesar se puede usar como una instantánea de referencia de la instantánea actual. Con esto, los flujos codificados de instantáneas (orden de codificación) ilustrados en la figura 1, la figura 2 y la figura 3 pasan a ser como se ilustra en la figura 4, la figura 5 y la figura 6, respectivamente. La figura 4 ilustra un ejemplo de cuando el TemporalId más grande es 4, la figura 5 ilustra un ejemplo de cuando el TemporalId más grande es 3, y la figura 6 ilustra un ejemplo de cuando el TemporalId más grande es 2. En concreto, el aparato de codificación de imágenes codifica instantáneas con un TemporalId pequeño en primer lugar, y posteriormente codifica instantáneas con un TemporalId grande que usan las instantáneas con un TemporalId pequeño como instantáneas de referencia.

Sin embargo, los inventores de la presente invención han hallado el problema de que, incluso en el caso de reproducir vídeo a una velocidad de tramas reducida usando la escalabilidad temporal, el modelo de memoria intermedia de una memoria intermedia de instantáneas codificadas (CPB) fallaría si la descodificación de instantáneas no se realizara a la velocidad de tramas antes de la reducción.

Por ejemplo, en el caso del flujo codificado de 120 fps ilustrado en la figura 4, el aparato de descodificación de imágenes solo descodifica las instantáneas sin el sombreado de línea diagonal cuando se reproduce vídeo a 60 fps. Sin embargo, debido a que 10, P16, B8, B4, y B2 se ubican de forma consecutiva en el flujo codificado, el flujo codificado se acumula de forma gradual en la CPB si 1 instantánea no se descodifica en 1/120 de segundo. Esto da lugar a un desbordamiento. Sin embargo, la reproducción a 60 fps se desea mayormente en los casos en los que el sistema solo tiene una capacidad de descodificación de 1 instantánea de 1/60 de segundo. Además, en un sistema de este tipo, no se puede visualizar vídeo a 60 fps debido a que tendrá lugar un desbordamiento. De esta forma, los inventores de la presente invención han hallado el problema de que no se puede visualizar vídeo a 60 fps si el aparato de descodificación de imágenes no tiene una capacidad de descodificación de instantáneas de 1/120 de segundo.

Un procedimiento de codificación de imágenes de acuerdo con un aspecto de la presente invención es un procedimiento de codificación de imágenes de codificación jerárquica de una pluralidad de instantáneas para generar un flujo de bits, que incluye: codificar cada instantánea de la pluralidad de instantáneas, que pertenece a una cualquiera de una pluralidad de capas jerárquicas, con referencia a una instantánea que pertenece a una capa jerárquica que es igual o menor que una capa jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa jerárquica que es mayor que la capa jerárquica que la que pertenece cada una de las instantáneas; y generar el flujo de bits mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas, en el que la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para instantáneas de capa baja que son la pluralidad de instantáneas distintas de las instantáneas de capa más alta que pertenecen a una capa más alta de entre la pluralidad de capas jerárquicas.

Por consiguiente, el procedimiento de codificación de imágenes puede generar un flujo de bits codificado en el que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta se establecen a intervalos iguales. Por lo tanto, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el procedimiento de codificación de imágenes puede generar un flujo de bits codificado que puede ser descodificado de forma eficiente por el aparato de descodificación de imágenes.

Por ejemplo, la información de tiempo puede indicar que un tiempo de descodificación de una instantánea que precede a una instantánea I accesible aleatoria en orden de visualización precede a un tiempo de descodificación de una instantánea que sigue a la instantánea I accesible aleatoria en orden de visualización.

Por consiguiente, el procedimiento de codificación de imágenes posibilita la reducción de la capacidad de la memoria de tramas de referencia del aparato de descodificación de imágenes.

Por ejemplo, cada una de la pluralidad de instantáneas puede pertenecer a uno cualquiera de una pluralidad de grupos de instantáneas que incluyen, cada uno, al menos una instantánea I y una pluralidad de instantáneas ubicadas de forma consecutiva en orden de visualización, y los tiempos de descodificación se pueden establecer de tal modo que las instantáneas incluidas en cada uno de la pluralidad de grupos de instantáneas se descodifican de forma consecutiva sin intervención de la descodificación de una instantánea que pertenece a otro de la pluralidad de grupos de instantáneas.

Por consiguiente, el procedimiento de codificación de imágenes puede generar un flujo de bits codificado que puede ser descodificado por el aparato de descodificación de imágenes sin realizar un proceso especial.

Por ejemplo, en la codificación de cada una de la pluralidad de instantáneas, las instantáneas de capa más alta y las instantáneas de capa baja se pueden codificar de forma alternativa.

Por ejemplo, las instantáneas de capa baja pueden tener una velocidad de tramas que es la mitad de la velocidad de tramas de la pluralidad de instantáneas.

Por ejemplo, cada una de las instantáneas de capa más alta se puede codificar sin referencia a una instantánea inmediatamente siguiente en orden de visualización y que pertenece a una capa jerárquica inmediatamente inferior.

Además, un procedimiento de codificación de imágenes de acuerdo con un aspecto de la presente invención es un procedimiento de descodificación de imágenes de descodificación de un flujo de bits generado al codificar jerárquicamente una pluralidad de instantáneas que pertenecen, cada una, a una cualquiera de una pluralidad de capas jerárquicas, incluyendo el procedimiento de descodificación de imágenes: descodificar información de tiempo que indica tiempos de descodificación de la pluralidad de instantáneas, a partir del flujo de bits; y descodificar cada instantánea de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa jerárquica que es igual o menor que una capa jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa jerárquica que es mayor que la capa jerárquica que la que pertenece cada una de las instantáneas, en el que la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para instantáneas de capa baja que son la pluralidad de instantáneas distintas de las instantáneas de capa más alta que pertenecen a una capa más alta de entre la pluralidad de capas jerárquicas.

Por consiguiente, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el procedimiento de descodificación de imágenes es capaz de descodificar imágenes de forma eficiente.

Por consiguiente, el procedimiento de descodificación de imágenes posibilita la reducción de la capacidad de la memoria de tramas de referencia.

Por consiguiente, el procedimiento de descodificación de imágenes puede descodificar imágenes sin tener que realizar un proceso especial.

Un aparato de codificación de imágenes de acuerdo con un aspecto de la presente invención es un aparato de codificación de imágenes que codifica jerárquicamente una pluralidad de instantáneas para generar un flujo de bits, incluyendo el aparato de codificación de imágenes: una unidad de codificación configurada para codificar cada instantánea de la pluralidad de instantáneas, que pertenece a una cualquiera de una pluralidad de capas jerárquicas, con referencia a una instantánea que pertenece a una capa jerárquica que es igual o menor que una capa jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa jerárquica que es mayor que la capa jerárquica que la que pertenece cada una de las instantáneas; y una unidad de generación configurada para generar el flujo de bits mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas, en el que la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para instantáneas de capa baja que son la pluralidad de instantáneas distintas de las instantáneas de capa más alta que pertenecen a una capa más alta de entre la pluralidad de capas jerárquicas.

Por consiguiente, el aparato de codificación de imágenes puede generar un flujo de bits codificado en el que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta se establecen a intervalos iguales. Por lo tanto, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el aparato de codificación de imágenes puede generar un flujo de bits codificado que puede ser descodificado de forma eficiente por el aparato de descodificación de imágenes.

Además, un aparato de recepción de acuerdo con un aspecto de la presente invención es un aparato de recepción que recibe un flujo de bits generado al codificar jerárquicamente una pluralidad de instantáneas que pertenecen, cada una, a una cualquiera de una pluralidad de capas jerárquicas, incluyendo el aparato de recepción: una primera unidad de descodificación configurada para descodificar información de tiempo que indica tiempos de descodificación de la pluralidad de instantáneas, a partir del flujo de bits; y una segunda unidad de descodificación configurada para descodificar cada instantánea de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa jerárquica que es igual o menor que una capa jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa jerárquica que es mayor que la capa jerárquica que la que pertenece cada una de las instantáneas, en el que la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para instantáneas de capa baja que son la pluralidad de instantáneas distintas de las instantáneas de capa más alta que pertenecen a una capa más alta de entre la pluralidad de capas jerárquicas.

Por consiguiente, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el aparato de recepción es capaz de descodificar imágenes de forma eficiente.

Además, un aparato de transmisión de acuerdo con un aspecto de la presente invención es un aparato de transmisión que transmite al exterior un flujo de bits generado al codificar jerárquicamente de una pluralidad de instantáneas, en el que la codificación jerárquica se ejecuta al: codificar cada instantánea de la pluralidad de instantáneas, que pertenece a una cualquiera de una pluralidad de capas jerárquicas, con referencia a una instantánea que pertenece a una capa jerárquica que es igual o menor que una capa jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa jerárquica que es mayor que la capa jerárquica que la que pertenece cada una de las instantáneas; y generar el flujo de bits mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas, y la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para instantáneas de capa baja que son la pluralidad de instantáneas distintas de las instantáneas de capa más alta que pertenecen a una capa más alta de entre la pluralidad de capas jerárquicas.

Por consiguiente, el aparato de transmisión puede transmitir un flujo de bits codificado en el que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta se establecen a intervalos iguales. Por lo tanto, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el aparato de transmisión puede transmitir un flujo de bits codificado que puede ser descodificado de forma eficiente por el aparato de descodificación de imágenes.

Además, un aparato de codificación y de descodificación de imágenes de acuerdo con un aspecto de la presente invención incluye el aparato de codificación de imágenes y el aparato de descodificación de imágenes.

Se debería hacer notar que los aspectos generales y específicos anteriormente descritos pueden implementarse usando un sistema, un procedimiento, un circuito integrado, un programa informático, o un medio de grabación legible por ordenador tal como un CD-ROM, o cualquier combinación arbitraria de sistemas, procedimientos, circuitos integrados, programas informáticos, o medio de grabación legible por ordenador.

En lo sucesivo en el presente documento, las realizaciones de la presente invención se describirán con referencia a los dibujos.

Se debería hacer notar que cada una de las realizaciones descritas a continuación muestra un ejemplo general o específico. Los valores numéricos, formas, materiales, elementos estructurales, la disposición y conexión de los elementos estructurales, etapas, el orden de procesamiento de las etapas, etc., mostrados en las siguientes realizaciones son meros ejemplos y, por lo tanto, no pretenden limitar el ámbito de la presente invención. Además, entre los elementos estructurales en las siguientes realizaciones, los elementos estructurales no indicados en ninguna de las reivindicaciones independientes que definen el concepto más genérico se describen como elementos estructurales arbitrarios.

[Realización 1]

<Configuración global>

La figura 7 es un diagrama de bloques de un aparato de codificación de imágenes 100 de acuerdo con la presente realización. El aparato de codificación de imágenes 100 ilustrado en la figura 7 codifica unas imágenes de entrada 121 para generar un flujo codificado 124. El aparato de codificación de imágenes 100 incluye una unidad de determinación de estructura de codificación 101, una unidad de determinación de tipo de NAL 102 y una unidad de codificación 103.

<Operación (Como un todo)>

A continuación, el flujo del proceso de codificación como un todo se describirá con referencia a la figura 8. La figura 8 es un diagrama de flujo de un proceso de codificación de imágenes de acuerdo con la presente realización.

En primer lugar, la unidad de determinación de estructura de codificación 101 determina la estructura de codificación basándose en las imágenes de entrada 121 y el TemporalId 122 que se introducen desde el exterior (S101). En concreto, la unidad de determinación de estructura de codificación 101 determina el TemporalId de cada instantánea.

A continuación, la unidad de determinación de tipo de NAL 102 determina el tipo de NAL de la instantánea actual (S102)

A continuación, la unidad de codificación 103 codifica au_cpb_removal_delay_minus1 y pic_dpb_output_delay (S104), codifica el tipo de NAL (S105), codifica el TemporalId (S107), codifica el conjunto de instantáneas de referencia (S108), y codifica la instantánea actual (S109), para generar el flujo codificado 124. En concreto, la unidad de codificación 103 codifica el conjunto de instantáneas de referencia identificado por un identificador de conjunto de instantáneas de referencia 123 que se introduce desde el exterior, de entre una pluralidad de conjuntos. Además, la unidad de codificación 103 codifica la instantánea actual mediante el uso de una intra-predicción cuando la instantánea actual es una instantánea I, usando una inter-predicción unidireccional cuando la instantánea actual es una instantánea P y usando una inter-predicción bidireccional cuando la instantánea actual es una instantánea B. Además, la unidad de codificación 103 codifica la instantánea actual usando una transformación en frecuencia y codificación de longitud variable.

Se debería hacer notar que au_cpb_removal_delay_minus1, pic_dpb_output_delay y los tipos de NAL se describirán posteriormente.

Entonces, el aparato de codificación de imágenes 100 repite el proceso desde la etapa S102 a la etapa S109 hasta que se ha completado el procesamiento de todas las instantáneas (S110).

<Operación (Determinación de estructura de codificación)>

A continuación, el flujo del proceso de determinación de estructura de codificación (la etapa S101 en la figura 8) se describirá con referencia a la figura 9. La figura 9 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la presente realización.

En primer lugar, la unidad de determinación de estructura de codificación 101 asigna un TemporalId a cada instantánea como se ilustra en la figura 1, la figura 2 y la figura 3, de acuerdo con el TemporalId más grande 122 que se introduce desde el exterior (S121). Por ejemplo, cuando el TemporalId más grande es 4, la unidad de determinación de estructura de codificación 101 asigna TemporalId0 a una instantánea cuyo orden de visualización es 0 o un múltiplo de 16, asigna TemporaiId1 a cada 16-ésima imagen comenzando desde la instantánea con el orden de visualización de 8, asigna TemporalId2 a cada 8-ésima imagen comenzando desde la instantánea con el orden de visualización de 4, asigna TemporalId3 a cada 4-ésima imagen comenzando desde la instantánea con el orden de visualización de 2, y asigna TemporalId4 a instantáneas con un orden de visualización de número impar.

A continuación, la unidad de determinación de estructura de codificación 101 reorganiza las instantáneas de acuerdo con el TemporalId determinado, y establece un orden de codificación tal como el ilustrado en la figura 4, la figura 5 y la figura 6 (S122).

A continuación, la unidad de determinación de estructura de codificación 101 divide la pluralidad de instantáneas en grupos de tal modo que las instantáneas de un punto de acceso aleatorio al siguiente punto de acceso aleatorio se incluyen en el mismo GOP (S123) En este instante, la unidad de determinación de estructura de codificación 101 determina el tipo de instantánea I/P/B de acuerdo con la relación de referencia. En concreto, la unidad de determinación de estructura de codificación 101 establece una instantánea I como la instantánea en un punto de acceso aleatorio. En el presente caso, un punto de acceso aleatorio indica una instantánea que se puede especificar cuando se desea una descodificación o reproducción a medio camino a través de un vídeo codificado, e indica que la reproducción se puede realizar a partir de tal instantánea.

A continuación, la unidad de determinación de estructura de codificación 101 reorganiza las instantáneas de tal modo que las instantáneas con el TemporalId más grande tienen un tiempo de número impar, y el resto de las instantáneas tienen un tiempo de número par (S124). Por ejemplo, la unidad de determinación de estructura de codificación 101 reorganiza las instantáneas como se ilustra en la figura 10A y la figura 10B, la figura 11 o la figura 12. La figura 10A y la figura 10B ilustran un ejemplo de un caso en el que el TemporalId más grande es 4, la figura 11 ilustra un ejemplo de un caso en el que el TemporalId más grande es 3, y la figura 12 ilustra un ejemplo de un caso en el que el TemporalId más grande es 2. Como se ilustra en la figura, la unidad de determinación de estructura de codificación 101 reorganiza las instantáneas de tal modo que las instantáneas con el TemporalId más grande, indicadas por un sombreado de línea diagonal, y las instantáneas sin el TemporalId más grande se codifican de una forma alternante.

<Operación (Determinación de tipo de NAL)>

A continuación, el flujo del proceso de determinación de tipo de NAL (la etapa S102 en la figura 8) se describirá con referencia a la figura 13. La figura 13 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la presente realización.

En primer lugar, la unidad de determinación de tipo de NAL 102 determina si la instantánea actual es una instantánea de punto de acceso aleatorio (S141). Cuando la instantánea actual es una instantánea de punto de acceso aleatorio (Sí en S141), la unidad de determinación de tipo de NAL 102 establece a IRAP el tipo de nA l de la instantánea actual (S142), y el proceso termina.

Cuando la instantánea actual no es una instantánea de punto de acceso aleatorio (No en S141), la unidad de determinación de tipo de NAL 102 determina si la instantánea actual precede en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (S143).

Cuando la instantánea actual precede en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (Sí en S143), la unidad de determinación de tipo de NAL 102 determina si la instantánea actual se incluye en el mismo GOP que la segunda IRAP precedente en orden de codificación (S144). Cuando la instantánea actual se incluye en el mismo GOP que la segunda IRAP precedente en orden de codificación (Sí en S144), la unidad de determinación de tipo de NAL 102 establece a BLP el tipo de NAL de la instantánea actual (S145).

Por otro lado, cuando la instantánea actual se incluye en un GOP diferente del GOP que incluye la segunda IRAP precedente en orden de codificación (No en S144), la unidad de determinación de tipo de NAL 102 establece a LP el tipo de NAL de la instantánea actual (S146).

A continuación, la unidad de determinación de tipo de NAL 102 determina si la instantánea actual es la última instantánea en el GOP en orden de codificación (S147). Cuando la instantánea actual es la última instantánea en el GOP en orden de codificación (Sí en S147), la unidad de determinación de tipo de NAL 102 establece a LLP el tipo de NAL de la instantánea actual (S148), y el proceso termina.

Además, cuando la instantánea actual sigue en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (No en S143), la unidad de determinación de tipo de NAL 102 determina si hay una instantánea no codificada que precede en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (S149). Cuando hay una instantánea no codificada que precede a la IRAP inmediatamente precedente en orden de codificación (Sí en S149), la unidad de determinación de tipo de NAL 102 establece a PTP el tipo de NAL de la instantánea actual (S150), y el proceso termina.

Cuando no hay instantánea no codificada alguna que preceda en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (No en S149), la unidad de determinación de tipo de NAL 102 determina si la instantánea actual se incluye en el mismo GOP que la segunda IRAP precedente en orden de codificación (S151). Cuando la instantánea actual se incluye en el mismo GOP que la segunda IRAP precedente en orden de codificación (Sí en S151), la unidad de determinación de tipo de NAL 102 establece a BTP el tipo de NAL de la instantánea actual (S152).

Cuando la instantánea actual se incluye en un GOP diferente del GOP que incluye la segunda IRAP precedente en orden de codificación (No en S151), la unidad de determinación de tipo de NAL 102 establece a TP el tipo de NAL de la instantánea actual (S153).

A continuación, la unidad de determinación de tipo de NAL 102 determina si la instantánea actual es la última instantánea en el GOP en orden de codificación (S154). Cuando la instantánea actual es la última instantánea en el GOP en orden de codificación (Sí en S154), la unidad de determinación de tipo de NAL 102 establece a LTP el tipo de NAL de la instantánea actual (S155), y el proceso termina.

Con el proceso descrito anteriormente, se generan flujos codificados tales como los ilustrados en la figura 10A y la figura 10B, la figura 11 y la figura 12. El significado de cada tipo de NAL es como se describe posteriormente. IRAP significa una instantánea que solo contiene sectores I accesibles aleatorios. LP significa una instantánea que precede a una IRAP en orden de visualización. TP significa una instantánea que sigue a una IRAP en orden de visualización. BLP significa una instantánea LP incluida en el mismo GOP que la segunda IRAP precedente en orden de codificación. BTP significa una instantánea TP incluida en el mismo GOP que la segunda IRAP precedente en orden de codificación. LLP significa una instantánea LP que es la última instantánea en un GOP en orden de codificación. LTP significa una instantánea TP que es la última instantánea en un GOP en orden de codificación. PTP significa una instantánea TP que va aún seguida de una instantánea LP en orden de codificación.

Además, au_cpb_removal_delay_minus1 es un parámetro que indica la temporización para comenzar la descodificación, e indica que la descodificación se debería comenzar en un tiempo au_cpb_removal_delay_minus1 1. Además, pic_dpb_output_delay es un parámetro que indica la temporización para visualizar una instantánea descodificada, e indica que la instantánea descodificada se debería visualizar en un tiempo au_cpb_removal_delay_minus1 1 pic_dpb_output_delay. Para describir el uso de P16 ilustrado en la figura 10A y la figura 10B como un ejemplo, la descodificación se comienza en el tiempo 2 que es au_cpb_removal_delay_minus1 1, y P16 se visualiza en el tiempo 24 que es au_cpb_removal_delay_minus1 1 pic_dpb_output_delay.

Además, la información que indica estos tiempos de descodificación se incluye en el flujo codificado 124, y se transmite al aparato de descodificación de imágenes. El aparato de descodificación de imágenes descodifica las instantáneas en los tiempos de descodificación indicados en la información. Dicho de otra forma, los tiempos (tiempos de codificación) ilustrados en la figura 10A, la figura 10B, la figura 11 y la figura 12 indican los tiempos de descodificación en el aparato de descodificación de imágenes. Además, el orden de codificación mencionado anteriormente indica el orden de descodificación en el aparato de descodificación de imágenes.

Además, la información que indica los tiempos de descodificación y los tiempos de visualización no se limita a los au_cpb_removal_delay_minus1 y pic_dpb_output_delay mencionados anteriormente, y se puede usar una información arbitraria.

El conjunto de instantáneas de referencia indica instantáneas a usar como instantáneas de referencia. El conjunto de instantáneas de referencia se puede establecer libremente siempre que se satisfagan las siguientes restricciones: (1) una instantánea no puede hacer referencia a una instantánea con un TemporalId más grande; y (2) una instantánea TP no puede hacer referencia a una instantánea LP.

En la figura 14, la figura 15 y la figura 16 se ilustran ejemplos de conjuntos de instantáneas de referencia de acuerdo con la presente realización. La figura 14 ilustra un conjunto que prioriza la velocidad de compresión, y es un conjunto en el que se hace referencia, siempre que sea posible, a las instantáneas codificadas. La figura 15 ilustra un conjunto que posibilita la reducción en el tamaño de memoria de tramas a usar, y es un conjunto en el que se hace referencia a las instantáneas precedentes y posteriores cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual.

La figura 16 ilustra un conjunto que presenta un equilibrio entre la relación de compresión y el tamaño de memoria, y es un conjunto en el que se hace referencia a una instantánea con TemporalId0 que tiene un error de codificación pequeño, o se hace referencia a una instantánea precedente o posterior cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual. Además, en este conjunto, está prohibido hacer referencia a una instantánea con el mismo TemporalId, de la misma forma que una instantánea TSA en HEVC (NPL 1), para permitir la conmutación de la velocidad de tramas de reproducción a medio camino a través de un flujo codificado.

Como se ha descrito anteriormente, en la presente realización, el aparato de codificación de imágenes 100 selecciona uno de entre los tres conjuntos de acuerdo con el identificador de conjunto de instantáneas de referencia 123 introducido desde el exterior, y codifica el conjunto seleccionado.

Se debería hacer notar que los ejemplos ilustrados en la figura 14, la figura 15 y la figura 16 son ejemplos para el caso en el que el TemporalId más grande es 4. Incluso cuando el TemporalId más grande es distinto de 4, el conjunto de instantáneas de referencia se puede establecer libremente siempre que se satisfagan las siguientes restricciones: (1) una instantánea no puede hacer referencia a una instantánea con un TemporalId más grande; y (2) una instantánea TP no puede hacer referencia a una instantánea LP.

Además, aunque se proporciona una separación entre instantáneas (por ejemplo, 10 y P16) cerca del comienzo del flujo codificado con el fin de describir la relación temporal, en un flujo codificado real, las instantáneas son continuas. Además, el intervalo de tiempo de inicio de descodificación se establece de acuerdo con au_cpb_removal_delay_minus1.

Como se ha descrito anteriormente, de acuerdo con la presente realización, es posible reducir la velocidad de tramas de visualización y visualizar vídeo incluso en un sistema que no tiene la capacidad de permitir descodificar a la velocidad de tramas máxima de un flujo codificado. Por ejemplo, supóngase que el flujo codificado en la figura 10A y la figura 10B es un flujo codificado de 120 fps. Cuando se desea la visualización de un vídeo de 120 fps, el aparato de descodificación de imágenes puede visualizar el vídeo de 120 fps al realizar la descodificación según se indica por "descodificar" y "visualizar" en la figura 10A y la figura 10B. Además, cuando se desea la visualización de vídeo a 60 fps, el aparato de descodificación de imágenes solo necesita descodificar y visualizar las instantáneas sin un sombreado de línea diagonal de entre las instantáneas indicadas en "descodificar" y "visualizar". En este caso, las instantáneas se codifican a unos intervalos de 2 instantáneas. Por lo tanto, al descodificar instantáneas una vez en 1/60 de segundo, el aparato de descodificación de imágenes puede descodificar y visualizar el flujo codificado sin dar lugar a que falle la memoria intermedia. Dicho de otra forma, incluso sin una capacidad de descodificación de instantáneas de 1/120 de segundo, siempre que el aparato de descodificación de imágenes tenga una capacidad de descodificación de instantáneas de 60 fps, se puede visualizar vídeo a 60 fps.

Además, debido a que está prohibido que una TP haga referencia a una LP, y una LP no se codifica hasta la siguiente IRAP después de la codificación de una TP, el aparato de codificación de imágenes 100 o el aparato de descodificación de imágenes puede borrar una instantánea LP de la memoria de tramas de referencia en el momento de la codificación o descodificación. Al hacer esto, se puede reducir el tamaño de la memoria de tramas de referencia. Además, mediante el uso del tipo de NAL denominado PTP que indica que sigue habiendo una instantánea LP siguiente en orden de codificación (orden de descodificación), el aparato de codificación de imágenes 100 o el aparato de descodificación de imágenes puede codificar o descodificar, por delante de la LP, una instantánea que sigue a la IRAP en orden de visualización. Por consiguiente, se pueden lograr tanto una reducción de tamaño de memoria de tramas como una descodificación a una velocidad de tramas menor.

Además, mediante el uso de BLP y BTP que indican que una instantánea pertenece al GOP precedente en orden de codificación, y LLP y LTP que indica la última instantánea en un GOP en orden de codificación, se vuelve sencillo que el aparato de descodificación de imágenes determine, en un flujo codificado en el que se entremezclan instantáneas de dos GOP, a qué GOP pertenece cada una de las instantáneas. Por consiguiente, en el caso de una reproducción especial, y así sucesivamente, el aparato de descodificación de imágenes puede extraer fácilmente un GOP a partir de un flujo codificado.

De esta forma, el aparato de codificación de imágenes 100 de acuerdo con la presente realización codifica jerárquicamente la pluralidad de instantáneas para generar un flujo de bits (flujo codificado 124). El aparato de codificación de imágenes 100 codifica cada instantánea de la pluralidad de instantáneas, que pertenece a una cualquiera de una pluralidad de capas, con referencia a una instantánea que pertenece a una capa que es igual o menor que la capa a la que pertenece la instantánea, y sin referencia a una instantánea que pertenece a una capa que es mayor que la capa a la que pertenece la instantánea. El aparato de codificación de imágenes 100 codifica las instantáneas codificadas e información de tiempo (au_cpb_removal_delay_minus1) que indica los tiempos de descodificación de las instantáneas codificadas, para generar un flujo de bits (flujo codificado 124). La información de tiempo indica que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta, de entre la pluralidad de instantáneas, se establecen a intervalos iguales. Expuesto de forma diferente, el aparato de codificación de imágenes 100 codifica las instantáneas de capa más alta y las instantáneas de capa baja de una forma alternante.

Por ejemplo, la velocidad de tramas de las instantáneas de capa baja es la mitad de la velocidad de tramas de la pluralidad de instantáneas. Por ejemplo, la velocidad de tramas de las instantáneas de capa baja es 60 fps, y la velocidad de tramas de la pluralidad de instantáneas es 120 fps.

Por consiguiente, el aparato de codificación de imágenes 100 puede generar un flujo de bits codificado en el que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta se establecen a intervalos iguales. Por lo tanto, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el aparato de codificación de imágenes 100 puede generar un flujo de bits codificado que puede ser descodificado de forma eficiente por el aparato de descodificación de imágenes.

Se debería hacer notar que aunque en la descripción anterior el aparato de codificación de imágenes 100 determina la estructura de codificación basándose en el TemporalId más grande 122 introducido desde el exterior, no es necesario que el TemporalId más grande se introduzca desde el exterior. Por ejemplo, el aparato de codificación de imágenes 100 puede usar un valor fijo como el TemporalId más grande. Como alternativa, el aparato de codificación de imágenes 100 puede determinar el TemporalId más grande basándose en la velocidad de tramas de las imágenes de entrada 121, o puede determinar el TemporalId más grande basándose en la información de movimiento o complejidad de las imágenes de entrada 121.

Además, aunque en la descripción anterior el aparato de codificación de imágenes 100 selecciona el conjunto de instantáneas de referencia a usar de entre los tres tipos de conjuntos de instantáneas de referencia usando el identificador de conjunto de instantáneas de referencia 123 introducido desde el exterior, no es necesario que el identificador de conjunto de instantáneas de referencia 123 se introduzca desde el exterior. Por ejemplo, el aparato de codificación de imágenes 100 puede usar un conjunto de instantáneas de referencia fijo. Como alternativa, el aparato de codificación de imágenes 100 puede conmutar el conjunto de instantáneas de referencia a usar de acuerdo con la cantidad de deficiencia en la memoria de tramas de referencia, o puede conmutar el conjunto de instantáneas de referencia a usar basándose en la información de movimiento o complejidad de las imágenes de entrada 121.

Además, aunque se indican tres tipos para el conjunto de instantáneas de referencia en la descripción anterior, el conjunto de instantáneas de referencia no se limita a estos y se puede establecer libremente siempre que se satisfagan las siguientes restricciones: (1) una instantánea no puede hacer referencia a una instantánea con un TemporalId más grande; y (2) una instantánea TP no puede hacer referencia a una instantánea LP.

Además, aunque la unidad de tiempo se establece a 1/120 de segundo en la figura 10A, la figura 10B, la figura 11 y la figura 12, la unidad de tiempo no se limita a ella y puede ser 1/60 de segundo o 1/30 de segundo. La unidad de tiempo se puede determinar basándose en la velocidad de tramas de las imágenes de entrada 121 o la velocidad de tramas de la instantánea a codificar.

Además, aunque la descripción anterior describe un ejemplo en el que las instantáneas con TemporalId0 distintas de las instantáneas I son instantáneas P, estas instantáneas pueden ser instantáneas B codificadas por predicción hacia delante. Además, el intervalo entre las instantáneas I (puntos de acceso aleatorio) no necesita ser como se ilustra en la figura 10A, la figura 10B, la figura 11 y la figura 12. Por ejemplo, el intervalo entre las instantáneas I puede ser más largo o más corto que el ilustrado en la figura 10A, la figura 10B, la figura 11 y la figura 12.

Además, en la descripción anterior, como se ilustra en la figura 9, después de establecer un orden de codificación tal como el ilustrado en la figura 4, la figura 5 y la figura 6, reorganizando a un orden de codificación tal como el de la figura 10A, la figura 10B, la figura 11 y la figura 12 se realiza en la etapa S124. Sin embargo, no es necesario que un orden de codificación tal como el ilustrado en la figura 4, la figura 5 y la figura 6 se establezca temporalmente siempre que un orden de codificación tal como el de la figura 10A, la figura 10B, la figura 11 y la figura 12 se establezca con el tiempo.

Además, el proceso de acuerdo con la presente realización se puede implementar usando software. Entonces, este software se puede distribuir al descargarse, etc. Además, este software se puede hacer circular al grabarse en un medio de grabación tal como un CD-ROM.

Además, diversas modificaciones tales como las descritas anteriormente también son aplicables a las otras realizaciones en la presente Descripción.

[Realización 2]

<Configuración global>

La figura 17 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de imágenes 100A de acuerdo con la presente realización. El aparato de codificación de imágenes 100A ilustrado en la figura 17 codifica las imágenes de entrada 121 para generar el flujo codificado 124A. El aparato de codificación de imágenes 100A incluye una unidad de determinación de SEI 104 además de la configuración del aparato de codificación de imágenes 100 ilustrado en la figura 7. Además, las funciones de una unidad de determinación de tipo de NAL 102A y una unidad de codificación 103A son diferentes de las de la unidad de determinación de tipo de NAL 102 y la unidad de codificación 103.

Se debería hacer notar que la descripción posterior omite los puntos que se solapan con la realización 1, y se centra principalmente en los puntos con diferencias.

<Operación (Como un todo)>

A continuación, el flujo del proceso de codificación como un todo se describirá con referencia a la figura 18. La figura 18 es un diagrama de flujo del proceso de codificación de imágenes de acuerdo con la presente realización.

El proceso ilustrado en la figura 18 añade las etapas S103 y S106 al proceso ilustrado en la figura 8. Además, el proceso de determinación de tipo de NAL (S102A) es diferente del de la figura 8.

En primer lugar, la unidad de determinación de estructura de codificación 101 determina la estructura de codificación (S101).

A continuación, la unidad de determinación de tipo de NAL 102A determina el tipo de NAL de la instantánea actual (S102A).

A continuación, la unidad de determinación de SEI 104 determina el SEI (S103).

A continuación, la unidad de codificación 103A codifica au_cpb_removal_delay_minus1 y pic_dpb_output_delay (S104), codifica el tipo de NAL (S105), codifica el SEI (S106), codifica el TemporalId (S107), codifica el conjunto de instantáneas de referencia (S108), y codifica la instantánea actual (S109), para generar el flujo codificado 124. Entonces, el aparato de codificación de imágenes 100A repite los procesos en las etapas S102A a S109 hasta que se ha completado el procesamiento de la totalidad de las instantáneas (S110).

<Operación (Determinación de estructura de codificación)>

El flujo del proceso de determinación de estructura de codificación es igual que en la realización 1 (la figura 9) y, por lo tanto, se omite la descripción.

<Operación (Determinación de tipo de NAL)>

A continuación, el flujo del proceso de determinación de tipo de NAL (la etapa S102A en la figura 18) se describirá con referencia a la figura 19. La figura 19 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la presente realización.

En primer lugar, la unidad de determinación de tipo de NAL 102A determina si la instantánea actual es la instantánea en cabeza en orden de codificación (S161). Cuando la instantánea actual es la instantánea en cabeza en orden de codificación (Sí en S161), la unidad de determinación de tipo de NAL 102A establece a IRAP el tipo de NAL de la instantánea actual (S162). De lo contrario (No en S161), la unidad de determinación de tipo de NAL 102A establece a TP el tipo de NAL de la instantánea actual (S163).

<Operación (Determinación de SEI)>

A continuación, el flujo del proceso de determinación de SEI (la etapa S103 en la figura 18) se describirá con referencia a la figura 20.

En primer lugar, la unidad de determinación de SEI 104 determina si la instantánea actual es una instantánea de punto de acceso aleatorio (S181). Cuando la instantánea actual es una instantánea de punto de acceso aleatorio (Sí en S181), la unidad de determinación de SEI 104 establece a SEI de punto_recuperación el SEI de la instantánea actual (S182), y el proceso termina.

Cuando la instantánea actual no es una instantánea de punto de acceso aleatorio (No en S181), la unidad de determinación de SEI 104 determina si la instantánea actual precede en orden de visualización al punto de recuperación inmediatamente precedente en orden de codificación (S183).

Cuando la instantánea actual precede en orden de visualización al punto de recuperación inmediatamente precedente en orden de codificación (Sí en S183), la unidad de determinación de SEI 104 determina si la instantánea actual se incluye en el mismo GOP que el segundo punto de recuperación precedente en orden de codificación (S184). Cuando la instantánea actual se incluye en el mismo GOP que el segundo punto de recuperación precedente en orden de codificación (Sí en S184), la unidad de determinación de SEI 104 establece a SEI de BLP el SEI de la instantánea actual (S185).

Por otro lado, cuando la instantánea actual se incluye en un GOP que es diferente del GOP que incluye el segundo punto de recuperación precedente en orden de codificación (No en S184), la unidad de determinación de SEI 104 establece a s E i de LP el SEI de la instantánea actual (S186).

A continuación, la unidad de determinación de SEI 104 determina si la instantánea actual es la última instantánea en el GOP en orden de codificación (S187). Cuando la instantánea actual es la última instantánea en el GOP en orden de codificación (Sí en S187), la unidad de determinación de SEI 104 establece a SEI de LLP el SEI de la instantánea actual (S188), y el proceso termina.

Además, cuando la instantánea actual sigue en orden de visualización al punto de recuperación inmediatamente precedente en orden de codificación (No en S183), la unidad de determinación de SEI 104 determina si hay una instantánea no codificada que precede a la IRAP inmediatamente precedente en orden de codificación (S189). Cuando hay una instantánea no codificada que precede a la IRAP inmediatamente precedente en orden de codificación (Sí en S189), la unidad de determinación de SEI 104 establece a SEI de PTP el SEI de la instantánea actual (S190), y el proceso termina.

Cuando no hay instantánea no codificada alguna que preceda a la IRAP inmediatamente precedente en orden de codificación (NO en S189), la unidad de determinación de SEI 104 determina si la instantánea actual se incluye en el mismo GOP que el segundo punto de recuperación precedente en orden de codificación (S191). Cuando la instantánea actual se incluye en el mismo GOP que el segundo punto de recuperación precedente en orden de codificación (Sí en S191), la unidad de determinación de SEI 104 establece a SEI de BTP el SEI de la instantánea actual (S192). Cuando la instantánea actual se incluye en un GOP que es diferente del GOP que incluye el segundo punto de recuperación precedente en orden de codificación (No en S191), la unidad de determinación de SEI 104 establece a SEI de TP el SEI de la instantánea actual (S193).

A continuación, la unidad de determinación de SEI 104 determina si la instantánea actual es la última instantánea en el GOP en orden de codificación (S194). Cuando la instantánea actual es la última instantánea en el GOP en orden de codificación (Sí en S194), la unidad de determinación de SEI 104 establece a SEI de LTP el SEI de la instantánea actual (S195), y el proceso termina.

Con el proceso descrito anteriormente, se generan flujos codificados tales como los ilustrados en la figura 21A, la figura 21B, la figura 22 y la figura 23. La figura 21A y la figura 21B ilustran un ejemplo de un caso en el que el TemporalId más grande es 4, la figura 22 ilustra un ejemplo de un caso en el que el TemporalId más grande es 3, y la figura 23 ilustra un ejemplo de un caso en el que el TemporalId más grande es 2.

El significado de cada SEI es como se describe posteriormente. SEI de RP significa una instantánea que solo contiene sectores I accesibles aleatorios. SEI de LP significa una instantánea que precede a una RP en orden de visualización. SEI de TP significa una instantánea que sigue a una RP en orden de visualización. SEI de BLP significa una instantánea LP incluida en el mismo GOP que la segunda RP precedente en orden de codificación. SEI de BTP significa una instantánea TP incluida en el mismo GOP que la segunda RP precedente en orden de codificación. SEI de LLP significa una instantánea LP que es la última instantánea en un GOP en orden de codificación. SEI de LTP significa una instantánea TP que es la última instantánea en un GOP en orden de codificación. SEI de PTP significa una instantánea TP que va aún seguida de una instantánea LP en orden de codificación.

Además, los ejemplos específicos del conjunto de instantáneas de referencia son iguales que en la realización 1 (la figura 14, la figura 15 y la figura 16) y, por lo tanto, se omite la descripción.

Como se ha descrito anteriormente, de acuerdo con la presente realización, es posible reducir la velocidad de tramas de visualización y visualizar vídeo incluso en un sistema que no tiene la capacidad de permitir descodificar a la velocidad de tramas máxima de un flujo codificado.

Además, en la norma HEVC (NPL 1), se prohíbe que una TP se codifique por delante de una LP. En la presente realización, no está presente una IRAP a medio camino a través del flujo de instantáneas y, por lo tanto, no se plantea una situación en la que una TP se codifica por delante de una LP. Además, debido a que se usa SEI de Punto_recuperación en lugar de una IRAP en la parte media del flujo, se puede lograr el acceso aleatorio. Dicho de otra forma, se logran el acceso aleatorio y la escalabilidad temporal al tiempo que se cumple con la norma HEVC.

De esta forma, el aparato de codificación de imágenes 100A de acuerdo con la presente realización puede lograr el mismo efecto ventajoso que el aparato de codificación de imágenes 100 de acuerdo con la realización 1.

[Realización 3]

<Configuración global>

La configuración del aparato de codificación de imágenes 100 de acuerdo con la presente realización es igual que en la realización 1 (la figura 7) y, por lo tanto, se omite la descripción.

<Operación (Como un todo)>

El flujo del proceso de codificación como un todo es igual que en la realización 1 (la figura 8) y, por lo tanto, se omite la descripción.

<Operación (Determinación de estructura de codificación)>

A continuación, el flujo del proceso de determinación de estructura de codificación (la etapa S101 en la figura 8) se describirá con referencia a la figura 24. La figura 24 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la presente realización.

El proceso ilustrado en la figura 24 añade la etapa S125 al proceso ilustrado en la figura 9 descrito en la realización 1. Además, las etapas S121 a S124 son iguales que en la realización 1 y, por lo tanto, se omite la descripción.

Después de que la unidad de determinación de estructura de codificación 101 haya reorganizado las instantáneas de tal modo que las instantáneas con el TemporalId más grande tienen tiempos de número impar y el resto de las instantáneas tienen tiempos de número par (después de S124), la unidad de determinación de estructura de codificación 101 adelanta la temporización para codificar las instantáneas con el TemporalId más grande, como se ilustra en la figura 25A, la figura 25B, la figura 26 y la figura 27 de tal modo que las instantáneas de unos GOP diferentes no se entremezclan (S125). La figura 25A y la figura 25B ilustran un ejemplo de un caso en el que el TemporalId más grande es 4, la figura 26 ilustra un ejemplo de un caso en el que el TemporalId más grande es 3, y la figura 27 ilustra un ejemplo de un caso en el que el TemporalId más grande es 2.

Por ejemplo, en el ejemplo ilustrado en la figura 25A y la figura 25B, las instantáneas con un sombreado de línea diagonal se han movido hacia delante seis unidades de tiempo en comparación con la figura 10A y la figura 10B. Al hacer esto, las instantáneas de una IRAP al siguiente IRAP se disponen en un conglomerado. Dicho de otra forma, las instantáneas se disponen de forma consecutiva en función de los GOP. Expuesto de forma diferente, las instantáneas incluidas en unos GOP diferentes no se entremezclan.

<Operación (Determinación de tipo de NAL)>

A continuación, el flujo del proceso de determinación de tipo de NAL (S102 en la figura 8) se describirá con referencia a la figura 28. La figura 28 es un diagrama de flujo de un proceso de determinación de tipo NAL de acuerdo con la presente realización.

En primer lugar, la unidad de determinación de tipo de NAL 102 determina si la instantánea actual es una instantánea de punto de acceso aleatorio (S201). Cuando la instantánea actual es una instantánea de punto de acceso aleatorio (Sí en S201), la unidad de determinación de tipo de NAL 102 establece a IRAP el tipo de NAL de la instantánea actual (S202).

Cuando la instantánea actual no es una instantánea de punto de acceso aleatorio (No en S201), la unidad de determinación de tipo de NAL 102 determina si la instantánea actual precede en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (S203). Cuando la instantánea actual precede en orden de visualización a la IRAP inmediatamente precedente en orden de codificación (Sí en S203), la unidad de determinación de tipo de NAL 102 establece a LP el tipo de NAL de la instantánea actual (S204). De lo contrario (No en S203), la unidad de determinación de tipo de NAL 102 establece a TP el tipo de NAL de la instantánea actual (S205).

Con el proceso descrito anteriormente, se generan flujos codificados tales como los ilustrados en la figura 25A, la figura 25B, la figura 26 y la figura 27.

En la figura 29, la figura 30 y la figura 31 se ilustran ejemplos de conjuntos de instantáneas de referencia de acuerdo con la presente realización. Se debería hacer notar que los ejemplos ilustrados en la figura 29, la figura 30 y la figura 31 son ejemplos para el caso en el que el TemporalId más grande es 4.

La figura 29 ilustra un conjunto que prioriza la velocidad de compresión, y es un conjunto en el que se hace referencia, siempre que sea posible, a las instantáneas codificadas. La figura 30 ilustra un conjunto que posibilita la reducción en el tamaño de memoria de tramas a usar, y es un conjunto en el que se hace referencia a las instantáneas precedentes y posteriores cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual.

La figura 31 ilustra un conjunto que presenta un equilibrio entre la relación de compresión y el tamaño de memoria, y es un conjunto en el que se hace referencia a una instantánea con TemporalId0 que tiene un error de codificación pequeño, o se hace referencia a una instantánea precedente o posterior cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual. Además, en este conjunto, está prohibido hacer referencia a una instantánea con el mismo TemporalId, de la misma forma que una instantánea TSA en HEVC (NPL 1), para permitir la conmutación de la velocidad de tramas de reproducción a medio camino a través de un flujo codificado.

La figura 32 es un diagrama que ilustra un ejemplo de una estructura de codificación de acuerdo con la presente realización. Se debería hacer notar que la figura 32 ilustra un ejemplo para el caso en el que el TemporalId más grande es 2. Además, el tiempo en la figura indica el orden de visualización. En la presente realización, se acelera la temporización para codificar las instantáneas con el TemporalId más grande y, por lo tanto, está prohibido que las instantáneas con el TemporalId más grande hagan referencia a algunas instantáneas. En concreto, una instantánea de capa más alta con el TemporalId más grande se codifica sin referencia a una instantánea que es inmediatamente siguiente en orden de visualización y está una capa más baja. Por ejemplo, como se ilustra en la figura 32, está prohibido que B1 haga referencia a B2.

Además, como se ilustra en la figura 32, una instantánea de capa más alta (por ejemplo, B7) inmediatamente precedente en orden de visualización a una instantánea que pertenece a la capa más baja puede hacer referencia a una instantánea (por ejemplo, B6) que es inmediatamente precedente en orden de visualización y está una capa más baja. Expuesto de forma diferente, una instantánea (por ejemplo, B5) que no precede inmediatamente en orden de visualización a una instantánea que pertenece a la capa más baja se codifica sin referencia a una instantánea que es inmediatamente precedente en orden de visualización y está una capa más baja.

Como se ha descrito anteriormente, en la presente realización, el aparato de codificación de imágenes 100 selecciona uno de entre los tres conjuntos de acuerdo con el identificador de conjunto de instantáneas de referencia 123 introducido desde el exterior, y codifica el conjunto seleccionado. Además, en la presente realización, se acelera la temporización para codificar (temporización para descodificar) instantáneas con el TemporalId más grande. En este sentido, hay menos instantáneas codificadas (descodificadas) en el momento de la codificación (descodificación) de las instantáneas con el TemporalId más grande y, por lo tanto, hay menos instantáneas de referencia que pueden ser usadas por las instantáneas con el TemporalId más grande.

Además, debido a que está prohibido que una TP haga referencia a una LP, y una LP no se codifica hasta la siguiente IRAP después de la codificación de una TP, el aparato de codificación de imágenes 100 o el aparato de descodificación de imágenes puede borrar una instantánea LP de la memoria de tramas de referencia en el momento de la codificación o descodificación. Al hacer esto, se puede reducir el tamaño de la memoria de tramas de referencia.

Además, debido a que las instantáneas incluidas en unos GOP diferentes no se entremezclan, el aparato de descodificación de imágenes puede extraer fácilmente los GOP a partir del flujo codificado cuando se realiza una reproducción especial, etc.

Además, acelerar la temporización para codificar las instantáneas con el TemporalId más grande reduce el retardo desde el inicio de la descodificación a la visualización. La descripción se llevará a cabo al comparar la figura 10A y la figura 10B con la figura 25A y la figura 25B. La visualización de I0 comienza desde el tiempo 8 en la figura 10A y la figura 10B, mientras que la visualización se comienza en el tiempo 6 en la figura 25A y la figura 25B (la presente realización). De esta forma, en la presente realización, se acelera el tiempo de inicio de visualización. Por consiguiente, debido a que se puede acortar el tiempo desde cuando el usuario da instrucciones de descodificar hasta cuando se comienza la visualización, se puede construir un sistema que tiene una respuesta rápida.

De esta forma, al acelerar la temporización para codificar las instantáneas con el TemporalId más alto, se puede lograr la evitación del entremezclado de GOP y la reducción de los retardos. Por otro lado, debido a que se acelera la temporización para codificar las instantáneas con el TemporalId más grande, hay menos instantáneas de referencia que pueden ser usadas por las instantáneas con el TemporalId más grande. Por consiguiente, existe una cierta preocupación por el deterioro de la eficiencia de codificación. Sin embargo, una instantánea con un TemporalId distinto del TemporalId más grande no hace referencia a una instantánea con el TemporalId más grande. Dicho de otra forma, la frecuencia con la que otras instantáneas hacen referencia a una instantánea con el TemporalId más grande es baja. Por lo tanto, incluso si se deteriora la calidad de instantánea de las instantáneas con el TemporalId más grande, el error no se difunde a otras instantáneas. En este sentido, incluso si hay menos instantáneas de referencia con el TemporalId más grande, hay poco deterioro en la eficiencia de codificación global. Dicho de otra forma, en la presente realización, el entremezclado de los GOP se puede evitar al tiempo que se suprime el deterioro en la eficiencia de codificación.

Además, la información de tiempo (au_cpb_removal_delay_minus1) indica que el tiempo de descodificación de una instantánea que precede a una instantánea I accesible aleatoria en orden de visualización va por delante del tiempo de descodificación de una instantánea que sigue a la instantánea I en orden de visualización. Con esto, se puede reducir la capacidad de la memoria de tramas de referencia del aparato de descodificación de imágenes.

Además, la pluralidad de instantáneas se incluyen en uno cualquiera de una pluralidad de grupos de instantáneas (GOP) cada uno de los cuales incluye al menos una instantánea I e instantáneas que son consecutivas en orden de visualización. Los tiempos de descodificación de la pluralidad de instantáneas se establecen de tal modo que las instantáneas incluidas en cada grupo de instantáneas se descodifican de forma consecutiva, sin la intervención de la descodificación de una instantánea incluida en otro grupo de instantáneas. Con esto, el aparato de codificación de imágenes 100 puede generar un flujo de bits codificado que puede ser codificado por un aparato de descodificación de imágenes sin realizar un proceso especial.

[Realización 4]

<Configuración global>

<Operación (Como un todo)>

<Operación (Determinación de estructura de codificación)>

A continuación, el flujo del proceso de determinación de estructura de codificación (la etapa S101 en la figura 8) se describirá con referencia a la figura 33.

La figura 33 es un diagrama de flujo de un proceso de determinación de estructura de codificación de acuerdo con la presente realización.

El proceso ilustrado en la figura 33 añade las etapas S126 y S127 al proceso ilustrado en la figura 9 descrito en la realización 1. Además, las etapas S121 a S124 son iguales que en la realización 1 y, por lo tanto, se omite la descripción.

Después de que la unidad de determinación de estructura de codificación 101 haya reorganizado las instantáneas de tal modo que las instantáneas con el TemporalId más grande tienen tiempos de número impar y el resto de las instantáneas tienen tiempos de número par (después de S124), la unidad de determinación de estructura de codificación 101 adelanta la temporización para codificar las instantáneas con el TemporalId más grande, como se ilustra en la figura 34A, la figura 34B, la figura 35 y la figura 36, para tener intervalos iguales entre los tiempos de inicio de descodificación (S126). La figura 34A y la figura 34B ilustran un ejemplo de un caso en el que el TemporalId más grande es 4, la figura 35 ilustra un ejemplo de un caso en el que el TemporalId más grande es 3, y la figura 36 ilustra un ejemplo de un caso en el que el TemporalId más grande es 2.

Por ejemplo, en el ejemplo ilustrado en la figura 34A y la figura 34B, las instantáneas con un sombreado de línea diagonal se han movido hacia delante ocho unidades de tiempo en comparación con la figura 10A y la figura 10B. Por consiguiente, se elimina la separación entre instantáneas, y cuando el aparato de descodificación de imágenes reproduce el flujo codificado a la velocidad de tramas máxima, una instantánea se descodifica en una unidad de tiempo.

A continuación, la unidad de determinación de estructura de codificación 101 divide la pluralidad de instantáneas en grupos de tal modo que las instantáneas de un punto de acceso aleatorio al siguiente punto de acceso aleatorio se incluyen en el mismo GOP, de la misma forma que en la etapa S123 (S127). Por ejemplo, en el ejemplo ilustrado en la figura 34A y la figura 34B, B17, que se incluye en el mismo GOP que 132 en la realización 1, se incluye en el mismo GOP que 10 debido a este proceso.

<Operación (Determinación de tipo de NAL)>

El flujo del proceso de determinación de tipo de NAL es igual que en la realización 3 (la figura 28) y, por lo tanto, se omite la descripción.

Con el proceso descrito anteriormente, se generan flujos codificados tales como los ilustrados en la figura 34A, la figura 34b , la figura 35 y la figura 36.

En la figura 37, la figura 38 y la figura 39 se ilustran ejemplos de conjuntos de instantáneas de referencia de acuerdo con la presente realización. Se debería hacer notar que los ejemplos ilustrados en la figura 37, la figura 38 y la figura 39 son ejemplos para el caso en el que el TemporalId más grande es 4.

La figura 37 ilustra un conjunto que prioriza la velocidad de compresión, y es un conjunto en el que se hace referencia, siempre que sea posible, a las instantáneas codificadas. La figura 38 ilustra un conjunto que posibilita la reducción en el tamaño de memoria de tramas a usar, y es un conjunto en el que se hace referencia a las instantáneas precedentes y posteriores cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual.

La figura 39 ilustra un conjunto que presenta un equilibrio entre la relación de compresión y el tamaño de memoria, y es un conjunto en el que se hace referencia a una instantánea con TemporalId0 que tiene un error de codificación pequeño, o se hace referencia a una instantánea precedente o posterior cerca de la instantánea actual en orden de visualización. Además, con el fin de facilitar el acceso aleatorio, este conjunto se establece de tal modo que solo se hace referencia a una instantánea incluida en el mismo GOP que la instantánea actual. Además, en este conjunto, está prohibido hacer referencia a una instantánea con el mismo TemporalId, de la misma forma que una instantánea TSA en HEVC (NPL 1), para permitir la conmutación de la velocidad de tramas de reproducción a medio camino a través de un flujo codificado.

Como se ha descrito anteriormente, en la presente realización, el aparato de codificación de imágenes 100 selecciona uno de entre los tres conjuntos de acuerdo con el identificador de conjunto de instantáneas de referencia 123 introducido desde el exterior, y codifica el conjunto seleccionado. Además, la temporización para codificar (temporización para descodificar) instantáneas con el TemporalId más grande se acelera más que en los ejemplos en la realización 1 y la realización 3. En este sentido, hay menos instantáneas codificadas (descodificadas) en el momento de la codificación (descodificación) de las instantáneas con el TemporalId más grande y, por lo tanto, hay menos instantáneas de referencia que pueden ser usadas por las instantáneas con el TemporalId más grande.

Además, debido a que se hace uniforme el intervalo de descodificación de las instantáneas, se puede lograr la simplificación del sistema. Por ejemplo, cuando se reproduce vídeo a la velocidad de tramas máxima, es suficiente que el aparato de descodificación de imágenes descodifique una instantánea en una unidad de tiempo y, por lo tanto, no es necesario conmutar el intervalo de descodificación de acuerdo con la instantánea.

De esta forma, al acelerar la temporización para codificar las instantáneas con el TemporalId más alto, se puede lograr la evitación del entremezclado de GOP, la reducción de los retardos, y la uniformidad del intervalo de descodificación. Por otro lado, debido a que se acelera la temporización para codificar las instantáneas con el TemporalId más grande, hay menos instantáneas de referencia que pueden ser usadas por las instantáneas con el TemporalId más grande. Por consiguiente, existe una cierta preocupación por el deterioro de la eficiencia de codificación. Sin embargo, una instantánea con un TemporalId distinto del TemporalId más grande no hace referencia a una instantánea con el TemporalId más grande. Dicho de otra forma, la frecuencia con la que otras instantáneas hacen referencia a una instantánea con el TemporalId más grande es baja. Por lo tanto, incluso si se deteriora la calidad de instantánea de las instantáneas con el TemporalId más grande, el error no se difunde a otras instantáneas. En este sentido, incluso si hay menos instantáneas de referencia con el TemporalId más grande, hay poco deterioro en la eficiencia de codificación global. Dicho de otra forma, en la presente realización, el entremezclado de los GOP se puede evitar al tiempo que se suprime el deterioro en la eficiencia de codificación.

De esta forma, el aparato de codificación de imágenes 100 de acuerdo con la presente realización, puede lograr el mismo efecto ventajoso que el aparato de codificación de imágenes 100 de acuerdo con la realización 1.

[Realización 5]

En la presente realización, se describirá un aparato de descodificación de imágenes que descodifica el flujo codificado generado por el aparato de codificación de imágenes 100 de acuerdo con la realización 1.

<Configuración global>

La figura 40 es un diagrama de bloques que ilustra la configuración de un aparato de descodificación de imágenes 200 de acuerdo con la presente realización. El aparato de descodificación de imágenes 200 ilustrado en la figura 40 descodifica el flujo codificado 221 para generar unas imágenes 224. El flujo codificado 221 es, por ejemplo, el flujo codificado 124 generado por el aparato de codificación de imágenes 100 de acuerdo con la realización 1

El aparato de descodificación de imágenes 200 incluye una unidad de extracción de GOP de reproducción 201, una unidad de descodificación 202, una unidad de determinación de descodificación 203 y una unidad de visualización 204.

<Operación (Como un todo)>

A continuación, el flujo del proceso de descodificación como un todo se describirá con referencia a la figura 41. La figura 41 es un diagrama de flujo del proceso de descodificación de acuerdo con la presente realización.

En primer lugar, la unidad de extracción de GOP de reproducción 201 extrae un GOP a reproducir, a partir del flujo codificado 221 (S301).

A continuación, la unidad de descodificación 202 establece 0, como un valor inicial, a la variable denominada recuento de IRAP (S302).

A continuación, la unidad de descodificación descodifica au_cpb_removal_delay_minus1 y pic_dpb_output_delay a partir del flujo codificado 221 (S303), y espera hasta el tiempo au_cpb_removal_delay_minus1 1 (S304).

A continuación, la unidad de descodificación 202 descodifica el tipo de NAL a partir del flujo codificado 221 (S305), y determina si el tipo de NAL es IRAP (S307). Cuando el tipo de Na L es IRAP (Sí en S307), la unidad de descodificación 202 añade 1 al contador de IRAP (S308).

A continuación, la unidad de determinación de descodificación 203 determina si el contador de IRAP es mayor que 1 (S309). Además, la unidad de determinación de descodificación 203 determina si el tipo de NAL es cualquiera de BLP, BTP, LLP y LTP (S310 y S311).

Cuando el contador de IRAP es mayor que 1 y el tipo de NAL no es ninguno de BLP, BTP, LLP y LTP (Sí en S309 y No en S310), el aparato de descodificación de imágenes 200 transfiere el proceso a la siguiente instantánea sin realizar el proceso de descodificación. Además, cuando el contador de IRAP es menor o igual que 1 y el tipo de NAL es uno de BLP, BTP, LLP y LTP (No en S309 y Sí en S311), el aparato de descodificación de imágenes 200 no realiza el proceso de descodificación, y el proceso realiza una transición a la siguiente instantánea. Al hacer esto, el aparato de descodificación de imágenes 200 determina si la instantánea actual se incluye en el GOP de reproducción, y no descodifica la instantánea actual cuando la instantánea actual no se incluye en el GOP de reproducción.

La descripción se llevará a cabo usando el ejemplo en la figura 10A y la figura 10B. Además, las instantáneas subrayadas se incluyen en el GOP de reproducción. En este caso, el flujo codificado de 132 a B47 es extraído por la unidad de extracción de GOP de reproducción 201. De acuerdo con la determinación anterior, B11, B13, B15, 164, B56, y B52 no se incluyen en el GOP de reproducción, y se omite su descodificación.

Por otro lado, cuando el contador de IRAP es mayor que 1 y el tipo de NAL es uno de BLP, BTP, LLP y LTP (Sí en S309 y Sí en S310), o cuando el contador de IRAP es menor o igual que 1 y el tipo de NAL no es ninguno de BLP, BTP, LLP y LTP (No en S309 y No en S311), la unidad de determinación de descodificación 203 determina si el tipo de NAL es TP (s 312). Cuando el tipo de NAL es TP (Sí en S312), la unidad de determinación de descodificación 203 borra las instantáneas LP de la memoria de tramas de referencia (S313). Esto se debe a que, debido a las restricciones de que está prohibido que una instantánea TP haga referencia a una instantánea LP, y a que, después de una instantánea Tp , una instantánea LP no se codifica hasta la siguiente IRAP en orden de codificación, ninguna instantánea hace referencia a una instantánea LP después de una instantánea TP.

A continuación, la unidad de descodificación codifica el TemporalId (S314). La unidad de determinación de descodificación 203 determina si el TemporalId es menor o igual que reproductionTId 223 que se introduce desde el exterior (S315). Cuando el TemporalId es mayor que reproductionTId 223 (No en S315), el aparato de descodificación de imágenes 200 no descodifica la instantánea actual, y desplaza el proceso a la siguiente instantánea. Con este proceso, se puede implementar la escalabilidad temporal.

Cuando el TemporalId es menor o igual que reproductionTId 223 (Sí en S315), la unidad de descodificación 202 descodifica el conjunto de instantáneas de referencia (S316), y descodifica la instantánea (S317). A continuación, la unidad de descodificación 202 transmite, a la unidad de visualización 204, una señal de solicitud para solicitar que la instantánea descodificada se visualice en el tiempo au_pb_removal_delay_minus1 1 pic_dpb_output_delay (S318).

A continuación, la unidad de determinación de descodificación 203 determina si el tipo de NAL es uno de LLP y LTP y el contador de IRAP es 1 (S319 y S320). Cuando el tipo de NAL es uno de LLP y Lt P y el contador de IRAP no es 1 (Sí en S319 y No en S320), la unidad de determinación de descodificación 203 determina que la última instantánea en el GOP de reproducción se ha descodificado y el proceso termina.

La descripción se llevará a cabo usando el ejemplo en la figura 10A y la figura 10B. Las instantáneas subrayadas se incluyen en el GOP de reproducción. En este caso, el flujo codificado de 132 a B47 es extraído por la unidad de extracción de GOP de reproducción 201. La unidad de determinación de descodificación 203 determina que la totalidad de las instantáneas del GOP de reproducción se han procesado después del fin del procesamiento de B47 que es una LTP después de 164 que es el segundo IRAP, y el proceso termina.

Cuando el tipo de NAL no es LLP ni LTP (No en S319), o cuando el contador de IRAP es 1 (Sí en S320), el proceso desde la etapa S303 en adelante se realiza en la siguiente instantánea.

<Operación (Obtención de GOP de reproducción)>

A continuación, el flujo del proceso de obtención de GOP de reproducción (S301 en la figura 41) se describirá con referencia a la figura 42. La figura 42 es un diagrama de flujo del proceso de obtención de GOP de reproducción de acuerdo con la presente realización.

En primer lugar, la unidad de extracción de GOP de reproducción 201 busca en el flujo codificado 221 la instantánea IRAP en la posición de reproducción 222 (S331, S332 y S333). En concreto, la unidad de extracción de GOP de reproducción 201 descodifica el tipo de NAL (S331), determina si el tipo de NAL es IRAP (S332), y, cuando el tipo de nA l es IRAP (Sí en S332), determina si la instantánea es la instantánea en la posición de reproducción 222 (S333). La unidad de extracción de GOP de reproducción 201 realiza esta serie de procesos de forma secuencial desde la instantánea en cabeza en el flujo codificado 221. Entonces, la unidad de extracción de GOP de reproducción 201 establece la instantánea IRAP buscada en la posición de reproducción 222 como la instantánea de punto de inicio de obtención (S334).

A continuación, la unidad de extracción de GOP de reproducción 201 inicializa el contador de IRAP a 1 (S335).

A continuación, la unidad de extracción de GOP de reproducción 201 descodifica el tipo de NAL de la instantánea actual (S336), y determina si el tipo de NAL es IRAP (S337). Cuando el tipo de NAL es IRAP (Sí en S337), la unidad de extracción de GOP de reproducción 201 añade 1 al contador de IRAP (S338).

Además, la unidad de extracción de GOP de reproducción 201 determina si el tipo de NAL es LLP o LTP (S339). Además, la unidad de extracción de GOP de reproducción 201 determina si el contador de IRAP es 1 (S340). Cuando el tipo de NAL es LLP o LTP, y el contador de IRAP no es 1 (Sí en S339 y No en S340), la unidad de extracción de GOP de reproducción 201 termina la búsqueda, y establece la instantánea actual como el punto de fin de obtención (S341).

Además, cuando el tipo de NAL no es LLP ni LTP (No en S339), o el contador de IRAP es 1 (Sí en S340), la unidad de extracción de GOP de reproducción 201 continúa la búsqueda, y realiza el proceso desde la etapa S336 en adelante en la siguiente instantánea desde el punto de inicio de obtención.

A continuación, la unidad de extracción de GOP de reproducción 201 obtiene, del flujo codificado 221, las instantáneas del punto de inicio de obtención al punto de fin de obtención, y emite las instantáneas obtenidas a la unidad de descodificación 202 (S342).

Como se ha descrito hasta el momento, el aparato de descodificación de imágenes 200 de acuerdo con la presente realización es capaz de extraer un GOP de reproducción especificado a partir de los flujos codificados ilustrados en la figura 10A, la figura 10B, la figura 11 y la figura 12 de acuerdo con la realización 1, y descodificar y reproducir solo las instantáneas incluidas en ese GOP. Por consiguiente, es posible obtener el mismo efecto ventajoso que en la realización 1.

De esta forma, el aparato de descodificación de imágenes 200 de acuerdo con la presente realización descodifica el flujo de bits (flujo codificado 221) generado al codificar jerárquicamente una pluralidad de instantáneas que pertenecen, cada una, a una cualquiera de una pluralidad de capas jerárquicas. El aparato de descodificación de imágenes descodifica, a partir del flujo de bits, información de tiempo (au_cpb_removal_delay_minus1) que indica tiempos de descodificación de la pluralidad de instantáneas. El aparato de descodificación de imágenes 200 descodifica cada instantánea de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa que es igual o menor que la capa a la que pertenece la instantánea, y sin referencia a una instantánea que pertenece a una capa que es mayor que la capa a la que pertenece la instantánea. La información de tiempo indica que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta, de entre la pluralidad de instantáneas, se establecen a intervalos iguales.

Por consiguiente, cuando la velocidad de tramas de las instantáneas en todas las capas es 120 fps y la velocidad de tramas de las instantáneas de capa baja es 60 fps por ejemplo, las instantáneas de capa baja pueden ser descodificadas por un aparato de descodificación de imágenes que tiene una capacidad de descodificación de 60 fps. De esta forma, el aparato de descodificación de imágenes 200 es capaz de descodificar imágenes de forma eficiente.

[Realización 6]

En la presente realización, se describirá un aparato de descodificación de imágenes que descodifica el flujo codificado generado por el aparato de codificación de imágenes 200A de acuerdo con la realización 2.

<Configuración global>

La configuración del aparato de codificación de imágenes de acuerdo con la presente realización es igual que en la realización 5 (la figura 40) y, por lo tanto, se omite la descripción.

<Operación (Como un todo)>

A continuación, el flujo del proceso de descodificación como un todo se describirá con referencia a la figura 43. La figura 43 es un diagrama de flujo del proceso de descodificación de acuerdo con la presente realización. El proceso ilustrado en la figura 43 añade la etapa S306A al proceso ilustrado en la figura 41. Además, las etapas S307A, S310A, S311A y S319A son diferentes de las etapas S307, S310, S311 y S319. Además, el proceso ilustrado en la figura 43 no incluye las etapas S312 y S313.

En primer lugar, la unidad de extracción de GOP de reproducción 201 extrae un GOP a reproducir a partir del flujo codificado 221 (S301).

A continuación, la unidad de descodificación 202 descodifica el tipo de NAL a partir del flujo codificado 221 (S305 y S306A), y determina si el SEI es SEI de punto_recuperación (S307A). Cuando el SEI es SEI de punto_recuperación (Sí en S307A), la unidad de descodificación 202 añade 1 al contador de IRAP (S308).

A continuación, la unidad de determinación de descodificación 203 determina si el contador de IRAP es mayor que 1 (S309). Además, la unidad de determinación de descodificación 203 determina si el SEI es uno cualquiera de SEI de BLP, SEI de BTP, SEI de LLP y SEI de LTP (S310A y S311A).

Cuando el contador de IRAP es mayor que 1 y el SEI no es ninguno de SEI de BLP, SEI de BTP, SEI de LLP y SEI de LTP (Sí en S309 y No en S310A), el aparato de descodificación de imágenes 200 transfiere el proceso a la siguiente instantánea sin realizar el proceso de descodificación. Además, cuando el contador de IRAP es menor o igual que 1 y el SEI es uno de SEI de BLP, SEI de BTP, SEI de LLP y SEI de LTP (No en S309 y Sí en S311A), el aparato de descodificación de imágenes 200 no realiza el proceso de descodificación, y el proceso realiza una transición a la siguiente instantánea. Al hacer esto, el aparato de descodificación de imágenes 200 determina si la instantánea actual se incluye en el GOP de reproducción, y no descodifica la instantánea actual cuando la instantánea actual no se incluye en el GOP de reproducción.

La descripción se llevará a cabo usando el ejemplo en la figura 21A y la figura 21B. Además, las instantáneas subrayadas se incluyen en el GOP de reproducción. En este caso, el flujo codificado de 132 a B47 es extraído por la unidad de extracción de GOP de reproducción 201. De acuerdo con la determinación anterior, B11, B13, B15, 164, B56, y B52 no se incluyen en el GOP de reproducción, y se omite su descodificación.

Cuando el contador de IRAP es mayor que 1 y el SEI es uno de SEI de BLP, SEI de BTP, SEI de LLP y SEI de LTP (Sí en S309 y Sí en S310A), o cuando el contador de IRAP es menor o igual que 1 y el SEI no es ninguno de SEI de BLP, SEI de BTP, SEI de LLP y SEI de LTP (No en S309 y No en S311A), la unidad de descodificación 202 descodifica el TemporalId (S314). La unidad de determinación de descodificación 203 determina si el TemporalId es menor o igual que reproductionTId 223 que se introduce desde el exterior (S315). Cuando el TemporalId es mayor que reproductionTId 223 (No en S315), el aparato de descodificación de imágenes 200 no descodifica la instantánea actual, y desplaza el proceso a la siguiente instantánea. Con este proceso, se puede implementar la escalabilidad temporal.

Cuando el TemporalId es menor o igual que reproductionTId 223 (Sí en S315), la unidad de descodificación 202 descodifica el conjunto de instantáneas de referencia (S316), y descodifica la instantánea (S317). A continuación, la unidad de descodificación 202 transmite, a la unidad de visualización 204, una señal de solicitud para solicitar que la instantánea descodificada se visualice en el tiempo au_cpb_removal_delay_minus1 1 pic_dpb_output_delay (S318).

A continuación, la unidad de determinación de descodificación 203 determina si el SEI es uno de SEI de LLP y SEI de LTP y el contador de IRAP es 1 (S319A y S320). Cuando el SEI es uno de SEI de LLP y SEI de LTP y el contador de IRAP no es 1 (Sí en S319A y No en S320), la unidad de determinación de descodificación 203 determina que la última instantánea en el GOP de reproducción se ha descodificado y el proceso termina.

La descripción se llevará a cabo usando el ejemplo en la figura 21A y la figura 21B. Las instantáneas subrayadas se incluyen en el GOP de reproducción. En este caso, el flujo codificado de 132 a B47 es extraído por la unidad de extracción de GOP de reproducción 201. La unidad de determinación de descodificación 203 determina que la totalidad de las instantáneas del GOP de reproducción se han procesado después del fin del procesamiento de B47 que es un SEI de LTP después de 164 que es la segunda SEI de punto_recuperación, y el proceso termina.

Cuando el SEI no es SEI de LLP ni SEI de LTP (No en S319A), o cuando el contador de IRAP es 1 (Sí en S320), el proceso desde la etapa S303 en adelante se realiza en la siguiente instantánea.

<Operación (Obtención de GOP de reproducción)>

A continuación, el flujo del proceso de obtención de GOP de reproducción (S301 en la figura 43) se describirá con referencia a la figura 44. La figura 44 es un diagrama de flujo del proceso de obtención de GOP de reproducción de acuerdo con la presente realización. Se debería hacer notar que las etapas S331A, S332A, S336A, S337A y S339A en el proceso ilustrado en la figura 44 son diferentes de las etapas S331, S332, S336, S337 y S339 en el proceso ilustrado en la figura 42.

En primer lugar, la unidad de extracción de GOP de reproducción 201 busca en el flujo codificado 221 la instantánea de SEI de punto_recuperación en la posición de reproducción 222 (S331A, S332A y S333A). En concreto, la unidad de extracción de g Op de reproducción 201 descodifica el SEI (S331A), y determina si el SEI es SEI de punto_recuperación (S332A). Cuando el SEI es SEI de punto_recuperación (Sí en S332A), la unidad de extracción de GOP de reproducción 201 determina si la instantánea es la instantánea en la posición de reproducción 222 (S333). La unidad de extracción de GOP de reproducción 201 realiza esta serie de procesos de forma secuencial desde la instantánea en cabeza en el flujo codificado 221. Entonces, la unidad de extracción de GOP de reproducción 201 establece la instantánea de s E i de punto_recuperación buscada en la posición de reproducción 222 como la instantánea de punto de inicio de obtención (S334).

A continuación, la unidad de extracción de GOP de reproducción 201 descodifica el SEI de la instantánea actual (S336A), y determina si el SEI es la SEI de punto_recuperación (S337A). Cuando el SEI es la SEI de punto_recuperación (Sí en S337), la unidad de extracción de g Op de reproducción 201 añade 1 al contador de IRAP (S338).

Además, la unidad de extracción de GOP de reproducción 201 determina si el SEI es SEI de LLP o SEI de LTP (S339A). Además, la unidad de extracción de GOP de reproducción 201 determina si el contador de IRAP es 1 (S340). Cuando el SEI es SEI de LLP o SEI de LTP, y el contador de IRAP no es 1 (Sí en S339A y No en S340), la unidad de extracción de GOP de reproducción 201 termina la búsqueda, y establece la instantánea actual como el punto de fin de obtención (S341).

Además, cuando el SEI no es SEI de LLP ni SEI de LTP (No en S339A), o el contador de IRAP es 1 (Sí en S340), la unidad de extracción de GOP de reproducción 201 continúa la búsqueda, y realiza el proceso desde la etapa S336A en adelante en la siguiente instantánea desde la instantánea de punto de inicio de obtención.

Como se ha descrito hasta el momento, el aparato de descodificación de imágenes 200 de acuerdo con la presente realización es capaz de extraer un GOP de reproducción especificado a partir de los flujos codificados ilustrados en la figura 21A, la figura 21B, la figura 22 y la figura 23 de acuerdo con la realización 2, y descodificar y reproducir solo las instantáneas incluidas en ese GOP. Por consiguiente, es posible obtener el mismo efecto ventajoso que en la realización 2.

[Realización 7]

En la presente realización, se describirá un aparato de descodificación de imágenes que descodifica el flujo codificado generado por el aparato de codificación de imágenes 100 de acuerdo con la realización 3.

<Configuración global>

La configuración del aparato de codificación de imágenes 200 de acuerdo con la presente realización es igual que en la realización 5 (la figura 40) y, por lo tanto, se omite la descripción.

<Operación (Como un todo)>

A continuación, el flujo del proceso de descodificación como un todo se describirá con referencia a la figura 45. La figura 45 es un diagrama de flujo del proceso de descodificación de acuerdo con la presente realización. Se debería hacer notar que la etapa S319B en el proceso ilustrado en la figura 45 es diferente de la etapa S319 en el proceso ilustrado en la figura 41. Además, el proceso ilustrado en la figura 45 no incluye las etapas S302 y S306 a S311. Aparte de eso, el proceso es igual que en la realización 5 (la figura 41) y, por lo tanto, se omite la descripción.

En la etapa S319B, el aparato de descodificación de imágenes 200 determina si la instantánea actual es la última instantánea en el GOP (S319B). Cuando la instantánea actual es la última instantánea en el GOP (Sí en S319B), el aparato de descodificación de imágenes 200 termina el proceso. Además, cuando la instantánea actual no es la última instantánea en el GOP (No en S319B), el aparato de descodificación de imágenes 200 realiza el proceso desde la etapa S303 en adelante en la siguiente instantánea.

<Operación (Obtención de GOP de reproducción)>

A continuación, el flujo del proceso de obtención de GOP de reproducción (S301 en la figura 45) se describirá con referencia a la figura 46. La figura 46 es un diagrama de flujo del proceso de obtención de GOP de reproducción de acuerdo con la presente realización. Se debería hacer notar que las etapas S340A y S341A en el proceso ilustrado en la figura 46 son diferentes de las etapas S340 y S341 en el proceso ilustrado en la figura 42. Además, el proceso ilustrado en la figura 46 no incluye las etapas S335 y S337 a s 339. Además, las etapas S331, S332, S333 y S334 son iguales que en la realización 5 (la figura 42) y, por lo tanto, se omite la descripción.

Después de la etapa S334, la unidad de extracción de GOP de reproducción 201 descodifica el tipo de NAL (S336), y busca la instantánea IRAP (S340A). En concreto, la unidad de extracción de GOP de reproducción 201 determina si el tipo de NAL de la instantánea actual es IRAP (S340A). Cuando el tipo de NAL de la instantánea actual es IRAP (Sí en S340A), la unidad de extracción de GOP de reproducción 201 establece la instantánea inmediatamente precedente a la instantánea actual como la instantánea de punto de fin de obtención (S341A).

Cuando el tipo de NAL de la instantánea actual no es IRAP (No en S340A), la unidad de extracción de GOP de reproducción 201 realiza el proceso desde la etapa S336 en adelante en la siguiente instantánea.

Como se ha descrito hasta el momento, el aparato de descodificación de imágenes 200 de acuerdo con la presente realización es capaz de extraer un GOP de reproducción especificado a partir de los flujos codificados ilustrados en la figura 25A, la figura 25B, la figura 26 y la figura 27 de acuerdo con la realización 3, y descodificar y reproducir solo las instantáneas incluidas en ese GOP. Por consiguiente, es posible obtener el mismo efecto ventajoso que en la realización 3.

De esta forma, el aparato de descodificación de imágenes 200 de acuerdo con la presente realización descodifica el flujo de bits (flujo codificado 221) generado al codificar jerárquicamente una pluralidad de instantáneas que pertenecen, cada una, a una cualquiera de una pluralidad de capas jerárquicas. El aparato de descodificación de imágenes descodifica, a partir del flujo de bits, información de tiempo (au_cpb_removal_delay_minus1) que indica tiempos de descodificación de la pluralidad de instantáneas. El aparato de descodificación de imágenes 200 descodifica cada una de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa que es igual o menor que la capa a la que pertenece la instantánea, y sin referencia a una instantánea que pertenece a una capa que es mayor que la capa a la que pertenece la instantánea actual. La información de tiempo indica que los tiempos de descodificación de las instantáneas de capa baja distintas de las instantáneas de capa más alta que pertenecen a la capa jerárquica más alta, de entre la pluralidad de instantáneas, se establecen a intervalos iguales.

Por ejemplo, la velocidad de tramas de las instantáneas de capa baja es la mitad de la velocidad de tramas de la pluralidad de instantáneas. Por ejemplo, la velocidad de tramas o las instantáneas de capa baja es 60 fps, y la velocidad de tramas de la pluralidad de instantáneas es 120 fps.

Además, la información de tiempo (au_cpb_removal_delay_minus1) indica que el tiempo de descodificación de una instantánea que precede a una instantánea I accesible aleatoria en orden de visualización va por delante del tiempo de descodificación de una instantánea que sigue a la instantánea I en orden de visualización. Con esto, se puede reducir la capacidad de la memoria de tramas de referencia del aparato de descodificación de imágenes 200.

Además, la pluralidad de instantáneas se incluyen en uno cualquiera de una pluralidad de grupos de instantáneas (GOP) cada uno de los cuales incluye al menos una instantánea I e instantáneas que son consecutivas en orden de visualización. Los tiempos de descodificación de la pluralidad de instantáneas se establecen de tal modo que las instantáneas incluidas en cada grupo de instantáneas se descodifican de forma consecutiva, sin la intervención de la descodificación de una instantánea incluida en otro grupo de instantáneas. Por consiguiente, el aparato de descodificación de imágenes 200 puede descodificar imágenes sin realizar un proceso especial.

[Realización 8]

En la presente realización, se describirá un aparato de descodificación de imágenes que descodifica el flujo codificado generado por el aparato de codificación de imágenes 100 de acuerdo con la realización 4.

<Configuración global>

<Operación (Como un todo)>

A continuación, el flujo del proceso de descodificación como un todo se describirá con referencia a la figura 47. La figura 41 es un diagrama de flujo del proceso de descodificación de acuerdo con la presente realización. Se debería hacer notar que la etapa S304A en el proceso ilustrado en la figura 47 es diferente de la etapa S304 en el proceso ilustrado en la figura 45. Aparte de eso, el proceso es igual que en la realización 7 (la figura 45) y, por lo tanto, se omite la descripción.

En la etapa S304A, la unidad de descodificación 202 espera hasta que ha transcurrido un tiempo fijo desde el inicio de la descodificación de la instantánea precedente. Para describir el uso del ejemplo ilustrado en la figura 34A y la figura 34B, la unidad de descodificación 202 comienza la descodificación de B1 después del trascurso de 1 unidad de tiempo desde el inicio de la descodificación de 10 y, entonces, descodifica P16 después del trascurso de 1 unidad de tiempo. De esta forma, la unidad de descodificación 202 comienza la descodificación de instantáneas a intervalos iguales.

<Operación (Obtención de GOP de reproducción)>

El flujo del proceso de obtención de GOP de reproducción (S301 en la figura 47) es igual que en la realización 7 (la figura 46) y, por lo tanto, se omite la descripción.

Como se ha descrito hasta el momento, de acuerdo con la presente realización, es posible extraer un GOP de reproducción especificado a partir de los flujos codificados ilustrados en la figura 34A, la figura 34B, la figura 35 y la figura 36 de acuerdo con la realización 4, y descodificar y reproducir solo las instantáneas incluidas en ese GOP. Por consiguiente, es posible obtener el mismo efecto ventajoso que en la realización 4.

Aunque se han descrito hasta el momento un aparato de codificación de imágenes y un aparato de descodificación de imágenes de acuerdo con las realizaciones, la presente invención no se limita a tales realizaciones.

Además, las unidades de procesamiento respectivas incluidas en el aparato de codificación de imágenes y el aparato de descodificación de imágenes de acuerdo con las realizaciones anteriormente descritas se implementan habitualmente como un LSI que es un circuito integrado. Estas unidades de procesamiento se pueden configurar individualmente como chips únicos o se pueden configurar de tal modo que una parte o la totalidad de las unidades de procesamiento se incluyen en un único chip.

Además, el procedimiento de integración de circuitos no se limita a LSI, y también es posible la implementación a través de un circuito especializado o procesadores de propósito general. Se puede usar también una Disposición de Puertas Programables en Campo (FPGA), que permite la programación después de que se fabrique el LSI, o un procesador reconfigurable, que permite la reconfiguración de las conexiones y ajustes de las células de circuito dentro del LSI.

En las realizaciones respectivas, los elementos estructurales respectivos se configuran usando hardware dedicado, pero también se pueden implementar al ejecutar programas de software adaptados a los elementos estructurales respectivos. Los elementos estructurales respectivos pueden implementarse por una unidad de ejecución de programa tal como una CPU o un procesador que lee y ejecuta un programa de software grabado en un medio de grabación tal como un disco duro o memoria de semiconductores.

Expuesto de forma diferente, el aparato de codificación de imágenes y el aparato de descodificación de imágenes incluyen circuitería de control y almacenamiento eléctricamente conectada a la circuitería de control (es decir, accesible desde la circuitería de control). La circuitería de control incluye al menos uno de hardware dedicado y una unidad de ejecución de programas. Además, cuando la circuitería de control incluye una unidad de ejecución de programas, el almacenamiento graba un programa de software que es ejecutado por la unidad de ejecución de programas.

Además, la presente invención puede ser el programa de software mencionado anteriormente, o un medio de grabación legible por ordenador no transitorio en el que se registra el programa mencionado anteriormente. Además, debería ser obvio que el programa mencionado anteriormente se puede distribuir por medio de un medio de transmisión tal como Internet.

Además, la presente invención se puede implementar como un aparato de recepción que recibe un flujo de bits codificado (flujo codificado) generado por el aparato de codificación de imágenes descrito anteriormente. Además, el aparato de recepción puede incluir el aparato de descodificación de imágenes anteriormente descrito. Además, la presente invención se puede implementar como un aparato de transmisión que transmite el flujo de bits codificado (flujo codificado) generado por el aparato de codificación de imágenes.

Además, todas las cifras numéricas usadas en la descripción anterior son meramente ejemplos para describir la presente invención en términos específicos y, por lo tanto, la presente invención no se limita a las cifras numéricas ilustradas.

Además, la separación de los bloques funcionales en los diagramas de bloques es meramente un ejemplo, y múltiples bloques funcionales se pueden implementar como un único bloque funcional, un único bloque funcional se puede separar en múltiples bloques funcionales, o parte de las funciones de un bloque funcional se pueden transferir a otro bloque funcional. Además, las funciones de bloques funcionales que tienen funciones similares se pueden procesar, en paralelo o por compartición de tiempo, por un único hardware o software.

Además, la secuencia en la que se ejecutan las etapas incluidas en el procedimiento de codificación de imágenes y el procedimiento de descodificación de imágenes anteriormente descritos se da como un ejemplo para describir la presente invención en términos específicos y, por lo tanto, son posibles otras secuencias. Además, parte de las etapas anteriormente descritas se puede ejecutar de forma simultánea (en paralelo) con otra etapa.

Además, los procesos descritos en cada una de las realizaciones se pueden implementar por procesamiento integrado usando un único aparato (sistema), o se pueden implementar mediante procesamiento distribuido usando múltiples aparatos. Además, el ordenador para ejecutar el programa anteriormente descrito puede ser un único ordenador o múltiples ordenadores. Dicho de otra forma, se puede realizar un procesamiento integrado o se puede realizar un procesamiento distribuido.

Aunque un aparato de codificación de imágenes y un aparato de descodificación de imágenes de acuerdo con uno o múltiples aspectos de la presente invención se describen basándose en las realizaciones, la presente invención no se limita a tales realizaciones. Diversas modificaciones a las presentes realizaciones que pueden ser concebidas por los expertos en la materia, y formas configuradas mediante la combinación de elementos estructurales en realizaciones diferentes, sin apartarse de las enseñanzas de la presente invención se incluyen en el ámbito de uno o más aspectos de la presente invención.

[Realización 9]

El procesamiento descrito en cada una de las realizaciones puede implementarse simplemente en un sistema informático independiente, grabando, en un medio de grabación, un programa para que implementa las configuraciones del procedimiento de codificación de instantáneas en movimiento (procedimiento de codificación de imágenes) y el procedimiento de descodificación de instantáneas en movimiento (procedimiento de descodificación de imágenes) descritos en cada una de las realizaciones. El medio de grabación puede ser cualquier medio de grabación siempre que el programa pueda grabarse, tal como un disco magnético, un disco óptico, un disco óptico magnético, una tarjeta de CI, y una memoria de semiconductores.

Además, se describirán las aplicaciones al procedimiento de codificación de instantáneas en movimiento (procedimiento de codificación de imágenes) y al procedimiento de descodificación de instantáneas en movimiento (procedimiento de descodificación de imágenes) descritos en cada una de las realizaciones y un sistema que usa los mismos. El sistema tiene una característica de tener un aparato de codificación y de descodificación de imágenes que incluye un aparato de codificación de imágenes que usa el procedimiento de codificación de imágenes y un aparato de descodificación de imágenes que usa el procedimiento de descodificación de imágenes. Otros elementos estructurales en el sistema se pueden cambiar según sea apropiado de acuerdo con la situación.

La figura 48 ilustra una configuración global de un sistema de provisión de contenido ex100 para implementar servicios de distribución de contenido. El área para proporcionar servicios de comunicación se divide en células de tamaño deseado, y las estaciones ex106, ex107, ex108, ex109 y ex110 base que son estaciones inalámbricas fijas se colocan en cada una de las células.

El sistema de provisión de contenido ex100 está conectado a dispositivos, tales como a un ordenador ex111, un asistente digital personal (PDA) ex112, una cámara ex113, un teléfono celular ex114 y una máquina de juegos ex115, mediante Internet ex101, un proveedor de servicios de Internet ex102, una red de telefonía ex104, así como a las estaciones base ex106 a ex110, respectivamente.

Sin embargo, la configuración del sistema de provisión de contenido ex100 no se limita a la configuración mostrada en la figura 48, y es aceptable una combinación en la que cualquiera de los elementos están conectados. Además, cada dispositivo puede estar directamente conectado a la red de telefonía ex104, en lugar de mediante las estaciones base ex106 a ex110 que son las estaciones inalámbricas fijas. Adicionalmente, los dispositivos pueden interconectarse entre sí mediante una comunicación inalámbrica de corta distancia y así sucesivamente.

La cámara ex113, es un dispositivo capaz de capturar vídeo, tal como una cámara de vídeo digital. La cámara ex116 es un dispositivo que puede capturar tanto imágenes fijas como vídeo, tal como una cámara digital. Adicionalmente, el teléfono celular ex114 puede ser un teléfono celular que opera bajo una cualquiera de normas tales como el Sistema Global para Comunicación Móvil (GSM) (marca registrada), Acceso Múltiple por División de Código (CDMA), Acceso Múltiple por División de Código de Banda Ancha (W-CDMA), Evolución a Largo Plazo (LTE) y Acceso por Paquetes a Alta Velocidad (HSPA). Como alternativa, el teléfono celular ex114 puede ser un teléfono de Sistema Móvil Personal (PHS).

En el sistema de provisión de contenido ex100, un servidor de envío por flujo continuo ex103 está conectado a la cámara ex113 y a otros mediante la red de telefonía ex104 y la estación base ex109, que posibilita la distribución de imágenes de un espectáculo en directo y otros. En una distribución de este tipo, un contenido (por ejemplo, vídeo de un espectáculo en directo de música) capturado por el usuario que usa la cámara ex113 se codifica como se ha descrito anteriormente en cada una de las realizaciones (es decir, la cámara funciona como el aparato de codificación de imágenes de acuerdo con un aspecto de la presente invención), y el contenido codificado se transmite al servidor de flujo continuo ex103. Por otra parte, el servidor de flujo continuo ex103 lleva a cabo distribución de flujo en los datos de contenido transmitidos a los clientes tras sus solicitudes. Los clientes incluyen el ordenador ex111, el PDA ex112, la cámara ex113, el teléfono celular ex114, y la máquina de juegos ex115 que pueden descodificar los datos codificados anteriormente mencionados. Cada uno de los dispositivos que han recibido los datos distribuidos descodifican y reproducen los datos codificados (es decir, funciona como el aparato de descodificación de imágenes de acuerdo con un aspecto de la presente invención).

Los datos capturados pueden codificarse por la cámara ex113 o el servidor de flujo continuo ex103 que transmite los datos, o los procedimientos de codificación pueden compartirse entre la cámara ex113 y el servidor de flujo continuo ex103. De manera similar, los datos distribuidos pueden descodificarse por los clientes o el servidor de flujo continuo ex103, o los procedimientos de descodificaciones pueden compartirse entre los clientes y el servidor de flujo continuo ex103. Adicionalmente, los datos de las imágenes fijas y el vídeo capturado no únicamente por la cámara ex113 sino también por la cámara ex116 pueden transmitirse al servidor de flujo continuo ex103 a través del ordenador ex111. Los procedimientos de codificación pueden realizarse por la cámara ex116, el ordenador ex111, o el servidor de flujo continuo ex103, o compartirse entre ellos.

Adicionalmente, los procedimientos de codificación y descodificación pueden realizarse por un LSI ex500 generalmente incluido en cada uno del ordenador ex111 y los dispositivos. El LSI ex500 puede estar configurado de un único chip o una pluralidad de chips. El software para codificar y descodificar vídeo puede estar integrado en algún tipo de un medio de grabación (tal como un CD-ROM, un disco flexible y un disco duro) que es legible por el ordenador ex111 y otros, y los procedimientos de codificación y descodificación pueden realizarse usando el software. Adicionalmente, cuando el teléfono celular ex114 está equipado con una cámara, los datos de vídeo obtenidos por la cámara pueden transmitirse. Los datos de vídeo son datos codificados por el LSI ex500 incluido en el teléfono celular ex114.

Adicionalmente, el servidor de flujo continuo ex103 puede estar compuesto por servidores y ordenadores, y puede descentralizar los datos y procesar los datos descentralizados, registrar o distribuir los datos.

Como se ha descrito anteriormente, los clientes pueden recibir y reproducir los datos codificados en el sistema de provisión de contenido ex100. En otras palabras, los clientes pueden recibir y descodificar información transmitida por el usuario, y reproducir los datos descodificados en tiempo real en el sistema de provisión de contenido ex100, de modo que el usuario que no tiene ningún derecho y equipo particular puede implementar difusión personal.

Además del ejemplo del sistema de provisión de contenido ex100, al menos uno del aparato de codificación de instantáneas en movimiento (aparato de codificación de imágenes) y el aparato de descodificación de instantáneas en movimiento (aparato de descodificación de imágenes) descritos en cada una de las realizaciones pueden implementarse en un sistema de difusión digital ex200 ilustrado en la figura 49. Más específicamente, una estación de difusión ex201 comunica o transmite mediante ondas de radio a un satélite de difusión ex202, datos multiplexados obtenidos multiplexando datos de audio y otros en datos de vídeo. Los datos de vídeo son datos codificados por el procedimiento de codificación de instantáneas en movimiento descrito en cada una de las realizaciones (es decir, datos codificados por el aparato de codificación de imágenes de acuerdo con un aspecto de la presente invención). Tras la recepción de los datos multiplexados, el satélite de difusión ex202 transmite ondas de radio para difusión. A continuación, una antena de uso doméstico ex204 con una función de recepción de difusión por satélite recibe las ondas de radio. A continuación, un dispositivo tal como una televisión (receptor) ex300 y un descodificador de salón (STB) ex217 descodifica los datos multiplexados recibidos, y reproduce los datos descodificados (es decir, funciona como el aparato de descodificación de imágenes de acuerdo con un aspecto de la presente invención).

Adicionalmente, un lector/grabador ex218 (i) lee y descodifica los datos multiplexados grabados en un medio de grabación ex215, tal como un DVD y un BD, o (i) codifica señales de vídeo en el medio de grabación ex215, y en algunos casos, escribe datos obtenidos multiplexando una señal de audio en los datos codificados. El lector/grabador ex218 puede incluir el aparato de descodificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento como se muestra en cada una de las realizaciones. En este caso, las señales de vídeo reproducidas se visualizan en el monitor ex219, y pueden reproducirse por otro dispositivo o sistema usando el medio de grabación ex215 en el que se graban los datos multiplexados. Es también posible implementar el aparato de descodificación de instantáneas en movimiento en el descodificador de salón ex217 conectado al cable ex203 para una televisión por cable o a la antena ex204 para difusión por satélite y/o terrestre, para visualizar las señales de vídeo en el monitor ex219 de la televisión ex300. El aparato de descodificación de instantáneas en movimiento puede implementarse no en el descodificador de salón sino en la televisión ex300.

La figura 50 ilustra la televisión (receptor) ex300 que usa el procedimiento de codificación de instantáneas en movimiento y el procedimiento de descodificación de instantáneas en movimiento descritos en cada una de las realizaciones. La televisión ex300 incluye: un sintonizador ex301 que obtiene o proporciona datos multiplexados obtenidos multiplexando datos de audio en datos de vídeo, a través de la antena ex204 o el cable ex203, etc., que recibe una difusión; una unidad de modulación/desmodulación ex302 que desmodula los datos multiplexados recibidos o modula datos en datos multiplexados a suministrarse al exterior; y una unidad de multiplexación/desmultiplexación ex303 que desmultiplexa los datos multiplexados modulados en datos de vídeo y datos de audio, o multiplexa datos de vídeo y datos de audio codificados por una unidad de procesamiento de señal en datos ex306.

La televisión ex300 incluye adicionalmente: una unidad de procesamiento de señales ex306 que incluye una unidad de procesamiento de señales de audio ex304 y una unidad de procesamiento de señales de vídeo ex305 que descodifican datos de audio y datos de vídeo y codifican datos de audio y datos de vídeo, respectivamente (que funcionan como el aparato de codificación de imágenes y el aparato de descodificación de imágenes de acuerdo con los aspectos de la presente invención); y una unidad de salida ex309 que incluye un altavoz ex307 que proporciona la señal de audio descodificada, y una unidad de visualización ex308 que visualiza la señal de vídeo descodificada, tal como una pantalla. Adicionalmente, la televisión ex300 incluye una unidad de interfaz ex317 que incluye una unidad de entrada de operación ex312 que recibe una entrada de una operación de usuario. Adicionalmente, la televisión ex300 incluye una unidad de control ex310 que controla de manera global cada elemento constituyente de la televisión ex300, y una unidad de circuito de fuente de alimentación ex311 que suministra potencia a cada uno de los elementos. Aparte de la unidad de entrada de operación ex312, la unidad de interfaz ex317 puede incluir: un puente ex313 que está conectado a un dispositivo externo, tal como el lector/grabador ex218; una unidad de ranura ex314 para posibilitar la conexión del medio de grabación ex216, tal como una tarjeta de SD; un controlador ex315 para conectarse a un medio de grabación externo, tal como un disco duro; y un módem ex316 para conectarse a una red de telefonía. En este punto, el medio de grabación ex216 puede grabar eléctricamente información usando un elemento de memoria de semiconductores no volátil/volátil para almacenamiento. Los elementos constituyentes de la televisión ex300 están conectados entre sí a través de un bus síncrono.

En primer lugar, se describirá la configuración en la que la televisión ex300 descodifica datos multiplexados obtenidos desde el exterior a través de la antena ex204 y otros y reproduce los datos descodificados. En la televisión ex300, después de la operación de un usuario a través de un controlador remoto ex220 y otros, la unidad de multiplexación/desmultiplexación ex303 desmultiplexa los datos multiplexados desmodulados por la unidad de modulación/desmodulación ex302, bajo el control de la unidad de control ex310 que incluye una CPU. Adicionalmente, la unida ex304 de procesamiento de señal de audio descodifica los datos de audio desmultiplexados, y la unidad de procesamiento de señal de vídeo ex305 descodifica los datos de vídeo desmultiplexados, usando el procedimiento de descodificación descrito en cada una de las realizaciones, en la televisión ex300. La unidad de salida ex309 proporciona la señal de vídeo descodificada y la señal de audio al exterior, respectivamente. Cuando la unidad de salida ex309 proporciona la señal de vídeo y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex318 y ex319, y otros de modo que las señales se reproducen en sincronización entre sí. Adicionalmente, la televisión ex300 puede leer datos multiplexados no a través de una difusión y otros sino desde el medio de grabación ex215 y ex216, tal como un disco magnético, un disco óptico, y una tarjeta de SD. A continuación, se describirá una configuración en la que la televisión ex300 codifica una señal de audio y una señal de vídeo, y transmite los datos al exterior o escribe los datos en un medio de grabación. En la televisión ex300, después de una operación de usuario a través del controlador remoto ex220 y otros, la unidad de procesamiento de señal de audio ex304 codifica una señal de audio, y la unidad de procesamiento de señal de vídeo ex305 codifica una señal de vídeo, bajo el control de la unidad de control ex310 usando el procedimiento de codificación descrito en cada una de las realizaciones. La unidad de multiplexación/desmultiplexación ex303 multiplexa la señal de vídeo y la señal de audio codificadas, y proporciona la señal resultante al exterior. Cuando la unidad de multiplexación/desmultiplexación ex303 multiplexa la señal de vídeo y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex320 y ex321, y otros de modo que las señales se reproducen en sincronización entre sí. En este punto, las memorias intermedias ex318, ex319, ex320 y ex321 pueden ser varias como se ilustra, o al menos una memoria intermedia puede compartirse en la televisión ex300. Adicionalmente, se pueden almacenar datos en una memoria intermedia de modo que puede evitarse el desbordamiento y subdesbordamiento del sistema entre la unidad de modulación/desmodulación ex302 y la unidad de multiplexación/desmultiplexación ex303, por ejemplo.

Adicionalmente, la televisión ex300 puede incluir una configuración para recibir una entrada de AV desde un micrófono o una cámara distinta de la configuración para obtener datos de audio y de vídeo desde una difusión o de un medio de grabación, y puede codificar los datos obtenidos. Aunque la televisión ex300 puede codificar, multiplexar y proporcionar datos al exterior en la descripción, puede únicamente recibir, descodificar y proporcionar datos al exterior pero no codificar, multiplexar y proporcionar datos al exterior.

Adicionalmente, cuando el lector/grabador ex218 lee o escribe datos multiplexados desde o en un medio de grabación, una de la televisión ex300 y el lector/grabador ex218 pueden descodificar o codificar los datos multiplexados, y la televisión ex300 y el lector/grabador ex218 puede compartir la descodificación o codificación.

Como un ejemplo, la figura 51 ilustra una configuración de una unidad de reproducción/grabación de información ex400 cuando se leen o escriben datos desde o en un disco óptico. La unidad de reproducción/grabación de información ex400 incluye los elementos constituyentes ex401, ex402, ex403, ex404, ex405, ex406 y ex407 que se describen en lo sucesivo. El cabezal óptico ex401 irradia un punto láser en una superficie de grabación del medio de grabación ex215 que es un disco óptico para escribir información, y detecta luz reflejada desde la superficie de grabación del medio de grabación ex215 para leer la información. La unidad de grabación de modulación ex402 acciona eléctricamente un láser de semiconductores incluido en el cabezal óptico ex401, y modula la luz de láser de acuerdo con datos grabados. La unidad de desmodulación de reproducción ex403 amplifica una señal de reproducción obtenida detectando eléctricamente la luz reflejada desde la superficie de grabación usando un fotodetector incluido en el cabezal óptico ex401, y desmodula la señal de reproducción separando un componente de señal grabado en el medio de grabación ex215 para reproducir la información necesaria. La memoria intermedia ex404 mantiene temporalmente la información a grabarse en el medio de grabación ex215 y la información reproducida desde el medio de grabación ex215. El motor de disco ex405 gira el medio de grabación ex215. La unidad de servocontrol ex406 mueve el cabezal óptico ex401 a una pista de información predeterminada mientras controla el mecanismo de rotación del motor de disco ex405 para seguir el punto láser. La unidad de control de sistema ex407 controla la totalidad de la unidad de reproducción/grabación de información ex400. Los procedimientos de lectura y escritura pueden implementarse por la unidad de control de sistema ex407 usando diversa información almacenada en la memoria intermedia ex404 y generando y añadiendo nueva información según sea necesaria, y por la unidad de grabación de modulación ex402, la unidad de desmodulación de reproducción ex403, y la unidad de servocontrol ex406 que graban y reproducen información a través del cabezal óptico ex401 mientras se operan de una manera coordinada. La unidad de control de sistema ex407 incluye, por ejemplo, un microprocesador y ejecuta procesamiento provocando que un ordenador ejecute un programa para lectura y escritura.

Aunque el cabezal óptico ex401 irradia un punto láser en la descripción, puede realizar grabación de alta densidad usando luz de campo cercano.

La figura 52 ilustra el medio de grabación ex215 que es el disco óptico. En la superficie de grabación del medio de grabación ex215, se forman de manera espiral surcos de guía, y una pista de información ex230 graba, con antelación, información de dirección que indica una posición absoluta en el disco de acuerdo con el cambio en una forma de las ranuras de guía. La información de dirección incluye información para determinar posiciones de bloques de grabación ex231 que son una unidad para grabar datos. Reproducir la pista de información ex230 y leer la información de dirección en un aparato que graba y reproduce datos puede conducir a la determinación de las posiciones de los bloques de grabación. Adicionalmente, el medio de grabación ex215 incluye un área de grabación de datos ex233, un área de circunferencia interna ex232, y un área de circunferencia externa ex234. El área de grabación de datos ex233 es un área para su uso al grabar los datos de usuario. El área de circunferencia interna ex232 y el área de circunferencia externa ex234 que están en el interior y el exterior del área de grabación de datos ex233, respectivamente son para uso específico excepto para la grabación de los datos de usuario. La unidad de reproducción/grabación de información 400 lee y escribe datos de audio codificado, datos de vídeo codificado, o datos multiplexados obtenidos multiplexando los datos de audio y vídeo codificados, desde y en el área de grabación de datos ex233 del medio de grabación ex215.

Aunque se describe un disco óptico que tiene una capa, tal como un DVD y un BD como un ejemplo en la descripción, el disco óptico no se limita a esto, y puede ser un disco óptico que tiene una estructura de múltiples capas y que puede grabarse en una parte distinta de la superficie. Adicionalmente, el disco óptico puede tener una estructura para grabación/reproducción multidimensional, tal como grabación de información usando luz de colores con diferentes longitudes de onda en la misma porción del disco óptico y para grabar información que tiene diferentes capas desde diferentes ángulos.

Adicionalmente, un coche ex210 que tiene una antena ex205 puede recibir datos desde el satélite ex202 y otros, y reproducir vídeo en un dispositivo de visualización tal como un sistema de navegación de coche ex211 establecido en el coche ex210, en el sistema de difusión digital ex200. En este punto, una configuración del sistema de navegación de coche ex211 será una configuración, por ejemplo, que incluye una unidad de recepción de GPS a partir de la configuración ilustrada en la figura 50. Lo mismo se cumplirá para la configuración del ordenador ex111, el teléfono celular ex114, y otros.

La figura 53A ilustra el teléfono celular ex114 que usa el procedimiento de codificación de instantáneas en movimiento y el procedimiento de descodificación de instantáneas en movimiento descritos en las realizaciones. El teléfono celular ex114 incluye: una antena ex350 para transmitir y recibir ondas de radio a través de la estación base ex110; una unidad de cámara ex365 capaz de capturar imágenes en movimiento y fijas; y una unidad de visualización ex358 tal como un visualizador de cristal líquido para visualizar datos tales como vídeo descodificado capturado por la unidad de cámara ex365 o recibido por la antena ex350. El teléfono celular ex114 incluye adicionalmente: una unidad de cuerpo principal que incluye una unidad de teclas de operación ex366; una unidad de salida de audio ex357 tal como un altavoz para la salida de audio; una unidad de entrada de audio ex356 tal como un micrófono para la entrada de audio; una unidad de memoria ex367 para almacenar vídeo capturado o instantáneas fijas, audio grabado, datos codificados o des codificados del vídeo recibido, las instantáneas fijas, correos electrónicos, u otros; y una unidad de ranura ex364 que es una unidad de interfaz para un medio de grabación que almacena datos de la misma forma que la unidad de memoria ex367.

A continuación, un ejemplo de una configuración del teléfono celular ex114 se describirá con referencia a la figura 53B. En el teléfono celular ex114, una unidad de control principal ex360 diseñada para controlar en conjunto cada unidad del cuerpo principal que incluye la unidad de visualización ex358 así como la unidad de teclas de operación ex366 se conecta mutuamente, por medio de un bus síncrono ex370, a una unidad de circuito de fuente de alimentación ex361, una unidad de control de entrada de operación ex362, una unidad de procesamiento de señales de vídeo ex355, una unidad de interfaz de cámara ex363, una unidad de control de visualizador de cristal líquido (LCD) ex359, una unidad de modulación/desmodulación ex352, una unidad de multiplexación/desmultiplexación ex353, una unidad de procesamiento de señales de audio ex354, la unidad de ranura ex364 y la unidad de memoria ex367.

Cuando una tecla de fin de llamada o una tecla de alimentación es activada por una operación de un usuario, la unidad de circuito de fuente de alimentación ex361 abastece a las unidades respectivas con alimentación procedente de un paquete de batería con el fin de activar el teléfono celular ex114.

En el teléfono celular ex114, la unidad de procesamiento de señales de audio ex354 convierte las señales de audio recogidas por la unidad de entrada de audio ex356 en modo de conversación por voz en señales de audio digital bajo el control de la unidad de control principal ex360 que incluye una CPU, ROM y RAM. Entonces, la unidad de modulación/desmodulación ex352 realiza un procesamiento de espectro ensanchado sobre las señales de audio digital, y la unidad de transmisión y de recepción ex351 realiza una conversión de analógico a digital y una conversión en frecuencia sobre los datos, con el fin de transmitir los datos resultantes por medio de la antena ex350. Asimismo, en el teléfono celular ex114, la unidad de transmisión y de recepción ex351 amplifica los datos recibidos por la antena ex350 en modo de conversación por voz y realiza la conversión en frecuencia y la conversión de digital a analógico sobre los datos. Entonces, la unidad de modulación/desmodulación ex352 realiza un procesamiento de espectro ensanchado inverso sobre los datos, y la unidad de procesamiento de señales de audio ex354 los convierte en señales de audio analógico, con el fin de emitir las mismas por medio de la unidad de salida de audio ex357.

Además, cuando se transmite un correo electrónico en modo de comunicación de datos, datos de texto del correo electrónico introducido al operar la unidad de teclas de operación ex366 y otros del cuerpo principal se envían fuera a la unidad de control principal ex360 por medio de la unidad de control de entrada de operación ex362. La unidad de control principal ex360 da lugar a que la unidad de modulación/desmodulación ex352 realice un procesamiento de espectro ensanchado sobre los datos de texto, y la unidad de transmisión y de recepción ex351 realiza la conversión de analógico a digital y la conversión en frecuencia sobre los datos resultantes para transmitir los datos a la estación base ex110 por medio de la antena ex350. Cuando se recibe un correo electrónico, un procesamiento que es aproximadamente inverso al procesamiento para transmitir un correo electrónico se realiza sobre los datos recibidos, y los datos resultantes se proporcionan a la unidad de visualización ex358.

Cuando se transmite o transmiten vídeo, imágenes fijas o vídeo y audio en modo de comunicación de datos, la unidad de procesamiento de señales de vídeo ex355 comprime y codifica señales de vídeo suministradas desde la unidad de cámara ex365 usando el procedimiento de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones (es decir, funciona como el aparato de codificación de imágenes de acuerdo con el aspecto de la presente invención), y transmite los datos de vídeo codificados a la unidad de multiplexación/desmultiplexación ex353. En contraposición, durante cuando la unidad de cámara ex365 captura vídeo, imágenes fijas, y otros, la unidad de procesamiento de señales de audio ex354 codifica las señales de audio recogidas por la unidad de entrada de audio ex356, y transmite los datos de audio codificados a la unidad de multiplexación/desmultiplexación ex353.

La unidad de multiplexación/desmultiplexación ex353 multiplexa los datos de vídeo codificados suministrados desde la unidad de procesamiento de señales de vídeo ex355 y los datos de audio codificados suministrados desde la unidad de procesamiento de señales de audio ex354, usando un procedimiento predeterminado. Entonces, la unidad de modulación/desmodulación (unidad de circuito de modulación/desmodulación) ex352 realiza un procesamiento de espectro ensanchado sobre los datos multiplexados, y la unidad de transmisión y de recepción ex351 realiza una conversión de analógico a digital y una conversión en frecuencia sobre los datos con el fin de transmitir los datos resultantes por medio de la antena ex350.

Cuando se reciben datos de un archivo de vídeo que está vinculado a una página Web y otros en modo de comunicación de datos o cuando se recibe un correo electrónico con vídeo y/o audio adjunto, con el fin de descodificar los datos multiplexados recibidos por medio de la antena ex350, la unidad de multiplexación/desmultiplexación ex353 desmultiplexa los datos multiplexados en un flujo de bits de datos de vídeo y un flujo de bits de datos de audio, y abastece a la unidad de procesamiento de señales de vídeo ex355 con los datos de vídeo codificados y la unidad de procesamiento de señales de audio ex354 con los datos de audio codificados, a través del bus síncrono ex370. La unidad de procesamiento de señales de vídeo ex355 descodifica la señal de vídeo usando un procedimiento de descodificación de instantáneas en movimiento que se corresponde con el procedimiento de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones (es decir, funciona como el aparato de descodificación de imágenes de acuerdo con el aspecto de la presente invención) y, entonces, la unidad de visualización ex358 visualiza, por ejemplo, el vídeo y las imágenes fijas incluidos en el archivo de vídeo vinculado a la página Web por medio de la unidad de control de LCD ex359. Además, la unidad de procesamiento de señales de audio ex354 descodifica la señal de audio, y la unidad de salida de audio ex357 proporciona el audio.

Adicionalmente, de manera similar a la televisión ex300, es posible que un terminal tal como el teléfono celular ex114 tenga 3 tipos de configuraciones de implementación que incluyen no únicamente (i) un terminal de transmisión y recepción que incluye tanto un aparato de codificación como un aparato de descodificación, sino también (ii) un terminal de transmisión que incluye únicamente un aparato de codificación y (iii) un terminal de recepción que incluye únicamente un aparato de descodificación. Aunque el sistema de difusión digital ex200 recibe y transmite los datos multiplexados obtenidos multiplexando datos de audio en datos de vídeo en la descripción, los datos multiplexados pueden ser datos obtenidos multiplexando no datos de audio sino datos de caracteres relacionados con vídeo en datos de vídeo, y pueden no ser datos multiplexados sino los mismos datos de vídeo.

En este sentido, el procedimiento de codificación de instantáneas en movimiento y el procedimiento de descodificación de instantáneas en movimiento en cada una de las realizaciones se pueden usar en cualquiera de los dispositivos y sistemas descritos. Por lo tanto, se pueden obtener las ventajas descritas en cada una de las realizaciones.

Además, la presente invención no se limita a las realizaciones, y son posibles diversas modificaciones y revisiones sin apartarse del ámbito de la presente invención.

[Realización 10]

Los datos de vídeo se pueden generar conmutando, según sea necesario, entre (i) el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento mostrados en cada una de realizaciones y (ii) un procedimiento de codificación de instantáneas en movimiento o un aparato de codificación de instantáneas en movimiento cumpliendo con una norma diferente, tal como MPEG-2, AVC de MPEG-4 y VC-1.

En este punto, cuando se genera una pluralidad de datos de vídeo que cumple con las diferentes normas y se descodifican a continuación, necesitan seleccionarse los procedimientos de descodificación para cumplir con las diferentes normas. Sin embargo, puesto que no puede detectarse con qué norma cumple cada uno de la pluralidad de datos de vídeo a descodificarse, existe un problema de que no puede seleccionarse un procedimiento de descodificación apropiado.

Para resolver el problema, los datos multiplexados obtenidos multiplexando datos de audio y otros en datos de vídeo tienen una estructura que incluye información de identificación que indica con qué norma cumplen los datos de vídeo. La estructura específica de los datos multiplexados que incluye los datos de vídeo generados en el procedimiento de codificación de instantáneas en movimiento y por el aparato de codificación de instantáneas en movimiento mostrados en cada una de las realizaciones se describirán en lo sucesivo. Los datos multiplexados son un flujo digital en el formato de Flujo de Transporte de MPEG-2.

La figura 54 ilustra una estructura de los datos multiplexados. Como se ilustra en la figura 54, los datos multiplexados se pueden obtener multiplexando al menos uno de un flujo de vídeo, un flujo de audio, un flujo de gráficos de presentación (PG), y un flujo de gráficos interactivo. El flujo de vídeo representa vídeo primario y vídeo secundario de una película, el flujo de audio (IG) representa una parte de audio primario y una parte de audio secundario a mezclarse con la parte de audio primario, y el flujo de gráficos de presentación representa subtítulos de la película. En este punto, el vídeo primario es vídeo normal a visualizarse en una pantalla, y el vídeo secundario es vídeo a visualizarse en una ventana más pequeña en el vídeo primario. Adicionalmente, el flujo de gráficos interactivo representa una pantalla interactiva a generarse disponiendo los componentes de la GUI en una pantalla. El flujo de vídeo se codifica en el procedimiento de codificación de instantáneas en movimiento o por el aparato de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones, o en un procedimiento de codificación de instantáneas en movimiento o por un aparato de codificación de instantáneas en movimiento cumpliendo con una norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1. El flujo de audio se codifica de acuerdo con una norma, tal como Dolby-AC-3, Dolby Digital Plus, MLP, DTS, DTS-HD, y PCM lineal.

Cada flujo incluido en los datos multiplexados se identifica por PID. Por ejemplo, se asigna 0x1011 al flujo de vídeo a usar para vídeo de una película, se asigna 0x1100 a 0x111 a los flujos de audio, se asigna 0x1200 a 0x121 F al flujo de gráficos de presentación, se asigna 0x1400 a 0x141F al flujo de gráficos interactivos, se asigna 0x1B00 a 0x1B1F a los flujos de vídeo a usar para vídeo secundario de la película, y se asigna 0x1A00 a 0x1A1F a los flujos de audio a usar para el audio secundario a mezclarse con el audio principal.

La figura 55 ilustra esquemáticamente cómo se multiplexan datos. En primer lugar, un flujo ex235 de vídeo compuesto por tramas de vídeo y un flujo ex238 de audio compuesto por tramas de audio se transforman en un flujo ex236 de paquetes de PES y un flujo ex239 de paquetes de PES, y adicionalmente en paquetes ex237 de TS y paquetes ex240 de TS, respectivamente. De manera similar, los datos de un flujo ex241 de gráficos de presentación y los datos de un flujo ex244 de gráficos interactivo se transforman en un flujo ex242 de paquetes de PES y un flujo ex245 de paquetes de PES, y adicionalmente en paquetes ex243 de TS y paquetes ex246 de TS, respectivamente. Estos paquetes de TS se multiplexan en un flujo para obtener datos multiplexados ex247.

La figura 56 ilustra cómo se almacena un flujo de vídeo en un flujo de paquetes de PES en más detalle. La primera barra en la figura 56 muestra un flujo de tramas de vídeo en un flujo de vídeo. La segunda barra muestra el flujo de paquetes de PES. Como se indica por las flechas indicadas como yy1, yy2, yy3 y yy4 en la figura 56, el flujo de vídeo se divide en instantáneas como instantáneas I, instantáneas B e instantáneas P cada una de las cuales es una unidad de presentación de vídeo, las instantáneas se almacenan en una cabida útil de cada uno de los paquetes de PES. Cada uno de los paquetes de PES tiene un encabezamiento de PES, y el encabezamiento de PES almacena una Indicación de Tiempo de Presentación (PTS) que indica un tiempo de visualización de la instantánea, y una Indicación de Tiempo de descodificación (DTS) que indica un tiempo de descodificación de la instantánea.

La figura 57 ilustra un formato de paquetes de TS a escribir finalmente en los datos multiplexados. Cada uno de los paquetes de TS es un paquete de longitud fija de 188 bytes que incluye un encabezamiento de TS de 4 bytes que tiene información, tal como un PID para identificar un flujo y una cabida útil de TS de 184 bytes para almacenar datos. Los paquetes de PES se dividen y se almacenan en las cabidas útiles de TS, respectivamente. Cuando se usa un BD ROM, a cada uno de los paquetes de TS se le proporciona un TP_Encabezamiento_Adicional de 4 bytes, dando como resultado por lo tanto paquetes de origen de 192 bytes. Los paquetes de origen se escriben en los datos multiplexados. El TP_Encabezamiento_Adicional almacena información tal como una Indicación_Tiempo_Llegada (ATS). La ATS muestra un tiempo de inicio de transferencia en el que se ha de transferir cada uno de los paquetes de TS a un filtro de PID. Los paquetes de origen se disponen en los datos multiplexados como se muestra en la parte inferior de la figura 57. Los números que incrementan desde la cabecera de los datos multiplexados se denominan números de paquete de origen (SPN).

Además, cada uno de los paquetes de TS incluidos en los datos multiplexados incluye no únicamente flujos de audio, vídeo, subtítulos y otros, sino también una Tabla de Asociación de Programa (PAT), una Tabla de Mapa de Programa (PMT), y una Referencia de Reloj de Programa (PCR). La PAT muestra qué indica un PID en una p Mt usada en los datos multiplexados, y una PID de la misma PAT se registra como cero. La PMT almacena los PID de los flujos de vídeo, audio, subtítulos y otros incluidos en los datos multiplexados, y la información de atributo de los flujos que corresponden a los PID. La PMT también tiene diversos descriptores relacionados con los datos multiplexados. Los descriptores tienen información tal como información de control de copia que muestra si se permite o no el copiado de los datos multiplexados. La PCR almacena información de tiempo de STC que corresponde a una ATS que muestra cuándo se transfiere el paquete de PCR a un descodificador, para conseguir sincronización entre un Reloj de Tiempo de Llegada (ATC) que es el eje de tiempo de las ATS, y un Reloj de Tiempo de Sistema (STC) que es un eje de tiempo de las PTS y DTS.

La figura 58 ilustra la estructura de datos de la PMT en detalle. Un encabezamiento de PMT está dispuesto en la parte superior de la PMT. El encabezamiento de la PMT describe la longitud de datos incluidos en la PMT y otros. Una pluralidad de descriptores relacionados con los datos multiplexados están dispuestos después del encabezamiento de PMT. La información tal como la información de control de copia se describe en los descriptores. Después de los descriptores, está dispuesta una pluralidad de fragmentos de la información de flujo relacionadas con los flujos incluidos en los datos multiplexados. Cada fragmento de la información de flujo incluye descriptores de flujo que cada uno describe información, tal como un tipo de flujo para identificar un códec de compresión de un flujo, un PID de flujo, e información de atributo de flujo (tal como una velocidad de tramas o una relación de aspecto). Los descriptores de flujo son iguales en número al número de flujos en los datos multiplexados.

Cuando los datos multiplexados se graban en un medio de grabación y otros, se registran juntos con ficheros de información de datos multiplexados.

Cada uno de los ficheros de información de datos multiplexados es información de gestión de los datos multiplexados como se muestra en la figura 59. Los ficheros de información de datos multiplexados están en una correspondencia uno a uno con los datos multiplexados, y cada uno de los ficheros incluye información de datos multiplexados, información de atributo de flujo y un mapa de entrada.

Como se ilustra en la figura 59, la información de datos multiplexados incluye una velocidad de sistema, un tiempo de inicio de reproducción y un tiempo de fin de reproducción. La velocidad de sistema indica la velocidad de trasferencia máxima a la que un descodificador objetivo de sistema que se va a describir más adelante transfiere los datos multiplexados a un filtro de PID. Los intervalos de las ATS incluidas en los datos multiplexados se establecen para que no sean superiores a una velocidad de sistema. El tiempo de inicio de reproducción indica una PTS en una trama de vídeo en la cabecera de los datos multiplexados. Un intervalo de una trama se añade a una PTS en una trama de vídeo al final de los datos multiplexados, y la PTS se establece al tiempo de fin de reproducción.

Como se muestra en la figura 60, se registra un fragmento de información de atributo en la información de atributo de flujo, para cada PID de cada flujo incluido en los datos multiplexados. Cada fragmento de información de atributo tiene diferente información dependiendo de si el correspondiente flujo es un flujo de vídeo, un flujo de audio, un flujo de gráficos de presentación, o un flujo de gráficos interactivo. Cada fragmento de información de atributo de flujo de vídeo lleva información que incluye qué tipo de códec de compresión se usa para comprimir el flujo de vídeo, y la resolución, relación de aspecto y velocidad de tramas de los fragmentos de datos de instantánea que se incluyen en el flujo de vídeo. Cada fragmento de información de atributo de flujo de audio lleva información que incluye qué clase de códec de compresión se usa para comprimir el flujo de audio, cuántos canales están incluidos en el flujo de audio, qué idioma soporta el flujo de audio, y cómo de alta es la frecuencia de muestreo. La información de atributo de flujo de vídeo y la información de atributo de flujo de audio se usan para inicialización de un descodificador antes de que el reproductor reproduzca la información.

En la presente realización, los datos multiplexados a usar son de un tipo de flujo incluido en la PMT. Adicionalmente, cuando los datos multiplexados se graban en un medio de grabación, se usa la información de atributo de flujo de vídeo incluida en la información de datos multiplexados. Más específicamente, el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones incluyen una etapa o una unidad para asignar información única que indica datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones, al tipo de flujo incluido en la PMT o la información de atributo de flujo de vídeo. Con la configuración, los datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones pueden distinguirse de los datos de vídeo que se ajustan a otra norma.

Adicionalmente, la figura 61 ilustra las etapas del procedimiento de descodificación de instantáneas en movimiento de acuerdo con la presente realización. En la etapa exS100, el tipo de flujo incluido en la PMT o la información de atributo de flujo de vídeo incluido en la información de datos multiplexados se obtiene desde los datos multiplexados. A continuación, en la etapa exS101, se determina si el tipo de flujo o la información de atributo de flujo de vídeo indica o no que los datos multiplexados se generan por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones. Cuando se determina que el tipo de flujo o la información de atributo de flujo de vídeo indica que los datos multiplexados se generan por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones, en la etapa exS102, se realiza descodificación por el procedimiento de descodificación de instantáneas en movimiento en cada una de las realizaciones. Adicionalmente, cuando el tipo de flujo o la información de atributo de flujo de vídeo indica el cumplimiento de las normas convencionales, tales como MPEG-2, AVC de MPEG-4 y VC-1, en la etapa exS103, se realiza descodificación por un procedimiento de descodificación de instantáneas en movimiento cumpliendo con las normas convencionales.

En este sentido, asignar un nuevo valor único al tipo de flujo o la información de atributo de flujo de vídeo posibilita la determinación de si el procedimiento de descodificación de instantáneas en movimiento o el aparato de descodificación de instantáneas en movimiento que se describen en cada una de las realizaciones puede realizar o no la descodificación. Incluso cuando se introducen datos multiplexados que se ajustan a una norma diferente, puede seleccionarse un procedimiento o aparato de descodificación apropiado. Por lo tanto, se hace posible descodificar información sin error alguno. Adicionalmente, el procedimiento o aparato de codificación de instantáneas en movimiento, o el procedimiento o aparato de descodificación de instantáneas en movimiento en la presente realización se puede usar en los dispositivos y sistemas anteriormente descritos.

[Realización 11]

Cada uno del procedimiento de codificación de instantáneas en movimiento, el aparato de codificación de instantáneas en movimiento, el procedimiento de descodificación de instantáneas en movimiento, y el aparato de descodificación de instantáneas en movimiento en cada una de las realizaciones se consigue típicamente en forma de un circuito integrado o un circuito Integrado a Gran Escala (LSI). Como un ejemplo del LSI, la figura 62 ilustra una configuración del LSI ex500 que se hace en un chip. El LSI ex500 incluye los elementos ex501, ex502, ex503, ex504, ex505, ex506, ex507, ex508, y ex509 que se van a describir a continuación, y los elementos están conectados entre sí a través de un bus ex510. La unidad de circuito de fuente de alimentación ex505 se activa suministrando a cada uno de los elementos con potencia cuando se activa la unidad de circuito de fuente de alimentación ex505.

Por ejemplo, cuando se realiza codificación, el LSI ex500 recibe una señal de AV desde un micrófono ex117, una cámara ex113, y otros a través de una ES de AV ex509 bajo el control de una unidad de control ex501 que incluye una CPU ex502, un controlador de memoria ex503, un controlador de flujo ex504, y una unidad de control de frecuencia de accionamiento ex512. La señal de AV recibida se almacena temporalmente en una memoria externa ex511, tal como una SDRAM. Bajo el control de la unidad de control ex501, los datos almacenados se segmentan en porciones de datos de acuerdo con la cantidad de procesamiento y velocidad a transmitir a una unidad de procesamiento de señal ex507. A continuación, la unidad de procesamiento de señal ex507 codifica una señal de audio y/o una señal de vídeo. En este punto, la codificación de la señal de vídeo es la codificación descrita en cada una de las realizaciones. Adicionalmente, la unidad de procesamiento de señal ex507en ocasiones multiplexa los datos de audio codificados y los datos de vídeo codificados, y una ES de flujo ex506 proporciona los datos multiplexados al exterior. Los datos multiplexados proporcionados se transmiten a la estación base ex107, o se escriben en el medio de grabación ex215. Cuando se multiplexan conjuntos de datos, los datos deberían almacenarse temporalmente en la memoria intermedia ex508 de modo que los conjuntos de datos se sincronizan entre sí.

Aunque la memoria ex511 es un elemento fuera del LSI ex500, puede incluirse en el LSI ex500. La memoria intermedia ex508 no se limita a una memoria intermedia, sino que puede estar compuesta por memorias intermedias. Adicionalmente, el LSI ex500 puede estar fabricado en un chip o una pluralidad de chips.

Adicionalmente, aunque la unidad de control ex501 incluye la CPU ex502, el controlador de memoria ex503, el controlador de flujo ex504, la unidad de control de frecuencia de accionamiento ex512, la configuración de la unidad de control ex501 no se limita a esto. Por ejemplo, la unidad de procesamiento de señal ex507 puede incluir adicionalmente una CPU. La inclusión de otra CPU en la unidad de procesamiento de señal ex507 puede mejorar la velocidad de procesamiento. Adicionalmente, como otro ejemplo, la CPU ex502 puede servir como o ser una parte de la unidad de procesamiento de señal ex507, y, por ejemplo, puede incluir una unidad de procesamiento de señal de audio. En un caso de este tipo, la unidad de control ex501 incluye la unidad de procesamiento de señal ex507 o la CPU ex502 que incluye una parte de la unidad de procesamiento de señal ex507.

El nombre usado en el presente documento es LSI, pero puede denominarse también CI, sistema LSI, súper LSI o ultra LSI dependiendo del grado de integración.

Además, las maneras para conseguir la integración no se limitan al LSI, y un circuito especial o un procesador de propósito general y así sucesivamente pueden conseguir también la integración. Una Disposición de Puertas Programables en Campo (FPGA) que puede programarse después de la fabricación de LSI o un procesador reconfigurable que permite la re-configuración de la conexión o configuración de un LSI se puede usar para el mismo fin. Un dispositivo lógico programable de este tipo puede ejecutar el procedimiento de codificación de imágenes o el procedimiento de descodificación de imágenes descritos en cada una de las realizaciones, habitualmente al cargar o leer de una memoria, etc., un programa que incluye software o firmware.

Además, si apareciera una tecnología de integración de circuitos que sustituyera a LSI con el progreso de la tecnología de semiconductores u otras técnicas derivadas de la misma, se puede llevar a cabo la integración de los bloques funcionales usando tal tecnología. Una posibilidad es la aplicación de biotecnología, y así sucesivamente.

[Realización 12]

Cuando se descodifican datos de vídeo generados en el procedimiento de codificación de instantáneas en movimiento o por el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la cantidad de procesamiento aumente en comparación con cuando se descodifican datos de vídeo que se ajustan a una norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1. Por lo tanto, el LSI ex500 necesita establecer una frecuencia de accionamiento más alta que la de la CPU ex502 a usar cuando se descodifican datos de vídeo cumpliendo con la norma convencional. Sin embargo, cuando la frecuencia de accionamiento se establece más alta, existe un problema de que el consumo de potencia aumenta.

Para resolver el problema, el aparato de descodificación de instantáneas en movimiento, tal como la televisión ex300 y el LSI ex500 están configurados para determinar a qué norma se ajustan los datos de vídeo, y conmutar entre las frecuencias de accionamiento de acuerdo con la norma determinada. La figura 63 ilustra una configuración ex800 en la presente realización. Una unidad de conmutación de frecuencia de accionamiento ex803 establece una frecuencia de accionamiento a una frecuencia de accionamiento superior cuando se generan datos de vídeo por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones. A continuación, la unidad de conmutación de frecuencia de accionamiento ex803 ordena a la unidad de procesamiento de descodificación ex801 que ejecute el procedimiento de descodificación de instantáneas en movimiento descrito en cada una de las realizaciones para descodificar los datos de vídeo. Cuando los datos de vídeo se ajustan a la norma convencional, la unidad de conmutación de frecuencia de accionamiento ex803 establece una frecuencia de accionamiento a una frecuencia de accionamiento inferior a la de los datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones. A continuación, la unidad de conmutación de frecuencia de accionamiento ex803 ordena a la unidad de procesamiento de descodificación ex802 que se ajusta a la norma convencional que descodifique los datos de vídeo.

Más específicamente, la unidad de conmutación de frecuencia de accionamiento ex803 incluye la CPU ex502 y la unidad de control de frecuencia de accionamiento ex512 en la figura 62. En este punto, cada una de la unidad de procesamiento de descodificación ex801 que ejecuta el procedimiento de descodificación de instantáneas en movimiento descrito en cada una de las realizaciones y la unidad de procesamiento de descodificación ex802 que se ajusta a la norma convencional corresponden a la unidad de procesamiento de señal ex507en la figura 62. La CPU ex502 determina a qué norma se ajustan los datos de vídeo. A continuación, la unidad de control de frecuencia de accionamiento ex512 determina una frecuencia de accionamiento basándose en una señal desde la CPU ex502. Adicionalmente, la unidad de procesamiento de señal ex507 descodifica los datos de vídeo basándose en la señal desde la CPU ex502. Por ejemplo, es posible que la información de identificación descrita en la realización 10 se use para identificar los datos de vídeo. La información de identificación no se limita a la descrita en la realización 10 sino que puede ser cualquier información siempre que la información indique a qué norma se ajustan los datos de vídeo. Por ejemplo, cuando a qué norma se ajustan los datos de vídeo puede determinarse basándose en una señal externa para determinar que los datos de vídeo se usan para una televisión o un disco, etc., la determinación puede realizarse basándose en una señal externa de este tipo. Adicionalmente, la CPU ex502 selecciona una frecuencia de accionamiento basándose en, por ejemplo, una tabla de correspondencia en la que las normas de los datos de vídeo están asociadas con las frecuencias de accionamiento como se muestra en la figura 65. La frecuencia de accionamiento puede seleccionarse almacenando la tabla de consulta en la memoria intermedia ex508 y en una memoria interna de un LSI, y con referencia a la tabla de consulta por la CPU ex502.

La figura 64 ilustra etapas para ejecutar un procedimiento en la presente realización. En primer lugar, en la etapa exS200, la unidad de procesamiento de señal ex507 obtiene información de identificación desde los datos multiplexados. A continuación, en la etapa exS201, la CPU ex502 determina si los datos de vídeo se generan o no por el procedimiento de codificación y el aparato de codificación descritos en cada una de las realizaciones, basándose en la información de identificación. Cuando los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, en la etapa exS202, la CPU ex502 transmite una señal para establecer la frecuencia de accionamiento a una frecuencia de accionamiento superior a la de la unidad de control de frecuencia de accionamiento ex512. A continuación, la unidad de control de frecuencia de accionamiento ex512 establece la frecuencia de accionamiento a la frecuencia de accionamiento más alta. Por otra parte, cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, en la etapa exS203, la CPU ex502 transmite una señal para establecer la frecuencia de accionamiento a una frecuencia de accionamiento inferior a la unidad de control de frecuencia de accionamiento ex512. A continuación, la unidad de control de frecuencia de accionamiento ex512 establece la frecuencia de accionamiento a la frecuencia de accionamiento inferior que la de en el caso en el que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones.

Adicionalmente, junto con la conmutación de las frecuencias de accionamiento, el efecto de conservación de potencia puede mejorarse cambiando la tensión a aplicarse al LSI ex500 o a un aparato que incluye el LSI ex500. Por ejemplo, cuando la frecuencia de accionamiento se establece más baja, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca a una tensión inferior que en el caso en el que la frecuencia de accionamiento se establece más alta.

Adicionalmente, cuando la cantidad de procesamiento para descodificación es mayor, la frecuencia de accionamiento puede establecerse más alta, y cuando la cantidad de procesamiento para descodificación es más pequeña, la frecuencia de accionamiento puede establecerse más baja que el procedimiento para establecer la frecuencia de accionamiento. Por lo tanto, el procedimiento de ajuste no se limita a los anteriormente descritos. Por ejemplo, cuando la cantidad de procesamiento para descodificar datos de vídeo cumpliendo con AVC de MPEG-4 es mayor que la cantidad de procesamiento para descodificar datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la frecuencia de accionamiento se establezca en orden inverso al ajuste anteriormente descrito.

Adicionalmente, el procedimiento para establecer la frecuencia de accionamiento no se limita al procedimiento para establecer la frecuencia de accionamiento más baja. Por ejemplo, cuando la información de identificación indica que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca más alta. Cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca más baja. Como otro ejemplo, es posible que, cuando la información de identificación indica que los datos de vídeo son generados por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, no se suspenda el accionamiento de la CPU ex502, y cuando la información de identificación indica que los datos de vídeo cumplen con la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, se suspenda el accionamiento de la CPU ex502 en un tiempo dado debido a que la CPU ex502 tiene una capacidad de procesamiento adicional. Es posible que, incluso cuando la información de identificación indica que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, en el caso en el que la CPU ex502 tiene capacidad de procesamiento adicional, el accionamiento de la CPU ex502 se suspenda en un tiempo dado. En un caso de este tipo, es posible que el tiempo de suspensión se establezca más corto que en el caso cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1.

Por consiguiente, el efecto de conservación de potencia puede mejorarse conmutando entre las frecuencias de accionamiento de acuerdo con la norma a la que se ajustan los datos de vídeo. Adicionalmente, cuando el LSI ex500 o el aparato que incluye el LSI ex500 se accionan usando una batería, la duración de la batería puede ampliarse con el efecto de conservación de potencia.

[Realización 13]

Existen casos en los que una pluralidad de datos de vídeo que se ajustan a diferentes normas, se proporcionan a los dispositivos y sistemas, tales como una televisión y un teléfono celular. Para posibilitar la descodificación de la pluralidad de datos de vídeo que se ajustan a las diferentes normas, la unidad de procesamiento de señal ex507 del LSI ex500 necesita ajustarse a las diferentes normas. Sin embargo, los problemas de aumento en la escala del circuito del LSI ex500 y el aumento en el coste surgen con el uso individual de las unidades de procesamiento de señal ex507 que se ajustan a las normas respectivas.

Para resolver el problema, lo que se concibe es una configuración en la que la unidad de procesamiento de descodificación para implementar el procedimiento de descodificación de instantáneas en movimiento descrita en cada una de las realizaciones y la unidad de procesamiento de descodificación que se ajusta a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1 se comparten parcialmente. Ex900 en la figura 66A muestra un ejemplo de la configuración. Por ejemplo, el procedimiento de descodificación de instantáneas en movimiento descrito en cada una de las realizaciones y el procedimiento de descodificación de instantáneas en movimiento que se ajusta a AVC de MPEG-4 tienen, parcialmente en común, los detalles de procesamiento, tal como codificación por entropía, cuantificación inversa, filtrado por desbloqueo y predicción de movimiento compensado. Es posible que una unidad de procesamiento de descodificación ex902 que cumple con AVC de MPEG-4 sea compartida por operaciones de procesamiento común, y que una unidad de procesamiento de descodificación dedicada ex901 se use para un procesamiento que es único de un aspecto de la presente invención y no cumple con AVC de MPEG-4. En particular, debido a que un aspecto de la presente invención está caracterizado por la codificación jerárquica, es posible, por ejemplo, que la unidad de procesamiento de descodificación dedicada ex901 se use para la codificación jerárquica, y que la unidad de procesamiento de descodificación sea compartida por cualquiera o la totalidad del otro procesamiento, tal como descodificación por entropía, cuantificación inversa, filtrado por desbloqueo y compensación de movimiento. La unidad de procesamiento de descodificación para implementar el procedimiento de descodificación de instantáneas en movimiento descrita en cada una de las realizaciones puede compartirse para el procesamiento a compartirse, y una unidad de procesamiento de descodificación especializada se puede usar para procesamiento único al de AVC de MPEG-4.

Adicionalmente, ex1000 en la figura 66B muestra otro ejemplo en el que el procesamiento se comparte parcialmente. Este ejemplo usa una configuración que incluye una unidad de procesamiento de descodificación especializada ex1001 que soporta el procesamiento único de un aspecto de la presente invención, una unidad de procesamiento de descodificación especializada ex1002 que soporta el procesamiento único de otra norma convencional, y una unidad de procesamiento de descodificación ex1003 que soporta procesamiento a compartirse entre el procedimiento de descodificación de instantáneas en movimiento de acuerdo con el aspecto de la presente invención y el procedimiento de descodificación de instantáneas en movimiento convencional. En este punto, las unidades de procesamiento de descodificación especializadas ex1001 y ex1002 no están necesariamente especializadas para el procesamiento de acuerdo con el aspecto de la presente invención y el procesamiento de la norma convencional, respectivamente, y pueden ser las que pueden implementar procesamiento general. Adicionalmente, la configuración de la presente realización puede implementarse por el LSI ex500.

En este sentido, reducir la escala del circuito de un LSI y reducir el coste son posibles compartiendo la unidad de procesamiento de descodificación para el procesamiento a compartirse entre el procedimiento de descodificación de instantáneas en movimiento de acuerdo con el aspecto de la presente invención y el procedimiento de descodificación de instantáneas en movimiento cumpliendo con la norma convencional.

rAplicabilidad industrial!

La presente invención se puede aplicar a un procedimiento de codificación de imágenes, un procedimiento de descodificación de imágenes, un aparato de codificación de imágenes y un aparato de descodificación de imágenes. Además, la presente invención se puede usar en diversas aplicaciones tales como la comunicación, transferencia o almacenamiento de datos. Por ejemplo, la presente invención se puede usar en dispositivos de visualización de información y dispositivos de captura de imágenes tales como una televisión, una grabadora de vídeo digital, un sistema de navegación de coche, un teléfono celular, una cámara digital de imágenes fijas, una cámara de vídeo digital, y así sucesivamente.

[Lista de signos de referencia]

100, aparato de codificación de imágenes

101 unidad de determinación de estructura de codificación

102, 102A unidad de determinación de tipo de NAL

103, 103A unidad de codificación

104 unidad de determinación de SEI

121 imágenes de entrada

122 TemporalId más grande

123 identificador de conjunto de instantáneas de referencia

124, flujo codificado

200 aparato de descodificación de imágenes

201 unidad de extracción de GOP de reproducción

202 unidad de descodificación

203 unidad de determinación de descodificación

204 unidad de visualización

222 posición de reproducción

223 reproductionTId

224 imágenes

Claims

REIVINDICACIONES

1. Un procedimiento de codificación de imágenes de codificación jerárquica de una pluralidad de instantáneas, que incluye instantáneas I, instantáneas P e instantáneas B, para generar un flujo de bits (124), perteneciendo cada instantánea a una de una pluralidad de capas temporales jerárquicas, perteneciendo dichas instantáneas I y P a la capa más baja de la pluralidad de capas temporales jerárquicas, la pluralidad de instantáneas comprende una pluralidad de las instantáneas de capa más alta que pertenecen a la capa más alta de la pluralidad de capas temporales jerárquicas y una pluralidad de instantáneas de capa inferior que pertenecen a las capas de la pluralidad de capas temporales jerárquicas distintas de la capa más alta, comprendiendo el procedimiento de codificación de imágenes:

codificar cada instantánea de la pluralidad de instantáneas con referencia a una instantánea que pertenece a una capa temporal jerárquica que es igual o menor que una capa temporal jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa temporal jerárquica que es mayor que la capa temporal jerárquica a la que pertenece cada una de las instantáneas; y

generar el flujo de bits (124) mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas,

caracterizado porque

la pluralidad de instantáneas de capa más alta son instantáneas B que se predicen a partir de instantáneas B de la pluralidad de instantáneas de capa inferior; y

la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para la pluralidad de instantáneas de capa inferior.

2. Un procedimiento de descodificación de imágenes de descodificación de un flujo de bits (221) generado al codificar jerárquicamente una pluralidad de instantáneas, que incluye instantáneas I, instantáneas P e instantáneas B, perteneciendo cada instantánea a una de una pluralidad de capas temporales jerárquicas, perteneciendo dichas instantáneas I y P a la capa más baja de la pluralidad de capas temporales jerárquicas, la pluralidad de instantáneas comprende una pluralidad de las instantáneas de capa más alta que pertenecen a la capa más alta de la pluralidad de capas temporales jerárquicas y una pluralidad de instantáneas de capa inferior que pertenecen a las capas de la pluralidad de capas temporales jerárquicas distintas de la capa más alta, comprendiendo el procedimiento de descodificación de imágenes:

descodificar información de tiempo que indica tiempos de descodificación de la pluralidad de instantáneas, a partir del flujo de bits (221); y

descodificar cada instantánea de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa temporal jerárquica que es igual o menor que una capa temporal jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa temporal jerárquica que es mayor que la capa temporal jerárquica a la que pertenece cada una de las instantáneas,

caracterizado porque

la pluralidad de instantáneas de capa más alta son instantáneas B que se predicen a partir de instantáneas B de la pluralidad de instantáneas de capa inferior; y la información de tiempo indica que los tiempos de descodificación se establecen a intervalos iguales para la pluralidad de instantáneas de capa inferior.

3. Un aparato de codificación de imágenes para codificar jerárquicamente una pluralidad de instantáneas, que incluye instantáneas I, instantáneas P e instantáneas B, para generar un flujo de bits (124), perteneciendo cada instantánea a una de una pluralidad de capas temporales jerárquicas, perteneciendo dichas instantáneas I y P a la capa más baja de la pluralidad de capas temporales jerárquicas, la pluralidad de instantáneas comprende una pluralidad de las instantáneas de capa más alta que pertenecen a la capa más alta de la pluralidad de capas temporales jerárquicas y una pluralidad de instantáneas de capa inferior que pertenecen a las capas de la pluralidad de capas temporales jerárquicas distintas de la capa más alta, comprendiendo el aparato de codificación de imágenes:

una unidad de codificación (103) configurada para codificar cada instantánea de la pluralidad de instantáneas con referencia a una instantánea que pertenece a una capa temporal jerárquica que es igual o menor que una capa temporal jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa temporal jerárquica que es mayor que la capa temporal jerárquica a la que pertenece cada una de las instantáneas; y

una unidad de generación configurada para generar el flujo de bits (124) mediante la codificación de las instantáneas codificadas e información de tiempo que indica tiempos de descodificación de las instantáneas codificadas,

caracterizado porque

4. Un aparato de recepción para recibir un flujo de bits (221) generado al codificar jerárquicamente una pluralidad de instantáneas, que incluye instantáneas I, instantáneas P e instantáneas B, perteneciendo cada instantánea a una de una pluralidad de capas temporales jerárquicas, perteneciendo dichas instantáneas I y P a la capa más baja de la pluralidad de capas temporales jerárquicas, la pluralidad de instantáneas comprende una pluralidad de las instantáneas de capa más alta que pertenecen a la capa más alta de la pluralidad de capas temporales jerárquicas y una pluralidad de instantáneas de capa inferior que pertenecen a las capas de la pluralidad de capas temporales jerárquicas distintas de la capa más alta, comprendiendo el procedimiento de descodificación de imágenes:

una primera unidad de descodificación configurada para descodificar información de tiempo que indica tiempos de descodificación de la pluralidad de instantáneas, a partir del flujo de bits (221); y una segunda unidad de descodificación (202) configurada para descodificar cada instantánea de la pluralidad de instantáneas de acuerdo con la información de tiempo, con referencia a una instantánea que pertenece a una capa temporal jerárquica que es igual o menor que una capa temporal jerárquica a la que pertenece cada una de las instantáneas, y sin referencia a una instantánea que pertenece a una capa temporal jerárquica que es mayor que la capa temporal jerárquica a la que pertenece cada una de las instantáneas,

caracterizado porque