ES2963368T3

ES2963368T3 - Obtención de valores de modo de referencia y codificación y descodificación de información que representa modos de predicción

Info

Publication number: ES2963368T3
Application number: ES19157988T
Authority: ES
Inventors: Edouard Fransois; Guillaume Laroche; Patrice Onno
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-09-12
Filing date: 2012-09-12
Publication date: 2024-03-26
Anticipated expiration: 2032-09-12
Also published as: US20190208193A1; CN108632626A; KR20180107326A; CN108848387B; BR122020002125B1; BR112014005323A2; JP6766195B2; JP6513120B2; JP6129178B2; CN108848387A; KR20180107327A; BR122020002126B1; RS65122B1; RU2016102177A; CN108632626B; GB2494468A; JP2014529250A; CN108632617A; JP2019106717A; US10687057B2

Abstract

Se derivan los valores del modo de predicción de referencia, también denominados modos más probables o MPM, utilizables para codificar o decodificar un modo de predicción relacionado con una unidad de codificación actual. Al derivar tres MPM en lugar de dos para compararlos con el modo de predicción del bloque de codificación actual, se mejora la eficiencia de la codificación. Esto se debe al aumento en la probabilidad de que el modo de predicción del bloque de codificación actual corresponda a uno de los modos más probables derivados. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Obtención de valores de modo de referencia y codificación y descodificación de información que representa modos de predicción

Sector técnico de la invención

La invención se refiere a un procedimiento y un dispositivo para codificar o descodificar valores de modo que representan modos de predicción. En particular, pero no exclusivamente, la invención se refiere más específicamente a codificación en modo intra en el estándar de codificación de vídeo de alta eficiencia (HEVC, High Efficiency Video Coding) en desarrollo.

Descripción de la técnica anterior

Las aplicaciones de vídeo avanzan continuamente hacia una mayor resolución. Una gran cantidad de material de vídeo ya se distribuye en forma digital a través de canales de difusión, redes digitales y medios empaquetados, con una evolución continua hacia una mayor calidad y resolución (por ejemplo, mayor número de píxeles por cuadro, mayor velocidad de cuadro, mayor profundidad de bits o una gama de colores ampliada). Esta evolución de la tecnología ejerce más presión sobre las redes de distribución, que ya están afrontando dificultades para transportar resolución y velocidades de datos de HDTV de forma económica para el usuario final. Por lo tanto, cualquier incremento adicional de la velocidad de datos ejercerá una presión adicional sobre las redes. Para gestionar este desafío, ITU-T e ISO/MPEG decidieron lanzar en enero de 2010 un nuevo proyecto de estándar de codificación de vídeo, denominado codificación de vídeo de alta eficiencia (HEVC).

El diseño del códec HEVC es similar al de la mayoría de los denominados códecs de transformada híbrida basados en bloques anteriores, tales como H.263, H.264, MPEG-1, MPEG-2, MPEG-4, SVC. Los algoritmos de compresión de vídeo, tales como los estandarizados por los cuerpos de estandarización ITU, ISO y SMPTE, utilizan las redundancias espaciales y temporales de las imágenes con el fin de generar flujos de bits de datos de tamaño reducido en comparación con estas secuencias de vídeo. Dichas compresiones hacen que la transmisión y/o el almacenamiento de las secuencias de vídeo sean más eficaces.

Durante la compresión de vídeo en el codificador HEVC propuesto, cada bloque de una imagen que se está procesando se predice espacialmente mediante un predictor "Intra" (denominado modo de codificación "Intra"), o temporalmente mediante un predictor "Inter" (denominado modo de codificación "Inter"). Cada predictor es un bloque de píxeles generado a partir de la misma imagen u otra imagen, del cual se obtiene un bloque de diferencia (o "residuo"). En el modo de codificación Intra, el predictor (predictor Intra) utilizado para el bloque actual es un bloque de píxeles construido a partir de la información ya codificada de la imagen actual. En virtud de la identificación del bloque predictor y de la codificación del residuo, es posible reducir la cantidad de información que realmente se tiene que codificar.

Los cuadros codificados son de dos tipos: cuadros predichos de forma temporal (predichos a partir de un cuadro de referencia, denominados cuadros P, o predichos a partir de dos cuadros de referencia, denominados cuadros B) y cuadros predichos de forma no temporal (denominados cuadros Intra o cuadros I). En los cuadros I, solo se considera la predicción Intra para codificar bloques. En los cuadros P y los cuadros B, se consideran las predicciones Intra e Inter para codificar bloques.

Si se selecciona codificación "Intra", un elemento de información para describir el predictor "Intra" utilizado se codifica antes se introducirse en el flujo de bits para enviarse a un descodificador correspondiente.

En el diseño de HEVC actual, así como en diseños anteriores tales como MPEG-4 AVC/H.264, la codificación intra implica obtener un bloque de predicción intra a partir de muestras vecinas reconstruidas 101 del bloque a codificar (descodificar), tal como se ilustra esquemáticamente en las figuras 1A y 1B. Se soportan múltiples modos de predicción, ya sean direccionales o no direccionales. En HEVC, el número de modos soportados depende del tamaño de una unidad de codificación (CU, Coding Unit). En la fecha de presentación de la presente solicitud, la especificación de HEVC todavía está sujeta a cambios, pero en la actualidad se contemplan los siguientes modos soportados: 4 modos para CU de 64x64, 18 modos para CU de 4x4, 35 modos para CU de otros tamaños (8x8 a 32x32).

Cuando se codifica intra una CU, se tiene que codificar su modo de predicción intra relacionado. Haciendo referencia a la figura 1B, cuando se codifica una CU actual 102, la codificación en modo Intra hace uso de dos CU vecinas que ya se han codificado, es decir, las CU superior e izquierda 103 y 104.

La figura 2 ilustra los modos de predicción intra considerados en HEVC. Los modos de predicción intra incluyen un modo de predicción plano identificado por un valor de predicción de modo 0, un modo de CC que tiene un valor de predicción de modo 3, y un número de modos de predicción direccionales identificados por los valores de predicción de modo 4 a 34 para predecir estructuras direccionales en una imagen correspondiente a diferentes ángulos. También se incluyen el modo de predicción horizontal 2 y el modo de predicción vertical 1.

La figura 3 es un diagrama de flujo a utilizar para explicar cómo se lleva a cabo la codificación en modo Intra en el diseño de HEVC actual. En la primera etapa S201, se identifican los modos de predicción Intra de las CU superior e izquierda vecinas 103 y 104, como se ilustra en la figura 1B. Las dos CU pueden compartir el mismo modo de predicción Intra o pueden tener diferentes modos de predicción Intra. Por consiguiente, en la etapa S201 se pueden identificar uno o dos modos de predicción intra diferentes. En la etapa S202, se obtienen dos "modos más probables" (MPM, Most Probable Modes) a partir de los modos de predicción intra identificados. Si los modos de predicción de las CU superior e izquierda 103 y 104 son diferentes, entonces dos MPM, MPM0 y MPM1, se ajustan, respectivamente, a los valores mínimo y máximo de los modos de predicción de las Cu superior e izquierda. Si los modos de predicción de las CU superior e izquierda 103 y 104 son iguales, y si no corresponden al modo de predicción plano, entonces MPM0 se ajusta igual al modo plano y MPM1 se ajusta al modo de predicción del modo de predicción de las CU superior o izquierda. Si ambos modos de predicción de las CU superior e izquierda 103 y 104 corresponden al modo plano, entonces MPM0 se ajusta igual al modo plano y MPM1 se ajusta al modo de CC. Por tanto, MPM0 y MPM1 se ordenan según sus valores de modo de predicción, denominándose el modo de predicción que tiene el valor de modo más pequeño MPM0 y denominándose el modo de predicción que tiene el valor de modo más grande MPM1. En la etapa S203, el modo de predicción de la unidad de codificación actual se compara entonces con los dos MPM. Si el modo de predicción de la unidad de codificación actual es igual a MPM0 o a MPM1, entonces, en la etapa S204, se aplica un primer proceso de codificación (proceso 1).

Este primer proceso de codificación implica codificar un indicador que señaliza que el modo del bloque actual es igual a uno de los MPM y, a continuación, codificar el índice del MPM implicado (0 si es MPM0, 1 si es MPM1).

Si, en la etapa S203, se determina que el modo de predicción del bloque actual no es igual a uno de los dos MPM, entonces, en la etapa S205, se aplica un segundo proceso de codificación (proceso 2).

A diferencia del primer proceso de codificación, el segundo proceso de codificación implica codificar el valor de modo del bloque actual.

Estadísticamente, el proceso 1 se utiliza con más frecuencia que el proceso 2. Estadísticamente, un modo de predicción es igual con mayor frecuencia a uno de sus MPM que diferente de todos los MPM. El motor de codificación por entropía se beneficia de esta propiedad, ya sea utilizando palabras de código más cortas en el proceso 1 que en el proceso 2, o bien aprovechando la mayor probabilidad de ser igual a uno de los MPM (la codificación aritmética utilizada en CABAC aprovecha eficazmente la probabilidad para mejorar la codificación y reducir el coste de codificación). La presente invención se ha ideado para abordar uno o varios de los problemas y deseos anteriores. Es deseable mejorar la eficiencia de codificación de procedimientos para codificar información de modo de predicción.

W-J CHIEN ET AL: "Parsing friendly intra mode coding", 97. REUNIÓN DE MPEG; 18-7-2011 - 22-7-2011; TORINO; (GRUPO DE EXPERTOS EN IMÁGENES EN MOVIMIENTO DE ISO/IEC JTC1/SC29/WG11), n.° m20889, JCTVC-F459 versión 4, 15 de julio de 2011 (15-07-2011), XP030049452, da a conocer la utilización de 4 MPM, ajustándose el 4° MPM a predicción plana si ninguno del 1er y el 2° MPM es el modo de predicción plano.

W-J CHIEN ET AL: "Parsing friendly intra mode coding", 6. REUNIÓN DEL JCT-VC; 97. REUNIÓN DE MPEG; 14-7-2011 - 22-7-2011; TORINO; (EQUIPO DE COLABORACIÓN CONJUNTO SOBRE CODIFICACIÓN DE VÍDEO DE ISO/IEC JTC1/SC29/WG11 E ITU-T SG.16); URL: HTTP://WFTP3.ITU.INT/AV-ARCH/JCTVC-SITE/, n.° JCTVC-F459 versión 1,2 de julio de 2011 (02-07-2011), XP030009482 da a conocer la utilización de 3 MPM, donde el 3er MPM se ajusta al modo de predicción de CC si ninguno del 1er y el 2° MPM es el modo de predicción de CC, al modo de predicción vertical si ninguno del 1er y el 2° MPM es el modo de predicción vertical o al modo de predicción horizontal en otro caso.

Según un primer aspecto de la invención, se da a conocer un procedimiento para codificar información de modo que representa un modo de predicción relacionado con una unidad de codificación actual, tal como se expone en la reivindicación 1.

Obteniendo tres MPM en lugar de dos para la comparación con el modo de predicción del bloque de codificación actual, se mejora la eficiencia de codificación. Esto se debe al incremento en la probabilidad de que el modo de predicción del bloque de codificación actual corresponda a uno de los modos más probables obtenidos. Dado que esto permite utilizar un proceso de codificación más económico para codificar el modo de predicción del bloque de codificación actual, se reduce el coste de codificación global.

Según un segundo aspecto de la invención, se da a conocer un dispositivo para codificar información de modo que representa un modo de predicción relacionado con una unidad de codificación actual, tal como se expone en la reivindicación 2.

Según un tercer aspecto de la invención, se da a conocer un procedimiento para descodificar un valor de modo que representa un modo de predicción relacionado con una unidad de descodificación actual a descodificar, tal como se expone en la reivindicación 3.

Según un cuarto aspecto de la invención, se da a conocer un dispositivo para descodificar un valor de modo que representa un modo de predicción relacionado con una unidad de descodificación actual a descodificar, tal como se expone en la reivindicación 4.

La invención se define en las reivindicaciones adjuntas. Las realizaciones se refieren solo a la combinación de características reivindicada. En adelante, cuando el término "realización" se refiere a combinaciones de características no reivindicadas, debe entenderse que dicho término hace referencia a ejemplos de la presente invención.

Por lo menos partes de los procedimientos según la invención se pueden implementar por ordenador. Por consiguiente, la presente invención puede adoptar la forma de una realización completamente de hardware, una realización completamente de software (incluyendo software inalterable, software residente, microcódigo, etc.) o una realización que combina aspectos de software y hardware que, en la presente memoria, pueden denominarse, en general, un "circuito", "módulo" o "sistema". Asimismo, la presente invención puede adoptar la forma de un producto de programa informático incorporado en cualquier medio o expresión tangible que tenga código de programa utilizable por ordenador incorporado en el medio.

Como la presente invención se puede implementar en software, la presente invención se puede realizar como código legible por ordenador para suministrarlo a un aparato programable en cualquier medio portador apropiado. Un medio portador tangible puede comprender un medio de almacenamiento tal como una unidad de disco flexible, un CD-ROM, una unidad de disco duro, un dispositivo de cinta magnética o un dispositivo de memoria de estado sólido y similares. Un medio portador transitorio puede incluir una señal tal como una señal eléctrica, una señal electrónica, una señal óptica, una señal acústica, una señal magnética o una señal electromagnética, por ejemplo, una señal de microondas o de RF.

A continuación, se describirán realizaciones de la invención, solo a modo de ejemplo, y haciendo referencia a los siguientes dibujos, en los que:

las figuras 1A y 1B, analizadas anteriormente, son diagramas esquemáticos a utilizar para explicar cómo se obtiene un bloque de predicción intra en el diseño de HEVC actual;

la figura 2, también analizada anteriormente, ilustra modos de predicción intra en el diseño de HEVC actual; la figura 3, también analizada anteriormente, es un diagrama de flujo a utilizar para explicar la codificación en modo intra en el diseño de HEVC actual;

la figura 4 es un diagrama de flujo a utilizar para explicar un principio de codificación en modo intra según, por lo menos, una realización de la presente invención;

la figura 5 es un diagrama de flujo de etapas de un procedimiento para obtener un valor de modo de predicción de referencia según una realización de la presente invención;

la figura 6 es un diagrama de flujo que ilustra etapas relativas al procedimiento de la figura 5;

la figura 7 muestra una secuencia de imágenes;

la figura 8 muestra partes de un aparato apropiado para implementar un codificador según una realización de la presente invención;

la figura 9 muestra un diagrama de bloques de partes de un codificador según, por lo menos, una realización de la presente invención; y

la figura 10 ilustra un diagrama de bloques de partes de un descodificador.

Descripción detallada de las realizaciones

La figura 4 es un diagrama de flujo para utilizar en la explicación de un principio de un procedimiento de codificación en modo intra que realiza la presente invención. El procedimiento de codificación en modo intra según este diagrama de flujo es aplicable a cualquier motor de codificación por entropía, tal como CABAC o CAVLC.

En la figura 4, las etapas S401 y S402 son iguales a las etapas S201 y S202, respectivamente, en la figura 3, y la descripción de estas etapas no se repite aquí.

En la etapa S403, se obtiene un tercer modo más probable (MPM2) a partir del primer y el segundo modos más probables MPM0 y MPM1 obtenidos a partir de los modos de predicción de las CU superior e izquierda vecinas en la etapa S402.

La figura 5 es un diagrama de flujo que ilustra en más detalle las etapas para obtener el tercer modo más probable MPM2 según una primera realización de la invención. En la etapa S501, se identifican los valores del primer y el segundo modos más probables MPM0 y MPM1 obtenidos en la etapa S402. En la etapa S502, se comprueba si uno de los valores de modos más probables MPM0 y MPM1 corresponde a un modo de predicción plano. Esta etapa puede implicar comprobar ambos valores de modos más probables para comprobar si corresponden a un modo de predicción plano. En una realización alternativa de la invención, cuando los valores de modos más probables MPM0 y MPM1 se han ordenado según sus valores de modo de predicción, solo puede ser necesario comprobar si MPM0 corresponde a un modo plano, dado que MPM0 corresponderá al modo de predicción de menor orden. Si ni MPM0 ni MPM1 corresponden a un modo de predicción plano, el modo más probable adicional MPM2 se ajusta a un valor de modo correspondiente a un modo de predicción plano en la etapa S506. Dado que un modo plano es estadísticamente el modo de predicción utilizado con mayor frecuencia, es beneficioso introducirlo en el conjunto de MPM para la etapa de comparación posterior, dado que es más probable que corresponda al modo de predicción del bloque actual. Sin embargo, si en la etapa S502 se determina que uno del primer y el segundo MPM, MPM0 o MPM1, corresponde a un modo plano, entonces se comprueba, en la etapa S503, si el otro MPM0 o MPM1 corresponde a un modo de predicción de CC. Si se determina que uno del primer y el segundo MPM MPM0 o MPM1 corresponde a un modo de predicción plano y el otro del primer y el segundo MPM, MPM0 y MPM1, corresponde a un modo de predicción de CC, el tercer MPM MPM2 se ajusta a un valor de modo predefinido. En la práctica, se utilizan modos de predicción con un valor de modo de predicción pequeño porque es más probable que correspondan al modo de predicción del bloque actual. En el ejemplo ilustrado en la figura 5, MPM2 se ajusta a un valor de modo de predicción 2, que corresponde al modo de predicción vertical.

Se puede observar que también se podría elegir un valor de modo de predicción 2, que corresponde a predicción de dirección horizontal, pero la dirección vertical está estadísticamente más presente en imágenes naturales que en estructuras horizontales y, por tanto, es más probable que corresponda al modo de predicción del bloque actual.

En algunas realizaciones de la invención, el modo de predicción predefinido se puede señalizar en la cabecera de segmento o de imagen, dado que puede ser dependiente del contenido de la imagen, por ejemplo, en función de las estadísticas de la distribución de modos en la imagen.

En otra realización de la invención, el modo de predicción predefinido se puede obtener adaptativamente, basándose en probabilidades de modo representativas de la probabilidad de aparición de modos de predicción respectivos que se calculan regularmente. En este caso, se definen tablas de probabilidad. Cada vez que se codifica un modo, su probabilidad se actualiza. Cuando MPM0 y MPM1 son plano y CC, MPM2 se calcula como el modo diferente de plano y CC que tiene el valor de probabilidad más alto. Por lo tanto, en este caso concreto de plano y CC como los dos primeros MPM, el MPM2 se calcula adaptativamente en función del contenido de la imagen.

Sin embargo, si en la etapa S503 se determina que ni el primer MPM, MPM0, ni el segundo MPM, MPM1, corresponden a un modo de predicción de CC y que, por tanto, uno del primer y el segundo MPM, MPM0 o MPM1, corresponde a un modo de predicción direccional MPM_dir, el tercer MPM, MPM2, se ajusta al modo de predicción direccional con la dirección angular superior autorizada más cercana a la dirección de MPM_dir en la etapa S505. Haciendo referencia a la figura 6, que muestra este proceso con más detalle, en la etapa S601 se identifica el modo de predicción de las unidades de codificación vecinas, que no es un modo plano. En la etapa S602 se determina si el modo de predicción identificado es CC. En caso afirmativo, MPM2 se ajusta a un modo de predicción vertical, en otro caso, si el modo de predicción identificado no es un CC, MPM2 se ajusta a la dirección angular superior autorizada más cercana a la dirección (MPM_dir) del modo m en la etapa S604.

Por ejemplo, si MPM_dir es igual a 13, haciendo referencia a la figura 2, MPM2 se ajusta a 24 si la unidad de codificación actual es de tamaño 8x8 a 32x32, o a 6 si la unidad de codificación actual es de tamaño 4x4 (en el diseño de HEVC actual, en CU de 4x4, están prohibidos los modos con valor superior a 17). Se ha demostrado experimentalmente que utilizar la dirección angular superior más cercana es la solución de mejor rendimiento.

Se apreciará que, en algunas realizaciones de la invención, el orden de los modos de predicción más probables MPM0 y MPM1 se puede ordenar según sus valores de predicción antes de que se obtenga el tercer modo de predicción más probable MPM2. En realizaciones alternativas de la invención, la etapa S402 puede no incluir el proceso de reordenar MPM0 y MPM1 según su valor de modo de predicción, y entonces MPM0, MPM1 y MPM2 se pueden ordenar según su valor de modo de predicción después de que se ha obtenido MPM2.

Volviendo a la figura 4, en la etapa S404 se verifica si el modo de predicción relacionado con el bloque de codificación actual es igual al primer MPM, MPM0, al segundo MpM, MPM1, o al tercer MPM, MpM2, obtenidos en las etapas S402 y S403 con el fin de determinar si se aplicará el proceso 1 de codificación o el proceso 2 de codificación para codificar el valor de modo de predicción del bloque de codificación actual. El proceso 1, que se lleva a cabo cuando el modo del bloque actual es igual a uno de los tres MPM, MPM0, MPM1 o MPM2, se implementa en la etapa S405. En algunas realizaciones de la presente invención, la etapa 5405 puede ser igual a la etapa S204 en la figura 3, y no se describirá en detalle aquí.

El proceso 2, que se lleva a cabo cuando el modo del bloque actual es diferente de cada uno del primer MPM, MPMO, el segundo MPM, MPM1, y el tercer MPM, MPM2, se implementa en la etapa S406. La etapa 5406 es igual a la etapa correspondiente S205 en la figura 3, y no se describirá en detalle aquí.

Utilizar tres MPM en lugar de dos para comparar con el modo de predicción del bloque de codificación actual mejora la eficiencia de codificación, dado que se incrementa la probabilidad de que el modo de predicción del bloque de codificación actual corresponda a uno de los modos más probables obtenidos. A su vez, esto incrementa la probabilidad de que el proceso 1 de codificación más económico, que requiere menos bits para señalizar el modo de predicción del bloque de codificación actual, se utilice para codificar el modo de predicción del bloque de codificación actual. Por consiguiente, se reduce el coste de codificación global. Al mismo tiempo, la complejidad del proceso global no se incrementa en exceso al obtener un gran número de MPM.

La figura 7 muestra la estructura de codificación de imagen 100 utilizada en HEVC. Según HEVC y uno de sus predecesores anteriores, la secuencia de vídeo original 1001 es una sucesión de imágenes digitales "imágenes i". Como se conoce en sí, una imagen digital se representa mediante una o varias matrices cuyos coeficientes representan píxeles.

Las imágenes 1002 se dividen en segmentos 1003. Un segmento es una parte de la imagen o la imagen completa. En HEVC, estos segmentos se dividen en unidades de codificación máximas (LCU, Largest Coding Unit) 1004 no superpuestas, generalmente bloques de 64 píxeles x 64 píxeles de tamaño. Cada LCU se puede dividir a su vez de forma iterativa en unidades de codificación (C<u>) 1005 de tamaño variable más pequeñas utilizando una descomposición de árbol cuaternario. Cada CU se puede dividir, asimismo, en un máximo de 2 unidades de división rectangulares simétricas 1006.

La figura 8 ilustra un diagrama de un aparato 1000 adaptado para implementar un codificador según una realización de la presente invención o para implementar un descodificador. El aparato 1000 es, por ejemplo, un microordenador, una estación de trabajo o un dispositivo portátil ligero.

El aparato 1000 comprende un bus de comunicación 1113 al que se conectan, preferentemente:

- una unidad central de procesamiento 1111, tal como un microprocesador, denominada CPU;

- una memoria de solo lectura (ROM) 1107 que almacena uno o varios programas informáticos para implementar la invención;

- una memoria de acceso aleatorio (RAM) 1112 que almacena código ejecutable del procedimiento de la invención y proporciona registros adaptados para registrar variables y parámetros necesarios para implementar el procedimiento para codificar una secuencia de imágenes digitales y/o el procedimiento para descodificar un flujo de bits; y

- una interfaz de comunicación 1102 conectada a una red de comunicación 1103 sobre la que se transmiten datos digitales a procesar.

Opcionalmente, el aparato 1000 también puede tener los siguientes componentes:

- un medio de almacenamiento de datos 1104, tal como un disco duro, capaz de contener los programas que implementan la invención y datos utilizados o producidos durante la implementación de la invención;

- una unidad 1105 de disco para un disco 1106, estando adaptada la unidad de disco para leer datos del disco 1106 o para escribir datos en dicho disco;

- una pantalla 1109 para visualizar datos y/o para servir como una interfaz gráfica con el usuario, por medio de un teclado 1110 o cualquier otro medio de puntero.

El aparato 1000 se puede conectar a varios periféricos, tales como, por ejemplo, una cámara digital 1100 o un micrófono 1108, estando conectado cada uno de ellos a una tarjeta de entrada/salida (no mostrada) para suministrar datos multimedia al aparato 1000.

El bus de comunicación permite comunicación e interoperabilidad entre los diversos elementos incluidos en el aparato 1000 o conectados al mismo. La representación del bus no es limitativa y, en particular, la unidad central de procesamiento es capaz de comunicar instrucciones a cualquier elemento del aparato 1000, directamente o por medio de otro elemento del aparato 1000.

El disco 1106 se puede sustituir por cualquier medio de información, tal como, por ejemplo, un disco compacto (CD-ROM), regrabable o no, un disco ZIP o una tarjeta de memoria y, en términos generales, por un medio de almacenamiento de información que pueda ser leído por un microordenador o por un microprocesador, integrado o no en el aparato, posiblemente extraíble y adaptado para almacenar uno o varios programas cuya ejecución permite implementar el procedimiento para codificar el secuencia de imágenes digitales y/o el procedimiento para descodificar un flujo de bits, según la invención.

El código ejecutable se puede almacenar en una memoria de solo lectura 1107, en el disco duro 1104 o en un medio digital extraíble, tal como, por ejemplo, un disco 1106, tal como se ha descrito anteriormente. Según una variante, el código ejecutable de los programas se puede recibir por medio de la red de comunicación 1103, a través de la interfaz 1102, para ser almacenado en uno de los medios de almacenamiento del aparato 1000 antes de ser ejecutado, tal como el disco duro 1104.

La unidad central de procesamiento 1111 está adaptada para controlar y dirigir la ejecución de las instrucciones o porciones de código de software del programa o programas según la invención, instrucciones que están almacenadas en uno de los medios de almacenamiento mencionados anteriormente. Al encender, el programa o programas que están almacenados en una memoria no volátil, por ejemplo, en el disco duro 1104, o en la memoria de solo lectura 1107, se transfieren a la memoria de acceso aleatorio 1112, que contiene entonces el código ejecutable del programa o programas, así como registros para almacenar las variables y los parámetros necesarios para implementar la invención.

En esta realización, el aparato es un aparato programable que utiliza software para implementar la invención. Sin embargo, alternativamente, la presente invención se puede implementar en hardware (por ejemplo, en la forma de un circuito integrado de aplicación específica o ASIC).

La figura 9 ilustra un diagrama de bloques de un codificador 1200 según una realización de la invención. El codificador está representado por módulos conectados, estando adaptado cada módulo para implementar, por ejemplo, en la forma de instrucciones de programación a ejecutar por la CPU 1111 del aparato 1000, una etapa correspondiente de un procedimiento que implementa una realización de la invención.

Una secuencia original de imágenes digitales iü a in 1001 se recibe como una entrada por el codificador 1200. Cada imagen digital se representa mediante un conjunto de muestras, conocidas como píxeles.

El codificador 1200 entrega un flujo de bits 1210.

Se debe tener en cuenta que, en la siguiente descripción, en ocasiones se utiliza el término "bloque" en lugar de la terminología específica CU y PU utilizada en HEVC. Una CU o una PU es un bloque de píxeles.

Las imágenes digitales de entrada i se dividen en bloques mediante el módulo 1202. Estos bloques son porciones de imagen y pueden ser de tamaños variables (por ejemplo, 4x4, 8x8, 16x16, 32x32, 64x64). Durante la compresión de vídeo, cada bloque de una imagen que se está procesando se predice espacialmente mediante un módulo predictor "Intra" 1203, o temporalmente mediante un módulo predictor "Inter" que comprende un módulo de estimación de movimiento 1204 y un módulo de compensación de movimiento 1205. Cada predictor es un bloque de píxeles generado a partir de la misma imagen u otra imagen, del cual se obtiene un bloque de diferencia (o "residuo"). En virtud de la identificación del bloque predictor y la codificación del residuo, es posible reducir la cantidad de información que realmente hay que codificar.

Los cuadros codificados son de dos tipos: cuadros predichos de forma temporal (predichos a partir de un cuadro de referencia, denominados cuadros P, o predichos a partir de dos cuadros de referencia, denominados cuadros B) y cuadros predichos de forma no temporal (denominados cuadros Intra o cuadros I). En los cuadros I, solo se considera la predicción Intra para codificar CU/PU. En los cuadros P y los cuadros B, se consideran las predicciones Intra e Inter para codificar CU/PU.

En el módulo de "predicción Intra" 1203, el bloque actual se predice por medio de un predictor "Intra", un bloque de píxeles construido a partir de la información ya codificada de la imagen actual.

Con respecto a la codificación "Inter", son posibles dos tipos de predicción. La monopredicción (tipo P) consiste en predecir el bloque haciendo referencia a un bloque de referencia de una imagen de referencia. La bipredicción (tipo B) consiste en predecir el bloque haciendo referencia a dos bloques de referencia de una o dos imágenes de referencia. El módulo 1204 lleva a cabo una estimación de movimiento entre la CU o PU actual e imágenes de referencia 1216. Esta estimación de movimiento se realiza con el fin de identificar, en una o varias de estas imágenes de referencia, uno (tipo P) o varios (tipo B) bloques de píxeles a utilizar como predictores de este bloque actual. En un caso en el que se utilicen varios predictores de bloque (tipo B), estos se combinan para generar un único bloque de predicción. Las imágenes de referencia utilizadas consisten en imágenes en la secuencia de vídeo que ya se han codificado y, a continuación, reconstruido (mediante descodificación).

Generalmente, la estimación de movimiento llevada a cabo por el módulo 1204 es un algoritmo de coincidencia de bloques (BMA, Block Matching Algorithm).

A continuación, el predictor obtenido por el algoritmo se sustrae del bloque de datos actual a procesar, con el fin de obtener un bloque de diferencia (residuo de bloque). Este procesamiento se denomina "compensación de movimiento" y se realiza mediante el módulo 1205.

Por tanto, estos dos tipos de codificación proporcionan varios residuos de textura (la diferencia entre el bloque actual y el bloque predictor), que se comparan en un módulo 1206 para seleccionar el mejor modo de codificación.

Si se selecciona codificación "Intra", un elemento de información para describir el predictor "Intra" utilizado se codifica mediante un módulo de codificación por entropía 1209 antes se introducirse en el flujo de bits 1210. Las realizaciones de la presente invención descritas anteriormente haciendo referencia a las figuras 4 a 6 son aplicables al módulo de codificación por entropía 1209 en la figura 9.

Si el módulo 1206 para seleccionar el mejor modo de codificación elige codificación "Inter", la información de movimiento se codifica mediante el módulo de codificación por entropía 1209 y se introduce en el flujo de bits 1210. En particular, esta información de movimiento se compone de uno o varios vectores de movimiento (que indican la posición del bloque predictor en las imágenes de referencia con respecto a la posición del bloque a predecir) y de un índice de imagen entre las imágenes de referencia.

A continuación, el residuo obtenido según el modo de codificación seleccionado por el módulo 1206 se transforma mediante el módulo 1207. La transformada se aplica a una unidad de transformada (TU), que está incluida en una CU. Una TU se puede dividir además en T<u>más pequeñas 1006 utilizando la denominada descomposición de árbol cuaternario residual (RQT, Residual QuadTree). Generalmente, en HEVC se utilizan 2 o 3 niveles de descomposiciones, y los tamaños de transformada autorizados son de 32x32, 16x16, 8x8 y 4x4. La base de la transformada se obtiene a partir de una transformada de coseno discreta DCT.

A continuación, los coeficientes transformados del residuo se cuantifican mediante un módulo de cuantificación 1208. A continuación, los coeficientes del residuo transformado cuantificado se codifican por medio del módulo de codificación por entropía 1209 y, a continuación, se introducen en el flujo de bits comprimido 1210.

Con el fin de calcular los predictores “Intra” o para realizar una estimación del movimiento para los predictores “Inter”, el codificador lleva a cabo una descodificación de los bloques ya codificados por medio de un denominado bucle de "descodificación" 1211-1215. Este bucle de descodificación hace posible reconstruir los bloques e imágenes a partir de los residuos transformados cuantificados.

El residuo transformado cuantificado se descuantifica en el módulo 1211 aplicando la cuantificación inversa a la proporcionada por el módulo 1208 y se reconstruye en el módulo 1212 aplicando la transformada inversa a la del módulo 1207.

Si el residuo proviene de una codificación "Intra", entonces, en el módulo 1213, el predictor "Intra" utilizado se añade a este residuo con el fin de recuperar un bloque reconstruido correspondiente al bloque original modificado por las pérdidas resultantes de una transformación con pérdidas, en este caso operaciones de cuantificación.

Por otra parte, si el residuo proviene de una codificación "Inter", los bloques a los que apuntan los vectores de movimiento actuales (estos bloques pertenecen a las imágenes de referencia 1216 referenciadas mediante los índices de la imagen actual) se combinan y, a continuación, se añaden a este residuo descodificado en el módulo 1214. De este modo, se obtiene el bloque original, modificado por las pérdidas resultantes de las operaciones de cuantificación.

Un filtro 1215 de bucle final se aplica a la señal reconstruida con el fin de reducir los efectos creados por la cuantificación pesada de los residuos obtenidos y de mejorar la calidad de la señal. El filtro de bucle comprende dos etapas, un filtro de "eliminación de bloques" y un filtrado lineal. El filtrado de eliminación de bloques suaviza los bordes entres los bloques con el fin de atenuar visualmente estas altas frecuencias creadas por la codificación. El filtrado lineal mejora más la señal utilizando coeficientes de filtro determinados adaptativamente en el codificador. Por tanto, el filtrado mediante el módulo 1215 se aplica a una imagen cuando todos los bloques de píxeles de esta imagen se han descodificado.

Las imágenes filtradas, también denominadas imágenes reconstruidas, se almacenan entonces como imágenes de referencia 1216 con el fin de permitir que las predicciones “Inter" posteriores tengan lugar durante la compresión de las siguientes imágenes de la secuencia de vídeo actual.

En el contexto de HEVC, es posible utilizar varias imágenes de referencia 1216 para la estimación y la compensación de movimiento de la imagen actual. En otras palabras, la estimación de movimiento se lleva a cabo sobre N imágenes. Por tanto, los mejores predictores “Inter” del bloque actual, para la compensación de movimiento, se seleccionan en algunas de las múltiples imágenes de referencia. Por consiguiente, dos bloques adyacentes pueden tener dos bloques predictores que provienen de dos imágenes de referencia distintas. En particular, este es el motivo por el que, en el flujo de bits comprimido, se indica el índice de la imagen de referencia (además del vector de movimiento) utilizado para el bloque predictor.

La utilización de múltiples imágenes de referencia es tanto una herramienta para soportar errores como una herramienta para mejorar la eficacia de la compresión. El grupo VCEG recomienda limitar el número de imágenes de referencia a cuatro.

La figura 10 ilustra un diagrama de bloques de un descodificador 1300 según una realización de la invención. El descodificador se representa mediante módulos conectados, estando adaptado cada módulo para implementar, por ejemplo, en la forma de instrucciones de programación a ejecutar por la CPU 1111 del aparato 1000, una etapa correspondiente de un procedimiento que implementa una realización de la invención.

El descodificador 1300 recibe como una entrada un flujo de bits 1301 correspondiente a una secuencia de vídeo 1210 comprimida mediante un codificador del tipo HEVC, tal como el mostrado en la figura 9.

Durante el proceso de descodificación, en primer lugar, el flujo de bits 1301 se descodifica entrópicamente mediante un módulo 1302.

A continuación, el residuo del bloque actual se descuantifica mediante un módulo de descuantificación 1303. Esto invierte la cuantificación llevada a cabo por el módulo de cuantificación 1208 en el codificador 1200. A continuación, los datos descuantificados se reconstruyen mediante un módulo de transformada inversa 1304 que lleva a cabo una transformación inversa a la llevada a cabo por el módulo de transformada 1207 en el codificador 1200.

A continuación, la descodificación de los datos en la secuencia de vídeo se lleva a cabo imagen a imagen y, dentro de una imagen, bloque a bloque.

El modo de codificación "Inter" o "Intra" para el bloque actual se extrae a partir del flujo de bits 1301 y se descodifica entrópicamente.

Si la codificación del bloque actual es del tipo de codificación "Intra", el número del predictor se extrae a partir del flujo de bits y se descodifica entrópicamente. El bloque predictor Intra asociado con este índice se recupera a partir de los datos ya descodificados de la imagen actual.

El residuo asociado con el bloque actual se recupera a partir del flujo de bits 1301 y, a continuación, se descodifica entrópicamente. Finalmente, el bloque predictor Intra recuperado se añade al residuo así descuantificado y se reconstruye en un módulo de predicción Intra inversa 1305 con el fin de obtener el bloque descodificado.

Si el modo de codificación del bloque actual indica que este bloque es del tipo de codificación "Inter", la información de movimiento se extrae del flujo de bits 1301 mediante el módulo de descodificación por entropía 1302 y se descodifica.

Esta información de movimiento se utiliza en un módulo de compensación de movimiento inversa 206 con el fin de determinar el bloque predictor "Inter" contenido en las imágenes de referencia 1308 del descodificador 1300. De una manera similar al codificador, estas imágenes de referencia 1308 están compuestas por imágenes que preceden a la imagen que se está descodificando actualmente y que se reconstruyen a partir del flujo de bits (y, por lo tanto, se descodifican previamente).

También en este caso, el residuo asociado con el bloque actual se recupera a partir del flujo de bits 1301 y, a continuación, se descodifica entrópicamente mediante el módulo 1302. A continuación, el bloque predictor Inter determinado se añade al residuo así descuantificado reconstruido en el módulo de compensación de movimiento inversa 1306 con el fin de obtener el bloque descodificado.

Al final de la descodificación de todos los bloques de la imagen actual, el mismo filtro 1307 de bucle que el filtro 1215 proporcionado en el codificador se utiliza para eliminar los efectos de bloque y mejorar la calidad de la señal, con el fin de obtener las imágenes de referencia 1308.

Las imágenes así descodificadas constituyen la señal de vídeo de salida 1309 del descodificador, que, a continuación, se pueden visualizar y utilizar.

Las realizaciones descritas anteriormente se basan en divisiones en bloques de imágenes de entrada, pero, de forma más general, se puede considerar cualquier tipo de porciones de imagen para codificar o descodificar, en particular porciones rectangulares o, de forma más general, porciones geométricas.

De forma más general, aunque la presente invención se ha descrito anteriormente haciendo referencia a realizaciones específicas, la presente invención no se limita a las realizaciones específicas, y las modificaciones serán evidentes para un experto en la materia.

Muchas modificaciones y variaciones diferentes se plantearán por sí solas a los expertos en la materia después de hacer referencia a las realizaciones ilustrativas anteriores, que se proporcionan solo a modo de ejemplo, y que no pretenden limitar el alcance de la invención, determinándose el mismo únicamente por las reivindicaciones adjuntas. En particular, las diferentes características de las diferentes realizaciones se pueden intercambiar si es apropiado.

En las reivindicaciones, la palabra "comprende" no excluye otros elementos o etapas, y el artículo indefinido "un" o "una" no excluye una pluralidad. El mero hecho de que diferentes características se citen en reivindicaciones dependientes mutuamente diferentes no indica que no se pueda utilizar ventajosamente una combinación de estas características.

Claims

REIVINDICACIONES

1. Procedimiento para codificar un valor de modo que representa un modo de predicción intra relacionado con una unidad actual a codificar utilizando una pluralidad de valores de modos más probables, en el que el número de valores de modos más probables utilizado es tres, comprendiendo el procedimiento: obtener un primer y un segundo valores de modos más probables a partir de modos de predicción intra respectivos de, por lo menos, dos unidades vecinas de la unidad actual, siendo diferentes entre sí el primer y el segundo valores de modos más probables, y comprendiendo la obtención:

comprobar si los modos de predicción intra respectivos de, por lo menos, dos unidades vecinas de la unidad actual son iguales o diferentes;

si los modos de predicción intra respectivos son diferentes, ajustar el primer valor de modo más probable a un valor de modo correspondiente a uno de dichos modos de predicción intra respectivos, y ajustar el segundo valor de modo más probable a un valor de modo correspondiente a otro de dichos modos de predicción intra respectivos; y

obtener un tercer valor de modo más probable a partir del primer y el segundo valores de modos más probables, siendo el tercer valor de modo más probable diferente de cada uno de dichos primer y segundo valores de modos más probables, mediante, si ninguno de dichos primer y segundo valores de modos más probables corresponde a un modo de predicción plano, ajustar el tercer valor de modo más probable a un valor de modo correspondiente al modo de predicción plano;

comparar el valor de modo con, por lo menos, uno del primer, el segundo y el tercer valores de modos más probables obtenidos;

seleccionar, basándose en la comparación, un primer proceso de codificación, de entre, por lo menos, un primer y un segundo procesos de codificación, a aplicar al valor de modo a codificar cuando el valor de modo a codificar es igual a, por lo menos, uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de codificación cuando el valor de modo a codificar difiere de cada uno del primer, el segundo y el tercer valores de modos más probables; y

codificar el valor de modo utilizando el proceso de codificación seleccionado, y

el primer proceso de codificación comprende codificar primera información que indica el valor de modo a codificar de uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de codificación comprende codificar segunda información que representa el valor de modo a codificar que no es igual a ninguno del primer, el segundo y el tercer valores de modos más probables.

2. Procedimiento para descodificar un valor de modo que representa un modo de predicción intra relacionado con una unidad actual a descodificar utilizando una pluralidad de valores de modos más probables, en el que el número de valores de modos más probables utilizado es tres, comprendiendo el procedimiento: obtener un primer y un segundo valores de modos más probables a partir de modos de predicción intra respectivos de, por lo menos, dos unidades vecinas de la unidad actual, siendo diferentes entre sí el primer y el segundo valores de modos más probables, y comprendiendo la obtención:

seleccionar, basándose en un indicador que señaliza si el valor de modo de la unidad actual es igual a uno del primer, el segundo y el tercer valores de modos más probables, un proceso de descodificación, de entre, por lo menos, un primer y un segundo procesos de descodificación, y

descodificar el valor de modo aplicando el proceso de descodificación seleccionado,

en el que el primer proceso de descodificación comprende descodificar primera información que indica el valor de modo a descodificar de uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de descodificación comprende descodificar segunda información que representa el valor de modo a descodificar que no es igual a ninguno del primer, el segundo y el tercer valores de modos más probables.

3. Dispositivo para codificar un valor de modo que representa un modo de predicción intra relacionado con una unidad actual a codificar, utilizando una pluralidad de valores de modos más probables, en el que el número de valores de modos más probables utilizado es tres, comprendiendo el dispositivo:

medios de obtención para obtener un primer y un segundo valores de modos más probables a partir de respectivos modos de predicción intra de, por lo menos, dos unidades vecinas de la unidad actual, siendo diferentes entre sí el primer y el segundo valores de modos más probables, y comprendiendo la obtención: comprobar si los modos de predicción intra respectivos de, por lo menos, dos unidades vecinas de la unidad actual son iguales o diferentes;

si los modos de predicción intra respectivos son diferentes, ajustar el primer valor de modo más probable a un valor de modo correspondiente a uno de dichos modos de predicción intra respectivos, y ajustar el segundo valor de modo más probable a un valor de modo correspondiente a otro de dichos modos de predicción intra respectivos,

en el que los medios de obtención se adaptan para obtener un tercer valor de modo más probable a partir del primer y el segundo valores de modos más probables, siendo el tercer valor de modo más probable diferente de cada uno de dichos primer y segundo valores de modos más probables, mediante, si ninguno de dichos primer y segundo valores de modos más probables corresponde a un modo de predicción plano, ajustar el tercer valor de modo más probable a un valor de modo correspondiente al modo de predicción plano; medios de comparación para comparar el valor de modo con, por lo menos, uno del primer, el segundo y el tercer valores de modos más probables obtenidos;

medios de selección para seleccionar, basándose en la comparación, un primer proceso de codificación, de entre, por lo menos, un primer y un segundo procesos de codificación, a aplicar al valor de modo a codificar cuando el valor de modo a codificar es igual a, por lo menos, uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de codificación cuando el valor de modo a codificar difiere de cada uno del primer, el segundo y el tercer valores de modos más probables; y

medios para codificar el valor de modo utilizando el proceso de codificación seleccionado, en el que el primer proceso de codificación comprende codificar primera información que indica el valor de modo a codificar de uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de codificación comprende codificar segunda información que representa el valor de modo a codificar que no es igual a ninguno del primer, el segundo y el tercer valores de modos más probables.

4. Dispositivo para descodificar un valor de modo que representa un modo de predicción intra relacionado con una unidad actual a descodificar, utilizando una pluralidad de valores de modos más probables, en el que el número de valores de modos más probables utilizado es tres, comprendiendo el dispositivo:

medios de obtención para obtener un primer y un segundo valores de modos más probables a partir de respectivos modos de predicción intra de, por lo menos, dos unidades vecinas de la unidad actual, siendo diferentes entre sí el primer y el segundo valores de modos más probables, y comprendiendo la obtención: comprobar si los modos de predicción intra respectivos de, por lo menos, dos unidades vecinas de la unidad actual son iguales o diferentes,

si los modos de predicción intra respectivos son diferentes, ajustar el primer valor de modo más probable a un valor de modo correspondiente a uno de dichos modos de predicción intra respectivos, y ajustar el segundo valor de modo más probable a un valor de modo correspondiente a otro de dichos modos de predicción intra respectivos, en el que

los medios de obtención se adaptan para obtener un tercer valor de modo más probable a partir del primer y el segundo valores de modos más probables, siendo el tercer valor de modo más probable diferente de cada uno de dichos primer y segundo valores de modos más probables, mediante, si ninguno de dichos primer y segundo valores de modos más probables corresponde a un modo de predicción plano, ajustar el tercer valor de modo más probable a un valor de modo correspondiente al modo de predicción plano;

medios de selección para seleccionar, basándose en un indicador que señaliza si el valor de modo de la unidad actual es igual a uno del primer, el segundo y el tercer valores de modos más probables, un proceso de descodificación, de entre, por lo menos, un primer y un segundo procesos de descodificación, y medios para descodificar el valor de modo utilizando el proceso de descodificación seleccionado, en el que el primer proceso de descodificación comprende descodificar primera información que indica el valor de modo a descodificar de uno del primer, el segundo y el tercer valores de modos más probables, y el segundo proceso de descodificación comprende descodificar segunda información que representa el valor de modo a descodificar que no es igual a ninguno del primer, el segundo y el tercer valores de modos más probables.

5. Programa que comprende instrucciones que, cuando se ejecutan mediante un ordenador o un procesador, hacen que el ordenador o el procesador lleve a cabo el procedimiento según las reivindicaciones 1 o 2.

6. Medio de almacenamiento legible por ordenador que almacena el programa según la reivindicación 5.