ES2637446T3

ES2637446T3 - Intra-predicción de baja complejidad para codificación de vídeo

Info

Publication number: ES2637446T3
Application number: ES15169606.9T
Authority: ES
Inventors: Frank Jan Bossen; Thiow Keng Tan
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2010-07-14
Filing date: 2011-07-14
Publication date: 2017-10-13
Anticipated expiration: 2031-07-14
Also published as: PT3226560T; KR20180026788A; CN105227960A; PL3522535T3; EP3522535B1; PT2934008T; KR101927281B1; JP5808839B2; CN103004210B; ES2729031T3; KR20170141289A; JP2017005720A; US10841613B2; CA3014052A1; CA3098217A1; PT3522535T; US10116960B2; PL3226560T3; KR20180073720A; EP2934008A1

Abstract

Un método de codificación de vídeo ejecutado por un procesador de un codificador de vídeo, que comprende una etapa de ejecutar, basándose en información de modo de predicción que representa una de las direcciones de predicción de intra-predicción, o bien un primer procedimiento que incluye: recuperar al menos algunos píxeles de una matriz de píxeles de límite vertical que se encuentra directamente a la izquierda de un bloque objetivo; añadir los píxeles recuperados a una matriz de píxeles de límite horizontal que se encuentra directamente por encima del bloque objetivo, a lo largo de una dirección de la matriz de píxeles de límite horizontal, para extender la matriz de píxeles de límite horizontal en una dirección negativa; y realizar intra-predicción basándose en la matriz extendida de píxeles de límite horizontal sin usar la matriz de píxeles de límite vertical, o bien un segundo procedimiento que incluye: recuperar al menos algunos píxeles de la matriz de píxeles de límite horizontal que se encuentra directamente por encima del bloque objetivo; añadir los píxeles recuperados a la matriz de píxeles de límite vertical que se encuentra directamente a la izquierda del bloque objetivo, a lo largo de una dirección de la matriz de píxeles de límite vertical, para extender la matriz de píxeles de límite vertical en una dirección negativa; y realizar intra-predicción basándose en la matriz extendida de píxeles de límite vertical sin usar la matriz de píxeles de límite horizontal.

Description

5

10

15

20

25

30

35

40

45

50

55

60

DESCRIPCION

Intra-prediccion de baja complejidad para codificacion de video Antecedentes de la invencion

1. Texto sobre el campo tecnico

La presente invencion se refiere a la codificacion de video y en particular a la prediccion intra-trama en la que se predice un bloque de muestra, usando pfxeles anteriormente codificados y reconstruidos de la misma trama de v^deo.

2. Informacion sobre antecedentes

El v^deo digital requiere una gran cantidad de datos para representar todas y cada una de las tramas de una secuencia de video digital (por ejemplo, serie de tramas) de una manera sin comprimir. Para la mayona de las aplicaciones no resulta viable transmitir video digital sin comprimir a traves de redes informaticas debido a limitaciones del ancho de banda. Ademas, el video digital sin comprimir requiere una gran cantidad de espacio de almacenamiento. El video digital se codifica normalmente de alguna manera para reducir los requisitos de almacenamiento y reducir los requisitos de ancho de banda.

Una tecnica para codificar video digital es la prediccion inter-trama, o inter-prediccion. La inter-prediccion aprovecha redundancias temporales entre diferentes tramas. Las tramas de video temporalmente adyacentes incluyen normalmente bloques de pfxeles, que permanecen sustancialmente iguales. Durante el procedimiento de codificacion, un vector de movimiento interrelaciona el movimiento de un bloque de pfxeles en una trama con un bloque de pfxeles similares en otra trama. Por consiguiente, no se requiere que el sistema codifique el bloque de pfxeles dos veces, sino que en vez de eso codifica el bloque de pfxeles una vez y proporciona un vector de movimiento para predecir el otro bloque de pfxeles.

Otra tecnica para codificar video digital es la prediccion intra-trama o intra-prediccion. La intra-prediccion codifica una trama o una parte de la misma sin referencia a pfxeles en otras tramas. La intra-prediccion aprovecha redundancias espaciales entre bloques de pfxeles dentro de una trama. Dado que bloques de pfxeles espacialmente adyacentes tienen generalmente atributos similares, la eficacia del procedimiento de codificacion se mejora haciendo referencia a la correlacion espacial entre bloques adyacentes. Esta correlacion espacial es entre bloques adyacentes. Esta correlacion puede aprovecharse mediante prediccion de un bloque objetivo basandose en modos de prediccion usados en bloques adyacentes.

Sumario de la invencion

La presente invencion proporciona un metodo de codificacion de video segun la reivindicacion 1, un metodo de descodificacion de video segun la reivindicacion 2, un codificador de video segun la reivindicacion 3 y un descodificador de video segun la reivindicacion 4.

Breve descripcion de los dibujos

La figura 1 es un diagrama de bloques que muestra una arquitectura de hardware a modo de ejemplo en la que puede implementarse la presente invencion.

La figura 2 es un diagrama de bloques que muestra una vista general de un codificador de video al que se le puede aplicar la presente invencion.

La figura 3 es un diagrama de bloques que muestra una vista general de un descodificador de video al que se le puede aplicar la presente invencion.

La figura 4 es un diagrama de bloques que muestra los modulos funcionales de un codificador segun un modo de realizacion de la presente invencion.

En otro modo de realizacion, al recuperar al menos algunos de los pfxeles de lfmite vertical, se calcula InvAngle a partir de

N x size angle ’

donde N es una potencia entera de 2. Despues, se recuperan al menos algunos de los pfxeles entre los pfxeles de

5

10

15

20

25

30

35

40

45

50

55

60

65

Kmite vertical, usando un identificador de p^xeles verticales que se expresa mediante [col x InvAngle » log2 N]. Los pfxeles recuperados se anaden a los pfxeles horizontales en una ubicacion identificada mediante un identificador de pfxeles horizontales [col],

En otro modo de realizacion, InvAngle se obtiene de una tabla de consulta que indica valores de InvAngle en relacion con los valores de angle.

En otro modo de realizacion, se identifica un pixel entre los pfxeles de lfmite vertical, usando un identificador de pfxeles verticales [row], donde row es un contador que se aumenta en 1 desde 0 hasta size. El pixel recuperado se anade a los pfxeles de lfmite horizontal en una ubicacion identificada mediante un identificador de pfxeles horizontales [int+1], donde int es una representacion en numero entero de una posicion de un pixel que interseca una direccion de prediccion,

La presente invencion proporciona tambien un codificador y un descodificador que implementan una operacion de intra-prediccion en la que se recupera al menos parte de o bien una matriz de pfxeles de lfmite horizontal o bien una matriz de pfxeles de lfmite vertical, Despues, se anaden los pfxeles recuperados a los otros pfxeles de lfmite para extender la matriz de los mismos, Se realiza intra-prediccion, basandose unicamente en la matriz extendida de pfxeles de lfmite.

Breve descripcion de los dibujos

La figura 1 es un diagrama de bloques que muestra una arquitectura de hardware a modo de ejemplo en la que puede implementarse la presente invencion,

La figura 2 es un diagrama de bloques que muestra una vista general de un codificador de video al que se le puede aplicar la presente invencion,

La figura 3 es un diagrama de bloques que muestra una vista general de un descodificador de video al que se le puede aplicar la presente invencion,

La figura 4 es un diagrama de bloques que muestra los modulos funcionales de un codificador segun un modo de realizacion de la presente invencion,

La figura 5 es un diagrama de flujo que muestra un procedimiento de intra-prediccion realizado por un modulo de intra-prediccion del modo de realizacion de la presente invencion,

La figura 6 es un diagrama de bloques que muestra los modulos funcionales de un descodificador segun un modo de realizacion de la presente invencion,

La figura 7 es un diagrama que muestra direcciones de prediccion que ilustran modos de prediccion intra_4x4 soportados en H,264/AVC,

La figura 8 es un diagrama que muestra las direcciones de prediccion propuestas en el documento n,° JCT-VC A119,

La figura 9 es un diagrama de flujo que muestra el procedimiento, propuesto en el documento JCT-VC A119, de generacion de un bloque predicho a lo largo de una de las direcciones de prediccion mostradas en la figura 7,

La figura 10 es un diagrama de flujo que muestra el procedimiento de intra-prediccion de baja complejidad realizado segun un modo de realizacion de la presente invencion,

La figura 11A es una vista esquematica que muestra un bloque de prediccion y matrices de pfxeles de lfmite horizontal y vertical,

La figura 11B es una vista esquematica que muestra una matriz de pfxeles de lfmite horizontal extendida con pfxeles de lfmite vertical,

La figura 12 es un diagrama de flujo que muestra el procedimiento de extender una matriz de pfxeles de lfmite horizontal realizado segun un modo de realizacion de la presente invencion,

La figura 13 es un diagrama de flujo que muestra otro modo de realizacion de extender una matriz de pfxeles de lfmite horizontal,

La figura 14 un diagrama de flujo que muestra el procedimiento de intra-prediccion de baja complejidad realizado segun otro modo de realizacion de la presente invencion,

Descripcion detallada de los dibujos y los modos de realizacion actualmente preferidos

5

10

15

20

25

30

35

40

45

50

55

60

65

La figura 1 muestra una arquitectura de hardware a modo de ejemplo de un ordenador 100 en el que puede implementarse la presente invencion. Observese que la arquitectura de hardware mostrada en la figura 1 puede ser comun tanto en un codificador de video como en un descodificador de video que implementan los modos de realizacion de la presente invencion. El ordenador 100 incluye un procesador 101, memoria 102, dispositivo de almacenamiento 105 y uno o mas dispositivos de entrada y/o salida (E/S) 106 (o perifericos) que estan acoplados en comunicacion a traves de una interfaz 107 local. La interfaz 105 local puede ser, por ejemplo, pero sin limitacion, uno o mas buses u otras conexiones por cable o inalambricas, tal como se conoce en la tecnica.

El procesador 101 es un dispositivo de hardware para ejecutar software, particularmente el almacenado en la memoria 102. El procesador 101 puede ser cualquier procesador fabricado a medida o comercialmente disponible, una unidad de procesamiento central (CPU), un procesador auxiliar entre varios procesadores asociados con el ordenador 100, un microprocesador basado en semiconductor (en forma de un microchip o conjunto de chips) o generalmente cualquier dispositivo para ejecutar instrucciones de software.

La memoria 102 comprende un medio legible por ordenador que puede incluir uno cualquiera o una combinacion de elementos de memoria volatil (por ejemplo, memoria de acceso aleatorio (RAM, tal como DRAM, SRAM, SDRAM, etc.)) y elementos de memoria no volatil (por ejemplo, ROM, disco duro, cinta, CD-ROM, etc.). Ademas, la memoria 102 puede incorporar medios de almacenamiento electronicos, magneticos, opticos y/o de otros tipos. Un medio legible por ordenador puede ser cualquier medio que pueda almacenar, comunicar, propagar o transportar el programa para su uso por o en conexion con el sistema, aparato o dispositivo de ejecucion de instrucciones. Observese que la memoria 102 puede tener una arquitectura distribuida, en la que diversos componentes estan situados alejados unos de otros, pero a los que puede acceder el procesador 101.

El software 103 en la memoria 102 puede incluir uno o mas programas separados, cada uno de los cuales contiene una lista ordenada de instrucciones ejecutables para implementar funciones logicas del ordenador 100, tal como se describe a continuacion. En el ejemplo de la figura 1, el software 103 en la memoria 102 define la funcionalidad de codificacion de video o descodificacion de video del ordenador 100 segun la presente invencion. Ademas, aunque no se requiere, es posible que la memoria 102 contenga un sistema operativo (S/O) 104. El sistema operativo 104 controla esencialmente la ejecucion de programas informaticos y proporciona planificacion, control de entrada-salida, gestion de archivos y datos, gestion de memoria y control de comunicacion y servicios relacionados.

El dispositivo de almacenamiento 105 del ordenador 100 puede ser uno de muchos tipos diferentes de dispositivo de almacenamiento, incluyendo un dispositivo de almacenamiento estacionario o dispositivo de almacenamiento portatil. Como ejemplo, el dispositivo de almacenamiento 105 puede ser una cinta magnetica, disco, memoria flash, memoria volatil o un dispositivo de almacenamiento diferente. Ademas, el dispositivo de almacenamiento 105 puede ser una tarjeta de memoria digital segura o cualquier otro dispositivo de almacenamiento 105 extrafble.

Los dispositivos de E/S 106 pueden incluir dispositivos de entrada, por ejemplo, pero sin limitacion, una pantalla tactil, un teclado, raton, escaner, microfono u otro dispositivo de entrada. Ademas, los dispositivos de E/S 106 tambien pueden incluir dispositivos de salida, por ejemplo, pero sin limitacion, una pantalla u otros dispositivos de salida. Los dispositivos de E/S 106 pueden incluir ademas dispositivos que se comunican a traves tanto de entradas como de salidas, por ejemplo, pero sin limitacion, un modulador/desmodulador (modem; para acceder a otro dispositivo, sistema o red), un transceptor de radiofrecuencia (RF), inalambrico u otro, una interfaz telefonica, un puente, un enrutador u otros dispositivos que funcionan como entrada y como salida.

Tal como conocen bien los expertos habituales en la tecnica, la compresion de video se logra eliminando informacion redundante en una secuencia de video. Existen muchas normas diferentes de codificacion de video, ejemplos de las cuales incluyen MPEG-1, MPEG-2, MPEG-4, H.261, H.263 y H.264/AVC. Debe observarse que no se pretende limitar la presente invencion en cuanto a la aplicacion de cualquier norma de codificacion de video espedfica. Sin embargo, la siguiente descripcion de la presente invencion se proporciona usando el ejemplo de la norma H.264/AVC. H.264/AVC es la norma de codificacion de video mas reciente y logra una mejora de rendimiento significativa con respecto a las normas de codificacion anteriores tales como MPEG-1, MPEG-2, H.261 y H.263.

En H.264/AVC, cada trama o imagen de un video puede descomponerse en varios segmentos. Los segmentos se dividen entonces en bloques de 16x16 pfxeles denominados macrobloques, que despues pueden dividirse adicionalmente en bloques de 8x16, 16x8, 8x8, 4x8, 8x4, hasta 4x4 pfxeles. Hay cinco tipos de segmentos soportados por H.264/AVC. En los segmentos I, todos los macrobloques se codifican usando intra-prediccion. En los segmentos P, los macrobloques pueden codificarse usando intra o inter-prediccion. Los segmentos P solo permiten usar una senal de prediccion compensada por movimiento (MCP) por macrobloque. En los segmentos B, pueden codificarse macrobloques usando intra o inter-prediccion. Pueden usarse dos senales de MCP por prediccion. Los segmentos SP permiten conmutar segmentos P entre diferentes flujos de video de manera eficaz. Un segmento SI es una coincidencia exacta para un segmento SP para acceso aleatorio o recuperacion de error, mientras que solo se usa intra-prediccion.

La figura 2 muestra una vista general de un codificador de video al que se le puede aplicar la presente invencion.

5

10

15

20

25

30

35

40

45

50

55

60

65

Los bloques mostrados en la figura representan modulos funcionales realizados por el procesador 101 que ejecuta el software 103 en la memoria 102. Se alimenta una imagen 200 de trama de v^deo a un codificador de v^deo 201. El codificador de v^deo trata la imagen 200 en unidades de macrobloques 200A. Cada macrobloque contiene varios pfxeles de imagen 200. En cada macrobloque se realiza una transformacion en coeficientes de transformacion seguida por una cuantificacion en niveles de coeficientes de transformacion. Ademas, se usa intra-prediccion o inter- prediccion, para no realizar las etapas de codificacion directamente en los datos de pixel sino en las diferencias de los mismos con respecto a valores de pixel predichos, logrando asf valores pequenos que se comprimen mas facilmente.

Para cada segmento, el codificador 201 genera varios elementos de sintaxis, que forman una version codificada de los macrobloques del segmento respectivo. Todos los elementos de datos residuales en los elementos de sintaxis, que estan relacionados con la codificacion de coeficientes de transformacion, tales como los niveles de coeficientes de transformacion o un mapa de significacion que indica niveles de coeficientes de transformacion omitidos, se denominan elementos de sintaxis de datos residuales. Ademas de estos elementos de sintaxis de datos residuales, los elementos de sintaxis generados por el codificador 201 contienen elementos de sintaxis de informacion de control que contienen informacion de control sobre como se ha codificado cada macrobloque y como tiene que descodificarse, respectivamente. En otras palabras, los elementos de sintaxis pueden dividirse en dos categonas. La primera categona, los elementos de sintaxis de informacion de control, contiene los elementos relacionados con un tipo de macrobloque, tipo de sub-macrobloque e informacion sobre modos de prediccion de tipos tanto espacial como temporal, asf como informacion de control basada en segmento y basada en macrobloque, por ejemplo. En la segunda categona, todos los elementos de datos residuales, tales como un mapa de significacion que indica las ubicaciones de todos los coeficientes significativos dentro de un bloque de coeficientes de transformacion cuantificados y los valores de los coeficientes significativos, que se indican en unidades de niveles correspondientes a las etapas de cuantificacion, se combinan y se convierten en elementos de sintaxis de datos residuales.

El codificador 201 comprende un codificador de entropfa que codifica elementos de sintaxis y genera contrasenas aritmeticas para cada segmento. Cuando se generan las contrasenas aritmeticas para un segmento, el codificador de entropfa aprovecha dependencias estadfsticas entre los valores de datos de elementos de sintaxis en el flujo de bits de la senal de video. El codificador 201 emite una senal de video codificada para un segmento de imagen 200 a un descodificador de video 301 mostrado en la figura 3.

La figura 3 muestra una vista general de un descodificador de video al que se le puede aplicar la presente invencion. Asimismo, los bloques mostrados en la figura representan modulos funcionales realizados por el procesador 101 que ejecuta el software 103 en la memoria 102. El descodificador de video 301 recibe la senal de video codificada y en primer lugar realiza la descodificacion de entropfa de la senal de vuelta a los elementos de sintaxis. El descodificador 301 usa los elementos de sintaxis para reconstruir, macrobloque por macrobloque y despues segmento por segmento, las muestras 300A de imagen de pfxeles en la imagen 300.

La figura 4 muestra los modulos funcionales del codificador de video 201. Estos modulos funcionales se realizan mediante el procesador 101 que ejecuta el software 103 en la memoria 102. Una imagen de video de entrada es una trama o un campo de una imagen de video natural (sin comprimir) definida por puntos de muestra que representan componentes de colores originales, tales como crominancia (“croma”) y luminancia (“luma”) (otras componentes son posibles, por ejemplo, tono, saturacion y valor). La imagen de video de entrada se divide en macrobloques 400 que representan cada uno un area de imagen cuadrada que consiste en 16x16 pfxeles de la componente luma del color de la imagen. La imagen de video de entrada tambien se reparte en macrobloques que representan cada uno 8x8 pfxeles de cada una de las dos componentes de croma del color de la imagen. En el funcionamiento de codificador general, los macrobloques introducidos pueden predecirse de manera temporal o espacial usando inter o intra- prediccion. Sin embargo, con el proposito de discusion, se supone que los macrobloques 400 son todos macrobloques de tipo segmento I y se someten unicamente a intra-prediccion.

La intra-prediccion se logra en un modulo de intra-prediccion 401, cuyo funcionamiento se analizara con detalle a continuacion. El modulo de intra-prediccion 401 genera un bloque de prediccion 402 a partir de pfxeles de lfmite horizontal y vertical de bloques adyacentes, que se han codificado, reconstruido y almacenado anteriormente en una memoria de trama 403. Un residuo 404 del bloque de prediccion 402, que es la diferencia entre un bloque objetivo 400 y el bloque de prediccion 402, se transforma, ajusta a escala y cuantifica en un modulo de transformacion/cuantificacion 405, usando metodos y tecnicas conocidas por los expertos en el campo de la codificacion de video. Entonces se someten los coeficientes de transformacion cuantificados 406 a codificacion de entropfa en un modulo de codificacion de entropfa 407 y se transmiten (junto con otra informacion relacionada con la intra-prediccion) como una senal de video codificada 408.

El codificador de video 201 contiene funcionalidad de descodificacion para realizar la intra-prediccion en bloques objetivo. La funcionalidad de descodificacion comprende un modulo de cuantificacion/transformacion inverso 409, que realiza la cuantificacion inversa y la transformacion inversa en los coeficientes de transformacion cuantificados 406 para producir el residuo de prediccion descodificado 410, que se anade al bloque de prediccion 402. La suma del residuo de prediccion descodificado 410 y el bloque de prediccion 402 es un bloque reconstruido 411, que se almacena en la memoria de trama 403 y se leera de la misma y sera utilizado por el modulo de intra-prediccion 401

5

10

15

20

25

30

35

40

45

50

55

60

65

para generar un bloque de prediccion 402 para descodificar un siguiente bloque objetivo 400.

La figura 5 es un diagrama de flujo que muestra procedimientos realizados por el modulo de intra-prediccion 401. Segun la norma H.264/AVC, la intra-prediccion implica predecir cada pixel del bloque objetivo 400 en una pluralidad de modos de prediccion, usando interpolaciones de pfxeles de lfmite (“pfxeles de referenda”) de bloques adyacentes anteriormente codificados y reconstruidos. Los modos de prediccion se identifican mediante numeros enteros positivos 0, 1, 2..., cada uno asociado con una instruccion o un algoritmo diferente para predecir pfxeles espedficos en el bloque objetivo 400. El modulo de intra-prediccion 401 ejecuta una intra-prediccion en los modos de prediccion respectivos y genera diferentes bloques de prediccion. En un algoritmo de busqueda completa (“FS”), cada uno de los bloques de prediccion generados se compara con el bloque objetivo 400 para encontrar el modo de prediccion optimo, lo cual minimiza el residuo de prediccion 404 o produce un residuo de prediccion 404 menor entre los modos de prediccion. La identificacion del modo de prediccion optimo se comprime y se envfa al descodificador 301 con otros elementos de sintaxis de informacion de control.

Cada modo de prediccion puede describirse por una direccion general de prediccion tal como se describe verbalmente (es decir, horizontal hacia arriba, vertical y diagonal hacia abajo y a la izquierda). Una direccion de prediccion puede describirse graficamente mediante una direccion angular que se expresa a traves de un diagrama con flechas tal como se muestra en la figura 7. En este tipo de diagrama, puede considerarse que cada flecha representa una direccion de prediccion o un modo de prediccion. El angulo correspondiente a un modo de prediccion tiene una relacion general con respecto a la direccion desde la ubicacion promedio ponderada de los pfxeles de referencia usados para predecir un pixel objetivo en la ubicacion de pixel objetivo. Observese que los modos de prediccion incluyen un modo de prediccion DC que no esta asociado con ninguna direccion de prediccion y, por tanto, no puede describirse graficamente en el diagrama al contrario que los demas modos de prediccion. En el modo de prediccion DC, el bloque de prediccion 402 se genera de tal manera que cada pixel en el bloque de prediccion 402 se establece uniformemente al valor medio de los pfxeles de referencia.

Volviendo a la figura 5, el modo de prediccion se inicia en la etapa 501. Entonces se determina, en la etapa 502, si el modo de prediccion indica la prediccion DC. Si es asf, el flujo avanza a la etapa 503, en la que se genera un bloque de prediccion 402 DC con el valor medio de los pfxeles de referencia en la etapa 503. Si el modo de prediccion indica otra cosa, se genera un bloque de prediccion 402 segun la instruccion o el algoritmo asociado con el modo de prediccion en la etapa 504, cuyo procedimiento se analizara en detalle a continuacion. Tras la etapa 503 o 504, el flujo avanza a la etapa 505, en la que se determina si los bloques de prediccion se generan para todos los modos de prediccion. Si se ejecuta intra-prediccion en todos los modos de prediccion, el flujo avanza a la etapa 506. De lo contrario, el modo de prediccion se aumenta en la etapa 507 y el flujo vuelve a la etapa 502. En la etapa 506, se compara cada uno de los bloques de prediccion generados con el bloque objetivo 400 para determinar el modo de prediccion optimo, que minimiza el residuo de prediccion 404.

La figura 6 muestra los modulos funcionales del descodificador de video 301. Estos modulos funcionales se realizan mediante el procesador 101 que ejecuta el software 103 en la memoria 102. La senal de video codificada del codificador 201 es recibida en primer lugar por un descodificador de entropfa 600 y se somete a descodificacion de entropfa para obtener de nuevo coeficientes de transformacion cuantificados 601. Los coeficientes de transformacion cuantificados 601 se someten a cuantificacion inversa y se transforman mediante un modulo de cuantificacion/transformacion inverso 602 para generar un residuo de prediccion 603. Se notifica a un modulo de intra-prediccion 604 del modo de prediccion seleccionado por el codificador 201. Segun el modo de prediccion seleccionado, el modulo de intra-prediccion 604 realiza un procedimiento de intra-prediccion similar al realizado en las etapas 502, 503 y 504 de la figura 5 para generar un bloque de prediccion 605, usando pfxeles de lfmite de bloques adyacentes anteriormente reconstruidos y almacenados en una memoria 606 de trama. El bloque de prediccion 605 se anade al residuo de prediccion 603 para reconstruir un bloque de senal de video descodificada 607. El bloque 607 reconstruido se almacena en la memoria 606 de trama para su uso en la prediccion de un bloque siguiente.

Se facilitara una descripcion detallada de la siguiente manera sobre el procedimiento de la etapa 504 realizado por los modulos de intra-prediccion 401 y 604 para generar un bloque de prediccion en uno de los modos de prediccion, excepto el modo de prediccion DC. H.264/AVC soporta prediccion intra_4x4, prediccion intra_8x8 y prediccion intra_16x16. La prediccion intra_4x4 se usa comunmente cuando hay un detalle significativo en la imagen. La prediccion intra_4x4 predice los dieciseis bloques de luma 4x4 dentro de un macrobloque de manera individual. La prediccion intra_4x4 se realiza en nueve modos de prediccion, incluyendo un modo de prediccion DC. Las direcciones de prediccion espacial a lo largo de las cuales se realiza la prediccion intra_4x4 se muestran en la figura 7. La prediccion intra_8x8 se realiza en nueve modos de prediccion, incluyendo un modo de prediccion DC. La prediccion intra_16x16 se realiza en cuatro modos de prediccion, incluyendo un modo de prediccion DC.

Estudios recientes muestran que un aumento en el numero de direcciones de prediccion o un aumento en el numero de modos de prediccion, contribuye generalmente a mejorar la eficacia de compresion en la codificacion de video. Veanse, por ejemplo, los documentos n.os JCT-VC A119 (“Angular intra prediction”) y JCT-VC A124 (“Arbitrary direction intra”) presentados al Joint Collaborative Team on Video Coding (JCT-VC) ambos de los cuales se incorporan en el presente documento como referencia. Un aumento en el numero de direcciones de prediccion

5

10

15

20

25

30

35

40

45

50

55

60

65

conduce a un aumento en el numero de intervalos angulares de direcciones de prediccion disponibles y, por tanto, a un aumento en el numero de candidates de bloque de prediccion. El numero aumentado de candidates de bloque de prediccion simplemente aumenta las posibilidades de tener un bloque de prediccion que sea casi el mismo que un bloque objetivo que va a codificarse. La figura 8 es un diagrama que muestra las direcciones de prediccion propuestas en el documento n.° JCT-VC A119. En la figura 8, los pfxeles de referencia consisten en diecisiete (17) pfxeles horizontales y diecisiete (17) pfxeles verticales, en los que el pixel superior izquierdo es comun a los lfmites tanto horizontal como vertical. Por tanto, hay 33 direcciones de prediccion diferentes disponibles para generar pfxeles de prediccion en un bloque 8x8. JCT-VC A124 propone una intra-prediccion direccional arbitraria en la que el numero de direcciones de prediccion se ajusta segun el tamano de un bloque que va a predecirse.

La figura 9 es un diagrama de flujo que muestra el procedimiento, propuesto en el documento JCT-VC A119, de generar un bloque de prediccion a lo largo de una de las direcciones de prediccion mostradas en la figura 8. En la siguiente descripcion del procedimiento, algunos algoritmos se simplifican para facilitar la explicacion. Ademas, el procedimiento descrito se limita a la intra-prediccion a lo largo de una direccion de prediccion que es principalmente vertical. La intra-prediccion a lo largo de una direccion de prediccion que es principalmente horizontal, puede implementarse de manera simetrica al procedimiento mostrado en la figura 9, tal como se demuestra en el software proporcionado por el documento JCT-VC A119. Aunque la figura 8 muestra un bloque 8x8 que va a predecirse, el procedimiento mostrado en la figura 9 puede expandirse para aplicarse a diversos numeros de pfxeles en diferentes configuraciones. Por ejemplo, un bloque que va a predecirse puede comprender una matriz 4x4 de pfxeles. Un bloque de prediccion tambien puede comprender una matriz 8x8 de pfxeles, una matriz 16x16 de pfxeles o matrices mas grandes de pfxeles. Otras configuraciones de pfxeles, incluyendo matrices tanto cuadradas como rectangulares, tambien pueden constituir un bloque de prediccion.

En la etapa 900 en la figura 9, se leen pfxeles de referencia en lfmites horizontal y vertical, que se encuentran inmediatamente por encima y a la izquierda de un bloque objetivo, respectivamente, a partir de bloques adyacentes que se han codificado, reconstruido y almacenado anteriormente en una memoria de trama, tal como la memoria 403 mostrada en la figura 4. Los pfxeles del lfmite horizontal se almacenan en un area de memoria denominada “refH”. Los pfxeles del lfmite vertical se almacenan en otra area de memoria denominada “refV”. Volviendo a la figura 8, los pfxeles de referencia se identifican mediante sus coordenadas en un sistema de coordenadas que tiene el origen en la posicion de pixel superior izquierda en el bloque 8x8. Por tanto, los pfxeles de lfmite horizontal tienen coordenadas expresadas por p[x, y] con x = 0, 1...16 e y = 0. Los pfxeles de lfmite vertical tienen coordenadas expresadas por p[x, y] con x = 0, y = 0, -1, -2...-16.

Se supone que los pfxeles de lfmite horizontal almacenados en el area de memoria refH se identifican mediante una direccion logica (x) con x = 0, 1...16 y que los pfxeles de lfmite vertical almacenados en el area de memoria refV se identifican igualmente mediante una direccion logica (y) con y = 0, -1, -2...-16, donde cada pixel se almacena en la direccion que tiene el numero en la coordenada de la cual se lee. Por tanto, a medida que se representan graficamente los pfxeles horizontales y verticales en la figura 8, puede considerarse que las areas de memoria refH y refV se extienden de manera lineal y ortogonal entre sf y que tienen, cada una, una longitud de 2 x size + 1, donde “size” es un parametro que representa el tamano del bloque objetivo. Se supone que “size” tiene un valor igual a una potencia entera de 2, tal como 4, 8, 16... Opcionalmente puede aplicarse un filtro de paso bajo, tal como se describe en la seccion 8.3.2.2.1 en H.264/AVC, a los pfxeles en refH y refV.

En la etapa 901, se establece un contador denominado “row” a cero (“0”). El contador row adopta un valor de desde 0 hasta size e indica una posicion de fila de un pixel de prediccion en el bloque de prediccion. En la etapa 902, se calcula un parametro denominado “pos” mediante angle X (row+1). angle es un parametro que tiene un numero fraccionario en una representacion de puntos fijos. Como tal, angle esta formado por una parte entera y una parte fraccionaria, y la parte fraccionaria consiste en un numero fijado de dfgitos binarios. angle representa una de las direcciones de prediccion mostradas en la figura 8. Por ejemplo, “angle = -size" identifica la direccion de prediccion que pasa a traves de las coordenadas [x = 0, y = 0] en la figura 8. Un angle que tiene un valor positivo identifica una direccion de prediccion que interseca unicamente el lfmite horizontal, mientras que un angle que tiene un valor negativo identifica una direccion de prediccion que interseca los lfmites tanto horizontal como vertical. angle vana dentro de un intervalo determinado por el numero de direcciones de prediccion deseadas que van a usarse. Tal como se propone en el documento JCT-VC A124, el numero de direcciones de prediccion que van a usarse puede determinarse segun el tamano de un bloque que va a predecirse. En la siguiente descripcion, se supone que angle adopta un numero fraccionario que vana dentro de un intervalo desde “-size" hasta “size". Observese que los lfmites de intervalo de angle pueden definirse con otros valores.

Al igual que angle, el parametro pos consiste en una parte entera y una parte fraccionaria, y la parte fraccionaria del mismo consiste en un numero fijado de dfgitos binarios, que es igual al logaritmo en base 2 del lfmite de intervalo de angle, que puede expresarse mediante log2_size segun la suposicion anterior de que el lfmite de intervalo de angle se establece al size. pos identifica la posicion de una interseccion entre el lfmite horizontal y la direccion de prediccion representada por angle. Volviendo a la etapa 902, la operacion “pos >> log2_size" identifica un numero entero numero en pos, que se almacena en un parametro “int", y la operacion “pos & (size -1)” identifica un numero fraccionario en pos, que se almacena en un parametro “frac". El operador “>>” representa un desplazamiento aritmetico a la derecha de dfgitos binarios. El operador “&” representa la operacion “y” relacionada con los bits.

5

10

15

20

25

30

35

40

45

50

55

60

En la etapa 903, se determina si angle tiene un valor igual o superior a cero (“0”). Si angle tiene un valor igual o superior a cero, el flujo avanza a la etapa 904. De lo contrario, el flujo avanza a la etapa 913. angle igual o superior a cero sugiere que solo es posible basarse en los pfxeles de referencia ubicados en el lfmite horizontal o almacenados en refH, para obtener pfxeles de prediccion en un bloque de prediccion. Por otro lado, angle inferior a cero sugiere que se necesitan pfxeles de referencia ubicados en el lfmite vertical o almacenados en refV, para obtener pfxeles de prediccion en el bloque de prediccion.

En la etapa 904, se determina si frac es distinto de cero. Si frac es distinto de cero, el flujo avanza a la etapa 905. Si frac es cero, el flujo avanza a la etapa 906. frac igual a cero sugiere que puede copiarse un pixel de prediccion en el bloque de prediccion directamente de un pixel de referencia en el lfmite horizontal. frac distinto de cero sugiere que la direccion de prediccion interseca el lfmite horizontal en una posicion distinta de un numero entero, y se necesita una interpolacion de mas de un pixel de referencia para obtener un pixel de prediccion en el bloque de prediccion.

En la etapa 905, un contador denominado “cor se establece a cero (“0”). El contador col se usa para abordar un pixel de referencia en refH. En la etapa 907, se recuperan dos pfxeles de referencia identificados por “int + col + 1” e “int + col + 2” de refH. Se calcula el promedio ponderado de estos dos pfxeles de referencia o se interpolan con frac para obtener un pixel de prediccion v. Espedficamente, se multiplica un pixel de referencia en refH identificado por “int + col + 1” por “size - frac" y se almacena en un parametro a. Se multiplica un pixel de referencia en refH identificado por “int + col + 2” por “franc" y se almacena en un parametro b. Despues se suman los parametros a y b y se dividen entre size, es decir, (size - frac) + frac. La division entre size puede sustituirse por desplazamiento a la derecha mediante log2_size. El pixel de prediccion obtenido v se almacena en una matriz de areas de memoria denominada “pred”, que representa un bloque de prediccion para el bloque objetivo en una direccion de prediccion particular. Cada area de memoria en pred se identifica mediante los parametros row y col. Despues, se aumenta col en 1 en la etapa 908 y se compara con size en la etapa 909. Siempre que col sea menor que size, se repiten las etapas 907 y 908. Cuando col se vuelve igual a size, el flujo avanza a la etapa 920.

Si se determina que frac es cero en la etapa 904, el contador col se establece a cero en la etapa 906. En la etapa 910, se copia el pixel de prediccion v directamente de refH (int + col + 1) y despues se almacena en el area de memoria correspondiente en pred. Entonces se aumenta col en 1 en la etapa 911 y se compara con size en la etapa 912. Siempre que col sea menor que size, se repiten las etapas 910 y 911. Cuando col se vuelve igual a size, el flujo avanza a la etapa 920.

Volviendo a la etapa 903, angle inferior a cero requiere pfxeles de referencia de refV para obtener pfxeles de prediccion en el bloque de prediccion. El contador col se establece a cero en la etapa 913. Entonces se determina, en la etapa 914, si “int + col + 1” es inferior a cero. “int + col + 1” igual o superior a cero sugiere que todavfa solo es posible basarse en los pfxeles de referencia almacenados en refH para obtener pfxeles de prediccion en el bloque de prediccion y el flujo avanza a la etapa 915. El procedimiento realizado en la etapa 915 es similar al de la etapa 907, y no se repetira la descripcion del mismo aqrn. Entonces se aumenta col en 1 en la etapa 916 y se compara con size en la etapa 917. Siempre que col sea menor que size, se repiten las etapas 914, 915 y 916. Cuando col se vuelve igual a size, el flujo avanza a la etapa 920.

Si se determina que “int + col + 1” es inferior a cero en la etapa 914, se necesitan pfxeles de referencia almacenados en refV para obtener pfxeles de prediccion en el bloque de prediccion. En la etapa 918, en primer lugar se determina la posicion de una interseccion entre el lfmite vertical y una direccion de prediccion. En la etapa 918, la posicion se representa mediante pos2. Observese que en la etapa 902, pos, es decir, la posicion de una interseccion entre el lfmite horizontal y una direccion de prediccion, se determina mediante “angle X (row + 1)”. Dado que angle representa una proporcion de diferencias horizontal y vertical, se calcula “angle"1 X (col + 1)”, en lugar de “angle x (row + 1)”, para determinar la posicion de una interseccion entre el lfmite vertical y una direccion de prediccion. Tal como se supuso anteriormente, angle esta dentro del intervalo de -size a size (-size < angle < size). Por tanto, una proporcion a entre angle y size se define mediante:

Entonces, angle'1 se define mediante:

a =

angle

size

(-1 <a< 1).

angle

size

----o

a

imagen1

Como tal, pos2 se determina en la etapa 918 con el cuadrado de size multiplicado por col + 1 y despues dividido entre el valor absoluto de angle de la siguiente manera:

5

10

15

20

25

30

35

40

45

50

55

60

pos2 =

size2 x(co/ +1) \angle\

Al igual que pos, pos2 tiene un numero fraccionario en una representacion de puntos fijos que esta formado por una parte entera y una parte fraccionaria. La parte fraccionaria consiste en el numero de dfgitos binarios determinados por log2_size. La parte entera de pos2 se almacena en un parametro int2 y la parte fraccionaria de pos2 se almacena en un parametro frac2. En la etapa 919, se recuperan dos pfxeles de referencia identificados mediante “int2 + row + 1” e “int2 + row + 2” de refV. Se calcula el promedio ponderado de estos dos pfxeles de referencia o se interpolan con frac2 para obtener un pixel de prediccion v. Espedficamente, se multiplica un pixel de referencia de refV (int2 + row + 1) por “size - frac2" y se almacena en un parametro a. Se multiplica un pixel de referencia de refV (int2 + row + 2) por “frac2" y se almacena en un parametro b. Entonces se suman los parametros a y b y se dividen entre size o se desplazan a la derecha mediante log2_size. El pixel de prediccion obtenido v se almacena en el area de memoria correspondiente de pred. Se repiten las etapas 914, 918, 919 y 916 hasta que col se vuelve igual a size en la etapa 917.

En la etapa 920, se aumenta row en 1. Entonces se determina, en la etapa 921, si row es menor que size. Siempre que row sea menor que size, se repiten las etapas desde la etapa 902 para obtener un pixel de prediccion en el bloque de prediccion. El flujo termina cuando row se vuelve igual a size en la etapa 921.

Tal como se ha mencionado anteriormente, un aumento en el numero de candidatos de bloque de prediccion contribuye a mejorar la eficacia de codificacion, mientras que un aumento en el numero de candidatos de bloque de prediccion conduce a un aumento en la carga de trabajo computacional. Por lo tanto, con el fin de aumentar el numero de candidatos de bloque de prediccion para asf mejorar la eficacia de codificacion, se necesita revisar el procedimiento de generacion de un candidato de bloque de prediccion para lograr mayor eficacia del procedimiento. Al revisar el procedimiento mostrado en la figura 9, pueden identificarse dos cuellos de botella computacionales. El primer cuello de botella computacional es la operacion de comparacion y ramificacion de la etapa 914, que se repite dentro del bucle. El segundo cuello de botella computacional es la operacion de division de la etapa 918, que tambien se repite dentro del bucle.

En la actualidad, se dispone de arquitecturas de una instruccion, multiples datos (SIMD) para un calculo eficaz. SIMD permite que ordenadores con multiples elementos de procesamiento realicen la misma operacion con multiples datos simultaneamente. Sin embargo, las arquitecturas SIMD tfpicas no soportan la implementacion de division y calculo/ramificacion en un bucle y, por lo tanto, no pueden usarse para implementar el procedimiento mostrado en la figura 9 debido a la inclusion de las etapas 914 y 918 en el bucle, aunque los bucles que comienzan en las etapas 907 y 910 son lo suficientemente robustos como para implementarse con SIMD. Por lo tanto, un objetivo de la presente invencion es eliminar los cuellos de botella computacionales del procedimiento mostrado en la figura 9 y proporcionar intra-prediccion de baja complejidad, que permite que arquitecturas SIMD tfpicas implementen procesamiento en paralelo a lo largo de todas las direcciones de prediccion mostradas en la figura 8.

La figura 10 es un diagrama de flujo que muestra el procedimiento de intra-prediccion de baja complejidad segun un modo de realizacion de la presente invencion, que esta disenado para sustituir al procedimiento de la figura 9 en la implementacion del procedimiento en la etapa 504 de la figura 5. En la figura 10, las mismas etapas de procedimiento que las realizadas en la figura 9 se identifican con los mismos numeros de etapa que los usados en la figura 9, tales como las etapas 900, 901, 902, 904, 905, 906, 907, 908, 909, 910, 911, 912, 920 y 921. La descripcion de estas etapas comunes no se repite aqrn. Las etapas 1000 y 1001 son etapas particulares del procedimiento de la figura 10. Tal como resulta evidente a partir de una comparacion con el procedimiento mostrado en la figura 9, el procedimiento de la figura 10 elimina la etapa de comparacion de la etapa 903 y todas las etapas que se ramifican hacia la izquierda desde la etapa 903, que se realizan cuando angle es inferior a cero, eliminando asf los cuellos de botella computacionales de las etapas 914 y 918.

En las etapas 1000 y 1001 anadidas, se determina si angle es igual o superior a -1. Cuando angle es igual o superior a -1, los pfxeles de referencia ubicados en el lfmite horizontal son suficientes para generar un pixel de prediccion en el bloque de prediccion, y no se necesitan los pfxeles de referencia en el lfmite vertical. Por otro lado, cuando angle es inferior a -1, se necesitan pfxeles de referencia en el lfmite vertical para generar un pixel de prediccion en el bloque de prediccion. En la etapa 1001, se extienden pfxeles de referencia almacenados en refH en la direccion negativa, usando al menos algunos de los pfxeles almacenados en refV. Las figuras 11A y 11B son representaciones esquematicas que muestran la extension de refH realizada en la etapa 1001. En la figura 11A, los pfxeles de referencia 1102 almacenados en refH son del lfmite horizontal ubicado por encima del bloque objetivo 1101. Los pfxeles de referencia 1103 almacenados en refV son del lfmite vertical ubicado a la izquierda del bloque objetivo 1101. Tal como se muestra en la figura 11B, tras la etapa 1001 de la figura 10, algunos de los pfxeles de referencia en refV se copian en refH, y refH tiene una parte extendida 1104 que se extiende en la direccion negativa.

La figura 12 es un diagrama de flujo que muestra detalles del procedimiento realizado en la etapa 1001. En la etapa 1201, se establece un contador col a -1. Se usa col para identificar una direccion de la parte extendida de refH. En la

5

10

15

20

25

30

35

40

45

50

55

etapa 1202, un pixel de referencia en refV que va a copiarse en la parte extendida de refH se identifica mediante:

size x col angle

La division en la ecuacion anterior es una division de numeros enteros y la ecuacion produce un numero entero. La ecuacion funciona de manera similar al procedimiento de la etapa 918 mostrada en la figura 9. En la etapa 918, se calcula un valor de numero entero de pos2 mediante:

imagen2

Observese que el desplazamiento a la derecha mediante log2_size es equivalente a la division entre size.

En la etapa 1203, se reduce col en 1. Despues se determina, en la etapa 1204, si col es igual a angle. Si col no es igual a angle, el flujo vuelve a la etapa 1202. Se repiten las etapas 1202 y 1203 hasta que col se vuelve igual a angle. Por lo tanto, se leen pfxeles de referencia de refV en el orden ascendente, o desde la parte superior hasta la parte inferior del lfmite vertical, y se copian en refH tambien en el orden descendente, o desde la derecha hasta la izquierda del lfmite horizontal. Ademas, no todos los pfxeles de referencia en refV se copian en refH. Solo los pfxeles de referencia ubicados dentro del intervalo desde la parte superior hasta la interseccion de una direccion de prediccion se copian de refV en refH.

Volviendo a la figura 10, las etapas de procedimiento comenzando desde la etapa 902 se copian de la figura 9, e incluyen las etapas para generar pfxeles de prediccion ramificadas hacia la derecha desde la etapa de comparacion de la etapa 903 en la figura 9. Sin embargo, observese que las etapas en la figura 10 para generar pfxeles de prediccion usan refH extendido (una suma de las partes 1102 + 1104 en la figura 11B), mientras que las etapas correspondientes en la figura 9 usan refH original (parte 1102 en la figura 10A). Dado que refH se extiende en la direccion negativa, no se necesita una operacion de intra-prediccion separada disenada espedficamente para usar pfxeles de referencia almacenados en refV, tal como se ramifica hacia la izquierda desde la etapa 903 en la figura 9, independientemente del signo de angle.

La figura 13 es un diagrama de flujo que muestra otro modo de realizacion del procedimiento para extender refH, usando pfxeles de referencia en refV. El procedimiento mostrado en las figuras 11 y 12 elimina las etapas de cuello de botella de las etapas 914 y 918 mostradas en la figura 9 y, por lo tanto, se espera que mejore la eficacia del procedimiento de intra-prediccion. El procedimiento mostrado en la figura 13 elimina la operacion de division realizada en la etapa 1202 de la figura 12 del bucle para copiar pfxeles de referencia de refV en refH. Al eliminar la operacion de division del bucle, se espera que el procedimiento mostrado en la figura 13 mejore adicionalmente la eficacia del procedimiento de intra-prediccion.

El procedimiento mostrado en la figura 13 sustituye la etapa 1202 de la figura 12 por las etapas 1301 y 1302. La etapa 1302 esta dentro del bucle para copiar pfxeles de referencia de refV en refH, mientras que la etapa 1301 esta fuera del bucle. La etapa 1301 introduce un nuevo parametro denominado “InvAngle". InvAngle se define mediante:

imagen3

La multiplicacion por 256 es equivalente a un desplazamiento a la izquierda mediante 8 y garantiza que cada bit resultante de la operacion de “size/angle" representa el calculo de identificar un pixel de referencia en refV. En la etapa 1302, la direccion de un pixel de referencia en refV que va a copiarse en la parte extendida de refH se identifica mediante:

col x InvAngle » 8 .

El resultado de “col x InvAngle" se somete a desplazamiento a la derecha de 8 para deshacer la operacion de desplazamiento a la izquierda realizada en la etapa 1301. Observese que la operacion de desplazamiento a la derecha en la etapa 1302 funciona para redondear a la baja el resultado de “col x InvAngle". Para redondear al numero entero mas proximo, puede anadirse una compensacion de redondeo de 128 al resultado de “col x InvAngle" antes de realizar la operacion de desplazamiento a la derecha. Debe observarse que el numero “256” solo es un ejemplo, y la etapa 1301 puede adoptar otro numero de compensacion, preferiblemente una potencia entera de 2, siempre que el numero sea lo suficientemente grande como para conservar todos los bits resultantes de la operacion de “size/angle". Por ejemplo, el numero puede ser 64 en la etapa 1301, en lugar de 256, y el numero de

5

10

15

20

25

30

35

40

45

50

55

60

desplazamientos a la derecha es 6 en la etapa 1302, en lugar de 8. Si se adopta 64, la compensacion de redondeo debe ser de 32.

El calculo realizado en la etapa 1301 puede sustituirse por una operacion de consulta para reducir adicionalmente la carga de trabajo computacional. En otras palabras, se prepara una tabla de consulta que almacena valores de InvAngle en relacion con los valores de angle. La tabla 1 proporcionada a continuacion es una tabla a modo de ejemplo para la consulta en la etapa 1301:

Tabla 1

angle: 1 2 3 4 5 6 7 8

InvAngle: 2048 1024 683 512 410 341 293 256

Se supone que, en la tabla anterior, size es 8, y angle adopta valores de numero entero de desde 1 hasta 8. Sin embargo, debe observarse que size no se limita a 8 y puede adoptar otro valor, tal como 4 y 16. Ademas, angle puede ser un numero fraccionario en una representacion de puntos fijos tal como se ha definido anteriormente.

Cuando se copia un pixel de referencia de refV a refH en la etapa 1202 de la figura 12 o la etapa 1302 de la figura 13, el pixel de referencia puede pasar a traves de un filtro de paso bajo para reducir un posible solapamiento en el bloque de prediccion. La intensidad del filtro de paso bajo puede variar segun el valor de angle. Por ejemplo, cuando angle es igual a -size, puede aplicarse un filtrado de paso bajo debil y cuando angle es igual a -2, puede aplicarse un filtrado de paso bajo fuerte.

Tal como se ha explicado anteriormente, no todos los pfxeles de referencia en refV se copian en refH. Dado que no se copian todos los pfxeles de referencia en refV, se pierde algo de informacion cuando se copian los pfxeles. Para mitigar la perdida de informacion, puede duplicarse la resolucion de pfxeles de referencia en refH y refV de modo que refH y refV contienen no solo pfxeles de bloques anteriormente codificados y reconstruidos, sino tambien un pixel entre dos pfxeles reconstruidos adyacentes que se genera interpolando dos pfxeles adyacentes. Puede calcularse simplemente el promedio de dos pfxeles adyacentes para generar un pixel de interpolacion. El procedimiento de interpolacion puede realizarse cuando se leen pfxeles de referencia en la etapa 900 de la figura 9. Cuando se duplica la resolucion de pfxeles en refH y refV, se necesita ajustar a escala identificaciones de las direcciones de pfxeles de referencia almacenados en refH y refV, tal como se realiza en las etapas 907, 910, 915 y 919 en la figura 9, y la etapa 1001 en la figura 10. Por ejemplo, se necesita cambiar “int + col + 1” realizado en las etapas 907, 910 y 915 por “int + 2 x col + 2”. Se necesita cambiar “int + col + 2” realizado en las etapas 907, 910, 915 por “int + 2 x col + 3”. Se necesita cambiar “int2 + row + 1” e “int2 + row + 2” realizados en la etapa 919 por “int2 + 2 x row + 2” e “int2 + 2 x row + 3”, respectivamente.

En otro modo de realizacion, el procedimiento de la etapa 1202 en la figura 12 puede cambiarse simplemente por “refH [co/]wefV [-col]" para simplificar adicionalmente el procedimiento de copiado. Aunque se degrada la exactitud de prediccion, este modo de realizacion proporciona la menor complejidad a la operacion de intra-prediccion.

La figura 11B muestra la parte extendida 1104 anadida a refH. No se necesita que la parte extendida 1104 este formada con pfxeles de referencia de refV. La parte extendida 1104 puede formarse con pfxeles de un area de bloque anteriormente reconstruido, que corresponde espacialmente a la ubicacion de la parte extendida 1104. En la figura 11B, dado que se extiende en la direccion negativa, refH extendido (partes 1102 y 1104) oscila entre -size + 1 y 2xsize. El intervalo de refH extendido puede volver a ajustarse a escala para oscilar entre 0 y 3xsize -1 anadiendo una compensacion apropiada cuando se abordan pfxeles de referencia en refH extendido. Lo mismo es cierto para volver a ajustar a escala el intervalo de refV.

En otro modo de realizacion, el lfmite de intervalo de angle puede elegirse libremente. En los modos de realizacion anteriores, se supone que angle adopta un valor dentro de un intervalo de desde -size hasta size (-size < angle < size). En otras palabras, en los modos de realizacion anteriores, los lfmites de intervalo de angle estan definidos con el tamano del bloque objetivo. Observese que los lfmites de intervalo de angle pueden definirse independientemente del tamano del bloque objetivo, aunque todavfa es preferible que el lfmite de intervalo se defina con una potencia entera de 2, de manera que log2_rangelimit sea un numero entero positivo y la ecuacion “rangelimit = 1 << log2_rangelimit’’ siga siendo cierta. Al elegir un numero grande adecuado para rangelimit, puede establecerse un gran numero de direcciones de prediccion y representarse mediante valores de angle a intervalos angulares lo suficientemente amplios.

Si el lfmite de intervalo de angle se define independientemente del tamano del bloque objetivo, se necesita sustituir size que aparece en las figuras 9 y 10 por rangelimit y se necesita sustituir log2_size por log2_rangelimit, excepto para las etapas 909, 912, 917 y 921. Tambien se necesita sustituir la comparacion de “angle > -1” realizada en la etapa 1000 de la figura 10 por “angle x sizel/rangelimit> -1” o “angle x size > -rangelimit”. Ademas, se necesita sustituir size que aparece en las etapas 1202 y 1301 en las figuras 12 y 13 por rangelimit y se necesita sustituir la comparacion de “icol = angle?" realizada en la etapa 1204 por “icol = angle x size/rangelimit?”.

5

10

15

20

25

30

35

40

45

50

55

60

Si se introduce rangelimit como Kmite de intervalo de angle, la tabla 1 (proporcionada anteriormente) puede cambiarse de la siguiente forma:

Tabla 2

angle*: 2 5 9 13 17 21 26 32

InvAngle: 4096 1638 910 630 482 390 315 256

En la tabla 2, se establece rangelimit a 32. Angle* es igual a una aproximacion de numero entero de “rangelimit x tan (n x angle/8)", donde angle = 1, 2, 3, 4, 5, 6, 7 y 8. InvAngle es igual a 256 x rangelimit/angle*. Los valores en la tabla 2 son todos numeros enteros que se obtienen mediante redondeo al alza. En lugar de redondearse al alza, los numeros pueden redondearse a la baja. En la tabla 3 proporcionada a continuacion, InvAngle es igual a 32 x rangelimitlangle*. Dado que se usa “32” en lugar de “256”, la exactitud de prediccion es necesariamente inferior a la de la tabla 2.

Tabla 3

angle*: 2 5 9 13 17 21 26 32

InvAngle: 512 204 113 78 60 48 39 32

La figura 14 es un diagrama de flujo que muestra otro modo de realizacion que simplifica adicionalmente el procedimiento mostrado en la figura l0. El procedimiento mostrado en la figura 10 de copiar pfxeles de referencia de refV en refH se realiza antes de que el flujo entre en el bucle de prediccion principal, mientras que el procedimiento de copiado mostrado en la figura 14 se realiza dentro del bucle de prediccion principal. Ademas, el procedimiento mostrado en la figura 14 elimina la variable InvAngle. Las etapas 900, 902 y 921 mostradas en la figura 14 son de las etapas correspondientes en la figura 10.

En la etapa 1401, se inicia un contador lastInt a -1. lastInt representa el mdice del ultimo pixel que se anadio a refH. En la etapa 902, se calcula pos mediante angle x (row + 1). Tal como se ha explicado anteriormente, pos identifica la posicion de una interseccion entre los lfmites y la direccion de prediccion representada por angle. En el contexto de la figura 9, la etapa 902 produce pos, que identifica la posicion de una interseccion entre el lfmite horizontal y la direccion de prediccion representada por angle. Ademas, en la etapa 902, una parte entera en pos se almacena en int y una parte fraccionaria en pos se almacena en un parametro “frac". En la etapa 1402, se determina si int es inferior a lastInt. Si int es inferior a lastInt, un pixel de referencia en refV identificado mediante row se copia en refH en una direccion identificada mediante “int + 1”. La etapa 1404 consiste en las etapas 904, 905, 906, 907, 908, 909, 910, 911 y 912 mostradas en las figuras 9 y 10, cuya descripcion no se repite aqrn. En la etapa 1405, int se copia en lastInt. La operacion de copiar int en lastInt puede realizarse en la etapa 1403, en lugar de la etapa 1405.

La operacion de copiado en la etapa 1403 da como resultado copiar el mismo pixel que se copio en las etapas 1202 y 1302, en las que se usa redondeo a la baja en esas etapas. La etapa 1403 puede modificarse para redondear al numero entero mas proximo usando de manera condicional “row + 1”, en lugar de “row”, en la etapa 1403 cuando la posicion fraccionaria frac calculada en la etapa 902 es mayor que offset, lo cual se identifica mediante rangelimit + (angle >> 1). Observese que angle es negativo y frac es positivo. El uso de “row + 1” da como resultado redondeo al alza. Para realizar el incremento condicional de row en 1, se cambia el procedimiento realizado en la etapa 1403 por refH[int +1] ^ refV[row - ((offset - frac) » 31)]; suponiendo que en una aritmetica de 32 bits, el desplazamiento a la derecha de “offset - frac” da como resultado -1 cuando frac es mayor que offset y da como resultado 0 en caso contrario. Por lo tanto, el identificador de direccion “row - ((offset - frac) >> 31)” se convierte en “row + 1” cuando frac es mayor que offset y se convierte en “row” en caso contrario. Si se establece offset a rangelimit, “offset-frac" sera siempre positivo y, por lo tanto, no se producira ningun redondeo.

A continuacion se enumera el codigo fuente desarrollado en el lenguaje de programacion C++, que implementa el procedimiento mostrado en la figura 14. El codigo fuente se modifica de la funcion TComPredictiopn::xPredIntraAng encontrada en el archivo TComPrediction.cpp que es parte del software TMuC 0.7 desarrollado por JCT-VC, que esta disponible en
http://hevc.kw.bbc.co.uk/svn/jctvc.a124/tags/0.7.

// Funcion para obtener las intra-predicciones angulares simplificadas

Void TComPrediction::xPredIntraAng (Int* pSrc, Int iSrcStride, Pel*& rpDst, Int iDstStride, UInt iWidth, UInt iHeight, UInt uiDirMode, Bool bAbove, Bool bLeft) {

Int k, l;

Int deltaInt, deltaFract, refMainIndex;

Int intraPredAngle = 0;

5

10

15

20

25

30

35

40

45

50

55

60

65

Int absAng = 0;

Int signAng = 0;

Int blkSize = iWidth;

Bool modeDC = false;

Bool modeVer = false;

Bool modeHor = false;

Pel* pDst = rpDst;

// Mapear el mdice de modo a la direccion de prediccion principal y el angulo if (uiDirMode == 0) modeDC = true; else if (uiDirMode < 18) modeVer = true; else

modeHor = true;

intraPredAngle = modeVer ? uiDirMode - 9 : modeHor ? uiDirMode - 25 : 0; absAng = abs(intrapredAngle); signAng = intraPredAngle < 0 ? -1 : 1;

// Establecer desplazamientos de bits y ajustar a escala el parametro de angulo a size2 Int iAngTable[9] = { 0, 2, 5, 9, 13, 17, 21, 26, 32}; absAng = iAngTable[absAng]; intraPredAngle = signAng * absAng;

// Realizar la prediccion DC if (modeDC) {

Pel dcval = predIntraGetPredValDC(pSrc, iSrcStride, iWidth, iHeight, bAbove, bLeft); for (k=0;k<blkSize;k++) { for (l=0;l<blkSize;1++) { pDst(k*iDstStride+1] = dcval;

}

// Realizar predicciones angulares else {

Pel tmp;

5

10

15

20

25

30

35

40

45

50

55

60

65

Int *pSrcTL = pSrc - iSrcStride -1;

Int iStepMain = (modeVer) ? 1 : iSrcStride; if (intraPredAngle == 0) { for (k=0;k<blkSize;k++) { for (l=0;l<blkSize;1++) {

pDst [k*iDstStride+1] = pSrcTL[(1 + 1) * iStepMain];

}

else {

Int iStepSide = (modeVer) ? iSrcStride 1; int lastDeltaInt = -1;

Int Offset = 32 + (intraPredAngle >> 1); // permite redondear a la referencia lateral mas proxima // Int iOffset = 32; // sin redondeo.

Pel ref [2*MAX_CU_SIZE];

Pel* refMain = ref + ((intraPredAngle < 0) ? blkSize : 0); if (intraPredAngle > 0) { for (k = 0; k < 2*blkSize; k++) refMain[k] = pSrcTL[(k+1) * iStepMain];

}

else {

for (k = -1; k < blkSize; k++) // el resto se copia mas tarde en la etapa 1403, segun y cuando se requiera refMain[k] = pSrcTL[(k+1) * iStepMain];

}

for (k = 0; k < blkSize; k++) {

Int deltaPos = (k+1) * intraPredAngle; deltaInt = deltaPos >> 5; deltaFract = deltaPos & (32 -1); if (deltaInt < lastDeltaInt) { // etapa 1402 lastDeltaInt = deltaInt;

refMain[deltaInt] = pSrcTL[(k-((iOffset-deltaFract)>>31))*iStepSide]; // etapa 1403

}

// etapa 1404

5

10

15

20

25

30

35

40

45

50

55

60

if (deltaFract) {

// Realizar filtrado lineal for (l=0;l<blkSize;1++) { refMainIndex = 1+deltaInt;

pDst[k*iDstStride+1] = (Pel) (((32-deltaFract) * refMain[refMainIndex] + deltaFract * refMain[refMainlndex+1] + 16) >> 5 );

}

else {

// Simplemente copiar las muestras de numeros enteros for (l=0;l<<blkSize;l++) { pDst[k*iDstStride+1] = refMain[1+deltaInt];

}

// Dar la vuelta al bloque si esto es el modo horizontal if (modeHor) { for (k=0;k<blkSize-1;k++) { for (l=k+1;l<blkSize;1++) { tmp = pDst[k*iDstStride+1]; pDst(k*iDstStride+1] = pDst(1*iDstStride+k]; pDst[1*iDstStride+k] = tmp;

}

Aunque sin duda se le ocurriran muchas alteraciones y modificaciones de la presente invencion a un experto habitual en la tecnica, tras haber ^do la descripcion anterior debe entenderse que no se pretende de ninguna manera que ningun modo de realizacion particular mostrado y descrito a modo de ilustracion se considere limitativo. Por tanto, no se pretende que referencias a detalles de diversos modos de realizacion limiten el alcance de las reivindicaciones, que en sf mismas solo mencionan aquellas caractensticas que se consideran esenciales para la invencion.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

Un metodo de codificacion de v^deo ejecutado por un procesador de un codificador de v^deo, que comprende una etapa de ejecutar, basandose en informacion de modo de prediccion que representa una de las direcciones de prediccion de intra-prediccion, o bien

un primer procedimiento que incluye:

recuperar al menos algunos pfxeles de una matriz de p^xeles de Kmite vertical que se encuentra directamente a la izquierda de un bloque objetivo;

anadir los pfxeles recuperados a una matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite horizontal, para extender la matriz de pfxeles de lfmite horizontal en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite horizontal sin usar la matriz de pfxeles de lfmite vertical,

o bien

un segundo procedimiento que incluye:

recuperar al menos algunos pfxeles de la matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo;

anadir los pfxeles recuperados a la matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite vertical, para extender la matriz de pfxeles de lfmite vertical en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite vertical sin usar la matriz de pfxeles de lfmite horizontal.

Un metodo de descodificacion de video ejecutado por un procesador de un descodificador de video, que comprende:

una etapa de descodificacion de modo de prediccion de descodificar informacion de modo de prediccion que representa una de las direcciones de prediccion de intra-prediccion a partir de senales de video codificadas; y

una etapa de ejecucion de ejecutar, basandose en la informacion de modo de prediccion descodificada en la etapa de descodificacion de modo de prediccion, o bien

un primer procedimiento que incluye:

recuperar al menos algunos pfxeles de una matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda de un bloque objetivo;

anadir los pfxeles recuperados a una matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite horizontal, para extender la matriz de pfxeles de lfmite horizontal en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite horizontal sin usar la matriz de pfxeles de lfmite vertical,

o bien

un segundo procedimiento que incluye:

recuperar al menos algunos pfxeles de la matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo;

anadir los pfxeles recuperados a la matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite vertical, para extender la matriz de pfxeles de lfmite vertical en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite vertical sin usar la matriz de

5

10

15

20

25

30

35

40

45

50

55

60

65

p^xeles de Kmite horizontal.

Un codificador de v^deo que comprende:

medios para ejecutar, basandose en informacion de modo de prediccion que representa una de las direcciones de prediccion de intra-prediccion, o bien

un primer procedimiento que incluye:

recuperar al menos algunos p^xeles de una matriz de p^xeles de Ifmite vertical que se encuentra directamente a la izquierda de un bloque objetivo;

anadir los pfxeles recuperados a una matriz de pfxeles de Kmite horizontal que se encuentra directamente por encima del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite horizontal, para extender la matriz de pfxeles de lfmite horizontal en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite horizontal sin usar la matriz de pfxeles de lfmite vertical,

o bien

un segundo procedimiento que incluye:

recuperar al menos algunos pfxeles de la matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo;

anadir los pfxeles recuperados a la matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite vertical, para extender la matriz de pfxeles de lfmite vertical en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite vertical sin usar la matriz de pfxeles de lfmite horizontal.

Un descodificador de video que comprende:

medios para descodificar informacion de modo de prediccion que representa una de las direcciones de prediccion de intra-prediccion a partir de senales de video codificadas; y

medios para ejecutar, basandose en la informacion de modo de prediccion descodificada mediante los medios para descodificar, o bien

un primer procedimiento que incluye:

recuperar al menos algunos pfxeles de una matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda de un bloque objetivo;

anadir los pfxeles recuperados a una matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite horizontal, para extender la matriz de pfxeles de lfmite horizontal en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite horizontal sin usar la matriz de pfxeles de lfmite vertical,

o bien

un segundo procedimiento que incluye:

recuperar al menos algunos pfxeles de la matriz de pfxeles de lfmite horizontal que se encuentra directamente por encima del bloque objetivo;

anadir los pfxeles recuperados a la matriz de pfxeles de lfmite vertical que se encuentra directamente a la izquierda del bloque objetivo, a lo largo de una direccion de la matriz de pfxeles de lfmite vertical, para extender la matriz de pfxeles de lfmite vertical en una direccion negativa; y

realizar intra-prediccion basandose en la matriz extendida de pfxeles de lfmite vertical sin usar la matriz de pfxeles de lfmite horizontal.