ES2787827T3 - Aparatos y procedimientos para la codificación y decodificación de imágenes HDR - Google Patents

Aparatos y procedimientos para la codificación y decodificación de imágenes HDR Download PDF

Info

Publication number
ES2787827T3
ES2787827T3 ES12720649T ES12720649T ES2787827T3 ES 2787827 T3 ES2787827 T3 ES 2787827T3 ES 12720649 T ES12720649 T ES 12720649T ES 12720649 T ES12720649 T ES 12720649T ES 2787827 T3 ES2787827 T3 ES 2787827T3
Authority
ES
Spain
Prior art keywords
ldr
image
hdr
dynamic range
luminescence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12720649T
Other languages
English (en)
Inventor
Mark Jozef Willem Mertens
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Priority claimed from PCT/IB2012/052029 external-priority patent/WO2012147022A2/en
Application granted granted Critical
Publication of ES2787827T3 publication Critical patent/ES2787827T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Una unidad de decodificación de imagen (651) dispuesta para obtener una imagen de rango dinámico alto (IM_HDR_out) a partir de una codificación de imagen de rango dinámico alto (Im_1*) que comprende: - una unidad de recuperación LDR (656) dispuesta para determinar un rango dinámico bajo de luminiscencias (R_Norml_LDR), o el rango correspondiente de valores de código de luminancia (R_LDR), dentro de un rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto, el rango dinámico bajo de luminiscencias (R_Norml_LDR) o el rango correspondiente de valores de código de luminancia (R_LDR) que es tan grande que la información de imagen codificada dentro del mismo puede usarse para el renderizado LDR, y dispuesta para obtener una imagen de rango dinámico bajo (Im_LDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*); - una unidad de recuperación HDR (655) dispuesta para determinar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR), y dispuesta para determinar al menos una subimagen de rango dinámico alto (ImP_HDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*) correspondiente a ese al menos un rango complementario (R_above); - una unidad de composición de imagen (657) dispuesta para componer la imagen de rango dinámico alto (IM_HDR_out) a partir de la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o), de manera que la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o) cubren los subrangos de luminiscencia no superpuestos de la imagen de rango dinámico alto (IM_HDR_out), caracterizada porque la composición de la imagen de rango dinámico alto (IM_HDR_out) se realiza al aplicar un inverso de un primer mapeo (CMAP_L) a las luminancias de la imagen de rango dinámico bajo (Im_LDR_o) y al aplicar un inverso de un segundo mapeo (CMAP_H) a las luminancias de la al menos una subimagen de rango dinámico alto (ImP_HDR_o), cuyos primer y segundo mapeo se reciben en metadatos comunicados conjuntamente con la codificación de imagen de rango dinámico alto (Im_1*).

Description

DESCRIPCIÓN
Aparatos y procedimientos para la codificación y decodificación de imágenes HDR
Campo de la invención
La invención se refiere a aparatos y procedimientos y productos resultantes como productos de almacenamiento de datos o señales codificadas para una codificación mejorada de imágenes en particular de escenas HDR.
Antecedentes de la invención
Recientemente se han producido nuevos desarrollos con respecto a la codificación de imágenes/video (ya sea de escenas capturadas o gráficos de ordenador), es decir, es deseable capturar mejor el rango completo de luminiscencias y colores de objetos que ocurren en la naturaleza, hasta valores de luminiscencia grandes como, por ejemplo, 25.000 nit que pueden ocurrir en ambientes soleados exteriores, o cerca de luces artificiales fuertes, y a menudo también valores bajos como 0,01 nit, que se denominan codificación HDR (rango dinámico alto). Hay un impulso tanto en el lado de creación de contenido, por ejemplo, las cámaras (e incluso las cámaras de dispositivos móviles desearían una mejor captura de escenas reales, especialmente cuando se usan de manera liberal y simplista en todo tipo de entornos, tal como una cámara de teléfono móvil, independientemente de y desacoplada de en qué sistema de renderizado se renderizará más tarde una imagen capturada) o los espacios de colores artificiales de ordenador de juegos de ordenador o efectos especiales, como en el lado de renderizado. Desde ahora, aparece una pantalla de un brillo máximo cada vez más alto, que por sí solo no define lo que se requiere para una cadena de renderizado HDR, pero facilita la introducción de tal. Por el momento, la pantalla HDR típica es LCD con retroiluminación LED, pero si uno, por ejemplo, relaja la condición de saturación de color, también puede poner una retroiluminación monocromática detrás de una OLED, por ejemplo (la luz que se filtra crea un renderizado RGBW). Por varias razones, al menos durante varios años en el futuro, uno puede desear alguna forma de compatibilidad con versiones anteriores, lo que significa que los datos de una denominada codificación de rango dinámico bajo (LDR) deben estar disponibles o al menos ser fácilmente determinables, por lo que, por ejemplo, una caja de procesamiento de video actualizada puede entregar una señal LDR a una pantalla de rango dinámico más bajo. Además, como se mostrará en este texto, tener disponible una buena representación de LDR puede resultar útil incluso a largo plazo. El inventor se dio cuenta de que una razón fundamental para tener una codificación LDR es que, aunque están surgiendo pantallas de rango dinámico cada vez mayor (gama alta), también hay un segmento considerable de pantallas de rango dinámico bajo (por ejemplo, móvil en un entorno externo, proyección, etc.). De hecho, puede ser necesario redeterminar automáticamente para varios escenarios posibles de imágenes o renderizado los valores grises capturados en una señal de imagen, tal como se escalaría geométricamente una imagen para mostrarla en pantallas de diferentes resoluciones.
Una cadena de captura HDR es más que solo apuntar una cámara a una escena con una gran relación de contraste de luminiscencia entre el objeto más oscuro y el más brillante y grabar linealmente lo que hay (capturar IC tal como, por ejemplo, un CCD que típicamente es de manera parcial (casi) lineal). La tecnología de imagen HDR tiene que ver con cuáles son exactamente los valores grises intermedios para todos los objetos, ya que eso transmite, por ejemplo, el estado de ánimo de una película (oscurecer de por sí algunos de los objetos en la escena puede transmitir un estado de ánimo oscuro). Y este es un procedimiento psicológico complejo. Uno puede, por ejemplo, imaginar que psicológicamente no es tan importante si una luz brillante se renderiza en una pantalla exactamente en una proporción al resto de los valores grises renderizados, como lo fue la luminiscencia de la escena para el resto de las luminiscencias de los objetos de la escena. Más bien, uno tendrá una impresión fiel de una lámpara real, si los píxeles se renderizan con "algo" de alta luminiscencia de salida de pantalla, siempre que sea suficientemente superior al resto de la imagen. Y puede haber un par de niveles de blanco de "luz de lámpara", pero tan pronto como estén bien separados, sus niveles de código exactos o, en última instancia, las luminiscencias de salida renderizadas en la pantalla a menudo pueden ser menos críticas. Una asignación de valores grises entre objetos autoluminiscentes y reflectantes (en las diversas regiones de iluminación de la escena) también es una tarea crítica en dependencia de la gama de la pantalla y las condiciones de visualización típicas. También uno puede imaginar que la codificación de las regiones más oscuras se realiza preferentemente para que puedan usarse fácilmente en diferentes escenarios de renderizado, tal como diferentes niveles promedio de iluminación envolvente (es decir, pueden iluminarse localmente). En general, debido a que esta es una tarea psicológica difícil, los artistas estarán involucrados en la creación de imágenes óptimas, lo que se denomina corrección de color. En particular, es muy útil cuando los artistas hacen una corrección LDR por separado, incluso si eso se hace en una "estrategia de codificación HDR pura". En otras palabras, en tal escenario al codificar una única señal SIN PROCESAR de cámara HDR, también generaremos una imagen LDR, no necesariamente porque va a usarse para una gran fracción LDR del mercado de consumo de video, sino porque transmite información importante sobre la escena. Es decir, siempre habrá regiones y objetos más importantes en la escena, y al colocarlos en una subestructura LDR (que puede verse conceptualmente como una contraparte artística de un algoritmo de exposición automática), esto hace que sea más fácil hacer todo tipo de conversiones a representaciones de rango intermedio (MDR), adecuadas para manejar pantallas con características particulares de renderizado y visualización. En particular, uno puede ajustar esta parte LDR de acuerdo con varios criterios, por ejemplo, que se renderiza con buena calidad en una pantalla LDR de referencia estándar, o transmite un cierto porcentaje de la información capturada total, etc.
No hay tantas formas de codificar una señal HDR. Normalmente, en la técnica anterior, uno solo codifica de forma nativa la señal HDR, es decir, uno mapea (linealmente) los píxeles a, por ejemplo, palabras de 16 bits, y luego el valor de luminiscencia máximo capturado es el blanco HDR en una filosofía similar a la codificación LDR (aunque psicovisualmente esto normalmente no es un blanco reflectante en la escena, sino un color brillante de una lámpara). También uno podría mapear una señal HDR de rango completo al rango LDR de 8 bits a través de alguna función de transformación de luminancia "óptima", que típicamente sería una función gamma o similar. Esto puede implicar la pérdida de precisión del color con los problemas de calidad de renderizado correspondientes, especialmente si en el lado receptor se espera un procesamiento de imagen tal como el brillo local, sin embargo, se conserva aproximadamente la corrección de valores grises dominantes de los objetos de imagen (es decir, sus relaciones de luminancia relativas/porcentuales).
La técnica anterior también ha enseñado algunas técnicas de codificación HDR mediante el uso de dos conjuntos de datos de imagen para el HDR, típicamente en base a un tipo de concepto de codificación escalable, en el que, según algunas predicciones, la precisión de una textura local codificada "LDR" se refina, o se afirma con más precisión, proyectada a una versión HDR de esa textura, típicamente al escalar las luminiscencias LDR (el LDR en esas tecnologías normalmente no es una corrección LDR atractiva, sino típicamente un procesamiento simple en la entrada HDR). Y luego la diferencia de la imagen HDR original con la predicción se codifica como una imagen de mejora en el grado deseado. Por ejemplo, uno puede representar un valor gris HDR de 1.168 con una división por 8 a un valor 146. Este valor HDR podría recrearse al multiplicar nuevamente por 8, pero dado que un valor 1.169 cuantificaría al mismo valor de capa base 146, se necesitaría un valor de mejora igual a 1 para poder recrear una seña1HDR de alta calidad. Un ejemplo de tal tecnología se describe en la patente EP2009921 [Liu Shan y otros, Mitsubishi Electric: Method for inverse tone mapping (by scaling and offset)]. En teoría para estos códecs, el modelo de predicción de mapeo de tonos inversos (que es el equivalente más inteligente de un multiplicador estándar) debería ser lo suficientemente preciso como para dar una apariencia HDR razonablemente precisa, sobre la cual se aplican correcciones menores (de hecho, si uno proyecta un rango de valores posibles a otro rango mediante el uso de una función no lineal, además de los problemas de precisión, los valores de rango originales deben ser recuperables).
Otra codificación de dos imágenes se describe en la solicitud actual no publicada aún US61/557461 de la cual todas las enseñanzas se incorporan en la presente por referencia.
Ese sistema también funciona con una imagen LDR y HDR, y tiene algunos reconocimientos similares que también son útiles para la presente invención, es decir, por ejemplo, el reconocimiento de que en una señal h Dr siempre puede encontrarse una subregión LDR de gran importancia, y, puede ser interesante hacer que esa LDR sea una señal realmente utilizable para el renderizado LDR (por ejemplo, una corrección LDR dedicada). Y, la información HDR típicamente no solo está separada no linealmente en el eje de luminiscencia (es decir, por ejemplo, una lámpara que tiene una luminiscencia mucho más alta que el blanco en la escena), sino que también tiene un significado diferente. A menudo uno puede hablar, por ejemplo, de efectos HDR, es decir, no necesariamente necesitan codificarse con precisión las texturas de los objetos como el contenido principal de la escena, es decir, su parte LDR, sino que en dependencia de la región/efecto HDR que sea, pueden codificarse con diferentes criterios como precisión reducida, o dejarlo de lado por completo. Eso tiene como resultado que a menudo puede ahorrarse una gran cantidad de presupuesto para las partes HDR de la escena. Además, la codificación en tal formato de dos imágenes de partes de efectos LDR HDR tiene la ventaja de que ambos pueden separarse fácilmente. Los sistemas heredados o de menor capacidad que solo necesitan el LDR pueden extraerlo directamente al ignorar el resto. Pero también tener e1HDR como una imagen codificada por separado hace que sea muy fácil aplicarlos de manera ajustada en dependencia de las capacidades de la gama real de una pantalla de renderizado real, por ejemplo, al agregar un efecto HDR escalado en la parte LDR transformada con luminiscencia.
Sin embargo, mientras que ese formato funciona perfectamente con sistemas que ya se configuraron para la codificación de imagen dual, por ejemplo, al reutilizar la estructura normalmente disponible para una codificación 3D, desearíamos capacidades similares en caso de que solo tengamos un único marcador de posición de codificación de imagen disponible. Con, por ejemplo, el creciente campo de video a pedido, uno puede imaginar que al menos algunos de esos sistemas preferirían tener todo codificado en una sola señal de imagen.
Sin embargo, un objetivo de al menos algunas de las presentes realizaciones es tener aún los beneficios de codificar un marco LDR-dentro de-HDR óptimo en una sola imagen, a pesar del hecho de que parece extraño codificar dos imágenes en una. Debe tenerse en cuenta que las otras clases de procedimientos descritos anteriormente, aunque imponen parte de los datos en un formato de imagen LDR matemática/técnicamente (como un marcador de posición), no tienen imágenes LDR reales (co)codificadas, es decir, imágenes que se verían bien en un sistema de visualización LDR, porque se han corregido cuidadosamente (al menos seleccionado, a menudo transformado aún más la corrección de color) para su aspecto LDR (más bien uno puede tener una imagen "LDR" con la geometría correcta del objeto, pero si se renderiza directamente lo que muestra valores grises de textura de objeto severamente modificados, por ejemplo, el contraste incorrecto o el brillo promedio).
Sumario de la invención
La presente invención proporciona un aparato de decodificación de video y una señal de imagen de acuerdo con las reivindicaciones adjuntas. Una codificación simple y fácilmente utilizable de imágenes HDR puede realizarse mediante los conceptos de realizaciones presentados en la presente memoria siguiendo los principios relacionados con una unidad de codificación de imagen (301) dispuesta para codificar una imagen de rango dinámico alto (IM_HDR-in) que comprende:
- un selector LDR (311) para identificar un rango dinámico bajo de luminiscencias (R_Norml_LDR) o el rango correspondiente de valores de código de luminancia (R_LDR) dentro del rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto;
- un selector HDR para seleccionar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende principalmente luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR);
- una unidad de mapeo de código (315) dispuesta para codificar en una primera imagen (Im_1*), que tiene al menos un componente de luminancia que comprende palabras de código de N bits, luminiscencias de píxeles de la imagen de rango dinámico alto (IM_HDR-in) que caen dentro del rango dinámico bajo de luminiscencias (R_Norml_LDR) para valores de código (Y_out) de acuerdo con un primer mapeo (CMAP_L), y luminiscencias de píxeles de la imagen de rango dinámico alto (IM_HDR-in) que caen dentro del al menos un rango complementario (R_above) para valores de código (Y_out) de acuerdo con un segundo mapeo (CMAP_H), en el que el primer y segundo mapeos se mapean para separar subrangos del rango de valores de código de luminancia de la primera imagen (RcTot_Im1), y en el que la unidad de codificación de imagen se dispone para elegir un primer mapeo apropiado (CMAP_L) y para ajustar el segundo mapeo HDR (CMAP_H).
A veces, la creación de una señal LDR óptima (por ejemplo, mostrar en una pantalla LDR típica aún suficientes detalles en las partes más oscuras de la imagen) puede implicar cierto remapeo de las luminiscencias de píxeles que típicamente realiza un artista humano llamado corrección de color (o un algoritmo inteligente que analiza varias propiedades de la imagen, tales como, por ejemplo, propiedades de histograma parcial, de las cuales se derivan varias medidas de contraste). Sin embargo, a menudo puede recuperarse una buena variante LDR de una imagen de rango HDR de luminiscencia más grande. Entonces, solo se necesita la selección de la mejor imagen LDR, pero eso puede ser normalmente una tarea difícil, por lo que puede ser necesaria la intervención del artista humano. Este puede seleccionar un subrango R_Norml_LDR de luminiscencias de píxeles de objetos interesantes, que deben estar bien codificados y, por lo tanto, bien renderizados en la pantalla LDR estándar. Para simplificar, asumiremos que la codificación LDR puede funcionar más o menos directamente como una señal de manejo para la pantalla LDR, por ejemplo, al aplicar las transformaciones calibradas por hardware que sean necesarias para que la pantalla LDR renderice absoluta o relativamente las luminiscencias originales en el rango LDR R_Norml_LDR. Pero, por supuesto, pueden estar involucradas relaciones más complejas, ya que en teoría el LDR no necesariamente tiene que ser una codificación directa de las luminiscencias de renderizado de pantalla, sino que puede ser cualquier representación separada de algunas luminiscencias en la escena capturada. Sin embargo, todavía supondremos que la señal LDR está tan condicionada que una señal LDR de buena calidad puede obtenerse (fácilmente) de ella (por ejemplo, no que algunas partes que deberían ser visibles estén recortadas y, por lo tanto, nunca puedan convertirse en una región atractiva, incluso si la pantalla tiene capacidades avanzadas de procesamiento de imágenes). Puede haber, por ejemplo, una simple compresión de contraste lineal involucrada que luego puede revertirse, pero ese cambio de formato automático aún no es tan complejo como la corrección real de todos o algunos valores grises de píxeles, lo que puede implicar el cambio de color de la región local, etc. La selección típicamente también implicará seleccionar regiones que pueden codificarse de una manera de (muy) baja calidad, por ejemplo, uno puede recortar todas las regiones por debajo de una cierta luminiscencia a cero, porque de todos modos no se mostrarán muy bien en un sistema de visualización LDR (el sistema que comprende una pantalla con bajo contraste debido, por ejemplo, a fugas de luz y/o malas condiciones de visualización, tal como reflejos de alto brillo en una situación de visualización en exteriores). Estas regiones pueden excluirse simplemente de la codificación LDR (encapsulada) y, por lo tanto, se codificarán de alguna manera en la parte HDR. Por lo tanto, típicamente habrá al menos un rango complementario, que contendrá, por ejemplo, fuentes de luz (o tal vez alguna parte de un ambiente soleado al aire libre) y el corrector típicamente decidirá entonces cómo representarlos. Es decir, puede considerar que para una fuente de luz no se necesitan tantos niveles de gris, aunque más de uno, porque al menos algunas pantallas HDR pueden querer renderizar una estructura interna de la fuente de luz. Típicamente puede usar estas consideraciones en un diseño del mapeo CMAP_H de estos colores. Normalmente, el software será en gran medida automático, lo que le permitirá interactuar con un mínimo esfuerzo. Por ejemplo, puede usar una elipse para rodear aproximadamente la lámpara, y luego, en dependencia de la cantidad de datos necesarios para codificar el resto de los objetos en la imagen, el software puede asignar automáticamente (mediante el diseño del CMAP H correspondiente), por ejemplo, los dos valores de código más altos para esa lámpara. Sin embargo, estos pueden no transmitir suficientes detalles interiores, que el corrector verá en su monitor estándar HDR. También puede verificar otras situaciones, por ejemplo, al reducir la luminosidad promedio de esa región para emular aproximadamente cómo podrían verse las cosas en una pantalla HDR aún más brillante. Si el corrector considera que esta representación es suficiente para un objeto que es solo una fuente de luz (algo que el espectador promedio no suele examinar típicamente durante mucho tiempo para estudiar su composición, sino más bien cuando sigue la historia verá las caras de los actores o presentadores de noticias, etc.) aceptará al menos esa parte del mapeo CMAP H. De lo contrario, por interacción adicional, por ejemplo, puede especificar que se necesitarán 5 valores de código de luminancia Y salida en la imagen de salida Im_1* para representar esa región con suficiente precisión. A menudo se necesita menos que tal ajuste fino local preciso de la codificación, y de hecho, funciones como, por ejemplo, una función gamma pueden usarse para muestrear (es decir, representar con más o menos precisión) a los píxeles de objetos de imagen disponibles (uno puede representar cada transformación como el mapeo de al menos un intervalo del rango total de una imagen de entrada al intervalo estándar [0,1] y luego colocar una serie de puntos de muestreo de luminiscencia digital allí, de acuerdo con cualquier función de asignación no lineal deseable).
De manera similar, puede hacerse mucho al elegir un mapeo apropiado para la subselección LDR CMAP_L, aunque uno puede representar esa parte de acuerdo con técnicas preexistentes, tal como una función gamma 2.2, ya que no es necesario transferir información adicional sobre qué mapeo específico se usó (definición de código) y, por lo tanto, los sistemas heredados que no comprueban y actualizan esto pueden solo usar la codificación tal como está. Sin embargo, aparte de los mapeos (CMAP_L, CMAP H) que definen la codificación en la imagen de salida, la transformación de mapeo de color adicional (TRF_LDR, TRF_HDR) tales como los mapeos de tonos, para crear efectos de valores grises adicionales (por ejemplo, en lugar de una imagen de entrada HDR de alta calidad ya corregida, puede ingresarse una captura SIN PROCESAR de cámara, en cuyo caso el corrector corregirá al mismo tiempo que codifica). Esto permite una separación más fácil entre las modificaciones de los valores grises que se realizan únicamente por razones técnicas tales como la eficiencia de compresión (por ejemplo, la asignación de códigos de acuerdo con principios visuales tales como JND entre diferentes valores codificables), y las modificaciones artísticas que, por ejemplo, hacen que las nubes de tormenta parezcan más amenazantes. Debe tenerse en cuenta que aunque los rangos complementarios normalmente contendrán una mayoría o todas las luminancias de píxeles aún no cubiertas por R_Norml_LDR, puede haber cierta superposición. Por ejemplo, el corrector puede decidir incluir algunas luminiscencias brillantes (HDR) en la representación LDR, especialmente si el mapeo CMAP_L no es un mapeo (pseudo)lineal, pero si diseña una estrategia específica de corrección de recorte suave. Esto puede, por ejemplo, conducir a exteriores soleados pálidos (que no es solo a lo que estamos acostumbrados en LDR, sino que a menudo es una buena estrategia de mapeo para rangos dinámicos más altos), que sin embargo están lejos de representarse lo suficientemente precisos como para usarse para un renderizado HDR de alta calidad. La codificación de la parte HDR para los rangos complementarios puede entonces recodificar al menos algunos de estos valores de nuevo, con mayor precisión (por ejemplo, asignar más valores a objetos reflectantes en el sol, mientras se reduce la cantidad de códigos disponibles para las fuentes de luz). Esto es contrario a las codificaciones normales de una sola imagen, en las que se define una codificación simple, si no es continua (e incluso con una función de transferencia de mapeos de tonos simple que define la relación entre los códigos y las luminiscencias de escenas capturadas), entonces ciertamente no es monótona. Pero con las presentes realizaciones, no solo es fácil de hacer, sino que la mayor libertad ofrece usos simples ventajosos de los datos codificados, tal como la recorrección para ajustar los detalles específicos físicos reales de una pantalla y entorno de visualización (lo que llamamos el requisito de ajuste, una propiedad no presente en codificaciones estrictamente definidas relacionadas con la pantalla de extremo a extremo de cadena única, tal como, por ejemplo, UIT-R. 601 o 709). Ventajosamente, la codificación de imágenes puede usar la tecnología ya existente como palabras de código de 10 bits para muestras de luminancia, pero, por supuesto, la presente invención podría funcionar con otros valores. Debe tenerse en cuenta que, por razones de mantener el texto y las reivindicaciones simples, no siempre hemos profundizado en si una realización específica funciona en luminiscencias o luminancias, ya que estas pueden convertirse fácilmente entre sí cuando se conoce la definición de transformación. Entonces, cuando describimos que, por ejemplo, se selecciona un rango en una representación de luminiscencia (como si, por ejemplo, la codificación YUV fuera retransformada en una representación de escena original como un XYZ lineal de las luminiscencias de escena reales o cualquier aproximación de la misma como una imagen capturada por la cámara), también puede seleccionarse en una representación de luminancia (Y) correspondiente, o cualquier correlación. Además, las transformaciones que pueden explicarse conceptualmente como si fueran etapas intermedias hacia un espacio de color de enlace universal, en las realizaciones prácticas pueden realizarse de inmediato como una operación que combina todas las etapas (incluso si son aproximativos como en un espacio de color no lineal). El experto no debería tener dificultades para comprender esto, ya que de manera similar debería entender que si explicamos de manera simplista algo como si los píxeles tuvieran una representación de color natural, en realidad puede haber más etapas secundarias involucradas como una transformación DCT en una codificación de imagen o video comprimido MPEG estándar o similar.
Se entenderá que las realizaciones de variación simple también se incluirán como equivalentes dentro del ámbito de nuestras reivindicaciones. En lugar de codificar en un espacio de color en base a la luminancia como YCrCb, puede hacerse, por supuesto, una división similar en un subrango LDR y HDR en espacios de colores equivalentes. Por ejemplo, pueden reservarse tres regiones desiguales o iguales, por ejemplo, entre el código 40 y el código 750 en un espacio de color R'G'B' (típicamente puede tenerse en cuenta su contribución porcentual a la luminancia, y la precisión deseada para cada canal, etc.), que en este caso es fácil debido a la relación de matriz lineal entre los dos espacios de color. En ese caso, en lugar de valores grises característicos, típicamente habrá valores de colores característicos, como por ejemplo, Rt1, Gt3, etc.
Las realizaciones más avanzadas pueden comprender además una unidad de transformación (312) dispuesta para aplicar una transformación colorimétrica a los colores de píxeles de la imagen de rango dinámico alto (IM_HDR in) que tiene luminiscencias que se encuentran dentro del rango dinámico bajo de luminiscencias (R_Norml_LDR), para obtener luminiscencias de píxeles modificadas (Y*_L) para esos colores de píxeles.
Y esto no es solo para poder hacer esto, sino que es muy ventajoso de acuerdo con la siguiente filosofía técnica. Uno puede seleccionar un cierto rango que esté bien corregido (es decir, se vea bien) en la señal de entrada HDR. Sin embargo, eso no necesariamente tiene que tener el mejor aspecto en un sistema LDR (especialmente, por supuesto, si se trata de mapeos simples, como de forma simple solo con el factor de compresión 1 que selecciona todos los píxeles con luminiscencias dentro de un rango). Por ejemplo, uno puede imaginar que los colores oscuros se seleccionan en la parte LDR y, por lo tanto, están bien representados en los códigos matemáticos de la imagen codificada, pero que no es muy fácil convertirlos en una representación que renderiza bien en cualquier sistema LDR (el renderizado y la codificación son dos condiciones diferentes que no deben confundirse, y ambas muy importantes, por lo que idealmente cualquier sistema (de codificación) debería permitir tratar con ambas de modo elegante). En este ejemplo, el corrector puede decidir aplicar cualquier transformación de corrección compleja, de modo que los colores oscuros se vean bien en la pantalla LDR (típicamente un aclaramiento que puede implicar la asignación de una parte excesiva del rango de luminancia LDR). Sin embargo, es interesante entonces poder convertirlos fácilmente de vuelta en una buena representación para un renderizado HDR. Por lo tanto, típicamente se codificarán conjuntamente las transformaciones usadas en esa subparte de la imagen en los metadatos MET, de modo que uno puede revertirlo en el lado receptor. Como se dijo anteriormente, parte de la información también puede codificarse (potencialmente de manera parcial y redundante) en los rangos HDR parte de Im_1*, por ejemplo, lo que permite buscar las partes oscuras que son diferentes de las regiones codificadas por LDR transformadas inversamente.
Puede ser ventajoso si el selector LDR (311) comprende una unidad de identificación para identificar el rango dinámico bajo de luminiscencias (R_Norml_LDR) del rango total de luminiscencias (Rango HDR) sobre la base de una imagen corregida LDR de entrada (GRD_LDR in) y/o metadatos que caracterizan esa imagen corregida LDR (TM_G1(gl,gh)).
Los sistemas de la presente realización pueden usarse cuando solo está presente una imagen HDR IM_HDR (precorregida o sin procesar), o cuando también está presente una versión LDR GRD_LDR para la misma escena capturada (por ejemplo, una imagen ya precorregida, una imagen renderizada de gráficos de ordenador, una imagen de otra cámara, etc.) En ese caso, debe haber una identificación de qué objetos de escena, que normalmente se representan mejor en esa versión LDR, están en la imagen HDR (representada de manera diferente). Aunque pueden usarse algoritmos complejos (tanto para identificar las partes con doble codificación correspondientes, como para mezclar ambas codificaciones de los datos de la escena para obtener una representación final para Im_1*), especialmente en el caso de codificaciones o correcciones redundantes complejas (debe tenerse en cuenta que puede ser ventajoso para el ajuste que pueda usarse información sobre objetos de escena similares, pero de acuerdo con diferentes filosofías de corrección de, por ejemplo, el corrector LDR vs. HDR), las variantes más simples pueden solo definir los límites de la corrección LDR gl y gh. En ese caso, cualesquiera que fueran los valores de color de los píxeles en la IM_HDR-in con luminiscencias con el rango LDR (R_Norml_LDR), ahora se reemplazan con los valores de color en la entrada de versión LDR GRD_LDR in (posiblemente de acuerdo con una codificación conjunta o mediante el corrector local definido actualmente en el mapeo no lineal adicional dentro del intervalo de código R LDR correspondiente a ese rango LDR reemplazado R_Norml_LDR). Es decir, en general, puede haber una estrategia más compleja para determinar los valores finales de color codificados en Im_1* para los píxeles en ese rango LDR en base de la versión LDR GRD_LDR_in, tal como mediante el uso de una unidad de codificación de imagen en la que la unidad de mapeo de código (315) se dispone para mapear las luminiscencias de píxeles de la imagen de rango dinámico alto (IM_HDR_in) que se encuentra dentro del rango dinámico bajo de luminiscencias (R_Norml_LDR) de acuerdo con los valores de color de píxeles codificados en la imagen corregida LDR (GRD_LDR_in).
Muy útil con cualquier realización de acuerdo con la presente invención es una unidad de codificación de imagen que comprende un formateador de señal de imagen (320) dispuesto para emitir, además de la primera imagen (Im_1*) al menos uno de un nivel de luminiscencia característico (gt4) o un valor de código de luminancia característico (gC4).
De nuevo, como se dijo, existe una correspondencia matemática sobre si se quiere definir un valor gris característico en el dominio de luminiscencia (original) o en un dominio de valores de código de luminancia o un dominio de código similar. La definición de uno o más de estos valores grises característicos tiene varias ventajas para varias aplicaciones. Como se dijo antes, cuando se delimitan regiones tales como, por ejemplo, una región de efecto HDR de luminiscencias más brillantes, pueden usarse para cortar y pegar de una representación a otra como, por ejemplo, Im_1* Esto permite la definición del significado de los códigos. Uno puede prescindir de ellos y simplemente definir una función de mapeo (que puede abarcar códigos que no existen porque no están seleccionados en el mapeo de partes HDR con CMAP H porque están por debajo del rango complementario R above y en el rango LDR (o el nivel de límite gris puede codificarse implícitamente en esa función de mapeo). Pero también podría usarse un mapeo simple (por ejemplo, lineal) y comenzarlo explícitamente a partir de ese valor gris especial (por ejemplo, la luminiscencia g1). Esto permite convertir una estrategia de mapeo lineal genérico en una específica, es decir, permite un ajuste óptimo de la presente imagen (porque con ello pueden omitirse las regiones de luminiscencia que no existen en la imagen, y de manera discontinua pero eficiente (re)iniciar la codificación con los lóbulos de luminiscencia del objeto disponibles. Pero también definir varios de tales valores grises característicos permite definir varios lóbulos HDR (que en realidad no siempre están tan bien separados como en nuestra simplista Figura 2, pero pueden separarse no obstante, pero típicamente necesitan la inteligencia de un corrector de color humano). Esto permite definir varios efectos HDR, lo que permite, por ejemplo, potenciar una explosión más fuerte y disminuir el brillo de las regiones soleadas al aire libre, en dependencia de las capacidades físicas de la pantalla de renderizado, tal como su rango de luminiscencia disponible, que puede depender de limitaciones de hardware tales como las luces de fondo led disponibles y sus limitaciones de manejo para evitar halos. Pero también dentro de un solo lóbulo, tal como la parte LDR dentro de R_Norml_LDR, uno puede definir valores grises interesantes, por ejemplo, una parte oscura de la imagen, que es una región seleccionada por el corrector humano con un significado específico relacionado con la historia. Puede ser, por ejemplo, una región donde no hay mucha acción como un interior oscuro visto a través de una puerta. Uno podría borrar eso en un único valor negro (o percibido como único), pero alternativamente, aunque no es crítico para la historia, puede ser deseable tener al menos alguna estructura en él. Al delimitar esta región oscura de las regiones que deberían renderizarse de manera más crítica, el lado renderizado puede decidir mejor cómo renderizarla realmente. Por ejemplo, si el usuario indica en el botón de brillo de su control remoto que la escena le parece demasiado oscura y no puede ver bien algunas partes (que deberían ser las partes más oscuras al menos), el televisor puede aclarar esa parte. Es decir, puede aumentar la luminancia de todos esos píxeles y desplazar suavemente los colores de la región de luminancia por encima, o incluso superponerse con esa. Los metadatos adicionales pueden explicar la relación entre estas regiones y ayudar además en el procesamiento del lado receptor, por ejemplo, el proveedor de contenido puede exigir que esa región oscura siempre sea más oscura que la anterior (ya sea como un brillo promedio de las regiones oscuras y más brillantes, la luminiscencia más alta que cae por debajo del más bajo del rango anterior, etc.).
En general, tales valores característicos pueden ser útiles para todo tipo de aplicaciones, pero especialmente en un sistema HDR, para coordinar mejor las operaciones de procesamiento de imágenes del lado receptor (en un cuadro de procesamiento de imágenes como una caja decodificadora u ordenador, o en una pantalla, etc.), en particular el mapeo de tonos óptimo para crear renderizados visualmente mejores. En un sistema LDR, aunque pueden existir algunos puntos característicos, no son necesarios. El punto blanco es solo el valor máximo de luminiscencia/luminancia. Sin embargo, en HDR pueden existir varios blancos (un papel blanco que se encuentra en una sombra o al aire libre al sol, y el color de la fuente de luz aún más brillante no es realmente un blanco (que debería ser un color reflectante) sino uno "brillante"). Por supuesto, puede haber negros y grises aún más interesantes, lo que permite de una manera muy simple una definición semántica de la escena. Esto es especialmente útil si el lado receptor quiere usar transformaciones globales de color/luminancia de la imagen, pero entonces típicamente necesita ajustarlas estrechamente en correspondencia al contenido real de la imagen, en particular la distribución del color de las texturas de objetos como capturados y codificados.
Por lo tanto, estos valores grises característicos son útiles para cualquier definición HDR en una sola (o varias) imágenes relacionadas, en particular en o coordinadas alrededor de una parte LDR predominante. De manera más interesante, uno puede dar a estas regiones más datos semánticos, tales como códigos de nombres u operaciones permitidas, como "región oscura", "que puede brillar para una mejor visibilidad de los objetos, pero debe permanecer psicológicamente renderizada en la imagen renderizada total como oscura". Debe tenerse en cuenta que esto último depende de los otros colores presentes en la imagen renderizada, y las condiciones de visualización adicionales que conducen al espectador a ver ciertos colores, pero dado que este no es el componente principal de la presente invención, no necesitaremos ampliar innecesariamente sobre esto aquí.
Las transformaciones técnicas similares que pueden realizar los aparatos de unidad de codificación anteriores pueden realizarse de otras maneras técnicas que permiten un procedimiento de codificación de imagen de una imagen de rango dinámico alto (IM_HDR-in) que comprende:
- seleccionar un rango dinámico bajo de luminiscencias (R_Norml_LDR), o el rango correspondiente de valores de código de luminancia (R_LDR), dentro del rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto;
- seleccionar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende principalmente luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR);
- mapear los códigos de luminancia de una primera imagen (Im_1*) que tiene al menos un componente de luminancia que comprende palabras de código de N bits, luminiscencias de píxeles de la imagen de rango dinámico alto (IM_HDR-in) que caen dentro del rango dinámico bajo de luminiscencias (R_Norml_LDR) para valores de código (Y_out) de acuerdo con un primer mapeo (CMAP_L), caracterizado porque el procedimiento se dispone para elegir un primer mapeo apropiado (CMAP_L); y mapear las luminancias de píxeles de la imagen de rango dinámico alto (IM_HDR-in) que caen dentro del al menos un rango complementario (R_above) para valores de código (Y_out) de acuerdo con un segundo mapeo (CMAP_H) caracterizado porque el procedimiento se dispone para ajustar el segundo mapeo HDR (CMAP_H), en el que el primer y segundo mapeos se mapean para separar subrangos del rango de valores de código de luminancia de la primera imagen (RcTot_Im1).
Qué procedimiento de codificación de imagen de una imagen de rango dinámico alto (IM_HDR-in) puede comprender además realizar una corrección de color para píxeles que tienen luminiscencias dentro del rango dinámico bajo de luminiscencias (R_Norml_LDR), etc., cualquiera de las subtecnologías anteriores que tienen pendientes en procedimientos técnicamente materializados, en particular para producir como codificaciones de imágenes productos.
La tecnología de imagen espejo del lado del transmisor puede construirse en cualquier lado receptor (ya sea destino final o intermedio) como, por ejemplo, una unidad de decodificación de imagen (651) dispuesta para obtener una imagen de rango dinámico alto (IM_HDR_out) a partir de una codificación de imagen de rango dinámico alto (Im_1*) que comprende:
- una unidad de recuperación LDR (656) dispuesta para determinar un rango dinámico bajo de luminiscencias (R_Norml_LDR), o el rango correspondiente de valores de código de luminancia (R_LDR), dentro del rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto, y dispuesto para obtener una imagen de rango dinámico bajo (Im_LDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*); - una unidad de recuperación HDR (655) dispuesta para determinar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende principalmente luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR), y dispuesta para determinar al menos una subimagen de rango dinámico alto (ImP_HDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*) correspondiente a ese al menos un rango complementario (R above);
- una unidad de composición de imagen (657) dispuesta para componer la imagen de rango dinámico alto (IM_HDR_out) a partir de la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o), mediante la cual la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o) cubren subrangos de luminiscencia en gran parte sin superposición de la imagen de rango dinámico alto (IM_HDR_out).
La estructura de codificación particular dentro de Im_1* puede ayudar a separar la subparte LDR de las subpartes HDR, y reconstruir correctamente una imagen HDR final Im_HDR salida, por ejemplo, para el manejo directo de una pantalla como un televisor o pantalla portátil, u otro uso como almacenamiento posiblemente con procesamiento adicional de imágenes en colores.
Quisiéramos señalar que, aunque definimos el lado receptor en el dominio de luminiscencia, una realización de un decodificador puede identificar típicamente las partes LDR y HDR en un dominio de luminancia (donde normalmente están separadas), pero eso puede convertirse fácilmente en y a partir de una memoria descriptiva de luminiscencia (es decir, el decodificador normalmente mapeará también los rangos de luminiscencias, especialmente si ese formato se usa para la salida final de la imagen HDR, o al menos se correlaciona a través del mapeo de color de la misma).
En variantes técnicas simples, tanto el codificador como el decodificador pueden saber (no solo en el sistema integrado, sino también, por ejemplo, los estándares de transmisión de televisión) en qué subparte reside la subimagen LDR, por ejemplo, siempre entre 0 y CLDRh, por ejemplo, 850. Para manejar una pantalla heredada, la caja de recepción de imágenes (que por simplicidad, como metonimia, también podemos llamar caja decodificadora, que también significa cualquier otro aparato o componente intermedio o final como IC o placa que tenga capacidades de procesamiento de imágenes como, por ejemplo, un formateador de ordenador portátil para un teléfono móvil de enlace inalámbrico que renderiza la imagen final) puede seleccionar entonces la subimagen LDR y usarla para manejar la pantalla final (potencialmente con mapeo adicional de colores). Incluso pueden engañarse más cajas decodificadoras heredadas al usar directamente la parte LDR en caso de que la parte HDR esté codificada en una versión extendida de una señal básica que no necesita ser reconocida y usada por todos los sistemas (por ejemplo, el sistema anterior cree que la señal solo puede pasar de 0 a 800 y considera todos los demás códigos como errores o al menos códigos irrelevantes para él, y simplemente los descarta, pero las cajas decodificadoras más nuevas o más inteligentes también saben cómo usar esos datos fuera del rango codificados de forma inteligente (por ejemplo, en el rango completo de 10 bits 0-1.023, o un subrango más pequeño del mismo que permite códigos adicionales de "otra_relevancia").
Como ya se mencionó anteriormente cuando una unidad de decodificación de imagen (651) comprende una unidad de identificación de valores grises característicos (661), dispuesta para extraer a partir de los metadatos de entrada (MET) al menos uno de un nivel de luminiscencia característico (gt4) o un valor de código de luminancia característico (gC4), esta puede aplicar aplicaciones de procesamiento de imágenes mucho más inteligentes a la imagen decodificada. Estos valores grises no solo pueden usarse para deformatear la imagen codificada en Im_1* en una imagen HDR de salida más óptima IM_HDR_out, sino también (si no es necesario para eso, por ejemplo), permiten transformaciones adicionales como, por ejemplo, refuerzo o brillo opcional de una subregión o efecto, o interpolar más fácilmente regiones codificadas para el ajuste del entorno de la pantalla.
Otras modificaciones interesantes son, por ejemplo, una unidad de decodificación de imagen (651) en la que la unidad de recuperación LDR (656) se dispone para determinar un rango dinámico bajo de luminiscencias (R_Norml_LDR) sobre la base del nivel de luminiscencia característico (gt4) o el valor de código de luminancia característico (gC4), o una unidad de decodificación de imagen (651) que comprende una unidad de mapeo de tonos (658) dispuesta para transformar los colores de los píxeles al menos cuando sus luminiscencias o luminancias caen en un subrango de luminiscencias o luminancias de la imagen de rango dinámico alto (IM_HDR_out), como se define por el nivel de luminiscencia característico (gt4) o el valor de código de luminancia característico (gC4) respectivamente, o una unidad de decodificación de imagen (651) como se reivindica en la reivindicación 11, en la que la unidad de mapeo de tonos (658) se dispone para aplicar una transformación de brillo de al menos los colores de píxeles que tienen luminiscencias o luminancias por debajo de un cierto umbral, preferentemente en dependencia de una medición de la iluminación envolvente (Surr_IL) desde un sensor de luz (688).
Como se dijo anteriormente, tener uno o más valores grises característicos que caracterizan una región más oscura permite ajustar mejor su renderizado final, por ejemplo, en dependencia de lo que la pantalla pueda hacer visible realmente en un determinado entorno de visualización. Además, si hay varias regiones oscuras, estas pueden coordinarse mejor en cuanto a sus características de renderizado del color con otros valores grises característicos (por ejemplo, donde puede comenzar la superposición entre las dos regiones).
Todo lo anterior y a continuación también puede incorporarse en procedimientos como un procedimiento de decodificación de imagen para obtener una imagen de rango dinámico alto (IM_HDR_out) a partir de una codificación de imagen de rango dinámico alto (Im_1*) que comprende:
- determinar un rango dinámico bajo de luminiscencias (R_Norml_LDR), o el rango correspondiente de valores de código de luminancia (R_LDR), dentro del rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto, y obtener una imagen de rango dinámico bajo (Im_LDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*);
determinar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende principalmente luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR), y determinar al menos una subimagen de rango dinámico alto (ImP_HDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*) correspondiente a ese al menos un rango complementario (R_above);
componer la imagen de rango dinámico alto (IM_HDR_out) a partir de la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o), mediante la cual la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o) cubren subrangos de luminiscencia en gran parte sin superposición de la imagen de rango dinámico alto (IM_HDR_out).
Y puede incorporarse en otros componentes técnicos conocidos como, por ejemplo, un producto de programa informático que comprende un software que codifica el procedimiento de 6 que permite que un procesador lo implemente, o un producto de programa informático que comprende un software que codifica el procedimiento de 13 que permite que un procesador lo implemente, o una señal de imagen que codifica una imagen de rango dinámico alto (IM_HDR_in), caracterizada porque comprende al menos una codificación que codifica una imagen de luminancia bidimensional, que tiene un mapeo (CMAp ) de valores de código de luminancia (Y_out) sobre las luminiscencias a renderizar (Lum_in_scene), en la que un rango dinámico bajo de luminiscencias (R_Norml_LDR) cubre una codificación de una imagen de rango dinámico bajo (Im_LDR_o) condicionada a sus características de color para renderizar en un sistema de pantalla de rango dinámico bajo, y un subrango complementario no superpuesto (R_above+R_below) cubre los colores de píxeles de rango dinámico alto, que pueden usarse para renderizar la imagen de rango dinámico (IM_HDR_in) en un sistema de pantalla de rango dinámico alto, caracterizado porque la señal de imagen comprende un segundo mapeo de luminiscencia (CMAP_H) para mapear las luminiscencias en el subrango complementario fuera del rango dinámico bajo de luminiscencias (R_Norml_LDR) en los metadatos.
O una señal de imagen como se reivindicó en la reivindicación 16, que comprende además al menos uno de un nivel de luminiscencia característico (gt4) o un valor de código de luminancia característico (gC4), que puede estar comprendido en varios componentes de hardware de memoria, tal como, por ejemplo, un soporte de datos extraíble, tal como, por ejemplo, un disco blu-ray.
En la definición de la señal de imagen queremos decir con una codificación que codifica una imagen de luminancia bidimensional, que la imagen de luminancia no necesita ser una codificación directa de luminiscencias de píxeles en la misma ubicación, sino que puede ser una transformación típica de la misma como una transformación DCT (pero esa nueva imagen aún codifica la imagen de luminancia de píxeles original subyacente). Con el acondicionamiento de acuerdo con sus características de color de la imagen LDR, típicamente nos referimos a una corrección, que normalmente se realizará de tal manera que la (sub)imagen LDR se vea bien cuando se renderice en un sistema de pantalla LDR (suficiente contraste, sin colores extraños, suficientes efectos HDR como explosiones aún incluidos, etc.). Por lo tanto, la novedad técnica de las presentes realizaciones puede verse inmediatamente en las diversas realizaciones de señal en la forma en que las partes LDR y HDR se entrelazan en la definición de luminancia. El subrango LDR de ese rango de luminancia puede haber sido previamente acordado (por ejemplo, entre 12 y 1.400) en una señal estándar, o puede comunicarse por medio de valores grises característicos. Permite una codificación/transformación versátil adicional de las partes. Por supuesto, las funciones de mapeo -típicamente codificadas conjuntamente- CMAP_L y CMAP H pueden identificar también las subpartes.
Por supuesto, son posibles muchas variantes adicionales de las realizaciones descritas a continuación, y el experto comprende que, por ejemplo, pueden realizarse en diferentes aparatos en diferentes regiones geométricas del mundo, al aplicar su funcionalidad parcial en diferentes momentos en el tiempo, o varias veces después de cada uno, etc.
Breve descripción de los dibujos
Estos y otros aspectos del procedimiento y aparato de acuerdo con la invención serán evidentes y se aclararán con referencia a las implementaciones y realizaciones descritas a continuación, y con referencia a las figuras adjuntas, que sirven meramente como ilustraciones específicas no limitantes que ejemplifican el concepto más general, y en las que los guiones se usan para indicar que un componente es opcional, los componentes sin guiones que no son necesariamente esenciales. Los guiones también pueden usarse para indicar que los elementos, que se explican como esenciales, están ocultos en el interior de un objeto, o para cosas intangibles tales como, por ejemplo, selecciones de objetos/regiones (y cómo pueden mostrarse en una pantalla).
En los dibujos:
La Figura 1 ilustra esquemáticamente una escena con un rango dinámico alto de luminiscencias;
La Figura 2 ilustra esquemáticamente cómo se ve esa escena a representar en términos de la luminiscencia lineal de las regiones de la escena;
La Figura 3 ilustra esquemáticamente una realización del codificador que puede codificar una imagen HDR de acuerdo con los principios de la presente invención;
La Figura 4 ilustra esquemáticamente una relación de luminiscencia-luminancia que permite codificar tanto una representación LDR como al menos partes de información HDR de una representación HDR en una única estructura de luminancia de imagen que esclarece algunos principios de la presente invención;
La Figura 5 ilustra esquemáticamente un sistema lateral de codificación, que puede ser operado por un corrector de color;
La Figura 6 ilustra esquemáticamente un sistema lateral de decodificación, que puede ser, por ejemplo, un sistema de pantalla doméstico del consumidor que comprende aparatos tales como un televisor principal y un visor de imágenes portátil; y
La Figura 7 ilustra esquemáticamente una realización que permite tres correcciones importantes para la codificación de películas futuras (corrección maestra para cines, corrección doméstica de pantalla LDR y corrección doméstica HDR) que se codificarán en una señal (por ejemplo, 10 bits) de acuerdo con la presente invención.
Descripción detallada de los dibujos
La Figura 1 muestra una escena típica que da lugar a la necesidad de codificar una imagen de rango dinámico alto (HDR) como buen representante, para poder renderizar razonablemente la escena. El renderizador, incluso si es típico, no es capaz de reproducir exactamente los colores de la escena (ya que esto implica no solo las limitaciones de pantalla sino también la adaptación del sistema visual del espectador humano), todavía necesita la información más precisa posible sobre la escena original.
No solo existe el problema de codificar las luminiscencias/colores de la escena con suficiente precisión (que puede seleccionarse, por ejemplo, para que para las transformaciones laterales de pantalla esperadas como el estiramiento de luminiscencia, nos quedemos en el lado seguro, es decir, hay suficientes códigos para que ocurran artefactos no notables como bandas), sino que hay una especie de jerarquía de representaciones con una cierta calidad de rango alcanzable. Esto puede verse como una especie de "enfoque de exposición", al igual que un director de cine o un fotógrafo puede seleccionar un objeto enfocado y desenfocar todo lo demás, puede, por razones de limitaciones físicas o regiones artísticas, seleccionar un rango de luminiscencias que necesite reproducirse o al menos codificarse perfectamente (por ejemplo, porque contiene el actor principal 101) y otras regiones, que en algunos renderizados pueden borrarse, pero en otros representarse de una manera particular.
En el ejemplo tenemos una tienda con algunas cosas, algunas de ellas en una mesa, en la que ocurre la acción principal. Estos objetos 111 de la región principal deberían estar bien representados, es decir, ya sea si están en una codificación de menor calidad como una imagen LDR, u otra codificación como una imagen HDR.
En una producción de programas de televisión, estos objetos principales típicamente están bien iluminados por el diseñador de iluminación. En un informe sobre la marcha, el camarógrafo ajustará la apertura de su cámara para que los objetos principales caigan aproximadamente alrededor de la mitad de su rango LDR.
En la Figura 2 vemos los histogramas de luminiscencia equivalentes del recuento n(L_Sc) frente a la luminiscencia L_sc para la escena (o al menos cómo una cámara de alta calidad los mediría aproximadamente). Los objetos principales (luminiscencias representadas esquemáticamente con el lóbulo principal 211) deben caer todos aproximadamente bien en un rango de luminiscencias LDR R_Norml_LDR (es decir, en dependencia del contraste real de la escena que podría significar que caen en un subconjunto de ese rango para objetos de bajo contraste, normalmente objetos que tienen reflectancias entre 1 % y 100 % con una iluminación razonablemente uniforme también deben ajustarse dentro del rango R_Norml_LDR, y para rangos más altos -proporcionar el recorte suave de la cámara a, por ejemplo, codificación JPEG o MPEG es insuficiente- una cantidad menor de los píxeles del objeto principal pueden recortarse a los valores externos del código LDR, es decir, por ejemplo, 0 y 255). Típicamente, la región l Dr termina con algo de W* blanco, mapeado a 255 en una representación l Dr de 8 bits (y típicamente el blanco también puede estar presente en la imagen como capturada, por ejemplo, una función de autoexposición de la cámara puede -además de hacer cálculos genéricos como una hipótesis del mundo gris- buscar los objetos más brillantes y mapear estos a 255-blanco). En esta puede haber regiones con un valor gris crítico x%G, por ejemplo, el lóbulo 201 del actor principal no debe ser demasiado oscuro (ni demasiado pálido).
En una escena del tipo ejemplificado con la Figura 1, también habrá regiones de luminiscencia significativamente más alta que la región principal, por ejemplo, una región brillante 102, como se ve en el sol afuera a través de la ventana.
Su histograma, indicativo de las reflectividades de sus objetos, cae en otra región del rango total de luminiscencias HDR Range_HDR (como puede medirse en la escena con un fotómetro, o la aproximación de una captura con una cámara de rango dinámico alto, o una representación gráfica de ordenador, etc.), es decir, un rango brillante R_above. Si solo hay objetos brillantes en la escena, ese rango R_above es complementario a R_Norml_LDR, no necesariamente de manera continua/adyacente, sino que contiene todas las otras luminiscencias de píxeles de los objetos presentes en la escena. En el ejemplo, R above contiene luminiscencias de una región aún más brillante, es decir, la región de luz 103 de una lámpara en la tienda, con el histograma de luz 203. Una baja calidad a menudo recortará tales regiones de mayor luminiscencia, o al menos las representará incorrectamente, por ejemplo, con cromas pálidas y desaturadas.
A menudo también habrá regiones muy oscuras, como en este caso la región oscura 104 de objetos en la sombra debajo de la mesa. Esta tiene el lóbulo oscuro del histograma 204 que cae en el rango oscuro R below. Nuevamente, en versiones más burdas de la imagen pueden no ser tan relevantes. Por ejemplo, en otra escena HDR donde se filma desde el exterior, lo que está dentro de la casa (como, por ejemplo, visto a través de una puerta entreabierta) puede renderizarse como (casi) negro, y el espectador puede no verlo. Sin embargo, uno puede imaginar que es mejor que también codificarlo mal (especialmente si la cámara puede capturar bien esos datos), uno también podría representar bien esos píxeles oscuros de objetos interiores con una cantidad suficiente de códigos asignados. Un renderizado LDR en un sistema LDR que no puede renderizar fielmente esas regiones oscuras en relación con las más brillantes, puede entonces, a partir de esos datos (adicionales), decidir aplicar una transformación de color que, al tiempo que conserva suficiente del aspecto oscuro, al darle brillo muestra algo de la estructura del objeto detrás de la puerta de la casa en el cuarto oscuro. Esto es lo que puede hacerse con una codificación HDR, que en principio podría codificar cualquier píxel de luminiscencia extrema en la escena, ya sea que se use o no más tarde.
La Figura 2 también muestra cómo las presentes ideas inventivas pueden acomodar tal codificación, que se aclara adicionalmente con la Figura 4. Si uno, por ejemplo, usa una palabra de datos de 10 bits ya predefinida como una estructura de datos, uno puede abarcar una señal LDR directamente utilizable (!) en algún lugar en el rango HDR [0­ 1.023], y eso codificará de manera más óptima esa parte del rango HDR (independientemente de cómo se codifica, por ejemplo, modificada por contraste no linealmente, y lo qué se hace exactamente con el resto del rango HDR). Lo que ahora es contra intuitivo es lo que se hace con el resto del rango HDR. El sentido normal indicaría que uno continúa en la misma forma de codificación más allá de la subparte LDR, en la medida en que lo permita el rango de la estructura de datos de luminancia del "marcador de posición" de 10 bits. Es decir, la función de transferencia de mapeo que define el código sería una continuación simple (normalmente de una función simple como una función gamma), y no una discontinuidad (y mucho menos una asignación no monótona que nuestra invención encontraría muy útil en algunos escenarios). La idea es que entonces, si se comete algún error (algún error de redondeo o un desplazamiento de valores de luminancia hacia abajo debido a algún procesamiento de la imagen), debido a la diferencia menor en el significado de la luminiscencia de la escena correspondiente de los códigos adyacentes, no ocurriría ninguna modificación visual significativa. Creemos que en la era digital actual debería ser posible demarcar exactamente un subrango de otro y, por lo tanto, evitar por completo cualquier problema de este tipo, incluso si un código de luminancia adyacente (por ejemplo, 951 vs. 950) contiene datos de un significado muy diferente, es decir, una luminiscencia de objeto de escena muy diferente. Además, debido a la naturaleza específica de la codificación de color de HDR, incluso si ocurriera un problema, normalmente no será tan grave. De manera errónea (o a propósito) poner algunos datos de luminiscencia brillante HDR en los códigos más altos del rango LDR R_Norml_LDR no debería ser un problema ya que la imagen LDR se recorta de todos modos para objetos de alto brillo (y una diferencia entre las luminancias 253 y 255 es apenas perceptible además). Y si se produce un error en la parte HDR, normalmente los aparatos que manejan esos datos deben ser lo suficientemente inteligentes como para detectarlos y corregirlos (por ejemplo, al detectar un gradiente que es incongruente porque se mapea a lo que debería ser una región codificada LDR).
De todos modos, esa razón permite la codificación inteligente no lineal de exactamente esas luminiscencias de píxeles que todavía son necesarias o deseables para una apariencia HDR. Es decir, uno puede, por ejemplo, reservar una pequeña cantidad de valores de luminancia 0-11 para la región oscura. Esa debería ser suficiente información que permita a una función de mapeo no lineal compleja crear uno o varios renderizados de regiones oscuras agradables. Dado que la región oscura nunca será de importancia primordial, uno puede, por ejemplo, aplicar el renderizado para que las luminiscencias oscuras se conviertan en diferencias notables, o en otros casos (por ejemplo, un mayor brillo) puede haber etapas más grandes que resultan en cierta posterización, pero eso todavía es aceptable normalmente para tal región de sombra de menor importancia. Dado que en este ejemplo no hay más luminiscencia de escena de importancia especial (que podría ser el caso si se captura una habitación oscura con una luminiscencia promedio más alta, que en vista de que su renderizado puede requerir una codificación de subhistogramas de más códigos de luminancia), uno puede comenzar con el código de luminiscencia directamente por encima (12), la definición del rango LDR de mayor importancia. Y eso es independiente de si hay una brecha de luminiscencia con la región oscura, o si hay superposición (en cuyo caso, algunos de los píxeles pueden incluso codificarse de forma redundante también en la parte l Dr , por ejemplo, los píxeles más brillantes 11 en las luminancias para la codificación HDR que corresponden a R below, en dependencia de una cuantificación más precisa de su luminiscencia de escena, pueden obtener una recodificación de uno de los tres códigos LDR más bajos, es decir, crear una definición de textura de objeto adicional con los valores de píxeles 12, 13 y 14). De manera similar, la luminiscencia de la escena correspondiente a la luminancia 951 puede, en dependencia del contenido de la escena, ser dos veces tan alta como la luminiscencia correspondiente a la luminancia 950 (en lugar de ser, por ejemplo, un 2 % más alta), o tres veces, etc.
En general, puede ser útil codificar conjuntamente los valores grises especiales que delimitan tales regiones. Es decir, más versátil que la fijación de una subregión fija para la parte LDR, uno puede comunicarse con el valor gris característico (en este caso, el valor de luminancia) g 1 =951, que allí comienza la (primera) parte HDR de la codificación, y preferentemente uno codifica conjuntamente además típicamente en los metadatos MET asociados con la codificación de la imagen, que este valor de luminancia 951 corresponde a una luminiscencia de escena de, por ejemplo, 2.000 nit. El lado de la pantalla puede entonces determinar cómo renderizar visualmente de manera óptima eso en una pantalla con un brillo máximo local de digamos 3.000 nits, es decir, también reservando espacio suficiente para las regiones de imagen de brillo aún mayor. Y potencialmente teniendo en cuenta la configuración del usuario, tal como que el usuario prefiere imágenes que no sean demasiado brillantes para sus ojos, o que usan menos de 3.000 nits para fines de conservación de energía.
La Figura 3 muestra esquemáticamente algunas realizaciones que pueden estar presentes en un codificador. Siempre habrá algún selector de LDR que permita identificar el rango LDR, y típicamente caracterizarlo. Suponemos que aún no está corregida por separado, es decir, por ejemplo, solo hay una imagen de cámara sin procesar de una cámara HDR, o una corrección maestra HDR óptima de acuerdo con las preferencias del director y DOP. Denotaremos esto con la imagen de rango dinámico alto ingresada IM_HDR_in. Como mínimo, típicamente un humano (o un algoritmo inteligente) identificará cuál es la parte LDR en esa imagen, es decir, aquellas regiones de escena que deberían renderizarse de manera óptima en un sistema de visualización LDR estándar, es decir, con buen contraste, la visibilidad de la estructura también posiblemente en algunas partes oscuras, los colores correctos para los rostros humanos, etc. Típicamente, también deben hacerse sacrificios al identificar al menos implícitamente las regiones que no están bien cubiertas por la codificación/subparte LDR. Es decir, por ejemplo, algunas regiones más brillantes pueden recortarse suavemente al reducir de manera nociva la cantidad de códigos de luminancia que aún caracterizan la textura del objeto allí, o incluso recortarse duramente, es decir, no representadas en absoluto. Pero el humano puede considerar eso razonablemente, por ejemplo, para una región de sombra oscura o luz de la calle brillante. Opcionalmente, en muchas realizaciones de la unidad de codificación 301, también puede haber una unidad de transformación de color/luminiscencia 312, que permite al corrector aún, por ejemplo, iluminar de forma no lineal alguna parte de las regiones de sombra antes de meterla en las luminancias más bajas de la subparte LDR. Es decir, tener unidades para tal corrección de color separada al momento de crear la codificación, permite bien un desacoplamiento del mapeo técnico final de las luminiscencias sin procesar del objeto capturado a los códigos finales de luminancia en la imagen única Im_1* que se emitirá (al menos única en la medida en que se necesite una única vista, por supuesto, puede haber, por ejemplo, múltiples vistas en 3D para cada instante de tiempo, o incluso pueden estar presentes más imágenes que pueden ser la codificación HDR alternativa, o correcciones de rango dinámico medio (MDR), etc.). De esta manera, puede usarse, por ejemplo, un mapeo gamma 2.2 estándar CMAP L para la parte LDR. En este caso, cualquier sistema LDR heredado puede usar directamente el subrango LDR -al aislarlo por la simple operación de umbral- y, por lo tanto, parte de la inteligencia de la codificación de escena HDR se ha realizado mediante la corrección adecuada en el rango LDR R Norml_LDR.
En cualquier caso, el corrector típicamente seleccionará un mapeo HDR inteligente (segundo mapeo CMAP H) para codificar las partes HDR en lo que permanece en el rango. Por ejemplo, para una imagen de 10 bits, aún 1.024-256 son 768 códigos de luminancia restantes, lo que debería ser suficiente para bastantes escenarios HDR. Sin embargo, si uno fuera a codificar la imagen LDR aproximadamente (mediante un mapeo inteligente adicional o al sacrificar la precisión de 1 bit al escalar) en 7 bits de un rango de luminancia total de 8 bits, entonces la cantidad restante de códigos sería 256-128=128. Esto debería aún ser suficiente para generar una región soleada exterior de la misma precisión que la región principal, sin embargo, la cantidad reducida de códigos ya puede requerir hacer una gestión más inteligente de los efectos HDR. Por ejemplo, uno podría decidir reservar 120 de esos códigos para las regiones soleadas (102), solo 2 códigos de luminancia para las lámparas (103) que luego se representan de manera común, y solo 6 para las regiones oscuras (104), que también ya no se representan con alta precisión. Pero entonces, la ventaja es que una señal HDR completa puede ajustarse a un formato de 8 bits, y cualquier decodificador puede aislar fácilmente, ya sea para un sistema heredado o HDR, el rango óptimo LDR (7 bits) de 128 códigos (por ejemplo, iniciar una luminancia 7), y escalarlo a 8 bits para el renderizado directo, y donde sea necesario, arrancar fácilmente las diversas codificaciones de región HDR, y luego mapearlas, por ejemplo, en un escenario de aumento de brillo para crear renderizados de la región de lámpara brillante, etc., para obtener una imagen HDR final IM_HDR_out (lo cual, por simplicidad, consideraremos una imagen de manejo directo, el experto que comprende otras modificaciones como tener en cuenta una gamma de pantalla diferente, calibración de pantalla, etc.).
De manera similar, puede ser útil si se comprende un selector HDR 313, que puede permitir al corrector a través de una unidad de interfaz de usuario 330 (típicamente una tabla de corrección dedicada y software), por ejemplo, deseleccionar algunas regiones HDR (no tan importantes para codificar), o separarlas en partes distintas de significado semántico especial, etc. De esta manera, puede ajustar, por ejemplo, el segundo mapeo HDR CMAP_H para codificar de forma óptima en luminancias el modo brillante 202 frente al modo de luz 203. Puede ser útil tener una unidad de transformación de color HDR opcional 314 para aplicar uno o más mapeos de tonos (o en general mapeos de colores) TM_H a los diversos valores de color/luminiscencia de píxeles de la región HDR, con los cambios debidos al mapeo de tonos con un mapeo de tonos LDR TM_L mediante la unidad de transformación de color LDR 312.
Una unidad de mapeo de código 315 aplica las codificaciones a través de los mapeos CMAP_L y CMAP H, que pueden predefinirse (por ejemplo, de acuerdo con un cierto campo de la tecnología), o diseñarse óptimamente por el corrector y codificarse conjuntamente en los metadatos de la señal de imagen emitida S. Esta señal de imagen también puede comprender uno o varios valores grises interesantes, que pueden codificarse como valores de luminiscencia característicos (por ejemplo, gt4) y/o valores de luminancia característicos (gC4), y que como se mencionó anteriormente, por ejemplo, ayudan a decodificar qué código de luminancia de luminiscencia de salida 951 debería renderizarse finalmente, potencialmente, por ejemplo, de una manera ajustable por el usuario. Un formateador 320 formateará la imagen Im_1* en la señal S, y el experto comprenderá que esto puede implicar, por compatibilidad, tales tecnologías comunes como la transformación d Ct , etc. para obtener un flujo compatible con MPEG, empaquetado, estructuración de acuerdo con una memoria descriptiva blu-ray, etc., cualquiera que sea la demanda de la tecnología que implementa los presentes conceptos inventivos.
En caso de que una corrección LDR GRD_LDR_in ya esté presente, típicamente será coingresada. Otros metadatos ingresados pueden ayudar a identificarla con un rango particular en el rango HDR Range_HDR, por ejemplo, una memoria descriptiva de un mapeo TM Gl usado para llegar a la corrección LDR. Típicamente, el selector LDR 311 comprenderá entonces una unidad de identificación LDR 340 que se dispone para hacer un mapeo entre el corrector LDR de entrada y la imagen HDR de entrada. Las realizaciones más complejas pueden hacer un análisis de imagen de color espacial completo, por ejemplo, identificar objetos similares (por ejemplo, mediante la detección de límites y coincidencia), analizar cómo está la corrección en ambas imágenes, proponer o implementar una transformación automática adicional de mapeo de color/luminiscencia (por ejemplo, hacer la corrección LDR final que se codificará como una variante intermedia de las correcciones LDR y h Dr que se ingresan), etc. En algunas realizaciones, la retroalimentación al corrector que mira las imágenes en sus pantallas puede proporcionarse, por ejemplo, en forma de pseudocolores que muestran qué objetos en el renderizado HDR corresponden a la codificación de entrada LDR (o actual que se emitirá), y permiten mostrar las transformaciones de color, potencialmente exageradas, comparadas diferencialmente, etc.
Aunque pueden imaginarse varios conceptos avanzados en dependencia de cómo se relaciona exactamente la codificación LDR con la imagen HDR (por ejemplo, se usó un mapeo de tonos inteligente para incorporar una gran parte de la región brillante 202 del exterior soleado), los sistemas simples pueden definir dos umbrales gl y gh de luminancias (o luminiscencias que pueden calcularse entre sí) donde cortar y reemplazar en la imagen HDR. En este escenario, la corrección LDR puede pasar directamente por alto o ejecutarse sin procesar la unidad de transformación de color LDR 312, en lugar de eso, una región modificada de rango dinámico bajo se genera a partir de la IM_HDR_in incorporada, por ejemplo, por la unidad 312 que calcula una imagen HDR modificada IM_HDR_in* con luminiscencias sin cambios en las regiones HDR pero diferentes luminiscencias L* en la región LDR.
La codificación de imagen HDR, y en particular las presentes realizaciones, permiten crear escenas visual y totalmente diferentes, por ejemplo, transmitir un estado de ánimo diferente. El paradigma natural es tener siempre al menos la acción principal en la escena bien renderizada (es decir, óptimamente visible), lo que típicamente lleva a poner los objetos principales "en el centro de atención". Sin embargo, ya en el Renacimiento, el hombre que descubrió su posición menor en el universo, condujo a nuevos tipos de imágenes, como pinturas de vanitas oscuras. El descubrimiento de la iluminación artificial en el siglo XIX llevó a los artistas a jugar con esta maravilla. Además del mundo de la luz del día, ahora también se descubrió la noche. Y los valores grises en tales imágenes nocturnas dependen de cómo se ilumina una escena. Por ejemplo, una fuente de puntos pequeños y débiles, como una vela, puede tener el efecto de que en el renderizado total se iluminarán más o menos regiones del objeto. Debe tenerse en cuenta que psicológicamente ya puede crearse una experiencia oscura al oscurecer solo algunos objetos o partes de la imagen, mientras se mantiene el resto más claro. Por lo tanto, habrá un rango de luminiscencias desde muy brillante en la fuente de luz, que se desvanece hasta un valor teórico de cero. La pregunta ahora es dónde ocurre la acción. Un actor puede estar razonablemente bien iluminado por la vela, pero una segunda acción (especialmente en una película de terror) puede ocurrir en una región más oscura. Con la presente invención, podría decidirse no seleccionar el rango LDR bien centrado alrededor de todos los colores en la cara del segundo actor, sino poner sus colores de píxeles en la parte inferior del rango LDR, incluso, por ejemplo, recortar la mitad más oscura y menos iluminada de su cara a cero (valor LDR, es decir, por ejemplo, 12 en la codificación HDR Im_1* de imagen individual). En ese caso, su rostro se renderizará correctamente muy oscuro en un renderizado LDR. Luego, uno puede codificar estos píxeles de mitades faciales oscuras en la parte HDR (R below), de modo que un sistema HDR pueda decidir cómo mostrarlos con más textura (por ejemplo, una pantalla HDR puede generar con precisión luminiscencias de píxeles mucho más oscuras, incluso si bajo cierta iluminación, parecerán indistinguibles para el espectador humano, por lo tanto, se darán cuenta de la misma apariencia oscura que en la pantalla LDR, tal vez desde muy lejos, mientras que a partir de una mirada más cercana la textura comienza a mostrarse).
La Figura 4 muestra un ejemplo esquemático de cómo uno puede codificar con las presentes realizaciones un rango de entrada de "valores relacionados con el gris", que nuevamente asumiremos que son luminiscencias de escena lineales (por lo que una codificación particular como, por ejemplo, con una luminancia no lineal, o cualquier correlación gris definida matemáticamente en un espacio de color, por ejemplo, proveniente de un dispositivo gráfico de ordenador, siempre puede transformarse en tal representación de luminiscencia equivalente (Lum in scene) en las luminancias Y_out de la imagen de salida Im_1*, en el ejemplo de 10 bits que abarca un rango total de luminancia HDR RcTot_Im1 de 1.024 valores (solo dilucidamos los conceptos de luminancia, que actualmente es la correlación gris más popular en la codificación de imágenes, pero también uno puede entender fácilmente nuestra invención con una codificación que define, por ejemplo, los colores con una medida de luminancia lineal). En este ejemplo de definición de código permitimos valores de luminancia negativos. La parte LDR puede encontrarse con un mapeo gamma estándar 2.2 CMAP L en el subrango de código LDR R LDR, correspondiente también a las luminiscencias de escena entre las luminiscencias características gt2 y gt3. Los metadatos pueden simplemente transmitir estas luminiscencias características gt2 y gt3, de modo que un sistema que necesita la codificación de imagen para generar los valores de manejo para una pantalla heredada LDR solo necesita seleccionar los valores en ese rango, y ya están normalizados correctamente si comienzan en la luminancia Y_out cero y terminan en la luminancia 255 (es decir, si estos valores se usan para las luminancias características que demarcan el rango LDR cLDRl y cLDRh, ni siquiera necesitan transmitirse o almacenarse en principio). Los valores negativos pueden usarse aquí para representar con un primer mapeo HDR CMAP_H 1 (del mapeo HDR total) las regiones oscuras del modo oscuro 204. Un segundo (sub)mapeo HDR puede mapear los píxeles de imagen HDR/escena más brillantes, y puede involucrar cualquier forma funcional útil (mapear apropiadamente la subregión HDR disponible de las luminancias de imagen de salida, es decir, el rango HDR R_LEffs_HDR), por ejemplo, determinado al asignar una cantidad óptima de códigos de luminancia para representar las texturas internas de varias regiones con su propia precisión óptima, o al tener en cuenta cómo se verán típicamente los renderizados del lado del receptor para estas subregiones y ubicarlas ya en los subrangos de luminancia aproximadamente correctos, etc. gt4 es una luminiscencia característica donde comienza algo importante, por ejemplo, puede ser tan simple como donde se detienen las luminiscencias de píxeles al aire libre soleados y comienzan las luminiscencias de la fuente de luz (por ejemplo, la corrección HDR puede haberse hecho de tal manera que estas regiones no se superponen y son adyacentes en la imagen HDR transformada en color IM_HDR_in* a codificar). Para el lado receptor, esta luminiscencia característica es muy útil, ya que ahora puede ajustar de manera óptima el renderizado de sus regiones brillantes, por ejemplo, renderizar las lámparas con una luminiscencia de salida excesivamente alta si el rango de luminiscencia de la pantalla lo permite, o viceversa, si no hay muchos colores brillantes disponibles por encima del renderizado de la parte LDR, asignar de manera óptima las luminiscencias de la pantalla a los píxeles exteriores soleados y las lámparas. Este gt4 puede ayudar en los procedimientos de análisis de imágenes en el lado receptor (ya que este es un valor significativo determinado por el ser humano), pero también puede parametrizar funciones simples de transformación de color en el lado receptor como estiramientos o compensaciones. También se ve que debido a la abolición de la propiedad de continuidad simple de la codificación, pueden codificarse todo tipo de espacios (como entre gt1 y gt2) y superposiciones, u otras codificaciones redundantes múltiples, etc.
Pueden incluirse otras anotaciones de valores grises característicos útiles en la señal de salida S, por ejemplo, una luminancia característica gCdk puede formar una demarcación entre dos subregiones de imágenes semánticas que se codifican con la parte LDR. Esto puede usarse, por ejemplo, en un algoritmo para mejorar el brillo de regiones más oscuras, por ejemplo, bajo el control del espectador.
También se muestra la posibilidad de seleccionar otro rango LDR R_OTHSEL_LDR, por ejemplo, mediante un transcodificador, que típicamente tendrá también una unidad de mapeo de tonos o colores. En ese ejemplo, por ejemplo, al aplicar una estrategia de recorte suave, hemos incluido un poco más de las regiones oscuras y brillantes. Esto tiene como efecto psicovisual final que más de las regiones oscuras se vuelven visibles, y tan bueno como sea posible se incluyen algunos efectos HDR brillantes adicionales (por ejemplo, mientras que a menudo la región soleada exterior se recorta fuertemente en una imagen LDR, uno puede seleccionar cuidadosamente incluir más colores, que sean demasiado desaturados).
La Figura 5 muestra un sistema ilustrativo que incorpora algunos de los conceptos inventivos presentes en un sistema de creación de películas. La escena HDR se captura con una cámara de gran rango dinámico 501 capaz de capturar el rango HDR Range_HDR, y la imagen capturada puede verse en una pantalla de cámara 503 (preferentemente también HDR, aunque podría emular HDR, por ejemplo, al usar una escala deslizante, o algún mapeo de tonos, o pseudocolores, etc.). A partir de ahí, la imagen se envía a través de la conexión de señal 505 (red o inalámbrica (satélite), etc.) a un dispositivo de procesamiento de imágenes 510. En dependencia del escenario de uso, para la transmisión en la vida real, este puede ser un aparato en la cabina o camión de un director. En este caso, la corrección puede reducirse a un mínimo, y el mapeo puede ser simple y solo se aplica en algunos casos: por ejemplo, una única etapa de calibración que genera CMAp_L y CMAP H antes del inicio del programa, y en caso de desviación con la realidad se vuelve demasiado fuerte y las imágenes renderizadas en revisión comienzan a parecer menos deseables de una actualización durante los comerciales. En un escenario de creación de película, puede ser (fuera de línea, en un momento posterior en un estudio de corrección de color) un aparato de corrección de un corrector 520. En el primer caso, puede hacerse un análisis de imagen puramente automático. En el último escenario, puede aplicarse como punto de partida para una corrección humana, es decir, en el presente ejemplo suponemos que se realiza un procesamiento semiautomático, con la finalización por parte del corrector 520. Debe tenerse en cuenta que los mismos principios pueden aplicarse en cualquier etapa intermedia o posterior (por ejemplo, remasterizar una señal previamente corregida para nuevas aplicaciones). Por ejemplo, en el lado de captura, un DOP ya puede (pre)especificar la composición LDR/HDR de la escena en las imágenes resultantes Im_LDR e Im_HDR, sin embargo, el corrector 520 puede volver a especificar eso. Por ejemplo, a través del mapeo de tonos apropiado a una representación lineal intermedia de 32 bits, puede cambiar (o copiar) algunos niveles de luminiscencia de los datos codificados de dichos reflejos de la imagen LDR a la imagen HDR, o viceversa, obteniendo así una imagen codificada LDR y/o HDR modificada. Típicamente, puede mirar varias correcciones y/o codificaciones de la misma escena, por ejemplo, al alternar o mirar de lado a lado una versión HDR en una pantalla de referencia HDR 531, y una versión lDr en una pantalla de referencia LDR 530. De este modo, puede optimizar lo que llegará a ver cada una de las clases típicas de los espectadores finales, y equilibrar la calidad de la codificación de cada una de estas señales, por ejemplo, al variar los subrangos de la salida Im_1*. Puede almacenar las imágenes corregidas finales Im_1* en un soporte de datos 511. Posiblemente, puede almacenar también metadatos adicionales que describen el significado de los códigos Y, como al especificar una forma matemática Trf de función de mapeo o LUT, etc.
Dentro del dispositivo de procesamiento de imágenes 510 hay subunidades de procesamiento de imágenes que harán el trabajo real de cálculo por píxel y producirán la salida final y guiarán y ayudarán al corrector. Por supuesto, habrá una unidad de codificación de imagen 551 que se dispone para derivar la imagen codificada Im_1*, en base a la señal de entrada de la cámara CSI y las preferencias del corrector (típicamente manejadas a través de un módulo de UI).
Además, típicamente habrá una unidad de análisis de imagen 550 que analiza la imagen, lo que ayuda en la codificación. Esta unidad puede analizar las propiedades de los modos de histograma y la distribución de colores en ciertas subregiones de imágenes de entrada, como la imagen de entrada HDR, posiblemente con la ayuda adicional de otros componentes de análisis de imagen como el análisis de textura o movimiento, la estimación del modelo de objetos geométricos parametrizados, etc. Puede generar (ayudado típicamente de nuevo por la intervención humana) una estructura de datos SEL_LDR que caracteriza cómo cree que es la contribución LDR en la seña1HDR, que en realizaciones simples puede ser tan simple como un rango, y posiblemente alguna información adicional sobre cómo los valores grises se distribuyen dentro de ese rango (por ejemplo, una función que depende de las estadísticas de ocurrencia de los colores de píxeles en las regiones de imagen HDR que se encuentran dentro del rango LDR). En realizaciones más complejas, puede ser una estructura de datos de descripción tan compleja que también comprende información semántica de las regiones LDR, tal como dónde residen las caras (esto que puede vincularse o se vincula a sus colores), etc.
El dispositivo de procesamiento de imágenes 510 (y el corrector) de este ejemplo también tiene un enlace de acceso 581 al contenido heredado 580 como, por ejemplo, una película antigua (por supuesto, el experto entiende que esta funcionalidad puede incorporarse en un aparato diferente, y realizarse en una etapa diferente de la cadena de imágenes, por otro corrector o artista de gráficos por ordenador). Con las presentes realizaciones, el corrector puede agregar efectos HDR a una película LDR antigua, y las presentes realizaciones son muy útiles ya que la codificación LDR no necesita cambiarse ("dañarse"), ya que puede codificarse como la parte LDR de Im_1* o al menos una transformación muy simple menor y en gran medida reversible de la misma. Y luego, todas las regiones HDR o efectos pueden codificarse en los rangos restantes de Im_1*. También se muestra otra salida 582 para proporcionar otra codificación Im_2*, por ejemplo, una codificación diferente para otra ruta de comunicación, que puede ser, por ejemplo, una codificación de menor calidad a través de Internet 584 para pantallas portátiles que, por un lado pueden tener necesidades de calidad reducida para la parte LDR, y por otro lado aplicarán una transformación severa en las partes HDR, para aún renderizarlas algo, pero en gran medida distorsionadas (pero con la misma facilidad que los sistemas de alta calidad pueden derivar sus codificaciones finales necesarias en base a las realizaciones de codificación de la presente invención).
Más adelante en la cadena puede haber servicios de mejora de video (por ejemplo, en un servidor remoto) que pueden mejorar los datos codificados en Im_1* (al adaptar la parte LDR y/o HDR, por ejemplo, al volver a mapear), por ejemplo, al suscribirse para acondicionar la imagen para un entorno de renderizado específico. Uno puede pensar, por ejemplo, en aumentar el rango R_Norml_LDR a costa de las regiones HDR, para sistemas de pantalla que en su mayoría son LDR de todos modos, como un teléfono móvil.
Una antena 512 puede recibir cualquier dato o transmitirlo además, por ejemplo, imágenes, instrucciones de operación, etc.
La Figura 6 muestra un ejemplo de un sistema de renderizado en un lado receptor. Puede estar compuesto, por ejemplo, de una caja de procesamiento de video 651 (que puede ser, por ejemplo, una caja decodificadora o un ordenador de propósito general, que puede comprender una unidad de lectura de BD, etc.) y una pantalla, que en este ejemplo es un televisor LCD con retroiluminación LED 602, pero también puede ser un OLED, proyector, pantalla LDR simple, etc.
La caja de procesamiento de video 651 tiene una entrada, que en dependencia del sistema puede ser, por ejemplo, un lector de discos, una ranura para una tarjeta de memoria y una unidad de gestión de memoria conectada, un bus para conectar un aparato externo, una antena y un receptor con demodulador, una conexión de red ya sea por cable o inalámbrica, etc. Típicamente, un receptor hará todo el deformateo de la señal (que incluye la descripción y todo lo que sea necesario), pero al tratarse esto de un conocimiento general de otro campo técnico, simplemente asumiremos que la imagen codificada Im_1* se presenta como una imagen SIN PROCESAR, que está con una definición de mapeo de código luminancia especial. Como se describió anteriormente, los metadatos MET pueden ser bastante complejos y pueden definir además cómo ocurrió exactamente la codificación y, por lo tanto, cómo debe hacerse la decodificación, pero también es posible que pueda definir además qué puede hacerse con la imagen una vez que se decodifica (lo que mostramos esquemáticamente con la IM_HDR_out, que por simplicidad puede suponerse en una representación de luminiscencia lineal, aunque podría usarse alguna otra definición de espacio código/color maestra).
Una unidad de identificación de valores grises característicos 661 puede estar compuesta para extraer esos códigos específicos de los metadatos MET (o incluso derivarlos además en base al análisis de imágenes), y luego esa información puede usarse, por ejemplo, en el remapeo de tonos.
Una unidad de recuperación LDR 656 se dispone para aplicar todas las funciones necesarias para determinar la parte LDR en la imagen codificada Im_1*, por lo que típicamente determinará un rango dinámico bajo de luminiscencias (R_Norml_LDR), que luego puede usarse para cortar la imagen LDR fuera de Im_1*. Típicamente, una unidad de composición de imagen 657 generará la imagen HDR final IM_HDR_out, porque también recibirá las partes HDR desde una unidad de recuperación HDR 655, y estas partes (por ejemplo, incorporadas como una imagen LDR Im_LDR_o las imágenes parciales HDR ImP_HDR_o) pueden entonces componerse todas juntas en, por ejemplo, un dominio de luminiscencia lineal después de aplicar el mapeo inverso apropiado (CMAP_L-1, y CMAP_H-1). También puede haber un mapeo de tonos adicional antes de enviar la imagen HDR a la pantalla (ya sea como una señal de manejo directo o una codificación que necesita una transformación adicional por parte de la pantalla), realizado por la unidad de mapeo de tonos 658. Esta unidad de mapeo de tonos puede acondicionar la señal para una mejor calidad de visualización, por ejemplo, aplicar una transformación de brillo con la función de transformación TM_dk, en los píxeles con luminancia por debajo de gCdk (o, de hecho, la luminiscencia correspondiente después de mapear a Im HDR mediante la unidad 657). El mapeo puede depender de una medida S u rrjL de las propiedades del entorno de visualización, por ejemplo, según lo registrado por un medidor de luminiscencia 688 en el sitio de la caja o televisor o visor (por ejemplo, en el control remoto), etc. Por supuesto, puede haber un formateador final 659, que acondiciona la señal, por ejemplo, de acuerdo con una memoria descriptiva de conexión como, por ejemplo, un estándar HDMI (un ejemplo de una conexión, por ejemplo, un cable 650). Además, para permitir que la pantalla realice sus propias transformaciones inteligentes, el formateador también puede enviar codificaciones de imagen adicionales, como una variante Im LDR de la señal LDR, que ya no es fácilmente reconocible en la imagen HDR lineal IM_HDR_out. Esto permite que la pantalla realice su propio mapeo de color (mediante la unidad de procesamiento de imagen 620 comprendida), por ejemplo, bajo el control del usuario. Pueden transmitirse metadatos adicionales MET_2 (HDR), que describen al menos la señal HDR transmitida, tal como por ejemplo, cómo se reacondicionó por la unidad 658. El televisor puede, por ejemplo, usar esta información de manera diferente en dependencia de si es la imagen principal o un PIP pequeño.
La unidad de decodificación 651 también puede comprender o conectarse a una antena 699 y transmitir la misma u otra imagen de salida HDR a, por ejemplo, un aparato de pantalla portátil 630.
Como un ejemplo de cómo funcionan las presentes realizaciones y los renderizados fáciles con una interfaz de usuario, puede mostrarse con un "control de brillo consciente de la información", por ejemplo, un botón de brillo mejorado 641 en un control remoto. En lugar de agregar compensaciones a ciegas a todas las luminiscencias de píxeles de IM_HDR_out, al presionar este botón, la caja de procesamiento de video 651 o el televisor puede aplicar una nueva estrategia de mapeo de tonos que, por ejemplo, remapea la información del lóbulo oscuro 204 diferente al resto de los píxeles, por lo que se obtiene una visibilidad mucho mejor de los objetos oscuros. Los diversos niveles de grises característicos pueden ayudar fuertemente al parametrizar tales acciones, al definir lo que debe hacerse con diferentes subrangos (brillo más fuerte, una cantidad coordinada de menor brillo, transformación de identidad).
Las presentes realizaciones permiten comandos mejorados de interfaz de usuario en el lado de renderizado. Un botón de reiluminación de adaptación más inteligente 642 o un botón de mejora de contraste más inteligente 643 puede hacer uso de todos los metadatos, pero también de los subrangos codificados. Por ejemplo, el botón de contraste puede aplicarse a una región facial que está en la oscuridad y mal iluminada. Incluso cuando se ilumina correctamente, demarcar ese rango con valores grises característicos puede permitir procesarlo de manera diferente. Por ejemplo, una función gamma modificadora que se aplicará a la región de la cara puede depender de los metadatos.
Debe tenerse en cuenta que la presente invención no excluye tener más de 1 rangos o subrangos HDR además de un rango LDR (o potencialmente, en principio, incluso varios rangos o subrangos LDR), y en particular puede usar esta libertad para fusionar varias correcciones, como se aclarará con el ejemplo de la Figura 7. En particular, la libertad de no tener una relación no lineal continua simple entre los valores grises a lo largo del rango o cualquier transformación de los mismos, es una gran ventaja. Uno puede ver todas las transformaciones clásicas de mapeo de tonos como una especie de "resorte" que empuja algunas de las regiones de valores grises a algún lugar, lo que puede o no ser deseable. Por ejemplo, una función gamma es un ejemplo de tal transformación simplista. Básicamente, mantiene el blanco fijo, y actúa principalmente en las regiones más oscuras de la escala de luminiscencia. Puede hacer que algunos grises medios sean demasiado oscuros o reservar demasiados códigos para las regiones más oscuras. Tener un solo rango de luminiscencia definido por una función de asignación continua y sin un subcontrol preciso adicional siempre implica equilibrar con precisión los blancos o negros de recorte. Debe tenerse en cuenta que (incluso para esas transformaciones continuas simples "tipo resorte", como las que se producen al transformar a diferentes sistemas de representación de color) debe hacerse una distinción entre una codificación de color/luminiscencia y un renderizado. Los valores de código de luminancia, a menos que se apliquen directamente a una pantalla tal como sucede en cadenas de televisión clásicas como PAL o MPEG2, no necesitan corresponder directamente a las luminiscencias exactas a renderizar para las regiones de la imagen, ya que siempre puede haber una transformación intermedia que implementa los requisitos de renderizado tales como las características del entorno de pantalla y/o visualización, pero debe haber suficientes valores de código para caracterizar razonablemente el objeto presente. Es decir, cuándo puede desacoplarse el "aspecto" basado en la iluminación de una escena como codificada en una imagen, a partir de la codificación de las texturas de los objetos de la escena capturada. Es decir, la presente invención puede identificar, por ejemplo, varias regiones de iluminación (algunas regiones iluminadas, regiones intermedias, regiones oscuras), pero codificarlas como si todas estuvieran perfectamente iluminadas (donde podrían no haber estado así durante la captura de la cámara), es decir, con un rango/cantidad suficiente óptimo de valores de código. Y luego, uno puede aplicar el aspecto de renderizado requerido. Por ejemplo, una pantalla o aparato LDR puede decidir si quiere mostrar una región oscura de luminiscencia de píxeles oscuros algo iluminada, o como negros indistinguibles. Por ejemplo, cuando una película se escanea con un telecine, la pendiente del dedo del pie y especialmente el hombro de la película puede contener mucha información. Es decir, incluso cuando una región oscura contiene mucho ruido, las regiones oscuras escaneadas pueden, por ejemplo, después de una reducción inteligente de ruido o un algoritmo general de mejora de objetos (que puede involucrar operaciones complejas como, por ejemplo, efectos especiales de gráficos por ordenador al pintar texturas matemáticas en los objetos oscuros) codificar esta región oscura en una codificación HDR digital final con muchos valores de código para esa región oscura. O puede determinarse una cantidad óptima de valores de código en base a las expectativas de lo que aún puede hacerse con respecto al uso (por ejemplo, con respecto al renderizado) con tales regiones oscuras, que pueden ser menos importantes. Un sistema l Dr puede entonces, por ejemplo, iluminar esta región hasta que caiga en el medio de su rango de código de luminancia, con artefactos mucho menores que si se hubiera codificado ingenuamente con solo algunos de los valores de código más oscuros.
La Figura 7 muestra ahora esquemáticamente cómo uno puede integrar tres correcciones importantes para un productor de películas (por supuesto, pueden construirse esquemas similares, por ejemplo, para reportajes de noticias de televisión o creación de juegos) en una única estructura de codificación de imágenes HDR como un ejemplo de las realizaciones de la presente invención. Suponga (aunque, por supuesto, la película puede haberse filmado en celuloide clásico) que la señal SIN PROCESAR de la película se filma en una cámara digital tal como una ARRI o una RED. La primera corrección es la corrección maestra para las salas de cine (ya sea impresa en película clásica o proyectada digitalmente). Esta corrección puede verse como una corrección HDR, ya que, en primer lugar, el creador la verá como una corrección de alta calidad, y en segundo lugar, una sala de cine tiene características de renderizado razonablemente buenas. El renderizado puede realizarse en la oscuridad, pero la adaptación visual para eso puede hacerse en gran medida mediante funciones simples de mapeo matemático. Aunque el contraste entre imágenes puede reducirse debido a factores como el equipo de proyección (y, por supuesto, las luces en el cine, como las luces de seguridad), los contrastes dinámicos entre imágenes pueden ser buenos, y uno puede renderizar típicamente de manera convincente tanto entornos de terror oscuros como exteriores soleados. La codificación típicamente tiene en cuenta, por ejemplo, el comportamiento del valor gris de una película de celuloide. Entonces, en esta corrección maestra, uno puede desear codificar con buena precisión todo, desde objetos negros en entornos oscuros (que pueden discriminarse cuando se adaptan a un entorno oscuro, pero lo más importante no es tanto la luminiscencia real ni ninguna representación de código de la misma, sino más bien el impacto psicológico de la misma, es decir, que una región negra nunca se ve tan oscura en un renderizado brillante como se verá en uno oscuro) a luces brillantes como una luz de flash que brilla hacia el observador (que en una sala de cine será en gran medida una interpretación psicológica de muy brillante, pero en algunas pantallas HDR uno realmente puede crear regiones muy brillantes). Una segunda corrección puede ser una corrección HDR para una pantalla electrónica en entornos domésticos (lo que llamaremos "corrección HDR doméstica"), tal como puede ofrecerse a través de un canal de pago de televisión h Dr . Puede coincidir en gran medida con la corrección maestra (ya que típicamente pueden relacionarse por una función de mapeo simple para mantener aproximadamente la apariencia en un entorno de renderizado diferente), sin embargo, puede contener, por ejemplo, menos de los códigos oscuros y más de los códigos brillantes. Debe tenerse en cuenta que cualquier ajuste fino de algunas regiones puede codificarse con funciones de transformación de metadatos, pero en particular también una recodificación de valores de píxeles, en cuyo caso con la presente invención puede haber una codificación dual en la señal HDR de digamos alguna región de píxeles brillantes. Por ejemplo, el rango de valores de píxeles de una lámpara cuya luminancia puede haberse reducido en la corrección maestra, puede codificarse en el rango CMAP_H2_CIN para la corrección de cine, y nuevamente en el rango CMAP_H2_DISPL de una manera diferente, lo que puede hacerse, por ejemplo, en una manera de píxeles entrelazados (es decir, un patrón de tablero de ajedrez, que puede filtrarse antes del renderizado).
Sin embargo, típicamente, una primera categoría de lámparas estará dentro de un rango asignado para las regiones brillantes de la corrección maestra para salas de cine, es decir CMAP_H2_CIN, y otras lámparas muy brillantes pueden codificarse en otro rango más alto asignado en la señal HDR final para la corrección HDR doméstica. Una realización típica puede, por ejemplo, codificar estas regiones muy brillantes (en cualquier representación asumida por la escena, por ejemplo, un espacio de color de luminiscencia lineal intermedio en el aparato de corrección que también crea la representación de señal HDR final) únicamente en el subrango HDR doméstico CMAP_H2_DISPl . El proyector de cine electrónico en el cine luego aplicará la transformación de renderizado final al cambiar ese código a un valor utilizable que en realidad equivale a lo mismo que si la región de la imagen estuviera codificada en las partes superiores de CMAP_H2_IN. Este rango CMAP_H2_DISPL puede estar tan definido que tiene, por ejemplo, una pendiente muy pronunciada, lo que permite regiones de luz muy brillante, pero con menos detalles. Esto significa que, por ejemplo, incluso una supernova podría codificarse, lo que realmente no puede renderizarse fielmente en ninguna de las pantallas en un futuro próximo, pero luego la pantalla puede usar estos diferentes valores de código de objetos para convertirlos en valores apropiados de manejo de espacio de pantalla renderizables.
También hemos dado dos ejemplos de codificaciones de región oscura, con CMAP H1, resp. CMAP_H2. El primero, por ejemplo, puede corresponder a regiones menos oscuras que uno puede desear para valores renderizables para pantallas domésticas electrónicas (típicamente en entornos de visualización más brillantes). No es necesario incluir esas en un rango de iluminación LDR típico, pero pueden codificarse en un subrango más bajo, ya que de hecho ya no son realmente LDR. Pero entonces un sistema de imágenes LDR heredado se comportará de manera razonable si corta la parte LDR (en cuyo caso estos valores se renderizan como el negro más oscuro), sin embargo, un sistema LDR más inteligente (al menos con una capacidad de pantalla LDR) puede, por ejemplo, construir una nueva señal de manejo LDR mediante el mapeo local de esos valores de código oscuro menores a valores de manejo más brillantes y visualizables (típicamente con un algoritmo que equilibra la discriminabilidad de las variaciones de textura frente a la oscuridad requerida para el aspecto total de la imagen). La región CMAP_H2 puede contener entonces regiones aún más oscuras que son principalmente de interés para la proyección de cine. Por lo tanto, vemos que este sistema permite un uso muy fácil de las señales tanto en el lado de la pantalla/decodificación como en el lado de creación/codificación. En el lado de la decodificación, siempre y cuando la tercera corrección que es la corrección de pantalla LDR (por ejemplo, lo que típicamente se hace ahora para la creación de DVD o BD) esté en la parte CMAP L, un sistema LDR puede extraerlo fácilmente, ya sea si aún quiere hacer algo con la información restante en la señal HDR o ignorarla (es decir, tratar todos los valores inferiores como 0, por ejemplo). La pantalla doméstica HDR puede interpretar y usar todo, aparte de la región CMAP_H2. Además, el creador de contenido se beneficiará mucho de este sistema, en un flujo de trabajo simplificado, y la posibilidad de coordinar y guardar todo junto (aunque el sistema, por supuesto, también permite la transcodificación en un momento posterior, pero especialmente si metadatos adicionales como elecciones y transformaciones se codifican conjuntamente con el sistema, al menos toda la experiencia de corrección ya está en la señal para una optimización posterior). Por ejemplo, puede usarse cualquier estrategia para llegar a la parte LDR. En dependencia de sus criterios de calidad, podría simplemente, por ejemplo, arreglar alguna estrategia de mapeo de una parte LDR, y mirar simultáneamente en alguna pantalla LDR si la corrección LDR parece razonable (o anotarla, por ejemplo, como "buena para la corrección maestra, para optimizarse más adelante en una corrección LDR doméstica mejorada"; nuestro sistema podría entonces generar una segunda seña1HDR separada para almacenarse en BD, pero también podría solo ajustar finamente la corrección maestra original para que las tres correcciones todavía estén razonablemente contenidas en la codificación HDR, es decir, al definir criterios de calidad para minimizar la distorsión de las correcciones (recuperables) como codificadas en la imagen HDR única). Un colega puede mirar en la sala de proyección cómo se ve la corrección maestra, y el corrector que también verifica la corrección LDR, puede mirar simultáneamente a un monitor de referencia HDR, tal como por ejemplo, un SIM2. Tener un control completo y complejo sobre todas las subregiones, su definición e incrustaciones, permite una gran codificación de todas estas tres correcciones, juntas, ya sea que una tenga criterios de calidad relajados o estrictos. Por ejemplo, la parte LDR puede definirse de manera inteligente como el "entorno normalmente iluminado" (R_Norml_Lit_Env) y el corrector puede elegir eso en dependencia de lo que puede mapearse a un rango LDR, en comparación con lo que puede obtener en cuanto a la calidad HDR. Pero debe tenerse en cuenta que un mapeo (que será codificado conjuntamente) puede ser bastante complejo. Por lo tanto, no es solo que los reflejos deban recortarse en el subrango LDR, lo que puede introducir artefactos al recuperar la señal HDR. Dado que de todos modos tendrían que reducirse en luminiscencia para el renderizado LDR, pueden hacerse con un mapeo tal que la decodificación HDR de esos brillantes todavía sea recuperable como el brillo correcto, en particular después de un mapeo perfectamente coordinado con un objeto h Dr codificado, por ejemplo, en el rango anterior CMAP_H2_CIN. Por lo tanto, el corrector tiene mucha libertad para seleccionar la historia LDR principal como codificada en su subrango. Es decir, puede seleccionar, por ejemplo, ese mapeo CMPA L únicamente sobre principios teóricos de la información, tal como una cantidad de códigos para el renderizado preciso de dichas caras bajo iluminación no optimizada, o un uso posterior más fácil de la señal (al excluir explícitamente algunos objetos como recortados, por ejemplo, una región oscura, que es una codificación conjunta de declaración semántica), etc. Uno puede, por ejemplo, calcular cuántos valores de código para una determinada subregión de una escena son deseables (por ejemplo, si está oscuro y con texturas de objetos espaciales altamente complejas, no tantos), y luego asignar inteligentemente alguna región de, por ejemplo, [0-255]. La longitud de la palabra de código como el número de bits que necesita una asignación de memoria en cualquier definición de señal, y el significado (luminiscencias en cualquier "representación de escena", por ejemplo, un espacio de pantalla de referencia de {16bit-definición_gamma_1,0.1-5000nit}) se desacoplan ahora de manera óptima y pueden controlarse.
Los componentes algorítmicos divulgados en este texto pueden (en su totalidad o en parte) realizarse en la práctica como hardware (por ejemplo, partes de un IC específico de la aplicación) o como software que se ejecuta en un procesador de señal digital especial, o un procesador genérico, etc. Pueden ser semiautomáticos en el sentido de que al menos alguna entrada del usuario puede estar/haber estado (por ejemplo, en la fábrica, en la entrada del consumidor u otra entrada humana) presente.
Debe ser comprensible para el experto de nuestra presentación qué componentes pueden ser mejoras opcionales y pueden realizarse en combinación con otros componentes, y cómo las etapas (opcionales) de los procedimientos corresponden a los medios respectivos de los aparatos, y viceversa. El hecho de que algunos componentes se divulguen en la invención en una determinada relación (por ejemplo, en una sola figura en una determinada configuración) no significa que otras configuraciones no sean posibles como realizaciones bajo el mismo pensamiento inventivo que se divulga para patentar en la presente memoria. Además, el hecho de que, por razones pragmáticas, solo se haya descrito un espectro limitado de ejemplos, no significa que otras variantes no puedan caer dentro del ámbito de las reivindicaciones. De hecho, los componentes de la invención pueden incorporarse en diferentes variantes a lo largo de cualquier cadena de uso, por ejemplo, todas las variantes de un aparato del lado de la creación, como un codificador, pueden ser similares o corresponder a los aparatos correspondientes en el lado del consumo de un sistema descompuesto, por ejemplo, un decodificador y viceversa. Varios componentes de las realizaciones pueden codificarse como datos de señal específicos en una señal para la transmisión, por ejemplo, en un uso tal como la coordinación de funcionamiento técnico entre varios componentes de la invención presentes en una cadena de procesamiento total, en cualquier tecnología de transmisión entre el codificador y el decodificador, etc. La palabra "aparato" en la presente solicitud se usa en su sentido más amplio, es decir, un grupo de medios que permiten la realización de un objetivo particular y, por lo tanto puede ser, por ejemplo, (una pequeña parte de) un IC, o un dispositivo dedicado (tal como un dispositivo con una pantalla), o parte de un sistema en red, etc. "Disposición" o "sistema" también se destina a usarse en el sentido más amplio, por lo que puede comprender, entre otros, un solo aparato físico adquirible, una parte de un aparato, una colección de (partes de) aparatos cooperantes, etc.
Debe entenderse que la denotación del producto de programa informático abarca cualquier realización física de una colección de comandos que permiten a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, tal como la traducción a un idioma intermedio y un lenguaje final del procesador) ingresar los comandos en el procesador, para ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa informático puede realizarse como datos en un soporte tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red -cableada o inalámbrica-, o código de programa en papel. Además del código del programa, los datos característicos requeridos para el programa también pueden incorporarse como un producto de programa informático. Tales datos pueden suministrarse (parcialmente) de cualquier manera.
Cualquier realización de la invención, o cualquier dato utilizable de acuerdo con cualquier filosofía de las presentes realizaciones, como los datos de video, también pueden incorporarse como señales en soportes de datos, que pueden ser memorias extraíbles como discos ópticos, memorias flash, discos duros extraíbles, dispositivos portátiles grabables a través de medios inalámbricos, etc.
Algunas de las etapas necesarias para el funcionamiento de cualquier procedimiento presentado pueden estar ya presentes en la funcionalidad del procesador o en cualquier realización de aparato de la invención en lugar de describirse en el producto de programa informático o cualquier unidad, aparato o procedimiento descrito en la presente memoria (con detalles específicos de las realizaciones de la invención), tales como las etapas de entrada y salida de datos, las etapas de procesamiento típicamente incorporadas bien conocidas, tales como el manejo de pantalla estándar, etc. También deseamos protección para los productos resultantes y resultados similares, como por ejemplo, las nuevas señales específicas involucradas en cualquier etapa de los procedimientos o en cualquier subparte de los aparatos, así como cualquier uso nuevo de tales señales, o cualquier procedimiento relacionado.
Debe observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención. Cuando el experto puede realizar fácilmente un mapeo de los ejemplos presentados a otras regiones cubiertas por las reivindicaciones, no hemos mencionado, por concisión, todas estas opciones en profundidad. Aparte de las combinaciones de elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de elementos puede realizarse en un solo elemento dedicado.
Cualquier signo de referencia entre paréntesis en la reivindicación no pretende limitar la reivindicación, ni ningún símbolo particular en las figuras. La palabra "que comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicación. La palabra "un" o "uno" que precede un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims (7)

REIVINDICACIONES
1. Una unidad de decodificación de imagen (651) dispuesta para obtener una imagen de rango dinámico alto (IM_HDR_out) a partir de una codificación de imagen de rango dinámico alto (Im_1*) que comprende:
- una unidad de recuperación LDR (656) dispuesta para determinar un rango dinámico bajo de luminiscencias (R_Norml_LDR), o el rango correspondiente de valores de código de luminancia (R_LDR), dentro de un rango total de luminiscencias (Range_HDR) cubierto por la imagen de rango dinámico alto, el rango dinámico bajo de luminiscencias (R_Norml_LDR) o el rango correspondiente de valores de código de luminancia (R_LDR) que es tan grande que la información de imagen codificada dentro del mismo puede usarse para el renderizado LDR, y dispuesta para obtener una imagen de rango dinámico bajo (Im_LDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*);
- una unidad de recuperación HDR (655) dispuesta para determinar al menos un rango complementario (R_above) dentro del rango total de luminiscencias (Range_HDR), que comprende luminiscencias no cubiertas por el rango dinámico bajo de luminiscencias (R_Norml_LDR), y dispuesta para determinar al menos una subimagen de rango dinámico alto (ImP_HDR_o) a partir de la codificación de imagen de rango dinámico alto (Im_1*) correspondiente a ese al menos un rango complementario (R_above);
- una unidad de composición de imagen (657) dispuesta para componer la imagen de rango dinámico alto (IM_HDR_out) a partir de la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o), de manera que la imagen de rango dinámico bajo (Im_LDR_o) y la al menos una subimagen de rango dinámico alto (ImP_HDR_o) cubren los subrangos de luminiscencia no superpuestos de la imagen de rango dinámico alto (IM_HDR_out), caracterizada porque la composición de la imagen de rango dinámico alto (IM_HDR_out) se realiza al aplicar un inverso de un primer mapeo (CMAP_L) a las luminancias de la imagen de rango dinámico bajo (Im_LDR_o) y al aplicar un inverso de un segundo mapeo (CMAP_H) a las luminancias de la al menos una subimagen de rango dinámico alto (ImP_HDR_o), cuyos primer y segundo mapeo se reciben en metadatos comunicados conjuntamente con la codificación de imagen de rango dinámico alto (Im_1*).
2. Una unidad de decodificación de imagen (651) como se reivindicó en la reivindicación 1, que comprende una unidad de identificación de valores grises característicos (661), dispuesta para extraer a partir de los metadatos de entrada (MET) al menos uno de un nivel de luminiscencia característico (gt4) o un valor de código de luminancia característico (gC4).
3. Una unidad de decodificación de imagen (651) como se reivindicó en la reivindicación 2, en la que la unidad de recuperación LDR (656) se dispone para determinar el rango dinámico bajo de luminiscencias (R_Norml_LDR) en base al nivel de luminiscencia característico (gt4) o el valor de código de luminancia característico (gC4).
4. Una unidad de decodificación de imagen (651) como se reivindicó en la reivindicación 2, que comprende una unidad de mapeo de tonos (658) dispuesta para transformar colores de píxeles al menos cuando sus luminiscencias o luminancias caen en un subrango de luminiscencias o luminancias de la imagen de rango dinámico alto (IM_HDR_out), según lo definido por el nivel de luminiscencia característico (gt4) o el valor de código de luminancia característico (gC4) respectivamente.
5. Una unidad de decodificación de imagen (651) como se reivindicó en la reivindicación 4, en la que la unidad de mapeo de tonos (658) se dispone para aplicar una transformación de brillo de al menos los colores de píxeles que tienen luminiscencias o luminancias por debajo de un cierto umbral, preferentemente en dependencia de una medición de la iluminación envolvente (Surr_IL) desde un sensor de luz (688).
6. Una señal de imagen que codifica una imagen de rango dinámico alto (IM_HDR_in), caracterizada porque comprende al menos una codificación que codifica una imagen de luminancia bidimensional, definida por un mapeo (CMAP) de valores de código de luminancia (Y_out) sobre las luminiscencias a renderizar (Lum_in_scene), en las que un rango dinámico bajo de luminiscencias (R_Norml_LDR) cubre una codificación de una imagen de rango dinámico bajo (Im_LDR_o) condicionada a sus características de color para el renderizado en un sistema de pantalla de rango dinámico bajo, el rango dinámico bajo de luminiscencias (R_Norml_LDR) que es tan grande que la información de imagen codificada dentro del mismo puede usarse para el renderizado LDR, y un subrango complementario no superpuesto (R_above+R_below) cubre los colores de píxeles de rango dinámico alto, utilizables para renderizar la imagen de rango dinámico (IM_HDR_in) en un sistema de pantalla de rango dinámico alto, caracterizada porque la señal de imagen comprende un segundo mapeo de luminiscencia (CMAP_H) para mapear las luminiscencias en el subrango complementario fuera del rango dinámico bajo de luminiscencias (R_Norml_LDR) en los metadatos, y la señal de imagen comprende un primer mapeo de luminiscencia (CMAP_L) para mapear las luminiscencias en el rango dinámico bajo de luminiscencias (R_Norml_LDR) en los metadatos.
7. Una señal de imagen como se reivindicó en la reivindicación 6, que comprende además al menos uno de un nivel de luminiscencia característico (gt4) o un valor de código de luminancia característico (gC4).
ES12720649T 2011-04-28 2012-04-23 Aparatos y procedimientos para la codificación y decodificación de imágenes HDR Active ES2787827T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11164005 2011-04-28
US201261591339P 2012-01-27 2012-01-27
PCT/IB2012/052029 WO2012147022A2 (en) 2011-04-28 2012-04-23 Apparatuses and methods for hdr image encoding and decoding

Publications (1)

Publication Number Publication Date
ES2787827T3 true ES2787827T3 (es) 2020-10-19

Family

ID=72643898

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12720649T Active ES2787827T3 (es) 2011-04-28 2012-04-23 Aparatos y procedimientos para la codificación y decodificación de imágenes HDR

Country Status (2)

Country Link
ES (1) ES2787827T3 (es)
HU (1) HUE049111T2 (es)

Also Published As

Publication number Publication date
HUE049111T2 (hu) 2020-09-28

Similar Documents

Publication Publication Date Title
JP6596125B2 (ja) Hdrイメージの符号化のためのコードマッピング関数を作成するための方法及び装置、並びに、かかる符号化イメージの使用のための方法及び装置
JP6615251B2 (ja) Hdr画像をエンコードするための方法及び装置、並びに、斯様なエンコードされた画像の使用のための方法及び装置
JP6009539B2 (ja) Hdr画像を符号化及び復号化するための装置及び方法
JP6700322B2 (ja) 改善されたhdrイメージ符号化及び復号化方法、装置
RU2720446C2 (ru) Простое, но гибкое кодирование динамического диапазона
ES2825699T3 (es) Optimización e imágenes de alto rango dinámico para pantallas particulares
RU2728516C2 (ru) Кодирование и декодирование hdr видео
EP2873237B1 (en) Improved hdr image decoding methods and devices
KR102135841B1 (ko) 높은 다이내믹 레인지 이미지 신호의 생성 및 처리
US11151962B2 (en) Graphics-safe HDR image luminance re-grading
BR112014023535B1 (pt) Codificador de imagem para codificar uma imagem de uma cena de alto alcance dinâmico, decodificador de imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico, método de codificação de imagem para codificar uma imagem de uma cena de alto alcance dinâmico e método de decodificação da imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico
RU2723676C2 (ru) Обработка множественных источников изображения hdr
ES2787827T3 (es) Aparatos y procedimientos para la codificación y decodificación de imágenes HDR
ES2728053T3 (es) Métodos y aparatos para crear funciones de mapeo de códigos para codificar una imagen HDR, y métodos y aparatos para el uso de tales imágenes codificadas
CN117296076A (zh) 经显示优化的hdr视频对比度适配
BR112018010367B1 (pt) Aparelho para combinar duas imagens ou dois vídeos de imagens, e método para combinar duas imagens ou dois vídeos de imagens
BR112016027461B1 (pt) Método de codificação de uma imagem de alta faixa dinâmica, codificador de imagem disposto para codificar uma imagem de alta faixa dinâmica, decodificador de imagem disposto para receber um sinal de imagem de alta faixa dinâmica, e, método de decodificação de um sinal de imagem de alta faixa dinâmica
BR112015019787B1 (pt) Codificador de imagem, decodificador de imagem, método de codificação de imagem, método de decodificação de imagem, sinal de imagem, e, objeto de memória