BR112017015479B1 - Método, aparelho e mídia de armazenamento não transitória legível por computador para gerenciamento de exibição para vídeo de alta faixa dinâmica - Google Patents

Método, aparelho e mídia de armazenamento não transitória legível por computador para gerenciamento de exibição para vídeo de alta faixa dinâmica Download PDF

Info

Publication number
BR112017015479B1
BR112017015479B1 BR112017015479-0A BR112017015479A BR112017015479B1 BR 112017015479 B1 BR112017015479 B1 BR 112017015479B1 BR 112017015479 A BR112017015479 A BR 112017015479A BR 112017015479 B1 BR112017015479 B1 BR 112017015479B1
Authority
BR
Brazil
Prior art keywords
tone
image
output image
pixel values
function
Prior art date
Application number
BR112017015479-0A
Other languages
English (en)
Other versions
BR112017015479A2 (pt
Inventor
Robin Atkins
Original Assignee
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation filed Critical Dolby Laboratories Licensing Corporation
Priority claimed from PCT/US2016/013352 external-priority patent/WO2016118395A1/en
Publication of BR112017015479A2 publication Critical patent/BR112017015479A2/pt
Publication of BR112017015479B1 publication Critical patent/BR112017015479B1/pt

Links

Abstract

MÉTODO, APARELHO E MEIO DE ARMAZENAMENTO PARA GERENCIAMENTO DE EXIBIÇÃO PARA VÍDEO DE ALTA FAIXA DINÂMICA. Um processador de gerenciamento de exibição recebe uma imagem de entrada com faixa dinâmica melhorada para ser exibida em uma exibição alvo que tem uma faixa dinâmica diferente de uma exibição de referência. A imagem de entrada é primeiro transformada em um espaço de cor perceptualmente quantizado (PQ), preferencialmente, o espaço de cor IPT-PQ. Uma função de mapeamento de volume de cor, que inclui uma função de mapeamento de tons adaptativa e uma função de mapeamento de gama adaptativa, gera uma imagem mapeada. Uma etapa de preservação de detalhes é aplicada a um componente de intensidade da imagem mapeada para gerar uma imagem mapeada final com uma imagem de intensidade filtrada com mapeamento de tons. A imagem mapeada final é, então, traduzida de volta para o espaço de cor preferido da exibição. Exemplos das funções de mapeamento de gama e mapeamento de tons adaptativas são providos.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001]Este pedido reivindica prioridade do Pedido de Patente Provisório dos Estados Unidos N° de Série 62/105.139, depositado em 19 de janeiro de 2015, o qual é aqui incorporado por referência em sua totalidade.
TECNOLOGIA
[002]A presente invenção refere-se, de forma geral, a imagens. Mais particularmente, uma modalidade da presente invenção refere-se ao processo de gerenciamento de exibição de imagens com faixa dinâmica alta ou melhorada.
FUNDAMENTO
[003]Como usado neste documento, o termo 'faixa dinâmica' (DR) pode se referir à capacidade do sistema visual humano (HVS) em detectar uma faixa de intensidade (por exemplo, luminância, luma) em uma imagem, por exemplo, de zonas escuras mais escuras (pretos) a zonas claras mais claras (brancos). Nesse sentido, DR refere-se a uma intensidade 'referente à cena'. DR pode também se referir à capacidade de um dispositivo de exibição apresentar adequadamente ou aproximadamente uma faixa de intensidade de determinada amplitude. Nesse sentido, DR refere-se a uma intensidade 'referente à exibição'. A menos que um determinado sentido seja explicitamente especificado para ter um significado particular em qualquer ponto da descrição neste documento, deve-se inferir que o termo pode ser usado em ambos os sentidos, por exemplo, intercambiavelmente.
[004]Como usado neste documento, o termo ‘alta faixa dinâmica’ (HDR) refere-se a uma amplitude de DR que abrange as 14-15 ordens de magnitude do sistema visual humano (HVS). Na prática, a DR em que um ser humano pode simultaneamente captar uma extensa amplitude na faixa de intensidade pode ser um pouco truncada em relação à HDR. Como usado neste documento, os termos faixa dinâmica melhorada (EDR) ou faixa dinâmica visual (VDR) podem individualmente ou intercambiavelmente se referir à DR que é simultaneamente captável por um sistema visual humano (HVS). Como usado neste documento, EDR pode se referir a uma DR que abrange 5 a 6 ordens de magnitude. Dessa forma, embora talvez um pouco mais limitada em relação à HDR referente à cena verdadeira, a EDR representa, no entanto, uma vasta amplitude de DR e pode também ser referida como HDR.
[005]Na prática, as imagens compreendem um ou mais componentes de cor (por exemplo, luma Y e croma Cb e Cr), em que cada componente de cor é representado por uma precisão de n-bits por pixel (por exemplo, n=8). Usando codificação de luminância linear, as imagens em que n < 8 (por exemplo, imagens JPEG coloridas de 24 bits) são consideradas imagens de faixa dinâmica padrão, enquanto as imagens em que n > 8 podem ser consideradas imagens de faixa dinâmica melhorada. Imagens EDR e HDR podem também ser armazenadas e distribuídas usando formatos de ponto flutuante de alta precisão (por exemplo, 16 bits), tais como o formato de arquivo OpenEXR desenvolvido por Industrial Light and Magic.
[006]A maior parte monitores de desktop do mercado suportam luminância de 200 a 300 cd/m2 ou nits. A maior parte das HDTVs de mercado variam de 300 a 1000 cd/m2. Tais monitores convencionais caracterizam, assim, uma baixa faixa dinâmica (LDR), também referida como uma faixa dinâmica padrão (SDR), em relação a HDR ou EDR. Conforme a disponibilidade de conteúdo EDR aumenta devido a avanços nos equipamentos de captura (por exemplo, câmeras) e monitores EDR (por exemplo, o monitor de referência profissional PRM-4200 de Dolby Laboratories), o conteúdo EDR pode ser classificado por cor e exibido em monitores EDR que suportam faixas dinâmicas mais altas (por exemplo, de 1.000 nits a 5.000 nits ou mais). Em geral, os métodos da presente invenção se referem a qualquer faixa dinâmica superior a SDR. Como apreciado pelos inventores aqui, técnicas melhoradas para o gerenciamento de exibição de imagens de alta faixa dinâmica em monitores HDR e SDR são desejáveis tanto para retrocompatibilidade e quanto para uma melhor experiência imersiva.
[007]Como usado neste documento, o termo “gerenciamento de exibição” denota o processamento (por exemplo, mapeamento de gama e tons) necessário para mapear um sinal de vídeo de entrada de uma primeira faixa dinâmica (por exemplo, 1000 nits) para uma exibição de uma segunda faixa dinâmica (por exemplo, 500 nits).
[008]As abordagens descritas nesta seção são abordagens que poderiam ser seguidas, mas não são necessariamente abordagens que foram previamente concebidas ou seguidas. Portanto, salvo indicação contrária, não se deve presumir que qualquer das abordagens descritas nesta seção qualifica-se como técnica anterior apenas em virtude de sua inclusão nesta seção. Da mesma forma, as questões identificadas em relação a uma ou mais abordagens não devem assumir ter sido reconhecidas em qualquer técnica anterior com base nesta seção, salvo indicação contrária.
BREVE DESCRIÇÃO DOS DESENHOS
[009]Uma modalidade da presente invenção é ilustrada por meio de exemplo, e não como forma de limitação, nas Figuras dos desenhos anexos, nas quais números de referência iguais se referem a elementos iguais e em que:
[010]A Figura 1 apresenta um exemplo de processo para o gerenciamento de exibição de imagens EDR de acordo com uma modalidade da presente invenção;
[011]A Figura 2 apresenta um exemplo de processo para conversão de dados EDR de entrada de um espaço de cor de entrada em um espaço perceptualmente quantizado de acordo com uma modalidade da presente invenção;
[012]A Figura 3 apresenta um exemplo de processo para mapeamento de volume de cor para imagens EDR de acordo com uma modalidade da presente invenção;
[013]A Figura 4 apresenta um exemplo de processo para preservação de detalhes de acordo com uma modalidade da presente invenção; e
[014]A Figura 5 apresenta um exemplo de processo para conversão de cor de saída de acordo com uma modalidade da presente invenção.
DESCRIÇÃO DE MODALIDADES EXEMPLIFICATIVAS
[015]Gerenciamento de exibição eficiente (por exemplo, mapeamento de gama e tons) de imagens de faixa dinâmica melhorada (EDR) é descrito neste documento. Na descrição a seguir, para fins de explicação, vários detalhes específicos são apresentados a fim de prover um completo entendimento da presente invenção. Será evidente, no entanto, que a presente invenção pode ser praticada sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos não são descritos em detalhes exaustivos, a fim de evitar oclusão desnecessária, obscurecendo ou ofuscando a presente invenção.
VISÃO GERAL
[016]As modalidades exemplificativas descritas neste documento se referem a ao gerenciamento eficiente de exibição de imagens EDR. Um processador de gerenciamento de exibição recebe uma imagem de entrada com faixa dinâmica melhorada para ser exibida em uma exibição alvo que tem uma faixa dinâmica diferente de uma exibição de referência fonte. A imagem de entrada é primeiro transformada de um espaço de cor de entrada (por exemplo, RGB ou YCbCr) em um espaço de cor perceptualmente quantizado (PQ), preferencialmente o espaço de cor IPT-PQ. Uma função de mapeamento de volume de cor, que inclui uma função de mapeamento de tons adaptativa e uma função de mapeamento de gama adaptativa, gera uma primeira imagem mapeada. Uma etapa de preservação de detalhes é aplicada a um componente de intensidade da primeira imagem mapeada para gerar uma imagem mapeada final com uma imagem de intensidade filtrada mapeada por tom. A imagem mapeada final é, então, traduzida de volta para o espaço de cor preferido da exibição. Exemplos das funções de mapeamento de gama e mapeamento de tons adaptativas são providos.
EXEMPLO DE FLUXO DE PROCESSO DE GERENCIAMENTO DE EXIBIÇÃO
[017]A Figura 1 apresenta um exemplo de processo para o gerenciamento de exibição de imagens EDR (que também podem ser referidas como imagens HDR) de acordo com uma modalidade da presente invenção. Esse processo compartilha muitas similaridades com o processo de gerenciamento de exibição descrito no Pedido PCT N° de Série PCT/US2014/016304, a ser referido a partir de agora como o Pedido ‘304, depositado em 13 de fevereiro de 2014, que é incorporado neste documento por referência em sua totalidade; no entanto, as modalidades propostas incluem vários melhoramentos que permitem reduzir a complexidade computacional ao mesmo tempo em que melhoram a qualidade de imagem geral.
[018]Como Apresentado Na Figura 1, Um Processador De Vídeo (Por Exemplo, Um Servidor De Mídia, Decodificador (Set-top Box), Uma Exibição De Imagem Ou Outro Processador De Imagem Adequado) Recebe Entrada Edr Vi (102) E Opcionalmente Metadados De Conteúdo E Fonte (104) E Metadados Alvo (106) Associados. A Entrada Edr (102) Pode Compreender Parte De Um Quadro Ou Um Quadro Completo De Uma Sequência De Imagens, Tal Como Um Sinal De Vídeo Edr. Como Usado Neste Documento, O Termo “metadados” Se Refere A Qualquer Informação Auxiliar Que Seja Transmitida Como Parte Do Fluxo De Bits Codificado E Assiste Um Decodificador A Apresentar Uma Imagem Decodificada. Tais Metadados Podem Incluir, Mas Não São Limitados A Informações De Gama Ou Espaço De Cor, Parâmetros De Exibição De Referência E Parâmetros De Sinal Auxiliar, Como Aqueles descritos Neste Documento.
[019]A entrada EDR recebida (102) pode ser em um formato de cor RGB ou qualquer outro espaço de cor, tal como YCbCr, XYZ e semelhantes. A imagem recebida pode ter sido classificada por cor em um monitor EDR de referência que pode ter características de gama de cor e faixa dinâmica diferentes de um monitor de exibição alvo. Como usado neste documento, o termo “classificação por cor” denota o processo de ajustar a cor de uma imagem ou vídeo para corrigir objetos coloridos e/ou para corresponder à intenção do diretor.
[020]A entrada EDR (102) pode também incluir metadados de exibição fonte (104) relacionados à exibição usada para classificar por cor a imagem durante uma produção de programa. Por exemplo, esses metadados podem incluir a função de transferência eletro-óptica de referência (EOTF) (por exemplo, Rec. ITU-R BT.1866 (03/2011) ou SMPTE ST 2084:2014). A entrada EDR pode também incluir metadados de conteúdo e exibição fonte adicionais (104), tais como o brilho máximo e mínimo da exibição de referência ou fonte, os meios tons médio, mínimo e máximo dos dados, e a intensidade de luz ambiente durante a classificação por cor. Por exemplo, os metadados para um monitor de referência podem incluir os seguintes parâmetros exemplificativos usados na produção: Monitor Fonte - Brilho Mínimo, Smin= 0,005 nits; Monitor Fonte - Brilho Máximo, Smax = 4000 nits; Luz ambiente, Samb = 10 nits; Gama, Sgamma = 2.4; Espaço de cor = DCI P3, Ponto Branco = D65;
[021]Metadados para o monitor de referência precisam ser transmitidos tipicamente apenas uma vez; no entanto, metadados para os dados de vídeo podem ser transmitidos em uma base por quadro, em uma base por cena ou sempre que houver uma mudança. Se não existir metadados relacionados ao conteúdo fonte, então, em algumas modalidades tais dados podem ser extraídos por análise do conteúdo de vídeo fonte. Metadados alvo (106) são entregues pela exibição alvo e podem descrever as características de exibição alvo (por exemplo, brilho máximo, gama de cor e semelhantes.)
O ESPAÇO DE COR IPT-PQ
[022]Em uma modalidade preferida, o fluxo de processamento (100) é executado no que será referido como espaço de cor IPT ou IPT-PQ perceptualmente quantizado; no entanto, etapas de processamento similares podem ser executadas em outros espaços de cor, tais como RGB linear, RGB gama, YCbCr, XYZ, CIE-Lab, e semelhantes. Como apreciado pelo inventor, a operação no espaço de cor IPT-PQ oferece uma variedade de vantagens, tais como: execução do fluxo de gerenciamento de exibição em ponto fixo e em uma profundidade de bit inferior e redução de objetos coloridos devido a operações de mapeamento de gama e mapeamento de tons. IPT, como descrito em “Development and testing of a color space (ipt) with improved hue uniformity”, por F. Ebner e M.D. Fairchild, em Proc. 6th Color Imaging Conference: Color Science, Systems, and Applications, IS&T, Scottsdale, Arizona, Nov. 1998, pp. 8-13 (a ser referido como trabalho de Ebner), que é incorporado neste documento por referência em sua totalidade, é um modelo de uma diferença de cor entre cones no sistema visual humano. Nesse sentido, é semelhante aos espaços de cor YCbCr ou CIE-Lab; no entanto, tem demonstrado em alguns estudos científicos que imita melhor o processamento visual humano do que esses espaços. Como o CIE-Lab, IPT é um espaço normalizado para certa luminância de referência. Em uma modalidade, a normalização é com base na luminância máxima da exibição alvo.
[023]O termo “PQ”, como usado neste documento, se refere à quantização perceptual. O sistema visual humano responde ao aumento dos níveis de luz de forma muito não linear. A capacidade de um ser humano enxergar um estímulo é afetada pela luminância desse estímulo, pelo tamanho do estímulo, pela(s) frequência(s) espacial(is) que compõe(m) o estímulo e pelo nível de luminância ao qual os olhos se adaptaram no momento específico em que visualiza o estímulo. Em uma modalidade preferida, uma função de quantização perceptual mapeia os níveis de cinza de entrada linear para níveis de cinza de saída que melhor correspondam aos limites de sensibilidade de contraste no sistema visual humano. Exemplos de funções de mapeamento PQ são descritos no Pedido PCT N° de Série PCT/US2012/068212 (a ser referido como o pedido '212) intitulado “Perceptual luminance nonlinearity-based image data exchange across different display capabilities”, de J.S. Miller et al., depositado em 06 de dezembro de 2012 e incorporado aqui por referência em sua totalidade, em que dado um tamanho de estímulo fixo, para cada nível de luminância (ou seja, o nível de estímulo), uma etapa de contraste mínimo visível nesse nível de luminância é selecionada de acordo com o nível de adaptação mais sensível e a frequência espacial mais sensível (de acordo com modelos HVS). Em comparação com a curva gama tradicional, que representa a curva de resposta de um dispositivo de tubo de raio catódico (CRT) físico e, coincidentemente, pode ter uma semelhança muito aproximada com a forma que o sistema humano visual responde, uma curva PQ, conforme determinado pelo pedido '212, imita a verdadeira resposta visual do sistema visual humano usando um modelo funcional relativamente simples.
[024]Um exemplo de um EOTF com base em uma curva PQ é definido em SMPTE ST 2084:2014 “High Dynamic Range EOTF of Mastering Reference Displays”, que é incorporado neste documento por referência em sua totalidade. Outro exemplo de EOTF perceptualmente quantizado e apresentado em “Chromaticity based color signals for wide color gamut and high dynamic range”, de J. Stessen et al., ISO/IECJTC1/SC29/WG11 MPEG2014/M35065, outubro de 2014, que é incorporado neste documento por referência em sua totalidade.
[025]A Tabela 1 descreve o cálculo de EOTF de Curva Perceptual para conversão de valores de código de vídeo digital em níveis de luminância linear absoluta em um ponto de exibição. Também está incluído o cálculo inverso de EOTF (OETF) para conversão de luminância linear absoluta em valores de código digital. Tabela 1 Definições das Equações Exemplificativas: D = valor de código digital de Curva Perceptual, número inteiro não assinado SDI-legal, 10 ou 12 bits b = número de bits por componente em representação de sinal digital, 10 ou 12 V = valor de sinal de Curva Perceptual normalizado, 0 ≤V ≤1 Y = valor de luminância normalizado, 0 ≤i7 ≤1 L = valor de luminância absoluto, : ≤7 ≤10,000 cd/m2 Equações de Decodificação de EOTF Exemplificativas: Equações de Codificação de EOTF Inversas Exemplificativas: Constantes Exemplificativas: Notas: 1.O operador INT retorna o valor de 0 para partes fracionadas na faixa de 0 a 0,4999... e +1 para partes fracionadas na faixa de 0,5 a 0,9999..., isto é, arredonda as frações acima de 0,5. 2.Todas as constantes são definidas como múltiplos exatos de racionais de 12 bits para evitar problemas de arredondamento. 3.Os componentes de sinal R, G ou B devem ser calculados da mesma forma que o componente de sinal Y descrito acima.
[026]A Figura 2 apresenta, em mais detalhes, um exemplo de processo para a etapa de conversão de cor (110), de acordo com uma modalidade. Como apresentado na Figura 2, dado o sinal EDR de entrada VI (102) que está em um primeiro formato de cor (por exemplo, YCbCr 4:2:0 ou RGB gama 4:4:4), a etapa de transformação de espaço de cor (110) o traduz para sinal VIL (112) no espaço de cor IPT perceptualmente corrigido (IPT-PQ). Essa transformação de cor pode compreender as seguintes etapas: a)A etapa (215), caso necessário, pode executar sobreamostragem em croma ou outras operações de pré-processamento (por exemplo, dimensionar a entrada para estar dentro da faixa (0, 1)) para gerar saída (217). b)O sinal EDR de entrada (102) pode ser codificado em gama ou codificado em PQ, que é tipicamente sinalizado usando metadados fonte (104). A etapa (220) pode usar o EOTF (conforme provido pelos metadados (104)) para reverter ou desfazer a conversão da exibição fonte de valores de código para luminância. Por exemplo, se o sinal de entrada é codificado em gama, então, esta etapa aplica uma função gama inversa. Se o sinal de entrada é codificado em PQ (por exemplo, de acordo com SMPTE ST 2084), então, esta etapa aplica uma função PQ inversa. Na prática, a etapa de linearização (220) pode ser executada usando três tabelas de pesquisa 1-D pré-calculadas (LUTs). c)A etapa (225) converte o sinal linearizado (222) em um sinal (227) no espaço de cor LMS. Tipicamente, esta etapa é executada por a) tradução da entrada ao espaço de cor XYZ usando transformações padrão e, em seguida, aplicação de uma matriz 3 x 3 para traduzir o sinal de XYZ para LMS. d)(Etapa 230). De acordo com o trabalho de Ebner, a conversão de espaço de cor LMS para IPT tradicional compreende aplicar primeiro uma função de força não linear aos dados LMS e, em seguida, aplicar uma matriz de transformação linear. Embora seja possível transformar os dados de LMS para IPT e, em seguida, aplicar a função PQ para estar no domínio IPT-PQ, em uma modalidade preferida, na etapa (230), a função de energia tradicional para uma codificação não linear de LMS para IPT é substituída pela codificação PQ não linear. Por exemplo, os valores de L, M e S não lineares são calculados da mesma forma que o sinal V na equação (t2), em que o sinal Y é substituído pelos valores de componentes L, M ou S lineares. Em algumas modalidades, uma versão normalizada de codificação PQ pode ser usada, em que a etapa da equação (t3) pode ser omitida e a faixa de valores PQ de saída é entre 0 e 1. Em algumas modalidades, codificações PQ alternativas (por exemplo, como a sugerida por Stessen) podem também ser aplicadas. e)Usando uma transformação linear LMS para IPT 3 x 3 padrão, a etapa (235) conclui a conversão de sinal (102) para o espaço de cor IPT-PQ.
[027]Em algumas modalidades, o fluxo completo de transformação de cor (por exemplo, 110) pode ser calculado usando um 3D LUT. Além disso, nas modalidades em que o sinal de entrada já está no espaço IPT-PQ, a conversão de espaço de cor de entrada (110) pode ser ignorada.
MAPEAMENTO DE VOLUME DE COR
[028]Após a etapa de transformação de cor (110), a intensidade (IO) e croma (P/T) de sinal VIL (112) precisa ser mapeada para se adequar às restrições da exibição alvo. A Figura 3 apresenta um exemplo de implementação de um processo de mapeamento de volume de cor (115) de acordo com uma modalidade. A primeira parte do processo de mapeamento de volume de cor (115) determina uma quantidade para escurecer as cores com base em ambas a sua saturação e sua intensidade. Em uma modalidade, sem limitação, uma métrica de saturação S pode ser calculada como a soma do quadrado dos componentes de croma, ou 5 = P2-T2(1)
[029]A função de mapeamento de tons (310) aplica um mapeamento não linear à intensidade IO (302) dos dados de entrada VIL (112) para gerar dados de intensidade mapeados por tom Im (314) (por exemplo, Im = fT(IO)). Um exemplo de transformação de mapeamento não linear é descrito por A. Ballestad et al., na Patente dos Estados Unidos N° 8.593.480, (a ser referida como Patente ‘480), intitulada “Method and apparatus for image data transformation”, que é incorporada neste documento por referência em sua totalidade.
[030]De acordo com a Patente ‘480, um exemplo de função de transferência para mapeamento não linear pode ser denotado como em que C1, C2 e C3 são constantes, Yin é o valor de entrada para um canal de cor (por exemplo, IO), Yout é o valor de saída para um canal de cor, e Slope e Rolloff são parâmetros. Essa função de transferência é um exemplo de uma função de curva de tom sigmoidal parametrizada . O exponente Slope especifica o contraste desejado no ponto médio. Pode ser derivado da razão entre as exibições alvo e fonte para permitir contraste ligeiramente maior para imagens mais escuras. O exponente Rolloff determina quão nitidamente a curva desliza na parte superior e na parte inferior da curva. Um valor menor resulta em um deslizamento mais nítido. Os parâmetros C1, C2 e C3 são determinados com base na definição de três pontos âncora, que, por sua vez, são definidos com base nas características de brilho da exibição de referência (ou fonte), que são tipicamente extraídas dos metadados de entrada (104), e nas características de brilho da exibição alvo, que são tipicamente já conhecidas pelo processador que executa o processo de gerenciamento de exibição através de metadados alvo (106).
[031]O conceito chave no mapeamento de tons é preservar a aparência geral da imagem fazendo o menor número de alterações possível à intensidade e contraste de ponto médio. As sombras e partes iluminadas são, então, facilmente mapeadas na faixa de luminância da exibição alvo. Em uma modalidade exemplificativa, a etapa (310) pode calcular os parâmetros de curva de tons da equação (2) conforme segue:
[032] Tmin e Tmax denotam o brilho máximo e mínimo da exibição alvo, representado com codificação PQ. Smin e Smax também denotam o brilho mínimo e máximo da exibição fonte, também codificado em PQ, então, em uma modalidade, o S2Tratio pode ser definido como:
[033]Dado <2: c?:’; em uma modalidade,
[034]O valor de Shift denota o ponto médio da curva de mapeamento, ou a quantidade para escurecer a imagem de entrada para adaptá-la às capacidades da exibição alvo. Sem perda de generalidade, em uma modalidade, ele é escolhido para ser o meio caminho entre os pontos médios de exibição alvo e fonte para preservar algumas das intenções criativas do diretor para a imagem.
[035]Em uma modalidade, um valor Rolloff = 1/3 foi subjetivamente determinado para prover boa qualidade de imagem a uma ampla variedade de imagens.
[036]Dadas as equações (2-4), os parâmetros C1, C2 e C3 podem ser derivados solucionando o sistema de equações que determinam a curva de mapeamento de tons passando através dos pontos de controle médio, mínimo e máximo especificados.
[037]Em algumas modalidades, uma modificação à curva de tons descrita acima pode ser desejada, por exemplo, ao mapear para um ambiente de visualização mais claro ou mais escuro. Isso pode ser acomodado através de dois parâmetros adicionais que podem ser ajustados subjetivamente: Contraste e Brilho. Dados o Contraste e Brilho, os parâmetros Shift e Slope originais da equação (4) podem ser ajustados como
[038]Os controles de Brilho têm o efeito de aumentar ou reduzir globalmente o brilho de toda a imagem, embora possam afetar apenas o ponto médio dependendo da faixa dinâmica de exibição alvo. O controle de Contraste tem o efeito de aumentar ou reduzir o contraste em torno do ponto médio, embora possa reduzir o contraste em sombras ou em partes iluminadas dependendo da faixa dinâmica de exibição alvo.
[039]Os controles de Brilho e Contraste podem ser modificados para atingir dois propósitos. Primeiramente, eles podem ser ajustados em uma exibição final a fim de compensar um ambiente de visualização diferente. Isso é feito através de uma operação do tipo PLUGE, em que um usuário ajusta brilho e/ou contraste até que detalhes de branco e preto estejam subjetivamente visíveis em uma imagem. O segundo uso desses parâmetros é como parte dos metadados para ajuste fino do mapeamento padrão para um disparo particular a fim de atingir uma impressão subjetiva particular.
[040]Dados os parâmetros C1, C2 e C3 acima, em uma modalidade, a intensidade mapeada pode ser calculada como:
[041]Na prática, o cálculo da imagem mapeada por tom (314) é tipicamente implementado usando uma tabela de consulta.
[042]Como apresentado na Figura 3, o mapeamento de volume de cor (115) inclui uma função de mapeamento de saturação (320) que é usada para ajustar os valores de croma (P/T) (304) com base nas alterações de intensidade. Como a intensidade de cores é reduzida, sua saturação é também reduzida para manter sua aparência ou balanço Em uma modalidade, o mapeamento de saturação (320) pode ser expresso como
[043]As curvas de saturação e mapeamento de tons são calculadas para as capacidades de exibição alvo e fonte especificadas e, opcionalmente, quaisquer ajustes de usuário. Uma vez que tenham sido calculadas, podem ser aplicadas a cada pixel independentemente para mapeamento de um volume de cor fonte para um volume de cor alvo. O objetivo do procedimento é aplicar primeiro a curva de tons à intensidade de entrada e, em seguida, dimensionar cada um dos canais de croma pela curva de saturação. Aplicando a mesma escala a ambos os canais de croma, preservam-se matizes, o que, em IPT, é definido pelo ângulo entre P e T. Portanto, em uma modalidade,
[044] Isso geralmente produz bons resultados para cores que terminam dentro do volume de cor de exibição alvo. No entanto, não leva em consideração o fato de que a exibição alvo pode não ser capaz de produzir as cores saturadas claras. Nesse caso, como apreciado pelo inventor, um ajuste de croma adicional pode ser necessário.
[045]Após o mapeamento de volume de cor, quaisquer cores que permaneçam fora do volume de cor de exibição alvo serão reduzidas no espaço RGB, o que pode introduzir objetos. Para reduzir as cores deixadas de fora, uma modalidade provê dois meios para ainda mapear as cores em um volume de cor de exibição alvo. O primeiro é escurecer as cores saturadas claras e o segundo é dessaturar as cores altamente saturadas. Em seguida, o procedimento de mapeamento de volume de cor da equação (9) pode ser modificado conforme mostrado abaixo em que .? : são pesos, tipicamente recebidos através dos metadados.
[046] Na equação (10), a saturação de pixel S é calculada primeiro e usada como uma máscara para o mapeamento de gama adaptativo. Isso garante que cores quase neutras não sejam afetadas enquanto cores altamente saturadas são afetadas na sua maioria. A intensidade de cores é ajustada de acordo com sua saturação e intensidade em alguma quantidade α. Da mesma forma, a saturação é ajustada de acordo com a saturação e outra quantidade β. Especificando os pesos entre essas duas direções, é possível controlar a estratégia de mapeamento de volume de cor para melhorar a precisão de cor e reduzir objetos coloridos na imagem de saída. O maior ajuste é aplicado às cores saturadas claras. Em uma modalidade, os valores típicos desses pesos variam entre 5 e 15. Em uma modalidade, a equação (10) pode também incluir operações de redução, de modo que os valores de nunca sejam negativos ou zero.
[047]Em outra modalidade, as equações (10) podem ser generalizadas como em que é denotam funções lineares ou não lineares muito gerais de S. Por exemplo, para a equação (10a) se torna a equação (10). A equação (10a), por sua vez, pode também ser adicionalmente generalizada em termos de funções de mapeamento de junção como
[048]A vantagem das equações (10) e (10a) em relação à abordagem generalizada de (10b) é que os mapeamentos são expressos como equações separáveis, o que simplifica os requerimentos de processamento.
PRESERVAÇÃO DE DETALHES
[049]O operador de mapeamento de tons da equação (4) é tipicamente referido como um operador de mapeamento de tons global uma vez que a mesma equação é aplicada a um quadro ou a uma imagem inteira. Em uma modalidade, o mapeamento de tons global pode ser seguido por um operador de preservação de detalhes (125) que melhora o contraste local. Esta etapa também restaura o detalhe de alta frequência no canal de intensidade, perdido devido à operação de mapeamento de tons. Exemplos de tais operadores de mapeamento de tons local são descritos na patente ‘480 e no Pedido ‘304. A Figura 4 apresenta outro exemplo de preservação de detalhes de acordo com uma modalidade. Dadas as entradas Io (302), Im (314), e metadados fonte (104), o processo (125) gera uma imagem de intensidade filtrada Imf (127) de acordo com as seguintes etapas.
[050] WMSE e WMS denotam pesos ajustáveis (por exemplo, WMS = 1, WMSE = 4), que podem ser extraídos dos metadados fonte. Esses pesos controlam a quantidade de preservação de detalhes a ser aplicada. Como apresentado na Figura 4, em que F(D,H) denota a aplicação de filtro com núcleo (kernel) H à imagem D. Em uma modalidade exemplificativa, H compreende um filtro gaussiano 5 x 11 separável com o = 2; no entanto, filtros alternativos pode também ser aplicados.
[051]Os filtros Hx e Hy são filtros de detecção de borda 1-D. Na modalidade, os núcleos de filtro para Hx e Hy correspondem a [-1 0 1] e [-1 0 1]T, respectivamente. Portanto, dado Em algumas modalidades, uma função de redução (420) pode também ser aplicada a E para garantir que seu valor varie sempre entre 0 e 1. Por exemplo, Então
CONVERSÃO DE COR DE SAÍDA
[052]A Figura 5 apresenta um exemplo de processo de conversão de cor (135) para traduzir o sinal EDR mapeado VM (que compreende os componentes Im, Pm, Tm ou Imf, Pm, Tm) do espaço de cor perceptualmente quantizado (por exemplo, IPT-PQ) de volta para um espaço de cor desejado (por exemplo, RGB ou YCbCr). Esse processo espelha as etapas de processamento no conversor de cor de saída (110), executadas agora em ordem inversa. Como apresentado na Figura 5, a conversão de cor pode incluir as seguintes etapas: a)Etapa (505): Converte o sinal mapeado VM do espaço IPT-PQ para o espaço LMS-PQ usando uma transformação IPT para LMS 3x3. b)Etapa (510): Converte o sinal LMS-PQ (507) do espaço LMS-PQ para o espaço LMS. Esta etapa é calculada usando as equações da Tabela 1. Em uma modalidade, esta etapa pode ser executada usando três 1-D LUTs. c)Etapa (515): Converte o sinal LMS (512) para a cor de exibição alvo (por exemplo, RGB) (517), tipicamente executada usando uma matriz 3x3 com base no perfil da exibição alvo. d)Etapa (520): Aplica o EOTF da exibição (por exemplo, codificação gama ou PQ) ao sinal (517) para gerar sinal de saída (522). e)Etapa (525): Se necessário, aplica pós-processamento adicional (por exemplo, conversão de cor e subamostragem de cor).
[053]Esta etapa é puramente colorimétrica, o que significa que os parâmetros são derivados de medições ou de especificações de exibição conhecidas, e nenhum ajuste ou modificação subjetiva é normalmente necessário. Após o estágio (520), podem existir alguns valores remanescentes fora das capacidades de exibição alvo. Nesse caso, a prática recomendada é reduzir as capacidades de exibição; no entanto, alguém pode também tentar ajustar os pesos de mapeamento de volume de cor (por exemplo, α e β) para alcançar o resultado desejado.
[054]Como apreciado pelo inventor, o fluxo de gerenciamento de exibição proposto (100) oferece uma variedade de vantagens distintas em relação às soluções anteriores, incluindo: • Mapeamento de tom adaptativo • Mapeamento de gama adaptativo • Melhor precisão de cor de saída devido a pesos relacionados a croma ajustáveis • Simplificação computacional, mas preservação de detalhes melhorada • Ajustes adaptativos (por exemplo, para brilho e contraste) com base em um ambiente de visualização de exibição alvo (tal como características de luz ambiente ou preferências do visualizador).
EXEMPLO DE IMPLEMENTAÇÃO DE SISTEMA DE COMPUTADOR
[055]Modalidades da presente invenção podem ser implementadas com um sistema de computador, sistemas configurados em componentes e circuitos eletrônicos, um dispositivo de circuito integrado (IC), tal como um microcontrolador, uma arranjo de portas programáveis em campo (FPGA) ou outro dispositivo de lógica configurável ou programável (PLD), um processador de sinal digital ou discreto no tempo (DSP), um IC específico de aplicativo (ASIC) e/ou aparelho que inclui um ou mais desses sistemas, dispositivos ou componentes. O computador e/ou IC pode executar, controlar ou realizar instruções relacionadas ao gerenciamento de exibição e exibição imagens com faixa dinâmica melhorada, tais como aqueles descritos neste documento. O computador e/ou IC pode calcular qualquer um de uma variedade de parâmetros ou valores que se referem ao processo de gerenciamento de exibição descritos neste documento. As modalidades de vídeo e imagem podem ser implementadas em hardware, software, firmware e várias combinações desses.
[056]Certas implementações da invenção compreendem processadores de computador que executam instruções de software que fazem com que os processadores realizem um método da invenção. Por exemplo, um ou mais processadores em uma tela, um codificador, um decodificador (set-top box), um transcodificador, ou semelhantes, podem implementar métodos relacionados ao gerenciamento de exibição de imagens EDR, como descrito acima, executando instruções de software em uma memória de programa acessível aos processadores. A invenção também pode ser provida sob a forma de um produto de programa. O produto de programa pode compreender qualquer meio não transitório que transporta um conjunto de sinais legíveis por computador compreendendo instruções que, quando executadas por um processador de dados, fazem com que o processador de dados execute um método da invenção. Os produtos de programa de acordo com a invenção podem ser em qualquer ampla variedade de formas. O produto do programa pode compreender, por exemplo, meios físicos, tais como mídia de armazenamento de dados magnéticos, incluindo disquetes flexíveis, unidades de disco rígido, mídia de armazenamento de dados óptico, incluindo CD ROMs, DVDs, mídia de armazenamento de dados eletrônicos, incluindo ROMs, RAM flash, ou semelhantes. Os sinais legíveis por computador no produto de programa podem, opcionalmente, ser comprimidos ou criptografados.
[057]Onde um componente (por exemplo, um módulo de software, processador, montagem, dispositivo, circuito etc.) for referido acima, salvo indicação contrária, a referência a esse componente (incluindo uma referência a um “meio”) deve ser interpretada como incluindo como equivalentes desse componente qualquer componente que execute a função do componente descrito (por exemplo, que é funcionalmente equivalente), incluindo componentes que não são estruturalmente equivalentes à estrutura divulgada que executa a função nas modalidades exemplificativas ilustradas da invenção.
EQUIVALENTES, EXTENSÕES, ALTERNATIVAS E MISCELÂNEAS
[058]As modalidades exemplificativas que se referem ao gerenciamento de exibição eficiente de imagens EDR são, portanto, descritas. Na especificação acima, as modalidades da presente invenção foram descritas com referência a vários detalhes específicos que podem variar de implementação para implementação. Dessa forma, o único e exclusivo indicador do que é a invenção, e o que os requerentes pretendem que seja a invenção, é o conjunto de reivindicações deste pedido, na forma específica em que tais reivindicações são apresentadas, incluindo qualquer correção subsequente. Qualquer definição expressamente estabelecida neste documento para os termos contidos em tais reivindicações deve reger o significado dos termos utilizados nas reivindicações. Portanto, nenhuma limitação, elemento, propriedade, característica, vantagem ou atributo que não seja expressamente citado em uma reivindicação deve limitar o escopo de tal reivindicação de qualquer maneira. A especificação e os desenhos são, portanto, considerados em um sentido ilustrativo e não, restritivo.

Claims (15)

1. Método, CARACTERIZADO pelo fato de que compreende: acessar uma imagem de entrada (102) em um primeiro espaço de cor com uma primeira faixa dinâmica; aplicar uma etapa de transformação de cor (110) à imagem de entrada (102) para determinar uma primeira imagem de saída (112) em um espaço de cor IPT perceptualmente quantizado (IPT-PQ), a primeira imagem de saída (112) compreendendo valores de pixel de intensidade (302) e valores de pixel de componentes de croma (304), em que a etapa de transformação de cor (110) compreende aplicar uma função de quantização perceptual não linear a uma função da imagem de entrada (102); aplicar uma função de mapeamento de volume de cor (115) à primeira imagem de saída (112) para gerar uma imagem de saída mapeada por tom, a imagem de saída mapeada por tom compreendendo valores de pixel de intensidade (314) e valores de pixel de componentes de croma (327), em que a função de mapeamento de volume de cor (115) compreende uma função de mapeamento de tons (310), uma função de mapeamento de saturação (320) e uma função de estimativa de saturação de pixel (330), em que a função de mapeamento de tons (310) gera os valores de pixel de intensidade (314) da imagem de saída mapeada de tom aplicando um mapeamento não linear aos valores de pixel de intensidade (302) da primeira imagem de saída (112), em que a função de mapeamento de saturação (320) gera os valores de pixel de componentes de croma (327) da imagem de saída mapeada por tom ajustando os valores de pixel de componentes de croma (304) da primeira imagem de saída (112) com base em mudanças na intensidade, em que a função de estimativa de saturação de pixel (330) calcula uma métrica de saturação (S) como a soma dos quadrados dos valores de pixel de componentes de croma (304) da primeira imagem de saída (112), em que a métrica de saturação é aplicada à imagem de saída mapeada por tom para escurecer cores saturadas brilhantes e para dessaturar cores altamente saturadas, modificando assim os valores de pixel de intensidade (314) e os valores de pixel de componentes de croma (327); e aplicar uma função de preservação de detalhes (125) aos valores de pixel de intensidade modificados (314) da imagem de saída mapeada por tom para gerar valores de pixel de intensidade (127) de uma imagem de saída mapeada por tom filtrada, a imagem de saída mapeada por tom filtrada compreendendo os valores de pixel de componentes de croma modificados (327) da imagem de saída mapeada por tom, e em que a imagem de saída mapeada por tom filtrada tem uma faixa dinâmica sendo inferior à imagem de entrada (102).
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que aplicar a etapa de transformação de cor (110) compreende ainda: remover qualquer codificação não linear (220) da imagem de entrada (102) para gerar uma imagem linear (222); converter a imagem linear (222) em uma imagem de cor LMS (227); e aplicar a função de quantização perceptual não linear (PQ) à imagem de cor LMS para gerar a primeira imagem de saída (112).
3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que a função de quantização percentual não linear compreende a função de mapeamento SMPTE ST 2084.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que a função de mapeamento de tons (310) é expressa como uma função de curva de tom sigmoidal parametrizada, em que os parâmetros da função são determinados com base em características de uma exibição fonte e uma exibição alvo.
5. Método, de acordo com a reivindicação 4, CARACTERIZADO pelo fato de que as características da exibição fonte compreendem um valor mínimo de brilho e um valor máximo de brilho para a exibição fonte; e/ou em que as características da exibição alvo compreendem um valor mínimo de brilho e um valor máximo de brilho para a exibição alvo.
6. Método, de acordo com a reivindicação 4 ou 5, CARACTERIZADO pelo fato de que as características da exibição fonte são acessadas através de metadados de exibição fonte recebidos (104).
7. Método, de acordo com qualquer uma das reivindicações 4 a 6, CARACTERIZADO pelo fato de que função de tom sigmoidal é expressa como: em que C1, C2, C3, Slope e Rolloff são constantes que definem os parâmetros da função de mapeamento de tons (310), e para uma entrada Io, representada por um valor de pixel de intensidade (302) da primeira imagem de saída, Im é um valor de saída correspondente, representado pelo valor de pixel de intensidade correspondente (314) da imagem de saída mapeada por tom.
8. Método, de acordo com qualquer uma das reivindicações 4 a 7, CARACTERIZADO pelo fato de que parâmetros da função de mapeamento de tons (310) são ainda determinados com base em um valor de Brilho e um valor de Contraste para ajustar o brilho geral e o contraste da imagem de saída mapeada por tom.
9. Método, de acordo com qualquer uma das reivindicações 1 a 8, CARACTERIZADO pelo fato de que a função de mapeamento de saturação (320) é expressa como: em que Im denota a saída da função de mapeamento de tons e Io denota os valores de pixel de intensidade (302) da primeira imagem de saída, e em que aplicar a função de mapeamento de volume de cor (115) compreende calcular: onde S denota a métrica de saturação gerada pela função de estimativa de saturação de pixel (330), α e β denotam pesos de entrada, fT(Io) denota a função de mapeamento de tons (310), fSM(Io) denota a função de mapeamento de saturação (320), Io denota os valores de pixel de intensidade (302) da primeira imagem de saída, P e T denotam os valores de pixel de componentes de croma (304) da primeira imagem de saída, Im denota os valores de pixel (314) da imagem de saída mapeada por tom, e Pm e Tm denotam os valores de pixel dos componentes de croma (327) da imagem de saída mapeada por tom.
10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os valores de (1 - S*α) e (1 - S*β) são fixos para sempre serem maiores que zero.
11. Método, de acordo com qualquer uma das reivindicações 1 a 10, CARACTERIZADO pelo fato de que a função de preservação de detalhes (125) compreende um filtro de desfoque e filtros de detecção de borda horizontal e vertical acoplados ao filtro de desfoque.
12. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que aplicar a função de preservação de detalhes (125) compreende ainda calcular: onde F(D, H) denota aplicar um filtro à imagem D com núcleo (kernel) H, Io denota valores de pixel de intensidade da primeira imagem de saída (302), Im denota os valores de pixel de intensidade (314) da imagem de saída mapeada por tom, Imf denota os valores de pixel de intensidade (127) da imagem de saída mapeada por tom filtrada, B denota a saída do filtro de desfoque, Ex denota a saída do filtro de detecção de borda horizontal, Ey denota a saída do filtro de detecção de borda vertical , e WMSE e WMS são pesos.
13. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o valor de saída E é ainda fixado para estar entre 0 e 1; e/ou em que o núcleo H compreende um filtro gaussiano 5 x 11 com desvio padrão igual a 2; e/ou em que o núcleo H compreende um filtro passa-baixa.
14. Aparelho, CARACTERIZADO pelo fato de que compreende um processador e configurado para executar o método, conforme definido em qualquer uma das reivindicações 1 a 13.
15. Mídia de armazenamento não transitória legível por computador, CARACTERIZADA pelo fato de que tem, armazenadas na mesma, instruções executáveis por computador para executar o método, conforme definido em qualquer uma das reivindicações 1 a 13.
BR112017015479-0A 2015-01-19 2016-01-14 Método, aparelho e mídia de armazenamento não transitória legível por computador para gerenciamento de exibição para vídeo de alta faixa dinâmica BR112017015479B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562105139P 2015-01-19 2015-01-19
US62/105.139 2015-01-19
PCT/US2016/013352 WO2016118395A1 (en) 2015-01-19 2016-01-14 Display management for high dynamic range video

Publications (2)

Publication Number Publication Date
BR112017015479A2 BR112017015479A2 (pt) 2018-01-30
BR112017015479B1 true BR112017015479B1 (pt) 2024-03-19

Family

ID=

Similar Documents

Publication Publication Date Title
CA2973909C (en) Display management for high dynamic range video
US11570480B2 (en) Signal reshaping for high dynamic range signals
US9230338B2 (en) Graphics blending for high dynamic range video
US9584786B2 (en) Graphics blending for high dynamic range video
KR102157032B1 (ko) 고 동적 범위 비디오에 대한 디스플레이 관리
BR112017015479B1 (pt) Método, aparelho e mídia de armazenamento não transitória legível por computador para gerenciamento de exibição para vídeo de alta faixa dinâmica
BR112017005667B1 (pt) Método para melhorar a eficiência de codificação e uniformidade perceptual para vídeo de elevada faixa dinâmica (hdr), método para gerar um sinal de vídeo de hdr não comprimido em um decodificador, aparelho e meio de armazenamento que pode ser lido por computador não transitório