BR112014031469B1

BR112014031469B1 - Dispositivo e método de codificação preditiva de vídeo e dispositivo e método de decodificação preditiva de vídeo

Info

Publication number: BR112014031469B1
Application number: BR112014031469-1A
Authority: BR
Inventors: Fujibayashi Akira; Seng Boon Choong; Keng Tan Thiow
Original assignee: Ntt Docomo, Inc.
Priority date: 2012-07-02
Filing date: 2013-04-24
Publication date: 2018-07-03
Also published as: JP5972687B2; US20150117529A1; EP4228257A1; CA3050641A1; AU2020201377B2; RU2715519C1; KR20160088951A; SG11201408757YA; US10560711B2; MY184674A; MX371010B; EP4325847A1; KR20160087933A; CA3050665A1; US9942562B2; AU2013284789B2; AU2020201377A1; KR20150028832A; AU2018256547A1; TWI551120B

Abstract

resumo patente de invenção: "dispositivo de codificação de previsão de vídeo, método de codificação de previsão de vídeo, programa de codificação de previsão de vídeo, dispositivo de decodificação de previsão de vídeo, método de decodificação de previsão de vídeo e programa de decodificação preditiva de vídeo". o propósito da presente invenção é utilizar eficientemente memória de armazenamento temporário de imagem aprimorando a codificação por determinação de número de imagens de reprodução, capazes de serem armazenadas com base no tamanho de quadro. o dispositivo de codificação de previsão de vídeo é equipado com meio de armazenamento de imagem reconstituindo dados de imagem comprimida em imagem de reprodução e armazenando-as como de referência para codificar subsequentes. o dispositivo de codificação de previsão de vídeo também é equipado com meio que controla memória de quadro no de armazenamento de imagem. o meio de controle de memória determina número máximo de imagens de reprodução capazes de serem armazenadas na memória de quadro a ser multiplicado por 2l (l, inteiro maior ou igual a 1) quando o tamanho de quadro para imagens de entrada, na relação do tamanho de quadro máximo para imagens, for menor ou igual a 1/2l.

Description

(54) Título: DISPOSITIVO E MÉTODO DE CODIFICAÇÃO PREDITIVA DE VÍDEO E DISPOSITIVO E MÉTODO DE DECODIFICAÇÃO PREDITIVA DE VÍDEO (51) Int.CI.: H04N 19/426; H04N 19/136; H04N 19/70 (30) Prioridade Unionista: 02/07/2012 JP 2012-148310 (73) Titular(es): NTT DOCOMO, INC.

(72) Inventor(es): AKIRA FUJIBAYASHI; CHOONG SENG BOON; THIOW KENG TAN

1/32

DISPOSITIVO E MÉTODO DE CODIFICAÇÃO PREDITIVA DE VÍDEO E DISPOSITIVO E MÉTODO DE DECODIFICAÇÃO PREDITIVA DE VÍDEO

CAMPO DA TÉCNICA [001] A presente invenção refere-se a dispositivos, métodos e programas de codificação e decodificação preditiva de vídeo e, mais particularmente, a dispositivos, métodos e programas para gerenciar o número máximo de imagens reconstruídas armazenáveis em um armazenamento temporário de imagem decodificada.

TÉCNICA ANTECEDENTE [002] As tecnologias de compressão de vídeo são utilizadas para transmitir e armazenar eficientemente dados de vídeo. MPEG1-4 e H.261 a H.264 são padrões de compressão de dados de vídeo amplamente utilizados.

[003] Nesses padrões de compressão de vídeo, uma imagem a ser codificada é dividida em uma pluralidade de blocos, que são codificados e, então, decodificados. A fim de aumentar a eficiência de codificação, a codificação preditiva descrita abaixo é utilizada. Na predição intraquadro, um sinal preditivo é gerado com uso de um sinal de uma imagem vizinha reconstruída (um sinal restaurado a partir de dados de imagem previamente comprimidos) que está presente no quadro que inclui o bloco-alvo. Subtraindose o sinal preditivo de um sinal do bloco-alvo, uma diferença entre os mesmos é obtida e codificada. Na predição interquadro, busca-se, em um sinal de imagem reconstruída, que está presente em um quadro diferente do quadro que inclui bloco-alvo, um deslocamento do sinal. Um sinal preditivo é gerado para compensar o deslocamento. Subtraindo-se o sinal preditivo do sinal do bloco-alvo, uma diferença entre os mesmos é obtida e codificada. A imagem reconstruída, que é o sujeito da busca de movimento e compensação, é denominada como uma imagem de referência.

Petição 870180032497, de 20/04/2018, pág. 14/58

2/32 [004] Na predição interquadro bidirecional, não só uma imagem passada é referenciada, mas também uma imagem futura é referenciada, que é ordenada para exibição após a imagem-alvo (as imagens futuras precisam ser codificadas e reconstruídas antes da codificação da imagem-alvo). Então, obtém-se a média de sinais preditivos adquiridos a partir da imagem passada e da imagem futura. Esse método de predição é eficaz para predizer um objeto que não está presente no quadro passado, mas lançado em um quadro futuro e para reduzir ruído incluído nos dois sinais preditivos.

[005] Adicionalmente, na predição interquadro definida em H.264, uma pluralidade de imagens de referência que foram codificadas e então reconstruídas, são submetidas à busca de movimento e o sinal preditivo com o menor erro é selecionado como um sinal preditivo ótimo para o bloco-alvo. Uma diferença é calculada entre o sinal de pixel do bloco-alvo e o sinal preditivo ótimo e então submetida a uma transformada discreta do cosseno, quantização e codificação por entropia. Ao mesmo tempo, informações são codificadas que identificam a imagem de referência selecionada e a região na imagem de referência selecionada a partir da qual o sinal preditivo ótimo para o bloco-alvo é adquirido (referidas como um índice de referência e um vetor de movimento, respectivamente).

[006] Em H.264, uma pluralidade de imagens reconstruídas pode ser referenciada. Essas imagens reconstruídas são armazenadas como imagens de referência a serem utilizadas na predição, em um armazenamento temporário de imagem decodificada (DPB), que é uma memória de armazenamento temporário de imagem. O tamanho do armazenamento temporário de imagem decodificada (DPB) é definido por um perfil e um nível, e definido como uma contagem de bits, ao invés do número de imagens de referência. Mesmo com o mesmo perfil e nível, o número das imagens de referência

Petição 870180032497, de 20/04/2018, pág. 15/58

3/32 armazenável varia de acordo com o tamanho de quadro das imagens. Por exemplo, no caso em que o perfil é principal (Principal) e o nível é 3.2, o tamanho máximo do armazenamento temporário de imagem (MaxDPBSize: tamanho máximo de armazenamento temporário de imagem decodificada) para armazenamento de imagens de referência utilizadas para predição é definido como 7680,0 x 1.024 [bytes]. Portanto, o número de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB) é 5 se as imagens forem de 1.280 x 720 e 4:2:0, e o número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB) é 4 se as imagens forem de 1.280 x 1.024 e 4:2:0. As Figuras 1(a), 1(b) e 1(c) mostram imagens dispostas no armazenamento temporário de imagem decodificada em que os tamanhos de quadro das imagens determinam o número máximo de imagens reconstruídas armazenáveis, que é 4 (Figura 1(a)), 5 (Figura 1(b)) ou 6 (Figura 1(c)). Apontadores de memória são fornecidos de modo adaptativo ao tamanho de quadro das imagens reconstruídas na memória de armazenamento temporário de imagem preparada com antecedência, por meio dos quais uma disposição de memória adaptativa é alcançada na memória de armazenamento temporário de imagem.

LISTA DE CITAÇÃO

LITERATURA NÃO RELATIVA A PATENTE [007] Literatura não relativa a Patente 1: H.264: Advanced video coding for generic audiovisual services, Joint Vídeo Team de ITU-T VCEG e ISO/IEC MPEG, ITU-T Rec. H.264 e ISO/1EC14496-10 (MPEG4-Part 10), novembro de 2007.

SUMÁRIO DA INVENÇÃO

PROBLEMA TÉCNICO

Petição 870180032497, de 20/04/2018, pág. 16/58

4/32 [008] Visto que o dispositivo de decodificação que é compatível com os requisitos anteriores de H.264 precisa ter a capacidade de decodificar imagens de todos os tamanhos de quadro definidos pelos perfis e níveis que se encontram na faixa suportada pelo dispositivo de decodificação, não é possível dispor memórias na memória de armazenamento temporário de imagem e armazenar imagens reconstruídas nessas memórias de uma maneira fixa. Por essa razão, é necessário variar, de acordo com o tamanho do quadro de imagens a serem decodificadas, os apontadores de memória que apontam as posições de memórias para armazenar as imagens reconstruídas, o que resulta em fazer com que o controle de memória e a implementação sejam complicados.

[009] Uma solução provisória para esse problema é adotar uma técnica em que o número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem (max_dec_pic_buffering) é fixo, independentemente dos tamanhos de quadro de imagens decodificadas. Nessa solução, visto que a disposição de memória do armazenamento temporário de imagem decodificada (DPB) é determinada de modo fixo pelo tamanho de quadro máximo conforme mostrado na Figura 2(a), os apontadores de memória podem ser fixos também. Ou seja, o controle de memória se torna mais fácil comparado à disposição em que os apontadores de memória precisam ser controlados de modo variável. No entanto, quando o tamanho de quadro de imagens decodificadas estiver menor que o tamanho de quadro máximo ou quando a largura vertical de imagens for metade daquela das imagens de quadro como no caso de imagens de campo entrelaçadas, a implementação da solução acima poderia gerar regiões de memória não utilizadas conforme mostrado na Figura 2(b), e impedir a memória de ser utilizada efetivamente. Além disso, a solução poderia privar de espaço para

Petição 870180032497, de 20/04/2018, pág. 17/58

5/32 aprimoramento da eficiência de codificação que poderia ser realizada armazenando-se mais imagens reconstruídas para aumentar o número de imagens de referência.

[010] É, portanto, um objetivo da presente invenção solucionar o problema acima e fornecer métodos, dispositivos e programas de codificação e decodificação, em que o número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem é determinado de acordo com o tamanho de quadro das imagens reconstruídas, habilitando, dessa forma, o uso eficiente da memória de armazenamento temporário de imagem e o aprimoramento adicional da eficiência de codificação.

SOLUÇÃO PARA O PROBLEMA [011] A fim de alcançar os objetivos acima, um dispositivo de codificação preditiva de vídeo, de acordo com uma modalidade da presente invenção, compreende meio de entrada que insere uma pluralidade de imagens que formam uma sequência de vídeo e meio de codificação que comprime as imagens, com uso ou da predição intraquadro ou da predição interquadro, para gerar dados de imagem comprimida que incluem informações sobre um tamanho de quadro da imagem alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo especificado como uma restrição de codificação, e codifica os dados de imagem comprimida junto com dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem-alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo. O dispositivo de codificação preditiva de vídeo compreende adicionalmente meio de decodificação que decodifica os dados de imagem comprimida para reconstruir as imagens, meio de armazenamento de imagem que armazena uma ou mais

Petição 870180032497, de 20/04/2018, pág. 18/58

6/32 das imagens reconstruídas como imagens de referência a serem utilizadas para codificação de uma imagem subsequente, e o meio de controle de memória que controla uma memória de armazenamento temporário de imagem no meio de armazenamento de imagem, em que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o meio de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis na memória de quadro.

[012] Nesse dispositivo de codificação preditiva de vídeo, o número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem é determinado, com base na relação entre o tamanho de quadro associado às imagens respectivas que formam a sequência de vídeo ou os dados de imagem comprimida e o tamanho de quadro máximo especificado como uma restrição de codificação. Mais especificamente, por exemplo, quando o tamanho de quadro das imagens de entrada for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo especificado como uma restrição de codificação, o número máximo de imagens reconstruídas armazenáveis é configurado como N (em que N é um número inteiro de um ou mais), enquanto que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) do tamanho de quadro máximo, a quantidade de armazenamento temporário de memória disponível para armazenar imagens reconstruídas é controlada para permitir o armazenamento até o número ((2^L)xN) de imagens reconstruídas. Nessa configuração, quando o tamanho de quadro de imagens reconstruídas não for maior que 1/(2^L) do tamanho de quadro máximo especificado como uma configuração de codificação, o número máximo de imagens reconstruídas armazenáveis pode ser aumentado, e assim o número de imagens de

Petição 870180032497, de 20/04/2018, pág. 19/58

7/32 referência armazenáveis pode também ser aumentado para aprimorar, dessa forma, a eficiência de codificação.

[013] Em um dispositivo de codificação preditiva de vídeo de acordo com outra modalidade da presente invenção, o meio de controle de memória fixa apontadores de memória que apontam posições de armazenamento de imagens reconstruídas na memória quando determina o número máximo de imagens reconstruídas armazenáveis na memória de quadro.

[014] Nesse dispositivo de codificação preditiva de vídeo, os apontadores de memória que apontam as posições de armazenamento das imagens reconstruídas respectivas podem ser fixados, por exemplo, em posições iguais ao tamanho de quadro máximo e 1/(2^L) do mesmo. Portanto, o controle não é necessário para variar os apontadores de memória que dependem dos tamanhos de quadro, e uma implementação mais simples, um controle de memória mais eficiente pode ser realizados. Visto que intervalos de apontadores são limitados a múltiplos de 1/(2^L), as posições dos apontadores de memória podem ser calculadas com uma operação de deslocamento e, assim, o custo de cálculo pode ser reduzido.

[015] Um dispositivo de decodificação preditiva de vídeo de acordo com uma modalidade da presente invenção compreende meio de entrada que insere dados codificados que compreendem dados de imagem comprimida que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis, e um tamanho de quadro máximo especificado como uma restrição de codificação, em que uma pluralidade de imagens que constituem uma sequência de vídeo foi comprimida ou por predição intraquadro ou por predição interquadro. O dispositivo de decodificação preditiva de vídeo compreende adicionalmente o meio de decodificação que decodifica os dados de imagem comprimida e os

Petição 870180032497, de 20/04/2018, pág. 20/58

8/32 dados de imagem comprimida que constituem as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para reconstruir imagens e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo. O dispositivo compreende também meio de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente e meio de controle de memória que controla o meio de armazenamento de imagem, em que quando um tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o meio de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis em uma memória de quadro.

[016] Nesse dispositivo de decodificação preditiva de vídeo, o número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem é determinado com base no relacionamento entre o tamanho de quadro associado às respectivas imagens, que formam a sequência de vídeo ou os dados de imagem comprimida e o tamanho de quadro máximo especificado como uma restrição de codificação. Mais especificamente, por exemplo, quando o tamanho de quadro das imagens de entrada for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo especificado como uma restrição de codificação, o número máximo de imagens reconstruídas armazenáveis é configurado como N (em que N é um número inteiro de um ou mais), enquanto que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) do tamanho de quadro máximo, é determinado que até o número (2^L) x

Petição 870180032497, de 20/04/2018, pág. 21/58

9/32

N de imagens reconstruídas são armazenáveis. Nessa configuração, quando o tamanho de quadro de imagens reconstruídas não for maior que 1/(2^L) do tamanho de quadro máximo especificado como uma configuração de codificação, o número máximo de imagens reconstruídas armazenáveis pode ser aumentado, e, assim, o número de imagens de referência armazenáveis pode também ser aumentado para aprimorar, dessa forma, a eficiência de codificação.

[017] Em um dispositivo de decodificação preditiva de vídeo de acordo com outra modalidade da presente invenção, o meio de controle de memória fixa os apontadores de memória que apontam posições de armazenamento de imagens reconstruídas na memória de quadro, quando determina o número máximo de imagens reconstruídas armazenáveis na memória de quadro.

[018] Nesse dispositivo de decodificação preditiva de vídeo, os apontadores de memória que apontam as posições de armazenamento das imagens reconstruídas podem ser fixados, por exemplo, em posições iguais ao tamanho de quadro máximo e 1/(2^L) do mesmo. Portanto, não é necessário controle para variar os apontadores de memória que dependem dos tamanhos de quadro, e uma implementação mais simples, um controle de memória mais eficiente, podem ser realizados. Visto que intervalos de apontadores são limitados a múltiplos de 1/(2^L), as posições dos apontadores de memória podem ser calculadas com uma operação de deslocamento e, portanto, o custo de operação pode ser reduzido.

[019] Um método de codificação preditiva de vídeo de acordo com uma modalidade da presente invenção é executado por um dispositivo de codificação preditiva de vídeo. O método compreende uma etapa de entrada para inserir uma pluralidade de imagens que formam uma sequência de vídeo, e uma etapa de codificação para codificar as imagens, ou por predição

Petição 870180032497, de 20/04/2018, pág. 22/58

10/32 intraquadro ou por predição interquadro, para gerar dados de imagem comprimida que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação em que os dados de imagem comprimida são comprimidos junto com dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo. O método também compreende uma etapa de decodificação de decodificar os dados de imagem comprimida para reconstruir as imagens, uma etapa de armazenamento de imagem de armazenar uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para codificação de uma imagem subsequente, e uma etapa de controle de memória que controla uma memória de armazenamento temporário de imagem na etapa de armazenamento de imagem, em que quando o tamanho de quadro das imagens de entrada não for maior do que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, a etapa de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis na memória de quadro.

[020] Um programa de codificação preditiva de vídeo, de acordo com uma modalidade da presente invenção, compreende um módulo de entrada que insere uma pluralidade de imagens que formam uma sequência de vídeo e um módulo de codificação, que codifica as imagens ou por predição intraquadro ou por predição interquadro para gerar dados de imagem comprimida, que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação e codifica os

Petição 870180032497, de 20/04/2018, pág. 23/58

11/32 dados de imagem comprimida junto com os dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo. O programa compreende também um módulo de decodificação que decodifica os dados de imagem comprimida para reconstruir imagens, um módulo de armazenamento de imagem, que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para codificação uma imagem subsequente, e um módulo de controle de memória que controla uma memória de armazenamento temporário de imagem no módulo de armazenamento de imagem, em que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o módulo decontrole de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis na memória de quadro.

[021] O método de codificação preditiva de vídeo e o programa de codificação preditiva de vídeo podem alcançar os mesmos efeitos que o dispositivo de codificação preditiva de vídeo mencionado anteriormente.

[022] Um método de decodificação preditiva de vídeo, de acordo com uma modalidade da presente invenção, é executado por um dispositivo de decodificação preditiva de vídeo. O método compreende uma etapa de entrada para inserir dados codificados que compreendem dados de imagem comprimida, que incluem um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação, em que uma pluralidade de imagens que constitui uma sequência de vídeo é comprimida ou por predição intraquadro ou por predição interquadro. O método compreende adicionalmente uma etapa de decodificação para decodificar os dados de

Petição 870180032497, de 20/04/2018, pág. 24/58

12/32 imagem comprimida e os dados de imagem comprimida que constituem as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para reconstruir imagens e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo. O método compreende adicionalmente uma etapa de armazenamento de imagem para armazenar no meio de armazenamento de imagem, uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente e uma etapa de controle de memória para controlar o meio de armazenamento de imagem, em que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, a etapa de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas é armazenável em uma memória de quadro.

[023] Um programa de decodificação preditiva de vídeo, de acordo com uma modalidade da presente invenção, compreende um módulo de entrada que insere dados codificados que compreendem dados de imagem comprimida que incluem um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação, em que uma pluralidade de imagens que constituem uma sequência de vídeo é comprimida ou por predição intraquadro ou por predição interquadro. O programa compreende adicionalmente um módulo de decodificação que decodifica os dados de imagem comprimida e os dados de imagem comprimida que constituem as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para

Petição 870180032497, de 20/04/2018, pág. 25/58

13/32 reconstruir imagens e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo. O programa compreende adicionalmente um módulo de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente e um módulo de controle de memória que controla o módulo de armazenamento de imagem, em que quando o tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o módulo de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis em uma memória de quadro.

[024] O método de decodificação preditiva de vídeo e o programa de decodificação preditiva de vídeo pode alcançar os mesmos efeitos que o dispositivo de decodificação preditiva de vídeo mencionado anteriormente pode alcançar.

EFEITOS DA INVENÇÃO [025] Os dispositivos, os métodos e os programas de codificação e decodificação preditiva de vídeo de acordo com a presente invenção realizam a determinação do número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem, de acordo com o tamanho de quadro das imagens reconstruídas, alcançando, dessa forma, o uso eficiente da memória de armazenamento temporário de imagem e aprimorando, também, a eficiência de codificação.

BREVE DESCRIÇÃO DOS DESENHOS [026] As Figuras 1(a) e 1(b) são desenhos que mostram a memória de armazenamento temporário de imagem, o número de imagens armazenáveis e as posições de apontadores de memória variáveis.

Petição 870180032497, de 20/04/2018, pág. 26/58

14/32 [027] As Figuras 2(a) e 2(b) são desenhos para explicar um problema de apontadores de memória fixos na memória de armazenamento temporário de imagem.

[028] A Figura 3 é um diagrama de blocos que mostra um dispositivo de codificação preditiva de vídeo de acordo com uma modalidade da presente invenção.

[029] A Figura 4 é um diagrama de blocos que mostra um dispositivo de decodificação preditiva de vídeo de acordo com uma modalidade da presente invenção.

[030] A Figura 5 é um fluxograma que mostra os primeiros métodos de codificação e decodificação preditiva de vídeo de acordo com uma modalidade da presente invenção.

[031] As Figuras 6(a) e 6(b) são desenhos esquemáticos para explicar o processamento dos primeiros métodos de codificação e decodificação preditiva de vídeo de acordo com a modalidade da presente invenção.

[032] A Figura 7 é um desenho que mostra uma configuração de hardware de um computador para executar um programa gravado em um meio de gravação.

[033] A Figura 8 é uma vista em perspectiva de um computador para executar um programa armazenado em um meio de gravação.

MODALIDADES DA INVENÇÃO [034] Modalidades da presente invenção serão descritas abaixo com uso das Figuras 3 a 8.

[035] A Figura 3 é um diagrama de blocos que mostra um dispositivo de codificação preditiva de vídeo de acordo com uma modalidade da presente invenção. O número de referência 301 denota um terminal de entrada, 302 denota uma unidade de divisão de bloco, 303 denota uma unidade de geração

Petição 870180032497, de 20/04/2018, pág. 27/58

15/32 de sinal preditivo, 304 denota uma memória de quadro, 305 denota uma unidade de subtração, 306 denota uma unidade de transformada, 307 denota uma unidade de quantização, 308 denota uma unidade de desquantização, 309 denota uma unidade de transformada inversa, 310 denota uma unidade de adição, 311 denota uma unidade de codificação por entropia, 312 denota um terminal de saída e 314 denota uma unidade de gerenciamento de memória de quadro (ou unidade de gerenciamento de armazenamento temporário). O terminal de entrada 301 constitui meio de entrada. A unidade de geração de sinal preditivo 303, a unidade de subtração 305, a unidade de transformada 306, a unidade de quantização 307 e a unidade de codificação por entropia 311, constituem meio de codificação. A unidade de desquantização 308, a unidade de transformada inversa 309 e a unidade de adição 310 constituem meio de decodificação. A memória de quadro 304 constitui meio de armazenamento de imagem. A unidade de gerenciamento de memória de quadro 314 constitui meio de controle de memória.

[036] A operação do dispositivo de codificação preditiva de vídeo configurado conforme descrita acima será descrita abaixo. Um sinal de vídeo que representa uma pluralidade de imagens é alimentado ao terminal de entrada 301. Uma imagem a ser codificada (uma imagem-alvo) é dividida em uma pluralidade de regiões pela unidade de divisão de bloco 302. Na modalidade de acordo com a presente invenção, a imagem-alvo é dividida em blocos, em que cada um tem 8x8 pixels, porém a mesma pode ser dividida em blocos de qualquer tamanho ou formato diferente do anterior. Um sinal preditivo é gerado, então, para uma região a ser codificada (doravante denominada como um bloco- alvo). A modalidade de acordo com a presente invenção, emprega dois tipos de métodos de predição. A saber, os mesmos são predição interquadro e predição intraquadro.

Petição 870180032497, de 20/04/2018, pág. 28/58

16/32 [037] Na predição interquadro, imagens reconstruídas que foram codificadas e após isso, restauradas, são utilizadas como imagens de referência, e as informações de movimento que fornecem o sinal preditivo com o menor erro do bloco-alvo, são determinadas a partir das imagens de referência. Esse processo é chamado de detecção de movimento. Dependendo de situações, é permissível, também, subdividir o bloco-alvo em sub-regiões e realizar predição interquadro em cada uma das sub-regiões. Nesse processo, o método de divisão que dá origem ao resultado mais eficiente dado o bloco-alvo como um todo, é selecionado dentre vários métodos de divisão, e as informações de movimento de cada sub-região são determinadas. Na modalidade de acordo com a presente invenção, essa operação é executada na unidade de geração de sinal preditivo 303, à qual o bloco-alvo é alimentado por meio da linha L302, e imagens de referência são alimentadas por meio de L304. As imagens de referência a serem utilizadas no presente documento são uma pluralidade de imagens que foram codificadas e restauradas. Os detalhes dessa operação são os mesmos que as tecnologias convencionais adotadas em WIPEG-2 ou 4 e H.264. As informações de movimento e o método de divisão de sub-região determinados conforme descrito acima, são alimentados por meio da linha L312 à unidade de codificação por entropia 311, codificados, dessa forma, e então, emitidos do terminal de saída 312. As informações (um índice de referência) que identificam a imagem de referência dentre uma pluralidade de imagens de referência a partir da qual o sinal preditivo é gerado, também são enviadas por meio da linha L312 à unidade de codificação por entropia 311. Na modalidade de acordo com a presente invenção, M imagens reconstruídas (M é um número inteiro de um ou mais) são armazenadas na memória de quadro 304 e devem ser utilizadas como imagens de referência. A unidade de geração de sinal preditivo 303 adquire sinais de imagem de referência a partir da

Petição 870180032497, de 20/04/2018, pág. 29/58

17/32 memória de quadro 304, com base nas imagens de referência e informações de movimento, que corresponde ao método de divisão de sub-região e a cada subregião, e gera um sinal preditivo. O sinal preditivo interquadro gerado dessa maneira é alimentado por meio da linha L303 à unidade de subtração 305.

[038] Na predição intraquadro, um sinal preditivo intraquadro é gerado com o uso dos valores de pixels previamente reconstruídos espacialmente adjacentes ao bloco-alvo. Especificamente, a unidade de geração de sinal preditivo 303 adquire sinais de pixel previamente reconstruído no mesmo quadro da memória de quadro 304 e extrapola esses sinais para gerar o sinal preditivo intraquadro. As informações sobre o método de extrapolação são alimentadas por meio da linha L312 à unidade de codificação por entropia 311, codificadas pela mesma e emitidas do terminal de saída 312. O sinal preditivo intraquadro gerado dessa maneira é alimentado à unidade de subtração 305. O método de geração do sinal preditivo intraquadro na unidade de geração de sinal preditivo 303, é uma tecnologia convencional adotada em H.264. Um dentre o sinal preditivo interquadro e o sinal preditivo intraquadro obtidos conforme descrito acima, que produz um erro menor, é selecionado, e o sinal preditivo selecionado é alimentado à unidade de subtração 305.

[039] Visto que não existem imagens presentes antes da primeira imagem, todos os blocos-alvo da mesma são processados por predição intraquadro.

[040] A unidade de subtração 305 subtrai o sinal preditivo (alimentado por meio da linha L303) do sinal do bloco-alvo (alimentado por meio da linha L302) para gerar um sinal residual. Esse sinal residual é submetido a uma transformada do cosseno discreta pela unidade de transformada 306, e então coeficientes da transformada resultante são quantizados pela unidade de quantização 307. Finalmente, a unidade de codificação por entropia 311 codifica

Petição 870180032497, de 20/04/2018, pág. 30/58

18/32 os coeficientes da transformada quantizados e os dados codificados são emitidos do terminal de saída 312, junto com as informações sobre o método de predição.

[041] A fim de realizar a predição intraquadro ou a predição interquadro em um bloco-alvo subsequente, o sinal comprimido do bloco-alvo é inversamente processado e restaurado. A saber, os coeficientes da transformada quantizados são inversamente quantizados pela unidade de desquantização 308, e então submetidos a uma transformada do cosseno discreta inversa pela unidade de transformada inversa 309 para restaurar o sinal residual. A unidade de adição 310 adiciona o sinal residual restaurado ao sinal preditivo alimentado por meio da linha L303 para reconstruir um sinal do bloco-alvo, que é armazenado na memória de quadro 304. Apesar de a presente modalidade empregar a unidade de transformada 306 e a unidade de transformada inversa 309, é possível também, utilizar outros tipos de processamento de transformada ao invés dessas unidades de transformada. Dependendo da situação, a unidade de transformada 306 e a unidade de transformada inversa 309 podem ser omitidas.

[042] A memória de quadro 304 é um armazenamento finito e impossível armazenar todas as imagens reconstruídas. Somente as imagens reconstruídas a serem utilizadas para codificação de imagem subsequente são armazenadas na memória de quadro 304. A unidade de gerenciamento de memória de quadro 314 é aquela que controla essa memória de quadro 304. A unidade de gerenciamento de memória de quadro 314 controla a memória de quadro 304 de modo a deletar a imagem mais antiga dentre as M imagens reconstruídas (M é um número inteiro de um ou mais) armazenadas na memória de quadro 304 de modo que a imagem reconstruída mais recente possa ser armazenada como uma imagem de referência. Através de um

Petição 870180032497, de 20/04/2018, pág. 31/58

19/32 terminal de entrada 313, o tamanho de quadro de cada imagem e o tamanho de quadro máximo especificado como uma restrição de codificação (perfil e nível) são alimentados, com base em que o número máximo de imagens reconstruídas armazenáveis na memória de quadro é determinado, e a unidade de gerenciamento de memória de quadro 314 opera para armazenar imagens reconstruídas dentro do número máximo. Ao mesmo tempo, as informações sobre o tamanho de quadro de cada imagem, o tamanho de quadro máximo especificado como uma restrição de codificação e o número máximo de imagens reconstruídas armazenáveis na memória de quadro, são alimentadas por meio da linha L314 à unidade de codificação por entropia 311, codificadas pela mesma e emitidas junto com os dados de imagem comprimida. O tamanho de quadro, o tamanho de quadro máximo especificado como uma restrição de codificação e o número máximo de imagens reconstruídas armazenáveis na memória de quadro são associados a cada imagem. O tamanho de quadro pode ser expressado por um valor de tamanho de quadro bruto ou pode ser expressado na forma de um exponente ou uma potência. Se o tamanho de quadro máximo for especificado com antecedência como informações de perfil e nível, o tamanho de quadro máximo pode ser inserido com uso das informações. Deve-se observar que na presente modalidade, o valor do tamanho de quadro é diretamente convertido em dados binários e o tamanho de quadro máximo é especificado como informações de nível. Será descrito posteriormente como a unidade de gerenciamento de memória de quadro 314 é controlada.

[043] Em seguida, o método de decodificação preditiva de vídeo será descrito. A Figura 4 é um diagrama de blocos que mostra um dispositivo de decodificação preditiva de vídeo de acordo com uma modalidade da presente invenção. O número de referência 401 denota um terminal de entrada, 402

Petição 870180032497, de 20/04/2018, pág. 32/58

20/32 denota uma unidade de análise de dados, 403 denota uma unidade de desquantização, 404 denota uma unidade de transformada inversa, 405 denota uma unidade de adição, 408 denota uma unidade de geração de sinal preditivo, 407 denota uma memória de quadro, 406 denota um terminal de saída e 409 denota uma unidade de gerenciamento de memória de quadro. O terminal de entrada 401 constitui meio de entrada. A unidade de desquantização 403 e a unidade de transformada inversa 404 constituem meio de decodificação. Outros tipos de meio de decodificação podem ser empregados ao invés dos antecedentes. A memória de quadro 407 constitui o meio de armazenamento de imagem. A unidade de gerenciamento de memória de quadro 409 constitui o meio de controle de memória. Adicionalmente, o meio de decodificação pode ser configurado sem a unidade de transformada inversa 404.

[044] A operação do dispositivo de decodificação preditiva de vídeo configurado conforme descrito acima será descrita abaixo. Dados comprimidos codificados conforme descrito acima são inseridos através do terminal de entrada 401. Os dados comprimidos contêm um sinal residual que resulta da codificação preditiva de cada bloco-alvo obtido dividindo-se uma imagem em uma pluralidade de blocos, e as informações sobre a geração de um sinal preditivo. As informações sobre a geração do sinal preditivo incluem informações sobre divisão de bloco (tamanho de bloco), informações de movimento e o índice de referência mencionado anteriormente quando a predição interquadro for realizada, ou inclui informações sobre um método de extrapolação realizado em pixels adjacentes reconstruídos quando a predição intraquadro for realizada.

[045] A unidade de análise de dados 402 extrai, dos dados comprimidos, o sinal residual do bloco-alvo, as informações sobre a geração do sinal preditivo, um parâmetro de quantização, o tamanho de quadro de imagens, o

Petição 870180032497, de 20/04/2018, pág. 33/58

21/32 tamanho de quadro máximo especificado como uma restrição de codificação e o número máximo de imagens reconstruídas armazenáveis na memória de quadro. O sinal residual do bloco-alvo é inversamente quantizado com o parâmetro de quantização (alimentado por meio da linha L402) pela unidade de desquantização 403. O resultado é submetido a uma transformada do cosseno discreta inversa pela unidade de transformada inversa 404.

[046] Em seguida, as informações sobre a geração do sinal preditivo são alimentadas por meio da linha L406b à unidade de geração de sinal preditivo 408. A unidade de geração de sinal preditivo 408 acessa a memória de quadro 407, com base nas informações sobre a geração do sinal preditivo, para adquirir um sinal de referência a partir de uma pluralidade de imagens de referência, a fim de gerar um sinal preditivo. Esse sinal preditivo é alimentado por meio da linha L408 à unidade de adição 405. A unidade de adição 405 adiciona o sinal preditivo ao sinal residual restaurado para reconstruir um sinal de bloco-alvo, que é emitido por meio da linha L405 e simultaneamente armazenado na memória de quadro 407.

[047] As imagens reconstruídas a serem utilizadas para decodificar e reconstruir uma imagem subsequente são armazenadas na memória de quadro 407. A unidade de gerenciamento de memória de quadro 409 controla a memória de quadro 407. A memória de quadro 407 é controlada de modo a deletar a mais antiga dentre as M imagens reconstruídas armazenadas (M é um número inteiro) de modo que a imagem reconstruída mais recente utilizada como uma imagem de referência possa ser armazenada. As informações sobre o tamanho de quadro da imagem-alvo, o tamanho de quadro máximo especificado como uma restrição de codificação e o número máximo de imagens reconstruídas armazenáveis na memória de quadro são alimentadas por meio da linha L406a à unidade de gerenciamento de memória de quadro

Petição 870180032497, de 20/04/2018, pág. 34/58

22/32

409, com base em que a unidade de gerenciamento de memória de quadro 409 opera. Será descrito posteriormente como a unidade de gerenciamento de memória de quadro 409 é controlada.

[048] As operações do método de codificação preditiva de vídeo e do método de decodificação preditiva de vídeo serão descritas abaixo com uso das Figuras 5 e 6. A Figura 5 é um fluxograma que mostra os métodos de codificação e decodificação preditiva de vídeo de acordo com uma modalidade da presente invenção. As variáveis observadas no mesmo desenho serão explicadas. pic_width é uma variável indicativa de uma contagem de pixel de luminância de uma largura lateral das imagens reconstruídas, pic_height é uma variável indicativa de uma contagem de pixel de luminância de uma largura vertical das imagens reconstruídas, MaxLumaFS é uma variável indicativa de um tamanho de imagem máximo definido por informações de nível, MFSBuffer é uma variável indicativa de uma quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB), que é definido como informações de nível, maxDPBsize é uma variável indicativa de uma quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB), max_dec_pic_buffering é uma variável indicativa de um número de armazenamento máximo (quantidade de armazenamento temporário de memória) de imagens reconstruídas utilizadas na decodificação, e DPBpointer é uma variável indicativa de um apontador que indica uma posição de armazenamento de uma imagem reconstruída no armazenamento temporário de imagem decodificada.

[049] Na Figura 5, são inseridas a pic_width indicativa da contagem de

Petição 870180032497, de 20/04/2018, pág. 35/58

23/32 pixel de luminância da largura lateral das imagens reconstruídas, a pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas, a MaxLumaFS indicativa do tamanho de quadro máximo especificado como uma restrição de codificação e a MFSBuffer indicativa da quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB). Em seguida, um produto da pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas e a pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas nos dados de entrada é comparado com uma metade de (MaxLumaFS/2) da MaxLumaFS indicativa do tamanho de imagem máximo especificado como uma restrição de codificação (etapa S502). Se a condição não for satisfeita (ou se o produto de pic_width e pic_height for maior que a MaxLumaFS/2), maxDPBsize = MFSBuffer é configurado (etapa S503). Se a condição for satisfeita (ou se o produto de pic_width e pic_height não for maior que a MaxLumaFS/2), maxDPBsize = 2*MFSBuffer é configurado (etapa S504).

Operações maxDPBsize = 2*MFSBuffer (se pic_width*pic_height < (MaxLumaFS >> 1)) maxDPBsize = MFSBuffer (caso contrário) [050] Na operação acima >> representa uma operação de deslocamento para direita e tem o mesmo significado que MaxLumaFS/2.

[051] Então, a quantidade de armazenamento temporário de memória (max_dec_pic_buffering) expressada pelo número de armazenamento máximo de imagens reconstruídas utilizadas na decodificação é configurada para não mais que maxDPBsize.

Operação

Petição 870180032497, de 20/04/2018, pág. 36/58

24/32 max_dec_pic_buffering < maxDPBsize [052] Se maxDPBsize = MFSBuffer, conforme mostrado na Figura 6(a), DPBpointer = 1 é configurado para a cabeça do armazenamento temporário de memória de imagem, e DPBpointer = 2, 3 e 4 são configurados, respectivamente, para as posições distantes da posição de DPBpointer = 1 por duas vezes, três vezes e quatro vezes o tamanho de quadro máximo.

[053] Se maxDPBsize = 2*MFSBuffer, conforme mostrado na Figura 6(b), além dos apontadores DPB 1 a 4 já configurados, apontadores DPB adicionais são configurados, respectivamente, para as posições distantes da posição de DPBpointer = 1 por 1/2 vezes, 3/2 vezes, 5/2 vezes, e 7/2 vezes o tamanho de quadro máximo da (etapa S505).

[054] A max_dec_pic_buffering e os apontadores DPB assim configurados são utilizados na operação de controle da memória de quadro na etapa S508 conforme descrito abaixo. A saber, durante a decodificação, imagens reconstruídas são armazenadas na memória de quadro até o número máximo de max_dec_pic_buffering, e quando estão sendo armazenadas, as imagens reconstruídas são controladas para serem armazenadas com base nos apontadores DPB conforme configurados acima. Na codificação, informações são dadas a partir do lado externo que inclui informações sobre a pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas e a pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas e informações de nível sobre a MaxLumaFS indicativa do tamanho de imagem máximo e a MFSBuffer indicativa da quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB). Na Figura 3, as informações são alimentadas por meio do terminal de entrada 313 a partir de

Petição 870180032497, de 20/04/2018, pág. 37/58

25/32 um dispositivo de controle não mostrado.

[055] Por outro lado, na etapa S506, uma imagem-alvo é codificada e, então, decodificada pelo método descrito com a Figura 3. Os dados de imagem codificada são emitidos para o lado externo ou armazenados. É determinado na etapa S507 se a imagem-alvo deve ser utilizada como uma imagem de referência no processamento subsequente. A determinação na etapa S507 depende de como a imagem é codificada (codificação por predição intraquadro, codificação por predição interquadro, ou codificação por predição bidirecional). Quando a imagem-alvo não é utilizada como uma imagem de referência, o fluxo vai para a etapa S510. Quando a imagem-alvo é utilizada como uma imagem de referência, o fluxo vai para a etapa S508, onde os apontadores DPB são cnfigurados para as posições mostradas na Figura 6(a) ou 6(b). Então, a imagem decodificada e reconstruída é armazenada na memória de quadro na etapa S509 e o fluxo vai para a etapa S511. Se houver uma próxima imagem na etapa S511, o fluxo vai para S506, enquanto que se não houver uma próxima imagem, o processo é terminado. O processo de codificação é executado através da última imagem dessa maneira.

[056] Os processos descritos acima são realizados em todo o dispositivo de codificação de vídeo mostrado na Figura 3. Especificamente, as etapas S502, S503, S504, S505, e S508 são executadas na unidade de gerenciamento de memória de quadro 314.

[057] O processo mostrado na Figura 5 foi descrito acima como um método de codificação de vídeo, porém é aplicável ao processamento de um método de decodificação de vídeo. Quando a decodificação é realizada, na etapa S501, dados de imagem comprimida e codificada (fluxo de bits) são inseridos. Extraídos dos dados de entrada são a pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas, a

Petição 870180032497, de 20/04/2018, pág. 38/58

26/32 pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas, a MaxLumaFS indicativa do tamanho de quadro máximo especificado como uma restrição de codificação, a MFSBuffer indicativa da quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas armazenáveis no armazenamento temporário de imagem decodificada (DPB), e a max_dec_pic_buffering indicativa do número de armazenamento máximo (quantidade de armazenamento temporário de memória) de imagens reconstruídas utilizadas na decodificação e as etapas S502-S505 e S508 são executadas conforme descrito acima. No lado da decodificação, verifica-se na etapa S505 se a max_dec_pic_buffering restaurada não é maior que a maxDPBsize. Na etapa S506, os dados comprimidos da imagem-alvo são decodificados para restaurar a imagem. A etapa S507 e as etapas subsequentes são realizadas conforme descrito acima. Esses processos são realizados no dispositivo de decodificação de vídeo mostrado na Figura 4. Especificamente, as etapas S502, S503, S504, S505 e S508 são executadas na unidade de gerenciamento de memória de quadro 409 do dispositivo de decodificação de vídeo.

[058] As Figuras 6(a) e 6(b) são diagramas esquemáticos para explicar as posições dos apontadores de memória na memória de quadro implantada nos métodos de codificação e decodificação preditiva de vídeo de acordo com a modalidade da presente invenção. Uma comparação entre as Figuras 6(a) e 6(b) revela que as posições dos apontadores de memória 1 a 4 são fixas. Quando a condição na etapa S503 é satisfeita, os novos apontadores de memória 5 a 8 são adicionados. A saber, independentemente do resultado da determinação na etapa S503, as posições dos apontadores de memória são fixas.

Posições de Apontadores de Memória

Petição 870180032497, de 20/04/2018, pág. 39/58

27/32 [059] Na presente modalidade, os apontadores de memória 1 a 4 e 5 a 8 são alternadamente configurados, porém os apontadores de memória podem ser números atribuídos incrementais de 1 a 8.

Número de Divisões de Memória [060] Na presente modalidade, a pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas e a pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas são comparadas com uma metade (MaxLumaFS/2) da MaxLumaFS indicativa do tamanho de quadro máximo especificado como uma restrição de codificação. Deve-se, no entanto, observar que a pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas e a pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas, podem ser comparadas com o tamanho de quadro máximo MaxLumaFS/(2^L) (em que L é um número inteiro de 2 ou mais) especificado como uma restrição de codificação. Quando comparadas dessa forma, as posições dos apontadores de memória que apontam as posições de armazenamento de imagens reconstruídas podem ser configuradas de modo que os apontadores de memória sejam dispostos em posições determinadas por 1/(2^L) de MaxLumaFS enquanto os pointers já dispostos são fixos, conforme mostrado nas Figuras 6(a) e 6(b).

Definição de Tamanho de Quadro [061] Na presente modalidade, o tamanho de quadro é expressado pela pic_width indicativa da contagem de pixel de luminância da largura lateral das imagens reconstruídas e pela pic_height indicativa da contagem de pixel de luminância da largura vertical das imagens reconstruídas. Deve-se, no entanto, observar que também é possível utilizar um valor indicativo do valor já multiplicado o que significa tamanho de quadro. O tamanho de quadro

Petição 870180032497, de 20/04/2018, pág. 40/58

28/32 também pode ser calculado por um método que não seja o método acima.

[062] Na presente modalidade, a MaxLumaFS indicativa do tamanho de imagem máximo e a MFSBuffer indicativa da quantidade de armazenamento temporário de memória expressada pelo número máximo de imagens reconstruídas que tem o tamanho de MaxLumaFS armazenável no armazenamento temporário de imagem decodificada (DPB) são especificadas como informações de nível. Deve-se, no entanto, observar que as mesmas não precisam ser transmitidas como as informações de nível. As mesmas podem ser adicionadas como informações que não sejam as informações de nível.

[063] Na presente modalidade, FSBuffer e maxDPBsize são expressadas pelo número máximo de imagens reconstruídas armazenáveis. Deve-se, no entanto, observar que as mesmas podem ser expressadas como a quantidade de memória real. Se forem expressadas dessa forma, o número de imagens reconstruídas é calculado dividindo-se a contagem de memória com o tamanho de quadro.

[064] Visto que o número máximo de imagens reconstruídas armazenáveis na memória de armazenamento temporário de imagem é determinado, com base na relação entre o tamanho de quadro de imagem e o tamanho de quadro máximo especificado como uma restrição de codificação, quando o tamanho de quadro real for menor que o tamanho de quadro máximo, um resíduo da memória de quadro pode ser reduzido e regiões de memória para armazenar imagens de referência podem ser aumentadas para habilitar, dessa forma, aprimoramento adicional da eficiência de codificação.

[065] Um programa de codificação preditiva de vídeo e um programa de decodificação preditiva de vídeo para um computador para funcionar como o dispositivo de codificação preditiva de vídeo anterior e o dispositivo de decodificação preditiva de vídeo anterior podem ser fornecidos como

Petição 870180032497, de 20/04/2018, pág. 41/58

29/32 programas armazenados em um meio de gravação. Exemplos de tais meios de gravação incluem meios de gravação tais como disquetes (marca registrada), CD-ROMs, DVDs, e ROMs, memórias semicondutoras e similares.

[066] Especificamente, o programa de codificação preditiva de vídeo é dotado de um módulo de entrada que implementa entrada de uma pluralidade de imagens que constituem uma sequência de vídeo, um módulo de codificação que codifica as imagens ou por predição intraquadro ou por predição interquadro para gerar dados de imagem comprimida que incluem informações sobre o tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis, e um tamanho de quadro máximo como uma configuração de codificação, e para codificar os dados de imagem comprimida junto com dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo, um módulo de decodificação que decodifica os dados de imagem comprimida para reproduzir imagens, um módulo de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para codificação uma imagem subsequente e um módulo de controle de memória que controla uma memória de armazenamento temporário de imagem no módulo de armazenamento de imagem, em que quando um tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o módulo de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis na memória de quadro.

[067] O programa de decodificação preditiva de vídeo é dotado de um módulo de entrada que implementa entrada de dados codificados que compreendem dados de imagem comprimida, que incluem informações sobre

Petição 870180032497, de 20/04/2018, pág. 42/58

30/32 o tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo como uma configuração de codificação, em que uma pluralidade de imagens que constituem uma sequência de vídeo é codificada ou por predição intraquadro ou por predição interquadro, um módulo de decodificação que decodifica os dados de imagem comprimida e os dados de imagem comprimida que constituem as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para restaurar imagens reconstruídas e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo, um módulo de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente, e um módulo de controle de memória que controla o módulo de armazenamento de imagem, em que quando um tamanho de quadro das imagens de entrada não for maior que 1/(2^L) (em que L é um número inteiro de um ou mais) do tamanho de quadro máximo de imagens, o módulo de controle de memória determina que (2^L) vezes o número máximo de imagens reconstruídas são armazenáveis na memória de quadro.

[068] A Figura 7 é um desenho que mostra uma configuração de hardware de um computador para executar o programa gravado em um meio de gravação, e a Figura 8 uma vista em perspectiva de um computador para executar o programa armazenado em um meio de gravação. O computador inclui um reprodutor de DVD, um conversor (set-top box), um telefone celular, etc. dotado de uma CPU e configurado para realizar processos e controle por software.

[069] Conforme mostrado na Figura 7, o computador 30 é dotado de um

Petição 870180032497, de 20/04/2018, pág. 43/58

31/32 dispositivo de leitura 12 tal como uma unidade de disquete (marca registrada), uma unidade de CD-ROM ou uma unidade de DVD, uma memória de trabalho (RAM) 14 na qual um sistema operacional é residente, uma memória 16 para armazenar programas armazenados no meio de gravação 10, uma unidade de monitor 18 similar a um visor, um mouse 20 e um teclado 22 como dispositivos de entrada, um dispositivo de comunicação 24 para transmissão e recepção de dados ou similares, e uma CPU 26 para controlar a execução de programas. Quando o meio de gravação 10 é colocado no dispositivo de leitura 12, o computador 30 se torna acessível ao programa de codificação ou decodificação preditiva de vídeo armazenado no meio de gravação 10 através do dispositivo de leitura 12 e se torna capaz de operar como o dispositivo de codificação ou decodificação preditiva de vídeo de acordo com a presente invenção, com base no programa de codificação ou decodificação preditiva de vídeo.

[070] Conforme mostrado na Figura 8, o programa de codificação preditiva de vídeo ou o programa de decodificação preditiva de vídeo pode ser fornecido na forma de sinal de dados de computador 40 sobreposto em uma onda transportadora, através de uma rede. Nesse caso, o computador 30 pode executar o programa de codificação preditiva de vídeo ou o programa de decodificação preditiva de vídeo após o programa de codificação preditiva de vídeo ou o programa de decodificação preditiva de vídeo recebido pelo dispositivo de comunicação 24 ser armazenado na memória 16.

LISTA DE SINAIS DE REFERÊNCIA [071] 301 terminal de entrada; 302 unidade de divisão de bloco; 303 unidade de geração de sinal preditivo; 304 memória de quadro; 305 unidade de subtração; 306 unidade de transformada; 307 unidade de quantização; 308 unidade de desquantização; 309 unidade de transformada inversa; 310 unidade de adição; 311 unidade de codificação por entropia; 312 terminal de

Petição 870180032497, de 20/04/2018, pág. 44/58

32/32 saída; 313 terminal de entrada; 314 unidade de gerenciamento de memória de quadro; 401 terminal de entrada; 402 unidade de análise de dados; 403 unidade de desquantização; 404 unidade de transformada inversa; 405 unidade de adição; 406 terminal de saída; 407 memória de quadro; 408 unidade de geração de sinal preditivo; 409 unidade de gerenciamento de memória de quadro.

Petição 870180032497, de 20/04/2018, pág. 45/58

1/4

Claims

REIVINDICAÇÕES

1. Dispositivo de codificação preditiva de vídeo caracterizado pelo fato de que compreende:

meio de entrada que insere uma pluralidade de imagens que formam uma sequência de vídeo;

meio de codificação que codifica as imagens ou por predição intraquadro ou por predição interquadro para gerar dados de imagem comprimida que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação e codifica os dados de imagem comprimida junto com os dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo;

meio de decodificação que decodifica os dados de imagem comprimida para reconstruir as imagens; e meio de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para codificação de uma imagem subsequente;

em que o tamanho do quadro da imagem de entrada é comparado com 1/(2^L) do tamanho de quadro máximo da imagem, e se o tamanho de quadro da imagem de entrada não for maior do que 1/(2^L) do tamanho de quadro máximo da imagem, ela pode ser armazenada na memória de quadro, fazendo com que o número máximo de imagens reconstruídas seja (2^L)xN, onde L e N são números inteiros, com L igual a 1 ou 2, e N sendo o número máximo de imagens reconstruídas armazenáveis.
2. Dispositivo de decodificação preditiva de vídeo caracterizado pelo fato

Petição 870180032497, de 20/04/2018, pág. 46/58

2/4 de que compreende:

meio de entrada que insere os dados codificados que compreendem os dados de imagem comprimida que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis, e um tamanho de quadro máximo especificado como uma restrição de codificação, em que uma pluralidade de imagens que formam uma sequência de vídeo são codificadas ou por predição intraquadro ou por predição interquadro;

meio de decodificação que decodifica os dados de imagem comprimida, e os dados de imagem comprimida indicando as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para reconstruir as imagens e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis e o tamanho de quadro máximo; e meio de armazenamento de imagem que armazena uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente;

em que o tamanho do quadro da imagem de entrada é comparado com 1/(2^L) do tamanho de quadro máximo da imagem, e se o tamanho de quadro da imagem de entrada não for maior do que 1/(2^L) do tamanho de quadro máximo da imagem, ela pode ser armazenada na memória de quadro, fazendo com que o número máximo de imagens reconstruídas seja (2^L)xN, onde L e N são números inteiros, com L igual a 1 ou 2, e N sendo o número máximo de imagens reconstruídas armazenáveis.
3. Método de codificação preditiva de vídeo executado por um dispositivo de codificação preditiva de vídeo caracterizado pelo fato de que compreende:

uma etapa de entrada para inserir uma pluralidade de imagens que formam

Petição 870180032497, de 20/04/2018, pág. 47/58

3/4 uma sequência de vídeo;

uma etapa de codificação para codificar as imagens ou por predição intraquadro ou por predição interquadro para gerar os dados de imagem comprimida que incluem informações sobre um tamanho de quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis, e um tamanho de quadro máximo especificado como uma restrição de codificação e que codifica os dados de imagem comprimida junto com dados de especificação de codificação a respeito das informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo;

uma etapa de decodificação para decodificar os dados de imagem comprimida para reconstruir imagens; e uma etapa de armazenamento de imagem para armazenar uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para codificação de uma imagem subsequente;

em que o tamanho do quadro da imagem de entrada é comparado com 1/(2^L) do tamanho de quadro máximo da imagem, e se o tamanho de quadro da imagem de entrada não for maior do que 1/(2^L) do tamanho de quadro máximo da imagem, ela pode ser armazenada na memória de quadro, fazendo com que o número máximo de imagens reconstruídas seja (2^L)xN, onde L e N são números inteiros, com L igual a 1 ou 2, e N sendo o número máximo de imagens reconstruídas armazenáveis.
4. Método de decodificação preditiva de vídeo executado por um dispositivo de decodificação preditiva de vídeo caracterizado pelo fato de que compreende:

uma etapa de entrada de inserir os dados codificados que compreendem os dados de imagem comprimida que incluem informação de tamanho de

Petição 870180032497, de 20/04/2018, pág. 48/58

4/4 quadro de imagem alvo, um número máximo de imagens reconstruídas armazenáveis e um tamanho de quadro máximo especificado como uma restrição de codificação, em que uma pluralidade de imagens que formam uma sequência de vídeo são codificadas ou por predição intraquadro ou por predição interquadro;

uma etapa de decodificação para decodificar os dados de imagem comprimida e os dados de imagem comprimida indicando as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo para reconstruir as imagens e as informações sobre o tamanho de quadro de imagem alvo, o número máximo de imagens reconstruídas armazenáveis, e o tamanho de quadro máximo; e uma etapa de armazenamento de imagem para armazenar no meio de armazenamento de imagem uma ou mais das imagens reconstruídas como imagens de referência a serem utilizadas para decodificar uma imagem subsequente;

em que o tamanho do quadro da imagem de entrada é comparado com 1/(2^L) do tamanho de quadro máximo da imagem, e se o tamanho de quadro da imagem de entrada não for maior do que 1/(2^L) do tamanho de quadro máximo da imagem, ela pode ser armazenada na memória de quadro, fazendo com que o número máximo de imagens reconstruídas seja (2^L)xN, onde L e N são números inteiros, com L igual a 1 ou 2, e N sendo o número máximo de imagens reconstruídas armazenáveis.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que apontadores de memória apontam para localizações de armazenamento de imagens reconstruídas em uma memória fixa quando determinam o número máximo de imagens reconstruídas armazenáveis em uma memória de quadro.

Petição 870180032497, de 20/04/2018, pág. 49/58

1/8