ES2394779T3

ES2394779T3 - Procedimiento para estimar el tipo de la estructura del grupo de imágenes de una pluralidad de fotogramas de vídeo en una secuencia de vídeo

Info

Publication number: ES2394779T3
Application number: ES10171431T
Authority: ES
Inventors: Savvas Argyropoulos; Bernhard Feiten; Marie-Neige Garcia; Peter List; Alexander Raake
Original assignee: Technische Universitaet Berlin; Deutsche Telekom AG
Current assignee: Technische Universitaet Berlin; Deutsche Telekom AG
Priority date: 2010-07-30
Filing date: 2010-07-30
Publication date: 2013-02-05
Anticipated expiration: 2030-07-30
Also published as: US20130219443A1; US9241156B2; KR20130105306A; EP2413535B1; JP2016040955A; CN103053134B; JP2013535907A; PL2413535T3; WO2012013655A1; KR101857829B1; JP5964828B2; HRP20120996T1; EP2413535A1; PT2413535E; JP6333792B2; CN103053134A

Abstract

Un procedimiento para estimar el tipo de la estructura del Grupo de Imágenes, GoP, de una pluralidad defotogramas de vídeo en una secuencia de vídeo estimando sus tipos de fotogramas, que comprende las etapas de:a) capturar los tamaños de los fotogramas en bytes de cada fotograma de vídeo posterior a un fotograma-Interno inicial, fotograma-I, para obtener una serie de tamaños de fotograma aprovechando las característicasde la capa de transporte que lleva el fotograma de vídeo;b) convertir, después de un número de fotogramas, la serie de tamaños de fotograma obtenidos en la etapa a)en una serie de ceros y unos, donde cero representa tamaños de fotograma inferiores que un valor dereferencia, como se supone para fotogramas bidireccionales, fotogramas-B, y uno representa tamaños defotograma superiores al valor de referencia, como se supone para los fotogramas predichos, fotogramas-P;c) hacer corresponder la serie binarizada de tamaños de fotograma obtenida en la etapa b) con un número depatrones binarios, representando dichos patrones binarios diferentes estructuras GoP, en las cuales cadapatrón binario contiene un patrón binario básico repetido que es característico de la estructura GoP a analizar;d) convertir el resultado de dicha correspondencia en la etapa c) para formar para cada patrón binario un únicovalor de puntuación; ye) determinar el patrón que tiene el mejor valor de puntuación entre los únicos valores de puntuación deacuerdo con una métrica predefinida que determina la estructura GoP asociada con el patrón.

Description

Procedimiento para estimar el tipo de la estructura del grupo de imágenes de una pluralidad de fotogramas de vídeo en una secuencia de vídeo

Antecedentes de la invención

Entre los numerosos servicios de distribución de TV, la IPTV (TV de protocolo de Internet) cada vez es más importante y está sustituyendo más y más a los procedimientos de transmisión analógicos o no basados en paquetes. Es una responsabilidad principal del proveedor de transmisión hacia tanto el proveedor de contenido como el cliente mantener la calidad de su servicio. En redes IPTV grandes únicamente pueden satisfacer este requisito sondas de control de calidad totalmente automatizadas que dan la alarma en caso de la presencia de calidad de vídeo y/o audio degradada. Estas sondas de control deberían poder estimar la calidad subjetiva que percibiría un usuario final. Existen o están en desarrollo varios modelos que traducen resultados de medición objetivos a partir de una secuencia de bits de vídeo en los valores de la llamada “nota media de opinión” (NMO). Las categorías de medición objetivas que se pueden usar para producir este valor NMO incluirán por ejemplo la tasa de bits y la tasa de imagen del vídeo controlado.

Es una propiedad inherente de las redes IP que los paquetes IP pueden perderse (sobre todo debido a la sobrecarga temporal en algún punto en la red). Algunas de estas pérdidas pueden ser casi invisibles para el cliente mientras que otras pueden causar una grave degradación de la calidad de vídeo. Incluso si los medios contra estas pérdidas son parte de un sistema de distribución IPTV, estos medios nunca pueden garantizar una eficacia del 100%. Por ejemplo, una solicitud de retransmisión puede tardar demasiado, o el paquete retransmitido en sí mismo se puede perder.

Por lo tanto siempre existe una probabilidad distinta de cero que se transmitan las secuencias de bits fragmentadas al dispositivo del usuario final. Estas a su vez pueden causar degradaciones visibles o audibles en el vídeo o el audio reconstruidos. Las categorías de medición pueden por lo tanto incluir también valores para expresar la probabilidad de pérdidas. Tales valores pueden incluir las expresiones de una “tasa de pérdida de paquetes” y las “ráfagas de eventos de pérdidas”.

Para poder estimar si una pérdida de paquete será invisible o, por el contrario será fuertemente visible incluso durante largos periodos de tiempo, será necesario capturar más propiedades de la secuencia de bits controlada. La más importante de esas propiedades adicionales es el “tipo de fotograma” de todos los fotogramas y en particular el fotograma afectado por las pérdidas. Los posibles valores para la propiedad del “tipo de fotograma” incluyen “Fotograma-Interno” o “Fotograma-Clave” (posteriormente llamado fotograma-I), “Fotograma-Predicho” (posteriormente llamado fotograma-P) y “Fotograma-Bidireccional” (posteriormente llamado fotograma-B). Es bien conocido que únicamente los fotogramas-I se pueden decodificar sin el conocimiento de cualquier fotograma anterior. Por el contrario, los fotogramas-P siempre dependen de uno o más predecesores llamados “fotogramas de referencia”, debido a que la información transmitida por un fotograma-P principalmente consiste en la diferencia entre el fotograma de vídeo que describe y sus referencias. Por lo tanto, las pérdidas de paquetes en un fotograma-I

o sus fotogramas-P consecutivos se llevan en cada fotograma posterior, debido a que los fotogramas-P y fotogramas-I afectados por las pérdidas sirven en general como referencias para los fotogramas posteriores. Estos fotogramas se vuelven degradados incluso si no contienen ninguna pérdida en sí mismos.

Debido a este mecanismo, un único error de pérdida de paquetes puede permanecer en partes largas de una secuencia de vídeo, hasta que se produce el siguiente fotograma-I sin error. Los errores en los fotogramas-P y particularmente en los fotogramas-I pueden por lo tanto tener una muy alta visibilidad.

El mismo mecanismo de fotograma de referencia es válido para los fotogramas-B, pero, puesto que los fotogramas-B en general no sirven como referencias en sí mismos, un error en un fotograma-B será únicamente visible en este único fotograma y por lo tanto es mucho menos visible comparado con errores debido a pérdidas en fotogramas-I o fotogramas-P.

Puesto que los fotogramas-I no dependen de ninguna referencia anterior, representan los únicos puntos en una secuencia de bits, donde un reproductor de vídeo o un decodificador pueden sincronizar con el vídeo. También, los fotogramas-I (sin pérdidas) son los únicos puntos en el tiempo para borrar cualquier degradación debido a la pérdida de paquetes. La secuencia de fotogramas de vídeo entre dos fotogramas-I se llama “Grupo de Imágenes” (GoP). En muchos de los casos los fotogramas-P y fotogramas-B en un GoP siguen un patrón más o menos estricto que el patrón GoP típico conocido a partir del MPEG2: “I, B, B, P, B, B, P.....”. Si se conoce este patrón, es posible una estimación previa fiable del tipo de fotograma de cualquier imagen en la secuencia de bits, incluso si el tipo de fotograma en sí mismo no se puede leer desde la secuencia de bits debido a pérdida de paquetes o a encriptación.

A menudo es bastante exigente obtener buenas estimaciones por lo mencionado anteriormente y otros valores de medición. Esto se debe principalmente a dos razones independientes:

1. Para prevenir acceso no autorizado, la secuencia de bits puede estar encriptada y las propiedades se la secuencia de bits importantes pueden no ser legibles en la localización de la medición.

2. Debido a la pérdida de paquetes como se ha mencionado anteriormente, piezas importantes de información pueden haber sido eliminadas de la secuencia de bits.

Los documentos WO 2009/02297 y WO 2009/012302 tratan de decidir los tipos de fotograma diferentes por su tamaño en bytes. Puesto que los fotogramas-I contienen una media de dos a 5 veces tantos bits como los fotogramas-P o los fotogramas-B, es fácil distinguir fotogramas-I de fotogramas-P y fotogramas-B. Es bastante poco fiable, sin embargo, distinguir fotogramas-P de fotogramas-B. Aunque los fotogramas-B son de media menores que los fotogramas-P, la diferencia en tamaño no es grande, en su lugar, la variación de tamaños sí lo es. En general, el promedio de las diferencias en tamaño también depende mucho del codificador específico usado para comprimir las secuencias de vídeo examinadas. Esto es incluso más en el caso de una nueva estrategia de codificación de los codificadores H.264 llamada “codificación jerárquica”, donde algunos de los fotogramas-B también sirven como referencia para otros fotogramas-B.

El documento EP-A-2 077 672 se refiere a analizar la secuencia de transporte tal como para determinar la estructura del GoP de una señal de vídeo codificada. El “patrón” del GoP se determina determinando el máximo local usando patrones de determinación predeterminados o usando patrones de aparición.

Sumario de la invención

La invención sugiere un procedimiento para estimar los tipos de fotograma de fotogramas de vídeo en secuencias de vídeo encriptadas, o en casos en los que las propiedades de la secuencia de bits, que contiene información acerca del tipo de fotograma (la cabecera de segmento), han desaparecido debido a la pérdida de paquetes.

En particular, la invención presenta un procedimiento para la estimación de los tipos de fotogramas que no está únicamente basada en su tamaño. En su lugar, el patrón GoP de la secuencia de bits de vídeo examinada se estima por un patrón que corresponde los tamaños de fotograma encontrados en cada GoP a patrones GoP predefinidos. Con el conocimiento de este patrón GoP estimado se puede estimar el tipo de cada fotograma posterior.

La invención está definida en las reivindicaciones.

De acuerdo con un primer aspecto, la invención proporciona un procedimiento para estimar el tipo de la estructura del Grupo de Imágenes, GoP, de una pluralidad de fotogramas de vídeo en una secuencia de vídeo de acuerdo con la reivindicación 1.

En la etapa a), los límites de los fotogramas de vídeo se pueden detectar en la secuencia de bits observando los cambios en ciertas marcas de tiempo de la capa de transporte, o por ciertos bits en las estructuras de cabecera que se usan para señalar fotogramas nuevos y decidir fotogramas internos a partir de otros fotogramas.

Se prefiere que en la etapa a) el número de fotogramas capturados durante un periodo de medición comprenda todos los fotogramas hasta el siguiente fotograma-I.

En la etapa b) la conversión de los tamaños de fotograma continuos a binarios preferentemente comprende el uso de un valor de referencia que es dependiente de características constantes o poco a poco fluctuantes, o un valor de referencia adaptable dinámicamente, que son preferentemente dependientes de los valores de los tamaños de fotograma capturados previamente y/o de otras características dinámicas.

Los patrones básicos predefinidos de binarios representan las posibles estructuras GoP para números diferentes de fotogramas-B consecutivos en una codificación basada en fotograma, codificación basada en campo, codificación GoP abierta o codificación GoP cerrada.

Se prefiere en la etapa c) que los patrones básicos predefinidos cortos estén repetidos con un posible truncamiento del último patrón básico hasta que las series de patrones básicos repetidos tengan la misma longitud que las series de los tamaños de fotograma binarizados en la serie de tamaños de fotograma.

Adicionalmente, en la etapa c) la correspondencia se puede realizar por una operación de no exclusivo acertada de los elementos, en la que en la etapa d) los resultados de cada no exclusivo se añaden para formar el valor de puntuación, y en la que en la etapa e) la métrica del valor de puntuación corresponde al valor máximo.

De acuerdo con una realización, en la etapa e) se selecciona el patrón que tiene el mejor valor de puntuación asociado a la estructura GoP, estado de campo/fotograma y estado de GoP abierto/GoP cerrado como resultado de estimación para el patrón GoP del GoP actual.

Preferentemente, se capturan series nuevas de tamaños de fotogramas para GoP posteriores o se están usando algún tipo de promedios GoP promediando los tamaños de fotogramas de series anteriores y actuales de tamaños de fotograma.

Después de la estimación del patrón GoP se realiza una clasificación del tipo de fotograma adicional de acuerdo con la reivindicación 11, para detectar la presencia de fotogramas-B de Referencia dentro de la estructura del Grupo de Imágenes detectada.

De acuerdo con un segundo aspecto, la invención proporciona un procedimiento alternativo para estimar el tipo de estructuras del Grupo de Imágenes, GoP, de una pluralidad de fotogramas de vídeo en una secuencia de vídeo de acuerdo con la reivindicación 12.

Se prefiere que el número de n fotogramas en la etapa a) capturados durante un periodo de medición, comprenda todos los fotogramas hasta el siguiente fotograma-Interno.

En la etapa c) se producen dos valores de relación para cada serie como se describe a continuación:

i) si la secuencia de vídeo examinada comprende codificación GoP abierta, el fotograma-P supuesto del patrón básico que representan cada serie BP, estaría localizado en el último elemento de dichas series BP y todos los otros elementos de dichas series estarían ocupados por fotogramas-B de modo que se calcula la relación para secuencias de codificación GoP abierta como el último elemento de la serie dividido por el promedio de todos los demás elementos de la serie, o ii) si la secuencia de vídeo examinada comprende codificación GoP cerrada, el fotograma-P supuesto del patrón básico que representa cada serie BP, está localizado en el primer elemento de dichas series BP y todos los otros elementos de dichas series estarían ocupados por fotogramas-B de modo que se calcula la relación para las secuencias de codificación GoP cerrada como el primer elemento de la serie dividido por el promedio de todos los demás elementos de la serie.

Preferentemente, después de la estimación del patrón GoP se realiza una clasificación del tipo de fotograma adicional en la que se examina el subconjunto de fotogramas-B en la serie que representan la estructura GoP estimada de acuerdo con la etapa c) en cuanto a los tamaños de fotograma promediados de acuerdo con el resultado de la etapa b) para aquellos elementos en dicha serie que puedan contener fotogramas-B de referencia que son significativamente mayores que todos los otros elementos que contienen fotogramas-B en dicha serie, y, si este es el caso, dichos fotogramas entonces se suponen que son fotogramas-B de referencia y la estructura GoP estimada se supone que es una estructura GoP de una llamada secuencia de codificación jerárquica.

La estructura GoP estimada sirve como una estimación de las siguientes estructuras GoP, en las que esta estructura GoP estimada sirve como ayuda para detectar pérdidas de fotogramas de vídeo debido a las pérdidas de paquetes,

o a pérdida de etiquetado o a fotogramas presentes con su tipo de fotograma específico.

Descripción de realizaciones preferidas de la invención.

En una primera etapa, se estima o calcula el número de bytes de cada fotograma de vídeo. Pueden ser apropiados diferentes procedimientos para realizar esta tarea. Por ejemplo, los cambios en ciertas marcas de tiempo en la capa de pueden aprovechar para detectar el inicio de fotogramas nuevos, o se puede utilizar ciertos bits en las estructuras de cabecera que se usan para señalar fotogramas nuevos. En general, estas propiedades de secuencias de bits están disponibles incluso en secuencias de bits encriptadas. Por lo tanto, los tamaños de fotograma se pueden calcular con exactitud de byte o se pueden estimar bastante bien para realizar las etapas siguientes.

En una segunda etapa, la secuencia de bits de vídeo se escanea hasta que se encuentra el siguiente fotograma-I, que representa el inicio del siguiente GoP.

En secuencias no encriptadas, el siguiente fotograma-I (como todos los tipos de fotogramas) se puede encontrar buscando en la cabecera del fotograma de vídeo. En secuencias encriptadas, o si los límites del fotograma aparecen en algún lugar en puntos desconocidos en la carga útil, en su lugar se puede acceder a ciertos indicadores, que marcan los fotogramas-I como “puntos de acceso aleatorio”. Si por alguna razón estos indicadores no aparecen se puede usar aún un análisis de los tamaños de fotogramas encontrados para detectar fotogramas-I, puesto que su tamaño en general es mucho mayor que el de los fotogramas-P y fotogramas-B.

En una tercera etapa, los tamaños en bytes de todos los fotogramas de vídeo posteriores hasta el siguiente fotograma-I se capturarán en ciertas series hasta que se encuentre el siguiente fotograma-I y por lo tanto el GoP está completo.

En una cuarta etapa estas series se corresponderán con un número de patrones predefinidos que representan estructuras GoP típicas. La mejor correspondencia se asocia a una estructura GoP específica que servirá en etapas posteriores como prototipo para los GoP siguientes y puede por lo tanto posibilitar una estimación previa sencilla del tipo de fotogramas de los fotogramas entrantes.

Para GoP posteriores, la serie de tamaños de fotograma se puede resetear, de modo que únicamente se usan los datos del GoP actual, o los tamaños de fotograma de un cierto número de GoP previos se pueden añadir para obtener valores promediados. En el último caso se puede necesitar una serie adicional para anotar el número de valores de tamaño de fotograma añadidos en los elementos de la serie. Preferentemente, se pueden calcular las medias móviles, aplicando:

donde M es el número de GoP a promediar.

Se pueden usar distintas ponderaciones de acuerdo con la invención.

Posibles Patrones GoP

Como se ha mencionado anteriormente, un GoP por lo general tiene una estructura específica que está compuesta de ciertos fotogramas-P y fotogramas-B entre los dos fotogramas-I que marcan los límites del GoP. Son ejemplos de estructuras típicas GoP:

I, b, b, P, b, b, P, b, b, P .... (la estructura GoP “clásica” conocida a partir del MPEG2)

l, b, B, b, P, b, B, b, P, b, B, b, P (posible estructura GoP para codificación jerárquica, con B = fotograma-B de referencia b = fotograma-B no de referencia)

Tiene que tenerse en cuenta que el vídeo entrelazado está codificado a menudo como “secuencia de campos” comprendiendo dos campos independientes por un fotograma de vídeo. En ese caso las estructuras anteriores parecerían como:

l/P, b/b, b/b, P/P, b/b, b/b, P/P....

l/P, b/b, B/B, b/b, P/P, b/b, B/B, b/b, P/P....

formando patrones distintos que, si se detectan correctamente, permiten la decisión entre codificación por fotograma y campo incluso en secuencias encriptadas. Obsérvese que en secuencias de campo a menudo únicamente el primer campo de un fotograma clave está realmente codificado como un fotograma interno. El segundo campo del fotograma clave puede ser un campo predicho. En la observación anterior esto daría como resultado un fotograma I/P. Incluso son posibles los fotogramas P/I.

Los patrones anteriores se visualizan en “orden de visualización”. De hecho, los fotogramas se transmiten en un orden diferente, el llamado “orden de secuencia de bits” u “orden de decodificación”. Puesto que los fotogramas-B tienen referencias en el pasado y el futuro, estas referencias futuras tienen que transmitirse con antelación dando como resultado un orden de secuencia de bits como se muestra a continuación:

I0, P1, b2, b3, P4, b5, b6, P7, b8, b9 ... orden de secuencia de bits

I0, b2, b3, P1, b5, b6, P4, b8, b9, P7 ... orden de visualización (con índice de orden de secuencia de bits)

I0, P1, B2, b3, b4, P5, B6, b7, b8, ... orden de secuencia de bits

I0, b3, B2, b4, P1, b7, B6, b8, P5, ... orden de visualización (con índice de orden de secuencia de bits)

Incluso son posibles diferentes patrones para la misma estructura GoP. Esto es debido a que existen las técnicas de “transmisión de GoP cerrada” y “transmisión de GoP abierta”.

En GoP cerrados, la transmisión del contenido de diferentes GoP nunca se solapa. En estructuras GoP abiertas el primer fotograma-I se transmite antes de los fotogramas-B que le preceden en orden de visualización (los que están cerrando el GoP precedente). Los ejemplos anteriores se mostraron en manera GoP cerrada. El mismo ejemplo en manera GoP abierta parecerían como:

b-2, b-1, l0, b2, b3, P1, b5, b6, P4, ... orden de visualización (GoP abierto)

l0, b-2, b-1, P1, b2, b3, P4, b5, b6, ... orden de secuencia de bits

b-3, B-2, b-1, l0, b3, B2, b4, P1, b7, B6, b8, P5 ... orden de visualización (GoP abierto)

l0, B-2, b-3, b-1, P1, B2, b3, b4, P5, B6, b7, b8 .... orden de secuencia de bits

con los primeros dos (tres) fotogramas-B (marcados con letras en negrita) que pertenecen al GoP precedente, que se transmiten después del fotograma I del GoP actual.

Como se puede ver fácilmente, el orden de la secuencia de bits y por lo tanto el patrón GoP resultante difieren de una manera distinta que, si se detecta correctamente, permite la decisión entre las secuencias GoP cerradas y GoP abiertas.

Otros posibles patrones incluyen:

I, P, P, P, P .... (estructura GoP sin fotogramas-B como se usa en videoconferencia y otras aplicaciones de bajo retardo) I, b, P, b, P .... (patrón GoP con un único fotograma-B)

Está dentro del alcance de la invención estimar la estructura GoP de cualquier secuencia de vídeo analizada, que pueda ser completamente legible, encriptada o corrupta por la pérdida de paquetes. La única información necesaria para conseguir este objetivo es el tamaño en bytes de cada fotograma de vídeo encontrado y el conocimiento de cuáles de los fotogramas son del tipo fotograma-I.

5 Cálculo/estimación de tamaños de fotograma

Como esta invención está basada en el análisis de los tamaños en bytes de todos los fotogramas en una secuencia de vídeo, se tienen que extraer estos tamaños de la secuencia de bits para cada fotograma. Hay muchos esquemas de transporte diferentes, que pueden requerir diferentes acciones para realizar esta tarea. Sin embargo, el esquema de transporte más importante con diferencia en redes basadas en IP es el “protocolo en tiempo real” (RTP). La

10 extracción del tamaño de fotograma está por lo tanto descrita en el presente documento para RTP únicamente pero funcionará de forma similar para otros esquemas de transporte. El experto en la materia podrá adoptar fácilmente la invención a cualquier esquema de transporte diferente de su uso.

Hay dos enfoques principales para transmitir contenido de vídeo sobre RTP:

• El vídeo se lleva directamente como una carga útil de los paquetes RTP. En este caso el audio y otra posible

15 información (información de “sistema”) se lleva en diferentes secuencias RTP que tienen números de puerto diferentes. Por lo tanto la parte de vídeo de la secuencia de bits se puede separar fácilmente del resto de los paquetes.

En general un fotograma de vídeo consistirá de la carga útil de un número de paquetes RTP, cada uno de los cuales está llevando una marca de tiempo. En el caso del vídeo, estas marcas de tiempo RTP están ajustadas al tiempo de

20 decodificación relativo del fotograma de vídeo que llevan. Puesto que los paquetes RTP pueden cada uno tener diferentes tamaños, un fotograma de vídeo estará en general en un número de paquetes RTP completos. Para calcular el tamaño de un fotograma de vídeo en este caso, únicamente tienen que añadirse los tamaños de carga útil de todos los paquetes RTP con la misma marca de tiempo.

Incluso si los límites del fotograma aparecen dentro de una única carga útil RTP, los tamaños de los fotogramas se

25 pueden estimar bastante bien por el valor anterior. No es necesario el acceso a la carga útil en sí misma, que podría estar encriptada.

Se puede acceder al número de secuencia RTP, que es parte de la cabecera RTP, para detectar pérdidas de paquetes RTP. Puesto que el tamaño de un paquete perdido no se puede conocer, se necesita estimar. Esto se puede hacer por algún tipo de tamaño promedio de los paquetes anteriores.

30 • El vídeo se lleva sobre RTP, pero la carga útil es una “secuencia de transporte” (TS). En una TS se multiplexan vídeo, audio y otra información en una única secuencia. Cada paquete multiplexado tiene un tamaño de 188 bytes incluyendo la cabecera TS pequeña. Un paquete RTP lleva 7 de esos paquetes TS, que están marcados por el llamado “ID de programa” (PID) como que pertenecen a una sub-secuencia específica. Una de esas subsecuencias es el vídeo a analizar. Incluso en secuencias encriptadas, las cabeceras TS no están en general

35 encriptadas, y por lo tanto se pueden acceder. Éstas permiten una medición exacta de los tamaños de los fotogramas. En caso de pérdidas de paquetes RTP, se puede utilizar un llamado “contador de continuidad” en la cabecera TS para calcular el número de paquetes de sub-secuencia perdidos por separado de cada subsecuencia para la pérdida-RTP particular. Puesto que los paquetes TS son mucho menores que los paquetes RTP, y (en ausencia del caso raro de relleno) tienen el mismo tamaño de carga útil, se puede estimar el

40 número de bytes perdidos con mayor precisión. El contador de continuidad mencionado en la cabecera TS tiene únicamente 4 bits. Por lo tanto se pueden detectar hasta 16 paquetes TS perdidos. Se pueden calcular fácilmente junto con el número conocido de paquetes RTP perdidos y un valor para el número del promedio de paquetes de sub-secuencia TS por paquete RTP, se puede estimar una estimación precisa para paquetes TS perdidos mayores de 16.

45 Debido a que la marca de tiempo RTP está sincronizada con el tiempo de decodificación relativo del fotograma de vídeo que lleva, incluso se pueden detectar fotogramas perdidos completos, debido a que en tal caso la marca de tiempo RTP se incrementaría en más de una vez la diferencia entre fotogramas sucesivos.

Detección de fotogramas-I

Para iniciar el análisis, se escanea la secuencia de bits para encontrar el inicio del siguiente fotograma-I, que marca

50 el inicio de un nuevo GoP. Los fotogramas-I se pueden detectar por diferentes medios. En el caso de una secuencia no encriptada, se puede acceder fácilmente a las cabeceras del fotograma de la secuencia elemental de todos los fotogramas de vídeo. Las cabeceras de fotogramas de vídeo contienen explícitamente el tipo de fotograma.

Si el vídeo se lleva directamente como carga útil RTP, las cabeceras de los fotogramas deberían aparecer siempre con el primer byte en la carga útil de cada paquete RTP que viene después de un paquete RTP con el M-bit de la

55 cabecera RTP ajustado a 1. Si las cabeceras de los fotogramas pueden aparecer también en la carga útil de un paquete RTP, se pueden buscar fácilmente, debido a que contienen una secuencia de bytes única.

En el caso que se use TS sobre RTP, se puede aprovechar el llamado “indicador_de_acceso_aleatorio” en el campo de adaptación de la cabecera TS. Señala que el fotograma que viene se codificó como un fotograma-I. Incluso en secuencias encriptadas el campo de adaptación por lo general no está encriptado como parte de la cabecera TS.

Una vez que se conocen los límites del fotograma, los fotogramas-I se pueden detectar también empíricamente. Su tamaño promedio es por lo general mucho mayor que el de los fotogramas-P y fotogramas-B.

Una vez que se ha encontrado el inicio de un fotograma-I, también se encuentra el inicio del siguiente GoP. A partir de ese punto se recogen los tamaños de todos los fotogramas posteriores en un número posibles maneras. En la siguiente descripción se continúa este procedimiento de recogida para un GoP completo hasta que comienza el análisis de los datos recogidos. En otras realizaciones de la invención el periodo de recogida puede tener una longitud diferente.

Primera realización de recogida de datos y observación de patrón

Una serie larga de tamaños de fotogramas

Después de que se haya encontrado el fotograma-I inicial del GoP actual, los tamaños de fotogramas de todos los fotogramas posteriores se almacenan en los elementos de una serie, con el índice de la serie igual al número de fotogramas pasados de dicho fotograma-I. Esto se hace preferentemente hasta que se detecta el siguiente fotograma-I, que señala el final del primer GoP a analizar. La serie de tamaños de fotograma construida de esta manera es la entrada de un procedimiento de correspondencia de patrón que compara esta serie con un conjunto de patrones típicos, y emite un patrón GoP estimado y otros datos cuando sea aplicable.

Si la secuencia de bits analizada no está encriptada, y por lo tanto se conocen los tipos de fotogramas por el algoritmo, los tamaños de fotograma reales se pueden sustituir por valores estandarizados como “1” para fotogramas-B no de referencia, “2” para fotogramas-B de referencia y “4” para fotogramas-P, que sirve para el mismo propósito que los tamaños de fotograma reales, pero no introduce ninguna incertidumbre estadística.

Correspondencia de patrones

En una realización de la invención, la serie de tamaños de fotogramas coincidiría con patrones binarios con “0” para fotogramas-B y “1” para fotogramas-P. El ejemplo de estructuras GoP anterior por lo tanto se correspondería con patrones como:

0, 0, 1, 0, 0, 1 ... (I, b, b, P, b, b, P estructura con GoP abierto)

1, 0, 0, 1, 0, 0 ... (I, b, b, P, b, b, P estructura con GoP cerrado)

0, 0, 0, 1, 0, 0, 0, 1 ... (I, b, B, b, P, b, B, b, P estructura con GoP abierto)

1, 0, 0, 0, 1, 0, 0, 0 ... (I, b, B, b, P, b, B, b, P estructura con GoP cerrado)

En esta realización de la invención, la “serie de tamaños de fotogramas” se convertiría por lo tanto en una serie binaria también. En el caso más sencillo, se usaría un único valor de referencia para sustituir los valores de cada elemento de dicha serie en “0” para “fotograma (o fotogramas) de tamaño pequeño” y “1” para “fotograma (o fotogramas) grandes”. El valor de referencia para decidir entre “grande” y “pequeño” podría ser simplemente el promedio de todos los elementos multiplicado por un factor > 1. En realizaciones alternativas el umbral podría ser el valor de la mediana de todos los elementos de la serie o una combinación ponderada del elemento más pequeño y el más grande u otras combinaciones de los elementos de la serie. También, se podría adoptar el umbral para un número pequeño de valores de tamaño de fotograma. Esto se podría conseguir variando uno de los valores de umbral descritos por un factor o un término aditivo o calculando el umbral únicamente a partir de valores de tamaño de fotograma en una cierta zona del valor actual.

En general puede ser razonable no usar los primeros pocos valores en la serie, debido a que a menudo inmediatamente después de un fotograma-I los fotogramas-B tienen tamaños pequeños irregulares.

Procedimiento de correspondencia

En general la longitud de un GoP no es conocida con antelación. Los valores típicos son un fotograma-I por cada 1 o 2 segundos, dando como resultado una longitud GoP de por ejemplo 25 a 50 fotogramas (o 50 a 100 campos para modos de “codificación por campo”) para la tasa de imágenes típica de 25 fotogramas / seg. Por lo general el codificador tiene una detección de corte de escena y coloca un fotograma-I en cada posición de corte de escena. Por lo tanto, si se encuentran cortes de escena, los GoP pueden tener cualquier tamaño de hasta 2 o incluso 1 fotograma.

A diferencia de la longitud total, los patrones básicos de cada una de las posibles estructuras GoP son constantes y cortos (por ejemplo, 0, 0, 1, para el ejemplo I, b, b, P, …). Para el propósito de correspondencia con los elementos de un GoP completo, estos patrones básicos simples tienen que repetirse hasta que se alcanza el tamaño GoP real.

En realizaciones de la invención en las que se aplica únicamente correspondencia binaria, el procedimiento de correspondencia en sí mismo puede ser una operación simple de “no exclusivo” en cada elemento de la serie convertida de los tamaños de fotograma con los elementos de patrón básicos concatenados. Los resultados de estas operaciones de “no exclusivo” se añaden después a una puntuación de correspondencia del patrón usado. Esto se hace con todos los patrones predefinidos disponibles.

El patrón específico, que obtiene el número de puntuación más alto, se considera la mejor correspondencia y su estructura GoP, estado de fotograma/campo, estado abierto/cerrado asociados se adoptan entonces para un análisis adicional.

Diferenciación entre codificación jerárquica y codificación por fotograma-B convencional

En el caso que se estimen más de dos fotogramas-B consecutivos en el mejor patrón GoP de correspondencia, es probable que la secuencia de los fotogramas se haya codificado con el procedimiento de “Codificación Jerárquica” con fotogramas-B de referencia como se ha mencionado anteriormente. Si este es el caso es probable que estos fotogramas-B de referencia tengan un tamaño de fotograma mayor en bytes que los fotogramas-B no de referencia (anteriormente etiquetados como fotogramas-b).

Para obtener una estimación fiable de si se usa codificación jerárquica o no jerárquica, se puede examinar cada subconjunto de fotogramas-B consecutivo (entre dos fotogramas-P) si los tamaños de fotograma para aquellos elementos en el subconjunto que representan fotogramas-B de referencia son significativamente mayores que todos los demás elementos que representan fotogramas-B en dicho subconjunto. En el caso de 3 fotogramas-B consecutivos este es el primer elemento del subconjunto, en el caso de 5 fotogramas-B consecutivos estos son el primer y el segundo elementos del subconjunto. En el caso de 7 fotogramas-B consecutivos estos son el primer, segundo y tercer elementos del subconjunto (en orden de decodificación). Son muy poco probables otras combinaciones para codificación jerárquica. Se puede suponer codificación jerárquica si esta condición es válida para la magnitud de conjuntos de fotogramas-B consecutivos en un GoP,

Se puede suponer codificación jerárquica para patrones con más de 3 fotogramas-B incluso sin el ensayo descrito, puesto que es extremadamente improbable más de tres fotogramas-B en una serie sin codificación jerárquica.

Aplicando la estructura GoP estimada resultante a los fotogramas de los resultados de GoP siguientes da como resultado una estimación fiable de tipos de fotogramas de estos fotogramas, cuando la secuencia está encriptada o las cabeceras de los fotogramas se han perdido debido a la pérdida de paquetes.

Segunda realización de la recogida de datos y correspondencia de patrón

Multitud de series cortas de tamaños de fotogramas promediados

Puesto que el número BP de posibles patrones básicos es limitado, la invención se podría modificar de modo que fuera exactamente una serie por posible patrón básico en lugar de la única serie como se ha descrito anteriormente. Estas series tendrían el tamaño corto de su patrón básico. Por ejemplo: La serie tendría un tamaño de 3 para la estructura GoP “I, b, b, P” con su patrón 0, 0, 1 para la codificación GoP abierta o 1, 0, 0, para la codificación GoP cerrada.

Sea n el número de fotogramas pasado el fotograma-I inicial. Los valores de tamaño de fotograma promedio se pueden generar en los elementos de cada serie añadiendo los tamaños en bytes de cada fotograma n encontrado en el enésimo elemento n%ArraySize[BP] de cada Array[BP], (significando n % ArraySize[BP] “contador de n/ArraySize[BP]) y contando su número por elemento.

Los fotogramas-P se han añadido exclusivamente con fotogramas-P y los fotogramas-B se han añadido exclusivamente con fotogramas-B únicamente en una serie específica que está asociada a estructura GoP válida. Por lo tanto, únicamente en exactamente esta serie se refleja la relación promedio válida entre fotogramas P y B en sus elementos. Los elementos de todas las otras series contienen una mezcla de tamaños de fotogramas-P y fotogramas-B. Por lo tanto, la relación entre ellos será mucho menos significativa.

El siguiente pseudocódigo aclara cómo el tamaño de fotograma del fotograma n después del fotograma-I inicial se añade a los elementos de dichas series:

Los patrones GoP considerados pueden incluir patrones para codificación basada en fotograma y codificación basada en campo, en la que la última tiene dos veces el número de elementos.

Correspondencia de patrón

Se examinan todos los tamaños de fotograma de por ejemplo un GoP después de que se hayan añadido en las series. En una primera etapa se calcula el tamaño de fotograma promedio en cada elemento de cada serie dividiendo todos los elementos de cada serie por el número de elemento que contiene.

10 Con el propósito de correspondencia, se tienen que diferenciar los dos casos de “codificación GoP abierta” y “codificación GoP cerrada” como se ha descrito anteriormente. Para “codificación GoP cerrada”, el primer elemento de la serie que refleja el patrón GoP válido contendrá todos los tamaños de fotogramas-P promediados, mientras que en la “codificación GoP abierta” el último elemento contiene todos los tamaños de fotogramas-P promediados. El siguiente pseudocódigo resume cómo se obtienen las relaciones para cada posible patrón GoP y para “codificación

15 GoP abierta” (AG) / “codificación GoP cerrada” (CG):

En una etapa adicional, se busca el valor máximo de todos los elementos en OG_Relation[] y CG_Relation[]. El patrón BP que corresponde a este valor máximo es lo que se considera la mejor correspondencia, y su estructura GoP asociada se considera que es la estructura GoP válida de la secuencia de vídeo analizada. También, se

20 considera sus estados de Campo/Fotograma y Abierto/Cerrado que son el estado válido de la secuencia.

La ventaja de esta realización de la invención es la ausencia de cualquier variable predefinida pre-calculada o “calculada sobre la marcha”, que puede servir como valor de referencia, o para cualquier otro propósito. Por lo tanto no se introducen incertidumbres estadísticas adicionales en esta segunda realización del algoritmo.

Diferenciación entre codificación jerárquica y codificación por fotogramas-B convencional

25 En el caso de que se estimen más de dos fotogramas-B consecutivos en la mejor correspondencia de patrón GoP, es probable que la secuencia de fotogramas haya sido codificada con la herramienta de “Codificación Jerárquica” con fotogramas-B de referencia como se ha mencionado anteriormente. Si este es el caso es probable que estos fotogramas-B de referencia tengan un tamaño de fotograma mayor en bytes que los fotogramas-B no de referencia (anteriormente también etiquetados como fotogramas-b).

Para obtener una estimación fiable de si se usa codificación jerárquica o no jerárquica, los elementos de la mejor serie de correspondencia que representan los fotogramas-b no de referencia promediados tienen que compararse con los elementos de la serie que representan los fotogramas-B de referencia promediados. Los últimos elementos deberían ser significativamente mayores que los elementos que representan los fotogramas-B de no de referencia

5 promediados. En el ejemplo con 3 fotogramas-B la serie de correspondencia parecería como:

GoP Abierto: [B], [b], [b], [P] GoP Cerrado: [P], [B], [b], [b]

Aplicando la estructura GoP estimada de esta manera a los fotogramas de los GoP siguientes da como resultado una estimación fiable de estos fotogramas, cuando la secuencia está encriptada, o las cabeceras del fotograma se

10 han perdido debido a pérdida de paquetes.

Aunque la invención ha sido ilustrada y descrita en detalle en los dibujos y en la descripción anterior, tal ilustración y descripción se han de considerar ilustrativas o ejemplares y no restrictivas. Se ha de entender que se pueden realizar cambios y modificaciones por expertos en la materia dentro del alcance de las siguientes reivindicaciones.

Adicionalmente, en las reivindicaciones la palabra “comprendiendo” no excluye otros elementos o etapas, y el

15 artículo indefinido “un” o “una” no excluyen una pluralidad. Una única unidad puede satisfacer las funciones de varias características enumeradas en las reivindicaciones. Los términos, “esencialmente”, “alrededor”, “aproximadamente” y similares en relación con un atributo o valor particularmente también definen exactamente el atributo o exactamente el valor, respectivamente. Cualquier signo de referencia en las reivindicaciones no se debe interpretar como limitante del alcance.

Claims

REIVINDICACIONES

1.

Un procedimiento para estimar el tipo de la estructura del Grupo de Imágenes, GoP, de una pluralidad de fotogramas de vídeo en una secuencia de vídeo estimando sus tipos de fotogramas, que comprende las etapas de:

a) capturar los tamaños de los fotogramas en bytes de cada fotograma de vídeo posterior a un fotograma-Interno inicial, fotograma-I, para obtener una serie de tamaños de fotograma aprovechando las características de la capa de transporte que lleva el fotograma de vídeo; b) convertir, después de un número de fotogramas, la serie de tamaños de fotograma obtenidos en la etapa a) en una serie de ceros y unos, donde cero representa tamaños de fotograma inferiores que un valor de referencia, como se supone para fotogramas bidireccionales, fotogramas-B, y uno representa tamaños de fotograma superiores al valor de referencia, como se supone para los fotogramas predichos, fotogramas-P; c) hacer corresponder la serie binarizada de tamaños de fotograma obtenida en la etapa b) con un número de patrones binarios, representando dichos patrones binarios diferentes estructuras GoP, en las cuales cada patrón binario contiene un patrón binario básico repetido que es característico de la estructura GoP a analizar; d) convertir el resultado de dicha correspondencia en la etapa c) para formar para cada patrón binario un único valor de puntuación; y e) determinar el patrón que tiene el mejor valor de puntuación entre los únicos valores de puntuación de acuerdo con una métrica predefinida que determina la estructura GoP asociada con el patrón.
2.

El procedimiento de la reivindicación 1, en el que en la etapa a) los límites de los fotogramas de vídeo en la secuencia de bits se detectan observando los cambios en ciertas marcas de tiempo de la capa de transporte o por ciertos bits en las estructuras de cabecera que se usan para señalar fotogramas nuevos y decidir fotogramas-Internos a partir de otros fotogramas.
3.

El procedimiento de la reivindicación 1 o 2, en el que en la etapa b) el número de fotogramas comprende todos los fotogramas hasta el siguiente fotograma-I.
4.

El procedimiento de las reivindicaciones 1 a 3, en el que el valor de referencia depende de las características del fotograma de vídeo.
5.

El procedimiento de la reivindicación 4, en el que el valor de referencia depende de los valores de los tamaños de fotograma previamente capturados.
6.

El procedimiento de cualquiera de las reivindicaciones anteriores, en el que dichos patrones binarios básicos representan posibles estructuras GoP para diferentes números de fotogramas-B consecutivos en codificación basada en fotograma, codificación basada en campo, codificación GoP abierta o codificación GoP cerrada.
7.

El procedimiento de cualquiera de las reivindicaciones anteriores, en el que para la correspondencia en la etapa c) los patrones binarios básicos se repiten con un truncamiento del último patrón básico, si el patrón binario de los patrones binarios básicos repetidos no tiene la misma longitud que el número de fotogramas.
8.

El procedimiento de cualquiera de las reivindicaciones anteriores, en el que en la etapa c) la correspondencia se realiza mediante la operación de un elemento exclusivo ni u un elemento exclusivo o, en el que en la etapa d) los resultados de cada ni exclusivo u o exclusivo se añade para formar el único valor de puntuación, y en el que en la etapa e) la métrica predefinida corresponde con el valor máximo o mínimo, respectivamente.
9.

El procedimiento de cualquiera de las reivindicaciones anteriores, en el que en la etapa e) se seleccionan el patrón GoP, el estado campo/fotograma y GoP abierto/GoP cerrado asociados para el patrón que tiene el mejor valor de puntuación como un resultado de estimación para la estructura GoP de las series actuales de fotogramas analizados.
10.

El procedimiento de cualquiera de las reivindicaciones anteriores, en el que se capturan series nuevas de tamaños de fotograma para la estimación de la estructura GoP de los GoP posteriores para cada uno de los GoP posteriores o se usa el promedio de los elementos de las series actual y previa de los tamaños de fotograma.
11.

El procedimiento de la reivindicación 9, en el que después de la estimación del patrón GoP se realiza una clasificación del tipo de fotograma adicional, en la que se examina adicionalmente cada subconjunto de fotogramas-B consecutivo entre dos fotogramas-P en cuanto a la relación de los tamaños de fotogramas en las posiciones en dicho subconjunto representando fotogramas-B de referencia para los tamaños de fotograma de todas las otras posiciones es mayor que un valor umbral, que es mayor de 1, y en el que, si este es el caso para un número significativamente estadístico de dichos subconjuntos de fotogramas-B en la serie de tamaños de fotograma, dichos fotogramas se supone entonces que son fotogramas-B de referencia y la estructura GoP estimada se supone que es una estructura GoP de una llamada secuencia de codificación jerárquica.
12.

Un procedimiento para estimar el tipo de estructuras del Grupo de Imágenes, GoP, de una pluralidad de fotogramas de vídeo en una secuencia de vídeo estimando sus tipos de fotograma, que comprende las etapas de:

a) capturar los tamaños de fotograma en bytes de cada n fotograma de vídeo posterior a un fotograma-I inicial en múltiples series, aprovechando las características de la capa de transporte que lleva la secuencia de vídeo, en donde cada serie de estas múltiples series tiene un tamaño diferente, ArraySize[BP], igual a la longitud del patrón del tipo de fotograma básico, BP, de cada estructura GoP considerada, en donde se añade el tamaño de cada n fotograma en el enésimo % ArraySize[BP] elemento de cada serie, Array[BP], y donde se anota el número de tamaños de fotogramas añadidos a cada elemento de cada serie, que está representado por el siguiente código simbólico:

de modo que únicamente para esa serie específica, que representa la estructura GoP válida de la secuencia de vídeo, siempre se añaden los fotogramas-P con fotogramas-P y los fotogramas-B siempre se añaden con fotogramas-B; b) examinar, después de un cierto número de fotogramas, los contenidos de las múltiples series resultantes para la relación entre los fotogramas-P supuestos y fotogramas-B supuestos tanto en codificación GoP abierta como codificación GoP cerrada, que están ambas están representadas para un patrón básico específico por la misma serie en donde una primera etapa para este examen consiste en una división de cada elemento de cada serie por el número de tamaños de fotograma añadidos en este elemento como se representa en el código simbólico a continuación:

c) calcular la relación entre los fotogramas-P supuestos y los fotogramas-B supuestos promediados para codificación GoP abierta así como para codificación GoP cerrada de todas las series 'BP' de la etapa b), en la que en la etapa c) se producen dos valores de relación por cada serie como se describe a continuación para poder decidir entre codificación GoP abierta y codificación GoP cerrada:

i) si la secuencia de vídeo examinada comprende codificación GoP abierta, el fotograma-P supuesto del patrón básico que representa cada una de las series BP, estaría localizado en el último elemento de dichas series BP y todos los otros elementos de dichas series estarían ocupados por fotogramas-B de modo que se calcula la relación RA para secuencias de codificación GoP abiertas como el último elemento de la serie divido por el promedio de todos los demás elementos de la serie, con el código simbólico:

RA [BP] = Array[BP][ArraySize[BP]-1] / (Σ Array[BP][i] / [ArraySize[BP]-1]) with i = 0 ... ArraySize[BP]-2

o

ii) si la secuencia de vídeo examinada comprende codificación GoP cerrada, el fotograma-P supuesto del patrón básico que representa cada una de las series BP, está localizado en el primer elemento de dichas series BP y todos los otros elementos de dichas series estarían ocupados por fotogramas-B de modo que la relación Rc para secuencias de codificación GoP cerradas se calcula como el primer elemento de la serie dividido por el promedio de todos los demás elementos de la serie, con el siguiente código simbólico:

Rc [BP] = Array[BP][0] / (Σ Array[BP][i] / [ArraySize[BP]-1]) with i = 1 ... ArraySize[BP]-1

d) determinar la serie particular, que tiene la mayor relación entre los fotogramas-P supuestos y los fotogramas-B supuestos promediados entre todas las relaciones calculadas para codificación GoP abierta y codificación GoP cerrada, y determinar la estructura GoP asociada con la serie particular.
13. El procedimiento de la reivindicación 12, en el que el número n de fotogramas, comprende todos los fotogramas 5 hasta el siguiente fotograma-Interno.
14.

El procedimiento de cualquiera de las reivindicaciones 12 a 13, en el que se elige la estructura GoP asociada con la serie determinada de acuerdo con la etapa d) para que sea la estimación válida del patrón GoP, estado campo/fotograma y GoP abierto/GoP cerrado de las series de fotogramas analizadas actualmente.
15.

El procedimiento de la reivindicación 14, en el que después de la estimación del patrón GoP se realiza una

10 clasificación del tipo de fotograma adicional en la que se examina el subconjunto de fotogramas-B en la serie que representa la estructura GoP estimada de acuerdo con la etapa d) en cuanto si a la relación de tamaños de fotograma en las posiciones en dicho subconjunto que representa fotogramas-B de referencia a tamaños de fotograma en todas las otras posiciones es mayor que un valor umbral, que es mayor de 1, y en el que, si este es el caso, dichos fotogramas se supone que son entonces fotogramas-B de referencia y la estructura GoP estimada se

15 supone que es una estructura GoP de una llamada secuencia de codificación jerárquica.
16. El procedimiento de cualquiera de las reivindicaciones 1 a 15, que comprende adicionalmente la etapa de usar la estructura GoP estimada como una estimación para las estructuras GoP siguientes, y usar esta estructura GoP estimada como ayuda para detectar pérdidas de fotogramas de vídeo debido a pérdidas de paquetes, o para etiquetar pérdidas o presentar fotogramas con su tipo de fotograma específico.