ES2936089T3

ES2936089T3 - Control de intensidad del sonido para interacción del usuario en sistemas de codificación de audio

Info

Publication number: ES2936089T3
Application number: ES16730766T
Authority: ES
Inventors: Fabian Küch; Christian Uhle; Michael Kratschmer; Bernhard Neugebauer; Michael Meier
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-06-17
Filing date: 2016-06-09
Publication date: 2023-03-14
Anticipated expiration: 2036-06-09
Also published as: US20220291896A1; AU2021290313A1; JP2018524630A; US20190265944A1; US20180143799A1; WO2016202682A1; JP6838093B2; CA2988645A1; AR123136A2; PL3311379T3; AU2019246882B2; AU2019246882A1; AR123139A2; KR20180018761A; CN107820711A; CN112291699B; KR102122004B1; BR112017026915B1; MY181475A; JP2023062138A

Abstract

Un procesador de audio para procesar una señal de audio (100), comprende: un modificador de señal de audio (2) para modificar la señal de audio (100) en respuesta a una entrada del usuario (200); un controlador de sonoridad (6) para determinar una ganancia de compensación de sonoridad (C) basada en una sonoridad de referencia (Lref) o una ganancia de referencia (gi) y una sonoridad modificada (Lmod) o una ganancia modificada (hi), donde la sonoridad modificada (Lmod) o la ganancia modificada (hi) depende de la entrada del usuario; y un manipulador de sonoridad (5) para manipular la sonoridad de una señal (101) utilizando la ganancia de compensación de sonoridad (C). (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Control de intensidad del sonido para interacción del usuario en sistemas de codificación de audio

[0001] La invención se refiere a un procesador de audio y a un codificador de audio. La invención se refiere también a los procedimientos correspondientes.

[0002] Los sistemas modernos de codificación de audio no solo proporcionan medios para transmitir de manera eficaz contenido de audio en una representación en base a canal de altavoz que simplemente se reproduce del lado del decodificador. También incluyen características más avanzadas que permiten que los usuarios interactúen con el contenido y, de este modo, influyan sobre cómo se reproduce el audio y cómo se renderiza en el decodificador. Esto permite nuevos tipos de experiencias de usuario en comparación con los sistemas de codificación de audio heredados.

[0003] Un ejemplo de sistema de codificación de audio avanzado es la norma MPEG-H 3D Audio (J. Herre y col., “MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding”, 137a convención de la AES (por sus siglas en inglés, Asociación de Ingenieros de Sonido), 2014, Los Ángeles). Permite una transmisión de contenido de audio inmersivo en tres formatos distintos, en base a canal, en base a objeto y en base a escena usando Ambifonía de Orden Superior (HOA, por sus siglas en inglés). Se ha diseñado para ofrecer nuevas capacidades tales como la interacción con el usuario para la personalización y adaptación del audio para distintos escenarios de uso.

[0004] Las tres categorías distintas de formatos de contenido pueden describirse de la siguiente manera:

- En base a canal: Tradicionalmente, el contenido de audio espacial (comenzando con el simple estéreo de dos canales) se ha entregado como un conjunto de señales de canal que son designadas para ser reproducidas por altavoces en una ubicación objetivo fija, definida con precisión, en relación con el oyente.

- En base a objeto: Los objetos de audio son señales que deben reproducirse de manera que se originen desde una ubicación objetivo especificada por información secundaria asociada proporcionada como metadatos junto con el audio. A diferencia de las señales de canal, la colocación real de los objetos de audio puede variar con el tiempo y no necesariamente se predefine durante el proceso de producción de sonido sino que se la renderiza a la configuración del altavoz objetivo en el momento de la reproducción. Esto puede incluir también la interacción del usuario en la ubicación o el nivel de un objeto o grupos de objetos.

- Ambifonía de Orden Superior (HOA) es una estrategia alternativa para capturar un campo de sonido 3D

- transmitiendo una cantidad de “señales de coeficiente” que no tienen una relación directa con los canales u objetos. Las señales de audio reales para la reproducción se generan en el decodificador teniendo en cuenta la configuración dada del altavoz.

[0005] Un procedimiento para la compensación de intensidad del sonido (loudness) también llamada “sonoridad”, en los sistemas de codificación de audio en base a objeto que incluyen la interacción del usuario se ha presentado en el documento EP 2879 131 A1. Un decodificador recibe una señal de entrada de audio que comprende señales de objeto de audio y genera una señal de salida de audio. Un procesador de señales determina un valor de compensación de intensidad del sonido para la señal de salida de audio sobre la base de información de intensidad del sonido asociada con la señal de entrada de audio y sobre la base de información de renderización. La información de renderización indica si una o más de las señales de objeto de audio deben amplificarse o atenuarse y pueden ajustarse de acuerdo al deseo de un usuario.

[0006] El documento WO 2014/165326 A1 describe procedimientos y sistemas para la renderización interactiva de audio basada en objetos. La renderización de objetos de audio indicados por el programa puede proporcionar una experiencia inmersiva. El contenido de audio del programa puede ser indicativo de múltiples canales de objetos y una cama de canales de altavoces.

[0007] La contribución de entrada de impacto M33224 aportada a MPEG el 20 de marzo de 2014 describe casos de uso de interacción de objetos y tecnología.

[0008] El documento US 2012/057715 A1 describe la codificación y reproducción de audio espacial. En particular, un procedimiento y un aparato procesan audio multicanal mediante la codificación, transmisión o grabación de pistas de audio "secas" o "raíces" en relación sincrónica con metadatos variables en el tiempo controlados por un productor de contenido y que representan un grado y una calidad de difusión deseados.

[0009] El documento WO 2008/111770 A1 describe un procedimiento y un aparato para procesar una señal de audio. Se reciben una señal de mezcla descendente, información de objeto e información preestablecida, y se genera información de procesamiento de mezcla descendente usando la información de objeto y la información preestablecida y, finalmente, se genera información multicanal usando la información de objeto y la información preestablecida.

[0010] El documento WO 2015/038522 A1 describe el ajuste de intensidad del sonido para contenido de audio de mezcla descendente. El contenido de audio codificado para una configuración de altavoces de referencia se mezcla de manera descendente para mezclar de manera descendente el contenido de audio codificado para una configuración de altavoces específica. Se realizan uno o más ajustes de ganancia en partes individuales del contenido de audio de mezcla descendente codificado para la configuración de altavoz específica. A continuación, se realizan mediciones de intensidad del sonido en las partes individuales del contenido de audio de mezcla descendente. Se genera una señal de audio que comprende el contenido de audio codificado para la configuración de altavoces de referencia y los metadatos de intensidad del sonido de mezcla descendente.

[0011] El documento de la Convención AES 9097 del 9 de octubre de 2014, "Design, Coding and Processing of Metadata for Object-Based Interactive Audio", S. Füg y col. describe una definición adecuada de metadatos para garantizar una reproducción flexible en cualquier escenario de reproducción. Se describen casos de uso importantes para la interactividad de audio y basada en objetos y se derivan los requisitos para los metadatos.

[0012] El documento WO 2014/114781 A1 describe un procedimiento y un aparato para la reproducción de audio normalizada de medios con y sin metadatos de intensidad del sonido incorporados en nuevos dispositivos de medios. El flujo de bits comprende datos de audio y, opcionalmente, metadatos de intensidad del sonido que contienen un valor de intensidad del sonido de referencia. El dispositivo decodificador comprende un decodificador de audio y un procesador de señal, donde el procesador de señal comprende un dispositivo de control de ganancia configurado para ajustar un nivel de la señal de salida de audio.

[0013] El documento WO 2008/100119 A1 describe un procedimiento para crear, editar y reproducir archivos de contenido de audio de múltiples objetos para un servicio de audio basado en objetos y un procedimiento para crear preajustes de audio.

[0014] El documento EP 2083585 A1 describe un procedimiento y un aparato para procesar una señal de audio. Se reciben la señal de audio y la información preestablecida. Además, se obtiene una matriz preestablecida a partir de la información preestablecida, donde la matriz preestablecida indica el grado de contribución del objeto al canal de salida. Además, se ajusta un nivel de salida del objeto utilizando la matriz preestablecida.

[0015] El documento WO 2013/006338 A2 describe un sistema y un procedimiento para la generación, codificación y renderización de señales de audio adaptables. Uno o más flujos de audio monofónicos independientes tienen asociados metadatos que especifican si el flujo es un flujo basado en canales o basado en objetos. Los flujos basados en canales tienen información de renderización codificada por medio del nombre del canal, y los flujos basados en objetos tienen información de ubicación codificada a través de expresiones de ubicación codificadas en los metadatos asociados.

[0016] Un objeto de la invención es mejorar la probabilidad de compensación de intensidad del sonido.

[0017] El objeto se logra mediante un procesador de audio y un procedimiento correspondiente para procesar una señal de audio según las reivindicaciones independientes 1 y 22.

[0018] El procesador de audio, o decodificador o aparato para procesar una señal de audio recibe una señal de audio y genera en una realización una señal de salida que comprende los objetos de audio y los elementos de audio, etc. de la señal de audio que se van a reproducir, por ejemplo, por los altavoces o los auriculares o que se van a almacenar en un medio, etc.

[0019] El procesador de audio reacciona ante la entrada de un usuario mediante un modificador de señal de audio que está configurado para modificar la señal de audio en respuesta a la entrada de un usuario. La entrada del usuario se refiere en una realización a una amplificación o una atenuación de un grupo y/o a desactivar un grupo o a activar un grupo. Los grupos comprenden uno o más elementos de audio, por ejemplo objetos de audio, canales, objetos o componentes de HOA. La entrada del usuario también se refiere a, dependiendo de la realización, datos relacionados con la configuración de reproducción usada para la reproducción de la señal. Otra entrada de usuario se refiere a una selección de una preselección. Una preselección se refiere a una selección de al menos un grupo y especifica -dependiendo de la realización- valores de intensidad del sonido de grupo específicamente medidos y/o valores de ganancia para los grupos respectivos. La entrada del usuario es usada por el modificador de señal de audio para modificar de manera apropiada la señal de audio. En una realización, los metadatos comprenden datos que pertenecen a una pluralidad de preselecciones.

[0020] La preselección se refiere en una realización a una selección de un grupo y define en una realización distinta los grupos que no pertenecen a la preselección.

[0021] El procesador de audio comprende también un controlador de intensidad del sonido que está configurado para determinar una ganancia de compensación de intensidad del sonido. La ganancia de compensación de intensidad del sonido, aquí llamada C permite contrapesar el efecto de la entrada del usuario con el fin de proporcionar una señal con una intensidad del sonido general según lo requiera o lo fije el usuario. La ganancia de compensación de intensidad del sonido se determina sobre la base de, por un lado, una intensidad del sonido de referencia o una ganancia de referencia y, por otro lado, una intensidad del sonido modificada o una ganancia modificada. De este modo, la ganancia de compensación de intensidad del sonido se determina sobre la base de una intensidad del sonido de referencia o una ganancia de referencia y una intensidad del sonido modificada o una ganancia modificada. La intensidad del sonido modificada o la ganancia modificada dependen de la entrada del usuario.

[0022] El controlador de intensidad del sonido está configurado además para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio. Los metadatos que están asociados con la señal de audio transportan información sobre la señal de audio y los grupos individuales y en una realización están compuestos por la señal de audio en sí.

[0023] Los datos de los metadatos de la realización aquí expuesta del procesador de audio indican si un grupo, especialmente compuesto por la señal de audio, debe usarse -por ejemplo debe considerarse- o no debe usarse, por ejemplo debe omitirse, para determinar la ganancia de compensación de intensidad del sonido. Por consiguiente, la información acerca de los grupos correspondientes se considera o se omite para determinar la ganancia de compensación de intensidad del sonido. En al menos una realización, que un grupo o grupos sea/sean considerado/s u omitido/s depende además de la entrada del usuario.

[0024] En una realización, considerar u omitir grupos incluye también considerarlos u omitirlos parcialmente en el sentido de que los grupos y sus valores respectivos solo se usan para una parte de la determinación de la ganancia de compensación de intensidad del sonido, por ejemplo solo para el cálculo de la intensidad del sonido de referencia o modificada.

[0025] La ganancia de compensación de intensidad del sonido es usada por un manipulador de intensidad del sonido compuesto por el procesador de audio. El manipulador de intensidad del sonido manipula una intensidad del sonido de una señal usando la ganancia de compensación de intensidad del sonido. La ganancia de compensación de intensidad del sonido aplicada no solo se ve afectada por la entrada del usuario sino que es también el resultado de los datos de los metadatos asociados con o incluso pertenecientes a la señal de audio.

[0026] La señal manipulada por el manipulador de intensidad del sonido es, según una realización, una señal de salida proporcionada por el procesador de audio y sobre la base de la señal de audio. El manipulador de intensidad del sonido en esta realización proporciona las señales de salida y manipula la intensidad del sonido de la señal de salida usando la ganancia de compensación de intensidad del sonido.

[0027] En una realización diferente, el manipulador de intensidad del sonido manipula una intensidad del sonido de una señal proporcionada al manipulador de intensidad del sonido y preferentemente ya modificada según la entrada del usuario. En esta realización, una parte del procesador de audio proporciona o genera una señal que se envía al manipulador de intensidad del sonido y se procesa consecuentemente, es decir, se modifica con respecto a su intensidad del sonido por el manipulador de intensidad del sonido.

[0028] En otra realización, la señal cuya intensidad del sonido es manipulada por el manipulador de intensidad del sonido es la señal de audio. En este caso, el manipulador de intensidad del sonido modifica los metadatos de la señal de audio mediante la modificación. Esta realización está asociada con otra realización, en la cual el procesador de audio proporciona una señal de audio modificada. La señal de audio modificada se modifica según la entrada del usuario y según la modificación de la intensidad del sonido. Esta señal de audio modificada es más tarde también un flujo de bits.

[0029] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de al menos una bandera compuesta por los datos de los metadatos, donde la bandera indica si un grupo debe considerarse o cómo debe considerarse para determinar la ganancia de compensación de intensidad del sonido. En esta realización, los metadatos comprenden banderas que tienen, por ejemplo, un valor ya sea “verdadero” o “falso” que indica si un grupo asociado debe considerarse para calcular la ganancia de compensación de intensidad del sonido o no, respectivamente. La consideración de un grupo se refiere también, en una realización, a la pregunta de para qué etapa del cálculo debe usarse el grupo. Esto se refiere, por ejemplo, al cálculo de la intensidad del sonido de referencia y la intensidad del sonido modificada. La intensidad del sonido de referencia y la intensidad del sonido modificada son las intensidades del sonido generales calculadas antes y después de la consideración de la entrada del usuario, respectivamente. La bandera indica, en otra realización, que el grupo correspondiente está presente solo durante un corto intervalo y, de este modo, puede omitirse para determinar la ganancia de compensación de intensidad del sonido.

[0030] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para usar solamente grupos para determinar la ganancia de compensación de intensidad del sonido cuando los grupos pertenecen a un ancla compuesta por los metadatos de la señal de audio. El ancla se refiere, en una realización, por ejemplo, a elementos de audio que pertenecen a voces, diálogos o efectos especiales de sonido.

[0031] El manejo de los grupos que pertenecen a un ancla se elabora con más detalle en las siguientes realizaciones.

[0032] En una realización, el controlador de intensidad del sonido está configurado para usar solo los grupos que pertenecen al ancla para determinar la ganancia de compensación de intensidad del sonido cuando la ganancia modificada de al menos un grupo que pertenece al ancla es mayor que la ganancia de referencia correspondiente. De este modo, solo los grupos del ancla se usan para el cálculo de la ganancia de compensación de intensidad del sonido cuando el valor de ganancia de al menos un grupo de estos “grupos de anclaje” aumenta debido a la entrada del usuario, es decir cuando el usuario amplificó al menos uno de estos grupos.

[0033] En una realización alternativa o complementaria, el controlador de intensidad del sonido está configurado para usar grupos que pertenecen al ancla y grupos que faltan del ancla para determinar la ganancia de compensación de intensidad del sonido cuando la ganancia modificada de al menos un grupo que pertenece al ancla es menor que la ganancia de referencia correspondiente. De este modo, en esta realización, no solo los grupos que pertenecen al ancla sino también grupos que no pertenecen al ancla se usan para el cálculo, cuando el valor de ganancia de al menos un grupo de anclaje disminuye debido a la entrada del usuario.

[0034] En una realización, se combinan las dos realizaciones anteriores. De este modo, el cambio de la ganancia de al menos un grupo que pertenece al ancla determina si se usan solamente grupos de anclaje o grupos de anclaje y grupos que no son de anclaje para determinar la ganancia de compensación de intensidad del sonido.

[0035] El objeto se alcanza también mediante un procesador de audio y un procedimiento correspondiente para procesar una señal de audio según las reivindicaciones independientes 20 y 23.

[0036] Para la descripción general del procesador de audio, véase la exposición anterior.

[0037] El controlador de intensidad del sonido del procesador de audio se refiere a datos de los metadatos asociados con o que pertenecen a la señal de audio. Los datos se refieren a una preselección, donde la preselección se refiere a una selección de al menos un grupo que comprende uno o más elementos de audio. En esta realización, se toma en cuenta el caso en que combinaciones de grupos están asociadas con valores específicos de intensidad del sonido y/o ganancia para una preselección específica. Por lo tanto, los metadatos comprenden datos para los grupos dependiendo de distintas preselecciones o al menos de una preselección predeterminada. Por consiguiente, el controlador de intensidad del sonido usa los datos que están asociados con una preselección elegida por el usuario o que es una preselección predeterminada.

[0038] El procesador de audio está configurado, en una realización, según al menos una de las realizaciones anteriores. Por lo tanto, las realizaciones expuestas más arriba también se realizan al menos parcialmente con el procesador de audio antes mencionado.

[0039] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de valores de intensidades del sonido y/o ganancia de grupo de al menos un grupo de la selección a la que se refiere la preselección. La preselección se refiere a una selección específica de grupos de elementos de audio compuestos por la señal de audio. Para estos grupos, los metadatos contienen datos específicos -es decir valores de intensidades del sonido y/o ganancia de grupo- que se usarán para la determinación de la ganancia de compensación de intensidad del sonido cuando la preselección correspondiente se elige o se establece como una preselección predeterminada.

[0040] En otra realización, el controlador de intensidad del sonido está configurado para determinar la intensidad del sonido de referencia para la selección a la que se refiere la preselección usando las respectivas intensidades del sonido de grupo y los respectivos valores de ganancia. El controlador de intensidad del sonido está configurado también para determinar la intensidad del sonido modificada para la selección a la que se refiere la preselección usando las respectivas intensidades del sonido de grupo y los respectivos valores de ganancia modificada. Los valores de ganancia modificada son modificados por la entrada del usuario. En esta realización, la intensidad del sonido de referencia y la intensidad del sonido modificada se determinan sobre la base de los valores asociados con una preselección y para los grupos que pertenecen a la preselección. La determinación también tiene en cuenta la indicación de si los grupos deben usarse y cómo deben usarse -por ejemplo para la determinación de la intensidad del sonido de referencia o modificada.

[0041] En otra realización, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de datos compuestos por los metadatos de la señal de audio en referencia a una preselección elegida y donde la preselección es seleccionada por la entrada del usuario. En esta realización, la preselección es elegida por el usuario mediante la entrada del usuario.

[0042] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de datos compuestos por los metadatos de la señal de audio en referencia a una preselección predeterminada. La preselección predeterminada se fija antes de, o independientemente de, la entrada de un usuario. Esta realización maneja la situación en que un usuario no elige una preselección. Para esto, se usa una preselección predeterminada, por ejemplo antes de cualquier entrada de usuario para garantizar que aún sin una interacción del usuario, se use una selección de datos -abarcando aquí una preselección predeterminada- para determinar la ganancia de compensación de intensidad del sonido.

[0043] El objeto se alcanza también mediante un procesador de audio para procesar una señal de audio, que comprende: un modificador de señal de audio, donde el modificador de señal de audio está configurado para modificar la señal de audio en respuesta a la entrada de un usuario; un controlador de intensidad del sonido, donde el controlador de intensidad del sonido está configurado para determinar una ganancia de compensación de intensidad del sonido sobre la base de, por un lado, una intensidad del sonido de referencia o una ganancia de referencia y, por el otro lado, una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario, donde el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio que indican si un grupo se desactiva o se activa, donde el grupo comprende uno o más elementos de audio; y un manipulador de intensidad del sonido, donde el manipulador de intensidad del sonido está configurado para manipular una intensidad del sonido de una señal usando la ganancia de compensación de intensidad del sonido.

[0044] Para la descripción general del procesador de audio de esta realización, véase la exposición anterior.

[0045] El controlador de intensidad del sonido está configurado aquí para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio que indican si un grupo se desactiva o se activa. En un ejemplo, la señal de audio puede comprender como objetos de audio distintas pistas sonoras que pertenecen a distintas versiones de idioma de una película. Las preselecciones también pueden referirse a distintas versiones de idioma. Por lo tanto, en las distintas preselecciones una pista sonora de un idioma se activará mientras que las otras versiones se desactivarán. Este ejemplo también muestra que el usuario puede cambiar entre las distintas versiones de idioma activando una versión de idioma deseada y disponible y, de este modo, desactivando la pista sonora asociada con una preselección predeterminada. No obstante, activar un grupo no siempre implica desactivar otro grupo y viceversa.

[0046] El procesador de audio está configurado, en una realización, según al menos una de las realizaciones anteriores.

[0047] El procesador de audio está configurado, en una realización, según al menos una de las realizaciones anteriores. Por lo tanto, las realizaciones expuestas más arriba también se realizan al menos parcialmente con el procesador de audio antes mencionado. Esto también cuenta al revés ya que un procesador de audio expuesto más arriba se realiza en al menos una realización teniendo en cuenta las siguientes realizaciones.

[0048] Según una realización, el controlador de intensidad del sonido determina la ganancia de compensación de intensidad del sonido sobre la base de la entrada del usuario dependiendo de si un grupo es desactivado o activado por la entrada del usuario. Aquí, la interacción del usuario afecta a la determinación de la ganancia del controlador de intensidad del sonido.

[0049] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para descartar un grupo para determinar la intensidad del sonido modificada cuando el grupo se desactiva en respuesta a la entrada del usuario. Si el usuario desactiva un grupo, en esta realización, el grupo no se usa para determinar la intensidad del sonido modificada que resulta de los valores de intensidad del sonido que representan los deseos del usuario.

[0050] En otra realización, el controlador de intensidad del sonido está configurado para descartar un grupo para determinar la intensidad del sonido de referencia cuando el grupo es desactivado en los metadatos y para incluir el grupo para determinar la intensidad del sonido modificada cuando el grupo es activado por la entrada del usuario. En esta realización, un grupo se desactiva en los metadatos y no se usa para determinar la intensidad del sonido de referencia. Si el usuario activa el grupo, este se incluye para la evaluación de la intensidad del sonido modificada.

[0051] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para incluir un grupo para determinar la intensidad del sonido de referencia cuando el grupo se activa en los metadatos y para excluir el grupo para determinar la intensidad del sonido modificada cuando el grupo es desactivado por la entrada del usuario. En esta realización, se tiene en cuenta el caso opuesto de la realización anterior.

[0052] El objeto se alcanza también mediante un procesador de audio para procesar una señal de audio, que comprende: un modificador de señal de audio, donde el modificador de señal de audio está configurado para modificar la señal de audio en respuesta a la entrada de un usuario; un controlador de intensidad del sonido, donde el controlador de intensidad del sonido está configurado para determinar una ganancia de compensación de intensidad del sonido sobre la base de, por un lado, una intensidad del sonido de referencia o una ganancia de referencia y, por el otro lado, una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario, donde el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio con al menos la intensidad del sonido de un grupo que falta en los metadatos de un grupo compuesto por la señal de audio; y un manipulador de intensidad del sonido, donde el manipulador de intensidad del sonido está configurado para manipular una intensidad del sonido de una señal usando la ganancia de compensación de intensidad del sonido.

[0053] Para la descripción general del procesador de audio de esta realización, véase la exposición anterior.

[0054] En este procesador de audio (o decodificador), el controlador de intensidad del sonido tiene en cuenta la situación en la cual para un grupo presente dentro de la señal de audio, falta la correspondiente intensidad del sonido de grupo. La intensidad del sonido de grupo puede faltar para una preselección específica o configuración de reproducción y, por ende, uno o los metadatos pueden estar completamente vacíos de cualquier intensidad del sonido de grupo para este grupo.

[0055] El procesador de audio está configurado, en una realización, según al menos una de las realizaciones anteriores. Por lo tanto, las realizaciones expuestas más arriba también se realizan al menos parcialmente con el procesador de audio antes mencionado. Esto también cuenta al revés ya que un procesador de audio expuesto más arriba se realiza en al menos una realización teniendo en cuenta las siguientes realizaciones.

[0056] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para calcular la intensidad del sonido de grupo que falta usando una intensidad del sonido de una preselección, la ganancia de referencia del grupo con intensidad del sonido de grupo que falta así como también las intensidades del sonido de grupo y las ganancias de referencia para los grupos que tienen una intensidad del sonido de grupo. La intensidad del sonido de la preselección es la intensidad del sonido general de los grupos de la preselección.

[0057] En otra realización, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido en el caso en que a los metadatos de la señal de audio les falte al menos una intensidad del sonido de grupo para una compensación de intensidad del sonido ciega usando solamente al menos una ganancia de referencia y al menos una ganancia modificada. En esta realización, el caso de al menos una intensidad del sonido de grupo que falta se maneja de manera idéntica al caso de que falten todas las intensidades del sonido de grupo.

[0058] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido en el caso de que los metadatos de la señal de audio carezcan de intensidades del sonido de grupo para una compensación de intensidad del sonido ciega usando solamente al menos una ganancia de referencia y al menos una ganancia modificada.

[0059] El objeto se alcanza también mediante un procesador de audio para procesar una señal de audio, que comprende: un modificador de señal de audio, donde el modificador de señal de audio está configurado para modificar la señal de audio en respuesta a la entrada de un usuario; un controlador de intensidad del sonido, donde el controlador de intensidad del sonido está configurado para determinar una ganancia de compensación de intensidad del sonido sobre la base de, por un lado, una intensidad del sonido de referencia o una ganancia de referencia y, por el otro lado, una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario, donde el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio en referencia a una configuración de reproducción para una reproducción de la señal; y un manipulador de intensidad del sonido, donde el manipulador de intensidad del sonido está configurado para manipular una intensidad del sonido de una señal usando la ganancia de compensación de intensidad del sonido.

[0060] Para la descripción general del procesador de audio de esta realización, véase la exposición anterior.

[0061] El procesador de audio determina la ganancia de compensación de intensidad del sonido sobre la base de datos que se refieren a una configuración de reproducción específica. Los metadatos asociados con y, en una realización, compuestos por la señal de audio, por consiguiente, contienen datos especificados para al menos una configuración de reproducción. En una realización, para cada configuración de reproducción, los metadatos contienen datos correspondientes a la reproducción respectiva -o configuración de - reproducción.

[0062] El procesador de audio está configurado, en una realización, según al menos una de las realizaciones anteriores. Por lo tanto, este procesador de audio, en una realización, está combinado con al menos una de las realizaciones anteriores.

[0063] Según una realización del procesador de audio, el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de los datos de los metadatos que se refieren a una configuración de reproducción y que comprenden intensidades del sonido de grupo asociadas y/o valores de ganancia de referencia. Por lo tanto, las distintas configuraciones de reproducción están asociadas con distintos valores de ganancia y/o intensidades del sonido de grupo para los respectivos grupos.

[0064] En una realización, los metadatos comprenden datos para distintas preselecciones y distintas configuraciones de reproducción.

[0065] En otra realización, el procesador de audio comprende un conversor de configuración para convertir datos compuestos por los metadatos y que se refieren a la configuración de reproducción en datos que se refieren a una configuración de reproducción actual, donde el controlador de intensidad del sonido está configurado para determinar la ganancia de compensación de intensidad del sonido usando datos proporcionados por el conversor de configuración. En esta realización, el procesador de audio tiene en cuenta la situación en que la configuración de reproducción actual para la reproducción de la señal difiere de las configuraciones de reproducción proporcionadas por los metadatos. Por lo tanto, los datos de los metadatos se convierten con el fin de adaptarse a la configuración de reproducción actual y los datos convertidos se usan para la determinación de la ganancia de compensación de intensidad del sonido.

[0066] En una realización, el procesador de audio comprende un conversor de formato para convertir una señal en una configuración de reproducción predefinida. En otra realización, el controlador de intensidad del sonido está configurado para seleccionar el valor específico de intensidad del sonido para la configuración de reproducción específica usada por el conversor de formato.

[0067] Las siguientes realizaciones pueden realizarse con cualquiera de las realizaciones anteriores.

[0068] En una realización, la señal de audio comprende un flujo de bits con los metadatos y los metadatos comprenden la ganancia de referencia para al menos un grupo.

[0069] Según una realización del procesador de audio, los metadatos de la señal de audio comprenden una intensidad del sonido de grupo para al menos un grupo. En otra realización, los metadatos comprenden intensidades del sonido de grupo para una pluralidad de grupos que pertenecen a la señal de audio.

[0070] En otra realización, el controlador de intensidad del sonido está configurado para determinar la intensidad del sonido de referencia para al menos un grupo usando la intensidad del sonido de grupo y el valor de ganancia para el al menos un grupo, donde el controlador de intensidad del sonido está configurado para determinar la intensidad del sonido modificada para el al menos un grupo usando la intensidad del sonido de grupo y el valor de ganancia modificada, y donde el valor de ganancia modificada es modificado por la entrada del usuario.

[0071] En una realización, el controlador de intensidad del sonido está configurado para determinar la intensidad del sonido de referencia - llamada Lref - para una pluralidad de grupos usando las respectivas intensidades del sonido de grupo -llamadas L - y los valores de ganancia -llamados g— para los grupos. Además, el controlador de intensidad del sonido está configurado para determinar la intensidad del sonido modificada -llamada Lmod- para una pluralidad de grupos usando la respectiva intensidad del sonido de grupo Li y los valores de ganancia modificada -llamados hi- para los grupos. En una realización, las dos pluralidades de grupos son idénticas y en una realización distinta, diferentes. Las pluralidades dependen también de los respectivos datos de los metadatos.

[0072] En una realización adicional, el controlador de intensidad del sonido está configurado para realizar una operación de limitación sobre la ganancia de compensación de intensidad del sonido de manera que la ganancia de compensación de intensidad del sonido sea menor que un umbral superior y/o de manera que la ganancia de compensación de intensidad del sonido sea mayor que un umbral inferior.

[0073] Según una realización del procesador de audio, el manipulador de intensidad del sonido está configurado para aplicar una ganancia corregida a una señal determinada por la ganancia de compensación de intensidad del sonido y por una ganancia de normalización determinada por un nivel de intensidad del sonido objetivo establecido por la entrada del usuario y un nivel de intensidad del sonido de metadatos compuesto por los metadatos de la señal de audio. En una realización, la ganancia de normalización se determina usando la relación del nivel de intensidad del sonido de los respectivos grupos de la señal de audio y el nivel de intensidad del sonido establecido por el usuario para que lo experimente el usuario para la reproducción de la señal de audio.

[0074] Las realizaciones anteriores de procesadores de audio permiten una compensación de intensidad del sonido tras la entrada de un usuario. La compensación de intensidad del sonido se mejora considerando los datos que describen los grupos de la señal de audio y su relevancia o tipo de uso para la compensación de intensidad del sonido. La información sobre los grupos mejora la compensación de intensidad del sonido.

[0075] Las realizaciones anteriores se refieren a un procesador de audio o a un decodificador de audio. A continuación, se expondrá un codificador que proporciona la señal de audio con metadatos asociados o incluso comprendidos para ser usados por un procesador de audio.

[0076] El objeto se alcanza mediante un codificador de audio para generar una señal de audio que comprende metadatos. El codificador de audio que comprende: un determinador de intensidad del sonido para determinar un valor de intensidad del sonido para al menos un grupo que tiene uno o más elementos de audio; y un escritor de metadatos para introducir el valor de intensidad del sonido determinado como una intensidad del sonido de grupo en los metadatos.

[0077] Según una realización del codificador de audio, el determinador de intensidad del sonido está configurado para determinar distintos valores de intensidad del sonido y/o distintos valores de ganancia para distintas configuraciones de reproducción, donde el escritor de metadatos está configurado para introducir los distintos valores de intensidad del sonido determinados y/o los distintos valores de ganancia junto con la respectiva configuración de reproducción en los metadatos. En esta realización, los metadatos contienen distintos datos para los grupos en cuestión para distintas configuraciones de reproducción, mejorando de este modo la reproducción de los grupos de la señal de audio.

[0078] En una realización, el determinador de intensidad del sonido está configurado para determinar distintos valores de intensidad del sonido y/o distintos valores de ganancia para distintas preselecciones que se refieren a selecciones de al menos un grupo que comprende uno o más elementos de audio. Además, el escritor de metadatos está configurado para introducir los distintos valores de intensidad del sonido determinados y/o distintos valores de ganancia junto con la preselección respectiva en los metadatos. En esta realización, las preselecciones se refieren a selecciones específicas de grupos que están asociadas con intensidades del sonido de grupo específicas y/o valores de ganancia de referencia.

[0079] En otra realización, el codificador de audio comprende también un controlador, donde el controlador está configurado para determinar qué grupo debe usarse para determinar una ganancia de compensación de intensidad del sonido o debe omitirse, y donde el escritor de metadatos está configurado para escribir una indicación en los metadatos que indique qué grupo debe usarse o debe omitirse para determinar la ganancia de compensación de intensidad del sonido. En una realización, la indicación es una bandera. En algunas realizaciones, la indicación se refiere a preselecciones, configuraciones de reproducción, anclas y/o duraciones y, por lo tanto, la relevancia de un grupo.

[0080] En al menos una realización, los metadatos contienen para al menos un grupo de la señal de audio distintos datos (por ejemplo intensidad del sonido de grupo o ganancia de referencia) con distintos valores.

[0081] Según una realización del codificador de audio, el codificador de audio comprende también un estimador, donde el estimador está configurado para calcular un valor de intensidad del sonido de grupo para un grupo, donde el valor de intensidad del sonido de grupo para el grupo no es determinado por el determinador de intensidad del sonido. El escritor de metadatos está configurado para introducir el valor calculado de intensidad del sonido de grupo en los metadatos de manera que todos los grupos de la señal de audio tengan intensidades del sonido de grupo asociadas. En esta realización, el codificador de audio compensa una intensidad del sonido de grupo que falta calculándola sobre la base de datos disponibles.

[0082] El objeto se alcanza también mediante un procedimiento para procesar una señal de audio.

[0083] El procedimiento comprende al menos las siguientes etapas:

- Modificar la señal de audio en respuesta a la entrada de un usuario.

- Determinar una ganancia de compensación de intensidad del sonido sobre la base de, por un lado, una intensidad del sonido de referencia (como una intensidad del sonido general de grupos individuales asociados antes de una modificación por parte de un usuario) o una ganancia de referencia y, por el otro lado, una intensidad del sonido modificada (como la contrapartida de la intensidad del sonido de referencia es la intensidad del sonido combinada de los grupos relevantes después de la entrada del usuario) o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario.

[0084] La determinación de la ganancia de compensación de intensidad del sonido -llamada C - se realiza usando al menos una o una combinación de las siguientes realizaciones donde la ganancia de compensación de intensidad del sonido se determina sobre la base de datos de los metadatos asociados con -o incluso compuestos por- la señal de audio. En las distintas realizaciones, los datos son los siguientes donde los respectivos grupos comprenden uno o más elementos de audio:

- Los datos están indicando si un grupo compuesto por la señal de audio debe considerarse u omitirse para determinar la ganancia de compensación de intensidad del sonido.

- Los datos se refieren a una preselección, donde la preselección se refiere a una selección de al menos un grupo. - Los datos indican si un grupo está desactivado o activado.

- En los datos hay al menos una intensidad del sonido de grupo que falta de un grupo compuesto por la señal de audio. - Los datos se refieren a una configuración de reproducción para una reproducción de la señal.

- Manipular una intensidad del sonido de una señal de salida asociada con la señal de audio usando la ganancia de compensación de intensidad del sonido.

[0085] El objeto se alcanza también mediante un procedimiento para generar una señal de audio que comprende metadatos. El procedimiento comprende determinar un valor de intensidad del sonido para un grupo que tiene uno o más elementos de audio e introducir el valor de intensidad del sonido determinado para el grupo como una intensidad del sonido de grupo en los metadatos.

[0086] El objeto se alcanza también mediante un programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, uno de los procedimientos anteriores.

[0087] Las realizaciones del aparato (ya sea procesador de audio o codificador de audio) también pueden realizarse mediante las etapas del procedimiento y las realizaciones correspondientes del procedimiento. Por consiguiente, las explicaciones dadas para las realizaciones del aparato también sirven para el procedimiento.

[0088] A continuación se explicará la invención con respecto a los dibujos adjuntos y las realizaciones ilustradas en los dibujos adjuntos, en los cuales:

La Fig. 1 muestra una perspectiva general de un decodificador de audio,

la Fig. 2 muestra una perspectiva general de un procesador de audio según la invención y

la Fig. 3 muestra una perspectiva general de un codificador de audio de la invención.

[0089] La Figura 1 muestra una perspectiva general de un decodificador MPEG-H 3D Audio como un ejemplo de un procesador de audio, donde se ilustran todos los bloques de construcción principales del sistema:

- Como una primera etapa, el flujo de audio recibido 500 (incluidas las señales de audio transmitidas, ya sean canales, objetos o componentes de HOA, junto con metadatos asociados) es decodificado por el decodificador 501 proporcionando contenido de audio 502 y metadatos asociados 503.

- Las señales de canal se correlacionan a la configuración de altavoz de reproducción objetivo usando un conversor de formato 504 que sirve como un renderizador de canal y conversor de formato.

- Las señales de objeto se renderizan a la configuración de altavoz de reproducción objetivo mediante el renderizador de objetos 505 usando los metadatos de objeto asociados.

- El contenido ambifónico de orden superior se renderiza mediante un renderizador de HOA 506 a la configuración de altavoz de reproducción objetivo usando los metadatos de HOA asociados.

- Las señales de altavoz correspondientes a los distintos componentes (canales, objeto, HOA) en la forma de señales de audio 507 como salidas del conversor de formato 504, el renderizador de objeto 505 y el renderizador de HOA 506 se mezclan a continuación en la etapa de mezclado. Esto lo hace un mezclador 508 que proporciona una señal de audio mezclada 509.

- La salida 509 del mezclador 508 es procesada a continuación por la etapa de control de intensidad del sonido, donde el audio se normaliza a un nivel de intensidad del sonido objetivo deseado. El controlador de intensidad del sonido 510 lleva a cabo una normalización así como también la compensación de intensidad del sonido. Con este fin, el controlador de intensidad del sonido 510 recibe la entrada del usuario 511. La entrada del usuario 511 como resultado de una interacción de usuario se refiere también a información sobre la configuración de altavoz que se usará para la reproducción y también se envía al conversor de formato 504, el renderizador de objeto 505 y al renderizador de HOA 506. Al controlador de intensidad del sonido 510 se envían metadatos 503 especialmente en referencia a renderización y/o información de intensidad del sonido extraída por el decodificador 501 del flujo de audio recibido 500. La señal resultante 512 se envía, en la realización que se muestra, a los altavoces de la configuración de altavoz disponible para la reproducción.

[0090] La interacción posible del usuario puede dividirse en, por ejemplo, dos categorías distintas:

- Selección de preselecciones del programa de audio transmitido.

- Manipulación de la renderización predeterminada de grupos de elementos de audio.

[0091] A continuación se presenta el significado de preselecciones y grupos en el contexto de MPEG-H 3D Audio y de la presente invención.

[0092] Se hace referencia a los canales, objetos y escenas de HOA individuales disponibles para un programa de audio transmitido como elementos de audio. Un grupo se refiere a una colección específica de elementos de audio individuales. La información de grupo específica de los elementos de audio se incluye en los metadatos de MPEG-H 3D Audio que se transmiten junto con el contenido de audio en el flujo de audio. Los elementos de un grupo no pueden cambiarse de manera interactiva por sí solos. Solo puede manipularse el grupo entero, es decir, todos los elementos incluidos juntos. Un ejemplo es un grupo que consiste en los canales correspondientes a una configuración de altavoz de canal 5.1 o estéreo. En un caso extremo un grupo puede consistir en solo un elemento, por ejemplo el objeto de diálogo de un programa. El usuario puede, entonces, cambiar, por ejemplo, el nivel de este objeto de diálogo dentro de la escena de audio.

[0093] Las preselecciones definen una combinación de grupos en una escena de audio. Las preselecciones pueden utilizarse para señalar de manera eficiente una presentación diferente del mismo programa de audio dentro del mismo flujo de audio. La definición de preselección incluye también información renderizada por defecto o inicial de los grupos individuales, que se utiliza en caso de que el usuario no aplique ninguna modificación. El ejemplo más importante de esta información renderizada es la ganancia que se aplica a un grupo al renderizar la escena de audio completa. La información de configuración que define una preselección se determina en el codificador y es parte de los metadatos, por ejemplo metadatos MPEG-H 3D Audio.

[0094] Cabe señalar que la escena de audio principal o por defecto puede considerarse un tipo especial de preselección que incluye todos los elementos de audio sin especificar necesariamente información de agrupamiento. Sin embargo, la información renderizada por defecto o inicial (por ejemplo, ganancia) para los elementos de audio individuales por lo general se proporciona en los metadatos también para la escena de audio principal.

[0095] Una de las características más importantes para un suministro de audio de última generación es el control de intensidad del sonido avanzado, es decir, el señalamiento adecuado de información de intensidad del sonido y normalización de intensidad del sonido. El control de intensidad del sonido es especialmente importante en aplicaciones de radiodifusión, donde representa una característica esencial para cumplir con las normas y recomendaciones de radiodifusión aplicables.

[0096] El concepto de control de intensidad del sonido incluido en MPEG-H 3D Audio se basa en metadatos que representan la intensidad del sonido medida del programa de audio. Los metadatos se transmiten en el flujo de audio como una realización de la señal de audio que va a ser procesada por el procesador de audio junto con el contenido de audio real. En el decodificador según una realización, una ganancia de normalización de intensidad del sonido se calcula sobre la base de la información de intensidad del sonido transmitida y el nivel de intensidad del sonido meta. La ganancia de normalización de intensidad del sonido en una realización se aplica, a continuación, a la señal de audio después del mezclador 508, como se ilustra, por ejemplo, en la Figura 1.

[0097] Para tener en cuenta la característica específica de ofrecer múltiples preselecciones del mismo programa de audio con el mismo flujo de audio, se incluyen metadatos de intensidad del sonido adicionales correspondientes a la intensidad del sonido medida de las diferentes preselecciones. Las etapas de procesamiento tales como la conversión de formato (mezcla descendente) o procesamiento de intervalo dinámico pueden cambiar potencialmente la intensidad del sonido del audio. Por lo tanto, en una realización, se incluye información de intensidad del sonido adicional para garantizar la correcta normalización de intensidad del sonido también en estos casos.

[0098] En otra realización, se transmite la información de intensidad del sonido de grupos individuales o incluso elementos de audio solos. La información de intensidad del sonido de grupo se proporciona en una realización con respecto a diferentes configuraciones de altavoz. Por ejemplo, si un grupo consiste en señales de canal, puede incluirse diferente información de intensidad del sonido de grupo para el caso de una reproducción de una configuración de altavoz 5.1 o estéreo. La información de intensidad del sonido de grupo se utilizará para el control de intensidad del sonido en escenarios interactivos como se propone en esta invención.

[0099] La información de intensidad del sonido mencionada anteriormente se refiere a una gran variedad de configuraciones para un programa (por ejemplo, diferentes preselecciones o diferentes disposiciones de reproducción de altavoz). Dado que estas configuraciones son estáticas, una realización prevé medir su intensidad del sonido en el codificador (o antes del proceso de codificación) y poblar los campos de metadatos correspondientes en, por ejemplo, el flujo de MPEG-H 3DA.

[00100] Sin embargo, como ya se mencionó anteriormente, una característica importante de los sistemas de codificación de audio modernos tales como MPEG-H 3DA es el soporte de la interacción del usuario en el decodificador: el usuario puede, por ejemplo, ajustar la intensidad de los grupos específicos o incluso activarlos y desactivarlos. Un importante caso de uso es la mejora de diálogo, donde el usuario puede manipular el nivel del objeto de diálogo o el grupo asociado con el diálogo. En otro ejemplo, el usuario aumenta el nivel de una base de sonido inmersivo, representada por un grupo en base a HOA. En otro ejemplo, el usuario quiere activar grupos específicos, por ejemplo, que representan descripción de vídeo para personas con problemas de audición o pistas con doblaje.

[00101] Cambiar el nivel de grupos también implica que la intensidad del sonido general de la escena de audio renderizada cambia en comparación con un caso no modificado. Por lo tanto, la intensidad del sonido de reproducción consistente no puede garantizarse más después de la interacción de ganancia. Dado que el usuario puede cambiar los niveles de diferentes objetos también más frecuentemente, el nivel de intensidad del sonido de la salida de audio puede variar con el tiempo incluso para el mismo programa.

[00102] Es altamente deseable proporcionar control de intensidad del sonido no solo para presentaciones estáticas del programa de audio sino también para tener en cuenta la interacción del usuario que cambia la intensidad del sonido de una escena de audio. La invención permite mejorar el control de intensidad del sonido en el decodificador para permitir la normalización de intensidad del sonido consistente también en caso de la interacción del usuario en los niveles de grupos de elementos de audio.

[00103] La intensidad del sonido de un programa o una preselección se preserva cuando el usuario cambia el nivel de determinados elementos de audio o grupos dentro de una escena de audio renderizada. Una ganancia de compensación de intensidad del sonido se determina en una realización sobre la base de una intensidad del sonido de referencia correspondiente a la escena de audio original y una intensidad del sonido modificada teniendo en cuenta la interacción de ganancia del usuario. La ganancia de compensación de intensidad del sonido se aplica, a continuación, a la señal de audio renderizada junto con la ganancia de normalización de intensidad del sonido para lograr la intensidad del sonido objetivo de decodificador deseada.

[00104] La Figura 2 muestra esquemáticamente un ejemplo de un procesador de audio 1 -también llamado decodificador o simplemente aparato para procesar una señal de audio- 1 que recibe una señal de audio 100 y proporciona una señal de salida 101. La señal de salida 101 en el ejemplo que se muestra es una señal de audio adecuada para ser suministrada a un amplificador -que no se muestra- conectado a altavoces de la situación de reproducción o para ser suministrada directamente a altavoces o a un auricular. La señal de audio 100 comprende un flujo de bits con las señales de audio de objetos de audio individuales y metadatos que proporcionan información acerca de los elementos de audio y cómo gestionarlos.

[00105] La señal de audio 100 se envía a un modificador de señal de audio 2 que recibe la entrada del usuario 200. La entrada del usuario 200 se refiere - en el ejemplo que se muestra - al menos a la selección de una preselección determinada. Las preselecciones se refieren a combinaciones específicas de grupos de elementos de audio con ganancias de referencia asociadas gi y/o intensidades del sonido de grupo Li para los correspondientes grupos de elementos de audio. Si el usuario no elige una preselección, se utilizará una preselección por defecto con valores por defecto en la realización que se muestra.

[00106] Además, el usuario establece a través de la entrada 200 los valores de ganancia de grupos individuales. Los valores de ganancia modificados hi implican que el grupo correspondiente se amplificará o atenuará por correspondencia con los valores de ganancia de referencia gi comprendidos por los metadatos. Por ejemplo, el usuario puede preferir escuchar un coro de fondo amplificado y no - como sucede habitualmente - la voz principal. Por lo tanto, el usuario aumentará el valor de ganancia del coro de fondo y disminuirá el valor de ganancia de la voz principal o desactivará esta voz.

[00107] El usuario también tiene la posibilidad de desactivar o activar un grupo. Por lo tanto, si el usuario no quiere escuchar un grupo, el grupo puede desactivarse. Dicho de otro modo, si los metadatos comprenden una bandera que implica que un grupo se desactiva para una preselección específica, el usuario puede activarlo. Este, por ejemplo, puede ser el caso cuando la señal de audio comprende diferentes versiones de idioma de un texto hablado y las preselecciones se refieren a los diferentes idiomas. Por lo tanto, activar o desactivar un grupo se refiere a si se utiliza el grupo en la reproducción o no.

[00108] En síntesis, el modificador de señal 2 modifica la señal de audio 100 según la entrada del usuario 200 a través de la amplificación o atenuación de los grupos de elementos de audio que pertenecen a la señal de audio 100 y según una preselección por defecto o la seleccionada cubierta por los datos respectivos de los metadatos.

[00109] Sigue un convertidor de configuración 3 que convierte datos a la configuración de reproducción actual por medio de la cual la señal de audio 100 va a reproducirse. La entrada del usuario 200 también abarca qué configuración de reproducción se proporciona y, por lo tanto, cuál es la situación actual, por ejemplo a través de la selección de una lista. Por ejemplo, los metadatos pueden referirse a una situación de sonido envolvente mientras que la situación de reproducción actual permite una reproducción en estéreo. Esta conversión se refiere en una realización a los valores de ganancia así como también a los valores de intensidad del sonido.

[0110] El convertidor de configuración 3 envía los datos convertidos al controlador de intensidad del sonido 6 que también recibe la entrada del usuario 200. Sobre la base de estos datos, el controlador de intensidad del sonido 6 calcula la ganancia de compensación de intensidad del sonido C que se envía al manipulador de intensidad del sonido 5.

[0111] El manipulador de intensidad del sonido 5 establece la intensidad del sonido general de la señal de salida 101 utilizando la ganancia de compensación de intensidad del sonido C y la señal recibida del mezclador 4. El mezclador 4 recibe en la realización que se muestra a través del convertidor de configuración 3 la señal de audio 100 después de la modificación por parte del modificador de señal de audio 2 y la conversión por parte del convertidor de configuración 3 y combina los diferentes grupos de elementos de audio (comparar con la Figura 1).

[0112] Para la explicación, se considera en un ejemplo ilustrativo el caso donde una escena de audio específica se define por una preselección, es decir una combinación específica de grupos. Cada uno de los grupos tiene una ganancia inicial/por defecto asociada definida por la preselección dada. Además, la intensidad del sonido de cada grupo dentro de la preselección se supone que está disponible. La preselección puede ser elegida por el usuario o establecida como una preselección por defecto. Se utilizará la siguiente notación:

- Li es la intensidad del sonido del grupo i-ésimo de la preselección.

- gi es la ganancia inicial/por defecto del grupo i-ésimo (dado, por ejemplo, en escala de dB).

- hi es la ganancia de interacción modificada del grupo i-ésimo (dada, por ejemplo, en escala de dB).

-M ref denota la selección de índices que se refieren a grupos que están incluidos para el cálculo de la intensidad del sonido de referencia de una preselección (o la escena de audio por defecto).

- Mmod denota la selección de índices que se refieren a grupos que están incluidos para el cálculo de la intensidad del sonido modificada de una preselección (o la escena de audio modificada).

[0113] En caso de que un grupo consista en la colección de señales de canal correspondientes a una configuración de altavoz específica o, por ejemplo, a una escena de audio HOA, pueden incluirse múltiples valores de intensidad del sonido de grupo en los metadatos. Estos diferentes valores de intensidad del sonido están asociados con diferentes configuraciones de altavoz utilizadas para la reproducción. Por ejemplo, si un grupo representa una base de canal con una configuración de altavoz 5.1 o 22.2, una intensidad del sonido diferente puede medirse para reproducir el grupo para la configuración de altavoz 5.1 o 22.2 original en comparación con el caso donde la base de canal tiene que ser correlacionada con un sistema de reproducción en estéreo utilizando el convertidor de formato. En este caso, la intensidad del sonido de grupo asociada con la reproducción en estéreo se elige en una realización si está disponible en los metadatos transmitidos. Si no, se utiliza la intensidad del sonido de grupo asociada con la configuración de altavoz original. Una estrategia análoga para seleccionar la intensidad del sonido de grupo adecuada se propone en el caso de que un grupo represente una escena de audio en base a HOA. En este caso, debería utilizarse la intensidad del sonido de grupo asociada con la configuración de altavoz de reproducción actual (si está disponible en los metadatos) en lugar de la intensidad del sonido de grupo asociada con una disposición de altavoz de referencia.

[0114] En algunas realizaciones, la información de intensidad del sonido no se proporciona para cada grupo independientemente sino que un conjunto de grupos hace referencia al mismo valor de intensidad del sonido.

[0115] En general, es razonable suponer que las señales de audio en los diferentes grupos no están correlacionadas. La intensidad del sonido de referencia de la preselección puede calcularse, entonces, como

3 i Li

10101010

[0116] De manera similar, la intensidad del sonido de la escena de audio modificada se calcula como

[0117] En caso de que se desactive un grupo en la configuración por defecto de la preselección, el grupo se descarta al calcular la intensidad del sonido de referencia Lref. De manera similar, si un usuario desactiva un grupo, ese grupo se descarta al calcular la intensidad del sonido modificada Lmod. Si se desactiva un grupo en la preselección por defecto pero el usuario lo activa en la escena modificada, la intensidad del sonido de grupo correspondiente Li se excluye del cálculo de la intensidad del sonido de referencia Lref pero se incluye en el cálculo de la intensidad del sonido modificada Lmod y viceversa. Cabe señalar que descartar un grupo que está desactivado se puede interpretar de manera equivalente como establecer su ganancia (gi o hi) en -~. En este caso, Mref = Mmod. Por lo tanto, la intensidad del sonido Lref y Lmod se calculan con referencia a las mismas selecciones de grupos.

[0118] La ganancia de compensación de intensidad del sonido C se obtiene a partir de relacionar la intensidad del sonido de referencia Lref de la preselección con la intensidad del sonido modificada Lmod de la preselección:

C = W log10

+

1 0 1 ^ ^ " ó 1101 o -

[0119] La ganancia de compensación de intensidad del sonido C está limitada en una realización dentro de un intervalo de ganancias permitidas para evitar cualquier comportamiento no deseado para casos extremos:

[0120] La ganancia de normalización de intensidad del sonido Gn utilizada para la normalización de intensidad del sonido según la técnica (véase, por ejemplo, el documento EP 2879 131 A1) se corrige, entonces, según

Gcorregido _ GN Clim

que garantiza la intensidad del sonido consistente después de la interacción de ganancia por parte del usuario. De manera alternativa, la normalización de intensidad del sonido se realiza sobre la base de la ganancia de normalización original Gn y la compensación de intensidad del sonido se realiza independientemente en las señales de audio utilizando la versión limitada de la ganancia de compensación Clim.

[0121] La descripción anterior se ha basado en una preselección del programa de audio. Cabe señalar que no siempre hay preselecciones disponibles para un programa sino que se define una sola escena por defecto global. Este caso se maneja de manera similar al caso de la preselección descrita anteriormente, donde la selección de índices Mref y Mmod se refieren a los grupos de la escena por defecto y su versión modificada, respectivamente.

[0122] Hay situaciones donde es apropiado excluir intencionalmente determinados grupos del proceso de compensación de intensidad del sonido. Por ejemplo, un determinado grupo puede estar activo solo durante un período de tiempo muy corto dentro del programa y está completamente en silencio durante el tiempo restante. Debido al proceso de establecimiento de puerta durante la medición de intensidad del sonido, por ejemplo, según la ITU-R BS.1770-3 - por parte del Sector de Radiocomunicación de la ITU (ITU-R, por sus siglas en inglés) como uno de los tres sectores de la Unión Internacional de Telecomunicaciones (ITU, por sus siglas en inglés) -, dicho grupo puede tener aún una significativa intensidad del sonido medida. Esta intensidad del sonido de grupo influirá, entonces, en la ganancia de compensación de intensidad del sonido durante toda la duración del programa, aunque el grupo está activo solo durante una cantidad muy corta de tiempo. Por otra parte, dicha señal de grupo disperso hace solo una pequeña contribución a la medición de intensidad del sonido de toda la mezcla de programa/preselección.

[0123] Por ejemplo, si un usuario elige reforzar dicho grupo/objeto disperso, la compensación de intensidad del sonido resultará en una atenuación de todos los elementos de audio restantes durante toda la duración del programa. Tal comportamiento es no deseado y el proceso de compensación de intensidad del sonido debería ignorar ese grupo disperso particular. Por lo tanto, los metadatos contienen una bandera correspondiente para omitir este grupo para el cálculo de la compensación de intensidad del sonido.

[0124] Para proporcionar la funcionalidad descrita anteriormente, se añade información a los metadatos incluidos en el flujo de audio o señal de audio que indica si un grupo debería ser excluido de la compensación de intensidad del sonido, es decir, del cálculo de la intensidad del sonido de referencia y modificada de una preselección o la escena de audio global. Esta información es, en una realización, una simple bandera para cada grupo que indica si está incluido en el proceso de compensación de intensidad del sonido o no.

[0125] Distintas normas de radiodifusión sobre el control de intensidad del sonido utilizan distintas estrategias para definir la intensidad del sonido de programa. Mientras que EBU-R128 requiere medir la intensidad del sonido de la mezcla completa de programa, la ATS^cA/85 recomienda medir solo la intensidad del sonido del elemento de ancla de un programa, que por lo general está representado por el diálogo.

[0126] Tales estrategias diferentes para medir la intensidad del sonido para un programa también se tienen en cuenta para la compensación de intensidad del sonido. La intensidad del sonido en base a ancla se puede finalizar inmediatamente a partir de la compensación de intensidad del sonido de la mezcla completa como se describió anteriormente.

[0127] Para la referencia en base a ancla y la intensidad del sonido modificada de una preselección (o la mezcla por defecto de un programa) se incluyen solo aquellos grupos que contribuyen al ancla de programa. La información sobre qué grupo es parte del ancla de programa está, en una realización, incluida en los metadatos del flujo de audio/señal de audio. La intensidad del sonido de referencia se obtiene mediante

donde Aref denota la selección de índices que hace referencia a grupos que son parte del elemento de ancla de la escena de audio por defecto o preselección.

[0128] De manera similar, la intensidad del sonido modificada para la compensación de intensidad del sonido en base a ancla que utiliza la selección de índices de grupo Amod (que se refiere a grupos que son parte del elemento de ancla de la escena de audio modificada o preselección) se lee

V- '

im0¿ = lOiO0io 2 , 10101010

: e Amod

[0129] Inmediatamente sigue que la ganancia de compensación se obtiene como

[0130] Las etapas restantes para realizar la compensación de intensidad del sonido no se cambian en comparación con el caso de mezcla de programa completa (véase la descripción anterior).

[0131] En algunos casos, una combinación de estrategias de compensación de intensidad del sonido - en base a ancla y en base a la mezcla de programa completa - son beneficiosas para la experiencia del usuario de la compensación de intensidad del sonido.

[0132] En una realización, la estrategia en base a ancla se utiliza para el caso en que uno o todos los grupos de ancla son amplificados por el usuario, es decir, hi > gi. Por el contrario, si los grupos de ancla son atenuados, se utiliza la compensación de intensidad del sonido con respecto a la intensidad del sonido de la mezcla completa, es decir, para el caso en que hi < gi. La información sobre los grupos de ancla está comprendida en los metadatos.

[0133] La estrategia de compensación de intensidad del sonido presentada anteriormente requiere la información de la intensidad del sonido de cada grupo dentro de una preselección o la escena de audio global. En algunos escenarios, la información de intensidad del sonido puede estar disponible solo para algunos grupos y faltar para otros. Por lo tanto, en una realización, la información de intensidad del sonido de grupo que falta se calcula a partir de la intensidad del sonido de la preselección (o la escena de audio por defecto) y los valores de intensidad del sonido de grupo que están disponibles.

[0134] Supongamos que Lp denota la intensidad del sonido medida de la preselección considerada del programa de audio, es decir, la intensidad del sonido conjunta medida de los objetos de audio que pertenecen a la preselección respectiva. Además, supongamos que denota la selección de índices a grupos para los cuales la información de intensidad del sonido está disponible. Una intensidad del sonido residual Lres de la preselección se calcula a partir de la intensidad del sonido de la preselección, la información de intensidad del sonido de grupo disponible y las ganancias por defecto/iniciales de estos grupos:

[0135] Una representación alternativa de la intensidad del sonido residual puede obtenerse considerando los valores de intensidad del sonido de grupo que no están disponibles y las ganancias por defecto/iniciales correspondientes:

[0136] En la práctica, es razonable suponer que la intensidad del sonido de cada grupo para el cual la información de intensidad del sonido falta es igual a:

Li = La, para i & B

[0137] En este caso, la intensidad del sonido residual puede expresarse como

[0138] A partir de esto, una estimación para los valores de intensidad del sonido de grupo que faltan se obtiene inmediatamente como

[0139] La intensidad del sonido de referencia y la intensidad del sonido modificada requeridas para la compensación de intensidad del sonido puede, entonces, calcularse como se describió anteriormente, donde cualquier intensidad del sonido que falta Li se reemplaza por una estimación correspondiente La.

[0140] La estimación de la información de intensidad del sonido de grupo que falta se realiza en el lado del codificador o el lado del decodificador del sistema de codificación de audio.

[0141] Si la estimación se realiza en el codificador, la información de la intensidad del sonido de grupo dentro de los metadatos transmitidos en el flujo de audio puede ser medida o, si no, puede incluirse una estimación correspondiente como se describió anteriormente. Entonces, la etapa de compensación de intensidad del sonido en el decodificador tiene toda la información de intensidad del sonido requerida y puede realizar el procesamiento de acuerdo con el caso donde toda la intensidad del sonido de grupo se ha medido por adelantado por el codificador.

[0142] Si la estimación se realiza en el decodificador, los valores de intensidad del sonido de grupo que faltan en los metadatos del flujo de audio se estiman como se describió anteriormente y, entonces, la compensación de intensidad del sonido se basa en los valores de intensidad del sonido de grupo estimados.

[0143] Un caso de uso especial es cuando no se proporciona información sobre la intensidad del sonido de ningún grupo en los metadatos del flujo de audio. En este caso, la compensación de intensidad del sonido tiene que trabajar solo sobre la base de la información de renderización relevante disponible, es decir, la ganancia por defecto o inicial de un grupo gi y su versión modificada hi después de la interacción del usuario. Esto se denomina compensación de intensidad del sonido ciega, ya que no existe información de intensidad del sonido para los grupos en el decodificador. En otra realización, la compensación de intensidad del sonido ciega se realiza incluso si falta solo una intensidad del sonido de grupo en los metadatos.

[0144] Para la compensación, se utiliza la suposición de que los valores de intensidad del sonido de todos los grupos dentro de una misma preselección son los mismos. En una realización de compensación de intensidad del sonido ciega, se introduce la suposición de que para todos los grupos incluidos en Mref y Mmod, respectivamente. Mediante esto, se obtiene una regla para calcular la ganancia de compensación de intensidad del sonido según

[0145] Cabe señalar que el factor de ganancia por compensación de intensidad del sonido ciega solo requiere información de las ganancias de grupo pero no información relacionada con la intensidad del sonido.

[0146] En otra realización, la compensación de intensidad del sonido ciega se realiza en caso de que al menos una intensidad del sonido de grupo falte. Por lo tanto, incluso una intensidad del sonido de grupo que falta produce la compensación de intensidad del sonido ciega.

[0147] En esta sección se resumirá lo anterior:

En una realización, una selección general de índices se especifica con referencia a grupos que deberían estar incluidos para el cálculo de la intensidad del sonido de referencia de una preselección o la escena de audio por defecto. Esta selección se deriva a partir de información en los metadatos del flujo de audio acerca de si un grupo debe ser incluido para realizar la compensación de intensidad del sonido para la escena de audio por defecto o una preselección. Esta información normalmente se introduce en los metadatos del flujo de audio en el codificador.

[0148] En el codificador, el proceso de compensación de intensidad del sonido se controla de manera adecuada definiendo estos elementos de flujo de bits. Por ejemplo, si un determinado grupo debería ser excluido, el elemento de flujo de bits correspondiente se establece en “falso”. La compensación de intensidad del sonido en base a ancla se realiza en una realización incluyendo solo grupos que son parte del elemento de ancla de la escena de audio por defecto o de una preselección definida y estableciendo los elementos de flujo de bits correspondientes en “verdadero”. Pueden utilizarse otras maneras de proporcionar esta información en diferentes implementaciones.

[0149] Como ya se mencionó en una realización, los grupos se descartan para calcular la intensidad del sonido de referencia Lref si se desactivan en la escena de audio por defecto o en una preselección. La selección resultante de índices se indica como Kref.

[0150] De manera análoga, cualquier grupo que está desactivado en la escena modificada se excluye del cálculo de la intensidad del sonido modificada Lmod. Si se desactiva un grupo en la escena por defecto pero el usuario lo activa en la escena modificada, la intensidad del sonido de grupo correspondiente se excluye del cálculo de la intensidad del sonido de referencia Lref pero se incluye en el cálculo de la intensidad del sonido modificada Lmod y viceversa. La selección de índices de grupo para la intensidad del sonido modificada Lmod se indica con Kmod.

[0151] La ganancia de compensación de intensidad del sonido se calcula, a continuación, de manera análoga a la descripción anterior reemplazando Mref por Kref y reemplazando Mmod por Kmod.

[0152] Para el caso en que cualquier información de intensidad del sonido de grupo que se requiera para calcular la intensidad del sonido de referencia o modificada falta en el decodificador, la compensación de intensidad del sonido ciega se utiliza como un modo de reserva. La misma estrategia con respecto a seleccionar índices de grupos para la compensación de intensidad del sonido (Kref and Kmod) como se describió anteriormente se aplica en el modo de reserva.

[0153] La Figura 3 muestra una realización de un decodificador de audio 20 que genera una señal de audio digital 100 sobre la base de diferentes fuentes de audio. La señal de audio 100 comprende metadatos que van a ser utilizados, por ejemplo, por el procesador de audio descrito anteriormente.

[0154] El codificador de audio 20 comprende un determinador de intensidad del sonido 21 para determinar un valor de intensidad del sonido para al menos un grupo que tiene uno o más elementos de audio 50. En el ejemplo que se muestra, hay tres fuentes de audio X1, X2, y X3, cada una de las cuales está compuesta por un grupo. Los valores de intensidad del sonido de dos de ellas X2 y X3 se determinan como L2 y L3 y se envían a un escritor de metadatos 22. El escritor de metadatos 22 introduce los valores de intensidad del sonido determinados para los dos grupos X2 y X3 como información de intensidad del sonido de referencia de grupo correspondiente L2 y L3 en los metadatos de la señal de audio 100.

[0155] Los valores de ganancia como valores de referencia g-i, g2, g3 para los grupos X1, X2, y X3 también son insertados por el escritor de metadatos 22 en los metadatos de la señal de audio 100. Según otra realización, las intensidades del sonido de grupo y valores de ganancia de referencia son determinados para preselecciones específicas y/o configuraciones de reproducción diferentes. Además, se mide la intensidad del sonido para diferentes preselecciones como una intensidad del sonido respectiva general Lp.

[0156] La intensidad del sonido del primer elemento de audio 50, denominada X1 no es medida por el determinador de intensidad del sonido 21 pero es calculada o estimada por el estimador 24 (véase la descripción anterior) y se proporciona como una intensidad del sonido de referencia correspondiente L1 al escritor de metadatos 22 para ser escrita en los metadatos.

[0157] El controlador 23 en la realización que se muestra está conectado al determinador de intensidad del sonido 21 así como también al escritor de metadatos 22. El controlador 23 determina qué grupo o qué grupos deben considerarse u omitirse para la determinación de la ganancia de compensación de intensidad del sonido C. Para los datos acerca del uso de los grupos el escritor de metadatos 22 escribe una indicación en los metadatos. Los datos correspondientes, por ejemplo en forma de banderas, indican qué grupo debe usarse o qué grupo debe omitirse para la determinación de la ganancia de compensación de intensidad del sonido C por parte del procesador de audio o por parte de un decodificador.

[0158] La señal de audio resultante 100 comprende las señales reales recibidas de los objetos de audio 50 y los metadatos que caracterizan a las señales reales y su tratamiento previsto por parte del decodificador de audio 1. Los datos de los metadatos se refieren a grupos de objetos de audio, mientras que también es posible que un grupo abarque solo un objeto/elemento de audio.

[0159] Los metadatos contienen al menos algunos de los siguientes datos:

- valores de intensidad del sonido medidos Li para los grupos individuales,

-valores de ganancia de referencia gi para los grupos individuales que describen la intensidad del sonido o prominencia de los grupos en relación con los otros grupos relacionados juntos,

- una intensidad del sonido de referencia Lref como la intensidad del sonido resultante de los grupos combinados para una preselección dada y/o una configuración de reproducción dada,

- un indicador de si (por ejemplo, si el grupo pertenece a un ancla o si la duración del grupo es tan corta que se puede omitir, etc.) o cómo (por ejemplo, para el cálculo de la intensidad del sonido de referencia y/o modificada) un grupo o sus valores correspondientes se utilizan para determinar la ganancia de compensación de intensidad del sonido C.

[0160] Para cada grupo, los metadatos preferentemente contienen diferentes selecciones de datos para diferentes preselecciones y/o diferentes configuraciones de reproducción. Por lo tanto, se considera que diferentes situaciones de grabación y de reproducción producen diferentes selecciones de datos para los grupos relevantes.

[0161] A continuación, la invención se explica a través de diferentes ejemplos para implementar la compensación de intensidad del sonido para la interacción del usuario con un sistema de codificación de audio.

- En el lado del codificador, se determina la intensidad del sonido de cada grupo incluido en la escena de audio por defecto y/o preselecciones. La información de intensidad del sonido se introduce en los metadatos comprendida como una parte por el flujo de audio o la señal de audio.

- Se incluyen múltiples valores de intensidad del sonido para al menos un grupo, donde diferentes valores están asociados con diferentes configuraciones de reproducción de altavoz (por ejemplo, estéreo, 5.1 u otras).

- En el lado del codificador, se crean metadatos adicionales que se corresponden con la información de si un grupo debería incluirse para realizar la compensación de intensidad del sonido, es decir, si se debería considerar para el cálculo de la intensidad del sonido de referencia y la intensidad del sonido modificada, respectivamente. Por ejemplo, la compensación de intensidad del sonido en base a ancla se realiza configurando los metadatos para incluir solo grupos que son parte del elemento de ancla de la escena de audio por defecto o de una preselección definida. - El decodificador recibe ese flujo de audio, que representa la señal de audio y metadatos asociados. El decodificador decodifica el flujo de audio para generar señales de audio decodificadas que se corresponden con canales y/u objetos y/o formatos Ambifónicos de Orden Superior.

- Sobre la base de los metadatos, el decodificador selecciona todos los índices de grupo que deberían ser incluidos para la compensación de intensidad del sonido para una escena de audio dada o preselección.

- En el decodificador, la intensidad del sonido de referencia Lref de la escena de audio o una preselección se calcula sobre la base de las ganancias por defecto gi de cada grupo seleccionado y la información de intensidad del sonido correspondiente. Si se transmiten múltiples valores de intensidad del sonido para un grupo, se elige el valor de intensidad del sonido asociado con la configuración de altavoz de reproducción dada.

- De manera análoga, la intensidad del sonido modificada Lmod se calcula a partir de la información de intensidad del sonido de los grupos seleccionados y las ganancias modificadas hi después de la interacción del usuario.

- La ganancia de compensación de intensidad del sonido C para la escena de audio por defecto o una preselección se calcula sobre la base de la intensidad del sonido de referencia Lref y la intensidad del sonido modificada Lmod. - La ganancia de compensación de intensidad del sonido C se aplica a la señal de audio antes de la reproducción que proporciona la señal de salida.

[0162] En algunas realizaciones, no es factible medir la información de intensidad del sonido requerida para todos los grupos en el codificador. Entonces, el codificador calcula estimaciones de los valores de intensidad del sonido de grupo que faltan. El codificador puede aplicar también diferentes procedimientos para estimar la información de intensidad del sonido de grupo (no medida) que falta. La compensación de intensidad del sonido en el decodificador se realiza, a continuación, como en el caso en que la información de intensidad del sonido se ha medido para todos los grupos.

[0163] En otras realizaciones, el flujo de audio incluye información de intensidad del sonido solo para un número limitado de grupos. En este caso, la información de intensidad del sonido de grupo que falta se estima en el decodificador. La compensación de intensidad del sonido en el decodificador se realiza, a continuación, como en el caso en el que toda la información de intensidad del sonido requerida se haya incluido en los metadatos del flujo de audio.

[0164] Otra realización incluye la compensación de intensidad del sonido ciega como un modo de reserva si cualquier información de intensidad del sonido de grupo requerida falta en el decodificador para realizar la compensación de intensidad del sonido correcta. El mismo mecanismo para determinar la selección de índices Kref y Kmod para seleccionar los grupos que se van a incluir en el cálculo de la intensidad del sonido de referencia y modificada como se describió anteriormente se utiliza en el modo de reserva. Es decir, la elección de la selección de índices de grupo Kref y Kmod aún se basa en la información correspondiente generada en el lado del codificador, que se proporciona con los metadatos del flujo de audio.

[0165] A continuación se presentan algunas realizaciones de la invención que pueden combinarse con lo anterior:

Una primera realización se refiere a un procesador de audio para procesar una señal de audio, que comprende: un modificador de señal de audio para modificar la señal de audio en respuesta a una entrada del usuario; un controlador de intensidad del sonido para determinar una ganancia de compensación de intensidad del sonido sobre la base de una intensidad del sonido de referencia o una ganancia de referencia y una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario; y un manipulador de intensidad del sonido para manipular una intensidad del sonido de una señal que utiliza la ganancia de compensación de intensidad del sonido.

[0166] Una segunda realización según la primera realización se refiere a un aparato, en el que la señal de audio comprende un flujo de bits con metadatos, metadatos que comprenden una intensidad del sonido de grupo para un grupo y un valor de ganancia para un grupo.

[0167] Una tercera realización según la primera o segunda realización se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para calcular la intensidad del sonido de referencia para un grupo o una selección de grupos utilizando la intensidad del sonido de grupo o las intensidades del sonido de grupo y el valor de ganancia o los valores de ganancia para el grupo o la selección de grupos, y para calcular la intensidad del sonido modificada para un grupo o una selección de grupos utilizando la intensidad del sonido de grupo o las intensidades del sonido de grupo y el valor de ganancia modificado o los valores de ganancia modificados para el grupo o la selección de grupos, en el que el valor de ganancia modificado o los valores de ganancia modificados son modificados por la entrada del usuario.

[0168] Una cuarta realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para descartar un grupo con el fin de determinar la intensidad del sonido de referencia cuando el grupo se descarta en los metadatos de la señal de audio, o en el que el controlador de intensidad del sonido está configurado para descartar un grupo al determinar la intensidad del sonido de referencia, cuando el grupo se desactiva en respuesta a la entrada del usuario, o en el que el controlador de intensidad del sonido está configurado para excluir un grupo del cálculo de la intensidad del sonido de referencia, cuando el grupo se desactiva en los metadatos y se activa por la entrada del usuario o viceversa.

[0169] Una quinta realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para calcular la ganancia de compensación de intensidad del sonido relacionando la intensidad del sonido de referencia con la intensidad del sonido de una preselección, en el que la preselección comprende uno o más grupos, y en el que un grupo comprende uno o más objetos.

[0170] Una sexta realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para realizar una operación de limitación en la ganancia de compensación de intensidad del sonido de manera que la ganancia de compensación de intensidad del sonido sea menor que un umbral superior o de manera que la ganancia de compensación de intensidad del sonido sea mayor que un umbral inferior.

[0171] Una séptima realización según una de las realizaciones anteriores se refiere a un aparato, en el que el manipulador de intensidad del sonido está configurado para aplicar una ganancia a la señal determinada por la ganancia de compensación de intensidad del sonido y por una ganancia de normalización original determinada por un nivel objetivo establecido por el procesador de audio y un nivel de metadatos indicado en los metadatos de la señal de audio.

[0172] Una octava realización según una de las realizaciones anteriores se refiere a un aparato, en el que la señal de audio comprende una información de metadatos de compensación que indica qué grupo debe utilizarse para determinar la ganancia de compensación de intensidad del sonido o qué grupo no debe utilizarse para determinar la ganancia de compensación de intensidad del sonido, y en el que el controlador de intensidad del sonido está configurado para utilizar solo un grupo para determinar la ganancia de compensación de intensidad del sonido indicada para ser utilizada por la información de metadatos de compensación o para no utilizar un grupo para determinar la ganancia de compensación de intensidad del sonido indicada para no ser utilizada por la información de metadatos de compensación.

[0173] Una novena realización según una de las realizaciones anteriores se refiere a un aparato, en el que la señal de audio está indicada para tener un elemento de ancla, en el que el controlador de intensidad del sonido está configurado para utilizar solo información para un objeto de audio o un grupo de objetos de audio del elemento de ancla para determinar la ganancia de compensación de intensidad del sonido.

[0174] Una décima realización según una de la realización primera a octava se refiere a un aparato, en el que la señal de audio está indicada para tener un elemento de ancla, en el que el controlador de intensidad del sonido está configurado para utilizar solo la información para un objeto de audio o un grupo de objetos de audio del elemento de ancla para determinar la ganancia de compensación de intensidad del sonido, cuando el uno o más objetos de audio del elemento de ancla son amplificados por la entrada del usuario y para utilizar información de uno o más objetos de audio del elemento de ancla e información de uno o más objetos de audio no incluidos en el elemento de ancla, cuando el uno o más objetos de audio del elemento de ancla son atenuados por la entrada del usuario.

[0175] Una onceava realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para calcular una intensidad del sonido de grupo que falta en la señal de audio utilizando una intensidad del sonido de una preselección que comprende al menos dos grupos e información de intensidad del sonido y ganancia que no falta en la preselección.

[0176] Una doceava realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para realizar una compensación de intensidad del sonido ciega utilizando uno o más valores de ganancia para uno o más grupos y uno o más valores de ganancia modificados para uno o más grupos.

[0177] Una decimotercera realización según una de las realizaciones anteriores se refiere a un aparato, en el que el controlador de intensidad del sonido está configurado para verificar si la señal de audio comprende una información de intensidad del sonido de referencia, y si la señal de audio no comprende la información de intensidad del sonido de referencia, realizar una compensación de intensidad del sonido ciega utilizando uno o más valores de ganancia para uno o más grupos y uno o más valores de ganancia modificados para uno o más grupos, o para verificar si una información de intensidad del sonido modificada no puede calcularse y realizar una compensación de intensidad del sonido ciega, cuando la información de intensidad del sonido modificada no puede calcularse, donde la compensación de intensidad del sonido ciega comprende utilizar uno o más valores de ganancia para uno o más grupos y uno o más valores de ganancia modificados para uno o más grupos.

[0178] Una decimocuarta realización según una de las realizaciones anteriores se refiere a un aparato, en el que la señal de audio comprende diferentes valores de información de intensidad del sonido de referencia para diferentes configuraciones de reproducción, donde el aparato comprende además un convertidor de formato para convertir una señal a una configuración de reproducción predefinida, y en el que el controlador de intensidad del sonido está configurado para seleccionar el valor de intensidad del sonido específico para la configuración de reproducción específica utilizada por el convertidor de formato.

[0179] Una decimoquinta realización se refiere a un codificador de audio para generar una señal de audio que comprende metadatos, que comprende: un determinador de intensidad del sonido para determinar una intensidad del sonido para un grupo que tiene uno o más objetos de audio; y un escritor de metadatos para introducir la intensidad del sonido para el grupo como una información de intensidad del sonido de referencia en los metadatos.

[0180] Una decimosexta realización según la realización decimoquinta se refiere a un codificador de audio, en el que el determinador de intensidad del sonido está configurado para determinar diferentes valores de intensidad del sonido para diferentes configuraciones de reproducción, y en el que el escritor de metadatos está configurado para introducir los diferentes valores de intensidad del sonido asociados con las diferentes configuraciones de reproducción en los metadatos.

[0181] Una decimoséptima realización según la realización decimoquinta o decimosexta se refiere a un codificador de audio, que además comprende un controlador para determinar qué grupo debe utilizarse para una compensación de intensidad del sonido o no, y en el que el escritor de metadatos está configurado para escribir una indicación en los metadatos que indica qué grupo debe utilizarse o qué grupo no debe utilizarse para la compensación de intensidad del sonido.

[0182] Una decimoctava realización según una de la realización decimoquinta a decimoséptima se refiere a un codificador de audio, en el cual el determinador de intensidad del sonido está configurado para calcular un valor de intensidad del sonido de grupo para un grupo, en el cual el valor de intensidad del sonido de grupo para el grupo falta en los metadatos, y en el cual el escritor de metadatos está configurado para introducir el valor de intensidad del sonido que falta en los metadatos de manera que todos los grupos de la señal de audio tengan información de intensidad del sonido de referencia asociada.

[0183] Una decimonovena realización se refiere a un procedimiento para procesar una señal de audio, que comprende: modificar la señal de audio en respuesta a una entrada del usuario; determinar una ganancia de compensación de intensidad del sonido sobre la base de una intensidad del sonido de referencia o una ganancia de referencia y una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario; y manipular una intensidad del sonido de una señal utilizando la ganancia de compensación de intensidad del sonido.

[0184] Una vigésima realización se refiere a un procedimiento para generar una señal de audio que comprende metadatos, que comprende: determinar una intensidad del sonido para un grupo que tiene uno o más objetos de audio; e introducir la intensidad del sonido para el grupo como una información de intensidad del sonido de referencia en los metadatos.

[0185] Una vigésimo primera realización se refiere a un programa informático para realizar, al ejecutarse en un ordenador o un procesador, el procedimiento según la realización decimonovena o el procedimiento según la realización vigésima.

[0186] Aunque algunos aspectos se han descrito en el contexto de un aparato, es claro que estos aspectos representan también una descripción del procedimiento correspondiente, donde un bloque o dispositivo se corresponde con una etapa del procedimiento o una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento representan también una descripción de un bloque o elemento correspondiente o característica de un aparato correspondiente. Alguna o todas las etapas del procedimiento pueden ejecutarse por medio de (o utilizando) un aparato de hardware como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas más importantes del procedimiento pueden ser ejecutadas por tal aparato.

[0187] La señal transmitida o codificada de la invención puede almacenarse en un medio de almacenamiento digital o se puede transmitir en un medio de transmisión como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.

[0188] Según ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un Dv D, un Blu-Ray, un CD, una ROM, una PROM y una EPROM, una EEPROM o una memoria FLASH, que tengan señales de control legibles electrónicamente almacenadas en los mismos, que cooperen (o sean capaces de cooperar) con un sistema informático programable de manera que se realice el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

[0189] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de manera que se realiza uno de los procedimientos descritos en esta invención.

[0190] En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, estando el código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.

[0191] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.

[0192] En otras palabras, una realización del procedimiento inventivo es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.

[0193] Otra realización del procedimiento inventivo es, por lo tanto, un soporte de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.

[0194] Otra realización del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden, por ejemplo, estar configurados para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.

[0195] Otra realización comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los procedimientos descritos en esta invención.

[0196] Otra realización comprende un ordenador que tiene instalado en sí el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0197] Otra realización según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, de manera electrónica u óptica) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.

[0198] En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programables por campo) puede utilizarse para realizar alguna o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables por campo puede cooperar con un microprocesador para realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos son realizados preferentemente por cualquier aparato de hardware.

[0199] Las realizaciones descritas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles descritos en esta invención serán evidentes para otros expertos en la técnica. Por lo tanto, se pretende que esté limitada solo por el alcance de las reivindicaciones de patente a continuación y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.

Claims

REIVINDICACIONES

1. Procesador de audio (1) para procesar una señal de audio (100), la señal de audio (100) que comprende metadatos, comprendiendo el procesador de audio (1):

un modificador de señal de audio (2) configurado para modificar la señal de audio (100) en respuesta a una entrada de usuario para obtener una señal modificada;

un controlador de intensidad del sonido (6) configurado para determinar una ganancia de compensación de intensidad del sonido sobre la base de, por un lado, una intensidad del sonido de referencia o una ganancia de referencia correspondiente a una escena de audio original y, por el otro lado, una intensidad del sonido modificada o una ganancia modificada, donde la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario,

en el que el procesador de audio está configurado para calcular una ganancia de normalización de intensidad del sonido basada en la información de intensidad del sonido transmitida incluida en los metadatos y un nivel de intensidad del sonido objetivo establecido por la entrada del usuario, y

un manipulador de intensidad del sonido (5), en el que el manipulador de intensidad del sonido (5) está configurado para manipular la intensidad del sonido de la señal modificada utilizando la ganancia de compensación de intensidad del sonido, en el que el manipulador de intensidad del sonido (5) está configurado para aplicar la ganancia de compensación de intensidad del sonido junto con la ganancia de normalización de intensidad del sonido a la señal modificada, y

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que indica qué grupo se utilizará o no para determinar la ganancia de compensación de intensidad del sonido, y en el que el grupo comprende uno o más elementos de audio, o

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que se refieren al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio, o

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que indica si un grupo está desactivado o activado, en el que el grupo comprende uno o más elementos de audio, o

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) con al menos un grupo de intensidad del sonido que falta en los metadatos de un grupo que comprende uno o más elementos de audio comprendidos por la señal de audio (100), o

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) en referencia a una configuración de reproducción para una reproducción de la señal de audio (100).

2. Procesador de audio (1) de la reivindicación 1,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de los metadatos de la señal de audio (100) que indica qué grupo se va a utilizar o no para determinar la ganancia de compensación de intensidad del sonido, y en el que el grupo comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de al menos una bandera compuesta por los datos de los metadatos, y en el que la bandera indica si se debe considerar un grupo o cómo se debe considerar para determinar la ganancia de compensación de intensidad del sonido.

3. Procesador de audio (1) de la reivindicación 1 o 2, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que indica qué grupo se va a utilizar o no para determinar la ganancia de compensación de intensidad del sonido, y en el que el grupo comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para usar solo grupos para determinar la ganancia de compensación de intensidad del sonido cuando los grupos pertenecen a un ancla compuesta por los metadatos de la señal de audio (100).

4. Procesador de audio (1) de la reivindicación 3, en el que el controlador de intensidad del sonido (6) está configurado para usar solamente los grupos que pertenecen al ancla para determinar la ganancia de compensación de intensidad del sonido cuando la ganancia modificada de al menos un grupo que pertenece al ancla es mayor que la ganancia de referencia correspondiente, y/o

en el que el controlador de intensidad del sonido (6) está configurado para usar grupos que pertenecen al ancla y grupos que faltan del ancla para determinar la ganancia de compensación de intensidad del sonido cuando la ganancia modificada de al menos un grupo que pertenece al ancla es menor que la ganancia de referencia correspondiente, y en el que la ganancia modificada depende de la entrada del usuario.

5. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 4, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que se refieren al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de las intensidades del sonido de grupo y/o las ganancias de referencia del al menos un grupo del conjunto al que hace referencia el preajuste.

6. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 5, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) que se refieren al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para determinar una intensidad del sonido de referencia para el conjunto al que hace referencia el preajuste utilizando las intensidades del sonido del grupo respectivo y las ganancias de referencia respectivas,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la intensidad del sonido modificada para el conjunto al que hace referencia el preajuste utilizando las intensidades del sonido de grupo respectivas y las ganancias modificadas respectivas, y

en el que las ganancias modificadas son modificadas por la entrada del usuario.

7. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 6,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de metadatos de la señal de audio (100) que se refiere al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los datos de los metadatos que se refieren a un preajuste seleccionado, y en el que el preajuste se selecciona mediante la entrada del usuario.

8. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 7, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido basada en los metadatos de la señal de audio (100) en referencia al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los datos de los metadatos que se refieren a un preajuste predeterminado, y

en el que el preajuste predeterminado se establece antes o independientemente de la entrada del usuario.

9. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 8, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de los metadatos de la señal de audio (100) que indica si un grupo se desactiva o se activa, en el que el grupo comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para descartar un grupo para determinar la intensidad del sonido modificada cuando el grupo se desactiva en respuesta a la entrada del usuario.

10. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 9, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido sobre la base de los metadatos de la señal de audio (100) que indican si un grupo está desactivado o activado, en el que el grupo comprende uno o más elementos de audio,

en el que el controlador de intensidad del sonido (6) está configurado para descartar un grupo para determinar la intensidad del sonido de referencia cuando el grupo se desactiva en los metadatos e incluir el grupo para determinar la intensidad del sonido modificada cuando el grupo es activado por la entrada del usuario, y/ o

en el que el controlador de intensidad del sonido (6) está configurado para incluir un grupo para determinar la intensidad del sonido de referencia cuando el grupo está activado en los metadatos y para excluir el grupo para determinar la intensidad del sonido modificada cuando el grupo es desactivado por la entrada del usuario.

11. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 10, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido basada en los metadatos de la señal de audio (100) con al menos un grupo de intensidad del sonido que falta en los metadatos de un grupo comprendido por la señal de audio (100); y

en el que el controlador de intensidad del sonido (6) está configurado para calcular la intensidad del sonido del grupo que falta usando una intensidad del sonido del preajuste, la ganancia de referencia del grupo con la intensidad del sonido del grupo que falta así como las intensidades del sonido del grupo y las ganancias de referencia para los grupos que tienen una intensidad del sonido del grupo.

12. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 11, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido basada en los metadatos de la señal de audio (100) con al menos un grupo de intensidad del sonido que falta en los metadatos de un grupo comprendido por la señal de audio (100); y

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en el caso de que los metadatos de la señal de audio (100) falten al menos un grupo de intensidad del sonido para una compensación de intensidad del sonido ciega usando solo al menos una ganancia de referencia y al menos una ganancia modificada.

13. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 12, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) con al menos una intensidad del sonido de grupo que falta en los metadatos de un grupo comprendido por la señal de audio (100); y

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en el caso de que los metadatos de la señal de audio (100) carezcan de intensidades del sonido de grupo para una compensación de intensidad del sonido ciega usando solo al menos una ganancia de referencia y al menos una ganancia modificada.

14. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 13, en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los metadatos de la señal de audio (100) en referencia a una configuración de reproducción para una reproducción de la señal de audio (100); y

en el que el controlador de intensidad del sonido (6) está configurado para determinar la ganancia de compensación de intensidad del sonido en función de los datos de los metadatos que se refieren a una configuración de reproducción y que comprende intensidades del sonido de grupo asociadas para grupos, comprendiendo cada grupo uno o más elementos de audio y/o las ganancias de referencia.

15. Procesador de audio (1) de cualquiera de las reivindicaciones 1 o 14, en el que la señal de audio (100) comprende un flujo de bits con los metadatos, y

en el que los metadatos comprenden la ganancia de referencia para al menos un grupo o una intensidad del sonido de grupo para al menos un grupo.

16. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 15, en el que el controlador de intensidad del sonido (6) está configurado para determinar la intensidad del sonido de referencia para al menos un grupo que utiliza la intensidad del sonido de grupo y la ganancia de referencia para el grupo.

en el que el controlador de intensidad del sonido (6) está configurado para determinar la intensidad del sonido modificada para el grupo que utiliza la intensidad del sonido del grupo y la ganancia modificada,

en el que la ganancia modificada es modificada por la entrada del usuario.

17. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 16, en el que el controlador de intensidad del sonido (6) está configurado para determinar la intensidad del sonido de referencia para una pluralidad de grupos que utilizan las respectivos intensidades del sonido de grupo y las ganancias de referencia para los grupos. en el que el controlador de intensidad del sonido (6) está configurado para determinar la intensidad del sonido modificada para una pluralidad de grupos que utilizan la intensidad del sonido del grupo respectivo y la ganancia modificada para los grupos.

18. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 17, en el que el controlador de intensidad del sonido (6) está configurado para realizar una operación de limitación en la ganancia de compensación de intensidad del sonido para que la ganancia de compensación de intensidad del sonido sea inferior a un umbral superior y/o para que la ganancia de compensación de intensidad del sonido sea mayor que un umbral inferior.

19. Procesador de audio (1) de cualquiera de las reivindicaciones 1 a 18,

en el que el manipulador de intensidad del sonido (5) está configurado para aplicar una ganancia corregida a la señal modificada, en el que la ganancia corregida está determinada por la ganancia de compensación de intensidad del sonido y la ganancia de normalización de intensidad del sonido, y en el que la ganancia de normalización de intensidad del sonido está determinada por el nivel de intensidad del sonido objetivo y un nivel de intensidad del sonido de metadatos como la información de intensidad del sonido transmitida comprendida por los metadatos de la señal de audio (100), o

en el que el manipulador de intensidad del sonido (5) está configurado para realizar una normalización de intensidad del sonido basada en la ganancia de normalización de intensidad del sonido y una compensación de intensidad del sonido separada que utiliza una versión limitada de la ganancia de compensación de intensidad del sonido.

20. Codificador de audio (20) para generar una señal de audio (100) que comprende metadatos, que comprende:

un determinador de intensidad del sonido (21) para determinar un valor de intensidad del sonido para al menos un grupo que tiene uno o más elementos de audio (50); y

un escritor de metadatos (22) para introducir el valor de intensidad del sonido determinado como intensidad del sonido de grupo en los metadatos y para introducir un nivel de intensidad del sonido medido de la señal de audio (100) en los metadatos,

que comprende además un controlador (23), en el que el controlador (23) está configurado para determinar qué grupo se va a utilizar para determinar una ganancia de compensación de intensidad del sonido o se va a descartar, y en el que el escritor de metadatos (22) está configurado para escribir una indicación en los metadatos indicando qué grupo se va a utilizar o se va a descartar para determinar la ganancia de compensación de intensidad del sonido, o

en el que el determinador de intensidad del sonido (21) está configurado para determinar diferentes valores de intensidad del sonido y/o diferentes valores de ganancia para diferentes preajustes que se refieren a conjuntos de al menos un grupo que comprende uno o más elementos de audio, y en el que el escritor de metadatos (22) está configurado para introducir los diferentes valores de intensidad del sonido determinados y/o diferentes valores de ganancia en asociación con el preajuste respectivo en los metadatos, o

en el que el escritor de metadatos (22) está configurado para introducir si un grupo está desactivado o activado para determinar una intensidad del sonido de referencia en un decodificador, o

en el que el escritor de metadatos (22) está configurado para introducir el valor de intensidad del sonido determinado como una intensidad del sonido de grupo en los metadatos, y en el que falta al menos una intensidad del sonido de grupo en los metadatos, o

en el que el determinador de intensidad del sonido (21) está configurado para determinar diferentes valores de intensidad del sonido y/o diferentes valores de ganancia para diferentes configuraciones de reproducción, y en el que el escritor de metadatos (22) está configurado para introducir los diferentes valores de intensidad del sonido determinados y/o diferentes valores de ganancia en asociación con la respectiva configuración de reproducción en los metadatos.

21. Codificador de audio (20) de la reivindicación 20, que comprende además un estimador (24), en el que el estimador está configurado para calcular un valor de intensidad del sonido de grupo para un grupo, en el que el valor de intensidad del sonido de grupo para este grupo no está determinado por el determinador de intensidad del sonido,

y en el que el escritor de metadatos (22) está configurado para introducir el valor de intensidad del sonido de grupo calculado en los metadatos de modo que todos los grupos de la señal de audio (100) tengan intensidades del sonido de grupo asociadas.

22. Procedimiento para procesar una señal de audio (100), comprendiendo la señal de audio (100) metadatos, comprendiendo el procedimiento:

modificar la señal de audio (100) en respuesta a una entrada del usuario para obtener una señal modificada; determinar una ganancia de compensación de intensidad del sonido basada, por un lado, en una intensidad del sonido de referencia o una ganancia de referencia correspondiente a una escena de audio original y, por otro lado, en una intensidad del sonido modificada o una ganancia modificada, en el que la intensidad del sonido modificada o la ganancia modificada depende de la entrada del usuario,

en el que se determina una ganancia de normalización de intensidad del sonido en función de la información de intensidad del sonido transmitida incluida en los metadatos y un nivel de intensidad del sonido objetivo establecido por la entrada del usuario, y

manipular la intensidad del sonido de la señal modificada, comprendiendo la manipulación aplicar la ganancia de compensación de intensidad del sonido junto con la ganancia de normalización de intensidad del sonido a la señal modificada, en el que la ganancia de compensación de intensidad del sonido se determina en función de los metadatos de la señal de audio (100) que indican qué grupo se va a utilizar o no se va a utilizar para determinar la ganancia de compensación de intensidad del sonido, y en el que el grupo comprende uno o más elementos de audio, y/o

en el que la ganancia de compensación de intensidad del sonido se determina en función de los metadatos de la señal de audio (100) con referencia al menos a un preajuste, en el que el preajuste se refiere a un conjunto de al menos un grupo que comprende uno o más elementos de audio, y/o

en el que la ganancia de compensación de intensidad del sonido se determina en base a los metadatos de la señal de audio (100) que indica si un grupo está desactivado o activado, en el que el grupo comprende uno o más elementos de audio, y/o en el que la ganancia de compensación de intensidad del sonido se determina en base a los metadatos de la señal de audio (100) con al menos un grupo de intensidad del sonido que falta en los metadatos de un grupo que comprende uno o más elementos de audio comprendidos por la señal de audio (100), y/o en el que la ganancia de compensación de intensidad del sonido se determina en base a los metadatos de la señal de audio (100) en referencia a una configuración de reproducción para una reproducción de la señal de audio (100).

23. Procedimiento para generar una señal de audio (100) que comprende metadatos, que comprende:

determinar un valor de intensidad del sonido para un grupo que tiene uno o más elementos de audio; e introducir el valor de intensidad del sonido determinado para el grupo como intensidad del sonido de grupo en los metadatos e introducir un nivel de intensidad del sonido medido de la señal de audio (100) en los metadatos, que comprende además determinar qué grupo se va a utilizar para determinar una ganancia de compensación de intensidad del sonido o se va a descartar, y escribir una indicación en los metadatos que indica qué grupo se va a utilizar o se va a descartar para determinar la ganancia de compensación de intensidad del sonido, o determinar diferentes valores de intensidad del sonido y/o diferentes valores de ganancia para diferentes preajustes en referencia a conjuntos de al menos un grupo que comprende uno o más elementos de audio, e introducir los diferentes valores de intensidad del sonido determinados y/o diferentes valores de ganancia en asociación con el preajuste respectivo en los metadatos, o

introducir en los metadatos, tanto si un grupo está desactivado como activado para determinar una intensidad del sonido de referencia en un decodificador, o

introducir en los metadatos el valor de intensidad del sonido determinado como intensidad del sonido de grupo en los metadatos, y en el que falta al menos una intensidad del sonido de grupo en los metadatos, o determinar diferentes valores de intensidad del sonido y/o diferentes valores de ganancia para diferentes configuraciones de reproducción, e introducir los diferentes valores de intensidad del sonido y/o diferentes valores de ganancia determinados en asociación con la respectiva configuración de reproducción en los metadatos.

24. Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el procedimiento de la reivindicación 22 o el procedimiento de la reivindicación 23.