ES2709117T3 - Codificador y decodificador de audio - Google Patents

Codificador y decodificador de audio Download PDF

Info

Publication number
ES2709117T3
ES2709117T3 ES15771962T ES15771962T ES2709117T3 ES 2709117 T3 ES2709117 T3 ES 2709117T3 ES 15771962 T ES15771962 T ES 15771962T ES 15771962 T ES15771962 T ES 15771962T ES 2709117 T3 ES2709117 T3 ES 2709117T3
Authority
ES
Spain
Prior art keywords
dialogue
coefficients
audio
downmix
single object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15771962T
Other languages
English (en)
Inventor
Jeroen Koppens
Lars Villemoes
Toni Hirvonen
Kristofer Kjoerling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2709117T3 publication Critical patent/ES2709117T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método para mejorar el diálogo en un decodificador (100, 200, 300) en un sistema de audio, que comprende las siguientes etapas: recibir una pluralidad de señales de mezcla descendente (110), donde las señales de mezcla descendente (110) son una mezcla descendente de una pluralidad de objetos de audio (126), que incluyen al único objeto como mínimo que representa un diálogo, recibir información complementaria (108) indicativa de los coeficientes que permiten la reconstrucción de la pluralidad de objetos de audio (126), a partir de la pluralidad de señales de mezcla descendente (110), recibir datos (108) que identifican cuál de la pluralidad de objetos de audio representa un diálogo, caracterizado por modificar los coeficientes utilizando un parámetro mejorador (140) y los datos (108), identificando cuál de la pluralidad de objetos de audio representa un diálogo y reconstruir al único objeto como mínimo que representa un diálogo (126, 206) usando los coeficientes modificados (120, 142, 218).

Description

DESCRIPCION
Codificador y decodificador de audio
Campo tecnico
La descripcion en este documento se refiere, en general, a la codificacion de audio. En particular, se refiere a un metodo y a un aparato para mejorar el dialogo en un decodificador en un sistema de audio. La descripcion se refiere, ademas, a un metodo y a un aparato para codificar una pluralidad de objetos de audio, los cuales incluyen al menos un objeto que representa un dialogo.
Tecnica anterior
En los sistemas de audio convencionales, se emplea un enfoque basado en canales. Por ejemplo, cada canal puede representar el contenido de un altavoz o de un conjunto de altavoces. Los posibles esquemas de codificacion para tales sistemas incluyen la codificacion multicanal discreta o la codificacion parametrica, como MPEG Surround. Mas recientemente, se ha desarrollado un nuevo enfoque. Este enfoque esta basado en objetos, lo que puede ser ventajoso al codificar escenas de audio complejas, por ejemplo, en aplicaciones de cine. En los sistemas que emplean el enfoque basado en objetos, una escena de audio tridimensional se representa mediante objetos de audio, con sus metadatos asociados (por ejemplo, metadatos de posicion). Estos objetos de audio se mueven en la escena de audio tridimensional durante la reproduccion de la senal de audio. El sistema puede incluir, ademas, los llamados canales de lecho, que pueden describirse como senales que se asignan directamente a ciertos canales de salida, por ejemplo, de un sistema de audio convencional como se describio anteriormente.
La mejora del dialogo es una tecnica para mejorar o aumentar el nivel de dialogo en relacion con otros componentes, tales como musica, sonidos de fondo y efectos de sonido. El contenido de audio basado en objetos puede ser adecuado para la mejora del dialogo, ya que el dialogo puede representarse mediante objetos separados. Por ejemplo, en su “Proposal for extension of sAo C technology for Advanced Clean Audio functionality [Propuesta para la extension de la tecnologfa SAOC para funcionalidad avanzada de audio limpio], presentada como contribucion m29208 en la reunion de MPEG2013 en Incheon, Hellmuth y colaboradores proponen extender el estandar de codificacion de objetos de audio espacial (SAOC) para permitir la modificacion de la ganancia relativa entre los objetos de primer plano, tales como el dialogo, y los objetos de fondo. Otro ejemplo se provee en Engdegard y colaboradores, que en “Spatial Audio Object (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding” [“Objeto de audio espacial (SAOC) - El estandar MPEG que se viene sobre codificacion de audio basada en objetos parametricos”, presentado como el documento 7377 en la 124.a convencion de la Audio Engineering Society, donde se sugiere que mediante el uso de las tecnicas de SAOC, el usuario puede remezclar interactivamente los diferentes sonidos en una mezcla, como por ejemplo, cambiar el nivel de dialogo con respecto a la musica de fondo. Sin embargo, en algunas situaciones, la escena de audio puede comprender una gran cantidad de objetos. Para reducir la complejidad y la cantidad de datos requeridos para representar la escena de audio, la escena de audio puede simplificarse reduciendo el numero de objetos de audio, es decir, por agrupacion de objetos. Este enfoque puede introducir la mezcla entre el dialogo y otros objetos en algunos de los grupos de objetos.
Al incluir las posibilidades de mejora del dialogo para dichos grupos de audio en un decodificador en un sistema de audio, la complejidad computacional del decodificador puede incrementarse.
Breve descripcion de los dibujos
A continuacion se describiran realizaciones ejemplares con referencia a los dibujos adjuntos, en los cuales:
La figura 1 muestra un diagrama de bloques generalizado de un decodificador de alta calidad, para mejorar el dialogo en un sistema de audio, de acuerdo con las realizaciones ejemplares.
La figura 2 muestra un primer diagrama de bloques generalizado de un decodificador de baja complejidad, para mejorar el dialogo en un sistema de audio, de acuerdo con las realizaciones ejemplares.
La figura 3 muestra un segundo diagrama de bloques generalizado de un decodificador de baja complejidad, para mejorar el dialogo en un sistema de audio de acuerdo con las realizaciones ejemplares.
La figura 4 describe un metodo para codificar una pluralidad de objetos de audio, que incluye al menos un objeto que representa un dialogo, de acuerdo con las realizaciones ejemplares.
La figura 5 muestra un diagrama de bloques generalizado de un codificador para codificar una pluralidad de objetos de audio, que incluye al menos un objeto que representa un dialogo de acuerdo con las realizaciones ejemplares. Todas las figuras son esquematicas y, en general, solo muestran las partes que son necesarias para dilucidar la descripcion, mientras que otras partes pueden omitirse o simplemente sugerirse. A menos que se indique lo contrario, los numeros de referencia similares se refieren a partes similares en las diferentes figuras.
Descripcion detallada
En vista de lo anterior, el objetivo reside en proporcionar codificadores y decodificadores y metodos asociados, con el objeto de reducir la complejidad de la mejora del dialogo en el decodificador.
I. Generalidades: decodificador
De acuerdo con un primer aspecto, las realizaciones ejemplares proponen metodos de decodificacion, decodificadores y productos de programas informaticos para la decodificacion. Los metodos, decodificadores y productos de programas informaticos propuestos generalmente pueden tener las mismas caractensticas y ventajas. Segun las realizaciones ejemplares, se proporciona un metodo para mejorar el dialogo en un decodificador en un sistema de audio, que comprende las siguientes etapas: recibir una pluralidad de senales de mezcla descendente, en donde las senales de mezcla descendente son una mezcla descendente de una pluralidad de objetos de audio, que incluyen al menos un objeto que representa un cuadro de dialogo; recibir informacion complementaria, indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente; recibir datos que identifican cual de la pluralidad de objetos de audio representa un cuadro de dialogo; modificar los coeficientes utilizando un parametro mejorador y los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo, y reconstruir el unico objeto como mmimo que representa un dialogo, utilizando los coeficientes modificados.
El parametro mejorador suele ser una configuracion del usuario, disponible en el decodificador. Por ejemplo, un usuario puede usar un control remoto para subir el volumen del dialogo. En consecuencia, el parametro mejorador no suele proporcionarse al decodificador mediante un codificador en el sistema de audio. En muchos casos, el parametro mejorador se traduce en una ganancia del dialogo, pero tambien puede traducirse en una atenuacion del dialogo. Ademas, el parametro mejorador puede relacionarse con ciertas frecuencias del dialogo, por ejemplo, una ganancia dependiente de la frecuencia o atenuacion del dialogo.
Por el termino “dialogo”, en el contexto de la presente memoria descriptiva, debe entenderse que en algunas realizaciones, solo se mejora el dialogo relevante -y no, por ejemplo, la charla de fondo ni cualquier version reverberante del dialogo. Un dialogo puede comprender una conversacion entre personas, pero tambien un monologo, una narracion u otro discurso.
Como se usa aqrn, el “objeto de audio” se refiere a un elemento de una escena de audio. Un objeto de audio tipicamente comprende una senal de audio e informacion adicional, como la posicion del objeto en un espacio tridimensional. La informacion adicional se suele utilizar para renderizar de forma optima el objeto de audio en un sistema de reproduccion determinado. La frase “objeto de audio” tambien abarca un grupo de objetos de audio, es decir, un “grupo de objetos”. Un “grupo de objetos” representa una mezcla de al menos dos objetos de audio y generalmente comprende la mezcla de los objetos de audio como una senal de audio e informacion adicional, tal como la posicion del grupo de objetos en un espacio tridimensional. Los unicos dos objetos como mmimo en un grupo de objetos pueden mezclarse en funcion de que sus posiciones espaciales individuales esten cerca y de que la posicion espacial del grupo de objetos se elija como un promedio de las posiciones individuales de los objetos. Como se usa en este documento, una “senal de mezcla descendente” se refiere a una senal que es una combinacion del unico objeto como mmimo de audio de la pluralidad de objetos de audio. Otras senales de la escena de audio, como los canales de lecho, tambien pueden combinarse en la senal de mezcla descendente. El numero de senales de mezcla descendente por lo general (aunque no necesariamente) es menor que la suma del numero de objetos de audio y canales de lecho, lo que explica por que las senales de mezcla descendente se denominan mezcla descendente. Una senal de mezcla descendente tambien puede denominarse un “grupo de mezcla descendente”.
Como se usa en este documento, la “informacion complementaria” tambien se puede denominar “metadatas”.
En el contexto de la presente memoria descriptiva, por la expresion “informacion complementaria indicativa de coeficientes” debe entenderse que los coeficientes estan directamente presentes en la informacion complementaria enviada, por ejemplo, en un flujo de bits desde el codificador, o que se calculan a partir de los datos presentes en la informacion complementaria.
De acuerdo con el presente metodo, los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio se modifican para mejorar el unico objeto de audio como mmimo reconstruido en ultimo termino que representa un dialogo. En comparacion con el metodo convencional de realizar la mejora del unico objeto de audio como mmimo reconstruido y que representa un dialogo despues de que ha sido reconstruido -es decir, sin modificar los coeficientes que permiten la reconstruccion- el presente metodo ofrece una menor complejidad matematica y, por lo tanto, una complejidad computacional del decodificador que implementa el presente metodo. De acuerdo con las realizaciones ejemplares, la etapa de modificar los coeficientes utilizando el parametro mejorador comprende multiplicar los coeficientes que permiten la reconstruccion del unico objeto como mmimo que representa un dialogo con el parametro mejorador. Esta es una operacion de baja complejidad desde el punto de vista computacional, para modificar los coeficientes que aun mantiene la relacion mutua entre los coeficientes. De acuerdo con las realizaciones ejemplares, el metodo comprende ademas: calcular los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente provenientes de la informacion complementaria.
De acuerdo con las realizaciones ejemplares, la etapa de reconstruir el unico objeto como mmimo que representa un dialogo comprende reconstruir solo el unico objeto como mmimo que representa un dialogo.
En muchos casos, las senales de mezcla descendente pueden corresponder a una renderizacion o salida de la escena de audio a una configuracion de altavoz dada, por ejemplo, una configuracion 5.1 estandar. En tales casos, la decodificacion de baja complejidad se puede lograr solo reconstruyendo los objetos de audio que representan el dialogo a mejorar, es decir, no realizar una reconstruccion completa de todos los objetos de audio.
De acuerdo con las realizaciones ejemplares, la reconstruccion de solo el unico objeto como mmimo que representa un dialogo no implica la descorrelacion de las senales de mezcla descendente. Esto reduce la complejidad de la etapa de reconstruccion. Ademas, dado que no todos los objetos de audio se reconstruyen, es decir, la calidad del contenido de audio que se va a renederizar puede reducirse para esos objetos de audio, el uso de la descorrelacion al reconstruir el unico objeto como mmimo que representa el dialogo no mejorana la calidad de audio percibida del contenido de audio renderizado que se ha mejorado. En consecuencia, la decorrelacion puede omitirse.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, la etapa de: fusionar el unico objeto como mmimo que representa el dialogo reconstruido con las senales de mezcla descendente como una unica senal separada como mmimo. En consecuencia, el unico objeto como mmimo reconstruido no necesita mezclarse o combinarse otra vez con las senales de mezcla descendente. Por consiguiente, de acuerdo con esta realizacion, no se necesita informacion que describa como se mezclo el unico objeto como mmimo que representa un dialogo con la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, recibir datos con informacion espacial correspondiente a las posiciones espaciales para la pluralidad de senales de mezcla descendente y para el unico objeto como mmimo que representa un dialogo, y renderizar la pluralidad de senales de mezcla descendente y el unico objeto como mmimo que representa un dialogo reconstruido en funcion de los datos con informacion espacial. De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, combinar las senales de mezcla descendente y el unico objeto como mmimo que representa un dialogo reconstruido utilizando informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio. Las senales de mezcla descendente se pueden mezclar en forma descendente como soporte de salida de audio siempre (AAO, always audio out) para una determinada configuracion de altavoz (por ejemplo, una configuracion 5.1 o una configuracion 7.1), es decir, las senales de mezcla descendente se pueden utilizar directamente para la reproduccion en una configuracion de este tipo de altavoz. Al combinar las senales de mezcla descendente y el unico objeto como mmimo que representa un cuadro de dialogo reconstruido, la mejora del dialogo se logra al mismo tiempo que todavfa se admite AAO. En otras palabras, de acuerdo con algunas realizaciones, el unico objeto como mmimo que representa un dialogo reconstruido y con una mejora en el dialogo, se mezcla nuevamente en las senales de mezcla descendente para seguir siendo compatible con AAO.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, renderizar la combinacion de las senales de mezcla descendente y el unico objeto como mmimo que representa un dialogo reconstruido.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, recibir informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio. El codificador en el sistema de audio ya puede tener este tipo de informacion al mezclar en forma descendente la pluralidad de objetos de audio, que incluye al unico objeto como mmimo que representa un dialogo; alternativamente, la informacion puede calcularse facilmente mediante el codificador.
De acuerdo con las realizaciones ejemplares, la informacion recibida que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente se codifica por codificacion de entropfa. Esto puede reducir la tasa de bits requerida para transmitir la informacion.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, las etapas de: recibir datos con informacion espacial correspondiente a las posiciones espaciales para la pluralidad de senales de mezcla descendente y para el unico objeto como mmimo que representa un dialogo, y calcular la informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio, basandose en los datos con informacion espacial. Una ventaja de esta realizacion puede ser que se reduce la tasa de bits requerida para transmitir el flujo de bits que incluye las senales de mezcla descendente y la informacion complementaria al codificador, ya que la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de senales de mezcla descendente y para el unico objeto como mmimo que representa un dialogo puede recibirse de todas maneras y no es necesario que el decodificador reciba mas informacion o datos.
De acuerdo con las realizaciones ejemplares, la etapa de calcular la informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente comprende la aplicacion de una funcion que mapea la posicion espacial para el unico objeto como mmimo que representa un dialogo en las posiciones espaciales para la pluralidad de senales de mezcla descendente. La funcion puede ser, por ejemplo, un algoritmo de panoramizacion 3D tal como un algoritmo de panoramizacion de amplitud base vectorial (VBAP, Vector Base Amplitude Panning). Se puede utilizar cualquier otra funcion adecuada.
De acuerdo con las realizaciones ejemplares, la etapa de reconstruir el unico objeto como mmimo que representa un dialogo comprende reconstruir la pluralidad de objetos de audio. En ese caso, el metodo puede comprender recibir datos con informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio, y representar la pluralidad reconstruida de objetos de audio basandose en los datos con informacion espacial. Dado que la mejora del dialogo se realiza en los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio, como se describio anteriormente, la reconstruccion de la pluralidad de objetos de audio y la renderizacion objeto de audio reconstruido, que son operaciones de matriz, pueden combinarse en una sola operacion que reduce la complejidad de las dos operaciones.
De acuerdo con las realizaciones ejemplares, se proporciona un medio legible por computadora que comprende instrucciones de codigos informaticos adaptadas para llevar a cabo cualquier metodo del primer aspecto cuando se ejecuta en un dispositivo que tiene capacidad de procesamiento.
Segun realizaciones ejemplares, se proporciona un decodificador para mejorar el dialogo en un sistema de audio. El decodificador comprende una etapa de recepcion configurada para: recibir una pluralidad de senales de mezcla descendente, en donde las senales de mezcla descendente son una mezcla descendente de una pluralidad de objetos de audio, que incluyen al unico objeto como mmimo que representa un dialogo; recibir informacion complementaria, indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente y recibir datos que identifican cual de la pluralidad de objetos de audio representa un dialogo. El decodificador comprende, ademas, una etapa de modificacion configurada para modificar los coeficientes utilizando un parametro mejorador y los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo. El decodificador comprende, ademas, una etapa de reconstruccion, configurada para reconstruir el unico objeto como mmimo que representa un dialogo utilizando los coeficientes modificados.
II. Generalidades: codificador
Segun un segundo aspecto, las realizaciones ejemplares proponen metodos de codificacion, codificadores y productos de programas informaticos para la codificacion. Los metodos, codificadores y productos de programas de computadora propuestos generalmente pueden tener las mismas caractensticas y ventajas. En general, las caractensticas del segundo aspecto pueden tener las mismas ventajas que las caractensticas correspondientes del primer aspecto.
De acuerdo con las realizaciones ejemplares, se proporciona un metodo para codificar una pluralidad de objetos de audio, que incluye al unico objeto como mmimo que representa un dialogo, que comprende las siguientes etapas: determinar una pluralidad de senales de mezcla descendente, que es una mezcla descendente de la pluralidad de objetos de audio que incluyen al menos un objeto representando un dialogo; determinar la informacion complementaria indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente; determinar los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo y formar un flujo de bits que comprende la pluralidad de senales de mezcla descendente, la informacion complementaria y los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, las etapas para determinar la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de senales de mezcla descendente y para el unico objeto como mmimo que representa un dialogo, e incluir dicha informacion espacial en el flujo de bits.
Segun realizaciones ejemplares, la etapa de determinar una pluralidad de senales de mezcla descendente comprende, ademas, determinar informacion que describe como se mezcla el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente. Esta informacion que describe como se mezcla el unico objeto como mmimo que representa un dialogo con la pluralidad de senales de mezcla descendente esta de acuerdo con esta realizacion incluida en el flujo de bits.
De acuerdo con las realizaciones ejemplares, la informacion determinada que describe como se mezcla el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente se codifica utilizando la codificacion de entrc^a.
De acuerdo con las realizaciones ejemplares, el metodo comprende, ademas, las etapas de determinar la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio, e incluir la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio en el flujo de bits.
De acuerdo con las realizaciones ejemplares, se proporciona un medio legible por computadora que comprende instrucciones de codigos informaticos adaptadas para llevar a cabo cualquier metodo del segundo aspecto, cuando se ejecuta en un dispositivo que tiene capacidad de procesamiento.
De acuerdo con las realizaciones ejemplares, se proporciona un codificador para codificar una pluralidad de objetos de audio que incluyen al unico objeto como mmimo que representa un dialogo. El codificador comprende una etapa de mezcla descendente, configurada para: determinar una pluralidad de senales de mezcla descendente que es una mezcla descendente de la pluralidad de objetos de audio que incluye al unico objeto como mmimo que representa un dialogo; determinar informacion complementaria que comprende indicativos de coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente y una etapa de codificacion configurada para: formar un flujo de bits que comprende la pluralidad de senales de mezcla descendente y la informacion complementaria, en donde el flujo de bits comprende, ademas, datos que identifican cual de la pluralidad de objetos de audio representa un dialogo.
III. Realizaciones ejemplares
Como se describio anteriormente, la mejora del dialogo se trata de aumentar el nivel de dialogo en relacion con los otros componentes de audio. Cuando se organiza correctamente desde la creacion de contenido, el contenido del objeto es adecuado para la mejora del dialogo, ya que el dialogo puede representarse por objetos separados. La codificacion parametrica de los objetos (es decir, grupos de objetos o senales de mezcla descendente) puede introducir la mezcla entre el dialogo y otros objetos.
A continuacion se describira un decodificador para mejorar el dialogo mezclado en tales grupos de objetos, junto con las figuras 1-3. La figura 1, muestra un diagrama de bloques generalizado de un decodificador 100 de alta calidad, para mejorar el dialogo en un sistema de audio de acuerdo con las realizaciones ejemplares. El decodificador 100 recibe un flujo de bits 102 en una etapa de recepcion 104. La etapa de recepcion 104 tambien puede verse como un decodificador nucleo, que decodifica al flujo de bits 102 y genera el contenido decodificado del flujo de bits 102. El flujo de bits 102 puede comprender, por ejemplo, una la pluralidad de senales de mezcla descendente 110 o grupos de mezcla descendente, que son una mezcla descendente de una pluralidad de objetos de audio que incluyen al unico objeto como mmimo que representa un dialogo. Por lo general, la etapa de recepcion comprende un componente de decodificador de mezcla descendente que puede adaptarse para decodificar partes del flujo de bits 102 para formar las senales de mezcla descendente 110, de manera que sean compatibles con el sistema de decodificacion de sonido del decodificador, como Dolby Digital Plus o los estandares MPEg , tales como AAC, USAC o MP3. El flujo de bits 102 puede comprender, ademas, informacion complementaria 108 indicativa de coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente. Para una mejora eficiente del dialogo, el flujo de bits 102 puede comprender, ademas, los datos 108 que identifican cual de la pluralidad de objetos de audio representa un dialogo. Estos datos 108 pueden incorporarse en la informacion complementaria 108, o pueden estar separados de la informacion complementaria 108. Como se explica en detalle a continuacion, la informacion complementaria 108 tfpicamente comprende mezcla seca ascendente de los coeficientes que pueden traducirse en una matriz de mezcla ascendente seca C y coeficientes de mezcla ascendente humeda que se pueden traducir en una matriz de mezcla ascendente humeda P.
El decodificador 100 comprende, ademas, una etapa de modificacion 112, que esta configurada para modificar los coeficientes indicados en la informacion complementaria 108, mediante el uso de un parametro mejorador 140 y los datos 108 que identifican cual de la pluralidad de objetos de audio representa un dialogo. El parametro mejorador 140 se puede ser recibido en la etapa de modificacion 112, de cualquier manera adecuada. De acuerdo con las realizaciones, la etapa de modificacion 112 modifica tanto la matriz de mezcla ascendente seca C como la matriz de mezcla ascendente humeda P, en donde al menos los coeficientes correspondientes al dialogo.
La etapa de modificacion 112 esta aplicando asf la mejora de dialogo deseada a los coeficientes correspondientes al o a los objetos de dialogo. Segun una realizacion, la etapa de modificar los coeficientes utilizando el parametro mejorador 140 comprende multiplicar los coeficientes que permiten la reconstruccion del unico objeto como mmimo que representa un dialogo con el parametro mejorador 140. En otras palabras, la modificacion comprende una amplificacion fija de los coeficientes correspondientes a los objetos de dialogo.
En algunas formas de realizacion, el decodificador 100 comprende, ademas, una etapa de descorrelacion previa 114 y una etapa de decorrelacion 116. Estas dos etapas 114,116 forman conjuntamente versiones descorrelacionadas de las combinaciones de las senales de mezcla descendente 110, que se utilizaran mas adelante para la reconstruccion (por ejemplo, en la mezcla ascendente) de la pluralidad de objetos de audio provenientes de la pluralidad de senales de mezcla descendente 110. Como se puede ver en la figura 1, la informacion complementaria 108 se puede enviar a la etapa de descorrelacion previa 114 antes de la modificacion de los coeficientes en la etapa de modificacion 112. De acuerdo con las realizaciones, los coeficientes indicados en la informacion complementaria 108 se traducen en una matriz modificada de mezcla ascendente seca 120, una matriz modificada de mezcla ascendente humeda 142 y una matriz de descorrelacion previa Q, indicada como referencia 144 en la figura 1. La matriz modificada de mezcla ascendente humeda se usa para mezclar de manera ascendente las senales de descorrelacion 122 en una etapa de reconstruccion 124, como se describe a continuacion.
La matriz de descorrelacion previa Q se usa en la etapa de descorrelacion previa 114 y, de acuerdo con las realizaciones, puede calculase de la siguiente manera:
Q = (abs P)TC
donde abs P denota la matriz obtenida tomando valores absolutos de los elementos de la matriz de mezcla humeda ascendente P no modificada, y C denota la matriz de mezcla ascendente seca no modificada.
Se contemplan formas alternativas de calcular los coeficientes de descorrelacion previa Q, basados en la matriz de mezcla ascendente seca C y la matriz de mezcla ascendente humeda P. Por ejemplo, puede calcularse como Q = (abs Po)T C, donde la matriz Po se obtiene al normalizar cada columna de P.
El calculo de la matriz de descorrelacion previa Q solo implica calculos con una complejidad relativamente baja y, por lo tanto, puede emplearse de un modo conveniente del lado del decodificador. Sin embargo, segun algunas realizaciones, la matriz de descorrelacion previa Q se incluye en la informacion complementaria 108.
En otras palabras, el decodificador puede configurarse para calcular los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio 126 a partir de la pluralidad de senales de mezcla descendente provenientes de la informacion complementaria. De esta manera, la matriz de descorrelacion previa no se ve influenciada por ninguna modificacion hecha a los coeficientes en la etapa de modificacion, lo que puede ser ventajoso ya que, si se modifica la matriz de descorrelacion previa, el proceso de descorrelacion en la etapa de descorrelacion previa 114 y en la etapa de decorrelacion 116 puede introducir una mejora adicional del dialogo que podna no desearse. De acuerdo con otras realizaciones, la informacion complementaria se introduce en la etapa de descorrelacion previa 114 despues de la modificacion de los coeficientes en la etapa 112 de modificacion. Dado que el decodificador 100 es un decodificador de alta calidad, puede configurarse para reconstruir la pluralidad completa de objetos de audio. Esto se realiza en la etapa de reconstruccion 124. La etapa de reconstruccion 124 del decodificador 100 recibe asf las senales de mezcla descendente 110, las senales descorrelacionadas 122 y los coeficientes modificados 120, 142, que permiten la reconstruccion de la pluralidad de objetos de audio a partir de la pluralidad de senales de mezcla descendente 110. Asf, la etapa de reconstruccion puede reconstruir parametricamente los objetos de audio 126 antes de renderizar los objetos de audio en la configuracion de salida del sistema de audio, por ejemplo una salida de canal 7.1.4. Sin embargo, normalmente esto no ocurrira en muchos casos, ya que la reconstruccion de los objetos de audio en la etapa de reconstruccion 124 y la renderizacion en la etapa de renderizacion 128 son operaciones matriciales que pueden combinarse (denotadas por la lmea discontinua 134) para una implementacion computacionalmente eficiente. Para renderizar los objetos de audio en una posicion correcta en un espacio tridimensional, el flujo de bits 102 comprende, ademas, los datos 106 con informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio.
Puede observarse que, segun algunas realizaciones, el decodificador 100 se configurara para proporcionar los objetos reconstruidos como una salida, de manera que puedan procesarse y renderizarse fuera del decodificador. De acuerdo con esta realizacion, el decodificador 100 genera en consecuencia los objetos de audio reconstruidos 126 y no comprende la etapa de renderizacion 128.
La reconstruccion de los objetos de audio se realiza tfpicamente en un dominio de frecuencia, por ejemplo, un dominio de filtros espejo en cuadratura (QMF, Quadrature Mirror Filters). Sin embargo, es posible que el audio deba emitirse en un dominio de tiempo. Por esta razon, el decodificador comprende, ademas, una etapa de transformacion 132, en la que las senales renderizadas 130 se transforman en el dominio del tiempo, por ejemplo, aplicando un banco de filtros espejo de cuadratura inversa (IQMF, Inverse Quadrature Mirror Filters). De acuerdo con algunas realizaciones, la transformacion en la etapa de transformacion 132 al dominio del tiempo puede realizarse antes de renderizar las senales en la etapa de renderizacion 128.
En resumen, la implementacion del decodificador descrita en conjunto con la figura 1 implementa de manera eficiente la mejora del dialogo, al modificar los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio, a partir de la pluralidad de senales de mezcla descendente, antes de la reconstruccion de los objetos de audio. Realizar la mejora de los coeficientes cuesta unas pocas multiplicaciones por cuadro, una para cada coeficiente relacionado con el dialogo multiplicado por el numero de bandas de frecuencia. Lo mas probable es que, en casos tfpicos, el numero de multiplicaciones sea igual al numero de canales de mezcla descendente (por ejemplo, 5-7) multiplicado por el numero de bandas de parametros (por ejemplo, 20-40), pero podna ser mayor si el cuadro de dialogo tambien obtiene una contribucion de descorrelacion. En comparacion, la solucion de la tecnica anterior para realizar una mejora del dialogo en los objetos reconstruidos resulta en una multiplicacion por cada muestra multiplicada por el numero de bandas de frecuencia, dos para una senal compleja. Por lo general, esto llevara a una multiplicacion de 16 * 64 * 2 = 2048 por cuadro, a menudo mas.
Los sistemas de codificacion/decodificacion de audio generalmente dividen el espacio tiempo-frecuencia en mosaicos de tiempo/frecuencia, por ejemplo, aplicando bancos de filtros adecuados a las senales de audio de entrada. Por mosaico de tiempo/frecuencia se entiende una porcion del espacio tiempo-frecuencia correspondiente a un intervalo de tiempo y a una banda de frecuencia. El intervalo de tiempo suele corresponder a la duracion de un cuadro de tiempo utilizado en el sistema de codificacion/decodificacion de audio. La banda de frecuencia es parte de todo el rango de frecuencia de la senal de audio/del objeto que se esta codificando o decodificando. La banda de frecuencia puede corresponder tfpicamente a una o a varias bandas de frecuencia vecinas, definidas por un banco de filtros utilizado en el sistema de codificacion/decodificacion. En el caso de que la banda de frecuencia corresponda a varias bandas de frecuencia vecinas definidas por el banco de filtros, esto permite tener bandas de frecuencia no uniformes en el proceso de decodificacion de la senal de audio, por ejemplo, bandas de frecuencia mas anchas para frecuencias mas altas de la senal de audio.
En un modo de salida alternativo, para guardar la complejidad del decodificador, los objetos de mezcla descendente no se reconstruyen. Las senales de mezcla descendente se consideran en esta realizacion como senales que se van a renderizar directamente en la configuracion de salida, por ejemplo, una configuracion de salida 5.1. Esto tambien se conoce como un modo de operacion de salida de audio siempre (AAO). Las figuras 2 y 3 describen los decodificadores 200, 300 que permiten mejorar el dialogo incluso para esta realizacion de baja complejidad.
La Figura 2 describe un decodificador 200 de baja complejidad para mejorar el dialogo en un sistema de audio de acuerdo con las primeras realizaciones ejemplares. El decodificador 100 recibe el flujo de bits 102 en la etapa de recepcion 104 o el decodificador nucleo. La etapa de recepcion 104 se puede configurar como se describe en conjunto con la figura 1. En consecuencia, la etapa de recepcion emite informacion complementaria 108 y senales de mezcla descendente 110. Los coeficientes indicados por la informacion complementaria 108 son modificados por el parametro mejorador 140, como se describio antes, mediante la etapa de modificacion 112, con la diferencia de que debe tenerse en cuenta que el dialogo ya esta presente en la senal de mezcla descendente 110 y, en consecuencia, el parametro mejorador puede tener que reducirse antes de ser utilizado para modificar la informacion complementaria 108, como se describe a continuacion. Una diferencia adicional puede residir en que, dado que no se emplea la descorrelacion en el decodificador 200 de baja complejidad (como se describe a continuacion), la etapa de modificacion 112 solo modifica los coeficientes de mezcla ascendente seca en la informacion complementaria 108 y, por lo tanto, ignora cualquier coeficiente de mezcla ascendente humeda presente en la informacion complementaria 108. En algunas formas de realizacion, la correccion puede tener en cuenta una perdida de energfa en la prediccion del objeto de dialogo, causada por la omision de la contribucion de descorrelacion. La modificacion por la etapa de modificacion 112 garantiza que los objetos de dialogo se reconstruyan como senales de mejora que, cuando se combinan con las senales de mezcla descendente, dan como resultado un dialogo mejorado. Los coeficientes modificados 218 y las senales de mezcla descendente se ingresan en una etapa de reconstruccion 204. En la etapa de reconstruccion, solo el unico objeto como mmimo que representa un dialogo puede reconstruirse usando los coeficientes modificados 218. Para reducir aun mas la complejidad de decodificacion del decodificador 200, la reconstruccion del unico objeto como mmimo que representa un dialogo en la etapa de reconstruccion 204 no implica una descorrelacion de las senales de mezcla descendente 110. La etapa de reconstruccion 204 genera asf una o mas senales de mejora de dialogo 206. En muchas realizaciones, la etapa de reconstruccion 204 es una parte de la etapa de reconstruccion 124, estando dicha parte relacionada con la reconstruccion del unico objeto como mmimo que representa un dialogo.
Para seguir emitiendo senales de acuerdo con la configuracion de salida admitida, es decir, la configuracion de salida con la que se mezclaron en forma descendente las senales de mezcla descendente 110 para admitir (por ejemplo, senales envolventes 5.1 o 7.1), las senales 206 mejoradas en el dialogo deben mezclarse en forma descendente o combinarse con las senales de mezcla descendente 110 otra vez. Por esta razon, el decodificador comprende una etapa de mezcla adaptativa 208, que usa la informacion 202 que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente, mediante un codificador en el sistema de audio para mezclar los objetos de mejora de dialogo nuevamente en una la representacion 210, que corresponde a como se representan los objetos de dialogo en las senales de mezcla descendente 110. Esta representacion se combina 212 luego, con la senal de mezcla descendente 110, de manera que las senales combinadas resultantes 214 comprendan un dialogo mejorado.
Las etapas conceptuales descritas anteriormente para mejorar el dialogo en una pluralidad de senales de mezcla descendente pueden implementarse mediante una unica operacion matricial en la matriz D, que representa un mosaico de tiempo-frecuencia de la pluralidad de senales de mezcla descendente 110:
D b = D MD ecuacion 1
donde D b es una mezcla descendente 214 modificada, que incluye las partes de dialogo potenciadas. La matriz modificadora M se obtiene mediante:
M = GC ecuacion 2
donde G es una matriz de [numero de canales de mezcla descendente, numero de objetos de dialogo] de ganancias de mezcla descendente, es decir, la informacion 202 que describe como se mezclo el unico objeto como mmimo que representa un dialogo en el mosaico de tiempo-frecuencia D decodificado actualmente de la pluralidad de senales de mezcla descendente 110. C es una matriz [numero de objetos de dialogo, numero de canales de mezcla descendente] de los coeficientes modificados 218.
Una implementacion alternativa para mejorar el dialogo en una pluralidad de senales de mezcla descendente puede implementarse mediante una operacion matricial en el vector de columna X [numero de canales de mezcla descendente], en donde cada elemento representa una unica muestra de tiempo-frecuencia de la pluralidad de senales de mezcla descendente 110:
Xb = EX ecuacion 3
donde Xb es una mezcla descendente modificada 214, que incluye las partes de dialogo mejoradas. La matriz modificadora E se obtiene mediante:
E = I + GC ecuacion 4
donde I es la matriz de identidad [numero de los canales de mezcla descendente, numero de los canales de mezcla descendente], G es una matriz [numero de los canales de mezcla descendente, numero de objetos de dialogo] de ganancia de mezcla descendente, es decir, la informacion 202 que describe como se mezclo el unico objeto como mmimo que representa una dialogo con la pluralidad actualmente decodificada de senales de mezcla descendente 110, y C es una matriz [numero de objetos de dialogo, numero de canales de mezcla descendente] de los coeficientes modificados 218.
La matriz E se calcula para cada banda de frecuencia y muestra de tiempo en el cuadro. Normalmente, los datos para la matriz E se transmiten una vez por cuadro y la matriz se calcula para cada muestra de tiempo en el mosaico de tiempo-frecuencia mediante la interpolacion con la matriz correspondiente en el cuadro anterior.
Segun algunas realizaciones, la informacion 202 es parte del flujo de bits 102 y comprende los coeficientes de mezcla descendente que fueron utilizados por el codificador en el sistema de audio para mezclar los objetos de dialogo en las senales de mezcla descendente.
En algunas realizaciones, las senales de mezcla descendente no corresponden a los canales de una configuracion de altavoz. En tales realizaciones, es beneficioso renderizar las senales de mezcla descendente en ubicaciones correspondientes a los altavoces de la configuracion utilizada para la reproduccion. Para estas realizaciones, el flujo de bits 102 puede transportar datos de posicion para la pluralidad de senales de mezcla descendente 110.
Ahora se describira una sintaxis ejemplar del flujo de bits correspondiente a dicha informacion 202 recibida. Los objetos de dialogo pueden mezclarse con mas de una senal de mezcla descendente. Los coeficientes de mezcla descendente para cada canal de mezcla descendente pueden codificarse asf en el flujo de bits de acuerdo con la siguiente tabla:
Figure imgf000009_0001
Tabla 1, sintaxis de coeficientes de mezcla descendente
Un flujo de bits que representa los coeficientes de mezcla descendente para un objeto de audio que se mezcla en forma descendente de manera tal que la 5.a de 7 senales de mezcla descendente comprenda solo el objeto de dialogo, se ve entonces asb 0000111100. Correspondientemente, un flujo de bits que representa los coeficientes de mezcla descendente para un objeto de audio que mezcla en forma descendente a 1/15 en la quinta senal de mezcla descendente y 14/15 en la septima senal de mezcla descendente, se ve entonces asf: 000010000011101.
Con esta sintaxis, lo mas frecuente es que se transmita el valor 0, ya que los objetos de dialogo por lo general no se encuentran en todas las senales de mezcla descendente y, muy probablemente, estan en una sola senal de mezcla descendente. Por lo tanto, los coeficientes de mezcla descendente se pueden codificar de manera ventajosa mediante la codificacion de entropfa definida en la tabla anterior. Gastar un bit mas en coeficientes distintos de cero y solo 1 para el valor 0 lleva a la longitud de palabra promedio por debajo de los 5 bits para la mayona de los casos. Por ejemplo, 1/7 * (1 [bit] * 6 [coeficientes] 5 [bit] * 1 [coeficiente]) = 1,57 bit por coeficiente en promedio, cuando un objeto de dialogo esta presente en una de las 7 senales de mezcla descendente. Si se codificaran todos los coeficientes de manera directa con 4 bits, el costo sena 1/7 * (4 [bits] * 7 [coeficientes]) = 4 bits por coeficiente. Solo si los objetos de dialogo estan en 6 o 7 senales de mezcla descendente (de 7 senales de mezcla descendente) es mas costoso que una codificacion directa. El uso de la codificacion de entropfa como se describio anteriormente reduce la tasa de bits requerida para transmitir los coeficientes de mezcla descendente.
De un modo alternativo, es posible usar la codificacion de Huffman para transmitir los coeficientes de mezcla descendente.
De acuerdo con otras realizaciones, la informacion 202 que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio no es recibida por el decodificador, sino que se calcula en la etapa de recepcion 104, o en otra etapa apropiada del decodificador 200. Esto reduce la tasa de bits requerida para transmitir el flujo de bits 102 recibido por el decodificador 200. Este calculo puede basarse en datos con informacion espacial correspondiente a posiciones espaciales para la pluralidad de senales de mezcla descendente 110 y para el unico objeto como mmimo que representa un dialogo. Dichos datos ya suelen ser conocidos por el decodificador 200, ya que normalmente estan incluidos en el flujo de bits 102 mediante un codificador en el sistema de audio. El calculo puede comprender aplicar una funcion que mapea la posicion espacial para el unico objeto como mmimo que representa un dialogo en las posiciones espaciales para la pluralidad de senales de mezcla descendente 110. El algoritmo puede ser un algoritmo de panoramizacion 3D, por ejemplo, un algoritmo de panoramizacion de amplitud basada en vectores (VBAP). El VBAP es un metodo para posicionar fuentes de sonido virtuales, por ejemplo, objetos de dialogo, en direcciones arbitrarias, utilizando una configuracion de multiples fuentes de sonido ffsicas, por ejemplo, altavoces, es decir, la configuracion de salida del altavoz. Por lo tanto, tales algoritmos pueden reutilizarse para calcular los coeficientes de mezcla descendente utilizando las posiciones de las senales de mezcla descendente como posiciones de los altavoces.
Utilizando la formula de las ecuaciones 1 y 2 anteriores, G se calcula permitiendo que rendCoef = R (spkPos, sourcePos) -en donde R un algoritmo de panoramizacion 3D (por ejemplo, VBAP)- proporcione el vector de coeficiente de renderizacion rendCoef = [nbrSpeakers x 1] para un objeto de dialogo ubicado en sourcePos (por ejemplo, coordenadas cartesianas) renderizado en los canales de mezcla descendente nbrSpeakers ubicados en spkPos (matriz en la que cada fila corresponde a las coordenadas de una senal de mezcla descendente). Entonces se obtiene G por:
G = [rendCoef 1, rendCoef2..., rendCoefn] ecuacion 5
en la que rendCoef i son los coeficientes de renderizacion para el objeto de dialogo i , de n objetos de dialogo.
Dado que la reconstruccion de los objetos de audio se realiza tipicamente en un dominio QMF, como se describio anteriormente en conjunto con la figura 1, y que el sonido puede necesitar ser emitido en un dominio de tiempo, el decodificador 200 comprende, ademas, una etapa de transformacion 132, en la que las senales combinadas 214 se transforman en senales 216 en el dominio del tiempo, por ejemplo, aplicando un QMF inverso.
De acuerdo con las realizaciones, el decodificador 200 puede comprender, ademas, una etapa de renderizacion (no mostrada) arriba de la etapa de transformacion 132 o abajo de la etapa de transformacion 132. Como se discutio anteriormente, las senales de mezcla descendente, en algunos casos, no corresponden a los canales de la configuracion de un altavoz. En tales realizaciones, es beneficioso renderizar las senales de mezcla descendente en ubicaciones correspondientes a los altavoces de la configuracion utilizada para la reproduccion. Para estas realizaciones, el flujo de bits 102 puede transportar datos de posicion para la pluralidad de senales de mezcla descendente 110.
En la figura 3, se muestra una realizacion alternativa de un decodificador de baja complejidad para mejorar el dialogo en un sistema de audio. La principal diferencia entre el decodificador 300 que se muestra en la figura 3 y el decodificador 200 descrito anteriormente es que los objetos 206 con mejora del dialogo reconstruidos no se combinan con las senales de mezcla descendente 110 una vez mas despues de la etapa de reconstruccion 204. En cambio, el unico objeto con mejora de dialogo reconstruido como mmimo 206 se fusiona con las senales de mezcla descendente 110, como una unica senal separada como mmimo. La informacion espacial para el unico objeto de dialogo como mmimo, que normalmente ya es conocida por el decodificador 300, como se ha descrito anteriormente, se utiliza para renderizar la senal adicional 206 junto con la renderizacion de las senales de mezcla descendente segun la informacion de posicion espacial 304 para la pluralidad de senales de mezcla descendente, despues o antes de que la senal adicional 206 se haya transformado en el dominio de tiempo, mediante la etapa de transformacion 132, como se ha descrito con anterioridad.
Para las dos realizaciones del decodificador 200, 300 descritas en conjunto con las figuras 2-3, se debe tener en cuenta que el dialogo ya esta presente en la senal de mezcla descendente 110, y que los objetos de dialogo reconstruidos 206 mejorados se agregan a esto, sin importar si se combinan con las senales de mezcla descendente 110, como se describe en conjunto con la figura 2, o si se fusionan con las senales de mezcla descendente 110, como se describe en conjunto con la figura 3. En consecuencia, el parametro mejorador gDE debe restarse, por ejemplo, en 1 si la magnitud del parametro mejorador se calcula basandose en que el dialogo existente en las senales de mezcla descendente tiene la magnitud 1.
La figura 4 describe un metodo 400 para codificar una pluralidad de objetos de audio, que incluye al unico objeto como mmimo que representa un dialogo de acuerdo con las realizaciones ejemplares. Debe observarse que el orden de las etapas del metodo 400 que se muestra en la figura 4 se ilustra solo como ejemplo.
Una primera etapa del metodo 400 es una etapa opcional para determinar S401 la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio. Normalmente, el audio del objeto va acompanado de una descripcion de donde se debe renderizar cada objeto. Esto suele hacerse en terminos de coordenadas (por ejemplo, cartesianas, polares, etc.).
Una segunda etapa del metodo es la etapa de determinar S402 una pluralidad de senales de mezcla descendente, que es una mezcla descendente de la pluralidad de objetos de audio que incluye al unico objeto como mmimo que representa un dialogo. Esto tambien puede denominarse etapa de mezcla descendente.
Por ejemplo, cada una de las senales de mezcla descendente puede ser una combinacion lineal de la pluralidad de objetos de audio. En otras realizaciones, cada banda de frecuencia en una senal de mezcla descendente puede comprender diferentes combinaciones de la pluralidad de objetos de audio. Un sistema de codificacion de audio que implementa este metodo comprende asf un componente de mezcla descendente, que determina y codifica las senales de mezcla descendente de los objetos de audio. Las senales de mezcla descendente codificadas pueden ser, por ejemplo, senales envolventes 5.1 o 7.1, que sean retrocompatibles con los sistemas de decodificacion de sonido establecidos, como Dolby Digital Plus o los estandares MPEG, como AAC, USAC o MP3, de modo que se logre la AAO.
La etapa de determinar S402 una pluralidad de senales de mezcla descendente puede comprender opcionalmente determinar S404 la informacion que describe como se mezcla el unico objeto como mmimo que representa un dialogo con la pluralidad de senales de mezcla descendente. En muchas realizaciones, los coeficientes de mezcla descendente siguen el procesamiento en la operacion de mezcla descendente. En algunas realizaciones, esto se puede hacer comparando el o los objetos de dialogo con las senales de mezcla descendente utilizando un algoritmo de error cuadratico medio mmimo (MMSE, minimum mean square error).
Hay muchas maneras de mezclar en forma descendente objetos de audio; por ejemplo, se puede usar un algoritmo que mezcle en forma descendente los objetos que estan muy juntos espacialmente. De acuerdo con este algoritmo, se determina en que posiciones en el espacio hay concentraciones de objetos. Estos se utilizan luego como centroides para las posiciones de senal de mezcla descendente. Esto es solo un ejemplo. Otros ejemplos incluyen mantener los objetos de dialogo separados de los otros objetos de audio, si es posible, al mezclar en forma descendente, para mejorar la separacion del dialogo y simplificar aun mas la mejora del dialogo del lado del decodificador.
El cuarto paso del metodo 400 es el paso opcional de determinar S406 la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de senales de mezcla descendente. En el caso de que se haya omitido la etapa opcional de determinar S401 la informacion espacial correspondiente a las posiciones espaciales para la pluralidad de objetos de audio, la etapa S406 comprende, ademas, determinar la informacion espacial correspondiente a las posiciones espaciales para el unico objeto como mmimo que representa un dialogo.
La informacion espacial se conoce tfpicamente cuando se determina S402 la pluralidad de senales de mezcla descendente como se describio anteriormente.
La siguiente etapa en el metodo es el paso de determinar S408 la informacion complementaria indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio, a partir de la pluralidad de senales de mezcla descendente. Estos coeficientes tambien pueden denominarse parametros de mezcla ascendente. Los parametros de mezcla ascendente se pueden determinar, por ejemplo, a partir de las senales de mezcla descendente y los objetos de audio, por ejemplo, por optimizacion MMSE. Los parametros de mezcla ascendente tfpicamente comprenden coeficientes de mezcla ascendente seca y coeficientes de mezcla ascendente humeda. Los coeficientes de mezcla ascendente seca definen un mapeo lineal de la senal de mezcla descendente que se aproxima a las senales de audio a codificar. Los coeficientes de mezcla ascendente seca son, por lo tanto, coeficientes que definen las propiedades cuantitativas de una transformacion lineal, que toma las senales de mezcla descendente como entrada y genera un conjunto de senales de audio que se aproximan a las senales de audio que deben codificarse. El conjunto determinado de coeficientes de mezcla ascendente seca, por ejemplo, puede definir un mapeo lineal de la senal de mezcla descendente correspondiente a una aproximacion de error cuadratico medio mmimo de la senal de audio, es decir, entre el conjunto de mapeos lineales de la senal de mezcla descendente, el conjunto determinado de coeficientes de mezcla ascendente seca puede definir el mapeo lineal que mejor se aproxima a la senal de audio en un sentido de mmimo cuadratico medio.
Los coeficientes de mezcla ascendente humeda se pueden determinar, por ejemplo, en funcion de una diferencia entre, o comparando, una covarianza de las senales de audio tal como se reciben y una covarianza de las senales de audio segun se aproxima mediante el mapeo lineal de la senal de mezcla descendente.
En otras palabras, los parametros de mezcla ascendente pueden corresponder a elementos de una matriz de mezcla ascendente que permite la reconstruccion de los objetos de audio a partir de las senales de mezcla descendente. Los parametros de mezcla ascendente se calculan normalmente en funcion de la senal de mezcla descendente y los objetos de audio, con respecto a los mosaicos de tiempo/frecuencia individuales. Por lo tanto, los parametros de mezcla ascendente se determinan para cada mosaico de tiempo/frecuencia. Por ejemplo, se puede determinar una matriz de mezcla ascendente (incluidos los coeficientes de mezcla ascendente seca y los coeficientes de mezcla ascendente humeda) para cada mosaico de tiempo/frecuencia.
La sexta etapa del metodo para codificar una pluralidad de objetos de audio, que incluye al unico objeto como mmimo que representa un dialogo mostrado en la figura 4, es la etapa de determinar S410 los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo. Normalmente, la pluralidad de objetos de audio puede ir acompanada de metadatos que indican que objetos contienen dialogo. Alternativamente, se puede usar un detector de voz como se conoce en la tecnica.
La etapa final del metodo descrito es la etapa S412 de formar un flujo de bits que comprende al menos la pluralidad de senales de mezcla descendente, segun lo determinado por la etapa de mezcla descendente S402, la informacion complementaria determinada por la etapa S408, donde se determinan los coeficientes para la reconstruccion y los datos que identifican cual de la pluralidad de objetos de audio representa un dialogo como se describio anteriormente, en conjunto con la etapa S410. El flujo de bits tambien puede comprender los datos emitidos o determinados por las etapas opcionales S401, S404, s406, S408 anteriores.
En la figura 5, se muestra un diagrama de bloques de un codificador 500 a modo de ejemplo. El codificador esta configurado para codificar una pluralidad de objetos de audio que incluyen al unico objeto como mmimo que representa un dialogo, y finalmente para transmitir un flujo de bits 520 que puede ser recibido por cualquiera de los decodificadores 100, 200, 300, como se describe en conjunto con las figuras 1-3 antes explicadas.
El decodificador comprende una etapa de mezcla descendente 503, que comprende un componente de mezcla descendente 504 y un componente de calculo de parametros de reconstruccion 506. El componente de mezcla descendente recibe una pluralidad de objetos de audio 502, que incluyen al menos un objeto que representa un dialogo y determina una pluralidad de senales de mezcla descendente 507, que es una mezcla descendente de la pluralidad de objetos de audio 502. Las senales de mezcla descendente pueden ser, por ejemplo, senales envolventes 5.1 o 7.1. Como se describio antes, la pluralidad de objetos de audio 502 puede ser, en realidad, una pluralidad de grupos de objetos 502. Esto significa que, arriba del componente de mezcla descendente 504, puede existir un componente de agrupamiento (no mostrado) que determina una pluralidad de grupos de objetos de una pluralidad mayor de objetos de audio.
El componente de mezcla descendente 504 puede determinar, ademas, la informacion 505 que describe como se mezcla el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente. La pluralidad de senales de mezcla descendente 507 y la pluralidad de objetos de audio (o grupos de objetos) son recibidas por el componente que calcula los parametros de reconstruccion 506, que determina, por ejemplo utilizando una optimizacion de error cuadratico medio mmimo (MMSE), la informacion complementaria 509 indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio, a partir de la pluralidad de senales de mezcla descendente. Como se describio anteriormente, la informacion complementaria 509 suele comprender coeficientes de mezcla ascendente seca y coeficientes de mezcla ascendente humeda.
El codificador ejemplar 500 puede comprender, ademas, un componente de codificador de mezcla descendente 508, que puede adaptarse para codificar las senales de mezcla descendente 507, de modo que sean retrocompatibles con los sistemas de decodificacion de sonido establecidos, tales como Dolby Digital Plus o los estandares MPEG, tales como AAC, USAC o MP3.
El codificador 500 comprende, ademas, un multiplexor 518, que combina al menos las senales 510 de mezcla descendente codificadas, la informacion complementaria 509 y los datos 516 que identifican cual de la pluralidad de objetos de audio representa un dialogo en un flujo de bits 520. El flujo de bits 520 tambien puede comprender la informacion 505 que describe como se mezcla el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente que pueden codificarse por codificacion de entropfa. Ademas, el flujo de bits 520 puede comprender informacion espacial 514 correspondiente a posiciones espaciales para la pluralidad de senales de mezcla descendente y para el unico objeto como mmimo que representa un dialogo. Ademas, el flujo de bits 520 puede comprender informacion espacial 512 correspondiente a posiciones espaciales para la pluralidad de objetos de audio en el flujo de bits.
En resumen, esta descripcion se inscribe en el campo de la codificacion de audio, en particular, se relaciona con el campo de la codificacion de audio espacial, donde la informacion de audio esta representada por multiples objetos de audio que incluyen al menos un objeto de dialogo. En particular, la descripcion proporciona un metodo y un aparato para mejorar el dialogo en un decodificador en un sistema de audio. Ademas, esta descripcion proporciona un metodo y un aparato para codificar tales objetos de audio, a fin de permitir que el decodificador del sistema de audio mejore el dialogo.
Equivalentes, extensiones, alternativas y varios
Otras realizaciones de la presente invencion resultaran evidentes para una persona experta en la tecnica despues de estudiar la descripcion anterior. Aunque la presente descripcion y los dibujos revelan realizaciones y ejemplos, la invencion no esta restringida a estos ejemplos espedficos. Se pueden realizar numerosas modificaciones y variaciones sin apartarse del alcance de la presente invencion, que se define en las reivindicaciones adjuntas. Cualquier signo de referencia que aparezca en las reivindicaciones no debe entenderse como una limitacion de su alcance.
Ademas, el experto en la materia puede comprender y realizar variaciones en las realizaciones descritas al llevar la invencion a la practica, a partir de un estudio de los dibujos, la invencion y las reivindicaciones adjuntas. En las reivindicaciones, la frase “que comprende/n” no excluye otros elementos o etapas, y el artfculo indefinido “un” o “una” no excluye una pluralidad. El mero hecho de que ciertas medidas se enumeren en reivindicaciones dependientes mutuamente diferentes no indica que no se pueda usar una combinacion de estas medidas de un modo ventajoso.
Los sistemas y metodos descritos aqrn con anterioridad pueden implementarse como software, firmware, hardware o una combinacion de los mismos. En una implementacion de hardware, la division de tareas entre las unidades funcionales mencionadas en la descripcion anterior no necesariamente corresponde a la division en unidades ffsicas; por el contrario, un componente ffsico puede tener multiples funcionalidades, y una tarea puede ser realizada por varios componentes ffsicos en cooperacion. Ciertos componentes o todos los componentes pueden implementarse como software ejecutado por un procesador de senal digital o microprocesador, o implementarse como hardware o como un circuito integrado espedfico de la aplicacion. Dicho software puede distribuirse en medios legibles por computadora, que pueden comprender medios de almacenamiento informaticos (o medios no transitorios) y medios de comunicacion (o medios transitorios). Como es bien conocido por los expertos en la tecnica, la frase medios de almacenamiento informatico incluye tanto medios volatiles como no volatiles, extrafbles y no extrafbles, implementados en cualquier metodo o tecnologfa para el almacenamiento de informacion, como instrucciones legibles por computadora, estructuras de datos, modulos de programas u otros datos. Los medios de almacenamiento informaticos incluyen, aunque no taxativamente, RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD) u otro almacenamiento en disco optico, casetes magneticos, cinta magnetica, almacenamiento en disco magnetico u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que pueda usarse para almacenar la informacion deseada y al que se pueda acceder desde una computadora. Ademas, los expertos saben muy bien que los medios de comunicacion tfpicamente incorporan instrucciones legibles por computadora, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada, como una onda portadora u otro mecanismo de transporte, e incluye cualquier medio de suministro de informacion.

Claims (15)

REIVINDICACIONES
1. Un metodo para mejorar el dialogo en un decodificador (100, 200, 300) en un sistema de audio, que comprende las siguientes etapas:
recibir una pluralidad de senales de mezcla descendente (110), donde las senales de mezcla descendente (110) son una mezcla descendente de una pluralidad de objetos de audio (126), que incluyen al unico objeto como mmimo que representa un dialogo,
recibir informacion complementaria (108) indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio (126), a partir de la pluralidad de senales de mezcla descendente (110),
recibir datos (108) que identifican cual de la pluralidad de objetos de audio representa un dialogo, caracterizado por
modificar los coeficientes utilizando un parametro mejorador (140) y los datos (108), identificando cual de la pluralidad de objetos de audio representa un dialogo y
reconstruir al unico objeto como mmimo que representa un dialogo (126, 206) usando los coeficientes modificados (120, 142, 218).
2. El metodo segun la reivindicacion 1, en el que la etapa de modificar los coeficientes usando el parametro mejorador (140) comprende multiplicar los coeficientes que permiten la reconstruccion del unico objeto como mmimo que representa un dialogo con el parametro mejorador (140).
3. El metodo segun una cualquiera de las reivindicaciones 1-2, que comprende, ademas, la siguiente etapa: calcular los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio (126) a partir de la pluralidad de senales de mezcla descendente (110) de la informacion complementaria (108).
4. El metodo segun una cualquiera de las reivindicaciones 1-3, en el que la etapa de reconstruir el unico objeto como mmimo que representa un dialogo comprende reconstruir solo el unico objeto como mmimo que representa un dialogo.
5. El metodo segun la reivindicacion 4, en el que los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio comprenden coeficientes de mezcla ascendente seca y coeficientes de mezcla ascendente humeda, siendo los coeficientes de mezcla ascendente humeda para mezclar de manera ascendente versiones descorrelacionadas (122) de combinaciones de la pluralidad de senales de mezcla descendente (110), en el que, en la etapa de modificar los coeficientes, solo se modifican los coeficientes de mezcla ascendente seca, y en la que, en la etapa de reconstruir solo el unico objeto como mmimo que representa un dialogo, el unico objeto como mmimo de audio que representa un dialogo se reconstruye a partir de coeficientes de mezcla ascendente seca modificados (218) y la pluralidad de senales de mezcla descendente (110).
6. El metodo segun la reivindicacion 4 o 5, que comprende, ademas, la siguiente etapa:
combinar las senales de mezcla descendente (110) y el unico objeto como mmimo que representa un dialogo (206) reconstruido usando informacion (202) que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente mediante un codificador en el sistema de audio.
7. El metodo segun la reivindicacion 6, que comprende, ademas, las siguientes etapas:
renderizar la combinacion (214) de las senales de mezcla descendente (110) y el unico objeto como mmimo que representa un dialogo (206) reconstruido.
8. El metodo segun la reivindicacion 6 o 7, que comprende, ademas, la siguiente etapa:
recibir informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente, mediante un codificador en el sistema de audio.
9. El metodo segun la reivindicacion 8, en el que la informacion recibida que describe como se mezclo el unico objeto como mmimo que representa un dialogo en la pluralidad de senales de mezcla descendente se codifica mediante codificacion de entropfa.
10. El metodo segun la reivindicacion 6 o 7, que comprende, ademas, las siguientes etapas:
recibir datos con informacion espacial correspondiente a posiciones espaciales para la pluralidad de senales de mezcla descendente (110) y para el unico objeto como mmimo que representa un dialogo (206) y
calcular la informacion que describe como se mezclo el unico objeto como mmimo que representa un dialogo (206) con la pluralidad de senales de mezcla descendente (110) mediante un codificador en el sistema de audio, en funcion de los datos con informacion espacial.
11. El metodo segun la reivindicacion 10, en el que la etapa de calcular comprende aplicar una funcion, preferiblemente un algoritmo de panoramizacion 3D, que mapea la posicion espacial para el unico objeto como mmimo que representa un dialogo (206), sobre las posiciones espaciales para la pluralidad de senales de mezcla descendente (110).
12. El metodo segun la reivindicacion 1, en el que la etapa de reconstruir el unico objeto como mmimo que representa un dialogo comprende reconstruir la pluralidad de objetos de audio.
13. El metodo segun la reivindicacion 12, que comprende, ademas, las siguientes etapas:
recibir datos (106) con informacion espacial correspondiente a posiciones espaciales para la pluralidad de objetos de audio (126) y
renderizar la pluralidad reconstruida de objetos de audio (126) sobre la base de los datos (106) con informacion espacial.
14. Un producto de un programa informatico que comprende un medio legible por computadora con instrucciones para llevar a cabo el metodo segun una cualquiera de las reivindicaciones 1-13 cuando dicho producto de programa se ejecuta en un ordenador.
15. Un decodificador (100, 200, 300) para mejorar el dialogo en un sistema de audio, decodificador que comprende lo siguiente:
una etapa de recepcion (104) configurada para lo siguiente:
recibir una pluralidad de senales de mezcla descendente (110), en donde las senales de mezcla descendente son una mezcla descendente de una pluralidad de objetos de audio (126), que incluyen al unico objeto como mmimo que representa un dialogo,
recibir informacion complementaria (108) indicativa de los coeficientes que permiten la reconstruccion de la pluralidad de objetos de audio (126), a partir de la pluralidad de senales de mezcla descendente (110) y
recibir datos (108) que identifican cual de la pluralidad de objetos de audio representa un dialogo, caracterizado por
una etapa de modificacion (112) configurada para lo siguiente:
modificar los coeficientes usando un parametro mejorador (140) y los datos (108) que identifican cual de la pluralidad de objetos de audio representa un dialogo,
una etapa de reconstruccion (124, 204) configurada para lo siguiente:
reconstruir al menos al unico objeto como mmimo que representa un dialogo (126, 206) utilizando los coeficientes modificados (120, 142, 218).
ES15771962T 2014-10-01 2015-10-01 Codificador y decodificador de audio Active ES2709117T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462058157P 2014-10-01 2014-10-01
PCT/EP2015/072666 WO2016050899A1 (en) 2014-10-01 2015-10-01 Audio encoder and decoder

Publications (1)

Publication Number Publication Date
ES2709117T3 true ES2709117T3 (es) 2019-04-15

Family

ID=54238446

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15771962T Active ES2709117T3 (es) 2014-10-01 2015-10-01 Codificador y decodificador de audio

Country Status (8)

Country Link
US (1) US10163446B2 (es)
EP (1) EP3201916B1 (es)
JP (1) JP6732739B2 (es)
KR (2) KR102482162B1 (es)
CN (1) CN107077861B (es)
ES (1) ES2709117T3 (es)
RU (1) RU2696952C2 (es)
WO (1) WO2016050899A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160315722A1 (en) * 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US11386913B2 (en) 2017-08-01 2022-07-12 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
EP3444820B1 (en) * 2017-08-17 2024-02-07 Dolby International AB Speech/dialog enhancement controlled by pupillometry
CA3134792A1 (en) * 2019-04-15 2020-10-22 Dolby International Ab Dialogue enhancement in audio codec
US11710491B2 (en) 2021-04-20 2023-07-25 Tencent America LLC Method and apparatus for space of interest of audio scene

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
DE69942521D1 (de) * 1998-04-14 2010-08-05 Hearing Enhancement Co Llc Vom benutzer einstellbare lautstärkensteuerung zur höranpassung
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7283965B1 (en) 1999-06-30 2007-10-16 The Directv Group, Inc. Delivery and transmission of dolby digital AC-3 over television broadcast
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
ATE378675T1 (de) * 2005-04-19 2007-11-15 Coding Tech Ab Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
CN101253550B (zh) * 2005-05-26 2013-03-27 Lg电子株式会社 将音频信号编解码的方法
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
JP4823030B2 (ja) * 2006-11-27 2011-11-24 株式会社ソニー・コンピュータエンタテインメント 音声処理装置および音声処理方法
WO2008100503A2 (en) 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
US20090226152A1 (en) 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
SG189747A1 (en) * 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
BRPI0924076B1 (pt) 2009-05-12 2021-09-21 Huawei Device (Shenzhen) Co., Ltd. Sistema de telepresença e método de telepresença
PL2478444T3 (pl) 2009-09-14 2019-05-31 Dts Inc System do adaptacyjnego przetwarzania zrozumiałości mowy
CN113490132B (zh) 2010-03-23 2023-04-11 杜比实验室特许公司 音频再现方法和声音再现***
ES2585587T3 (es) * 2010-09-28 2016-10-06 Huawei Technologies Co., Ltd. Dispositivo y método para post-procesamiento de señal de audio multicanal decodificada o de señal estéreo decodificada
US9088858B2 (en) 2011-01-04 2015-07-21 Dts Llc Immersive audio rendering system
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
WO2013156818A1 (en) * 2012-04-19 2013-10-24 Nokia Corporation An audio scene apparatus
WO2013184520A1 (en) * 2012-06-04 2013-12-12 Stone Troy Christopher Methods and systems for identifying content types
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2891335B1 (en) 2012-08-31 2019-11-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
WO2014036085A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected sound rendering for object-based audio
CN104604257B (zh) 2012-08-31 2016-05-25 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的***
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20170249945A1 (en) 2017-08-31
BR112017006278A2 (pt) 2017-12-12
RU2017113711A (ru) 2018-11-07
WO2016050899A1 (en) 2016-04-07
KR20170063657A (ko) 2017-06-08
RU2017113711A3 (es) 2019-04-19
KR20220066996A (ko) 2022-05-24
RU2696952C2 (ru) 2019-08-07
KR102482162B1 (ko) 2022-12-29
JP6732739B2 (ja) 2020-07-29
JP2017535153A (ja) 2017-11-24
CN107077861B (zh) 2020-12-18
EP3201916A1 (en) 2017-08-09
CN107077861A (zh) 2017-08-18
US10163446B2 (en) 2018-12-25
EP3201916B1 (en) 2018-12-05

Similar Documents

Publication Publication Date Title
ES2709117T3 (es) Codificador y decodificador de audio
ES2312025T3 (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
ES2605248T3 (es) Aparato para generar señal de mezcla descendente mejorada, método para generar señal de mezcla descendente mejorada y programa de ordenador
ES2901109T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES2398573T3 (es) Número reducido de decodificación de canales
ES2610223T3 (es) Aparato y método para proveer funciones mejoradas de mezcla descendente guiada para audio 3D
ES2645674T3 (es) Procedimiento y unidad de procesamiento de señales para mapear una pluralidad de canales de entrada de una configuración de canales de entrada con canales de salida de una configuración de canales de salida
ES2649194T3 (es) Decodificador de audio, codificador de audio, procedimiento para proporcionar al menos cuatro señales de canales de audio sobre la base de una representación codificada, procedimiento para proporcionar una representación codificada sobre la base de al menos cuatro señales de canales de audio y programa informático que utiliza una extensión de ancho de banda
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
ES2362920T3 (es) Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
ES2435792T3 (es) Codificación perfeccionada de señales digitales de audio multicanal
ES2374309T3 (es) Decodificación de audio.
ES2649739T3 (es) Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal
ES2709327T3 (es) Método de descodificación y descodificador para la mejora del diálogo
US8626503B2 (en) Audio encoding and decoding
ES2869871T3 (es) Aparato y método para decodificar una señal de audio codificada para obtener señales de salida modificadas
ES2624668T3 (es) Codificación y descodificación de objetos de audio
BR112017006278B1 (pt) Método para aprimorar o diálogo num decodificador em um sistema de áudio e decodificador