ES2624190T3

ES2624190T3 - Dispositivo de control y método de control de dispositivo de nivelación de volumen

Info

Publication number: ES2624190T3
Application number: ES14722047.9T
Authority: ES
Inventors: Jun Wang; Lie Lu; Alan Seefeldt
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-03-26
Filing date: 2014-03-17
Publication date: 2017-07-13
Anticipated expiration: 2034-03-17
Also published as: JP7150939B2; JP6896135B2; EP3190702A3; US20170026017A1; WO2014160542A2; EP2979358B1; US20200403593A1; RU2016119382A3; RU2746343C2; RU2715029C2; CN104080024B; KR20210149199A; JP2021029054A; KR102074135B1; KR101726208B1; RU2016119382A; US20220116006A1; BR122016013680A2; BR112015024037A2; US10411669B2

Abstract

Un método de control de nivelador de volumen que comprende: identificar el tipo de contenido de una señal de audio en tiempo real; y ajustar un nivelador de volumen (406) en una manera continua sobre la base del tipo de contenido según se identifica, aumentando o disminuyendo la ganancia dinámica del nivelador de volumen (406) con, respectivamente, el aumento o la disminución de un valor de confianza de tipos de contenidos informativos de la señal de audio, y aumentado o disminuyendo la ganancia dinámica del nivelador de volumen (406) con, respectivamente, la disminución o el aumento de un valor de confianza de tipos de contenido interferentes de la señal de audio; en donde la señal de audio se clasifica en múltiples tipos de contenidos con valores de confianza correspondientes, y la operación de ajuste se configura para considerar al menos algunos de los múltiples tipos de contenidos mediante una ponderación de los valores de confianza de los múltiples tipos de contenidos sobre la base de la importancia de los múltiples tipos de contenidos.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Dispositivo de control y metodo de control de dispositivo de nivelacion de volumen Referencia cruzada a solicitudes relacionadas

Esta solicitud reivindica la prioridad para la solicitud de patente china n° 201310100422.1, presentada con fecha 26 de marzo de 2013 y la solicitud de patente provisional de Estados Unidos n° 61/811,072, presentada el 11 de abril de 2013.

CAMPO TECNICO

La presente solicitud de patente se refiere, en general, a un procesamiento de senales de audio. Mas concretamente, las formas de realizacion de la presente invencion se refieren a aparatos y metodos para la clasificacion de audio y su procesamiento, en particular, el control de un dispositivo de mejora de dialogos, virtualizador de sonido envolvente, 1 nivelador de volumen y ecualizador.

ANTECEDENTES DE LA INVENCION

Algunos dispositivos de mejora del audio tienden a modificar las senales de audio, en un dominio temporal o en un dominio espectral, con el fin de mejorar la calidad global del audio y mejorar la experiencia de los usuarios, en correspondencia. Varios dispositivos de mejora de audio han sido desarrollados para varios fines. Algunos ejemplos tfpicos de dispositivos de mejora de audio incluyen:

Dispositivo de mejora del dialogo: El dialogo es la componente mas importante en una pelfcula cinematografica y programas de radio o TV para entender la narracion. Se desarrollaron metodos para mejorar los dialogos con el fin de aumentar su claridad y su inteligibilidad, en particular, para las personas de edad avanzada con capacidad auditiva disminuida.

Virtualizador de sonido envolvente: Un virtualizador de sonido envolvente permite a una senal sonora envolvente (multicanal) presentarse a traves de los altavoces internos del PC o a traves de auriculares. Es decir, con el dispositivo de estereo (tales como altavoces y auriculares), crea un efecto virtualmente envolvente y proporciona una experiencia cinematica para los usuarios.

Nivelador de volumen: Un nivelador de volumen tiene como objetivo ajustar el volumen del contenido de audio en la reproduccion y mantenerlo casi constante durante la escala temporal sobre la base de un valor de intensidad objetivo.

Ecualizador: Un ecualizador proporciona coherencia del equilibrio espectral, tal como se conoce como "tono" o "timbre", y permite a los usuarios configurar el perfil global (curva o forma) de la respuesta de frecuencia (ganancia) en cada banda de frecuencia individual, con el fin de resaltar algunos sonidos o eliminar sonidos indeseados. En un ecualizador tradicional, pueden proporcionarse diferentes preajustes del ecualizador para diferentes sonidos, tales como generos musicales distintos. Una vez que se seleccione un preajuste, o se establezca un perfil de ecualizacion, las mismas ganancias de ecualizacion se aplicaran sobre la senal, hasta que el perfil de ecualizacion se modifique manualmente. Por el contrario, un ecualizador dinamico consigue la coherencia del equilibrio espectral controlando continuamente el equilibrio espectral del audio, comparandolo con un tono deseado y ajustando dinamicamente un filtro de ecualizacion para transformar el tono original de audio en el tono deseado.

En general, un dispositivo de mejora de audio tiene su propio escenario/contexto de aplicable. Es decir, un dispositivo de mejora de audio puede ser adecuado para solamente un determinado conjunto de contenidos pero no para todas las senales de audio posibles, puesto que diferentes contenidos pueden necesitar procesarse en formas distintas. A modo de ejemplo, un metodo de mejora de dialogos se suele aplicar en un contenido de pelfcula cinematografica. Si se aplica sobre musica en la que no existen dialogos, puede reforzar falsamente algunas sub-bandas de frecuencia e introducir un fuerte cambio de timbre y una incoherencia perceptual. De modo similar, si un metodo de supresion de ruido, se aplica sobre senales musicales, seran audibles fuertes artefactos acusticos.

La publicacion de solicitud de patente de Estados Unidos n° US 2007/0021958 A1 da a conocer un metodo para mejorar la calidad de una senal de voz extrafda de un entorno acustico ruidoso. En un metodo, un proceso de separacion de la senal esta asociado con un detector de actividad vocal. El detector de actividad vocal es un detector de dos canales, que permite una deteccion especialmente solida y precisa de la actividad vocal. Cuando se detecta la voz, el detector de actividad vocal genera una senal de control. La senal de control se utiliza para activar, ajustar o controlar los procesos de separacion de senales o las operaciones post-procesamiento para mejorar la calidad de la senal de voz resultante.

Sin embargo, para un sistema de procesamiento de audio que suele comprender un conjunto de dispositivos de mejora de audio, su entrada podna ser, inevitablemente, la totalidad de los posibles tipos de senales de audio. A modo de ejemplo, un sistema de procesamiento de audio, integrado en un PC, recibira contenido de audio procedente de una diversidad de fuentes, incluyendo pelfculas cinematograficas, musica, VoIP y juego. De este modo, la identificacion o la diferenciacion del contenido que se procesa adquiere mayor importancia, con el fin de aplicar los mejores algoritmos o

5

10

15

20

25

30

35

40

45

50

55

60

65

mejores parametros de cada algoritmo en el contenido correspondiente.

Con el fin de diferenciar el contenido de audio y aplicar mejores parametros o mejores algoritmos de mejora del audio en correspondencia, los sistemas tradicionales suelen disenar previamente un conjunto de preajustes, y se pide a los usuarios que elijan un preajuste para el contenido que se reproduce. Un preajuste suele codificar un conjunto de algoritmos de mejora de audio y/o sus mejores parametros que se aplicaran, tal como un preajuste de 'pelfcula cinematografica' y un preajuste de 'musica' que esta espedficamente disenado para reproduccion de musica o pelfculas cinematograficas.

Sin embargo, la seleccion manual es incomoda para los usuarios. Los usuarios no suelen conmutar entre los preajustes predefinidos sino que se limitan a mantener la utilizacion de un preajuste para todo el contenido. Ademas, incluso en algunas soluciones automaticas, los parametros o algoritmos establecidos en los preajustes suelen ser discretos (tal como activacion o desactivacion para un algoritmo espedfico con respecto a un contenido espedfico), no pudiendo ajustar los parametros en una manera continua basada en el contenido.

SUMARIO DE LA INVENCION

La presente solicitud de patente se refiere a la configuracion automatica de dispositivos de mejora de audio en una manera continua sobre la base del contenido de audio en la reproduccion. Con este modo “automatico”, los usuarios pueden simplemente disfrutar su contenido sin molestarse en seleccionar diferentes preajustes. Por otro lado, la sintoma continua es mas importante con el fin de evitar la presencia de artefactos audibles en los puntos de transicion.

La solicitud de patente da a conocer un metodo de control de nivelador de volumen segun la reivindicacion 1, un metodo de control de nivelador de volumen segun la reivindicacion 2, un controlador de nivelador de volumen segun la reivindicacion 14 y un soporte legible por ordenador segun se establece en la reivindicacion 15.

Caractensticas opcionales se establecen en las reivindicaciones subordinadas.

BREVE DESCRIPCION DE LOS DIBUJOS

La presente solicitud de patente se ilustra a modo de ejemplo, y no a modo de limitacion, en las figuras de los dibujos adjuntos, en donde las referencias numericas similares se refieren a elementos similares y en donde:

La Figura 1 es un diagrama que ilustra un aparato de procesamiento de audio en conformidad con una forma de realizacion de la solicitud de patente;

Las Figuras 2 y 3 son diagramas que ilustran variantes de la forma de realizacion segun se representa en la Figura 1;

Las Figuras 4 a 6 son diagramas que ilustran una posible arquitectura de clasificadores para identificar multiples tipos de audio y el calculo del valor de confianza;

Las Figuras 7 a 9 son diagramas que ilustran mas formas de realizacion del aparato de procesamiento de audio de la presente solicitud de patente;

La Figura 10 es un diagrama que ilustra un retardo de transicion entre diferentes tipos de audio;

Las Figuras 11 a 14 son diagramas de flujo que ilustran un metodo de procesamiento de audio en conformidad con formas de realizacion de la presente solicitud de patente;

La Figura 15 es un diagrama que ilustra un controlador de mejora de dialogos en conformidad con una forma de realizacion de la presente solicitud de patente;

Las Figuras 16 y 17 son diagramas de flujo que ilustran el uso del metodo de procesamiento de audio en conformidad con la presente solicitud de patente en el control de un dispositivo de mejora de dialogos;

La Figura 18 es un diagrama que ilustra un controlador de virtualizador de sonido envolvente en conformidad con una forma de realizacion de la presente solicitud de patente;

La Figura 19 es un diagrama de flujo que ilustra el uso del metodo de procesamiento de audio en conformidad con la presente solicitud de patente en la funcion de control de un virtualizador de sonido envolvente;

La Figura 20 es un diagrama que ilustra un controlador de nivelador de volumen en conformidad con una forma de realizacion de la presente solicitud de patente;

La Figura 21 es un diagrama que ilustra el efecto del controlador de nivelador de volumen en conformidad con la presente solicitud de patente;

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 22 es un diagrama que ilustra un controlador de ecualizador en conformidad con una forma de realizacion de la presente solicitud de patente;

La Figura 23 ilustra varios ejemplos de ajustes de equilibrio espectral deseados;

La Figura 24 es un diagrama que ilustra un clasificador de audio en conformidad con una forma de realizacion de la presente solicitud de patente,

Las Figuras 25 y 26 son diagramas que ilustran algunas caracterfsticas a utilizarse por el clasificador de audio de la presente solicitud de patente;

Las Figuras 27 a 29 son diagramas que ilustran algunas formas de realizacion del clasificador de audio en conformidad con la presente solicitud de patente;

Las Figuras 30 a 33 son diagramas de flujo que ilustran un metodo de clasificacion de audio en conformidad con las formas de realizacion de la presente solicitud de patente;

La Figura 34 es un diagrama que ilustra un clasificador de audio en conformidad con otra forma de realizacion de la presente solicitud de patente;

La Figura 35 es un diagrama que ilustra un clasificador de audio en conformidad con otra forma de realizacion de la presente solicitud de patente;

La Figura 36 es un diagrama que ilustra reglas heunsticas utilizadas en el clasificador de audio de la presente solicitud de patente;

Las Figuras 37 y 38 son diagramas que ilustran mas formas de realizacion del clasificador de audio en conformidad con la presente solicitud de patente;

Las Figuras 39 y 40 son diagramas de flujo que ilustran un metodo de clasificacion de audio en conformidad con formas de realizacion de la presente solicitud de patente;

La Figura 41 es un diagrama de bloques que ilustra un sistema a modo de ejemplo para poner en practica las formas de realizacion de la presente solicitud de patente.

DESCRIPCION DETALLADA DE LAS FORMAS DE REALIZACION

Las formas de realizacion de la presente solicitud de patente se describen a continuacion haciendo referencia a los dibujos adjuntos. Conviene senalar que, para fines de mayor claridad, las representaciones y descripciones sobre dichos componentes y procesos conocidos por los expertos en esta tecnica, pero no necesarias para entender la presente solicitud de patente, se omiten en los dibujos y en la descripcion.

Como se apreciara por un experto en esta tecnica, aspectos de la presente idea inventiva pueden materializarse como un sistema, un dispositivo (p.ej., un telefono celular, un reproductor multimedia portatil, un ordenador personal, un servidor, una caja decodificadora de television o una grabadora de video digital o cualquier otro reproductor multimedia), un metodo o un producto de programa informatico. En consecuencia, aspectos de la presente idea inventiva pueden adoptar la forma de un modo de realizacion de hardware, un modo de realizacion de software (incluyendo firmware, software residente, microcodigos, etc.) o una forma de realizacion que combine aspectos de software y de hardware que pueden referirse, en general, en esta descripcion como un "circuito”, "modulo" o "sistema". Ademas, aspectos de la presente idea inventiva pueden adoptar la forma de un producto de programa informatico materializado en uno o mas soportes legibles por ordenador que tienen incorporado un codigo de programa legible por ordenador.

Cualquier combinacion de uno o mas soportes legibles por ordenador pueden utilizarse. El soporte legible por ordenador puede ser un soporte de senal legible por ordenador o un soporte de memorizacion legible por ordenador. Un soporte de memorizacion legible por ordenador puede ser, a modo de ejemplo, pero sin limitacion, un sistema, aparato o dispositivo electronico, magnetico, optico, electromagnetico, de infrarrojos o de semiconductores o cualquier combinacion adecuada de lo que antecede. Mas ejemplos espedficos (una lista no exhaustiva) de los soportes de memorizacion legibles por ordenador incluiran lo que sigue: una conexion electrica que tenga uno o mas hilos de conexion, un disquete informatico portatil, un disco duro, una memoria de acceso directorio (RAM), una memoria de solamente lectura (ROM), una memoria de solamente lectura programable y borrable (EPROM o memoria instantanea), una fibra optica, una memoria de solamente lectura de disco compacto portatil (CD-ROM), un dispositivo de almacenamiento optico, un dispositivo de almacenamiento magnetico o cualquier combinacion adecuada de lo que antecede. En el contexto de este documento, un soporte de memorizacion legible por ordenador puede ser cualquier soporte tangible que pueda contener o memorizar un programa para uso por o en relacion con un sistema, aparato o dispositivo de ejecucion de instrucciones.

5

10

15

20

25

30

35

40

45

50

55

60

65

Un soporte de senal legible por ordenador puede incluir una senal de datos propagada con un codigo de programa legible por ordenador incorporado, a modo de ejemplo, en la banda base o como parte de una onda portadora. Dicha senal propagada puede adoptar cualquiera de una diversidad de formas, incluyendo, sin limitacion, la forma de una senal electromagnetica u optica, o cualquiera de sus combinaciones adecuadas.

Un soporte de senal legible por ordenador puede ser cualquier soporte legible por ordenador que no sea un soporte de memorizacion legible por ordenador y que pueda comunicar, propagar o transportar un programa para su uso por o en relacion con un sistema, aparato o dispositivo de ejecucion de instrucciones.

Un codigo de programa incorporado en un soporte legible por ordenador puede transmitirse utilizando cualquier soporte adecuado incluyendo, sin limitacion a un soporte inalambrico, de lmea cableada, de cable de fibra optica, de RF, etc. o cualquier combinacion adecuada de lo que antecede.

El codigo de programa informatico para realizar operaciones para aspectos de la presente idea inventiva puede ser objeto de escritura en cualquier combinacion de uno o mas lenguajes de programacion, incluyendo un lenguaje de programacion orientado al objeto tal como Java, Smalltalk, C++ o similar y lenguajes de programacion de procedimiento convencionales, tales como el lenguaje de programacion "C" o lenguajes de programacion similares. El codigo de programa puede ejecutarse completamente en el ordenador del usuario como un paquete de software autonomo, o en parte en el ordenador del usuario y en parte en un ordenador distante o completamente en el ordenador distante o servidor. En este ultimo escenario operativo, el ordenador distante puede estar conectado al ordenador del usuario por intermedio de cualquier tipo de red, incluyendo una red de area local (LAN) o una red de area amplia (WAN), o la conexion puede realizarse a un ordenador externo (a modo de ejemplo, por intermedio de Internet utilizando un denominado Proveedor de Servicios de Internet).

Aspecto de la presente idea inventiva se describen a continuacion haciendo referencia a ilustraciones de diagramas de flujo y/o diagramas de bloques de metodos, aparatos (sistemas) y productos de programas informaticos de conformidad con las formas de realizacion de la presente solicitud de patente. Se entendera que cada bloque de las ilustraciones del diagrama de flujo y/o diagramas de bloques y combinaciones de bloques en las ilustraciones de diagramas de flujos y/o diagramas de bloques, pueden realizarse mediante instrucciones de programas informaticos. Estas instrucciones de programas informaticos pueden proporcionarse a un procesador de un ordenador de uso general, ordenador de uso especial u otro aparato de procesamiento de datos programable para obtener una maquina, de modo que las instrucciones, que se ejecutan mediante el procesador del ordenador u otro aparato de procesamiento de datos programable, puedan crear medios para realizar las funciones/actos especificados en el bloque de diagramas de flujo y/o diagrama de bloques o bloques:

Estas instrucciones de programas informaticos pueden memorizarse tambien en un soporte legible por ordenador que puede controlar un ordenador, otro aparato de procesamiento de datos programable, u otros dispositivos para funcionar en una manera particular, tal como las instrucciones memorizadas en el soporte legible por ordenador que presentan un artfculo de fabricacion incluyendo instrucciones que realizan la funcion/acto especificado en el bloque de diagramas de flujo y/o diagrama de bloques o bloques.

Las instrucciones de programa informatico pueden cargarse tambien en un ordenador, otro aparato de procesamiento de datos programable, u otros dispositivos para hacer que una serie de operaciones funcionales se realicen en el ordenador, otro aparato programable u otros dispositivos para proporcionar un proceso realizado por ordenador tal como las instrucciones que se ejecutan en el ordenador u otro aparato programable que proporcionan procesos para poner en practica las funciones/actos especificados en el diagrama de flujo y/o bloques o bloque de diagramas de bloques.

A continuacion se describiran en detalle las formas de realizacion de la presente idea inventiva. Para mayor claridad, la descripcion se organiza en la arquitectura siguiente:

Parte 1: Aparatos y Metodos de procesamiento de audio

Seccion 1.1 Tipos de audio

Seccion 1.2 Valores de confianza de tipos de audio y arquitectura de clasificadores

Seccion 1.3 Alisado de valores de confianza de tipos de audio

Seccion 1.4 Ajuste de parametros

Seccion 1.5 Alisado de parametros

Seccion 1.6 Transicion de tipos de audio

Seccion 1.7 Combinacion de formas de realizacion y escenarios de aplicacion

5

10

15

20

25

30

35

40

45

50

55

60

65

Seccion 1.8 Metodo de procesamiento de audio

Parte 2: Controlador de dispositivo de mejora de dialogos y Metodo de control Seccion 2.1 Nivel de mejora de dialogos

Seccion 2.2 Umbrales para determinar bandas de frecuencias a mejorarse Seccion 2.3 Ajuste al nivel de fondo

Seccion 2.4 Combinacion de formas de realizacion y escenarios de aplicacion Seccion 2.5 Metodo de control de dispositivos de mejora de dialogos Parte 3: Controlador de virtualizador de sonido envolvente y metodo de control Seccion 3.1 Magnitud de refuerzo de la envolvente Seccion 3.2 Frecuencia de inicio

Seccion 3.3 Combinacion de formas de realizacion y escenarios de aplicacion Seccion 3.4 Metodo de control del virtualizador de sonido envolvente Parte 4: Controlador de nivelador de volumen y metodo de control Seccion 4.1 Tipos de contenidos informativos e interferentes Seccion 4.2 Tipos de contenido en contextos diferentes Seccion 4.3 Tipos de contexto

Seccion 4.4 Combinacion de formas de realizacion y escenarios de aplicacion

Seccion 4.5 Metodo de control del nivelador de volumen

Parte 5: Controlador de ecualizador y metodo de control

Seccion 5.1 Control basado en el tipo de contenido

Seccion 5.2 Probabilidad de fuentes dominantes en musica

Seccion 5.3 Preajustes del ecualizador

Seccion 5.4 Control basado en el tipo de contexto

Seccion 5.5 Combinacion de formas de realizacion y escenarios de aplicacion

Seccion 5.6 Metodo de control del ecualizador

Parte 6: Clasificadores de audio y metodos de clasificacion

Seccion 6.1 Clasificador de contexto basado en la clasificacion de tipo de contenido

Seccion 6.2 Extraccion de caractensticas a largo plazo

Seccion 6.3 Extraccion de caractensticas a corto plazo

Seccion 6.4 Combinacion de formas de realizacion y escenarios de aplicacion

Seccion 6.5 Metodos de clasificacion de audio

Parte 7: Clasificadores de VoIP y Metodos de clasificacion

Seccion 7.1 Clasificacion de contexto basado en un segmento a corto plazo

5

10

15

20

25

30

35

40

45

50

55

60

65

Seccion 7.2 Clasificacion utilizando voz de VoIP y ruido de VoIP Seccion 7.3 Fluctuacion de alisado

Seccion 7.4 Combinacion de formas de realizacion y escenarios de aplicacion

Seccion 7.5 Metodos de clasificacion de VoIP

Parte 1: Aparatos y metodos de procesamiento de audio

La Figura 1 ilustra un marco general de un aparato de procesamiento de audio de contenido adaptativo 100 que soporta la configuracion automatica de al menos un dispositivo de mejora de audio 400 con parametros mejorados sobre la base del contenido de audio en la reproduccion. Comprende tres componentes principales: un clasificador de audio 200, una unidad de ajuste 300 y un dispositivo de mejora de audio 400.

El clasificador de audio 200 es para clasificar una senal de audio en al menos un tipo de audio en tiempo real. Identifica automaticamente los tipos de audio del contenido en la reproduccion. Cualesquiera tecnologfas de clasificacion de audio tales como un procesamiento de senal pasante, aprendizaje de maquina y reconocimiento de modelos, pueden aplicarse para identificar el contenido de audio. Los valores de confianza, que representan las probabilidades del contenido de audio con respecto a un conjunto de tipos de audio objetivo predefinidos, se estiman generalmente al mismo tiempo.

El dispositivo de mejora de audio 400 es para mejorar la experiencia de la audiencia en la realizacion del procesamiento de la senal de audio, y se describira en detalle mas adelante.

La unidad de ajuste 300 es para ajustar al menos un parametro del dispositivo de mejora de audio en una manera continua basada en el velocidad del al menos un tipo de audio. Esta disenada para controlar el comportamiento del dispositivo de mejora de audio 400. Estima los parametros mas adecuados del dispositivo de mejora de audio correspondiente sobre la base de los resultados obtenidos a partir del clasificador de audio 200.

Varios dispositivos de mejora de audio pueden aplicarse en este aparato. La Figura 2 ilustra un sistema, a modo de ejemplo, que comprende cuatro dispositivos de mejora de audio, incluyendo un Mejorador de Dialogos (DE) 402, un Virtualizador de sonido envolvente (SV) 404, un Nivelador de volumen (VL) 406 y un Ecualizador (EQ) 408. Cada dispositivo de mejora de audio puede ajustarse automaticamente de una manera continua, sobre la base de los resultados (tipos de audio y/o valores de confianza) obtenidos en el clasificador de audio 200.

Por supuesto, los aparatos de procesamiento de audio pueden no incluir necesariamente todas las clases de dispositivos mejora de audio, sino que pueden incluir solamente uno o mas de ellos. Por otro lado, los dispositivos de mejora de audio no estan limitados a los dispositivos descritos en la presente idea inventiva y pueden incluir mas clases de dispositivos de mejora de audio que esten tambien dentro del alcance de la presente idea inventiva. Ademas, los nombres de dichos dispositivos de mejora de audio examinados en la presente idea inventiva, incluyendo un Mejorador de dialogos (DE) 402, un Virtualizador de sonido envolvente (SV) 404, un Nivelador de volumen (VL) 406 y un Ecualizador (EQ) 408, no constituiran una limitacion y cada uno de ellos debera interpretarse como que cubre cualesquiera otros dispositivos que realicen las mismas o funciones similares.

1.1 Tipos de audio

Para controlar adecuadamente varias clases de dispositivos de mejora de audio, la presente idea inventiva proporciona, ademas, una nueva arquitectura de tipos de audio, aunque los tipos de audio de la tecnica anterior son tambien aqu aplicables.

Mas concretamente, los tipos de audio de diferentes niveles semanticos son objeto de modelado, incluyendo elementos de audio de bajo nivel que representan las componentes fundamentales en senales de audio y generos de audio de alto nivel que representan los contenidos de audio mas populares en las aplicaciones de entretenimiento de usuarios en la vida real. Lo anterior puede denominarse tambien como "tipo de contenido". Los tipos de contenidos de audio fundamentales pueden incluir, voz, musica (incluyendo cancion), sonidos de fondo (o efectos sonoros) y ruido.

El significado de voz y musica es evidente por sf mismo. El ruido en la presente idea inventiva significa ruido ffsico y no ruido semantico. El ruido ffsico en la presente idea inventiva puede incluir los ruidos de, a modo de ejemplo, sistemas de aire acondicionado y otros ruidos que tienen su origen en razones tecnicas, tales como ruidos de bajo nivel, denominados 'ruido rosa' debido a la ruta de transmision de senales. Por el contrario, los “sonidos de fondo” en la presente solicitud de patente son los efectos sonoros que pueden ser eventos auditivos que suceden alrededor del objetivo basico de la atencion del oyente. A modo de ejemplo, en una senal de audio en una llamada telefonica, ademas de la voz de la persona que habla, puede existir algunos otros sonidos no previstos, tales como las voces de algunas otras personas no intervinientes en la llamada telefonica, sonidos de teclados, sonidos de pasos, etc. Estos sonidos no deseados se refieren como “sonidos de fondo” y no como ruido. Dicho de otro modo, podemos definir los “sonidos de fondo” como los sonidos que no son el objetivo (o el objetivo basico de la atencion del oyente) o incluso no son

5

10

15

20

25

30

35

40

45

50

55

60

65

deseados, pero siguen teniendo algun significado semantico; mientras que el “ruido” puede definirse como los sonidos no deseados con la excepcion de los sonidos objetivos y los sonidos de fondo.

A veces, los sonidos de fondo no son realmente “indeseados” sino que se crean intencionadamente e incluyen alguna informacion de utilidad, tal como los sonidos de fondo en una pelmula cinematografica, un programa de TV o un programa de radiodifusion. Por ello, a veces pueden tambien referirse como “efectos sonoros”. En adelante, en la presente idea inventiva, solamente se utiliza el termino de “sonidos de fondo” para no ser concisos y pueden abreviarse tambien como “fondo”.

Ademas, la musica puede clasificarse, ademas, como musica sin fuentes dominantes y musica con fuentes dominantes. Si existe una fuente (voz o un instrumento) que es mucho mas intensa que las demas fuentes en una pieza musical, se refiere como una “musica con fuente dominante”, de no ser asf, se refiere como “musica sin fuente dominante”. A modo de ejemplo, en una musica polifonica acompanada con voz de cantantes y varios instrumentos, si esta armonicamente equilibrados, o la energfa de varias fuentes mas notorias son comparables entre sf, se considera que es una musica sin fuente dominante; por el contrario, si una fuente (p.ej., una voz) es mucho mas intensa mientras que las demas son mucho mas silenciosas, se considera que contiene una fuente dominante. A modo de otro ejemplo, los tonos de instrumentos singulares o distintivos son “musica con fuente dominante”.

La musica puede clasificarse, ademas, en diferentes tipos sobre la base de normas distintas. Puede clasificarse sobre la base de generos de la musica, tales como rock, jazz, rap y folk, pero sin que suponga una limitacion. Se pueden clasificar tambien sobre la base de instrumentos, tales como musica vocal y musica instrumental. La musica instrumental puede incluir varias musicas ejecutadas con diferentes instrumentos, tales como musica de piano y musica de guitarra. Otras normas ejemplo incluyen ritmo, tempo, timbre de la musica y/o cualesquiera otros atributos musicales, de modo que la musica se puede agrupar junta sobre la base de la similitud de estos atributos. A modo de ejemplo, en funcion del timbre, la musica vocal puede clasificarse como tenor, bantono, bajo, soprano, mezzo soprano y alto.

El tipo de contenido de una senal de audio puede clasificarse con respecto a segmentos de audio a corto plazo, tales como los constituidos por una pluralidad de tramas. En general, una trama de audio es de una longitud de multiples milisegundos, tales como 20 ms, y la longitud de un segmento de audio a corto plazo a clasificarse por el clasificador de audio puede tener una duracion de varios cientos de milisegundos hasta varios segundos, tal como 1 segundo.

Para controlar el dispositivo de mejora de audio en una manera de contenido-adaptativo, la senal de audio puede clasificarse en tiempo real. Para el tipo de contenido establecido anteriormente, el tipo de contenido del segmento de audio a corto plazo actual representa el tipo de contenido de la senal de audio actual. Puesto que la duracion de un segmento de audio a corto plazo no es tan larga, la senal de audio puede dividirse como segmentos de audio a corto plazo no solapados, uno tras otros. Sin embargo, los segmentos de audio a corto plazo pueden muestrearse tambien de forma continua/semi-continua a lo largo de la lmea de tiempos de la senal de audio. Es decir, los segmentos de audio a corto plazo pueden muestrearse con una ventana con una longitud predeterminada (longitud prevista del segmento de audio a corto plazo) que se desplazan a lo largo de la lmea de tiempos de la senal de audio en una magnitud de tonos de una o mas tramas.

Los generos de audio de alto nivel pueden nombrarse tambien como “tipos de contextos”, puesto que indican un tipo a largo plazo de la senal de audio, y pueden considerarse como un entorno o contexto del evento sonoro instantaneo, que puede clasificarse en los tipos de contenidos segun se indico con anterioridad. De conformidad con la presente idea inventiva, el tipo de contexto puede incluir las aplicaciones de audio mas populares, tales como multimedia similar a pelmulas cinematograficas, musica (incluyendo cancion), juego y VoIP (Protocolo de Voz sobre Internet).

El significado de musica, juego y VoIP es evidente por sf mismo. Los soportes similares a una pelmula cinematografica pueden incluir una pelmula cinematografica, un programa de TV, programas de radiodifusion o cualquier otro soporte de audio similar a los anteriormente mencionados. La caractenstica principal de multimedia similar a cine es una mezcla de posibles voces, musica y varias clases de sonido de fondo (efectos sonoros).

Conviene senalar que el tipo de contenido y el tipo de contexto incluyen musica (incluyendo cancion). En adelante, en la presente idea inventiva, utilizamos los terminos “musica a corto plazo” y “musica a largo plazo” para distinguirlos respectivamente.

Para algunas formas de realizacion de la presente idea inventiva, se proponen tambien algunas otras arquitecturas de tipo de contexto.

A modo de ejemplo, una senal de audio puede clasificarse como audio de alta calidad (tal como los soportes a modo de pelmula cinematografica y CD de musica) o audio de baja calidad (tal como VoIP, audio de flujo continuo en lmea de tasa binaria baja y contenido generado por el propio usuario), que se pueden referir colectivamente como “tipos de calidad de audio”.

A modo de otro ejemplo, una senal de audio puede clasificarse como VoIP o no VoIP, lo que puede considerarse como una transformacion de la arquitectura del tipo de contexto 4 anteriormente mencionada (VoIP, soportes a modo de

5

10

15

20

25

30

35

40

45

50

55

60

pelmula cinematografica, musica (largo plazo) y juegos). En relacion con el contexto de VoIP o de no VoIP, una senal de audio puede clasificarse como tipos de contenidos relacionados con VoIP, tales como voz de VoIP, voz no de VoIP, ruido de VoIP y ruido no de VoIP. La arquitectura de los tipos de contenidos de audio de VoIP son de utilidad particular para diferenciar los contextos de VoIP y de no VoIP puesto que el contexto de VoIP suele ser el escenario operativo de aplicacion mas exigente de un nivelador de volumen (una clase de dispositivo de mejora de audio).

Por lo general, el tipo de contexto de una senal de audio puede clasificarse con respecto a segmentos de audio a largo plazo de mayor duracion que los segmentos de audio a corto plazo. Un segmento de audio a largo plazo esta constituido por una pluralidad de tramas en un numero superior al numero de tramas en un segmento de audio a corto plazo. Un segmento de audio a largo plazo puede comprender tambien una pluralidad de segmentos de audio a corto plazo. Por lo general, un segmento de audio a largo plazo puede tener una duracion del orden de magnitud de los segundos, tal como varios segundos a varias decenas de segundos, a modo de ejemplo 10 segundos.

De modo similar, para controlar el dispositivo de mejora de audio en una manera adaptativa, la senal de audio puede clasificarse en tipos de contextos en tiempo real. De modo similar, el tipo de contexto del segmento de audio a largo plazo actual representa el tipo de contexto de la senal de audio actual. Puesto que la longitud de un segmento de audio a largo plazo es relativamente larga, la senal de audio puede muestrearse de forma continua/semi-continua a lo largo de la lmea de tiempos de la senal de audio para evitar un cambio brusco de su tipo de contexto y de este modo, un cambio brusco de los parametros funcionales de los dispositivos de mejora de audio. Es decir, los segmentos de audio a largo plazo pueden muestrearse como una ventana con una longitud predeterminada (longitud prevista de un segmento de audio a largo plazo) que se desplaza a lo largo de la lmea de tiempos de la senal de audio con una magnitud de los tonos de una o mas tramas, o uno o mas segmentos a corto plazo.

Lo que antecede se ha descrito con respecto al tipo de contenido y al tipo de contexto. En las formas de realizacion de la presente idea inventiva, la unidad de ajuste 300 puede ajustar al menos un parametro de los dispositivos de mejora de audio sobre la base de al menos uno de los tipos de contenidos y/o y al menos uno de los diversos tipos de contextos. Por lo tanto, segun se ilustra en la Figura 3, en una variante de la forma de realizacion ilustrada en la Figura 1, el clasificador de audio 200 puede comprender un clasificador de contenido de audio 202 o un clasificador de contexto de audio 204 o ambos a la vez.

Anteriormente se han mencionado diferentes tipos de audio basados en diferentes normas (tales como para los tipos de contextos), asf como diferentes tipos de audio basados en diferentes niveles jerarquicos (tales como para los tipos de contenidos). Sin embargo, las normas y los niveles jerarquicos son solamente por comodidad de descripcion en este caso y por supuesto, no tienen caracter de limitacion. Dicho de otro modo, en la presente idea inventiva, cualesquiera dos o mas tipos de audio anteriormente mencionados pueden identificarse por el clasificador de audio 200 al mismo tiempo y considerarse por la unidad de ajuste 300 al mismo tiempo, segun se describira mas adelante. Dicho de otro modo, todos los tipos de audio en los diferentes niveles jerarquicos pueden ser paralelos o estar en el mismo nivel.

1.2 Valores de confianza de tipos de audio y arquitectura de clasificadores

El clasificador de audio 200 puede proporcionar, a la salida, resultados de decisiones diffciles, o la unidad de ajuste 300 puede considerar los resultados del clasificador de audio 200 como resultados de decisiones diffciles. Incluso para la decision diffcil, multiples tipos de audio pueden asignarse a un segmento de audio. A modo de ejemplo, un segmento de audio puede etiquetarse mediante, a la vez, 'voz' y 'musica a corto plazo' puesto que puede ser una senal mezcla de voz y musica a corto plazo. Las etiquetas obtenidas pueden utilizarse directamente para controlar los dispositivos de mejora de audio 400. Un ejemplo simple es activar el dispositivo mejorador de dialogos 402 cuando la voz esta presente y desactivarlo cuando la voz esta ausente. Sin embargo, este metodo de decision diffcil puede introducir alguna falta de naturalidad en los puntos de transicion desde un tipo de audio a otro, si no se dispone de un sistema de alisado cuidadoso (lo que se describira mas adelante).

Con el fin de tener mas flexibilidad y sintonizar los parametros de los dispositivos de mejora de audio de una manera continua, el valor de confianza de cada tipo de audio objetivo se puede estimar (decision programada). Un valor de confianza representa el nivel adaptado entre el contenido de audio a identificarse y el tipo de audio objetivo, con valores desde 0 a 1.

Segun se indico con anterioridad, numerosas tecnicas de clasificacion pueden proporcionar valores de confianza directamente. El valor de confianza puede calcularse tambien a partir de varios metodos, que pueden considerarse como una parte del clasificador. A modo de ejemplo, si los modelos de audio se forman mediante algunas tecnologfas de modelado probabiffstico, tal como Modelos de Mezcla Gaussiana (GMM), la probabilidad posterior puede utilizarse para representar el valor de confianza, como

imagen1

5

10

15

20

25

30

35

40

45

50

55

en donde x es un elemento de segmento de audio, Ci es un tipo de audio objetivo, N es el numero de tipos de audio objetivos, p(x|ci) es la probabilidad de que el segmento de audio x sea del tipo de audio ci, y p(ci|x) es la probabilidad posterior correspondiente.

Por otro lado, si los modelos de audio se forman a partir de algunos metodos discriminativos, tales como la denominada Maquina de Vectores Soporte (SVM) y adaBoost, solamente se obtienen puntuaciones (valores reales) a partir de la comparacion de modelos. En estos casos, una funcion sigmoidal se suele utilizar para establecer una correspondencia de la puntuacion obtenida (teoricamente desde -~ a ~) a la confianza prevista (desde 0 a 1):

imagen2

en donde el valor de y es la puntuacion de salida desde SVM o adaBoost, A y B son dos parametros que necesitan estimarse a partir de un conjunto de datos de formacion utilizando algunas tecnologfas bien conocidas.

Para algunas formas de realizacion de la presente idea inventiva, la unidad de ajuste 300 puede utilizar mas de dos tipos de contenidos y/o mas de dos tipos de contextos. A continuacion, el clasificador de contenido de audio 202 necesita identificar mas de dos tipos de contenidos y/o el clasificador de contexto de audio 204 necesita identificar mas de dos tipos de contextos. En tal situacion, el clasificador de contenido de audio 202 o el clasificador de contexto de audio 204 puede ser un grupo de clasificadores organizados en alguna arquitectura.

A modo de ejemplo, si la unidad de ajuste 300 necesita la totalidad de las cuatro clases de tipos de contextos de multimedia similar a cine, musica a largo plazo, juego y VoIP, entonces, el clasificador de contexto de audio 204 puede tener las arquitecturas diferentes siguientes:

En primer lugar, el clasificador de contexto de audio 204 puede comprender 6 clasificadores binarios del tipo uno a uno (cada clasificador discrimina un tipo de audio objetivo a partir de otro tipo de audio objetivo) organizado segun se ilustra en la Figura 4, 3 clasificadores binarios del tipo uno a otros (cada clasificador discrimina un tipo de audio objetivo a partir de los demas) organizado segun se ilustra en la Figura 5 y 4 clasificadores del tipo uno a otros organizado segun se ilustra en la Figura 6. Existen tambien otras arquitecturas tales como la arquitectura de Grafico Adclico dirigido por la Decision (DDAG). Conviene senalar que, en las Figuras 4 a 6 y en la descripcion correspondiente siguiente, los terminos “pelfcula cinematografica” en lugar de “multimedia similar a cine” se utilizan para mayor concision.

Cada clasificador binario proporcionara una puntuacion de confianza H(x) para su salida (x representa un segmento de audio). Despues de que se obtengan las salidas de cada clasificador binario, necesitamos establecer una correspondencia entre ellas con respecto a los valores de confianza finales de los tipos de contextos identificados.

En general, se supone que la serial de audio ha de clasificarse en M tipos de contexto (M es un numero entero positivo). La arquitectura de tipo ‘uno a uno’ convencional construye q )/2 clasificadores en donde cada uno se forma

sobre datos procedentes de dos clases, a continuacion, cada clasificador del tipo ‘uno a uno’ emite un voto para su clase preferida, y el resultado final es la clase con la mayor cantidad de votos entre las clasificaciones de JVf. q )/2 de los clasificadores. En comparacion, con la arquitectura de tipo ‘uno a uno’ convencional, la arquitectura jerarquica ilustrada en la Figura 4 necesita tambien construir JVT( JVT-1)/2 clasificadores. Sin embargo, las iteraciones de pruebas pueden acortarse a -M*- 1, puesto que el segmento x sera determinado como siendo/no siendo de la clase correspondiente a cada nivel jerarquico y el conteo de nivel global es -M*-1. Los valores de confianza finales para varios tipos de contextos pueden calcularse a partir de la confianza de clasificacion binaria Hk(x), a modo de ejemplo (k=1,2,...6, que representan diferentes tipos de contexto):

-MUSIC

CMOVIE ~ (l ' (1 H3 00) ' (1

CiroLP — Hiix) ' 1 Ha{x)

Hi(x) ■ (1 - H2(x)) ■ (1 - ffs00) + H3(x) ■ (1 - H^x)) ' (1 - tf5(*))

+ tf6 (*)■(!- tfiGOVCl-Z/jf*))

imagen3

En la arquitectura ilustrada en la Figura 5, la funcion de mapeado de correspondencia desde los resultados de

5

10

15

20

25

30

35

40

45

50

55

60

clasificacion binarios Hk(x) a los valores de confianza finales pueden definirse en el ejemplo siguiente.

Cmovie — HiM Cmusic = H2(x) ' (l — Hi O))

Cvoip ~ Ht,(x) ■ (l — fi2(x)J ■ (l — H1(x)J £GAME = (1 — H3(x)) ' (l — H2(x)J ' (l — Hl(x)J

En la arquitectura ilustra en la Figura 6, los valores de confianza finales pueden ser iguales a los resultados de clasificaciones binarias correspondientes Hk(x), o si la suma de los valores de confianza para todas las clases se requiere que sea 1, entonces, los valores de confianza finales pueden simplemente normalizarse sobre la base de los resultados Hk(x) estimados:

Cmovie — ^iOO/C^iOO + H2(^0 + W3(x) + /f4(x))

Cmvsic — H2(x)/(H1(x) + H2(x^ + H3(x) + /f4(x))

/oip — H3 (x)/(/fi (x) + H2(x) + H3(x) + //400)

Cgame = + H2(x) + H3(x) + H4(*))

Los uno o mas con los valores de confianza maxima pueden determinarse para ser la clase identificada final.

Conviene senalar que en las arquitecturas ilustradas en las Figuras 4 a 6, la secuencia de clasificadores binarios diferentes no son necesariamente como se ilustran, sino que pueden ser otras secuencias, que pueden seleccionarse mediante asignacion manual o aprendizaje automatico en conformidad con diferentes requisitos de varias aplicaciones.

Las descripciones anteriores estan dirigidas a clasificadores de contexto de audio 204. Para el clasificador de contenido de audio 202, la situacion es similar.

Como alternativa, el clasificador de contenido de audio 202 o el clasificador de contexto de audio 204 pueden ponerse en practica como un clasificador unico que identifica todos los tipos de contenido/tipos de contexto al mismo tiempo y proporcionan los valores de confianza correspondientes al mismo tiempo. Existen numerosas tecnicas para realizar esta operacion.

Utilizando el valor de confianza, la salida del clasificador de audio 200 puede representarse como un vector, con cada dimension representando el valor de confianza de cada tipo de audio objetivo. A modo de ejemplo, si los tipos de audio objetivos (voz, musica a corto plazo, ruido, fondo) de forma secuencial, un resultado de salida ejemplo podrfa ser (0.9, 0.5, 0.0, 0.0), lo que indica que es un 90 % seguro que el contenido de audio sea de voz, y un 50 % seguro que el audio sea musica. Conviene senalar que la suma de todas las dimensiones en el vector de salida no es necesario que sea de valor uno (a modo de ejemplo, los resultados de la Figura 6 no son necesariamente normalizados), lo que significa que la senal de audio puede ser una senal de mezcla de voz y de musica a corto plazo.

Mas adelante, en la Parte 6 y en la Parte 7, se describira, en detalle, una nueva puesta en practica de la clasificacion del contexto de audio y la clasificacion de contenidos de audio.

1.3 Alisado de valores de confianza de tipos de audio

De modo opcional, despues de que se haya clasificado cada segmento de audio en los tipos de audio predefinidos, un paso adicional es el alisado de los resultados de la clasificacion a lo largo de la lmea de tiempos para evitar un salto brusco desde un tipo a otro y para realizar una estimacion mas alisada de los parametros en los dispositivos de mejora de audio. A modo de ejemplo, un extracto largo se clasifica como multimedia similar a cine, exceptuado para solamente un segmento clasificado como VoIP, siendo, entonces, la decision de VoIP brusca que puede revisarse para multimedia similar a cine mediante el alisado correspondiente.

Por lo tanto, en una variante de la forma de realizacion segun se ilustra en la Figura 7, una unidad de alisado tipo 712 esta provista, ademas, para cada tipo de audio, alisando el valor de confianza de la senal de audio en el momento actual.

Un metodo de alisado comun esta basado en una media ponderada, tal como se calcula una suma ponderada del valor de confianza real en el momento actual y un valor de confianza alisado de la ultima vez, como sigue:

5

10

15

20

25

30

35

40

45

50

55

60

smoothConf (t) = fi ■ smoothConf (t -\) + (\ - /3) ■ conf (t) @)

en donde t representa el tiempo actual (el segmento de audio actual), t-1 representa la ultima vez (el ultimo segmento de audio), p es el peso, conf y smoothConf son los valores de confianza antes y despues del alisado, respectivamente.

Desde el punto de vista de los valores de confianza, los resultados de una decision diffcil de los clasificadores pueden representarse tambien con valores de confianza, con los valores siendo 0 o 1. Es decir, si un tipo de audio objetivo se elige y asigna a un segmento de audio, el valor de confianza correspondiente es 1; de no ser asf, el valor de confianza es 0. Por lo tanto, aun cuando el clasificador de audio 200 no proporcione el valor de confianza, sino que simplemente proporcione una decision diffcil con respecto al tipo de audio, el ajuste continuo de la unidad de ajuste 300 es todavfa posible mediante la operacion de alisado de la unidad de alisado tipo 712.

El algoritmo de alisado puede ser 'asimetrico' utilizando diferentes ponderaciones de alisado para diferentes casos. A modo de ejemplo, las ponderaciones para calcular la suma ponderada pueden cambiarse de forma adaptativa sobre la base del valor de confianza del tipo de audio de la senal de audio. El valor de confianza del segmento actual es mayor, siendo tambien mayor su ponderacion.

Desde otro punto de vista, las ponderaciones para calcular la suma ponderada pueden cambiarse, de forma adaptativa, sobre la base de diferentes pares de transicion desde un tipo de audio a otro tipo de audio, en particular cuando el dispositivo de mejora de audio esta ajustado sobre la base de multiples tipos de contenido segun se identifica por el clasificador de audio 200, en lugar de basarse en la presencia o ausencia de un tipo de contenido unico. A modo de ejemplo, para una transicion desde un tipo de audio que aparece con mayor frecuencia en algun contexto a otro tipo de audio que no aparece tan frecuentemente en el contexto, el valor de confianza de este ultimo puede alisarse de modo que no aumente tan rapido, puesto que podna ser simplemente una interrupcion ocasional.

Otro factor es la tendencia de cambio (aumento o disminucion), incluyendo la tasa de cambio. Se supone que tenemos mas cuidado respecto a la latencia cuando un tipo de audio se hace presente (es decir, cuando aumenta su valor de confianza), podemos designar el algoritmo de alisado en la forma siguiente:

\conf(t) conf (/) > smoothConf (7-1)

smoothConf (t) = < (4)

[p ■ smoothConf (t -1) + (1 - />) ■ conf(t) otherwise

La formula anterior permite que el valor de confianza alisado responda con rapidez al estado actual cuando aumenta el valor de confianza y lentamente alisado cuando disminuye el valor de confianza. Variantes de las funciones de alisado pueden facilmente disenarse en forma similar. A modo de ejemplo, la formula (4) puede revisarse de modo que el valor de ponderacion de conf(t) se haga mayor cuando se verifique conf(t)>=smoothConf(t-1). De hecho, en la formula (4) se puede considerar que p =0 y el valor de ponderacion de conf(t) se hace el mayor, es decir 1.

Desde un punto de vista diferente, la consideracion de que la tendencia cambiante de algun tipo de audio es simplemente un ejemplo espedfico de consideracion de diferentes pares de transicion de tipos de audio. A modo de ejemplo, aumentando el valor de confianza del tipo A puede considerarse como una transicion desde no A a A y la disminucion del valor de confianza de tipo A puede considerarse como una transicion de A a no A.

1.4 Ajuste de parametros

La unidad de ajuste 300 esta disenada para estimar o ajustar los parametros adecuados para los dispositivos de mejora de audio 400 sobre la base de los resultados obtenidos a partir del clasificador de audio 200. Diferentes algoritmos de ajuste pueden disenarse para diferentes dispositivos de mejora de audio, utilizando el tipo de contenido o el tipo de contexto, o ambos a la vez, para una decision conjunta. A modo de ejemplo, con la informacion del tipo de contexto tal como multimedia similar a cine y musica a largo plazo, los preajustes, segun fueron anteriormente mencionados, pueden seleccionarse y aplicarse automaticamente sobre el contenido correspondiente. Con la informacion del tipo de contenido disponible, los parametros de cada dispositivo de mejora de audio pueden sintonizarse en una manera mas fina, segun se ilustra en las partes posteriores. La informacion del tipo de contenido y la informacion del contexto pueden utilizarse conjuntamente, ademas, en la unidad de ajuste 300 para equilibrar la informacion a largo plazo y la informacion a corto plazo. El algoritmo de ajuste espedfico para un dispositivo de mejora de audio espedfico puede considerarse como una unidad de ajuste separada, o los algoritmos de ajuste diferentes pueden considerarse colectivamente como una unidad de ajuste unificada.

Es decir, la unidad de ajuste 300 puede configurarse para ajustar el al menos un parametro del dispositivo de mejora de audio sobre la base del valor de confianza de al menos un tipo de contenido y/o el valor de confianza de al menos un tipo de contexto. Para un dispositivo de mejora de audio especfico, algunos tipos de audio son informativos, y algunos de los tipos de audio son interferentes. En consecuencia, los parametros del dispositivo de mejora de audio espedfico pueden estar en correlacion positiva o negativa respecto a los valores de confianza de los tipos de audio informativos o los tipos

5

10

15

20

25

30

35

40

45

50

55

60

65

de audio interferentes. En este caso, el termino de “correlacion positiva” significa los aumentos o disminuciones de parametros con el aumento o disminucion del valor de confianza del tipo de audio, en una manera lineal o en una manera no lineal. El termino de “correlacion negativa” significa los aumentos o disminuciones de parametros con, respectivamente, la disminucion o aumento del valor de confianza del tipo de audio, en una manera lineal o en una manera no lineal.

En este caso, la disminucion y aumento del valor de confianza son directamente “transferidos” a los parametros a ajustarse mediante la correlacion positiva o negativa. En matematicas, dicha correlacion o “transferencia” puede materializarse como proporcion lineal o proporcion inversa, operacion de mas o menos (adicion o sustraccion), operacion de multiplicacion o division o funcion no lineal. Todas estas formas de correlacion pueden referirse como “funcion de transferencia”. Para determinar el aumento o disminucion del valor de confianza, podemos comparar tambien el valor de confianza actual o su transformada matematica con el ultimo valor de confianza o una pluralidad de valores de confianza historicos, o sus transformadas matematicas. En el contexto de la presente idea inventiva, el termino “comparar” significa la comparacion mediante una operacion de sustraccion o la comparacion mediante una operacion de division. Podemos determinar un aumento o disminucion determinando si la diferencia es mayor que 0 o si la relacion es mayor que 1.

En puestas en practica especficas, podemos relacionar directamente los parametros con los valores de confianza o sus relaciones o diferencias por intermedio de un algoritmo adecuado (tal como una funcion de transferencia) y no es necesaria la presencia de un “observador externo” para conocer explfcitamente si un valor de confianza especfico y/o un parametro espedfico ha aumentado o disminuido. Algunos ejemplos espedficos se proporcionaran en las Partes 2 a 5 posteriores en relacion con los dispositivos de mejora de audio espedficos.

Segun se describio en la seccion anterior, con respecto al mismo segmento de audio, el clasificador 200 puede identificar multiples tipos de audio con valores de confianza respectivos, cuyos valores de confianza pueden no ser necesariamente de valor 1, puesto que el segmento de audio puede comprender multiples componentes al mismo tiempo, tal como musica y voz y sonido de fondo. En tal situacion, los parametros de los dispositivos de mejora de audio se equilibraran entre diferentes tipos de audio. A modo de ejemplo, la unidad de ajuste 300 puede configurarse para considerar al menos algunos de los multiples tipos de audio mediante la ponderacion de los valores de confianza del al menos un tipo de audio sobre la base de la importancia del al menos un tipo de audio. Cuanto mas importante es un tipo de audio especfico, tanto mayor sera la influencia de los parametros correspondientes.

El valor de ponderacion puede reflejar tambien un efecto informativo e interferente de un tipo de audio. A modo de ejemplo, para un tipo de audio interferente, puede proporcionarse una ponderacion de signo menos. Algunos ejemplos especficos se proporcionaran en las Partes 2 a 5 posteriores sobre los dispositivos de mejora de audio especficos.

Conviene senalar que el contexto de la presente idea inventiva, el termino “ponderacion” tiene un significado mas amplio que los coeficientes en un polinomio. Ademas, los coeficientes en un polinomio, pueden adoptar tambien la forma de exponente o potencia. Cuando los coeficientes adoptan la forma polinomial, los coeficientes de ponderacion pueden estar, o no, normalizados. En resumen, la ponderacion simplemente representa cuanta influencia tiene el objeto ponderado sobre los parametros que han de ajustarse.

En algunas otras formas de realizacion, para los multiples tipos de audio contenidos en el mismo segmento de audio, los valores de confianza pueden convertirse en ponderaciones mediante su normalizacion y luego, el parametro final puede determinarse mediante el calculo de una suma de valores prestablecidos de parametros predefinidos para cada tipo de audio y ponderados por los valores de ponderacion basados en los valores de confianza. Es decir, la unidad de ajuste 300 puede configurarse para considerar los multiples tipos de audio mediante ponderacion de los efectos de los multiples tipos de audio sobre la base de los valores de confianza.

Como un ejemplo especfico de ponderacion, la unidad de ajuste esta configurada para considerar al menos un tipo de audio dominante sobre la base de los valores de confianza. Para dichos tipos de audio que tienen valores de confianza demasiado bajos (menor que un valor umbral), pueden no considerarse. Esto es equivalente al hecho de que las ponderaciones de los otros tipos de audio, cuyos valores de confianza son menores que el valor umbral, se ajustan como cero. Algunos ejemplos especficos se proporcionaran en las Partes 2 a 5 siguientes sobre dispositivos de mejora de audio especficos.

El tipo de contenido y el tipo de contexto pueden considerarse juntos. En una forma de realizacion, pueden considerarse como al mismo nivel y sus valores de confianza pueden tener sus ponderaciones respectivas. En otra forma de realizacion, simplemente como indica la nominacion, el “tipo de contexto” es el contexto o entorno en donde esta ubicado el “tipo de contenido” y por lo tanto, la unidad de ajuste 200 puede configurarse de modo que el tipo de contenido en una senal de audio de un tipo de contexto diferente se le asigne un valor de ponderacion diferente dependiendo del tipo de contexto de la senal de audio. En terminos generales, cualquier tipo de audio puede constituir un contexto de otro tipo de audio y en consecuencia, la unidad de ajuste 200 puede configurarse para modificar el valor de ponderacion de un tipo de audio con el valor de confianza de otro tipo de audio. Algunos ejemplos especficos se proporcionaran en las Partes 2 a 5 siguientes sobre dispositivos de mejora de audio espedficos.

En el contexto de la presente idea inventiva, el termino “parametro” tiene un significado mas amplio que su significado

5

10

15

20

25

30

35

40

45

50

55

60

literal. Ademas de que un parametro tenga un valor unico, puede significar tambien un preajuste segun se menciono con anterioridad, incluyendo un conjunto de diferentes parametros, un vector constituido por diferentes parametros o un perfil. Mas concretamente, en las Partes 2 a 5 posteriores, los siguientes parametros se examinaran pero la presente idea inventiva no esta limitada a este respecto: el nivel de mejorador de dialogos, los umbrales para determinar bandas de frecuencia para mejorador de dialogos, el nivel de fondo, la magnitud de refuerzo del sonido envolvente, la frecuencia de inicio para el virtualizador de sonido envolvente, la ganancia dinamica o la gama de la ganancia dinamica de un nivelador de volumen, los parametros que indican el grado de la senal de audio que es un nuevo evento auditivo perceptible, el nivel de ecualizacion, los perfiles de ecualizacion y los preajustes de equilibrio espectral.

1.5 Alisado de parametros

En la Seccion 1.3, hemos examinado el alisado del valor de confianza de un tipo de audio para evitar su cambio brusco y de este modo, evitar un cambio brusco de los parametros de los dispositivos de mejora de audio. Otras medidas son tambien posibles. Una consiste en el alisado del parametro ajustado sobre la base del tipo de audio y se examinara en esta seccion; la otra es configurar el clasificador de audio y/o la unidad de ajuste para retardar el cambio de los resultados del clasificador de audio y esta circunstancia se examinara en la seccion 1.6.

En una forma de realizacion, el parametro puede alisarse, ademas, para evitar un cambio rapido que puede introducir artefactos sonoros audibles en puntos de transicion, como

imagen4

en donde L(t) es el parametro alisado, L(t) es el parametro no alisado, t es un coeficiente que representa una constante de tiempo, t es el tiempo actual y t-1 es el ultimo tiempo.

Es decir, segun se ilustra en la Figura 8, el aparato de procesamiento de audio puede comprender una unidad de alisado de parametros 814 para, un parametro del dispositivo de mejora de audio (tal como al menos uno de entre el dispositivo de mejorador de dialogos 402, el virtualizador de sonido envolvente 404, el nivelador de volumen 406 y el ecualizador 408) ajustados por la unidad de ajuste 300, el alisado del valor de parametro determinado por la unidad de ajuste 300 en el momento actual calculando una suma ponderada del valor del parametro que se determina por la unidad de ajuste en el momento actual y un valor de parametro alisado de la ultima vez.

La constante de tiempo t puede ser un valor fijo basado en el requisito espedfico de una aplicacion y/o puesta en practica del dispositivo de mejora de audio 400. Puede cambiarse tambien, de forma adaptativa, sobre la base del tipo de audio, en particular sobre la base de los diferentes tipos de transicion desde un tipo de audio a otro, tal como desde musica a voz, y desde voz a musica.

Tomaremos un ecualizador como un ejemplo (detalles adicionales pueden consultarse en la Parte 5). La ecualizacion es adecuada para aplicarse sobre el contenido de musica pero no sobre un contenido de voz. De este modo, para el alisado de nivel de acuse de recibo, la constante de tiempo puede ser relativamente pequena cuando la senal de audio transita desde musica a voz, de modo que un nivel de ecualizacion mas pequeno puede aplicarse sobre el contenido de voz con mayor rapidez. Por otro lado, la constante de tiempo para la transicion desde voz a musica puede ser relativamente grande con el fin de evitar los artefactos sonoros audibles en los puntos de transicion.

Para estimar el tipo de transicion (p.ej., desde voz a musica o desde musica a voz) los resultados de la clasificacion de contenidos pueden utilizarse de forma directa. Es decir, la clasificacion del contenido de audio en musica o voz se hace mas sencilla para obtener el tipo de transicion. Para estimar la transicion de una manera mas continua, podemos confiar tambien en el nivel de ecualizacion no alisado estimado, en lugar de comparar directamente la decision diffcil de los tipos de audio. La idea general es, si esta aumentando el nivel de ecualizacion no alisado, ello indica una transicion desde voz a musica (o mas musica similar); de no ser asf, es mas como una transicion desde musica a voz (o mas voz similar). Diferenciando los tipos de transicion diferentes, la constante de tiempo puede establecerse en correspondencia, siendo un ejemplo:

imagen5

L(t) > L(t -1) L(t)<L(t-1)

(4’)

en donde t (t) es la constante de tiempo variable con el tiempo dependiendo del contenido, t 1 y t 2 son dos valores de constante de tiempo prestablecidos, normalmente que satisfacen la relacion t 1 > t 2. De forma intuitiva, la funcion anterior indica una transicion relativamente lenta cuando aumenta el nivel de ecualizacion y una transicion relativamente rapida cuando disminuye el nivel de ecualizacion, pero la presente idea inventiva no esta limitada a este respecto. Ademas, el parametro no esta limitado al nivel de ecualizacion, sino que pueden ser otros parametros. Es decir, la unidad de alisado de parametros 814 puede configurarse de modo que los valores de ponderacion para calcular la suma

5

10

15

20

25

30

35

40

45

50

55

60

ponderada se cambien, de forma adaptativa, sobre la base de una tendencia de aumento o disminucion del valor del parametro que se determina por la unidad de ajuste 300.

1.6 Transicion de tipos de audio

Con referencia a las Figuras 9 y 10, se describira otro sistema para evitar un cambio brusco del tipo de audio y de este modo, evitar un cambio brusco de los parametros de los dispositivos de mejora de audio.

Segun se ilustra en la Figura 9, el aparato de procesamiento de audio 100 pueden comprender, ademas, un temporizador 916 para medir el tiempo de duracion durante el cual el clasificador de audio 200 proporciona continuamente el mismo nuevo tipo de audio, en donde la unidad de ajuste 300 puede configurarse para seguir utilizando el tipo de audio presente hasta que la longitud del tiempo de duracion del nuevo tipo de audio alcance un valor umbral.

Dicho de otro modo, se introduce una fase de observacion (o de sostenimiento), segun se ilustra en la Figura 10. Con la fase de observacion (correspondiente al valor umbral de la longitud del tiempo de duracion), el cambio de tipo de audio se controla, ademas, durante una cantidad de tiempo consecutiva para confirmar si el tipo de audio ha cambiado realmente, antes de que la unidad de ajuste 300 utilice realmente el nuevo tipo de audio.

Segun se ilustra en la Figura 10, la flecha (1) ilustra la situacion en donde el estado actual es el tipo A y el resultado del clasificador de audio 200 no cambia.

Si el estado actual es el tipo A y el resultado del clasificador de audio 200 se hace de tipo B, en tal caso, el temporizador 916 inicia la temporizacion o, segun se ilustra en la Figura 10, el proceso entra en una fase de observacion (la flecha (2) y un valor inicial del conteo de persistencia cnt se ajusta, indicando la magnitud de la duracion de observacion (igual al valor umbral).

A continuacion, si el clasificador de audio 200 proporciona continuamente el tipo B, entonces, el valor de cnt disminuye continuamente (la flecha (3)) hasta que el valor de cnt es igual a 0 (es decir, la longitud del tiempo de duracion del nuevo tipo B alcanza el valor umbral), entonces, la unidad de ajuste 300 puede utilizar el nuevo tipo de audio B (la flecha (4)) o, dicho de otro modo, solamente hasta ahora puede considerarse el tipo de audio que ha cambiado realmente al tipo B.

De no ser asf, si antes de que el valor de cnt se haga cero (antes de que la longitud del tiempo de duracion alcance el valor umbral), la salida del clasificador de audio 200 retorna al tipo A antiguo, luego se termina la fase de observacion y la unidad de ajuste 300 sigue utilizando el tipo A antiguo (la flecha (5)).

El cambio desde el tipo B al tipo A puede ser similar al proceso anteriormente descrito.

En el proceso anterior, el valor umbral (o el conteo de persistencia) puede establecerse sobre la base del requisito de aplicacion. Puede ser un valor fijo predefinido. Puede ser tambien un ajuste adaptativo. En una variante, el valor umbral es diferente para los distintos pares de transicion desde un tipo de audio a otro tipo de audio. A modo de ejemplo, cuando cambia desde el tipo A al tipo B, el valor umbral puede ser un primer valor; y cuando se cambia desde el tipo B al tipo A, el valor umbral puede ser un segundo valor.

En otra variante, el conteo de persistencia (umbral) puede estar en correlacion negativa con el valor de confianza del nuevo tipo de audio. La idea general es que, si el valor de confianza se muestra confuso entre dos tipos (p.ej., cuando el valor de confianza es solamente alrededor de 0.5), la duracion de la observacion necesita ser larga; de no ser asf, la duracion puede ser relativamente corta. Siguiendo esta directriz, un conteo de persistencia ejemplo puede establecerse por la formula siguiente,

HcingCnt - C-1 0.5 - Conf I+D

en donde HangCnt es la duracion persistencia o el valor umbral, C y D son dos parametros que pueden ajustarse sobre la base del requisito de aplicacion, siendo normalmente C un valor negativo mientras que D es un valor positivo.

A tal proposito, el temporizador 916 (y de este modo, el proceso de transicion anteriormente descrito) ha sido descrito anteriormente como una parte del aparato de procesamiento de audio pero fuera del clasificador de audio 200. En algunas otras formas de realizacion, puede considerarse como una parte del clasificador de audio 200, segun se describe en la Seccion 7.3.

1.7 Combinacion de formas de realizacion y escenarios de aplicacion

Todas las formas de realizacion y las variantes, anteriormente descritas, pueden ponerse en practica en cualquiera de sus combinaciones, y cualesquiera componentes mencionados en diferentes partes/formas de realizacion, pero teniendo las mismas o similares funciones, puede ponerse en practica como los mismos componentes o componentes separados.

5

10

15

20

25

30

35

40

45

50

55

60

65

Mas concretamente, cuando se describen las formas de realizacion y sus variantes en la presente descripcion, los componentes que tienen senales de referencia similares a las ya descritas en formas de realizacion anteriores o variantes se omiten, y solamente se describen los componentes diferentes. De hecho, estas componentes diferentes pueden combinarse con los componentes de otras formas de realizacion o variantes, o constituir soluciones separadas por sf mismas. A modo de ejemplo, cualesquiera dos o mas de las soluciones descritas con referencia a las Figuras 1 a 10, pueden combinarse entre st Como la solucion mas completa, los aparatos de procesamiento de audio pueden comprender el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, asf como la unidad alisado de tipo 712, la unidad de alisado de parametros 814 y el temporizador 916.

Segun se indico con anterioridad, los dispositivos de mejora de audio 400 pueden incluir el dispositivo de mejorador de dialogos 402, el virtualizador de sonido envolvente 404, el nivelador de volumen 406 y el ecualizador 408. Los aparatos de procesamiento de audio 100 pueden incluir cualquiera o mas de ellos, con la unidad de ajuste 300 adaptada a los mismos. Cuando se implican multiples dispositivos de mejora de audio 400, la unidad de ajuste 300 puede considerarse como incluyendo multiples sub-unidades 300A a 300D (Figuras 15, 18, 20 y 22) espedficas para los respectivos dispositivos de mejora de audio 400, o considerarse todavfa como una sola unidad de ajuste unificada. Cuando es especfico para un dispositivo de mejora de audio, la unidad de ajuste 300 junto con el clasificador de audio 200, asf como otros posibles componentes, pueden considerarse como el controlador del dispositivo de mejora de audio especfico, que se examinara en detalle en las Partes 2 a 5 siguientes.

Ademas, los dispositivos de mejora de audio 400 no estan limitados a los ejemplos que se mencionan y pueden incluir cualquier otro dispositivo de mejora de audio.

Ademas, cualesquiera soluciones ya examinadas o cualquiera de sus combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras Partes de esta idea inventiva. En particular, las formas de realizacion de los clasificadores de audio, segun se describira en las Partes 6 y 7, pueden utilizarse en los aparatos de procesamiento de audio.

1.8 Metodo de procesamiento de audio

En el proceso de descripcion de los aparatos de procesamiento de audio en las presentes formas de realizacion, evidentemente se dan a conocer tambien algunos procesos o metodos. A continuacion se proporciona un sumario de estos metodos sin repetir algunos de los datos ya descritos con anterioridad, pero conviene senalar que aunque los metodos se dan a conocer en el proceso de descripcion de los aparatos de procesamiento de audio, los metodos no adoptan necesariamente los componentes segun se describen o no se ejecutan necesariamente mediante dichos componentes. A modo de ejemplo, las formas de realizacion de los aparatos de procesamiento de audio pueden realizarse, parcial o completamente, con hardware y/o firmware, mientras que es posible que el metodo de procesamiento de audio descrito a continuacion pueda realizarse totalmente mediante un programa ejecutable por ordenador, aunque los metodos pueden adoptar tambien el hardware y/o firmware de los aparatos de procesamiento de audio.

Los metodos se describiran a continuacion haciendo referencia a las Figuras 11 a 14. Conviene senalar que en correspondencia con la propiedad de flujo continuo de la senal de audio, diversas operaciones se repiten cuando el metodo se pone en practica en tiempo real, y diferentes operaciones no son necesarias con respecto a un mismo segmento de audio.

En una forma de realizacion, segun se ilustra en la Figura 11, un metodo de procesamiento de audio se da a conocer. En primer lugar, la senal de audio a procesarse se clasifica en al menos un tipo de audio en tiempo real (operacion 1102). Sobre la base del valor de confianza del al menos un tipo de audio, puede ajustarse continuamente al menos un parametro para la mejora de audio (operacion 1104). La mejora de audio puede ser una mejorador de dialogos (operacion 1106), virtualizador de sonido envolvente (operacion 1108), nivelador de volumen (1110) y/o ecualizacion (operacion 1112). En correspondencia, el al menos un parametro puede comprender al menos un parametro para al menos uno de entre el procesamiento de mejorador de dialogos, el procesamiento de virtualizacion de la envolvente, el procesamiento de nivelacion de volumen y el procesamiento de ecualizacion.

En este caso, los terminos "en tiempo real" y "continuamente" significa el tipo de audio y en consecuencia, el parametro cambiara en tiempo real con el contenido especfico de la senal de audio y “continuamente” significa tambien que el ajuste es un ajuste continuo sobre la base del valor de confianza y no un ajuste brusco o discreto.

El tipo de audio puede comprender el tipo de contenido y/o el tipo de contexto. En correspondencia, la operacion 1104 de ajuste puede configurarse para ajustar el al menos un parametro sobre la base del valor de confianza de al menos un tipo de contenido y el valor de confianza de al menos un tipo de contexto. El tipo de contenido puede comprender, ademas, al menos uno de los tipos de contenidos de musica a corto plazo, voz, sonido de fondo y ruido. El tipo de contexto puede comprender, ademas, al menos uno de entre los tipos de contextos de musica a largo plazo, multimedia similar a cine, juego y VoIP.

Algunos otros sistemas de tipo de contexto son tambien propuestos, tales como tipos de contextos relacionados con

5

10

15

20

25

30

35

40

45

50

55

60

65

VoIP incluyendo VoIP y no VoIP y los tipos de calidad de audio que incluyen audio de alta calidad o audio de baja calidad.

La musica a corto plazo puede clasificarse tambien en sub-tipos en conformidad con normas diferentes. Dependiendo de la presencia de una fuente dominante, puede comprender musica sin fuentes dominantes y musica con fuentes dominantes. Ademas, la musica a corto plazo puede comprender al menos una agrupacion basada en el genero o al menos una agrupacion basada en los instrumentos o al menos una agrupacion musical clasificada sobre la base del ritmo, tempo, timbre de musica y/o cualesquiera otros atributos musicales.

Cuando se identifican los tipos de contenidos y los tipos de contextos, la importancia de un tipo de contenido puede determinarse por el tipo de contexto en donde esta situado el tipo de contenido. Es decir, el tipo de contenido en una senal de audio de un tipo de contexto diferente se le asigna una ponderacion diferente dependiendo del tipo de contexto de la senal de audio. Mas en general, un tipo de audio puede influir o puede ser una premisa de otro tipo de audio. Por lo tanto, la operacion de ajustar 1104 puede configurarse para modificar la ponderacion del tipo de audio con el valor de confianza de otro tipo de audio.

Cuando una senal de audio se clasifica en multiples tipos de audio al mismo tiempo (es decir, con respecto al mismo segmento de audio), la operacion de ajustar 1104 puede considerar algunos o la totalidad de los tipos de audio identificados para ajustar los parametros para mejorar ese segmento de audio. A modo de ejemplo, la operacion de ajuste 1104 puede configurarse para la ponderacion de los valores de confianza de los al menos un tipo de audio sobre la base de la importancia del al menos un tipo de audio. O bien, la operacion de ajuste 1104 puede configurarse para considerar al menos algunos de los tipos de audio mediante su ponderacion sobre la base de sus valores de confianza. En un caso especial, la operacion de ajuste 1104 puede configurarse para considerar el al menos un tipo de audio dominante sobre la base de los valores de confianza.

Para evitar cambios bruscos de los resultados, pueden introducirse sistemas de alisado.

El valor de parametro ajustado puede ser alisado (operacion 1214 en la Figura 12). A modo de ejemplo, el valor de parametro determinado por la operacion de ajuste 1104 en el momento presente puede sustituirse con una suma ponderada del valor de parametro determinado por la operacion de ajuste en el momento actual y un valor de parametro alisado de la ultima vez. De este modo, mediante la operacion de alisado en iteracion, el valor del parametro es objeto de alisado en la lmea de tiempos.

Los valores de ponderacion para calcular la suma ponderada pueden cambiarse, de forma adaptativa, sobre la base del tipo de audio de la senal de audio o basarse en diferentes pares de transicion desde un tipo de audio a otro tipo de audio. Como alternativa, los valores de ponderacion para calcular la suma ponderada se cambian, de forma adaptativa sobre la base de un aumento o disminucion en la tendencia del valor de parametro determinado por la operacion de ajuste.

Otro sistema de alisado se ilustra en la Figura 13. Es decir, el metodo puede comprender, ademas, para cada tipo de audio, el alisado del valor de confianza de la senal de audio en el momento actual calculando una suma ponderada del valor de confianza real en el presente y un valor de confianza alisado de la ultima vez (operacion 1303). De modo similar a la operacion de alisado de parametros 1214, los valores de ponderacion para calcular la suma ponderada pueden cambiarse, de forma adaptativa, sobre la base del valor de confianza del tipo de audio de la senal de audio o basarse en diferentes pares de transicion desde un tipo de audio a otro tipo de audio.

Otro sistema de alisado es un mecanismo de memorizacion intermedia para retardar la transicion desde un tipo de audio a otro tipo de audio, aun cuando cambie la salida de la operacion de clasificacion de audio 1102. Es decir, la operacion de ajuste 1104 no utiliza el nuevo tipo de audio de forma inmediata, sino que espera a la estabilizacion de la salida de la operacion de clasificacion de audio 1102.

Mas concretamente, el metodo puede comprender la medicion del tiempo de duracion durante el cual la operacion de clasificacion proporciona continuamente el mismo nuevo tipo de audio (operacion 1403 en la Figura 14), en donde la operacion de ajuste 1104 esta configurada para seguir utilizando el presente tipo de audio ("N" en la operacion 14035 y en la operacion 11041) hasta que la longitud del tiempo de duracion del nuevo tipo de audio alcance un valor umbral ("Y" en la operacion 14035 y en la operacion 11042). Mas concretamente, cuando la salida del tipo de audio desde la operacion de clasificacion de audio 1102 cambia con respecto al tipo de audio actual utilizado en la operacion de ajuste de parametros de audio 1104 ("Y" en la operacion 14031), entonces se inicia la temporizacion (operacion 14032). Si la operacion de clasificacion de audio 1102 sigue proporcionando el nuevo tipo de audio, es decir, si la determinacion en la operacion 14031 sigue siendo "Y", entonces continua la temporizacion (operacion 14032). Por ultimo, cuando el tiempo de duracion del nuevo tipo de audio alcanza un valor umbral ("Y" en la operacion 14035), la operacion de ajuste 1104 utiliza el nuevo tipo de audio (operacion 11042), y la temporizacion es objeto de restablecimiento (operacion 14034) para preparar la siguiente conmutacion del tipo de audio. Antes de alcanzar el valor umbral ("N" en la operacion 14035), la operacion de ajuste 1104 sigue utilizando el tipo de audio actual (operacion 11041).

En este caso, la temporizacion puede ponerse en practica con el mecanismo de un temporizador (conteo ascendente o conteo descendente). Si despues de que se inicie la temporizacion, pero antes de que alcance el valor umbral, la salida

5

10

15

20

25

30

35

40

45

50

55

60

65

de la operacion de clasificacion de audio 1102 se hace retornar al tipo de audio actual utilizado en la operacion de ajuste 1104, debe considerarse que no existe ningun cambio ("N" en la operacion 14031) con respecto al tipo de audio actual utilizado por la operacion de ajuste 1104. Pero el resultado de clasificacion actual (correspondiente al segmento de audio presente a clasificarse en la senal de audio) cambia con respecto a la salida anterior (correspondiente al segmento de audio anterior a clasificarse en la senal de audio) de la operacion de clasificacion de audio 1102 ("Y" en la operacion 14033), de modo que la temporizacion se restablece (operacion 14034), hasta que el siguiente cambio ("Y" en la operacion 14031) inicie la temporizacion. Por supuesto, si el resultado de la clasificacion de la operacion de clasificacion de audio 1102 no cambia con respecto al tipo de audio actual utilizado por la operacion de ajuste de parametros de audio 1104 ("N" en la operacion 14031), ni cambia con respecto a la clasificacion anterior ("N" en la operacion 14033), ello demuestra que la clasificacion de audio esta en un estado estable y se sigue utilizando el tipo de audio actual.

El valor umbral aqu utilizado puede ser tambien diferente para distintos parametros de transicion desde un tipo de audio a otro tipo de audio, porque cuando el estado no es estable, en general podemos preferir que el dispositivo de mejora de audio este en sus condiciones por defecto en lugar de en otras. Por otro lado, si el valor de confianza del nuevo tipo de audio es relativamente alto, es mas seguro transitar al nuevo tipo de audio. Por lo tanto, el valor umbral puede estar en correlacion negativa con el valor de confianza del nuevo tipo de audio. Cuanto mas alto sea el valor de confianza, tanto mas bajo sera el valor umbral, lo que significa que el tipo de audio puede transitar al nuevo mas rapido.

De modo similar a las formas de realizacion de los aparatos de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son practicas por un lado y por el otro lado, cualquier aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. En particular, en todos los metodos de procesamiento de audio, los metodos de clasificacion de audio segun se describen en las Partes 6 y 7 pueden utilizarse a este respecto.

Parte 2: Controlador del dispositivo de mejorador de dialogos y metodo de control

Un ejemplo del dispositivo de mejora de audio es el dispositivo mejorador de dialogos (DE), cuyo objetivo es controlar continuamente el audio en la reproduccion, detectar la presencia de dialogo y mejorar el dialogo para aumentar su claridad e inteligibilidad (haciendo el dialogo mas facil de ofr y entender), en particular las personas de edad avanzada con disminucion de su capacidad auditiva. Ademas de detectar si un dialogo esta presente, las frecuencias mas importantes para la inteligibilidad son detectadas tambien si un dialogo esta presente y luego, se mejora en correspondencia (con un reequilibrio espectral dinamico). Un metodo de mejora de dialogo ejemplo se presenta en H. Muesch. ”Mejora de la voz en un audio de entretenimiento” publicada como documento WO 2008/106036 A2.

Una configuracion manual comun del dispositivo de mejora de dialogo es que se suele activar en contenidos de multimedia similar a cine pero desactivar en un contenido de musica, puesto que la mejora del dialogo puede iniciar falsamente demasiado en senales musicales.

Con la informacion del tipo de audio disponible, el nivel de mejora de dialogo y otros parametros pueden ajustarse sobre la base del valor de confianza de los tipos de audio identificados. Como un ejemplo espedfico de los aparatos de procesamiento de audio y del metodo anteriormente descrito, el dispositivo de mejora de dialogo puede hacer uso de todas las formas de realizacion examinadas en la Parte 1 y de cualesquiera combinaciones de dichas formas de realizacion. Mas concretamente, en el caso de controlar el dispositivo de mejora de dialogo, el clasificador de audio 200 y la unidad de ajuste 300 en el aparato de procesamiento de audio 100 segun se ilustra en las Figuras 1 a 10 pueden constituir un controlador de dispositivo de mejora de dialogo 1500 segun se ilustra en la Figura 15. En esta forma de realizacion, puesto que la unidad de ajuste es especfica para el dispositivo de mejora de dialogo, puede referirse 300A. Y, segun se describe en la parte anterior, el clasificador de audio 200 puede comprender al menos uno de entre el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204 y el controlador del dispositivo de mejora de dialogo 1500 puede comprender, ademas, al menos uno de entre la unidad de alisado de tipo 712, la unidad de alisado de parametros 814 y el temporizador 916.

Por lo tanto, en esta parte, no repetiremos los contenidos ya descritos en la parte anterior y simplemente proporcionaremos algunos de sus ejemplos espedficos.

Para un dispositivo de mejora de dialogo, los parametros ajustables incluyen, sin limitacion, el nivel de mejora de dialogo, el nivel de fondo y los umbrales para determinar las bandas de frecuencias que han de mejorarse. Vease el documento de H. Muesch. ”Mejora de la voz en audio de entretenimiento”, publicada como documento Wo 2008/106036 A2.

2.1 Nivel de mejora de los dialogos

Cuando se implica el nivel de mejora de dialogo, la unidad de ajuste 300A puede configurarse para establecer una correlacion positiva del nivel de mejora de dialogo del dispositivo de mejora de dialogo con el valor de confianza de la voz. Ademas o como alternativa, el nivel puede estar en correlacion negativa para el valor de confianza de los otros tipos de contenidos. De este modo, el nivel de mejora de dialogo puede establecerse para ser proporcional (de forma lineal o no lineal) con la confianza de la voz, de modo que la mejora de dialogo sea menos efectiva en senales sin voz, tales como musica y sonido de fondo (efectos sonoros).

5

10

15

20

25

30

35

40

45

50

55

60

65

En cuanto al tipo de contexto, la unidad de ajuste 300A puede configurarse para establecer una correlacion positiva del nivel de mejora de dialogo del dispositivo de mejora de dialogo con el valor de confianza de multimedia similar a cine y/o VoIP, y/o una correlacion negativa del nivel de mejora de dialogo del dispositivo de mejora de dialogo con el valor de confianza de la musica a largo plazo y/o juego. A modo de ejemplo, el nivel de mejora de dialogo puede establecerse para ser proporcional (en forma lineal o no lineal) con el valor de confianza de multimedia similar a cine. Cuando el valor de confianza de multimedia similar a cine es 0 (p.ej., en el contenido de musica), el nivel de mejora de dialogo es tambien 0, lo que es equivalente a desactivar el dispositivo de mejora de dialogo.

Segun se describe en la parte anterior, el tipo de contenido y el tipo de contexto pueden considerarse conjuntamente.

22 Umbrales para determinarlas bandas de frecuencias a mejorarse

Durante el funcionamiento del dispositivo de mejora de dialogo, existe un valor umbral (normalmente umbral de energfa o de intensidad) para cada banda de frecuencias para determinar si necesita mejorarse, es decir, las bandas de frecuencia por encima de los respectivos valores umbral de energfa/intensidad deberan mejorarse. Para ajustar los valores umbral, la unidad de ajuste 300A puede configurarse para una correlacion positiva de los valores umbral con un valor de confianza de la musica a corto plazo y/o ruido y/o sonidos de fondo y/o correlacion negativa de los valores umbral con un valor de confianza de la voz. A modo de ejemplo, los valores umbral pueden disminuirse si la confianza de la voz es alta, suponiendo una deteccion de la voz mas fiable, para permitir que se mejoren mas bandas de frecuencias; por el contrario, cuando el valor de confianza de la musica es alto, los valores umbral pueden aumentarse para hacer que se mejoren menos bandas de frecuencias (y de este modo, menor presencia de artefactos).

2.3 Ajuste al nivel de fondo

Otra componente en el dispositivo de mejora del dialogo es la unidad de seguimiento mmimo 4022, segun se ilustra en la Figura 15, que se utiliza para la estimacion del nivel de fondo en la senal de audio (para estimacion de la relacion de senal a ruido SNR, y la estimacion del umbral de bandas de frecuencia segun se menciona en la Seccion 2.2). Puede sintonizarse tambien sobre la base de los valores de confianza de tipos de contenidos de audio. A modo de ejemplo, si la confianza de la voz es alta, la unidad de seguimiento mmimo puede ser mas fiable para establecer el nivel de fondo al mmimo actual. Si la confianza de la musica es alta, el nivel de fondo puede establecerse a un valor algo mas alto que el mmimo actual, o en otra manera, establecerlo a una media ponderada del mmimo actual y de la energfa de la trama actual, con una ponderacion grande sobre el mmimo actual. Si la confianza del fondo y del ruido es alta, el nivel de fondo puede establecerse mucho mas elevado que el valor mmimo actual o de otra manera, establecerse a una media ponderada del mmimo actual y la energfa de la trama actual, con una pequena ponderacion del mmimo actual.

De este modo, la unidad de ajuste 300A puede configurarse para asignar un ajuste a un nivel de fondo estimado por la unidad de seguimiento mmimo, en donde la unidad de ajuste esta configurada, ademas, para la correlacion positiva del ajuste con un valor de confianza de musica a corto plazo y/o ruido y/o sonido de fondo y/o en correlacion negativa con el ajuste con un valor de confianza de la voz. En una variante, la unidad de ajuste 300A puede configurarse para establecer la correlacion del ajuste con el valor de confianza del ruido y/o fondo de forma mas positiva que la musica a corto plazo.

2.4 Combinacion de formas de realizacion y escenarios de aplicacion

De forma similar a lo establecido en la Parte 1, todas las formas de realizacion y variantes anteriormente descritas pueden ponerse en practica en cualquiera de sus combinaciones y cualesquiera componentes mencionados en diferentes partes o formas de realizacion, pero teniendo las mismas o similares funciones, pueden ponerse en practica como los mismos o componentes separados.

A modo de ejemplo, cualesquiera dos o mas de las soluciones descritas en las secciones 2.1 a 2.3 pueden combinarse entre sf. Y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en la Parte 1 y las otras Partes que se describiran mas adelante. En particular, numerosas formulas son realmente aplicables a cada clase de dispositivo de mejora de audio o su metodo correspondiente, pero no son necesariamente descritas o citadas en cada parte de esta idea inventiva. En tal situacion, puede hacerse una referencia cruzada entre las Partes de esta idea inventiva para aplicar una formula espedfica incluida en una parte a otra parte, con solamente el ajuste adecuado de los parametros, coeficientes, potencias (exponentes) y ponderaciones pertinentes en conformidad con los requisitos espedficos de la aplicacion concreta.

2.5 Metodo de control del dispositivo de mejora de dialogos

De forma similar a la Parte 1, en el proceso de describir el controlador del dispositivo de mejora de dialogo en las formas de realizacion aqrn incluidas, se dan a conocer tambien algunos procesos o metodos. En este caso, se proporciona un resumen de estos metodos sin repetir algunos de los datos ya descritos con anterioridad.

En primer lugar, las formas de realizacion del metodo de procesamiento de audio segun se describe en la Parte 1 pueden utilizarse para un dispositivo de mejora de dialogo, cuyos parametros es uno de los objetivos que han de

5

10

15

20

25

30

35

40

45

50

55

60

65

ajustase mediante el metodo de procesamiento de audio. Desde este punto de vista, el metodo de procesamiento de audio es tambien un metodo control del dispositivo de mejora de dialogo.

En esta seccion, solamente se describiran aspectos espedficos para el control del dispositivo de mejora de dialogo. Para los aspectos generales del metodo de control, puede hacerse referencia a la Parte 1.

En conformidad con una forma de realizacion, el metodo de procesamiento de audio puede comprender, ademas, un procesamiento de mejora de dialogo y la operacion de ajuste 1104 comprende una correlacion positiva del nivel de mejora de dialogo con el valor de confianza de multimedia similar a cine y/o VoIP, y/o una correlacion negativa del nivel de mejora de dialogo con el valor de confianza de la musica a largo plazo y/o juego. Es decir, la mejora de dialogo esta principalmente orientada a la senal de audio en el contexto de multimedia similar a cine o VoIP.

Mas concretamente, la operacion de ajuste 1104 puede comprender la correlacion positiva del nivel de mejora de dialogo del dispositivo de mejora de dialogo con el valor de confianza de la voz.

La presente idea inventiva puede ajustar tambien las bandas de frecuencias que han de mejorarse en el procesamiento de mejora de dialogo. Segun se ilustra en la Figura 16, los valores umbrales (normalmente energfa o intensidad) para determinar si las bandas de frecuencia respectivas que han de mejorarse pueden ajustarse sobre la base de los valores de confianza de los tipos de audio identificados (operacion 1602) de conformidad con la presente idea inventiva. A continuacion, dentro del dispositivo de mejora de dialogo, sobre la base de los valores umbrales ajustados, se seleccionan (operacion 1604) y se mejoran (operacion 1606) las bandas de frecuencias por encima de los valores umbrales respectivos.

Mas concretamente, la operacion de ajuste 1104 puede incluir la correlacion positiva de los valores umbrales con un valor de confianza de musica a corto plazo y/o ruido y/o sonido de fondo y/o una correlacion negativa de los valores umbrales con una valor de confianza de la voz.

El metodo de procesamiento de audio (en particular, el procesamiento de mejora de dialogo) suele comprender, ademas, la estimacion del nivel de fondo en la senal de audio, que se suele realizar mediante una unidad de seguimiento mmimo 4022 realizada en el dispositivo de mejora de dialogo 402 y utilizada en la estimacion de la relacion senal a ruido SNR o la estimacion del valor umbral de las bandas de frecuencias. La presente idea inventiva puede utilizarse tambien para ajustar el nivel de fondo. En tal situacion, despues de que se estime el nivel de fondo (operacion 1702), se ajusta primero sobre la base de los valores de confianza de los tipos de audio (operacion 1704), y luego, se utiliza en la estimacion de la relacion SNR y/o estimacion de valores umbrales de bandas de frecuencias (operacion 1706). Mas concretamente, la operacion de ajuste 1104 puede configurarse para asignar un ajuste al nivel de fondo estimado, en donde la operacion de ajuste 1104 puede configurarse, ademas, para una correlacion positiva del ajuste con un valor de confianza de una musica a corto plazo y/o ruido y/o sonido de fondo y/o una correlacion negativa del ajuste con un valor de confianza de la voz.

Mas concretamente, la operacion de ajuste 1104 puede configurarse para establecer una correlacion del ajuste con el valor de confianza del ruido y/o fondo de forma mas positiva que la musica a corto plazo.

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son de efecto practico por un lado; y por el otro lado, cada aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf, y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en la Parte 1 y las otras partes que se describiran mas adelante.

Parte 3: Controlador del virtualizador de sonido envolvente y metodo de control

Un virtualizador de sonido envolvente permite que una senal sonora envolvente (tal como los multicanales 5.1 y 7.1) se presente a traves de los altavoces internos del PC o a traves de auriculares. Es decir, con dispositivos estereo tales como altavoces o auriculares de ordenador portatil internos, crea un efecto de envolvente virtual y proporciona una experiencia cinematica para los consumidores. Las denominadas Funciones de Transferencias Relacionadas con los Auriculares (HRTFs) se suelen utilizar en el virtualizador de sonido envolvente para simular la llegada de sonido en los ofdos procedente de las diversas ubicaciones de altavoces asociadas con la senal de audio multicanal.

Aunque el virtualizador de sonido envolvente actual funciona adecuadamente con los auriculares, funciona de forma distinta con diferentes contenidos con los altavoces incorporados. En general, el contenido de multimedia similar a cine permite que el virtualizador de sonido envolvente se active para altavoces, aunque la musica es posible que no suelen con intensidad.

Puesto que los mismos parametros en el virtualizador de sonido envolvente no pueden crear una buena imagen acustica para el contenido de multimedia similar a cine y el contenido musical simultaneamente, los parametros han de ajustarse sobre la base del contenido de forma mas precisa. Con la informacion del tipo de audio disponible, en particular, el valor

5

10

15

20

25

30

35

40

45

50

55

60

de confianza de la musica y el valor de confianza de la voz, asf como algunas otras informaciones del tipo de contenido y del tipo de contexto, puede conseguirse un funcionamiento adecuado con la presente idea inventiva.

De modo similar a la Parte 2, a modo de un ejemplo espedfico del aparato de procesamiento de audio y del metodo descrito en la Parte 1, el virtualizador de sonido envolvente 404 puede hacer uso de la totalidad de las formas de realizacion descritas en la Parte 1 y cualesquiera combinaciones de dichas formas de realizacion que en dicha parte se dan a conocer. Mas concretamente, en el caso de control del virtualizador de sonido envolvente 404, el clasificador de audio 200 y la unidad de ajuste 300 en el aparato de procesamiento de audio 100 segun se ilustra en las Figuras 1 a 10, pueden constituir un controlador de virtualizador de sonido envolvente 1800 segun se ilustra en la Figura 18. En esta forma de realizacion, puesto que la unidad de ajuste es espedfica para el virtualizador de sonido envolvente 40, puede referirse como 300B. Y, de modo similar a la Parte 2, el clasificador de audio 200 puede comprender al menos uno de entre el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, y el controlador de virtualizador de sonido envolvente 1800 puede comprender, ademas, al menos uno entre la unidad de alisado de tipo 712, la unidad de alisado de parametros 814 y el temporizador 916.

Por lo tanto, en esta Parte, no repetiremos los contenidos ya descritos en la Parte 1, y simplemente proporcionaremos algunos de sus ejemplos especficos.

Para un virtualizador de sonido envolvente, los parametros ajustables incluyen, sin limitacion, a la magnitud reforzadora de envolvente y la frecuencia inicial para el virtualizador de sonido envolvente 404.

3.1 Magnitud de refuerzo de la envolvente

Cuando esta implicada la magnitud de refuerzo de la envolvente, la unidad de ajuste 300B puede configurarse para una correlacion positiva de la magnitud de refuerzo de la envolvente del virtualizador de sonido envolvente 404 con un valor de confianza del ruido y/o fondo y/o voz y/o una correlacion negativa de la magnitud de refuerzo de la envolvente con un valor de confianza de la musica a corto plazo.

Mas concretamente, para modificar el virtualizador de sonido envolvente 404 con el fin de que la musica (tipo de contenido) suene de forma aceptable, una puesta en practica a modo de ejemplo de la unidad de ajuste 300B podna ajustar la magnitud de refuerzo de la envolvente sobre la base del valor de confianza de la musica a corto plazo, tal como:

SB - (1- Confmisir) (5)

en donde SB indica la magnitud de refuerzo de la envolvente, Confmusc es el valor de confianza de la musica a corto plazo.

Sirve de ayuda para disminuir el refuerzo de la envolvente para la musica y evitar que suene en la forma de 'lavado':

De modo similar, el valor de confianza de la voz puede utilizarse tambien, a modo de ejemplo:

SB - (1-Con/™* rConJ\pef,; (6)

en donde Confspeech es el valor de confianza de la voz, a es el coeficiente de ponderacion en la forma de exponente, y puede estar en el margen de 1-2. Esta formula indica que la magnitud de refuerzo de la envolvente sera alta para solamente la voz pura (confianza de la voz alta y confianza de la musica baja).

O bien, podemos considerar solamente el valor de confianza de la voz:

imagen6

Diversas variantes pueden disenarse de una forma similar. En particular, para el ruido o el sonido de fondo, pueden establecerse formulas similares a la formula (5) a (7). Ademas, los efectos de los cuatros tipos de contenidos pueden considerarse juntos en cualquier combinacion. En tal situacion, el ruido y el sonido de fondo son sonidos ambientales y son mas seguros para tener una gran magnitud de refuerzo; la voz puede tener una magnitud de refuerzo media, suponiendo que la persona que habla suele estar sentada frente a la pantalla; y la musica utiliza menos magnitud de refuerzo. Por lo tanto, la unidad de ajuste 300B puede configurarse para establecer una correlacion de la magnitud de refuerzo de la envolvente con el valor de confianza del ruido y/o fondo de forma mas positiva que el contenido del tipo de voz.

Suponiendo que definimos previamente una magnitud de refuerzo prevista (que es equivalente a una ponderacion) para

5

10

15

20

25

30

35

40

45

50

55

60

cada tipo de contenido, se puede aplicar tambien otra alternativa:

„ <V<C*' Cortf^ + ama* ■ Conf„,u,r + ■ Co«/no,!f + <V ■ Con/w,

rt ---------------------------------------------------------------------------------------------------- W

Conf ^ + Conf mmic+Conf nohf + Confbts

en donde a es una magnitud de refuerzo estimada, a con un subrndice del tipo de contenido es la magnitud de refuerzo (ponderacion) prevista/predefinida del tipo de contenido, Conf con un subrndice del tipo de contenido es el valor de confianza del tipo de contenido (en donde bkg representa al "sonido de fondo"). Dependiendo de las situaciones, amusic puede (pero no necesariamente) establecerse como 0, lo que indica que el virtualizador de sonido envolvente 404 estara desactivado para la musica pura (tipo de contenido).

Desde otro punto de vista, el valor de a con un subrndice del tipo de contenido en la formula (8) es la magnitud de refuerzo prevista/predefinida del tipo de contenido, y el cociente del valor de confianza del tipo de contenido correspondiente dividido por la suma de los valores de confianza de todos los tipos de contenidos identificados puede considerarse como una ponderacion normalizada de la magnitud de refuerzo predefinida/prevista del tipo de contenido correspondiente. Es decir, la unidad de ajuste 300B puede configurarse para considerar al menos algunos de los multiples tipos de contenidos mediante ponderacion de las magnitudes de refuerzo predefinidas de los multiples tipos de contenidos sobre la base de los valores de confianza.

En cuanto el tipo de contexto, la unidad de ajuste 300B puede configurarse para una correlacion positiva de la magnitud de refuerzo de la envolvente del virtualizador de sonido envolvente 404 con un valor de confianza de multimedia similar a cine y/o juego, y/o una correlacion negativa de la magnitud de refuerzo de la envolvente con un valor de confianza de la musica a largo plazo y/o VoIP. A continuacion, pueden establecerse las formulas similares a (5) a (8).

A modo de ejemplo especial, el virtualizador de sonido envolvente 404 puede activarse para una condicion pura de multimedia similar a cine y/o juego, pero desactivarse para musica y/o VoIP. Asimismo, la magnitud de refuerzo del virtualizador de sonido envolvente 404 puede establecerse de forma diferente para multimedia similar a cine y juego. En multimedia similar a cine se utiliza una magnitud de refuerzo alta y el juego utiliza menos. Por lo tanto, la unidad de ajuste 300B puede configurarse para establecer una correlacion de la magnitud de refuerzo de la envolvente con el valor de confianza de multimedia similar a cine de forma mas positiva que con el juego.

De modo similar, al tipo de contenido, la magnitud de la envolvente de una senal de audio puede establecerse tambien a un valor medio ponderado de los valores de confianza de los tipos de contextos:

£ _ aMOV!E ' Conf movie aMUSIC ' Coflfmusk: (lCAMH ' Conf(;AMK UVO!P ' COTlf vo;F ^

C°nfmovie ~l~ ConfMUsic + ConfGAME + ConfV0!F

en donde a es la magnitud de refuerzo estimada, a con un subrndice del tipo de contexto es la magnitud de refuerzo prevista/predefinida (ponderacion) del tipo de contexto, Conf con un subrndice del tipo de contexto es el valor de confianza del tipo de contexto. Dependiendo de las situaciones, aMusic y avoip pueden (pero no necesariamente) establecerse como 0, lo que indica que el virtualizador de sonido envolvente 404 sera desactivado para musica pura (tipo de contexto) y/o VoIP pura.

De nuevo, de modo similar al tipo de contenido, el valor de a con un subrndice del tipo de contexto en la formula (9) es la magnitud de refuerzo prevista/predefinida del tipo de contexto y el cociente del valor de confianza del tipo de contexto correspondiente dividido por la suma de los valores de confianza de todos los tipos de contextos identificados puede considerarse como una ponderacion normalizada de la magnitud de refuerzo predefinida/prevista del tipo de contexto correspondiente. Es decir, la unidad de ajuste 300B puede configurarse para considerar al menos algunos de los multiples tipos de contextos mediante la ponderacion la magnitud de refuerzo predefinida de los multiples tipos de contextos sobre la base de los valores de confianza.

3.2 Frecuencia inicial

Otros parametros pueden modificarse tambien en el virtualizador de sonido envolvente, tal como la frecuencia inicial. En general, los componentes de alta frecuencia en una senal de audio son mas adecuados para presentarse de forma espacial. A modo de ejemplo, en la musica, el bajo se presenta espacialmente para tener mas efectos de envolvente. Por lo tanto, para una senal de audio espedfica, el virtualizador de sonido envolvente necesita determinar un valor umbral de frecuencia, con los componentes por encima de dicho valor presentados espacialmente mientras se retienen los componentes inferiores. El valor umbral de frecuencia es la frecuencia inicial.

En conformidad con una forma de realizacion de la presente idea inventiva, la frecuencia inicial para el virtualizador de sonido envolvente puede aumentarse en el contenido de musica de modo que se pueda retener mas bajos para las senales musicales. A continuacion, la unidad de ajuste 300B puede configurarse para establecer una correlacion positiva

5

10

15

20

25

30

35

40

45

50

55

60

65

de la frecuencia inicial del virtualizador de sonido envolvente con un valor de confianza de la musica a corto plazo.

3.3 Combinacion de formas de realizacion y escenarios de aplicacion

De forma similar a la Parte 1, todas las formas de realizacion y variantes anteriormente descritas pueden ponerse en practica en cualquiera de sus combinaciones, y cualesquiera componentes que se mencionen en diferentes partes/formas de realizacion pero teniendo las mismas o funciones similares, pueden ponerse en practica como los mismos o componentes separados.

A modo de ejemplo, cualquiera dos o mas de las soluciones descritas en las secciones 3.1 y 3.2 pueden combinarse entre sf. Y cualquiera de las combinaciones puede combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en la Parte 1, Parte 2 y mas demas partes que se describiran mas adelante.

3.4 Metodo de control del virtualizador de sonido envolvente

De forma similar a la Parte 1, en el proceso de describir el controlador del virtualizador de sonido envolvente en las formas de realizacion aqu descritas, evidentemente son tambien algunos procesos o metodos pertinentes. Mas adelante se proporciona un sumario de estos metodos sin repetir algunos de los detalles ya descritos con anterioridad.

En primer lugar, las formas de realizacion del metodo de procesamiento de audio segun se describe en la Parte 1 pueden utilizarse para un virtualizador de sonido envolvente, cuyos parametros es uno de los objetivos que han de ajustarse por el metodo de procesamiento de audio. Desde este punto de vista, el metodo de procesamiento de audio es tambien un metodo de control del virtualizador de sonido envolvente.

En esta seccion, solamente se describiran los aspectos espedficos para el control del virtualizador de sonido envolvente. Para aspectos generales del metodo de control, puede hacerse referencia a la Parte 1.

En conformidad con una forma de realizacion, el metodo de procesamiento de audio puede comprender, ademas, un procesamiento de virtualizacion de envolvente, y la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva de la magnitud de refuerzo de envolvente del procesamiento de virtualizacion de envolvente con un valor de confianza del ruido y/o fondo y/o voz y/o una correlacion negativa de la magnitud de refuerzo de envolvente con un valor de confianza de la musica a corto plazo.

Mas concretamente, la operacion de ajuste 1104 puede configurarse para establecer una correlacion de la magnitud de refuerzo de envolvente con el valor de confianza de ruido y/o sonido de fondo de forma mas positiva que con el tipo de contexto de voz.

Como alternativa o de forma adicional, la magnitud de refuerzo de envolvente puede ajustarse tambien sobre la base de los valores de confianza de los tipos de contextos. Mas concretamente, la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva de la magnitud de refuerzo de envolvente del procesamiento de virtualizacion de envolvente con un valor de confianza de multimedia similar a cine y/o juego, y/o una correlacion negativa de la magnitud de refuerzo de envolvente con un valor de confianza de la musica a largo plazo y/o VoIP.

Mas concretamente, la operacion de ajuste 1104 puede configurarse para establecer una correlacion de la magnitud de refuerzo de envolvente con el valor de confianza de multimedia similar a cine de forma mas positiva que con el juego.

Otro parametro a ajustarse es la frecuencia inicial para el procesamiento de virtualizacion de envolvente. Segun se ilustra en la Figura 19, la frecuencia inicial se ajusta, en primer lugar, sobre la base de los valores de confianza de los tipos de audio (operacion 1902), y a continuacion, el virtualizador de sonido envolvente procesa las componentes de audio por encima de la frecuencia inicial (operacion 1904). Mas concretamente, la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva de la frecuencia inicial del procesamiento de virtualizador de sonido envolvente con un valor de confianza de la musica a corto plazo.

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son practicas por un lado; y por el otro lado, cada aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf, y dichas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras partes de esta idea inventiva.

Parte 4: Controlador del nivelador de volumen y metodo de control

El volumen de diferentes fuentes de audio o diferentes elementos en la misma fuente de audio cambia mucho en algunas ocasiones. Es enojoso puesto que los usuarios han de ajustar con frecuencia el volumen. El dispositivo de nivelador de volumen (VL) tiene como objetivo ajustar el volumen del contenido de audio en la reproduccion y mantenerlo casi constante a traves de la lmea de tiempo sobre la base de un valor de intensidad objetivo. Niveladores de volumen a

5

10

15

20

25

30

35

40

45

50

55

60

65

modo de ejemplo se presentan en el documento A. J. Seefeldt et al. Titulado: "Calculo y ajuste de la intensidadpercibida y/o el equilibrio espectral percibido de una serial de audio”, publicada como US2009/0097676A1; B. G. Grockett et al. "Control de la ganancia de audio utilizando deteccion de eventos auditivos sobre la base de la intensidad espedfica", publicado como WO2007/127023A1; y A. Seefeldt et al. "Procesamiento de audio utilizando analisis de escenas auditivas y sesgado espectral", publicado como WO 2009/011827 A1.

El nivelador de volumen mide continuamente la intensidad de una senal de audio en alguna manera y luego, modifica la senal en una magnitud de ganancia que es un factor de escala para modificar la intensidad de una senal de audio y suele ser una funcion de la intensidad medida, la intensidad objetivo deseada y varios otros factores. Varios factores necesitan considerarse para la estimacion de una ganancia adecuada, con criterios subyacentes para aproximarse a la intensidad objetivo y mantenerse el margen dinamico. Suele comprender varios subelementos tales como control automatico de la ganancia (AGC), deteccion de evento auditorio, control del margen dinamico (DRC).

Una senal de control se suele aplicar en el nivelador de volumen para controlar la “ganancia” de la senal de audio. A modo de ejemplo, una senal de control puede ser un indicador del cambio en la magnitud de la senal de audio derivada mediante analisis de senales puras. Puede ser tambien un indicador de evento de audio para representar si aparece un nuevo evento de audio, mediante un analisis psico-acustico, tal como un analisis de escenas de auditorio o deteccion de eventos de auditorio sobre la base de una intensidad espedfica. Dicha senal de control se aplica en el nivelador de volumen para controlar la ganancia, a modo de ejemplo, asegurando que la ganancia sea casi constante dentro de un evento de auditorio y confinando gran parte del cambio de la ganancia a la proximidad de un lnriite de evento, con el fin de reducir la presencia de posibles artefactos audibles debido a un cambio rapido de la ganancia en la senal de audio.

Sin embargo, los metodos convencionales de derivacion de senales de control no pueden diferenciar los eventos de auditorio informativos de los eventos de auditorio no informativos (interferente). En este caso, el evento de auditorio informativo significa el evento de audio que contiene informacion significativa y puede recibir mas atencion por parte de los usuarios, tal como dialogo y musica, mientras que la senal no informativa no contiene informacion significativa para los usuarios, tal como ruido en VoIP. En consecuencia, las senales no informativas pueden aplicarse tambien mediante una ganancia de gran magnitud y reforzarse para cerrar la intensidad objetivo. Resultara desagradable en algunas aplicables. A modo de ejemplo, en las llamadas de VoIP, la senal de ruido que aparece en la pausa de una conversacion se suele reforzar hasta un volumen intenso despues de procesarse por un nivelador de volumen. Esto es indeseable por los usuarios.

Con el fin de resolver este problema al menos en parte, la presente idea inventiva propone el control del nivelador de volumen sobre la base de las formas de realizacion dadas a conocer en la Parte 1.

De modo similar a la Parte 2 y la Parte 3, como un ejemplo espedfico del aparato de procesamiento de audio y del metodo descritos en la Parte 1, el nivelador de volumen 406 puede hacer uso de la totalidad de las formas de realizacion descritas en la Parte 1 y cualesquiera combinaciones de dichas formas de realizacion aqu dadas a conocer. Mas concretamente, en el caso de control del nivelador de volumen 406, el clasificador de audio 200 y la unidad de ajuste 300 en el aparato de procesamiento de audio 100 segun se ilustra en las Figuras 1 a 10, puede constituir un controlador 2000 de nivelador de volumen 406 segun se ilustra en la Figura 20. En esta forma de realizacion, puesto que la unidad de ajuste es espedfica para el nivelador de volumen 406, puede referirse como 300C.

Es decir, sobre la base de la descripcion de la Parte 1, un controlador del nivelador de volumen 2000 puede comprender un clasificador de audio 200 para identificar continuamente el tipo de audio (tal como tipo de contenido y/o tipo de contexto) de una senal de audio; y una unidad de ajuste 300C para ajustar un nivelador de volumen en una manera continua sobre la base del valor de confianza del tipo de audio que se identifica. De modo similar, el clasificador de audio 200 puede comprender al menos uno de entre el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, y el controlador de nivelador de volumen 2000 puede comprender, ademas, al menos de entre la unidad de alisado de tipo 712, la unidad de alisado de parametros 814 y el temporizador 916.

Por lo tanto, en esta Parte, no se repetiran los contenidos ya descritos en la Parte 1 y simplemente se proporcionaran algunos de sus ejemplos especficos.

Diferentes parametros en el nivelador de volumen 406 pueden ajustarse de forma adaptativa, sobre la base de los resultados de clasificacion. Se pueden ajustar los parametros directamente relacionados con la ganancia dinamica o la gama de la ganancia dinamica, a modo de ejemplo, reduciendo la ganancia para las senales no informativas. Se pueden ajustar tambien los parametros que indican el grado de la senal que es un nuevo evento de audio perceptible, y luego, controlar indirectamente, la ganancia dinamica (la ganancia cambiara lentamente dentro de un evento de audio, pero puede cambiar con rapidez en el lfmite de separacion de dos eventos de audio). En esta aplicacion, se presentan varias formas de realizacion del ajuste de parametros o del mecanismo de control del nivelador de volumen.

4.1 Tipos de contenido informativo e interferente

Segun se indico con anterioridad, en relacion con el control del nivelador de volumen, los tipos de contenidos de audio pueden clasificarse como tipos de contenidos informativos y tipos de contenidos interferentes. Y la unidad de ajuste 300C

5

10

15

20

25

30

35

40

45

50

55

60

puede configurarse para establecer una correlacion positiva de la ganancia dinamica del nivelador de volumen con los tipos de contenidos informativos de la senal de audio, y una correlacion negativa de la ganancia dinamica del nivelador de volumen con tipos de contenidos interferentes de la senal de audio.

A modo de ejemplo, suponiendo que el ruido es interferente (no informativo) y sera enojoso que se refuerce en un volumen mayor, el parametro que controla directamente la ganancia dinamica o el parametro que indica nuevos eventos de audio pueden establecerse para ser proporcionales a una funcion decreciente del valor de confianza del ruido (Confnoise), tal como

GainControl « 1 -Coni' .

•' flOl!if?

(10)

En este caso, para mayor simplicidad, se utiliza el sfmbolo GainControl para representar todos los parametros (o sus efectos) relacionado con el control de la ganancia, en el nivelador de volumen, puesto que diferentes puestas en practica del nivelador de volumen pueden utilizar distintos nombres de parametros con diferente significado subyacente. La utilizacion del termino unico GainControl puede tener una expresion corta sin perder su generalidad. En esencia, el ajuste de estos parametros es equivalente a aplicar una ponderacion sobre la ganancia original, lineal o no lineal. A modo de ejemplo, el GainControl puede utilizarse directamente para poner a escala la ganancia de modo que la ganancia sera pequena si el valor de GainControl es pequeno. A modo de otro ejemplo espedfico, la ganancia esta indirectamente controlada mediante la puesta a escala con GainControl de la senal de control de eventos descrita en el documento B.G. Grockett et al. "Control de la ganancia de audio utilizando la deteccion de eventos de auditorio basados en una intensidad espedfica", publicado como documento WO2007/127023A1, que se incorpora aqu en su integridad por referencia. En este caso, cuando GainControl es de valor pequeno, los controles de la ganancia del nivelador de volumen se modifican para impedir que la ganancia cambie significativamente en el transcurso del tiempo. Cuando el valor de GainControl es alto, los controles se modifican de modo que la ganancia del nivelador de volumen sea permitido que cambie con mas libertad.

Con el control de la ganancia descrito en la formula (10) (poniendo directamente a escala la ganancia original o la senal de control de eventos), la ganancia dinamica de una senal de audio se pone en correlacion (lineal o no lineal) para su valor de confianza del ruido. Si la senal es ruido con un alto valor de confianza, la ganancia final sera pequena debido al factor (1 -Confnoise). De este modo, se impide reforzar una senal de ruido en un volumen intenso desagradable.

A modo de una variante ejemplo de la formula (10), si el sonido de fondo tampoco es de interes en una aplicacion (tal como en VoIP), puede negociarse de forma similar y aplicarse tambien mediante una ganancia pequena. Una funcion de control puede considerar, a la vez, el valor de confianza del ruido (Confnoise) y el valor de confianza del fondo (Confbkg), a modo de ejemplo

GainControl a (1 -Confnm;c) ■ (l-Confhkg )

(11)

En la formula anterior, puesto que no son deseados ni el ruido ni los sonidos de fondo, el valor de GainControl es igualmente afectado por el valor de confianza del ruido y el valor de confianza del fondo, y puede considerarse que el ruido y los sonidos de fondo tienen la misma ponderacion. Dependiendo de las situaciones, pueden tener diferentes ponderaciones. A modo de ejemplo, puede proporcionarse los valores de confianza del ruido y del sonido de fondo (o su diferencia con 1) con diferentes coeficientes o diferentes exponentes (a e y). Es decir, la formula (11) puede reescribirse como:

GainControl oc (1 -Confnoise) fl- (1-ConC )y

(12)

GainControl «: (1 -Confnohe a) ■ (l-Confht ‘)

(13)

Como alternativa, la unidad de ajuste 300C puede configurarse para considerar al menos un tipo de contenido dominante sobre la base de los valores de confianza. A modo de ejemplo:

GainControl oc 1 -max(Conf]^,. Confhkg)

(14)

o

Tanto la formula (11) (y sus variantes) y la formula (14) indican una ganancia pequena para senales de ruido y senales de sonido de fondo, y el comportamiento original del nivelador de volumen se mantiene solamente con, a la vez, la confianza del ruido y la confianza del sonido de fondo que se mantenga en un pequeno valor (tal como en la voz y la senal musical) de modo que GainControl tenga un valor proximo a uno.

La realizacion ejemplo anterior ha de considerar el tipo de contenido interferente dominante. Dependiendo de la

5

10

15

20

25

30

35

40

45

50

55

60

situacion, la unidad de ajuste 300C puede configurarse tambien para considerar el tipo de contenido informativo dominante sobre la base de los valores de confianza. En terminos mas generales, la unidad de ajuste 300C puede configurarse para considerar al menos un tipo de contenido dominante sobre la base de los valores de confianza, sin importar que los tipos de audio identificados sean/incluyan tipos de audio informativos y/o tipos de audio interferentes.

A modo de otro ejemplo variante de la formula (10), se supone que la senal de voz es el contenido mas informativo y necesita menos modificacion sobre el comportamiento por defecto del nivelador de volumen, la funcion controladora puede considerar, a la vez, el valor de confianza del ruido (Confnose) y el valor de confianza de la voz (Confspeech), como

GainControl oc l-Confmj!v, ■(] -Confspm„) (15)

Con esta funcion, se obtiene un pequeno valor de GainControl solamente para las senales con alto valor de confianza de ruido y bajo valor de confianza de la voz (p.ej., ruido puro) y el valor de GainControl estara proximo a 1 si el valor de confianza de la voz es alto (y de este modo, se mantiene el comportamiento original del nivelador de volumen). En terminos mas generales, puede considerarse que la ponderacion de un tipo de contenido (tal como Confnose) puede modificarse con el valor de confianza de al menos otro tipo de contenido (tal como Confspeech). En la formula (15) anterior, puede considerarse que la confianza de la voz cambia el coeficiente de ponderacion de la confianza del ruido (otra clase de ponderacion si se compara con las ponderaciones en las formulas (12 y 13)). Dicho de otro modo, en la formula (10), el coeficiente de Confnose puede considerarse como 1; mientras que en la formula (15), algunos otros tipos de audio (tales como la voz, pero sin limitacion) afectaran a la importancia del valor de confianza del ruido, por lo que se puede afirmar que la ponderacion de Concise se modifica por el valor de confianza de la voz. Dentro del contexto de la presente idea inventiva, el termino de "ponderacion" se interpretara como que incluye esta circunstancia. Es decir, indica la importancia de un valor, pero no necesariamente normalizado. Puede hacerse referencia a la seccion 1.4.

Desde otro punto de vista, similar a las formulas (12) y (13), ponderaciones en la forma de exponentes pueden aplicarse sobre los valores de confianza en la funcion anterior para indicar la prioridad (o importancia) de diferentes senales de audio, a modo de ejemplo, la formula (15) puede cambiarse a:

GainControl « 1- Confmhe “■ (1- Conf^ech)y (16)

en donde los valores de a y y son dos ponderaciones, que pueden establecerse mas pequenas si esta previsto que sean mas sensibles para modificar los parametros del nivelador.

Las formulas (10) a (16) pueden combinarse libremente para formar varias funciones de control que pueden ser adecuadas en diferentes aplicaciones. Los valores de confianza de otros tipos de contenidos de audio, tales como el valor de confianza de la musica, pueden incorporarse tambien facilmente en las funciones de control de una manera similar.

En el caso en donde el parametro de GainControl se utiliza para ajustar los parametros que indican el grado en que la senal se hace un nuevo evento de audio perceptible y luego, controlan indirectamente la ganancia dinamica (la ganancia cambiara lentamente dentro de un evento de audio pero puede cambiar con rapidez en el lnriite de dos eventos de audio), pudiendo considerarse que existe otra funcion de transferencia entre el valor de confianza de tipos de contenidos y la ganancia dinamica final.

4.2 Tipos de contenidos en diferentes contextos

Las funciones de control anteriores en la formula (10)-(16) toman en consideracion los valores de confianza de tipos de contenidos de audio, tales como ruido, sonido de fondo, musica a corto plazo y voz, pero no consideran sus contextos de audio en donde los sonidos de procedencia tal como multimedia similar a cine y VoIP. Es posible que el mismo tipo de contenido de audio pudiera necesitar procesarse de forma distinta en contextos de audio diferentes, a modo de ejemplo, los sonidos de fondo. El sonido de fondo comprende varios sonidos tales como un motor de vehfculo, explosion y aplausos. Puede no ser importante en una llamada de VoIP pero podna ser importante en un multimedia similar a cine. Esto indica que los contextos de audio interesados necesitan identificarse y diferentes funciones de control necesitan disenarse para distintos contextos de audio.

Por lo tanto, la unidad de ajuste 300C puede configurarse para considerar el tipo de contenido de la senal de audio como informativo o interferente sobre la base del tipo de contexto de la senal de audio. A modo de ejemplo, considerando el valor de confianza del ruido y el valor de confianza del sonido de fondo, y diferenciando los contextos de VoIP y no VoIP, una funcion de control dependiente del contexto de audio puede ser:

If el contexto de audio es VoIP

5

10

15

20

25

30

35

40

45

50

GainControl cx 1 - max( Confirl . Confbtx) else (17)

GainControl « 1 - Confnoi„

Es dedr, en el contexto de VoIP, el ruido y los sonidos de fondo se consideran como tipos de contenidos interferentes; mientras que el contexto de no VoIP, los sonidos de fondo se consideran como un tipo de contenido informativo.

A modo de otro ejemplo, una funcion de control dependiente del contexto de audio que considera los valores de confianza de la voz, ruido y sonido de fondo y diferenciando los contextos de VoIP y no VolP, podna ser:

If el contexto de audio es VoIP

GainControl <x 1 - max( Conf 'mbf, Conf^) else (18)

GainControl oc 1- Conf„oitc •(!-

En este caso, la voz es resaltada como un tipo de contenido informativo.

Suponiendo que la musica es tambien un tipo informativo importante en el contexto de no VoIP, se puede ampliar la segunda parte de la formula (18) a:

GainControl oc 1- Co?ifmiisr, ■ (1 - max( Conf^rh, Confmu,a. )) (19)

De hecho, cada una de las funciones de controles en (10)-(16) o sus variantes pueden aplicarse en contextos de audio distintos/correspondientes. De este modo, puede generarse un gran numero de combinaciones para formar funciones de control dependientes del contexto de audio.

Ademas, los contextos de VoIP y no VoIP segun se diferencian y utilizan en la formula (17) y (18), otros contextos de audio, tales como multimedia similar a cine, musica a largo plazo y juego o audio de baja calidad y audio de alta calidad, pueden utilizarse de una forma similar.

4.3 Tipo de contextos

Los tipos de contextos pueden utilizarse directamente tambien para controlar el nivelador de volumen para que evitar sonidos desagradables, tales como ruido, se refuercen en una magnitud excesiva. A modo de ejemplo, el valor de confianza de VoIP puede utilizarse para controlar el nivelador de volumen, haciendole menos sensible cuando su valor de confianza es alto.

Mas concretamente, con el valor de confianza de VoIP Confvoip el nivel del nivelador de volumen puede establecerse para ser proporcional a (1 -Confvoip). Es decir, el nivelador de volumen esta casi desactivado en el contenido de VoIP (cuando el valor de confianza de VoIP es alto), lo que es coherente con el ajuste manual tradicional (preset) que desactiva el nivelador de volumen para el contexto de VoIP.

Como alternativa, se puede establecer diferentes gamas de ganancia dinamica para diferentes contextos de senales de audio. En general, una magnitud del VL (nivelador de volumen) ajusta, ademas, la magnitud de la ganancia aplicada en una senal de audio y puede considerarse como otra ponderacion (no lineal) sobre la ganancia dinamica. En una forma de realizacion, un ajuste puede ser:

Tabla 1

: MULTIMEDIA SIMILAR A CINE MUSICA A LARGO PLAZO VoIP JUEGO

Magnitud de VL: Alta Media Off (o mas baja) Baja

Ademas, suponiendo que una magnitud de VL prevista sea predefinida para cada tipo de contexto. A modo de ejemplo, la magnitud de VL se establece como 1 para multimedia similar a cine, 0 para VoIP, 0.6 para musica y 0.3 para juego, pero la presente idea inventiva no esta limitada a este respecto. De conformidad con el ejemplo, si la gama de la ganancia dinamica de multimedia similar a cine es del 100 %, entonces, la gama de la ganancia dinamica de VoIP es del 60 % y asf sucesivamente. Si la clasificacion del clasificador de audio 200 esta basada en una decision diffcil, en tal caso,

5

10

15

20

25

30

35

40

45

50

55

60

65

la gama de la ganancia dinamica puede establecerse directamente como en el ejemplo anterior. Si la clasificacion del clasificador de audio 200 esta basada en una decision programada, en tal caso, la gama puede ajustarse sobre la base del valor de confianza del tipo de contexto.

De modo similar, el clasificador de audio 200 puede identificar multiples tipos de contextos desde la senal de audio, y la unidad de ajuste 300C puede configurarse para ajustar la gama de la ganancia dinamica mediante la ponderacion de los valores de confianza de los multiples tipos de contenidos sobre la base de la importancia de los multiples tipos de contenidos.

En general, para el tipo de contexto, las funciones similares a (10)-(16) pueden utilizarse tambien, en este caso, para establecer la magnitud de VL adecuada de forma adaptativa, con los tipos de contenidos allf sustituidos con tipos de contextos, y realmente, la tabla 1 refleja la importancia de un tipo de contexto diferente.

Desde otro punto de vista, el valor de confianza puede utilizarse para derivar una ponderacion normalizada, segun se describe en la seccion 1.4. En el supuesto de que una magnitud espedfica se predefine para cada tipo de contexto en la tabla 1, entonces, se puede aplicar tambien una formula similar a la formula (9). De forma imprevista, se pueden aplicar tambien soluciones similares a multiples tipos de contenidos y cualesquiera otros tipos de audio.

4.4 Combinacion de formas de realizacion y escenarios de aplicacion

De modo similar a la Parte 1, la totalidad de las formas de realizacion y variantes, segun fueron anteriormente descritas, pueden ponerse en practica en cualquiera de sus combinaciones, y cualesquiera componentes mencionados en diferentes partes/formas de realizacion, pero teniendo las mismas o similares funciones que pueden ponerse en practica como los mismos o componentes separados. A modo de ejemplo, cualesquiera dos o mas soluciones descritas en las secciones 4.1 a 4.3 pueden combinarse entre sf. Y cualquiera de las combinaciones puede combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las Partes 1-3 y las otras partes que se describiran a continuacion.

La Figura 21 ilustra el efecto del controlador de nivelador de volumen dado a conocer en la presente idea inventiva en comparacion con un segmento a largo plazo original (Figura 21(A)), el segmento a corto plazo procesado por un nivelador de volumen convencional sin modificacion de parametros (Figura 21(B)), y el segmento a corto plazo procesado por un nivelador de volumen segun se presenta en esta idea inventiva (Figura 21(C)). Como puede observarse, en el nivelador de volumen convencional segun se ilustra en la Figura 21(B), el volumen del ruido (la segunda mitad de la senal de audio) se refuerza tambien y resulta enojoso. Por el contrario, en el nuevo nivelador de volumen segun se ilustra en la Figura 21(C), el volumen de la parte efectiva de la senal de audio es reforzado sin reforzar evidentemente el volumen del ruido, lo que proporciona una buena experiencia para la audiencia.

4.5 Metodo de control del nivelador de volumen

De modo similar a la Parte 1, en el proceso de descripcion del controlador del nivelador de volumen en las formas de realizacion anteriormente descritas, se dan a conocer, evidentemente, tambien algunos procesos o metodos. A continuacion, se proporciona un resumen de estos metodos sin repetir algunos de los detalles ya descritos con anterioridad.

En primer lugar, las formas de realizacion del metodo de procesamiento de audio segun se describe en la Parte 1 pueden utilizarse para un nivelador de volumen, los parametros es uno de los objetivos a ajustarse por el metodo de procesamiento de audio. Desde este punto de vista, el metodo de procesamiento de audio es tambien un metodo de control del nivelador de volumen A.

En esta seccion, solamente se describiran los aspectos espedficos para el control del nivelador de volumen. Para los aspectos generales del metodo de control puede hacerse referencia a la Parte 1.

En conformidad con la presente idea inventiva, se da a conocer un metodo de control del nivelador de volumen A, incluyendo la identificacion del tipo de contenido de una senal en tiempo real, y ajustando un nivelador de volumen en una manera continua sobre la base del tipo de contenido que se identifica, estableciendo una correlacion positiva de la ganancia dinamica del nivelador de volumen con los tipos de contenidos informativos de la senal de audio y una correlacion negativa de la ganancia dinamica del nivelador de volumen con los tipos de contenidos interferentes de la senal de audio.

El tipo de contenido puede comprender voz, musica a corto plazo, ruido y sonido de fondo. En terminos generales, el ruido se considera como un tipo de contenido interferente.

Cuando se ajusta la ganancia dinamica del nivelador de volumen, puede ajustarse directamente sobre la base del valor de confianza del tipo de contenido o puede ajustarse por intermedio de una funcion de transferencia del valor de confianza del tipo de contenido.

Como fue ya descrito, la senal de audio puede clasificarse en multiples tipos de audio al mismo tiempo. Cuando se

5

10

15

20

25

30

35

40

45

50

55

60

65

implican multiples tipos de contenidos, la operacion de ajuste 1104 puede configurarse para considerar al menos algunos de los multiples tipos de contenidos de audio mediante la ponderacion de los valores de confianza de los multiples tipos de contenidos sobre la base de la importancia de los multiples tipos de contenidos, o mediante la ponderacion de los efectos de los multiples tipos de contenidos sobre la base de los valores de confianza. Mas concretamente, y la operacion de ajuste 1104 puede configurarse para considerar al menos un tipo de contenido dominante sobre la base de los valores de confianza. Cuando la senal de audio contiene, a la vez, tipos de contenidos interferentes y tipos de contenidos informativos, la operacion de ajuste puede configurarse para considerar al menos un tipo de contenido interferente dominante sobre la base de los valores de confianza y/o considerar al menos un tipo de contenido informativo dominante sobre la base de los valores de confianza.

Diferentes tipos de audio pueden tener una influencia mutua. Por lo tanto, la operacion de ajuste 1104 puede considerarse para modificar la ponderacion un tipo de contenido con el valor de confianza de al menos otro tipo de contenido.

Segun se describio en la Parte 1, el valor de confianza del tipo de audio de la senal de audio puede ser objeto de alisado. Para conocer los detalles de la operacion de alisado, puede hacerse referencia a la Parte 1.

El metodo puede incluir, ademas, la identificacion del tipo de contexto de la senal de audio, en donde la operacion de ajuste 1104 puede configurarse para ajustar la gama de la ganancia dinamica sobre la base del valor de confianza del tipo de contexto.

La funcion de un tipo de contenido esta limitada por el tipo de contexto en donde esta situado. Por lo tanto, cuando se obtienen, a la vez, informacion del tipo de contenido e informacion del tipo de contexto para una senal de audio al mismo tiempo (es decir, para el mismo segmento de audio), el tipo de contenido de la senal de audio puede determinarse como informativo o interferente sobre la base del tipo de contexto de la senal de audio. Ademas, al tipo de contenido en una senal de audio de un tipo de contexto diferente puede asignarse una ponderacion diferente dependiendo del tipo de contexto de la senal de audio. Desde otro punto de vista, se puede utilizar una ponderacion diferente (mayor o menor, plusvalfa o minusvalfa) para reflejar la naturaleza informativa o la naturaleza interferente de un tipo de contenido.

El tipo de contexto de la senal de audio puede comprender VoIP, multimedia similar a cine, musica a largo plazo y juego. Y en la senal de audio del tipo de contexto VoIP, el sonido de fondo se considera como un tipo de contenido interferente; mientras en la senal de audio del tipo de contexto no VoIP, el sonido de fondo y/o voz y/o musica se consideran como un tipo de contenido informativo. Otros tipos de contextos pueden incluir audio de alta calidad o audio de baja calidad.

De modo similar a los multiples tipos de contenidos, cuando la senal de audio se clasifica en multiples tipos de contextos con valores de confianza correspondientes al mismo tiempo (con respecto a un mismo segmento de audio), la operacion de ajuste 1104 puede configurarse para considerar al menos algunos de los multiples tipos de contexto mediante ponderacion de los valores de confianza de los multiples tipos de contextos sobre la base de la importancia de los multiples tipos de contextos o mediante la ponderacion de los efectos de los multiples tipos de contextos sobre la base de los valores de confianza. Mas concretamente, la operacion de ajuste puede configurarse para considerarse al menos un tipo de contexto dominante sobre la base de los valores de confianza.

Por ultimo, las formas de realizacion del metodo que se describen en esta seccion pueden utilizar el metodo de clasificacion de audio segun se describira en las Partes 6 y 7 y la descripcion detallada se omite aquf

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son de uso practico por un lado; y por el otro lado, cada aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras partes de la presente idea inventiva.

Parte 5: Controlador de ecualizador y metodo de control

La ecualizacion se suele aplicar sobre una senal de musica para ajustar o modificar su equilibrio espectral, tambien conocido como "tono" o "timbre". Un ecualizador tradicional permite a los usuarios configurar el perfil global (curva o forma) de la respuesta de frecuencia (ganancia) en cada banda de frecuencia individual, con el fin de resaltar algunos instrumentos o eliminar sonidos indeseados. Los reproductores de musica populares, tales como un reproductor de multimedia Windows, suelen proporcionar un ecualizador de graficos para ajustar la ganancia en cada banda de frecuencias, y proporcionar tambien un conjunto de preajustes del ecualizador para diferentes generos de musica, tales como Rock, Rap, Jazz y Folk, para obtener la mejor experiencia en la escucha para diferentes generos de musica. Una vez que se seleccione un preajuste, o se establezca un perfil, las mismas ganancias de ecualizacion se aplicaran sobre la senal, hasta que el perfil se modifique manualmente.

Por el contrario, un ecualizador dinamico proporciona una forma de ajustar automaticamente las ganancias de ecualizacion en cada banda de frecuencias con el fin de mantener una coherencia global del equilibrio espectral con

5

10

15

20

25

30

35

40

45

50

55

60

65

respecto a un timbre o tono deseado. Esta coherencia se consigue controlando continuamente el equilibrio espectral de la senal de audio, comparandola con un equilibrio espectral prestablecido deseado y ajustando dinamicamente las ganancias de ecualizacion aplicadas para transformar el equilibrio espectral original del audio en el equilibrio espectral deseado. El equilibrio espectral deseado se selecciona manualmente o se establece previamente antes del procesamiento.

Ambas clases de los ecualizadores comparten el inconveniente siguiente: el mejor perfil de ecualizacion, el equilibrio espectral deseado o los parametros relacionados han de seleccionarse manualmente, y no se pueden modificar automaticamente sobre la base del contenido de audio en la reproduccion. La discriminacion de los tipos de contenidos de audio sera muy importante para proporcionar una buena calidad global para diferentes clases de senales de audio. A modo de ejemplo, diferentes piezas musicales necesitan diferentes perfiles de ecualizacion, tal como los correspondientes a diferentes generos.

En un sistema de ecualizador en el que son de entrada posible cualquier clase de senales de audio (no solamente de musica), los parametros del ecualizador necesitan ajustarse sobre la base de los tipos de contenidos. A modo de ejemplo, el ecualizador se suele activar con senales de musica, pero se desactiva con senales de la voz, puesto que puede cambiar el timbre de la voz demasiado y en correspondencia, obtener un sonido de la senal no natural.

Con el fin de resolver este problema al menos en parte, la presente idea inventiva propone el control del ecualizador sobre la base de las formas de realizacion descritas en la Parte 1.

De modo similar a las Partes 2 -4, como un ejemplo espedfico del aparato de procesamiento de audio y del metodo descrito en la Parte 1, el ecualizador 408 puede hacer uso de todas las formas de realizacion descritas en la Parte 1 y cualesquiera combinaciones de dichas formas de realizacion que se dieron a conocer. Mas concretamente, en el caso de control del ecualizador 408, el clasificador de audio 200 y la unidad de ajuste 300 en el aparato de procesamiento de audio 100 segun se ilustra en las Figuras 1 a 10, pueden constituir un controlador 2200 del ecualizador 408 segun se ilustra en la Figura 22. En esta forma de realizacion, puesto que la unidad de ajuste es espedfica para el ecualizador 408 puede referirse como 300D.

Es decir, sobre la base de la idea inventiva descrita en la Parte 1, un controlador de ecualizador 2200 puede comprender un clasificador de audio 200 para identificar continuamente el tipo de audio de una senal de audio; y una unidad de ajuste 300D para ajustar un ecualizador en manera continua sobre la base del valor de confianza del tipo de audio que se identifica. De modo similar, el clasificador de audio 200 puede comprender al menos uno de entre el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, y el controlador de ecualizador de volumen 2200 puede comprender, ademas, al menos uno de entre la unidad de alisado de tipo 712, la unidad de alisado de parametros 814 y el temporizador 916.

Por lo tanto, en esta parte, no se repetiran los contenidos ya descritos en la Parte 1, y solamente se proporcionaran algunos de sus ejemplos espedficos.

5.1 Control basado en el tipo de contenido

En terminos generales, para los tipos de contenidos de audio generales, tales como la musica, la voz, sonido de fondo y ruido, el ecualizador debe establecerse diferentemente en distintos tipos de contenidos. De modo similar a la configuracion tradicional, el ecualizador puede activarse automaticamente sobre las senales de musica, pero desactivarse en la presencia de voz; o en una manera mas continua, establecer un nivel alto de ecualizacion sobre senales musicales y un bajo nivel de ecualizacion en las senales de voz. De este modo, el nivel de ecualizacion de un ecualizador puede establecerse automaticamente para diferentes contenidos de audio.

Mas concretamente, para la musica, se observa que el ecualizador no funciona tan bien en una pieza musical que tenga una fuente dominante, puesto que el timbre de la fuente dominante puede cambiar notablemente y tener un sonido no natural si se aplica una ecualizacion inadecuada. Considerando esta circunstancia, sena conveniente establecer un nivel de ecualizacion bajo sobre las piezas musicales con fuentes dominantes, mientras que el nivel de ecualizacion puede mantenerse alto en relacion con piezas musicales sin fuentes dominantes. Con esta informacion, el ecualizador puede establecer automaticamente el nivel de ecualizacion para diferentes contenidos musicales.

La musica puede agruparse tambien sobre la base de diferentes propiedades, tales como genero, instrumentos y caractensticas musicas generales incluyendo ritmo, tempo, y timbre. Del mismo modo que diferentes preajustes del ecualizador se utilizan para diferentes generos musicales, estos grupos/agrupaciones musicales pueden tener tambien sus propios perfiles de ecualizacion optima o curvas del ecualizador (en el ecualizador tradicional) o un equilibrio espectral deseado optimo (en el ecualizador dinamico).

Segun se menciono con anterioridad, el ecualizador se suele activar sobre el contenido musical pero desactivarse sobre la voz, puesto que el ecualizador puede hacer que un dialogo no suene adecuadamente debido al cambio del timbre. Un metodo para conseguirlo automaticamente es relacionar el nivel de ecualizacion con el contenido, en particular, el valor de confianza de la musica y/o el valor de confianza de la voz que se obtienen a partir del modulo de clasificacion de

5

10

15

20

25

30

35

40

45

50

55

60

contenido de audio. En este caso, el nivel de ecualizacion puede explicarse como la ponderacion de las ganancias del ecualizador aplicadas. Cuando mas alto sea el nivel, tanto mas fuerte sera la ecualizacion aplicada. A modo de ejemplo, si el nivel de ecualizacion es 1, se obtiene la aplicacion de un perfil de ecualizacion total; si el nivel de ecualizacion es cero, todas las ganancias son, en correspondencia, 0 dB y de este modo, se aplica la no ecualizacion. El nivel de ecualizacion puede representarse por diferentes parametros en diferentes puestas en practica de los algoritmos del ecualizador. Una forma de realizacion a modo de ejemplo de estos parametros es la ponderacion del ecualizador segun se pone en practica en el documento de A. Seefeldt et.al. "Calculo y ajuste de la intensidad recibida y/o el equilibrio espectralpercibido de una senal de audio", publicado como US 2009/0097676 A1.

Varios sistemas de control pueden designarse para ajustar el nivel de ecualizacion. A modo de ejemplo, con la informacion del tipo de contenido de audio, el valor de confianza de la voz o el valor de confianza de la musica pueden utilizarse para establecer el nivelacion de ecualizacion, como

Leq CC Conf musjc (20)

O

Leq « 1 - c°nf spe„h (2i)

en donde Leq es el nivel de ecualizacion y Confmusc y Confspeech corresponden al valor de confianza de la musica y de la voz respectivamente.

Es decir, la unidad de ajuste 300D puede configurarse para establecer una correlacion positiva en el nivel de ecualizacion con un valor de confianza de la musica a corto plazo o una correlacion negativa del nivel de ecualizacion con un valor de confianza de la voz.

El valor de confianza de la voz y el valor de confianza de la musica pueden utilizarse, ademas, conjuntamente para establecer el nivel de ecualizacion. La idea general es que el nivel de ecualizacion debe ser alto solamente cuando el valor de confianza de la musica es alto y el valor de confianza de la voz es bajo, y de no ser asf, el nivel de ecualizacion es bajo. A modo de ejemplo,

K = Confmusic (1 - Confspeecha) (22)

en donde el valor de confianza de la voz se establece para el valor de a con el fin de negociar con la confianza de la voz no cero en las senales musicales, lo que puede suceder con frecuencia. Con la formula anterior, la ecualizacion sera completamente aplicada (con el nivel igual a 1) sobre las senales musicales puras sin ningun componente de la voz. Segun se establece en la Parte 1, el valor de a puede considerarse como un coeficiente de ponderacion basado en la importancia del tipo de contenido y puede ser normalmente establecido de 1 a 2.

Si se asigna una mayor ponderacion sobre el valor de confianza de la voz, la unidad de ajuste 300D puede configurarse para desactivar el ecualizador 408 cuando el valor de confianza para el tipo de contenido de la voz es mayor que un valor umbral.

En la descripcion anterior, los tipos de contenidos de musica y voz se toman a modo de ejemplo. Como alternativa o de forma adicional, los valores de confianza del sonido de fondo y/o ruido pueden considerarse tambien a este respecto. Mas concretamente, la unidad de ajuste 300D puede configurarse para establecer una correlacion positiva de un nivel de ecualizacion con un valor de confianza del sonido de fondo y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza del ruido.

A modo de otra forma de realizacion, el valor de confianza puede utilizarse para derivar una ponderacion normalizada segun se describe en la seccion 1.4. Suponiendo que un nivel de ecualizacion previsto se predefine para cada tipo de contenido (p.ej., 1 para musica, 0 para la voz, 0.5 para ruido y sonido de fondo), se puede aplicar exactamente una formula similar a la formula (8).

El nivel de ecualizacion puede alisarse, ademas, para evitar que un cambio rapido pueda introducir artefactos audibles en los puntos de transicion. Lo que antecede puede realizarse con la unidad de alisado de parametros 814 segun se describe en la seccion 1.5.

5.2 Probabilidad de fuentes dominantes en la musica

Con el fin de evitar que a la musica con fuentes dominantes se le aplique un nivel de ecualizacion alto, el nivel de ecualizacion puede, ademas, ponerse en correlacion con el valor de confianza Confdom lo que indica si una pieza musical contiene una fuente dominante, a modo de ejemplo

5

10

15

20

25

30

35

40

45

50

55

60

imagen7

De este modo, el nivel de ecualizacion sera bajo en las piezas musicales con fuentes dominantes y alto en las piezas musicales sin fuentes dominantes.

En este caso, aunque el valor de confianza de la musica con una fuente dominante se describe, se puede utilizar tambien el valor de confianza de la musica sin una fuente dominante. Es decir, la unidad de ajuste 300D puede configurarse para establecer una correlacion positiva de un nivel de ecualizacion con un valor de confianza de musica a corto plazo sin fuente dominante y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza de musica a corto plazo con fuentes dominantes.

Segun se establece en la seccion 1.1, aunque la musica y la voz por un lado, y la musica con o sin fuentes dominantes por otro lado, son tipos de contenidos en diferentes niveles jerarquicos, pueden considerarse en paralelo. Considerando conjuntamente el valor de confianza de fuentes dominantes y los valores de confianza de la voz y de la musica, segun se describio con anterioridad, el nivel de ecualizacion puede establecerse combinando al menos una de entre las formulas (20)-(21) con (23). Un ejemplo consiste en combinar la totalidad de las tres formulas:

imagen8

Diferentes ponderaciones basadas en la importancia del tipo de contenido pueden aplicarse, ademas, a diferentes valores de confianza para su generalidad, tal como en la manera de la formula (22).

A modo de otro ejemplo, suponiendo que Confdom se calcula solamente cuando la senal de audio es musica, una funcion escalonada puede designarse como

imagen9

(1 - Confdom) Conf,wsjc > threshold

C°nfmusic 0 - conf^ech) otherwise

(25)

Esta funcion establece el nivel de ecualizacion basado en el valor de confianza de puntuaciones dominantes si el sistema de clasificacion determina fielmente que el audio es musica (el valor de confianza de la musica es mayor que un valor umbral); de no ser asf, se establece sobre la base de los valores de confianza de la musica y de la voz. Es decir, la unidad de ajuste 300D puede configurarse para considerar la musica a corto plazo sin/con fuentes dominantes cuando el valor de confianza para la musica a corto plazo es mayor que un valor umbral. Por supuesto, la primera o la segunda mitad en la formula (25) puede modificarse en la manera de la formula (20) o (24).

El mismo sistema de alisado segun se describe en la seccion 1.5 puede aplicarse tambien a este respecto y la constante de tiempo a puede basarse ademas, sobre la base del tipo de transicion, de modo que la transicion desde musica con fuente dominante a musica sin fuente dominante, o la transicion desde musica sin fuentes dominantes a musica con fuentes dominantes. Para esta finalidad, se puede aplicar tambien una formula similar a la formula (4').

5.3 Preajustes del ecualizador

Ademas del ajuste adaptativo del nivel de ecualizacion sobre la base de los valores de confianza de tipos de contenidos de audio, pueden elegirse automaticamente preajustes del equilibrio espectral deseado o perfiles de ecualizacion adecuados para diferentes contenidos de audio, dependiendo de su genero, instrumento u otras caractensticas. La musica con el mismo genero, que contienen el mismo instrumento, o que tienen las mismas caractensticas musicales, pueden compartir los mismos perfiles de ecualizacion o preajustes de equilibrio espectral deseados.

Para su generalidad, utilizamos el termino "agrupaciones musicales" para representar a los grupos musicales con el mismo genero, el mismo instrumento o atributos musicales similares y puede considerarse como otro nivel jerarquico de tipos de contenidos de audio segun se establece en la seccion 1.1. El perfil de ecualizacion adecuado, el nivel de ecualizacion y/o preajuste de equilibrio espectral deseado, pueden asociarse a cada agrupacion musical. El perfil de ecualizacion es la curva de ganancia aplicada sobre la senal musical y puede ser cualquiera de los preajustes del ecualizador que se utilizan para diferentes generos musicales (tales como Clasica, Rock, Jazz, y Folk), y el preajuste del equilibrio espectral deseado representa el timbre deseado para cada agrupacion musical. La Figura 23 ilustra varios ejemplos de preajustes del equilibrio espectral deseado segun se implantan en las tecnologfas de Dolby Home Theater. Cada uno describe la forma espectral deseada a traves de la gama de frecuencias audibles. Esta forma se compara continuamente con la forma espectral del audio entrante, y las ganancias de ecualizacion se calculan a partir de esta comparacion para transformar la forma espectral del audio entrante en la que se ha prestablecido.

Para una nueva pieza musical, la agrupacion mas proxima puede determinarse (decision diffcil) o el valor de confianza

5

10

15

20

25

30

35

40

45

50

55

con respecto a cada agrupacion musical puede calcularse (decision programada). Sobre la base de esta informacion, un perfil de ecualizacion adecuado, o un preajuste de equilibrio espectral deseado, pueden determinarse para la pieza musical dada. La manera mas simple es asignar el perfil correspondiente de la mejor agrupacion adaptada, como

imagen10

(26)

en donde Peq es el perfil de ecualizacion estimado o el preajuste del equilibrio espectral deseado y c* es el mdice de la mejor agrupacion musical adaptada (el tipo de audio dominante), que pueden obtenerse captando la agrupacion con el mas alto valor de confianza.

Ademas, puede existir mas de una agrupacion musical que tenga un valor de confianza que sea mayor que cero, lo que significa que la pieza musical tiene atributos mas o menos similares a los que tienen las agrupaciones. A modo de ejemplo, una pieza musical puede tener multiples instrumentos, o puede tener atributos de multiples generos. Ello inspira otra forma de estimar el perfil de ecualizacion adecuado considerando todas las agrupaciones, en lugar de utilizar solamente la agrupacion mas proxima. A modo de ejemplo, una suma ponderada puede utilizarse:

N

(27)

c=l

en donde N es el numero de agrupaciones predefinidas y Wc es la ponderacion del perfil designado Pc con respecto a cada agrupacion musical predefinida (con el mdice c), que debe normalizarse a 1 sobre la base de sus valores de confianza correspondientes. De este modo, el perfil estimado sena una mezcla de los perfiles de las agrupaciones musicales. A modo de ejemplo, para una pieza musical que tenga ambos atributos de Jazz y Rock, el perfil estimado sena algo comprendido entre ambos.

En algunas aplicaciones, puede no ser deseable implicar todas las agrupaciones segun se ilustra en la formula (27). Solamente un subconjunto de las agrupaciones - las agrupaciones mas relaciones con la pieza musical actual - necesitan considerarse, la formula (27) puede revisarse ligeramente a:

imagen11

en donde N' es el numero de agrupaciones a considerarse y c' es el mdice de la agrupacion despues de clasificar, en forma decreciente, las agrupaciones basadas en sus valores de confianza. Utilizando un subconjunto, se puede concentrar mas en las agrupaciones mas relacionadas y excluir las menos pertinentes. Dicho de otro modo, la unidad de ajuste 300D puede configurarse para considerar al menos algun tipo de audio dominante sobre la base de los valores de confianza.

En la descripcion anterior, las agrupaciones musicales se toman a modo de ejemplo. De hecho, las soluciones son aplicables a tipos de audio a cualquier nivel jerarquico segun se describio en la seccion 1.1. De este modo, en general, la unidad de ajuste 300D puede configurarse para asignarse un nivel de ecualizacion y/o un perfil de ecualizacion y/o preajuste de equilibrio espectral a cada tipo de audio.

5.4 Control basado en el Tipo de contexto

En las secciones anteriores, la descripcion se concentro en varios tipos de contenidos. En mas formas de realizacion a describirse en esta misma seccion, el tipo de contexto puede considerarse como alternativa o de forma adicional.

En general, el ecualizador se activa para la musica pero se desactiva para el contenido de multimedia similar a cine, puesto que el ecualizador puede hacer que los dialogos en multimedia similar a cine no suenen tan bien debido a un cambio de timbre obvio. Ello indica que el nivel de ecualizacion puede relacionarse con el valor de confianza de la musica a largo plazo y/o el valor de confianza de multimedia similar a cine:

Leq ^ C°nf MUSIC (29)

O

Leq 00 1 — Conf M0VIE (30)

5

10

15

20

25

30

35

40

45

50

55

60

en donde Leq es el nivel de ecualizacion, Confuusic y ConfuoviE se refieren al valor de confianza de la musica a largo plazo y multimedia similar a cine.

Es dedr, la unidad de ajuste 300D puede configurarse para establecer una correlacion positiva en un nivel de ecualizacion con un valor de confianza de la musica a largo plazo, o una correlacion negativa del nivel de ecualizacion con un valor de confianza de multimedia similar a cine.

Es decir, para una senal de multimedia similar a cine, el valor de confianza de multimedia similar a cine es alto (o la confianza de musica es baja) y de este modo, el nivel de ecualizacion es bajo; por otro lado, para una senal de musica, el valor de confianza de multimedia similar a cine sera bajo (o la confianza de la musica es alta) y en consecuencia, el nivel de ecualizacion es alto.

Las soluciones ilustradas en las formulas (29) y (30) pueden modificarse del mismo modo que las formulas (22) a (25), y/o pueden combinarse con cualquiera de las soluciones ilustradas en las formulas (22) a (25).

Ademas o de forma alternativa, la unidad de ajuste 300D puede configurarse para establecer una correlacion negativa en el nivel de ecualizacion con un valor de confianza del juego.

Como otra forma de realizacion, el valor de confianza puede utilizarse para derivar una ponderacion normalizada segun se describe en la seccion 1.4. Suponiendo que se predefine un nivel/perfil de ecualizacion previsto para cada tipo de contexto (los perfiles de ecualizacion se muestran en la tabla 2 siguiente), puede aplicarse tambien una formula similar a la formula (9).

Tabla 2:

: MULTIMEDIA SIMILAR A CINE MUSICA A LARGO PLAZO VoIP JUEGO

Perfil de ecualizacion: Perfil 1 Perfil 2 Perfil 3 Perfil 4

En este caso, en algunos perfiles, todas las ganancias pueden establecerse a cero, como una forma para desactivar el ecualizador para ese cierto tipo de contexto, tal como multimedia similar a cine y juego.

5.5 Combinacion de formas de realizacion y escenarios de aplicacion

De modo similar a la Parte 1, todas las formas de realizacion y variantes anteriormente descritas pueden ponerse en practica en cualquiera de sus combinaciones y cualesquiera componentes mencionados en diferentes partes/formas de realizacion, pero teniendo la misma o funciones similares, pueden ponerse en practica como el mismo o componentes separados.

A modo de ejemplo, cualesquiera dos o mas de las soluciones descritas en las secciones 5.1 a 5.4 pueden combinarse entre sf. Y cualquiera de las combinaciones puede combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las partes 1-4 y las demas partes que se describiran mas adelante.

5.6 Metodo de control del ecualizador

De modo similar a la Parte 1, en el proceso de describir el controlador del ecualizador en las formas de realizacion anteriormente descritas, se dan a conocer, evidentemente, tambien algunos procesos o metodos. A continuacion se proporciona un resumen de estos metodos sin repetir algunos de los detalles ya descritos con anterioridad.

En primer lugar, las formas de realizacion del metodo de procesamiento de audio segun se describe en la Parte 1 puede utilizarse para un ecualizador, los parametros es uno de los objetivos a ajustarse por el metodo de procesamiento de audio. Desde este punto de vista, el metodo de procesamiento de audio es tambien un metodo de control del ecualizador.

En esta seccion, solamente se describiran los aspectos espedficos para el control del ecualizador. Para los aspectos generales del metodo de control, puede hacerse referencia a la Parte 1.

De conformidad con las formas de realizacion, un metodo de control del ecualizador puede incluir la identificacion del tipo de audio de una senal de audio en tiempo real, y ajustar un ecualizador en una manera continua sobre la base del valor de confianza del tipo de audio identificado.

De modo similar a las otras partes de la presente idea inventiva, cuando se implica a multiples tipos de audio con valores de confianza correspondientes, la operacion de ajuste 1104 puede configurarse para considerar al menos algunos de los multiples tipos de audio mediante la ponderacion de los valores de confianza de los multiples tipos de audio sobre la

5

10

15

20

25

30

35

40

45

50

55

60

65

base de la importancia de los multiples tipos de audio, o mediante una ponderacion de los efectos de los multiples tipos de audio sobre la base de los valores de confianza. Mas concretamente, la operacion de ajuste 1104 puede configurarse para considerar al menos un tipo de audio dominante sobre la base de los valores de confianza.

Segun se describio en la Parte 1, el valor del parametro ajustado puede ser alisado. Puede hacerse referencia a la seccion 1.5 y la seccion 1.8 y se omite aqu una descripcion detallada.

El tipo de audio puede ser del tipo de contenido o del tipo de contexto o ambos a la vez. Cuando se implica el tipo de contenido, la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva de un nivel de ecualizacion con un valor de confianza de musica a corto plazo y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza de la voz. De forma adicional o como alternativa, la operacion de ajuste puede configurarse para establecer una correlacion positiva de un nivel de ecualizacion con un valor de confianza del fondo y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza del ruido.

Cuando se implica el tipo de contexto, la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva en un nivel de ecualizacion con un valor de confianza de la musica a largo plazo y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza de multimedia similar a cine y/o juego.

Para el tipo de contenido de musica a corto plazo, la operacion de ajuste 1104 puede configurarse para establecer una correlacion positiva en un nivel de ecualizacion con un valor de confianza de la musica a corto plazo sin fuentes dominantes y/o una correlacion negativa del nivel de ecualizacion con un valor de confianza de la musica a corto plazo con fuentes dominantes. Lo que antecede puede realizarse solamente cuando el valor de confianza para la musica a corto plazo es mayor que un valor umbral.

Ademas de ajustar el nivel de ecualizacion, otros aspectos de un ecualizador pueden ajustarse sobre la base de los valores de confianza de los tipos de audio de una senal de audio. A modo de ejemplo, la operacion de ajuste 1104 puede configurarse para asignar un nivel de ecualizacion y/o un perfil de ecualizacion y/o un preajuste de equilibrio espectral para cada tipo de audio.

Con respecto a las instancias espedficas de los tipos de audio, puede hacerse referencia a la Parte 1.

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son practicas por un lado; y por el otro lado, cada aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras partes de esta idea inventiva.

Parte 6: Clasificadores de audio y metodos de clasificacion

Segun se indico en las secciones 1.1 y 1.2, los tipos de audio descritos en la presente idea inventiva, incluyendo varios niveles jerarquicos de tipos de contenidos y tipos de contextos, pueden clasificarse o identificarse con cualquier sistema de clasificacion existente, incluyendo metodos basados en el aprendizaje de la maquina. En esta parte y en la parte siguiente, la presente idea inventiva propone algunos nuevos aspectos de clasificadores y metodos para clasificar tipos de contextos segun se menciona en las partes anteriores.

6.1 Clasificador de contexto sobre la base de la dasificacidn de tipos de contenidos

Segun se establece en las partes anteriores, el clasificador de audio 200 se utiliza para identificar el tipo de contenido de una senal de audio y/o para identificar el tipo de contexto de la senal de audio. Por lo tanto, el clasificador de audio 200 puede comprender un clasificador de contenido de audio 202 y/o un clasificador de contexto de audio 204. Cuando se adoptan las tecnicas existentes para poner en practica el clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, los dos clasificadores pueden ser independientes entre sf, aunque pueden compartir algunas caractensticas y de este modo, pueden compartir algunos sistemas para extraer las caractensticas.

En esta parte y en la Parte 7 siguiente, en conformidad con el nuevo aspecto propuesto en la presente idea inventiva, el clasificador de contexto de audio 204 puede hacer uso de los resultados del clasificador de contenido de audio 202, es decir, el clasificador de audio 200 puede comprender: un clasificador de contenidos de audio 202 para identificar el tipo de contenido de una senal de audio; y un clasificador de contexto de audio 204 para identificar el tipo de contexto de la senal de audio sobre la base de los resultados del clasificador de contenido de audio 202. De este modo, los resultados de la clasificacion del clasificador de contenido de audio 202 pueden utilizarse por el clasificador de contexto de audio 204 y la unidad de ajuste 300 (las unidades de ajuste 300A a 300D) segun se describio en las partes anteriores. Sin embargo, aunque no se ilustra en los dibujos, el clasificador de audio 200 puede contener tambien dos clasificadores de contenido de audio 202 a utilizarse, respectivamente, por la unidad de ajuste 300 y el clasificador de contexto de audio 204.

5

10

15

20

25

30

35

40

45

50

55

60

65

Ademas, segun se describe en la seccion 1.2, en particular, cuando se clasifican multiples tipos de audio, el clasificador de contenido de audio 202 o el clasificador de contexto de audio 204 pueden comprender un grupo de clasificadores que cooperan entre sf, aunque tambien es posible ponerse en practica un clasificador unico.

Segun se describe en la seccion 1.1, el tipo de contenido es una clase de tipo de audio con respecto a segmentos de audio a corto plazo que suelen tener una longitud en el orden de varias decenas de tramas (tal como 1 s), y el tipo de contexto es una clase de tipo de audio con respecto a segmentos de audio a largo plazo que suelen tener una longitud en el orden de magnitud de varias decenas de segundos (tal como 10 s). Por lo tanto, en correspondencia con el "tipo de contenido " y "tipo de contexto", se utiliza los terminos “a corto plazo” y “a largo plazo” respectivamente cuando sea necesario. Sin embargo, segun se describira en la Parte 7 siguiente, aunque el tipo de contexto es para indicar la propiedad de la senal de audio en una escala de tiempos relativamente larga, puede identificarse tambien sobre la base de las caractensticas extrafdas de los segmentos de audio a corto plazo.

Ahora se retorna a las estructuras del clasificador de contenidos de audio 202 y el clasificador de contexto de audio 204 haciendo referencia a la Figura 24.

Segun se ilustra en la Figura 24, el clasificador de contenido de audio 202 puede comprender un extractor de caractenstica a corto plazo 2022 para extraer caractensticas a corto plazo a partir de segmentos de audio a corto plazo, comprendiendo cada uno una secuencia de tramas de audio; y un clasificador a corto plazo 2024 para clasificar una secuencia de segmentos a corto plazo en un segmento de audio a largo plazo en tipos de audio a corto plazo que utilizan caractensticas a corto plazo respectivas. El extractor de caractenstica a corto plazo 2022 y el clasificador a corto plazo 2024 pueden ponerse con las tecnicas existentes, pero tambien se proponen algunas modificaciones para extractor de caractensticas a corto plazo 2022 en la seccion 6.3 siguiente.

El clasificador a corto plazo 2024 puede configurarse para clasificar cada una de entre las secuencias de segmentos a corto plazo en al menos uno de los tipos de audio a corto plazo siguientes (tipos de contenidos): voz, musica a corto plazo, sonido de fondo y ruido, que han sido explicados en la seccion 1.1. Cada uno del tipo de contenido puede clasificarse, ademas, en tipos de contenidos, con un nivel jerarquico mas bajo, tal como se describe en la seccion 1.1 pero sin limitacion este respecto.

Segun es conocido en esta tecnica, los valores de confianza de los tipos de audio clasificados pueden obtenerse tambien por el clasificador a corto plazo 2024. En la presente idea inventiva, cuando se menciona la operacion de cualquier clasificador, debera entenderse que los valores de confianza se obtienen al mismo tiempo si fuera necesario, sin importar si se registran explfcitamente o no se hace. Un ejemplo de clasificacion de tipo de audio puede encontrarse en el documento de L. Lu, H.-J. Zhang, y S. Li, "Clasificacidn de audio basado en contenidos y segmentacion utilizando maquinas vectoriales de soporte", ACM Multimedia Systems Journal 8 (6), paginas 482-492, marzo 2003.

Por otro lado, segun se ilustra en la Figura 24, el clasificador de contexto de audio 204 puede comprender un extractor de datos estadfsticos 2042 para calcular la estadfstica de los resultados del clasificador a corto plazo con respecto a la secuencia de segmentos a corto plazo en el segmento de audio a largo plazo, como caractensticas a largo plazo; y un clasificador a largo plazo 2044 para, utilizando las caractensticas a largo plazo, clasificar el segmento de audio a largo plazo en tipos de audio a largo plazo. De modo similar, el extractor de datos estadfsticos 2042 y el clasificador a largo plazo 2044 pueden ponerse con tecnicas existentes, pero tambien se proponen algunas modificaciones para el extractor de datos estadfsticos 2042 en la seccion 6.2 siguiente.

El clasificador a largo plazo 2044 puede configurarse para clasificar el segmento de audio a largo plazo en al menos uno de los tipos de audio a largo plazo (tipos de contextos) siguientes: multimedia similar a cine, musica a largo plazo, juego y VoIP, que han sido explicados en la seccion 1.1. Como alternativa o de forma adicional, el clasificador a largo plazo 2044 puede configurarse para clasificar el segmento de audio a largo plazo en VoIP o no VoIP, lo que ha sido explicado en la seccion 1.1. De forma alternativa o adicional, el clasificador a largo plazo 2044 puede configurarse para clasificar el segmento de audio a largo plazo en audio de alta calidad o audio de baja calidad, lo que se explico en la seccion 1.1. En la practica, varios tipos de audio objetivo pueden elegirse y formarse sobre la base de las necesidades de aplicacion/sistema.

Con respecto al significado y seleccion del segmento a corto plazo y del segmento a largo plazo (asf como la trama a describirse en la seccion 6.3), puede hacerse referencia a la seccion 1.1.

6.2 Extraccion de caractensticas a largo plazo

Segun se ilustra en la Figura 24, en una forma de realizacion, solamente el extractor de datos estadfsticos 2042 se utiliza para extraer caractensticas a largo plazo a partir de los resultados del clasificador a corto plazo 2024. En cuanto a las caractensticas a largo plazo, al menos una de las siguientes puede calcularse por el extractor de datos estadfsticos 2042: la media y la varianza de los valores de confianza de los tipos de audio a corto plazo de los segmentos a corto plazo en el segmento a largo plazo a clasificarse, la media y la varianza ponderadas por los grados de importancia de los segmentos a corto plazo, la frecuencia de ocurrencia de cada tipo de audio a corto plazo y la frecuencia de transiciones entre diferentes tipos de audio a corto plazo en el segmento a largo plazo han de clasificarse.

5

10

15

20

25

30

35

40

45

50

55

60

65

En la Figura 25 se ilustra la media de los valores de confianza de la voz y de la musica a corto plazo en cada segmento a corto plazo (de una longitud de 1s). Para fines de comparacion, los segmentos se extraen desde tres contextos de audio diferentes: multimedia similar a cine (Figura 25(A)), musica a largo plazo (Figura 25(B)), y VoIP (Figura 25(C)). Puede observarse que para el contexto de multimedia similar a cine, se obtienen altos valores de confianza para el tipo de voz o para el tipo de musica y alterna entre estos tipos de audio frecuentemente. Por el contrario, el segmento de musica a largo plazo proporciona un valor estable y de alta confianza de la musica a corto plazo y un bajo valor de confianza de la voz y relativamente estable. Mientras que el segmento de VoIP proporciona un valor de confianza de musica a corto plazo bajo y establece, pero proporciona valores de confianza de la voz fluctuantes debido a las pausas durante la conversacion de VoIP.

La varianza de los valores de confianza para cada tipo de audio es tambien una caractenstica importante para clasificar diferentes contextos de audio. La Figura 26 proporciona histogramas de la varianza de los valores de confianza de la voz, musica a corto plazo, musica de fondo y ruido en contextos de multimedia similar a cine, musica a corto plazo y de audio VoIP (en el eje de abscisas es la varianza de valores de confianza en un conjunto de datos y el eje de ordenada corresponde al numero de ocurrencias de cada conjunto de valores de varianza s en el receptaculo de datos, lo que puede normalizarse para indicar la probabilidad de ocurrencia de cada receptaculo de valores de varianza). Para multimedia similar a cine, todas las varianzas de valor de confianza de la voz, musica a corto plazo y sonido de fondo son relativamente altas y ampliamente distribuidas, lo que indica que los valores de confianza de esos tipos de audio estan cambiando en gran medida; para la musica a largo plazo, todas las varianzas del valor de confianza de la voz, musica a corto plazo, sonido de fondo y ruido son relativamente bajas y estrechamente distribuidas, lo que indica que los valores de confianza de dichos tipos de audio se mantienen estables; el valor de confianza de la voz se mantiene constantemente bajo y el valor de confianza de la musica se mantiene constantemente alto; para VoIP, las varianzas del valor de confianza de la musica a corto plazo son bajas y estrechamente distribuidas, mientras que las que corresponden a la voz son relativamente distribuidas de forma amplia, lo que se debe a las frecuentes pausas durante las conversaciones de VoIP.

Con respecto a las ponderaciones utilizadas en el calculo de la media ponderada y de la varianza, se determinan sobre la base del grado de importancia de cada segmento a corto plazo. El grado de importancia de un segmento a corto plazo puede medirse por su energfa o intensidad, lo que puede estimarse con numerosas tecnicas existentes.

La frecuencia de ocurrencia de cada tipo de audio a corto plazo en el segmento a largo plazo a clasificarse es el valor de conteo de cada tipo de audio para los que se han clasificado los segmentos a corto plazo en el segmento a largo plazo, normalizados con la longitud del segmento a largo plazo.

La frecuencia de las transiciones entre diferentes tipos de audio a corto plazo en el segmento a largo plazo a clasificarse es el conteo de cambios de tipos de audio entre segmentos a corto plazo adyacentes en el segmento a largo plazo a clasificarse, normalizados con la longitud del segmento a largo plazo.

Cuando se describe los valores de la media y de la varianza de los valores de confianza con referencia a la Figura 25, la frecuencia de ocurrencia de cada tipo de audio a corto plazo y la frecuencia de transicion entre dichos diferentes tipos de audio a corto plazo son tambien tratados de hecho. Estas caractensticas son tambien de importancia para la clasificacion de contextos de audio. A modo de ejemplo, la musica a largo plazo contiene principalmente tipos de audio de musica a corto plazo por lo que tiene una alta frecuencia de ocurrencia de musica a corto plazo, mientras que el VoIP contiene principalmente la voz y pausas de modo que tiene una alta frecuencia de ocurrencia de la voz o del ruido. A modo de otro ejemplo, en multimedia similar a cine se transita entre diferentes tipos de audio a corto plazo con mas frecuencia que la musica a largo plazo o VoIP, por lo que suele tener una frecuencia de transicion mas alta entre la musica a corto plazo, la voz y el sonido de fondo; VoIP suele transitar entre la voz y el ruido con mas frecuencia que los demas, por lo que suele tener una frecuencia de transicion mas alta entre la voz y el ruido.

En terminos generales, se supone que los segmentos a largo plazo son de la misma longitud en la misma aplicacion/sistema. Si este es el caso, entonces el conteo de ocurrencia de cada tipo de audio a corto plazo y el conteo de transicion entre diferentes tipos de audio a corto plazo en el segmento a largo plazo pueden utilizarse directamente sin necesidad de normalizacion. Si la longitud del segmento a largo plazo es variable, entonces, la frecuencia de ocurrencia y la frecuencia de transiciones, segun se menciono con anterioridad, deberan utilizarse a este respecto. Y las reivindicaciones en la presente idea inventiva deberan interpretarse como cubriendo ambas situaciones.

De forma adicional o alternativa, el clasificador de audio 200 (o el clasificador de contexto de audio 204) pueden comprender, ademas, un extractor de caractenstica a largo plazo 2046 (Figura 27) para extraer caractensticas a largo plazo adicionales a partir del segmento de audio a largo plazo sobre la base de las caractensticas a corto plazo de la secuencia de segmentos a corto plazo en el segmento de audio a largo plazo. Dicho de otro modo, el extractor de caractenstica a largo plazo 2046 no utiliza los resultados de la clasificacion del clasificador a corto plazo 2024, pero utiliza directamente las caractensticas a corto plazo extrafdas por el extractor de caractensticas a corto plazo 2022 para derivar algunas caractensticas a largo plazo a utilizarse por el clasificador a largo plazo 2044. El extractor de caractensticas a largo plazo 2046 y el extractor de datos estadfsticos 2042 pueden utilizarse de forma independiente o conjuntamente. Dicho de otro modo, el clasificador de audio 200 puede comprender el extractor de caractensticas a largo plazo 2046 o el

5

10

15

20

25

30

35

40

45

50

55

60

65

extractor de datos estadfsticos 2042 o ambos a la vez.

Cualesquiera caractensticas pueden extraerse por el extractor de caractensticas a largo plazo 2046. En la presente idea inventiva, se propone calcular, como las caractensticas a largo plazo, al menos una de las estadfsticas siguientes de las caractensticas a corto plazo desde el extractor de caractensticas a largo plazo 2022: media, varianza, media ponderada, varianza de ponderacion, media alta, media baja y relacion (contraste) entre la media alta y la media baja.

El valor medio y la varianza de las caractensticas corto plazo extrafdas desde los segmentos a corto plazo en el segmento a largo plazo a clasificarse,

La media ponderada y la varianza de las caractensticas a corto plazo se extrajeron a partir de los segmentos a corto plazo en el segmento a largo plazo a clasificarse. Las caractensticas a corto plazo se ponderan sobre la base del grado de importancia de cada segmento a corto plazo que se mide con su energfa o intensidad segun se acaba de mencionar;

Media alta: una media de las caractensticas a corto plazo seleccionadas extrafdas a partir de los segmentos a corto plazo en el segmento a largo plazo a clasificarse. Las caractensticas a corto plazo se seleccionan cuando cumplen al menos una de las condiciones siguientes: mayor que un valor umbral; o dentro de una proporcion predeterminada de caractensticas a corto plazo no mas bajas que todas las demas caractensticas a corto plazo, a modo de ejemplo, el 10 % mas alto de las caractensticas a corto plazo; y

Media baja: una media de caractensticas a corto plazo seleccionadas que se extrajeron a partir de los segmentos a corto plazo en el segmento a largo plazo a clasificarse. Las caractensticas a corto plazo se seleccionan cuando al menos una de las condiciones siguientes: mas pequena que un valor umbral; o dentro de una proporcion predeterminada de las caractensticas a corto plazo no mas altas que todas las demas caractensticas a corto plazo, a modo de ejemplo, el mas bajo 10 % de las caractensticas a corto plazo; y

Contraste: una relacion entre la media alta y la media baja para representar la dinamica de las caractensticas a corto plazo en un segmento a largo plazo.

El extractor de caractensticas a corto plazo 2022 puede ponerse en practica con las tecnicas existentes, y se pueden extraer de este modo cualesquiera caractensticas. No obstante, se proponen algunas modificaciones para el extractor de caractensticas a corto plazo 2022 en la seccion 6.3 siguiente.

6.3 Extraccion de caractensticas a corto plazo

Segun se ilustra en la Figura 24 y la Figura 27, el extractor de caractensticas a corto plazo 2022 puede configurarse para extraer, como caractensticas a corto plazo, al menos una de las siguientes caractensticas directamente a partir de cada segmento de audio a corto plazo: caractensticas ntmicas, caractensticas de interrupciones/silenciamientos y caractensticas de calidad de audio a corto plazo.

Las caractensticas ntmicas pueden incluir intensidad de ritmo, regularidad del ritmo, claridad del ritmo (vease el documento de L. Lu, D. Liu, y H.-J. Zhang. Titulado: "Deteccion automatica del estado arimico y seguimiento de senales de audio musicales". IEEE Transactions on Audio, Speech, and Language Processing, 14(1):5 - 18, 2006) y la modulacion de sub-bandas en 2D M.F McKinney and J. Breebaart. "Caractensticas para clasificacion de audio y de musica", Proc. ISMIR, 2003).

Las caractensticas de interrupciones/silenciamientos pueden incluir interrupciones de la voz, descensos agudos, duracion de silenciamientos, silencio no natural, media de silencio no natural, energfa total de silencio no natural, etc.

Las caractensticas de calidad de audio a corto plazo son caractensticas de calidad de audio con respecto a los segmentos a corto plazo, que son similares a las caractensticas de calidad de audio extrafdas de las tramas de audio, que han de describirse a continuacion.

Como alternativa o de forma adicional, segun se ilustra en la Figura 28, el clasificador de audio 200 puede comprender un extractor de caractensticas a nivel de trama 2012 para extraer caractensticas a nivel de trama de cada una de las secuencias de tramas de audio incluidas en el segmento a corto plazo y el extractor de caractensticas a corto plazo 2022 puede configurarse para calcular las caractensticas corto plazo sobre la base de las caractensticas a nivel de trama extrafdas a partir de la secuencia de tramas de audio.

Como pre-procesamiento, la senal de audio de entrada puede mezclarse con una senal de audio monoaural. El pre- procesamiento es innecesario si la senal de audio es ya una senal monoaural. A continuacion, se divide en tramas con una longitud predefinida (normalmente de 10 a 25 milisegundos). En correspondencia, las caractensticas a nivel de trama se extraen desde cada trama.

El extractor de caractensticas a nivel de trama 2012 puede configurarse para extraer al menos una de las caractensticas siguientes: caractensticas que caracterizan las propiedades de varios tipos de audio a corto plazo, frecuencia de corte,

5

10

15

20

25

30

35

40

45

50

55

60

65

caractensticas de relacion de senal a ruido estatica (SNR), caractensticas de relacion de senal a ruido segmental (SNR), descriptores vocales basicos y caractensticas del tracto vocal.

Las caractensticas que caracterizan las propiedades de varios tipos de audio a corto plazo (en particular, voz, musica a corto plazo, sonido de fondo y ruido) pueden comprender al menos una de las caractensticas siguientes. Energfa de trama, distribucion espectral de sub-bandas, flujo espectral, Coeficientes Cepstrales en las frecuencias de Mel (MFCC), bajos, informacion residual, caractenstica de croma y tasa de cruce por cero.

Para conocer mas detalles de los coeficientes MFCC, puede hacerse referencia al documento de L. Lu, H.-J. Zhang, y S. Li, "Clasificacidn de audio basada en el contenido y segmentacion utilizando maquinas vectoriales de soporte", ACM Multimedia Systems Journal 8 (6), paginas 482-492, marzo 2003. Para conocer mas detalles de la caractenstica de croma, puede hacerse referencia al documento de G. H. Wakefield, "Representacion matematica de distribuciones de croma en tiempos conjuntos" en SPIE, 1999.

La frecuencia de corte representa la mas alta frecuencia de una senal de audio por encima de la cual la energfa del contenido esta proxima a cero. Esta disenada para tetar un contenido de banda limitada, que es de utilidad en esta aplicacion para clasificacion de contexto de audio. Una frecuencia de corte suele estar causada por codificacion, puesto que la mayona de los codificadores desechan las altas frecuencias a tasas binarias bajas o medias. A modo de ejemplo, el codec de MP3 tiene una frecuencia de corte de 16 kHz a 128 kbps; a modo de otro ejemplo, los codecs de VolP tienen una frecuencia de corte de 8 kHz o 16 kHz.

Ademas de la frecuencia de corte, la degradacion de la senal durante el proceso de codificacion de audio se considera como otra caractenstica para diferenciar varios contextos de audio tales como VoIP vs. no VoIP, contextos de audio de alta calidad vs. baja calidad. Las caractensticas que representan la calidad de audio, tales como la evaluacion de calidad de la voz operativa (vease documento de Ludovic Malfait, Jens Berger y Martin Kastner, titulado "P.563- La norma de ITU-T para la evaluacion de la calidad de la voz de extremo unico", IEEE, Transaction on Audio, Speech and Language Processing, vol. 14, n° 6, noviembre 2006), puede extraerse, ademas, en multiples niveles para captar caractensticas de mayor contenido. Ejemplos de las caractensticas de calidad de audio incluyen:

a) Caractensticas de relacion SNR estaticas, incluyendo nivel de ruido de fondo estimado, claridad espectral, etc.

b) Caractensticas de SNR segmentales incluyendo desviacion de nivel espectral, gama de nivel espectral, nivel inferior de ruido relativo, etc.

c) Descriptores basicos de la voz incluyendo media del tono, variacion de nivel de seccion de la voz, nivel de la voz, etc.

d) Caractensticas del tracto vocal, incluyendo robotizacion, potencia a traves del tono, etc.

Para derivar las caractensticas a corto plazo a partir de las caractensticas a nivel de trama, el extractor de caractensticas a corto plazo 2022 puede configurarse para calcular datos estadfsticos de las caractensticas a nivel de trama, como las caractensticas a corto plazo.

Ejemplos de las estadfsticas de las caractensticas a nivel de trama incluyen el valor medio y la desviacion estandar, que captan las propiedades ntmicas para diferenciar varios tipos de audio, tales como musica a corto plazo, voz, sonido de fondo y ruido. A modo de ejemplo, la voz suele alternar entre sonidos vocales y no vocales a una tasa de sflabas, mientras que la musica no lo hace, lo que indica que la variacion de las caractensticas a nivel de trama de la voz suele ser mayor que la variacion de la musica.

Otro ejemplo de las estadfsticas es la media ponderada de las caractensticas a nivel de trama. A modo de ejemplo, para la frecuencia de corte, la media ponderada entre las frecuencias de corte derivadas de cada trama de audio en un segmento a corto plazo, con la energfa o intensidad de cada trama como ponderacion, sena la frecuencia de corte para ese segmento a corto plazo.

Como alternativa o de forma adicional, segun se ilustra en la Figura 29, el clasificador de audio 200 puede comprender un extractor de caractenstica a nivel de trama 2012 para extraer caractensticas a nivel de trama a partir de las tramas de audio un clasificador a nivel de trama 2014 para clasificar cada una de las secuencias de tramas de audio en tipos de audio a nivel de trama utilizando las caractensticas a nivel de trama respectivas, en donde el extractor de caractensticas a corto plazo 2022 puede configurarse para calcular las caractensticas a corto plazo sobre la base de los resultados del clasificador a nivel de trama 2014 con respecto a la secuencia de las tramas de audio.

Dicho de otro modo, ademas del clasificador de contenido de audio 202 y el clasificador de contexto de audio 204, el clasificador de audio 200 puede comprender, ademas, un clasificador de tramas 201. En dicha arquitectura, el clasificador de contenido de audio 202 clasifica un segmento a corto plazo sobre la base de los resultados de la clasificacion a nivel de trama del clasificador de tramas 201 y el clasificador de contexto de audio 204 clasifica un segmento a largo plazo sobre la base de los resultados de la clasificacion a corto plazo del clasificador de contenido de

5

10

15

20

25

30

35

40

45

50

55

60

65

audio 202.

El clasificador a nivel de trama 2014 puede configurarse para clasificar cada una de las secuencias de tramas de audio en cualesquiera clases, que pueden referirse como “tipos de audio a nivel de trama”. En una forma de realizacion, los tipos de audio a nivel de trama pueden tener una arquitectura similar a la arquitectura de los tipos de contenidos descritos con anterioridad y tienen tambien un significado similar a los tipos de contenidos, y la unica diferencia es los tipos de audio a nivel de trama y los tipos de contenidos que se clasifican a diferentes niveles de la senal de audio, esto es, a nivel de trama y a nivel de segmento a corto plazo. A modo de ejemplo, el clasificador a nivel de trama 2014 puede configurarse para clasificar cada una de las secuencias de tramas de audio en al menos uno de los tipos de audio a nivel de trama siguiente: voz, musica, sonido de fondo y ruido. Por otro lado, los tipos de audio a nivel de tema pueden tener tambien una arquitectura parcial o completamente distinta de la arquitectura de los tipos de contenidos, mas adecuada para la clasificacion a nivel de trama, y mas adecuada para utilizarse como las caractensticas a corto plazo para la clasificacion a corto plazo. A modo de ejemplo, el clasificador a nivel de trama 2014 puede configurarse para clasificar cada una de las secuencias de tramas de audio en al menos uno de los tipos de audio a nivel de trama siguientes: con voz, sin voz y pausa.

Con respecto a como derivar caractensticas a corto plazo a partir de los resultados de la clasificacion a nivel de trama, se puede adoptar un sistema similar haciendo referencia a la descripcion contenida en la seccion 6.2.

Como una alternativa, las caractensticas a corto plazo basadas en los resultados del clasificador a nivel de trama 2014 y las caractensticas a corto plazo directamente basadas en las caractensticas a nivel de tramas obtenidas por el extractor de caractensticas a nivel de trama 2012 pueden utilizarse por el clasificador a corto plazo 2024. Por lo tanto, el extractor de caractensticas a corto plazo 2022 puede configurarse para calcular las caractensticas a corto plazo sobre la base de las caractensticas a nivel de trama extrafdas a partir de la secuencia de las tramas de audio y de los resultados del clasificador a nivel de trama con respecto a la secuencia de las tramas de audio.

Dicho de otro modo, el extractor de caractensticas a nivel de trama 2012 puede configurarse para calcular datos estadfsticos similares a los descritos en la seccion 6.2 y las caractensticas a corto plazo descritas en relacion con la Figura 28, incluyendo al menos una de las caractensticas siguientes: caractensticas que definen las propiedades de varios tipos de audio a corto plazo, la frecuencia de corte, las caractensticas de la relacion senal a ruido estaticas, caractensticas de la relacion senal a ruido por segmentos, descriptores de la voz basicos y caractensticas del tracto vocal.

Para trabajar en tiempo real, en todas las formas de realizacion, el extractor de caractensticas a corto plazo 2022 puede configurarse para funcionar sobre los segmentos de audio a corto plazo formados con un deslizamiento de ventana movil en la dimension temporal del segmento de audio a largo plazo en una longitud de etapa predeterminada. Con respecto a la ventana movil para el segmento de audio a corto plazo, asf como para la trama de audio y la ventana movil para el segmento de audio a largo plazo, puede hacerse referencia a la seccion 1.1 para conocer mas detalles.

6.4 Combinacion de formas de realizacion y escenarios de aplicacion

De modo similar a la Parte 1, todas las formas de realizacion y variantes anteriormente descritas pueden ponerse en practica en cualquiera de sus combinaciones y cualesquiera componentes mencionados en diferentes partes/formas de realizacion, pero teniendo las mismas o similares funciones que puedan ponerse en practica como los mismos o componentes separados.

A modo de ejemplo, cualesquiera dos o mas soluciones descritas en las secciones 6.1 a 6.3 pueden combinarse entre sf. Y cualquiera de las combinaciones puede combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las Partes 1 a 5 y las otras partes que se describiran mas adelante. En particular, la unidad de alisado de tipo 712 descrita en la Parte 1 puede utilizarse en esta Parte como una componente del clasificador de audio 200, para el alisado de los resultados del clasificador de tramas 2014, o el clasificador de contenido de audio 202 o el clasificador de contexto de audio 204. Ademas, el temporizador 916 puede servir tambien como un componente del clasificador de audio 200 para evitar un cambio brusco de la salida del clasificador de audio 200.

6.5 Metodo de clasificacion de audio

De forma similar a la Parte 1, en el proceso de describir el clasificador de audio en las formas de realizacion anteriormente descritas, evidentemente se dan a conocer tambien algunos procesos o metodos. A continuacion se proporciona un resumen de estos metodos con repetir algunos de los detalles ya descritos con anterioridad.

En una forma de realizacion, segun se ilustra en la Figura 30, se da a conocer un metodo de clasificacion de audio. Para identificar el tipo de audio a largo plazo (es decir, el tipo de contexto) de un segmento de audio a largo plazo incluido en una secuencia de segmentos de audio a corto plazo (solapados o no solapados entre sf), los segmentos de audio a corto plazo se clasifican en primer lugar (operacion 3004) en tipos de audio a corto plazo, es decir, tipos de contenidos y las caractensticas a largo plazo se obtiene calculando (operacion 3006) las estadfsticas de los resultados de la operacion de clasificacion con respecto a la secuencia de los segmentos a corto plazo en el segmento de audio a largo plazo. A

5

10

15

20

25

30

35

40

45

50

55

60

65

continuacion, la clasificacion a largo plazo (operacion 3008) puede realizarse utilizando las caracterfsticas a largo plazo. El segmento de audio a corto plazo puede incluir una secuencia de tramas de audio. Por supuesto, para identificar el tipo de audio a corto plazo de los segmentos a corto plazo, necesitan extraerse las caracterfsticas a corto plazo a partir de dichos segmentos (operacion 3002).

Los tipos de audio a corto plazo (tipos de contenidos) pueden incluir, sin limitacion, a la voz, musica a corto plazo, sonido de fondo y ruido.

Las caracterfsticas a largo plazo pueden incluir, sin limitacion, a: valor medio y varianza de los valores de confianza de los tipos de audio a corto plazo, el valor medio y la varianza ponderados por el grados de importancia de los segmentos a corto plazo, la frecuencia de ocurrencia de cada tipo de audio a corto plazo y la frecuencia de transicion entre diferentes tipos de audio a corto plazo.

En una variante, segun se ilustra en la Figura 31, pueden obtenerse caracterfsticas a largo plazo adicionales (operacion 3107) directamente sobre la base de las caracterfsticas a corto plazo de la secuencia de segmentos a corto plazo en el segmento de audio a largo plazo. Dichas caracterfsticas adicionales a largo plazo pueden incluir, sin limitacion, a las estadfsticas siguientes de las caracterfsticas a corto plazo: valor medio, varianza, media ponderada, varianza de ponderacion, media alta, media baja y relacion entre la media alta y la media baja.

Existen diferentes maneras para extraer las caracterfsticas a corto plazo. Una es extraer directamente las caracterfsticas a corto plazo a partir del segmento de audio a corto plazo a clasificarse. Tales caracterfsticas incluyen, sin limitacion, caracterfsticas rftmicas, caracterfsticas de interrupciones/silenciamiento y caracterfsticas de calidad de audio a corto plazo.

La segunda manera es extraer las caracterfsticas a nivel de trama a partir de las tramas de audio incluidas en cada segmento a corto plazo (operacion 3201 en la Figura 32), y luego, calcular las caracterfsticas a corto plazo sobre la base de las caracterfsticas a nivel de trama, tal como calcular los datos estadfsticos de las caracterfsticas a nivel de trama como las caracterfsticas a corto plazo. Las caracterfsticas a nivel de trama pueden comprender, sin limitacion, a: caracterfsticas que definen las propiedades de varios tipos de audio a corto plazo, la frecuencia de corte, las caracterfsticas de relacion senal a ruido estaticas, las caracterfsticas de la relacion senal a ruido por segmentos, descriptores de la voz basicos y caracterfsticas del tracto vocal. Las caracterfsticas que definen las propiedades de varios tipos de audio a corto plazo pueden comprender, ademas, la energfa de trama, la distribucion espectral de sub-bandas, el flujo espectral, coeficientes cepstrales en la frecuencia de Mel, bajos, informacion residual, caracterfstica de croma y tasa de cruce por cero.

La tercera forma consiste en extraer las caracterfsticas a corto plazo en una manera similar a la extraccion de las caracterfsticas a largo plazo: despues de extraer las caracterfsticas a nivel de trama a partir de las tramas de audio en un segmento a corto plazo a clasificarse (operacion 3201), clasificar cada trama de audio en tipos de audio a nivel de trama utilizando las caracterfsticas a nivel de trama respectivas (operacion 32011 en la Figura 33); y las caracterfsticas a corto plazo pueden extraerse (operacion 3002) calculando las caracterfsticas a corto plazo sobre la base de los tipos de audio a nivel de trama (incluyendo, de modo opcional, los valores de confianza). Los tipos de audio a nivel de trama pueden tener propiedades y una arquitectura similar al tipo de audio a corto plazo (tipo de contenido), y pueden incluir tambien a la voz, musica, sonido de fondo y ruido.

La segunda y la tercera formas pueden combinarse juntas segun se ilustra por la flecha de lmea de trazos en la Figura 33.

Segun se describio en la Parte 1, los segmentos de audio a corto plazo y los segmentos de audio a largo plazo pueden muestrearse con ventanas moviles. Es decir, la operacion de extraer caracterfsticas a corto plazo (operacion 3002) puede realizarse sobre segmentos de audio a corto plazo formados con un deslizamiento de la ventana movil en la dimension temporal del segmento de audio a largo plazo con una longitud de tono predeterminada, y la operacion de extraer caracterfsticas a largo plazo (operacion 3107) y la operacion de calcular estadfsticas de tipos de audio a corto plazo (operacion 3006) pueden realizarse tambien sobre los segmentos de audio a largo plazo formados con un deslizamiento de la ventana movil en la dimension temporal de la senal de audio en una longitud de tono predeterminada.

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son practicas por un lado; y por otro lado, cada aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf, y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras partes de esta idea inventiva. En particular, segun se describio ya en la seccion 6.4, los sistemas de alisado y el sistema de transicion de los tipos de audio pueden ser una parte del metodo de clasificacion de audio aqrn descrito.

Parte 7: Clasificadores de VoIP y metodos de clasificacion

5

10

15

20

25

30

35

40

45

50

55

60

65

En la Parte 6 se propone un nuevo clasificador de audio para clasificar una senal de audio en tipos de contextos de audio al menos basados en parte sobre los resultados de la clasificacion de tipos de contenidos. En las formas de realizacion descritas en la Parte 6, las caractensticas a largo plazo se extraen a partir de un segmento a largo plazo de una longitud de varios segundos a varias decenas de segundos, con lo que la clasificacion del contexto de audio puede causar una larga latencia. Es deseable que el contexto de audio pueda clasificarse tambien en tiempo real o casi en tiempo real, tal como al nivel de segmentos a corto plazo.

7.1 Clasificacion de contextos basada en el segmento a corto plazo

Por lo tanto, segun se ilustra en la Figura 34, un clasificador de audio 200A se da a conocer, que incluye un clasificador de contenido de audio 202A para identificar un tipo de contenido de un segmento a corto plazo de una senal de audio y un clasificador de contexto de audio 204A para identificar un tipo de contexto del segmento a corto plazo al menos basado en parte en el tipo de contenido identificado por el clasificador de contenido de audio.

En este caso, el clasificador de contenido de audio 202A puede adoptar las tecnicas ya mencionadas en la Parte 6 pero puede adoptar tambien diferentes tecnicas segun se describira mas adelante en la seccion 7.2. Ademas, el clasificador de contexto de audio 204A puede adoptar las tecnicas ya mencionadas en la Parte 6, con una diferencia de que el clasificador de contextos 204A puede utilizar directamente los resultados del clasificador de contenido de audio 202A, en lugar de utilizar los datos estadfsticos de los resultados procedentes del clasificador de contenido de audio 202A puesto que el clasificador de contexto de audio 204A y el clasificador de contenido de audio 202A estan clasificando el mismo segmento a corto plazo. Ademas, de forma similar a la Parte 6, ademas de los resultados procedentes del clasificador de contenido de audio 202A, el clasificador de contexto de audio 204A puede utilizar otras caractensticas directamente extrafdas a partir del segmento a corto plazo. Es decir, el clasificador de contexto de audio 204A puede configurarse para clasificar el segmento a corto plazo basado en un modelo de aprendizaje de maquina utilizando, como caractensticas, los valores de confianza de los tipos de contenidos del segmento a corto plazo y otras caractensticas extrafdas a partir del segmento a corto plazo. Con respecto a las caractensticas extrafdas desde el segmento a corto plazo, puede hacerse referencia a la Parte 6.

El clasificador de contenido de audio 200A puede etiquetar simultaneamente el segmento a corto plazo puesto que mas tipos de audio que la voz/ruido de VoIP y/o voz/ruido de no VoIP (voz/ruido de VoIP y voz/ruido de no VoIP que se describiran a continuacion en la seccion 7.2), y cada uno de los multiples tipos de audio pueden tener su propio valor de confianza segun se describe en la seccion 1.2. Lo que antecede puede conseguir una mejor exactitud de la clasificacion puesto que se puede obtener informacion mas abundante. A modo de ejemplo, la informacion conjunta de los valores de confianza de la voz y de la musica a corto plazo da a conocer en que medida el contenido de audio es probable que sea una mezcla de voz y musica de fondo, de modo que pueda discriminarse a partir del contenido de VoIP puro.

7.2 Clasificacion utilizando la voz de VoIP y el ruido de VoIP

Este aspecto de la presente idea inventiva es de utilidad especial en un sistema de clasificacion de VoIP/no VoIP, que requerina clasificar el segmento a corto plazo actual con respecto a la latencia de decision corta.

Para esta finalidad, segun se ilustra en la Figura 34, el clasificador de audio 200A esta especialmente disenado para la clasificacion de VoIP/no VoIP. Para clasificar VoIP/no VoIP, un clasificador de voz VoIP 2026 y/o un clasificador de ruido de VoIP se desarrollan para generar resultados intermedios para una clasificacion solida final de VoIP/no VoIP por el clasificador de contexto de audio 204A.

Un segmento a corto plazo de VoIP contendna voz de VoIP y ruido de VoIP alternativamente. Se observa que puede conseguirse una alta precision para clasificar un segmento a corto plazo de voz en voz VoIP o voz no VoIP, pero sin clasificar un segmento a corto plazo de ruido en ruido de VoIP o ruido de no VoIP. De este modo, puede llegarse a la conclusion de que se hara confusa la discriminalidad clasificando directamente el segmento a corto plazo en VoIP (incluyendo voz de VoIP y ruido de VoIP pero sin identificar espedficamente la voz de VoIP y el ruido de VoIP) y no VoIP sin considerar la diferencia entre la voz y el ruido y de este modo, con las caractensticas de estos dos tipos de contenidos (voz y ruido) mezclados juntos.

Es razonable para los clasificadores conseguir mas altas precisiones para la clasificacion de voz de VoIP/voz de no VoIP que para la clasificacion de ruido de VoIP/ruido de no VoIP puesto que la voz contiene mas informacion que ruido y dichas caractensticas tales como frecuencia de corte son mas efectivas para clasificar la voz. En funcion de la ponderacion obtenida a partir del proceso de formacion de adaBoost, las caractensticas a corto plazo ponderadas superiores para la clasificacion de voz de VoIP/no VoIP son: desviacion estandar de la energfa logantmica, frecuencia de corte, desviacion estandar de intensidad ntmica y desviacion estandar del flujo espectral. La desviacion estandar de la energfa logantmica, desviacion estandar de la intensidad ntmica y desviacion estandar del flujo espectral suelen ser mas altas para la voz de VoIP que para la voz de no VoIP. Una razon probable es que numerosos segmentos de voz a corto plazo en un contexto de no VoIP, tal como un dispositivo de multimedia similar a cine o un juego se suelen mezclar con otros sonidos tales como musica de fondo o efecto sonoro, cuyos valores de las caractensticas anteriores son mas bajos. Asimismo, la frecuencia de corte suele ser mas baja para la voz de VoIP que para la voz de no VoIP, lo que indica la baja frecuencia de corte introducida por los numerosos y populares codecs de VoIP.

5

10

15

20

25

30

35

40

45

50

55

60

65

Por lo tanto, en una forma de realizacion, el clasificador de contenido de audio 202A puede incluir un clasificador de voz de VoIP 2026 para clasificar el segmento a corto plazo en la voz de VoIP de tipos de contenidos o la voz de no VoIP de tipos de contenidos; y el clasificador de contexto de audio 204A puede configurarse para clasificar el segmento a corto plazo en el VoIP de tipo de contexto o el no VoIP de tipo de contexto sobre la base de los valores de confianza de la voz de VoIP y de la voz de no VoIP.

En otra forma de realizacion, el clasificador de contenido de audio 202A puede comprender, ademas, un clasificador de ruido de VoIP 2028 para clasificar el segmento a corto plazo en el ruido de VoIP de tipo de contenido o el ruido de no VoIP del tipo de contenido; y el clasificador de contexto de audio 204A puede configurarse para clasificar el segmento a corto plazo en el VoIP de tipo de contexto o el no VoIP de tipo de contexto sobre los valores de confianza de la voz de VoIP, voz de no VoIP, ruido de VoIP y ruido de no VoIP.

Los tipos de contenidos de la voz de VoIP, voz de no VoIP, ruido de VoIP y ruido de no VoIP pueden identificarse con las tecnicas existentes segun se indica en la Parte 6, seccion 1.2 y seccion 7.1.

Como alternativa, el clasificador de contenido de audio 202A puede tener una estructura jerarquica segun se ilustra en la Figura 35. Es decir, se tendra la ventaja de los resultados procedentes de un clasificador de voz/ruido 2025 para clasificar primero el segmento a corto plazo en voz o ruido/sonido de fondo.

Sobre la base de la forma de realizacion utiliza simplemente un clasificador de voz de VoIP 2026, si se determina un segmento a corto plazo como voz por el clasificador de voz/ruido 2025 (en tal situacion, es solamente un clasificador de voz), entonces, el clasificador de voz de VoIP 2026 sigue clasificando si es la voz de VoIP o la voz de no VoIP, y calcula el resultado de la clasificacion binaria; de no ser asf, puede considerarse que el valor de confianza de voz de VoIP es de nivel bajo o la decision sobre la voz de VoIP es incierta.

Sobre la base de la forma de realizacion que utiliza simplemente el clasificador de ruido de VoIP 2028, si se determina el segmento a corto plazo como un ruido, por el clasificador de voz/ruido 2025 (en tal situacion, es solamente un clasificador de ruido (de fondo)), entonces, el clasificador de ruido de VoIP 2028 sigue clasificando el ruido de VoIP o ruido de no VoIP, y calculando el resultado de la clasificacion binaria. De no ser asf, puede considerarse que el valor de confianza del ruido de VoIP es de nivel bajo, o la decision del ruido de VoIP es incierta.

En este caso, puesto que la voz suele ser de un tipo de contenido informativo y el ruido/sonido de fondo es un tipo de contenido interferente, aun cuando si un segmento a corto plazo no es un ruido, en la forma de realizacion en el apartado anterior no se puede determinar, por supuesto, que el segmento a corto plazo no sea del VoIP de tipo de contexto. Mientras que si un segmento a corto plazo no es una voz, en la forma de realizacion simplemente utilizando el clasificador de voz de VoIP 2026 es probablemente no la VoIP de tipo de contexto. Por lo tanto, por lo general, la forma de realizacion que utiliza simplemente un clasificador de voz de VoIP 2026 puede realizarse de forma independiente, mientras que la otra forma de realizacion que utiliza simplemente un clasificador de ruido de VoIP 2028 puede utilizarse como una forma de realizacion suplementaria que coopera con, a modo de ejemplo, la forma de realizacion que utiliza el clasificador de voz de VoIP 2026.

Es decir, el clasificador de voz de VoIP 2026 y el clasificador de ruido de VoIP 2028 pueden utilizarse a este respecto. Si un segmento a corto plazo se determina como de voz por el clasificador de voz/ruido 2025, entonces, el clasificador de voz de VoIP 2026 sigue clasificando si es voz de VoIP o voz de no VoIP, y calcula el resultado de la clasificacion binaria. Si el segmento a corto plazo se determina como ruido por el clasificador de voz/ruido 2025, entonces, el clasificador de ruido de VoIP 2028 sigue clasificandolo en ruido de VoIP o ruido de no VoIP, y calcula el resultado de la clasificacion binario. De no ser asf, puede considerarse que el segmento a corto plazo puede clasificarse como no VoIP.

En la puesta en practica del clasificador de voz/ruido 2025, el clasificador de voz de VoIP 2026 y el clasificador de ruido de VoIP 2028 pueden adoptarse cualesquiera tecnicas existentes y pueden ser el clasificador de contenido de audio 202 segun se describe en las Partes 1 a 6.

Si el clasificador de contenido de audio 202A puesto en practica de conformidad con la descripcion anterior clasifica finalmente un segmento a corto plazo en ninguno de voz, ruido y sonido de fondo, o ninguno de voz de VoIP, voz de no VoIP, ruido de VoIP y ruido de no VoIP, ello significa que todos los valores de confianza pertinentes son de nivel bajo, y entonces, el clasificador de contenido de audio 202A (y el clasificador de contexto de audio 204A) puede clasificar el segmento a corto plazo como de no VoIP.

Para clasificar el segmento a corto plazo en los tipos de contextos de VoIP o no VoIP sobre la base del so resultados del clasificador de voz de VoIP 2026 y el clasificador de ruido de VoIP 2028, el clasificador de contexto de audio 204A puede adoptar tecnicas basadas en el aprendizaje de maquina segun se describe en la seccion 7.1 y como una modificacion, pueden utilizarse mas caractensticas, incluyendo las caracterfsticas a corto plazo directamente extrafdas desde el segmento a corto plazo y/o resultados de otros clasificadores de contenido de audio orientados a otros tipos de contenidos que los tipos de contenidos relacionados con VoIP, segun se describio con anterioridad en la seccion 7.1.

5

10

15

20

25

30

35

40

45

50

55

60

65

Ademas de las tecnicas basadas en el aprendizaje de maquina anteriormente descritas, un metodo alternativo para la clasificacion de VoIP/no VoIP puede ser una regla heunstica que obtiene ventaja del conocimiento del dominio y que utiliza los resultados de la clasificacion en relacion con la voz de VoIP y el ruido de VoIP. Un ejemplo de dichas reglas heunsticas se ilustrara a continuacion.

En el segmento a corto plazo actual de tiempo t se determina como voz de VoIP o voz de no VoIP, el resultado de la clasificacion se toma directamente como el resultado de la clasificacion de VoIP/no VoIP puesto que la clasificacion de voz de VoIP/no VoIP es solida segun se indico con anterioridad. Es decir, si el segmento a corto plazo se determina como voz de VoIP, entonces, es el VoIP de tipo de contexto; si el segmento a corto plazo se determina como voz de no VoIP, entonces, se trata de no VoIP de tipo de contexto.

Cuando el clasificador de voz de VoIP 2026 toma una decision binaria con respecto a la voz de VoIP/voz de no VoIP con respecto a la voz determinada por el clasificador de voz/ruido 2025 segun se describio con anterioridad, los valores de confianza de voz de VoIP y de voz de no VoIP podnan ser complementarios, es decir, su suma es 1 (si 0 representa un 100 % no y 1 representa un 100 % sf) y los valores umbrales del valor de confianza para diferenciar voz de VoIP y voz de no VoIP pueden indicar realmente el mismo punto. Si el clasificador de voz de VoIP 2026 no es un clasificador binario, los valores de confianza de voz de VoIP y de voz de no VoIP podnan no ser complementarios y los valores umbrales del valor de confianza para diferenciar la voz de VoIP y la voz de no VoIP pueden no indicar necesariamente el mismo punto.

Sin embargo, en el caso en donde la voz de VoIP o la voz de no VoIP tiene una confianza proxima y fluctua alrededor del valor umbral, los resultados de clasificacion de VoIP/no VoIP es posible que se conmuten con demasiada frecuencia. Para evitar dicha fluctuacion, un sistema de memorizacion intermedia puede proveerse a este respecto: ambos valores umbral para voz de VoIP y voz de no VoIP pueden establecerse de mayor magnitud, de modo que no sea facil la conmutacion desde el tipo de contenido actual al otro tipo de contenido. Para facilidad de descripcion, se puede convertir el valor de confianza para la voz de no VoIP al valor de confianza de la voz de VoIP. Es decir, si el valor de confianza es alto, el segmento a corto plazo se considera como mas proximo a la voz de VoIP y si el valor de confianza es bajo, el segmento a corto plazo se considera como mas proximo a la voz de no VoIP. Aunque para un clasificador no binario, segun se describio con anterioridad, un valor de confianza alto de voz de no VoIP no significa necesariamente un valor de confianza bajo de la voz de VoIP, dicha simplificacion puede reflejar bien la esencia de la solucion y las reivindicaciones pertinentes descritas con el lenguaje de clasificadores binarios debera interpretarse como cubriendo las soluciones equivalentes para clasificadores no binarios.

El sistema de memorizacion intermedia se ilustra en la Figura 36. Existe un area de memoria intermedia entre dos valores umbrales Th1 y Th2 (Th1>=Th2). Cuando el valor de confianza v(t) de la voz de VoIP cae dentro del area, no cambiara la clasificacion de contexto, segun se ilustra por las flechas en los lados izquierdo y derecho en la Figura 36. Solamente cuando el valor de confianza v(t) es mayor que el valor umbral Th1 de mayor magnitud, se clasificara el segmento a corto plazo como de VoIP (segun se ilustra por la flecha en la parte inferior de la Figura 36); y solamente cuando el valor de confianza no es mayor que el umbral Th2 mas pequeno, se clasificara el segmento a corto plazo como de no VoIP (segun se ilustra por la flecha en la parte superior de la Figura 36).

Si el clasificador de ruido de VoIP 2028 se utiliza en cambio, la situacion es similar. Para obtener la solucion mas solida, el clasificador de voz de VoIP 2026 y el clasificador de ruido de VoIP 2028 pueden utilizarse conjuntamente. A continuacion, el clasificador de contexto de audio 204A puede configurarse para: clasificar el segmento a corto plazo como el VoIP de tipo de contexto si el valor de confianza de la voz de VoIP es mayor que un primer valor umbral o si el valor de confianza del ruido de VoIP es mayor que un tercer valor umbral; clasificar el segmento a corto plazo como el no VoIP de tipo de contexto si el valor de confianza de la voz de VoIP no es mayor que un segundo valor umbral, en donde el segundo valor umbral no es mayor que el primer valor umbral, o si el valor de confianza del ruido de VoIP no es mayor que un cuarto valor umbral, en donde el cuarto valor umbral no es mayor que el tercer valor umbral; de no ser asf, clasificar el segmento a corto plazo como el tipo de contexto para el ultimo segmento a corto plazo.

En este caso, un primer umbral puede ser igual al segundo umbral, y el tercer umbral puede ser igual al cuarto umbral, en particular, sin limitacion, para el clasificador de voz de VoIP binario y el clasificador de ruido de VoIP binario. Sin embargo, puesto que, en general, el resultado de la clasificacion de ruido de VoIP no es tan solido, sena mejor si los tercero y cuarto umbrales no sean iguales entre sf y que estuvieran separados en 0.5 (0 indica una alta confianza para ser ruido de no VoIP y 1 indica una alta confianza para ser ruido de VoIP).

7.3 Alisado de la fluctuacion

Para evitar una fluctuacion rapida, otra solucion es el alisado del valor de confianza segun se determina por el clasificador de contenido de audio. Por lo tanto, segun se ilustra en la Figura 37, una unidad de alisado de tipo 203A puede incluirse en el clasificador de audio 200A. Para el valor de confianza de cada uno de los 4 tipos de contenidos relacionados con VoIP, segun se describio con anterioridad, los sistema de alisado descritos en la seccion 1.3 pueden adoptarse a este respecto.

Como alternativa, de modo similar a la seccion 7.2, la voz de VoIP y la voz de no VoIP pueden considerarse como un par que tienen valores de confianza complementarios; y el ruido de VoIP y el ruido de no VoIP pueden considerarse tambien

5

10

15

20

25

30

35

40

45

50

55

60

65

como un par que tiene valores de confianza complementarios. En dicha situacion, solamente uno de cada par necesita ser objeto de alisado y los sistemas de alisado descritos en la seccion 1.3 pueden adoptarse a este respecto.

Tomando a modo de ejemplo el valor de confianza de voz de VoIP, puede expresarse de nuevo la formula (3) como:

v{t) = ■ v(t -1) + (1 - p) • voipSpeechConf {t) p”)

en donde v(t) es el valor de confianza de voz de VoIP objeto de alisado en el tiempo t, v(t-1) es el valor de confianza de voz de VoIP alisado en la ultima vez y voipSpeechConf es el valor de confianza de voz de VoIP en un tiempo actual t antes del alisado, siendo a un coeficiente de ponderacion.

En una variante, si existe un clasificador de voz/ruido 2025 segun se describio con anterioridad, si el valor de confianza de la voz para un segmento corto es bajo, entonces, el segmento a corto plazo no puede clasificarse como voz de VoIP de forma firme y se puede establecer directamente voipSpeechConf (t)=v(t-1) sin hacer que funcione realmente el clasificador de voz de VoIP 2026.

Como alternativa, en la situacion descrita con anterioridad, se podrfa establecer voipSpeechConf (t) = 0.5 (u otro valor no superior a 0.5, tal como 0.4-0.5) que indica un caso incierto (en este caso, confianza = 1 indica una alta confianza de que sea VoIP y confianza = 0 indica una alta confianza de que no sea un VoIP).

Por lo tanto, en conformidad con una variante, segun se ilustra en la Figura 37, el clasificador de contenido de audio 200A puede comprender, ademas, un clasificador de voz/ruido 2025 para identificar el tipo de contenido de voz del segmento a corto plazo, y la unidad de alisado de tipos 203A puede configurarse para establecer el valor de confianza de voz de VoIP para el presente segmento a corto plazo antes del alisado como un valor de confianza predefinido (tal como 0.5 u otro valor, tal como 0.4-0.5) o el valor de confianza alisado del ultimo segmento a corto plazo, en donde el valor de confianza para la voz del tipo de contenido se clasifique por el clasificador de voz/ruido como mas bajo que un quinto valor umbral. En dicha situacion, el clasificador de voz de VoIP 2026 puede funcionar o no hacerlo. Como alternativa, el establecimiento del valor de confianza puede realizarse por el clasificador de voz de VoIP 2026, lo que es equivalente a la solucion en donde se realiza el trabajo por la unidad de alisado de tipos 203A, y la reivindicacion debera interpretarse como que cubre ambas situaciones. Ademas, en este caso, se utiliza la expresion “el valor de confianza para la voz de tipo de contenido, segun se clasifica por el clasificador de voz/ruido, es mas baja que un quinto valor umbral” pero el alcance de proteccion no esta limitado a este respecto y es equivalente a la situacion en donde el segmento a corto plazo se clasifica en otros tipos de contenidos que el de la voz.

Para el valor de confianza del ruido de VoIP, la situacion es similar y se omite aqrn una descripcion detallada.

Para evitar una fluctuacion rapida, todavfa otra solucion es el alisado del valor de confianza segun se determina por el clasificador de contexto de audio 204A, y los sistemas de alisado descritos en la seccion 1.3 pueden adoptarse a este respecto.

Para evitar una fluctuacion rapida, todavfa otra solucion es retardar la transicion del tipo de contexto entre VoIP y no VoIP, y el mismo sistema que se describe en la seccion 1.6 puede utilizarse en este caso. Segun se describe en la seccion 1.6, el temporizador 916 puede estar fuera del clasificador de audio o dentro del clasificador de audio como una parte del mismo. Por lo tanto, segun se ilustra en la Figura 38, el clasificador de audio 200A puede comprender, ademas, el temporizador 916. Y el clasificador de audio se configura para continuar proporcionando, a la salida el tipo de contexto actual hasta que la longitud del tiempo de duracion de un nuevo tipo de contexto alcance el valor de un sexto valor umbral (el tipo de contexto es una instancia del tipo de contenido). Haciendo referencia a la seccion 1.6, puede omitirse aqrn una descripcion detallada.

Como alternativa o de forma adicional, como otro sistema para retrasar la transicion entre VoIP y no VoIP, el primero y/o segundo valor umbral segun se describio con anterioridad para la clasificacion de VoIP/no VoIP, puede ser diferente dependiendo del tipo de contexto del ultimo segmento a corto plazo. Es decir, el primero y/o segundo valor umbral se hace mayor cuando el tipo de contexto del nuevo segmento a corto plazo es diferente del tipo de contexto del ultimo segmento a corto plazo, mientras que se hace mas pequeno cuando el tipo de contexto del nuevo segmento a corto plazo es el mismo que el tipo de contexto del ultimo segmento. De este modo, el tipo de contexto tiende a mantenerse en el tipo de contexto actual y en consecuencia, una fluctuacion brusca del tipo de contexto puede suprimirse en alguna medida.

7.4 Combinacion de formas de realizacion y escenarios de aplicacion

De forma similar a la Parte 1, todas las formas de realizacion y variantes anteriormente descritas pueden ponerse en practica en cualquiera de sus combinaciones y cualesquiera componentes mencionados en diferentes partes/formas de realizacion, pero teniendo las mismas o funciones similares puede ponerse en practica como los mismos o componentes separados.

5

10

15

20

25

30

35

40

45

50

55

60

65

A modo de ejemplo, cualesquiera dos o mas soluciones descritas en las secciones 7.1 a 7.3 pueden combinarse entre sf Y cualquiera de las combinaciones puede combinarse, ademas, con cualquier forma de realizacion descrita o impKcita en las Partes 1 a 6. En particular, las formas de realizacion descritas en esta parte y cualquiera de sus combinaciones pueden combinarse con las formas de realizacion del aparato/metodo de procesamiento de audio o el controlador/metodo de control del nivelador de volumen descrito en la Parte 4.

7.5 Metodo de clasificacion de VoIP

De modo similar a la Parte 1, en el proceso de describir el clasificador de audio en las formas de realizacion anteriormente descritas, se da a conocer evidentemente que existen tambien algunos procesos o metodos aplicables. A continuacion, se proporciona un resumen de estos metodos sin repetir algunos de los detalles ya descritos con anterioridad.

En una forma de realizacion segun se ilustra en la Figura 39, un metodo de clasificacion de audio incluye la identificacion de un tipo de contenido de un segmento a corto plazo de una senal de audio (operacion 4004), identificando luego un tipo de contexto del segmento a corto plazo al menos en parte sobre la base del tipo de contenido que se identifica (operacion 4008).

Para identificar el tipo de contexto de una senal de audio de forma dinamica y rapida, el metodo de clasificacion de audio en esta parte es de utilidad particular en la identificacion del VoIP y no VoIP del tipo de contexto. En tal situacion, el segmento a corto plazo puede clasificarse primero en la voz de VoIP de tipo de contenido o la voz de no VoIP del tipo de contenido y la operacion de identificar el tipo de contexto esta configurada para clasificar el segmento a corto plazo en el VoIP de tipo de contexto o no VoIP de tipo de contexto sobre la base de los valores de confianza de la voz de VoIP y la voz de no VoIP.

Como alternativa, el segmento a corto plazo puede clasificarse primero en el ruido de VoIP de tipo de contenido o el ruido no vip de tipo de contenido, y la operacion de identificar el tipo de contexto puede configurarse para clasificar el segmento a corto plazo en VoIP de tipo de contexto o de no VoIP de tipo de contexto sobre la base de los valores de confianza del ruido de VoIP y ruido de no VoIP.

La voz y el ruido pueden considerarse conjuntamente. En dicha situacion, la operacion de identificar el tipo de contexto puede configurarse para clasificar el segmento a corto plazo en el VoIP de tipo de contexto o el no VoIP de tipo de contexto sobre la base de los valores de confianza de la voz de VoIP, la voz de no VoIP, ruido de VoIP y ruido de no VoIP.

Para identificar el tipo de contexto del segmento a corto plazo, puede utilizarse un modelo de aprendizaje de maquina, considerando los valores de confianza de los tipos de contenidos del segmento a corto plazo y otras caractensticas extrafdas a partir del segmento a corto plazo como caractensticas.

La operacion de identificar el tipo de contexto puede realizarse tambien sobre la base de reglas heunsticas. Cuando solamente estan implicadas la voz de VoIP y la voz de no VoIP, la regla heunstica es como sigue: clasificar el segmento a corto plazo como el VoIP de tipo de contexto si el valor de confianza de la voz de VoIP es mayor que un primer valor umbral; clasificar el segmento a corto plazo como de no VoIP de tipo de contexto si el valor de confianza de la voz de VoIP no es mayor que un segundo valor umbral, en donde el segundo valor umbral no es mayor que el primer valor umbral; de no ser asf, clasificar el segmento a corto plazo como el tipo de contexto para el ultimo segmento a corto plazo.

La regla heunstica para la situacion en donde solamente se implica el ruido de VoIP y el ruido de no VoIP es similar.

Cuando la voz y el ruido estan implicados, la regla heunstica es como sigue: clasificar el segmento a corto plazo como VoIP de tipo de contexto si el valor de confianza de la voz de VoIP es mayor que un primer valor umbral o si el valor de confianza del ruido de VoIP es mayor que un tercer valor umbral; clasificar el segmento a corto plazo como de no VoIP de tipo de contexto si el valor de confianza de la voz de VoIP no es mayor que un segundo valor umbral, en donde el segundo valor umbral no es mayor que el primer valor umbral, o si el valor de confianza del ruido de VoIP no es mayor que un cuarto valor umbral, en donde el cuarto valor umbral no es mayor que un tercer valor umbral; de no ser asf, clasificar el segmento a corto plazo como el tipo de contexto para el ultimo segmento a corto plazo.

El sistema de alisado descrito en la seccion 1.3 y seccion 1.8 puede adoptarse aqrn y se omite una descripcion detallada. Como una modificacion al sistema de alisado descrito en la seccion 1.3 antes de la operacion de alisado 4106, el metodo puede comprender, ademas, la identificacion de la voz del tipo de contenido a partir del segmento a corto plazo (operacion 40040 en la Figura 40), en donde el valor de confianza de la voz de VoIP para el segmento a corto plazo actual antes del alisado se establece como un valor de confianza predeterminado o el valor de confianza alisado del ultimo segmento a corto plazo (operacion 40044 en la Figura 40), en donde el valor de confianza para la voz de tipo de contenido es menor que un quinto umbral ("N" en la operacion 40041).

Si, de no ser asf, la operacion de identificar la voz de tipo de contenido determina en firme el segmento a corto plazo como voz ("Y" en la operacion 40041), entonces, el segmento a corto plazo se clasifica, ademas, en voz de VoIP o voz

5

10

15

20

25

30

35

40

45

50

55

60

65

de no VoIP (operacion 40042), antes de la operacion de alisado 4106.

De hecho, incluso sin utilizar el sistema de alisado, el metodo puede identificar tambien la voz de tipo de contenido y/o el ruido en primer lugar, cuando el segmento a corto plazo se clasifica como voz o ruido, una clasificacion adicional se realiza para clasificar el segmento a corto plazo en uno de voz de VoIP y voz de no VoIP y uno de ruido de VoIP y ruido de no VoIP. A continuacion, se realiza la operacion de identificar el tipo de contexto.

Segun se indico en la seccion 1.6 y la seccion 1.8 el sistema de transicion aqrn descrito puede tomarse como una parte del metodo de clasificacion de audio tambien aqrn descrito, y se omite los detalles. En resumen, el metodo puede comprender, ademas, la medida del tiempo de duracion durante el cual se realiza la operacion de identificar el tipo de contexto continuamente proporcionando el mismo tipo de contexto, en donde el metodo de clasificacion de audio esta configurado para continuar proporcionando el tipo de contexto actual hasta que la longitud del tiempo de duracion de un nuevo tipo de contexto alcance un sexto valor umbral.

De modo similar, pueden establecerse seis umbrales diferentes para diferentes pares de transicion desde un tipo de contexto a otro tipo de contexto. Ademas, el sexto umbral puede estar en correlacion negativa con el valor de confianza del nuevo tipo de contexto.

Como una modificacion al sistema de transicion en el metodo de clasificacion de audio especialmente orientado a la clasificacion de VoIP/no VoIP, cualquier o mas del primero al cuarto valor umbral para el presente segmento a corto plazo puede establecerse de forma diferente dependiendo del tipo de contexto del ultimo segmento a corto plazo.

De modo similar a las formas de realizacion del aparato de procesamiento de audio, cualquier combinacion de las formas de realizacion del metodo de procesamiento de audio y sus variantes son practicas por un lado; y por otro lado, cualquier aspecto de las formas de realizacion del metodo de procesamiento de audio y sus variantes pueden ser soluciones separadas. Ademas, cualesquiera dos o mas soluciones descritas en esta seccion pueden combinarse entre sf y estas combinaciones pueden combinarse, ademas, con cualquier forma de realizacion descrita o implfcita en las otras partes de esta idea inventiva. Mas concretamente, el metodo de clasificacion de audio aqrn descrito puede utilizarse en el metodo de procesamiento de audio tambien aqrn descrito, en particular, el metodo de control del nivelador de volumen.

Segun se describe al principio de la descripcion detallada de la presente invencion, la forma de realizacion de la aplicacion puede realizarse en hardware o en software o en ambos a la vez. La Figura 41 es un diagrama de bloques que ilustra un sistema ejemplo para poner en practica los aspectos de la presente invencion.

En la Figura 41, una unidad central de procesamiento (CPU) 4201 realiza varios procesos en conformidad con un programa memorizado en una memoria de solamente lectura (ROM) 4202 o un programa cargado desde una seccion de memorizacion 4208 a una memoria de acceso auditorio (RAM) 4203. En la memoria RAM 4203, los datos adquiridos cuando la unidad CPU 4201 realiza los diversos procesos o similares, se memoriza tambien cuando se requiere.

La unidad CPU 4201, la memoria ROM 4202 y la memoria RAM 4203 estan conectadas entre sf mediante un bus de conexion 4204. Una interfaz de entrada/salida 4205 esta tambien conectada al bus 4204.

Los siguientes componentes estan conectados a la interfaz de entrada/salida 4205: una seccion de entrada 4206 que incluye un teclado, un raton o similar; una seccion de salida 4207 que incluye un monitor tal como un tubo de rayos catodicos (CRT), una pantalla de cristal lfquido (LCD) o similar y un altavoz o similar; la seccion de memorizacion 4208 que incluye un disco duro o similar y una seccion de comunicaciones 4209 que incluye una tarjeta de interfaz de red tal como una tarjeta de red LAN, un modem o similar. La seccion de comunicaciones 4209 realiza un proceso de comunicaciones por intermedio de la red tal como Internet.

Una unidad 4210 esta tambien conectada a la interfaz de entrada/salida 4205 cuando se requiere. Un soporte extrafble 4211, tal como un disco magnetico, un disco optico, un disco magneto-optico, una memoria de semiconductores o similar, esta montado en la unidad 4210 cuando se requiere, de modo que un programa informatico allf lefdo sea instalado en la seccion de memorizacion 4208 cuando se requiera.

En el caso en donde los componentes anteriormente descritos sean puestos en practica por el software, el programa que constituye el software esta instalado desde la red tal como Internet o el soporte de memorizacion tal como el soporte extrafole 4211.

Conviene senalar que la terminologfa aqrn utilizada es para los fines de describir formas de realizacion particulares solamente y no esta prevista para ser limitadora de la idea inventiva. Tal como aqrn se utilizan las formas singulares "un", "una" y "el" estan previstos para incluir las formas del plural tambien, a no ser que el contexto lo indique claramente de otro modo. Ademas, se entendera que los terminos "comprende" y/o "comprendiendo", cuando se utilizan en esta especificacion, sirven para especificar la presencia de caractensticas, numeros enteros, operaciones, etapas, elementos y/o componentes establecidos, pero no excluyen la presencia o adicion de una o mas otras caractensticas, numeros enteros, operaciones, etapas, elementos, componentes y/o sus grupos.

Las correspondientes estructuras, materiales, actos y equivalentes de todos los medios o elementos de operacion y de funcion en las reivindicaciones siguientes estan previstas para intentar incluir cualquier estructura, material o acto para realizar la funcion en combinacion con otros elementos reivindicados segun se reivindica de forma espedfica. La descripcion de la presente invencion ha sido presentada para fines de ilustracion y descripcion, pero no esta prevista 5 para ser exhaustiva ni esta limitada a la solicitud en la forma dada a conocer. Numerosas modificaciones y variantes seran evidentes para un experto en esta tecnica sin desviarse por ello del alcance de proteccion de las reivindicaciones. La forma de realizacion fue elegida y descrita con el fin de explicar mejor los principios de la idea inventiva y la aplicacion practica y, para permitir a otros expertos en esta tecnica entender la aplicacion para varias formas de realizacion con diversas modificaciones que sean adecuadas para el uso particular previsto.

10

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo de control de nivelador de volumen que comprende: identificar el tipo de contenido de una senal de audio en tiempo real; y

ajustar un nivelador de volumen (406) en una manera continua sobre la base del tipo de contenido segun se identifica, aumentando o disminuyendo la ganancia dinamica del nivelador de volumen (406) con, respectivamente, el aumento o la disminucion de un valor de confianza de tipos de contenidos informativos de la senal de audio, y aumentado o disminuyendo la ganancia dinamica del nivelador de volumen (406) con, respectivamente, la disminucion o el aumento de un valor de confianza de tipos de contenido interferentes de la senal de audio;

en donde la senal de audio se clasifica en multiples tipos de contenidos con valores de confianza correspondientes, y la operacion de ajuste se configura para considerar al menos algunos de los multiples tipos de contenidos mediante una ponderacion de los valores de confianza de los multiples tipos de contenidos sobre la base de la importancia de los multiples tipos de contenidos.
2. Un metodo de control de nivelador de volumen que comprende: identificar el tipo de contenido de una senal de audio en tiempo real; y

ajustar un nivelador de volumen (406) en una manera continua sobre la base del tipo de contenido segun se identifica, aumentando o disminuyendo la ganancia dinamica del nivelador de volumen (406) con, respectivamente, el aumento o la disminucion del valor de confianza de los tipos de contenidos informativos de la senal de audio y aumentando o disminuyendo la ganancia dinamica del nivelador de volumen (406) con, respectivamente, la disminucion o el aumento de un valor de confianza de tipos de contenidos interferentes de la senal de audio;

en donde la senal de audio se clasifica en multiples tipos de contenidos con valores de confianza correspondientes, y la operacion de ajuste se configura para modificar la ponderacion de un tipo de contenido con el valor de confianza de al menos otro tipo de contenido.
3. El metodo de control de nivelador de volumen segun cualquiera de las reivindicaciones 1 a 2, en donde el tipo de contenido de la senal de audio comprende uno de entre: voz, musica a corto plazo, ruido y sonido de fondo.
4. El metodo de control de nivelador de volumen segun cualquiera de las reivindicaciones 1 a 2, en donde el ruido se considera como un tipo de contenido interferente.
5. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 1 a 2, en donde la operacion de ajuste esta configurada para ajustar la ganancia dinamica del nivelador de volumen sobre la base del valor de confianza del tipo de contenido, y de modo opcional,

en donde la operacion de ajuste esta configurada para ajustar la ganancia dinamica por intermedio de una funcion de transferencia del valor de confianza del tipo de contenido.
6. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 1 a 2, en donde la operacion de ajuste esta configurada para considerar al menos un tipo de contenido dominante sobre la base de los valores de confianza.
7. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 1 a 2, en donde la senal de audio esta clasificada en multiples tipos de contenidos interferentes y/o multiples tipos de contenidos informativos con los correspondientes valores de confianza, y la operacion de ajuste esta configurada para considerar al menos un tipo de contenido interferente dominante y/o al menos un tipo de contenido informativo dominante sobre la base de los valores de confianza.
8. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 1 a 7, que comprende, ademas, para cada tipo de contenido el alisado del valor de confianza de la senal de audio en el momento presente sobre la base de los valores de confianza anteriores de la senal de audio, y de modo opcional,

en donde la operacion de alisado del tipo esta configurada para determinar un valor de confianza alisado de la senal de audio en el momento presente calculando una suma ponderada del valor de confianza real en el momento presente y un valor de confianza alisado de la ultima vez.
9. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 3 a 7, que comprende, ademas, la identificacion del tipo de contexto de la senal de audio, en donde la operacion de ajuste esta configurada para ajustar la gama de la ganancia dinamica sobre la base del valor de confianza del tipo de contexto.

5

10

15

20

25

30
10. El metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 3 a 8, que comprende, ademas, la identificacion del tipo de contexto de la senal de audio, en donde la operacion de ajuste esta configurada para considerar el tipo de contenido de la senal de audio como informativo o interferente, sobre la base del tipo de contexto de la senal de audio.
11. El metodo de control del nivelador de volumen segun la reivindicacion 10, en donde el tipo de contexto de la senal de audio comprende uno de entre: VoIP, multimedia similar a cine, musica a largo plazo y juegos.
12. El metodo de control del nivelador de volumen segun la reivindicacion 10, en donde, en la senal de audio del tipo de contexto VoIP, el sonido de fondo se considera como un tipo de contenido interferente; mientras que en la senal de audio del tipo de contexto no de VoIP, el ruido de fondo y/o la voz y/o la musica se considera como un tipo de contenido informativo.
13. El metodo de control del nivelador de volumen segun la reivindicacion 2, en donde el tipo de contexto de la senal de audio comprende audio de alta calidad o audio de baja calidad.
14. Un controlador de nivelador de volumen que comprende:

un clasificador de contenido de audio (202) para identificar el tipo de contenido de una senal de audio en tiempo real; y

una unidad de ajuste (300) para ajustar un nivelador de volumen (406) en una manera continua sobre la base del tipo de contenido identificado;

en donde el controlador del nivelador de volumen esta configurado para realizar el metodo segun cualquiera de las reivindicaciones 1 a 13.
15. Un soporte legible por ordenador que tiene instrucciones de programas informaticos registradas que, cuando se ejecutan por un procesador, permiten al procesador ejecutar el metodo de control del nivelador de volumen segun cualquiera de las reivindicaciones 1 a 13.