ES2555579T3 - Codificador de audio multicanal y método para codificar una señal de audio multicanal - Google Patents

Codificador de audio multicanal y método para codificar una señal de audio multicanal Download PDF

Info

Publication number
ES2555579T3
ES2555579T3 ES12713148.0T ES12713148T ES2555579T3 ES 2555579 T3 ES2555579 T3 ES 2555579T3 ES 12713148 T ES12713148 T ES 12713148T ES 2555579 T3 ES2555579 T3 ES 2555579T3
Authority
ES
Spain
Prior art keywords
signal
channels
itd
audio
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12713148.0T
Other languages
English (en)
Inventor
David Virette
Yue Lang
Jianfeng Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2555579T3 publication Critical patent/ES2555579T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método (100) para determinar un parámetro de codificación (ITD) para una señal de canal de audio (x1) de una pluralidad de señales de canal de audio (x1, x2) de una seña de audio multicanal, teniendo cada señal de canal de audio (x1, x2) valores de señal de canal de audio (x1[n], x2[n]), cuyo método comprende: determinar (101) una transformada de frecuencia (x1[k]) de los valores de señal de canal de audio (x1[n]) de la señal de canal de audio (x1); determinar (103) una transformada de frecuencia (x2[k]) de los valores de señal de audio de referencia (x2[n]) de una señal de audio de referencia (x2) en donde la señal de audio de referencia es otra señal de canal de audio (x2) de la pluralidad de señales de canal de audio o una señal de audio de mezcla descendente derivada de al menos dos señales de canal de audio (x1, x2) de la pluralidad de señales de canal de audio; determinar (105) diferencias entre canales (ICD[b]) para al menos cada sub-banda de frecuencia (b) de un subconjunto de sub-bandas de frecuencia, indicando cada diferencia entre canales una diferencia de fase (IPD[b]) o una diferencia de tiempo (ITD[b]) entre una parte de señal de banda limitada de la señal de canal de audio y una parte de señal de banda limitada de la señal de audio de referencia en la sub-banda de frecuencia respectiva (b) en donde la diferencia entre canales está asociada; determinar (107) una primera media (ITDmean_pos) basada en valores positivos de las diferencias entre canales (ICD[b]) y determinar una segunda media (ITDmean_neg) basada en valores negativos de las diferencias entre canales (ICD[b]); y determinar (109) el parámetro de codificación (ITD) sobre la base de la primera media y de la segunda media.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Codificador de audio multicanal y metodo para codificar una senal de audio multicanal CAMPO DE LA INVENCION
La presente invencion se refiere a la codificacion de audio y en particular a una codificacion de audio espacial parametrica tambien conocida como una codificacion de audio multicanal parametrica.
ANTECEDENTES DE LA INVENCION
La codificacion de audio multicanal o estereo parametrica segun se describe, a modo de ejemplo, en el documento de C. Faller y F. Baumgarte, titulado “Representacion eficiente de senal de audio espacial utilizando una parametrizacion perceptual” en Proc. IEEE Workshop sobre la aplicacion de procesamiento de senales para audio y acustica, octubre de 2001, paginas 199-202, utiliza pistas espaciales para sintetizar senales de audio multicanal a partir de senales de audio - normalmente mono o estereo - de mezcla descendente, En condiciones normales, las senales de audio de mezcla descendente resultan de una superposicion de una pluralidad de senales de canal de audio de una senal de audio multicanal, p.e., de una senal de audio estereo. Estos menos canales estan codificados en forma de onda e informacion lateral, esto es, las pistas espaciales, relacionadas con las relaciones de canales de senales originales se anade como parametros de codificacion a los canales de audio codificados. El decodificador utiliza esta informacion lateral para regenerar el numero original de canales de audio sobre la base de los canales de audio codificados en forma de onda decodificados.
Otro metodo para la codificacion de audio multicanal se da a conocer en el documento WO 2011/072729 A1.
Un codificador de estereo parametrico basico puede utilizar las diferencias de niveles entre canales (ILD) como una pista necesaria para generar la senal de estereo a partir de la senal de audio de mezcla descendente monoaural. Codificadores mas sofisticados pueden utilizar tambien la coherencia entre canales (ICC), que puede representar un grado de similitud entre las senales de canal de audio, esto es, canales de audio. Ademas, cuando se codifican senales de estereo binaural, p.e., para senales de audio en 3D o presentacion envolvente basada en auriculares, una diferencia de fase entre canales (IPD) puede desempenar tambien una funcion importante para reproducir diferencias de fase/retardos entre los canales.
La diferencia de tiempo inter-aural (ITD) es la diferencia en el tiempo de llegada de un sonido 701 entre dos ofdos 703, 705 como puede observarse a partir de la Figura 7. Es importante para la localizacion de sonidos, puesto que proporciona una pista para identificar la direccion 707 o el angulo 9 (theta) de incidencia de la fuente de sonido 701 (relativa a la cabeza 709). Si una senal llega a los odios 703, 705 desde un lado, la senal tiene una ruta mas larga 711 para alcanzar el ofdo lejano 703 (contralateral) y una ruta mas corta 713 para alcanzar el ofdo cercano 705 (ipsilateral). Esta diferencia de longitud de recorrido da lugar a una diferencia de tiempo 715 entre las llegadas del sonido a los ofdos 703, 705, lo que se detecta y ayuda al proceso de identificar la direccion 707 de la fuente de sonido 701.
La Figura 7 proporciona un ejemplo de ITD (que se indica como At o la diferencia de tiempo 715). Las diferencias en el tiempo de llegada en los dos ofdos 703, 705 se indican por un retardo de la forma de onda del sonido. Si llega primero una forma de onda al ofdo izquierdo 703, el valor de ITD 715 es positivo, de no ser asf, es negativo. Si la fuente de sonido 701 esta directamente en frente del oyente, la forma de onda llega al mismo tiempo a ambos ofdos 703, 705 y de este modo el valor de ITD 715 es cero.
Las pistas de ITD son importantes para la mayor parte de la grabacion estereo. A modo de ejemplo, la senal de audio binaural, que puede obtenerse a partir de la grabacion real utilizando, a modo de ejemplo, un cabezal ficticio o smtesis binaural sobre la base del procesamiento de la denominada Funcion de Transferencia Relativa a la Cabeza (HRTF), se utiliza para la grabacion de musica o las conferencias de audio. Por lo tanto, es un parametro muy importante para el codificador-decodificador (codec) de estereo parametrico de baja tasa binaria y en particular, para un codificador-decodificador que tiene como objetivo la aplicacion conversacional. Un algoritmo de estimacion de ITD de baja complejidad y estable se necesita para el codificador-decodificador de estereo parametrico de baja tasa binaria. Ademas, el uso de parametros de ITD, p.ej., en adicion a otros parametros, tales como diferencias de niveles entre canales (CLDs o ILDs) y la coherencia entre canales (ICC), puede aumentar la carga de tasa binaria. Para este escenario operativo de muy baja tasa binaria espedfico, solamente se puede transmitir un parametro de banda completa ITD. Cuando solamente se estima un parametro ITD de banda completa, la limitacion sobre la estabilidad se hace todavfa mas dificil de conseguir.
En la tecnica anterior, los metodos de estimacion de ITD pueden clasificarse en tres categonas principales. La estimacion de ITD puede basarse en metodos en el dominio temporal. ITD se estima sobre la base de la correlacion cruzada de dominio temporal entre canales. ITD corresponde al retardo en donde es maxima la correlacion cruzada en el dominio temporal
5
10
15
20
25
30
35
40
45
50
55
60
imagen1
Este metodo da a conocer una estimacion no estable del retardo a traves de varias tramas. Esto es particularmente verdadero cuando las senales de entrada f y g son senales de banda ancha con escenario operativo de sonido complejo puesto que diferentes senales de sub-banda pueden tener valores de ITD diferentes. Un ITD no estable puede dar lugar a la introduccion de un chasquido (ruido) cuando el retardo se conmuta para tramas consecutivas en el decodificador. Cuando este analisis en el dominio temporal se realiza sobre la senal de banda completa, la tasa binaria de la estimacion de ITD en el dominio temporal es baja, puesto que solamente se estima, codifica y transmite un parametro ITD. Sin embargo, la complejidad es muy alta, debido al calculo de correlacion cruzada sobre las senales con alta frecuencia de muestreo.
La segunda categona del metodo de estimacion de ITD esta basada en una combinacion de metodos en el dominio temporal y de la frecuencia. En el documento de Marple, S.L., Jr. Titulado “Estimacion de retardo de grupo y de retardo de fase mediante una correlacion cruzada “analftica” en tiempo discreto”, Signal Processing, IEEE Transactions on, vol. 47, n° 9, paginas 2604-2607, septiembre 1999, conteniendo la estimacion de ITD en el dominio temporal y de la frecuencia las etapas siguientes:
1. Un analisis de Transformada de Fourier Rapida (FFT) se aplica a las senales de entrada con el fin de obtener coeficientes de la frecuencia.
2. Una correlacion cruzada se calcula en el dominio de la frecuencia.
3. La correlacion cruzada en el dominio de la frecuencia se convierte al dominio temporal utilizando una transformada de Fourier inversa FFT.
4. El valor de ITD se estima en el dominio temporal complejo.
Este metodo puede conseguir tambien la limitacion de baja tasa binaria, puesto que solamente un ITD de banda completa es objeto de estimacion, codificacion y transmision. Sin embargo, la complejidad es muy alta, debido al calculo de la correlacion cruzada y la transformada de Fourier FFT inversa que hace que este metodo no sea aplicable cuando la complejidad de calculo informatico esta limitada.
Por ultimo, la ultima categona realiza la estimacion de ITD directamente en el dominio de la frecuencia. En el documento de Baumgate, F.; Faller, C.; titulado “Codificacion de pistas binaurales - parte I: fundamentos psicoacusticos y principios de diseno”, Speech and Audio Processing, IEEE Transactions en vol. 11, n° 6, paginas 509-519, noviembre 2003 y en el documento Faller, C.; Baumgarte, F.; titulado “Codigo de pistas binaurales - parte II: sistemas y aplicaciones”, Procesamiento de audio y de la voz, IEEE Transactions on, vol. 11, n° 6, paginas 520531, noviembre 2003, ITD se estima en el dominio de la frecuencia y para cada banda de frecuencias, se codifica y transmite un ITD. La complejidad de esta solucion esta limitada, pero la tasa binaria requerida para este metodo es alta, puesto que un ITD por sub-banda ha de transmitirse.
Ademas, la fiabilidad y estabilidad del ITD estimado depende del ancho de banda de la frecuencia de la senal de sub-bandas puesto que para un valor de ITD de sub-banda grande podna no ser compatible (fuentes de audio diferentes con diferentes posiciones podnan estar presentes en la senal de audio de banda limitada). Los sistemas de codificacion de audio multicanal parametrica, de muy baja tasa binaria, no tienen solamente la limitacion sobre la tasa binaria, sino tambien la limitacion sobre la complejidad disponible en particular para la puesta en practica objetivo del codec en un terminal movil en donde debe economizarse la vida util de la batena. Los algoritmos de estimacion de ITD mas avanzados no pueden satisfacer ambos requisitos de baja tasa binaria y baja complejidad al mismo tiempo, mientras se mantiene una buena calidad en terminos de la estabilidad de la estimacion ITD.
SUMARIO DE LA INVENCION
Es el objetivo de la invencion dar a conocer un concepto para un codificador de audio multicanal que proporciona, a la vez, una baja tasa binaria y una baja complejidad mientras se mantiene una buena calidad, en terminos de estabilidad de la estimacion de ITD.
Este objetivo se consigue mediante las caractensticas operativas establecidas en las reivindicaciones independientes. Otras formas de puesta en practica son evidentes a partir de las reivindicaciones subordinadas, la descripcion y las Figuras adjuntas.
La invencion esta basada en el hallazgo operativo de que la aplicacion de una promediacion inteligente a las diferencias entre canales, tales como ITD e IPD entre las partes disenadas de banda limitada de dos senales de canal de audio de una senal de audio multicanal reduce, a la vez, la tasa binaria y la complejidad informatica debido al procesamiento de banda limitada al mismo tiempo que se mantiene una buena calidad en terminos de estabilidad
5
10
15
20
25
30
35
40
45
50
55
60
65
de la estimacion de ITD. Una promediacion inteligente discrimina las diferencias entre canales por su signo y realiza diferentes medias dependiendo de ese signo con lo que se aumenta la estabilidad del procesamiento de diferencias entre canales.
Con el fin de describir la invencion en detalle, se utilizaran los terminos, abreviaturas y notaciones siguientes:
BCC:
Codificacion de pistas binaurales, codificacion de senales estereo o multicanal utilizando una mezcla descendente y pistas binaurales (o parametros espaciales) para describir las relaciones entre canales.
Pistas binaurales:
las pistas entre canales entre las senales de entrada en los ofdos izquierdo y derecho (vease tambien ITD, ILD e IC).
CLD:
Diferencia de niveles entre canales, lo mismo que ILD.
FFT:
Puesta en practica rapida de la DFT, indicada como Transformada de Fourier Rapida.
HRTF:
Funcion de transferencia relacionada con la cabeza, transduccion de creacion de modelos de sonido desde una fuente a las entradas de los ofdos izquierdo y derecho en un campo libre.
IC:
Coherencia inter-aural, esto es, el grado de similitud entre las senales de entrada en los ofdos izquierdo y derecho. Este termino se refiere tambien, a veces, como IAC o correlacion cruzada intraural (IACC)
ICC:
Coherencia entre canales, correlacion intercanal. Lo mismo que IC, pero con una definicion mas general entre cualquier par de senales (p.e., par de senales de altavoces, par de senales de entrada de auriculares, etc.).
ICPD:
Diferencia de fase intercanal. Diferencia de fase media entre un par de senales.
ICLD:
Diferencia de nivel intercanal. Lo mismo que ILD, pero con una definicion mas general entre cualquier par de senales (p.ej., par de senales de altavoces, par de senal de entrada a auriculares, etc.).
ICTD:
Diferencia de tiempo intercanal. Lo mismo que ITD, pero con una definicion mas general entre cualquier par de senales (p.ej., par de senales de altavoces, par de senal de entrada a auriculares, etc.).
ILD:
Diferencia de nivel inter-aural, esto es, diferencia de nivel entre las senales de entrada en los ofdos izquierdo y derecho. Este termino se refiere tambien, a veces, como una diferencia de intensidad inter-aural (IID).
IPD:
Diferencia de fase inter-aural, esto es, diferencia de fase entre las senales de entrada en los ofdos izquierdo y derecho.
ITD:
Diferencia de tiempo inter-aural, esto es, diferencia de tiempo entre las senales de entrada en los ofdos izquierdo y derecho. Este termino se refiere tambien a veces como retardo inter-aural.
ICD:
Diferencia intercanal. El termino general para una diferencia entre dos canales, p.ej., una diferencia temporal, una diferencia de fase, una diferencia de nivel o una coherencia entre los dos canales.
Mezcla:
Dadas un numero de senales de origen (p.ej., instrumentos registrados por separado, grabacion multipista), el proceso de generar senales de estereo o de audio multicanal previstas para una reproduccion de audio espacial se indica como mezcla.
OCPD:
Diferencia de fase de canal global. Una modificacion de fase comun de dos o mas canales de audio.
Audio espacial:
Senales de audio que, cuando se reproducen por intermedio de un sistema de reproduccion adecuado, evocan una imagen espacial de auditorio.
Pistas espaciales:
Pistas pertinentes para la percepcion espacial. Este termino se utiliza para pistas entre pares de canales de una senal de audio multicanal o de estereo (vease tambien ICTD, ICLD e ICC). Tambien indicadas como parametros espaciales o pistas binaurales.
5
10
15
20
25
30
35
40
45
50
55
60
65
En conformidad con un primer aspecto de la idea inventiva, la invencion se refiere a un metodo para determinar un parametro de codificacion para una senal de canal de audio de una pluralidad de senales de canal de audio de una senal de audio multicanal, teniendo cada senal de canal de audio valores de senales de canal de audio, comprendiendo el metodo: determinar una transformada de frecuencia de los valores de senal de canal de audio de la senal de canal de audio; determinar una transformada de frecuencia de los valores de la senal de audio de referencia de una senal de audio de referencia, en donde la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio; determinar diferencias entre canales para al menos cada sub- banda de frecuencias de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia entre canales una diferencia de fase o una diferencia temporal entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias con la que esta asociada la diferencia entre canales; determinar una primera media sobre la base en los valores positivos de las diferencias entre canales y determinar una segunda media basada en valores negativos de las diferencias entre canales y determinar el parametro de codificacion basado en la primera media y en la segunda media.
En conformidad con un segundo aspecto de la idea inventiva, la invencion se refiere a un metodo para determinar un parametro de codificacion para una senal de canal de audio de una pluralidad de senales de canal de audio de una senal de audio multicanal, teniendo cada senal de canal de audio unos valores de senales de canal de audio, comprendiendo dicho metodo: determinar una transformada de frecuencia de los valores de senal de canal de audio de la senal de canal de audio; determinar una transformada de frecuencia de los valores de la senal de audio de referencia de la senal de audio de referencia, en donde la senal de audio de referencia es una senal de audio de conveccion descendente derivada de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio; determinar diferencias entre canales para al menos cada sub-banda de frecuencias de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia entre canales una diferencia de fase o una diferencia temporal entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias, con la que esta asociada la diferencia entre canales; determinar una primera media basada en valores positivos de las diferencias entre canales y determinar una segunda media basada en valores negativos de las diferencias entre canales y determinar el parametro de codificacion sobre la base de la primera media y de la segunda media.
La parte de senal de banda limitada puede ser una parte de senal en el dominio de la frecuencia. Sin embargo, la parte de senal de banda limitada puede ser una parte de senal en el dominio temporal. En este caso, un transformador de dominio de frecuencia-dominio temporal, tal como un transformador de Fourier inverso puede utilizarse a este respecto. En el dominio temporal, puede realizarse una media de retardo de parte de senal de banda limitada que corresponde a una media de fase en el dominio de la frecuencia. Para el procesamiento de senales, puede utilizarse un sistema de proceso de ventanas denominado windowing, p.ej., Hamming windowing, para establecer una ventana de la parte de senal en el dominio temporal. La parte de senal de banda limitada puede expandirse a traves solamente de un contenedor de frecuencias o sobre mas de un contenedor de frecuencias.
En una primera posible forma de puesta en practica del metodo segun el primer aspecto o segun el segundo aspecto de la idea inventiva, las diferentes entre canales son diferencias de fase entre canales o diferencias de fase intercanal.
En una segunda posible forma de puesta en practica del metodo segun el primer aspecto de la idea inventiva como tal o en conformidad con el segundo aspecto como tal o de acuerdo con la primera forma de puesta en practica del primer aspecto o en conformidad con la primera forma de puesta en practica del segundo aspecto de la idea inventiva, el metodo comprende, ademas: determinar una primera desviacion estandar sobre la base de valores positivos de las diferencias entre canales y determinar una segunda desviacion estandar basada en valores negativos de las diferencias entre canales, en donde la determinacion del parametro de codificacion esta basada en la primera desviacion estandar y en la segunda desviacion estandar.
En una tercera posible forma de puesta en practica del metodo segun el primer aspecto o segun el segundo aspecto como tales o en conformidad con cualquiera de las formas de puesta en practica precedentes del primer aspecto o en conformidad con cualquiera de las formas de puesta en practica precedentes del segundo aspecto, una sub- banda de frecuencias comprende uno o una pluralidad de contenedores de frecuencias.
En una cuarta posible forma de puesta en practica del metodo en conformidad con el primer aspecto como tal o en conformidad con el segundo aspecto como tal o en conformidad con cualquiera de las formas de puesta en practica precedentes del primer aspecto o en conformidad con cualquiera de las formas de puesta en practica precedentes del segundo aspecto, la determinacion de diferencias entre canales para al menos cada sub-banda de frecuencias de un subconjunto de sub-bandas de frecuencias comprende: determinar un espectro cruzado como una correlacion cruzada a partir de la transformada de frecuencia de los valores de la senal de canal de audio y la transformada de frecuencia de los valores de senales de audio de referencia; determinar diferencias de fase entre canales para cada sub-banda de frecuencias basada en el espectro cruzado.
En una quinta posible forma de puesta en practica del metodo en conformidad con la cuarta forma de puesta en
5
10
15
20
25
30
35
40
45
50
55
60
65
practica del primer aspecto de la idea inventiva o en conformidad con la cuarta forma de puesta en practica del segundo aspecto de la idea inventiva, la diferencia de fase entre canales de un contenedor de frecuencias o de una sub-banda de frecuencias se determina como un angulo del espectro cruzado.
En una sexta posible puesta en practica del metodo en conformidad con la cuarta o la quinta forma de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la cuarta o quinta forma de puesta en practica del segundo aspecto de la idea inventiva, el metodo comprende, ademas: determinar diferencias temporales inter- aurales basadas en las diferencias de fase entre canales; en donde la determinacion de la primera media esta basada en valores positivos de las diferencias temporales inter-aurales y la determinacion de la segunda media esta basada en valores negativos de las diferencias temporales inter-aurales.
En una septima posible forma de puesta en practica del metodo en conformidad con la cuarta o la quinta forma de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la cuarta o la quinta forma de puesta en practica del segundo aspecto de la idea inventiva, la diferencia temporal inter-aural de una sub-banda de frecuencias se determina como una funcion de la diferencia de fase entre canales, dependiendo dicha funcion de varios contenedores de frecuencias y del contenedor de frecuencias o del mdice de sub-bandas de frecuencias.
En una octava posible forma de puesta en practica del metodo en conformidad con la sexta o la septima forma de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la sexta o la septima forma de puesta en practica del segundo aspecto, la determinacion del parametro de codificacion comprende: contar un primer numero de diferencias temporales inter-aurales positivas y un segundo numero de diferencias temporales inter-aurales negativas a traves del numero de sub-bandas de frecuencias incluidas en el subconjunto de sub- bandas de frecuencias.
En una novena posible forma de realizacion de puesta en practica del metodo en conformidad con la octava forma de realizacion del primer aspecto de la idea inventiva o en conformidad con la octava forma de puesta en practica del segundo aspecto de la idea inventiva, el parametro de codificacion se determina sobre la base de una comparacion entre el primer numero de diferencias temporales inter-aurales positivas y el segundo numero de diferencias temporales inter-aurales negativas.
En una decima posible forma de puesta en practica del metodo en conformidad con la novena forma de realizacion de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la novena forma de puesta en practica del segundo aspecto de la idea inventiva, el parametro de codificacion se determina sobre la base de una comparacion entre la primera desviacion estandary la segunda desviacion estandar.
En una undecima posible forma de puesta en practica del metodo en conformidad con la novena o la decima forma de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la novena o la decima forma de puesta en practica del segundo aspecto de la idea inventiva, el parametro de codificacion se determina sobre la base de una comparacion entre el primer numero de diferencias temporales inter-aurales positivas y el segundo numero de diferencias temporales inter-aurales negativas multiplicado por un primer factor.
En la duodecima posible forma de realizacion del metodo en conformidad con la undecima forma de puesta en practica del primer aspecto o en conformidad con la undecima forma de puesta en practica del segundo aspecto de la idea inventiva, el parametro de codificacion se determina sobre la base de una comparacion entre el primer numero de diferencias temporales inter-aurales positivas y el segundo numero de diferencias temporales inter- aurales negativas multiplicado por un segundo factor.
En una decimotercera posible forma de puesta en practica del metodo en conformidad con la sexta o la septima forma de puesta en practica del primer aspecto de la idea inventiva o en conformidad con la sexta o la septima forma de puesta en practica del segundo aspecto de la idea inventiva, la determinacion de parametro de codificacion comprende: contar un primer numero de diferencias entre canales positivas y un segundo numero de diferencias entre canales negativas a traves del numero de sub-bandas de frecuencias que se incluye en el subconjunto de sub- bandas de frecuencias.
En una decimocuarta posible forma de puesta en practica del metodo en conformidad con el primer aspecto como tal o en conformidad con el segundo aspecto como tal o en conformidad con cualquiera de las formas de puesta en practica precedentes del primer aspecto o en conformidad con cualquiera de las formas de puesta en practica precedentes del segundo aspecto, el metodo se aplica en uno o en combinaciones de los codificadores siguientes: un codificador ITU-T G.722, un codificador de ITU-T G.722 Anexo B, un codificador de ITU-T G.711.1, un codificador de ITU-T G.711.1 Anexo D y un Codificador de Servicios de Voz Mejorados en 3GPP.
En comparacion con una estimacion del ITD que proporciona una estimacion media del ITD de sub-bandas, los metodos en conformidad con el primero o segundo aspecto seleccionan el ITD mas pertinente dentro de la sub- banda. De este modo, se consigue una baja tasa binaria y una estimacion de ITD de baja complejidad al mismo tiempo que se mantiene una buena calidad en terminos de estabilidad de la estimacion de iTd.
5
10
15
20
25
30
35
40
45
50
55
60
65
En conformidad con un tercer aspecto de la idea inventiva, la invencion se refiere a un codificador de audio multicanal para determinar un parametro de codificacion para una senal de canal de audio de una pluralidad de senales de canal de audio de una senal de audio multicanal, teniendo cada senal de canal de audio valores de senal de canal de audio, comprendiendo el codificador de audio espacial parametrico: un transformador de frecuencias, tal como un dispositivo basado en la transformada de Fourier, para determinar una transformada de frecuencias de los valores de senales de canales de audio de la senal de canal de audio y para determinar una transformada de frecuencia de los valores de senales de audio de referencia de una senal de audio de referencia, en donde la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio, un dispositivo de determinacion de diferencias entre canales para determinar las diferencias entre canales para al menos cada sub-banda de frecuencias de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia intercanal una diferencia de fase o diferencia temporal entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias con la que esta asociada la diferencia intercanal; un dispositivo de determinacion de medias para determinar una primera media sobre la base de valores positivos de las diferencias entre canales y para determinar una segunda media basada en valores negativos de las diferencias entre canales y un dispositivo de determinacion de parametro de codificacion para determinar el parametro de codificacion sobre la base de la primera media y de la segunda media.
En conformidad con un cuarto aspecto de la idea inventiva, la invencion se refiere a un codificador de audio multicanal para determinar un parametro de codificacion para una senal de canal de audio de una pluralidad de senales de canal de audio de una senal de audio multicanal, teniendo cada senal de canal de audio valores de senal de canal de audio, comprendiendo dicho codificador de audio espacial parametrico: un dispositivo de transformacion de frecuencias tal como un dispositivo basado en la transformada de Fourier, para determinar una transformada de la frecuencia de los valores de senal de canal de audio de la senal de canal de audio y para determinar una transformada de frecuencia de valores de senal de audio de referencia de una senal de audio de referencia, en donde la senal de audio de referencia es una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio de entre la pluralidad de senales de canal de audio; un dispositivo de determinacion de diferencias entre canales para determinar las diferencias entre canales para al menos cada sub-banda de frecuencias de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia intercanal una diferencia de fase o una diferencia temporal entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias a la que esta asociada la diferencia intercanal. Un dispositivo de determinacion de medias para determinar una primera media basada en valores positivos de las diferencias entre canales y para la determinacion de una segunda media basada en valores negativos de las diferencias entre canales y un dispositivo de determinacion de parametro de codificacion para determinar el parametro de codificacion sobre la base de la primera media y de la segunda media.
En conformidad con un quinto aspecto de la idea inventiva, la invencion se refiere a un programa informatico con un codigo de programa para realizar el metodo en conformidad con el primer aspecto de la idea inventiva como tal o en conformidad con el segundo aspecto como tal o en conformidad con cualquiera de las reivindicaciones precedentes del primer aspecto de la idea inventiva o en conformidad con cualquiera de las reivindicaciones precedentes del segundo aspecto cuando se ejecutan en un ordenador.
El programa informatico tiene una complejidad reducida y por ello, se puede poner en practica de forma eficiente en un terminal movil en donde debe economizarse la vida util de la batena.
En conformidad con un sexto aspecto de la idea inventiva, la invencion se refiere a un identificador de audio espacial parametrico que esta configurado para poner en practica el metodo en conformidad con el primer aspecto como tal o en conformidad con el segundo aspecto como tal o en conformidad con cualquiera de las formas de puesta en practica precedentes del primer aspecto o en conformidad con cualquiera de las formas de puesta en practica precedentes del segundo aspecto.
En una primera posible forma de puesta en practica del codificador de audio espacial parametrico en conformidad con el sexto aspecto de la idea inventiva, el codificador de audio espacial parametrico comprende un procesador que pone en practica el metodo en conformidad con el primer aspecto como tal o en conformidad con el segundo aspecto como tal o en conformidad con cualquiera de las formas de puesta en practica del primer aspecto o en conformidad con cualquiera de las formas de puesta en practica del segundo aspecto.
En una segunda posible forma de puesta en practica del codificador de audio espacial parametrico en conformidad con el sexto aspecto como tal o en conformidad con la primera forma de puesta en practica del sexto aspecto, el codificador de audio espacial parametrico comprende un dispositivo de transformacion de frecuencias tal como un dispositivo basado en la transformada de Fourier para determinar una transformada de frecuencias de los valores de senales de canal de audio de la senal de canal de audio y para determinar una transformada de frecuencias de valores de la senal de audio de referencia de una senal de audio de referencia, en donde la senal de audio de referencia es otra senal de canal de audio de entre la pluralidad de senales de canal de audio o una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio de entre la pluralidad de senales de canal de audio; un dispositivo de determinacion de diferencias entre canales para determinar las diferencias entre
5
10
15
20
25
30
35
40
45
50
55
60
65
canales para al menos cada sub-banda de frecuencias de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia entre canales una diferencia de fase o una diferencia temporal entre la parte de senal de banda limitada de la senal de canal de audio y la pate de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda, a la que esta asociada la diferencia entre canales; un dispositivo de determinacion de media para determinar una primera media basada en valores positivos de las diferentes entre canales y la determinacion de una segunda media basada en valores negativos de las diferencias entre canales; y un dispositivo de determinacion de parametro de codificacion para determinar el parametro de codificacion basado en la primera y en la segunda media.
En conformidad con un septimo aspecto de la idea inventiva, la invencion se refiere a un soporte legible por maquina tal como una memoria, en particular un disco compacto, con un programa informatico que comprende un codigo de programa para realizar el metodo en conformidad con el primer aspecto como tal o en conformidad con el segundo aspecto como tal en conformidad con cualquiera de las reivindicaciones precedentes del primer aspecto o en conformidad con cualquiera de las reivindicaciones precedentes del segundo aspecto cuando se ejecutan en un ordenador.
Los metodos aqu descritos pueden ponerse en practica como software en un Procesador de Senal Digital (DSP), un microcontrolador o en cualquier otro procesador secundario o un circuito de hardware dentro de un circuito integrado espedfico de la aplicacion (ASIC).
La invencion puede ponerse en practica en circuitos de electronica digital, o en equipos informaticos, firmware, software o en sus combinaciones.
BREVE DESCRIPCION DE LOS DIBUJOS
Otras formas de realizacion de la invencion se describiran con respecto a las Figuras siguientes, en donde:
La Figura 1 ilustra un diagrama esquematico de un metodo para generar un parametro de codificacion para una senal de canal de audio en conformidad con una forma de puesta en practica;
La Figura 2 ilustra un diagrama esquematico de un algoritmo de estimacion de ITD en conformidad con una forma de puesta en practica;
La Figura 3 ilustra un diagrama esquematico de un algoritmo de seleccion de ITD en conformidad con una forma de puesta en practica;
La Figura 4 ilustra un diagrama de bloques de un codificador de audio parametrico en conformidad con una forma de puesta en practica;
La Figura 5 ilustra un diagrama de bloques de un decodificador de audio parametrico en conformidad con una forma de puesta en practica;
La Figura 6 ilustra un diagrama de bloques de un codificador y de un decodificador de audio estereo parametrico en conformidad con una forma de puesta en practica; y
La Figura 7 ilustra un diagrama esquematico que representa los principios de las diferencias temporales inter- aurales.
DESCRIPCION DETALLADA DE LAS FORMAS DE REALIZACION DE LA INVENCION
La Figura 1 ilustra un diagrama esquematico de un metodo para generar un parametro de codificacion para una senal de canal de audio en conformidad con una forma de puesta en practica la invencion.
El metodo 100 xi es para determinar el parametro de codificacion ITD para una senal de canal de audio xi de entre una pluralidad de xi, X2 de una senal de audio multicanal. Cada senal de canal de audio xi, X2 tiene valores de senales de canal de audio xi[n], x2[n]. La Figura 1 ilustra el caso estereo en donde la pluralidad de senales de canal de audio comprende un canal de audio izquierdo xi y un canal de audio derecho x2. El metodo 100 comprende:
determinar 101 una transformada de frecuencias xi[k] de los valores de senal de canal de audio xi[n] de la senal de canal de audio xi;
determinar 103 una transformada de frecuencias x2[k] de valores de senales de audio de referencia x2[n] de una senal de audio de referencia x2 en donde la senal de audio de referencia es otra senal de canal de audio x2 de entre la pluralidad de senales de canal de audio o una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio xi, x2 de entre la pluralidad de senales de canal de audio;
5
10
15
20
25
30
35
40
45
50
55
60
determinar 105 diferencias entre canales ICD[b] para al menos cada sub-banda de frecuencias b de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia entre canales una diferencia de fase IPD[b] o una diferencia temporal ITD[b] entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias b de la diferencia entre canales a la que esta asociada;
determinar 107 una primera media ITDmean_pos sobre la base en valores positivos de las diferencias entre canales ICD[b] y determinar una segunda media ITDmean_neg sobre la base de los valores negativos de las diferencias entre canales ICD[b]; y
determinar 109 el ITD del parametro de codificacion sobre la base de la primera media y de la segunda media.
En una forma de puesta en practica, la parte de senal de banda limitada de la senal de canal de audio y la parte de senal de banda limitada de la senal de audio de referencia se refieren a la respectiva sub-banda y sus contenedores de frecuencias en el dominio de la frecuencia.
En una forma de puesta en practica, la parte de senal de banda limitada de la senal de canal de audio y la parte de senal de banda limitada de la senal de audio de referencia se refieren a la respectiva senal transformada en el tiempo de la sub-banda en el dominio temporal.
La parte de senal de banda limitada puede ser una parte de senal en el dominio de la frecuencia. Sin embargo, la parte de senal de banda limitada puede ser una parte de senal en el dominio temporal. En este caso, un dispositivo de transformacion de dominio de la frecuencia-dominio temporal tal como un dispositivo basado en la transformada Fourier inversa puede utilizarse a este respecto. En el dominio temporal, una media de retardo de partes de la senal de banda limitada pueden realizarse a este respecto estando en correspondencia con una media de fase en el dominio de las frecuencias. Para el procesamiento de senales, se puede emplear una tecnologfa denominada windowing, p.ej., Hamming windowing, para establecer ventanas para la parte de senal en el dominio temporal.
La parte de senal de banda limitada puede extenderse sobre solamente un contenedor de frecuencias o sobre mas de uno contenedores de frecuencias.
En una forma de realizacion, el metodo 100 se procesa como sigue:
En una primera etapa correspondiente a 101 y 103 en la Figura 1, se aplica una transformada de tiempo-frecuencia en el canal de entrada del dominio temporal, p.ej., el primer canal de entrada X1 y el canal de referencia del dominio temporal, p.ej., el segundo canal de entrada X2. En caso de estereo, estos son los canales izquierdo y derecho. En una forma de realizacion preferida, la transformada de tiempo-frecuencia es una Transformada de Fourier Rapida (FFT) o una Transformada de Fourier a Corto Plazo (STFT). En una forma de realizacion alternativa, la transformada de tiempo-frecuencia es un banco de filtros de modulacion cosenoidal en un banco de filtros completo.
En una segunda etapa que corresponde a 105 en la Figura 1, se calcula un espectro cruzado para cada contenedor de frecuencias [b] de la FFT como:
imagen2
en donde c[b] es el espectro cruzado de contenedor de frecuencias [b] y X1 [b] y X2 [b] son los coeficientes de la transformada FFT de los dos canales. Un asterisco * indica una conjugacion completa. Para este caso, una sub- banda b corresponde directamente a un contenedor de frecuencias [k], un contenedor de frecuencias [b] y [k] representan exactamente el mismo contenedor de frecuencias.
Como alternativa, el espectro cruzado se calcula por sub-banda [k] como:
imagen3
en donde c[b] es el espectro de la sub-banda [b] y X1 [k] y X2 [k] son los coeficientes de la transformada FFT de los dos canales, a modo de ejemplo, los canales izquierdo y derecho en caso de estereo. El asterisco * indica una conjugacion completa. kb es el contenedor inicial de la sub-banda [b].
El espectro cruzado puede ser una version suavizada, que se calcula aplicando la ecuacion siguiente:
imagen4
5
10
15
20
25
30
35
40
45
50
en donde SMW1 es el factor de alisado. i es el mdice de tramas.
Las diferencias de fase entre canales (IPDs) se calculan por sub-banda sobre la base del espectro cruzado como:
imagen5
en donde la operacion ^ es el operador de argumento para calcular el angulo de c[b], Conviene senalar que en caso de suavizado del espectro cruzado, csm[b, i] se utiliza para el calculo de IPD como:
imagen6
En una tercera etapa que corresponde a 105 en la Figura 1, los valores de ITDs de cada contenedor de frecuencias (o sub-banda) se calculan sobre la base de IPDs.
ITD[b] = —^]N
en donde N es el numero de contenedores de FFT.
En una cuarta etapa, que corresponde a 107 en la Figura 1, se realiza el conteo de los valores positivos y negativos de ITD. La media y la desviacion estandar de ITD positivos y negativos se basa en el signo de IPD como sigue:
imagen7
en donde Nbpos y Nbneg son el numero de ITD positivos y negativos, respectivamente. M es el numero total de ITDs que se extraen. Conviene senalar que como alternativa, si ITD es igual a 0, puede contarse en un valor de IPD negativo o no contarse en ninguna de las medias.
En una quinta etapa que corresponde a 109 en la Figura 1, ITD se selecciona a partir de valores de ITD positivos y negativos sobre la base de la media y de la desviacion estandar. El algoritmo de seleccion se ilustra en la Figura 3.
La Figura 2 ilustra un diagrama esquematico de un algoritmo de estimacion de ITD 200 en conformidad con una forma de puesta en practica de la invencion.
En una primera etapa 201, que corresponde a 101 en la Figura 1, se aplica una transformada de tiempo-frecuencia en el canal de entrada del dominio temporal, p.ej., el primer canal de entrada x-i. En una forma de realizacion preferida, la transformada de tiempo-frecuencia es una Transformada de Fourier Rapida (FFT) o una Transformada de Fourier a Corto Plazo (STFT). En una forma de realizacion alternativa, la transformada de tiempo-frecuencia es un banco de filtros con modulacion cosenoidal o un banco de filtros complejos.
En una segunda etapa 203 que corresponde a 103 en la Figura 1, se aplica una transformada de tiempo-frecuencia en el canal de referencia del dominio temporal, p.ej., el segundo canal de entrada X2. En una forma de realizacion preferida, la transformada de tiempo-frecuencia es una Transformada de Fourier Rapida (FFT) o una Transformada de Fourier a Corto Plazo (STFT). En una forma de realizacion alternativa, la transformada de tiempo-frecuencia es un banco de filtros con modulacion cosenoidal o un banco de filtros complejos.
En una tercera etapa posterior 205 que corresponde a 105 en la Figura 1, se calcula una correlacion cruzada de cada contenedor de frecuencias lo que se realiza en un numero limitado de contenedores de frecuencias o sub- bandas de frecuencias. Un espectro cruzado se calcula a partir de la correlacion cruzada para cada contenedor de frecuencia [b] de la FFT como:
5
10
15
20
25
30
35
40
45
50
55
imagen8
en donde c[b] es el espectro cruzado de un contenedor de frecuencias [b] y Xi [b] y X2 [b] son los coeficientes de FFT de los dos canales. El asterisco * indica una conjugacion completa. Para este caso, una sub-banda b corresponde directamente a un contenedor de frecuencias [k], representando el contenedor de frecuencias [b] y [k] exactamente el mismo contenedor de frecuencias.
Como alternativa, se calcula el espectro cruzado por sub-banda [k] como:
imagen9
en donde c[b] es el espectro cruzado de la sub-banda [b] y Xi [k] y X2 [k] son los coeficientes de FFT de los dos canales, a modo de ejemplo, el canal izquierdo y derecho en caso de estereo. El asterisco * indica una conjugacion completa. kb es el contenedor inicial de la sub-banda [b].
El espectro cruzado puede ser una version suavizada, que se calcula mediante la ecuacion siguiente.
imagen10
en donde SMW1 es el factor de alisado, i es el mdice de tramas.
Las diferencias de fase entre canales (IPDs) se calculan por sub-bandas sobre la base de espectro cruzado como:
IPD[b] = zc[b]
en donde la operacion < es el operador de argumento para calcular el angulo de c[b]. Conviene senalar que en el caso de suavizado del espectro cruzado, csm[b, i] se utiliza para el calculo de IPD como:
IPD[b] = ZcsJb,i]
En una cuarta etapa posterior 207 que corresponde a 105 en la Figura 1, se calculan los valores de ITDs de cada contenedor de frecuencias (o sub-banda) sobre la base de IPDs.
JTD[b] = -P-P[b]-
Tib
en donde N es el numero del contenedor de FFT.
En una quinta etapa posterior 209 que corresponde a 107 en la Figura 1, el valor de ITD calculado de la etapa 207 se comprueba como siendo mayor que cero. Si la respuesta es afirmativa, se procesa la etapa 211 y si la respuesta es negativa, se procesa la etapa 213.
En la etapa 211 despues de que la etapa 209 se calcula una suma sobre un numero de M valores del contenedor (o sub-banda) de frecuencias de ITD, p.ej., en conformidad con la expresion “NbJtd_pos++,,Itd_sum_pos+=ITD”.
En la etapa 213 despues de la etapa 209 se calcula una suma sobre un numero de M valores del contenedor (o sub- banda) de frecuencias de ITD, p.ej., en conformidad con “Nb_itd_neg++,, Itd_sum_neg+=ITD”.
En la etapa 215 despues de la etapa 211, se calcula una media de ITDs positivos en conformidad con la ecuacion
ITDmean pos = en donde ITD(i) > 0
en donde Nbpos es el numero de valores de ITD positivos y M es el numero total de ITDs que se extraen.
En la etapa opcional 219 despues de la etapa 215, se calcula una desviacion estandar de valores ITDs positivos en conformidad con la ecuacion
5
10
15
20
25
30
35
40
45
50
55
imagen11
En la etapa 217 despues de la etapa 213, se calcula una media de valores ITDs negativos en conformidad con la ecuacion
ITDme„ neg = ^ donde ITD(i) < 0
en donde Nbneg es el numero de valores de ITD negativos y M es el numero total de valores ITDs que son extrafdos.
En la etapa opcional 221 despues de la etapa 217, se calcula una desviacion estandar de los valores ITDs negativos en conformidad con la ecuacion
imagen12
En una ultima etapa 223 que corresponde a 109 en la Figura 1 el valor de ITD se selecciona a partir de los valores de ITD positivos y negativos sobre la base de la media y de forma opcional, sobre la base de la desviacion estandar. El algoritmo seleccionado es segun se ilustra en la Figura 3.
Este metodo 200 puede aplicarse a una estimacion de ITD de banda completa, en cuyo caso, las sub-bandas b cubren la gama completa de frecuencias (hasta B). Las sub-bandas b se pueden elegir para seguir una descomposicion perceptual del espectro como, a modo de ejemplo, las bandas cnticas o la denominada Ancho de banda Rectangular Equivalente (ERB). En una forma de realizacion alternativa, un valor de ITD de banda completa se puede estimar sobre la base de la sub-banda b mas pertinente. Y lo que es mas importante, debe entenderse que las sub-bandas que son perceptualmente pertinentes para la percepcion de ITD (a modo de ejemplo, entre 200 Hz y 1500 Hz).
La ventaja de la estimacion de los valores de ITD en conformidad con el primero o segundo aspecto de la idea inventiva es que, si existen dos altavoces en los lados izquierdo y derecho del oyente, respectivamente y si estan funcionando al mismo tiempo, la media simple de todos los valores de ITD proporcionara un valor proximo a cero, lo que no es correcto. Puesto que el valor de ITD cero significa que el altavoz esta simplemente en frente del oyente. Aun cuando la media de todos los valores de ITD no sea cero, se estrechara la imagen en estereo. Tambien en esta realizacion, a modo de ejemplo, el metodo 200 seleccionara un valor ITD de entre las medias de valores de ITD positivos y negativos, sobre la base de la estabilidad del ITD extrafdo, lo que proporciona una mejor estimacion, en terminos de direccion de la fuente del sonido.
La desviacion estandar es una forma de medir la estabilidad de los parametros. Si la desviacion estandar es pequena, los parametros estimados son mas estables y fiables. La finalidad de utilizar la desviacion estandar de valores de ITD positivos y negativos es constatar cual es mas fiable. Y seleccionar el valor fiable como el ITD de salida final. Otro parametro similar, tal como diferencia de extremismo puede utilizarse tambien para comprobar la estabilidad del ITD. Por lo tanto, la desviacion estandar es opcional en este caso.
En otra forma de puesta en practica, el conteo positivo y negativo se realiza directamente en los IPDs, puesto que existe una relacion directa entre IPD e ITD. El proceso de decision se realiza entonces directamente sobre las medias de IPD negativas y positivas.
El metodo 100, 200 segun se describe en las Figuras 1 y 2 se puede aplicar en el codificador de la extension en estero de ITU-T G.722, ITU-T G.722 Anexo B, G.711.1 y/o G.711.1 Anexo D. Ademas, el metodo descrito puede aplicarse tambien para el codificador de voz y de audio para aplicacion movil segun se define en el codec de 3GPP EVS (Servicios de Voz Mejorados).
La Figura 3 ilustra un diagrama esquematico de un algoritmo de seleccion de ITD en conformidad con una forma de puesta en practica de la invencion.
En una primera etapa 301, el numero Nbpos de valores positivos de ITD se comprueba con respecto al numero Nbneg de valores negativos de ITD. Si Nbpos es mayor que Nbneg, se realiza la etapa 303; si Nbpos no es mayor que Nbneg se realiza la etapa 305.
5
10
15
20
25
30
35
40
45
50
55
60
65
En la etapa 303, la desviacion estandar ITDstd_pos de valores de ITDs positivos se comprueba con respecto a la desviacion estandar ITDstd_neg de ITDs negativos y el numero Nbpos de valores de ITD positivos se comprueba con respecto al numero Nbneg de valores negativos de ITD multiplicado por un primer factor A, p.ej., en conformidad con: (ITDstd_pos < ITDstd_neg) || (Nbpos > _ A Nbneg). Si ITDstd_pos < ITDstd_neg o Nbpos > A Nbneg, ITD se selecciona como la media de valores positivos de ITD en la etapa 307. De no ser asf, la relacion entre los valores de ITD positivos y negativos se comprobara, ademas, en la etapa 309.
En la etapa 309, la desviacion estandar ITDstd_neg de valores negativos de ITD se comprueba con respecto a la desviacion estandar ITDstd_pos de valores positivos de ITD multiplicados por un segundo factor B, p.ej., en conformidad con: (ITDstd_neg < B*ITDstd_pos). Si ITDstd_neg < B*ITDstd_pos, el valor opuesto de la media de ITD negativa se seleccionara como ITD de salida en la etapa 315. De no ser asf, el valor iTd de la trama anterior (Pre_itd) se comprueba en la etapa 317.
En la etapa 317, el valor ITD de la trama anterior se comprueba que es mayor que cero, p.ej., en conformidad con “Pre_itd > 0”. Si Pre_itd > 0, el valor ITD de salida se selecciona como la media de valores ITD positivos en la etapa 323, y de no ser asf, el valor ITD de salida es el valor opuesto de la media de ITD negativa en la etapa 325.
En la etapa 305, la desviacion estandar ITDstd_neg de valores ITD negativos se comprueba con respecto a la desviacion estandar ITDstd_pos de valores ITDs negativos y el numero Nbneg de valores de ITDs negativos se comprueba con respecto al numero Nbpos de valores de ITDs positivos multiplicado por un primer factor A, p.ej., en conformidad con (ITDstd_neg < ITDstd_pos) || (Nbneg > = A*Nbpos). Si ITDstd_neg < ITDstd_pos o Nbneg > A*Nbpos se selecciona ITD como la media de los valores de ITDs negativos en la etapa 311. De no ser asf, la relacion entre los valores de ITD negativos y positivos se comprueba, ademas, en la etapa 313.
En la etapa 313, la desviacion estandar ITDstd_pos de valores de ITDs positivos se comprueba con respecto a la desviacion estandar ITDstd_neg de valores de ITDs negativos multiplicado por un segundo factor B, p.ej., en conformidad con: (ITDstd_pos < B*ITDstd_neg). Si ITDstd_pos < B*ITDstd_neg. El valor opuesto de la media de ITD positiva se selecciona como ITD de salida en la etapa 319. De no ser asf, el valor ITD de la trama anterior (Pre_itd) se comprueba en la etapa 321.
En la etapa 321, el valor ITD de la trama anterior se comprueba que es mayor que cero, p.ej., en conformidad con “Pre_itd > 0”. Si Pre_itd > 0, el valor ITD de salida se selecciona como la media de los valores de ITDs negativos en la etapa 327; de no ser asf, el ITD de salida es el valor opuesto de la media de ITD positiva en la etapa 329.
La Figura 4 ilustra un diagrama de bloques de un codificador de audio parametrico 400 en conformidad con una forma de puesta en practica. El codificador de audio parametrica 400 recibe una senal de audio multicanal 401 como senal de entrada y proporciona un flujo de bits como senal de salida 403. El codificador de audio parametrica 400 comprende un generador de parametros 405 acoplado a la senal de audio multicanal 401 para generar un parametro de codificacion 415, un generador de senales de mezcla descendente 407 acoplado a la senal de audio multicanal 401 para generar una senal de mezcla descendente 411 o una senal suma, un codificador de audio 409 acoplado al generador de senales de mezcla descendente 407 para codificar la senal de mezcla descendente 411 para proporcionar una senal de audio codificada 413 y un combinador 417, p.ej., un dispositivo formador de pluralidades de bits acoplado al generador de parametros 405 y el codificador de audio 409 para formar un flujo de bits 403 a partir del parametro de codificacion 415 y de la senal codificada 413.
El codificador de audio parametrico 400 pone en practica un sistema de codificacion de audio para senales de audio multicanal y estereo, que solamente transmite un canal de audio unico, p.ej., la representacion de mezcla descendente del canal de audio de entrada junto con los parametros adicionales que describen las “diferentes perceptualmente importante- entre los canales de audio x-i, X2, ..., xm. El sistema de codificacion esta en conformidad con la codificacion de pistas binaurales (BCC) porque las pistas binaurales desempenan una funcion importante en dicho sistema. Segun se indica en la Figura, los canales de audio de entrada X1, X2, ..., xm son objeto de mezcla descendente a un canal de audio unico 411, tambien indicado como la senal suma. Como “diferencias perceptualmente importantes” entre los canales de audio X1, X2, ..., xm, el parametro de codificacion 415, p.ej., una diferencia temporal entre canales (ICTD), una diferencia de niveles entre canales (ICLD) y/o una coherencia entre canales (ICC) se estima como una funcion de la frecuencia y del tiempo y se transmite como informacion lateral al decodificador 500 segun se describe en la Figura 5.
El generador de parametros 405 que pone en practica BCC procesa la senal de audio multicanal 401 con una determina resolucion en tiempo y frecuencia. La resolucion en frecuencia utilizada esta motivada en gran medida por la resolucion de frecuencia del sistema de auditorio. La psico-acustica sugiere que la percepcion espacial este basada muy probablemente en una representacion de banda cntica de la senal de acustica. Esta resolucion de la frecuencia se considera utilizando un banco de filtros invertibles, con sub-bandas con ancho de banda iguales o proporcionales al ancho de banda cntico del sistema de auditorio. Es importante que la senal suma 411 transmitida contenga todos los componentes de senal de la senal de audio multicanal 401. El objetivo es que cada componente de senal sea objeto de mantenimiento completo. La adicion simple de los canales de entrada de audio x1, x2, ..., xm de la senal de audio multicanal 401 suele dar lugar a la amplificacion o atenuacion de componentes de la senal.
5
10
15
20
25
30
35
40
45
50
55
60
65
Dicho de otro modo, la potencia de los componentes de senales en la suma “simple” suele ser mayor o menor que la suma de la potencia del componente de senal correspondiente de cada canal x-i, x2, ..., xm. Por lo tanto, una tecnica de mezcla descendente se utiliza aplicando el dispositivo de mezcla descendente 407 que ecualiza la senal suma 411 de modo que la potencia de componentes de la senal en la senal suma 411 sea aproximadamente la misma que la potencia correspondiente en todos los canales de audio de entrada x-i, X2, ..., xm de la senal de audio multicanal 401. Los canales de audio de entrada x1, x2, ..., xm se descomponen en varias sub-bandas. Una de dichas sub- bandas se indica por x1[b] (conviene senalar que para simplicidad notacional no se utiliza ningun mdice de sub- banda). Un procesamiento similar se aplica independientemente a todas las sub-bandas, normalmente las senales de sub-bandas se muestran en forma descendente. Las senales de cada sub-banda de cada canal de entrada se anaden y luego se multiplican con un factor de normalizacion de potencia.
Dada la senal suma 411, el generador de parametros 405 sintetiza una senal de audio estereo o multicanal 415 tal ICTD ICLD y/o ICC que se aproximan a las pistas correspondientes de la senal de audio multicanal original 401.
Cuando se consideran las respuestas de impulsos de sala binaural (BRIRs) de una sola fuente, existe una relacion entre la anchura del evento de auditorio y la envolvente del oyente y el IC estimado en las partes iniciales y finales de las respuestas de impulsos de sala binaural. Sin embargo, la relacion entre IC o ICC y estas propiedades para senales generales y no solamente las BRIRs no es simple. Las senales de audio multicanal y de estereo suelen contener una mezcla compleja de senales origen simultaneamente activas superpuestas por componentes de senal reflejadas que dan lugar al registro en espacios cerrados o anadidos por el tecnico de grabacion para crear artificialmente una impresion espacial. Diferentes senales origen del sonido y sus reflexiones ocupan diferentes zonas en el plano del tiempo-frecuencia. Lo que antecede se refleja por ICTD, ICLD e ICC que varian como una funcion del tiempo y de la frecuencia. En este caso, la relacion entre los valores instantaneos de ICTD, ICLD e ICC y las directrices de los eventos de auditorio y la impresion espacial no tiene caracter obvio. La estrategia del generador de parametros 405 es sintetizar a ciegas estas pistas de modo que se aproximan a las pistas correspondientes de la senal de audio original.
En una forma de puesta en practica, el codificador de audio parametrica 400 utiliza bancos de filtros con sub-bandas de ancho de banda iguales a dos veces el ancho de banda rectangular equivalente. Un oyente informal declaro que la calidad de audio de BCC no mejoro notablemente cuando se eligio una mas alta resolucion de frecuencia. Una mas baja resolucion de frecuencia es favorable puesto que da lugar a menos valores de ICTD, ICLD e ICC que necesitan transmitirse al decodificador y de este modo, en una tasa binaria mas baja. Con respeto a la resolucion temporal, ICTD, ICLD e ICC se consideran en intervalos temporales periodicos. En una forma de puesta en practica, ICTD, ICLD e ICC se consideran sobre cada 4 a 16 ms. Conviene senalar que a no ser que las pistas se consideren a intervalos temporales muy cortos, el efecto de prioridad no esta directamente considerado.
La diferencia frecuentemente conseguida perceptualmente de pequena magnitud entre la senal de referencia y la senal sintetizada implica que las pistas relacionadas con una amplia gama de atributos de imagenes espaciales de auditorio se consideran implfcitamente sintetizando ICTD, ICLD e ICC en intervalos temporales periodicos. La tasa binaria requerida para la transmision de estas pistas espaciales es solamente de unos pocos kb/s y por ello, el codificador de audio parametrica 400 es capaz de transmitir senales de audio estereo y de multicanal en tasas binarias proximas a lo que se requiere para un canal de audio unico. Las Figuras 1 y 2 ilustran un metodo en el que se estima ICTD como el parametro de codificacion 415.
El codificador de audio parametrico 400 comprende el generador de senales de mezcla descendente 407 para la superposicion de al menos dos de las senales de canal de audio de la senal de audio multicanal 401 para obtener la senal de mezcla descendente 411, el codificador de audio 409, en particular, un codificador monoaural, para codificar la senal de mezcla descendente 411 para obtener la senal de audio codificada 413 y el combinador 417 para combinar la senal de audio codificada 413 con un parametro de codificacion correspondiente 415.
El codificador de audio parametrico 400 genera el parametro de codificacion 415 para una senal de canal de audio de la pluralidad de senales de canal de audio indicadas como x1, x2, ..., xm de la senal de audio multicanal 401. Cada una de las senales de canal de audio x1, x2, ..., xm puede ser una senal digital que comprende valores de senal de canal de audio digital indicado como x1[n], x2[n], ..., xM[n].
Una senal de canal de audio, a modo de ejemplo, para la que el codificador de audio parametrico 400 genera el parametro de codificacion 415 es la primera senal de canal de audio x1 con valores de senal x1[n]. El generador de parametros 405 determina el ITD del parametro de codificacion a partir de los valores de senales de canal de audio x1[n] de la primera senal de audio x1 y a partir de los valores de senales de audio de referencia x2[n] de una senal de audio de referencia x2.
Una senal de canal de audio que se utiliza como una senal de audio de referencia es la segunda senal de canal de audio x2, a modo de ejemplo. De forma similar, cualquiera otra de las senales de canal de audio x1, x2, ..., xm puede servir como una senal de audio de referencia. En conformidad con un primer aspecto, la senal de audio de referencia es otra senal de canal de audio de las senales de canal de audio que no son iguales a la senal de canal de audio x1 para la que se genera el parametro de codificacion 415. En conformidad con un segundo aspecto, la
5
10
15
20
25
30
35
40
45
50
55
60
senal de audio de referencia es una senal de audio de mezcla descendente derivada a partir de al menos dos senales de canal de audio de entre la pluralidad de senales de audio multicanal 401, p.ej., derivadas de la primera senal de canal de audio x1 y de la segunda senal de canal de audio x2. En una forma de puesta en practica, la senal de audio de referencia es la senal de mezcla descendente 411, tambien denominada senal suma generada por el dispositivo de mezcla descendente 407. En una forma de puesta en practica, la senal de audio de referencia es la senal codificada 413 proporcionada por el codificador 409.
Una senal de audio de referencia, a modo de ejemplo, utilizada por el generador de parametros 405, es la segunda senal de canal de audio X2 con valores de senal X2[n].
El generador de parametros 405 determina una transformada de frecuencia de los valores de senal de canal de audio x-i[n] de la senal de canal de audio X1 y una transformada de frecuencias de los valores de la senal de audio de referencia X2[n] de la senal de audio de referencia x-i. La senal de audio de referencia es otra senal de canal de audio X2 de la pluralidad de senales de canal de audio o una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio X1, X2 de la pluralidad de senales de canal de audio. El generador de parametros 405 determina una diferencia entre canales para al menos cada sub-bandas de frecuencias de un subconjunto de sub- bandas de frecuencias. Cada diferencia entre canales indica una diferencia de fase IPD[b] o una diferencia de tiempo ITD[b] entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio referencia en la respectiva sub-banda de frecuencias a la que esta asociada la diferencia entre canales.
El generador de parametros 405 determina una primera media ITDmean_pos sobre la base de los valores positivos de las diferencias entre canales IPD[b] ITD[b] y una segunda media ITDmean_neg sobre la base de los valores negativos de las diferencias entre canales IPD[b] ITD[b]. El generador de parametros 405 determina el parametro de codificacion ITD sobre la base de la primera media y de la segunda media.
Una diferencia de fase entre canales (ICPD) es una diferencia de fase media entre un par de senales. Una diferencia de nivel entre canales (ICLD) es la misma que una diferencia de niveles inter-aurales (ILD), esto es, una diferencia de niveles entre las senales de entrada de los odios izquierdo y derecho, pero definida mas en general entre cualquier par de senalizaciones, p.ej., un par de senales de altavoces, un par de senales de entrada en auriculares, etc. Una coherencia entre canales o una correlacion entre canales es lo mismo que una coherencia inter-aural (IC), esto es, el grado de similitud entre las senales de entrada en los ofdos izquierdo y derecho, pero se define mas en general entre cualquier parte de senales, p.ej., par de senales de altavoces, par de senales de entrada en auriculares, etc. Una diferencia de tiempo entre canales (ICTD) es la misma que una diferencia de tiempo inter-aural (ITD), a veces tambien referida como retardo inter-aural, esto es, una diferencia temporal entre las senales de entrada en los ofdos izquierdo y derecho, pero definida mas en general entre cualquier par de senales, p.ej., par de senales en altavoces, par de senales en la entrada de auriculares, etc. Las diferencias de niveles entre canales de sub-bandas, las diferencias de fase entre canales de sub-bandas, las coherencias entre canales de sub-bandas y las diferencias de intensidad intercanal de sub-bandas se relacionan con los parametros anteriormente especificados con respecto al ancho de banda de sub-banda.
En una primera etapa, el generador de parametros 405 aplicada una transformada de tiempo-frecuencia en el canal de entrada en el dominio temporal, p.ej., el primer canal de entrada X1 y el canal de referencia en el dominio temporal p.e., el segundo canal de entrada X2. En el caso de reproduccion en estereo, estos son los canales izquierdo y derecho. En una forma de realizacion preferida, la transformada de tiempo-frecuencia es una Transformada de Fourier Rapida (FFT) o una Transformada de Fourier a Corto Plazo (STFT). En una forma de realizacion alternativa, la transformada de tiempo-frecuencia es un banco de filtros de modulacion cosenoidal o un banco de filtros complejos.
En una segunda etapa, el generador de parametros 405 calcula un espectro cruzado para cada contenedor de frecuencias [b] de la transformada FFT como:
imagen13
en donde c[b] es el espectro cruzado de un contenedor de frecuencias [b] y X1 [b] y X2 [b] son los coeficientes de FFT de los dos canales. El asterisco * indica una conjugacion completa. Para este caso, una sub-banda b corresponde directamente a un contenedor de frecuencias [k], representando el contenedor de frecuencias [b] y [k] exactamente el mismo contenedor de frecuencias.
Como alternativa, el generador de parametros 405 calcula el espectro cruzado por sub-banda [k] como:
imagen14
5
10
15
20
25
30
35
40
en donde c[b] es el espectro cruzado de la sub-banda [b] y X1 [k] y X2 [k] son los coeficientes de la transformada FFT de los dos canales, a modo de ejemplo, el canal izquierdo y derecho en caso de reproduccion en estereo. El asterisco * indica una conjugacion completa. kb es el contenedor inicial de la sub-banda [b].
El espectro cruzado puede ser una version suavizada, que se calcula mediante la ecuacion siguiente.
imagen15
en donde SMW1 es el factor de alisado, i es el mdice de tramas.
Las diferencias de fase entre canales (IPDs) se calculan por sub-bandas sobre la base de espectro cruzado como:
imagen16
en donde la operacion < es el operador de argumento para calcular el angulo de c[b]. Conviene senalar que en el caso de suavizado del espectro cruzado, csm[b, i] se utiliza para el calculo de IPD como:
imagen17
En la tercera etapa, el generador de parametros 405 calcula los valores de ITDs de cada contenedor de frecuencias (o sub-banda) sobre la base de IPDs.
ITD [b] = IPD[blN
TID
en donde N es el numero del contenedor de la transformada FFT.
En la cuarta etapa, el generador de parametros 405 realiza el conteo de los valores positivos y negativos de ITD. La media y la desviacion estandar de valores de ITD positivos y negativos se basan en el signo de ITD como sigue:
imagen18
> 0
< 0
en donde Nbpos y Nbneg son los numeros de ITD positivos y negativos respectivamente. M es el numero total de ITDs que son objeto de extraccion.
En la quinta etapa, el generador de parametros 405 selecciona ITD de entre los valores de ITDs positivos y negativos sobre la base de la media y de la desviacion estandar. El algoritmo de seleccion se representa en la Figura 3.
En una forma de puesta en practica, el generador de parametros 405 comprende:
un dispositivo de transformacion de frecuencia tal como un dispositivo de transformada de Fourier, para determinar una transformada de frecuencia (X1 [k]) de los valores de senal de canal de audio (xi[n]) de la senal de canal de audio (xi) y para determinar una transformada de frecuencias (X2 [k]) de los valores de la senal de audio de referencia (X2 [n]) de una senal de audio de referencia (X2), en donde la senal de audio de referencia es otra senal
5
10
15
20
25
30
35
40
45
50
55
60
65
de canal de audio (X2) de la pluralidad de senales de canal de audio (xi, X2 ) o una senal de audio de mezcla descendente derivada a partir de al menos dos senales de canal de audio (xi, X2) de la pluralidad de senales de canal de audio;
un dispositivo de determinacion de diferencias entre canales para determinar las diferencias entre canales (IPD[b], ITD[b]) para al menos cada sub-banda de frecuencias (b) de un subconjunto de sub-bandas de frecuencias, indicando cada diferencia entre canales una diferencia de fase (IPD[b]) o diferencia temporal (ITD[b]) entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la respectiva sub-banda de frecuencias (b), con la que esta asociada la diferencia entre canales;
un dispositivo de determinacion de medias para determinar una primera media (ITDmean_pos) sobre la base en valores positivos de las diferencias entre canales (IPD[b], ITD[b]) y para determinar una segunda media (ITDmean_neg) basada en los valores negativos de las diferencias entre canales (IPD[b], ITD[b]) y
un dispositivo de determinacion de parametros de codificacion para determinar el parametro de codificacion (ITD) sobre la base de la primera media y de la segunda media.
La Figura 5 ilustra un diagrama de bloques de un decodificador de audio parametrico 500 en conformidad con una forma de puesta en practica. El decodificador de audio parametrico 500 recibe un flujo de bits 503 retransmitido a traves de un canal de comunicaciones como senal de entrada y proporciona una senal de audio multicanal decodificada 501 como senal de salida. El decodificador de audio parametrico 500 comprende un decodificador de flujo de bits 517 acoplado al flujo de bits 503 para decodificar el flujo de bits 503 en un parametro de codificacion 515 y una senal codificada 513, un decodificador 509 acoplado al decodificador de flujo de bits 517 para generar una senal suma 511 a partir de la senal codificada 513, un dispositivo de resolucion de parametros 505 acoplado al decodificador de flujos de bits 517 para la resolucion de un parametro 521 a partir del parametro de codificacion 515 y un sintetizador 505 acoplado al dispositivo de resolucion de parametros 505 y el decodificador 509 para sintetizar la senal de audio multicanal decodificada 501 a partir del parametro 521 y de la senal suma 511.
El decodificador de audio parametrico 500 genera los canales de salida la senal de audio multicanal 501 tal como ICTD, ICLD y/o ICC entre los canales que se aproximan a los de la senal de audio multicanal original. El sistema descrito es capaz de representar senales de audio multicanales en una tasa binaria solamente algo superior a la que se requiere para representar una senal de audio monoaural. Esto es asf porque los valores de ICTD, ICLD e iCc estimados entre un par de canales contienen aproximadamente dos ordenes de magnitud de menos informacion que una forma de onda de audio. No solamente una tasa binaria baja sino tambien el aspecto de la compatibilidad retrospectiva es de interes. La senal suma transmitida corresponde a una conversacion descendente monoaural de la senal estereo o multicanal.
La Figura 6 ilustra un diagrama de bloques de un codificador de audio estereo parametrico 601 y un decodificador 603 en conformidad con una forma de puesta en practica. El codificador de audio estereo parametrico 601 corresponde al codificador de audio parametrico 400 segun se describe con respecto a la Figura 4, pero la senal de audio multicanal 401 es una senal de audio estereo con un canal de audio izquierdo 605 y un canal de audio izquierdo 607.
El codificador de audio estereo parametrico 601 recibe la senal de audio estereo 605, 607 como senal de entrada y proporciona un flujo de bits como senal de salida 609. El codificador de audio estereo parametrico 601 comprende un generador de parametros 611 acoplado a la senal de audio estereo 605, 607 para generar parametros espaciales 613, un generador de senales de mezcla descendente 615 acoplado a la senal de audio estereo 605, 607 para generar una senal de mezcla descendente 617 o senal suma, un codificador monoaural 619 acoplado al generador de senales de mezcla descendente 615 para codificar la senal de mezcla descendente 617 para proporcionar una senal de audio codificada 621 y un combinador de flujos de bits 623 acoplado al generador de parametros 611 y el codificador monoaural 619 para combinar el parametro de codificacion 613 y la senal de audio codificada 621 a un flujo de bits para proporcionar la senal de salida 609. En el generador de parametros 611 los parametros espaciales 613 se extraen y cuantifican antes de que sean multiplexados en el flujo de bits.
El decodificador de audio estereo parametrico 603 recibe el flujo de bits, esto es, la senal de salida 609 del codificador de audio estereo parametrico 601 transmitida a traves de un canal de comunicaciones, como una senal de entrada y proporciona una senal de audio estereo decodificada con el canal izquierdo 625 y el canal derecho 627 como la senal de salida. El decodificador de audio estereo parametrico 603 comprende un decodificador de flujos de bits 629 acoplado al flujo de recibido 609 para decodificar el flujo de bits 609 en parametros de codificacion 631 y una senal codificada 633, un decodificador monoaural 635 acoplado al decodificador de flujos de bits 629 para generar una senal suma 637 a partir de la senal codificada 633, un dispositivo de resolucion de parametros espaciales 639 acoplado al decodificador de flujos de bits 629 para la resolucion de parametros espaciales 641 a partir de los parametros de codificacion 631 y un sintetizador 643 acoplado al dispositivo de resolucion de parametros espaciales 639 y el decodificador monoaural 635 para sintetizar la senal de audio estereo decodificada 625, 627 a partir de los parametros espaciales 641 y la senal suma 637.
5
10
15
20
25
30
35
40
45
50
El procesamiento en el decodificador de audio estereo parametrico 603 es capaz de introducir retardos y modificar el nivel de las senales de audio de forma adaptativa en tiempo y frecuencia para generar los parametros espaciales 631, p.ej., diferencias temporales entre canales (ICTDs) y diferencias de niveles entre canales (ICLDs). Ademas, el decodificador de audio estereo parametrico 603 realiza un filtrado adaptativo de tiempos de forma eficiente para smtesis de coherencia entre canales (ICC). En una forma de puesta en practica, el codificador estereo parametrico utiliza un banco de filtros basado en la transformada de Fourier (STFT) para una puesta en practica eficiente de los sistemas de codificacion de pistas binaurales (BCC) con baja complejidad de calculo informatico. El procesamiento en el codificador de audio estereo parametrico 601 tiene una baja complejidad de calculo informatico y un bajo retardo, lo que hace la codificacion de audio estereo parametrica adecuada para una puesta en practica asequible en microprocesadores o procesadores de senales digitales para aplicaciones en tiempo real.
El generador de parametros 611 ilustrado en la Figura 6 es funcionalmente el mismo que el generador de parametros correspondiente 405 descrito con respecto a la Figura 4, con la excepcion de que la cuantizacion y codificacion de las pistas espaciales ha sido anadida. La senal suma 617 esta codificada con un codificador de audio monoaural convencional 619. En una forma de puesta en practica, el codificador de audio estereo parametrico 601 utiliza una transformada de tiempo-frecuencia basada en STFT para transformar la senal de canal de audio estereo 605, 607 en el dominio de la frecuencia. La transformada STFT aplica una transformada de Fourier discreta (DFT) a partes dispuestas en ventanas operativas de una senal de entrada x(n). Una trama de senal de N muestras se multiplica por una antena de longitud W antes de que se aplique una transformada DFT de N puntos. Las ventanas adyacentes se solapan y se desplazan en W/2 muestras. La ventana se selecciona de modo que las ventanas solapantes se anadan hasta un valor constante de 1. Por lo tanto, para la transformada inversa no hay necesidad de una disposicion en ventana adicional. Una transformada DFT inversa simple de tamano N con avance temporal de tramas sucesivas de W/2 muestras se utiliza en el decodificador 603. Si no se modifica el espectro, se consigue una reconstruccion perfecta mediante solapamiento/adicion.
Puesto que la resolucion espectral uniforme de la transformada STFT no esta bien adaptada a la percepcion humana, los coeficientes espectrales uniformemente espaciados a la salida de la transformada STFT se agrupan en B particiones no solapantes con ancho de banda mejor adaptados a la percepcion. Una particion conceptual corresponde a una “sub-banda” en conformidad con la descripcion con respecto a la Figura 4. En una forma de puesta en practica alternativa, el codificador de audio estereo parametrico 601 utiliza un banco de filtros no uniforme para transformar la senal de canal de audio estereo 605, 607 en el dominio de la frecuencia.
En una forma de presentacion practica, el dispositivo de mezcla descendente 315 determina los coeficientes espectrales de una particion b o de una sub-banda b de la senal suma ecualiza Sm(k) 617 mediante
C
Sm(k) = eb(k)Y,Xc,m(k),
e=l
en donde Xc,m(k) son los espectros de los canales de audio de entrada 605, 607 y eb(k) es un factor de ganancia calculado como
imagen19
con estimaciones de potencias de particiones;
Pic, Ak)
P&b (&)
imagen20
Para impedir la presencia de artefactos que resultan de grandes factores de ganancia cuando la atenuacion de la suma de las senales de sub-bandas es importante, los factores de ganancia eb(k) estan limitados a 6 DB, esto es, eb(k) <2.
A partir de lo que antecede sera evidente para los expertos en esta tecnica que se proporciona una diversidad de
metodos, sistemas, programas informaticos en soportes de registro y dispositivos similares.
La presente invencion soporta tambien un producto de programa informatico que incluye un codigo ejecutable por ordenador o instrucciones ejecutables por ordenador que, cuando se ejecutan, hacen que al menos un ordenador 5 ejecute las etapas de realizacion y calculo aqrn descritas. La presente invencion soporta tambien un sistema configurado para ejecutar las etapas de realizacion y calculo aqrn descritas.
Numerosas alternativas, modificaciones y variaciones seran evidentes para los expertos en esta tecnica considerando las ensenanzas anteriores. Por supuesto, los expertos en esta tecnica reconocen facilmente que 10 existen numerosas aplicaciones de la invencion mas alla de las aqrn descritas. Aunque la presente invencion ha sido descrita con referencia a una o mas formas de realizacion particulares, los expertos en esta tecnica reconocen que se pueden realizar numerosos cambios sin desviarse por ello del alcance de la presente invencion segun se define por las reivindicaciones adjuntas. Por lo tanto, ha de entenderse que dentro del alcance de las reivindicaciones adjuntas, la invencion puede ponerse en practica de otro modo al que fue aqrn concretamente descrito.
15
20

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo (100) para determinar un parametro de codificacion (ITD) para una senal de canal de audio (xi) de una pluralidad de senales de canal de audio (x1, x2) de una sena de audio multicanal, teniendo cada senal de canal de audio (xi, X2) valores de senal de canal de audio (xi[n], X2[n]), cuyo metodo comprende:
    determinar (101) una transformada de frecuencia (xi[k]) de los valores de senal de canal de audio (xi[n]) de la senal de canal de audio (xi);
    determinar (103) una transformada de frecuencia (x2[k]) de los valores de senal de audio de referencia (x2[n]) de una senal de audio de referencia (X2) en donde la senal de audio de referencia es otra senal de canal de audio (X2) de la pluralidad de senales de canal de audio o una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio (xi, X2) de la pluralidad de senales de canal de audio;
    determinar (105) diferencias entre canales (ICD[b]) para al menos cada sub-banda de frecuencia (b) de un subconjunto de sub-bandas de frecuencia, indicando cada diferencia entre canales una diferencia de fase (IPD[b]) o una diferencia de tiempo (ITD[b]) entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la sub-banda de frecuencia respectiva (b) en donde la diferencia entre canales esta asociada;
    determinar (107) una primera media (ITDmean_pos) basada en valores positivos de las diferencias entre canales (ICD[b]) y determinar una segunda media (ITDmean_neg) basada en valores negativos de las diferencias entre canales (ICD[b]); y
    determinar (109) el parametro de codificacion (ITD) sobre la base de la primera media y de la segunda media.
  2. 2. El metodo (100) segun la reivindicacion 1, en donde las diferencias entre canales (ICD[b]) son diferencias de fase entre canales (IPD[b]) o diferencias de tiempo entre canales (ITD[b]).
  3. 3. El metodo (100) segun la reivindicacion 1 o 2, que comprende, ademas:
    determinar una primera desviacion estandar (ITDstd_pos) sobre la base de los valores positivos de las diferencias entre canales (ICD[b]) y determinar una segunda desviacion estandar (ITDstd_neg) sobre la base de valores negativos de las diferencias entre canales (ICD[b]),
    en donde la determinacion del parametro de codificacion (ITD) esta basada en la primera desviacion estandar y en la segunda desviacion estandar.
  4. 4. El metodo (100) segun cualquiera de las reivindicaciones 1 a 3, en donde una sub-banda de frecuencias comprende una o una pluralidad de contenedores de frecuencias (k).
  5. 5. El metodo (100) segun cualquiera de las reivindicaciones 1 a 4, en donde la determinacion de diferencias entre canales (ICD[b]) para al menos cada sub-banda de frecuencias (b) de un subconjunto de sub-bandas de frecuencia comprende:
    determinar un espectro cruzado (c[k], c[b]) como una correlacion cruzada de la transformada de frecuencia (xi[k]) de los valores de senal de canal de audio (xi[n]) y la transformada de frecuencia (x2[k]) de los valores de la senal de audio de referencia (x2[n]); y
    determinar diferencias de fase entre canales (IPD[b]) para cada sub-banda de frecuencias (b) sobre la base del espectro cruzado (c[b]).
  6. 6. El metodo (100) segun la reivindicacion 5, en donde la diferencia de fase entre canales (IPD[b]) de un contenedor de frecuencias (b) o de una sub-banda de frecuencias (b) se determina como un angulo del espectro cruzado (c[b]).
  7. 7. El metodo (100) segun la reivindicacion 5 o 6 que comprende, ademas:
    determinar diferencias de tiempo entre canales (ITD[b]) basadas en las diferencias de fase entre canales (IPD[b]); en donde
    la determinacion de la primera media (ITDmean_pos) esta basada en valores positivos de las diferencias de tiempo entre canales (ITD[b]) y la determinacion de la segunda media (ITDmean_neg) esta basada en valores negativos de las diferencias de tiempo entre canales (ITD[b]).
  8. 8. El metodo (100) segun la reivindicacion 6 o 7, en donde las diferencias de tiempo entre canales (ITD[b]) de una sub-banda de frecuencias (b) se determina como una funcion de la diferencia de fase entre canales IPD[b],
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    dependiendo dicha funcion de un numero (N) de contenedores de frecuencias y del contenedor de frecuencia (k) del mdice de sub-bandas de frecuencias (b).
  9. 9. El metodo (100) segun la reivindicacion 7 o la reivindicacion 8, en donde la determinacion (109) del parametro de codificacion (ITD) comprende:
    contar un primer numero (Nbpos) de diferencias de tiempo entre canales positivas (ITD[b]) y un segundo numero (Nbneg) de diferencias de tiempo entre canales negativas (lTD[b]) sobre el numero (M) de sub-bandas de frecuencias (b) incluidas dentro del subconjunto de sub-bandas de frecuencias (b).
  10. 10. El metodo (100) segun la reivindicacion 9, en donde el parametro de codificacion (ITD) se determina sobre la base de una comparacion entre el primer numero (Nbpos) de diferencias de tiempo entre canales positivas (ITD[b]) y el segundo numero (Nbneg) de diferencias de tiempo entre canales negativas (ITD[b]).
  11. 11. El metodo (100) segun la reivindicacion 10, en donde el parametro de codificacion (ITD) se determina sobre la base de una comparacion entre la primera desviacion estandar (ITDstd_pos) y la segunda desviacion estandar
    (ITDstd_ neg).
  12. 12. El metodo (100) segun la reivindicacion 10 o la reivindicacion 11, en donde el parametro de codificacion (ITD) se determina sobre la base de una comparacion entre el primer numero (Nbpos) de diferencias entre canales positivas (ITD[b]) y el segundo numero (Nbneg) de diferencias de tiempo entre canales negativas (ITD[b]) multiplicado por un primer factor (A).
  13. 13. El metodo (100) segun la reivindicacion 12, en donde el parametro de codificacion (ITD) se determina sobre la base de una comparacion entre la primera desviacion estandar (ITDstd_pos) y la segunda desviacion estandar (ITDstd_neg) multiplicado por un segundo factor (B).
  14. 14. Un codificador de audio multicanal (400, 601) para determinar un parametro de codificacion (ITD) para una senal de canal de audio (x-i) de una pluralidad de senales de canal de audio (x-i, X2) de una senal de audio multicanal, teniendo cada senal de canal de audio (X1, X2) valores de senal de canal de audio (x1[n], X2[n]), cuyo codificador de audio multicanal comprende:
    un dispositivo de transformacion de frecuencia tal como un dispositivo de transformacion de Fourier, para determinar una transformada de frecuencias (x1[k]) de los valores de la senal de canal de audio (x1[n]) de la senal de canal de audio (X1) y para determinar una transformada de frecuencia (x2[k]) de valores de senal de audio de referencia (x2[n]) de una senal de audio de referencia (X2), en donde la senal de audio de referencia es otra senal de canal de audio (X2) de la pluralidad de senales de canal de audio o una senal de audio de mezcla descendente derivada de al menos dos senales de canal de audio (X1, X2) de la pluralidad de senales de canal de audio;
    un dispositivo de determinacion de diferencia entre canales para determinar las diferencias entre canales (IPD[b], ITD[b]) para al menos cada sub-banda de frecuencias (b) de un subconjunto de sub-bandas de frecuencia, indicando cada diferencia entre canales una diferencia de fase (IPD[b]) o una diferencia de tiempo (ITD[b]) entre una parte de senal de banda limitada de la senal de canal de audio y una parte de senal de banda limitada de la senal de audio de referencia en la sub-banda de frecuencias respectiva (b), estando la diferencia entre canales asociada a:
    un dispositivo de determinacion para determinar una primera media (ITDmean_pos) sobre la base de los valores positivos de las diferencias entre canales (IPD[b], ITD[b]) y para determinar una segunda media (ITDmean_neg) basada en valores negativos de las diferencias entre canales (IPD[b], ITD[b]); y
    un dispositivo de determinacion de parametros de codificacion para determinar el parametro de codificacion (ITD) sobre la base de la primera media y de la segunda media.
  15. 15. Un programa informatico que tiene un codigo de programa adaptado para ejecutar el metodo (100) segun una de las reivindicaciones 1 a 13 cuando se ejecuta en un ordenador.
ES12713148.0T 2012-04-05 2012-04-05 Codificador de audio multicanal y método para codificar una señal de audio multicanal Active ES2555579T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056321 WO2013149671A1 (en) 2012-04-05 2012-04-05 Multi-channel audio encoder and method for encoding a multi-channel audio signal

Publications (1)

Publication Number Publication Date
ES2555579T3 true ES2555579T3 (es) 2016-01-05

Family

ID=45937371

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12713148.0T Active ES2555579T3 (es) 2012-04-05 2012-04-05 Codificador de audio multicanal y método para codificar una señal de audio multicanal

Country Status (6)

Country Link
US (1) US9449603B2 (es)
EP (1) EP2834813B1 (es)
JP (1) JP6063555B2 (es)
KR (1) KR101662681B1 (es)
ES (1) ES2555579T3 (es)
WO (1) WO2013149671A1 (es)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CA2987808C (en) 2016-01-22 2020-03-10 Guillaume Fuchs Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling
WO2017153466A1 (en) * 2016-03-09 2017-09-14 Telefonaktiebolaget Lm Ericsson (Publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
CN107452387B (zh) 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
MX2021015219A (es) * 2019-06-12 2022-01-18 Fraunhofer Ges Forschung Ocultacion de la perdida de paquetes para la codificacion de audio espacial basada en dirac.
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
WO2022075908A1 (en) * 2020-10-06 2022-04-14 Dirac Research Ab Hrtf pre-processing for audio applications
WO2022079049A2 (en) * 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
KR20220050641A (ko) * 2020-10-16 2022-04-25 삼성전자주식회사 전자 장치 및 전자 장치에서 무선 오디오 입출력 장치를 이용한 오디오 레코딩 방법
CN116032901A (zh) * 2022-12-30 2023-04-28 北京天兵科技有限公司 多路音频数据信号采编方法、装置、***、介质和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1311426C (zh) 2002-04-10 2007-04-18 皇家飞利浦电子股份有限公司 立体声信号的编码、解码方法和装置及其传输设备
WO2005031704A1 (en) * 2003-09-29 2005-04-07 Koninklijke Philips Electronics N.V. Encoding audio signals
JP4950040B2 (ja) 2004-06-21 2012-06-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネルオーディオ信号を符号化及び復号する方法及び装置
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP5171256B2 (ja) * 2005-08-31 2013-03-27 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
CN101826326B (zh) 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
JP5267362B2 (ja) 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing
CN102074243B (zh) 2010-12-28 2012-09-05 武汉大学 一种基于比特平面的感知音频分级编码***及方法
JP6061121B2 (ja) * 2011-07-01 2017-01-18 ソニー株式会社 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Also Published As

Publication number Publication date
CN104205211A (zh) 2014-12-10
JP2015514234A (ja) 2015-05-18
EP2834813A1 (en) 2015-02-11
EP2834813B1 (en) 2015-09-30
US9449603B2 (en) 2016-09-20
KR20140140102A (ko) 2014-12-08
WO2013149671A1 (en) 2013-10-10
US20150049872A1 (en) 2015-02-19
KR101662681B1 (ko) 2016-10-05
JP6063555B2 (ja) 2017-01-18

Similar Documents

Publication Publication Date Title
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
ES2555136T3 (es) Codificador paramétrico para codificar una señal de audio multicanal
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
US9449604B2 (en) Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
ES2742853T3 (es) Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio
ES2317297T3 (es) Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares.
CN108600935B (zh) 音频信号处理方法和设备
JP5698189B2 (ja) オーディオ符号化
ES2687952T3 (es) Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa
JP5174973B2 (ja) ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム
ES2700246T3 (es) Mejora paramétrica de la voz
BRPI0608036B1 (pt) Dispositivo e método para a geração de um sinal estéreo codificado de uma peça de áudio ou fluxo de dados de áudio
ES2552996T3 (es) Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un generador de ponderaciones espectrales
IL184340A (en) Compact side information for parametric coding of spatial audio
BR112012021369A2 (pt) aparelho para gerar um sinal downmix intensificado, método para gerar um sinal downmix intensificado e programa de computador
BRPI0516405B1 (pt) Conformação individual de canal para esquemas bcc e similares
KR20080078882A (ko) 입체 오디오 신호 디코딩
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
Jansson Stereo coding for the ITU-T G. 719 codec