ES2900594T3 - Procedimiento para determinar un modo de codificación - Google Patents

Procedimiento para determinar un modo de codificación Download PDF

Info

Publication number
ES2900594T3
ES2900594T3 ES13854639T ES13854639T ES2900594T3 ES 2900594 T3 ES2900594 T3 ES 2900594T3 ES 13854639 T ES13854639 T ES 13854639T ES 13854639 T ES13854639 T ES 13854639T ES 2900594 T3 ES2900594 T3 ES 2900594T3
Authority
ES
Spain
Prior art keywords
mode
coding
coding mode
unit
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13854639T
Other languages
English (en)
Inventor
Ki-Hyun Choo
Anton Victorovich Porov
Konstantin Sergeevich Osipov
Nam-Suk Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of ES2900594T3 publication Critical patent/ES2900594T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Un procedimiento para determinar un modo de codificación, el procedimiento comprende: determinar un modo de codificación inicial de una trama actual como un modo de codificación de dominio de espectro de entre una pluralidad de modos de codificación cuando una señal de audio se clasifica como una señal de música mediante el uso de características de la señal de audio; corregir el modo de codificación de dominio de espectro a un modo de Codificación Genérica de la Señal, GSC, para la codificación de la excitación en base a los parámetros de corrección; y determinar un modo de codificación final de la trama actual de entre el modo de codificación de dominio de espectro y el modo de GSC, en base a los modos de codificación de las tramas correspondientes a una longitud de retención, de modo que evite una conmutación frecuente del modo de codificación.

Description

DESCRIPCIÓN
Procedimiento para determinar un modo de codificación
Campo técnico
Los aparatos y procedimientos consistentes con las realizaciones ejemplares se relacionan con la codificación y decodificación de audio, y más particularmente, con un procedimiento y un aparato para determinar un modo de codificación para mejorar la calidad de una señal de audio reconstruida, determinando un modo de codificación apropiado para las características de una señal de audio y evitando la conmutación frecuente del modo de codificación, un procedimiento y un aparato para codificar una señal de audio, y un procedimiento y un aparato para decodificar una señal de audio.
ITécnica anterior!
Es ampliamente conocido que es eficiente codificar una señal de música en el dominio de la frecuencia y es eficiente codificar una señal de voz en el dominio de tiempo. Por lo tanto, se han sugerido varias técnicas para determinar la clase de una señal de audio, en la cual se mezclan la señal de música y la señal de voz, y determinar un modo de codificación en correspondencia con la clase determinada.
Sin embargo, debido a la conmutación del modo de codificación de la frecuencia, no sólo se producen retrasos, sino que también se deteriora la calidad del sonido decodificado. Además, dado que no existe una técnica para corregir un modo de codificación determinado principalmente, es decir, una clase, si se produce un error durante la determinación de un modo de codificación, la calidad de una señal de audio reconstruida se deteriora.
El documento EP2144230A1 divulga un procedimiento para codificar señales de voz/música, en el que las señales de música se codifican utilizando códecs de audio MDCT de dominio de la frecuencia y las señales de voz se codifican utilizando codificación CELP/TCX. El procedimiento puede alternar el códec de voz entre CELP y TCX.
Divulgación!
Problema técnico
Los aspectos de una o más realizaciones ejemplares proporcionan un procedimiento para determinar un modo de codificación de acuerdo con las características de la reivindicación independiente.
[Solución técnica!
De acuerdo con un aspecto de una o más realizaciones ejemplares, existe un procedimiento para determinar un modo de codificación de acuerdo con las características de la reivindicación independiente.
Efectos ventajosos
De acuerdo con las realizaciones ejemplares, al determinar el modo de codificación final de una trama actual en base a la corrección del modo de codificación inicial y de los modos de codificación de las tramas correspondientes a una longitud de retención, puede seleccionarse un modo de codificación adaptativo a las características de una señal de audio a la vez que se evita la conmutación del modo de codificación de frecuencia entre tramas.
Breve descripción de los dibujos
La Figura 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de audio de acuerdo con una realización ejemplar.
La Figura 2 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de audio de acuerdo con otra realización ejemplar.
La Figura 3 es un diagrama de bloques que ilustra una configuración de una unidad de determinación del modo de codificación de acuerdo con una realización ejemplar;
La Figura 4 es un diagrama de bloques que ilustra una configuración de una unidad de determinación del modo de codificación inicial de acuerdo con una realización ejemplar;
La Figura 5 es un diagrama de bloques que ilustra una configuración de una unidad de extracción de parámetros de características de acuerdo con una realización ejemplar;
La Figura 6 es un diagrama que ilustra un procedimiento de conmutación adaptativo entre una codificación de dominio de predicción lineal y un dominio de espectro de acuerdo con una realización ejemplar;
La Figura 7 es un diagrama que ilustra el funcionamiento de una unidad de corrección del modo de codificación de acuerdo con una realización ejemplar;
La Figura 8 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de audio de acuerdo con una realización ejemplar.
La Figura 9 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de audio de acuerdo con otra realización ejemplar.
rModo de la invención!
A continuación, se hará referencia en detalle a las realizaciones, cuyos ejemplos se ilustran en los dibujos adjuntos, en los que los números de referencia similares se refieren a elementos similares en todo el conjunto. En este sentido, las presentes realizaciones pueden tener diferentes formas y no deben interpretarse como limitadas a las descripciones expuestas en la presente memoria. En consecuencia, las realizaciones se describen simplemente a continuación, haciendo referencia a las figuras, para explicar aspectos de la presente descripción.
Se pueden utilizar términos tales como “conectado” y “vinculado” para indicar un estado directamente conectado o vinculado, pero se entenderá que otro componente puede interponerse entre ellos.
Se pueden utilizar términos tales como “primero” y “segundo” para describir varios componentes, pero los componentes no se limitarán a los términos. Los términos pueden utilizarse únicamente para distinguir un componente de otro.
Las unidades descritas en las realizaciones ejemplares se ilustran de manera independiente para indicar diferentes funciones características, y no significa que cada unidad esté formada por un componente de hardware o software independiente. Cada unidad se ilustra para facilitar la explicación, y una pluralidad de unidades puede formar una unidad, y una unidad puede dividirse en una pluralidad de unidades.
La Figura 1 es un diagrama de bloques que ilustra una configuración de un aparato 100 de codificación de audio de acuerdo con una realización ejemplar.
El aparato 100 de codificación de audio que se muestra en la Figura 1 puede incluir una unidad 110 de determinación del modo de codificación, una unidad 120 de conmutación, una unidad 130 de codificación de dominio de espectro, una unidad 140 de codificación de dominio de predicción lineal, y una unidad 150 de generación de flujo de bits. La unidad 140 de codificación de dominio de predicción lineal puede incluir una unidad 141 de codificación de excitación de dominio de tiempo y una unidad 143 de codificación de excitación de dominio de frecuencia, donde la unidad 140 de codificación de dominio de predicción lineal puede estar incorporada como al menos una de las dos unidades 141 y 143 de codificación de excitación. A menos que sea necesario que se incorporen como un hardware separado, los componentes mencionados anteriormente pueden integrarse en al menos un módulo y pueden implementarse como al menos un procesador (no se muestra). En este caso, el término de una señal de audio puede referirse a una señal de música, una señal de voz, o una señal mixta de las mismas.
Con referencia a la Figura 1, la unidad 110 de determinación del modo de codificación puede analizar las características de una señal de audio para determinar la clase de la señal de audio, y determinar un modo de codificación en correspondencia con un resultado de la clasificación. La determinación del modo de codificación puede realizarse en unidades de supertramas, tramas, o bandas. De manera alternativa, la determinación del modo de codificación puede realizarse en unidades de una pluralidad de grupos de supertramas, una pluralidad de grupos de tramas, o una pluralidad de grupos de bandas. En este caso, los ejemplos de los modos de codificación pueden incluir un dominio de espectro y un dominio de tiempo o un dominio de predicción lineal, pero no están limitados a los mismos. Si el rendimiento y la velocidad de procesamiento de un procesador son suficientes y se pueden resolver los retrasos debidos a la conmutación del modo de codificación, los modos de codificación pueden subdividirse, y los esquemas de codificación también pueden subdividirse en correspondencia con el modo de codificación. De acuerdo con una realización ejemplar, la unidad 110 de determinación del modo de codificación puede determinar un modo de codificación inicial de una señal de audio como uno de un modo de codificación de dominio de espectro y un modo de codificación de dominio de tiempo. De acuerdo con otra realización ejemplar, la unidad 110 de determinación del modo de codificación puede determinar un modo de codificación inicial de una señal de audio como uno de un modo de codificación de dominio de espectro, un modo de codificación de excitación de dominio de tiempo y un modo de codificación de excitación de dominio de frecuencia. Si el modo de codificación de dominio de espectro se determina como el modo de codificación inicial, la unidad 110 de determinación del modo de codificación puede corregir el modo de codificación inicial a uno del modo de codificación de dominio de espectro y el modo de codificación de excitación de dominio de frecuencia. Si el modo de codificación de dominio de tiempo, es decir, el modo de codificación de excitación de dominio de tiempo se determina como el modo de codificación inicial, la unidad 110 de determinación del modo de codificación puede corregir el modo de codificación inicial a uno del modo de codificación de excitación de dominio de tiempo y el modo de codificación de excitación de dominio de frecuencia. Si el modo de codificación de excitación de dominio de tiempo se determina como el modo de codificación inicial, la determinación del modo de codificación final puede realizarse de manera selectiva. En otras palabras, se puede mantener el modo de codificación inicial, es decir, el modo de codificación de excitación de dominio de tiempo. La unidad 110 de determinación del modo de codificación puede determinar los modos de codificación de una pluralidad de tramas correspondientes a una longitud de retención, y puede determinar el modo de codificación final para una trama actual. De acuerdo con una realización ejemplar, si el modo de codificación inicial o un modo de codificación corregido de una trama actual es idéntico a los modos de codificación de una pluralidad de tramas anteriores, por ejemplo, 7 tramas anteriores, el correspondiente modo de codificación inicial o modo de codificación corregido puede determinarse como el modo de codificación final de la trama actual. Mientras tanto, si el modo de codificación inicial o un modo de codificación corregido de una trama actual no es idéntico a los modos de codificación de una pluralidad de tramas anteriores, por ejemplo, 7 tramas anteriores, la unidad 110 de determinación del modo de codificación puede determinar el modo de codificación de la trama justo antes de la trama actual como el modo de codificación final de la trama actual.
Como se ha descrito anteriormente, al determinar el modo de codificación final de una trama actual en base a la corrección del modo de codificación inicial y de los modos de codificación de las tramas correspondientes a una longitud de retención, puede seleccionarse un modo de codificación adaptativo a las características de una señal de audio, a la vez que se evita la conmutación del modo de codificación de frecuencia entre tramas.
En general, la codificación de dominio de tiempo, es decir, la codificación de excitación de dominio de tiempo puede ser eficiente para una señal de voz, la codificación de dominio de espectro puede ser eficiente para una señal de música, y la codificación de excitación de dominio de frecuencia puede ser eficiente para una señal vocal y/o armónica.
En correspondencia con un modo de codificación determinado por la unidad 110 de determinación del modo de codificación, la unidad 120 de conmutación puede proporcionar una señal de audio a la unidad 130 de codificación de dominio de espectro o a la unidad 140 de codificación de dominio de predicción lineal. Si la unidad 140 de codificación de dominio de predicción lineal se incorpora como la unidad 141 de codificación de excitación de dominio de tiempo, la unidad 120 de conmutación puede incluir un total de dos ramas. Si la unidad 140 de codificación de dominio de predicción lineal se incorpora como la unidad 141 de codificación de excitación de dominio de tiempo y la unidad 143 de codificación de excitación de dominio de frecuencia, la unidad 120 de conmutación puede tener un total de 3 ramas.
La unidad 130 de codificación de dominio de espectro puede codificar una señal de audio en el dominio de espectro. El dominio de espectro puede referirse al dominio de frecuencia o a un dominio de transformación. Los ejemplos de procedimientos de codificación aplicables a la unidad 130 de codificación de dominio de espectro pueden incluir una codificación de audio avanzada (AAC), o una combinación de una transformada discreta de coseno modificada (MDCT) y una codificación de pulso factorial (FPC), pero no se limitan a ello. En detalle, se pueden utilizar otras técnicas de cuantificación y de codificación de entropía en lugar del FPC. Puede ser eficiente codificar una señal de música en la unidad 130 de codificación de dominio de espectro.
La unidad 140 de codificación de dominio de predicción lineal puede codificar una señal de audio en un dominio de predicción lineal. El dominio de predicción lineal puede referirse a un dominio de excitación o a un dominio de tiempo. La unidad 140 de codificación de dominio de predicción lineal puede estar incorporada como la unidad 141 de codificación de excitación de dominio de tiempo o puede estar incorporada para incluir la unidad 141 de codificación de excitación de dominio de tiempo y la unidad 143 de codificación de excitación de dominio de frecuencia. Los ejemplos de procedimientos de codificación aplicables a la unidad 141 de codificación de excitación de dominio de tiempo pueden incluir la predicción lineal excitada por código (CELP) o una CELP algebraica (ACELP), pero no se limitan a ello. Los ejemplos de procedimientos de codificación aplicables a la unidad 143 de codificación de excitación de dominio de frecuencia pueden incluir la codificación genérica de la señal (GSC) o la excitación codificada por transformación (TCX), sin limitarse a ello. Puede ser eficiente codificar una señal de voz en la unidad 141 de codificación de excitación de dominio de tiempo, mientras que puede ser eficiente codificar una señal vocal y/o armónica en la unidad 143 de codificación de excitación de dominio de frecuencia.
La unidad 150 de generación de flujo de bits puede generar un flujo de bits que incluya el modo de codificación proporcionado por la unidad 110 de determinación del modo de codificación, un resultado de codificación proporcionado por la unidad 130 de codificación de dominio de espectro, y un resultado de codificación proporcionado por la unidad 140 de codificación de dominio de predicción lineal.
La Figura 2 es un diagrama de bloques que ilustra una configuración de un aparato 200 de codificación de audio de acuerdo con otra realización ejemplar.
El aparato 200 de codificación de audio que se muestra en la Figura 2 puede incluir un módulo 205 de preprocesamiento común, una unidad 210 de determinación del modo de codificación, una unidad 220 de conmutación, una unidad 230 de codificación de dominio de espectro, una unidad 240 de codificación de dominio de la predicción lineal, y una unidad 250 de generación de flujo de bits. En este caso, la unidad 240 de codificación de dominio de predicción lineal puede incluir una unidad 241 de codificación de excitación de dominio de tiempo y una unidad 243 de codificación de excitación de dominio de frecuencia, y la unidad 240 de codificación de dominio de predicción lineal puede ser incorporada como la unidad 241 de codificación de excitación de dominio de tiempo o la unidad 243 de codificación de excitación de dominio de frecuencia. En comparación con el aparato 100 de codificación de audio que se muestra en la Figura1, el aparato 200 de codificación de audio puede incluir además el módulo 205 de preprocesamiento común, y por lo tanto se omitirán las descripciones de los componentes idénticos a los del aparato 100 de codificación de audio.
Con referencia a la Figura 2, el módulo 205 de preprocesamiento común puede realizar el procesamiento estéreo conjunto, el procesamiento de sonido envolvente, y/o el procesamiento de extensión del ancho de banda. El procesamiento estéreo conjunto, el procesamiento de sonido envolvente, y el procesamiento de extensión del ancho de banda pueden ser idénticos a los empleados por un estándar específico, por ejemplo, el estándar MPEG, pero no están limitados a ello. La salida del módulo 205 de preprocesamiento común puede ser en un canal mono, en un canal estéreo, o en múltiples canales. De acuerdo con el número de canales de una señal emitida por el módulo 205 de preprocesamiento común, la unidad 220 de conmutación puede incluir al menos un interruptor. Por ejemplo, si el módulo 205 de preprocesamiento común emite una señal de dos o más canales, es decir, un canal estéreo o un multicanal, pueden disponerse interruptores correspondientes a los respectivos canales. Por ejemplo, el primer canal de una señal estéreo puede ser un canal de voz, y el segundo canal de la señal estéreo puede ser un canal de música. En este caso, se puede proporcionar de manera simultánea una señal de audio a los dos interruptores. La información adicional generada por el módulo 205 de preprocesamiento común puede proporcionarse a la unidad 250 de generación de flujo de bits e incluirse en un flujo de bits. La información adicional puede ser necesaria para realizar el procesamiento estéreo conjunto, el procesamiento de sonido envolvente, y/o el procesamiento de extensión del ancho de banda en un extremo de decodificación y puede incluir parámetros espaciales, información de envolvente, información de energía, etc. Sin embargo, puede haber varias informaciones adicionales en base a las técnicas de procesamiento aplicadas.
De acuerdo con una realización ejemplar, en el módulo 205 de preprocesamiento común, el procesamiento de extensión del ancho de banda puede realizarse de manera diferente en base a los dominios de codificación. La señal de audio en una banda central puede ser procesada utilizando el modo de codificación de excitación de dominio de tiempo o el modo de codificación de excitación de dominio de frecuencia, mientras que una señal de audio en una banda extendida de ancho de banda puede ser procesada en el dominio de tiempo. El procesamiento de extensión del ancho de banda en el dominio de tiempo puede incluir una pluralidad de modos que incluyen un modo con voz o un modo sin voz. De manera alternativa, una señal de audio en la banda central puede ser procesada utilizando el modo de codificación de dominio de espectro, mientras que una señal de audio en la banda extendida de ancho de banda puede ser procesada en el dominio de la frecuencia. El procesamiento de extensión del ancho de banda en el dominio de la frecuencia puede incluir una pluralidad de modos que incluyen un modo transitorio, un modo normal, o un modo armónico. Para realizar el procesamiento de extensión del ancho de banda en diferentes dominios, un modo de codificación determinado por la unidad 110 de determinación del modo de codificación puede proporcionarse al módulo 205 de preprocesamiento común como información de señalización. De acuerdo con una realización ejemplar, la última porción de la banda central y la porción inicial de la banda extendida de ancho de banda pueden superponerse entre sí hasta cierta medida. La ubicación y el tamaño de las porciones superpuestas pueden establecerse con anterioridad.
La Figura 3 es un diagrama de bloques que ilustra una configuración de una unidad 300 de determinación del modo de codificación de acuerdo con una realización ejemplar.
La unidad 300 de determinación del modo de codificación que se muestra en la Figura 3 puede incluir una unidad 310 de determinación del modo de codificación inicial y una unidad 330 de corrección del modo de codificación.
Con referencia a la Figura 3, la unidad 310 de determinación del modo de codificación inicial puede determinar si una señal de audio es una señal de música o una señal de voz utilizando parámetros de características extraídos a partir de la señal de audio. Si la señal de audio se determina como una señal de voz, la codificación de dominio de predicción lineal puede ser adecuada. Mientras tanto, si la señal de audio se determina como una señal de música, la codificación de dominio de espectro puede ser adecuada. La unidad 310 de determinación del modo de codificación inicial puede determinar la clase de la señal de audio indicando si la codificación de dominio de espectro, la codificación de excitación de dominio de tiempo, o la codificación de excitación de dominio de frecuencia es adecuada para la señal de audio utilizando parámetros de características extraídos a partir de la señal de audio. Se puede determinar un modo de codificación correspondiente en base a la clase de la señal de audio. Si una unidad de conmutación (120 de la Figura 1) tiene dos ramas, un modo de codificación puede expresarse en 1 bit. Si la unidad de conmutación (120 de la Figura 1) tiene tres ramas, un modo de codificación puede expresarse en 2 bits. La unidad 310 de determinación del modo de codificación inicial puede determinar si una señal de audio es una señal de música o una señal de voz utilizando cualquiera de las diversas técnicas conocidas en la técnica. Los ejemplos de estos pueden incluir la clasificación FD/LPD o la clasificación ACELP/TCX divulgada en una parte del codificador de la norma USAC y la clasificación ACELP/TCX utilizada en las normas AMR, pero no se limitan a ellas. En otras palabras, el modo de codificación inicial puede determinarse utilizando cualquiera de los diversos procedimientos distintos del procedimiento de acuerdo con las realizaciones descritas en la presente memoria.
La unidad 330 de corrección del modo de codificación puede determinar un modo de codificación corregido corrigiendo el modo de codificación inicial determinado por la unidad 310 de determinación del modo de codificación inicial utilizando parámetros de corrección. De acuerdo con una realización ejemplar, si el modo de codificación de dominio de espectro se determina como el modo de codificación inicial, el modo de codificación inicial puede corregirse al modo de codificación de excitación de dominio de frecuencia en base a los parámetros de corrección. Si el modo de codificación de dominio de tiempo se determina como el modo de codificación inicial, el modo de codificación inicial puede corregirse al modo de codificación de excitación de dominio de frecuencia en base a los parámetros de corrección. En otras palabras, se determina si hay un error en la determinación del modo de codificación inicial utilizando parámetros de corrección. Si se determina que no existe error en la determinación del modo de codificación inicial, se puede mantener el modo de codificación inicial. Por el contrario, si se determina que existe un error en la determinación del modo de codificación inicial, éste puede corregirse. La corrección del modo de codificación inicial puede obtenerse a partir del modo de codificación de dominio de espectro al modo de codificación de excitación de dominio de frecuencia y a partir del modo de codificación de excitación de dominio de tiempo al modo de codificación de excitación de dominio de frecuencia.
Mientras tanto, el modo de codificación inicial o el modo de codificación corregido puede ser un modo de codificación temporal para una trama actual, donde el modo de codificación temporal para la trama actual puede ser comparado con los modos de codificación para las tramas anteriores dentro de una longitud de retención preestablecida y se puede determinar el modo de codificación final para la trama actual.
La Figura 4 es un diagrama de bloques que ilustra una configuración de una unidad 400 de determinación del modo de codificación inicial de acuerdo con una realización ejemplar.
La unidad 400 de determinación del modo de codificación inicial que se muestra en la Figura 4 puede incluir una unidad 410 de extracción de parámetros de características y una unidad 430 de determinación.
Con referencia a la Figura 4, la unidad 410 de extracción de parámetros de características puede extraer los parámetros de características necesarios para determinar un modo de codificación a partir de una señal de audio. Los ejemplos de los parámetros de características extraídas incluyen al menos uno o dos de entre un parámetro de tono, un parámetro de sonorización, un parámetro de correlación, y un error de predicción lineal, pero no se limitan a ellos. A continuación, se describen detalladamente los distintos parámetros.
En primer lugar, un primer parámetro F1 de característica se refiere a un parámetro de tono, donde un comportamiento de tono puede determinarse utilizando N valores de tono detectados en una trama actual y en al menos una trama anterior. Para evitar un efecto de una desviación aleatoria o de un valor de tono incorrecto, se pueden eliminar los valores de tono M significativamente diferentes del promedio de los N valores de tono. En este caso, N y M pueden ser valores obtenidos con anterioridad a través de experimentos o simulaciones. Además, N puede establecerse con anterioridad, y una diferencia entre un valor de tono por eliminar y el promedio de los N valores de tono puede determinarse con anterioridad a través de experimentos o simulaciones. El primer parámetro F1 de característica puede expresarse como se muestra a continuación en la Ecuación 1, utilizando el promedio mp, y la diferencia Op' con respecto a los valores de tono (N-M)
[Ecuación 1]
Figure imgf000006_0001
Un segundo parámetro F2 de característica también se refiere a un parámetro de tono y puede indicar la fiabilidad de un valor de tono detectado en una trama actual. El segundo parámetro F2 de característica puede expresarse como se muestra a continuación en la Ecuación 2, utilizando las diferencias 0SF1 y 0SF2 de los valores de tono detectados respectivamente en dos subtramas SF1 y SF2 de una trama actual
[Ecuación 2]
cov (SFí ,SF2)
F2 = ---------------
°'S F 1 a SF2
En este caso, cov(SF1,SF2) denota la variación entre las subtramas SF1 y SF2. En otras palabras, el segundo parámetro F2 de característica indica la correlación entre dos subtramas como una distancia de tono. De acuerdo con una realización ejemplar, una trama actual puede incluir dos o más subtramas, y la Ecuación 2 puede modificarse en base al número de subtramas.
Un tercer parámetro F3 de característica puede expresarse como se muestra a continuación en la Ecuación 3, en base a un parámetro de sonorización y un parámetro Corr de correlación
[Ecuación 3]
F3
y
Figure imgf000006_0002
En este caso, el parámetro de Sonorización se refiere a las características vocales del sonido y puede obtenerse por cualquiera de los diversos procedimientos conocidos en la técnica, mientras que el parámetro Corr de correlación puede obtenerse sumando las correlaciones entre tramas para cada banda.
Un cuarto parámetro F4 de característica se relaciona con un error ELPC de predicción lineal y puede expresarse como se muestra a continuación en la Ecuación 4.
[Ecuación 4]
Figure imgf000007_0001
En este caso, M(ELPC) denota el promedio de N errores de predicción lineal.
La unidad 430 de determinación puede determinar la clase de una señal de audio utilizando al menos un parámetro de característica proporcionado por la unidad 410 de extracción de parámetros de características y puede determinar el modo de codificación inicial en base a la clase determinada. La unidad 430 de determinación puede emplear un mecanismo de decisión suave, en el que se puede formar al menos una mezcla por parámetro de característica. De acuerdo con una realización ejemplar, la clase de una señal de audio puede determinarse utilizando el modelo de mezcla de Gaussiano (GMM) en base a las probabilidades de mezcla. La probabilidad f(x) relativa a una mezcla puede calcularse de acuerdo con la Ecuación 5 siguiente.
[Ecuación 5]
f (x ) = e-0,5(x-m)) c -L(x — m)
7 (2 n)N det(C~1)
x = ( x í ...x N
m = (Cx1,... ,CxnC)
En este caso, x denota un vector de entrada de un parámetro de característica, m denota una mezcla, y c denota una matriz de variación.
La unidad 430 de determinación puede calcular una probabilidad Pm de música y una probabilidad Ps de voz utilizando la Ecuación 6 siguiente.
[Ecuación 6]
r p m = ibM Qr p. i, r p s = ib QSr p. i
En este caso, la probabilidad Pm de música puede calcularse sumando las probabilidades Pi de M mezclas relacionadas con parámetros de características superiores para la determinación de la música, mientras que la probabilidad Ps de voz puede calcularse sumando las probabilidades Pi de S mezclas relacionadas con parámetros de características superiores para la determinación de voz.
Mientras tanto, para mejorar la precisión, la probabilidad Pm de música y la probabilidad Ps de voz pueden ser calculadas de acuerdo con la siguiente Ecuación 7.
[Ecuación 7]
pm = j p i( i —p r ) lbQsP i( p D
ps = ibQs P i ( i—p r ) j p t( p r )
En este caso, pfrr denota la probabilidad de error de cada mezcla. La probabilidad de error puede obtenerse clasificando los datos de entrenamiento que incluyen señales de voz limpias y señales de música limpias utilizando cada una de las mezclas y contando el número de clasificaciones incorrectas.
A continuación, la probabilidad PM de que todas las tramas incluyan sólo señales de música y la probabilidad PS de que todas las tramas incluyan sólo señales de voz con respecto a una pluralidad de tramas tan numerosas como una longitud de retención constante puede calcularse de acuerdo con la siguiente Ecuación 8. La longitud de retención puede establecerse en 8, pero no está limitada a ello. Ocho tramas pueden incluir una trama actual y 7 tramas anteriores
[Ecuación 8]
-7
O p m
m
M i = 0
p - 7 - 7
O Pm O p(l)
i = 0 i = 0
- 7
O p (i)
ps i = 0
- 7 - 7
O p % O p(l)
i = 0 i = 0
A continuación, se puede calcular una pluralidad de conjuntos de condiciones {D ^} y jD f} utilizando la probabilidad Pm de música o la probabilidad Ps de voz obtenida utilizando la Ecuación 5 o la Ecuación 6. A continuación se describen detalladamente los mismos con referencia a la Figura 6.
En este caso, se puede establecer de tal manera que cada condición tenga un valor 1 para la música y un valor 0 para la voz.
Con referencia a la Figura 6, en una operación 610 y en una operación 620, se puede obtener una suma de condiciones de música M y una suma de condiciones de voz S a partir de la pluralidad de conjuntos de condiciones {D^} y jD f} que se calculan utilizando la probabilidad Pm de música y la probabilidad Ps de voz. En otras palabras, la suma de las condiciones de música M y la suma de las condiciones de voz S pueden expresarse como se muestra a continuación en la Ecuación 9.
[Ecuación 9]
Figure imgf000008_0001
Figure imgf000008_0002
En una operación 630, la suma de las condiciones de música M se compara con un valor de umbral designado Tm. Si la suma de condiciones de música M es mayor que el valor de umbral Tm, un modo de codificación de una trama actual se conmuta a un modo de música, es decir, al modo de codificación de dominio de espectro. Si la suma de las condiciones de música M es menor que o igual al valor de umbral Tm, el modo de codificación de la trama actual no se cambia.
En una operación 640, la suma de las condiciones de voz S se compara con un valor de umbral designado Ts. Si la suma de las condiciones de voz S es mayor que el valor de umbral Ts, un modo de codificación de una trama actual se conmuta a un modo de voz, es decir, el modo de codificación de dominio de predicción lineal. Si la suma de las condiciones de voz S es menor que o igual al valor de umbral Ts, el modo de codificación de la trama actual no se cambia.
El valor de umbral Tm y el valor de umbral Ts pueden establecerse en valores obtenidos con anterioridad a través de experimentos o simulaciones.
La Figura 5 es un diagrama de bloques que ilustra una configuración de una unidad 500 de extracción de parámetros de características de acuerdo con una realización ejemplar.
Una unidad 500 de determinación del modo de codificación inicial que se muestra en la Figura 5 puede incluir una unidad 510 de transformación, una unidad 520 de extracción de parámetros de espectro, una unidad 530 de extracción de parámetros temporales, y una unidad 540 de determinación.
En la Figura 5, la unidad 510 de transformación puede transformar una señal de audio original a partir de dominio de tiempo al dominio de la frecuencia. En este caso, la unidad 510 de transformación puede aplicar cualquiera de las diversas técnicas de transformación para representar una señal de audio a partir de un dominio de tiempo a un dominio de espectro. Los ejemplos de las técnicas pueden incluir la transformada rápida de Fourier (FFT), la transformada discreta de coseno (DCT), o la transformada discreta de coseno modificada (MDCT), pero no se limitan a ellas.
La unidad 520 de extracción de parámetros de espectro puede extraer al menos un parámetro de espectro a partir de una señal de audio de dominio de frecuencia proporcionada por la unidad 510 de transformación. Los parámetros de espectro pueden clasificarse en parámetros de características a corto plazo y parámetros de características a largo plazo. Los parámetros de características a corto plazo pueden obtenerse a partir de una trama actual, mientras que los parámetros de características a largo plazo pueden obtenerse a partir de una pluralidad de tramas que incluyen la trama actual y al menos una trama anterior.
La unidad 530 de extracción de parámetros temporales puede extraer al menos un parámetro temporal a partir de una señal de audio de dominio de tiempo. Los parámetros temporales también pueden clasificarse en parámetros de características a corto plazo y parámetros de características a largo plazo. Los parámetros de características a corto plazo pueden obtenerse a partir de una trama actual, mientras que los parámetros de características a largo plazo pueden obtenerse a partir de una pluralidad de tramas que incluyen la trama actual y al menos una trama anterior.
Una unidad de determinación (430 de la Figura 4) puede determinar la clase de una señal de audio utilizando los parámetros de espectro proporcionados por la unidad 520 de extracción de parámetros de espectro y los parámetros temporales proporcionados por la unidad 530 de extracción de parámetros temporales y puede determinar el modo de codificación inicial en base a la clase determinada. La unidad de determinación (430 de la Figura 4) puede emplear un mecanismo de decisión suave.
La Figura 7 es un diagrama que ilustra una operación de una unidad 310 de corrección del modo de codificación de acuerdo con una realización ejemplar.
Con referencia a la Figura 7, en una operación 700, se recibe un modo de codificación inicial determinado por la unidad 310 de determinación del modo de codificación inicial y se puede determinar si el modo de codificación es el modo de dominio de tiempo, es decir, el modo de excitación de dominio de tiempo o el modo de dominio de espectro.
En una operación 701, si se determina en la operación 700 que el modo de codificación inicial es el modo de dominio de espectro (estadoTS == 1), puede comprobarse un estadoTTSS de índice que indica si la codificación de excitación de dominio de frecuencia es más apropiada. El estadoTTSS de índice que indica si la codificación de la excitación de dominio de frecuencia (por ejemplo, GSC) es más apropiada puede obtenerse utilizando tonalidades de diferentes bandas de frecuencia. Las descripciones detalladas de los mismos se darán a continuación.
La tonalidad de una señal de banda baja puede obtenerse como una relación entre una suma de una pluralidad de coeficientes de espectro que tienen valores pequeños, incluyendo el valor más pequeño, y el coeficiente de espectro que tiene el valor más grande con respecto a una banda dada. Si las bandas dadas son 0~1 kHz, 1~2 kHz, y 2~4 kHz, las tonalidades td, t-i2 y t24 de las bandas respectivas y la tonalidad tL de una señal de banda baja, es decir, la banda central, pueden expresarse como se muestra en la siguiente Ecuación 10.
[Ecuación 10]
í \
máx(xi),i,jH[0, ...,1 kHz]
t01 = 0,2log10 M - 1 , i,jH [0.....1kHz]
Q sort(xj)
\ } = 0
(
máx(xl) \
t12 = 0,2log10 M - 1 , i,jH[2......2kHz]
Q sort(xj)
\ j = 0 )
(
máx(Xj)
t24 = 0,2log10 \
M - 1 , i,jH[2 4kHz]
Q sort(xj)
\ j = 0 )
tL = máx(t01,t12,t24)
Mientras tanto, el error de predicción lineal err puede obtenerse utilizando un filtro de codificación de predicción lineal (LPC) y puede utilizarse para eliminar los componentes tonales fuertes. En otras palabras, el modo de codificación de dominio de espectro puede ser más eficiente con respecto a los componentes tonales fuertes que el modo de codificación de excitación de dominio de frecuencia.
Una condición frontal condfront para conmutar al modo de codificación de excitación de dominio de frecuencia utilizando las tonalidades y el error de predicción lineal obtenido como se ha descrito anteriormente puede expresarse como se muestra a continuación en la Ecuación 11.
[Ecuación 11]
COndfront = t]_2 > ti2/ront y 2^4 > 2^4front y > ^Lfront y > ^^front
En este caso, t i2front, t24front, tLfront y errfront son valores de umbral y pueden tener valores obtenidos con anterioridad a través de experimentos o simulaciones.
Mientras tanto, una condición de retroceso condback para finalizar el modo de codificación de excitación de dominio de frecuencia utilizando las tonalidades y el error de predicción lineal obtenido como se ha descrito anteriormente puede expresarse como se muestra a continuación en la Ecuación 12 n.
[Ecuación 12]
condback = í12 < t12back y t24 < t24back y t L < tLback
En este caso, t^back, t24back, tLback son valores de umbral y pueden tener valores obtenidos con anterioridad a través de experimentos o simulaciones.
En otras palabras, se puede determinar si el estadoTTSS de índice que indica si la codificación de excitación de dominio de frecuencia (por ejemplo, GSC) es más apropiada que la codificación de dominio de espectro sea 1, determinando si la condición frontal que se muestra en la Ecuación 11 se satisface o la condición de retroceso que se muestra en la Ecuación 12 no se satisface. En este caso, la determinación de la condición de retroceso que se muestra en la ecuación 12 puede ser opcional.
En una operación 702, si el estadoTTSS de índice, es 1, el modo de codificación de excitación de dominio de frecuencia puede determinarse como el modo de codificación final. En este caso, el modo de codificación de dominio de espectro, el cual es el modo de codificación inicial, se corrige al modo de codificación de excitación de dominio de frecuencia, el cual es el modo de codificación final.
En una operación 705, si se determina en la operación 701 que el estadoTTSS de índice es 0, se puede comprobar un estadoSS de índice para determinar si una señal de audio incluye una característica de voz fuerte. Si existe un error en la determinación del modo de codificación de dominio de espectro, el modo de codificación de excitación de dominio de frecuencia puede ser más eficiente que el modo de codificación de dominio de espectro. El estadoSS de índice para determinar si una señal de audio incluye una característica de voz fuerte puede obtenerse utilizando una diferencia vc entre un parámetro de sonorización y un parámetro de correlación.
Una condición frontal condfront para conmutar a un modo de voz fuerte utilizando la diferencia vc entre un parámetro de sonorización y un parámetro de correlación puede ser expresado como se muestra a continuación en la Ecuación 13.
[Ecuación 13]
COndfront VC > VCfront
En este caso, vcfront es un valor de umbral y puede tener un valor obtenido con anterioridad a través de experimentos o simulaciones.
Mientras tanto, una condición de retroceso condback para finalizar el modo de voz fuerte utilizando la diferencia vc entre un parámetro de sonorización y un parámetro de correlación puede ser expresado como se muestra a continuación en la Ecuación 14.
[Ecuación 14]
condback = vc < vcback
En este caso, vcback es un valor de umbral y puede tener un valor obtenido con anterioridad a través de experimentos o simulaciones.
En otras palabras, en una operación 705, se puede determinar si el estadoSS de índice que indica si la codificación de excitación de dominio de frecuencia (por ejemplo, GSC) es más apropiada que la codificación de dominio de espectro sea 1, determinando si la condición frontal que se muestra en la Ecuación 13 se satisface o la condición de retroceso que se muestra en la Ecuación 14 no se satisface. En este caso, la determinación de la condición de retroceso que se muestra en la Ecuación 14 puede ser opcional.
En una operación 706, si se determina en la operación 705 que el estadoSS de índice es 0, es decir, que la señal de audio no incluye una característica de voz fuerte, el modo de codificación de dominio de espectro puede determinarse como el modo de codificación final. En este caso, el modo de codificación de dominio de espectro, que es el modo de codificación inicial, se mantiene como modo de codificación final.
En una operación 707, si se determina en la operación 705 que el estadoSS de índice, es 1, es decir, que la señal de audio incluye una característica de voz fuerte, el modo de codificación de excitación de dominio de frecuencia puede determinarse como el modo de codificación final. En este caso, el modo de codificación de dominio de espectro, el cual es el modo de codificación inicial, se corrige al modo de codificación de excitación de dominio de frecuencia, el cual es el modo de codificación final.
Al realizar las operaciones 700, 701 y 705, se puede corregir un error en la determinación del modo de codificación de dominio de espectro como el modo de codificación inicial. En detalle, el modo de codificación de dominio de espectro, el cual es el modo de codificación inicial, puede mantenerse o conmutarse al modo de codificación de excitación de dominio de frecuencia como el modo de codificación final.
Mientras tanto, si se determina en la operación 700 que el modo de codificación inicial es el modo de codificación de dominio de predicción lineal (estadoTS == 0), se puede comprobar un estadoSM de índice para determinar si una señal de audio incluye una característica de música fuerte. Si existe un error en la determinación del modo de codificación de dominio de predicción lineal, es decir, el modo de codificación de excitación de dominio de tiempo, el modo de codificación de excitación de dominio de frecuencia puede ser más eficiente que el modo de codificación de excitación de dominio de tiempo. El estadoSM para determinar si una señal de audio incluye una característica de música fuerte puede obtenerse utilizando un valor 1-vc obtenido restando de 1 la diferencia vc entre un parámetro de sonorización y un parámetro de correlación.
Una condición frontal condfront para conmutar a un modo de música fuerte utilizando el valor 1-vc obtenido al restar la diferencia vc entre un parámetro de sonorización y un parámetro de correlación a partir de 1 puede expresarse como se muestra a continuación en la Ecuación 15.
[Ecuación 15]
condfront = 1 - v c > vcmfront
En este caso, vcmfront es un valor de umbral y puede tener un valor obtenido con anterioridad a través de experimentos o simulaciones.
Mientras tanto, una condición de retroceso condback para finalizar el modo de música fuerte utilizando el valor 1-vc obtenido al restar la diferencia vc entre un parámetro de sonorización y un parámetro de correlación a partir de 1 puede expresarse como se muestra a continuación en la Ecuación 16.
[Ecuación 16]
condback = 1 - v c < vcmback
En este caso, vcmback es un valor umbral y puede tener un valor obtenido con anterioridad a través de experimentos o simulaciones.
En otras palabras, en una operación 709, se puede determinar si el estadoSM de índice que indica si la codificación de excitación de dominio de frecuencia (por ejemplo, GSC) es más apropiada que la codificación de excitación de dominio de tiempo sea 1, determinando si la condición frontal mostrada en la Ecuación 15 se satisface o la condición posterior mostrada en la Ecuación 16 no se satisface. En este caso, la determinación de la condición de retroceso que se muestra en la Ecuación 16 puede ser opcional.
En una operación 710, si se determina en la operación 709 que el estadoSM de índice es 0, es decir, que la señal de audio no incluye una característica de música fuerte, el modo de codificación de excitación de dominio de tiempo puede determinarse como el modo de codificación final. En este caso, el modo de codificación de dominio de predicción lineal, el cual es el modo de codificación inicial, se conmuta al modo de codificación de excitación de dominio de tiempo como el modo de codificación final. De acuerdo con una realización ejemplar, puede considerarse que el modo de codificación inicial se mantiene sin cambios, si el modo de codificación de dominio de predicción lineal corresponde al modo de codificación de excitación de dominio de tiempo.
En una operación 707, si se determina en la operación 709 que el estadoSM de índice es 1, es decir, que la señal de audio incluye una característica de música fuerte, el modo de codificación de excitación de dominio de frecuencia puede determinarse como el modo de codificación final.
En este caso, el modo de codificación de dominio de predicción lineal, el cual es el modo de codificación inicial, se corrige al modo de codificación de excitación de dominio de frecuencia, el cual es el modo de codificación final.
Realizando las operaciones 700 y 709, se puede corregir un error en la determinación del modo de codificación inicial. En detalle, el modo de codificación de dominio de predicción lineal (por ejemplo, el modo de codificación de excitación de dominio de tiempo), el cual es el modo de codificación inicial, puede mantenerse o conmutarse al modo de codificación de excitación de dominio de frecuencia como el modo de codificación final.
De acuerdo con una realización ejemplar, la operación 709 para determinar si la señal de audio incluye una característica de música fuerte para corregir un error en la determinación del modo de codificación de dominio de predicción lineal puede ser opcional.
De acuerdo con otra realización ejemplar, se puede invertir una secuencia de realización de la operación 705 para determinar si la señal de audio incluye una característica de voz fuerte y la operación 701 para determinar si el modo de codificación de excitación de dominio de frecuencia es apropiado. En otras palabras, después de la operación 700, se puede realizar primero la operación 705, y luego la operación 701. En este caso, los parámetros utilizados para las determinaciones pueden modificarse de acuerdo como lo exijan las ocasiones.
La Figura 8 es un diagrama de bloques que ilustra una configuración de un aparato 800 de decodificación de audio de acuerdo con una realización ejemplar.
El aparato 800 de decodificación de audio que se muestra en la Figura 8 puede incluir una unidad 810 de análisis del flujo de bits, una unidad 820 de decodificación de dominio de espectro, una unidad 830 de decodificación de dominio de predicción lineal y una unidad 840 de conmutación. La unidad 830 de decodificación de dominio de predicción lineal puede incluir una unidad 831 de decodificación de excitación de dominio de tiempo y una unidad 833 de decodificación de excitación de dominio de frecuencia, donde la unidad 830 de decodificación de dominio de predicción lineal puede estar incorporada como al menos una de la unidad 831 de decodificación de excitación de dominio de tiempo y la unidad 833 de decodificación de excitación de dominio de frecuencia. A menos que sea necesario que se incorporen como un hardware separado, los componentes mencionados anteriormente pueden integrarse en al menos un módulo y pueden implementarse como al menos un procesador (no se muestra).
Con referencia a la Figura 8, la unidad 810 de análisis del flujo de bits puede analizar un flujo de bits recibido y separar la información sobre un modo de codificación y los datos codificados. El modo de codificación puede corresponder a un modo de codificación inicial obtenido mediante la determinación de uno de entre una pluralidad de modos de codificación que incluye un primer modo de codificación y un segundo modo de codificación en correspondencia con las características de una señal de audio o un tercer modo de codificación corregido a partir del modo de codificación inicial si existe un error en la determinación del modo de codificación inicial.
La unidad 820 de decodificación de dominio de espectro puede decodificar datos codificados en el dominio de espectro a partir de los datos codificados separados.
La unidad 830 de decodificación de dominio de predicción lineal puede decodificar datos codificados en el dominio de predicción lineal a partir de los datos codificados separados. Si la unidad 830 de decodificación de dominio de predicción lineal incluye la unidad 831 de decodificación de excitación de dominio de tiempo y la unidad 833 de decodificación de excitación de dominio de frecuencia, la unidad 830 de decodificación de dominio de predicción lineal puede realizar la decodificación de excitación de dominio de tiempo o la decodificación de excitación de dominio de frecuencia con respecto a los datos codificados separados.
La unidad 840 de conmutación puede conmutar una señal reconstruida por la unidad 820 de decodificación de dominio de espectro o una señal reconstruida por la unidad 830 de decodificación de dominio de predicción lineal y puede proporcionar la señal conmutada como una señal reconstruida final.
La Figura 9 es un diagrama de bloques que ilustra una configuración de un aparato 900 de decodificación de audio de acuerdo con otra realización ejemplar.
El aparato 900 de decodificación de audio puede incluir una unidad 910 de análisis del flujo de bits, una unidad 920 de decodificación de dominio de espectro, una unidad 930 de decodificación de dominio de predicción lineal, una unidad 940 de conmutación y un módulo 950 de procesamiento posterior común. La unidad 930 de decodificación de dominio de predicción lineal puede incluir una unidad 931 de decodificación de excitación de dominio de tiempo y una unidad 933 de decodificación de excitación de dominio de frecuencia, donde la unidad 930 de decodificación de dominio de predicción lineal puede estar incorporada como al menos una de la unidad 931 de decodificación de excitación de dominio de tiempo y la unidad 933 de decodificación de excitación de dominio de frecuencia. A menos que sea necesario que se incorporen como un hardware separado, los componentes mencionados anteriormente pueden integrarse en al menos un módulo y pueden implementarse como al menos un procesador (no se muestra). En comparación con el aparato 800 de decodificación de audio que se muestra en la Figura 8, el aparato 900 de decodificación de audio puede incluir además el módulo 950 de procesamiento posterior común, y, por lo tanto, se omitirán las descripciones de los componentes idénticos a los del aparato 800 de decodificación de audio.
Con referencia a la Figura 9, el módulo 950 de procesamiento posterior común puede realizar un procesamiento conjunto de estéreo, un procesamiento de sonido envolvente, y/o un procesamiento de extensión de ancho de banda, en correspondencia con un módulo de preprocesamiento común (205 de la Figura 2).
Los procedimientos de acuerdo con las realizaciones ejemplares pueden escribirse como programas ejecutables por ordenador y pueden implementarse en ordenadores digitales de uso general que ejecutan los programas utilizando un medio de grabación no transitorio legible por ordenador. Además, las estructuras de datos, las instrucciones de programa, o los archivos de datos, los cuales pueden utilizarse en las realizaciones, pueden grabarse en un medio de grabación no transitorio legible por ordenador de varias maneras. El medio de grabación no transitorio legible por ordenador es cualquier dispositivo de almacenamiento de datos que puede almacenar datos los cuales pueden ser leídos posteriormente por un sistema informático. Los ejemplos del medio de grabación no transitorio legible por ordenador incluyen los medios de almacenamiento magnético, tales como los discos duros, los disquetes, y las cintas magnéticas, los medios de grabación óptica, tales como los CD-ROM y los DVDs, los medios ópticos magnéticos, tales como los discos ópticos, y los dispositivos de hardware, tales como la ROM, la RAM, y la memoria flash, especialmente configurados para almacenar y ejecutar instrucciones de programa. Además, el medio de grabación no transitorio legible por ordenador puede ser un medio de transmisión para transmitir la señal que designa las instrucciones del programa, las estructuras de datos, o similares. Los ejemplos de instrucciones de programa pueden incluir no sólo códigos de lenguaje mecánico creados por un compilador, sino también códigos de lenguaje de alto nivel ejecutables por un ordenador utilizando un intérprete o similar.
Si bien se han mostrado y descrito de manera particular las anteriores realizaciones ejemplares, se entenderá por aquellos expertos en la técnica que varios cambios en la forma y los detalles se pueden hacer en el mismo sin apartarse del ámbito del concepto inventivo como se define por las reivindicaciones adjuntas. Las realizaciones ejemplares deben considerarse únicamente en sentido descriptivo y no con fines de limitación. Por lo tanto, el ámbito del concepto inventivo se define no por la descripción detallada de las realizaciones ejemplares sino por las reivindicaciones adjuntas, y todas las diferencias dentro del ámbito se interpretarán como incluidas en el presente concepto inventivo.

Claims (1)

REIVINDICACIONES
1. Un procedimiento para determinar un modo de codificación, el procedimiento comprende:
determinar un modo de codificación inicial de una trama actual como un modo de codificación de dominio de espectro de entre una pluralidad de modos de codificación cuando una señal de audio se clasifica como una señal de música mediante el uso de características de la señal de audio;
corregir el modo de codificación de dominio de espectro a un modo de Codificación Genérica de la Señal, GSC, para la codificación de la excitación en base a los parámetros de corrección; y
determinar un modo de codificación final de la trama actual de entre el modo de codificación de dominio de espectro y el modo de GSC, en base a los modos de codificación de las tramas correspondientes a una longitud de retención, de modo que evite una conmutación frecuente del modo de codificación.
ES13854639T 2012-11-13 2013-11-13 Procedimiento para determinar un modo de codificación Active ES2900594T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261725694P 2012-11-13 2012-11-13
PCT/KR2013/010310 WO2014077591A1 (ko) 2012-11-13 2013-11-13 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치

Publications (1)

Publication Number Publication Date
ES2900594T3 true ES2900594T3 (es) 2022-03-17

Family

ID=50731440

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13854639T Active ES2900594T3 (es) 2012-11-13 2013-11-13 Procedimiento para determinar un modo de codificación

Country Status (18)

Country Link
US (3) US20140188465A1 (es)
EP (2) EP3933836A1 (es)
JP (2) JP6170172B2 (es)
KR (3) KR102331279B1 (es)
CN (3) CN107958670B (es)
AU (2) AU2013345615B2 (es)
BR (1) BR112015010954B1 (es)
CA (1) CA2891413C (es)
ES (1) ES2900594T3 (es)
MX (2) MX361866B (es)
MY (1) MY188080A (es)
PH (1) PH12015501114A1 (es)
PL (1) PL2922052T3 (es)
RU (3) RU2656681C1 (es)
SG (2) SG10201706626XA (es)
TW (2) TWI648730B (es)
WO (1) WO2014077591A1 (es)
ZA (1) ZA201504289B (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102552293B1 (ko) 2014-02-24 2023-07-06 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件***有限公司 一种语音信号处理方法、装置、设备及存储介质
EP4362366A1 (en) * 2021-09-24 2024-05-01 Samsung Electronics Co., Ltd. Electronic device for data packet transmission or reception, and operation method thereof

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
DK1400954T3 (da) * 2002-09-04 2008-03-31 Microsoft Corp Entropi-kodning ved tilpasning af kodning mellem niveau- og runlængde/niveau-moduser
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
MXPA06012617A (es) * 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con diferentes longitudes de cuadro de codificacion.
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7974837B2 (en) * 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
US7733983B2 (en) * 2005-11-14 2010-06-08 Ibiquity Digital Corporation Symbol tracking for AM in-band on-channel radio receivers
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
KR100790110B1 (ko) * 2006-03-18 2008-01-02 삼성전자주식회사 모폴로지 기반의 음성 신호 코덱 방법 및 장치
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
WO2009110738A2 (ko) 2008-03-03 2009-09-11 엘지전자(주) 오디오 신호 처리 방법 및 장치
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
EP2272062B1 (en) * 2008-03-26 2012-10-17 Nokia Corporation An audio signal classifier
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
CN101350199A (zh) * 2008-07-29 2009-01-21 北京中星微电子有限公司 音频编码器及音频编码方法
EP2345030A2 (en) * 2008-10-08 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-resolution switched audio encoding/decoding scheme
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US20100253797A1 (en) * 2009-04-01 2010-10-07 Samsung Electronics Co., Ltd. Smart flash viewer
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
CA2862715C (en) * 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
JP5749462B2 (ja) 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
CN102385863B (zh) * 2011-10-10 2013-02-20 杭州米加科技有限公司 一种基于语音音乐分类的声音编码方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
WO2014010175A1 (ja) * 2012-07-09 2014-01-16 パナソニック株式会社 符号化装置及び符号化方法

Also Published As

Publication number Publication date
MX361866B (es) 2018-12-18
JP2017167569A (ja) 2017-09-21
CA2891413C (en) 2019-04-02
MX349196B (es) 2017-07-18
EP2922052B1 (en) 2021-10-13
JP6170172B2 (ja) 2017-07-26
US20180322887A1 (en) 2018-11-08
KR102331279B1 (ko) 2021-11-25
BR112015010954A2 (pt) 2017-08-15
AU2017206243A1 (en) 2017-08-10
MY188080A (en) 2021-11-16
CN104919524A (zh) 2015-09-16
SG10201706626XA (en) 2017-09-28
RU2015122128A (ru) 2017-01-10
CN107958670A (zh) 2018-04-24
CN107958670B (zh) 2021-11-19
KR102561265B1 (ko) 2023-07-28
US20200035252A1 (en) 2020-01-30
WO2014077591A1 (ko) 2014-05-22
EP2922052A1 (en) 2015-09-23
RU2656681C1 (ru) 2018-06-06
AU2017206243B2 (en) 2018-10-04
RU2630889C2 (ru) 2017-09-13
AU2013345615B2 (en) 2017-05-04
TW201443881A (zh) 2014-11-16
PH12015501114A1 (en) 2015-08-10
CA2891413A1 (en) 2014-05-22
SG11201503788UA (en) 2015-06-29
US10468046B2 (en) 2019-11-05
TW201805925A (zh) 2018-02-16
KR20150087226A (ko) 2015-07-29
KR20210146443A (ko) 2021-12-03
TWI648730B (zh) 2019-01-21
JP2015535099A (ja) 2015-12-07
PL2922052T3 (pl) 2021-12-20
AU2013345615A1 (en) 2015-06-18
JP6530449B2 (ja) 2019-06-12
CN104919524B (zh) 2018-01-23
KR20220132662A (ko) 2022-09-30
KR102446441B1 (ko) 2022-09-22
ZA201504289B (en) 2021-09-29
MX2015006028A (es) 2015-12-01
US20140188465A1 (en) 2014-07-03
US11004458B2 (en) 2021-05-11
CN108074579B (zh) 2022-06-24
TWI612518B (zh) 2018-01-21
EP2922052A4 (en) 2016-07-20
EP3933836A1 (en) 2022-01-05
RU2680352C1 (ru) 2019-02-19
CN108074579A (zh) 2018-05-25
BR112015010954B1 (pt) 2021-11-09

Similar Documents

Publication Publication Date Title
ES2900594T3 (es) Procedimiento para determinar un modo de codificación
ES2755166T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
ES2960089T3 (es) Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio
ES2664185T3 (es) Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
ES2732952T3 (es) Decodificador de audio y procedimiento para proporcionar una información de audio decodificada usando un ocultamiento de error basado en una señal de excitación en el dominio del tiempo
ES2924427T3 (es) Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
ES2952973T3 (es) Dispositivo de determinación de la función de ponderación y procedimiento para cuantificar el coeficiente de codificación de predicción lineal
BR122020023793B1 (pt) Método de codificação de um sinal de áudio