ES2762325T3 - Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda - Google Patents

Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda Download PDF

Info

Publication number
ES2762325T3
ES2762325T3 ES13763979T ES13763979T ES2762325T3 ES 2762325 T3 ES2762325 T3 ES 2762325T3 ES 13763979 T ES13763979 T ES 13763979T ES 13763979 T ES13763979 T ES 13763979T ES 2762325 T3 ES2762325 T3 ES 2762325T3
Authority
ES
Spain
Prior art keywords
signal
unit
encoding
band
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13763979T
Other languages
English (en)
Inventor
Ki-Hyun Choo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of ES2762325T3 publication Critical patent/ES2762325T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un procedimiento de generación de información sobre una clase de excitación para extensión de ancho de banda, incluyendo el procedimiento: determinar, en base a un resultado de clasificación de señales, si una trama actual corresponde a una señal de voz (710); generar una información de clase de excitación para la trama actual, en respuesta a que la trama actual corresponde a la señal de voz; cuando la trama actual no corresponde a la señal de voz, obtener tonalidad de la trama actual (730); generar una información de clase de excitación para la trama actual usando la tonalidad y al menos un umbral; y generar un flujo de bits que incluye la información de clase de excitación.

Description

DESCRIPCIÓN
Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda
Antecedentes
1. Campo
Realizaciones ilustrativas se refieren a codificación y decodificación de audio y, más particularmente, a un procedimiento y aparato de codificación y decodificación de una frecuencia alta para extensión de ancho de banda.
2. Descripción de la técnica relacionada
El esquema de codificación en G.719 se desarrolla y normaliza para el fin de teleconferencia y realiza una transformada de dominio de frecuencia realizando una transformada de coseno discreta modificada (MDCT) para codificar directamente un espectro de MDCT para una trama estacionaria y cambiar un orden de solapamiento de dominio de tiempo para una trama no estacionaria para considerar características temporales. Un espectro obtenido para una trama no estacionaria puede construirse de una forma similar a una trama estacionaria realizando intercalado para construir un códec con el mismo marco que la trama estacionaria. Se obtiene, normaliza y cuantifica energía del espectro construido. En general, la energía se representa como un valor cuadrático medio (RMS) y, a partir de un espectro normalizado, el número de bits requerido para cada banda se calcula a través de asignación de bits basada en energía, y se genera un flujo de bits a través de cuantificación y codificación sin pérdida a base de información con respecto a la asignación de bits para cada banda.
De acuerdo con el esquema de decodificación en G.719, como un procedimiento inverso del esquema de codificación, se genera un espectro decuantificado normalizado decuantificando energía de un flujo de bits, generando información de asignación de bits a base de la energía decuantificada, y decuantificando un espectro. Cuando los bits son insuficientes, un espectro decuantificado puede no existir en una banda específica. Para generar ruido para la banda específica, se aplica un procedimiento de relleno de ruido para generar ruido de acuerdo con un nivel de ruido transmitido generando un libro de códigos de ruido a base de un espectro decuantificado de una frecuencia baja. Para una banda de una frecuencia específica o mayor, se aplica un esquema de extensión de ancho de banda para generar una señal de frecuencia alta plegando una señal de frecuencia baja.
El documento EP 2273 493 A1 desvela realizar extensión de ancho de banda, y almacenar información acerca de características de señal en el flujo de bits.
Sumario
La invención se define en las reivindicaciones adjuntas. Todas las siguientes apariciones de la palabra "realización" o "realizaciones", si se refieren a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se presentaron originalmente pero que no representan realizaciones de la invención reivindicada en la actualidad; estos ejemplos se muestran aún para fines de ilustración únicamente.
Realizaciones ilustrativas proporcionan un procedimiento de acuerdo con la reivindicación 1 y un medio de grabación legible por ordenador no transitorio de acuerdo con la reivindicación 3.
Breve descripción de los dibujos
Las anteriores y otras características y ventajas serán más evidentes describiendo en detalle realizaciones ilustrativas de las mismas con referencia a los dibujos adjuntos, en los que:
La Figura 1 ilustra bandas para una señal de frecuencia baja y bandas para una señal de frecuencia alta que se construyen de acuerdo con una realización ilustrativa;
Las Figuras 2A a 2C ilustran clasificación de una región R0 y una región R1 en R4 y R5, y R2 y R3, respectivamente, en correspondencia con esquemas de codificación seleccionados, de acuerdo con una realización ilustrativa; La Figura 3 es un diagrama de bloques de un aparato de codificación de audio de acuerdo con una realización ilustrativa;
La Figura 4 es un diagrama de flujo que ilustra un procedimiento de determinación de R2 y R3 en una región de BWE R1, de acuerdo con una realización ilustrativa;
La Figura 5 es un diagrama de flujo que ilustra un procedimiento de determinación de parámetros de BWE, de acuerdo con una realización ilustrativa;
La Figura 6 es un diagrama de bloques de un aparato de codificación de audio de acuerdo con otra realización ilustrativa;
La Figura 7 es un diagrama de bloques de una unidad de codificación de parámetros de BWE de acuerdo con una realización ilustrativa;
La Figura 8 es un diagrama de bloques de un aparato de decodificación de audio de acuerdo con una realización ilustrativa;
La Figura 9 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con una realización ilustrativa;
La Figura 10 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con otra realización ilustrativa; la Figura 11 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con otra realización ilustrativa;
La Figura 12 es un gráfico de descripción de suavizado de una ponderación en un borde de banda;
La Figura 13 es un gráfico de descripción de una ponderación que es una contribución a usarse para reconstruir un espectro existente en una región de solapamiento, de acuerdo con una realización ilustrativa;
La Figura 14 es un diagrama de bloques de un aparato de codificación de audio de una estructura de conmutación, de acuerdo con una realización ilustrativa;
La Figura 15 es un diagrama de bloques de un aparato de codificación de audio de una estructura de conmutación, de acuerdo con otra realización ilustrativa;
La Figura 16 es un diagrama de bloques de un aparato de decodificación de audio de una estructura de conmutación, de acuerdo con una realización ilustrativa;
La Figura 17 es un diagrama de bloques de un aparato de decodificación de audio de una estructura de conmutación, de acuerdo con otra realización ilustrativa;
La Figura 18 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de codificación, de acuerdo con una realización ilustrativa;
La Figura 19 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de decodificación, de acuerdo con una realización ilustrativa; y
La Figura 20 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de codificación y un módulo de decodificación, de acuerdo con una realización ilustrativa.
Descripción detallada
El presente concepto inventivo puede permitir diversas clases de cambio o modificación y diversos cambios en forma, y se ilustrarán realizaciones ilustrativas específicas en dibujos y se describirán en detalle en la memoria descriptiva.
En la siguiente descripción, no se describen en detalle funciones o construcciones bien conocidas ya que obstaculizarían la invención con un detalle innecesario.
Aunque términos, tales como 'primero' y 'segundo', pueden usarse para describir diversos elementos, los elementos no pueden limitarse por los términos. Los términos pueden usarse para clasificar un cierto elemento de otro elemento.
La terminología usada en la solicitud se usa únicamente para describir realizaciones ilustrativas específicas y no tiene ninguna intención de limitar el presente concepto inventivo. Aunque se seleccionan términos generales como se usan ampliamente en la actualidad tanto como sea posible como los términos usados en el presente concepto inventivo mientras se tienen en cuenta funciones en el presente concepto inventivo, pueden variar de acuerdo con una intención de los expertos en la materia, precedentes judiciales o la aparición de nueva tecnología. Además, en casos específicos, pueden usarse términos seleccionados intencionadamente por el solicitante, y en este caso, el significado de los términos se desvelará en la correspondiente descripción de la invención. Por consiguiente, los términos usados en el presente concepto inventivo deberían definirse no por nombres simples de términos, sino por el significado de los términos y el contenido en el presente concepto inventivo.
Una expresión en singular incluye una expresión en plural, a menos que sean claramente diferentes entre sí en un contexto. En la aplicación, debería entenderse que términos, tales como 'incluye' y 'tiene', se usan para indicar la existencia de características implementada, número, etapa, operación, elemento, parte o una combinación de los mismos sin excluir por adelantado la posibilidad de existencia o adición de una o más otras características, números, etapas, operaciones, elementos, partes o combinaciones de los mismos.
Realizaciones ilustrativas de la presente invención se describirán ahora en detalle con referencia a los dibujos adjuntos. Números de referencia similares en los dibujos indican elementos similares y, por lo tanto, se omitirá su descripción repetitiva.
La Figura 1 ilustra bandas para una señal de frecuencia baja y bandas para una señal de frecuencia alta que se construyen de acuerdo con una realización ilustrativa. De acuerdo con una realización ilustrativa, una tasa de muestreo es 32 KHz, y 640 coeficientes espectrales de transformada de coseno discreta (MDCT) pueden formarse por 22 bandas; en detalle, 17 bandas para la señal de frecuencia baja y 5 bandas para la señal de frecuencia alta. Una frecuencia de inicio de la señal de frecuencia alta es un coeficiente espectral 241°, y los coeficientes espectrales 0° a 240° pueden definirse como R0 como una región a codificarse en un esquema de codificación de frecuencia baja. Además, los coeficientes espectrales 241° al 639° pueden definirse como R1 como una región para la que se realiza extensión de ancho de banda (BWE). En la región R1, también puede existir una banda a codificarse en un esquema de codificación de frecuencia baja.
Las Figuras 2A a 2C ilustran clasificación de la región R0 y la región R1 en R4 y R5, y R2 y R3, respectivamente, en correspondencia con esquemas de codificación seleccionados, de acuerdo con una realización ilustrativa. La región R1 que es una región de BWE puede clasificarse en R2 y R3, y la región R0 que es una región de codificación de frecuencia baja puede clasificarse en R4 y R5. R2 indica una banda que contiene una señal a cuantificar y codificarse sin pérdida en un esquema de codificación de frecuencia baja, por ejemplo, un esquema de codificación de dominio de frecuencia, y R3 indica una banda en las que no hay señales a codificar en un esquema de codificación de frecuencia baja. Sin embargo, incluso aunque R2 se define para asignar bits para codificación en un esquema de codificación de frecuencia baja, una banda R2 puede generarse de la misma forma que una banda R3 debido a la ausencia de bits. R5 indica una banda para la que se realiza codificación en un esquema de codificación de frecuencia baja con bits asignados, y R4 indica una banda para la que no puede realizarse codificación incluso para una señal de frecuencia baja debido a que no hay bits marginales o debería añadirse ruido debido a menos bits asignados. Por lo tanto, R4 y r 5 puede identificarse determinando si se añade ruido, en el que la determinación puede realizarse mediante un porcentaje del número de espectros en una banda con codificación de frecuencia baja, o puede realizarse a base de información de asignación de impulsos en banda cuando se usa codificación de impulsos factorial (FPC). Ya que las bandas R4 y R5 pueden identificarse cuando se añade ruido a las mismas en un procedimiento de decodificación, las bandas R4 y R5 pueden no identificarse claramente en un procedimiento de codificación. Las bandas R2 a R5 pueden tener información mutuamente diferente a codificar, y también pueden aplicarse diferentes esquemas de decodificación a las bandas R2 a R5.
En la ilustración mostrada en la Figura 2A, dos bandas que contienen los coeficientes espectrales 170° al 240° en la región de codificación de frecuencia baja R0 son R4 a las que se añade ruido, y dos bandas que contienen los coeficientes espectrales 241° al 350° y dos bandas que contienen los coeficientes espectrales 427° al 639° en la región de BWE R1 son R2 a codificarse en un esquema de codificación de frecuencia baja. En la ilustración mostrada en la Figura 2B, una banda que contiene los coeficientes espectrales 202° al 240° en la región de codificación de frecuencia baja R0 es R4 a la que se añade ruido, y las cinco bandas que contienen los coeficientes espectrales 241° al 639° en la región de BWE R1 son R2 a codificarse en un esquema de codificación de frecuencia baja. En la ilustración mostrada en la Figura 2C, tres bandas que contienen los coeficientes espectrales 144° al 240° en la región de codificación de frecuencia baja R0 son R4 a las que se añade ruido, y R2 no existe en la región de BWE R1. En general, R4 en la región de codificación de frecuencia baja R0 puede distribuirse en una banda de frecuencia alta, y R2 en la región de BWE R1 puede no limitarse a una banda de frecuencia específica.
La Figura 3 es un diagrama de bloques de un aparato de codificación de audio de acuerdo con una realización ilustrativa.
El aparato de codificación de audio mostrado en la Figura 3 puede incluir una unidad 310 de detección de transitorios, una unidad 320 de transformación, una unidad 330 de extracción de energía, una unidad 340 de codificación de energía, una unidad 350 de cálculo de tonalidad, una unidad 360 de selección de banda de codificación, una unidad 370 de codificación espectral, una unidad 380 de codificación de parámetros de BWE, y una unidad 390 de multiplexación. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado). En la Figura 3, una señal de entrada puede indicar música, voz o una señal mezclada de música y voz y puede dividirse en gran parte una señal de voz y otra señal general. En lo sucesivo, la señal de entrada se denomina como una señal de audio por conveniencia de descripción.
Haciendo referencia a la Figura 3, la unidad 310 de detección de transitorios puede detectar si una señal transitoria o una señal de ataque existe en una señal de audio en un dominio de tiempo. Para este fin, pueden aplicarse diversos procedimientos bien conocidos, por ejemplo, puede usarse un cambio de energía en la señal de audio en el dominio del tiempo. Si se detecta una señal transitoria o una señal de ataque a partir de una trama actual, la trama actual puede definirse como una trama transitoria, y si no se detecta una señal transitoria o una señal de ataque a partir de una trama actual, la trama actual puede definirse como una trama no transitoria, por ejemplo, una trama estacionaria.
La unidad 320 de transformación puede transformar la señal de audio en el dominio del tiempo a un espectro en un dominio de frecuencia a base de un resultado de la detección por la unidad 310 de detección de transitorios. MDCT puede aplicarse como un ejemplo de un esquema de transformación, pero la realización ilustrativa no se limita al mismo. Además, pueden realizarse un procedimiento de transformación y un procedimiento de intercalado para una trama transitoria y una trama estacionaria de la misma forma que en G.719, pero la realización ilustrativa no se limita a los mismos.
La unidad 330 de extracción de energía puede extraer energía del espectro en el dominio de la frecuencia, que se proporciona desde la unidad 320 de transformación. El espectro en el dominio de la frecuencia puede formarse en unidades de banda, y longitudes de bandas pueden ser uniformes o no uniformes. La energía puede indicar energía promedio, potencia promedio, envolvente o norma de cada banda. La energía extraída para cada banda puede proporcionarse a la unidad 340 de codificación de energía y la unidad 370 de codificación espectral.
La unidad 340 de codificación de energía puede cuantificar y codificar sin pérdida la energía de cada banda que se proporciona desde la unidad 330 de extracción de energía. La cuantificación de energía puede realizarse usando diversos esquemas, tal como un cuantificador escalar uniforme, un cuantificador escalar no uniforme, un cuantificador de vectores y similares. La codificación sin pérdida de energía puede realizarse usando diversos esquemas, tal como codificación aritmética, codificación Huffman y similares.
La unidad 350 de cálculo de tonalidad puede calcular una tonalidad para el espectro en el dominio de la frecuencia que se proporciona desde la unidad 320 de transformación. Calculando una tonalidad de cada banda, puede determinarse si una banda actual tiene una característica de tipo tono o una característica de tipo ruido. La tonalidad puede calcularse a base de una medición de planicidad espectral (SFM) o puede definirse mediante una tasa de un pico a una amplitud media como en la Ecuación 1.
( ) _ j¡zs(k)*s(k) ( )
En la Ecuación 1, T(b) indica una tonalidad de una banda b, N indica una longitud de la banda b y S(k) indica un coeficiente espectral en la banda b. T(b) puede usarse cambiándose a un valor de dB.
La tonalidad puede calcularse mediante una suma ponderada de una tonalidad de una correspondiente banda en una trama anterior y una tonalidad de una correspondiente banda en una trama actual. En este caso, la tonalidad T(b) de la banda b puede definirse mediante la Ecuación 2.
T(b) = a0*T(b,n-1) + (1-a0)*T(b,n) (2)
En la Ecuación 2, T(b,n) indica una tonalidad de la banda b en una trama n, y a0 indica una ponderación y puede establecerse a un valor óptimo por adelantado a través de experimentos o simulaciones.
Pueden calcularse tonalidades para bandas que constituyen una señal de frecuencia alta, por ejemplo, las bandas en la región R1 en la Figura 1. Sin embargo, de acuerdo con circunstancias, también pueden calcularse tonalidades para bandas que constituyen una señal de frecuencia baja, por ejemplo, las bandas en la región R0 en la Figura 1. Cuando una longitud espectral en una banda es demasiado larga, ya que puede producirse un error en el cálculo de tonalidad, pueden calcularse tonalidades segmentado la banda, y puede establecerse un valor medio o un valor máximo de las tonalidades calculadas como una tonalidad que representa la banda.
La unidad 360 de selección de banda de codificación puede seleccionar una banda de codificación a base de la tonalidad de cada banda. De acuerdo con una realización ilustrativa, R2 y R3 pueden determinarse para la región de BWE R1 en la Figura 1. Además, R4 y R5 en la región de codificación de frecuencia baja R0 en la Figura 1 puede determinarse considerando bits admisibles.
En detalle, se describirán ahora un procedimiento de selección de una banda de codificación en la región de codificación de frecuencia baja R0.
R5 puede codificarse asignando bits a la misma en un esquema de codificación de dominio de frecuencia. De acuerdo con una realización ilustrativa, para codificar en un esquema de codificación de dominio de frecuencia, puede aplicarse un esquema de FPC, en el que se codifican impulsos a base de bits asignados de acuerdo con información de asignación de bits con respecto a cada banda. Puede usarse energía para la información de asignación de bits, y pueden designarse un gran número de bits para asignarse a una banda que tiene energía alta mientras se asigna un número pequeño de bits a una banda que tiene baja energía. Los bits admisibles pueden limitarse de acuerdo con una tasa de bits objetivo, y ya que bits se asignan en una condición limitada, cuando la tasa de bits objetivo es baja, puede tener más sentido una discriminación de banda entre R4 y R5. Sin embargo, para una trama transitoria, pueden asignarse bits en un procedimiento distinto del de una trama estacionaria. De acuerdo con una realización ilustrativa, para una trama transitoria, pueden establecerse bits para que no se asignen de forma forzosa a las bandas de la señal de frecuencia alta. Es decir, puede mejorarse la calidad de sonido en una tasa de bits objetivo baja no asignando ningún bit a bandas después de una frecuencia específica en una trama transitoria para expresar bien la señal de frecuencia baja. Ningún bit puede asignarse a bandas después de la frecuencia específica en una trama estacionaria. Además, pueden asignarse bits a bandas que tienen energía que excede un umbral predeterminado de entre las bandas de la señal de frecuencia alta en la trama estacionaria. La asignación de bits se realiza a base de energía e información de frecuencia, y ya que se aplica el mismo esquema en una unidad de codificación y una unidad de decodificación, no tiene que incluirse información adicional en un flujo de bits. De acuerdo con una realización ilustrativa, la asignación de bits puede realizarse usando energía que se cuantifica y a continuación decuantifica.
La Figura 4 es un diagrama de flujo que ilustra un procedimiento de determinación de R2 y R3 en la región de BWE R1, de acuerdo con una realización ilustrativa. En el procedimiento descrito con referencia a la Figura 4, R2 indica una banda que contiene una señal codificada en un esquema de codificación de dominio de frecuencia y R3 indica una banda que no contiene ninguna señal codificada en un esquema de codificación de dominio de frecuencia. Cuando todas las bandas que corresponden a R2 se seleccionan en la región de BWE R1, las bandas residuales corresponden a R3. Ya que R2 indica una banda que tiene la característica de tipo tono, R2 tiene una tonalidad de un gran valor. Por el contrario, R2 tiene ruido de un valor pequeño, distinto de la tonalidad.
Haciendo referencia a la Figura 4, se calcula una tonalidad T(b) para cada banda b en la operación 410, y la tonalidad calculada T(b) se compara con un umbral predeterminado Tth0 en la operación 420.
En la operación 430, la banda b de la que la tonalidad calculada T(b) es mayor que el umbral predeterminado Tth0 como un resultado de la comparación en la operación 420 se asigna como R2, y f_flag(b) se establece a 1.
En la operación 440, la banda b de la que la tonalidad calculada T(b) no es mayor que el umbral predeterminado Tth0 como un resultado de la comparación en la operación 420 se asigna como R3, y f_flag(b) se establece a 0.
f_flag(b) que se establece para cada banda b contenida en la región de BWE R1 puede definirse como información de selección de banda de codificación e incluirse en un flujo de bits. La información de selección de banda de codificación puede no incluirse en el flujo de bits.
Haciendo referencia de vuelta a la Figura 3, la unidad 370 de codificación espectral puede realizar codificación de dominio de frecuencia en coeficientes espectrales para las bandas de la señal de frecuencia baja y bandas R2 de las que f_flag(b) se establece a 1 a base de la información de selección de banda de codificación generada por la unidad 360 de selección de banda de codificación. La codificación de dominio de frecuencia puede incluir cuantificación y codificación sin pérdida, y de acuerdo con una realización ilustrativa, puede usarse un esquema de FPC. El esquema de FPC representa ubicación, magnitud e información de signo de coeficientes espectrales codificados como impulsos.
La unidad 370 de codificación espectral puede generar información de asignación de bits a base de la energía para cada banda que se proporciona desde la unidad 330 de extracción de energía, calcular el número de impulsos para FPC a base de bits asignados a cada banda, y codificar el número de impulsos. En este momento, cuando algunas bandas de la señal de frecuencia baja no se codifican o no codifican con un número demasiado bajo de bits debido a la ausencia de bits, pueden existir bandas a las que necesita añadirse ruido en el extremo de decodificación. Estas bandas de la señal de frecuencia baja pueden definirse como R4. Para bandas para las que se realiza decodificación con un número suficiente de bits, no tiene que añadirse ruido para añadirse al extremo de decodificación, y estas bandas de la señal de frecuencia baja pueden definirse como R5. Ya que discriminación entre R4 y R5 para la señal de frecuencia baja en un extremo de codificación no tiene sentido, no tiene que generarse información de selección de banda de codificación separada. El número de impulsos puede calcularse meramente a base de bits asignados a cada banda de entre todos los bits y pueden codificarse.
La unidad 380 de codificación de parámetros de BWE pueden generar parámetros de BWE requeridos para extensión de ancho de banda de frecuencia alta incluyendo información If_att_flag que indica que bandas R4 entre las bandas de la señal de frecuencia baja son bandas a las que necesita añadirse ruido. Los parámetros de BWE requeridos para extensión de ancho de banda de frecuencia alta pueden generarse en el extremo de decodificación ponderando apropiadamente la señal de frecuencia baja y ruido aleatorio. De acuerdo con otra realización ilustrativa, los parámetros de BWE requeridos para extensión de ancho de banda de frecuencia alta puede generarse ponderando apropiadamente una señal, que se obtiene ponderando la señal de frecuencia baja, y ruido aleatorio.
Los parámetros de BWE pueden incluir información all_noise que indica que debería añadirse ruido aleatorio más para la generación de toda la señal de frecuencia alta de una trama actual e información all_If que indica que la señal de frecuencia baja debería enfatizarse más. La información If_att_flag, la información all_noise y la información all_If pueden transmitirse una vez para cada trama, y puede asignarse un bit a cada una de la información If_att_flag, la información all_noise y la información all_If y transmitirse. De acuerdo con circunstancias, la información If_att_flag, la información all_noise y la información all_If pueden separarse y transmitirse para cada banda.
La Figura 5 es un diagrama de flujo que ilustra un procedimiento de determinación de parámetros de BWE, de acuerdo con una realización ilustrativa. En la Figura 5, la banda que contiene los coeficientes espectrales 241° al 290° y la banda que contiene los coeficientes espectrales 521° al 639° en la ilustración de la Figura 2, es decir, la primera banda y la última banda en la región de BWE R1, pueden definirse como Pb y Eb, respectivamente.
Haciendo referencia a la Figura 5, una tonalidad promedio Ta0 en la región de BWE R1 se calcula en la operación 510, y la tonalidad promedio Ta0 se compara con un umbral Tth1 en la operación 520.
En la operación 525, si la tonalidad promedio Ta0 es menor que el umbral Tth1 como un resultado de la comparación en la operación 520, all_noise se establece a 1, y tanto all_If como If_att_flag se establecen a 0 y no se transmiten.
En la operación 530, si la tonalidad promedio Ta0 es mayor que o igual al umbral Tth1 como un resultado de la comparación en la operación 520, all_noise se establece a 0, y all_If e If_att_flag se establecen como se describe a continuación y transmiten.
En la operación 540, la tonalidad promedio Ta0 se compara con un umbral Tth2. El umbral Tth2 es preferentemente menor que el umbral Tth1.
En la operación 545, si la tonalidad promedio Ta0 es mayor que el umbral Tth2 como un resultado de la comparación en la operación 540, all_If se establece a 1 e If_att_flag se establece a 0 y no se transmite.
En la operación 550, si la tonalidad promedio Ta0 es menor que o igual al umbral Tth2 como un resultado de la comparación en la operación 540, all_If se establece a 0 e If_att_flag se establece como se describe a continuación y transmite.
En la operación 560, se calcula una tonalidad promedio Ta1 de bandas antes de Pb. De acuerdo con una realización ilustrativa, pueden considerarse una o cinco bandas anteriores.
En la operación 570, la tonalidad promedio Tal se compara con un umbral Tth3 independientemente de una trama anterior, o la tonalidad promedio Ta1 se compara con un umbral Tth4 cuando se considera If_aff_flag, es decir, p_If_att_flag, de la trama anterior.
En la operación 580, si la tonalidad promedio Ta1 es mayor que el umbral Tth3 como un resultado de la comparación en la operación 570, If_att_flag se establece a 1. En la operación 590, si la tonalidad promedio Ta1 es menor que o igual al umbral Tth3 como un resultado de la comparación en la operación 570, If_att_flag se establece a 0.
Cuando p_If_att_flag se establece a 1, en la operación 580, si la tonalidad promedio Ta1 es mayor que el umbral Tth4, If_att_flag se establece a 1. En este momento, si la trama anterior es una trama transitoria, p_If_att_flag se establece a 0. Cuando p_If_att_flag se establece a 1, en la operación 590, si la tonalidad promedio Ta1 es menor que o igual al umbral Tth4, If_att_flag se establece a 0. El umbral Tth3 es preferentemente mayor que el umbral Tth4.
Cuando existe al menos una banda cuya flag(b) se establece a 1 entre las bandas de la señal de frecuencia alta, all_noise se establece a 0 porque flag(b) establecida a 1 indica que una banda que tiene la característica de tipo tono existe en la señal de frecuencia alta y por lo tanto all_noise no puede establecerse a 1. En este caso, all_noise se transmite como 0, y se genera información con respecto a all_If e If_att_flag realizando las operaciones 540 a 590.
La Tabla 1 a continuación muestra una relación de transmisión de los parámetros de BWE generados por el procedimiento de la Figura 5. En la Tabla 1, cada número indica el número de bits requeridos para transmitir un correspondiente parámetro de BWE, y X indica que no se transmite un correspondiente parámetro de BWE. Los parámetros de BWE, es decir, all_noise, all_If e If_att_flag, pueden tener una correlación con f_flag(b) que es la información de selección de banda de codificación generada por la unidad 360 de selección de banda de codificación. Por ejemplo, cuando all_noise se establece a 1, como se muestra en la Tabla 1, f_flag, all_If e If_att_flag no tienen que transmitirse. Cuando all_noise se establece a 0, debería transmitirse f_flag(b), y debería transmitirse información que corresponde al número de bandas en la región de BWE R1.
Cuando all_If se establece a 0, If_att_flag se establece a 0 y no se transmite. Cuando all_If se establece a 1, If_att_flag necesita transmitirse. La transmisión puede depender de la correlación anteriormente descrita, y la transmisión también puede ser posible sin la correlación dependiente para simplificación de una estructura de códec. Como resultado, la unidad 370 de codificación espectral realiza asignación de bits y codificación para cada banda usando bits residuales restantes excluyendo bits a usarse por los parámetros de BWE e información de selección de banda de codificación a transmitirse desde todos los bits admisibles.
Tabla 1
Figure imgf000007_0001
Haciendo referencia de vuelta a la Figura 3, la unidad 390 de multiplexación puede generar un flujo de bits que incluye la energía para cada banda que se proporciona desde la unidad 340 de codificación de energía, la información de selección de banda de codificación de la región de BWE R1 que se proporciona desde la unidad 360 de selección de banda de codificación, el resultado de codificación de dominio de frecuencia de la región de codificación de frecuencia baja R0 y bandas R2 en la región de BWE R1 que se proporciona desde la unidad 370 de codificación espectral, y los parámetros de BWE que se proporcionan desde la unidad 380 de codificación de parámetros de BWE y pueden almacenar el flujo de bits en un medio de almacenamiento predeterminado o transmitir el flujo de bits al extremo de decodificación.
La Figura 6 es un diagrama de bloques de un aparato de codificación de audio de acuerdo con otra realización ilustrativa. Básicamente, el aparato de codificación de audio de la Figura 6 puede incluir un elemento para generar información de tipo excitación para cada banda, para estimar una ponderación que se aplica para generar una señal de excitación de frecuencia alta en un extremo de decodificación y un elemento para generar un flujo de bits que incluye la información de tipo excitación para cada banda. Algunos elementos también pueden incluirse opcionalmente en el aparato de codificación de audio.
El aparato de codificación de audio mostrado en la Figura 6 puede incluir una unidad 610 de detección de transitorios, una unidad 620 de transformación, una unidad 630 de extracción de energía, una unidad 640 de codificación de energía, una unidad 650 de codificación espectral, una unidad 660 de cálculo de tonalidad, una unidad 670 de codificación de parámetros de BWE y una unidad 680 de multiplexación. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado). En la Figura 6, no se repite la descripción de los mismos componentes que en el aparato de codificación de audio de la Figura 3.
Haciendo referencia a la Figura 6, la unidad 650 de codificación espectral puede realizar codificación de dominio de frecuencia de coeficientes de espectro, para bandas de una señal de frecuencia baja que se proporciona desde la unidad 620 de transformación. Las otras operaciones son las mismas que las de la unidad 370 de codificación espectral.
La unidad 660 de cálculo de tonalidad puede calcular una tonalidad de la región de BWE R1 en unidades de trama.
La unidad 670 de codificación de parámetros de BWE puede generar y codificar información de tipo excitación de BWE o información de clase de excitación usando la tonalidad de la región de BWE R1 que se proporciona desde la unidad 660 de cálculo de tonalidad. De acuerdo con una realización ilustrativa, la información de tipo excitación de BWE puede determinarse considerando primero información de modo de una señal de entrada. La información de tipo excitación de BWE puede transmitirse para cada trama. Por ejemplo, cuando la información de tipo excitación de bW e se forma con dos bits, la información de tipo excitación de bW e puede tener un valor de 0, 1,2 o 3. La información de tipo excitación de BWE puede asignarse de tal forma que una ponderación a añadirse a ruido aleatorio aumenta a medida que la información de tipo excitación de BWE se aproxima a 0 y disminuye a medida que la información de tipo excitación de BWE se aproxima a 3. De acuerdo con una realización ilustrativa, la información de tipo excitación de BWE puede establecerse a un valor cercano a 3 a medida que la tonalidad aumenta y un valor cercano a 0 a medida que la tonalidad disminuye.
La Figura 7 es un diagrama de bloques de una unidad de codificación de parámetros de BWE de acuerdo con una realización ilustrativa. La unidad de codificación de parámetros de BWE mostrada en la Figura 7 puede incluir una unidad 710 de clasificación de señales y una unidad 730 de determinación de tipo de excitación.
Puede aplicarse un esquema de BWE en el dominio de la frecuencia combinándose con una parte de codificación de dominio de tiempo. Puede usarse principalmente un esquema de predicción lineal con excitación por código (CELP) para la codificación de dominio del tiempo, y la unidad de codificación de parámetros de BWE puede implementarse para codificar una banda de frecuencia baja en el esquema de CELP y combinarse con el esquema de BWE en el dominio del tiempo distinto del esquema de BWE en el dominio de la frecuencia. En este caso, un esquema de codificación puede aplicarse selectivamente para toda la codificación a base de determinación de esquema de codificación adaptativo entre codificación de dominio de tiempo y codificación de dominio de frecuencia. Para seleccionar un esquema de codificación apropiado, se requiere clasificación de señales y, de acuerdo con una realización ilustrativa, puede asignarse una ponderación a cada banda usando adicionalmente un resultado de la clasificación de señales.
Haciendo referencia a la Figura 7, la unidad 710 de clasificación de señales puede clasificar si una trama actual es una señal de voz analizando una característica de una señal de entrada en unidades de trama y determinar un tipo de excitación de BWE en respuesta al resultado de clasificación. La clasificación de señales puede procesarse usando diversos procedimientos bien conocidos, por ejemplo, una característica de corto plazo y/o a una característica de largo plazo. Cuando una trama actual se clasifica principalmente a una señal de voz para la que codificación de dominio de tiempo es un esquema de codificación apropiado, un procedimiento de adición de una ponderación de tipo fija puede ser más útil para la mejora de la calidad de sonido que un procedimiento a base de características de una señal de frecuencia alta. Las unidades 1410 y 1510 de clasificación de señales usadas habitualmente para un aparato de codificación de audio de una estructura de conmutación en las Figuras 14 y 15 a describir a continuación pueden clasificar una señal de una trama actual combinando un resultado de una pluralidad de tramas anteriores y un resultado de la trama actual. Por lo tanto, usando únicamente un resultado de clasificación de señales de una trama actual como un resultado intermedio, aunque se aplica finalmente codificación de dominio de frecuencia, cuando se emite que codificación de dominio de tiempo es un esquema de codificación apropiado para la trama actual, puede establecerse una ponderación fija para realizar codificación. Por ejemplo, como se ha descrito anteriormente, cuando la trama actual se clasifica a una señal de voz para la que codificación de dominio de tiempo es apropiada, puede establecerse un tipo de excitación de BWE a, por ejemplo, 2.
Cuando la trama actual no se clasifica a una señal de voz como resultado de la clasificación de la unidad 710 de clasificación de señales, puede determinarse un tipo de excitación de BWE usando una pluralidad de umbrales.
La unidad 730 de determinación de tipo de excitación puede generar cuatro tipos de excitación de BWE de una trama actual que se clasifica para no ser una señal de voz segmentando cuatro regiones de tonalidad promedio con tres umbrales establecidos. La realización ilustrativa no se limita a los cuatro tipos de excitación de BWE, y pueden usarse tres o dos tipos de excitación de BWE de acuerdo con circunstancias, en el que el número y valores de umbrales a usar también puede ajustarse en correspondencia con el número de tipos de excitación de BWE. Puede asignarse una ponderación para cada trama en correspondencia con la información de tipo excitación de BWE. De acuerdo con otra realización ilustrativa, cuando más bits pueden asignarse a la ponderación para cada trama, puede extraerse y transmitirse información de ponderación por banda.
La Figura 8 es un diagrama de bloques de un aparato de decodificación de audio de acuerdo con una realización ilustrativa.
El aparato de decodificación de audio de la Figura 8 puede incluir un elemento para estimar una ponderación, y un elemento para generar una señal de excitación de frecuencia alta aplicando la ponderación entre ruido aleatorio y un espectro de frecuencia baja decodificado. También pueden incluirse opcionalmente algunos elementos en el aparato de decodificación de audio.
El aparato de decodificación de audio mostrado en la Figura 8 puede incluir una unidad 810 de demultiplexación, una unidad 820 de decodificación de energía, una unidad 830 de decodificación de parámetros de BWE, una unidad 840 de decodificación espectral, una primera unidad 850 de normalización inversa, una unidad 860 de adición de ruido, una unidad 870 de generación de señales de excitación, una segunda unidad 880 de normalización inversa y una unidad 890 de transformación inversa. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado).
Haciendo referencia a en la Figura 8, la unidad 810 de demultiplexación puede extraer energía codificada para cada banda, un resultado de codificación de dominio de frecuencia de la región de codificación de frecuencia baja R0 y bandas R2 en la región de BWE R1 y parámetros de BWE analizando un flujo de bits. En este momento, de acuerdo con una correlación entre información de selección de banda de codificación y los parámetros de BWE, la información de selección de banda de codificación puede analizarse mediante la unidad 810 de demultiplexación o la unidad 830 de decodificación de parámetros de bW e .
La unidad 820 de decodificación de energía puede generar energía decuantificada para cada banda decodificando la energía codificada para cada banda que se proporciona desde la unidad 810 de demultiplexación. La energía decuantificada para cada banda puede proporcionarse a la primera y segunda unidades 850 y 880 de normalización inversa. Además, la energía decuantificada para cada banda puede proporcionarse a la unidad 840 de decodificación espectral para asignación de bits, de forma similar al extremo de codificación.
La unidad 830 de decodificación de parámetros de BWE puede decodificar los parámetros de BWE que se proporcionan desde la unidad 810 de demultiplexación. En este momento, cuando f_flag(b), que es la información de selección de banda de codificación, tiene una correlación con los parámetros de BWE, por ejemplo, all_noise, la unidad 830 de decodificación de parámetros de BWE puede decodificar la información de selección de banda de codificación junto con los parámetros de BWE. De acuerdo con una realización ilustrativa, cuando la información all_noise, la información f_flag, la información all_If y la información If_att_flag tienen una correlación como se muestra en la Tabla 1, la decodificación puede realizarse secuencialmente. La correlación puede cambiarse de otra manera, y en un caso cambiado, la decodificación puede realizarse secuencialmente en un esquema adecuado para el caso cambiado. Como un ejemplo de la Tabla 1, all_noise se analiza primero para comprobar si all_noise es 1 o 0. Si all_noise es 1, la información f_flag, la información all_If y la información If_att_flag se establecen a 0. Si all_noise es 0, la información f_flag se analiza tantas veces como el número de bandas en la región de BWE R1, y a continuación se analiza la información a ll jf . Si all_If es 0, If_att_flag se establece a 0, y si all_If es 1, se analiza If_att_flag.
Cuando f_flag(b) que es la información de selección de banda de codificación no tiene una correlación con los parámetros de BWE, la información de selección de banda de codificación puede analizarse como el flujo de bits mediante la unidad 810 de demultiplexación y proporcionarse a la unidad 840 de decodificación espectral junto con el resultado de codificación de dominio de frecuencia de la región de codificación de frecuencia baja R0 y las bandas R2 en la región de BWE R1.
La unidad 840 de decodificación espectral puede decodificar el resultado de codificación de dominio de frecuencia de la región de codificación de frecuencia baja R0 y puede decodificar el resultado de codificación de dominio de frecuencia de las bandas R2 en la región de BWE R1 en correspondencia con la información de selección de banda de codificación. Para este fin, la unidad 840 de decodificación espectral puede usar la energía decuantificada para cada banda que se proporciona desde la unidad 820 de decodificación de energía y asignar bits a cada banda usando bits residuales restantes excluyendo bits usados para los parámetros de BWE analizados e información de selección de banda de codificación desde todos los bits admisibles. Para decodificación espectral, pueden realizarse decodificación sin pérdida y decuantificación, y de acuerdo con una realización ilustrativa, puede usarse FPC. Es decir, la decodificación espectral puede realizarse usando los mismos esquemas usados para la codificación espectral en el extremo de codificación.
Una banda en la región de BWE R1 a la que se asignan bits y, por lo tanto, se asignan impulsos reales ya que f_flag(b) se establece a 1 se clasifica a una banda R2, y una banda en la región de BWE R1 a la que no se asignan bits ya que f_flag(b) se establece a 0 se clasifica a una banda R3. Sin embargo, puede existir una banda en la región de bW e R1, de tal forma que el número de impulsos codificados en el esquema de FPC es 0 ya que no pueden asignarse bits a la banda incluso aunque debería realizarse decodificación espectral para la banda ya que f_flag(b) se establece a 1. Una banda de este tipo para la que no puede realizarse codificación incluso aunque la banda es una banda R2 establecida para realizar codificación de dominio de frecuencia puede clasificarse a una banda R3 en lugar de una banda R2 y procesarse de la misma forma que un caso en el que f_flag(b) se establece a 0.
La primera unidad 850 de normalización inversa puede normalizar inversamente el resultado de codificación de dominio de frecuencia que se proporciona desde la unidad 840 de decodificación espectral usando la energía decuantificada para cada banda que se proporciona desde la unidad 820 de decodificación de energía. La normalización inversa puede corresponder a un procedimiento de igualación de energía espectral decodificada con energía para cada banda. De acuerdo con una realización ilustrativa, la normalización inversa puede realizarse para la región de codificación de frecuencia baja R0 y las bandas R2 en la región de BWE R1.
La unidad 860 de adición de ruido puede comprobar cada banda de un espectro decodificado en la región de codificación de frecuencia baja R0 y separar la banda como una de bandas R4 y R5. En este momento, puede no añadirse ruido a una banda separada como R5, y puede añadirse ruido a una banda separada como R4. De acuerdo con una realización ilustrativa, un nivel de ruido a usarse cuando se añade ruido puede determinarse a base de la densidad de impulsos existentes en una banda. Es decir, el nivel de ruido puede determinarse a base de energía de impulsos codificada, y puede generarse energía aleatoria usando el nivel de ruido. De acuerdo con otra realización ilustrativa, un nivel de ruido puede transmitirse desde el extremo de codificación. Un nivel de ruido puede ajustarse a base de la información If_att_flag. De acuerdo con una realización ilustrativa, si una condición predeterminada se satisface como se describe a continuación, un nivel de ruido NI puede actualizarse mediante Att_factor.
if (all_noise==0 && all_If==1 && If_att_flag==1)
{ni_gain = ni_coef * NI * Att_factor;
}
else
{ni_gain = ni_coef * Ni;
}
en la que ni_gain indica una ganancia a aplicarse a ruido final, ni_coef indica una semilla aleatoria y Att_factor indica una constante de ajuste.
La unidad 870 de generación de señales de excitación puede generar una señal de excitación de frecuencia alta usando un espectro de frecuencia baja decodificado que se proporciona desde la unidad 860 de adición de ruido en correspondencia con la información de selección de banda de codificación con respecto a cada banda en la región de BWE R1.
La segunda unidad 880 de normalización inversa puede normalizar inversamente la señal de excitación de frecuencia alta que se proporciona desde la unidad 870 de generación de señales de excitación usando la energía decuantificada para cada banda que se proporciona desde la unidad 820 de decodificación de energía, para generar un espectro de frecuencia alta. La normalización inversa puede corresponder a un procedimiento de igualación de energía en la región de BWE R1 con energía para cada banda.
La unidad 890 de transformación inversa puede generar una señal decodificada en el dominio del tiempo transformado inversamente el espectro de frecuencia alta que se proporciona desde la segunda unidad 880 de normalización inversa.
La Figura 9 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con una realización ilustrativa, en el que la unidad de generación de señales de excitación puede generar una señal de excitación para una banda R3 en la región de BWE R1, es decir, una banda a la que no se asignan bits.
La unidad de generación de señales de excitación mostrada en la Figura 9 puede incluir una unidad 910 de asignación de ponderación, una unidad 930 de generación de señal de ruido y una unidad 950 de cálculo. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado).
Haciendo referencia a la Figura 9, la unidad 910 de asignación de ponderación puede asignar una ponderación para cada banda. La ponderación indica una relación mezclada de una señal de ruido de frecuencia alta (HF), que se genera a base de una señal de frecuencia baja decodificada y ruido aleatorio, al ruido aleatorio. En detalle, una señal de excitación de HF He(f,k) puede representarse mediante la Ecuación 3.
He(f,k) = (1 -Ws(f,k)) * Hn(f,k) Ws(f,k) * Rn(f,k) (3)
En la Ecuación 3, Ws(f,k) indica una ponderación, f indica un índice de frecuencia, k indica un índice de banda, Hn indica una señal de ruido de HF y Rn indica ruido aleatorio.
Aunque una ponderación Ws(f,k) tiene el mismo valor en una banda, la ponderación Ws(f,k) puede procesarse para suavizarse de acuerdo con una ponderación de una banda adyacente un límite de banda.
La unidad 910 de asignación de ponderación puede asignar una ponderación para cada banda usando los parámetros de BWE y la información de selección de banda de codificación, por ejemplo, la información all_noise, la información all_If, la información If_att_flag, y la información f_flag. En detalle, cuando all_noise=1, la ponderación se asigna como Ws(k) = w0 (para todos los k). Cuando all_noise=0, la ponderación se asigna para bandas R2 como Ws(k) = w4. Además, para bandas R3, cuando all_noise=0, all_If=1 e If_att_flag=1, la ponderación se asigna como Ws(k) = w3, cuando all_noise=0, all_If=1 e If_att_flag=0, la ponderación se asigna como Ws(k) = w2, y en los otros casos, la ponderación se asigna como Ws(k) = w1. De acuerdo con una realización ilustrativa, puede asignarse que w0=1, w1=0,65, w2=0,55, w3=0,4, w4=0. Puede establecerse preferentemente para disminuir gradualmente desde w0 a w4.
La unidad 910 de asignación de ponderación puede suavizar la ponderación asignada Ws(k) para cada banda considerando ponderaciones Ws(k-1) y Ws(k+1) de bandas adyacentes. Como resultado del suavizado, la ponderación Ws(f,k) de una banda k puede tener un valor diferente de acuerdo con una frecuencia f.
La Figura 12 es un gráfico de descripción de suavizado de una ponderación en un límite de banda. Haciendo referencia a la Figura 12, ya que una ponderación de una (K+2)ésima banda y una ponderación de una (K+1)ésima banda son diferentes entre sí, es necesario suavizado en un límite de banda. En el ejemplo de la Figura 12, no se realiza suavizado para la (K+1)ésima banda y se realiza únicamente para la (K+2)ésima banda porque una ponderación Ws(K+1) de la (K+1)ésima banda es 0, y cuando se realiza suavizado para la (K+1)ésima banda, la ponderación Ws(K+1) de la (K+1)ésima banda no es cero y, en este caso, también debería considerarse ruido aleatorio en la (K+1)ésima banda. Es decir, una ponderación de 0 indica que no se considera ruido aleatorio en una correspondiente banda cuando se genera una señal de excitación de Hf . La ponderación de 0 corresponde a una señal de tono extrema, y no se considera ruido aleatorio para evitar que se genere un sonido de ruido mediante ruido insertado en una duración valle de una señal armónica debido al ruido aleatorio.
La ponderación Ws(f,k) determinada por la unidad 910 de asignación de ponderación puede proporcionarse a la unidad 950 de cálculo y puede aplicarse a la señal de ruido de HF Hn y el ruido aleatorio Rn.
La unidad 930 de generación de señal de ruido puede generar una señal de ruido de HF y puede incluir una unidad 931 de blanqueo y una unidad 933 de generación de ruido de HF.
La unidad 931 de blanqueo puede realizar blanqueo de un espectro de frecuencia baja decuantificado. Pueden aplicarse diversos procedimientos bien conocidos para el blanqueo. Por ejemplo, un procedimiento de segmentación del espectro de frecuencia baja decuantificado en una pluralidad de bloques uniformes, que obtiene un promedio de valores absolutos de coeficientes espectrales para cada bloque, y divide los coeficientes espectrales en cada bloque por el promedio.
La unidad 933 de generación de ruido de HF puede generar una señal de ruido de HF duplicando el espectro de frecuencia baja proporcionado desde la unidad 931 de blanqueo a una banda de frecuencia alta, es decir, la región de BWE R1, e igualando un nivel a ruido aleatorio. El procedimiento de duplicación a la banda de frecuencia alta puede realizarse parcheando, plegando o copiando con reglas preestablecidas del extremo de codificación y el extremo de decodificación y puede aplicarse de forma variable de acuerdo con una tasa de bits. El nivel de igualación indica igualación de un promedio de ruido aleatorio con un promedio de una señal obtenida duplicando la señal procesada por blanqueo en una banda de frecuencia alta para todas las bandas en la región de BWE R1. De acuerdo con una realización ilustrativa, el promedio de la señal obtenida duplicando la señal procesada por blanqueo a una banda de frecuencia alta puede establecerse para ser un poco mayor que el promedio de ruido aleatorio porque puede considerarse que ruido aleatorio tiene una característica plana ya que ruido aleatorio es una señal aleatoria, y ya que una señal de frecuencia baja (LF) puede tener un intervalo dinámico relativamente ancho, aunque se iguala un promedio de magnitudes, puede generarse poca energía.
La unidad 950 de cálculo puede generar una señal de excitación de HF para cada banda aplicando una ponderación al ruido aleatorio y la señal de ruido de HF. La unidad 950 de cálculo puede incluir primer y segundo multiplicadores 951 y 953 y un sumador 955. El ruido aleatorio puede generarse en diversos procedimientos bien conocidos, por ejemplo, usando una semilla aleatoria.
El primer multiplicador 951 multiplica el ruido aleatorio por una primera ponderación Ws(k), el segundo multiplicador 953 multiplica la señal de ruido de HF por una segunda ponderación 1-Ws(k), y el sumador 955 añade el resultado de multiplicación del primer multiplicador 951 y el resultado de multiplicación del segundo multiplicador 953 para generar una señal de excitación de h F para cada banda.
La Figura 10 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con otra realización ilustrativa, en el que la unidad de generación de señales de excitación puede generar una señal de excitación para una banda R2 en la región de BWE R1, es decir, una banda a la que se asignan bits.
La unidad de generación de señales de excitación mostrada en la Figura 10 puede incluir una unidad 1010 de cálculo de parámetro de ajuste, una unidad 1030 de generación de señal de ruido, una unidad 1050 de ajuste de nivel y una unidad 1060 de cálculo. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado).
Haciendo referencia a la Figura 10, ya que la banda R2 tiene impulsos codificados por FPC, puede añadirse adicionalmente ajuste de nivel a la generación de una señal de excitación de HF usando una ponderación. Ruido aleatorio no se añade a la banda R2 para la que se ha realizado codificación de dominio de frecuencia. La Figura 10 ilustra un caso en el que la ponderación Ws(k) es 0, y cuando la ponderación Ws(k) no es cero, se genera una señal de ruido de HF de la misma forma que en la unidad 930 de generación de señal de ruido de la Figura 9, y la señal de ruido de HF generada se correlaciona como una salida de la unidad 1030 de generación de señal de ruido de la Figura 10. Es decir, la salida de la unidad 1030 de generación de señal de ruido de la Figura 10 es la misma que una salida de la unidad 930 de generación de señal de ruido de la Figura 9.
La unidad 1010 de cálculo de parámetro de ajuste calcula un parámetro a usarse para ajuste de nivel. Cuando una señal de FPC decuantificada para la banda R2 se define como C(k), se selecciona un valor máximo de un valor absoluto a partir de C(k), el valor seleccionado se define como Ap, y se define una posición de un valor distinto de cero como resultado de FPC como CPs. Energía de una señal N(k) (la salida de la unidad 1030 de generación de señal de ruido se obtiene en una posición distinta de CPs y se define como En. Puede obtenerse un parámetro de ajuste y usando la Ecuación 4 a base de En, Ap y Tth0 que se usa para establecer f_flag(b) en codificación.
Figure imgf000012_0001
En la Ecuación 4, att_factor indica una constante de ajuste.
La unidad 1060 de cálculo puede generar una señal de excitación de HF multiplicando el parámetro de ajuste y por la señal de ruido N(k) proporcionada desde la unidad 1030 de generación de señal de ruido.
La Figura 11 es un diagrama de bloques de una unidad de generación de señales de excitación de acuerdo con otra realización ilustrativa, en el que la unidad de generación de señales de excitación puede generar una señal de excitación para todas las bandas en la región de BWE R1.
La unidad de generación de señales de excitación mostrada en la Figura 11 puede incluir una unidad 1110 de asignación de ponderación, una unidad 1130 de generación de señal de ruido y una unidad 1150 de cálculo. Los componentes pueden integrarse en al menos un módulo e implementarse mediante al menos un procesador (no mostrado). Ya que la unidad de generación de señal de ruido 1130 y la unidad de cálculo 1150 son las mismas que la unidad 930 de generación de señal de ruido y la unidad 950 de cálculo de la Figura 9, no se repite la descripción de las mismas.
Haciendo referencia a la Figura 11, la unidad de asignación de ponderación 1110 puede asignar una ponderación para cada trama. La ponderación indica una relación mezclada de una señal de ruido de HF, que se genera a base de una señal de LF decodificada y ruido aleatorio, al ruido aleatorio.
La unidad de asignación de ponderación 1110 recibe información de tipo excitación de BWE analizada a partir de un flujo de bits. La unidad de asignación de ponderación 1110 establece Ws(k)=w00 (para todos los k) cuando un tipo de excitación de BWE es 0, establece Ws(k)=w01 (para todos los k) cuando el tipo de excitación de BWE es 1, establece Ws(k)=w02 (para todos los k) cuando el tipo de excitación de BWE es 2, y establece Ws(k)=w03 (para todos los k) cuando el tipo de excitación de BWE es 3. De acuerdo con una realización de la presente invención, puede asignarse que w00=0,8, w01=0,5, w02=0,25 y w03=0,05. Puede establecerse para descender gradualmente desde w00 a w03. Análogamente, puede realizarse suavizado para la ponderación asignada.
Puede aplicarse una misma ponderación preestablecida a bandas después de una frecuencia especifica en la región de BWE R1 independientemente de la información de tipo excitación de BWE. De acuerdo con una realización ilustrativa, puede usarse siempre una misma ponderación para una pluralidad de bandas que incluyen la última banda después de la frecuencia específica en la región de BWE R1, y puede generarse una ponderación para bandas antes de la frecuencia específica a base de la información de tipo excitación de BWE. Por ejemplo, para bandas a las que pertenecen las frecuencias de 12 KHz o superiores, w02 puede asignarse a todos los valores de Ws(k). Como resultado, ya que una región de bandas para la que se obtiene un valor promedio de tonalidades para determinar un tipo de excitación de BWE en el extremo de codificación puede limitarse a una frecuencia específica o por debajo incluso en la región de BWE R1, puede reducirse la complejidad de cálculos. De acuerdo con una realización ilustrativa, para una frecuencia específica o por debajo, es decir una parte de frecuencia baja en la región de BWE R1, el tipo de excitación puede determinarse por medio de un promedio de tonalidades y el tipo de excitación determinado también puede aplicarse a la frecuencia específica o mayor, es decir una parte de frecuencia alta en la región de BWE R1. Es decir, ya que únicamente se transmite una pieza de información de clase de excitación en unidades de trama, cuando una región para estimar información de clase de excitación es estrecha, puede aumentarse la precisión tanto como la región estrecha, mejorando de este modo calidad de sonido restaurada. Para una banda de frecuencia alta en la región de BWE R1, la posibilidad de degradación de calidad de sonido puede ser pequeña incluso aunque se aplique una misma clase de excitación. Además, cuando se transmite información de tipo excitación de BWE para cada banda, pueden reducirse los bits a usarse para indicar la información de tipo excitación de BWE.
Cuando un esquema, por ejemplo, un esquema de cuantificación de vector (VQ), distinto de un esquema de transmisión de energía de una frecuencia baja se aplica a energía de una frecuencia alta, energía de la frecuencia baja puede transmitirse usando codificación sin pérdida después de cuantificación escalar, y la energía de la frecuencia alta puede transmitirse después de cuantificación en otro esquema. En este caso, la última banda en la región de codificación de frecuencia baja R0 y la primera banda en la región de BWE R1 pueden solaparse entre sí. Además, las bandas en la región de bW e R1 pueden configurarse en otro esquema para tener una estructura de asignación de banda relativamente densa.
Por ejemplo, puede configurarse que la última banda en la región de codificación de frecuencia baja R0 finalice en 8,2 KHz y la primera banda en la región de BWE R1 comience a partir de 8 KHz. En este caso, existe una región de solapamiento entre la región de codificación de frecuencia baja R0 y la región de BWE R1. Como resultado, pueden generarse dos espectros decodificados en la región de solapamiento. Uno es un espectro generado aplicando un esquema de decodificación para una frecuencia baja, y el otro es un espectro generado aplicando un esquema de decodificación para una frecuencia alta. Puede aplicarse un esquema de solapado y adición de modo que se suaviza más la transición entre los dos espectros, es decir, el espectro decodificado de la frecuencia baja y el espectro decodificado de la frecuencia alta. Es decir, la región de solapamiento puede reconfigurarse usando simultáneamente los dos espectros, en la que se aumenta una contribución de un espectro generado en un esquema de frecuencia baja para un espectro cercano a la frecuencia baja en la región de solapamiento, y se aumenta una contribución de un espectro generado en un esquema de frecuencia alta para un espectro cercano a la frecuencia alta en la región de solapamiento.
Por ejemplo, cuando la última banda en la región de codificación de frecuencia baja R0 finaliza en 8,2 KHz y la primera banda en la región de BWE R1 comienza a partir de 8 KHz, si se construyen 640 espectros muestreados a una tasa de muestreo de 32 KHz, se solapan ocho espectros, es decir, los espectros 320° al 327°, y los ocho espectros pueden generarse usando la Ecuación 5.
S(k) = 5l(k) X Wo(k - L0) (1 - Wo(k - L0)) X Sh(k) (5)
en la que L0<k<L1. En la Ecuación 5, 5l(k) indica un espectro decodificado en un esquema de frecuencia baja, 5h(k) indica un espectro decodificado en un esquema de frecuencia alta, L0 indica una posición de un espectro de inicio de una frecuencia alta, L0~L1 indica una región de solapamiento y Wo indica una contribución.
La Figura 13 es un gráfico de descripción de una contribución a usarse para generar un espectro existente en una región de solapamiento después de procesamiento de BWE en el extremo de decodificación, de acuerdo con una realización ilustrativa.
Haciendo referencia a la Figura 13, Woo(k) y w0i(k) pueden aplicarse selectivamente a Wo(k), en la que woo(k) indica que se aplica la misma ponderación a esquemas de decodificación LF y HF, y woi(k) indica que se aplica una ponderación mayor al esquema de decodificación de HF. Un criterio de selección para Wo(k) es si impulsos que usan FPC se han seleccionado en una banda solapante de una frecuencia baja. Cuando se han seleccionado y codificado impulsos en la banda solapante de la frecuencia baja, se usa Woo(k) para hacer una contribución para un espectro generado en la frecuencia baja válida hasta la vecindad de L1, y se disminuye una contribución de una frecuencia alta. Básicamente, un espectro generado en un esquema de codificación real puede tener mayor proximidad a una señal original que un espectro de una señal generada por BWE. Usando esto, en una banda solapante, puede aplicarse un esquema para aumentar una contribución de un espectro más cercano a una señal original y, por consiguiente, puede esperarse un efecto de suavizado y mejora de calidad de sonido.
La Figura 14 es un diagrama de bloques de un aparato de codificación de audio de una estructura de conmutación, de acuerdo con una realización ilustrativa.
El aparato de codificación de audio mostrada en la Figura 14 puede incluir una unidad 1410 de clasificación de señales, una unidad 1420 de codificación de dominio de tiempo (TD), una unidad 1430 de codificación de extensión de TD, una unidad 1440 de codificación de dominio de frecuencia (FD) y una unidad 1450 de codificación de extensión de FD.
La unidad 1410 de clasificación de señales puede determinar un modo de codificación de una señal de entrada haciendo referencia a una característica de la señal de entrada. La unidad 1410 de clasificación de señales puede determinar un modo de codificación de la señal de entrada considerando una característica de TD y una característica de FD de la señal de entrada. Además, la unidad 1410 de clasificación de señales puede determinar que codificación de TD de la señal de entrada se realiza cuando la característica de la señal de entrada corresponde a una señal de voz y que se realiza codificación de FD de la señal de entrada cuando la característica de la señal de entrada corresponde a una señal de audio distinta de una señal de voz.
La señal de entrada introducida en la unidad 1410 de clasificación de señales puede ser una señal muestreada descendentemente mediante una unidad de muestreo descendente (no mostrada). De acuerdo con una realización ilustrativa, la señal de entrada puede ser una señal que tiene una tasa de muestreo de 12,8 KHz o 16 KHz, que se obtiene remuestreando una señal que tiene una tasa de muestreo de 32 KHz o 48 KHz. En este caso, la señal que tiene una tasa de muestreo de 32 KHz puede ser una señal de banda superancha (SWB) que puede ser una señal de banda completa (FB). Además, la señal que tiene una tasa de muestreo de 16 KHz puede ser una señal de banda ancha (Wb ).
Por consiguiente, la unidad 1410 de clasificación de señales puede determinar un modo de codificación de una señal LF existente en una región de LF de la señal de entrada como uno cualquiera de un modo de TD y un como de FD haciendo referencia a una característica de la señal de LF.
La unidad 1420 de codificación de TD puede realizar codificación de CELP en la señal de entrada cuando el modo de codificación de la señal de entrada se determina como el modo de TD. La unidad 1420 de codificación de TD puede extraer una señal de excitación de la señal de entrada y cuantificar la señal de excitación extraída considerando contribución de libro de códigos adaptativo y contribución de libro de códigos fijo que corresponden a información de altura.
De acuerdo con otra realización ilustrativa, la unidad 1420 de codificación de TD puede incluir adicionalmente extraer un coeficiente de predicción lineal (LPC) de la señal de entrada, cuantificar el LPC extraído, y extraer una señal de excitación usando el LPC cuantificado.
Además, la unidad 1420 de codificación de TD puede realizar la codificación de CELP en diversos modos de codificación de acuerdo con características de la señal de entrada. Por ejemplo, la unidad 1420 de codificación de TD puede realizar la codificación de CELP en la señal de entrada en uno cualquiera de un modo de codificación con voz, un modo de codificación sin voz, un modo de transición y un modo de codificación genérico.
La unidad 1430 de codificación de extensión de TD puede realizar codificación de extensión en una señal de HF en la señal de entrada cuando la codificación de CELP se realiza en la señal de LF en la señal de entrada. Por ejemplo, la unidad 1430 de codificación de extensión de TD puede cuantificar un LPC de la señal de HF que corresponde a una región de HF de la señal de entrada. En este momento, la unidad 1430 de codificación de extensión de TD puede extraer el LPC de la señal de HF en la señal de entrada y cuantificar el LPC extraído. De acuerdo con una realización ilustrativa, la unidad 1430 de codificación de extensión de TD puede generar el LPC de la señal de HF en la señal de entrada usando la señal de excitación de la señal de LF en la señal de entrada.
La unidad 1440 de codificación de FD puede realizar codificación de FD en la señal de entrada cuando el modo de codificación de la señal de entrada se determina como el modo de FD. Para este fin, la unidad 1440 de codificación de FD puede transformar la señal de entrada a un espectro de frecuencia en el dominio de la frecuencia usando MDCT o similar y cuantificar y codificar sin pérdida el espectro de frecuencia transformado. De acuerdo con una realización ilustrativa, puede aplicarse FPC a la misma.
La unidad 1450 de codificación de extensión de FD puede realizar codificación de extensión en la señal de HF en la señal de entrada. De acuerdo con una realización ilustrativa, la unidad 1450 de codificación de extensión de FD puede realizar extensión de FD usando un espectro de LF.
La Figura 15 es un diagrama de bloques de un aparato de codificación de audio de una estructura de conmutación, de acuerdo con otra realización ilustrativa.
El aparato de codificación de audio mostrada en la Figura 15 puede incluir una unidad 1510 de clasificación de señales, una unidad 1520 de codificación de LPC, una unidad 1530 de codificación de TD, una unidad 1540 de codificación de extensión de TD, una unidad 1550 de codificación de audio y una unidad 1560 de codificación de extensión de FD.
Haciendo referencia a la Figura 15, la unidad 1510 de clasificación de señales puede determinar un modo de codificación de una señal de entrada haciendo referencia a una característica de la señal de entrada. La unidad 1510 de clasificación de señales puede determinar un modo de codificación de la señal de entrada considerando una característica de TD y una característica de FD de la señal de entrada. La unidad 1510 de clasificación de señales puede determinar que se realiza codificación de TD de la señal de entrada cuando la característica de la señal de entrada corresponde a una señal de voz y que se realiza codificación de audio de la señal de entrada cuando la característica de la señal de entrada corresponde a una señal de audio distinta de una señal de voz.
La unidad 1520 de codificación de LPC puede extraer un LPC de la señal de entrada y cuantifica el LPC extraído. De acuerdo con una realización ilustrativa, la unidad 1520 de codificación de LPC puede cuantificar el LPC usando un esquema de cuantificación con codificación reticular (TCQ), un esquema de cuantificación vectorial de múltiples etapas (MSVQ), un esquema de cuantificación vectorial en rejilla (LVQ) o similar, pero no se limita a los mismos.
En detalle, la unidad 1520 de codificación de LPC puede extraer el LPC de una señal de LF en la señal de entrada, que tiene una tasa de muestreo de 12,8 KHz o 16 KHz, remuestreando la señal de entrada que tiene una tasa de muestreo de 32 KHz o 48 KHz. La unidad 1520 de codificación de LPC puede incluir adicionalmente extraer una señal de excitación de LPC usando el LPC cuantificado.
La unidad 1530 de codificación de TD puede realizar codificación de CELP en la señal de excitación de LPC extraída usando el LPC cuando el modo de codificación de la señal de entrada se determina como el modo de TD. Por ejemplo, la unidad 1530 de codificación de TD puede cuantificar la señal de excitación de LPC considerando contribución de libro de códigos adaptativo y contribución de libro de códigos fijo que corresponde a información de altura. La señal de excitación de LPC puede generarse mediante al menos una de la unidad 1520 de codificación de LPC y la unidad 1530 de codificación de TD.
La unidad 1540 de codificación de extensión de TD puede realizar codificación de extensión en una señal de HF en la señal de entrada cuando la codificación de CELP se realiza en la señal de excitación de LPC de la señal de LF en la señal de entrada. Por ejemplo, la unidad 1540 de codificación de extensión de TD puede cuantificar un LPC de la señal de HF en la señal de entrada. De acuerdo con una realización de la presente invención, la unidad 1540 de codificación de extensión de TD puede extraer el LPC de la señal de HF en la señal de entrada usando la señal de excitación de LPC de la señal de LF en la señal de entrada.
La unidad 1550 de codificación de audio puede realizar codificación de audio en la señal de excitación de LPC extraída usando el LPC cuando el modo de codificación de la señal de entrada se determina como el modo de audio. Por ejemplo, la unidad 1550 de codificación de audio puede transformar la señal de excitación de LPC extraída usando el LPC a un espectro de excitación de LPC en el dominio de la frecuencia y cuantifica el espectro de excitación de LPC transformado. La unidad 1550 de codificación de audio puede cuantificar el espectro de excitación de LPC, que se ha transformado en el dominio de la frecuencia, en el esquema de FPC o el esquema de LVQ.
Además, la unidad 1550 de codificación de audio puede cuantificar el espectro de excitación de LPC considerando adicionalmente información de codificación de TD, tal como contribución de libro de códigos adaptativo y contribución de libro de códigos fijo, cuando existen bits marginales en la cuantificación del espectro de excitación de LPC.
La unidad 1560 de codificación de extensión de FD puede realizar codificación de extensión en la señal de HF en la señal de entrada cuando la codificación de audio se realiza en la señal de excitación de LPC de la señal de LF en la señal de entrada. Es decir, la unidad 1560 de codificación de extensión de FD puede realizar codificación de extensión de HF usando un espectro de LF.
Las unidades 1450 y 1560 de codificación de extensión de FD pueden implementarse mediante el aparato de codificación de audio de la Figura 3 o 6.
La Figura 16 es un diagrama de bloques de un aparato de decodificación de audio de una estructura de conmutación, de acuerdo con una realización ilustrativa.
Haciendo referencia a la Figura 16, el aparato de decodificación de audio puede incluir una unidad 1610 de comprobación de información de modo, una unidad 1620 de decodificación de TD, una unidad 1630 de decodificación de extensión de TD, una unidad 1640 de decodificación de FD y una unidad 1650 de decodificación de extensión de FD.
La unidad 1610 de comprobación de información de modo puede comprobar información de modo de cada una de las tramas incluidas en un flujo de bits. La unidad 1610 de comprobación de información de modo puede analizar la información de modo a partir del flujo de bits y conmutar a uno cualquiera de un modo de codificación de TD y un modo de codificación de FD de acuerdo con un modo de codificación de una trama actual a partir del resultado del análisis.
En detalle, la unidad 1610 de comprobación de información de modo puede conmutar para realizar decodificación de CELP en una trama codificada en el modo de TD y realizar decodificación de FD en una trama codificada en el modo de FD para cada una de las tramas incluidas en el flujo de bits.
La unidad 1620 de decodificación de TD puede realizar decodificación de CELP en una trama con codificación de CELP de acuerdo con el resultado de la comprobación. Por ejemplo, la unidad 1620 de decodificación de TD puede generar una señal de LF que es una señal de decodificación para una frecuencia baja decodificando un LPC incluido en el flujo de bits, decodificando contribución de libro de códigos adaptativo y contribución de libro de códigos fijo, y sintetizando los resultados de decodificación.
La unidad 1630 de decodificación de extensión de TD puede generar una señal de decodificación para una frecuencia alta usando al menos uno del resultado decodificación con CELP y una señal de excitación de la señal de LF. La señal de excitación de la señal de LF puede incluirse en el flujo de bits. Además, la unidad 1630 de decodificación de extensión de TD puede usar información de LPC con respecto a una señal de HF, que se incluye en el flujo de bits, para generar la señal de HF que es la señal de decodificación para la frecuencia alta.
De acuerdo con una realización ilustrativa, la unidad 1630 de decodificación de extensión de TD puede generar una señal decodificada sintetizando la señal de HF generada y la señal de LF generada por la unidad 1620 de decodificación de TD. En este momento, la unidad 1630 de decodificación de extensión de TD puede incluir adicionalmente convertir tasas de muestreo de la señal de LF y la señal de HF para que sean la misma para generar la señal decodificada.
La unidad 1640 de decodificación de FD puede realizar decodificación de FD en una trama con codificación de FD de acuerdo con el resultado de la comprobación. De acuerdo con una realización ilustrativa, la unidad 1640 de decodificación de FD puede realizar decodificación sin pérdida y decuantificación haciendo referencia a información de modo de una trama anterior incluida en el flujo de bits. En este momento, puede aplicarse decodificación de FPC, y puede añadirse ruido a una banda de frecuencia predeterminada como resultado de la decodificación de FPC.
La unidad 1650 de decodificación de extensión de FD puede realizar decodificación de extensión de HF usando un resultado de la decodificación de FPC y/o relleno de ruido en la unidad 1640 de decodificación de FD. La unidad 1650 de decodificación de extensión de FD puede generar una señal de HF decodificada decuantificando energía de un espectro de frecuencia decodificado para una banda de LF, generar una señal de excitación de la señal de HF usando la señal de LF de acuerdo con uno cualquiera de diversos modos de BWE de HF y aplicar una ganancia, de modo que energía de la señal de excitación generada es simétrica a la energía decuantificada. Por ejemplo, el modo de BWE de HF puede ser uno cualquiera de un modo normal, un modo armónico y un modo de ruido.
La Figura 17 es un diagrama de bloques de un aparato de decodificación de audio de una estructura de conmutación, de acuerdo con otra realización ilustrativa.
Haciendo referencia a la Figura 17, el aparato de decodificación de audio puede incluir una unidad 1710 de comprobación de información de modo, una unidad 1720 de decodificación de LPC, una unidad 1730 de decodificación de TD, una unidad 1740 de decodificación de extensión de TD, una unidad 1750 de decodificación de audio y una unidad 1760 de decodificación de extensión de FD.
La unidad 1710 de comprobación de información de modo puede comprobar información de modo de cada una de las tramas incluidas en un flujo de bits. Por ejemplo, la unidad 1710 de comprobación de información de modo puede analizar información de modo de un flujo de bits codificado y conmutar a uno cualquiera de un modo de codificación de TD y un modo de decodificación de audio de acuerdo con un modo de codificación de una trama actual a partir del resultado del análisis.
En detalle, la unidad 1710 de comprobación de información de modo puede conmutar para realizar decodificación de CELP en una trama codificada en el modo de TD y realizar decodificación de audio en una trama codificada en el modo de audio para cada una de las tramas incluidas en el flujo de bits.
La unidad 1720 de decodificación de LPC puede decodificar por LPC las tramas incluidas en el flujo de bits.
La unidad 1730 de decodificación de TD puede realizar decodificación de CELP en una trama con codificación de CELP de acuerdo con el resultado de la comprobación. Por ejemplo, la unidad 1730 de decodificación de TD puede generar una señal de LF que es una señal de decodificación para una frecuencia baja decodificando contribución de libro de códigos adaptativo y contribución de libro de códigos fijo y sintetizar los resultados de decodificación.
La unidad 1740 de decodificación de extensión de TD puede generar una señal de decodificación para una frecuencia alta usando al menos uno del resultado decodificación con CELP y una señal de excitación de la señal de LF. La señal de excitación de la señal de LF puede incluirse en el flujo de bits. Además, la unidad 1740 de decodificación de extensión de TD puede usar información de LPC decodificada por la unidad 1720 de decodificación de LPC para generar una señal de HF que es la señal de decodificación para la frecuencia alta.
De acuerdo con una realización ilustrativa, la unidad 1740 de decodificación de extensión de TD puede generar una señal decodificada sintetizando la señal de HF generada y la señal de LF generada por la unidad 1730 de decodificación de TD. En este momento, la unidad 1740 de decodificación de extensión de TD puede incluir adicionalmente convertir tasas de muestreo de la señal de LF y la señal de HF para que sean la misma para generar la señal decodificada.
La unidad 1750 de decodificación de audio puede realizar decodificación de audio en una trama con codificación de audio de acuerdo con el resultado de la comprobación. Por ejemplo, la unidad 1750 de decodificación de audio puede realizar decodificación considerando una contribución de TD y una contribución de FD cuando existe la contribución de TD y considerando la contribución de FD cuando no existe la contribución de TD.
Además, la unidad 1750 de decodificación de audio puede generar una señal de LF decodificada transformando una señal cuantificada en el esquema FPC o LVQ al dominio del tiempo para generar una señal de excitación de LF decodificada y sintetizar la señal de excitación generada para decuantificar coeficientes de LPC.
La unidad 1760 de decodificación de extensión de FD puede realizar decodificación de extensión usando un resultado del resultado de decodificación de audio. Por ejemplo, la unidad 1760 de decodificación de extensión de FD puede convertir una tasa de muestreo de la señal de LF decodificada a una tasa de muestreo adecuada para decodificación de extensión de HF y realizar transformación de frecuencia de la señal convertida usando MDCT o similar. La unidad 1760 de decodificación de extensión de FD puede generar una señal de HF decodificada decuantificando energía de un espectro de LF transformado, generar una señal de excitación de la señal de HF usando la señal de LF de acuerdo con uno cualquiera de diversos modos de BWE de HF, y aplicar una ganancia de modo que energía de la señal de excitación generada es simétrica a la energía decuantificada. Por ejemplo, el modo de BWE de HF puede ser uno cualquiera del modo normal, un modo transitorio, el modo armónico y el modo de ruido.
Además, la unidad 1760 de decodificación de extensión de FD puede transformar la señal de HF decodificada a una señal en el dominio del tiempo usando MDCT inversa, realizar conversión para igualar una tasa de muestreo de la señal transformada al dominio del tiempo con una tasa de muestreo de la señal de LF generada por la unidad 1750 de decodificación de audio, y sintetizar la señal de LF y la señal convertida.
Las unidades 1650 y 1760 de decodificación de extensión de FD mostradas en las Figuras 16 y 17 pueden implementarse mediante el aparato de decodificación de audio de la Figura 8.
La Figura 18 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de codificación, de acuerdo con una realización ilustrativa.
Haciendo referencia a la Figura 18, el dispositivo 1800 multimedia puede incluir una unidad 1810 de comunicación y el módulo 1830 de codificación. Además, el dispositivo 1800 multimedia puede incluir adicionalmente una unidad 1850 de almacenamiento para almacenar un flujo de bits de audio obtenido como resultado de codificación de acuerdo con el uso del flujo de bits de audio. Además, el dispositivo 1800 multimedia puede incluir adicionalmente un micrófono 1870. Es decir, la unidad 1850 de almacenamiento y el micrófono 1870 pueden incluirse opcionalmente. El dispositivo 1800 multimedia puede incluir adicionalmente un módulo de decodificación arbitrario (no mostrado), por ejemplo, un módulo de decodificación para realizar una función de decodificación general o un módulo de decodificación de acuerdo con una realización ilustrativa. El módulo 1830 de codificación puede implementarse mediante al menos un procesador, por ejemplo, una unidad de procesamiento central (no mostrada) integrándose con otros componentes (no mostrados) incluidos en el dispositivo 1800 multimedia como un cuerpo.
La unidad 1810 de comunicación puede recibir al menos una de una señal de audio o un flujo de bits codificado proporcionado desde el exterior o transmitir al menos uno de una señal de audio restaurada o un flujo de bits codificados obtenidos como resultado de codificación por el módulo 1830 de codificación.
La unidad 1810 de comunicación se configura para transmitir y recibir datos a y desde un dispositivo multimedia externo a través de una red inalámbrica, tal como Internet inalámbrica, intranet inalámbrica, una red telefónica inalámbrica, una red de área local inalámbrica (LAN), Wi-Fi, Wi-Fi Directa (WFD), tercera generación (3G), cuarta generación (4G), Bluetooth, Asociación de Datos Infrarrojos (IrDA), Identificación por Radiofrecuencia (RFID), Banda ultra ancha (UWB), Zigbee, o Comunicación de Campo Cercano (NFC), o una red alámbrica, tal como una red telefónica por cable o Internet por cable.
De acuerdo con una realización ilustrativa, el módulo 1830 de codificación puede codificar una señal de audio en el dominio del tiempo, que se proporciona a través de la unidad 1810 de comunicación o el micrófono 1870, usando un aparato de codificación de la Figura 14 o 15. Además, puede realizarse codificación de extensión de FD usando un aparato de codificación de la Figura 3 o 6.
La unidad 1850 de almacenamiento puede almacenar el flujo de bits codificado generado por el módulo 1830 de codificación. Además, la unidad 1850 de almacenamiento puede almacenar diversos programas requeridos para operar el dispositivo 1800 multimedia.
El micrófono 1870 puede proporcionar una señal de audio desde un usuario o el exterior al módulo 1830 de codificación.
La Figura 19 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de decodificación, de acuerdo con una realización ilustrativa.
El dispositivo 1900 multimedia de la Figura 19 puede incluir una unidad 1910 de comunicación y el módulo 1930 de decodificación. Además, de acuerdo con el uso de una señal de audio restaurada obtenida como un resultado de decodificación, el dispositivo 1900 multimedia de la Figura 19 puede incluir adicionalmente una unidad 1950 de almacenamiento para almacenar la señal de audio restaurada. Además, el dispositivo 1900 multimedia de la Figura 19 puede incluir adicionalmente un altavoz 1970. Es decir, la unidad 1950 de almacenamiento y el altavoz 1970 son opcionales. El dispositivo 1900 multimedia de la Figura 19 puede incluir adicionalmente un módulo de codificación (no mostrado), por ejemplo, un módulo de codificación para realizar una función de codificación general o un módulo de codificación de acuerdo con una realización ilustrativa. El módulo 1930 de decodificación puede integrarse con otros componentes (no mostrados) incluidos en el dispositivo 1900 multimedia e implementarse mediante al menos un procesador, por ejemplo, una unidad de procesamiento central (CPU).
Haciendo referencia a la Figura 19, la unidad 1910 de comunicación puede recibir al menos uno de una señal de audio o un flujo de bits codificado proporcionado desde el exterior o puede transmitir al menos uno de una señal de audio restaurada obtenida como resultado de decodificación del módulo 1930 de decodificación o un flujo de bits de audio obtenido como resultado de codificación. La unidad 1910 de comunicación puede implementarse sustancialmente y de forma similar a la unidad 1810 de comunicación de la Figura 18.
De acuerdo con una realización ilustrativa, el módulo 1930 de decodificación puede recibir un flujo de bits proporcionados a través de la unidad 1910 de comunicación y decodificar el flujo de bits, usando un aparato de decodificación de la Figura 16 o 17. Además, extensión de decodificación de FD puede realizarse usando un aparato de decodificación de la Figura 8 y, en detalle, una unidad de generación de señales de excitación de las Figuras 9 a 11.
La unidad 1950 de almacenamiento puede almacenar la señal de audio restaurada generada por el módulo 1930 de decodificación. Además, la unidad 1950 de almacenamiento puede almacenar diversos programas requeridos para operar el dispositivo 1900 multimedia.
El altavoz 1970 puede emitir la señal de audio restaurada generada por el módulo 1930 de decodificación al exterior.
La Figura 20 es un diagrama de bloques de un dispositivo multimedia que incluye un módulo de codificación y un módulo de decodificación, de acuerdo con una realización ilustrativa.
El dispositivo 2000 multimedia mostrada en la Figura 20 puede incluir una unidad 2010 de comunicación, un módulo 2020 de codificación y un módulo 2030 de decodificación. Además, el dispositivo 2000 multimedia puede incluir adicionalmente una unidad 2040 de almacenamiento para almacenar un flujo de bits de audio obtenido como resultado de codificación o una señal de audio restaurada obtenida como resultado de decodificación de acuerdo con el uso del flujo de bits de audio o la señal de audio restaurada. Además, el dispositivo 2000 multimedia puede incluir adicionalmente un micrófono 2050 y/o un altavoz 2060. El módulo 2020 de codificación y el módulo 2030 de decodificación puede implementarse mediante al menos un procesador, por ejemplo, una unidad de procesamiento central (CPU) (no mostrada) integrándose con otros componentes (no mostrados) incluidos en el dispositivo 2000 multimedia como un cuerpo.
Ya que los componentes del dispositivo 2000 multimedia mostrado en la Figura 20 corresponden a los componentes del dispositivo 1800 multimedia mostrado en la Figura 18 o los componentes del dispositivo 1900 multimedia mostrado en la Figura 19, se omite una descripción detallada de los mismos.
Cada uno de los dispositivos 1800, 1900 y 2000 multimedia mostrados en las Figuras 18, 19 y 20 pueden incluir un terminal de solo comunicación por voz, tal como un teléfono o un teléfono móvil, un dispositivo de solo música o radiodifusión, tal como una TV o un reproductor de MP3, o un dispositivo terminal híbrido de un terminal de solo comunicación por voz y un dispositivo de solo música o radiodifusión, pero no se limitan a los mismos. Además, cada uno de los dispositivos 1800, 1900 y 2000 multimedia puede usarse como un cliente, un servidor o un transductor desplazado entre un cliente y un servidor.
Cuando el dispositivo 1800, 1900 o 2000 multimedia es, por ejemplo, un teléfono móvil, aunque no se muestra, el dispositivo 1800, 1900 o 2000 multimedia puede incluir adicionalmente una unidad de entrada de usuario, tal como un teclado numérico, una unidad de visualización para visualizar información procesada por una interfaz de usuario o el teléfono móvil, y un procesador para controlar las funciones del teléfono móvil. Además, el teléfono móvil puede incluir adicionalmente una unidad de cámara que tiene una función de captación de imágenes y al menos un componente para realizar una función requerida para el teléfono móvil.
Cuando el dispositivo 1800, 1900, o 2000 multimedia es, por ejemplo, una TV, aunque no se muestra, el dispositivo 1800, 1900, o 2000 multimedia puede incluir adicionalmente una unidad de entrada de usuario, tal como un teclado numérico, una unidad de visualización para visualizar información de radiodifusión recibida y un procesador para controlar todas las funciones de la TV. Además, la TV puede incluir adicionalmente al menos un componente para realizar una función de la TV.
Los procedimientos de acuerdo con las realizaciones pueden escribirse como programas ejecutables por ordenador y pueden implementarse en ordenadores digitales de uso general que ejecutan los programas usando un medio de grabación legible por ordenador no transitorio. Además, estructuras de datos, instrucciones de programa o archivos de datos, que pueden usarse en las realizaciones, pueden grabarse en un medio de grabación legible por ordenador no transitorio de diversas formas. El medio de grabación legible por ordenador no transitorio es cualquier dispositivo de almacenamiento de datos que puede almacenar datos que pueden leerse posteriormente por un sistema informático. Ejemplos del medio de grabación legible por ordenador no transitorio incluyen medios de almacenamiento magnético, tal como discos duros, discos flexibles y cintas magnéticas, medios de grabación ópticos, tal como CD-ROM y DVD, medios magneto-ópticos, tal como discos ópticos, y dispositivos de hardware, tal como ROM, RAM, y memoria flash, especialmente configurados para almacenar y ejecutar instrucciones de programa. Además, el medio de grabación legible por ordenador no transitorio puede ser un medio de transmisión para transmitir instrucciones de programa de designación de señales, estructuras de datos o similar. Ejemplos de las instrucciones de programa pueden incluir no únicamente códigos de lenguaje mecánicos creados por un compilador, sino también códigos de lenguaje de alto nivel ejecutable por un ordenador usando un intérprete o similar.

Claims (3)

REIVINDICACIONES
1. Un procedimiento de generación de información sobre una clase de excitación para extensión de ancho de banda, incluyendo el procedimiento:
determinar, en base a un resultado de clasificación de señales, si una trama actual corresponde a una señal de voz (710);
generar una información de clase de excitación para la trama actual, en respuesta a que la trama actual corresponde a la señal de voz;
cuando la trama actual no corresponde a la señal de voz, obtener tonalidad de la trama actual (730); generar una información de clase de excitación para la trama actual usando la tonalidad y al menos un umbral; y
generar un flujo de bits que incluye la información de clase de excitación.
2. El procedimiento de la reivindicación 1, en el que la información de clase de excitación incluye dos clases de excitación cuando se usa un umbral.
3. Un medio de grabación legible por ordenador no transitorio que almacena un programa legible por ordenador para ejecutar un procedimiento de la reivindicación 1 o 2.
ES13763979T 2012-03-21 2013-03-21 Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda Active ES2762325T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261613610P 2012-03-21 2012-03-21
US201261719799P 2012-10-29 2012-10-29
PCT/KR2013/002372 WO2013141638A1 (ko) 2012-03-21 2013-03-21 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치

Publications (1)

Publication Number Publication Date
ES2762325T3 true ES2762325T3 (es) 2020-05-22

Family

ID=49223006

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13763979T Active ES2762325T3 (es) 2012-03-21 2013-03-21 Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda

Country Status (8)

Country Link
US (3) US9378746B2 (es)
EP (2) EP2830062B1 (es)
JP (2) JP6306565B2 (es)
KR (3) KR102070432B1 (es)
CN (2) CN104321815B (es)
ES (1) ES2762325T3 (es)
TW (2) TWI591620B (es)
WO (1) WO2013141638A1 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2981958T3 (en) * 2013-04-05 2018-05-28 Dolby Int Ab AUDIO CODES AND DECODS
US8982976B2 (en) * 2013-07-22 2015-03-17 Futurewei Technologies, Inc. Systems and methods for trellis coded quantization based channel feedback
PL3046104T3 (pl) 2013-09-16 2020-02-28 Samsung Electronics Co., Ltd. Sposób kodowania sygnału oraz sposób dekodowania sygnału
WO2015037969A1 (ko) * 2013-09-16 2015-03-19 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
KR101913241B1 (ko) * 2013-12-02 2019-01-14 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN110176241B (zh) * 2014-02-17 2023-10-31 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
WO2015122752A1 (ko) 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
ES2969736T3 (es) * 2014-02-28 2024-05-22 Fraunhofer Ges Forschung Dispositivo de decodificación y método de decodificación
KR102386736B1 (ko) * 2014-03-03 2022-04-14 삼성전자주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
JP6383000B2 (ja) * 2014-03-03 2018-08-29 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張のための高周波復号方法及びその装置
BR112016020988B1 (pt) * 2014-03-14 2022-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação
CN106409300B (zh) * 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
WO2015162500A2 (ko) 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN111968656B (zh) * 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) * 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
US11133891B2 (en) 2018-06-29 2021-09-28 Khalifa University of Science and Technology Systems and methods for self-synchronized communications
US10951596B2 (en) * 2018-07-27 2021-03-16 Khalifa University of Science and Technology Method for secure device-to-device communication using multilayered cyphers
WO2020157888A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN113270105B (zh) * 2021-05-20 2022-05-10 东南大学 一种基于混合调制的类语音数据传输方法

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US524323A (en) * 1894-08-14 Benfabriken
GB1218015A (en) * 1967-03-13 1971-01-06 Nat Res Dev Improvements in or relating to systems for transmitting television signals
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
KR940004026Y1 (ko) 1991-05-13 1994-06-17 금성일렉트론 주식회사 바이어스의 스타트업회로
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5721788A (en) 1992-07-31 1998-02-24 Corbis Corporation Method and system for digital image signatures
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US6614914B1 (en) * 1995-05-08 2003-09-02 Digimarc Corporation Watermark embedder and reader
US6983051B1 (en) * 1993-11-18 2006-01-03 Digimarc Corporation Methods for audio watermarking and decoding
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
CA2188369C (en) * 1995-10-19 2005-01-11 Joachim Stegmann Method and an arrangement for classifying speech signals
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6819863B2 (en) 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
JP4792613B2 (ja) 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7092877B2 (en) * 2001-07-31 2006-08-15 Turk & Turk Electric Gmbh Method for suppressing noise as well as a method for recognizing voice signals
US7158931B2 (en) * 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
JP3900000B2 (ja) * 2002-05-07 2007-03-28 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
US8243093B2 (en) 2003-08-22 2012-08-14 Sharp Laboratories Of America, Inc. Systems and methods for dither structure creation and application for reducing the visibility of contouring artifacts in still and video images
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
RU2006137841A (ru) * 2004-04-27 2008-05-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство масштабируемого кодирования, устройство масштабируемого декодирования и способ для этого
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
WO2006062202A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
JP4793539B2 (ja) * 2005-03-29 2011-10-12 日本電気株式会社 符号変換方法及び装置とプログラム並びにその記憶媒体
MX2007012185A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Metodo y aparato para cuantificacion de vector de una representacion de envoltura espectral.
CA2558595C (en) * 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
KR20080101873A (ko) * 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
CN101336451B (zh) * 2006-01-31 2012-09-05 西门子企业通讯有限责任两合公司 音频信号编码的方法和装置
DE102006008298B4 (de) * 2006-02-22 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Notensignals
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
RU2441286C2 (ru) * 2007-06-22 2012-01-27 Войсэйдж Корпорейшн Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
KR101441896B1 (ko) 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码***
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
DK2211339T3 (en) * 2009-01-23 2017-08-28 Oticon As listening System
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
DK2328363T3 (en) * 2009-09-11 2016-08-22 Starkey Labs Inc SOUND CLASSIFICATION SYSTEM FOR HEARING DEVICES
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
CN102985966B (zh) * 2010-07-16 2016-07-06 瑞典爱立信有限公司 音频编码器和解码器及用于音频信号的编码和解码的方法
CA3209829C (en) * 2010-07-19 2024-05-21 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP5749462B2 (ja) 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
US8729374B2 (en) * 2011-07-22 2014-05-20 Howling Technology Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
WO2013096875A2 (en) * 2011-12-21 2013-06-27 Huawei Technologies Co., Ltd. Adaptively encoding pitch lag for voiced speech
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding

Also Published As

Publication number Publication date
KR20130107257A (ko) 2013-10-01
KR20200010540A (ko) 2020-01-30
JP2015512528A (ja) 2015-04-27
US10339948B2 (en) 2019-07-02
US20160240207A1 (en) 2016-08-18
US9378746B2 (en) 2016-06-28
CN108831501B (zh) 2023-01-10
WO2013141638A1 (ko) 2013-09-26
KR20200144086A (ko) 2020-12-28
TW201401267A (zh) 2014-01-01
US20130290003A1 (en) 2013-10-31
EP2830062B1 (en) 2019-11-20
US9761238B2 (en) 2017-09-12
US20170372718A1 (en) 2017-12-28
KR102248252B1 (ko) 2021-05-04
JP6673957B2 (ja) 2020-04-01
KR102194559B1 (ko) 2020-12-23
KR102070432B1 (ko) 2020-03-02
EP2830062A4 (en) 2015-10-14
TW201729181A (zh) 2017-08-16
CN108831501A (zh) 2018-11-16
CN104321815A (zh) 2015-01-28
JP2018116297A (ja) 2018-07-26
EP3611728A1 (en) 2020-02-19
CN104321815B (zh) 2018-10-16
TWI626645B (zh) 2018-06-11
TWI591620B (zh) 2017-07-11
EP2830062A1 (en) 2015-01-28
JP6306565B2 (ja) 2018-04-04

Similar Documents

Publication Publication Date Title
ES2762325T3 (es) Procedimiento y aparato de codificación/decodificación de frecuencia alta para extensión de ancho de banda
US8438019B2 (en) Classification of audio signals
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US10811019B2 (en) Signal encoding method and device and signal decoding method and device
US11676614B2 (en) Method and apparatus for high frequency decoding for bandwidth extension
US10657976B2 (en) Signal encoding method and apparatus, and signal decoding method and apparatus
KR20220051317A (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치