ES2391292T3 - Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta - Google Patents

Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta Download PDF

Info

Publication number
ES2391292T3
ES2391292T3 ES06784345T ES06784345T ES2391292T3 ES 2391292 T3 ES2391292 T3 ES 2391292T3 ES 06784345 T ES06784345 T ES 06784345T ES 06784345 T ES06784345 T ES 06784345T ES 2391292 T3 ES2391292 T3 ES 2391292T3
Authority
ES
Spain
Prior art keywords
signal
high band
narrowband
filter
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06784345T
Other languages
English (en)
Inventor
Koen Bernard Vos
Ananthapadmanabhan A. Kandhadai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36588741&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2391292(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2391292T3 publication Critical patent/ES2391292T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Analogue/Digital Conversion (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Control Of Eletrric Generators (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Amplitude Modulation (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Analysis (AREA)
  • Finish Polishing, Edge Sharpening, And Grinding By Specific Grinding Devices (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Addition Polymer Or Copolymer, Post-Treatments, Or Chemical Modifications (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Crystals, And After-Treatments Of Crystals (AREA)
  • Filtration Of Liquid (AREA)
  • Solid-Sorbent Or Filter-Aiding Compositions (AREA)
  • Filtering Of Dispersed Particles In Gases (AREA)
  • Telephonic Communication Services (AREA)
  • Developing Agents For Electrophotography (AREA)
  • Transmitters (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Filters And Equalizers (AREA)
  • Air Conditioning Control Device (AREA)
  • Ticket-Dispensing Machines (AREA)
  • Surface Acoustic Wave Elements And Circuit Networks Thereof (AREA)

Abstract

Un procedimiento de generación de una señal (S120) de excitación de banda alta, comprendiendo dichoprocedimiento:ensanchar armónicamente el espectro de una señal que se basa en una señal (S80) de excitación debanda baja;calcular una envolvente de dominio temporal de una señal que se basa en la señal (S80) de excitación debanda baja;modular una señal de ruido según la envolvente de dominio temporal; ycombinar (A) una señal (S160) ensanchada armónicamente con base en un resultado de dichoensanchamiento armónico y (B) una señal modulada (S170) de ruido con base en un resultado de dichamodulación, incluyendo dicha combinación el cálculo de una suma ponderada de la señal (S160)ensanchada armónicamente y la señal modulada (S170) de ruido, incluyendo dicho cálculo de una sumaponderada la ponderación de la señal (S160) ensanchada armónicamente según un primer factor deponderación y la ponderación de la señal modulada (S170) de ruido según un segundo factor deponderación, comprendiendo dicho procedimiento el cálculo de al menos uno entre los factores deponderación primero y segundo según al menos uno entre (A) una medida de periodicidad de una señal devoz y (B) un grado vocal de una señal de voz,en el que la señal de excitación de banda alta se basa en la suma ponderada.

Description

Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta
Solicitudes relacionadas
La presente solicitud reivindica el beneficio de la solicitud provisional de patente estadounidense nº 60/667.901, titulada “CODING THE HIGH-FREQUENCY BAND OF WIDEBAND SPEECH”, presentada el 1 de abril de 2005. La presente solicitud también reivindica el beneficio de la solicitud provisional de patente estadounidense nº 60/673.965, titulada “PARAMETER CODING IN A HIGH-BAND SPEECH CODER”, presentada el 22 de abril de 2005.
Campo de la invención
La presente invención se refiere a procesamiento de señales.
Antecedentes
Las comunicaciones de voz a través de la red telefónica pública conmutada (RTPC) se han limitado tradicionalmente en ancho de banda al intervalo de frecuencia de 300-3400 kHz. Las nuevas redes para comunicaciones de voz, tales como telefonía celular y voz sobre IP (protocolo de Internet, VoIP) pueden no tener los mismos límites de ancho de banda, y puede ser deseable transmitir y recibir comunicaciones de voz que incluyan un intervalo de frecuencias de banda ancha a través de tales redes. Por ejemplo, puede ser deseable soportar un intervalo de frecuencias de audio que se extienda desde 50 Hz y/o hasta 7 u 8 kHz. También puede ser deseable soportar otras aplicaciones, tales como conferencia de audio o audio/vídeo de alta calidad, que pueden tener contenido de voz de audio en intervalos fuera de los límites de la RTPC tradicional.
El ensanchamiento del intervalo soportado por un codificador de voz a frecuencias superiores puede mejorar la inteligibilidad. Por ejemplo, la información que diferencia fricativas tales como ‘s' y ‘f' está en gran parte en las frecuencias altas. El ensanchamiento de la banda alta también puede mejorar otras cualidades del habla, tal como la presencia. Por ejemplo, incluso una vocal vocalizada puede tener energía espectral muy por encima del límite de la RTPC.
Un enfoque con respecto a la codificación de voz de banda ancha implica ajustar a escala una técnica de codificación de voz de banda estrecha (por ejemplo, una configurada para codificar el intervalo de 0-4 kHz) para cubrir el espectro de banda ancha. Por ejemplo, una señal de voz puede muestrearse a una tasa superior para incluir componentes a frecuencias altas, y una técnica de codificación de banda estrecha puede volver a configurarse para usar más coeficientes de filtro para representar esta señal de banda ancha. Sin embargo, las técnicas de codificación de banda estrecha tales como CELP (predicción lineal excitada por código) son muy exigentes en lo que al cálculo se refiere, y un codificador CELP de banda ancha puede consumir demasiados ciclos de procesamiento como para ser práctico para muchas aplicaciones móviles y otras aplicaciones integradas. La codificación de todo el espectro de una señal de banda ancha a una calidad deseada usando tal técnica puede conducir a un aumento inaceptablemente grande en el ancho de banda. Además, se requeriría la transcodificación de una señal codificada de este tipo antes incluso de que su parte de banda estrecha pudiera transmitirse hacia un sistema que solo soporte codificación de banda estrecha y/o ser decodificada por él.
Otro enfoque con respecto a la codificación de voz de banda ancha implica extrapolar la envolvente espectral de banda alta a partir de la envolvente espectral de banda estrecha codificada. Aunque puede implementarse un enfoque de este tipo sin ningún aumento en el ancho de banda y sin necesidad de transcodificación, la envolvente espectral aproximada o estructura formante de la porción de banda alta de una señal de voz generalmente no puede predecirse con precisión a partir de la envolvente espectral de la parte de banda estrecha.
Puede ser deseable implementar la codificación de voz de banda ancha de tal manera que al menos la porción de banda estrecha de la señal codificada puede enviarse a través de un canal de banda estrecha (tal como un canal de RTPC) sin transcodificación u otra modificación significativa. También puede ser deseable la eficacia de la extensión de codificación de banda ancha, por ejemplo, para evitar una reducción significativa en el número de usuarios a los que puede darse2servicio en aplicaciones tales como telefonía celular inalámbrica y difusión a través de canales inalámbricos y por cable. Se llama la atención, además, sobre el documento WO 03/044777, que versa acerca de un sistema de transmisión que comprende un transmisor para transmitir a un receptor una señal de audio de banda estrecha por medio de un canal de transmisión. El receptor comprende un ensanchador del ancho de banda para generar una señal de audio de banda ancha a partir de la señal de audio de banda estrecha. El ensanchador del ancho de banda comprende medios de plegado espectral para generar una señal de audio plegada espectralmente plegando espectralmente al menos parte de la señal de audio de banda estrecha. El ensanchador de ancho de banda del sistema de transmisión comprende un conformador de ruido para generar una señal conformada de ruido conformando una señal de ruido según al menos parte de la señal de audio plegada espectralmente, comprendiendo el ensanchador de ancho de banda un combinador para combinar la señal conformada de ruido y la señal de audio plegada espectralmente en la señal de audio de banda ancha.
Resumen
En la presente invención se proporcionan un procedimiento de generación de una señal de excitación de banda alta, según se expone en la reivindicación 1, un medio de almacenamiento de datos, según se expone en la reivindicación 17, y un aparato, según se expone en la reivindicación 18. En las reivindicaciones dependientes se reivindican realizaciones adicionales.
En una realización, un procedimiento de generación de una señal de excitación de banda alta incluye ensanchar armónicamente el espectro de una señal que se basa en una señal de excitación de banda baja; calcular una envolvente de dominio temporal de una señal que se basa en la señal de excitación de banda baja; y modular una señal de ruido según la envolvente de dominio temporal. El procedimiento también incluye combinar (A) una señal ensanchada armónicamente con base en un resultado del ensanchamiento armónico y (B) una señal modulada de ruido con base en un resultado de la modulación. En este procedimiento, la señal de excitación de banda alta está basada en un resultado de la combinación.
En otra realización, un aparato incluye un ensanchador de espectro configurado para llevar a cabo un ensanchamiento armónico del espectro de una señal que se basa en una señal de excitación de banda baja; un calculador de envolvente configurado para calcular una envolvente de dominio temporal de una señal que se basa en la señal de excitación de banda baja; un primer combinador configurado para llevar a cabo una modulación de una señal de ruido según la envolvente de dominio temporal; y un segundo combinador configurado para calcular una suma de (A) una señal ensanchada armónicamente con base en un resultado del ensanchamiento armónico y
(B) una señal modulada de ruido con base en un resultado de la modulación. La señal de excitación de banda alta está basada en un resultado de la suma.
En otra realización, un aparato incluye medios para ensanchar armónicamente el espectro de una señal que se basa en una señal de excitación de banda baja; medios para calcular una envolvente de dominio temporal de una señal que se basa en la señal de excitación de banda baja; medios para modular una señal de ruido según la envolvente de dominio temporal; y medios para combinar (A) una señal ensanchada armónicamente con base en un resultado de dicho ensanchamiento armónico y (B) una señal modulada de ruido con base en un resultado de dicha modulación. En este aparato, la señal de excitación de banda alta está basada en un resultado de dicha combinación.
En otra realización, un procedimiento de generación de una señal de excitación de banda alta incluye calcular una señal ensanchada armónicamente aplicando una función no lineal a una señal de excitación de banda baja derivada de una porción de baja frecuencia de una señal de voz; y mezclar la señal ensanchada armónicamente con una señal modulada de ruido para generar una señal de excitación de banda alta.
Breve descripción de los dibujos
La FIGURA 1a muestra un diagrama de bloques de un codificador A100 de voz de banda ancha según una realización.
La FIGURA 1b muestra un diagrama de bloques de una implementación A102 del codificador A100 de voz de banda ancha.
La FIGURA 2a muestra un diagrama de bloques de un decodificador B100 de voz de banda ancha según una realización.
La FIGURA 2b muestra un diagrama de bloques de una implementación B102 del decodificador B100 de voz de banda ancha.
La FIGURA 3a muestra un diagrama de bloques de una implementación A112 del banco A110 de filtros.
La FIGURA 3b muestra un diagrama de bloques de una implementación B122 del banco B120 de filtros.
La FIGURA 4a muestra la cobertura de ancho de banda de las bandas alta y baja para un ejemplo del banco A110 de filtros.
La FIGURA 4b muestra la cobertura de ancho de banda de las bandas alta y baja para otro ejemplo del banco A110 de filtros.
La FIGURA 4c muestra un diagrama de bloques de una implementación A114 del banco A112 de filtros.
La FIGURA 4d muestra un diagrama de bloques de una implementación B124 del banco B122 de filtros.
La FIGURA 5a muestra un ejemplo de una representación gráfica del logaritmo de amplitud en función de la frecuencia para una señal de voz.
La FIGURA 5b muestra un diagrama de bloques de un sistema básico de codificación de predicción lineal.
La FIGURA 6 muestra un diagrama de bloques de una implementación A122 del codificador A120 de banda estrecha. La FIGURA 7 muestra un diagrama de bloques de una implementación B112 de codificador B110 de banda
estrecha.
La FIGURA 8a muestra un ejemplo de una representación gráfica del logaritmo de amplitud en función de la frecuencia para una señal residual para habla vocalizada. La FIGURA 8b muestra un ejemplo de una representación gráfica del logaritmo de amplitud en función del tiempo
para una señal residual para habla vocalizada.
La FIGURA 9 muestra un diagrama de bloques de un sistema básico de codificación de predicción lineal que también lleva a cabo predicción a largo plazo. La FIGURA 10 muestra un diagrama de bloques de una implementación A202 del codificador A200 de banda alta. La FIGURA 11 muestra un diagrama de bloques de una implementación A302 del generador A300 de excitación de
banda alta. La FIGURA 12 muestra un diagrama de bloques de una implementación A402 del ensanchador A400 de espectro. La FIGURA 12a muestra representaciones gráficas de espectros de señal en diversos puntos en un ejemplo de una
operación de ensanchamiento espectral.
La FIGURA 12b muestra representaciones gráficas de espectros de señal en diversos puntos de otro ejemplo de una operación de ensanchamiento espectral. La FIGURA 13 muestra un diagrama de bloques de una implementación A304 del generador A302 de excitación de
banda alta.
La FIGURA 14 muestra un diagrama de bloques de una implementación A306 del generador A302 de excitación de banda alta. La FIGURA 15 muestra un diagrama de flujo para una tarea T100 de cálculo de envolvente. La FIGURA 16 muestra un diagrama de bloques de una implementación 492 del combinador 490. La FIGURA 17 ilustra un enfoque para calcular una medida de periodicidad de la señal S30 de banda alta. La FIGURA 18 muestra un diagrama de bloques de una implementación A312 del generador A302 de excitación de
banda alta.
La FIGURA 19 muestra un diagrama de bloques de una implementación A314 del generador A302 de excitación de banda alta. La FIGURA 20 muestra un diagrama de bloques de una implementación A316 del generador A302 de excitación de
banda alta. La FIGURA 21 muestra un diagrama de flujo para una tarea T200 de cálculo de ganancia. La FIGURA 22 muestra un diagrama de flujo para una implementación T210 de la tarea T200 de cálculo de
ganancia. La FIGURA 23a muestra un diagrama de una función ventana. La FIGURA 23b muestra una aplicación de una función ventana, tal como se muestra en la FIGURA 23a, a
subtramas de una señal de voz.
La FIGURA 24 muestra un diagrama de bloques para una implementación B202 del decodificador B200 de banda alta. La FIGURA 25 muestra un diagrama de bloques de una implementación AD10 del codificador A100 de voz de banda
ancha. La FIGURA 26a muestra un diagrama esquemático de una implementación D122 de la línea D120 de retardo. La FIGURA 26b muestra un diagrama esquemático de una implementación D124 de la línea D120 de retardo.
La FIGURA 27 muestra un diagrama esquemático de una implementación D130 de línea D120 de retardo.
La FIGURA 28 muestra un diagrama de bloques de una implementación AD12 del codificador AD10 de voz de banda ancha.
La FIGURA 29 muestra un diagrama de flujo de un procedimiento de procesamiento MD100 de señales según una realización.
La FIGURA 30 muestra un diagrama de flujo para un procedimiento M100 según una realización.
La FIGURA 31a muestra un diagrama de flujo para un procedimiento M200 según una realización.
La FIGURA 31b muestra un diagrama de flujo para una implementación M210 del procedimiento M200.
La FIGURA 32 muestra un diagrama de flujo para un procedimiento M300 según una realización.
En las Figuras y la descripción adjunta, las mismas etiquetas de referencia se refieren a elementos o señales idénticos o análogos.
Descripción detallada
Tal como se describen en el presente documento, las realizaciones incluyen sistemas, procedimientos y aparatos que pueden configurarse para proporcionar una extensión a un codificador de voz de banda estrecha para soportar la transmisión y/o el almacenamiento de señales de voz de banda ancha en un aumento del ancho de banda de solo aproximadamente 800 a 1000 bps (bits por segundo). Las ventajas potenciales de tales implementaciones incluyen la codificación integrada para soportar la compatibilidad con sistemas de banda estrecha, la asignación y la reasignación relativamente fáciles de bits entre los canales de codificación banda estrecha y de banda alta, evitando una operación de síntesis de banda ancha exigente desde el punto de vista del cálculo, y manteniendo una tasa de muestreo baja para señales que van a procesarse mediante rutinas de codificación de forma de onda exigentes desde el punto de vista del cálculo.
A no ser que se limite expresamente por su contexto, el término “calcular” se usa en el presente documento para indicar cualquiera de sus significados ordinarios, tales como computar, generar y seleccionar de una lista de valores. Cuando la expresión “que comprende” se usa en la presente descripción y las reivindicaciones, no excluye otros elementos u operaciones. La expresión “A se basa en B” se usa para indicar cualquiera de sus significados habituales, incluyendo los casos (i) “A es igual a B” y (ii) “A se basa en al menos B”. La expresión “protocolo de Internet” incluye la versión 4, tal como se describe en RFC (Petición de comentarios) 791de IETF (Grupo de Trabajo en Ingeniería de Internet), y versiones posteriores tal como la versión 6.
La FIGURA 1a muestra un diagrama de bloques de un codificador A100 de voz de banda ancha según una realización. El banco A110 de filtros está configurado para filtrar una señal S10 de voz de banda ancha para producir una señal S20 de banda estrecha y una señal S30 de banda alta. El codificador A120 de banda estrecha está configurado para codificar la señal S20 de banda estrecha para producir parámetros S40 de filtro de banda estrecha (BE) y una señal S50 residual de banda estrecha. Tal como se describe con mayor detalle en el presente documento, el codificador A120 de banda estrecha está configurado típicamente para producir parámetros S40 de filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha como índices de código o en otra forma cuantificada. El codificador A200 de banda alta está configurado para codificar la señal S30 de banda alta según información en la señal codificada S50 de excitación de banda estrecha para producir parámetros S60 de codificación de banda alta. Tal como se describe con mayor detalle en el presente documento, el codificador A200 de banda alta está configurado típicamente para producir parámetros S60 de codificación de banda alta como índices de código o en otra forma cuantificada. Un ejemplo particular del codificador A100 de voz de banda ancha está configurado para codificar la señal S10 de voz de banda ancha a una tasa de aproximadamente 8,55 kbps (kilobits por segundo), usándose aproximadamente 7,55 kbps para parámetros S40 de filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha, y usándose aproximadamente 1 kbps para parámetros S60 de codificación de banda alta.
Puede desearse combinar las señales de banda estrecha y banda alta codificadas en una corriente de bits única. Por ejemplo, puede desearse multiplexar las señales codificadas entre sí para su transmisión (por ejemplo, a través de un canal de transmisión por cable, óptico o inalámbrico), o para su almacenamiento, como una señal de voz de banda ancha codificada. La FIGURA 1b muestra un diagrama de bloques de una implementación A102 del codificador A100 de voz de banda ancha que incluye un multiplexor A130 configurado para combinar parámetros S40 de filtro de banda estrecha, la señal codificada S50 de excitación de banda estrecha y parámetros S60 de filtro de banda alta en una señal multiplexada S70.
Un aparato que incluye el codificador A102 también puede incluir un conjunto de circuitos configurado para transmitir la señal multiplexada S70 en un canal de transmisión tal como un canal por cable, óptico o inalámbrico. Un aparato tal también puede estar configurado para llevar a cabo una o más operaciones de codificación de canal en la señal, tal como codificación de corrección de errores (por ejemplo, codificación convolucional compatible con la tasa) y/o 5
codificación de detección de errores (por ejemplo, codificación de redundancia cíclica) y/o una o más capas de codificación de protocolo de red (por ejemplo, Ethernet, TCP/IP, cdma 2000).
Puede ser deseable que el multiplexor A130 esté configurado para integrar la señal codificada de banda estrecha (incluyendo parámetros S40 de filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha) como una subcorriente separable de la señal multiplexada S70, de tal manera que pueda recuperarse la señal codificada de banda estrecha y decodificarse independientemente de otra porción de la señal multiplexada S70, tal como una señal de banda alta y/o de banda baja. Por ejemplo, puede disponerse la señal multiplexada S70 de tal manera que pueda recuperarse la señal codificada de banda estrecha eliminando los parámetros S60 de filtro de banda alta. Una ventaja potencial de tal característica es evitar la necesidad de transcodificar la señal de banda ancha codificada antes de pasarla a un sistema que soporte la decodificación de la señal de banda estrecha pero no soporte la decodificación de la porción de banda alta.
La FIGURA 2a es un diagrama de bloques de un decodificador B100 de voz de banda ancha según una realización. El decodificador B110 de banda estrecha está configurado para decodificar parámetros S40 de filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha para producir una señal S90 de banda estrecha. El decodificador B200 de banda alta está configurado para decodificar parámetros S60 de codificación de banda alta según una señal S80 de excitación de banda estrecha, basándose en la señal codificada S50 de excitación de banda estrecha, para producir una señal S100 de banda alta. En este ejemplo, el decodificador B110 de banda estrecha está configurado para proporcionar la señal S80 de excitación de banda estrecha al decodificador B200 de banda alta. El banco B120 de filtros está configurado para combinar la señal S90 de banda estrecha y la señal S100 de banda alta para producir una señal S110 de voz de banda ancha.
La FIGURA 2b es un diagrama de bloques de una implementación B102 del decodificador B100 de voz de banda ancha que incluye un demultiplexor B130 configurado para producir señales S40, S50 y S60 codificadas a partir de la señal multiplexada S70. Un aparato que incluye un decodificador B102 puede incluir un conjunto de circuitos configurado para recibir la señal multiplexada S70 de un canal de transmisión tal como un canal por cable, óptico o inalámbrico. Un aparato de este tipo también puede estar configurado para llevar a cabo una o más operaciones de decodificación de canal en la señal, tal como decodificación de corrección de errores (por ejemplo, decodificación convolucional compatible con la tasa) y/o decodificación de detección de errores (por ejemplo, decodificación de redundancia cíclica) y/o una o más capas de decodificación de protocolo de red (por ejemplo, Ethernet, TCP/IP, cdma 2000).
El banco A110 de filtros está configurado para filtrar una señal de entrada según un esquema de división en bandas para producir una subbanda de baja frecuencia y una subbanda de alta frecuencia. Dependiendo de los criterios de diseño para la aplicación particular, las subbandas de salida pueden tener anchos de banda iguales o desiguales y pueden superponerse o no superponerse. También es posible una configuración del banco A110 de filtros que produzca más de dos subbandas. Por ejemplo, un banco de filtros de este tipo puede estar configurado para producir una o más señales de banda baja que incluyen componentes en un intervalo de frecuencias por debajo del de la señal S20 de banda estrecha (tal como el intervalo de 50-300 Hz). También es posible que un banco de filtros de este tipo esté configurado para producir una o más señales de banda alta adicionales que incluyen componentes en un intervalo de frecuencias por encima del de la señal S30 de banda alta (tal como un intervalo de 14-20 kHz, 1620 kHz o 16-32 kHz). En tal caso, puede implementarse el codificador A100 de voz de banda ancha para codificar esta señal o estas señales por separado, y el multiplexor A130 puede estar configurado para incluir la señal o las señales codificadas adicionales en la señal multiplexada S70 (por ejemplo, como una porción separable).
La FIGURA 3a muestra un diagrama de bloques de una implementación A112 del banco A110 de filtros que está configurado para producir dos señales de subbanda que tienen tasas de muestreo reducidas. El banco A110 de filtros está dispuesto para recibir una señal S10 de voz de banda ancha que tiene una porción de alta frecuencia (o banda alta) y una porción de baja frecuencia (o banda baja). El banco A112 de filtros incluye un trayecto de procesamiento de banda baja configurado para recibir la señal S10 de voz de banda ancha y para producir la señal S20 de voz de banda estrecha, y un trayecto de procesamiento de banda alta configurado para recibir la señal S10 de voz de banda ancha y para producir la señal S30 de voz de banda alta. El filtro 110 de paso bajo filtra la señal S10 de voz de banda ancha para pasar una subbanda de baja frecuencia seleccionada, y el filtro 130 de paso alto filtra la señal S10 de voz de banda ancha para pasar una subbanda de alta frecuencia seleccionada. Debido a que ambas señales de subbanda tienen más anchos de banda estrechos que la señal S10 de voz de banda ancha, pueden reducirse sus tasas de muestreo hasta cierto punto sin pérdida de información. El submuestreador 120 reduce la tasa de muestreo de la señal de paso bajo según un factor de diezmado deseado (por ejemplo, eliminando muestras de la señal y/o sustituyendo muestras con valores promedio), y asimismo el submuestreador 140 reduce la tasa de muestreo de la señal de paso alto según otro factor de diezmado deseado.
La FIGURA 3b muestra un diagrama de bloques de una implementación B122 correspondiente del banco B120 de filtros. El sobremuestreador 150 aumenta la tasa de muestreo de la señal S90 de banda estrecha (por ejemplo, rellenando con ceros y/o duplicando muestras), y el filtro 160 de paso bajo filtra la señal sobremuestreada para que pase solo una porción de banda baja (por ejemplo, para prevenir el solapamiento). Asimismo, el sobremuestreador 170 aumenta la tasa de muestreo de la señal S100 de banda alta y el filtro 180 de paso alto filtra la señal
sobremuestreada para que pase solo una parte de banda alta. Entonces las dos señales de banda de paso se suman para formar la señal S110 de voz de banda ancha. En algunas implementaciones del decodificador B100, el banco B120 de filtros está configurado para producir una suma ponderada de las dos señales de banda de paso según uno o más pesos recibidos y/o calculados por el decodificador B200 de banda alta. También se contempla una configuración del banco B120 de filtros que combine más de dos señales de banda de paso.
Puede implementarse cada uno de los filtros 110, 130, 160, 180 como un filtro de respuesta de impulsos finita (FIR)
o como un filtro de respuesta de impulsos infinita (IIR). Las respuestas de frecuencia de los filtros 110 y 130 de codificador pueden tener regiones de transición conformadas de manera simétrica o no similar entre la banda de parada y la banda de paso. Asimismo, las respuestas de frecuencia de los filtros 160 y 180 de decodificador pueden tener regiones de transición conformadas de manera simétrica o no similar entre la banda de parada y la banda de paso. Puede ser deseable aunque no estrictamente necesario que el filtro 110 de paso bajo tenga la misma respuesta que el filtro 160 de paso bajo, y que el filtro 130 de paso alto tenga la misma respuesta que el filtro 180 de paso alto. En un ejemplo, los dos pares 110, 130 y 160, 180 de filtros son bancos de filtros de espejo en cuadratura (QMF), teniendo el par 110, 130 de filtros los mismos coeficientes que el par 160, 180 de filtros.
En un ejemplo típico, el filtro 110 de paso bajo tiene una banda de paso que incluye el intervalo de RTPC limitado de 300-3400 Hz (por ejemplo, la banda desde 0 kHz hasta 4 kHz). Las FIGURAS 4a y 4b muestran anchos de banda relativos de la señal S10 de voz de banda ancha, la señal S20 de banda estrecha y la señal S30 de banda alta en dos ejemplos de implementación diferentes. En ambos de estos ejemplos particulares, la señal S10 de voz de banda ancha tiene una tasa de muestreo de 16 kHz (que representa componentes de frecuencia dentro del intervalo de 0 a 8 kHz), y la señal S20 de banda estrecha tiene una tasa de muestreo de 8 kHz (que representa componentes de frecuencia dentro del intervalo de 0 a 4 kHz).
En el ejemplo de la FIGURA 4a, no hay superposición significativa entre las dos subbandas. Puede obtenerse una señal S30 de banda alta, tal como se muestra en este ejemplo usando un filtro 130 de paso alto con una banda de paso de 4-8 kHz. En tal caso, puede ser deseable reducir la tasa de muestreo a 8 kHz submuestreando la señal filtrada en un factor de dos. Una operación de este tipo, que puede esperarse que reduzca significativamente la complejidad de cálculo de operaciones de procesamiento adicionales en la señal, moverá la energía de banda de paso hasta el intervalo de 0 a 4 kHz sin pérdida de información.
En el ejemplo alternativo de la FIGURA 4b, las subbandas superior e inferior tienen una superposición apreciable, de tal manera que la región de 3,5 a 4 kHz se describe mediante ambas señales de subbanda. Puede obtenerse una señal S30 de banda alta como en este ejemplo usando un filtro 130 de paso alto con una banda de paso de 3,5-7 kHz. En tal caso, puede ser deseable reducir la tasa de muestreo a 7 kHz submuestreando la señal filtrada en un factor de 16/7. Una operación de este tipo, que puede esperarse que reduzca significativamente la complejidad de cálculo de operaciones de procesamiento adicionales en la señal, moverá la energía de banda de paso hasta el intervalo de 0 a 3,5 kHz sin pérdida de información.
En un microteléfono típico para comunicación telefónica, uno o más de los transductores (es decir, el microteléfono y el auricular o altavoz) carece de una respuesta apreciable sobre el intervalo de frecuencia de 7-8 kHz. En el ejemplo de la FIGURA 4b, la porción de la señal S10 de voz de banda ancha entre 7 y 8 kHz no se incluye en la señal codificada. Otros ejemplos particulares del filtro 130 de paso alto tienen bandas de paso de 3,5-7,5 kHz y 3,5-8 kHz.
En algunas implementaciones, proporcionar una superposición entre subbandas como en el ejemplo de la FIGURA 4b permite el uso de un filtro de paso bajo y/o de paso alto que tiene unas atenuaciones progresivas suaves sobre la región superpuesta. Normalmente, tales filtros son más fáciles de diseñar, menos complejos de calcular y/o introducen menos retardo que los filtros con respuestas más agudas o de “pared”. Los filtros que tienen regiones de transición agudas tienden a tener lóbulos laterales más altos (que pueden provocar solapamiento) que los filtros de orden similar que tienen atenuaciones progresivas suaves. Los filtros que tienen regiones de transición agudas también pueden tener respuestas de impulso largas que pueden provocar artefactos de repiqueteo. Para las implementaciones del banco de filtros que tienen uno o más filtros de IIR, permitir una atenuación progresiva suave sobre la región superpuesta puede permitir el uso de un filtro o filtros cuyos polos están más alejados del círculo unitario, que pueden ser importantes para garantizar una implementación de punto fijado estable.
La superposición de subbandas permite una mezcla suave de banda baja y de banda alta que puede conducir a menos artefactos audibles, solapamiento reducido y/o una transición menos perceptible desde una banda a la otra. Además, la eficacia de codificación del codificador A120 de banda estrecha (por ejemplo, un codificador de forma de onda) puede caer con una frecuencia creciente. Por ejemplo, puede reducirse la calidad de codificación del codificador de banda estrecha a bajas tasas de transmisión de bits, especialmente en presencia de ruido de fondo. En tales casos, proporcionar una superposición de las subbandas puede aumentar la calidad de los componentes de frecuencia reproducidos en la región superpuesta.
Además, la superposición de subbandas permite una mezcla suave de banda baja y de banda alta que puede conducir a menos artefactos audibles, solapamiento reducido y/o una transición menos perceptible de una banda a la otra. Tal característica puede ser especialmente deseable para una implementación en la que el codificador A120 de banda estrecha y el codificador A200 de banda alta operan según metodologías de codificación diferentes. Por 7
ejemplo, técnicas de codificación diferentes pueden producir señales que suenan bastante diferentes. Un codificador que codifica una envolvente espectral en forma de índices de código puede producir una señal que tiene un sonido diferente que un codificador que codifica, en cambio, el espectro de amplitud. Un codificador en el dominio temporal (por ejemplo, una modulación por impulsos codificados o codificador PCM) puede producir una señal que tiene un sonido diferente que un codificador en el dominio frecuencial. Un codificador que codifica una señal con una representación de la envolvente espectral y la señal residual correspondiente puede producir una señal que tiene un sonido diferente que un codificador que codifica una señal con solo una representación de la envolvente espectral. Un codificador que codifica una señal como una representación de su forma de onda puede producir una salida que tiene un sonido diferente que el de un codificador sinusoidal. En tales casos, el uso de filtros que tienen regiones de transición agudas para definir subbandas no superpuestas puede llevar a una transición abrupta y perceptible entre las subbandas en la señal de banda ancha sintetizada.
Aunque a menudo se usan bancos de filtros QMF que tienen respuestas de frecuencia de superposición complementarias en técnicas de subbanda, tales filtros son inadecuados para al menos algunas de las implementaciones de codificación de banda ancha descritas en el presente documento. Un banco de filtros QMF en el codificador está configurado para crear un grado significativo de solapamiento que se cancela en el banco de filtros QMF correspondiente en el decodificador. Una disposición de este tipo puede no ser apropiada para una aplicación en la que la señal experimenta una cantidad significativa de distorsión entre los bancos de filtros, ya que la distorsión puede reducir la efectividad de la propiedad de cancelación de solapamiento. Por ejemplo, las aplicaciones descritas en el presente documento incluyen implementaciones de codificación configuradas para operar a tasas de transmisión de bits muy bajas. Como consecuencia de la tasa de transmisión de bits muy baja, es probable que la señal decodificada aparezca significativamente distorsionada en comparación con la señal original, de tal manera que el uso de bancos de filtros QMF puede llevar a un solapamiento no cancelado.
Además, un codificador puede estar configurado para producir una señal sintetizada que es perceptiblemente similar a la señal original pero que en realidad difiere significativamente de la señal original. Por ejemplo, un codificador que deriva la excitación de banda alta a partir del resto de banda estrecha, tal como se describe en el presente documento, puede producir una señal de este tipo, ya que el resto de banda alta real puede estar completamente ausente de la señal decodificada. El uso de bancos de filtros QMF en tales aplicaciones puede conducir a un grado significativo de distorsión provocado por solapamiento no cancelado. Las aplicaciones que usan bancos de filtros QMF tienen normalmente tasas de transmisión de bits superiores (por ejemplo, por encima de 12 kbps para AMR, y de 64 kbps para G.722).
Puede reducirse la cantidad de distorsión provocada por solapamiento de QMF si la subbanda afectada es estrecha, ya que el efecto del solapamiento se limita a un ancho de banda igual al ancho de la subbanda. Sin embargo, para ejemplos tal como se describen en el presente documento en los que cada subbanda incluye aproximadamente la mitad del ancho de banda de banda ancha, la distorsión provocada por solapamiento no cancelado podría afectar a una parte significativa de la señal. También puede verse afectada la calidad de la señal por la ubicación de la banda de frecuencia sobre la que se produce el solapamiento no cancelado. Por ejemplo, la distorsión creada cerca del centro de una señal de voz de banda ancha (por ejemplo, entre 3 y 4 kHz) puede ser mucho más inaceptable que la distorsión que se produce cerca de un borde de la señal (por ejemplo, por encima de 6 kHz).
Aunque las respuestas de los filtros de un banco de filtros QMF están relacionadas estrictamente entre sí, pueden configurarse los trayectos de banda baja y banda alta de los bancos A110 y B120 de filtros para que tengan espectros que no tienen relación ninguna aparte de la superposición de las dos subbandas. Se define la superposición de las dos subbandas como la distancia desde el punto en el que la respuesta de frecuencia del filtro de banda alta cae a -20 dB hasta el punto en el que la respuesta de frecuencia del filtro de banda baja cae a -20 dB. En diversos ejemplos del banco A110 y/o B120 de filtros, esta superposición oscila desde aproximadamente 200 Hz hasta aproximadamente 1 kHz. El intervalo de aproximadamente 400 hasta aproximadamente 600 Hz puede representar un equilibrio deseado entre la eficacia de codificación y la suavidad de percepción. En un ejemplo particular, tal como se ha mencionado anteriormente, la superposición es aproximadamente 500 Hz.
Puede ser deseable implementar el banco A112 y/o B122 de filtros para llevar a cabo operaciones tal como se ilustra en las FIGURAS 4a y 4b en varias etapas. Por ejemplo, la FIGURA 4c muestra un diagrama de bloques de una implementación A114 del banco A112 de filtros que lleva a cabo un equivalente funcional de operaciones de submuestreo y filtrado de paso alto usando una serie de operaciones de interpolación, realización de nuevo muestreo, diezmado y otras. Puede ser más fácil de diseñar una implementación de este tipo y/o puede permitir la reutilización de bloques funcionales de lógica y/o código. Por ejemplo, puede usarse el mismo bloque funcional para llevar a cabo las operaciones de diezmado a 14 kHz y diezmado a 7 kHz, tal como se muestra en la FIGURA 4c. Puede implementarse la operación de inversión espectral multiplicando la señal por la función ejnn o la secuencia (1)n, cuyos valores alternan entre +1 y -1. Puede implementarse la operación de conformación espectral como un filtro de paso bajo configurado para conformar la señal para obtener una respuesta de filtro global deseada.
Se hace notar que como consecuencia de la operación de inversión espectral, se invierte el espectro de la señal S30 de banda alta. En consecuencia, pueden configurarse operaciones posteriores en el codificador y el decodificador correspondiente. Por ejemplo, el generador A300 de excitación de banda alta, tal como se describe en el presente
documento, puede estar configurado para producir una señal S120 de excitación de banda alta que también tiene una forma invertida espectralmente.
La FIGURA 4d muestra un diagrama de bloques de una implementación B124 del banco B122 de filtros que lleva a cabo un equivalente funcional de operaciones de sobremuestreo y filtrado de paso alto usando una serie de operaciones de interpolación, realización de nuevo muestreo y otras. El banco B124 de filtros incluye una operación de inversión espectral en la banda alta que invierte una operación similar tal como se lleva a cabo, por ejemplo, en un banco de filtros del codificador tal como el banco A114 de filtros. En este ejemplo particular, el banco B124 de filtros también incluye filtros de muesca en la banda baja y la banda alta que atenúan un componente de la señal a 7100 Hz, aunque tales filtros son opcionales y no es preciso que estén incluidos. La solicitud de patente “SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING”, presentada con el presente documento, expediente de agente 050551, incluye una descripción y figuras adicionales relativas a respuestas de elementos de implementaciones particulares de los bancos A110 y B120 de filtros, y este material se incorpora al presente documento por referencia.
Se implementa el codificador A120 de banda estrecha según un modelo de filtro de fuente que codifica la señal de voz de entrada como (A) un conjunto de parámetros que describen un filtro y (B) una señal de excitación que hace que el filtro descrito produzca una reproducción sintetizada de la señal de voz de entrada. La FIGURA 5a muestra un ejemplo de una envolvente espectral de una señal de voz. Los picos que caracterizan esta envolvente espectral representan resonancias del tracto vocal y se denominan formantes. La mayoría de codificadores de voz codifican al menos esta estructura espectral tosca como un conjunto de parámetros tales como coeficientes de filtro.
La FIGURA 5b muestra un ejemplo de una disposición básica de filtro de fuente tal como se aplica para la codificación de la envolvente espectral de la señal S20 de banda estrecha. Un módulo de análisis calcula un conjunto de parámetros que caracterizan un filtro que corresponde a un sonido de voz durante un periodo de tiempo (normalmente 20 ms). Un filtro blanqueador (también denominado un filtro de análisis o de error de predicción) configurado según esos parámetros de filtro elimina la envolvente espectral para aplanar espectralmente la señal. La señal blanqueada resultante (también denominada un resto) tiene menos energía y, por lo tanto, menos varianza y es más fácil de codificar que la señal de voz original. También pueden propagarse los errores resultantes de la codificación de la señal residual más uniformemente en todo el espectro. Los parámetros de filtro y el resto se cuantifican normalmente para su transmisión eficaz a través del canal. En el decodificador, un filtro de síntesis configurado según los parámetros de filtro se excita por una señal basada en el resto para producir una versión sintetizada del sonido de voz original. Típicamente, el filtro de síntesis está configurado para tener una función de transferencia que es la inversa de la función de transferencia del filtro blanqueador.
La FIGURA 6 muestra un diagrama de bloques de una implementación A122 básica del codificador A120 de banda estrecha. En este ejemplo, un módulo 210 de análisis de codificación de predicción lineal (LPC) codifica la envolvente espectral de la señal S20 de banda estrecha como un conjunto de coeficientes de predicción lineal (LP) (por ejemplo, coeficientes de un filtro omnipolar 1/A(z)). Normalmente, el módulo de análisis procesa la señal de entrada como una serie de tramas no superpuestas, calculándose un nuevo conjunto de coeficientes para cada trama. Generalmente, el periodo de trama es un periodo durante el que puede esperarse que la señal sea estacionaria localmente; un ejemplo común es 20 milisegundos (equivalente a 160 muestras a una tasa de muestreo de 8 kHz). En un ejemplo, el módulo 210 de análisis de LPC está configurado para calcular un conjunto de diez coeficientes de filtro de LP para caracterizar la estructura formante de cada trama de 20 milisegundos. También es posible implementar el módulo de análisis para procesar la señal de entrada como una serie de tramas superpuestas.
El módulo de análisis puede estar configurado para analizar las muestras de cada trama directamente, o pueden ponderarse las muestras primero según una función ventana (por ejemplo, una ventana de Hamming). También puede llevarse a cabo el análisis a través de una ventana que sea más grande que la trama, tal como una ventana de 30 ms. Esta ventana puede ser simétrica (por ejemplo 5-20-5, de tal manera que incluye los 5 milisegundos inmediatamente anteriores y posteriores a la trama de 20 milisegundos) o asimétrica (por ejemplo 10-20, de tal manera que incluya los últimos 10 milisegundos de la trama anterior). Normalmente, un módulo de análisis de LPC está configurado para calcular los coeficientes de filtro de LP usando una recursión de Levinson-Durbin o el algoritmo de Leroux-Gueguen. En otra implementación, el módulo de análisis puede estar configurado para calcular un conjunto de coeficientes cepstrales para cada trama en lugar de un conjunto de coeficientes de filtro de LP.
La velocidad de salida del codificador A120 puede reducirse significativamente, con relativamente poco efecto sobre la calidad de reproducción, cuantificando los parámetros de filtro. Los coeficientes de filtro de predicción lineal son difíciles de cuantificar eficazmente y habitualmente se correlacionan con otra representación, tal como pares espectrales de línea (LSP) o frecuencias espectrales de línea (LSF), para cuantificación y/o codificación de entropía. En el ejemplo de la FIGURA 6, la transformada 220 de coeficiente de filtro de LP a LSF transforma el conjunto de coeficientes de filtro de LP en un conjunto correspondiente de las LSF. Otras representaciones uno a uno de coeficientes de filtro de LP incluyen coeficientes de correlación parcial; valores de la razón de área logarítmica; pares espectrales de inmitancia (ISP); y frecuencias espectrales de inmitancia (ISF), que se usan en el códec de AMR-WB (ancho de banda de tasa múltiple adaptativa) de GSM (Sistema general para las comunicaciones móviles).
Normalmente una transformada entre un conjunto de coeficientes de filtro de LP y un conjunto correspondiente de las LSF es reversible, pero las realizaciones también incluyen implementaciones del codificador A120 en las que la transformada no es reversible sin error.
El cuantificador 230 está configurado para cuantificar el conjunto de las LSF de banda estrecha (u otra representación de coeficiente), y el codificador A122 de banda estrecha está configurado para emitir el resultado de esta cuantificación como los parámetros S40 de filtro de banda estrecha. Normalmente, un cuantificador de este tipo incluye un cuantificador de vector que codifica el vector de entrada como un índice con respecto a una entrada de vector correspondiente en una tabla o código.
Tal como se observa en la FIGURA 6, el codificador A122 de banda estrecha también genera una señal residual dejando pasar la señal S20 de banda estrecha a través de un filtro blanqueador 260 (también denominado filtro de análisis o de error de predicción) que está configurado según el conjunto de coeficientes de filtro. En este ejemplo particular, se implementa el filtro blanqueador 260 como un filtro de FIR, aunque también pueden usarse implementaciones de IIR. Normalmente, esta señal residual contendrá información importante en cuanto a la percepción de la trama de voz, tal como la estructura a largo plazo relativa a la altura tonal, que no se representa en los parámetros S40 de filtro de banda estrecha. El cuantificador 270 está configurado para calcular una representación cuantificada de esta señal residual para su emisión como la señal codificada S50 de excitación de banda estrecha. Normalmente, un cuantificador de este tipo incluye un cuantificador de vector que codifica el vector de entrada como un índice con respecto a una entrada de vector correspondiente en una tabla o código. Como alternativa, un cuantificador de este tipo puede estar configurado para enviar uno o más parámetros a partir de los cuales puede generarse el vector dinámicamente en el decodificador, en lugar de recuperarse del almacenamiento, como en un procedimiento de código disperso. Se usa un procedimiento de este tipo en esquemas de codificación tales como CELP algebraica (predicción lineal de excitación por código) y códecs tales como el EVRC (Códec de tasa variable mejorada) de 3GPP2 (Asociación 2 de Tercera Generación).
Es deseable que el codificador A120 de banda estrecha genere la señal codificada de excitación de banda estrecha según los mismos valores de parámetros de filtro que estarán disponibles para el correspondiente decodificador de banda estrecha. De esta manera, la señal codificada de excitación de banda estrecha resultante ya puede representar en cierta medida las no idealidades en esos valores de parámetros, tales como el error de cuantificación. Por consiguiente, es deseable configurar el filtro blanqueador usando los mismos valores de coeficiente que estarán disponibles en el decodificador. En el ejemplo básico del codificador A122 tal como se muestra en la FIGURA 6, el cuantificador inverso 240 descuantifica los parámetros S40 de codificación de banda estrecha, la transformada 250 de coeficiente de filtro de LSF a LP vuelve a correlacionar los valores resultantes con un conjunto correspondiente de coeficientes de filtro de LP, y este conjunto de coeficientes se usa para configurar el filtro blanqueador 260 para generar la señal residual que es cuantificada por el cuantificador 270.
Algunas implementaciones del codificador A120 de banda estrecha están configuradas para calcular la señal codificada S50 de excitación de banda estrecha identificando uno entre un conjunto de vectores de código que mejor se ajusta a la señal residual. Sin embargo, se hace notar que también puede implementarse el codificador A120 de banda estrecha para calcular una representación cuantificada de la señal residual sin generar en realidad la señal residual. Por ejemplo, el codificador A120 de banda estrecha puede estar configurado para usar un número de vectores de código para generar señales sintetizadas correspondientes (por ejemplo, según un conjunto actual de parámetros de filtro), y para seleccionar el vector de código asociado con la señal generada que mejor se ajuste a la señal S20 de banda estrecha original en un dominio ponderado según la percepción.
La FIGURA 7 muestra un diagrama de bloques de una implementación B112 del decodificador B110 de banda estrecha. El cuantificador inverso 310 descuantifica los parámetros S40 de filtro de banda estrecha (en este caso, a un conjunto de LSF), y la transformada 320 de coeficiente de filtro de LP a LSF transforma las LSF en un conjunto de coeficientes de filtro (por ejemplo, tal como se describió anteriormente con referencia al cuantificador inverso 240 y la transformada 250 del codificador A122 de banda estrecha). El cuantificador inverso 340 descuantifica la señal codificada S50 de excitación de banda estrecha para producir una señal S80 de excitación de banda estrecha. Basándose en los coeficientes de filtro y la señal S80 de excitación de banda estrecha, el filtro 330 de síntesis de banda estrecha sintetiza la señal S90 de banda estrecha. En otras palabras, el filtro 330 de síntesis de banda estrecha está configurado para conformar espectralmente la señal S80 de excitación de banda estrecha según los coeficientes de filtro descuantificados para producir la señal S90 de banda estrecha. El decodificador B112 de banda estrecha también proporciona la señal S80 de excitación de banda estrecha al codificador A200 de banda alta, que la usa para derivar la señal S120 de excitación de banda alta, tal como se describe en el presente documento. En algunas implementaciones, tal como se describe en lo que sigue, el decodificador B110 de banda estrecha puede estar configurado para proporcionar información adicional al decodificador B200 de banda alta que se relaciona con la señal de banda estrecha, tal como inclinación espectral, ganancia y retraso de altura tonal, y modo de voz.
El sistema del codificador A122 de banda estrecha y el decodificador B112 de banda estrecha es un ejemplo básico de un códec de voz de análisis por síntesis. La codificación de predicción lineal de excitación de código (CELP) es una familia popular de codificación de análisis por síntesis, y las implementaciones de tales codificadores pueden llevar a cabo la codificación de forma de onda del resto, incluyendo operaciones tales como la selección de entradas
a partir de códigos fijos y adaptativos, operaciones de minimización de error y/u operaciones de ponderación perceptual. Otras implementaciones de codificación de análisis por síntesis incluyen la codificación de predicción lineal de excitación mixta (MELP), CELP algebraica (ACELP), CELP de relajación (RCELP), excitación de impulsos regulares (RPE), CELP de impulsos múltiples (MPE), y predicción lineal excitada por suma de vectores (VSELP). Los procedimientos de codificación relacionados incluyen la codificación de excitación de bandas múltiples (MBE) y la interpolación de forma de onda de prototipo (PWI). Los ejemplos de códecs estandarizados de voz de análisis por síntesis incluyen el códec de tasa completa de GSM (GSM 06.10) del ETSI (Instituto Europeo de Normas de Telecomunicaciones), que usa predicción lineal excitada residual (RELP); el códec de tasa completa mejorada de GSM (ETSI-GSM 06.60); el codificador del anexo E G.729 de 11,8 kb/s de la norma de ITU (Unión Internacional de Telecomunicaciones); los códecs de IS (Norma provisional)-641 para IS-136 (un esquema de acceso múltiple por división de tiempo); los códecs de velocidades múltiples adaptativas de GSM (GSM-AMR); y el códec de 4GV™ (Vocoder™ de cuarta generación) (QUALCOMM Incorporated, San Diego, California). Pueden implementarse el codificador A120 de banda estrecha y el correspondiente decodificador B110 según cualquiera de estas tecnologías
o cualquier otra tecnología de codificación de voz (ya sea conocida o que vaya a desarrollarse) que represente una señal de voz como (A) un conjunto de parámetros que describen un filtro y (B) una señal de excitación usada para hacer que el filtro descrito reproduzca la señal de voz.
Incluso después de que el filtro blanqueador haya eliminado la envolvente espectral tosca de la señal S20 de banda estrecha, puede permanecer una cantidad considerable de estructura armónica fina, especialmente para habla vocalizada. La FIGURA 8a muestra una representación gráfica espectral de un ejemplo de una señal residual, tal como puede ser producida mediante un filtro blanqueador, para una señal sonora tal como una vocal. La estructura periódica visible en este ejemplo se refiere a la altura tonal, y diferentes sonidos vocalizados hablados por el mismo orador pueden tener diferentes estructuras formantes, pero estructuras de altura tonal similar. La FIGURA 8b muestra una representación gráfica en el dominio temporal de un ejemplo de una señal residual de este tipo que muestra una secuencia de impulsos de altura tonal en el tiempo.
Puede aumentarse la eficacia de codificación y/o la calidad de la voz usando uno o más valores de parámetros para codificar características de la estructura de altura tonal. Una característica importante de la estructura de altura tonal es la frecuencia del primer armónico (también denominada frecuencia fundamental), que normalmente está en el intervalo de 60 a 400 Hz. Normalmente, esta característica se codifica como la inversa de la frecuencia fundamental, también denominada retraso de altura tonal. El retraso de altura tonal indica el número de muestras en un periodo de altura tonal y puede codificarse como uno o más índices de código. Las señales de voz de los oradores tienden a tener retrasos de altura tonal más grandes que las señales de voz de las oradoras.
Otra característica de la señal en relación con la estructura de altura tonal es la periodicidad, que indica la intensidad de la estructura armónica o, en otras palabras, el grado en el que la señal es armónica o no armónica. Dos indicadores típicos de periodicidad son los cruces por cero y las funciones de autocorrelación normalizadas (NACF). También puede indicarse la periodicidad mediante la ganancia de altura tonal, que se codifica comúnmente como una ganancia de código (por ejemplo, una ganancia de código adaptativa cuantificada).
El codificador A120 de banda estrecha puede incluir uno o más módulos configurados para codificar la estructura armónica a largo plazo de la señal S20 de banda estrecha. Tal como se muestra en la FIGURA 9, un paradigma de CELP típico que puede usarse incluye un módulo de análisis de LPC de bucle abierto, que codifica las características a corto plazo o la envolvente espectral tosca, seguido por una etapa de análisis de predicción a largo plazo de bucle cerrado, que codifica la altura tonal fina o la estructura armónica. Las características a corto plazo se codifican como coeficientes de filtro, y las características a largo plazo se codifican como valores para parámetros tales como retraso de altura tonal y ganancia de altura tonal. Por ejemplo, el codificador A120 de banda estrecha puede estar configurado para emitir la señal codificada S50 de excitación de banda estrecha en una forma que incluye uno o más índices de código (por ejemplo, un índice de código fijo y un índice de código adaptativo) y valores de ganancia correspondientes. El cálculo de esta representación cuantificada de la señal residual de banda estrecha (por ejemplo, por el cuantificador 270) puede incluir seleccionar tales índices y calcular tales valores. La codificación de la estructura de altura tonal también puede incluir la interpolación de una forma de onda de prototipo de altura tonal, operación que puede incluir calcular una diferencia entre impulsos de altura tonal sucesivos. El modelado de la estructura a largo plazo puede inhabilitarse para tramas correspondientes a habla no vocalizada, que normalmente es de tipo ruido y no estructurada.
Una implementación del decodificador B110 de banda estrecha según un paradigma como el mostrado en la FIGURA 9 puede estar configurada para emitir la señal S80 de excitación de banda estrecha al decodificador B200 de banda alta tras haberse restaurado la estructura a largo plazo (estructura armónica o de altura tonal). Por ejemplo, un decodificador de este tipo puede estar configurado para emitir la señal S80 de excitación de banda estrecha como una versión descuantificada de la señal codificada S50 de excitación de banda estrecha. Naturalmente, también es posible implementar el decodificador B110 de banda estrecha de tal manera que el decodificador B200 de banda alta lleve a cabo la descuantificación de la señal codificada S50 de excitación de banda estrecha para obtener la señal S80 de excitación de banda estrecha.
En una implementación del codificador A100 de voz de banda ancha según un paradigma tal como el mostrado en la FIGURA 9, el codificador A200 de banda alta puede estar configurado para recibir la señal de excitación de banda estrecha tal como se produjo mediante el análisis a corto plazo o el filtro blanqueador. En otras palabras, el codificador A120 de banda estrecha puede estar configurado para emitir la señal de excitación de banda estrecha al codificador A200 de banda alta antes de la codificación de la estructura a largo plazo. Sin embargo, es deseable que el codificador A200 de banda alta reciba del canal de banda estrecha la misma información de codificación que recibirá el decodificador B200 de banda alta, de tal manera que los parámetros de codificación producidos por el codificador A200 de banda alta puedan ya representar en cierta medida las no idealidades en esa información. Por tanto, puede resultar preferible que el codificador A200 de banda alta reconstruya la señal S80 de excitación de banda estrecha a partir de la misma señal codificada S50 de excitación de banda estrecha parametrizada y/o cuantificada que el codificador A100 de voz de banda ancha va emitir. Una ventaja potencial de este enfoque es el cálculo más preciso de los factores S60b de ganancia de banda alta que se describen a continuación.
Además de los parámetros que caracterizan la estructura a corto plazo y/o largo plazo de la señal S20 de banda estrecha, el codificador A120 de banda estrecha puede producir valores de parámetros que se relacionan con otras características de la señal S20 de banda estrecha. Estos valores, que pueden cuantificarse adecuadamente para ser emitidos mediante el codificador A100 de voz de banda ancha, pueden ser incluidos entre los parámetros S40 de filtro de banda estrecha o ser emitidos por separado. El codificador A200 de banda alta también puede estar configurado para calcular parámetros S60 de codificación de banda alta según uno o más de estos parámetros adicionales (por ejemplo, tras la descuantificación). En el decodificador B100 de voz de banda ancha, un decodificador B200 de banda alta puede estar configurado para recibir los valores de parámetros por medio del decodificador B110 de banda estrecha (por ejemplo, tras la descuantificación). Como alternativa, el decodificador B200 de banda alta puede estar configurado para recibir (y posiblemente para descuantificar) los valores de parámetros directamente.
En un ejemplo de parámetros de codificación de banda estrecha adicionales, el codificador A120 de banda estrecha produce valores para inclinación espectral y parámetros de modo de voz para cada trama. La inclinación espectral se refiere a la forma de la envolvente espectral sobre la banda de paso y se representa normalmente por el primer coeficiente de reflexión cuantificado. Para la mayoría de los sonidos vocalizados, la energía espectral disminuye con la el aumento de la frecuencia, de tal manera que el primer coeficiente de reflexión es negativo y puede aproximarse a -1. La mayoría de los sonidos no vocalizados tienen un espectro que es plano, de tal manera que el primer coeficiente de reflexión se aproxima a cero, o bien tiene más energía en frecuencias altas, de tal manera que el primer coeficiente de reflexión es positivo y puede aproximarse a +1.
El modo de voz (también denominado modo de vocalización) indica si la trama actual representa habla vocalizada o no vocalizada. Este parámetro puede tener un valor binario basado en una o más medidas de periodicidad (por ejemplo, cruces por cero, NACF, ganancia de altura tonal) y/o actividad de voz para la trama, tal como una relación entre una medida de este tipo y un valor umbral. En otras implementaciones, el parámetro del modo de voz tiene uno o más estados adicionales para indicar modos tales como silencio o ruido de fondo, o una transición entre silencio y habla vocalizada.
El codificador A200 de banda alta está configurado para codificar la señal S30 de banda alta según un modelo de filtro de fuente, basándose la excitación para este filtro en la señal codificada de excitación de banda estrecha. La FIGURA 10 muestra un diagrama de bloques de una implementación A202 del codificador A200 de banda alta que está configurado para producir una corriente de parámetros S60 de codificación de banda alta que incluye parámetros S60a de filtro de banda alta y factores S60b de ganancia de banda alta. El generador A300 de excitación de banda alta deriva una señal S120 de excitación de banda alta de la señal codificada S50 de excitación de banda estrecha. El módulo A210 de análisis produce un conjunto de valores de parámetros que caracterizan la envolvente espectral de la señal S30 de banda alta. En este ejemplo particular, el módulo A210 de análisis está configurado para llevar a cabo el análisis de LPC para producir un conjunto de coeficientes de filtro de LP para cada trama de la señal S30 de banda alta. La transformada 410 de coeficiente de filtro de predicción lineal a LSF transforma el conjunto de coeficientes de filtro de LP en un conjunto correspondiente de LSF. Tal como se observó anteriormente con referencia al módulo 210 de análisis y la transformada 220, el módulo A210 de análisis y/o la transformada 410 pueden estar configurados para usar otros conjuntos de coeficientes (por ejemplo, coeficientes cepstrales) y/o representaciones de coeficientes (por ejemplo, ISP).
El cuantificador 420 está configurado para cuantificar el conjunto de las LSF de banda alta (u otra representación de coeficientes, tal como las ISP), y el codificador A202 de banda alta está configurado para emitir el resultado de esta cuantificación como los parámetros S60a de filtro de banda alta. Normalmente, un cuantificador de este tipo incluye un cuantificador de vector que codifica el vector de entrada como un índice con respecto a una entrada de vector correspondiente en una tabla o código.
El codificador A202 de banda alta también incluye un filtro A220 de síntesis configurado para producir una señal sintetizada S130 de banda alta según la señal S120 de excitación de banda alta y la envolvente espectral codificada (por ejemplo, el conjunto de coeficientes de filtro de LP) producidas por el módulo A210 de análisis. Normalmente, el filtro A220 de síntesis se implementa como un filtro de IIR, aunque también pueden usarse implementaciones de
FIR. En un ejemplo particular, se implementa el filtro A220 de síntesis como un filtro autorregresivo lineal de sexto orden.
El calculador A230 del factor de ganancia de banda alta calcula una o más diferencias entre los niveles de la señal S30 de banda alta original y la señal sintetizada S130 de banda alta para especificar una envolvente de ganancia para la trama. El cuantificador 430, que puede implementarse como un cuantificador de vector que codifica el vector de entrada como un índice con respecto a una entrada de vector correspondiente en una tabla o código, cuantifica el valor o los valores que especifican la envolvente de ganancia, y el codificador A202 de banda alta está configurado para emitir el resultado de esta cuantificación como factores S60b de ganancia de banda alta.
En una implementación como la mostrada en la FIGURA 10, se dispone el filtro A220 de síntesis para recibir los coeficientes de filtro procedentes del módulo A210 de análisis. Una implementación alternativa del codificador A202 de banda alta incluye un cuantificador inverso y una transformada inversa configurados para decodificar los coeficientes de filtro de parámetros S60a de filtro de banda alta, y en este caso se dispone el filtro A220 de síntesis para recibir, en cambio, los coeficientes de filtro decodificados. Tal disposición alternativa puede soportar un cálculo más preciso de la envolvente de ganancia por parte del calculador A230 de ganancia de banda alta.
En un ejemplo particular, el módulo A210 de análisis y el calculador A230 de ganancia de banda alta emiten un conjunto de seis LSF y un conjunto de cinco valores de ganancia por trama, respectivamente, de tal manera que puede lograrse un ensanchamiento a banda ancha de la señal S20 de banda estrecha con solo once valores adicionales por trama. El oído tiende a ser menos sensible a errores de frecuencia en frecuencias altas, de tal manera que la codificación de banda alta en un orden de LPC bajo puede producir una señal que tiene una calidad de percepción comparable con respecto a la codificación de banda estrecha en un orden de LPC más alto. Una implementación típica del codificador A200 de banda alta puede estar configurada para emitir de 8 a 12 bits por trama para la reconstrucción de alta calidad de la envolvente espectral y otros 8 a 12 bits por trama para la reconstrucción de alta calidad de la envolvente temporal. En otro ejemplo particular, el módulo A210 de análisis emite un conjunto de ocho LSF por trama.
Algunas implementaciones del codificador A200 de banda alta están configuradas para producir la señal S120 de excitación de banda alta generando una señal de ruido aleatoria que tiene componentes de frecuencia de banda alta y modulando en amplitud la señal de ruido según la envolvente de dominio temporal de la señal S20 de banda estrecha, la señal S80 de excitación de banda estrecha o la señal S30 de banda alta. Sin embargo, aunque un procedimiento a base de ruido de este tipo puede producir resultados adecuados para sonidos no vocalizados, puede ser no deseable para sonidos vocalizados, cuyos restos son habitualmente armónicos y, por consiguiente, tienen cierta estructura periódica.
El generador A300 de excitación de banda alta está configurado para generar la señal S120 de excitación de banda alta ensanchando el espectro de la señal S80 de excitación de banda alta en el intervalo de frecuencia de banda alta. La FIGURA 11 muestra un diagrama de bloques de una implementación A302 del generador A300 de excitación de banda alta. El cuantificador inverso 450 está configurado para descuantificar la señal codificada S50 de excitación de banda estrecha para producir la señal S80 de excitación de banda estrecha. El ensanchador A400 de espectro está configurado para producir una señal S160 ensanchada armónicamente basándose en la señal S80 de excitación de banda estrecha. El combinador 470 está configurado para combinar una señal de ruido aleatorio generada por el generador 480 de ruido y una envolvente de dominio temporal calculada por el calculador 460 de la envolvente para producir una señal modulada S170 de ruido. El combinador 490 está configurado para mezclar la señal S160 ensanchada armónicamente y la señal modulada S170 de ruido para producir la señal S120 de excitación de banda alta.
En un ejemplo, el ensanchador A400 de espectro está configurado para llevar a cabo una operación de plegado espectral (también denominada reflejo) en la señal S80 de excitación de banda estrecha para producir la señal S160 ensanchada armónicamente. Puede llevarse a cabo el plegado espectral rellenando con ceros la señal S80 de excitación y después aplicando un filtro de paso alto para conservar el solapamiento. En otro ejemplo, el ensanchador A400 de espectro está configurado para producir la señal S160 ensanchada armónicamente trasladando espectralmente la señal S80 de excitación de banda estrecha hacia la banda alta (por ejemplo, por medio de sobremuestreo seguido por multiplicación por una señal de coseno de frecuencia constante).
Los procedimientos de plegado y traslación espectral pueden producir señales ensanchadas espectralmente cuya estructura armónica sea discontinua con la estructura armónica original de la señal S80 de excitación de banda estrecha en fase y/o frecuencia. Por ejemplo, tales procedimientos pueden producir señales que tienen picos que no están ubicados generalmente en múltiplos de la frecuencia fundamental, lo que puede provocar artefactos con sonido metálico en la señal de voz reconstruida. Estos procedimientos también tienden a producir armónicos de alta frecuencia que tienen características tonales fuertes de manera no natural. Además, debido a que una señal de RTPC puede muestrearse a 8 kHz pero limitarse en banda a no más de 3400 Hz, el espectro superior de la señal S80 de excitación de banda estrecha puede contener poco o nada de energía, de tal manera que una señal ensanchada generada según una operación de plegado espectral o traslación espectral puede tener un agujero espectral por encima de 3400 Hz.
Otros procedimientos de generación de la señal S160 ensanchada armónicamente incluyen identificar una o más frecuencias fundamentales de la señal S80 de excitación de banda estrecha y generar tonos armónicos según esa información. Por ejemplo, la estructura armónica de una señal de excitación puede caracterizarse por la frecuencia fundamental junto con información de amplitud y de fase. Otra implementación del generador A300 de excitación de banda alta genera una señal S160 ensanchada armónicamente basándose en la frecuencia y la amplitud fundamentales (tal como se indica, por ejemplo, por el retraso de altura tonal y la ganancia de altura tonal). Sin embargo, a no ser que la señal ensanchada armónicamente sea coherente en fase con la señal S80 de excitación de banda estrecha, la calidad del habla decodificada resultante puede no ser aceptable.
Puede usarse una función no lineal para crear una señal de excitación de banda alta que sea coherente en fase con la excitación de banda estrecha y preserve la estructura armónica sin discontinuidad de fase. Una función no lineal también puede proporcionar un nivel de ruido aumentado entre armónicos de alta frecuencia, lo que tiende a sonar más natural que los armónicos de alta frecuencia tonal producidos mediante procedimientos tales como el plegado espectral y la traslación espectral. Las funciones no lineales sin memoria típicas que pueden ser aplicadas por diversas implementaciones del ensanchador A400 de espectro incluyen la función de valor absoluto (también denominada rectificación de onda completa), la rectificación de onda media, la elevación al cuadrado, la elevación al cubo y el recorte. Otras implementaciones del ensanchador A400 de espectro pueden estar configuradas para aplicar una función no lineal que tenga memoria.
La FIGURA 12 es un diagrama de bloques de una implementación A402 del ensanchador A400 de espectro que está configurado para aplicar una función no lineal para ensanchar el espectro de la señal S80 de excitación de banda estrecha. El sobremuestreador 510 está configurado para sobremuestrear la señal S80 de excitación de banda estrecha. Puede resultar deseable sobremuestrear la señal lo suficiente para minimizar el solapamiento tras la aplicación de la función no lineal. En un ejemplo particular, el sobremuestreador 510 sobremuestrea la señal en un factor de ocho. El sobremuestreador 510 puede estar configurado para llevar a cabo la operación de sobremuestreo rellenando con ceros la señal de entrada y filtrando paso bajo el resultado. El calculador 520 de función no lineal está configurado para aplicar una función no lineal a la señal sobremuestreada. Una ventaja potencial de la función de valor absoluto con respecto a otras funciones no lineales para ensanchamiento espectral, tal como la elevación al cuadrado, es que no se necesita normalización de energía. En algunas implementaciones, puede aplicarse eficazmente la función de valor absoluto eliminando o quitando el bit de signo de cada muestra. El calculador 520 de función no lineal también puede estar configurado para llevar a cabo una distorsión de la amplitud de la señal ensanchada espectralmente o sobremuestreada.
El submuestreador 530 está configurado para submuestrear el resultado ensanchado espectralmente de la aplicación de la función no lineal. Puede resultar deseable que el submuestreador 530 lleve a cabo una operación de filtrado de paso de banda para seleccionar una banda de frecuencia deseada de la señal ensanchada espectralmente antes de reducir la tasa de muestreo (por ejemplo, para reducir o evitar el solapamiento o la corrupción por una imagen no deseada). También puede ser deseable que el submuestreador 530 reduzca la tasa de muestreo en más de una etapa.
La FIGURA 12a es un diagrama que muestra los espectros de señal en diversos puntos en un ejemplo de una operación de ensanchamiento espectral, siendo la escala de frecuencia la misma en las diversas representaciones gráficas. La representación gráfica (a) muestra el espectro de un ejemplo de la señal S80 de excitación de banda estrecha. La representación gráfica (b) muestra el espectro tras haberse sobremuestreado la señal S80 en un factor de ocho. La representación gráfica (c) muestra un ejemplo del espectro ensanchado tras la aplicación de una función no lineal. La representación gráfica (d) muestra el espectro tras el filtrado de paso bajo. En este ejemplo, la banda de paso se ensancha hasta el límite de frecuencia superior de la señal S30 de banda alta (por ejemplo, 7 kHz u 8 kHz).
La representación gráfica (e) muestra el espectro tras una primera etapa de submuestreo, en el que la tasa de muestreo se reduce en un factor de cuatro para obtener una señal de banda ancha. La representación gráfica (f) muestra el espectro tras una operación de filtrado de paso alto para seleccionar la parte de banda alta de la señal ensanchada, y la representación gráfica (g) muestra el espectro tras una segunda etapa de submuestreo, en la que la tasa de muestreo se reduce en un factor de dos. En un ejemplo particular, el submuestreador 530 lleva a cabo el filtrado de paso alto y la segunda etapa de submuestreo dejando pasar la señal de banda ancha a través del filtro 130 de paso alto y el submuestreador 140 del banco A112 de filtros (u otras estructuras o rutinas que tienen la misma respuesta) para producir una señal ensanchada espectralmente que tiene el intervalo de frecuencia y la tasa de muestreo de la señal S30 de banda alta.
Tal como puede observarse en la representación gráfica (g), el submuestreo de la señal de paso alto mostrada en la representación gráfica (f) provoca una inversión de su espectro. En este ejemplo, el submuestreador 530 también está configurado para llevar a cabo una operación de cambio espectral en la señal. La representación gráfica (h) muestra un resultado de la aplicación de la operación de inversión espectral, que puede llevarse a cabo multiplicando la señal por la función ejnn o la secuencia (-1)n, cuyos valores alternan entre +1 y -1. Una operación de este tipo es equivalente a desplazar el espectro digital de la señal en el dominio frecuencial en una distancia de n. Se hace notar que también puede obtenerse el mismo resultado aplicando las operaciones de submuestreo y de inversión espectral en un orden diferente. También pueden configurarse las operaciones de sobremuestreo y/o
submuestreo para que incluyan un nuevo muestreo para obtener una señal ensanchada espectralmente que tenga la tasa de muestreo de la señal S30 de banda alta (por ejemplo, 7 kHz).
Tal como se ha hecho notar anteriormente, pueden implementarse bancos A110 y B120 de filtros de tal manera que una o ambas de las señales S20, S30 de banda estrecha y banda alta tengan una forma invertida espectralmente a la salida del banco A110 de filtros, se codifiquen y decodifiquen en la forma invertida espectralmente, y se inviertan espectralmente de nuevo en el banco B120 de filtros antes de que se emitan en la señal S110 de voz de banda ancha. Por supuesto, en tal caso, una operación de inversión espectral como la se muestra en la FIGURA 12a no sería necesaria, puesto que también sería deseable que la señal S120 de excitación de banda alta tuviera una forma invertida espectralmente.
Pueden configurarse y disponerse de muchas maneras diferentes las diversas tareas de sobremuestreo y submuestreo de una operación de ensanchamiento espectral tal como lleva a cabo el ensanchador A402 de espectro. Por ejemplo, la FIGURA 12b es un diagrama que muestra los espectros de señal en diversos puntos en otro ejemplo de una operación de ensanchamiento espectral, siendo la escala de frecuencia la misma en las diversas representaciones gráficas. La representación gráfica (a) muestra el espectro de un ejemplo de la señal S80 de excitación de banda estrecha. La representación gráfica (b) muestra el espectro tras haberse sobremuestreado la señal S80 en un factor de dos. La representación gráfica (c) muestra un ejemplo del espectro ensanchado tras la aplicación de una función no lineal. En este caso, se acepta el solapamiento que puede producirse en las frecuencias superiores.
La representación gráfica (d) muestra el espectro tras una operación de inversión espectral. La representación gráfica (e) muestra el espectro tras una única etapa de submuestreo, en la que la tasa de muestreo se reduce en un factor de dos para obtener la señal ensanchada espectralmente deseada. En este ejemplo, la señal está en forma invertida espectralmente y puede usarse en una implementación del codificador A200 de banda alta que procesó la señal S30 de banda alta en una forma de este tipo.
La señal ensanchada espectralmente producida por el calculador 520 de función no lineal es probable que tenga una caída pronunciada en amplitud a medida que aumenta la frecuencia. El ensanchador espectral A402 incluye un aplanador espectral 540 configurado para llevar a cabo una operación de blanqueo en la señal submuestreada. El aplanador espectral 540 puede estar configurado para llevar a cabo una operación de blanqueo fijo o para llevar a cabo una operación de blanqueo adaptativo. En un ejemplo particular de blanqueo adaptativo, el aplanador espectral 540 incluye un módulo de análisis de LPC configurado para calcular un conjunto de cuatro coeficientes de filtro de la señal submuestreada y un filtro de análisis de cuarto orden configurado para blanquear la señal según esos coeficientes. Otras implementaciones del ensanchador A400 de espectro incluyen configuraciones en las que el aplanador espectral 540 opera en la señal ensanchada espectralmente antes del submuestreador 530.
Puede implementarse el generador A300 de excitación de banda alta para emitir la señal S160 ensanchada armónicamente como la señal S120 de excitación de banda alta. Sin embargo, en algunos casos, el uso de solo una señal ensanchada armónicamente como la excitación de banda alta puede dar como resultado artefactos audibles. La estructura armónica de la voz generalmente es menos pronunciada en la banda alta que en la banda baja, y el uso de demasiada estructura armónica en la señal de excitación de banda alta puede dar como resultado un sonido de zumbido. Este artefacto puede ser especialmente perceptible en señales de voz de oradoras.
Las realizaciones incluyen implementaciones del generador A300 de excitación de banda alta que están configuradas para mezclar la señal S160 ensanchada armónicamente con una señal de ruido. Tal como se muestra en la FIGURA 11, el generador A302 de excitación de banda alta incluye un generador 480 de ruido que está configurado para producir una señal de ruido aleatorio. En un ejemplo, el generador 480 de ruido está configurado para producir una señal blanca de ruido pseudoaleatorio de varianza unitaria, aunque en otras implementaciones la señal de ruido no necesita ser blanca y puede tener una densidad de potencia que varíe con la frecuencia. Puede ser deseable que el generador 480 de ruido esté configurado para emitir la señal de ruido como una función determinista, de tal manera que pueda duplicarse su estado en el decodificador. Por ejemplo, el generador 480 de ruido puede estar configurado para emitir la señal de ruido como una función determinista de información codificada previamente dentro de la misma trama, tal como los parámetros S40 de filtro de banda estrecha y/o la señal codificada S50 de excitación de banda estrecha.
Antes de mezclarse con la señal S160 ensanchada armónicamente, la señal de ruido aleatorio producida por el generador 480 de ruido puede modularse en amplitud para que tenga una envolvente en el dominio temporal que se aproxime a la distribución de energía en el tiempo de la señal S20 de banda estrecha, la señal S30 de banda alta, la señal S80 de excitación de banda estrecha o la señal S160 ensanchada armónicamente. Tal como se muestra en la FIGURA 11, el generador A302 de excitación de banda alta incluye un combinador 470 configurado para modular en amplitud la señal de ruido producida por el generador 480 de ruido según una envolvente en el dominio temporal calculada por el calculador 460 de envolvente. Por ejemplo, puede implementarse el combinador 470 como un multiplicador dispuesto para ampliar a escala la salida del generador 480 de ruido según la envolvente en el dominio temporal calculada por el calculador 460 de envolvente para producir la señal modulada S170 de ruido.
En una implementación A304 del generador A302 de excitación de banda alta, tal como se muestra en el diagrama de bloques de la FIGURA 13, se dispone el calculador 460 de envolvente para calcular la envolvente de la señal S160 ensanchada armónicamente. En una implementación A306 del generador A302 de excitación de banda alta, tal como se muestra en el diagrama de bloques de la FIGURA 14, se dispone el calculador 460 de envolvente para calcular la envolvente de la señal S80 de excitación de banda estrecha. Pueden configurarse de otro modo otras implementaciones del generador A302 de excitación de banda alta para añadir ruido a la señal S160 ensanchada armónicamente según las ubicaciones de los impulsos de altura tonal de banda estrecha en el tiempo.
El calculador 460 de envolvente puede estar configurado para llevar a cabo un cálculo de envolvente como una tarea que incluye una serie de subtareas. La FIGURA 15 muestra un diagrama de flujo de un ejemplo T100 de una tarea de este tipo. La subtarea T110 calcula el cuadrado de cada muestra de la trama de la señal cuya envolvente debe modelarse (por ejemplo, la señal S80 de excitación de banda estrecha o la señal S160 ensanchada armónicamente) para producir una secuencia de valores al cuadrado. La subtarea T120 lleva a cabo una operación de suavizado en la secuencia de valores al cuadrado. En un ejemplo, la subtarea T120 aplica un filtro de paso bajo IIR de primer orden a la secuencia según la expresión
yn=axn+1−ayn−1, (1)
()()()()
en la que x es la entrada de filtro, y es la salida de filtro, n es un índice en el dominio temporal, y a es un coeficiente de aplanamiento que tiene un valor entre 0,5 y 1. El valor del coeficiente de aplanamiento a puede ser fijo o, en una implementación alternativa, puede ser adaptativo según una indicación de ruido en la señal de entrada, de tal manera que a se aproxima más a 1 en ausencia de ruido y más a 0,5 en presencia de ruido. La subtarea T130 aplica una función de raíz cuadrada a cada muestra de la secuencia aplanada para producir la envolvente en el dominio temporal.
Una implementación de este tipo del calculador 460 de envolvente puede ser configurada para llevar a cabo las diversas subtareas de la tarea T100 en serie y/o en paralelo. En implementaciones adicionales de la tarea T100, la subtarea T110 puede estar precedida por una operación de paso de banda configurada para seleccionar una porción de frecuencia deseada de la señal cuya envolvente debe modelarse, tal como el intervalo de 3-4 kHz.
El combinador 490 está configurado para mezclar la señal S160 ensanchada armónicamente y la señal modulada S170 de ruido para producir la señal S120 de excitación de banda alta. Pueden configurarse implementaciones del combinador 490, por ejemplo, para calcular la señal S120 de excitación de banda alta como una suma de la señal S160 ensanchada armónicamente y la señal modulada S170 de ruido. Puede configurarse una implementación de este tipo de combinador 490 para calcular la señal S120 de excitación de banda alta como una suma ponderada aplicando un factor de ponderación a la señal S160 ensanchada armónicamente y/o a la señal modulada S170 de ruido antes de la suma. Cada factor de ponderación de este tipo puede calcularse según uno o más criterios y puede ser un valor fijo o, como alternativa, un valor adaptativo que se calcula trama por trama o subtrama por subtrama.
La FIGURA 16 muestra un diagrama de bloques de una implementación 492 del combinador 490 que está configurada para calcular la señal S120 de excitación de banda alta como una suma ponderada de la señal S160 ensanchada armónicamente y la señal modulada S170 de ruido. El combinador 492 está configurado para ponderar la señal S160 ensanchada armónicamente según el factor S180 de ponderación de armónicos, para ponderar la señal modulada S170 de ruido según el factor S190 de ponderación de ruidos, y para emitir la señal S120 de excitación de banda alta como una suma de las señales ponderadas. En este ejemplo, el combinador 492 incluye un calculador 550 del factor de ponderación que está configurado para calcular el factor S180 de ponderación de armónicos y el factor S190 de ponderación de ruido.
El calculador 550 del factor de ponderación puede estar configurado para calcular los factores S180 y S190 de ponderación según una relación deseada de contenido de armónicos a contenido de ruido en la señal S120 de excitación de banda alta. Por ejemplo, puede ser deseable que el combinador 492 produzca la señal S120 de excitación de banda alta para tener una relación entre energía de armónicos y energía de ruido similar a la de la señal S30 de banda alta. En algunas implementaciones del calculador 550 del factor de ponderación, se calculan los factores S180, S190 de ponderación según uno o más parámetros relativos a una periodicidad de la señal S20 de banda estrecha o de la señal residual de banda estrecha, tal como ganancia de altura tonal y/o modo de voz. Puede configurarse una implementación de este tipo del calculador 550 del factor de ponderación para asignar un valor al factor S180 de ponderación de armónicos que sea proporcional a la ganancia de altura tonal, por ejemplo, y/o para asignar un valor superior al factor S190 de ponderación de ruidos para señales de voz no vocales que para señales de habla vocales.
En otras implementaciones, el calculador 550 del factor de ponderación está configurado para calcular valores para el factor S180 de ponderación de armónicos y/o el factor S190 de ponderación de ruidos según una medida de periodicidad de la señal S30 de banda alta. En un ejemplo de este tipo, el calculador 550 del factor de ponderación calcula el factor S180 de ponderación de armónicos como el valor máximo del coeficiente de autocorrelación de la señal S30 de banda alta para la trama o la subtrama actual, llevándose a cabo la autocorrelación en un intervalo de búsqueda que incluye un retardo de un retraso de altura tonal y no incluye un retardo de muestras cero. La FIGURA
17 muestra un ejemplo de un intervalo de búsqueda de este tipo de muestras de longitud n que se centra sobre un retardo de un retraso de altura tonal y tiene un ancho no mayor que un retraso de altura tonal.
La FIGURA 17 también muestra un ejemplo de otro enfoque en el que el calculador 550 del factor de ponderación calcula una medida de periodicidad de la señal S30 de banda alta en varias etapas. En una primera etapa, se divide la trama actual en una serie de subtramas, y se identifica por separado para cada subtrama el retardo para el que el coeficiente de autocorrelación es máximo. Tal como se ha mencionado anteriormente, la autocorrelación se lleva a cabo en un intervalo de búsqueda que incluye un retardo de un retraso de altura tonal y no incluye retardo de cero muestras.
En una segunda etapa, se construye una trama retardada aplicando el retardo identificado correspondiente a cada subtrama, concatenando las subtramas resultantes para construir una trama retardada óptimamente, y calculando el factor S180 de ponderación de armónicos como el coeficiente de correlación entre la trama original y la trama retardada óptimamente. En otra alternativa, el calculador 550 del factor de ponderación calcula el factor S180 de ponderación de armónicos como un promedio de los coeficientes de autocorrelación máximos obtenidos en la primera etapa para cada subtrama. También pueden configurarse implementaciones del calculador 550 del factor de ponderación para ajustar a escala el coeficiente de correlación, y/o combinarlo con otro valor, para calcular el valor para el factor S180 de ponderación de armónicos.
Puede resultar deseable que el calculador 550 del factor de ponderación calcule una medida de periodicidad de la señal S30 de banda alta solo en los casos en los que se indique de otro modo una presencia de periodicidad en la trama. Por ejemplo, el calculador 550 del factor de ponderación puede estar configurado para calcular una medida de periodicidad de la señal S30 de banda alta según una relación entre otro indicador de periodicidad de la trama actual, tal como la ganancia de altura tonal, y un valor umbral. En un ejemplo, el calculador 550 del factor de ponderación está configurado para llevar a cabo una operación de autocorrelación en la señal S30 de banda alta solo si la ganancia de altura tonal de la trama (por ejemplo, la ganancia del código adaptativo del resto de banda estrecha) tiene un valor de más de 0,5 (como alternativa, al menos de 0,5). En otro ejemplo, el calculador 550 del factor de ponderación está configurado para llevar a cabo una operación de autocorrelación en la señal S30 de banda alta solo para las tramas que tengan estados particulares del modo de voz (por ejemplo, solo para señales vocales). En tales casos, el calculador 550 del factor de ponderación puede estar configurado para asignar un factor de ponderación por defecto para tramas que tengan otros estados del modo de voz y/o valores inferiores de ganancia de altura tonal.
Las realizaciones incluyen otras implementaciones del calculador 550 del factor de ponderación que están configuradas para calcular factores de ponderación según características diferentes de la periodicidad o además de ella. Por ejemplo, una implementación de este tipo puede estar configurada para asignar un valor superior al factor S190 de ganancia de ruido para señales de voz que tengan un retraso de altura tonal grande que para señales de voz que tengan un retraso de altura tonal pequeño. Otra implementación de este tipo del calculador 550 del factor de ponderación está configurada para determinar una medida de armonicidad de la señal S10 de voz de banda ancha,
o de la señal S30 de banda alta, según una medida de la energía de la señal en múltiplos de la frecuencia fundamental en relación con la energía de la señal en otros componentes de frecuencia.
Algunas implementaciones del codificador A100 de voz de banda ancha están configuradas para emitir una indicación de periodicidad o armonicidad (por ejemplo una bandera de un bit que indique si la trama es armónica o no armónica) basándose en la ganancia de altura tonal y/u otra medida de periodicidad o armonicidad, tal como se describe en el presente documento. En un ejemplo, un decodificador B100 de voz de banda ancha correspondiente usa esta indicación para configurar una operación tal como el cálculo del factor de ponderación. En otro ejemplo, se usa una indicación de este tipo en el codificador y/o el decodificador en el cálculo de un valor para un parámetro de modo de voz.
Puede resultar deseable que el generador A302 de excitación de banda alta genere la señal S120 de excitación de banda alta de tal manera que la energía de la señal de excitación no se vea afectada sustancialmente por los valores particulares de los factores S180 y S190 de ponderación. En tal caso, el calculador 550 del factor de ponderación puede configurarse para que calcule un valor para el factor S180 de ponderación de armónicos o para el factor S190 de ponderación de ruido (o para recibir un valor de este tipo del almacenamiento u otro elemento del codificador A200 de banda alta) y para que derive un valor para el otro factor de ponderación según una expresión tal como
2 )2
(Warmónicos +(Wruido = 1, (2)
en la que Warmónicos indica el factor S180 de ponderación de armónicos y Wruido el indica el factor S190 de ponderación de ruido. Como alternativa, el calculador 550 del factor de ponderación puede configurarse para seleccionar, según un valor de una medida de periodicidad para la trama o la subtrama actuales, un par correspondiente entre una pluralidad de pares de factores S180, S190 de ponderación, calculándose los pares previamente para satisfacer una relación de energía constante tal como la expresión (2). Para una implementación del calculador 550 del factor de ponderación en la que se observa la expresión (2), los valores típicos para el factor 17
S180 de ponderación de armónicos oscilan entre aproximadamente 0,7 y aproximadamente 1,0, y los valores típicos para el factor S190 de ponderación de ruidos oscilan entre aproximadamente 0,1 y aproximadamente 0,7. Otras implementaciones del calculador 550 del factor de ponderación pueden configurarse para operar según una versión de la expresión (2) que se modifica según una ponderación de referencia deseada entre la señal S160 ensanchada armónicamente y la señal modulada S170 de ruido.
Pueden producirse artefactos en una señal de voz sintetizada cuando se ha usado un código disperso (uno cuyas entradas son en su mayoría valores cero) para calcular la representación cuantificada del resto. La dispersión del código se produce especialmente cuando se codifica la señal de banda estrecha a una tasa de transmisión de bits baja. Los artefactos provocados por la dispersión del código son normalmente casi periódicos en el tiempo y se producen en su mayoría por encima de 3 kHz. Debido a que el oído humano tiene una mejor resolución temporal a frecuencias superiores, estos artefactos pueden ser más perceptibles en la banda alta.
Las realizaciones incluyen implementaciones del generador A300 de excitación de banda alta que están configuradas para llevar a cabo un filtrado de antidispersión. La FIGURA 18 muestra un diagrama de bloques de una implementación A312 de un generador A302 de excitación de banda alta que incluye un filtro antidispersión 600 dispuesto para filtrar la señal de excitación de banda estrecha descuantificada producida por el cuantificador 450 inverso. La FIGURA 19 muestra un diagrama de bloques de una implementación A314 del generador A302 de excitación de banda alta que incluye un filtro antidispersión 600 dispuesto para filtrar la señal ensanchada espectralmente producida por el ensanchador A400 de espectro. La FIGURA 20 muestra un diagrama de bloques de una implementación A316 del generador A302 de excitación de banda alta que incluye un filtro antidispersión 600 dispuesto para filtrar la salida del combinador 490 para producir la señal S120 de excitación de banda alta. Por supuesto, se contemplan implementaciones del generador A300 de excitación de banda alta que combinan las características de cualquiera de las implementaciones A304 y A306 con las características de cualquiera de las implementaciones A312, A314 y A316 y son dadas a conocer expresamente por el presente documento. El filtro antidispersión 600 también puede disponerse dentro del ensanchador A400 de espectro; por ejemplo, tras cualquiera de los elementos 510, 520, 530 y 540 en el ensanchador A402 de espectro. Se hace notar expresamente que también puede usarse el filtro antidispersión 600 con implementaciones del ensanchador A400 de espectro que lleven a cabo plegado espectral, traslación espectral o ensanchamiento armónico.
El filtro antidispersión 600 puede configurarse para alterar la fase de su señal de entrada. Por ejemplo, puede resultar deseable que el filtro antidispersión 600 esté configurado y dispuesto de tal manera que la fase de la señal S120 de excitación de banda alta sea aleatoria, o, en todo caso, para que se distribuya más uniformemente en el tiempo. También puede ser deseable que la respuesta del filtro antidispersión 600 sea espectralmente plana, de tal manera que no se cambie de manera apreciable el espectro de magnitud de la señal filtrada. En un ejemplo, el filtro antidispersión 600 se implementa como un filtro de paso total que tiene una función de transferencia según la siguiente expresión:
−4 −6
−0,7+z0,6+z
Hz=⋅(3)
()−4 −6.
1−0,7z1+0,6z
Un efecto de un filtro de este tipo puede ser esparcir la energía de la señal de entrada de tal manera que ya no se concentre en solo algunas muestras.
Los artefactos provocados por la dispersión del código son habitualmente más perceptibles para señales de tipo ruido, en las que el resto incluye menos información de altura tonal, y también para el habla en ruido de fondo. La dispersión provoca normalmente menos artefactos en casos en los que la excitación tiene una estructura a largo plazo y, de hecho, la modificación de fase puede provocar ruido en señales vocales. Por lo tanto, puede resultar deseable configurar el filtro antidispersión 600 para filtrar señales no vocales y para dejar pasar al menos algunas señales vocales sin alteración. Las señales no vocales se caracterizan por una baja ganancia de altura tonal (por ejemplo, ganancia de código adaptativa de banda estrecha cuantificada) y una inclinación espectral (por ejemplo primer coeficiente de reflexión cuantificado) que es cercana a cero o positiva, lo que indica una envolvente espectral plana o inclinada hacia arriba con una frecuencia creciente. Las implementaciones típicas del filtro antidispersión 600 están configuradas para filtrar sonidos no vocalizados (por ejemplo, tal como se indica por medio del valor de la inclinación espectral), para filtrar sonidos vocalizados cuando la ganancia de altura tonal está por debajo de un valor umbral (como alternativa, no mayor que el valor umbral) y, si no, para dejar pasar la señal sin alteración.
Otras implementaciones del filtro antidispersión 600 incluyen dos o más filtros que están configurados para tener diferentes ángulos de modificación de fase máximos (por ejemplo, hasta 180 grados). En tal caso, el filtro antidispersión 600 puede configurarse para seleccionar entre estos filtros de componentes según un valor de la ganancia de altura tonal (por ejemplo, la ganancia de código adaptativo cuantificada o de LTP), de tal manera que se use un ángulo de modificación de fase máximo mayor para tramas que tengan valores de ganancia de altura tonal inferiores. Una implementación del filtro antidispersión 600 también puede incluir diferentes filtros de componentes que estén configurados para modificar la fase en una mayor o menor medida del espectro de frecuencia, de tal
manera que se use un filtro configurado para modificar la fase por un intervalo de frecuencia más amplio de la señal de entrada para tramas que tengan valores de ganancia de altura tonal inferiores.
Para una reproducción precisa de la señal de voz codificada, puede ser deseable que la relación entre los niveles de las porciones de banda alta y banda estrecha de la señal sintetizada S100 de voz de banda ancha sea similar a la de la señal original S10 de voz de banda ancha. Además de una envolvente espectral, tal como se representa por los parámetros S60a de codificación de banda alta, el codificador A200 de banda alta puede configurarse para caracterizar la señal S30 de banda alta especificando una envolvente temporal o de ganancia. Tal como se muestra en la FIGURA 10, el codificador A202 de banda alta incluye un calculador A230 del factor de ganancia de banda alta que está configurado y dispuesto para calcular uno o más factores de ganancia según una relación entre la señal S30 de banda alta y la señal sintetizada S130 de banda alta, tal como una diferencia o relación entre las energías de las dos señales en una trama o alguna porción de la misma. En otras implementaciones del codificador A202 de banda alta, el calculador A230 de ganancia de banda alta puede estar configurado de la misma manera, pero estar dispuesto en cambio para calcular la envolvente de ganancia según una relación de este tipo que varía en el tiempo entre la señal S30 de banda alta y la señal S80 de excitación de banda estrecha o la señal S120 de excitación de banda alta.
Es probable que las envolventes temporales de la señal S80 de excitación de banda estrecha y la señal S30 de banda alta sean similares. Por tanto, la codificación de una envolvente de ganancia que se base en una relación entre la señal S30 de banda alta y la señal S80 de excitación de banda estrecha (o una señal derivada de la misma, tal como la señal S120 de excitación de banda alta o la señal sintetizada S130 de banda alta) será en general más eficaz que la codificación de una envolvente de ganancia basada solo en la señal S30 de banda alta. En una implementación típica, el codificador A202 de banda alta está configurado para emitir un índice cuantificado de ocho a doce bits que especifica cinco factores de ganancia para cada trama.
El calculador A230 del factor de ganancia de banda alta puede configurarse para llevar a cabo el cálculo del factor de ganancia como una tarea que incluya una o más series de subtareas. La FIGURA 21 muestra un diagrama de flujo de un ejemplo T200 de una tarea de este tipo que calcula un valor de ganancia para una subtrama correspondiente según las energías relativas de la señal S30 de banda alta y la señal sintetizada S130 de banda alta. Las tareas 220a y 220b calculan las energías de las subtramas correspondientes de las señales respectivas. Por ejemplo, las tareas 220a y 220b pueden configurarse para calcular la energía como una suma de los cuadrados de las muestras de la subtrama respectiva. La tarea T230 calcula un factor de ganancia para la subtrama como la raíz cuadrada de la relación de esas energías. En este ejemplo, la tarea T230 calcula el factor de ganancia como la raíz cuadrada de la relación de la energía de la señal S30 de banda alta a la energía de la señal sintetizada S130 de banda alta en la subtrama.
Puede ser deseable que el calculador A230 del factor de ganancia de banda alta se configure para calcular las energías de subtrama según una función ventana. La FIGURA 22 muestra un diagrama de flujo de una implementación T210 de este tipo de una tarea T200 de cálculo del factor de ganancia. La tarea T215a aplica una función ventana a la señal S30 de banda alta, y la tarea T215b aplica la misma función ventana a la señal sintetizada S130 de banda alta. Las implementaciones 222a y 222b de las tareas 220a y 220b calculan las energías de las ventanas respectivas, y la tarea T230 calcula un factor de ganancia para la subtrama como la raíz cuadrada de la relación de las energías.
Puede ser deseable aplicar una función ventana que superponga subtramas adyacentes. Por ejemplo, una función ventana que produzca factores de ganancia que puedan ser aplicados en un modo de adición de superposición puede contribuir a reducir o evitar una discontinuidad entre subtramas. En un ejemplo, el calculador A230 del factor de ganancia de banda alta está configurado para aplicar una función ventana trapecial, tal como se muestra en la FIGURA 23a, en la que la ventana superpone cada una de las dos subtramas adyacentes en un milisegundo. La FIGURA 23b muestra una aplicación de esta función ventana a cada una de las cinco subtramas de una trama de 20 milisegundos. Otras implementaciones del calculador A230 del factor de ganancia de banda alta pueden configurarse para aplicar funciones ventana que tengan diferentes periodos de superposición y/o diferentes formas de ventana (por ejemplo, rectangular, de Hamming) que pueden ser simétricas o asimétricas. También es posible que una implementación del calculador A230 del factor de ganancia de banda alta se configure para aplicar diferentes funciones ventana a diferentes subtramas dentro de una trama y/o que una trama incluya subtramas de diferentes longitudes.
Sin limitación, se presentan los siguientes valores como ejemplos para implementaciones particulares. Se supone una trama de 20 ms para estos casos, aunque puede usarse cualquier otra duración. Para una señal de banda alta muestreada a 7 kHz, cada trama tiene 140 muestras. Si se divide una trama de este tipo en cinco subtramas de igual longitud, cada subtrama tendrá 28 muestras, y la ventana, tal como se muestra en la FIGURA 23a, tendrá un ancho de 42 muestras. Para una señal de banda alta muestreada a 8 kHz, cada trama tiene 160 muestras. Si se divide una trama de este tipo en cinco subtramas de igual longitud, cada subtrama tendrá 32 muestras, y la ventana, tal como se muestra en la FIGURA 23a, tendrá un ancho de 48 muestras. En otras implementaciones, pueden usarse subtramas de cualquier ancho, e incluso es posible que una implementación del calculador A230 de ganancia de banda alta se configure para producir un factor de ganancia diferente para cada muestra de una trama.
La FIGURA 24 muestra un diagrama de bloques de una implementación B202 del decodificador B200 de banda alta. El decodificador B202 de banda alta incluye un generador B300 de excitación de banda alta que está configurado para producir la señal S120 de excitación de banda alta basándose en la señal S80 de excitación de banda estrecha. Dependiendo de las opciones particulares de diseño del sistema, el generador B300 de excitación de banda alta puede implementarse según cualquiera de las implementaciones del generador A300 de excitación de banda alta, tal como se describe en el presente documento. Normalmente es deseable implementar el generador B300 de excitación de banda alta para que tenga la misma respuesta que el generador de excitación de banda alta del codificador de banda alta del sistema de codificación particular. Sin embargo, dado que el decodificador B110 de banda estrecha llevará a cabo normalmente la descuantificación de la señal codificada S50 de excitación de banda estrecha, en la mayoría de los casos el generador B300 de excitación de banda alta puede ser implementado para recibir la señal S80 de excitación de banda estrecha procedente del decodificador B110 de banda estrecha y no es necesario que incluya un cuantificador inverso configurado para descuantificar la señal codificada S50 de excitación de banda estrecha. También es posible que el decodificador B110 de banda estrecha se implemente para incluir una instancia de filtro antidispersión 600 dispuesto para filtrar la señal de excitación de banda estrecha descuantificada antes de su entrada en un filtro de síntesis de banda estrecha tal como el filtro 330.
El cuantificador 560 inverso está configurado para descuantificar los parámetros S60a de filtro de banda alta (en este ejemplo, a un conjunto de LSF), y la transformada 570 del coeficiente de filtro de LSF a LP está configurada para transformar las LSF en un conjunto de coeficientes de filtro (por ejemplo, tal como se ha descrito anteriormente con referencia al cuantificador inverso 240 y la transformada 250 del codificador A122 de banda estrecha). En otras implementaciones, tal como se mencionó en lo que antecede, pueden usarse diferentes conjuntos de coeficientes (por ejemplo, coeficientes cepstrales) y/o representaciones de coeficiente (por ejemplo, ISP). El filtro B200 de síntesis de banda alta está configurado para producir una señal sintetizada de banda alta según la señal S120 de excitación de banda alta y el conjunto de coeficientes de filtro. Para un sistema en el que el codificador de banda alta incluye un filtro de síntesis (por ejemplo, como en el ejemplo del codificador A202 descrito anteriormente), puede ser deseable implementar el filtro B200 de síntesis de banda alta para que tenga la misma respuesta (por ejemplo, la misma función de transferencia) que ese filtro de síntesis.
El decodificador B202 de banda alta también incluye un cuantificador 580 inverso configurado para descuantificar los factores S60b de ganancia de banda alta, y un elemento 590 de control de ganancia (por ejemplo, un multiplicador o un amplificador) configurado y dispuesto para aplicar los factores de ganancia descuantificados a la señal sintetizada de banda alta para producir la señal S100 de banda alta. Para un caso en el que se especifica la envolvente de ganancia de una trama en más de un factor de ganancia, el elemento 590 de control de ganancia puede incluir una lógica configurada para aplicar los factores de ganancia a las subtramas respectivas, posiblemente según una función ventana que puede ser la misma o una función ventana diferente tal como la aplica un calculador de ganancia (por ejemplo, el calculador A230 de ganancia de banda alta) del correspondiente codificador de banda alta. En otras implementaciones del decodificador B202 de banda alta, el elemento 590 de control de ganancia está configurado de manera similar pero está dispuesto en cambio para aplicar los factores de ganancia descuantificados a la señal S80 de excitación de banda estrecha o a la señal S120 de excitación de banda alta.
Tal como se mencionó en lo que antecede, puede ser deseable obtener el mismo estado en el codificador de banda alta y el decodificador de banda alta (por ejemplo, usando valores descuantificados durante la codificación). Por ello, puede ser deseable en un sistema de codificación según una implementación de este tipo garantizar el mismo estado para correspondientes los generadores de ruido en los generadores A300 y B300 de excitación de banda alta. Por ejemplo, los generadores A300 y B300 de excitación de banda alta de una implementación de este tipo pueden configurarse de tal manera que el estado del generador de ruido sea una función determinista de información ya codificada dentro de la misma trama (por ejemplo, los parámetros S40 de filtro de banda estrecha o una porción de los mismos y/o la señal codificada S50 de excitación de banda estrecha o una porción de la misma).
Uno o más de los cuantificadores de los elementos descritos en el presente documento (por ejemplo, los cuantificadores 230, 420 o 430) pueden configurarse para llevar a cabo una cuantificación clasificada de vectores. Por ejemplo, puede configurarse un cuantificador de este tipo para seleccionar uno de un conjunto de códigos basándose en información que ya ha sido codificada dentro de la misma trama en el canal de banda estrecha y/o en el canal de banda alta. Una técnica de este tipo proporciona normalmente un aumento de la eficacia de codificación a expensas de un almacenamiento de códigos adicional.
Tal como se trató anteriormente con referencia, por ejemplo, a las FIGURAS 8 y 9, una cantidad considerable de la estructura periódica puede permanecer en la señal residual tras la eliminación de la envolvente espectral tosca de la señal S20 de voz de banda estrecha. Por ejemplo, la señal residual puede contener una secuencia de impulsos o picos aproximadamente periódicos en el tiempo. Es especialmente probable que tal estructura, que se relaciona normalmente con la altura tonal, se produzca en señales de habla vocal. El cálculo de una representación cuantificada de la señal residual de banda estrecha puede incluir la codificación de esta estructura de altura tonal según un modelo de periodicidad a largo plazo, tal como la representada, por ejemplo, por uno o más códigos.
La estructura de altura tonal de una señal residual real puede no coincidir exactamente con el modelo de periodicidad. Por ejemplo, la señal residual puede incluir pequeñas fluctuaciones en la regularidad de las
ubicaciones de los impulsos de altura tonal, de tal manera que las distancias entre impulsos de altura tonal sucesivos en una trama no sean exactamente iguales y la estructura no sea muy regular. Estas irregularidades tienden a reducir la eficacia de la codificación.
Algunas implementaciones del codificador A120 de banda estrecha están configuradas para llevar a cabo una regularización de la estructura de altura tonal aplicando una distorsión temporal adaptativa al resto antes o durante la cuantificación, o incluyendo de otro modo una distorsión temporal adaptativa en la señal codificada de excitación. Por ejemplo, un codificador de este tipo puede configurarse para seleccionar o calcular de otro modo un grado de distorsión temporal (por ejemplo, según uno o más criterios de ponderación perceptual y/o minimización de errores), de tal manera que la señal de excitación resultante se ajuste óptimamente al modelo de periodicidad a largo plazo. La regularización de la estructura de altura tonal se lleva a cabo mediante un subconjunto de codificadores CELP denominados codificadores de predicción lineal excitada por códigos de relajación (RCELP).
Un codificador RCELP está configurado normalmente para efectuar la distorsión temporal como un desplazamiento temporal adaptativo. Este desplazamiento temporal puede ser un retardo que oscile entre unos pocos milisegundos negativos y unos pocos milisegundos positivos, y habitualmente se varía suavemente para evitar discontinuidades audibles. En algunas implementaciones, un codificador de este tipo está configurado para aplicar la regularización por partes, en el que cada trama se distorsiona en un desplazamiento temporal fijo correspondiente. En otras implementaciones, el codificador está configurado para aplicar la regularización como una función de distorsión continua, de tal manera que una trama o una subtrama sean distorsionadas según un contorno de altura tonal (también denominado trayectoria de altura tonal). En algunos casos (por ejemplo, tal como se describe en la publicación de solicitud de patente estadounidense 2004/0098255), el codificador está configurado para incluir una distorsión temporal en la señal codificada de excitación aplicando el desplazamiento a una señal de entrada ponderada perceptualmente que es usada para calcular la señal codificada de excitación.
El codificador calcula una señal codificada de excitación que se regulariza y cuantifica, y el decodificador descuantifica la señal codificada de excitación para obtener una señal de excitación que es usada para sintetizar la señal de voz decodificada. Por ello, la señal de salida decodificada presenta el mismo retardo variable que se incluyó en la señal codificada de excitación mediante la regularización. Normalmente, no se transmite al decodificador ninguna información que especifique las cantidades de regularización.
La regularización tiende a hacer que la señal residual sea más fácil de codificar, lo que mejora la ganancia de codificación del predictor a largo plazo y, por ello, potencia la eficacia de codificación general, generalmente sin generar artefactos. Puede ser deseable llevar a cabo la regularización solo en tramas que sean vocalizadas. Por ejemplo, el codificador A124 de banda estrecha puede configurarse para desplazar solo las tramas o las subtramas que tengan una estructura a largo plazo, tales como las señales vocales. Incluso puede ser deseable llevar a cabo la regularización solo en subtramas que incluyan energía de impulso de altura tonal. Se describen diversas implementaciones de codificación por RCELP en las patentes estadounidenses nos 5.704.003 (Kleijn et al.) y
6.879.955 (Rao) y en la publicación de solicitud de patente estadounidense 2004/0098255 (Kovesi et al.). Las implementaciones existentes de los codificadores RCELP incluyen el códec de tasa variable mejorado (EVRC), tal como se describe en la norma IS-127 de la Asociación de la Industria de las Telecomunicaciones (TIA), y el vocodificador en modo seleccionable (SMV) del Proyecto 2 de Asociación de Tercera Generación (3GPP2).
Desgraciadamente, la regularización puede provocar problemas para un codificador de voz de banda ancha en el que la excitación de banda alta se derive de la señal codificada de excitación de banda estrecha (tal como un sistema que incluya el codificador A100 de voz de banda ancha y el decodificador B100 de voz de banda ancha). Debido a su derivación de una señal con distorsión temporal, la señal de excitación de banda alta tendrá generalmente un perfil temporal que es diferente del de la señal original de voz de banda alta. En otras palabras, la señal de excitación de banda alta ya no será síncrona con la señal original de voz de banda alta.
Un desalineamiento en el tiempo entre la señal de excitación de banda alta alineada y la señal original de voz de banda alta puede provocar varios problemas. Por ejemplo, puede ser que la señal distorsionada de excitación de banda alta ya no proporcione una excitación fuente adecuada para un filtro de síntesis que esté configurado según los parámetros de filtro extraídos de la señal original de voz de banda alta. En consecuencia, la señal sintetizada de banda alta puede contener artefactos audibles que reduzcan la calidad percibida de la señal decodificada de voz de banda ancha.
El desalineamiento en el tiempo también puede provocar ineficiencias en la codificación de la envolvente de ganancia. Tal como se mencionó anteriormente, es probable que exista una correlación entre las envolventes temporales de la señal S80 de excitación de banda estrecha y la señal S30 de banda alta. Codificando la envolvente de ganancia de la señal de banda alta según una relación entre estas dos envolventes temporales, puede observarse un aumento en la eficacia de codificación en comparación con la codificación de la envolvente de ganancia directamente. Sin embargo, cuando se regulariza la señal codificada de excitación de banda estrecha, puede debilitarse esta correlación. El desalineamiento en el tiempo entre la señal S80 de excitación de banda estrecha y la señal S30 de banda alta puede provocar que aparezcan fluctuaciones en los factores S60b de ganancia de banda alta y puede caer la eficacia de codificación.
Las realizaciones incluyen procedimientos de codificación de voz de banda ancha que llevan a cabo una distorsión temporal de una señal de voz de banda alta según una distorsión temporal incluido en una señal codificada de excitación de banda estrecha correspondiente. Las ventajas potenciales de tales procedimientos incluyen mejorar la calidad de una señal decodificada de voz de banda ancha y/o mejorar la eficacia de codificación de una envolvente de ganancia de banda alta.
La FIGURA 25 muestra un diagrama de bloques de una implementación AD10 del codificador A100 de voz de banda ancha. El codificador AD10 incluye una implementación A124 del codificador A120 de banda estrecha que está configurada para llevar a cabo una regularización durante el cálculo de la señal codificada S50 de excitación de banda estrecha. Por ejemplo, el codificador A124 de banda estrecha puede configurarse según una o más de las implementaciones de RCELP expuestas en lo que antecede.
El codificador A124 de banda estrecha también está configurado para emitir una señal SD10 de datos de regularización que especifica el grado de distorsión temporal aplicada. Para diversos casos en los que el codificador A124 de banda estrecha está configurado para aplicar un desplazamiento temporal fijo a cada trama o subtrama, la señal SD10 de datos de regularización puede incluir una serie de valores que indiquen cada cantidad de desplazamiento temporal como un valor entero o no entero en términos de muestras, milisegundos o cualquier otro incremento de tiempo. Para un caso en el que el codificador A124 de banda estrecha está configurado para modificar de otro modo la escala de tiempo de una trama u otra secuencia de muestras (por ejemplo, comprimiendo una porción y expandiendo otra porción), la señal SD10 de información de regularización puede incluir una correspondiente descripción de la modificación, tal como un conjunto de parámetros de función. En un ejemplo particular, el codificador A124 de banda estrecha está configurado para dividir una trama en tres subtramas y para calcular un desplazamiento temporal fijo para cada subtrama, de tal manera que la señal SD10 de datos de regularización indique tres cantidades de desplazamiento temporal para cada trama regularizada de la señal codificada de banda estrecha.
El codificador AD10 de voz de banda ancha incluye una línea D120 de retardo configurada para avanzar o retrasar partes de la señal S30 de voz de banda alta, según cantidades de retardo indicadas por una señal de entrada, para producir la señal S30a de voz de banda alta con distorsión temporal. En el ejemplo mostrado en la FIGURA 25, la línea D120 de retardo está configurada para distorsionar temporalmente la señal S30 de voz de banda alta según la distorsión indicada por la señal SD10 de datos de regularización. De tal manera, la misma cantidad de distorsión temporal que se incluyó en la señal codificada S50 de excitación de banda estrecha también se aplica a la porción correspondiente de la señal S30 de voz de banda alta antes del análisis. Aunque este ejemplo muestra la línea D120 de retardo como un elemento separado del codificador A200 de banda alta, en otras implementaciones la línea D120 de retardo se dispone como parte del codificador de banda alta.
Otras implementaciones del codificador A200 de banda alta pueden configurarse para llevar a cabo un análisis espectral (por ejemplo, un análisis de LPC) de la señal S30 de voz de banda alta no distorsionada y para llevar a cabo la distorsión temporal de la señal S30 de voz de banda alta antes del cálculo de los parámetros S60b de ganancia de banda alta. Un codificador de este tipo puede incluir, por ejemplo, una implementación de la línea D120 de retardo dispuesta para llevar a cabo la distorsión temporal. Sin embargo, en tales casos, los parámetros S60a de filtro de banda alta basados en el análisis de la señal S30 no distorsionada pueden describir una envolvente espectral desalineada en el tiempo con la señal S120 de excitación de banda alta.
La línea D120 de retardo puede configurarse según cualquier combinación de elementos lógicos y elementos de almacenamiento adecuados para aplicar las operaciones de distorsión temporal deseadas a la señal S30 de voz de banda alta. Por ejemplo, la línea D120 de retardo puede configurarse para leer la señal S30 de voz de banda alta desde una memoria intermedia según los desplazamientos temporales deseados. La FIGURA 26a muestra un diagrama esquemático de una implementación D122 de este tipo de la línea D120 de retardo que incluye un registro SR1 de desplazamiento. El registro SR1 de desplazamiento es una memoria intermedia de cierta longitud m que está configurada para recibir y almacenar las m muestras más recientes de la señal S30 de voz de banda alta. El valor m es igual al menos a la suma de los desplazamientos temporales máximos positivos (o de “adelanto”) y negativos (o de “retraso”) que han de soportarse. Puede ser conveniente que el valor m sea igual a la longitud de una trama o una subtrama de la señal S30 de banda alta.
La línea D122 de retardo está configurada para emitir la señal S30a de banda alta con distorsión temporal desde una ubicación OL de desfase del registro SR1 de desplazamiento. La posición de la ubicación OL del desfase varía con respecto a una posición de referencia (desplazamiento temporal cero) según el desplazamiento temporal actual tal como se indica, por ejemplo, por medio de la señal SD10 de datos de regularización. La línea D122 de retardo puede configurarse para soportar límites de adelanto y retardo iguales o, como alternativa, un límite más grande que el otro, de tal manera que pueda llevarse a cabo un mayor desplazamiento en una dirección que en la otra. La FIGURA 26a muestra un ejemplo particular que soporta un mayor desplazamiento temporal positivo que negativo. La línea D122 de retardo puede ser configurada para emitir una o más muestras cada vez (dependiendo, por ejemplo, del ancho de bus de salida).
Un desplazamiento temporal de regularización que tenga una magnitud de más de algunos milisegundos puede provocar artefactos audibles en la señal decodificada. Normalmente, la magnitud de un desplazamiento temporal de regularización, tal como el que lleva a cabo un codificador A124 de banda estrecha, no superará algunos milisegundos, de tal manera que se limitarán los desplazamientos temporales indicados por la señal SD10 de datos de regularización. Sin embargo, puede desearse en tales casos que la línea D122 de retardo esté configurada para imponer un límite máximo a los desplazamientos temporales en la dirección positiva y/o negativa (por ejemplo, para observar un límite más ajustado que el impuesto por el codificador de banda estrecha).
La FIGURA 26b muestra un diagrama esquemático de una implementación D124 de la línea D122 de retardo que incluye una ventana SW de desplazamiento. En este ejemplo, la posición de la ubicación OL del desfase está limitada por la ventana SW de desplazamiento. Aunque la FIGURA 26b muestra un caso en el que la longitud m de memoria intermedia es mayor que el ancho de la ventana SW de desplazamiento, la línea D124 de retardo también puede ser implementada de tal manera que el ancho de la ventana SW de desplazamiento sea igual a m.
En otras implementaciones, la línea D120 de retardo está configurada para escribir la señal S30 de voz de banda alta en una memoria intermedia según los desplazamientos temporales deseados. La FIGURA 27 muestra un diagrama esquemático de tal implementación D130 de la línea D120 de retardo que incluye dos registros SR2 y SR3 de desplazamiento configurados para recibir y almacenar la señal S30 de voz de banda alta. La línea D130 de retardo está configurada para escribir una trama o una subtrama del registro SR2 de desplazamiento al registro SR3 de desplazamiento según un desplazamiento temporal, tal como se indica, por ejemplo, por medio de la señal SD10 de datos de regularización. El registro SR3 de desplazamiento está configurado como una memoria intermedia FIFO dispuesta para emitir la señal S30 de banda alta con distorsión temporal.
En el ejemplo particular mostrado en la FIGURA 27, el registro SR2 de desplazamiento incluye una porción FB1 de memoria intermedia de trama y una porción DB de memoria intermedia de retraso, y el registro SR3 de desplazamiento incluye una porción FB2 de memoria intermedia de trama, una porción AB de memoria intermedia de adelanto, y una parte RB de memoria intermedia de retraso. Las longitudes de la memoria intermedia AB de adelanto y la memoria intermedia RB de retraso pueden ser iguales, o una puede ser más grande que la otra, de tal manera que se soporte un mayor desplazamiento en una dirección que en la otra. La memoria DB intermedia de retardo y la parte RB de memoria intermedia de retraso pueden configurarse para que tengan la misma longitud. Como alternativa, la memoria DB intermedia de retardo puede ser más pequeña que la memoria intermedia RB de retraso para representar un intervalo de tiempo requerido para transferir muestras desde la memoria intermedia FB1 de trama al registro SR3 de desplazamiento, lo que puede incluir otras operaciones de procesamiento tales como la distorsión de las muestras antes de su almacenamiento en el registro SR3 de desplazamiento.
En el ejemplo de la FIGURA 27, la memoria intermedia FB1 de trama está configurada para que tenga una longitud igual a la de una trama de la señal S30 de banda alta. En otro ejemplo, la memoria intermedia FB1 de trama está configurada para que tenga una longitud igual a la de una subtrama de la señal S30 de banda alta. En tal caso, la línea D130 de retardo puede ser configurada para incluir una lógica para aplicar el mismo retardo (por ejemplo, un promedio) a todas las subtramas de una trama que vaya a desplazarse. La línea D130 de retardo también puede incluir una lógica para promediar valores de la memoria intermedia FB1 de trama con valores que van a sobreescribirse en la memoria intermedia RB de retraso o la memoria intermedia AB de adelanto. En un ejemplo adicional, el registro SR3 de desplazamiento puede estar configurado para recibir valores de la señal S30 de banda alta solo por medio de la memoria intermedia FB1 de trama, y en tal caso la línea D130 de retardo puede incluir una lógica para interpolar pausas entre tramas o subtramas sucesivas escritas en el registro SR3 de desplazamiento. En otras implementaciones, la línea D130 de retardo puede ser configurada para llevar a cabo una operación de distorsión en muestras de la memoria intermedia FB1 de trama antes de escribirlas en el registro SR3 de desplazamiento (por ejemplo, según una función descrita por la señal SD10 de datos de regularización).
Puede que resulte deseable que la línea D120 de retardo aplique una distorsión temporal que se base, sin ser idéntica a ella, en la distorsión especificada por la señal SD10 de datos de regularización. La FIGURA 28 muestra un diagrama de bloques de una implementación AD12 del codificador AD10 de voz de banda ancha que incluye un correlacionador D110 del valor de retardo. El correlacionador D110 del valor de retardo está configurado para correlacionar la distorsión indicada por la señal SD10 de datos de regularización con valores SD10a de retardo correlacionados. La línea D120 de retardo se dispone para producir la señal S30a de voz de banda alta con distorsión temporal según la distorsión indicada por los valores SD10a de retardo correlacionados.
Cabe esperar que el desplazamiento temporal aplicado por el codificador de banda estrecha evolucione suavemente en el tiempo. Por lo tanto, normalmente es suficiente calcular el desplazamiento temporal promedio de banda estrecha aplicado a las subtramas durante una trama de voz, y desplazar una trama correspondiente de la señal S30 de voz de banda alta según este promedio. En un ejemplo de este tipo, el correlacionador D110 del valor de retardo está configurado para calcular un promedio de los valores de retardo de subtrama para cada trama, y la línea D120 de retardo está configurada para aplicar el promedio calculado a una trama correspondiente de la señal S30 de banda alta. En otros ejemplos, puede calcularse y aplicarse un promedio en un periodo más corto (tal como dos subtramas, o la mitad de una trama) o un periodo más largo (tal como dos tramas). En un caso en el que el
promedio sea un valor no entero de muestras, el correlacionador D110 del valor de retardo puede estar configurado para redondear el valor a un número entero de muestras antes de emitirlo a la línea D120 de retardo.
El codificador A124 de banda estrecha puede ser configurado para incluir un desplazamiento temporal de regularización de un número no entero de muestras en la señal codificada de excitación de banda estrecha. En un caso de este tipo, puede ser deseable que el correlacionador D110 del valor de retardo se configure para redondear el desplazamiento temporal de banda estrecha a un número entero de muestras y que la línea D120 de retardo aplique el desplazamiento temporal redondeado a la señal S30 de voz de banda alta.
En algunas implementaciones del codificador AD10 de voz de banda ancha, pueden diferir las tasas de muestreo de la señal S20 de voz de banda estrecha y la señal S30 de voz de banda alta. En tales casos, el correlacionador D110 del valor de retardo puede configurarse para ajustar las cantidades de desplazamiento temporal indicadas en la señal SD10 de datos de regularización para justificar una diferencia entre las tasas de muestreo de la señal S20 de voz de banda estrecha (o la señal S80 de excitación de banda estrecha) y la señal S30 de voz de banda alta. Por ejemplo, el correlacionador D110 del valor de retardo puede configurarse para ajustar a escala las cantidades de desplazamiento temporal según una relación de las tasas de muestreo. En un ejemplo particular, tal como se mencionó anteriormente, se muestrea la señal S20 de voz de banda estrecha a 8 kHz y se muestrea la señal S30 de voz de banda alta a 7 kHz. En este caso, el correlacionador D110 del valor de retardo está configurado para multiplicar cada cantidad de desplazamiento por 7/8. También pueden configurarse implementaciones del correlacionador D110 del valor de retardo para llevar a cabo tal operación de ajuste a escala junto con una operación de redondeo a número entero y/o promediación de desplazamiento temporal, tal como se describe en el presente documento.
En otras implementaciones, la línea D120 de retardo está configurada para modificar de otro modo la escala temporal de una trama u otra secuencia de muestras (por ejemplo, comprimiendo una porción y expandiendo otra porción). Por ejemplo, el codificador A124 de banda estrecha puede configurarse para llevar a cabo la regularización según una función tal como una trayectoria o contorno de altura tonal. En tal caso, la señal SD10 de datos de regularización puede incluir una correspondiente descripción de la función, tal como un conjunto de parámetros, y la línea D120 de retardo puede incluir una lógica configurada para distorsionar tramas o subtramas de la señal S30 de voz de banda alta según la función. En otras implementaciones, el correlacionador D110 del valor de retardo está configurado para promediar, ajustar a escala y/o redondear la función antes de que sea aplicada a la señal S30 de voz de banda alta por la línea D120 de retardo. Por ejemplo, el correlacionador D110 del valor de retardo puede configurarse para calcular uno o más valores de retardo según la función, indicando cada valor de retardo una serie de muestras, que son entonces aplicadas por la línea D120 de retardo para distorsionar temporalmente una o más tramas o subtramas correspondientes de la señal S30 de voz de banda alta.
La FIGURA 29 muestra un diagrama de flujo para un procedimiento MD100 de distorsión temporal de una señal de voz de banda alta según una distorsión temporal incluida en una correspondiente señal codificada de excitación de banda estrecha. La tarea TD100 procesa una señal de voz de banda ancha para obtener una señal de voz de banda estrecha y una señal de voz de banda alta. Por ejemplo, la tarea TD100 puede configurarse para filtrar la señal de voz de banda ancha usando un banco de filtros que tiene filtros de paso bajo y paso alto, tales como una implementación del banco A110 de filtros. La tarea TD200 codifica la señal de voz de banda estrecha en al menos una señal codificada de excitación de banda estrecha y una pluralidad de parámetros de filtro de banda estrecha. Pueden cuantificarse la señal codificada de excitación de banda estrecha y/o los parámetros de filtro, y la señal de voz de banda estrecha codificada también puede incluir otros parámetros tales como un parámetro del modo de voz. La tarea TD200 también incluye una distorsión temporal en la señal codificada de excitación de banda estrecha.
La tarea TD300 genera una señal de excitación de banda alta basada en una señal de excitación de banda estrecha. En este caso, la señal de excitación de banda estrecha se basa en la señal codificada de excitación de banda estrecha. Según al menos la señal de excitación de banda alta, la tarea TD400 codifica la señal de voz de banda alta en al menos una pluralidad de parámetros de filtro de banda alta. Por ejemplo, la tarea TD400 puede ser configurada para codificar la señal de voz de banda alta en una pluralidad de LSF cuantificadas. La tarea TD500 aplica un desplazamiento temporal a la señal de voz de banda alta que se basa en información relativa a una distorsión temporal incluida en la señal codificada de excitación de banda estrecha.
La tarea TD400 puede ser configurada para llevar a cabo un análisis espectral (tal como un análisis de LPC) en la señal de voz de banda alta, y/o para calcular una envolvente de ganancia de la señal de voz de banda alta. En tales casos, la tarea TD500 puede estar configurada para aplicar el desplazamiento temporal a la señal de voz de banda alta antes del análisis y/o el cálculo de la envolvente de ganancia.
Otras implementaciones del codificador A100 de voz de banda ancha están configuradas para invertir una distorsión temporal de la señal S120 de excitación de banda alta provocado por una distorsión temporal incluida en la señal codificada de excitación de banda estrecha. Por ejemplo, el generador A300 de excitación de banda alta puede implementarse para que incluya una implementación de la línea D120 de retardo que esté configurada para recibir la señal SD10 de datos de regularización o los valores SD10a de retardo correlacionados, y para que aplique un desplazamiento temporal inverso correspondiente a la señal S80 de excitación de banda estrecha, y/o a una señal
posterior basándose ella, tal como la señal S160 ensanchada armónicamente o la señal S120 de excitación de banda alta.
Otras implementaciones del codificador de voz de banda ancha pueden configurarse para codificar la señal S20 de voz de banda estrecha y la señal S30 de voz de banda alta independientemente entre sí, de tal manera que se codifique la señal S30 de voz de banda alta como una representación de una envolvente espectral de banda alta y una señal de excitación de banda alta. Puede configurarse una implementación de este tipo para llevar a cabo una distorsión temporal de la señal residual de banda alta, o incluir, si no, una distorsión temporal en una señal codificada de excitación de banda alta, según información relativa a una distorsión temporal incluida en la señal codificada de excitación de banda estrecha. Por ejemplo, el codificador de banda alta puede incluir una implementación de la línea D120 de retardo y/o el correlacionador D110 del valor de retardo, tal como se describe en el presente documento, que se configuran para aplicar una distorsión temporal a la señal residual de banda alta. Las ventajas potenciales de una operación de este tipo incluyen una codificación más eficaz de la señal residual de banda alta y una mayor coincidencia entre las señales sintetizadas de voz de banda alta y de banda estrecha.
Tal como se ha mencionado en lo que antecede, las realizaciones, tal como se describen en el presente documento, incluyen implementaciones que pueden usarse para llevar a cabo una codificación integrada, soportando compatibilidad con sistemas de banda estrecha y evitando la necesidad de transcodificación. El soporte para la codificación de banda alta también puede servir para diferenciar, en cuanto al coste, entre chips, conjuntos de chips, dispositivos y/o redes que tienen soporte de banda ancha con compatibilidad hacia atrás, y aquellos que solo tienen soporte de banda estrecha. También puede usarse soporte para codificación de banda alta, tal como se describe en el presente documento, conjuntamente con una técnica para soportar la codificación de banda baja, y un sistema, un procedimiento o un aparato según una realización de este tipo pueden soportar la codificación de componentes de frecuencia, por ejemplo, desde aproximadamente 50 o 100 Hz hasta aproximadamente 7 u 8 kHz.
Tal como se ha mencionado en lo que antecede, la adición de soporte de banda alta a un codificador de voz puede mejorar la inteligibilidad, especialmente en relación con la diferenciación de fricativas. Aunque tal diferenciación puede ser deducida habitualmente por un oyente humano del contexto particular, el soporte de banda alta puede servir como una característica de habilitación en el reconocimiento del habla y otras aplicaciones de interpretación por máquina, tales como sistemas para la navegación automatizada de menú por voz y/o el procesamiento automático de llamadas.
Un aparato según una realización puede integrarse en un dispositivo portátil para las comunicaciones inalámbricas tal como un teléfono celular o una agenda electrónica (PDA). Como alternativa, puede incluirse un aparato de este tipo en otro dispositivo de comunicaciones, tal como un microteléfono de VoIP, un ordenador personal configurado para soportar comunicaciones de VoIP o un dispositivo de red configurado para encaminar comunicaciones telefónicas o de VoIP. Por ejemplo, puede implementarse un aparato según una realización en un chip o un conjunto de chips para un dispositivo de comunicaciones. Dependiendo de la aplicación particular, un dispositivo de este tipo también puede incluir características tales como la conversión analógica-digital y/o la digital-analógica de una señal de voz, circuitería para llevar a cabo operaciones de amplificación y/u otras operaciones de procesamiento de señales en una señal de voz, y/o circuitería de radiofrecuencia para la transmisión y/o la recepción de la señal codificada de voz.
Se contempla y se da a conocer explícitamente que las realizaciones pueden incluir y/o usarse con una cualquiera o más de otras características. Tales características incluyen la eliminación de ráfagas de alta energía de corta duración que se producen en la banda alta y están sustancialmente ausentes en la banda estrecha. Tales características incluyen el aplanamiento fijo o adaptativo de representaciones de coeficiente tales como las LSF de banda alta. Tales características incluyen conformación fija o adaptativa del ruido asociado con la cuantificación de representaciones de coeficiente tales como las LSF. Tales características también incluyen el aplanamiento fijo o adaptativo de una envolvente de ganancia, y atenuación adaptativa de una envolvente de ganancia.
Se proporciona la presentación anterior de las realizaciones descritas para permitir que cualquier experto en la técnica realice o use la presente invención. Son posibles diversas modificaciones de estas realizaciones, y los principios genéricos presentados en el presente documento también pueden aplicarse a otras realizaciones. Por ejemplo, una realización puede implementarse en parte o en su totalidad como un circuito cableado, como una configuración de circuito fabricada en un circuito integrado para aplicaciones específicas, o como un programa de soporte lógico inalterable cargado en un almacenamiento no volátil o un programa de soporte lógico cargado desde un medio de almacenamiento de datos, o en el mismo, como código legible por máquina, siendo dicho código instrucciones ejecutables por un conjunto de elementos lógicos tales como un microprocesador u otra unidad de procesamiento de señales digitales. El medio de almacenamiento de datos puede ser un conjunto de elementos de almacenamiento tales como una memoria de semiconductores (que puede incluir, sin limitación, RAM (memoria de acceso aleatorio) estática o dinámica, ROM (memoria de solo lectura) y/o flash RAM), o memoria ferroeléctrica, magnetorresistiva, ovónica, polimérica o de cambio de fase; o un medio de disco tal como un disco magnético y óptico. Debe entenderse que la expresión “soporte lógico” incluye código fuente, código de lenguaje ensamblador, código máquina, código binario, soporte lógico inalterable, macrocódigo, microcódigo, uno cualquiera o más de
conjuntos o secuencias de instrucciones ejecutables por un conjunto de elementos lógicos, y cualquier combinación de tales ejemplos.
Los diversos elementos de implementaciones de los generadores A300 y B300 de excitación de banda alta, el codificador A100 de banda alta, el decodificador B200 de banda alta, el codificador A100 de voz de banda ancha y el decodificador B100 de habla de banda ancha pueden implementarse como dispositivos electrónicos y/u ópticos que residan, por ejemplo, en el mismo chip o entre dos o más chips en un conjunto de chips, aunque también se contemplan otras disposiciones sin tal limitación. Uno o más elementos de un aparato de este tipo pueden implementarse en su totalidad o en parte como uno o más conjuntos de instrucciones dispuestos para ejecutarse en uno o más conjuntos fijos o programables de elementos lógicos (por ejemplo, transistores, puertas), tales como microprocesadores, procesadores integrados, núcleos IP, procesadores de señales digitales, FPGA (matrices de puertas programables in situ), ASSP (productos estándar para aplicaciones específicas) y ASIC (circuitos integrados para aplicaciones específicas). También es posible que uno o más de tales elementos tengan una estructura en común (por ejemplo, un procesador usado para ejecutar porciones de código correspondientes a elementos diferentes en momentos diferentes, un conjunto de instrucciones ejecutadas para llevar a cabo tareas correspondientes a elementos diferentes en momentos diferentes, o una disposición de dispositivos electrónicos y/u ópticos que lleve a cabo operaciones para elementos diferentes en momentos diferentes). Además, es posible que uno o más de tales elementos sea usado para llevar a cabo tareas o ejecutar otros conjuntos de instrucciones que no se relacionen directamente con una operación del aparato, tales como una tarea que se relacione con otra operación de un dispositivo o un sistema en el que se integre el aparato.
La FIGURA 30 muestra un diagrama de flujo de un procedimiento M100, según una realización, de codificación de una porción de banda alta de una señal de voz que tiene una porción de banda estrecha y la porción de banda alta. La tarea X100 calcula un conjunto de parámetros de filtro que caracterizan una envolvente espectral de la porción de banda alta. La tarea X200 calcula una señal ensanchada espectralmente aplicando una función no lineal a una señal derivada de la porción de banda estrecha. La tarea X300 genera una señal sintetizada de banda alta según (A) el conjunto de parámetros de filtro y (B) una señal de excitación de banda alta basada en la señal ensanchada espectralmente. La tarea X400 calcula una envolvente de ganancia basada en una relación entre (C) la energía de la porción de banda alta y (D) la energía de una señal derivada de la porción de banda estrecha.
La FIGURA 31a muestra un diagrama de flujo de un procedimiento M200 de generación de una señal de excitación de banda alta según una realización. La tarea Y100 calcula una señal ensanchada armónicamente aplicando una función no lineal a una señal de excitación de banda estrecha derivada de una porción de banda estrecha de una señal de voz. La tarea Y200 mezcla la señal ensanchada armónicamente con una señal modulada de ruido para generar una señal de excitación de banda alta. La FIGURA 31b muestra un diagrama de flujo de un procedimiento M210 de generación de una señal de excitación de banda alta según otra realización que incluye las tareas Y300 e Y400. La tarea Y300 calcula una envolvente en el dominio temporal según la energía en el tiempo de una entre la señal de excitación de banda estrecha y la señal ensanchada armónicamente. La tarea Y400 modula una señal de ruido según la envolvente en el dominio temporal para producir la señal modulada de ruido.
La FIGURA 32 muestra un diagrama de flujo de un procedimiento M300 según una realización, de decodificación de una porción de banda alta de una señal de voz que tiene una porción de banda estrecha y la porción de banda alta. La tarea Z100 recibe un conjunto de parámetros de filtro que caracterizan una envolvente espectral de la porción de banda alta y un conjunto de factores de ganancia que caracterizan una envolvente temporal de la porción de banda alta. La tarea Z200 calcula una señal ensanchada espectralmente aplicando una función no lineal a una señal derivada de la porción de banda estrecha. La tarea Z300 genera una señal sintetizada de banda alta según (A) el conjunto de parámetros de filtro y (B) una señal de excitación de banda alta basada en la señal ensanchada espectralmente. La tarea Z400 modula una envolvente de ganancia de la señal sintetizada de banda alta basada en el conjunto de factores de ganancia. Por ejemplo, la tarea Z400 puede configurarse para modular la envolvente de ganancia de la señal sintetizada de banda alta aplicando el conjunto de factores de ganancia a una señal de excitación derivada de la porción de banda estrecha, a la señal ensanchada espectralmente, a la señal de excitación de banda alta o a la señal sintetizada de banda alta.
Las realizaciones también incluyen procedimientos adicionales de codificación de voz, cifrado y decodificación, tal como se da a conocer expresamente en el presente documento, por ejemplo, mediante descripciones de realizaciones estructurales configuradas para llevar a cabo tales procedimientos. Cada uno de estos procedimientos también puede ser implementado de forma tangible (por ejemplo, en uno o más medios de almacenamiento de datos según se ha enumerado en lo que antecede) como uno o más conjuntos de instrucciones legibles y/o ejecutables por una máquina, incluyendo un conjunto de elementos lógicos (por ejemplo, un procesador, un microprocesador, un microcontrolador u otra máquina de estado finito). Por ello, no se pretende que la presente invención esté limitada a las realizaciones mostradas en lo que antecede, sino que, más bien, debe otorgársele el alcance más amplio coherente con las reivindicaciones adjuntas.

Claims (24)

  1. REIVINDICACIONES
    1. Un procedimiento de generación de una señal (S120) de excitación de banda alta, comprendiendo dicho procedimiento:
    ensanchar armónicamente el espectro de una señal que se basa en una señal (S80) de excitación de
    5 banda baja; calcular una envolvente de dominio temporal de una señal que se basa en la señal (S80) de excitación de banda baja; modular una señal de ruido según la envolvente de dominio temporal; y combinar (A) una señal (S160) ensanchada armónicamente con base en un resultado de dicho
    10 ensanchamiento armónico y (B) una señal modulada (S170) de ruido con base en un resultado de dicha modulación, incluyendo dicha combinación el cálculo de una suma ponderada de la señal (S160) ensanchada armónicamente y la señal modulada (S170) de ruido, incluyendo dicho cálculo de una suma ponderada la ponderación de la señal (S160) ensanchada armónicamente según un primer factor de ponderación y la ponderación de la señal modulada (S170) de ruido según un segundo factor de
    15 ponderación, comprendiendo dicho procedimiento el cálculo de al menos uno entre los factores de ponderación primero y segundo según al menos uno entre (A) una medida de periodicidad de una señal de voz y (B) un grado vocal de una señal de voz, en el que la señal de excitación de banda alta se basa en la suma ponderada.
  2. 2. El procedimiento según la reivindicación 1 en el que dicho ensanchamiento armónico comprende aplicar una 20 función no lineal a una señal que se basa en la señal (S80) de excitación de banda baja.
  3. 3.
    El procedimiento según la reivindicación 2 en el que dicha aplicación de una función no lineal comprende aplicar la función no lineal en el dominio temporal.
  4. 4.
    El procedimiento según la reivindicación 2 en el que la función no lineal es una función no lineal sin memoria.
  5. 5.
    El procedimiento según la reivindicación 2 en el que la función no lineal es invariante en el tiempo.
    25 6. El procedimiento según la reivindicación 2 en el que la función no lineal comprende al menos una de la función de valor absoluto, la función de elevación al cuadrado y una función de recorte.
  6. 7.
    El procedimiento según la reivindicación 2 en el que la función no lineal es la función de valor absoluto.
  7. 8.
    El procedimiento según la reivindicación 1 en el que dicho cálculo de una envolvente de dominio temporal de una señal que se basa en la señal (S80) de excitación de banda baja incluye calcular una envolvente de
    30 dominio temporal entre la señal (S80) de excitación de banda baja y la señal (S160) ensanchada armónicamente.
  8. 9. El procedimiento según la reivindicación 1 en el que dicho ensanchamiento armónico incluye ensanchar armónicamente el espectro de una señal sobremuestreada que se basa en la señal (S80) de excitación de banda baja.
    35 10. El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento aplanar espectralmente la señal ensanchada armónicamente antes de dicha combinación.
  9. 11. El procedimiento según la reivindicación 10 en el que dicho aplanamiento espectral comprende:
    calcular una pluralidad de coeficientes de filtro con base en una señal que ha de ser aplanada espectralmente; y 40 filtrar la señal que ha de ser aplanada espectralmente con un filtro blanqueador configurado según la pluralidad de coeficientes de filtro.
  10. 12.
    El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento la generación de la señal de ruido según una función determinista de información dentro de una señal codificada de voz.
  11. 13.
    El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento la obtención de la señal (S80)
    45 de excitación de banda baja y un valor de ganancia de altura tonal a partir de una representación cuantificada de un resto (S50) de banda baja, y comprendiendo dicho procedimiento calcular uno entre los factores de ponderación primero y segundo según al menos el valor de ganancia de altura tonal.
  12. 14. El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento al menos uno de (i) codificar
    una señal de voz de banda alta según la señal (S120) de excitación de banda alta y (ii) decodificar una señal 50 de voz de banda alta según la señal (S120) de excitación de banda alta.
  13. 15.
    Un medio de almacenamiento de datos que contiene instrucciones ejecutables por máquina para llevar a cabo el procedimiento de procesamiento de señales según la reivindicación 1.
  14. 16.
    Un aparato (A302) que comprende:
    un medio para ensanchar armónicamente el espectro de una señal que se basa en una señal (S80) de
    5 excitación de banda baja; un medio para calcular una envolvente de dominio temporal de una señal que se basa en la señal (S80) de excitación de banda baja; un medio para modular una señal de ruido según la envolvente de dominio temporal; y un medio para combinar (A) una señal (S160) ensanchada armónicamente con base en un resultado de
    10 dicho ensanchamiento armónico y (B) una señal modulada (S170) de ruido con base en un resultado de dicha modulación, incluyendo dicho medio de combinación un medio de cálculo de una suma ponderada de la señal (S160) ensanchada armónicamente y la señal modulada (S170) de ruido, estando configurado dicho medio de combinación para ponderar la señal (S160) ensanchada armónicamente según un primer factor de ponderación y para ponderar la señal modulada (S170) de ruido según un segundo factor de
    15 ponderación, estando configurado dicho medio de combinación para calcular al menos uno entre los factores de ponderación primero y segundo según al menos uno entre (A) una medida de periodicidad de una señal de voz y (B) un grado vocal de una señal de voz, en el que la señal (S120) de excitación de banda alta se basa en la suma ponderada.
  15. 17. El aparato (A302) de la reivindicación 16 en el que:
    20 el medio para ensanchar armónicamente el espectro de una señal es un ensanchador (A400) de espectro; el medio para calcular una envolvente de dominio temporal de una señal es un calculador (460) de envolvente; el medio para modular una señal de ruido es un primer combinador (470); y el medio para combinar (A) y (B) es un segundo combinador (490).
    25 18. El aparato (A302) según la reivindicación 17 en el que dicho ensanchador (A400) de espectro está configurado para aplicar una función no lineal para llevar a cabo el ensanchamiento armónico del espectro de una señal que se basa en la señal (S80) de excitación de banda baja.
  16. 19. El aparato (A302) según la reivindicación 18 en el que la función no lineal comprende al menos una de la función de valor absoluto, la función de elevación al cuadrado y una función de recorte.
    30 20. El aparato (A302) según la reivindicación 18 en el que la función no lineal es la función de valor absoluto.
  17. 21.
    El aparato (A302) según la reivindicación 17 en el que dicho calculador (460) de envolvente está configurado para calcular la envolvente de dominio temporal con base en una entre la señal (S80) de excitación de banda baja y la señal (S160) ensanchada armónicamente.
  18. 22.
    El aparato (A302) según la reivindicación 17 en el que dicho ensanchador (A400) de espectro está configurado
    35 para llevar a cabo un ensanchamiento armónico del espectro de una señal sobremuestreada que se basa en la señal (S80) de excitación de banda baja.
  19. 23.
    El aparato (A302) según la reivindicación 17, comprendiendo dicho aparato un aplanador espectral configurado para aplanar espectralmente la señal ensanchada armónicamente.
  20. 24.
    El aparato (A302) según la reivindicación 23 en el que dicho aplanador espectral está configurado para calcular
    40 una pluralidad de coeficientes de filtro con base en una señal que ha de ser aplanada espectralmente y filtrar la señal que ha de ser aplanada espectralmente con un filtro blanqueador configurado según la pluralidad de coeficientes de filtro.
  21. 25. El aparato (A302) según la reivindicación 17, comprendiendo dicho aparato un generador de ruido configurado
    para generar la señal de ruido según una función determinista de información dentro de una señal codificada 45 de voz.
  22. 26. El aparato (A302) según la reivindicación 16, incluyendo dicho aparato un descuantificador configurado para obtener la señal (S80) de excitación de banda baja y un valor de ganancia de altura tonal a partir de una representación cuantificada de un resto (S50) de banda baja, y estando configurado dicho segundo combinador
    (490) para calcular al menos uno entre los factores de ponderación primero y segundo según al menos el valor 50 de ganancia de altura tonal.
  23. 27. El aparato (A302) según la reivindicación 17, incluyendo dicho aparato al menos uno de (i) un codificador de voz de banda alta configurado para codificar una señal de voz de banda alta según la señal de excitación de banda alta y (ii) un decodificador de voz de banda alta configurado para decodificar una señal de voz de banda alta según la señal de excitación de banda alta.
  24. 2828. El aparato (A302) según la reivindicación 17, comprendiendo dicho aparato un teléfono celular.
ES06784345T 2005-04-01 2006-04-03 Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta Active ES2391292T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US66790105P 2005-04-01 2005-04-01
US667901P 2005-04-01
US67396505P 2005-04-22 2005-04-22
US673965P 2005-04-22
PCT/US2006/012234 WO2006130221A1 (en) 2005-04-01 2006-04-03 Systems, methods, and apparatus for highband excitation generation

Publications (1)

Publication Number Publication Date
ES2391292T3 true ES2391292T3 (es) 2012-11-23

Family

ID=36588741

Family Applications (3)

Application Number Title Priority Date Filing Date
ES06740354T Active ES2340608T3 (es) 2005-04-01 2006-04-03 Aparato y procedimiento para codificar mediante banda dividida una señal de voz.
ES06740358.4T Active ES2636443T3 (es) 2005-04-01 2006-04-03 Sistemas, procedimientos y aparatos para codificación de voz de banda ancha
ES06784345T Active ES2391292T3 (es) 2005-04-01 2006-04-03 Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES06740354T Active ES2340608T3 (es) 2005-04-01 2006-04-03 Aparato y procedimiento para codificar mediante banda dividida una señal de voz.
ES06740358.4T Active ES2636443T3 (es) 2005-04-01 2006-04-03 Sistemas, procedimientos y aparatos para codificación de voz de banda ancha

Country Status (24)

Country Link
US (8) US8140324B2 (es)
EP (8) EP1866914B1 (es)
JP (8) JP4955649B2 (es)
KR (8) KR100982638B1 (es)
CN (1) CN102411935B (es)
AT (4) ATE485582T1 (es)
AU (8) AU2006232358B2 (es)
BR (8) BRPI0607691B1 (es)
CA (8) CA2603246C (es)
DE (4) DE602006017050D1 (es)
DK (2) DK1864101T3 (es)
ES (3) ES2340608T3 (es)
HK (5) HK1113848A1 (es)
IL (8) IL186443A (es)
MX (8) MX2007012183A (es)
NO (7) NO20075510L (es)
NZ (6) NZ562188A (es)
PL (4) PL1864101T3 (es)
PT (2) PT1864282T (es)
RU (9) RU2491659C2 (es)
SG (4) SG161223A1 (es)
SI (1) SI1864282T1 (es)
TW (8) TWI321315B (es)
WO (8) WO2006107834A1 (es)

Families Citing this family (323)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987095B2 (en) * 2002-09-27 2011-07-26 Broadcom Corporation Method and system for dual mode subband acoustic echo canceller with integrated noise suppression
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
JP4679049B2 (ja) 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR101213840B1 (ko) * 2004-05-14 2012-12-20 파나소닉 주식회사 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
EP2189978A1 (en) * 2004-08-30 2010-05-26 QUALCOMM Incorporated Adaptive De-Jitter Buffer for voice over IP
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
EP1872364B1 (en) * 2005-03-30 2010-11-24 Nokia Corporation Source coding and/or decoding
CA2603246C (en) 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
SI1875463T1 (sl) * 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja
ES2327566T3 (es) * 2005-04-28 2009-10-30 Siemens Aktiengesellschaft Procedimiento y dispositivo para la supresion de ruidos.
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
ATE443318T1 (de) * 2005-07-14 2009-10-15 Koninkl Philips Electronics Nv Audiosignalsynthese
WO2007013973A2 (en) * 2005-07-20 2007-02-01 Shattil, Steve Systems and method for high data rate ultra wideband communication
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
CA2558595C (en) * 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
KR20080049085A (ko) * 2005-09-30 2008-06-03 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
RU2008114382A (ru) * 2005-10-14 2009-10-20 Панасоник Корпорэйшн (Jp) Кодер с преобразованием и способ кодирования с преобразованием
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
JP4876574B2 (ja) * 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
WO2008022207A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Time-warping of decoded audio signal after packet loss
JP5096468B2 (ja) * 2006-08-15 2012-12-12 ドルビー ラボラトリーズ ライセンシング コーポレイション サイド情報なしの時間的ノイズエンベロープの自由な整形
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
JP4972742B2 (ja) * 2006-10-17 2012-07-11 国立大学法人九州工業大学 高域信号補間方法及び高域信号補間装置
USRE50009E1 (en) * 2006-10-25 2024-06-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101565919B1 (ko) 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
GB2444757B (en) * 2006-12-13 2009-04-22 Motorola Inc Code excited linear prediction speech coding
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
FR2911020B1 (fr) * 2006-12-28 2009-05-01 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
FR2911031B1 (fr) * 2006-12-28 2009-04-10 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
DK2186089T3 (en) * 2007-08-27 2019-01-07 Ericsson Telefon Ab L M Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes
FR2920545B1 (fr) * 2007-09-03 2011-06-10 Univ Sud Toulon Var Procede de trajectographie de plusieurs cetaces par acoustique passive
JP5547081B2 (ja) * 2007-11-02 2014-07-09 華為技術有限公司 音声復号化方法及び装置
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
MX2010002629A (es) * 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
US8050934B2 (en) * 2007-11-29 2011-11-01 Texas Instruments Incorporated Local pitch control based on seamless time scale modification and synchronized sampling rate conversion
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2255534B1 (en) * 2008-03-20 2017-12-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding using bandwidth extension in portable terminal
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
CA2729751C (en) 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
RU2621965C2 (ru) 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
RU2443028C2 (ru) 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
WO2010011963A1 (en) * 2008-07-25 2010-01-28 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010028297A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US20100070550A1 (en) * 2008-09-12 2010-03-18 Cardinal Health 209 Inc. Method and apparatus of a sensor amplifier configured for use in medical applications
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010036061A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
DE102008058496B4 (de) * 2008-11-21 2010-09-09 Siemens Medical Instruments Pte. Ltd. Filterbanksystem mit spezifischen Sperrdämpfungsanteilen für eine Hörvorrichtung
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
BR122019023704B1 (pt) * 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
KR101320963B1 (ko) * 2009-03-31 2013-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5730860B2 (ja) * 2009-05-19 2015-06-10 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
WO2011047887A1 (en) 2009-10-21 2011-04-28 Dolby International Ab Oversampling in a combined transposer filter bank
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
US8000485B2 (en) * 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
WO2011029484A1 (en) * 2009-09-14 2011-03-17 Nokia Corporation Signal enhancement processing
US9595257B2 (en) * 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
MX2012004569A (es) 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
EP2704143B1 (en) 2009-10-21 2015-01-07 Panasonic Intellectual Property Corporation of America Apparatus, method and computer program for audio signal processing
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CA2780971A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget L M Ericsson (Publ) Improved excitation signal bandwidth extension
RU2568278C2 (ru) * 2009-11-19 2015-11-20 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы пропускания звукового сигнала нижней полосы
US8489393B2 (en) * 2009-11-23 2013-07-16 Cambridge Silicon Radio Limited Speech intelligibility
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
RU2464651C2 (ru) * 2009-12-22 2012-10-20 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство многоуровневого масштабируемого устойчивого к информационным потерям кодирования речи для сетей с коммутацией пакетов
US20110167445A1 (en) * 2010-01-06 2011-07-07 Reams Robert W Audiovisual content channelization system
US8326607B2 (en) * 2010-01-11 2012-12-04 Sony Ericsson Mobile Communications Ab Method and arrangement for enhancing speech quality
WO2011086066A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
US8699727B2 (en) 2010-01-15 2014-04-15 Apple Inc. Visually-assisted mixing of audio using a spectral analyzer
US9525569B2 (en) * 2010-03-03 2016-12-20 Skype Enhanced circuit-switched calls
KR101445294B1 (ko) * 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 코딩 컨텍스트의 피치 의존 적응을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 오디오 신호 디코딩 방법, 오디오 신호 인코딩 방법, 및 컴퓨터 프로그램
US8700391B1 (en) * 2010-04-01 2014-04-15 Audience, Inc. Low complexity bandwidth expansion of speech
US20130024191A1 (en) * 2010-04-12 2013-01-24 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
BR112012026326B1 (pt) * 2010-04-13 2021-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V método e codificador e decodificador para representação com amostragem precisa de um sinal de áudio
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9443534B2 (en) 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
CN102844810B (zh) * 2010-04-14 2017-05-03 沃伊斯亚吉公司 用于在码激励线性预测编码器和解码器中使用的灵活和可缩放的组合式创新代码本
RU2527735C2 (ru) 2010-04-16 2014-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101660843B1 (ko) 2010-05-27 2016-09-29 삼성전자주식회사 Lpc 계수 양자화를 위한 가중치 함수 결정 장치 및 방법
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
ES2372202B2 (es) * 2010-06-29 2012-08-08 Universidad De Málaga Sistema de reconocimiento de sonidos de bajo consumo.
CA3160488C (en) 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
US8977542B2 (en) 2010-07-16 2015-03-10 Telefonaktiebolaget L M Ericsson (Publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
JP5777041B2 (ja) * 2010-07-23 2015-09-09 沖電気工業株式会社 帯域拡張装置及びプログラム、並びに、音声通信装置
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US20130310422A1 (en) 2010-09-01 2013-11-21 The General Hospital Corporation Reversal of general anesthesia by administration of methylphenidate, amphetamine, modafinil, amantadine, and/or caffeine
CA2961088C (en) 2010-09-16 2019-07-02 Dolby International Ab Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8924200B2 (en) 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
WO2012053149A1 (ja) * 2010-10-22 2012-04-26 パナソニック株式会社 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CN103620672B (zh) 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
CA2903681C (en) 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
KR101624019B1 (ko) * 2011-02-14 2016-06-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코덱에서 잡음 생성
MY164797A (en) 2011-02-14 2018-01-30 Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V Apparatus and method for processing a decoded audio signal in a spectral domain
US9343076B2 (en) * 2011-02-16 2016-05-17 Dolby Laboratories Licensing Corporation Methods and systems for generating filter coefficients and configuring filters
DK3407352T3 (da) * 2011-02-18 2022-06-07 Ntt Docomo Inc Taleafkoder, talekoder, taleafkodningsfremgangsmåde, talekodningsfremgangsmåde, taleafkodningsprogram og talekodningsprogram
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
JP5704397B2 (ja) * 2011-03-31 2015-04-22 ソニー株式会社 符号化装置および方法、並びにプログラム
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
CN102811034A (zh) 2011-05-31 2012-12-05 财团法人工业技术研究院 信号处理装置及信号处理方法
US9264094B2 (en) * 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
US9070361B2 (en) 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
BR112013033900B1 (pt) 2011-06-30 2022-03-15 Samsung Electronics Co., Ltd Método para gerar um sinal estendido de largura de banda para decodificação de áudio
US9059786B2 (en) * 2011-07-07 2015-06-16 Vecima Networks Inc. Ingress suppression for communication systems
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
RU2486636C1 (ru) * 2011-11-14 2013-06-27 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации высокочастотных сигналов и устройство его реализации
RU2486638C1 (ru) * 2011-11-15 2013-06-27 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации высокочастотных сигналов и устройство его реализации
RU2486637C1 (ru) * 2011-11-15 2013-06-27 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации и частотной модуляции высокочастотных сигналов и устройство его реализации
RU2496222C2 (ru) * 2011-11-17 2013-10-20 Федеральное государственное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации и частотной модуляции высокочастотных сигналов и устройство его реализации
RU2486639C1 (ru) * 2011-11-21 2013-06-27 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации и частотной модуляции высокочастотных сигналов и устройство его реализации
RU2496192C2 (ru) * 2011-11-21 2013-10-20 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ генерации и частотной модуляции высокочастотных сигналов и устройство его реализации
RU2490727C2 (ru) * 2011-11-28 2013-08-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Уральский государственный университет путей сообщения" (УрГУПС) Способ передачи речевых сигналов (варианты)
RU2487443C1 (ru) * 2011-11-29 2013-07-10 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ согласования комплексных сопротивлений и устройство его реализации
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
FI3547261T3 (fi) 2012-03-29 2023-09-26 Ericsson Telefon Ab L M Vektorikvantisoija
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
JP5998603B2 (ja) * 2012-04-18 2016-09-28 ソニー株式会社 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
KR101343768B1 (ko) * 2012-04-19 2014-01-16 충북대학교 산학협력단 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법
RU2504894C1 (ru) * 2012-05-17 2014-01-20 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ демодуляции фазомодулированных и частотно-модулированных сигналов и устройство его реализации
RU2504898C1 (ru) * 2012-05-17 2014-01-20 Федеральное государственное военное образовательное учреждение высшего профессионального образования "Военный авиационный инженерный университет" (г. Воронеж) Министерства обороны Российской Федерации Способ демодуляции фазомодулированных и частотно-модулированных сигналов и устройство его реализации
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
EP3113184B1 (en) 2012-08-31 2017-12-06 Telefonaktiebolaget LM Ericsson (publ) Method and device for voice activity detection
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
WO2014062859A1 (en) * 2012-10-16 2014-04-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction
KR101413969B1 (ko) 2012-12-20 2014-07-08 삼성전자주식회사 오디오 신호의 복호화 방법 및 장치
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
CN103971693B (zh) 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
PL3067890T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma
PL2951819T3 (pl) * 2013-01-29 2017-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i nośnik komputerowy do syntetyzowania sygnału audio
US20140213909A1 (en) * 2013-01-31 2014-07-31 Xerox Corporation Control-based inversion for estimating a biological parameter vector for a biophysics model from diffused reflectance data
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US9336789B2 (en) * 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
US9715885B2 (en) 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
EP2784775B1 (en) * 2013-03-27 2016-09-14 Binauric SE Speech signal encoding/decoding method and apparatus
US9558785B2 (en) * 2013-04-05 2017-01-31 Dts, Inc. Layered audio coding and transmission
CA3029037C (en) * 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
CN117275495A (zh) 2013-04-05 2023-12-22 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
JP6482540B2 (ja) * 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
MY169410A (en) 2013-06-21 2019-04-01 Fraunhofer Ges Forschung Audio decoder having a bandwidth extension module with an energy adjusting module
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP6660878B2 (ja) 2013-06-27 2020-03-11 ザ ジェネラル ホスピタル コーポレイション 生理学的データにおける動的構造を追跡するためのシステムおよび該システムの作動方法
US10383574B2 (en) 2013-06-28 2019-08-20 The General Hospital Corporation Systems and methods to infer brain state during burst suppression
CN107316647B (zh) * 2013-07-04 2021-02-09 超清编解码有限公司 频域包络的矢量量化方法和装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
KR101790641B1 (ko) 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
EP3043696B1 (en) 2013-09-13 2022-11-02 The General Hospital Corporation Systems and methods for improved brain monitoring during general anesthesia and sedation
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
CN105761723B (zh) * 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
US9620134B2 (en) * 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US9384746B2 (en) * 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
KR102271852B1 (ko) * 2013-11-02 2021-07-01 삼성전자주식회사 광대역 신호 생성방법 및 장치와 이를 채용하는 기기
EP2871641A1 (en) * 2013-11-12 2015-05-13 Dialog Semiconductor B.V. Enhancement of narrowband audio signals using a single sideband AM modulation
WO2015077641A1 (en) 2013-11-22 2015-05-28 Qualcomm Incorporated Selective phase compensation in high band coding
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
CN103714822B (zh) * 2013-12-27 2017-01-11 广州华多网络科技有限公司 基于silk编解码器的子带编解码方法及装置
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
JP6281336B2 (ja) * 2014-03-12 2018-02-21 沖電気工業株式会社 音声復号化装置及びプログラム
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
BR112016019838B1 (pt) * 2014-03-31 2023-02-23 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação, método de decodificação e mídia de registro legível por computador não transitória
US9542955B2 (en) 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN106409304B (zh) 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
CN105225670B (zh) * 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
US9721584B2 (en) * 2014-07-14 2017-08-01 Intel IP Corporation Wind noise reduction for audio reception
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的***和方法
TWI550945B (zh) * 2014-12-22 2016-09-21 國立彰化師範大學 具有急遽過渡帶的複合濾波器之設計方法及其串聯式複合濾波器
US9595269B2 (en) * 2015-01-19 2017-03-14 Qualcomm Incorporated Scaling for gain shape circuitry
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
EP3262639B1 (en) * 2015-02-26 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
US10847170B2 (en) * 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
NO339664B1 (en) 2015-10-15 2017-01-23 St Tech As A system for isolating an object
MY191093A (en) * 2016-02-17 2022-05-30 Fraunhofer Ges Forschung Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
FI3696813T3 (fi) * 2016-04-12 2023-01-31 Audiokooderi audiosignaalin koodaamiseksi, menetelmä audiosignaalin koodaamiseksi ja tietokoneohjelma havaitulla huippuspektrialeella tarkastettuna ylemmällä taajuuskaistalla
US20170330575A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method and article
US10699725B2 (en) * 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10770088B2 (en) * 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
CA3024167A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method, apparatus and medium
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
KR102507383B1 (ko) * 2016-11-08 2023-03-08 한국전자통신연구원 직사각형 윈도우를 이용한 스테레오 정합 방법 및 스테레오 정합 시스템
US10786168B2 (en) 2016-11-29 2020-09-29 The General Hospital Corporation Systems and methods for analyzing electrophysiological data from patients undergoing medical treatments
PL3555885T3 (pl) 2016-12-16 2021-01-11 Telefonaktiebolaget Lm Ericsson (Publ) Sposób i koder do obsługi współczynników reprezentacji obwiedni
EP4401370A2 (en) 2017-01-06 2024-07-17 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for signaling and determining reference signal offsets
US10714080B2 (en) * 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data
US10553222B2 (en) * 2017-03-09 2020-02-04 Qualcomm Incorporated Inter-channel bandwidth extension spectral mapping and adjustment
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
TW202341126A (zh) * 2017-03-23 2023-10-16 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11876659B2 (en) 2017-10-27 2024-01-16 Terawave, Llc Communication system using shape-shifted sinusoidal waveforms
KR102438549B1 (ko) * 2017-10-27 2022-08-31 테라웨이브, 엘엘씨 인코딩된 정현파 파형들을 이용한 고 스펙트럼 효율의 데이터 통신 시스템을 위한 수신기
CN109729553B (zh) * 2017-10-30 2021-12-28 成都鼎桥通信技术有限公司 Lte集群通信***的语音业务处理方法及设备
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
US10460749B1 (en) * 2018-06-28 2019-10-29 Nuvoton Technology Corporation Voice activity detection using vocal tract area information
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
JP7088403B2 (ja) * 2019-02-20 2022-06-21 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
CN110610713B (zh) * 2019-08-28 2021-11-16 南京梧桐微电子科技有限公司 一种声码器余量谱幅度参数重构方法及***
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
TWI723545B (zh) 2019-09-17 2021-04-01 宏碁股份有限公司 語音處理方法及其裝置
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
KR102201169B1 (ko) * 2019-10-23 2021-01-11 성균관대학교 산학협력단 메타 표면의 반사 계수를 제어하기 위한 시간 부호 생성 방법, 메타 표면의 반사 계수를 제어하기 위한 시공간 부호 생성 방법, 이를 실행하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 기록매체, 및 이를 이용한 메타 표면의 신호 변조 방법
CN114548442B (zh) * 2022-02-25 2022-10-21 万表名匠(广州)科技有限公司 一种基于互联网技术的腕表维修管理***

Family Cites Families (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US526468A (en) * 1894-09-25 Charles d
US596689A (en) * 1898-01-04 Hose holder or support
US525147A (en) * 1894-08-28 Steam-cooker
US321993A (en) * 1885-07-14 Lantern
US1126620A (en) * 1911-01-30 1915-01-26 Safety Car Heating & Lighting Electric regulation.
US1089258A (en) * 1914-01-13 1914-03-03 James Arnot Paterson Facing or milling machine.
US1300833A (en) * 1918-12-12 1919-04-15 Moline Mill Mfg Company Idler-pulley structure.
US1498873A (en) * 1924-04-19 1924-06-24 Bethlehem Steel Corp Switch stand
US2073913A (en) * 1934-06-26 1937-03-16 Wigan Edmund Ramsay Means for gauging minute displacements
US2086867A (en) * 1936-06-19 1937-07-13 Hall Lab Inc Laundering composition and process
US3044777A (en) * 1959-10-19 1962-07-17 Fibermold Corp Bowling pin
US3158693A (en) 1962-08-07 1964-11-24 Bell Telephone Labor Inc Speech interpolation communication system
US3855416A (en) 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment
US3855414A (en) 1973-04-24 1974-12-17 Anaconda Co Cable armor clamp
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4616659A (en) * 1985-05-06 1986-10-14 At&T Bell Laboratories Heart rate detection utilizing autoregressive analysis
US4630305A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4747143A (en) * 1985-07-12 1988-05-24 Westinghouse Electric Corp. Speech enhancement system having dynamic gain control
NL8503152A (nl) * 1985-11-15 1987-06-01 Optische Ind De Oude Delft Nv Dosismeter voor ioniserende straling.
US4862168A (en) 1987-03-19 1989-08-29 Beard Terry D Audio digital/analog encoding and decoding
US4805193A (en) 1987-06-04 1989-02-14 Motorola, Inc. Protection of energy information in sub-band coding
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5285520A (en) * 1988-03-02 1994-02-08 Kokusai Denshin Denwa Kabushiki Kaisha Predictive coding apparatus
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization
US5086475A (en) * 1988-11-19 1992-02-04 Sony Corporation Apparatus for generating, recording or reproducing sound source data
JPH02244100A (ja) 1989-03-16 1990-09-28 Ricoh Co Ltd 駆動音源信号生成装置
JPH05502539A (ja) 1990-09-19 1993-04-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 主データファイル及び制御ファイルが記録された記録担体、その記録方法及び装置、及びその読取装置
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3191457B2 (ja) 1992-10-31 2001-07-23 ソニー株式会社 高能率符号化装置、ノイズスペクトル変更装置及び方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5765126A (en) 1993-06-30 1998-06-09 Sony Corporation Method and apparatus for variable length encoding of separated tone and noise characteristic components of an acoustic signal
AU7960994A (en) * 1993-10-08 1995-05-04 Comsat Corporation Improved low bit rate vocoders and methods of operation therefor
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5487087A (en) 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
US5797118A (en) 1994-08-09 1998-08-18 Yamaha Corporation Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns
JP2770137B2 (ja) 1994-09-22 1998-06-25 日本プレシジョン・サーキッツ株式会社 波形データ圧縮装置
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
FI97182C (fi) 1994-12-05 1996-10-25 Nokia Telecommunications Oy Menetelmä vastaanotettujen huonojen puhekehysten korvaamiseksi digitaalisessa vastaanottimessa sekä digitaalisen tietoliikennejärjestelmän vastaanotin
JP3365113B2 (ja) * 1994-12-22 2003-01-08 ソニー株式会社 音声レベル制御装置
JP2798003B2 (ja) 1995-05-09 1998-09-17 松下電器産業株式会社 音声帯域拡大装置および音声帯域拡大方法
JP3189614B2 (ja) 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
JP2956548B2 (ja) 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US6263307B1 (en) 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
JP3334419B2 (ja) 1995-04-20 2002-10-15 ソニー株式会社 ノイズ低減方法及びノイズ低減装置
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6097824A (en) 1997-06-06 2000-08-01 Audiologic, Incorporated Continuous frequency dynamic range audio compressor
EP0768569B1 (en) * 1995-10-16 2003-04-02 Agfa-Gevaert New class of yellow dyes for use in photographic materials
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5737716A (en) 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
JP3073919B2 (ja) * 1995-12-30 2000-08-07 松下電器産業株式会社 同期装置
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
TW307960B (en) * 1996-02-15 1997-06-11 Philips Electronics Nv Reduced complexity signal transmission system
DE69730779T2 (de) 1996-06-19 2005-02-10 Texas Instruments Inc., Dallas Verbesserungen bei oder in Bezug auf Sprachkodierung
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
CN102129862B (zh) 1996-11-07 2013-05-29 松下电器产业株式会社 降噪装置及包括降噪装置的声音编码装置
US6009395A (en) 1997-01-02 1999-12-28 Texas Instruments Incorporated Synthesizer and method using scaled excitation signal
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US5890126A (en) 1997-03-10 1999-03-30 Euphonics, Incorporated Audio data decompression and interpolation apparatus and method
US6041297A (en) 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
EP0878790A1 (en) 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6889185B1 (en) 1997-08-28 2005-05-03 Texas Instruments Incorporated Quantization of linear prediction coefficients using perceptual weighting
US6029125A (en) 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US6231516B1 (en) * 1997-10-14 2001-05-15 Vacusense, Inc. Endoluminal implant with therapeutic and diagnostic capability
JPH11205166A (ja) 1998-01-19 1999-07-30 Mitsubishi Electric Corp ノイズ検出装置
US6301556B1 (en) * 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
JP4170458B2 (ja) * 1998-08-27 2008-10-22 ローランド株式会社 波形信号の時間軸圧縮伸長装置
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
KR20000047944A (ko) 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
JP4354561B2 (ja) 1999-01-08 2009-10-28 パナソニック株式会社 オーディオ信号符号化装置及び復号化装置
US6223151B1 (en) 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
JP3696091B2 (ja) * 1999-05-14 2005-09-14 松下電器産業株式会社 オーディオ信号の帯域を拡張するための方法及び装置
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US6556950B1 (en) 1999-09-30 2003-04-29 Rockwell Automation Technologies, Inc. Diagnostic method and apparatus for use with enterprise control
US6715125B1 (en) * 1999-10-18 2004-03-30 Agere Systems Inc. Source coding and transmission with time diversity
EP1147514B1 (en) 1999-11-16 2005-04-06 Koninklijke Philips Electronics N.V. Wideband audio transmission system
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US7260523B2 (en) 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
WO2001052241A1 (en) 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
US6704711B2 (en) 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
JP3681105B2 (ja) 2000-02-24 2005-08-10 アルパイン株式会社 データ処理方式
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
US7136810B2 (en) 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
DE60118627T2 (de) 2000-05-22 2007-01-11 Texas Instruments Inc., Dallas Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
JP2002055699A (ja) * 2000-08-10 2002-02-20 Mitsubishi Electric Corp 音声符号化装置および音声符号化方法
CZ20021423A3 (cs) * 2000-08-25 2002-08-14 Koninklijke Philips Electronics N. V. Způsob a zařízení pro sniľování délky slova v digitálním vstupním signálu, a způsob a zařízení pro zpětné získání signálu
US6515889B1 (en) * 2000-08-31 2003-02-04 Micron Technology, Inc. Junction-isolated depletion mode ferroelectric memory
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
US6947888B1 (en) 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
JP3558031B2 (ja) 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
WO2002039430A1 (en) 2000-11-09 2002-05-16 Koninklijke Philips Electronics N.V. Wideband extension of telephone speech for higher perceptual quality
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7392179B2 (en) * 2000-11-30 2008-06-24 Matsushita Electric Industrial Co., Ltd. LPC vector quantization apparatus
GB0031461D0 (en) 2000-12-22 2001-02-07 Thales Defence Ltd Communication sets
US20040204935A1 (en) 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
JP2002268698A (ja) 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
WO2002093561A1 (de) 2001-05-11 2002-11-21 Siemens Aktiengesellschaft Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
WO2003003350A1 (en) * 2001-06-28 2003-01-09 Koninklijke Philips Electronics N.V. Wideband signal transmission system
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
TW525147B (en) 2001-09-28 2003-03-21 Inventec Besta Co Ltd Method of obtaining and decoding basic cycle of voice
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
TW526468B (en) 2001-10-19 2003-04-01 Chunghwa Telecom Co Ltd System and method for eliminating background noise of voice signal
JP4245288B2 (ja) 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置
ATE331280T1 (de) * 2001-11-23 2006-07-15 Koninkl Philips Electronics Nv Bandbreitenvergrösserung für audiosignale
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US6751587B2 (en) * 2002-01-04 2004-06-15 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
JP3826813B2 (ja) 2002-02-18 2006-09-27 ソニー株式会社 ディジタル信号処理装置及びディジタル信号処理方法
AU2003260958A1 (en) 2002-09-19 2004-04-08 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
JP3756864B2 (ja) 2002-09-30 2006-03-15 株式会社東芝 音声合成方法と装置及び音声合成プログラム
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7242763B2 (en) 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
CA2415105A1 (en) 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
KR100480341B1 (ko) 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
RU2316059C2 (ru) 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
FI118550B (fi) * 2003-07-14 2007-12-14 Nokia Corp Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä
US7428490B2 (en) 2003-09-30 2008-09-23 Intel Corporation Method for spectral subtraction in speech enhancement
US7689579B2 (en) * 2003-12-03 2010-03-30 Siemens Aktiengesellschaft Tag modeling within a decision, support, and reporting environment
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4259401B2 (ja) 2004-06-02 2009-04-30 カシオ計算機株式会社 音声処理装置及び音声符号化方法
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
CA2603246C (en) 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
UA95776C2 (ru) 2005-04-01 2011-09-12 Квелкомм Инкорпорейтед Система, способ и устройство генерирования возбуждения в диапазоне высоких частот
SI1875463T1 (sl) 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja

Also Published As

Publication number Publication date
TWI321315B (en) 2010-03-01
US20080126086A1 (en) 2008-05-29
CA2603229C (en) 2012-07-31
BRPI0607691A2 (pt) 2009-09-22
US8260611B2 (en) 2012-09-04
TW200707405A (en) 2007-02-16
KR100982638B1 (ko) 2010-09-15
JP2008536169A (ja) 2008-09-04
AU2006232361B2 (en) 2010-12-23
CA2603219A1 (en) 2006-10-12
WO2006130221A1 (en) 2006-12-07
NO20075515L (no) 2007-12-28
RU2390856C2 (ru) 2010-05-27
US8078474B2 (en) 2011-12-13
TW200703237A (en) 2007-01-16
US8484036B2 (en) 2013-07-09
CN102411935A (zh) 2012-04-11
EP1864281A1 (en) 2007-12-12
EP1869670B1 (en) 2010-10-20
KR100956524B1 (ko) 2010-05-07
DE602006017673D1 (de) 2010-12-02
BRPI0607646A2 (pt) 2009-09-22
KR20070118170A (ko) 2007-12-13
JP5203929B2 (ja) 2013-06-05
RU2007140382A (ru) 2009-05-10
PL1866915T3 (pl) 2011-05-31
KR20070118174A (ko) 2007-12-13
WO2006107838A1 (en) 2006-10-12
JP2008535025A (ja) 2008-08-28
JP2008535026A (ja) 2008-08-28
BRPI0608269B1 (pt) 2019-07-30
WO2006107839A3 (en) 2007-04-05
ATE492016T1 (de) 2011-01-15
KR20070118167A (ko) 2007-12-13
US20060271356A1 (en) 2006-11-30
JP5129116B2 (ja) 2013-01-23
IL186442A (en) 2012-06-28
AU2006232357A1 (en) 2006-10-12
AU2006232362B2 (en) 2009-10-08
NZ562183A (en) 2010-09-30
JP4955649B2 (ja) 2012-06-20
AU2006232363A1 (en) 2006-10-12
EP1866915A2 (en) 2007-12-19
US8332228B2 (en) 2012-12-11
US8069040B2 (en) 2011-11-29
KR20070118173A (ko) 2007-12-13
BRPI0608269B8 (pt) 2019-09-03
SG163555A1 (en) 2010-08-30
IL186438A0 (en) 2008-01-20
CA2603231A1 (en) 2006-10-12
NZ562188A (en) 2010-05-28
HK1115023A1 (en) 2008-11-14
KR101019940B1 (ko) 2011-03-09
US20060277038A1 (en) 2006-12-07
WO2006107839A2 (en) 2006-10-12
BRPI0607646B1 (pt) 2021-05-25
WO2006107833A1 (en) 2006-10-12
KR20070118172A (ko) 2007-12-13
TWI320923B (en) 2010-02-21
SG161223A1 (en) 2010-05-27
CA2603255C (en) 2015-06-23
JP2008537165A (ja) 2008-09-11
IL186436A0 (en) 2008-01-20
AU2006232360B2 (en) 2010-04-29
CA2602806C (en) 2011-05-31
PL1869673T3 (pl) 2011-03-31
EP1869673B1 (en) 2010-09-22
RU2007140394A (ru) 2009-05-10
NO340434B1 (no) 2017-04-24
RU2402826C2 (ru) 2010-10-27
WO2006107836A1 (en) 2006-10-12
WO2006107837A1 (en) 2006-10-12
DE602006017050D1 (de) 2010-11-04
TW200705388A (en) 2007-02-01
CA2602806A1 (en) 2006-10-12
MX2007012182A (es) 2007-12-10
RU2376657C2 (ru) 2009-12-20
NZ562182A (en) 2010-03-26
AU2006232360A1 (en) 2006-10-12
TWI321777B (en) 2010-03-11
AU2006232358A1 (en) 2006-10-12
PT1864101E (pt) 2012-10-09
CN102411935B (zh) 2014-05-07
IL186443A0 (en) 2008-01-20
TWI321314B (en) 2010-03-01
ES2340608T3 (es) 2010-06-07
IL186439A0 (en) 2008-01-20
KR20070119722A (ko) 2007-12-20
KR20070118175A (ko) 2007-12-13
IL186441A0 (en) 2008-01-20
JP2008536170A (ja) 2008-09-04
EP1869670A1 (en) 2007-12-26
IL186442A0 (en) 2008-01-20
US8364494B2 (en) 2013-01-29
TWI316225B (en) 2009-10-21
RU2387025C2 (ru) 2010-04-20
EP1866914B1 (en) 2010-03-03
SG161224A1 (en) 2010-05-27
AU2006232364B2 (en) 2010-11-25
US20070088541A1 (en) 2007-04-19
RU2007140429A (ru) 2009-05-20
BRPI0607690A8 (pt) 2017-07-11
PL1864101T3 (pl) 2012-11-30
NO20075510L (no) 2007-12-28
NO20075512L (no) 2007-12-28
EP1866914A1 (en) 2007-12-19
AU2006252957B2 (en) 2011-01-20
EP1864282B1 (en) 2017-05-17
JP5129117B2 (ja) 2013-01-23
CA2603231C (en) 2012-11-06
TW200705389A (en) 2007-02-01
BRPI0607691B1 (pt) 2019-08-13
TWI324335B (en) 2010-05-01
EP1864282A1 (en) 2007-12-12
TWI319565B (en) 2010-01-11
MX2007012189A (es) 2007-12-11
BRPI0608306A2 (pt) 2009-12-08
NO20075503L (no) 2007-12-28
BRPI0608270A2 (pt) 2009-10-06
MX2007012191A (es) 2007-12-11
IL186405A (en) 2013-07-31
RU2009131435A (ru) 2011-02-27
IL186404A0 (en) 2008-01-20
IL186405A0 (en) 2008-01-20
CA2603187A1 (en) 2006-12-07
NO340566B1 (no) 2017-05-15
US20070088558A1 (en) 2007-04-19
KR100956624B1 (ko) 2010-05-11
HK1114901A1 (en) 2008-11-14
JP5203930B2 (ja) 2013-06-05
US20060282263A1 (en) 2006-12-14
HK1115024A1 (en) 2008-11-14
MX2007012185A (es) 2007-12-11
JP5129118B2 (ja) 2013-01-23
BRPI0607690A2 (pt) 2009-09-22
US8244526B2 (en) 2012-08-14
TWI330828B (en) 2010-09-21
MX2007012184A (es) 2007-12-11
AU2006232361A1 (en) 2006-10-12
EP1864283A1 (en) 2007-12-12
RU2386179C2 (ru) 2010-04-10
RU2491659C2 (ru) 2013-08-27
EP1869673A1 (en) 2007-12-26
BRPI0608305A2 (pt) 2009-10-06
NZ562185A (en) 2010-06-25
MX2007012187A (es) 2007-12-11
HK1113848A1 (en) 2008-10-17
EP1864283B1 (en) 2013-02-13
DK1864282T3 (en) 2017-08-21
MX2007012183A (es) 2007-12-11
PT1864282T (pt) 2017-08-10
NO340428B1 (no) 2017-04-18
AU2006232363B2 (en) 2011-01-27
IL186443A (en) 2012-09-24
CA2603229A1 (en) 2006-10-12
KR20070118168A (ko) 2007-12-13
TW200703240A (en) 2007-01-16
DE602006018884D1 (de) 2011-01-27
ATE459958T1 (de) 2010-03-15
BRPI0608305B1 (pt) 2019-08-06
US8140324B2 (en) 2012-03-20
MX2007012181A (es) 2007-12-11
NZ562186A (en) 2010-03-26
AU2006232362A1 (en) 2006-10-12
RU2413191C2 (ru) 2011-02-27
CA2603255A1 (en) 2006-10-12
BRPI0608269A2 (pt) 2009-12-08
RU2402827C2 (ru) 2010-10-27
IL186404A (en) 2011-04-28
NO20075511L (no) 2007-12-27
CA2602804C (en) 2013-12-24
JP2008537606A (ja) 2008-09-18
BRPI0609530A2 (pt) 2010-04-13
AU2006232357B2 (en) 2010-07-01
SI1864282T1 (sl) 2017-09-29
RU2381572C2 (ru) 2010-02-10
RU2007140426A (ru) 2009-05-10
ATE482449T1 (de) 2010-10-15
CA2603187C (en) 2012-05-08
KR100956876B1 (ko) 2010-05-11
AU2006252957A1 (en) 2006-12-07
EP1866915B1 (en) 2010-12-15
US20060277042A1 (en) 2006-12-07
KR100956525B1 (ko) 2010-05-07
NZ562190A (en) 2010-06-25
DE602006012637D1 (de) 2010-04-15
ATE485582T1 (de) 2010-11-15
RU2007140406A (ru) 2009-05-10
EP1864101A1 (en) 2007-12-12
TW200705390A (en) 2007-02-01
NO20075513L (no) 2007-12-28
JP5161069B2 (ja) 2013-03-13
ES2636443T3 (es) 2017-10-05
BRPI0609530B1 (pt) 2019-10-29
RU2007140365A (ru) 2009-05-10
CA2603246A1 (en) 2006-10-12
SG163556A1 (en) 2010-08-30
HK1169509A1 (en) 2013-01-25
DK1864101T3 (da) 2012-10-08
IL186438A (en) 2011-09-27
CA2603219C (en) 2011-10-11
KR100956523B1 (ko) 2010-05-07
CA2603246C (en) 2012-07-17
JP2008535027A (ja) 2008-08-28
EP1864101B1 (en) 2012-08-08
PL1864282T3 (pl) 2017-10-31
TW200707408A (en) 2007-02-16
CA2602804A1 (en) 2006-10-12
JP2008535024A (ja) 2008-08-28
AU2006232364A1 (en) 2006-10-12
WO2006107834A1 (en) 2006-10-12
KR100956877B1 (ko) 2010-05-11
RU2007140381A (ru) 2009-05-10
WO2006107840A1 (en) 2006-10-12
US20070088542A1 (en) 2007-04-19
TW200705387A (en) 2007-02-01
AU2006232357C1 (en) 2010-11-25
AU2006232358B2 (en) 2010-11-25
RU2007140383A (ru) 2009-05-10
NO20075514L (no) 2007-12-28
JP5129115B2 (ja) 2013-01-23

Similar Documents

Publication Publication Date Title
ES2391292T3 (es) Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta
ES2350494T3 (es) Procedimiento y aparatos para codificar y decodificar una parte de banda alta de una señal de habla.
ES2705589T3 (es) Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
KR101058760B1 (ko) 스피치 신호와 연관된 패킷에 식별자를 포함시키는 시스템 및 방법