ES2281854T3 - Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable. - Google Patents

Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable. Download PDF

Info

Publication number
ES2281854T3
ES2281854T3 ES05001938T ES05001938T ES2281854T3 ES 2281854 T3 ES2281854 T3 ES 2281854T3 ES 05001938 T ES05001938 T ES 05001938T ES 05001938 T ES05001938 T ES 05001938T ES 2281854 T3 ES2281854 T3 ES 2281854T3
Authority
ES
Spain
Prior art keywords
subband
speed
threshold
values
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES05001938T
Other languages
English (en)
Inventor
Andrew P. Dejaco
William R. Garnder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23106989&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2281854(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2281854T3 publication Critical patent/ES2281854T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Dc Digital Transmission (AREA)

Abstract

Un aparato para determinar una velocidad de codificación para un vocodificador de velocidad variable que comprende: medios de cálculo de energía de subbanda (4, 6) para recibir una señal de entrada (S(n)) y determinar una pluralidad de valores de energía de subbanda según un formato de cálculo de energía de subbanda predeterminado; medios de cálculo de umbral (8, 10) para determinar una estimación de energía de señal y una estimación de ruido de fondo, y para determinar una pluralidad de valores umbral de velocidad de codificación en cada subbanda, basándose cada valor umbral de velocidad de codificación en una relación de dicha estimación de energía de señal con respecto a dicha estimación de ruido de fondo; y medios de determinación de velocidad (12, 14, 16) para recibir dicha pluralidad de valores de energía de subbanda y dicha pluralidad de valores umbral de velocidad de codificación, y para determinar dicha velocidad de codificación para dicha señal de entrada (S(n)) con dicha pluralidad de valores de energía de subbanda y dicha pluralidad de valores umbral de velocidad de codificación.

Description

Procedimiento y aparato para seleccionar una velocidad de codificación en un vocodificador de velocidad variable.
Antecedentes de la invención I. Campo de la invención
La presente invención se refiere a los vocodificadores. Más particularmente, la presente invención se refiere a un procedimiento nuevo y mejorado para determinar la velocidad de codificación de la voz en un vocodificador de velocidad variable.
II. Descripción de la técnica relacionada
Los sistemas de compresión de voz de velocidad variable suelen utilizar alguna forma de algoritmo de determinación de velocidad antes de que empiece la codificación. El algoritmo de determinación de velocidad asigna un esquema de codificación de velocidad de transferencia de bits más alta a los segmentos de la señal de audio en los que está presente la voz y un sistema de codificación de velocidad mas baja a los segmentos de silencio. De esta forma, se obtiene una velocidad de transferencia de bits media inferior, mientras que la calidad de la voz reconstruida sigue siendo alta. Por lo tanto, para operar con eficacia un codificador de voz de velocidad variable se requiere un algoritmo de determinación de velocidad sólido que pueda diferenciar entre voz y silencio en una diversidad de entornos de ruido de fondo.
Uno de dichos sistemas de compresión de voz de velocidad variable o vocodificadores de velocidad variable se da a conocer en el documento WO-A1-92/22891 transferido al cesionario de la presente invención. En esta ejecución particular de vocodificador de velocidad variable, la voz de entrada se codifica utilizando técnicas de predicción lineal con excitación por código (CELP) a una de las diversas velocidades determinada por el nivel de actividad oral. El nivel de actividad oral se determina a partir de la energía de las muestras de audio de entrada, que pueden contener ruido de fondo además de voz. Para que el vocodificador proporcione codificación de voz de alta calidad con niveles variables de ruido de fondo, es necesario emplear una técnica de ajuste de umbral de manera adaptativa para compensar el efecto del ruido de fondo sobre el algoritmo de decisión de velocidad.
Los vocodificadores se suelen utilizar en dispositivos de comunicación tales como teléfonos celulares o dispositivos de comunicación personal para proporcionar la compresión digital de señal de una señal de audio analógica que se convierte a forma digital para la transmisión. En un entorno móvil en el que puede utilizarse un teléfono celular o un dispositivo de comunicación personal, los niveles altos de energía de ruido de fondo dificultan la diferenciación mediante el el algoritmo de determinación de velocidad entre los sonidos sordos de baja energía y el silencio con ruido de fondo, utilizando un algoritmo de determinación de velocidad basado en la energía de la señal. Por lo tanto, los sonidos sordos a menudo se codifican a velocidades de transferencia de bits inferiores y se degrada la calidad de la voz, ya que las consonantes como "s", "x", "ch", "sh", "t", etc. se pierden en la voz reconstruida.
Los vocodificadores que basan sus decisiones de velocidad únicamente en la energía del ruido de fondo fracasan en tener en cuenta la intensidad de la señal en relación con el ruido de fondo al establecer los valores umbral. Un vocodificador que basa sus niveles umbral únicamente en el ruido de fondo tiende a comprimir entre sí los niveles umbral cuando el ruido de fondo aumenta. Si se desea que el nivel de la señal se mantenga fijo, ésta es la forma correcta de establecer los niveles umbral; sin embargo, si se desea que el nivel de la señal aumente con el nivel de ruido de fondo, entonces la compresión de los niveles umbral no es una solución óptima. Se necesita un procedimiento alternativo para establecer niveles umbral que tenga en cuenta la intensidad de la señal en los vocodificadores de velocidad variable.
Un problema final que continúa surge durante la reproducción de música mediante vocodificadores de decisión de velocidad basada en la energía de ruido de fondo. Cuando la gente habla, deben efectuar pausas para respirar, lo que permite que los niveles umbral se restablezcan en el nivel de ruido de fondo adecuado. Sin embargo, en la transmisión de música a través de un vocodificador, como surge en condiciones de música en espera, no se producen pausas y los niveles umbral continúan aumentando hasta que la música empieza a codificarse a una velocidad inferior a la velocidad completa. En tal condición, el codificador de velocidad variable ha confundido música con ruido de fondo.
Merece atención el artículo de Paksoy et al "Variable Rate Speech Coding with Phonectic Segmentation", ICASSP 1993, páginas II-155-158. El artículo da a conocer un filtro de eliminación de ruido adaptativo utilizado para distinguir entre ruido y voz. Cada trama de la señal de entrada se pasa a través del filtro y la potencia en la salida del filtro se compara con un umbral adaptativo para detectar la presencia de voz. La capacidad de detección de actividad de voz en identificar voz en un entorno de SNR baja se fortalece introduciendo un esquema de umbral adaptativo diferente, en el que se realizan las comparaciones de nivel de energía en subbandas de frecuencia individuales. Un criterio de energía dependiente de la banda utiliza cuatro subbandas de frecuencia con el fin de detección de voz. Se obtiene un umbral adaptativo para cada una de estas cuatro bandas basado en la energía de bandas correspondientes de ruido estacionario. La energía de la señal de entrada para cada una de estas cuatro bandas se calcula y si cualquiera de éstas sobrepasa el umbral adaptativo correspondiente, entonces se indica sonido.
Sumario de la invención
Según la presente invención se proporcionan un aparato para determinar una velocidad de codificación, tal como se establece en la reivindicación 1, y un procedimiento para determinar una velocidad de codificación, tal como se establece en la reivindicación 17. Las realizaciones de la presente invención se reivindican en las reivindicaciones dependientes.
La presente invención es un procedimiento y aparato nuevos y mejorados para determinar una velocidad de codificación en un vocodificador de velocidad variable. Un primer objetivo de la presente invención es proporcionar un procedimiento mediante el cual reducir la probabilidad de codificar sonidos sordos de baja energía como ruido con fondo. En la presente invención, la señal de entrada se filtra para dar una componente de alta frecuencia y una componente de baja frecuencia. Las componentes filtradas de la señal de entrada se analizan a continuación por separado para detectar la presencia de voz. Debido a que los sonidos sordos tienen una componente de alta frecuencia su intensidad relativa a una banda de frecuencia alta se distingue más del ruido de fondo en esa banda que cuando se compara con el ruido de fondo sobre toda la banda de frecuencias.
Un segundo objetivo de la presente invención de la presente invención es proporcionar medios para establecer los niveles umbral que tengan en cuenta la energía de la señal así como la energía del ruido de fondo. En la presente invención, el establecimiento de umbrales de detección de voz se basa en una estimación de la relación señal-ruido (SNR) de la señal de entrada. En la realización ejemplar, la energía de la señal se estima como la energía máxima de la señal durante periodos de actividad oral y la energía de ruido de fondo se estima como la energía mínima de la señal durante periodos de silencio.
Un tercer objetivo de la presente invención es proporcionar un procedimiento para codificar música que pasa a través de un vocodificador de velocidad variable. En la realización ejemplar, el aparato de selección de velocidad detecta un grupo de tramas consecutivas durante las cuales los niveles umbral han aumentado y comprueba la periodicidad relativa a dicho grupo de tramas. Si la señal de entrada es periódica indicaría la presencia de música. Si se detecta la presencia de música, entonces se establecen los umbrales a niveles tales que la señal se codifica a velocidad completa.
Breve descripción de los dibujos
Las características, los objetivos y las ventajas de la presente invención resultarán más evidentes a partir de la descripción detallada expuesta a continuación cuando se toman junto con los dibujos, en los que se emplean en toda la memoria los mismos números de referencia para las partes equivalentes, y en los que:
la figura 1 es un diagrama de bloques de la presente invención.
Descripción detallada de las realizaciones preferidas
En relación con la figura 1, la señal de entrada, S (n), se proporciona al elemento de cálculo de energía de subbanda 4 y al elemento de cálculo de energía de subbanda 6. La señal de entrada S (n) se compone de una señal de audio y ruido de fondo. La señal de audio suele ser voz, pero también puede tratarse de música. En la realización ejemplar, S (n) se proporciona en tramas de veinte milisegundos de 160 muestras cada una. En la realización ejemplar, la señal de entrada S (n) tiene componentes de frecuencia entre 0 kHz y 4 kHz, que es aproximadamente el ancho de banda de una señal de voz humana.
En la realización ejemplar, la señal de entrada de 4 kHz, S (n), se filtra para obtener dos subbandas separadas. Las dos subbandas separadas se hallan entre 0 y 2 kHz y 2 kHz y 4kHz, respectivamente. En una realización ejemplar, la señal de entrada puede dividirse en subbandas mediante filtros de subbandas, cuyo diseño se conoce ampliamente en la técnica y se detalla en la patente US-A-5.644.596, transferida al cesionario de la presente invención.
Las respuestas impulsivas de los filtros de subbandas se indican por h_{L}(n) para el filtro paso bajo, y h_{H}(n) para el filtro paso alto. La energía de las componentes de subbandas resultantes de la señal pueden calcularse para obtener los valores R_{L}(0) Y R_{H}(0) simplemente sumando los cuadrados de las muestras de salida del filtro, de una forma ampliamente conocida en la técnica.
En una realización preferida, cuando la señal de entrada S(n) se proporciona al elemento de cálculo de energía de subbanda 4, el valor de energía de la componente de baja frecuencia de la trama de entrada, R_{L}(0) se calcula
como:
1
donde L es el número de tomas en un filtro paso bajo con respuesta de impulso h_{L}(n),
\newpage
donde R_{S}(i) es la función de autocorrelación de la señal de entrada, S(n), dada por la ecuación:
2
donde N es el número de muestras de la trama,
y donde R_{hL} es la función de autocorrelación del filtro paso bajo h_{L}(n) dada por:
3
La energía de alta frecuencia, R_{H}(0), se calcula de forma similar en el elemento de cálculo de energía de subbanda 6.
Los valores de la función de autocorrelación de los filtros subbanda pueden calcularse por adelantado para reducir la cantidad de cálculos. Además, algunos de los valores calculados de R_{S}(i) se utilizan en otros cálculos en la codificación de la señal de entrada, S(n), que reduce adicionalmente la carga de cálculo neta del procedimiento de selección de velocidad de codificación de la presente invención. Por ejemplo, la obtención de los valores de tomas del filtro LPC requiere el cálculo de un grupo de coeficientes de autocorrelación de la señal de entrada.
El cálculo de los valores de tomas del filtro LPC se conoce ampliamente en la técnica y se detalla en el documento WO-A1-92/22891. Si va a codificarse la voz con un procedimiento que requiere un filtro LPC de diez tomas sólo necesitan calcularse los valores de R_{S}(i) para valores de i desde 11 a L-1, además de aquellos que se utilizan en la codificación de la señal, porque en el cálculo de los valores de tomas del filtro LPC se utiliza R_{S}(i) para valores de i desde 0 a 10. En la realización ejemplar, los filtros subbanda tienen 17 tomas, L=17.
El elemento de cálculo de energía de subbanda 4 proporciona el valor calculado de R_{L}(0) al elemento de decisión de velocidad de subbanda 12, y el elemento de cálculo de energía de subbanda 6 proporciona el valor calculado de R_{H}(0) al elemento de decisión de velocidad de subbanda 14. El elemento de decisión de velocidad 12 compara el valor de R_{L}(0) con dos valores umbral predeterminados T_{L1/2} y T_{Lfull} y asigna una velocidad de codificación recomendada, RATE_{L} según la comparación. La asignación de velocidad se lleva a cabo de la siguiente forma:
RATE_{L}=octavo de velocidad R_{L}(0)\leq T_{L1/2} (4)
RATE_{L}=media velocidad T_{L1/2}<R_{L}(0) \leq T_{Lfull} (5)
RATE_{L}=velocidad completa R_{L}(0)> T_{Lfull} (6)
El elemento de decisión de velocidad de subbanda 14 opera de forma similar y selecciona una velocidad de codificación recomendada, RATE_{H}, según el valor de energía de alta frecuencia R_{H}(0) y basándose en un grupo diferente de valores umbral T_{H1/2} y T_{Lfull}. El elemento de decisión de velocidad de subbanda 12 proporciona su velocidad de codificación recomendada, RATE_{L}, al elemento de selección de velocidad de codificación 16, y el elemento de decisión de velocidad de subbanda 14 proporciona su velocidad de codificación recomendada, RATE_{H}, al elemento de selección de velocidad de codificación 16. En la realización ejemplar el elemento de selección de velocidad de codificación 16 selecciona la más alta de las dos velocidades recomendadas y proporciona la velocidad más alta como la VELOCIDAD DE CODIFICACIÓN seleccionada.
El elemento de cálculo de energía de subbanda 4 también proporciona el valor de energía de baja frecuencia, R_{L}(0), al elemento de adaptación de umbral 8, donde se calculan los valores umbral T_{L1/2} y T_{Lfull} para la siguiente trama de entrada. De modo similar, el elemento de cálculo de energía de subbanda 6 proporciona el valor de energía de alta frecuencia, R_{H}(0), al elemento de adaptación de umbral 10, donde se calculan los valores umbral T_{H1/2} y T_{Lfull} de la siguiente trama de entrada.
El elemento de adaptación de umbral 8 recibe el valor de energía de baja frecuencia, R_{L}(0), y determina si S(n) contiene ruido de fondo o señal de audio. En un ejemplo de ejecución, el procedimiento mediante el cual el elemento de adaptación de umbral 8 determina si está presente una señal de audio examinando la función de autocorrelación normalizada NACF, que viene dada por la ecuación siguiente:
4
donde e(n) es la señal residual formante obtenida tras el filtrado de la señal de entrada, S(n), mediante un filtro PLC.
El diseño y la filtración de una señal mediante un filtro LPC son ampliamente conocidos en la técnica y se detallan en el documento WO-A1-92/22891 mencionado anteriormente. La señal de entrada, S(n), se filtra mediante el filtro LPC para eliminar la interacción de los formantes. La función NACF se compara con un valor umbral para determinar si está presente una señal de audio. Si la función NACF es superior a un valor umbral predeterminado, indica que la trama de entrada tiene una característica periódica indicativa de la presencia de una señal de audio tal como voz o música. Obsérvese que aunque las partes de voz y música no son periódicas y presentarán valores bajos de la función NACF, el ruido de fondo normalmente nunca muestra ninguna periodicidad y casi siempre presenta valores bajos de la función NACF.
Si se determina que S(n) contiene ruido de fondo, el valor de la función NACF es inferior a un valor umbral TH1, entonces se utiliza el valor R_{L}(0) para actualizar el valor de la estimación de ruido de fondo actual BGN_{L}. En la realización a modo de ejemplo, TH1 es 0,35. R_{L}(0) se compara con el valor actual de la estimación de ruido de fondo BGN_{L}. Si R_{L}(0) es inferior que BGN_{L}, entonces la estimación de ruido de fondo BGN_{L} se establece igual a R_{L}(0) independientemente del valor de la función NACF.
La estimación de ruido de fondo BGN_{L} sólo se aumenta cuando la función NACF es inferior al valor umbral TH1. Si R_{L}(0) es superior a BGN_{L}, y la función NACF es inferior a TH1, entonces la energía de ruido de fondo BGN_{L} se establece en \alpha_{1}\cdotBGN_{L}, siendo \alpha_{1} un número superior a 1. En la realización ejemplar, \alpha_{1} es igual a 1,03. BGN_{L} continuará aumentando mientras la función NACF sea inferior al valor umbral TH1 y R_{L}(0) sea superior al valor actual de BGN_{L}, hasta que BGN_{L} llegue a un valor máximo predeterminado BGN_{max}, momento en el que la estimación de ruido de fondo se establece en BGN_{max}.
Si se detecta una señal de audio, expresado por el valor de la función NACF que sobrepasa un segundo valor umbral TH2, entonces la estimación de la energía de señal, S_{L}, se actualiza. En la realización ejemplar, TH2 se establece en 0,5. El valor de R_{L}(0) se compara con una estimación actual de la energía de señal de paso bajo, S_{L}. Si R_{L}(0) es superior al valor actual de S_{L}, entonces S_{L} se establece en R_{L}(0). Si R_{L}(0) es inferior al valor actual de S_{L}, entonces S_{L} se establece en \alpha_{2}\cdotS_{L}, de nuevo sólo si la función NACF es superior a TH2. En la realización ejemplo, \alpha_{2} se establece en 0,96.
A continuación el elemento de adaptación de umbral 8 calcula una estimación de la relación señal-ruido según la ecuación 8 siguiente:
5
A continuación el elemento de adaptación de umbral 8 determina un índice de la relación señal-ruido cuantificada _{ISNRL}, según las ecuaciones 9 a 12 siguientes:
6
donde nint es una función que redondea el valor fraccional al entero más cercano.
A continuación el elemento de adaptación de umbral 8 selecciona o calcula dos factores de escala, k_{L1/2} y k_{Lfull}, según el índice de la relación señal-ruido, I_{SNRL}. Se proporciona en la tabla 1 siguiente una de tabla de consulta ejemplar de valores de escala:
TABLA 1
7
\vskip1.000000\baselineskip
Estos dos valores se utilizan para calcular los valores umbral para la selección de velocidad según las ecuaciones siguientes:
8
\vskip1.000000\baselineskip
donde T_{L1/2} es el valor umbral de media velocidad de baja frecuencia y T_{Lfull} es el valor umbral de velocidad completa de baja frecuencia.
El elemento de adaptación de umbral 8 proporciona los valores umbral adaptados T_{L1/2} y T_{Lfull} al elemento de decisión de velocidad 12. El elemento de adaptación de umbral 10 opera de forma similar y proporciona los valores umbral T_{H1/2} y T_{Hfull} al elemento de decisión de velocidad de subbanda 14.
El valor inicial de la estimación de la energía de señal de audio S, donde S puede ser S_{L} o S_{H}, se establece según sigue. La estimación de energía de señal inicial, S_{INIT}, se establece en -18,0 dBm0, donde 3,17dBm0 denota la intensidad de la señal de una onda sinusoidal completa que, en la realización ejemplar, es una onda sinusoidal digital con un rango de amplitudes entre -8031 y 8031. S_{INIT} se utiliza hasta que se determina que está presente una señal acústica.
El procedimiento mediante el que se detecta inicialmente una señal acústica es comparar el valor de la función NACF con un umbral, cuando la función NACF sobrepasa el umbral durante un número predeterminado de tramas consecutivas, entonces se determina si está presente una señal acústica. En la realización ejemplar, la función NACF debe sobrepasar el umbral durante diez tramas consecutivas. Una vez que se cumple esta condición, la estimación de la energía de la señal, S, se establece en la energía máxima de señal en las diez tramas precedentes.
El valor inicial de la estimación de ruido de fondo BGN_{L} se establece inicialmente en BGN_{max}. Tan pronto como se recibe una energía de trama de subbanda que es inferior a BGN_{max}, la estimación de ruido de fondo se restablece en el valor del nivel de energía de subbanda recibido, y se procede a la generación de la estimación de ruido de fondo BGN_{L} de la forma descrita anteriormente.
En una realización preferida, se acciona una condición de bloqueo cuando se detecta una trama de una velocidad baja que sigue a una serie de tramas de voz de velocidad completa. En la realización ejemplar, cuando se codifican a velocidad completa cuatro tramas de voz consecutivas seguidas de una trama en la que la VELOCIDAD DE CODIFICACIÓN se establece en una velocidad inferior a la velocidad completa y las relaciones señal-ruido calculadas son inferiores a una SNR mínima predeterminada, la VELOCIDAD DE CODIFICACIÓN para esa trama se establece en la velocidad completa. En la realización ejemplar la SNR mínima predeterminada es 27,5 dB como se define en la ecuación 8.
En una realización preferida, el número de tramas del periodo de bloqueo es una función de la relación señal-ruido. En la realización ejemplar, el número de tramas del periodo de bloqueo se determina según sigue:
\newpage
número de tramas de periodo de bloqueo=1 22, 5<SNR<27,5 (13)
número de tramas de periodo de bloqueo=2 SNR\leq22,5 (14)
número de tramas de periodo de bloqueo=0 SNR\geq27,5 (15)
La presente invención también proporciona un procedimiento con el que detectar la presencia de música, que como se ha descrito anteriormente carece de las pausas que permiten restablecer las medidas de ruido de fondo. El procedimiento para detectar la presencia de música presupone que música no está presente la música al principio de la llamada. Esto permite al aparato de selección de velocidad de codificación de la presente invención estimar correctamente la energía de ruido de fondo inicial, BGN_{INIT}. Debido a que la música, a diferencia del ruido de fondo, tiene una característica periódica, la presente invención examina el valor de la función NACF para diferenciar la música del ruido de fondo. El procedimiento de detección de música de la presente invención calcula una función NACF media según la ecuación siguiente:
100
donde NACF se define en la ecuación 7, y
donde T es el número de tramas consecutivas en las que el valor estimado del ruido de fondo ha ido aumentando a partir de la estimación de ruido de fondo inicial BGN_{INIT}.
Si el ruido de fondo BGN ha ido aumentando durante el número de tramas T predeterminadas y la función NACF_{AVE} sobrepasa un umbral predeterminado, entonces se detecta música y el ruido de fondo BGN se restablece en BGN_{init}. Debe observarse que, para ser eficaz, el valor T debe establecerse suficientemente bajo para que la velocidad de codificación no descienda por debajo de la velocidad completa. Por lo tanto, el valor de T debe establecerse como una función de la señal acústica y de BGN_{init}.
La descripción anterior de las realizaciones preferidas se proporciona para permitir que cualquier experto en la técnica pueda crear o utilizar la presente invención. Las diversas modificaciones de estas realizaciones resultarán evidentes fácilmente para los expertos en la técnica, y los principios genéricos definidos en el presente documento pueden aplicarse a otras realizaciones sin el uso de la actividad inventiva. Por lo tanto, la presente invención no está prevista para limitarse a las realizaciones mostradas en el presente documento, sino que debe de estar de acuerdo con el alcance de las reivindicaciones adjuntas.

Claims (28)

1. Un aparato para determinar una velocidad de codificación para un vocodificador de velocidad variable que comprende:
medios de cálculo de energía de subbanda (4, 6) para recibir una señal de entrada (S(n)) y determinar una pluralidad de valores de energía de subbanda según un formato de cálculo de energía de subbanda predeterminado;
medios de cálculo de umbral (8, 10) para determinar una estimación de energía de señal y una estimación de ruido de fondo, y para determinar una pluralidad de valores umbral de velocidad de codificación en cada subbanda, basándose cada valor umbral de velocidad de codificación en una relación de dicha estimación de energía de señal con respecto a dicha estimación de ruido de fondo; y
medios de determinación de velocidad (12, 14, 16) para recibir dicha pluralidad de valores de energía de subbanda y dicha pluralidad de valores umbral de velocidad de codificación, y para determinar dicha velocidad de codificación para dicha señal de entrada (S(n)) con dicha pluralidad de valores de energía de subbanda y dicha pluralidad de valores umbral de velocidad de codificación.
2. Aparato según la reivindicación 1, en el que dichos medios (4, 6) de cálculo de energía de subbanda están adaptados para determinar cada una de dicha pluralidad de valores de energía de subbanda según la ecuación:
9
donde L es el número de tomas en un filtro pasa bandas hbp (n), donde R_{S}(i) es la función de autocorrelación de la señal de entrada, S(n), y donde R_{hbp} es la función de autocorrelación del filtro pasa bandas hbp (n).
3. Aparato según la reivindicación 1, en el que dichos medios de cálculo de umbral (8, 10) están adaptados para determinar un valor de escala según dicho valor de relación señal-ruido.
4. Aparato según la reivindicación 3, en el que los medios (8, 10) de cálculo de umbral están adaptados para determinar al menos un valor umbral multiplicando una estimación de ruido de fondo por dicho valor de escala.
5. Aparato según la reivindicación 1, en el que dichos medios de determinación de velocidad están adaptados para comparar al menos uno de dicha pluralidad de valores de energía de subbanda con al menos un valor umbral para determinar dicha velocidad de codificación.
6. Aparato según la reivindicación 4, en el que dichos medios de determinación de velocidad están adaptados para comparar al menos uno de dicha pluralidad de valores de energía de subbanda con dicho al menos un valor umbral para determinar dicha velocidad de codificación.
7. Aparato según la reivindicación 1, en el que dichos medios de determinación de velocidad (12, 14, 16) están adaptados para determinar a una pluralidad de velocidades de codificación recomendadas en el que cada velocidad de codificación recomendada corresponde a cada uno de entre dicha pluralidad de valores de energía de subbanda, y en el que dichos medios de determinación de velocidad están adaptados para determinar dicha velocidad de codificación según dicha pluralidad de velocidades de codificación recomendadas.
8. Aparato según la reivindicación 1, en el que dichos medios de cálculo de energía de subbanda (4, 6) comprenden un calculador de energía de subbanda, y en el que dichos medios de determinación de velocidad (12, 14, 16) comprenden un selector de velocidad que está adaptado para recibir dicha pluralidad de valores de energía de subbanda y para seleccionar dicha velocidad de codificación según dicha pluralidad de valores de energía de subbanda.
9. Aparato según la reivindicación 8, en el que dicho calculador de energía de subbanda está adaptado para determinar cada uno de entre dicha pluralidad de valores de energía de subbanda según la ecuación:
10
donde L es el número de tomas en un filtro pasa bandas hbp (n), donde R_{S}(i) es la función de autocorrelación de la señal de entrada, S(n), y donde R_{hbp} es la función de autocorrelación del filtro pasa bandas hbp (n).
10. Aparato según la reivindicación 8, que comprende además un calculador de umbral dispuesto entre dicho calculador de energía de subbanda y dicho selector de velocidad, estando adaptado dicho calculador de umbral para recibir dichos valores de energía de subbanda y determinar una serie de valores umbral de velocidad de codificación según la pluralidad de valores de energía de subbanda.
11. Aparato según la reivindicación 10, en el que dicho calculador de umbral está adaptado para determinar un valor de relación señal-ruido según dicha pluralidad de valores de energía de subbanda.
12. Aparato según la reivindicación 11, en el que dicho calculador de umbral está adaptado para determinar un valor de escala según dicho valor de relación señal-ruido.
13. Aparato según la reivindicación 12, en el que el calculador de umbral está adaptado para determinar al menos un valor umbral multiplicando una estimación de ruido de fondo por dicho valor de escala.
14. Aparato según la reivindicación 8, en el que dicho selector de velocidad está adaptado para comparar al menos uno de dicha pluralidad de valores de energía de subbanda con al menos un valor umbral para determinar dicha velocidad de codificación.
15. Aparato según la reivindicación 13, en el que dicho selector de está adaptado para comparar al menos uno de dicha pluralidad de valores de energía de subbanda con dicho al menos un valor umbral para determinar dicha velocidad de codificación.
16. Aparato según la reivindicación 8, en el que dicho selector de velocidad está adaptado para determinar una pluralidad de velocidades de codificación recomendadas, en el que dicha velocidad de codificación recomendada corresponde a cada uno de entre dicha pluralidad de valores de energía de subbanda, y en el que dicho selector de velocidad está adaptado para determinar dicha velocidad de codificación según dicha pluralidad de velocidades de codificación recomendadas
17. Un procedimiento para determinar una velocidad de codificación para un vocodificador de velocidad variable que comprende las etapas de:
recibir una señal de entrada (S(n));
determinar una pluralidad de valores de energía de subbanda según un formato de cálculo de energía de subbanda predeterminado;
determinar un valor de relación señal-ruido basado en una relación de una estimación de energía de señal respecto a una estimación de ruido de fondo;
determinar una pluralidad de valores umbral de velocidad de codificación en cada subbanda basado en dicho valor de relación señal-ruido; y
determinar dicha velocidad de codificación para dicha señal de entrada (S(n)) según dicha pluralidad de valores de energía de subbanda y dicha pluralidad de valores umbral de velocidad de codificación.
18. Procedimiento según la reivindicación 17, el que dicha etapa de determinar una pluralidad de valores de energía de subbanda se realiza según la ecuación:
\vskip1.000000\baselineskip
11
\vskip1.000000\baselineskip
donde L es el número de tomas en un filtro pasa bandas hbp (n), donde R_{S}(i) es la función de autocorrelación de la señal de entrada, S(n), y donde R_{hbp} es la función de autocorrelación del filtro pasa bandas hbp (n).
19. Procedimiento según la reivindicación 17, en el que dicha etapa de determinar una serie de valores umbral de velocidad de codificación determina un valor de escala según dicho valor de relación señal-ruido.
20. Procedimiento según la reivindicación 19, en el que dicha etapa de determinar una serie de valores umbral de velocidad de codificación determina dicho valor umbral de velocidad multiplicando una estimación de ruido de fondo por dicho valor de escala.
21. Procedimiento según la reivindicación 17, en el que dicha determinación de dicha velocidad de codificación compara al menos uno de dicha pluralidad de valores de energía de subbanda con al menos un valor umbral para determinar dicha velocidad de codificación.
22. Procedimiento según la reivindicación 20, en el que dicha etapa de dicha determinación de dicha velocidad de codificación compara al menos uno de dicha pluralidad de valores de energía de subbanda con dicho al menos un valor umbral para determinar dicha velocidad de codificación.
23. Procedimiento según la reivindicación 17, que comprende además la etapa de generar una velocidad de codificación recomendada según cada uno de entre dicha pluralidad de valores de energía de subbanda, y en el que dicha etapa de determinar una velocidad de codificación selecciona una de dichas velocidades de codificación recomendadas.
24. Aparato según la reivindicación 1, en el que dichos medios de cálculo de energía de subbanda comprenden un subsistema de filtro de subbanda para determinar una energía de señal para cada subbanda de frecuencia de la señal de entrada; y en el que dichos medios de determinación de velocidad comprenden un subsistema de selección de velocidad para seleccionar la velocidad de codificación de la señal de entrada basada en las energías de señal de cada subbanda de frecuencia de la señal de entrada (S(n)).
25. Aparato según la reivindicación 24, en el que el subsistema de filtro de subbanda comprende una pluralidad de elementos de cálculo de energía de subbanda (4, 6), y cada uno de entre la pluralidad de elementos de cálculo de energía de subbanda está adaptado para determinar una energía de señal de subbanda de frecuencia.
26. Aparato según la reivindicación 25, en el que el subsistema de selección de velocidad comprende una pluralidad de elementos de adaptación de umbral (8, 10), y cada uno de entre la pluralidad de elementos de adaptación de umbral está adaptado para utilizar la energía de señal de subbanda de frecuencia a partir de un elemento de cálculo de energía de subbanda correspondiente (4, 6) adaptado para determinar si está presente una señal de audio en la subbanda de frecuencia.
27. Aparato según la reivindicación 26, en el que cada elemento de adaptación de umbral (8, 10) está configurado para determinar un valor umbral basado en la energía de señal y una estimación de ruido de la subbanda de frecuencia correspondiente, en el que el valor umbral se utiliza para determinar si la señal de audio está presente en la subbanda de frecuencia.
28. Aparato según la reivindicación 26, en el que la pluralidad de elementos de adaptación de umbral (8, 10) están configurados para determinar un valor umbral basado en las energías de señal combinadas para cada una de entre las subbandas de frecuencia de la señal de entrada (S(n)), en el que el valor umbral se utiliza para determinar si la señal de audio está presente en la subbanda de frecuencia.
ES05001938T 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable. Expired - Lifetime ES2281854T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US288413 1994-08-10
US08/288,413 US5742734A (en) 1994-08-10 1994-08-10 Encoding rate selection in a variable rate vocoder

Publications (1)

Publication Number Publication Date
ES2281854T3 true ES2281854T3 (es) 2007-10-01

Family

ID=23106989

Family Applications (5)

Application Number Title Priority Date Filing Date
ES06013824T Expired - Lifetime ES2299122T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
ES95929372T Expired - Lifetime ES2194921T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
ES02009467T Expired - Lifetime ES2240602T5 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para la seleccion de una velocidad de codificacion en un vocodificador de velocidad variable.
ES05001938T Expired - Lifetime ES2281854T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
ES02009465T Expired - Lifetime ES2233739T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.

Family Applications Before (3)

Application Number Title Priority Date Filing Date
ES06013824T Expired - Lifetime ES2299122T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
ES95929372T Expired - Lifetime ES2194921T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
ES02009467T Expired - Lifetime ES2240602T5 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para la seleccion de una velocidad de codificacion en un vocodificador de velocidad variable.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES02009465T Expired - Lifetime ES2233739T3 (es) 1994-08-10 1995-08-01 Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.

Country Status (20)

Country Link
US (1) US5742734A (es)
EP (6) EP1703493B1 (es)
JP (8) JP3502101B2 (es)
KR (3) KR100455826B1 (es)
CN (5) CN1512488A (es)
AT (5) ATE235734T1 (es)
AU (1) AU711401B2 (es)
BR (2) BR9510780B1 (es)
CA (3) CA2171009C (es)
DE (5) DE69533881T2 (es)
DK (3) DK1233408T3 (es)
ES (5) ES2299122T3 (es)
FI (5) FI117993B (es)
HK (2) HK1015185A1 (es)
IL (1) IL114874A (es)
MX (1) MX9600920A (es)
PT (3) PT1239465E (es)
TW (1) TW277189B (es)
WO (1) WO1996005592A1 (es)
ZA (1) ZA956081B (es)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389010B1 (en) 1995-10-05 2002-05-14 Intermec Ip Corp. Hierarchical data collection network supporting packetized voice communications among wireless terminals and telephones
US7924783B1 (en) 1994-05-06 2011-04-12 Broadcom Corporation Hierarchical communications system
TW271524B (es) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6292476B1 (en) * 1997-04-16 2001-09-18 Qualcomm Inc. Method and apparatus for providing variable rate data in a communications system using non-orthogonal overflow channels
JPH09162837A (ja) * 1995-11-22 1997-06-20 Internatl Business Mach Corp <Ibm> 圧縮方式を動的に変更する通信方法及び装置
JPH09185397A (ja) * 1995-12-28 1997-07-15 Olympus Optical Co Ltd 音声情報記録装置
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
JPH10210139A (ja) * 1997-01-20 1998-08-07 Sony Corp 音声記録機能付き電話装置及び音声記録機能付き電話装置の音声記録方法
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
DE19742944B4 (de) * 1997-09-29 2008-03-27 Infineon Technologies Ag Verfahren zum Aufzeichnen eines digitalisierten Audiosignals
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6393074B1 (en) 1998-12-31 2002-05-21 Texas Instruments Incorporated Decoding system for variable-rate convolutionally-coded data sequence
JP2000244384A (ja) * 1999-02-18 2000-09-08 Mitsubishi Electric Corp 移動通信端末装置及び移動通信端末装置における音声符号化レート決定方法
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
US7330902B1 (en) * 1999-05-10 2008-02-12 Nokia Corporation Header compression
US7127390B1 (en) 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6745012B1 (en) * 2000-11-17 2004-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive data compression in a wireless telecommunications system
US7120134B2 (en) 2001-02-15 2006-10-10 Qualcomm, Incorporated Reverse link channel architecture for a wireless communication system
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7602722B2 (en) * 2002-12-04 2009-10-13 Nortel Networks Limited Mobile assisted fast scheduling for the reverse link
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
WO2005111568A1 (ja) * 2004-05-14 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
CN1295678C (zh) * 2004-05-18 2007-01-17 中国科学院声学研究所 子带自适应谷点降噪***和方法
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
KR100757858B1 (ko) * 2005-09-30 2007-09-11 와이더댄 주식회사 선택적 인코딩 시스템 및 상기 선택적 인코딩 시스템의동작 방법
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
EP1984911A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR SIGNAL CODING AND DECODING
CN101379548B (zh) 2006-02-10 2012-07-04 艾利森电话股份有限公司 语音检测器和用于其中抑制子频带的方法
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101217037B (zh) * 2007-01-05 2011-09-14 华为技术有限公司 对音频信号的编码速率进行源控的方法和***
JPWO2009038170A1 (ja) * 2007-09-21 2011-01-06 日本電気株式会社 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム
WO2009038115A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 音声符号化装置、音声符号化方法及びプログラム
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
CN102985969B (zh) * 2010-12-14 2014-12-10 松下电器(美国)知识产权公司 编码装置、解码装置和编码方法、解码方法
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8666753B2 (en) * 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
CN110265059B (zh) 2013-12-19 2023-03-31 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9564136B2 (en) 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
ES2754706T3 (es) * 2014-03-24 2020-04-20 Nippon Telegraph & Telephone Método de codificación, codificador, programa y soporte de registro
ES2838006T3 (es) * 2014-07-28 2021-07-01 Nippon Telegraph & Telephone Codificación de señal de sonido
RU2713852C2 (ru) * 2014-07-29 2020-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
KR101619293B1 (ko) 2014-11-12 2016-05-11 현대오트론 주식회사 전원 반도체의 제어 방법 및 제어 장치
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
EP3751567B1 (en) 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3633107A (en) * 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (es) * 1973-06-15 1975-02-25
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (es) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
EP0111612B1 (fr) * 1982-11-26 1987-06-24 International Business Machines Corporation Procédé et dispositif de codage d'un signal vocal
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
DE3412430A1 (de) * 1984-04-03 1985-10-03 Nixdorf Computer Ag, 4790 Paderborn Schalteranordnung
EP0167364A1 (en) * 1984-07-06 1986-01-08 AT&T Corp. Speech-silence detection with subband coding
FR2577084B1 (fr) * 1985-02-01 1987-03-20 Trt Telecom Radio Electr Systeme de bancs de filtres d'analyse et de synthese d'un signal
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
JPS6491200A (en) * 1987-10-02 1989-04-10 Fujitsu Ltd Voice analysis system and voice synthesization system
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4897832A (en) 1988-01-18 1990-01-30 Oki Electric Industry Co., Ltd. Digital speech interpolation system and speech detector
DE3883519T2 (de) * 1988-03-08 1994-03-17 Ibm Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.
EP0331857B1 (en) * 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
CA1335003C (en) * 1988-03-11 1995-03-28 Daniel Kenneth Freeman Voice activity detection
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
JPH0783315B2 (ja) * 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
EP0392126B1 (en) * 1989-04-11 1994-07-20 International Business Machines Corporation Fast pitch tracking process for LTP-based speech coders
JPH0754434B2 (ja) * 1989-05-08 1995-06-07 松下電器産業株式会社 音声認識装置
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5054075A (en) * 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5307441A (en) 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP3004664B2 (ja) * 1989-12-21 2000-01-31 株式会社東芝 可変レート符号化方法
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
US5103459B1 (en) * 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
JPH04157817A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 可変レート符号化装置
US5206884A (en) * 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
JP2705377B2 (ja) * 1991-07-31 1998-01-28 松下電器産業株式会社 帯域分割符号化方法
EP0525774B1 (en) * 1991-07-31 1997-02-26 Matsushita Electric Industrial Co., Ltd. Digital audio signal coding system and method therefor
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
JP3088838B2 (ja) * 1992-04-09 2000-09-18 シャープ株式会社 音楽検出回路及び該回路を用いた音声信号入力装置
JP2976701B2 (ja) * 1992-06-24 1999-11-10 日本電気株式会社 量子化ビット数割当方法
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5644596A (en) 1994-02-01 1997-07-01 Qualcomm Incorporated Method and apparatus for frequency selective adaptive filtering
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6134215A (en) 1996-04-02 2000-10-17 Qualcomm Incorpoated Using orthogonal waveforms to enable multiple transmitters to share a single CDM channel

Also Published As

Publication number Publication date
US5742734A (en) 1998-04-21
CN1131473A (zh) 1996-09-18
EP1424686A3 (en) 2006-03-22
ATE235734T1 (de) 2003-04-15
HK1015185A1 (en) 1999-10-08
DE69535452T2 (de) 2007-12-13
DE69530066D1 (de) 2003-04-30
FI122272B (fi) 2011-11-15
ATE285620T1 (de) 2005-01-15
ES2233739T3 (es) 2005-06-16
ATE298124T1 (de) 2005-07-15
CA2488918C (en) 2011-02-01
JP4680958B2 (ja) 2011-05-11
EP1239465B2 (en) 2010-02-17
JP2007293355A (ja) 2007-11-08
JP2011209733A (ja) 2011-10-20
FI961112A (fi) 1996-04-12
JP4680956B2 (ja) 2011-05-11
EP1530201B1 (en) 2007-04-04
ES2299122T3 (es) 2008-05-16
JP2007304605A (ja) 2007-11-22
IL114874A0 (en) 1995-12-08
EP1703493A3 (en) 2007-02-14
ES2240602T3 (es) 2005-10-16
BR9506036A (pt) 1997-10-07
DK1239465T3 (da) 2005-08-29
EP1233408B1 (en) 2004-12-22
IL114874A (en) 1999-03-12
WO1996005592A1 (en) 1996-02-22
KR20040004420A (ko) 2004-01-13
EP1239465A3 (en) 2002-09-18
JP4870846B2 (ja) 2012-02-08
CN1512488A (zh) 2004-07-14
EP0728350B1 (en) 2003-03-26
CA2171009A1 (en) 1996-02-22
CA2488921C (en) 2010-09-14
JP2007304604A (ja) 2007-11-22
FI117993B (fi) 2007-05-15
JP3502101B2 (ja) 2004-03-02
JP4680957B2 (ja) 2011-05-11
HK1077911A1 (en) 2006-02-24
PT728350E (pt) 2003-07-31
ATE386321T1 (de) 2008-03-15
AU711401B2 (en) 1999-10-14
DK1233408T3 (da) 2005-01-24
PT1239465E (pt) 2005-09-30
PT1233408E (pt) 2005-05-31
KR100455225B1 (ko) 2004-11-06
CN1512489A (zh) 2004-07-14
CN1512487A (zh) 2004-07-14
EP1703493B1 (en) 2008-02-13
DE69533881D1 (de) 2005-01-27
ES2194921T3 (es) 2003-12-01
FI20050703A (fi) 2005-07-01
EP1530201A2 (en) 2005-05-11
DE69530066T2 (de) 2004-01-29
FI123708B (fi) 2013-09-30
JPH09504124A (ja) 1997-04-22
AU3275195A (en) 1996-03-07
JP2004004971A (ja) 2004-01-08
CA2488918A1 (en) 1996-02-22
CN1945696A (zh) 2007-04-11
EP0728350A1 (en) 1996-08-28
EP1233408A1 (en) 2002-08-21
JP3927159B2 (ja) 2007-06-06
KR100455826B1 (ko) 2005-04-06
DE69534285T2 (de) 2006-03-23
CA2488921A1 (en) 1996-02-22
DE69534285D1 (de) 2005-07-21
CN100508028C (zh) 2009-07-01
EP1239465B1 (en) 2005-06-15
DK0728350T3 (da) 2003-06-30
DE69535709T2 (de) 2009-02-12
ES2240602T5 (es) 2010-06-04
FI961112A0 (fi) 1996-03-08
TW277189B (es) 1996-06-01
FI20050702A (fi) 2005-07-01
CN1320521C (zh) 2007-06-06
EP1424686A2 (en) 2004-06-02
DK1239465T4 (da) 2010-05-31
JP2004046228A (ja) 2004-02-12
KR960705305A (ko) 1996-10-09
EP1703493A2 (en) 2006-09-20
ZA956081B (en) 1996-03-15
DE69535709D1 (de) 2008-03-27
BR9510780B1 (pt) 2011-05-31
DE69534285T3 (de) 2010-09-09
DE69535452D1 (de) 2007-05-16
JP2007304606A (ja) 2007-11-22
ATE358871T1 (de) 2007-04-15
CN1168071C (zh) 2004-09-22
MX9600920A (es) 1997-06-28
KR20040004421A (ko) 2004-01-13
CA2171009C (en) 2006-04-11
EP1530201A3 (en) 2005-08-10
FI122273B (fi) 2011-11-15
EP1239465A2 (en) 2002-09-11
DE69533881T2 (de) 2006-01-12
FI20061084A (fi) 2006-12-07
FI119085B (fi) 2008-07-15
FI20050704A (fi) 2005-07-01

Similar Documents

Publication Publication Date Title
ES2281854T3 (es) Procedimiento y aparato para seleccionar una velocidad de codificacion en un vocodificador de velocidad variable.
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
EP0648024A1 (en) Audio coder using best fit reference envelope