ES2240602T3

ES2240602T3 - Procedimiento y aparato para la seleccion de una velocidad de codificacion en un vocodificador de velocidad variable.

Info

Publication number: ES2240602T3
Application number: ES02009467T
Authority: ES
Inventors: Andrew P. Dejaco; William R. Gardner
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-08-10
Filing date: 1995-08-01
Publication date: 2005-10-16
Anticipated expiration: 2015-08-01
Also published as: US5742734A; CN1131473A; EP1424686A3; ATE235734T1; HK1015185A1; DE69535452T2; DE69530066D1; FI122272B; ATE285620T1; ES2233739T3; ATE298124T1; CA2488918C; ES2281854T3; JP4680958B2; EP1239465B2; JP2007293355A; JP2011209733A; FI961112A; JP4680956B2; EP1530201B1

Abstract

Procedimiento para la adición de tramas de bloqueo a una pluralidad de tramas codificadas mediante un vocodificador, comprendiendo el procedimiento: detectar que un número predefinido de sucesivas tramas ha sido codificado a una primera velocidad; determinar que una próxima trama sucesiva debería ser codificada a una segunda velocidad inferior a la primera velocidad; y seleccionar un número de tramas de bloqueo sucesivas que se inician con dicha próxima trama sucesiva para ser codificada a la segunda velocidad, siendo el número una función de una relación señal-ruido determinada a partir de la señal de entrada (S(n)) que debe codificarse.

Description

Procedimiento y aparato para la selección de una velocidad de codificación en un vocodificador de velocidad variable.

Antecedentes de la invención I. Campo de la invención

La presente invención se refiere a los vocodificadores. Más particularmente, la presente invención se refiere a un procedimiento nuevo y mejorado para determinar la velocidad de codificación de la voz en un vocodificador de velocidad variable.

II. Descripción de las técnicas relacionadas

Los sistemas de compresión de voz de velocidad variable suelen utilizar alguna forma de algoritmo de determinación de velocidad antes de que empiece la codificación. El algoritmo de determinación de velocidad asigna un sistema de codificación de velocidad binaria más alta a los segmentos de la señal de audio en los que está presente la voz y un sistema de codificación de velocidad más baja a los segmentos de silencio. De esta forma, se obtiene una velocidad binaria media inferior, mientras que la calidad de la voz reconstruida sigue siendo alta. Por lo tanto, para utilizar con eficacia un codificador de voz de velocidad variable se requiere un algoritmo de determinación de velocidad sólido que pueda diferenciar entre voz y silencio en una diversidad de entornos de ruido de fondo.

Uno de dichos sistemas de compresión de voz de velocidad variable o vocodificadores de velocidad variable se da a conocer en la patente US n.º 5.414.796 en trámite, titulada "Variable Rate Vocoder" y transferida al cesionario de la presente invención. En esta ejecución particular de vocodificador de velocidad variable, la voz de entrada se codifica utilizando técnicas de predicción lineal con excitación por código (CELP) a una de las diversas velocidades determinada por el nivel de actividad oral. El nivel de actividad oral se determina a partir de la energía de las muestras de audio de entrada, que pueden contener ruido de fondo además de voz. Para que el vocodificador pueda efectuar una codificación de voz de alta calidad con niveles variables de ruido de fondo, es necesario emplear una técnica de ajuste de umbral para compensar el efecto del ruido de fondo sobre el algoritmo de decisión de velocidad.

Los vocodificadores se suelen utilizar en dispositivos de comunicación como, por ejemplo, teléfonos celulares o dispositivos de comunicación personal, para efectuar la compresión digital de una señal de audio analógica, que se convierte en una señal digital para ser transmitida. En un entorno móvil en el que se puede utilizar un teléfono celular o un dispositivo de comunicación personal, los niveles altos de energía de ruido de fondo dificultan la diferenciación mediante el algoritmo de determinación de velocidad entre los sonidos sordos de baja energía y el silencio con ruido de fondo, utilizando un algoritmo de determinación de velocidad basado en la energía de la señal. Por lo tanto, los sonidos sordos a menudo se codifican a velocidades binarias más bajas, lo que determina una degradación de la calidad de la voz, ya que las consonantes como "s", "x", "ch", "sh", "t", etc. se pierden en la voz reconstruida.

Los vocodificadores que basan sus decisiones de velocidad únicamente en la energía del ruido de fondo fracasan en su intento de tener en cuenta la intensidad de la señal en relación con el ruido de fondo cuando se establecen los valores umbral. Los vocodificadores que basen sus niveles umbral únicamente en el ruido de fondo tienden a comprimir entre sí los niveles umbral cuando el ruido de fondo aumenta. Si se desea que el nivel de la señal se mantenga fijo, ésta será la forma correcta de establecer los niveles umbral; no obstante, si se desea que el nivel de la señal aumente con el nivel de ruido de fondo, la compresión de los niveles umbrales no resulta la mejor solución. Por lo tanto, se plantea la necesidad de disponer de un procedimiento alternativo para establecer niveles umbral en los vocodificadores de velocidad variable, que tenga en cuenta la intensidad de la señal.

Finalmente, queda por resolver el problema relacionado con la reproducción de música mediante vocodificadores de decisión de velocidad basada en la energía del ruido de fondo. Al hablar, las personas deben efectuar pausas para respirar, lo que permite que los niveles umbral se restablezcan en el nivel de ruido de fondo adecuado. Sin embargo, en la transmisión de música a través de un vocodificador (como sucede en el caso de la música en espera), no se produce ninguna pausa y los niveles umbral continúan aumentando hasta que la música empieza a codificarse a una velocidad inferior a la velocidad completa y, en tales circunstancias, el codificador de velocidad variable proporciona música confusa con ruido de fondo.

Merece especial atención el documento K. Srinivasan and A. Gersho: "Voice activity detection for cellular networks", Proceedings: IEEE Workshop on speech coding for telecommunications, 13-15 octubre de 1993, páginas 85-86, XP002204645, University of California. El documento hace referencia a algoritmos para la detección de la actividad de la voz en presencia de ruido vehicular y de ruido de mezcla. En particular, da a conocer un algoritmo de detección de la actividad de la voz en el que se introduce un periodo de bloqueo adaptable comprendido entre 40 ms y 180 ms. El periodo de bloqueo real está basado en la relación, r, entre la capacidad de salida del filtro de supresión de ruido y el umbral adaptable correspondiente.

Merece especial atención el documento Paksoy E et al: "Variable rate speech coding for multiple access wireless networks", Electrotechnical Conference, 1994, Proceedings., 7^{th} Mediterranean Antalya, Turkey 12-14 abril de 1994, New York, NY, USA, IEEE, 12 de abril de 1994, páginas 47-50, XP10130866 ISBN:0-7803-1772-6 que hace referencia a la codificación de la voz de velocidad variable para redes inalámbricas de acceso múltiple, que menciona particularmente una detección de actividad de voz con una adaptación del periodo de bloqueo a los niveles de señal detectados.

Según la presente invención, se proporcionan un procedimiento y un aparato para la adición de tramas de bloqueo a una pluralidad de tramas codificadas por un codificador vocal, tal como se establece en las reivindicaciones 1 y 8. Las formas de realización preferidas de la presente invención se reivindican en las reivindicaciones subordinadas.

Sumario de la invención

La presente invención consiste en un procedimiento y un aparato nuevos y mejorados para determinar una velocidad de codificación en un vocodificador de velocidad variable. El primer objetivo de la presente invención es proporcionar un procedimiento mediante el cual se pueda reducir la probabilidad de codificar sonidos sordos de baja energía como ruido de fondo. En la presente invención, la señal de entrada se filtra para obtener un componente de alta frecuencia y un componente de baja frecuencia. Los componentes filtrados de la señal de entrada se analizan a continuación por separado para detectar la presencia de voz. Debido a que los sonidos sonoros tienen un componente de alta frecuencia, resulta más fácil diferenciar la intensidad de éstos del ruido de fondo en una banda de frecuencias altas que en toda la banda de frecuencias.

El segundo objetivo de la presente invención es proporcionar medios para establecer los niveles umbral que tengan en cuenta tanto la energía de la señal como la energía del ruido de fondo. En la presente invención, el establecimiento de umbrales de detección de voz se basa en una estimación de la relación señal-ruido (SNR) de la señal de entrada. En el ejemplo de forma de realización, la energía de la señal se estima como la energía máxima de la señal durante períodos de actividad oral y la energía de ruido de fondo se estima como la energía mínima de la señal durante períodos de silencio.

El tercer objetivo de la presente invención es proporcionar un procedimiento para codificar música mediante un vocodificador de velocidad variable. En el ejemplo de forma de realización, el aparato de selección de velocidad detecta un grupo de tramas consecutivas durante las cuales los niveles umbral han aumentado y comprueba la periodicidad relativa a dicho grupo de tramas. La presencia de música viene indicada por el carácter periódico de la señal de entrada. Si se detecta la presencia de música, se establecen umbrales a niveles que permiten la codificación de la señal a velocidad completa.

Breve descripción de los dibujos

Las características, los objetivos y las ventajas de la presente invención resultarán más evidentes a partir de la descripción detallada proporcionada a continuación e ilustrada mediante los dibujos, en los que se emplean los mismos números de referencia para las partes equivalentes, y en los que:

la Figura 1 es un diagrama de bloques de la presente invención.

Descripción detallada de las formas de realización preferidas

En relación con la Figura 1, la señal de entrada, S(n), se proporciona a los elementos de cálculo de energía de subbandas 4 y 6. La señal de entrada S(n) consiste en una señal de audio y ruido de fondo. La señal de audio suele ser voz, pero también puede tratarse de música. En el ejemplo de forma de realización, S(n) se proporciona en tramas de veinte milisegundos de 160 muestras cada una. En el ejemplo de forma de realización, la señal de entrada S(n) tiene componentes de frecuencia entre 0 kHz y 4 kHz, que es aproximadamente el ancho de banda de una señal de voz humana.

En el ejemplo de forma de realización, la señal de entrada de 4 kHz, S(n), se filtra para obtener dos subbandas separadas. Las dos subbandas separadas se hallan entre 0 y 2 kHz y 2 kHz y 4 kHz, respectivamente. En un ejemplo de forma de realización, la señal de entrada puede dividirse en subbandas mediante filtros de subbandas, cuyo diseño es ampliamente conocido dentro de la técnica y descrito en la patente US n.º 5.644.596, titulada "Frequency Selective Adaptive Filtering", y concedida al cesionario de la presente invención.

Las respuestas impulsivas de los filtros de subbandas se indican por h_{L}(n) y h_{H}(n) para el filtro pasa banda y el filtro pasa alta, respectivamente. Para calcular la energía de los componentes de subbandas resultantes de la señal y obtener los valores R_{L}(0) y R_{H}(0), basta con sumar los cuadrados de las muestras de salida del filtro de subbandas, de una forma bien conocida en el ámbito de la técnica.

En una forma de realización preferida, cuando la señal de entrada S(n) se proporciona al elemento de cálculo de energía de subbandas 4, el valor de energía del componente de baja frecuencia de la trama de entrada, R_{L}(0), se calcula como:

(1)R_{L}(0) \ = R_{S}(0) \ \cdot \ R_{h_{L}}(0) \ + \ 2 \ \cdot \ \sum\limits^{L-1}_{i=1} \ R_{S}(i) \ \cdot \ R_{h_{L}}(i),

en la que L es el número de tomas del filtro pasa banda con respuesta impulsiva h_{L}(n) y R_{S}(i) es la función de autocorrelación de la señal de entrada, S(n), proporcionada por la ecuación:

(2)R_{S}(i) \ = \ \sum\limits^{N}_{n=1} \ S(n) \ \cdot \ S(n-i),

\hskip1cm

para i \in [0, L-1]

en la que N es el número de muestras de la trama y R_{h}L es la función de autocorrelación del filtro pasa banda h_{L}(n) proporcionada por:

(3)R_{h_{L}}(i) \ = \ \sum\limits^{L-1}_{n=0} \ h_{L}(n) \ \cdot \ h_{L}(n-i).

\hskip1cm

para i \in [0, L-1]

\hskip4.8cm

= 0 en los demás casos

La energía de alta frecuencia, R_{H}(0), se calcula de forma similar en el elemento de cálculo de energía de subbandas 6.

Los valores de la función de autocorrelación de los filtros de subbandas pueden calcularse por adelantado para reducir la cantidad de cálculos. Además, algunos de los valores calculados de R_{S}(i) se utilizan en otros cálculos de la codificación de la señal de entrada, S(n), lo que todavía reduce más la carga de cálculo neta del procedimiento de selección de velocidad de codificación de la presente invención. Por ejemplo, la obtención de los valores de tomas del filtro LPC requiere el cálculo de un grupo de coeficientes de autocorrelación de la señal de entrada.

El cálculo de los valores de tomas del filtro LPC es muy conocido en la técnica y se describe con detalle en la patente US n.º 5.414.796 mencionada anteriormente. Si se va a codificar la voz con un procedimiento que requiere un filtro LPC de diez tomas, sólo es necesario calcular los valores de R_{S}(i) para los valores de i comprendidos entre 11 y L-1, además de los que se utilizan en la codificación de la señal, porque en el cálculo de los valores de tomas del filtro LPC, se utiliza R_{S}(i) para valores de i entre 0 y 10. En el ejemplo de forma de realización, los filtros de subbandas tienen 17 tomas (es decir, L = 17).

El elemento de cálculo de energía de subbandas 4 proporciona el valor calculado de R_{L}(0) al elemento de decisión de velocidad de subbandas 12 y el elemento de cálculo de energía de subbandas 6 proporciona el valor calculado de
R_{H}(0) al elemento de decisión de velocidad de subbandas 14. El elemento de decisión de velocidad 12 compara el valor de R_{L}(0) con dos valores umbral predeterminados T_{L1/2} y T_{Lfull} y asigna una velocidad de codificación recomendada, RATE_{L}, según el resultado de la comparación. La asignación de velocidad se lleva a cabo de la siguiente
forma:

\vskip1.000000\baselineskip

RATE_{L} = octavo de velocidad

\hskip2cm

R_{L}(0) \leq T_{L1/2}

\hskip5.8cm

(4)

RATE_{L} = media velocidad

\hskip2.5cm

T_{L1/2} < R_{L}(0) \leq T_{Lfull}

\hskip4.7cm

(5)

RATE_{L} = velocidad completa

\hskip2.1cm

R_{L}(0) > T_{Lfull}

\hskip5.73cm

(6)

\vskip1.000000\baselineskip

El elemento de decisión de velocidad de subbandas 14 funciona de forma similar y selecciona una velocidad de codificación recomendada, RATE_{H}, según el valor de energía de alta frecuencia R_{H}(0) y basándose en un grupo diferente de valores umbral T_{H1/2} y T_{Hfull}. El elemento de decisión de velocidad de subbandas 12 proporciona la velocidad de codificación recomendada, RATE_{L}, al elemento de selección de velocidad de codificación 16, y el elemento de decisión de velocidad de subbandas 14 proporciona la velocidad de codificación recomendada, RATE_{H}, al elemento de selección de velocidad de codificación 16. En el ejemplo de forma de realización, el elemento de selección de velocidad de codificación 16 selecciona la más alta de las dos velocidades recomendadas y proporciona la velocidad más alta como la velocidad de codificación seleccionada.

El elemento de cálculo de energía de subbandas 4 también proporciona el valor de energía de baja frecuencia,
R_{L}(0), al elemento de adaptación de umbral 8, donde se calculan los valores umbral T_{L1/2} y T_{Lfull} para la siguiente trama de entrada. De modo similar, el elemento de cálculo de energía de subbandas 6 proporciona el valor de energía de alta frecuencia, R_{H}(0), al elemento de adaptación de umbral 10, donde se calculan los valores umbral T_{H1/2} y T_{Hfull} de la siguiente trama de entrada.

El elemento de adaptación de umbral 8 recibe el valor de energía de baja frecuencia, R_{L}(0), y determina si
S(n) contiene ruido de fondo o una señal de audio. En un ejemplo de ejecución, el procedimiento mediante el cual el elemento de adaptación de umbral 8 determina si está presente o no una señal de audio consiste en examinar la función de autocorrelación normalizada NACF, que viene dada por la ecuación siguiente:

100

siendo e(n) la señal residual formante obtenida tras el filtrado de la señal de entrada, S(n), mediante un filtro LPC.

El diseño y la filtración de una señal mediante un filtro LPC son bien conocidos en la técnica y se describen con detalle en la patente US nº 5.414.796 mencionada anteriormente. La señal de entrada, S(n), se filtra mediante el filtro LPC para eliminar la interacción de los formantes. La función NACF se compara con un valor umbral para determinar la presencia o no de una señal de audio. Si la función NACF es superior a un valor umbral predeterminado, significa que la trama de entrada tiene una característica periódica que indica la presencia de una señal de audio (de voz o de música). Debe observarse que, aunque las partes de voz y música no son periódicas y presentan valores bajos de la función NACF, el ruido de fondo no suele presentar ninguna periodicidad y casi siempre presenta valores bajos de la función NACF.

Si se determina que S(n) contiene ruido de fondo, el valor de la función NACF es inferior al valor umbral TH1 y entonces se utiliza el valor R_{L}(0) para actualizar el valor de la estimación de ruido de fondo actual BGN_{L}. En el ejemplo de forma de realización, TH1 es 0,35. R_{L}(0) se compara con el valor actual de la estimación de ruido de fondo BGN_{L}. Si R_{L}(0) es inferior a BGN_{L}, entonces la estimación de ruido de fondo BGN_{L} se establece en R_{L}(0), independientemente del valor de la función NACF.

La estimación de ruido de fondo BGN_{L} sólo aumenta cuando la función NACF es inferior al valor umbral TH1. Si R_{L}(0) es superior a BGN_{L} y la función NACF es inferior a TH1, entonces la energía de ruido de fondo BGN_{L} se establece en \alpha_{1}. BGN_{L}, siendo \alpha_{1} un número mayor que 1. En el ejemplo de forma de realización, \alpha_{1} es igual a 1,03. BGN_{L} continua aumentando, mientras la función NACF es inferior al valor umbral TH1 y R_{L}(0) es superior al valor actual de BGN_{L}, hasta que BGN_{L} llega a un valor máximo predeterminado BGN_{max}, momento en el cual la estimación de ruido de fondo BGN_{L} se establece en BGN_{max}.

Si se detecta una señal de audio (hecho que sucede cuando el valor de la función NACF sobrepasa un segundo valor umbral TH2), la estimación de la energía de la señal, S_{L}, se actualiza. En el ejemplo de forma de realización, TH2 se establece en 0,5. El valor de R_{L}(0) se compara con la estimación actual de la energía de la señal de pasa banda, S_{L}. Si R_{L}(0) es superior al valor actual de S_{L}, entonces S_{L} se establece en R_{L}(0). Si R_{L}(0) es inferior al valor actual de S_{L}, entonces S_{L} se establece en \alpha_{2}.S_{L}, también esta vez sólo si la función NACF es superior a TH2. En el ejemplo de forma de realización, \alpha_{2} se establece en 0,96.

A continuación, el elemento de adaptación de umbral 8 efectúa la estimación de la relación señal-ruido según la ecuación 8 siguiente:

(8)SNR_{L} \ = \ 10 \ \cdot \ log \ \left[ \ \frac{S_{L}}{BGN_{L}} \right].

Entonces, el elemento de adaptación de umbral 8 determina el índice de la relación señal-ruido cuantificada I_{SNRL}, según las ecuaciones 9 a 12 siguientes:

I_{SNRL} = nint \left[\frac{SNR_{L} - 20}{5} \right],

\hskip3.5cm

para 20< SNRL<55,

\hskip3.7cm

(9)

\hskip1.7cm

= 0,

\hskip5.9cm

para SNRL\leq20,

\hskip4.3cm

(10)

\hskip1.7cm

= 7

\hskip5.99cm

para SNRL\geq55

siendo nint una función que redondea el valor fraccional al entero más cercano.

A continuación, el elemento de adaptación de umbral 8 selecciona o calcula dos factores de escala, k_{L1/2} y k_{Lfull}, según el índice de la relación señal-ruido, I_{SNRL}. La tabla 1 siguiente, es un ejemplo de tabla de consulta de valores de escala:

TABLA 1

I_{SNRL}	K_{L1/2}	K_{Lfull}
0	7,0	9,0
1	7,0	12,6
2	8,0	17,0
3	8,6	18,5
4	8,9	19,4
5	9,4	20,9
6	11,0	25,5
7	15,8	39,8

Estos dos valores se utilizan para calcular los valores umbral para la selección de velocidad según las ecuaciones siguientes:

(11)T_{L1/2}= K_{L1/2} BGNL,

\hskip0.5cm

y

(12)

\hskip-10mm

T_{Lfull}= K_{Lfull} BGNL,

siendo T_{L1/2} el valor umbral de media velocidad y baja frecuencia y T_{Lfull} el valor umbral de velocidad completa y baja frecuencia.

El elemento de adaptación de umbral 8 proporciona los valores umbral adaptados T_{L1/2} y T_{Lfull} al elemento de decisión de velocidad 12. El elemento de adaptación de umbral 10 funciona de forma similar y proporciona los valores umbral T_{H1/2} y T_{Hfull} al elemento de decisión de velocidad de subbandas 14.

El valor inicial de la estimación de la energía de la señal de audio S (que puede ser S_{L} o S_{H}) se establece de la siguiente forma. La estimación de energía de señal inicial, S_{INIT}, se establece en -18,0 dBm0, siendo 3,17 dBm0 la intensidad de la señal de una onda sinusoidal completa que, en el ejemplo de forma de realización, es una onda sinusoidal digital con un rango de amplitudes entre -8031 y 8031. S_{INIT} se utiliza mientras no se determina la presencia de ninguna señal acústica.

El procedimiento mediante el cual se detecta en un principio una señal acústica consiste en comparar el valor de función NACF con un umbral. Cuando la función NACF sobrepasa el umbral durante un número predeterminado de tramas consecutivas, entonces se determina la presencia de una señal acústica. En el ejemplo de forma de realización, la función NACF debe sobrepasar el umbral durante diez tramas consecutivas. Cuando se satisface esta condición, la estimación de la energía de la señal, S, se establece en la energía máxima de la señal en las diez tramas precedentes.

El valor inicial de la estimación de ruido de fondo BGN_{L} se establece en un principio en BGN_{max}. En cuanto se recibe una energía de trama de subbanda que es menor que BGN_{max}, la estimación de ruido de fondo se restablece en el valor del nivel de energía de subbanda recibido, y se genera la estimación del ruido de fondo BGN_{L} de la forma descrita anteriormente.

En una forma de realización preferida, se pasa a un estado de bloqueo cuando se detecta una trama de velocidad baja después de una serie de tramas de voz de velocidad completa. En el ejemplo de forma de realización, cuando se codifican a velocidad completa cuatro tramas de voz consecutivas que vienen seguidas de una trama en la que la velocidad de codificación se establece en una velocidad inferior a la velocidad completa y las relaciones señal-ruido calculadas son inferiores a una SNR mínima predeterminada, la velocidad de codificación para dicha trama se establece en la velocidad completa. En el ejemplo de forma de realización, la SNR mínima predeterminada es 27,5 dB como se define en la ecuación 8.

En la forma de realización preferida, el número de tramas del período de bloqueo está en función de la relación señal-ruido. En el ejemplo de forma de realización, el número de tramas del período de bloqueo se determina de la siguiente forma:

\newpage

nº de tramas de período de bloqueo = 1

\hskip3cm

22,5 < SNR < 27,5,

\hskip2.4cm

(13)

nº de tramas de período de bloqueo = 2

\hskip4cm

SNR \leq 22,5,

\hskip2.4cm

(14)

nº de tramas de período de bloqueo = 0

\hskip4cm

SNR \geq 27,5,

\hskip2.4cm

(15)

La presente invención también proporciona un procedimiento con el cual se detecta la presencia de música y que, como se ha descrito anteriormente, carece de las pausas que permiten restablecer las medidas de ruido de fondo. El procedimiento para detectar la presencia de música presupone que no hay música al principio de la llamada. Esto permite al aparato de selección de velocidad de codificación de la presente invención estimar correctamente la energía de ruido de fondo inicial, BGN_{INIT}. Debido a que la música, a diferencia del ruido de fondo, tiene una característica periódica, la presente invención examina el valor de la función NACF para diferenciar la música del ruido de fondo. El procedimiento de detección de música de la presente invención calcula una función NACF media según la ecuación siguiente:

(16)NACF_{AVE} \ = \ \frac{1}{T} \ \sum\limits^{T}_{i=1} \ NACF(i),

en la que la función NACF es la definida en la ecuación 7, y

T es el número de tramas consecutivas en las que el valor estimado del ruido de fondo ha ido aumentando a partir de la estimación de ruido de fondo inicial BGN_{INIT}.

Si el ruido de fondo BGN ha ido aumentando durante un número de tramas T consecutivas y la función NACF_{AVE} sobrepasa un umbral predeterminado, entonces se detecta música y el ruido de fondo BGN se restablece en BGN_{init}. Debe observarse que, para ser eficaz, el valor T debe ser suficientemente bajo para que la velocidad de codificación no descienda por debajo de la velocidad completa. Por consiguiente, el valor de T debe establecerse como una función de la señal acústica y de BGN_{init}.

La descripción anterior de las formas de realización preferidas se proporciona para permitir que todos los expertos en la materia puedan crear o utilizar la presente invención. Las diversas modificaciones posibles de estas formas de realización resultarán evidentes para los expertos en la materia, pudiéndose aplicar los principios genéricos definidos en la presente memoria a otras formas de realización sin necesidad de utilizar la actividad inventiva. Por lo tanto, la presente invención no debe limitarse a las formas de realización descritas, sino que su alcance vendrá determinado por las reivindicaciones adjuntas.

Claims

1. Procedimiento para la adición de tramas de bloqueo a una pluralidad de tramas codificadas mediante un vocodificador, comprendiendo el procedimiento:

detectar que un número predefinido de sucesivas tramas ha sido codificado a una primera velocidad;

determinar que una próxima trama sucesiva debería ser codificada a una segunda velocidad inferior a la primera velocidad; y

seleccionar un número de tramas de bloqueo sucesivas que se inician con dicha próxima trama sucesiva para ser codificada a la segunda velocidad, siendo el número una función de una relación señal-ruido determinada a partir de la señal de entrada (S(n)) que debe codificarse.

2. Procedimiento según la reivindicación 1, en el que la detección comprende detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad viable máxima.

3. Procedimiento según la reivindicación 1, en el que la detección comprende detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad prevista para codificar tramas clasificadas como tramas que contienen sustancialmente voz activa.

4. Procedimiento según la reivindicación 1, en el que la determinación comprende determinar que una próxima trama sucesiva debería codificarse a una velocidad viable mínima.

5. Procedimiento según la reivindicación 1, en el que la determinación comprende determinar que una próxima trama sucesiva debería codificarse a una velocidad prevista para codificar tramas clasificadas como tramas que contienen sustancialmente ruido de fondo o silencio.

6. Procedimiento según la reivindicación 1, que comprende además generar la estimación de un nivel de ruido de fondo.

7. Procedimiento según la reivindicación 6, que comprende además calcular dicha relación señal-ruido sobre la base de la estimación de un nivel de ruido de fondo.

8. Aparato para la adición de tramas de bloqueo a una pluralidad de tramas codificadas por un vocodificador, comprendiendo el aparato:

unos medios para detectar que un número predefinido de tramas sucesivas ha sido codificado a una primera velocidad;

unos medios para determinar que una trama sucesiva siguiente debería ser codificada a una segunda velocidad que es inferior a la primera velocidad; y

unos medios para seleccionar un número de tramas de bloqueo sucesivas que se inician con dicha trama sucesiva siguiente que debe codificarse a una segunda velocidad, siendo el número una función de una relación señal-ruido determinada a partir de la señal de entrada (s(n)) que debe codificarse.

9. Aparato según la reivindicación 8, en el que los medios de detección comprenden unos medios para detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad máxima viable.

10. Aparato según la reivindicación 8, en el que los medios de detección comprenden unos medios para detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad destinada a la codificación de tramas clasificadas como tramas que contienen sustancialmente voz activa.

11. Aparato según la reivindicación 8, en el que los medios de determinación comprenden unos medios para determinar que una trama sucesiva siguiente debería ser codificada a una velocidad viable mínima.

12. Aparato según la reivindicación 8, en el que los medios de determinación comprenden unos medios para determinar que una trama sucesiva siguiente debería ser codificada a una velocidad destinada a codificar tramas clasificadas como tramas que contienen sustancialmente ruido de fondo o silencio.

13. Aparato según la reivindicación 8, que comprende además unos medios para generar la estimación de un nivel de ruido de fondo.

14. Aparato según la reivindicación 13, que comprende además unos medios para el cálculo de dicha relación señal-ruido sobre la base de la estimación de un nivel de ruido de fondo.

15. Aparato según la reivindicación 8, para la adición de tramas de bloqueo a una pluralidad de tramas codificadas por un vocodificador, comprendiendo el aparato además:

un elemento selector de velocidad de codificación que a su vez comprende dichos medios de detección, dichos medios de determinación y dichos medios de selección.

16. Aparato según la reivindicación 15, en el que el elemento selector de velocidad de codificación (16) está configurado además para detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad viable máxima.

17. Aparato según la reivindicación 15, en el que el elemento selector de velocidad de codificación (16) está configurado además para detectar que un número predefinido de tramas sucesivas ha sido codificado a una velocidad destinada a la codificación de tramas clasificadas como tramas que contienen sustancialmente voz activa.

18. Aparato según la reivindicación 15, en el que el elemento selector de velocidad de codificación (16) está configurado además para determinar que una trama sucesiva siguiente debería ser codificada a una velocidad viable mínima.

19. Aparato según la reivindicación 15, en el que el elemento selector de velocidad de codificación (16) está configurado además para determinar que una trama sucesiva siguiente debería ser codificada a una velocidad destinada a la codificación de tramas clasificadas como tramas que contienen sustancialmente ruido de fondo o silencio.

20. Aparato según la reivindicación 15, que comprende además un elemento de adaptación de umbral (8) acoplado al elemento selector de velocidad de codificación (16) y configurado para generar la estimación de un nivel de ruido de fondo.

21. Aparato según la reivindicación 20, que comprende además un elemento de cálculo de energía (4, 6) acoplado al elemento de adaptación de umbral y configurado para generar una estimación de un nivel energético de la trama, estando además el elemento de adaptación de umbral (8) configurado para recibir la estimación de un nivel energético de la trama desde el elemento de cálculo de energía (4, 6) y calcular dicha relación señal-ruido sobre la base de la estimación de un nivel de energía de la trama y la estimación de un nivel de ruido de fondo.