ES2343862T3 - Metodos y disposiciones para un emisor y receptor de conversacion/audio. - Google Patents

Metodos y disposiciones para un emisor y receptor de conversacion/audio. Download PDF

Info

Publication number
ES2343862T3
ES2343862T3 ES06778434T ES06778434T ES2343862T3 ES 2343862 T3 ES2343862 T3 ES 2343862T3 ES 06778434 T ES06778434 T ES 06778434T ES 06778434 T ES06778434 T ES 06778434T ES 2343862 T3 ES2343862 T3 ES 2343862T3
Authority
ES
Spain
Prior art keywords
audio
frequency
conversation
segment
cutoff frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06778434T
Other languages
English (en)
Inventor
Stefan Bruhn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2343862T3 publication Critical patent/ES2343862T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Paper (AREA)
  • Manufacture, Treatment Of Glass Fibers (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Un emisor de audio/conversación (105) que comprende un codificador de núcleo adaptado a una banda de frecuencia de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo, y comprendiendo la banda de frecuencia de núcleo hasta una frecuencia de corte, caracterizado porque el emisor de audio/conversación (105) comprende también: - un dispositivo de segmentación (110) adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador. - un filtro de paso bajo (120) adaptado para filtrar cada segmento a la citada frecuencia de corte estimada, y un remuestreador (130) adaptado para remuestrear cada segmento filtrado a una segunda frecuencia de muestreo que corresponde a la frecuencia de corte del citado segmento filtrado con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificada por el citado codificador de núcleo (140).

Description

Métodos y disposiciones para un emisor y receptor de conversación/audio.
Campo técnico
La presente invención se refiere a un emisor y un receptor de conversación/audio. En particular, la presente invención se refiere a un códec de conversación/audio mejorado que proporciona una mayor eficiencia de codificación.
Antecedentes
La codificación de conversación/audio convencional se lleva a cabo mediante un códec de núcleo. Un códec implica un codificador y un descodificador. El códec de núcleo está adaptado para codificar/descodificar una banda de núcleo de la banda de frecuencia de señal, por lo que la banda de núcleo incluye las frecuencias esenciales de una señal hasta una frecuencia de corte, que, por ejemplo, es 3400 Hz en el caso de una conversación de banda estrecha. El códec de núcleo puede ser combinado con una bandwidth extension (BWE - Extensión de Banda Ancha), que maneja las altas frecuencias por encima de la banda de núcleo y por encima de la frecuencia de corte. La BWE se refiere a un tipo de método que aumenta el espectro de frecuencias (ancho de banda) en el receptor por encima del espectro del ancho de banda de núcleo. La ganancia con la BWE es que puede realizarse habitualmente sin ninguna o muy pequeña velocidad de bits extra sumada a la velocidad de bits del códec de núcleo. El punto de frecuencia que marca la frontera entre la banda de núcleo y las altas frecuencias manejadas por la extensión de ancho de banda se llama en esta memoria frecuencia de cruce o frecuencia de corte.
El aumento de frecuencia es un método, disponible por ejemplo en el códec de audio Adaptative MultiRate-WideBand+ (AMR-WB+) en el códec de 3GPP TS 26.290 Extended Adaptative MultiRate - Wideband (AMR-WB+); Funciones de Transcodificación), que permite operar el códec a una frecuencia de muestreo interna modificada, incluso aunque fue diseñado originariamente para una frecuencia interna fija de 25,6 kHz. Cambiar la frecuencia de muestreo interna permite escalar la velocidad de bits, el ancho de banda y la complejidad con el factor de aumento de frecuencia, como se explica a continuación. Esto permite operar el códec de una manera muy flexible dependiendo de los requisitos de la velocidad de bits, del ancho de banda y de la complejidad. Por ejemplo si se necesita una velocidad de bits muy baja, puede usarse un factor de aumento de frecuencia (= disminución de frecuencia), lo que al mismo tiempo significa que el ancho de banda de audio codificado y la complejidad se reducen. Por otro lado, si se desea una calidad de codificación muy elevada, se usa un factor de aumento de frecuencia alto que permite codificar un ancho de banda de audio grande a costa de una mayor velocidad de bits y una mayor complejidad.
El aumento de la frecuencia en el lado del codificador se lleva a cabo usando un remuestreador flexible en el extremo frontal del codificador, que convierte la velocidad de muestreo de audio original de la señal de salida (por ejemplo 44,1 kHz) en una frecuencia de muestreo interna arbitraria, que se desvía de la frecuencia de muestreo interna nominal en un factor de aumento de frecuencia. El algoritmo de codificación real opera sobre una trama de señal fija (que contiene un número de muestras pre-definido) muestreada a la frecuencia de muestreo interna; por ello es en principio independiente de cualquier aumento de frecuencia. No obstante, varios atributos de códec son escalados por un factor de aumento de frecuencia, tal como la velocidad de bits, la complejidad, el ancho de banda y la frecuencia de cruce.
Sería deseable usar el método de aumento de frecuencia mencionado anteriormente con el fin de alcanzar una mayor eficiencia de codificación. Esto llevaría a una mejor calidad de señal a la misma velocidad de bits o a una menor velocidad de bits aun manteniendo el mismo nivel de calidad.
La patente de US 7050972 describe un método para un sistema de codificación de audio que adaptativamente en el tiempo ajusta la frecuencia de cruce entre un códec de núcleo para la codificación de una banda de frecuencia más baja y un sistema de regeneración de frecuencia, llamado también extensión de ancho de banda en esta memoria, de una banda de frecuencia mayor. Se describe también que la adaptación puede llevarse a cabo en respuesta a la capacidad del códec de núcleo de codificar adecuadamente la banda de frecuencia baja.
No obstante, la US 7050972 no proporciona medios para aumentar la eficiencia de codificación del códec de núcleo, es decir, que opera a una frecuencia de muestreo menor. El método se dirige meramente a mejorar la eficiencia del sistema de codificación total adaptando el ancho de banda que va a ser codificado por el códec de núcleo de manera que se asegura que el códec de núcleo puede codificar adecuadamente su banda. Por ello, el propósito es alcanzar una tasa de rendimiento óptima entre el núcleo y la extensión de ancho de banda en lugar de hacer cualquier intento que haría al códec de núcleo más eficiente.
La solicitud de patente (WO-2005096508) describe otro método que comprende un módulo de extensión de banda, un módulo de remuestreo y un códec de núcleo que comprende un módulo analizador de acústica psicológico, un módulo de mapeo de tiempo-frecuencia, un módulo de cuantificación, un módulo de codificación de entropía. El módulo de extensión de banda analiza las señales de audio introducidas originales en todo el ancho de banda, extrae la envoltura espectral de la parte de alta frecuencia y los parámetros que caracterizan la dependencia entre las partes más bajas y más altas del espectro. El módulo de remuestreo remuestrea las señales de audio introducidas, cambia la velocidad de muestreo y las extrae hacia el códec de núcleo.
No obstante, la solicitud de patente (WO-2005096508) no contiene provisiones que permitirían adaptar la operación del módulo de remuestreo dependiendo de algún análisis de la señal de entrada. Además, no se prevén medios de segmentación adaptativos de la señal de entrada original, que permitirían mapear un segmento de entrada después de un remuestreo adaptativo sobre una trama de entrada de un códec de núcleo subsiguiente, conteniendo la trama de entrada un número de muestras predefinido. La consecuencia de esto es que no puede asegurarse que el códec de núcleo opere a la velocidad de muestreo de señal más baja posible y por ello, la eficiencia del sistema de codificación global no es tan alta como sería deseable.
Otro ejemplo de tal técnica anterior es la solicitud de patente (US 2006 161 427).
La publicación C. Shahabi et al.: A comparison of different haptic compression techniques; ICME 2002 describe un sistema de muestreo adaptativo para datos hápticos que operan en tramas de datos, que periódicamente identifica la frecuencia de Nyquist para la ventana de datos y subsiguientemente remuestrea los datos a esta frecuencia. La frecuencia de muestreo se elige por razones prácticas de acuerdo con una frecuencia de corte, por encima de la cual la energía de la señal puede ser despreciada.
El problema con la solución descrita en la publicación C. Shahabi et al. mencionada anteriormente es que no proporciona ninguna ganancia en el contexto de la codificación de conversación y de audio. Para el muestreo de datos hápticos puede ser apropiado un criterio correspondiente al contenido de energía relativa por encima de la frecuencia de corte (por ejemplo 1%), que se dirige a mantener una representación exacta de los datos a la menor velocidad de muestreo posible. No obstante, en el contexto de la codificación de conversación y audio, normalmente existen restricciones fijas en la frecuencia de muestreo de entrada o de salida que implican que la señal original es filtrada primeramente con un filtro de paso bajo a una frecuencia de corte fija y subsiguientemente muestreada por disminución hasta la frecuencia de muestreo requerida de por ejemplo 8, 16, 32, 44,1 ó 48 kHz. Por ello, el ancho de banda de la señal de conversación o de audio está ya artificialmente limitado a una frecuencia de corte fija. Una adaptación subsiguiente de la frecuencia de muestreo de acuerdo con el método de esta publicación no funcionaría generalmente puesto que sólo conduciría a una frecuencia de muestreo fija en lugar de adaptativa como consecuencia de la frecuencia de corte fijada artificialmente.
Sin embargo, incluso en el caso en el que el ancho de banda está limitado artificialmente, dependiendo de las propiedades de percepción locales (en tiempo) de la señal de audio, el impacto de la limitación del ancho de banda no siempre es percibido de la misma manera. Para ciertas partes (segmentos) de la señal, en las cuales las altas frecuencias son apenas perceptibles, por ejemplo debido al enmascaramiento por el contenido en baja frecuencia dominante, sería posible un filtrado de paso bajo más agresivo y un muestreo a una frecuencia de muestreo baja de manera correspondiente. Por ello, los sistemas de codificación de conversación y audio operan sobre una frecuencia de muestreo localmente demasiado elevada con respecto a la motivada perceptualmente y así ponen en peligro la eficiencia de la codificación.
Resumen
El objeto de la presente invención es proporcionar métodos y disposiciones para mejorar la eficiencia de codificación en un códec de conversación/audio.
De acuerdo con la presente invención una mayor eficiencia de codificación se logra adaptando localmente (en tiempo) la frecuencia de muestreo y asegurando que no sea mayor de lo necesario.
De acuerdo con un primer aspecto, la presente invención se refiere a un emisor de audio/conversación que comprende un codificador de núcleo adaptado para codificar una banda de frecuencia de núcleo de una señal de audio/conversa-
ción de entrada. Operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprenden un número pre-determinado de muestras. Teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo y comprendiendo la banda de frecuencia de núcleo frecuencias hasta una frecuencia de corte. El emisor de audio/conversación de acuerdo con la presente invención comprende un dispositivo de segmentación adaptado para llevar a cabo una segmentación de la señal de audio/conversación de entrada en una pluralidad de segmentos, en el que cada segmento tiene una longitud de segmento adaptativa, un estimador de frecuencia de corte adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador, un filtro de paso bajo adaptado para filtrar cada segmento a citada la frecuencia de corte estimada, y un remuestreador adaptado para remuestrear los segmentos filtrados a una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte, con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador de núcleo.
Preferiblemente, el estimador de frecuencia de corte está adaptado para hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para el segmento dado basándose en el análisis. Además, el estimador de frecuencia de corte puede estar también adaptado para proporcionar una estimación cuantificada de la frecuencia de corte, de manera que sea posible reajustar la segmentación basándose en la citada estimación de la frecuencia de corte.
\newpage
De acuerdo con un segundo aspecto de la presente invención, se proporciona un receptor de audio/conversación adaptado para descodificar una señal de audio/conversación codificada recibida. El receptor de audio/conversación comprende un remuestreador adaptado para remuestrear una trama de audio/conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida de un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.
De acuerdo con un tercer aspecto, la presente invención se refiere a un método en un emisor de audio/conversación. El método comprende las etapas de segmentación de una señal de audio/conversación de entrada en una pluralidad de segmentos, en la que cada segmento tiene una longitud de segmento adaptativa, estimar una frecuencia de corte para cada segmento asociada con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador, filtrar con un filtro de paso bajo cada segmento a la citada frecuencia de corte estimada, y remuestrear los segmentos filtrados a una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador de núcleo.
De acuerdo con un cuarto aspecto, la presente invención se refiere a un método en un receptor de audio/conversación para descodificar una señal de audio/conversación codificada recibida. El método comprende la etapa de remuestrear una trama de audio/conversación descodificada usando información de la estimación de la frecuencia de corte para generar un segmento de audio/conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.
De este modo, usando los métodos mencionados anteriormente es posible aumentar la eficiencia de la codificación.
De acuerdo con una realización de la invención, otro aumento de la eficiencia se logra junto con la BWE. Esto permite mantener el ancho de banda y por ello la velocidad de bits del códec de núcleo en un mínimo y al mismo tiempo asegurar que el códec de núcleo opera con datos muestreados críticamente (Nyquist).
Una ventaja con la presente invención es que en las aplicaciones con conmutación de paquetes que usan IP/UDP/
RTP, la transmisión de la frecuencia de corte requerida es gratis puesto que puede ser indicada indirectamente usando los campos de marcación de tiempo. Esto asume que preferiblemente la organización en paquetes se lleva a cabo de manera que un paquete de IP/UDP/RTP corresponde a un segmento codificado.
Otra ventaja con la presente invención es que puede usarse para VoIP junto con los códecs de conversación existentes, por ejemplo AMR como códec de núcleo, puesto que el formato de transporte (por ejemplo RFC 3267) no está afectado.
Breve descripción de los dibujos
La Fig. 1 muestra un códec que ilustra esquemáticamente el concepto básico de la presente invención.
La Fig. 2 muestra el códec de la figura 1 con extensión de ancho de banda.
La Fig. 3 muestra la operación de la presente invención con extensión de ancho de banda en el dominio del residuo de LPC.
La Fig. 4 ilustra la segmentación alineada en altura, que se usa en una realización de la presente invención.
La Fig. 5 es un diagrama de flujo del método de acuerdo con la presente invención.
La Fig. 6 ilustra la realización de bucle cerrado.
Descripción detallada
En la siguiente descripción, con el propósito de explicación y no de limitación, se explican detalles específicos, tales como secuencias particulares de etapas, protocolos de señalización y configuraciones de dispositivos con el fin de proporcionar una completa comprensión de la presente invención. Resultará evidente para un experto que la presente invención puede ser practicada en otras realizaciones que se separan de estos detalles específicos.
Además, los expertos apreciarán que las funciones explicadas en lo que sigue pueden ser implementadas usando funciones de software junto con un microprocesador programado o un ordenador de propósito general, y/o usando un application specific integrated circuit (ASIC - Circuito Integrado Específico para una Aplicación). Resultará también evidente que mientras que la invención actual se ha descrito en primer lugar en forma de métodos y dispositivos, la invención puede ser también realizada en un producto de programa de ordenador así como en un sistema que comprenda un procesador de ordenador y una memoria acoplada al procesador, en el que la memoria sea codificada con uno o más programas que puedan llevar a cabo las funciones explicadas aquí.
El concepto básico de la invención es dividir una señal de conversación/audio que va a ser transmitida en segmentos de una cierta longitud. Para cada segmento un estimador de frecuencia de corte orientado perceptualmente deriva la localmente (por segmento) adecuada frecuencia de corte fc, lo que conduce a una pérdida de calidad perceptual definida. Esto implica que el estimador de frecuencia de corte está adaptado para seleccionar una frecuencia de corte tal que haga la distorsión de señal debida a la limitación en banda de manera que una persona las percibiría como por ejemplo tolerables, apenas audibles, inaudibles.
La figura 1 ilustra un emisor 105 y un receptor 165 de acuerdo con la presente invención. Un dispositivo de segmentación 110 divide la señal de conversación entrante en segmentos y un estimador de frecuencia de corte deriva una frecuencia de corte para cada segmento, preferiblemente basándose en un criterio perceptual. Los criterios perceptuales se dirigen a imitar la percepción humana y se aplican frecuentemente en la codificación de una señal de conversación y audio. La codificación de acuerdo con un criterio perceptual significa realizar la codificación aplicando un modelo psicoacústico de la audición. El modelo psicoacústico determina un perfil de conformación de ruido de objetivo al cual el ruido de codificación se adapta en forma de manera que los errores de cuantificación (o codificación) son menos audibles para un oído humano. Un modelo psicoacústico simple es parte de muchos codificadores de conversación que aplican un filtrado ponderado perceptual durante la determinación de la señal de excitación del filtro mediante síntesis por LPC. Los códecs de audio normalmente aplican modelos psicoacústicos más sofisticados que pueden comprender enmascaramiento de frecuencia, lo que, por ejemplo, hace que los componentes espectrales de baja energía estén cerca de los componentes espectrales de alta energía inaudibles. La modelización psicoacústica es bien conocida para los expertos en la codificación de conversación y de audio. Los segmentos son a continuación filtrados mediante un filtro de paso bajo 120 de acuerdo con la frecuencia de corte. Un remuestreador 130 subsiguientemente remuestrea el segmento con una frecuencia (por ejemplo 2fc) que está elegida de acuerdo con la frecuencia de corte perceptual, conduciendo a una trama 135. Esta frecuencia es transmitida al receptor 165 bien sea directa o indirectamente por medio de la longitud del segmento. La longitud del segmento a su vez corresponde a la diferencia de marcación de tiempo entre dos paquetes sucesivos, asumiendo que se usa un protocolo de transporte de IP/UDP/RTP o similar y que se transmite un segmento codificado por paquete. Puede observarse también que la relación entre la longitud del segmento l_{s} y f_{c} es: l_{s} = n_{f}/2f_{c} donde n_{f} es igual a la longitud de trama en las muestras. La trama es un vector de muestras de entrada al codificador, sobre el que opera el codificador. La trama es así codificada por el codificador 140 de un códec de conversación o audio arbitrario y transmitida sobre el canal 170. En el receptor 165, la trama codificada es descodificada usando el descodificador 150. La trama descodificada es remuestreada en el remuestreador 160 a la frecuencia de muestreo original, lo que lleva a un segmento reconstruido 175. Para ello la frecuencia que se ha usado para el remuestreo (por ejemplo 2fc) tiene que estar disponible en el receptor 165 como se ha indicado anteriormente.
De acuerdo con una realización, la frecuencia de muestreo utilizada es transmitida directamente como un parámetro de información lateral. Típicamente, con el fin de limitar la velocidad de bits requerida para ello, debe llevarse a cabo una cuantificación y una codificación de este parámetro. Por ello, el bloque estimador de segmentación y de frecuencia de corte comprende una entidad de cuantificación y de codificación para él. Una realización típica es usar un cuantificador escalar y para restringir el número de posibles frecuencias de corte a un número pequeño de por ejemplo 2 ó 4, en cuyo caso es posible una codificación de uno o de dos bits.
De acuerdo con realizaciones alternativas, la frecuencia de muestreo utilizada es transmitida mediante señalización indirecta por medio de la segmentación. Una manera es señalar la longitud del segmento elegido (y cuantificado). Típicamente, la frecuencia de corte es derivada de la longitud del segmento por medio de la relación f_{c} = n_{f}/2l_{s}, que relaciona la longitud del segmento l_{s} con la frecuencia de corte f_{c} y la longitud de trama en las muestras n_{f}. Otra posibilidad indirecta es transmitir la frecuencia de muestreo utilizada indirectamente usando las marcas de tiempo de la primera muestra de un paquete de IP/UDP/RTP y de la primera muestra del paquete subsiguiente, donde se asume que la organización en paquetes se lleva a cabo con un segmento codificado por paquete. De este modo, el estimador de frecuencia de corte 110 está adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador 150 directamente como un parámetro de información lateral o bien esté adaptado también para transmitir información sobre la frecuencia de corte estimada a un descodificador 150 indirectamente usando instantes de tiempo de una primera muestra del segmento actual y una primera muestra de un segmento subsiguiente.
Otra manera de señalización indirecta es utilizar la velocidad de bits asociada con cada segmento para señalización. Asumiendo una configuración en la cual está disponible una velocidad de bits constante para la codificación de cada trama, una baja velocidad de bits (por intervalo de tiempo) corresponde a un segmento largo y por ello a una frecuencia de corte baja y vice-versa. Otra manera más es asociar los instantes de tiempo de transmisión para los segmentos codificados con sus instantes de tiempo de finalización o con los instantes de tiempo de inicio de los respectivos siguientes segmentos. Por ejemplo cada segmento codificado se transmite un tiempo pre-definido después de su tiempo de finalización. A continuación, siempre que la transmisión no introduzca una fluctuación de retardo grande, las respectivas longitudes de segmento pueden ser derivadas basándose en los tiempos de llegada de los segmentos codificados en el receptor.
La derivación de una frecuencia de corte perceptual y de una segmentación adaptativa de la señal de entrada original se muestra como ejemplo mediante el siguiente procedimiento:
1. Empezar con alguna longitud de segmento inicial l_{0} que puede ser un valor pre-definido (por ejemplo 20 ms) o puede estar basado en la longitud del segmento previo.
2. Extraer un segmento con longitud l_{0} empezando con la primera muestra que sigue al final del segmento previo y proporcionarla al estimador de frecuencia de corte perceptual.
3. El estimador de frecuencia de corte realiza un análisis de frecuencia del segmento, que puede estar basado por ejemplo en un análisis mediante LPC, en aluna transformada del dominio de la frecuencia como la FTT o usando baterías de filtros.
4. Calcular y aplicar un criterio perceptual, que proporciona una indicación del impacto perceptual (audible) de una limitación en banda de la señal de entrada. Preferiblemente, esto tiene en cuenta el ruido de codificación que puede ser introducido por una codificación subsiguiente (incluyendo una posible BWE). En particular, en el caso de un elevado ruido de codificación (por ejemplo como consecuencia de una baja velocidad de bits), el impacto perceptual de una limitación en banda de la señal de entrada será menor y por ello una mayor limitación en banda será más tolerable.
5. Determinar la frecuencia f_{c} a la cual el contenido espectral necesita ser mantenido con el fin de satisfacer un nivel de calidad predefinido de acuerdo con el criterio perceptual calculado.
6. Reajustar la longitud del segmento basándose en f_{c} de acuerdo con la relación entre la frecuencia de corte y la longitud del segmento, que es típicamente l_{f} = n_{f}/2f_{c}, donde n_{f} es la longitud de trama del códec subsiguiente.
7. Finalización: el algoritmo de segmentación finaliza y propaga el segmento y la frecuencia de corte identificada a los bloques de tratamiento subsiguientes. Alternativamente, la segmentación puede ser revisada si la longitud del segmento encontrado l_{f} se desvía más de una distancia predefinida de la longitud del segmento inicial l_{0}. En este caso, con el fin de aumentar la exactitud de la estimación de la frecuencia de corte, el algoritmo es introducido de nuevo en la etapa 2, con una nueva longitud de segmento inicial l_{0} = l_{f}.
Nota: Si la frecuencia de corte es cuantificada y codificada, entonces el procedimiento se restringe preferiblemente a considerar sólo longitudes de segmento que son posibles y que se toman del conjunto discreto de frecuencias de corte que son posibles tras la cuantificación. Asumiendo que tras la cuantificación puede señalarse un conjunto discreto de P frecuencias de corte F={f_{c}(i)} i=1...P, y a continuación las etapas 1, 6 y 7 deben modificarse de manera que las longitudes de segmento se tomen de un conjunto discreto L de longitudes de segmento {l(i)} i=1...P. El conjunto L a su vez se corresponde con el conjunto F por medio de la relación entre la longitud del segmento y la frecuencia de corte.
Debe observarse que los estados del códec interno resultan afectados cuando se modifica la frecuencia de muestreo a la cual el códec es operado. Estos estados tienen por ello que convertirse de una frecuencia de muestreo utilizada previamente a la frecuencia de corte de muestreo modificada. Típicamente, en el caso de que el códec tenga estados en el dominio del tiempo, esta conversión de velocidad de muestreo de los estados puede llevarse a cabo muestreándolos de nuevo a la frecuencia de muestreo cambiada.
La figura 2 muestra la presente invención en combinación con un dispositivo de bandwidth extension (BWE - Extensión de Ancho de Banda) 190. El uso del dispositivo de extensión de ancho de banda 190 en asociación con el descodificador de núcleo 150 permite reducir la frecuencia de corte perceptual efectiva para el códec de núcleo en tal grado que un dispositivo de BWE en el receptor puede aun reconstruir adecuadamente el contenido de alta frecuencia eliminado. Mientras que el códec de núcleo codifica/descodifica una banda de baja frecuencia hasta la frecuencia de corte fc, el dispositivo de BWE 190 contribuye con regenerar la banda superior que varía de fc a fs/2. Un dispositivo codificador de BWE 180 puede ser también implementado en asociación con el codificador de núcleo 140 como se ilustra en la figura 2.
En relación y a diferencia del método de la patente US 705 09 72, esta realización lleva a cabo una adaptación de la frecuencia de muestreo del códec de núcleo. Y por ello asegura la operación del códec de núcleo lo más eficientemente posible con datos muestreados críticamente. También, en contraste con US 705 09 72, que se refiere a la velocidad de muestreo a la cual el códec opera, la invención no cambia ni adapta la frecuencia de cruce de la BWE. Aunque la invención asume que el codificador de núcleo opera en toda la banda de frecuencia hasta la frecuencia de corte, la patente US 705 09 72 prevé un codificador de núcleo que tiene una frecuencia de cruce variable.
La presente invención puede ser implementada en una realización de bucle abierto y en una de bucle cerrado.
En la realización de bucle abierto el estimador de frecuencia de corte realiza un análisis de las propiedades del segmento de entrada dado de acuerdo con el mismo criterio perceptual. Determina la frecuencia de corte que se va a usar para un segmento dado basándose en este análisis y posiblemente basándose en alguna suposición del rendimiento del códec de núcleo y en la BWE. Específicamente, este análisis se lleva a cabo en la etapa 4 del procedimiento de segmentación y de frecuencia de corte.
En la realización de bucle cerrado, mostrada en la figura 6, la etapa 4 del procedimiento de segmentación y frecuencia de corte implica una versión local del descodificador de núcleo 601, BWE 602, muestreador por aumento 603 y combinador de banda (punto de adición) 604, que lleva a cabo una reconstrucción 605 completa de la señal recibida que puede ser generada por el receptor. Subsiguientemente un calculador 606 de distorsión de codificación compara la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, que de nuevo típicamente implica un criterio perceptual. Si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, el estimador de frecuencia de corte 607 está adaptado para ajustar la frecuencia de corte y por ello la velocidad de bits consumida por intervalo de tiempo de manera que la distorsión de codificación determinada por la unidad de cálculo de distorsión de codificación 606 permanece dentro de los límites pre-definidos. Si, por otro lado, la calidad de señal es demasiado buena, esto es una indicación de que se invierte demasiada velocidad de bits por segmento. Por ello, la longitud del segmento puede aumentar, correspondiendo a una frecuencia de corte y velocidad de bits menor. Debe observarse que el esquema de bucle cerrado funciona igualmente bien en otra realización como se ha descrito anteriormente pero sin el uso de ninguna BWE.
En una realización similar, un esquema de BWE primaria puede ser asumido como parte del códec de núcleo. En este caso, puede ser apropiado emplear una BWE secundaria, que de nuevo extiende la banda de reconstrucción de fc a fs/2 y que corresponde al bloque de la BWE 190 de la figura 2.
Hay algunos factores generales que pueden preferiblemente influenciar la selección de la frecuencia de segmentación y de corte:
\bullet Señal de entrada de fuente
La clase de la señal (conversación, música, mezcla, inactividad) que puede ser obtenida basándose en alguna decisión del detector (por ejemplo que implica un detector de actividad de música/voz) o basándose en un conocimiento a priori (derivado de meta-datos) de los medios que se van a codificar.
La condición de ruido de la señal de entrada obtenida de algún detector. Por ejemplo, en presencia de ruido de ambiente, la frecuencia de corte puede ser ajustada a la baja con el fin de reducir la cantidad de este componente no deseado de la señal y por ello elevar la calidad general. También, reducir la frecuencia de corte en respuesta a la condición de ruido de ambiente es una medida para reducir la pérdida de recurso de transmisión (velocidad de bits) para componentes de señal no deseados.
\bullet Velocidad de bits de objetivo
La frecuencia de corte puede depender de la velocidad de bits de objetivo (posiblemente) variable con el tiempo para la codificación. Típicamente, una velocidad de bits de objetivo más baja llevará a una frecuencia de corte más baja y vice-versa.
\bullet Información desde el extremo receptor
La frecuencia de corte puede depender del conocimiento de las propiedades del canal de transmisión y de las condiciones en el extremo receptor, el cual se obtiene típicamente por medio de algún canal de señalización de retorno. Por ejemplo, una indicación de un mal canal de transmisión puede llevar a disminuir la frecuencia de corte con el fin de reducir el contenido de la señal espectral que puede estar afectada por errores de transmisión y para mejorar con ello la calidad percibida en el receptor. También, una reducción de la frecuencia de corte puede corresponder a una reducción de la velocidad de bits consumida, lo que tiene un efecto positivo en el caso de una condición de congestión en la red de transporte.
Otra información desde el extremo receptor puede comprender información sobre la capacidad del terminal del extremo receptor y las condiciones de reproducción de la señal. Una indicación por ejemplo de una reconstrucción de señal de baja calidad en el receptor puede llevar a reducir la frecuencia de corte con el fin de evitar la pérdida de velocidad de bits de transmisión.
De acuerdo con otra realización la presente invención se aplica con Linear Predictive Coding (LPC - Codificación de Predicción Lineal) como se ilustra en la figura 3. La figura 3 ilustra un emisor y un receptor como se describen junto con la figura 2. Específicamente, un análisis mediante LPC es llevado a cabo por un dispositivo de LPC 301 que es una redundancia para eliminar el dispositivo de predicción adaptativo. El dispositivo de LPC 301 puede estar situado antes del filtrado de paso bajo 120 y tras el estimador de la segmentación y de la frecuencia de corte 110 o bien antes del estimador de la segmentación y de la frecuencia de corte 110 que lleva al residuo de LPC que es proporcionado al dispositivo de remuestreo (es decir el filtro de paso bajo y el muestreador por reducción). El residuo de LPC es la entrada (de conversación) filtrada por el filtro de análisis mediante LPC. Se llama también señal de error de predicción mediante LPC. El receptor genera la señal de salida final por medio de la síntesis mediante LPC inverso que filtra la señal obtenida por el combinador de banda (es decir un punto de adición). Los parámetros de LPC 303 que describen la envoltura espectral del segmento y posiblemente un factor de ganancia son transmitidos al receptor para la síntesis mediante LPC 302 como información lateral adicional. El beneficio con este planteamiento -puesto que el análisis mediante LPC se lleva a cabo a la velocidad de muestreo f_{s} original y antes del remuestreo- que proporciona al receptor una descripción exacta de la envoltura de muestreo completa (es decir que incluye la banda de BWE de la realización anterior) hasta fs/2 en lugar de sólo f_{c} que sería el caso si la LPC fuese sólo parte del códec de núcleo. El planteamiento descrito con LPC tiene el efecto positivo de que la BWE puede incluso ser tan simple como un esquema por ejemplo que comprende meramente un generador de ruido blanco complejo simple y bajo, una carpeta espectral o un desviador de frecuencia (modulador).
De acuerdo con otra realización, la frecuencia de corte y la correspondiente frecuencia de remuestreo de señal 2f_{c} son seleccionadas basándose en una estimación de frecuencia de altura. Esta realización hace uso del hecho de que la conversación de voz es altamente periódica con la altura de la frecuencia fundamental, lo que tiene su origen en la excitación periódica de la glotis durante la generación de la conversación de voz humana. La segmentación y por ello la frecuencia de corte es ahora elegida de manera que cada segmento 401 contenga un periodo o un múltiplo entero de periodos de la señal de conversación de acuerdo con la figura 4. De manera más específica, típicamente la frecuencia fundamental de conversación está en el intervalo de aproximadamente 100 a 400 Hz, lo que corresponde a periodos de 10 ms hasta 2,5 ms. Si la señal de conversación no tiene voz carece de periodicidad con una frecuencia de altura. En ese caso la segmentación puede ser realizada de acuerdo con una elección fijada de la frecuencia de remuestreo o, preferiblemente, la selección de la segmentación y de la frecuencia de corte se lleva a cabo de acuerdo con cualquiera de las reivindicaciones de este documento.
Una segmentación correspondiente permite una operación síncrona en altura que puede hacer que el algoritmo de codificación sea más eficiente puesto que la periodicidad de la conversación puede ser explotada más fácilmente y la estimación de varios parámetros estadísticos de la señal de conversación (tales como parámetros de ganancia o e LPC) se hace más consistente.
Como se ha explicado anteriormente, la presente invención se refiere a un emisor de audio/conversación y a un receptor de audio/conversación. Además, la presente invención se refiere también a métodos para un emisor de audio/conversación y para un receptor de audio/conversación. Una realización del método en el emisor se ilustra en el diagrama de flujo de la figura 5a y comprende las etapas de:
501. Llevar a cabo una segmentación inicial de la señal de conversación de entrada en una pluralidad de segmentos.
502. Estimar una frecuencia de corte para cada segmento y adaptada para transmitir información sobre la frecuencia de corte estimada a un descodificador.
502a. Reajustar la segmentación basándose en las estimaciones de la frecuencia de corte. Si la nueva segmentación se desvía más de un umbral de la previa volver a la etapa 502.
503. Filtrar mediante un filtro de paso bajo cada segmento y la citada frecuencia de corte estimada.
504. Remuestrear los segmentos filtrados con una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte con el fin de generar una trama de conversación para ser codificada por el citado codificador de núcleo.
El método en el receptor se ilustra en el diagrama de flujo de la figura 5b y comprende la etapa de:
505. Remuestrear la trama de conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para estimar y transmitir la citada información.
Aunque la presente invención se ha descrito con respecto a realizaciones particulares (que incluyen ciertas disposiciones de dispositivo y ciertas órdenes de etapas dentro de varios métodos), los expertos reconocerán que la presente invención no está limitada a las realizaciones específicas descritas e ilustradas aquí. Por lo tanto, debe entenderse que esta descripción es sólo ilustrativa. De acuerdo con esto, se pretende que la invención esté limitada sólo por el ámbito de las reivindicaciones dependientes de la misma.

Claims (36)

1. Un emisor de audio/conversación (105) que comprende un codificador de núcleo adaptado a una banda de frecuencia de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo, y comprendiendo la banda de frecuencia de núcleo hasta una frecuencia de corte, caracterizado porque el emisor de audio/conversación (105) comprende también:
- un dispositivo de segmentación (110) adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador.
- un filtro de paso bajo (120) adaptado para filtrar cada segmento a la citada frecuencia de corte estimada, y un remuestreador (130) adaptado para remuestrear cada segmento filtrado a una segunda frecuencia de muestreo que corresponde a la frecuencia de corte del citado segmento filtrado con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificada por el citado codificador de núcleo (140).
2. El emisor de audio/conversación (105) de acuerdo con la reivindicación 1, caracterizado porque el estimador de frecuencia de corte (110) está adaptado para hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para un segmento dado basándose en el análisis.
3. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-2, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para proporcionar una estimación cuantificada de la frecuencia de corte.
4. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-3, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador directamente como un parámetro de información lateral.
5. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-3, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador mediante señalización indirecta por medio de la segmentación.
6. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para utilizar la longitud de cada segmento para la señalización indirecta.
7. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para utilizar la velocidad de bits asociada con cada segmento para la señalización indirecta.
8. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada al descodificador indirectamente usando instantes de tiempo de una primera muestra del segmento actual y una primera muestra de un segmento subsiguiente.
9. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-8, caracterizado porque comprende un dispositivo de predicción (301) lineal situado antes del filtro de paso bajo (120) y después del dispositivo de segmentación (110) y del estimador de frecuencia de corte (110) y adaptado para producir un residuo de LPC que es proporcionado al remuestreador.
10. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-8, caracterizado porque comprende un dispositivo de predicción (301) lineal situado antes del dispositivo de segmentación y del estimador de frecuencia de corte y adaptado para producir un residuo de LPC que es proporcionado al dispositivo de segmentación (110).
11. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-10, caracterizado porque al menos una de las frecuencias de corte y la segunda frecuencia de muestreo es seleccionada basándose en una estimación de frecuencia de altura.
12. El emisor de audio/conversación (105) de acuerdo con la reivindicación 1, caracterizado porque comprende medios para la generación de una señal que corresponde a la señal de salida del receptor (165).
13. El emisor de audio/conversación (105) de acuerdo con la reivindicación 12, caracterizado porque comprende una versión local de un descodificador de núcleo (601) y un muestreador por aumento (603) adaptado para llevar a cabo una reconstrucción completa de la señal recibida, comprende también un calculador de distorsión de codificación (606) adaptado para comparar la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, por lo que si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, el estimador de frecuencia de corte (110) está adaptado para reajustar la frecuencia de corte y la velocidad de bits consumida por intervalo de tiempo hacia arriba de manera que la distorsión de codificación permanece dentro de ciertos límites predefinidos, y si la calidad de la señal es demasiado buena el estimador de frecuencia de corte (110) está adaptado para aumentar la longitud del segmento correspondiente hasta una menor frecuencia de corte y velocidad de bits.
14. El emisor de audio/conversación (105) de acuerdo con la reivindicación 12, caracterizado porque comprende también una versión local de un dispositivo de extensión de ancho de banda (602) y un combinador de banda (604) adaptado para llevar a cabo una reconstrucción completa de la señal recibida incluyendo una banda de alta frecuencia reconstruida por la BWE.
15. Un receptor de audio/conversación (165) adaptado para descodificar una señal de audio/conversación codificada recibida, caracterizado porque comprende un remuestreador (160) adaptado para remuestrear una trama de audio/conversación descodificada usando información (162) de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para estimar la frecuencia de corte asociada con la longitud de segmento adaptativa y adaptado para generar y transmitir la citada información.
16. El receptor de audio/conversación (165) de acuerdo con la reivindicación 15, caracterizado porque comprende al menos un dispositivo de extensión de ancho de banda (190) adaptado para reconstruir las frecuencias por encima de la frecuencia de corte estimada.
17. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 15-16, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada directamente como un parámetro de información lateral.
18. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 15-17, caracterizado porque está adaptado para recibir información sobre la frecuencia de corte estimada mediante señalización indirecta por medio de la segmentación.
19. El receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está adaptado para recibir la longitud de segmento elegida y cuantificada.
20. el receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está adaptado para recibir la velocidad de bits asociada con cada segmento para la señalización indirecta.
21. El receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada por cada instante de tiempo de una primera muestra de segmento actual y una primera muestra de un segmento subsiguiente.
22. Un método en un emisor de audio/conversación que comprende un codificador de núcleo adaptado para codificar una banda de frecuencia de núcleo de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, la señal de conversación de entrada tiene una primera frecuencia de muestreo y la banda de frecuencia de núcleo comprende frecuencias hasta una frecuencia de corte caracterizado por:
- segmentación (501) de la señal de audio/conversación de entrada en una pluralidad de segmentos, en la que cada segmento tiene una longitud de segmento adaptativa,
- estimar (502) una frecuencia de corte para cada segmento asociada con la longitud de segmento adaptativa y adaptada para transmitir información sobre la frecuencia de corte estimada a un descodificador,
- filtrar mediante un filtro de paso bajo (503) cada segmento a la citada frecuencia de corte estimada, y
- remuestrear (504) los segmentos filtrados con una segunda frecuencia de muestreo que corresponde a la citada frecuencia de corte con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador (140).
23. El método de acuerdo con la reivindicación 22, caracterizado por la siguiente etapa de:
- hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para el segmento dado basándose en el análisis.
24. El método de acuerdo con cualquiera de las reivindicaciones 22-23, caracterizado por la siguiente etapa de:
- reajustar (502a) la segmentación basándose en las estimaciones de la frecuencia de corte.
25. El método de acuerdo con cualquiera de las reivindicaciones 22-24, caracterizado por la siguiente etapa de:
- transmitir información sobre la frecuencia de corte estimada a un descodificador directamente como un parámetro de información lateral.
26. El método de acuerdo con cualquiera de las reivindicaciones 22-25, caracterizado por la siguiente etapa de:
- transmitir información sobre la frecuencia de corte estimada a un descodificador indirectamente por medio de la segmentación.
27. El método de acuerdo con cualquiera de las reivindicaciones 22-26, caracterizado por la siguiente etapa de:
- producir un residuo de LPC, antes del filtrado mediante un filtro de paso bajo y después de la segmentación y de la estimación de la frecuencia de corte, que es proporcionado al remuestreador.
28. El método de acuerdo con cualquiera de las reivindicaciones 22-27, caracterizado por la siguiente etapa de:
- producir un residuo de LPC, antes de la segmentación y de la estimación de la frecuencia de corte, que es proporcionado a la etapa de segmentación.
29. El método de acuerdo con cualquiera de las reivindicaciones 22-28, caracterizado porque al menos una de las frecuencias de corte y la segunda frecuencia de muestreo está seleccionada basándose en una estimación de la frecuencia de altura.
30. El método de acuerdo con la reivindicación 22, caracterizado por la siguiente etapa de generar una señal que se corresponde con la señal de salida del receptor (165).
31. El método de acuerdo con la reivindicación 30, caracterizado por la siguiente etapa de:
- llevar a cabo una completa reconstrucción de la señal recibida, comparar la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, por lo que si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, se ajusta la frecuencia de corte y la velocidad de bits consumida por cada intervalo de tiempo ascendente de manera que la distorsión de la codificación permanece dentro de ciertos límites predefinidos, y si la calidad de la señal es demasiado buena, se aumenta la longitud del segmento correspondiente a una menor frecuencia de corte y velocidad de bits.
32. El método de acuerdo con la reivindicación 30, caracterizado por la siguiente etapa de llevar a cabo una completa reconstrucción de la señal recibida incluyendo una banda de alta frecuencia reconstruida mediante BWE.
33. Un método en un receptor de audio/conversación para descodificar una señal de audio/conversación codificada recibida, caracterizado por la etapa de:
- remuestrear (505) una trama de audio/conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de audio/conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.
34. El método de acuerdo con la reivindicación 33, caracterizado por la siguiente etapa de:
- reconstruir las frecuencias por encima de la frecuencia de corte estimada por al menos un dispositivo de extensión de ancho de banda.
35. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 33-34, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada directamente como un parámetro de información lateral.
36. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 33-34, caracterizado porque está adaptado para recibir información sobre la frecuencia de corte estimada mediante señalización indirecta por medio de la segmentación.
ES06778434T 2006-09-13 2006-09-13 Metodos y disposiciones para un emisor y receptor de conversacion/audio. Active ES2343862T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2006/066324 WO2008031458A1 (en) 2006-09-13 2006-09-13 Methods and arrangements for a speech/audio sender and receiver

Publications (1)

Publication Number Publication Date
ES2343862T3 true ES2343862T3 (es) 2010-08-11

Family

ID=37963957

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06778434T Active ES2343862T3 (es) 2006-09-13 2006-09-13 Metodos y disposiciones para un emisor y receptor de conversacion/audio.

Country Status (8)

Country Link
US (1) US8214202B2 (es)
EP (1) EP2062255B1 (es)
JP (1) JP2010503881A (es)
CN (1) CN101512639B (es)
AT (1) ATE463028T1 (es)
DE (1) DE602006013359D1 (es)
ES (1) ES2343862T3 (es)
WO (1) WO2008031458A1 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
BRPI0910285B1 (pt) * 2008-03-03 2020-05-12 Lg Electronics Inc. Métodos e aparelhos para processamento de sinal de áudio.
ES2464722T3 (es) * 2008-03-04 2014-06-03 Lg Electronics Inc. Método y aparato para procesar una señal de audio
AU2009267532B2 (en) 2008-07-11 2013-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for calculating a number of spectral envelopes
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
AU2009267507B2 (en) 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
CN101930736B (zh) * 2009-06-24 2012-04-11 展讯通信(上海)有限公司 基于子带滤波框架的解码器的音频均衡方法
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
US9026440B1 (en) * 2009-07-02 2015-05-05 Alon Konchitsky Method for identifying speech and music components of a sound signal
GB2476041B (en) * 2009-12-08 2017-03-01 Skype Encoding and decoding speech signals
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN103262162B (zh) * 2010-12-09 2015-06-17 杜比国际公司 用于有理重采样器的心理声学滤波器设计
MY186055A (en) * 2010-12-29 2021-06-17 Samsung Electronics Co Ltd Coding apparatus and decoding apparatus with bandwidth extension
US8666753B2 (en) 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
CN103915104B (zh) * 2012-12-31 2017-07-21 华为技术有限公司 信号带宽扩展方法和用户设备
PL3550562T3 (pl) * 2013-02-22 2021-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposoby i urządzenia dla zawieszenia DTX w kodowaniu audio
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
CN110244833B (zh) 2013-05-23 2023-05-12 美商楼氏电子有限公司 麦克风组件
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
CN105279193B (zh) * 2014-07-22 2020-05-01 腾讯科技(深圳)有限公司 文件处理方法及装置
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
CN107112012B (zh) 2015-01-07 2020-11-20 美商楼氏电子有限公司 用于音频处理的方法和***及计算机可读存储介质
US10061554B2 (en) * 2015-03-10 2018-08-28 GM Global Technology Operations LLC Adjusting audio sampling used with wideband audio
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
CN106328153B (zh) * 2016-08-24 2020-05-08 青岛歌尔声学科技有限公司 电子通信设备语音信号处理***、方法和电子通信设备
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4417102A (en) * 1981-06-04 1983-11-22 Bell Telephone Laboratories, Incorporated Noise and bit rate reduction arrangements
US4626827A (en) * 1982-03-16 1986-12-02 Victor Company Of Japan, Limited Method and system for data compression by variable frequency sampling
JPS58165443A (ja) * 1982-03-26 1983-09-30 Victor Co Of Japan Ltd 信号の符号化記憶装置
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5543792A (en) * 1994-10-04 1996-08-06 International Business Machines Corporation Method and apparatus to enhance the efficiency of storing digitized analog signals
JPH11215006A (ja) * 1998-01-29 1999-08-06 Olympus Optical Co Ltd ディジタル音声信号の送信装置及び受信装置
US6208276B1 (en) * 1998-12-30 2001-03-27 At&T Corporation Method and apparatus for sample rate pre- and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US6531971B2 (en) * 2000-05-15 2003-03-11 Achim Kempf Method for monitoring information density and compressing digitized signals
JP2002169597A (ja) * 2000-09-05 2002-06-14 Victor Co Of Japan Ltd 音声信号処理装置、音声信号処理方法、音声信号処理のプログラム、及び、そのプログラムを記録した記録媒体
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
SE0004838D0 (sv) * 2000-12-22 2000-12-22 Ericsson Telefon Ab L M Method and communication apparatus in a communication system
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
FR2821218B1 (fr) * 2001-02-22 2006-06-23 Cit Alcatel Dispositif de reception pour un terminal de radiocommunication mobile
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
JP3875890B2 (ja) * 2002-01-21 2007-01-31 株式会社ケンウッド 音声信号加工装置、音声信号加工方法及びプログラム
JP3960932B2 (ja) * 2002-03-08 2007-08-15 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
CN100505516C (zh) * 2003-06-25 2009-06-24 美商内数位科技公司 包括高通滤波器补偿模块以抑制因模拟高通滤器不足所生群组延迟变异失真的数字基带接收器
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
WO2005096508A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Equipement de codage et de decodage audio ameliore, procede associe
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
US20070192086A1 (en) * 2006-02-13 2007-08-16 Linfeng Guo Perceptual quality based automatic parameter selection for data compression
JP2007333785A (ja) * 2006-06-12 2007-12-27 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法

Also Published As

Publication number Publication date
EP2062255A1 (en) 2009-05-27
US8214202B2 (en) 2012-07-03
WO2008031458A1 (en) 2008-03-20
EP2062255B1 (en) 2010-03-31
JP2010503881A (ja) 2010-02-04
CN101512639B (zh) 2012-03-14
US20090234645A1 (en) 2009-09-17
ATE463028T1 (de) 2010-04-15
DE602006013359D1 (de) 2010-05-12
CN101512639A (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
ES2343862T3 (es) Metodos y disposiciones para un emisor y receptor de conversacion/audio.
ES2826374T3 (es) Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
JP5096498B2 (ja) エンベデッド無音及び背景雑音圧縮
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
US9047863B2 (en) Systems, methods, apparatus, and computer-readable media for criticality threshold control
ES2354427T3 (es) Mejora de la calidad de audio decodificado mediante la adición de ruido.
JP6386376B2 (ja) マルチレート・スピーチ/オーディオ・コーデックのためのフレーム損失隠匿
KR101422379B1 (ko) 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉
RU2673847C2 (ru) Системы и способы передачи избыточной информации кадра
EP1785984A1 (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
ES2452300T3 (es) Dispositivo de alisamiento espectral, dispositivo de codificación, dispositivo de decodificación, dispositivo de terminal de comunicación, dispositivo de estación base y método de alisamiento espectral
JP6335190B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
ES2287150T3 (es) Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz.
KR20030076646A (ko) 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치
JP2012529243A (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
ES2844231T3 (es) Modelado de señales de banda alta
WO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
BR112016030384B1 (pt) Ajuste de ganho temporal baseado em característica de sinal de banda alta
ES2546028T3 (es) Un método y un dispositivo de codificación/decodificación
WO2014051964A1 (en) Apparatus and method for audio frame loss recovery
JP6286554B2 (ja) 低演算資源を用いて符号化済みオーディオ信号を復号化する装置及び方法
RU2437170C2 (ru) Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации