ES2474915T3 - Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes - Google Patents

Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes Download PDF

Info

Publication number
ES2474915T3
ES2474915T3 ES07850512.0T ES07850512T ES2474915T3 ES 2474915 T3 ES2474915 T3 ES 2474915T3 ES 07850512 T ES07850512 T ES 07850512T ES 2474915 T3 ES2474915 T3 ES 2474915T3
Authority
ES
Spain
Prior art keywords
section
gain
quantification
band
target band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07850512.0T
Other languages
English (en)
Inventor
Tomofumi Yamanashi
Masahiro Oshikiri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Corp
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Panasonic Intellectual Property Corp of America filed Critical Panasonic Corp
Application granted granted Critical
Publication of ES2474915T3 publication Critical patent/ES2474915T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato (100, 100a, 500, 700) de codificación de habla adaptado para realizar codificación en una base trama a trama, comprendiendo el aparato de codificación de habla: una sección (101) de transformación adaptada para transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia; una sección (102) de selección adaptada para dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas, y adaptada adicionalmente para seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas, y adaptada adicionalmente para generar una información de banda que indica la banda objetivo de cuantificación; una sección (103) de cuantificación de forma adaptada para cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación; una sección (105, 505, 705) de cuantificación de ganancia adaptada para codificar una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia; y una sección (104) de determinación adaptada: para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado, y para determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado, donde la sección de cuantificación de ganancia está adaptada: para obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada cuando la sección de determinación ha determinado que la codificación predictiva se ha de realizar, y para obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación cuando la sección de determinación ha determinado que la codificación predictiva no se ha de realizar.

Description

Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes
5 Campo técnico
La presente invención se refiere a un aparato de codificación/aparato de decodificación y a un método de codificación/método de decodificación usado en un sistema de comunicación en el que se codifica y transmite una señal, y se recibe y decodifica.
T�cnica anterior
Cuando se transmite una señal de habla/audio en un sistema de comunicación móvil o un sistema de comunicación de paquetes caracterizado por comunicación de internet, se usa a menudo tecnología de compresión/codificación
15 para aumentar la eficacia de transmisión de señal de habla/audio. También, en los últimos años, se ha desarrollado un método de codificación/decodificación escalable que posibilita obtener una señal decodificada de buena calidad a partir de parte de información codificada incluso si ocurre un error de transmisión durante la transmisión.
Una tecnología de compresión/codificación anteriormente descrita es una tecnología de codificación predictiva de dominio de tiempo que aumenta la eficacia de compresión usando la correlación temporal de una señal de habla y/o señal de audio (en lo sucesivo denominada como “señal de habla/audio”). Por ejemplo, en el Documento de Patente 1, se predice una señal de trama actual a partir de una señal de trama pasada, y el método de codificación predictiva cambia de acuerdo con el error de predicción. También, en el Documento Distinto de Patente 1, se describe una tecnología en la cual un método de codificación predictiva cambia de acuerdo con el grado de cambio en el dominio
25 de tiempo de un parámetro de habla tal como LSF (Frecuencia Espectral de Línea) y el estado de aparición de error de trama.
Documento de Patente 1: Solicitud de Patente Japonesa Abierta a Inspección Pública N� HEI 8-211900 Documento distinto de Patente 1: Thomas Eriksson, Jan Linden y Jan Skoglund, “Exploiting Inter-frame Correlation In Spectral Quantization,” “Acoustics, Speech, and Signal Processing,” 1996. ICASSP-96. Conference Proceedings, 7-10 de mayo de 1996 página(s): 765 -768 vol. 2
El documento US 2003/093271 A1 tiene por objeto proporcionar un dispositivo de codificación que es capaz de codificar una señal de audio con una alta tasa de compresión, al proporcionar un dispositivo de decodificación que
35 es capaz de decodificar la señal de audio codificada, y al reproducir datos espectrales de frecuencia de banda ancha y una señal de audio de banda ancha. Para conseguir este objetivo, el sistema del documento se centra en una unidad de extensión de banda y una unidad de codificación. Un espectro de frecuencia, transformado desde una señal de entrada en un dominio de tiempo, est� dividido en un espectro de frecuencia inferior y unos datos de extensión que especifican un espectro de frecuencia superior. La unidad de codificación se hace funcionar para codificar el espectro de frecuencia inferior y los datos de extensión y para emitir el espectro de frecuencia inferior codificado y los datos de extensión.
Adicionalmente, se copia un espectro parcial como el espectro de frecuencia superior de entre una pluralidad de los espectros parciales que forman el espectro de frecuencia inferior. En relación con el espectro de frecuencia superior,
45 no el propio espectro ha de codificarse, sino principalmente los datos para copiar el espectro de frecuencia inferior, que sustituyen el espectro de frecuencia superior. Esto da como resultado que puede reducirse el efecto de que la cantidad de datos que se consume mediante la corriente de datos codificada que representa los componentes de frecuencia superior.
El artículo “APVQ Encoder Applied to Wideband Speech Coding” por Salavedra J. M. et al., 3 de octubre de 1996, se refiere a una técnica de codificación de habla de banda ancha en la que un codificador APVQ combina técnicas de codificación de subbanda, cuantificación de vector y predicción adaptativa. Se enseña que una señal de habla se divide en 16 subbandas por medio de un banco de filtro QMF, donde cada subbanda tiene un ancho de banda de frecuencia de 500 Hz. De acuerdo con el esquema de codificación desvelado, se forma un vector de señal con una
55 muestra de la señal de error de predicción normalizada que procede de diferentes subbandas y a continuación se cuantifica el vector. Una señal de error de predicción se normaliza mediante su ganancia y la señal de error de predicción normalizada se introduce a la cuantificación del vector, y por lo tanto se considera una cuantificación de vector de ganancia-forma adaptativa.
Divulgaci�n de la invención
Problemas a resolver mediante la invención
Sin embargo, con cualquiera de las anteriores tecnologías, se realiza codificación predictiva basándose en un
65 parámetro de dominio de tiempo en una base trama a trama, y no se menciona codificación predictiva basándose en un parámetro de dominio no de tiempo tal como un parámetro de dominio de frecuencia. Si un método de codificación predictiva basándose en un parámetro de dominio de tiempo, tal como se ha descrito anteriormente, se aplica simplemente a la codificación de parámetro de dominio de frecuencia, no hay problema si una banda objetivo de cuantificación es la misma en una trama pasada y trama actual, pero si la banda objetivo de cuantificación es diferente en una trama pasada y trama actual, el error de codificación y la degradación de calidad de audio de señal
5 decodificada aumenta en gran medida, y puede no ser capaz de decodificarse una señal de habla/audio.
Es un objeto de la presente invención proporcionar un aparato de codificación y as� sucesivamente capaz de reducir la cantidad de información codificada de una señal de habla/audio, y capaz también de reducir el error de codificación de señal de habla/audio y la degradación de calidad de audio de señal decodificada, cuando un componente de frecuencia de una banda diferente se hace un objetivo de cuantificación en cada trama.
Medios para resolver los problemas
Se define un aparato de codificación de acuerdo con la presente invención en la reivindicación 1. 15 Se define un aparato de decodificación de acuerdo con la presente invención en la reivindicación 16.
Se define un método de codificación de acuerdo con la presente invención en la reivindicación 17.
Se define un método de decodificación de acuerdo con la presente invención en la reivindicación 18.
Efecto ventajoso de la invención
La presente invención reduce la cantidad de información codificada de una señal de habla/audio o similar, y puede
25 evitar también la degradación de calidad de nitidez de una señal decodificada, habla decodificada y as� sucesivamente, y puede reducir el error de codificación de una señal de habla/audio o similar y la degradación de calidad de señal decodificada.
Breve descripción de los dibujos
La Figura 1 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de hablar de acuerdo con la realización 1 de la presente invención; La Figura 2 es un dibujo que muestra un ejemplo de la configuración de regiones obtenidas mediante una sección de selección de banda de acuerdo con la realización 1 de la presente invención;
35 La Figura 3 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 1 de la presente invención; La Figura 4 es un diagrama de bloques que muestra la configuración principal de una variación de un aparato de codificación de habla de acuerdo con la realización no relacionada con la presente invención; La Figura 5 es un diagrama de bloques que muestra la configuración principal de una variación de un aparato de decodificación de habla de acuerdo con la realización no relacionada con la presente invención; La Figura 6 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 2 de la presente invención; La Figura 7 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de segunda capa de acuerdo con la realización 2 de la presente invención;
45 La Figura 8 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 2 de la presente invención; La Figura 9 es un diagrama de bloques que muestra la configuración principal del interior de una sección de decodificación de segunda capa de acuerdo con la realización 2 de la presente invención; La Figura 10 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 3 de la presente invención; La Figura 11 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 3 de la presente invención; La Figura 12 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 4 de la presente invención;
55 La Figura 13 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 4 de la presente invención; La Figura 14 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 5 de la presente invención; La Figura 15 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de mejora de banda de acuerdo con la realización 5 de la presente invención; La Figura 16 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de factor de escala correctiva de acuerdo con la realización 5 de la presente invención; La Figura 17 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de segunda capa de acuerdo con la realización 5 de la presente invención;
65 La Figura 18 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 5 de la presente invención;
La Figura 19 es un diagrama de bloques que muestra la configuración principal del interior de una sección de decodificación de mejora de banda de acuerdo con la realización 5 de la presente invención; La Figura 20 es un diagrama de bloques que muestra la configuración principal del interior de una sección de decodificación de segunda capa de acuerdo con la realización 5 de la presente invención;
5 La Figura 21 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 6 de la presente invención; La Figura 22 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de segunda capa de acuerdo con la realización 6 de la presente invención; La Figura 23 es un dibujo que muestra un ejemplo de la configuración de regiones obtenidas mediante una sección de selección de banda de acuerdo con la realización 6 de la presente invención; La Figura 24 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 6 de la presente invención; La Figura 25 es un diagrama de bloques que muestra la configuración principal del interior de una sección de decodificación de segunda capa de acuerdo con la realización 6 de la presente invención.
15 La Figura 26 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de habla de acuerdo con la realización 7 de la presente invención; La Figura 27 es un diagrama de bloques que muestra la configuración principal del interior de una sección de codificación de segunda capa de acuerdo con la realización 7 de la presente invención; La Figura 28 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 7 de la presente invención; y La Figura 29 es un diagrama de bloques que muestra la configuración principal del interior de una sección de decodificación de segunda capa de acuerdo con la realización 7 de la presente invención.
Mejor modo para llevar a cabo la invención
25 Como una vista general de un ejemplo de la presente invención, en la cuantificación de un componente de frecuencia de una banda diferente en cada trama, si el número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual se determina que es mayor que o igual a un valor predeterminado, se realiza codificación predictiva en un parámetro de dominio de frecuencia, y si se determina que el número de subbandas comunes es menor que el valor predeterminado, se codifica directamente un parámetro de dominio de frecuencia. Por este medio, se reduce la cantidad de información codificada de una señal de habla/audio o similar, y también puede evitarse la degradación de calidad de nitidez de una señal decodificada, habla decodificada y as� sucesivamente, y puede reducirse el error de codificación de una señal de habla/audio o similar y la degradación de calidad de señal decodificada -y en particular, la degradación de calidad de audio de
35 habla decodificada.
Se describirán ahora realizaciones de la presente invención en detalle con referencia a los dibujos adjuntos. En las siguientes descripciones, un aparato de codificación de habla y aparato de decodificación de habla se usan como ejemplos de un aparato de codificación y un aparato de decodificación de la presente invención.
(Realización 1)
La Figura 1 es un diagrama de bloques que muestra la configuración principal del aparato 100 de codificación de habla de acuerdo con la realización 1 de la presente invención.
45 En esta figura, el aparato 100 de codificación de habla est� equipado con la sección 101 de transformación de dominio de frecuencia, la sección 102 de selección de banda, la sección 103 de cuantificación de forma, la sección 104 de decisión de ejecución/no ejecución de codificación predictiva, la sección 105 de cuantificación de ganancia y la sección 106 de multiplexaci�n.
La sección 101 de transformación de dominio de frecuencia realiza una Transformada de Coseno Discreta Modificada (MDCT) usando una señal de entrada, para calcular un coeficiente de MDCT, que es un parámetro de dominio de frecuencia, y emite este a la sección 102 de selección de banda.
55 La sección 102 de selección de banda divide la entrada del coeficiente de MDCT de la sección 101 de transformación de dominio de frecuencia en una pluralidad de subbandas, selecciona una banda como una banda objetivo de cuantificación de la pluralidad de subbandas, y emite información de banda que indica la banda seleccionada a la sección 103 de cuantificación de forma, a la sección 104 de decisión de ejecución/no ejecución de codificación predictiva y a la sección 106 de multiplexaci�n. Además, la sección 102 de selección de banda emite el coeficiente de MDCT a la sección 103 de cuantificación de forma. La entrada del coeficiente de MDCT a la sección 103 de cuantificación de forma puede realizarse también directamente desde la sección 101 de transformación de dominio de frecuencia por separado desde la entrada de la sección 101 de transformación de dominio de frecuencia a la sección 102 de selección de banda.
65 La sección 103 de cuantificación de forma realiza cuantificación de forma usando un coeficiente de MDCT que corresponde a una banda indicada mediante la entrada de información de banda de la sección 102 de selección de banda de entre la entrada de los coeficientes de MDCT de la sección 102 de selección de banda, y emite la información codificada de forma obtenida a la sección 106 de multiplexaci�n. Además, la sección 103 de cuantificación de forma encuentra un valor de ganancia ideal de cuantificación de forma, y emite el valor de ganancia ideal obtenido a la sección 105 de cuantificación de ganancia.
5 La sección 104 de decisión de ejecución/no ejecución de codificación predictiva encuentra un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la entrada de información de banda de la sección 102 de selección de banda. A continuación, la sección 104 de decisión de ejecución/no ejecución de codificación predictiva determina que la codificación predictiva
10 se ha de realizar en el coeficiente de MDCT de la banda objetivo de cuantificación indicada mediante la información de banda si el número de subbandas comunes es mayor que o igual a un valor predeterminado, o determina que la codificación predictiva no se ha de realizar en el coeficiente de MDCT de la banda objetivo de cuantificación indicada mediante la información de banda si el número de subbandas comunes es menor que el valor predeterminado. La sección 104 de decisión de ejecución/no ejecución de codificación predictiva emite el resultado de esta
15 determinación a la sección 105 de cuantificación de ganancia.
Si la entrada del resultado de la determinación de la sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva se ha de realizar, la sección 105 de cuantificación de ganancia realiza codificación predictiva de la ganancia de banda objetivo de cuantificación de trama actual usando 20 un valor de ganancia de cuantificación de trama pasada almacenado en una memoria intermedia interna y un libro de códigos de ganancia interno, para obtener información codificada de ganancia. Por otro lado, si la entrada del resultado de la determinación de la sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva no se ha de realizar, la sección 105 de cuantificación de ganancia obtiene información codificada de ganancia cuantificando directamente la entrada del valor de ganancia ideal de la sección
25 103 de cuantificación de forma. La sección 105 de cuantificación de ganancia emite la información codificada de ganancia obtenida a la sección 106 de multiplexaci�n.
La sección 106 de multiplexaci�n multiplexa la entrada de información de banda de la sección 102 de selección de banda, la entrada de información codificada de forma de la sección 103 de cuantificación de forma y la entrada de 30 información codificada de ganancia de la sección 105 de cuantificación de ganancia y transmite la corriente de bits obtenida a un aparato de decodificación de habla.
El aparato 100 de codificación de habla que tiene una configuración tal como la anteriormente descrita separa una señal de entrada en secciones de N muestras (donde N es un número natural), y realiza codificación en una base
35 trama a trama con N muestras como una trama. La operación de cada sección del aparato 100 de codificación de habla se describe en detalle a continuación. En la siguiente descripción, una señal de entrada de una trama que es un objetivo de codificación se representa mediante xn donde n = 0, 1, …, N-1). En este punto, n indica el índice de cada muestra en una trama que es un objetivo de codificación.
40 La sección 101 de transformación de dominio de frecuencia tiene N memorias intermedias internas, y en primer lugar inicializa cada memoria intermedia usando un valor de 0 de acuerdo con la Ecuación (1) a continuación.
45 En esta ecuación, bufn (n = 0, ..., N-1) indica la (n+1)�sima de las N memorias intermedias en la sección 101 de transformación de domino de frecuencia.
A continuación, la sección 101 de transformación de dominio de frecuencia encuentra el coeficiente de MDCT Xk 50 realizando una transformada de coseno discreta modificada (MDCT) de la señal de entrada xn de acuerdo con la Ecuación (2) a continuación
55 En esta ecuación, k indica el índice de cada muestra en una trama, y x’n es un vector que enlaza la señal de entrada xn y bufn de acuerdo con la Ecuación (3) a continuación.
A continuación, la sección 101 de transformación de dominio de frecuencia actualiza bufn (n = 0, …, N-1) como se muestra en la Ecuación (4) a continuación.
5 A continuación la sección 101 de transformación de dominio de frecuencia emite el coeficiente de MDCT encontrado Xk a la sección 102 de selección de banda.
La sección 102 de selección de banda en primer lugar divide el coeficiente de MDCT Xk en una pluralidad de
10 subbandas. En este punto, se proporcionar� una descripción tomando un caso en el que el coeficiente de MDCT Xk se divide igualmente en J subbandas (donde J es un número natural) como un ejemplo. A continuación la sección 102 de selección de banda selecciona L subbandas consecutivas (donde L es un número natural) de entre las J subbandas, y obtiene M tipos de grupos de subbandas (donde M es un número natural). A continuación, estos M tipos de grupos de subbandas se denominan regiones.
15 La Figura 2 es un dibujo que muestra un ejemplo de la configuración de regiones obtenidas mediante la sección 102 de selección de banda.
En esta figura, el número de subbandas es 17 (J=17), el número de tipos de regiones es ocho (M=8), y cada región
20 est� compuesta de cinco subbandas consecutivas (L=5). De estas, por ejemplo, la región 4 est� compuesta de las subbandas 6 a 10.
A continuación, la sección 102 de selección de banda calcula la energía media E(m) de cada uno de los M tipos de regiones de acuerdo con la Ecuación (5) a continuación.
En esta ecuación, j indica el índice de cada una de las J subbandas, m indica el índice de cada uno de los M tipos de regiones, S(m) indica el mínimo valor entre los índices de L subbandas que componen la región m, B(j) indica el
30 mínimo valor entre los índices de una pluralidad de coeficientes de MDCT que componen la subbanda j y W(j) indica el ancho de banda de la subbanda j. En la siguiente descripción, se describir� como un ejemplo un caso en el que los anchos de banda de las J subbandas son todos iguales -es decir, un caso en el que W(j) es una constante.
A continuación, la sección 102 de selección de banda selecciona una región -por ejemplo, una banda compuesta de
35 las subbandas j’’ a j’’+L-1 -para la que la energía media E(m) es un máximo como una banda que es un objetivo de cuantificación (una banda objetivo de cuantificación), y emite el índice m_m�x que indica esta región como información de banda a la sección 103 de cuantificación de forma, a la sección 104 de decisión de ejecución/no ejecución de codificación predictiva y a la sección 106 de multiplexaci�n. La sección 102 de selección de banda emite también el coeficiente de MDCT Xk a la sección 103 de cuantificación de forma. En la siguiente descripción,
40 los índices de banda que indican una banda objetivo de cuantificación seleccionada mediante la sección 102 de selección de banda se supone que son j’’ a j’’+L-1.
La sección 103 de cuantificación de forma realiza cuantificación de forma en una base subbanda a subbanda en un coeficiente de MDCT que corresponde a la banda indicada mediante la entrada m_m�x de información de banda de
45 la sección 102 de selección de banda. Específicamente, la sección 103 de cuantificación de forma busca un libro de códigos de forma interno compuesto de cantidad SQ de vectores de código de forma para cada una de las L subbandas, y encuentra el índice de un vector de código de forma para el que el resultado de la Ecuación (6) a continuación es un máximo.
En esta ecuación, SCik indica un vector de código de forma que compone un libro de códigos de forma, i indica un índice de vector de código de forma y k indica el índice de un elemento de vector de código de forma.
La sección 103 de cuantificación de forma emite el índice de vector de código de forma S_m�x para el que el resultado de la Ecuación (6) anterior es un máximo a la sección 106 de multiplexaci�n como información codificada de forma. La sección 103 de cuantificación de forma calcula también el valor de ganancia ideal Ganancia_i(j) de acuerdo con la Ecuación (7) a continuación, y emite este a la sección 105 de cuantificación de ganancia.
10 La sección 104 de decisión de ejecución/no ejecución de codificación predictiva tiene una memoria intermedia interna que almacena la entrada de información de banda m_m�x de la sección 102 de selección de banda en una trama pasada. En este punto, se describir� un caso a modo de ejemplo en el que la sección 104 de decisión de ejecución/no ejecución de codificación predictiva tiene una memoria intermedia interna que almacena información de
15 banda m_m�x para las tres tramas pasadas. La sección 104 de decisión de ejecución/no ejecución de codificación predictiva en primer lugar encuentra un número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual usando la entrada de información de banda m_m�x de la sección 102 de selección de banda en una trama pasada y la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual. A continuación la sección 104 de decisión de ejecución/no
20 ejecución de codificación predictiva determina que la codificación predictiva se ha de realizar si el número de subbandas comunes es mayor que o igual a un valor predeterminado, o determina que la codificación predictiva no se ha de realizar si el número de subbandas comunes es menor que el valor predeterminado. Específicamente, L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 102 de selección de banda una trama atrás en el tiempo se comparan con L subbandas indicadas mediante la entrada de información de banda
25 m_m�x de la sección 102 de selección de banda en la trama actual, y se determina que la codificación predictiva se ha de realizar si el número de subbandas comunes es P o más, o se determina que la codificación predictiva no se ha de realizar si el número de subbandas comunes es menor que P. La sección 104 de decisión de ejecución/no ejecución de codificación predictiva emite el resultado de esta determinación a la sección 105 de cuantificación de ganancia. A continuación la sección 104 de decisión de ejecución/no ejecución de codificación predictiva actualiza la
30 información de banda de almacenamiento de memoria intermedia interna usando la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual.
La sección 105 de cuantificación de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia de cuantificación obtenido en una trama pasada. Si una entrada del resultado de la determinación de la 35 sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva se ha de realizar, la sección 105 de cuantificación de ganancia realiza cuantificación prediciendo un valor de ganancia de trama actual usando el valor de ganancia de cuantificación de trama pasada Ctj almacenado en la memoria intermedia interna. Específicamente, la sección 105 de cuantificación de ganancia busca un libro de códigos de ganancia interno compuesto de la cantidad de GQ de vectores de código de ganancia para cada una de las L
40 subbandas, y encuentra un índice de un vector de código de ganancia para el que el resultado de la Ecuación (8) a continuación es un mínimo.
45 En esta ecuación, GCij indica un vector de código de ganancia que compone un libro de códigos de ganancia, i indica un índice de vector de código de ganancia y j indica un índice de un elemento de vector de código de ganancia. Por ejemplo, si el número de subbandas que componen una región es cinco (L=5), j tiene un valor de 0 a 4. En este punto, Ct; indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, Ct, indica un valor de ganancia de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4�
50 orden almacenado en la sección 105 de cuantificación de ganancia. La sección 105 de cuantificación de ganancia trata L subbandas en una región como un vector L-dimensional y realiza cuantificación de vector.
La sección 105 de cuantificación de ganancia emite el índice de vector de código de ganancia G_m�n para el que el resultado de la Ecuación (8) anterior es un mínimo a la sección 106 de multiplexaci�n como información codificada de ganancia. Si no existe valor de ganancia de una subbanda que corresponde a una trama pasada en la memoria intermedia interna, la sección 105 de cuantificación de ganancia sustituye el valor de ganancia de la subbanda más próxima en frecuencia en la memoria intermedia interna en la Ecuación (8) anterior.
Por otro lado, si la entrada del resultado de la determinación de la sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva no se ha de realizar, la sección 105 de cuantificación de ganancia cuantifica directamente la entrada del valor de ganancia ideal Ganancia_i (j) de la sección 103 de cuantificación de forma de acuerdo con la Ecuación (9) anterior. En este punto, la sección 105 de cuantificación de ganancia trata un valor de ganancia ideal como un vector L-dimensional y realiza cuantificación de vector.
15 En este punto, un índice de libro de códigos que hace la Ecuación (9) anterior un mínimo se indica mediante G_m�n.
La sección 105 de cuantificación de ganancia emite G_m�n a la sección 106 de multiplexaci�n como información codificada de ganancia. La sección 105 de cuantificación de ganancia actualiza también la memoria intermedia interna de acuerdo con la Ecuación (10) anterior usando la información codificada de ganancia G_m�n y el valor de ganancia de cuantificación Ctj obtenido en la trama actual.
La sección 106 de multiplexaci�n multiplexa la entrada de información de banda m_m�x de la sección 102 de
25 selección de banda, la entrada de información codificada de forma S_m�x de la sección 103 de cuantificación de forma y la entrada de información codificada de ganancia G_m�n de la sección 105 de cuantificación de ganancia y transmite la corriente de bits obtenida a un aparato de decodificación de habla.
La Figura 3 es un diagrama de bloques que muestra la configuración principal del aparato 200 de decodificación de habla de acuerdo con esta realización.
En esta figura, el aparato 200 de decodificación de habla est� equipado con la sección 201 de demultiplexaci�n, la sección 202 de descuantificaci�n de forma, la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva, la sección 204 de descuantificaci�n de ganancia y la sección 205 de transformación de dominio de
35 tiempo.
La sección 201 de demultiplexaci�n demultiplexa información de banda, información codificada de forma e información codificada de ganancia de una corriente de bits transmitida desde un aparato 100 de codificación de habla, emite la información de banda obtenida a una sección 202 de descuantificaci�n de forma y sección 203 de decisión de ejecución/no ejecución de decodificación predictiva, emite la información codificada de forma obtenida a la sección 202 de descuantificaci�n de forma y emite la información codificada de ganancia obtenida a la sección 204 de descuantificaci�n de ganancia.
La sección 202 de descuantificaci�n de forma encuentra el valor de forma de un coeficiente de MDCT que
45 corresponde a una banda objetivo de cuantificación indicada mediante la entrada de información de banda de la sección 201 de demultiplexaci�n realizando descuantificaci�n de entrada de información codificada de forma de la sección 201 de demultiplexaci�n y emite el valor de forma encontrado a la sección 204 de descuantificaci�n de ganancia.
La sección 203 de decisión de ejecución/no ejecución de decodificación predictiva encuentra un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la entrada de información de banda de la sección 201 de demultiplexaci�n. A continuación la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva determina que la decodificación predictiva se ha de realizar en el coeficiente de MDCT de la banda objetivo de cuantificación indicada mediante la 55 información de banda si el número de subbandas comunes es mayor que o igual a un valor predeterminado, o determina que la decodificación predictiva no se ha de realizar en el coeficiente de MDCT de la banda objetivo de cuantificación indicada mediante la información de banda si el número de subbandas comunes es menor que el valor predeterminado. La sección 203 de decisión de ejecución/no ejecución de decodificación predictiva emite el
resultado de esta determinación a la sección 204 de descuantificaci�n de ganancia.
Si la entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la decodificación predictiva se ha de realizar, la sección 204 de descuantificaci�n 5 de ganancia realiza decodificación predictiva en la entrada de información codificada de ganancia de la sección 201 de multiplexaci�n usando un valor de ganancia de trama pasada almacenado en una memoria intermedia interna y en un libro de códigos de ganancia interno para obtener un valor de ganancia. Por otro lado, si la entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la decodificación predictiva no se ha de realizar, la sección 204 de descuantificaci�n de ganancia obtiene un valor de ganancia realizando directamente descuantificaci�n de la entrada de información codificada de ganancia de la sección 201 de demultiplexaci�n usando el libro de códigos de ganancia interno. La sección 204 de descuantificaci�n de ganancia emite el valor de ganancia obtenido a la sección 205 de transformación de dominio de tiempo. La sección 204 de descuantificaci�n de ganancia encuentra también un coeficiente de MDCT de la banda objetivo de cuantificación usando el valor de ganancia obtenido y una entrada de valor de forma de la sección 202
15 de descuantificaci�n de forma, y emite este a la sección 205 de transformación de dominio de tiempo como un coeficiente de MDCT decodificado.
La sección 205 de transformación de dominio de tiempo realiza una Transformada de Coseno Discreta Modificada Inversa (IMDCT) en la entrada del coeficiente de MDCT decodificada de la sección 204 de descuantificaci�n de ganancia para generar una señal de dominio de tiempo, y emite esta como una señal decodificada.
El aparato 200 de decodificación de habla que tiene una configuración tal como la anteriormente descrita realiza las siguientes operaciones.
25 La sección 201 de demultiplexaci�n demultiplexa información de banda m_m�x, información codificada de forma S_m�x e información codificada de ganancia G_m�n de una corriente de bits transmitida del aparato 100 de codificación de habla, emite la información de banda obtenida m_m�x a la sección 202 de descuantificaci�n de forma y sección 203 de decisión de ejecución/no ejecución de decodificación predictiva, emite la información codificada de forma obtenida S_m�x a la sección 202 de descuantificaci�n de forma y emite la información codificada de ganancia obtenida G_m�n a la sección 204 de descuantificaci�n de ganancia.
La sección 202 de descuantificaci�n de forma tiene un libro de códigos de forma interno similar al libro de códigos de forma que se proporciona con la sección 103 de cuantificación de forma del aparato 100 de codificación de habla, y busca un vector de código de forma para el que la entrada de información codificada de forma S_m�x de la sección
35 201 de demultiplexaci�n es un índice. La sección 202 de descuantificaci�n de forma emite un vector de código buscado a la sección 204 de descuantificaci�n de ganancia como el valor de forma de un coeficiente de MDCT de una banda objetivo de cuantificación indicado mediante la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n. En este punto, un vector de código de forma buscado como un valor de forma se indica mediante Forma_q(k) (k = B(j’’), ..., B(j’’+L)-1).
La sección 203 de decisión de ejecución/no ejecución de decodificación predictiva tiene una memoria intermedia interna que almacena la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n en una trama pasada. En este punto, se describir� un caso a modo de ejemplo en el que la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva tiene una memoria intermedia interna que almacena la 45 información de banda m_m�x para las tres tramas pasadas. La sección 203 de decisión de ejecución/no ejecución de decodificación predictiva en primer lugar encuentra un número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de banda actual usando la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n en una trama pasada y la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n en la trama actual. A continuación la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva determina que la decodificación predictiva se ha de realizar si el número de subbandas comunes es mayor que o igual a un valor predeterminado, o determina que la decodificación predictiva no se ha de realizar si el número de subbandas comunes es menor que el valor predeterminado. Específicamente, la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva compara L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n
55 una trama atrás en tiempo con L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n en la trama actual, y determina que la decodificación predictiva se ha de realizar si el número de subbandas comunes es P o más, o determina que la decodificación predictiva no se ha de realizar si el número de subbandas comunes es menor que P. La sección 203 de decisión de ejecución/no ejecución de decodificación predictiva emite el resultado de esta determinación a la sección 204 de descuantificaci�n de ganancia. A continuación la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva actualiza la memoria intermedia interna que almacena la información de banda usando la entrada de información de banda m_m�x de la sección 201 de demultiplexaci�n en la trama actual.
La sección 204 de descuantificaci�n de ganancia tiene una memoria intermedia interna que almacena un valor de
65 ganancia obtenido en una trama pasada. Si una entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la decodificación predictiva se ha de
realizar, la sección 204 de descuantificaci�n de ganancia realiza descuantificaci�n prediciendo un valor de ganancia de trama actual usando un valor de ganancia de trama pasada almacenado en la memoria intermedia interna. Específicamente, la sección 204 de descuantificaci�n de ganancia tiene el mismo tipo de libro de códigos de ganancia interno que la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla, y 5 obtiene el valor de ganancia Ganancia_q’ realizando descuantificaci�n de ganancia de acuerdo con la Ecuación (11) a continuación. En este punto, C’’tj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, C’’tj indica un valor de ganancia de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 204 de descuantificaci�n de ganancia. La sección 204 de descuantificaci�n de ganancia trata L subbandas en una región como un vector L-dimensional, y
10 realiza descuantificaci�n de vector.
Si no existe valor de ganancia de una subbanda que corresponde a una trama pasada en la memoria intermedia
15 interna, la sección 204 de descuantificaci�n de ganancia sustituye el valor de ganancia de la subbanda más próxima en frecuencia en la memoria intermedia interna en la Ecuación (11) anterior.
Por otro lado, si la entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la decodificación predictiva no se ha de realizar, la sección 204 de
20 descuantificaci�n de ganancia realiza descuantificaci�n de un valor de ganancia de acuerdo con la Ecuación (12) a continuación usando el libro de códigos de ganancia anteriormente descrito. En este punto, un valor de ganancia se trata como un vector L-dimensional, y se realiza descuantificaci�n de vector. Es decir, cuando la decodificación predictiva no se realiza, el vector de código de ganancia GCjG_m�n que corresponde a la información codificada de ganancia G_m�n se toma directamente como un valor de ganancia.
A continuación, la sección 204 de descuantificaci�n de ganancia calcula un coeficiente de MDCT decodificado de acuerdo con la Ecuación (13) a continuación usando un valor de ganancia obtenido mediante la descuantificaci�n de
30 trama actual y una entrada de valor de forma de la sección 202 de descuantificaci�n de forma, y actualiza la memoria intermedia interna de acuerdo con la Ecuación (14) a continuación. En este punto, un coeficiente de MDCT decodificado calculado se indica mediante X’’k. También, en la descuantificaci�n de coeficiente de MDCT, si k est� presente en B(j’’) a B(j’’+1)-1, el valor de ganancia Ganancia_q’(j) toma el valor de Ganancia_q’(j’’).
40 La sección 204 de descuantificaci�n de ganancia emite el coeficiente de MDCT decodificado X’’k calculado de acuerdo con la Ecuación (13) anterior a la sección 205 de transformación de dominio de tiempo.
La sección 205 de transformación de dominio de tiempo en primer lugar inicializa la memoria intermedia interna buf’k a un valor de cero de acuerdo con la Ecuación (15) a continuación. 45
A continuación la sección 205 de transformación de dominio de tiempo encuentra la señal decodificada Yn de acuerdo con la Ecuación (16) a continuación usando la entrada del coeficiente de MDCT decodificado X’’k de la sección 204 de descuantificaci�n de ganancia.
En esta ecuación, X2’’k es un vector que enlaza el coeficiente de MDCT decodificado X’’k y la memoria intermedia buf’k.
A continuación, la sección 205 de transformación de dominio de tiempo actualiza la memoria intermedia buf’k de acuerdo con la Ecuación (18) a continuación.
La sección 205 de transformación de dominio de tiempo emite la señal decodificada obtenida Yn como una señal de salida.
20 Por lo tanto, de acuerdo con esta realización, se selecciona una banda de alta energía en cada trama como una banda objetivo de cuantificación y se cuantifica un parámetro de dominio de frecuencia, posibilitando que se cree polarización en la distribución de valor de ganancia cuantificada, y que se mejore el rendimiento de cuantificación de vector.
25 También, de acuerdo con esta realización, en la cuantificación del parámetro de dominio de frecuencia de una banda objetivo de cuantificación diferente de cada trama, se realiza codificación predictiva en un parámetro de dominio de frecuencia si se determina que el número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y la banda objetivo de cuantificación de trama actual es mayor que o igual a un valor predeterminado, y se codifica directamente un parámetro de dominio de frecuencia si se determina que el número de subbandas comunes
30 es menor que el valor predeterminado. En consecuencia, se reduce la cantidad de información codificada en la codificación de habla, y también puede evitarse la degradación de calidad de habla n�tida, y puede reducirse el error de codificación de señal de habla/audio y la degradación de calidad de audio de señal decodificada.
Adicionalmente, de acuerdo con esta realización, en el lado de codificación puede decidirse una banda objetivo de
35 cuantificación, y realizarse cuantificación del parámetro de dominio de frecuencia, en unidades de región cada una compuestas de una pluralidad de subbandas, y la información en cuanto a un parámetro de dominio de frecuencia del que la región se ha hecho un objetivo de cuantificación puede transmitirse al lado de decodificación. En consecuencia, puede mejorarse la eficacia de cuantificación y la cantidad de información codificada transmitida al lado de decodificación puede reducirse adicionalmente como se compara con decidir si se ha de usar o no la
40 codificación predictiva en una base subbanda a subbanda y transmitir información en cuanto a qué subbanda se ha hecho un objetivo de cuantificación para el lado de decodificación.
En esta realización, se ha descrito un caso a modo de ejemplo en el que se realiza cuantificación de ganancia en unidades de región cada una compuestas de una pluralidad de subbandas. Un objetivo de cuantificación puede
45 seleccionarse también en una base subbanda a subbanda -es decir, la determinación de si se tiene que llevar a cabo o no cuantificación predictiva puede realizarse también en una base subbanda a subbanda.
En esta realización, se ha descrito un caso a modo de ejemplo en el que el método de cuantificación predictiva de ganancia es realizar predicción lineal en el dominio de tiempo para ganancia de la misma banda de frecuencia, pero
50 la presente invención no est� limitada a esto, y puede realizarse también predicción lineal en el dominio de tiempo para ganancia de diferentes bandas de frecuencia.
En esta realización, se ha descrito un caso en el que una señal de habla/audio normal se toma como un ejemplo de una señal que se hace un objetivo de cuantificación, pero la presente invención no est� limitada a esto, y una señal
55 de excitación obtenida mediante procesamiento de una señal de habla/audio por medio de un filtro inverso de LPC (Coeficiente de Predicción Lineal) puede usarse también como un objetivo de cuantificación.
En esta realización, se ha descrito un caso a modo de ejemplo en el que una región para la que la magnitud de energía de región individual -es decir, significancia perceptual -es la mayor se selecciona como una referencia para seleccionar una banda objetivo de cuantificación, pero la presente invención no est� limitada a esto, y además de significancia perceptual, la correlación de frecuencia con una banda seleccionada en una trama pasada puede 5 tenerse en consideración también al mismo tiempo. Es decir, si existen bandas candidatas para las que el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en el pasado es mayor que o igual a un valor predeterminado y la energía es mayor que o igual a un valor predeterminado, la banda con la energía más alta entre las bandas candidatas anteriores puede seleccionarse como la banda objetivo de cuantificación, y si no existen tales bandas candidatas, la banda con la energía más alta entre todas las bandas de frecuencia puede seleccionarse como la banda objetivo de cuantificación. Por ejemplo, si una subbanda común a la región de energía más alta y una banda seleccionada en una trama pasada no existen, el número de subbandas comunes a la segunda región de energía más alta y una banda seleccionada en una trama pasada son mayores que o iguales a un valor umbral predeterminado, y la energía de la segunda región de energía más alta es mayor que o igual a un valor umbral predeterminado, la segunda región de energía más alta se selecciona en lugar de la región de energía
15 más alta. También, una sección de selección de banda de acuerdo con esta realización selecciona una región más cercana a una banda objetivo de cuantificación seleccionada en el pasado de entre las regiones cuya energía es mayor que o igual a un valor predeterminado como una banda objetivo de cuantificación.
En esta realización, la cuantificación de coeficiente de MDCT puede realizarse después de que se realice interpolación usando una trama pasada. Por ejemplo, se describir� un caso con referencia a la Figura 2 en el que una banda objetivo de cuantificación de trama pasada es la región 3 (es decir, subbandas 5 a 9), una banda objetivo de cuantificación de trama actual es la región 4 (es decir, subbandas 6 a 10), y se realiza codificación predictiva de trama actual usando un resultado de cuantificación de trama pasada. En un caso de este tipo, se realiza codificación predictiva en las subbandas 6 a 9 de trama actual usando las subbandas 6 a 9 de trama pasada, y para la subbanda
25 10 de trama actual, se interpola la subbanda 10 de trama pasada usando las subbandas 6 a 9 de trama pasada, y a continuación se realiza codificación predictiva usando la subbanda 10 de trama pasada obtenida mediante interpolación.
En esta realización, se ha descrito un caso a modo de ejemplo en el que se realiza cuantificación usando el mismo libro de códigos independientemente de si se realiza o no codificación predictiva, pero la presente invención no est� limitada a esto, y pueden usarse también diferentes libros de códigos de acuerdo con si se realiza codificación predicativa o no se realiza en la cuantificación de ganancia y en la cuantificación de forma.
En esta realización, se ha descrito un caso a modo de ejemplo en el que todas las anchuras de subbanda son la
35 misma, pero la presente invención no est� limitada a esto, y las anchuras de subbanda individuales pueden variar también.
En esta realización, se ha descrito un caso a modo de ejemplo en el que el mismo libro de códigos se usa para todas las subbandas en la cuantificación de ganancia y en la cuantificación de forma, pero la presente invención no est� limitada a esto, y pueden usarse también diferentes libros de códigos en una base subbanda a subbanda en la cuantificación de ganancia y en la cuantificación de forma.
En esta realización, se ha descrito un caso a modo de ejemplo en el que se seleccionan subbandas consecutivas como una banda objetivo de cuantificación. Una pluralidad de subbandas no consecutivas puede seleccionarse
45 también como una banda objetivo de cuantificación. En un caso de este tipo, la eficacia de codificación de habla puede mejorarse adicionalmente interpolando un valor de subbanda no seleccionado usando valores de subbanda adyacentes.
En esta realización, se ha descrito un caso a modo de ejemplo en el que el aparato 100 de codificación de habla est� equipado con la sección 104 de decisión de ejecución/no ejecución de codificación predictiva. Un aparato de codificación de habla no est� limitado a esto y puede tener también una configuración en la que no se proporcione la sección 104 de decisión de ejecución/no ejecución de codificación predicativa y la cuantificación predictiva no siempre se realice mediante la sección 105 de cuantificación de ganancia, como se ilustra mediante el aparato 100a de codificación de habla mostrado en la Figura 4. En este caso, como se muestra en la Figura 4, el aparato 100a de 55 codificación de habla est� equipado con la sección 101 de transformación de dominio de frecuencia, la sección 102 de selección de banda, la sección 103 de cuantificación de forma, la sección 105 de cuantificación de ganancia y la sección 106 de multiplexaci�n. La Figura 5 es un diagrama de bloques que muestra la configuración del aparato 200a de decodificación de habla que corresponde al aparato 100a de codificación de habla, estando equipado el aparato 200a de decodificación de habla con la sección 201 de demultiplexaci�n, la sección 202 de descuantificaci�n de forma, la sección 204 de descuantificaci�n de ganancia y la sección 205 de transformación de dominio de tiempo. En un caso de este tipo, el aparato 100a de codificación de habla realiza selección parcial de una banda a cuantificar de entre todas las bandas, divide adicionalmente la banda seleccionada en una pluralidad de subbandas, y cuantifica la ganancia de cada subbanda. Por este medio, puede realizarse la cuantificación a una tasa de bits inferior que con un método en el cual los componentes de todas las bandas est�n cuantificados, y la eficacia
65 de la codificación puede mejorarse. También, la eficacia de codificación puede mejorarse adicionalmente cuantificando un vector de ganancia usando correlación de ganancia en el dominio de frecuencia.
Un aparato de codificación de habla puede tener también una configuración en la que no se proporciona la sección 104 de decisión de ejecución/no ejecución de codificación predictiva y la cuantificación predictiva siempre se realiza mediante la sección 105 de cuantificación de ganancia, como se ilustra mediante el aparato 100a de codificación de habla mostrado en la Figura 4. La configuración del aparato 200a de decodificación de habla que corresponde a este
5 tipo de aparato 100a de codificación de habla es como se muestra en la Figura 5. En un caso de este tipo, el aparato 100a de codificación de habla realiza selección parcial de una banda a cuantificar de entre todas las bandas, divide adicionalmente la banda seleccionada en una pluralidad de subbandas, y realiza cuantificación de ganancia para cada subbanda. Por este medio, puede realizarse la cuantificación a una tasa de bits inferior que con un método en el cual los componentes de todas las bandas est�n cuantificados, y la eficacia de codificación puede mejorarse. También, la eficacia de codificación puede mejorarse adicionalmente mediante la cuantificación predictiva de un vector de ganancia usando correlación de ganancia en el dominio de tiempo.
En esta realización, se ha descrito un caso a modo de ejemplo en el que el método de seleccionar una banda objetivo de cuantificación en una sección de selección de banda es seleccionar la región con la energía más alta en
15 todas las bandas, pero la presente invención no est� limitada a esto, y la selección puede realizarse también usando información de una banda seleccionada en una trama temporalmente anterior además del criterio anterior. Por ejemplo, un posible método es seleccionar una región a cuantificar después de realizar multiplicación por un factor de ponderaci�n de manera que una región que incluye una banda en la proximidad de una banda seleccionada en una trama temporalmente anterior se hace más propensa a selección. También, si existe una pluralidad de capas en las que se selecciona una banda a cuantificar, una banda cuantificada en una capa superior puede seleccionarse usando información de una banda seleccionada en una capa inferior. Por ejemplo, un posible método es seleccionar una región a cuantificar después de realizar multiplicación por un factor de ponderaci�n de manera que una región que incluye una banda en la proximidad de una banda seleccionada en una capa inferior se hace más propensa a selección.
25 En esta realización, se ha descrito un caso a modo de ejemplo en el que el método de seleccionar una banda objetivo de cuantificación es seleccionar la región con la energía más alta en todas las bandas, pero la presente invención no est� limitada a esto, y una cierta banda también puede seleccionarse preliminarmente de antemano, después de lo cual se selecciona finalmente una banda objetivo de cuantificación en la banda preliminarmente seleccionada. En un caso de este tipo, una banda seleccionada preliminarmente puede decidirse de acuerdo con la tasa de muestro de señal de entrada, tasa de bits de codificación o similar. Por ejemplo, un método es seleccionar una banda baja preliminarmente cuando la tasa de bits o tasa de muestreo es baja.
Por ejemplo, es posible para un método a emplear en la sección 102 de selección de banda en la cual una región a
35 cuantificar se decide calculando la energía de la región después de limitar regiones seleccionables a regiones de banda baja de entre todas las candidatas de región seleccionables. Como un ejemplo de esto, un posible método es realizar limitación a cinco candidatas del lado de banda baja de entre el total de ocho regiones candidatas mostradas en la Figura 2, y seleccionar la región con la energía más alta entre estas. Como alternativa, la sección 102 de selección de banda puede comparar energías después de multiplicar la energía por un factor de ponderaci�n de modo que una región de área inferior se hace proporcionalmente más propensa a selección. Otra posibilidad es para la sección 102 de selección de banda seleccionar una subbanda del lado de banda baja fija. Una característica de una señal de habla es que la estructura de armónicos se hace proporcionalmente más intensa hacia el lado de la banda baja, como resultado de que un pico intenso est� presente en el lado de banda baja. Ya que este pico intenso es difícil de enmascarar, es propenso a percibirse como ruido. En este punto, aumentando la probabilidad de
45 selección hacia el lado de banda baja en lugar de seleccionar simplemente una región basándose en la magnitud de energía, la posibilidad de una región que incluya un pico intenso estando seleccionado aumenta, y una sensación de ruido se reduce como resultado. Por lo tanto, la calidad de una señal decodificada puede mejorarse limitando regiones seleccionadas al lado de banda baja, o realizando multiplicación por un factor de ponderaci�n de manera que, de esta manera, la probabilidad de selección aumenta hacia el lado de banda baja.
Un aparato de codificación de habla de acuerdo con la presente invención se ha descrito en términos de una configuración en la cual la cuantificación de forma (información de forma) se realiza en primer lugar en un componente de una banda a cuantificar, seguido por cuantificación de ganancia (información de ganancia), pero la presente invención no est� limitada a esto, y puede usarse también una configuración en la cual se realiza en primer
55 lugar cuantificación de ganancia seguido por cuantificación de forma.
(Realización 2)
La Figura 6 es un diagrama de bloques que muestra la configuración principal del aparato 300 de codificación de habla de acuerdo con la realización 2 de la presente invención.
En esta figura, el aparato 300 de codificación de habla est� equipado con la sección 301 de submuestreo, la sección 302 de codificación de primera capa, la sección 303 de decodificación de primera capa, la sección 304 de sobremuestreo, la primera sección 305 de transformación de dominio de frecuencia, la sección 306 de retardo, la 65 segunda sección 307 de transformación de dominio de frecuencia, la sección 308 de codificación de segunda capa y la sección 309 de multiplexaci�n, y tiene una configuración escalable que comprende dos capas. En la primera capa,
se aplica un método de codificación de habla de CELP (Predicción Lineal con Excitación por Código), y en la segunda capa se aplica el método de codificación de habla descrito en la realización 1 de la presente invención.
La sección 301 de submuestreo realiza procesamiento de submuestreo en una señal de habla/audio de entrada, 5 para convertir la tasa de muestreo de la señal de habla/audio de la Tasa 1 a la Tasa 2 (donde Tasa 1 > Tasa 2), y emite esta señal a la sección 302 de codificación de primera capa.
La sección 302 de codificación de primera capa realiza codificación de habla de CELP en la entrada de señal de habla/audio posterior a submuestreo de la sección 301 de submuestreo, y emite la información codificada de primera capa a la sección 303 de decodificación de primera capa y a la sección 309 de multiplexaci�n. Específicamente, la sección 302 de codificación de primera capa codifica una señal de habla que comprende información de tracto vocal e información de excitación encontrando un parámetro de LPC para la información de tracto vocal y para la información de excitación, realiza codificación encontrando un índice que identifica qué modelo de habla almacenado previamente se ha de usar, es decir, un índice que identifica qué vector de excitación de un libro de
15 códigos adaptativo y libro de códigos fijo se ha de generar.
La sección 303 de decodificación de primera capa realiza decodificación de habla de CELP en la entrada de información codificada de primera capa de la sección 302 de codificación de primera capa, y emite una señal decodificada de primera capa obtenida a la sección 304 de sobremuestreo.
La sección 304 de sobremuestreo realiza procesamiento de sobremuestreo en la entrada de la señal decodificada de primera capa de la sección 303 de decodificación de primera capa, para convertir la tasa de muestreo de señal decodificada de primera capa de la Tasa 2 a la Tasa 2, y emite esta señal a la primera sección 305 de transformación de dominio de frecuencia.
25 La primera sección 305 de transformación de dominio de frecuencia realiza una MDCT en la entrada de señal decodificada de primera capa posterior a sobremuestreo de la sección 304 de sobremuestreo, y emite un coeficiente de MDCT de primera capa obtenido como un parámetro de dominio de frecuencia a la sección 308 de codificación de segunda capa. El método de transformación real usado en la primera sección 305 de transformación de dominio de frecuencia es similar al método de transformación usado en la sección 101 de transformación de dominio de frecuencia del aparato 100 de codificación de habla de acuerdo con la realización 1 de la presente invención, y por lo tanto se omite en este punto una descripción del mismo.
La sección 306 de retardo emite una señal de habla/audio retardada a la segunda sección 307 de transformación de
35 dominio de frecuencia emitiendo una señal de habla/audio de entrada después de almacenar esa señal de entrada en una memoria intermedia interna durante un tiempo predeterminado. El tiempo de retardo predeterminado en este punto es un tiempo que tiene en cuenta el retardo del algoritmo que aparece en la sección 301 de submuestreo, la sección 302 de codificación de primera capa, la sección 303 de decodificación de primera capa, la sección 304 de sobremuestreo, la primera sección 305 de transformación de dominio de frecuencia y la segunda sección 307 de transformación de dominio de frecuencia.
La segunda sección 307 de transformación de dominio de frecuencia realiza una MDCT en la entrada de la señal de habla/audio retardada de la sección 306 de retardo, y emite un coeficiente de MDCT de segunda capa obtenido como un parámetro de dominio de frecuencia a la sección 308 de codificación de segunda capa. El método de
45 transformación real usado en la segunda sección 307 de transformación de dominio de frecuencia es similar al método de transformación usado en la sección 101 de transformación de dominio de frecuencia del aparato 100 de codificación de acuerdo con la realización 1 de la presente invención, y por lo tanto se omite en este punto una descripción del mismo.
La sección 308 de codificación de segunda capa realiza codificación de segunda capa usando la entrada del coeficiente de MDCT de primera capa de la primera sección 305 de transformación de dominio de frecuencia y la entrada del coeficiente de MDCT de segunda capa de la segunda sección 307 de transformación de dominio de frecuencia, y emite información codificada de segunda capa obtenida a la sección 309 de multiplexaci�n. La configuración interna principal y la operación real de la sección 308 de codificación de segunda capa se describir�
55 más adelante en el presente documento.
La sección 309 de multiplexaci�n multiplexa la entrada de información codificada de primera capa de la sección 302 de codificación de primera capa y la entrada de información codificada de segunda capa de la sección 308 de codificación de segunda capa, y transmite la corriente de bits obtenida a un aparato de decodificación de habla.
La Figura 7 es un diagrama de bloques que muestra la configuración principal del interior de la sección 308 de codificación de segunda capa. La sección 308 de codificación de segunda capa tiene una configuración básica similar a la del aparato 100 de codificación de habla de acuerdo con la realización 1 (véase la Figura 1), y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las
65 descripciones de los mismos en este punto.
La sección 308 de codificación de segunda capa se diferencia del aparato 100 de codificación de habla en que est� equipada con la sección 381 de cálculo de coeficiente de MDCT residual en lugar de la sección 101 de transformación de dominio de frecuencia. El procesamiento mediante la sección 106 de multiplexaci�n es similar al procesamiento mediante la sección 106 de multiplexaci�n del aparato 100 de codificación de habla, y en beneficio
5 de la descripción, el nombre de una salida de señal de la sección 106 de multiplexaci�n de acuerdo con esta realización se proporciona como “información codificada de segunda capa”.
La información de banda, información codificada de forma e información codificada de ganancia pueden introducirse también directamente a la sección 309 de multiplexaci�n y multiplexarse con la información codificada de primera
10 capa sin pasar a través de la sección 106 de multiplexaci�n.
La sección 381 de cálculo de coeficiente de MDCT residual encuentra un residuo de la entrada del coeficiente de MDCT de primera capa de la primera sección 305 de transformación de dominio de frecuencia y de la entrada del coeficiente de MDCT de segunda capa de la segunda sección 307 de transformación de dominio de frecuencia, y
15 emite este a la sección 102 de selección de banda como un coeficiente de MDCT residual.
La Figura 8 es un diagrama de bloques que muestra la configuración principal del aparato 400 de decodificación de habla de acuerdo con la realización 2 de la presente invención.
20 En esta figura, el aparato 400 de decodificación de habla est� equipado con la sección 401 de control, la sección 402 de decodificación de primera capa, la sección 403 de sobremuestreo, la sección 404 de transformación de dominio de frecuencia, la sección 405 de decodificación de segunda capa, la sección 406 de transformación de dominio de tiempo y el conmutador 407.
25 La sección 401 de control analiza elementos de configuración de una corriente de bits transmitida desde el aparato 300 de codificación de habla, y de acuerdo con estos elementos de configuración de corriente de bits, emite adaptativamente información codificada apropiada a la sección 402 de decodificación de primera capa y a la sección 405 de decodificación de segunda capa, y emite también información de control al conmutador 407. Específicamente, si la corriente de bits comprende información codificada de primera capa e información codificada
30 de segunda capa, la sección 401 de control emite la información codificada de primera capa a la sección 402 de decodificación de primera capa y emite la información codificada de segunda capa a la sección 405 de decodificación de segunda capa, mientras que si la corriente de bits comprende únicamente información codificada de primera capa, la sección 401 de control emite esta información codificada de primera capa a la sección 402 de decodificación de primera capa.
35 La sección 402 de decodificación de primera capa realiza decodificación de CELP en la entrada de la información codificada de primera capa de la sección 401 de control, y emite la señal decodificada de primera capa obtenida a la sección 403 de sobremuestreo y al conmutador 407.
40 La sección 403 de sobremuestreo realiza procesamiento de sobremuestreo en la entrada de señal decodificada de primera capa de la sección 402 de decodificación de primera capa, para convertir la tasa de muestreo de la señal decodificada de primera capa de la Tasa 2 a la Tasa 1, y emite esta señal a la sección 404 de transformación de dominio de frecuencia.
45 La sección 404 de transformación de dominio de frecuencia realiza una MDCT en la entrada de la señal decodificada de primera capa posterior a sobremuestreo de la sección 403 de sobremuestreo, y emite un coeficiente de MDCT decodificado de primera capa obtenido como un parámetro de dominio de frecuencia a la sección 405 de decodificación de segunda capa. El método de transformación real usado en la sección 404 de transformación de dominio de frecuencia es similar al método de transformación usado en la sección 101 de transformación de dominio
50 de frecuencia del aparato 100 de codificación de habla de acuerdo con la realización 1, y por lo tanto se omite en este punto una descripción del mismo.
La sección 405 de decodificación de segunda capa realiza descuantificaci�n de ganancia y descuantificaci�n de forma usando la entrada de información codificada de segunda capa de la sección 401 de control y la entrada del 55 coeficiente de MDCT decodificado de primera capa de la sección 404 de transformación de dominio de frecuencia, para obtener un coeficiente de MDCT decodificado de segunda capa. La sección 405 de decodificación de segunda capa añade juntos el coeficiente de MDCT decodificado de segunda capa obtenido y el coeficiente de MDCT decodificado de primera capa, y emite el resultado de adición obtenido a la sección 406 de transformación de dominio de tiempo como un coeficiente de MDCT de adición. La configuración interna principal y operación real de la
60 sección 405 de decodificación de segunda capa se describir� más adelante en el presente documento.
La sección 406 de transformación de dominio de tiempo realiza una IMDCT en la entrada del coeficiente de MDCT de adición de la sección 405 de decodificación de segunda capa, y emite una señal decodificada de segunda capa obtenida como un componente de dominio de tiempo al conmutador 407.
65 Basándose en la entrada de información de control de la sección 401 de control, si la entrada de la corriente de bits al aparato 400 de decodificación de habla comprende información codificada de primera capa e información codificada de segunda capa, el conmutador 407 emite la entrada de la señal decodificada de segunda capa de la sección 406 de transformación de dominio de tiempo como una señal de salida, mientras que si la corriente de bits
5 comprende únicamente información codificada de primera capa, el conmutador 407 emite la entrada de la señal decodificada de primera capa de la sección 402 de decodificación de primera capa como una señal de salida.
La Figura 9 es un diagrama de bloques que muestra la configuración principal del interior de la sección 405 de decodificación de segunda capa. La sección 405 de decodificación de segunda capa tiene una configuración básica similar a la del aparato 200 de decodificación de habla de acuerdo con la realización 1 (véase la Figura 3), y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La sección 405 de decodificación de segunda capa se diferencia del aparato 200 de decodificación de habla en que
15 est� equipada adicionalmente con la sección 452 de cálculo de coeficiente de MDCT de adición. También, el procesamiento se diferencia en parte entre la sección 451 de demultiplexaci�n de la sección 405 de decodificación de segunda capa y la sección 201 de demultiplexaci�n del aparato 200 de decodificación de habla, y se asigna un código de referencia diferente para indicar esto.
La sección 451 de demultiplexaci�n demultiplexa información de banda, información codificada de forma e información codificada de ganancia de la entrada de información codificada de segunda capa de la sección 401 de control, y emite la información de banda obtenida a la sección 202 de descuantificaci�n de forma y a la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva, la información codificada de forma obtenida a la sección 202 de descuantificaci�n de forma, y la información codificada de ganancia obtenida a la sección 204 de
25 descuantificaci�n de ganancia.
La sección 452 de cálculo de coeficiente de MDCT de adición añade juntos la entrada del coeficiente de MDCT decodificado de primera capa de la sección 404 de transformación de dominio de frecuencia y la entrada del coeficiente de MDCT decodificado de segunda capa de la sección 204 de descuantificaci�n de ganancia, y emite el resultado de adición obtenido a la sección 406 de transformación de dominio de tiempo como un coeficiente de MDCT de adición.
Por lo tanto, de acuerdo con esta realización, cuando un componente de frecuencia de una banda diferente se hace un objetivo de cuantificación en cada trama, se realiza codificación predictiva de parámetro no temporal
35 adaptativamente además de aplicar codificación escalable, posibilitando de esta manera que se reduzca la cantidad de información codificada en la codificación de habla, y que se reduzca el error de codificación de señal de habla/audio y la degradación de calidad de audio de señal decodificada.
En esta realización, se ha descrito un caso a modo de ejemplo en el que la sección 308 de codificación de segunda capa toma un componente de diferencia de un coeficiente de MDCT de primera capa y el coeficiente de MDCT de segunda capa como un objetivo de codificación, pero la presente invención no est� limitada a esto, y la sección 308 de codificación de segunda capa puede tomar también un componente de diferencia de un coeficiente de MDCT de primera capa y el coeficiente de MDCT de segunda capa como un objetivo de codificación para una banda de una frecuencia predeterminada o por debajo, o puede tomar un propio coeficiente de MDCT de señal de entrada como
45 un objetivo de codificación para una banda superior a una frecuencia predeterminada. Es decir, la conmutación puede realizarse entre el uso o no uso de un componente de diferencia de acuerdo con la banda.
En esta realización, se ha descrito un caso a modo de ejemplo en el que el método de seleccionar una banda objetivo de cuantificación de codificación de segunda capa es seleccionar la región para la cual la energía de un componente residual de un coeficiente de MDCT de primera capa y el coeficiente de MDCT de segunda capa es la más alta, pero la presente invención no est� limitada a esto, y la región para la que la energía de coeficiente de MDCT de primera capa es la más alta puede seleccionarse también. Por ejemplo, la energía de cada subbanda de coeficiente de MDCT de primera capa puede calcularse, después de lo cual las energías de cada subbanda se añaden juntas en una base región a región, y la región para la cual la energía es la más alta se selecciona como una
55 banda objetivo de cuantificación de codificación de segunda capa. En el lado del aparato de decodificación, la región para la que la energía es la más alta entre las regiones del coeficiente de MDCT decodificado de primera capa obtenido mediante la decodificación de primera capa se selecciona como una banda objetivo de descuantificaci�n de decodificación de segunda capa. Por este medio puede reducirse la tasa de bits de codificación, puesto que la información de banda relacionada con una banda de cuantificación de codificación de segunda capa no se transmite del lado del aparato de codificación.
En esta realización, se ha descrito un caso a modo de ejemplo en el que la sección 308 de codificación de segunda capa selecciona y realiza cuantificación en una banda objetivo de cuantificación para un componente residual de un coeficiente de MDCT de primera capa y el coeficiente de MDCT de segunda capa, pero la presente invención no 65 est� limitada a esto, y la sección 308 de codificación de segunda capa puede predecir también un coeficiente de MDCT de segunda capa desde un coeficiente de MDCT de primera capa, y seleccionar y realizar cuantificación en
una banda objetivo de cuantificación para un componente residual de ese coeficiente de MDCT predicho y un coeficiente de MDCT de segunda capa real. Esto posibilita que se mejore adicionalmente la eficacia de codificación utilizando una correlación entre un coeficiente de MDCT de primera capa y el coeficiente de MDCT de segunda capa.
5 (Realización 3)
La Figura 10 es un diagrama de bloques que muestra la configuración principal del aparato 500 de codificación de habla de acuerdo con la realización 3 de la presente invención. El aparato 500 de codificación de habla tiene una configuración básica similar a la del aparato 100 de codificación de habla mostrado en la Figura 1, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 500 de codificación de habla se diferencia del aparato 100 de codificación de habla en que est� equipado
15 adicionalmente con la sección 504 de cálculo de valor de interpolación. También, el procesamiento se diferencia en parte entre la sección 505 de cuantificación de ganancia del aparato 500 de codificación de habla y la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla, y se asigna un código de referencia diferente para indicar esto.
La sección 504 de cálculo de valor de interpolación tiene una memoria intermedia interna que almacena información de banda que indica una banda objetivo de cuantificación de una trama pasada. Usando un valor de ganancia de cuantificación de una banda objetivo de cuantificación de una trama pasada leída de la sección 505 de cuantificación de ganancia, la sección 504 de cálculo de valor de interpolación interpola un valor de ganancia de una banda que no se cuantific� en una trama pasada entre bandas objetivo de cuantificación de trama actual indicadas mediante la
25 entrada de información de banda de la sección 102 de selección de banda. La sección 504 de cálculo de valor de interpolación emite un valor de interpolación de ganancia obtenido a la sección 505 de cuantificación de ganancia.
La sección 505 de cuantificación de ganancia se diferencia de la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla en que usa una entrada de valor de interpolación de ganancia de la sección 504 de cálculo de valor de interpolación además de un valor de ganancia de cuantificación de trama pasada almacenado en una memoria intermedia interna y un libro de códigos de ganancia interno cuando realiza codificación predictiva.
El método de interpolación de valor de ganancia usado mediante la sección 504 de cálculo de valor de interpolación 35 se describir� ahora en detalle.
La sección 504 de cálculo de valor de interpolación tiene una memoria intermedia interna que almacena la entrada de información de banda m_m�x de la sección 102 de selección de banda en una trama pasada. En este punto, se describir� un caso a modo de ejemplo en el que se proporciona una memoria intermedia interna que almacena información de banda m_m�x para las tres tramas pasadas.
La sección 504 de cálculo de valor de interpolación en primer lugar calcula un valor de ganancia distinto de una banda indicada mediante la información de banda m_m�x para las tres tramas pasadas realizando interpolación lineal. Un valor de interpolación se calcula de acuerdo con la Ecuación (19) para un valor de ganancia de banda
45 inferior a la banda indicada mediante la información de banda m_m�x, y un valor de interpolación se calcula de acuerdo con la Ecuación (20) para un valor de ganancia de una banda superior a la banda indicada mediante la información de banda m_m�x.
En la Ecuación (19) y Ecuación (20) ∀i indica un coeficiente de interpolación, qi indica un valor de ganancia de una banda objetivo de cuantificación indicada mediante la información de banda m_m�x de una trama pasada, y g indica 55 un valor de interpolación de ganancia de una banda adyacente no cuantificada a una banda objetivo de cuantificación indicada mediante la información de banda m_m�x de una trama pasada. En este punto, un valor inferior de i indica una banda de frecuencia inferior proporcionalmente, y en la Ecuación (19) g indica un valor de interpolación de ganancia de una banda adyacente en el lado de banda alta de una banda objetivo de cuantificación indicada mediante la información de banda m_m�x de una trama pasada, mientras que en la Ecuación (20) g indica un valor de interpolación de ganancia de una banda adyacente en el lado de banda baja de una banda objetivo de cuantificación indicada mediante la información de banda m_m�x de una trama pasada. Para el coeficiente de interpolación ∀i, se supone que se usa un valor que se ha encontrado de antemano estadísticamente para satisfacer la Ecuación (19) y Ecuación (20). En este punto, se describe un caso en el que se usan diferentes coeficientes de
interpolaci�n ∀i en la Ecuación (19) y Ecuación (20), pero un conjunto similar de coeficientes de predicción !i puede usarse también en la Ecuación (19) y Ecuación (20).
Como se muestra en la Ecuación (19) y Ecuación (20), es posible interpolar un valor de ganancia de una banda en el
5 lado de banda alta o en el lado de banda baja adyacente a una banda objetivo de cuantificación indicada mediante la información de banda de trama pasada m_m�x de una trama pasada en la sección 504 de cálculo de valor de interpolación. La sección 504 de cálculo de valor de interpolación interpola sucesivamente valores de ganancia de bandas no cuantificadas adyacentes repitiendo las operaciones en la Ecuación (19) y Ecuación (20) usando los resultados obtenidos de la Ecuación (19) y Ecuación (20).
10 De esta manera, la sección 504 de cálculo de valor de interpolación interpola valores de ganancia de bandas distintas de una banda indicada mediante la información de banda m_m�x de las tres tramas pasadas entre las bandas objetivo de cuantificación de trama actual indicadas mediante la entrada de la información de banda de la sección 102 de selección de banda, usando valores de ganancia cuantificados de las tres tramas pasadas leídas de
15 la sección 505 de cuantificación de ganancia.
A continuación, se describir� una operación de codificación predictiva en la sección 505 de cuantificación de ganancia.
20 La sección 505 de cuantificación de ganancia realiza cuantificación prediciendo un valor de ganancia de trama actual usando un valor de ganancia de cuantificación de trama pasada almacenado, una entrada de valor de interpolación de ganancia de la sección 504 de cálculo de valor de interpolación y un libro de códigos de ganancia interno. Específicamente, la sección 505 de cuantificación de ganancia busca un libro de códigos de ganancia interno compuesto de la cantidad de GQ de vectores de código de ganancia para cada una de las L subbandas, y encuentra
25 un índice de un vector de código de ganancia para el que el resultado de la Ecuación (21) a continuación es un mínimo
30 En la Ecuación (21), GCij indica un vector de código de ganancia que compone un libro de códigos de ganancia, i indica un índice de vector de código de ganancia y j indica un índice de un elemento de vector de código de ganancia. En este punto, Ctj indica un valor de ganancia de cuantificación de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, Ctj indica un valor de ganancia de cuantificación de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 505 de cuantificación de
35 ganancia. Un valor de interpelación de ganancia calculado de acuerdo con la Ecuación (19) y Ecuación (20) mediante la sección 504 de cálculo de valor de interpolación se usa como un valor de ganancia de una banda no seleccionada como una banda objetivo de cuantificación en las tres tramas pasadas. La sección 505 de cuantificación de ganancia trata L subbandas en una región como un vector L-dimensional y realiza cuantificación de vector.
40 La sección 505 de cuantificación de ganancia emite el índice de vector de código de ganancia G_m�n para el que el resultado de la Ecuación (21) anterior es un mínimo a la sección 106 de multiplexaci�n como información codificada de ganancia. La sección 505 de cuantificación de ganancia actualiza también la memoria intermedia interna de acuerdo con la Ecuación (22) a continuación usando la información codificada de ganancia G_m�n y el valor de
45 ganancia de cuantificación Ctj obtenido en la trama actual.
La Figura 11 es un diagrama de bloques que muestra la configuración principal del aparato 600 de decodificación de
50 habla de acuerdo con la realización 3 de la presente invención. El aparato 600 de decodificación de habla tiene una configuración básica similar a la del aparato 200 de decodificación de habla mostrado en la Figura 3, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 600 de decodificación de habla se diferencia del aparato 200 de decodificación de habla en que est� equipado adicionalmente con la sección 603 de cálculo de valor de interpolación. También, el procesamiento se
5 diferencia en parte entre la sección 604 de descuantificaci�n de ganancia del aparato 600 de decodificación de habla y la sección 204 de descuantificaci�n de ganancia del aparato 200 de decodificación de habla, y se asigna un código de referencia diferente para indicar esto.
La sección 603 de cálculo de valor de interpolación tiene una memoria intermedia interna que almacena información
10 de banda que indica información de banda descuantificada en una trama pasada. Usando un valor de ganancia de una banda descuantificada en una trama pasada leída de la sección 604 de descuantificaci�n de ganancia, la sección 603 de cálculo de valor de interpolación interpola un valor de ganancia de una banda que no se descuantific� en una trama pasada entre las bandas objetivo de cuantificación de trama actual indicadas mediante la entrada de información de banda de la sección 201 de demultiplexaci�n. La sección 603 de cálculo de valor de
15 interpolación emite un valor de interpolación de ganancia obtenido a la sección 604 de descuantificaci�n de ganancia.
La sección 604 de descuantificaci�n de ganancia se diferencia de la sección 204 de descuantificaci�n de ganancia del aparato 200 de decodificación de habla en que usa una entrada de valor de interpolación de ganancia de la
20 sección 603 de cálculo de valor de interpolación además de un valor de ganancia descuantificada de trama pasada almacenado y un libro de códigos de ganancia interno cuando realiza codificación predictiva.
El método de interpolación de valor de ganancia usado mediante la sección 603 de cálculo de valor de interpolación es similar al método de interpolación de valor de ganancia usado mediante la sección 504 de cálculo de valor de
25 interpolación, y por lo tanto se omite en este punto una descripción detallada del mismo.
A continuación, se describir� una operación de decodificación predictiva en la sección 604 de descuantificaci�n de ganancia.
30 La sección 604 de descuantificaci�n de ganancia realiza descuantificaci�n prediciendo un valor de ganancia de trama actual usando un valor de ganancia descuantificada almacenado en una trama pasada, una entrada de valor de ganancia de interpolación de la sección 603 de cálculo de valor de interpolación y un libro de códigos de ganancia interno. Específicamente, la sección 604 de descuantificaci�n de ganancia obtiene el valor de ganancia Ganancia_q’ realizando descuantificaci�n de ganancia de acuerdo con la Ecuación (23) a continuación.
En la Ecuación (23), C’’tj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, C’’tj indica un valor de ganancia de una trama anterior. También, ! es un coeficiente de predicción lineal de
40 4� orden almacenado en la sección 604 de descuantificaci�n de ganancia. Un valor de interpolación de ganancia calculado mediante la sección 603 de cálculo de valor de interpolación se usa como un valor de ganancia de una banda no seleccionada como un objetivo de cuantificación en las tres tramas pasadas. La sección 604 de descuantificaci�n de ganancia trata L subbandas en una región como un vector L-dimensional, y realiza descuantificaci�n de vector.
45 A continuación, la sección 604 de descuantificaci�n de ganancia calcula un coeficiente de MDCT decodificado de acuerdo con la Ecuación (24) a continuación usando un valor de ganancia obtenido mediante la descuantificaci�n de la trama actual y una entrada de valor de forma de la sección 202 de descuantificaci�n de forma, y actualiza la memoria intermedia interna de acuerdo con la Ecuación (25) a continuación. En este punto, un coeficiente de MDCT
50 decodificado calculado se indica mediante X’’k. También, en la descuantificaci�n del coeficiente de MDCT, si k est� presente en B(j’’) a B(j’’+1)-1, el valor de ganancia Ganancia q’ (j) toma el valor de Ganancia_q’(j’’).
Por lo tanto, de acuerdo con esta realización, cuando se realiza una cuantificación del parámetro de dominio de frecuencia de una banda objetivo de cuantificación diferente de cada trama, los valores de bandas no cuantificadas
5 adyacentes se interpolan sucesivamente a partir de un valor cuantificado en una trama pasada, y se realiza cuantificación predictiva usando un valor de interpolación. En consecuencia, la precisión de codificación de la codificación de habla puede mejorarse adicionalmente.
En esta realización, se ha descrito un caso a modo de ejemplo en el que un coeficiente de interpolación fijo ∀
10 encontrado de antemano se usa cuando se calcula un valor de interpolación de ganancia, pero la presente invención no est� limitada a esto, y puede realizarse también interpolación después de ajustar el coeficiente de interpolación previamente encontrado ∀. Por ejemplo, un coeficiente de predicción puede ajustarse de acuerdo con la distribución de ganancia de una banda cuantificada en cada trama. Específicamente, es posible mejorar la precisión de codificación de la codificación de habla realizando ajuste de modo que un coeficiente de predicción se debilite y el
15 factor de ponderaci�n de la ganancia de trama actual se aumente cuando la variación en la ganancia cuantificada en cada trama sea grande.
En esta realización, se ha descrito un caso a modo de ejemplo en el que una pluralidad de bandas consecutivas (una región) que comprende una banda cuantificada en cada trama se hace un objetivo, pero la presente invención
20 no est� limitada a esto, y una pluralidad de regiones puede hacerse también un objetivo de cuantificación. En un caso de este tipo, es posible mejorar la precisión de codificación de la codificación de habla empleando un método en el cual se realiza predicción lineal de valores finales de las respectivas regiones para una banda entre regiones seleccionadas además del método de interpolación de acuerdo con la Ecuación (19) y Ecuación (20).
25 (Realización 4)
La Figura 12 es un diagrama de bloques que muestra la configuración principal del aparato 700 de codificación de habla de acuerdo con la realización 4 de la presente invención. El aparato 700 de codificación de habla tiene una configuración básica similar a la del aparato 100 de codificación de habla mostrado en la Figura 1, y por lo tanto se
30 asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 700 de codificación de habla se diferencia del aparato 100 de codificación de habla en que est� equipado adicionalmente con la sección 704 de decisión de coeficiente de predicción. También, el procesamiento se diferencia
35 en parte entre la sección 705 de cuantificación de ganancia del aparato 700 de codificación de habla y la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla, y se asigna un código de referencia diferente para indicar esto.
La sección 704 de decisión de coeficiente de predicción tiene una memoria intermedia interna que almacena
40 información de banda que indica una banda objetivo de cuantificación de una trama pasada, decide un coeficiente de predicción a usarse en la cuantificación de la sección 705 de cuantificación de ganancia basándose en la información de banda de trama pasada, y emite un coeficiente de predicción decidido a la sección 705 de cuantificación de ganancia.
45 La sección 705 de cuantificación de ganancia se diferencia de la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla en que usa una entrada de coeficiente de predicción de la sección 704 de decisión de coeficiente de predicción en lugar de un coeficiente de predicción decidido de antemano cuando realiza codificación predictiva.
50 Se describir� ahora una operación de decisión de coeficiente de predicción en la sección 704 de decisión de coeficiente de predicción.
La sección 704 de decisión de coeficiente de predicción tiene una memora intermedia interna que almacena la entrada de información de banda m_m�x de la sección 102 de selección de banda en una trama pasada. En este
55 punto, se describir� un caso a modo de ejemplo en el que se proporciona una memoria intermedia interna que almacena información de banda m_m�x para las tres tramas pasadas.
Usando la información de banda m_m�x almacenada en la memoria intermedia interna y la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual, la sección 704 de decisión de
coeficiente de predicción encuentra un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y banda objetivo de cuantificación de trama pasada. La sección 704 de decisión de coeficiente de predicción decide los coeficientes de predicción para ser el conjunto A y emite este a la sección 705 de cuantificación de ganancia si el número de subbandas comunes es mayor que o igual a un valor predeterminado, o 5 decide los coeficientes de predicción para ser el conjunto B y emite este a la sección 705 de cuantificación de ganancia si el número de subbandas comunes es menor que el valor predeterminado. En este punto, el conjunto de coeficiente de predicción A es un conjunto de parámetro que enfatiza un valor más de trama pasada, y hace el factor de ponderaci�n de un valor de ganancia de trama pasada más grande, que en el caso del conjunto de coeficiente de predicción B. Por ejemplo, en el caso de los coeficientes de predicción de 4� orden, es posible para el conjunto A
10 decidirse como (!a0=0,60, !a1= 0,25, !a2=0,10, !a3=0,05), y para el conjunto B decidirse como (!b0=0,80, !b1=0,10, !b2=0,05, !b3=0,05),
A continuación la sección 704 de decisión de coeficiente de predicción actualiza la memoria intermedia interna usando la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual.
15 A continuación, se describir� una operación de codificación predictiva en la sección 705 de cuantificación de ganancia.
La sección 705 de cuantificación de ganancia tiene una memoria intermedia interna que almacena un valor de
20 ganancia de cuantificación obtenido en una trama pasada. La sección 705 de cuantificación de ganancia realiza cuantificación prediciendo un valor de ganancia de trama actual usando una entrada de coeficiente de predicción de la sección 704 de decisión de coeficiente de predicción y el valor de ganancia de cuantificación de trama pasada Ctj almacenado en la memoria intermedia interna. Específicamente, la sección 705 de cuantificación de ganancia busca un libro de códigos de ganancia interno compuesto de la cantidad de GQ de vectores de código de ganancia para
25 cada una de las L subbandas, y encuentra un índice de un vector de código de ganancia para el que el resultado de la Ecuación (26) a continuación es un mínimo si un coeficiente de predicción es el conjunto A, o encuentra un índice de un vector de código de ganancia para el que el resultado de la Ecuación (27) a continuación es un mínimo si un coeficiente de predicción es el conjunto B.
de ganancia, i indica un índice de vector de código de ganancia, y j indica un índice de un elemento de vector de código de ganancia. En este punto, Ctj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que 35 cuando t=1, por ejemplo, Ctj indica un valor de ganancia de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 705 de cuantificación de ganancia. La sección 705 de cuantificación de ganancia trata L subbandas en una región como un vector L-dimensional, y realiza cuantificación de vector. Si no existe valor de ganancia de una subbanda que corresponde a una trama pasada en la memoria intermedia interna, la sección 705 de cuantificación de ganancia sustituye el valor de ganancia de la
40 subbanda más próxima en frecuencia en la memoria intermedia interna en la Ecuación (26) o Ecuación (27) anteriores.
La Figura 13 es un diagrama de bloques que muestra la configuración principal del aparato 800 de decodificación de habla de acuerdo con la realización 4 de la presente invención. El aparato 800 de decodificación de habla tiene una
45 configuración básica similar a la del aparato 200 de decodificación de habla mostrado en la Figura 3, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 800 de decodificación de habla se diferencia del aparato 200 de decodificación de habla en que est�
50 equipado adicionalmente con la sección 803 de decisión de coeficiente de predicción. También, el procesamiento se diferencia en parte entre la sección 804 de descuantificaci�n de ganancia del aparato 800 de decodificación de habla y la sección 204 de descuantificaci�n de ganancia del aparato 200 de decodificación de habla, y se asigna un código de referencia diferente para indicar esto.
La sección 803 de decisión de coeficiente de predicción tiene una memoria intermedia interna que almacena la entrada de información de banda de la sección 201 de demultiplexaci�n en una trama pasada, decide un coeficiente de predicción a usarse en la cuantificación de la sección 804 de descuantificaci�n de ganancia basándose en la información de banda de trama pasada, y emite un coeficiente de predicción decidido a la sección 804 de
5 descuantificaci�n de ganancia.
La sección 804 de descuantificaci�n de ganancia se diferencia de la sección 204 de descuantificaci�n de ganancia del aparato 200 de decodificación de habla en que usa una entrada de coeficiente de predicción de la sección 803 de decisión de coeficiente de predicción en lugar de un coeficiente de predicción decidido de antemano cuando
10 realiza decodificación predictiva.
El método de decisión de coeficiente de predicción usado mediante la sección 803 de decisión de coeficiente de predicción es similar al método de decisión de coeficiente de predicción usado mediante la sección 704 de decisión de coeficiente de predicción del aparato 700 de codificación de habla, y por lo tanto una descripción detallada de la
15 operación de la sección 803 de decisión de coeficiente de predicción se omite en este punto.
A continuación, se describir� una operación de decodificación predictiva en la sección 804 de descuantificaci�n de ganancia.
20 La sección 804 de descuantificaci�n de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia obtenido en una trama pasada. La sección 804 de descuantificaci�n de ganancia realiza descuantificaci�n prediciendo un valor de ganancia de trama actual usando una entrada de coeficiente de predicción de la sección 803 de decisión de coeficiente de predicción y un valor de ganancia de trama pasada almacenado en la memoria intermedia interna. Específicamente, la sección 804 de descuantificaci�n de ganancia tiene el mismo tipo de libro de
25 códigos de ganancia interno que la sección 705 de cuantificación de ganancia del aparato 700 de codificación de habla, y obtiene el valor de ganancia Ganancia_q’ realizando descuantificaci�n de ganancia de acuerdo con la Ecuación (28) a continuación si una entrada del coeficiente de predicción de la sección 803 de decisión de coeficiente de predicción es el conjunto A, o de acuerdo con la Ecuación (29) a continuación si el coeficiente de predicción es el conjunto B.
35 En la Ecuación (28) y Ecuación (29), C’’tj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, C’’tj indica un valor de ganancia de una trama anterior. También, !ai y !bi indican la entrada del conjunto de coeficiente de predicción A y del conjunto B de la sección 803 de decisión de coeficiente de predicción. La sección 804 de descuantificaci�n de ganancia trata L subbandas en una región como un vector Ldimensional, y realiza descuantificaci�n de vector.
40 Por lo tanto, de acuerdo con esta realización, cuando se realiza cuantificación de parámetro de dominio de frecuencia de una banda objetivo de cuantificación diferente de cada trama, se realiza codificación predictiva seleccionado, a partir de una pluralidad de conjuntos de coeficientes de predicción, un conjunto de coeficiente de predicción que hace el factor de ponderaci�n de un valor de ganancia de trama pasada proporcionalmente más
45 grande que el mayor del número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual. En consecuencia, la precisión de codificación de la codificación de habla puede mejorarse adicionalmente.
En esta realización, se ha descrito un caso a modo de ejemplo en el que se proporcionan dos tipos de conjuntos de
50 coeficientes de predicción de antemano, y un coeficiente de predicción usado en codificación predictiva se cambia de acuerdo con el número de subbandas comunes a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual, pero la presente invención no est� limitada a esto, y tres o más tipos de conjuntos de coeficientes de predicción pueden proporcionarse también de antemano.
55 En esta realización, se ha descrito un caso a modo de ejemplo en el que, si una banda objetivo de cuantificación en la trama actual no se ha cuantificado en una trama pasada, el valor de la banda más cercana en una trama pasada se sustituye, pero la presente invención no est� limitada a esto, y si un valor de banda objetivo de cuantificación en la trama actual no se ha cuantificado en una trama pasada, la codificación predictiva puede realizarse también
5 tomando el coeficiente de predicción de trama pasada relevante como cero, añadiendo un coeficiente de predicción de esa trama a un coeficiente de predicción de trama actual, calculando un nuevo conjunto de coeficiente de predicción y usando estos coeficientes de predicción. Por este medio, el efecto de la codificación predictiva puede cambiarse más flexiblemente y la precisión de codificación de la codificación de habla puede mejorarse adicionalmente.
(Realización 5)
La Figura 14 es un diagrama de bloques que muestra la configuración principal del aparato 1000 de codificación de habla de acuerdo con la realización 5 de la presente invención. El aparato 1000 de codificación de habla tiene una
15 configuración básica similar a la del aparato 300 de codificación de habla mostrado en la Figura 6, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 1000 de codificación de habla se diferencia del aparato 300 de codificación de habla en que est� equipado adicionalmente con la sección 1007 de codificación de mejora de banda. También, el procesamiento se diferencia en parte entre la sección 1008 de codificación de segunda capa y la sección 1009 de multiplexaci�n del aparato 1000 de codificación de habla y la sección 308 de codificación de segunda capa y la sección 309 de multiplexaci�n del aparato 300 de codificación de habla, y se asignan diferentes códigos de referencia para indicar esto.
25 La sección 1007 de codificación de mejora de banda realiza codificación de mejora de banda usando una entrada de coeficiente de MDCT de primera capa de la primera sección 305 de transformación de dominio de frecuencia y una entrada de coeficiente de MDCT de entrada de la segunda sección 307 de transformación de dominio de frecuencia, y emite la información codificada de mejora de banda obtenida a la sección 1009 de multiplexaci�n.
La sección 1009 de multiplexaci�n se diferencia de la sección 309 de multiplexaci�n únicamente en que multiplexa también información codificada de mejora de banda además de información codificada de primera capa e información codificada de segunda capa.
35 La Figura 15 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1007 de codificación de mejora de banda.
En la Figura 15, la sección 1007 de codificación de mejora de banda est� equipada con la sección 1071 de estimación de espectro de banda alta y la sección 1072 de codificación de factor de escala correctiva.
La sección 1071 de estimación de espectro de banda alta estima un espectro de banda alta de las bandas de señal FL a FH usando un espectro de banda baja de las bandas de señal 0 a FL de una entrada de coeficiente de MDCT de entrada de la segunda sección 307 de transformación de dominio de frecuencia, para obtener un espectro estimado. El método de derivación de espectro estimado es encontrar un espectro estimado de manera que el grado
45 de similitud con el espectro de banda alta se hace un máximo transformando el espectro de banda baja basándose en este espectro de banda baja. La sección 1071 de estimación de espectro de banda alta codifica información relacionada con este espectro estimado (información de estimación), emite un parámetro de codificación obtenido, y proporciona también el propio espectro estimado a la sección 1072 de codificación de factor de escala correctiva.
En la siguiente descripción, una salida de espectro estimado de la sección 1071 de estimación de espectro de banda alta se denomina un primer espectro, y una salida de coeficiente de MDCT de primera capa (espectro de banda alta) de la primera sección 305 de transformación de dominio de frecuencia se denomina un segundo espectro.
Los tipos de espectros anteriormente descritos y las bandas de señal correspondientes pueden resumirse como 55 sigue.
Espectro de banda estrecha (espectro de banda baja) ... 0 a FL espectro de banda ancha ... 0 a FH primer espectro (espectro estimado) ... FL a FH segundo espectro (espectro de banda alta) ... FL a FH
La sección 1072 de codificación de factor de escala correctiva corrige un factor de escala de primer espectro de modo que el factor de escala de primer espectro se acerca a un factor de escala de segundo espectro, y codifica y emite información relacionada con este factor de escala correctiva.
La salida de información codificada de mejora de banda de la sección 1007 de codificación de mejora de banda a la
65 sección 1009 de multiplexaci�n incluye una salida del parámetro de codificación de información de estimación de la sección 1071 de estimación de espectro de banda alta y una salida del parámetro de codificación de factor de escala correctiva de la sección 1072 de codificación de factor de escala correctiva.
La Figura 16 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1072 de codificación de factor de escala correctiva.
5 La sección 1072 de codificación de factor de escala correctiva est� equipada con las secciones 1721 y 1722 de cálculo de factor de escala, el libro de códigos 1723 de factor de escala correctiva, el multiplicador 1724, el restador 1725, la sección 1726 de determinación, la sección 1727 de cálculo de error de ponderaci�n y la sección 1728 de búsqueda. Estas secciones realizan las siguientes operaciones.
La sección 1721 de cálculo de factor de escala divide las bandas de señal del segundo espectro de entrada FL a FH en una pluralidad de subbandas, encuentra el tamaño de un espectro incluido en cada subbanda, y emite este al restador 1725. Específicamente, la división en subbandas se realiza asociada con una banda crítica, y se realiza la división en intervalos iguales en la escala de Bark. También, la sección 1721 de cálculo de factor de escala
15 encuentra la amplitud media de los espectros incluidos en las subbandas, y toma este como el segundo factor de escala SF2(k) {0#k<NB}, donde NB representa el número de subbandas. Un valor de amplitud máxima o similar puede usarse en lugar de una amplitud media.
La sección 1722 de cálculo de factor de escala divide las bandas de señal del primer espectro de entrada FL a FH en una pluralidad de subbandas, calcula el primer factor de escala SF1(k) {0#k<NB} de las subbandas, y emite este al multiplicador 1724. Como con la sección 1721 de cálculo de factor de escala, un valor de amplitud máxima o similar puede usarse en lugar de una amplitud media.
En el posterior procesamiento, los parámetros en la pluralidad de subbandas se integran en un valor de vector. Por
25 ejemplo, la cantidad de NB de los factores de escala se representa como un vector. Se proporcionar� una descripción tomando un caso en el que cada operación de procesamiento se realiza para cada uno de estos vectores como un ejemplo -es decir, un caso en el que se realiza cuantificación de vector.
El libro de códigos 1723 de factor de escala correctiva almacena una pluralidad de candidatos de factor de escala correctiva, y emite secuencialmente uno de los candidatos de factor de escala correctiva almacenados al multiplicador 1724 de acuerdo con una directiva de la sección 1728 de búsqueda. La pluralidad de candidatos de factor de escala correctiva almacenados en el libro de códigos 1723 de factor de escala correctiva se representa mediante un vector.
35 El multiplicador 1724 multiplica una primera salida de factor de escala de la sección 1722 de cálculo de factor de escala mediante una salida de candidato de factor de escala correctiva del libro de códigos 1723 de factor de escala correctiva, y proporciona el resultado de la multiplicación al restador 1725.
El restador 1725 resta la salida del multiplicador 1724 -es decir, el producto del primer factor de escala y el factor de escala correctiva -de la segunda salida del factor de escala de la sección 1721 de cálculo de factor de escala, y proporciona una señal de error obtenida de esta manera a la sección 1727 de cálculo de error de ponderaci�n y a la sección 1726 de determinación.
La sección 1726 de determinación decide un vector de ponderaci�n para proporcionarse a la sección 1727 de
45 cálculo de error de ponderaci�n basándose en el signo de la señal de error proporcionada del restador 1725. Específicamente, la señal de error d(k) proporcionada del restador 1725 se representa mediante la Ecuación (30) a continuación.
En este punto, vi(k) representa un i�simo candidato de factor de escala correctiva. La sección 1726 de determinación comprueba el signo de d(k), selecciona wpos como un factor de ponderaci�n si d (k) es positivo, o selecciona wneg como un factor de ponderaci�n si d (k) es negativo, y emite el vector de ponderaci�n w (k) compuesto de estos a la sección 1727 de cálculo de error de ponderaci�n. Estos factores de ponderaci�n tienen la relación de tamaño
55 relativo mostrada en la Ecuación (31) a continuación.
Por ejemplo, si el número de subbandas NB=4, y los signos de d(k) son {+, -, -, +}, la salida del vector de ponderaci�n w(k) a la sección 1727 de cálculo de error de ponderaci�n se representa mediante w(k)={wpos, wneg, wneg, wpos}.
La sección 1727 de cálculo de error de ponderaci�n en primer lugar calcula el cuadrado de la señal de error proporcionada del restador 1725, y a continuación multiplica el vector de ponderaci�n w(k) proporcionado de la sección 1726 de determinación por el cuadrado de la señal de error para calcular el error cuadrático ponderado E, y proporciona el resultado de este cálculo a la sección 1728 de búsqueda. En este punto, el error cuadrático ponderado E se representa como se muestra en la Ecuación (32) a continuación.
La sección 1728 de búsqueda controla el libro de códigos 1723 de factor de escala correctiva y emite
10 secuencialmente candidatos de factor de escala correctiva almacenados, y por medio de procesamiento de bucle cerrado encuentra un candidato de factor de escala correctiva para el que la salida del error cuadrático ponderado E de la sección 1727 de cálculo de error de ponderaci�n es un mínimo. La sección 1728 de búsqueda emite el índice iopt del candidato de factor de escala correctiva encontrado como un parámetro de codificación.
15 Cuando se establece un factor de ponderaci�n usado cuando se calcula el error cuadrático ponderado E de acuerdo con el signo de una señal de error y el tipo de relación mostrada en la Ecuación (30) aplica a ese factor de ponderaci�n, como se ha descrito anteriormente, se obtiene el siguiente tipo de efecto. En concreto, un caso en el que la señal de error d(k) es positiva es un caso en el que un valor decodificado generado en el lado de decodificación (en términos del lado de codificación, un valor obtenido multiplicando un primer factor de escala por
20 un factor de escala correctiva) es más pequeño que un segundo factor de escala, que es el valor objetivo. También, un caso en el que la señal de error d (k) es negativa es un caso en el que un valor decodificado generado en el lado de decodificación es mayor que un segundo factor de escala, que es el valor objetivo. Por lo tanto, estableciendo un factor de ponderaci�n cuando la señal de error d(k) es positiva para que sea más pequeña que un factor de ponderaci�n cuando la señal de error d(k) es negativa, cuando los valores de error cuadrático son del mismo orden
25 un candidato de factor de escala correctiva que genera un valor decodificado más pequeño que un segundo factor de escala se hace propenso a seleccionarse.
El siguiente tipo de efecto de mejora se obtiene mediante el procesamiento de la sección 1007 de codificación de mejora de banda. Por ejemplo, cuando se estima un espectro de banda alta usando un espectro de banda baja, 30 como en esta realización, puede conseguirse generalmente una tasa de bits inferior. Sin embargo, mientras que puede conseguirse una tasa de bits inferior, la precisión de un espectro estimado -es decir, la similitud entre un espectro estimado y un espectro de banda alta -no puede decirse que es suficientemente alta, como se ha descrito anteriormente. En un caso de este tipo, si un valor decodificado de factor de escala se hace mayor que un valor objetivo, y un factor de escala posterior a cuantificación opera en la dirección de intensificación de un espectro
35 estimado, la baja precisión del espectro estimado tiende a ser perceptible para el oído humano como degradación de calidad. A la inversa, cuando un valor decodificado de factor de escala se hace más pequeño que un valor objetivo, y un factor de escala posterior a cuantificación opera en la dirección de atenuación de este espectro estimado, la baja precisión del espectro estimado deja de ser perceptible, y se obtiene un efecto de mejorar la calidad de audio de la señal decodificada. Esta tendencia se ha confirmado también en una simulación por ordenador.
40 La Figura 17 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1008 de codificación de segunda capa. La sección 1008 de codificación de segunda capa tiene una configuración básica similar a la de la sección 308 de codificación de segunda capa mostrada en la Figura 7, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los
45 mismos en este punto. El procesamiento se diferencia en parte entre la sección 1081 de cálculo de coeficiente de MDCT residual de la sección 1008 de codificación de segunda capa y la sección 381 de cálculo de coeficiente de MDCT residual de la sección 308 de codificación de segunda capa, y se asigna un código de referencia diferente para indicar esto.
50 La sección 1081 de cálculo de coeficiente de MDCT residual calcula un MDCT residual que es para ser un objetivo de cuantificación en la sección de codificación de segunda capa de un coeficiente de MDCT de entrada y coeficiente de MDCT de mejora de primera capa. La sección 1081 de cálculo de coeficiente de MDCT residual se diferencia de la sección 381 de cálculo de coeficiente de MDCT residual de acuerdo con la realización 2 en que toma un residuo del coeficiente de MDCT de entrada y del coeficiente de MDCT de mejora de primera capa como un coeficiente de
55 MDCT residual para una banda no mejorada mediante la sección 1007 de codificación de mejora de banda y tomando un propio coeficiente de MDCT de entrada, en lugar de un residuo, como un coeficiente de MDCT residual para una banda mejorada mediante la sección 1007 de codificación de mejora de banda.
La Figura 18 es un diagrama de bloques que muestra la configuración principal del aparato 1010 de decodificación
60 de habla de acuerdo con la realización 5 de la presente invención. El aparato 1010 de decodificación de habla tiene una configuración básica similar a la del aparato 400 de decodificación de habla mostrado en la Figura 8, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
El aparato 1010 de decodificación de habla se diferencia del aparato 400 de decodificación de habla en que est�
5 equipado adicionalmente con la sección 1012 de decodificación de mejora de banda y la sección 1013 de transformación de dominio de tiempo. También, el procesamiento se diferencia en parte entre la sección 1011 de control, la sección 1015 de decodificación de segunda capa y el conmutador 1017 del aparato 1010 de decodificación de habla y la sección 401 de control, la sección 405 de decodificación de segunda capa y el conmutador 407 del aparato 400 de decodificación de habla, y se asignan diferentes códigos de referencia para
10 indicar esto.
La sección 1011 de control analiza elementos de configuración de una corriente de bits transmitida desde el aparato 1000 de codificación de habla, y de acuerdo con estos elementos de configuración de corriente de bits, emite adaptativamente información codificada apropiada a la sección 402 de decodificación de primera capa, a la sección 15 1012 de decodificación de mejora de banda y a la sección 1015 de decodificación de segunda capa, y emite también información de control al conmutador 1017. Específicamente, si la corriente de bits comprende información codificada de primera capa, información codificada de mejora de banda e información codificada de segunda capa, la sección 1011 de control emite la información codificada de primera capa a la sección 402 de decodificación de primera capa, emite la información codificada de mejora de banda a la sección 1012 de decodificación de mejora de 20 banda, y emite la información codificada de segunda capa a la sección 1015 de decodificación de segunda capa. Si la corriente de bits comprende únicamente información codificada de primera capa y la información codificada de mejora de banda, la sección 1011 de control emite la información codificada de primera capa a la sección 402 de decodificación de primera capa, y emite la información codificada de mejora de banda a la sección 1012 de decodificación de mejora de banda. Si la corriente de bits comprende únicamente información codificada de primera
25 capa, la sección 1011 de control emite esta información codificada de primera capa a la sección 402 de decodificación de primera capa. También, la sección 1011 de control emite información de control que controla el conmutador 1017 al conmutador 1017.
La sección 1012 de decodificación de mejora de banda realiza procesamiento de mejora de banda usando la
30 entrada de información codificada de mejora de banda de la sección 1011 de control y una entrada de coeficiente de MDCT decodificado de primera capa de la sección 404 de transformación de dominio de frecuencia, para obtener un coeficiente de MDCT de mejora de primera capa. A continuación la sección 1012 de decodificación de mejora de banda emite el coeficiente de MDCT de mejora de primera capa obtenido a la sección 1013 de transformación de dominio de tiempo y a la sección 1015 de decodificación de segunda capa. La configuración interna principal y
35 operación real de la sección 1012 de decodificación de mejora de banda se describir� más adelante en el presente documento.
La sección 1013 de transformación de dominio de tiempo realiza una IMDCT en la entrada del coeficiente de MDCT de mejora de primera capa de la sección 1012 de decodificación de mejora de banda, y emite una señal
40 decodificada de mejora de primera capa obtenida como un componente de dominio de tiempo al conmutador 1017.
La sección 1015 de decodificación de segunda capa realiza descuantificaci�n de ganancia y descuantificaci�n de forma usando la entrada de información codificada de segunda capa de la sección 1011 de control y la entrada de coeficiente de MDCT de mejora de primera capa de la sección 1012 de decodificación de mejora de banda, para
45 obtener un coeficiente de MDCT decodificado de segunda capa. La sección 1015 de decodificación de segunda capa añade juntos el coeficiente de MDCT decodificado de segunda capa obtenido y el coeficiente de MDCT decodificado de primera capa, y emite el resultado de la adición obtenido a la sección 406 de transformación de dominio de tiempo como un coeficiente de MDCT de adición. La configuración interna principal y operación real de la sección 1015 de decodificación de segunda capa se describir� más adelante en el presente documento.
50 Basándose en la entrada de información de control de la sección 1011 de control, si la entrada de corriente de bits al aparato 1010 de decodificación de habla comprende información codificada de primera capa, información codificada de mejora de banda e información codificada de segunda capa, el conmutador 1017 emite la entrada de señal decodificada de segunda capa de la sección 406 de transformación de dominio de tiempo como una señal de salida.
55 Si la corriente de bits comprende únicamente información codificada de primera capa e información codificada de mejora de banda, el conmutador 1017 emite la entrada de señal decodificada de mejora de primera capa de la sección 1013 de transformación de dominio de tiempo como una señal de salida. Si la corriente de bits comprende únicamente información codificada de primera capa, el conmutador 1017 emite la entrada de señal decodificada de primera capa de la sección 402 de decodificación de primera capa como una señal de salida.
60 La Figura 19 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1012 de decodificación de mejora de banda. La sección 1012 de decodificación de mejora de banda comprende la sección 1121 de decodificación de espectro de banda alta, la sección 1122 de decodificación de factor de escala correctiva, el multiplicador 1123 y la sección 1124 de enlace.
65 La sección 1121 de decodificación de espectro de banda alta decodifica un espectro estimado (espectro fino) de las bandas FL a FH usando un parámetro de codificación de información de estimación y el primer espectro incluido en la entrada de información codificada de mejora de banda de la sección 1011 de control. El espectro estimado obtenido se proporciona al multiplicador 1123.
5 La sección 1122 de decodificación de factor de escala correctiva decodifica un factor de escala correctiva usando un parámetro de codificación de factor de escala correctiva incluido en la entrada de información codificada de mejora de banda de la sección 1011 de control. Específicamente, la sección 1122 de decodificación de factor de escala correctiva hace referencia a un libro de códigos (no mostrado) de factor de escala correctiva interno y emite un factor de escala correctiva correspondiente al multiplicador 1123.
El multiplicador 1123 multiplica la salida del espectro estimado de la sección 1121 de decodificación de espectro de banda alta por la salida del factor de escala correctiva de la sección 1122 de decodificación de factor de escala correctiva y emite el resultado de multiplicación a la sección 1124 de enlace.
15 La sección 1124 de enlace enlaza el primer espectro y la salida del espectro estimado del multiplicador 1123 en el dominio de frecuencia, para generar un espectro decodificado de banda ancha de las bandas de señal 0 a FH, y emite este a la sección 1013 de transformación de domino de tiempo como un coeficiente de MDCT de mejora de primera capa.
Por medio de la sección 1012 de decodificación de mejora de banda, cuando una señal de entrada se transforma a un coeficiente de dominio de frecuencia y un factor de escala se cuantifica en la codificación de dominio de frecuencia de la capa superior, se realiza cuantificación de factor de escala usando una escala de distorsión ponderada de manera que un candidato de cuantificación para el que el factor de escala se hace pequeño se hace
25 propenso a seleccionarse. Es decir, un candidato de cuantificación en el cual el factor de escala después de cuantificación es más pequeño que el factor de escala antes de cuantificación, son más probables a seleccionarse. Por lo tanto, la degradación de calidad subjetiva perceptual puede suprimirse incluso cuando el número de bits asignados a la cuantificación de factor de escala es insuficiente.
La Figura 20 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1015 de decodificación de segunda capa. La sección 1015 de decodificación de segunda capa tiene una configuración básica similar a la de la sección 405 de decodificación de segunda capa mostrada en la Figura 9, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
35 El procesamiento se diferencia en parte entre la sección 1151 de cálculo de coeficiente de MDCT de adición de la sección 1015 de decodificación de segunda capa y la sección 452 de cálculo de coeficiente de MDCT de adición de la sección 405 de decodificación de segunda capa, y se asignan un código de referencia diferente para indicar esto.
La sección 1151 de cálculo de coeficiente de MDCT de adición tiene un coeficiente de MDCT de mejora de primera capa como entrada de la sección 1012 de decodificación de mejora de banda, y un coeficiente de MDCT decodificado de segunda capa como entrada de la sección 204 de descuantificaci�n de ganancia. La sección 1151 de cálculo de coeficiente de MDCT de adición añade juntos el coeficiente de MDCT decodificado de primera capa y el coeficiente de MDCT decodificado de segunda capa, y emite un coeficiente de MDCT de adición. Para una banda
45 de banda mejorada, el valor del coeficiente de MDCT de mejora de primera capa se añade como cero en la sección 1151 de cálculo de coeficiente de MDCT de adición. Es decir, para una banda de mejora de banda, el valor de coeficiente de MDCT decodificado de segunda capa se toma como el valor de coeficiente de MDCT de adición.
Por lo tanto, de acuerdo con esta realización, cuando un componente de frecuencia de una banda diferente se hace un objetivo de cuantificación en cada trama, se realiza codificación predictiva de parámetro no temporal adaptativamente además de aplicar codificación escalable usando tecnología de mejora de banda. En consecuencia, la cantidad de información codificada en la codificación de habla puede reducirse, y el error de codificación de la señal de habla/audio y la degradación de la calidad de audio de la señal decodificada puede reducirse adicionalmente.
55 También, puesto que un residuo no se calcula para un componente de una banda mejorada mediante un método de codificación de mejora de banda, la energía de un componente objetivo de cuantificación no aumenta en una capa superior, y la eficacia de la cuantificación puede mejorarse.
En esta realización, se ha descrito un caso a modo de ejemplo en el que se aplica un método en el cual la información codificada de mejora de banda se calcula en un aparato de codificación usando la correlación entre un componente de banda baja decodificado mediante una sección de decodificación de primera capa y un componente de banda alta de una señal de entrada, pero la presente invención no est� limitada a esto, y puede aplicarse también de manera similar a una configuración que emplee un método en el cual la información codificada de mejora de
65 banda no se calcule, y se realice pseudo-generación de una banda alta por medio de un componente de ruido, como con AMR-WB (MultiTasa Adaptativa -Banda Ancha). Como alternativa, un método de selección de banda de la presente invención puede aplicarse de manera similar al método de codificación de mejora de banda descrito en este ejemplo, o un método de codificación/decodificación escalable que no emplee un método de generación de componente de banda alta también usado en AMR-WB.
5 (Realización 6)
La Figura 21 es un diagrama de bloques que muestra la configuración principal del aparato 1100 de codificación de habla de acuerdo con la realización 6 de la presente invención.
En esta figura, el aparato 1100 de codificación de habla est� equipado con la sección 301 de submuestreo, la sección 302 de codificación de primera capa, la sección 303 de decodificación de primera capa, la sección 304 de sobremuestreo, la primera sección 305 de transformación de dominio de frecuencia, la sección 306 de retardo, la segunda sección 307 de transformación de dominio de frecuencia, la sección 1108 de codificación de segunda capa y la sección 309 de multiplexaci�n, y tiene una configuración escalable que comprende dos capas. En la primera
15 capa, se aplica un método de codificación de habla de CELP, y en la segunda capa, se aplica el método de codificación de habla descrito en la realización 1 de la presente invención.
Con la excepción de la sección 1108 de codificación de segunda capa, los elementos de configuración en el aparato 1100 de codificación de habla mostrado en la Figura 21 son idénticos a los elementos de configuración del aparato 300 de codificación de habla mostrado en la Figura 6, y y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La Figura 22 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1108 de codificación de segunda capa. La sección 1108 de codificación de segunda capa comprende principalmente la
25 sección 381 de cálculo de coeficiente de MDCT residual, la sección 1802 de selección de banda, la sección 103 de cuantificación de forma, la sección 104 de decisión de ejecución/no ejecución de codificación predictiva, la sección 1805 de cuantificación de ganancia y la sección 106 de multiplexaci�n. Con la excepción de la sección 1802 de selección de banda y la sección 1805 de cuantificación de ganancia, los elementos de configuración en la sección 1108 de codificación de segunda capa son idénticos a los elementos de configuración de la sección 308 de codificación de segunda capa mostrados en la Figura 7, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La sección 1802 de selección de banda en primer lugar divide el coeficiente de MDCT Xk en una pluralidad de subbandas. En este punto, se proporcionar� una descripción tomando un caso en el que el coeficiente de MDCT Xk
35 se divide igualmente en J subbandas (donde J es un número natural) como un ejemplo. A continuación la sección 1802 de selección de banda selecciona L subbandas (donde L es un número natural) de entre las J subbandas, y obtiene M tipos de regiones (donde M es un número natural).
La Figura 23 es un dibujo que muestra un ejemplo de la configuración de las regiones obtenidas mediante la sección 1802 de selección de banda.
En esta figura, el número de subbandas es 17 (J=17), el número de tipos de regiones es ocho (M=8), y cada región est� compuesta de dos grupos de subbandas (siendo el número de bandas que componen estos dos grupos de subbanda tres y dos respectivamente). De estos dos grupos de subbanda, el grupo de subbanda que comprende
45 dos bandas localizadas en el lado de banda alta es fijo a lo largo de todas las tramas, siendo los índices de subbanda, por ejemplo, 15 y 16. Por ejemplo, la región 4 est� compuesta de las subbandas 6 a 8, 15 y 16.
A continuación, la sección 1802 de selección de banda calcula la energía media E(m) de cada uno de los M tipos de regiones de acuerdo con la Ecuación (33) a continuación.
En esta ecuación, j’ indica el índice de cada una de las J subbandas, y m indica el índice de cada uno de los M tipos de regiones. Región (m) significa una colección de índices de L subbandas que componente la región m, y B(j’)
55 indica el mínimo valor entre los índices de una pluralidad de coeficientes de MDCT que componen la subbanda j’. W(j) indica el ancho de banda de la subbanda j’, y en la siguiente descripción, se describir� como ejemplo un caso en el que los anchos de banda de las J subbandas son todos iguales -es decir, un caso en el que W(j’) es una constante.
A continuación, cuando una región para la que la energía media E(m) es un máximo -por ejemplo, se selecciona la región m_m�x, la sección 1802 de selección de banda selecciona una banda compuesta de las j’ ∃ Región (m_m�x) subbandas como una banda objetivo de cuantificación, y emite el índice m_m�x que indica a esta región como información de banda a la sección 103 de cuantificación de forma, a la sección 104 de decisión de ejecución/no ejecución de codificación predictiva y a la sección 106 de multiplexaci�n. La sección 1802 de selección de banda emite también el coeficiente de MDCT residual Xk a la sección 103 de cuantificación de forma.
5 La sección 1805 de cuantificación de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia de cuantificación obtenido en una trama pasada. Si una entrada del resultado de la determinación de la sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva se ha de realizar, la sección 1805 de cuantificación de ganancia realiza cuantificación prediciendo un valor de ganancia
10 de trama actual usando el valor de ganancia de cuantificación de trama pasada Ctj, almacenado en la memoria intermedia interna. Específicamente, la sección 1805 de cuantificación de ganancia busca un libro de códigos de ganancia interno compuesto de la cantidad de GQ de vectores de código de ganancia para cada una de las L subbandas y encuentra un índice de un vector de código de ganancia para el que el resultado de la Ecuación (34) a continuación es un mínimo.
En esta ecuación, GCik indica un vector de código de ganancia que compone un libro de códigos de ganancia, i indica un índice de vector de código de ganancia, y k indica un índice de un elemento de vector de código de
20 ganancia. Por ejemplo, si el número de subbandas que compone una región es cinco (L=5), k tiene un valor de 0 a 4. En este punto, las ganancias de las subbandas de una región seleccionada se enlazan de modo que los índices de subbanda est�n en orden ascendente, las ganancias consecutivas se tratan como un vector de código de ganancia L-dimensional, y se realiza cuantificación de vector. Por lo tanto, para proporcionar una descripción usando la Figura 23, en el caso de la región 4, los valores de ganancia de los índices de subbanda 6, 7, 8, 15 y 16 se enlazan y tratan
25 como un vector de código de ganancia 5-dimensional. También, Ctj, indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, Ctj, indica un valor de ganancia de una trama anterior en tiempo, y ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 1805 de cuantificación de ganancia.
30 La sección 1805 de cuantificación de ganancia emite el índice de vector de código de ganancia G__m�n para el que el resultado de la Ecuación (34) anterior es un mínimo a la sección 106 de multiplexaci�n como información codificada de ganancia. Si no existe valor de ganancia de una subbanda que corresponde a una trama pasada en la memoria intermedia interna, la sección 1805 de cuantificación de ganancia sustituye el valor de ganancia de la subbanda más próxima en frecuencia en la memoria intermedia interna en la Ecuación (34) anterior.
35 Por otro lado, si la entrada del resultado de la determinación de la sección 104 de decisión de ejecución/no ejecución de codificación predictiva indica que la codificación predictiva no se ha de realizar, la sección 1805 de cuantificación de ganancia cuantifica directamente la entrada del valor de ganancia ideal Ganancia_i (j’) de la sección 103 de cuantificación de forma de acuerdo con la Ecuación (35) a continuación. En este punto, la sección 1805 de
40 cuantificación de ganancia trata un valor de ganancia ideal como un vector L-dimensional, y realiza cuantificación de vector.
45 En este punto, un índice de libro de códigos que hace a la Ecuación (35) anterior un mínimo se indica mediante G_m�n.
La sección 1805 de cuantificación de ganancia emite G_m�n a la sección 106 de multiplexaci�n como información codificada de ganancia. La sección 1805 de cuantificación de ganancia actualiza también la memoria intermedia
50 interna de acuerdo con la Ecuación (36) a continuación usando la información codificada de ganancia G_m�n y el valor de ganancia de cuantificación ctj, obtenido en la trama actual. Es decir, en la Ecuación (36), un valor C1j, se actualiza con el índice del elemento de vector de código de ganancia GCG_m�nj j y j’ satisfaciendo j’ ∃ Región(m_m�x) asociados respectivamente en orden ascendente.
La Figura 24 es un diagrama de bloques que muestra la configuración principal del aparato 1200 de decodificación de habla de acuerdo con esta realización.
5 En esta figura, el aparato 1200 de decodificación de habla est� equipado con la sección 401 de control, la sección 402 de decodificación de primera capa, la sección 403 de sobremuestreo, la sección 404 de transformación de dominio de frecuencia, la sección 1205 de decodificación de segunda capa, la sección 406 de transformación de dominio de tiempo y el conmutador 407.
10 Con la excepción de la sección 1205 de decodificación de segunda capa, los elementos de configuración en el aparato 1200 de decodificación de habla mostrado en la Figura 24 son idénticos a los elementos de configuración del aparato 400 de decodificación de habla mostrado en la Figura 8, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
15 La Figura 25 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1205 de decodificación de segunda capa. La sección 1205 de decodificación de segunda capa comprende principalmente la sección 451 de demultiplexaci�n, la sección 202 de descuantificaci�n de forma, la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva, la sección 2504 de descuantificaci�n de ganancia y la sección
20 452 de cálculo de coeficiente de MDCT de adición. Con la excepción de la sección 2504 de descuantificaci�n de ganancia, los elementos de configuración en la sección 1205 de decodificación de segunda capa son idénticos a los elementos de configuración de la sección 405 de decodificación de segunda capa mostrados en la Figura 9, y por lo tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
25 La sección 2504 de descuantificaci�n de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia obtenido en una trama pasada. Si una entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la codificación predictiva se ha de realizar, la sección 2504 de descuantificaci�n de ganancia realiza descuantificaci�n prediciendo un valor de ganancia de
30 trama actual usando un valor de ganancia de trama pasada almacenado en la memoria intermedia interna. Específicamente, la sección 2504 de descuantificaci�n de ganancia tiene el mismo tipo de libro de códigos de ganancia interno (GCG_m�nk, donde k indica un índice de elemento) como la sección 105 de cuantificación de ganancia del aparato 100 de codificación de habla, y obtiene el valor de ganancia Ganancia_q’ realizando descuantificaci�n de ganancia de acuerdo con la Ecuación (37) a continuación. En este punto, C’’tj, indica un valor
35 de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, C’’tj, indica un valor de ganancia de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 2504 de descuantificaci�n de ganancia. La sección 2504 de descuantificaci�n de ganancia trata L subbandas en una región como un vector L-dimensional, y realiza descuantificaci�n de vector. Es decir, en la Ecuación (37), un valor de Ganancia_q’ (j’) se calcula con el índice de elemento del vector de código de
40 ganancia GCG_m�nk k y j’ satisfaciendo k’ ∃ Región(m_m�x) asociados respectivamente en orden ascendente.
Si no existe valor de ganancia de una subbanda que corresponde a una trama pasada en la memoria intermedia 45 interna, la sección 2504 de descuantificaci�n de ganancia sustituye el valor de ganancia de la subbanda más próxima en frecuencia en la memoria intermedia interna en la Ecuación (37) anterior.
Por otro lado, si la entrada del resultado de la determinación de la sección 203 de decisión de ejecución/no ejecución de decodificación predictiva indica que la decodificación predictiva no se ha de realizar, la sección 2504 de 50 descuantificaci�n de ganancia realiza descuantificaci�n de un valor de ganancia de acuerdo con la Ecuación (38) a continuación usando el libro de códigos de ganancia anteriormente descrito. En este punto, un valor de ganancia se trata como un vector L-dimensional, y se realiza descuantificaci�n de vector. Es decir, cuando la decodificación predictiva no se realiza, la sección 2504 de descuantificaci�n de ganancia toma el vector de código de ganancia GCkG_m�n que corresponde a la información codifica de ganancia G_m�n directamente como un valor de ganancia. En 55 la Ecuación (38), k y j’ est�n asociados respectivamente en orden ascendente de la misma manera que en la
Ecuaci�n (37).
5 A continuación, la sección 2504 de descuantificaci�n de ganancia calcula un coeficiente de MDCT decodificado de acuerdo con la Ecuación (39) a continuación usado un valor de ganancia obtenido mediante descuantificaci�n de la trama actual y una entrada de valor de forma de la sección 202 de descuantificaci�n de forma, y actualiza la memoria intermedia interna de acuerdo con la Ecuación (40) a continuación. En la Ecuación (40), un valor C’’1j, se actualiza con j de valor de ganancia descuantificada Ganancia_q’(j) y j’ satisfaciendo j’ ∃ Región(m_m�x) asociado
10 respectivamente en orden ascendente. En este punto, un coeficiente de MDCT decodificado calculado se indica mediante X’’k. También, en la descuantificaci�n del coeficiente de MDCT, si k est� presente en B(j’) a B(j’+1)1, el valor de ganancia toma el valor de Ganancia q’(j’).
La sección 2504 de descuantificaci�n de ganancia emite el coeficiente de MDCT decodificado X’’k calculado de acuerdo con la Ecuación (39) anterior a la sección 452 de cálculo de coeficiente de MDCT de adición.
20 Por lo tanto, de acuerdo con esta realización, como se compara con seleccionar una región compuesta de subbandas adyacentes de entre todas las bandas como una banda objetivo de cuantificación, una pluralidad de bandas para las que se desea mejorar la calidad de audio se establecen de antemano a través de un amplio intervalo, y una pluralidad de bandas no consecutivas que abarcan un amplio intervalo se seleccionan como bandas
25 objetivo de cuantificación. En consecuencia, tanto la calidad de banda baja como de banda alta puede mejorarse al mismo tiempo.
En esta realización, la razón para siempre fijar subbandas incluidas en una banda objetivo de cuantificación en el lado de la banda alta, como se muestra en la Figura 23, es que la distorsión de codificación es aún grande para una
30 banda alta en la primera capa de un c�dec escalable. Por lo tanto, la calidad de audio se mejora seleccionando de manera fija también una banda alta que no se haya codificado con muy alta precisión mediante la primera capa como un objetivo de cuantificación además de seleccionar una banda baja o media que tenga significancia perceptual para la selección como un objetivo de cuantificación en la segunda capa.
35 En esta realización, se ha descrito un caso a modo de ejemplo en el que una banda que se hace un objetivo de cuantificación de banda alta se fija incluyendo las mismas subbandas de banda alta (específicamente, los índices de subbanda 15 y 16) a lo largo de todas las tramas, pero la presente invención no est� limitada a esto, y una banda que se hace un objetivo de cuantificación de banda alta puede seleccionarse también de entre una pluralidad de candidatas de banda objetivo de cuantificación para una subbanda de banda alta de la misma manera que para una
40 subbanda de banda baja. En un caso de este tipo, la selección puede realizarse después de multiplicar por un factor de ponderaci�n más grande cuanto más alta es el área de subbanda. Es posible también para las bandas que se hacen candidatas que se cambien adaptativamente de acuerdo con la tasa de muestreo de la señal de entrada, tasa de bit de codificación, y las características espectrales de señal decodificada de primera capa, o las características espectrales de una señal diferencial para una señal de entrada y señal decodificada de primera capa o similar. Por
45 ejemplo, un posible método es dar prioridad como una candidata de banda objetivo de cuantificación a una parte donde la distribución de energía del espectro (coeficiente de MDCT residual) de una señal diferencial para la señal de entrada y la señal decodificada de primera capa es alta.
En esta realización, se ha descrito un caso a modo de ejemplo en el que un grupo de subbanda del lado de banda
50 alta que compone una región es fijo, y si la codificación predictiva se ha de aplicar o no a una sección de cuantificación de ganancia se determina de acuerdo con el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada en una trama pasada, pero la presente invención no est� limitada a esto, y la codificación predictiva puede también aplicarse siempre a la ganancia de un grupo de subbanda del lado de banda alta que compone una región, con la determinación de si la codificación predictiva se ha de realizar o no estando realizada únicamente para un grupo de
5 subbanda del lado de banda baja. En este caso, el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada en una trama pasada se tiene en consideración únicamente para un grupo de subbanda del lado de banda baja. Es decir, en este caso, un vector de cuantificación se cuantifica después de división en una parta para la que la codificación predictiva se realiza y una parte para la que la codificación predictiva no se realiza. De esta manera, puesto que no se realiza la determinación de si la codificación predictiva es necesaria o no para un grupo de subbanda fijo del lado de banda alta que compone una región, y la codificación predictiva siempre se realiza, la ganancia puede cuantificarse más eficazmente.
En esta realización, se ha descrito un caso a modo de ejemplo en el que la conmutación se realiza entre la
15 aplicación y no aplicación de codificación predictiva en una sección de cuantificación de ganancia de acuerdo con el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada una trama antes en tiempo, pero la presente invención no est� limitada a esto, y un número de subbandas comunes a una banda objetivo de cuantificación seleccionadas en la trama actual y una banda objetivo de cuantificación seleccionada dos o más tramas antes en tiempo pueden usarse también. En este caso, incluso si el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada una trama antes en tiempo es menor que o igual a un valor predeterminado, la codificación predictiva puede aplicarse en una sección de cuantificación de ganancia de acuerdo con el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada dos o más tramas antes en tiempo.
25 En esta realización, se ha descrito un caso a modo de ejemplo en el que una región est� compuesta de un grupo de subbanda del lado de banda baja y un grupo de subbanda del lado de banda alta, pero la presente invención no est� limitada a esto, y, por ejemplo, un grupo de subbanda puede establecerse también en una banda media, y una región puede componerse de tres o más grupos de subbanda, el número de grupos de subbanda que compone una región cambiarse también adaptativamente de acuerdo con la tasa de muestreo de la señal de entrada, tasa de bits de codificación y características espectrales de señal decodificada de primera capa o las características espectrales de una señal diferencial para una señal de entrada y señal decodificada de primera capa o similar.
En esta realización, se ha descrito un caso a modo de ejemplo en el que un grupo de subbanda del lado de banda
35 alta que compone una región est� fijo a lo largo de todas las tramas, pero la presente invención no est� limitada a esto, y un grupo de subbanda del lado de banda baja que compone una región puede fijarse también a lo largo de todas las tramas. También, tanto los grupos de subbanda del lado de banda alta como del lado de banda baja que componen una región pueden fijarse también a lo largo de todas las tramas, o tanto los grupos de subbanda del lado de banda alta como del lado de banda baja pueden buscarse y seleccionarse en una base trama a trama. Además, los diversos métodos anteriormente descritos pueden aplicarse a tres o más grupos de subbanda entre los grupos de subbanda que componen una región.
En esta realización, se ha descrito un caso a modo de ejemplo en el que, de las subbandas que componen una región, el número de subbandas que componen un grupo de subbanda del lado de banda alta es más pequeño que
45 el número de subbandas que componen un grupo de subbanda del lado de banda baja (siendo el número de subbandas del grupo de subbanda del lado de banda alta dos, y siendo el número de subbandas del grupo de subbanda del lado de banda baja tres), pero la presente invención no est� limitada a esto, y el número de subbandas que componen un grupo de subbanda del lado de banda alta puede también ser igual a, o mayor que, el número de subbandas que componen un grupo de subbanda del lado de banda baja. El número de subbandas que componen cada grupo de subbanda puede cambiarse también adaptativamente de acuerdo con la tasa de muestreo de la señal de entrada, tasa de bits de codificación, características espectrales de la señal decodificada de primera capa, características espectrales de una señal diferencial para una señal de entrada y señal decodificada de primera capa o similar.
55 En esta realización, se ha descrito un caso a modo de ejemplo en el que codificar usando un método de codificación de CELP se realiza mediante la sección 302 de codificación de primera capa, pero la presente invención no est� limitada a esto, y la codificación usando un método de codificación distinto de CELP (tal como, por ejemplo, codificación de transformación) puede realizarse también.
(Realización 7)
La Figura 26 es un diagrama de bloques que muestra la configuración principal del aparato 1300 de codificación de habla de acuerdo con la realización 7 de la presente invención.
65 En esta figura, el aparato 1300 de codificación de habla est� equipado con la sección 301 de submuestreo, la sección 302 de codificación de primera capa, la sección 303 de decodificación de primera capa, la sección 304 de sobremuestreo, la sección 305 de transformación de dominio de frecuencia, la sección 306 de retardo, la segunda sección 307 de transformación de dominio de frecuencia, la sección 1308 de codificación de segunda capa y la sección 309 de multiplexaci�n, y tiene una configuración escalable que comprende dos capas. En la primera capa, se aplica un método de codificación de habla de CELP, y en la segunda capa, se aplica el método de codificación de
5 habla descrito en la realización 1 de la presente invención.
Con la excepción de la sección 1308 de codificación de segunda capa, los elementos de configuración en el aparato 1300 de codificación de habla mostrado en la Figura 26 son idénticos a los elementos de configuración del aparato 300 de codificación de habla mostrado en la Figura 6, y por lo tanto se asignan los mismos códigos de referencia a
10 los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La Figura 27 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1308 de codificación de segunda capa. La sección 1308 de codificación de segunda capa comprende principalmente la sección 381 de cálculo de coeficiente de MDCT residual, la sección 102 de selección de banda, la sección 103 de 15 cuantificación de forma, la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva, la sección 3805 de cuantificación de ganancia y la sección 106 de multiplexaci�n. Con la excepción de la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva y la sección 3805 de cuantificación de ganancia, los elementos de configuración en la sección 1308 de codificación de segunda capa son idénticos a los elementos de configuración de la sección 308 de codificación de segunda capa mostrados en la Figura 7, y por lo tanto se asignan
20 los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La sección 3804 de decisión de ejecución/no ejecución de codificación predictiva tiene una memoria intermedia interna que almacena la entrada de la información de banda m_m�x de la sección 102 de selección de banda en una 25 trama pasada. En este punto, se describir� un caso a modo de ejemplo en el que la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva tiene una memoria intermedia interna que almacena información de banda m_m�x para las tres tramas pasadas. La sección 3804 de decisión de ejecución/no ejecución de codificación predictiva en primer lugar detecta una subbanda común a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual usando la entrada de información de banda m_m�x de la sección 30 102 de selección de banda en una trama pasada y la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual. De las L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 102 de selección de banda, la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva determina que la codificación predictiva se ha de aplicar, y establece Bandera_Pred(j)=ACTIVADO, para una subbanda seleccionada como un objetivo de cuantificación una trama atrás 35 en tiempo. Por otro lado, de L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 102 de selección de banda, la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva determina que la codificación predictiva no se ha de aplicar, y establece Bandera_Pred(j)=DESACTIVADO, para una subbanda no seleccionada como un objetivo de cuantificación una trama atrás en tiempo. En este punto, Bandera_Pred es una bandera que indica un resultado de la determinación de aplicación/no aplicación de 40 codificación predictiva para cada subbanda, significando un valor ACTIVADO que la codificación predictiva se ha de aplicar a un valor de ganancia de subbanda, y significando un valor DESACTIVADO que la codificación predictiva no se ha de aplicar a un valor de ganancia de subbanda. La sección 3804 de decisión de ejecución/no ejecución de codificación predictiva emite un resultado de determinación para cada subbanda a la sección 3805 de cuantificación de ganancia. A continuación la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva
45 actualiza la memoria intermedia interna que almacena la información de banda usando la entrada de información de banda m_m�x de la sección 102 de selección de banda en la trama actual.
La sección 3805 de cuantificación de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia de cuantificación obtenido en una trama pasada. La sección 3805 de cuantificación de ganancia cambia 50 entre la ejecución/no ejecución de aplicación de codificación predictiva en el valor de ganancia de trama actual cuantificando de acuerdo con una entrada de resultado de la determinación de la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva. Por ejemplo, si la codificación predictiva se ha de realizar, la sección 3805 de cuantificación de ganancia busca un libro de códigos de ganancia interno compuesto de la cantidad de GQ de vectores de código de ganancia para cada una de las L subbandas, realiza un cálculo de distancia que
55 corresponde a la entrada del resultado de la determinación de la sección 3804 de decisión de ejecución/no ejecución de codificación predictiva, y encuentra un índice de vector de código de ganancia para el que el resultado de la Ecuación (41) anterior es un mínimo. En la Ecuación (41), uno u otro cálculo de distancia se realiza de acuerdo con Bandera_Pred (j) para todas las j que satisfacen j ∃ Región (m_m�x), y se encuentra un índice de vector de ganancia para el que el valor total del error es un mínimo.
En esta ecuación, GCik indica un vector de código de ganancia que compone un libro de códigos de ganancia, i indica un índice de vector de código de ganancia y k indica un índice de un elemento de vector de código de 5 ganancia. Por ejemplo, si el número de subbandas que componen una región es cinco (L=5), k tiene un valor de 0 a
4. En este punto, Ctj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, Ctj indica un valor de ganancia de una trama anterior en tiempo. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 3805 de cuantificación de ganancia. La sección 3805 de cuantificación de ganancia trata L subbandas en una región como un vector L-dimensional, y realiza cuantificación de vector.
10 La sección 3805 de cuantificación de ganancia emite el índice de vector de código de ganancia G_m�n para el que el resultado de la Ecuación (41) anterior es un mínimo a la sección 106 de multiplexaci�n como información codificada de ganancia.
15 La sección 3805 de cuantificación de ganancia emite G_m�n a la sección 106 de multiplexaci�n como información codificada de ganancia. La sección 3805 de cuantificación de ganancia actualiza también la memoria intermedia interna de acuerdo con la Ecuación (42) a continuación usando información codificad de ganancia G_m�n y el valor de ganancia de cuantificación Ctj obtenido en la trama actual. En la Ecuación (42), un valor Ctj, se actualiza con el índice de elemento j del vector de código de ganancia GCG_m�nj j y j’ satisfaciendo j’ ∃ Región(m_m�x) asociados
20 respectivamente en orden ascendente.
La Figura 28 es un diagrama de bloques que muestra la configuración principal del aparato 1400 de decodificación 25 de habla de acuerdo con esta realización.
En esta figura, el aparato 1400 de decodificación de habla est� equipado con la sección 401 de control, la sección 402 de decodificación de primera capa, la sección 403 de sobremuestreo, la sección 404 de transformación de dominio de frecuencia, la sección 1405 de decodificación de segunda capa, la sección 406 de transformación de
30 dominio de tiempo y el conmutador 407.
Con la excepción de la sección 1405 de decodificación de segunda capa, los elementos de configuración en el aparato 1400 de decodificación de habla mostrado en la Figura 28 son idénticos a los elementos de configuración del aparato 400 de decodificación de habla mostrado en la Figura 8, y por lo tanto se asignan los mismos códigos de
35 referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La Figura 29 es un diagrama de bloques que muestra la configuración principal del interior de la sección 1405 de decodificación de segunda capa. La sección 1405 de decodificación de segunda capa comprende principalmente la sección 451 de demultiplexaci�n, la sección 202 de descuantificaci�n de forma, la sección 4503 de decisión de 40 ejecución/no ejecución de decodificación predictiva, la sección 4504 de descuantificaci�n de ganancia, y la sección 452 de cálculo de coeficiente de MDCT de adición. Con la excepción de la sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva y la sección 4504 de descuantificaci�n de ganancia, los elementos de configuración en la sección 1405 de decodificación de segunda capa mostrados en la Figura 29 son idénticos a los elementos de configuración de la sección 405 de decodificación de segunda capa mostrados en la Figura 9, y por lo
45 tanto se asignan los mismos códigos de referencia a los elementos de configuración idénticos y se omiten las descripciones de los mismos en este punto.
La sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva tiene una memoria intermedia interna que almacena la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n en una 50 trama pasada. En este punto, se describir� un caso a modo de ejemplo en el que la sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva tiene una memoria intermedia interna que almacena la información de banda m_m�x para las tres tramas pasadas. La sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva en primer lugar detecta una subbanda común a una banda objetivo de cuantificación de trama pasada y banda objetivo de cuantificación de trama actual usando la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n en una trama pasada y la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n en la trama actual. De L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n, la sección 4503 de decisión de ejecución/no ejecución de 5 decodificación predictiva determina que la decodificación predictiva se ha de aplicar, y establece Bandera_Pred(j)=ACTIVADO, para una subbanda seleccionada como un objetivo de cuantificación una trama atrás en tiempo. Por otro lado, de L subbandas indicadas mediante la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n, la sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva determina que la decodificación predictiva no se ha de aplicar, y establece Bandera_Pred(j)=DESACTIVADO, para 10 una subbanda no seleccionada como un objetivo de cuantificación una trama atrás en tiempo. En este punto, Bandera_Pred es una bandera que indica un resultado de determinación de aplicación/no aplicación de decodificación predictiva para cada subbanda, significando un valor ACTIVADO que la decodificación predictiva se ha de aplicar a un valor de ganancia de subbanda, y significando un valor DESACTIVADO que la decodificación predictiva no se ha de aplicar a un valor de subbanda. A continuación, la sección 4503 de decisión de ejecución/no
15 ejecución de decodificación predictiva emite un resultado de determinación para cada subbanda a la sección 4504 de descuantificaci�n de ganancia. A continuación la sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva actualiza la memoria intermedia interna que almacena la información de banda usando la entrada de información de banda m_m�x de la sección 451 de demultiplexaci�n en la trama actual.
20 La sección 4504 de descuantificaci�n de ganancia tiene una memoria intermedia interna que almacena un valor de ganancia obtenido en una trama pasada, y cambia entre la ejecución/no ejecución de la aplicación de decodificación predictiva en la decodificación del valor de ganancia de trama actual de acuerdo con una entrada del resultado de la determinación de la sección 4503 de decisión de ejecución/no ejecución de decodificación predictiva. La sección 4504 de descuantificaci�n de ganancia tiene el mismo tipo de libro de códigos de ganancia interno que la sección
25 105 de cuantificación de ganancia del aparato 100 de codificación de habla, y cuando realiza decodificación predictiva, por ejemplo, obtiene el valor de Ganancia_q’ realizando descuantificaci�n de ganancia de acuerdo con la Ecuación (43) a continuación. En este punto, C’’tj indica un valor de ganancia de t tramas anteriores en tiempo, de modo que cuando t=1, por ejemplo, C’’tj indica un valor de ganancia de una trama anterior. También, ! es un coeficiente de predicción lineal de 4� orden almacenado en la sección 4504 de descuantificaci�n de ganancia. La
30 sección 4504 de descuantificaci�n de ganancia trata L subbandas en una región como un vector L-dimensional, y realiza descuantificaci�n de vector. En la Ecuación (43), un valor Ganancia_q’ (j’) se calcula con el índice del
GCG_m�n
elemento k y j’ del vector de código de ganancia k satisfaciendo j’ ∃ Región(m_m�x) asociados respectivamente en orden ascendente.
A continuación, la sección 4504 de descuantificaci�n de ganancia calcula un coeficiente de MDCT decodificado de acuerdo con la Ecuación (44) a continuación usando un valor de ganancia obtenido mediante la descuantificaci�n de trama actual y una entrada de valor de forma de la sección 202 de descuantificaci�n de forma, y actualiza la
40 memoria intermedia interna de acuerdo con la Ecuación (45) a continuación. En la Ecuación (45), un valor C’’tj, se actualiza con j de valor de ganancia descuantificada Ganancia_q’ (j) y satisfaciendo j y j’ ∃ Región(m_m�x) asociados respectivamente en orden ascendente. En este punto, un coeficiente de MDCT decodificado calculado se indica mediante X ’’k. También, en la descuantificaci�n del coeficiente de MDCT, si k est� presente en B (j’) a B(j’+1)1, el valor de ganancia toma el valor de Ganancia_q’(j’) .
45 La sección 4504 de descuantificaci�n de ganancia emite el coeficiente de MDCT decodificado X’’k calculado de acuerdo con la Ecuación (44) anterior a la sección 452 de cálculo de coeficiente de MDCT de adición.
5 Por lo tanto, de acuerdo con esta realización, en el momento de la cuantificación de ganancia de una banda objetivo de cuantificación seleccionada en cada trama, se detecta si cada subbanda incluida en una banda objetivo de cuantificación se cuantific� o no en una trama pasada. A continuación se realiza cuantificación de vector, estando aplicada la codificación predictiva a una subbanda cuantificada en una trama pasada, y no estando aplicada la codificación predictiva a una subbanda no cuantificada en una trama pasada. Por este medio, la codificación del
10 parámetro de dominio de frecuencia puede llevarse a cabo más eficazmente que con un método en el cual la conmutación de la aplicación/no aplicación de codificación predictiva se realiza para un vector completo.
En esta realización, se ha descrito un método en el cual se realiza conmutación entre aplicación y no aplicación de codificación predictiva en una sección de cuantificación de ganancia de acuerdo con el número de subbandas 15 comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada una trama atrás en tiempo, pero la presente invención no est� limitada a esto, y un número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda de objetivo de cuantificación seleccionada dos o más tramas atrás en tiempo pueden usarse también. En este caso, incluso si el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual
20 y una banda objetivo de cuantificación seleccionada una trama atrás en tiempo es menor que o igual a un valor predeterminado, la codificación predictiva puede aplicarse en una sección de cuantificación de ganancia de acuerdo con el número de subbandas comunes a una banda objetivo de cuantificación seleccionada en la trama actual y una banda objetivo de cuantificación seleccionada dos o más tramas atrás en tiempo.
25 Es posible también para el método de cuantificación descrito en esta realización combinarse con el método de selección de banda objetivo de cuantificación descrito en la realización 6. Se describir� un caso en el que, por ejemplo, una región que es una banda objetivo de cuantificación est� compuesta de un grupo de subbanda del lado de banda baja y un grupo de subbanda del lado de banda alta, el grupo de subbanda del lado de banda alta est� fijo a lo largo de todas las tramas, y se cuantifica un vector en el que la ganancia del grupo de subbanda del lado de
30 banda baja y el grupo de subbanda del lado de banda alta se hacen consecutivos. En este caso, en un vector de ganancia de banda objetivo de cuantificación, la cuantificación de vector se realiza con codificación predictiva estando siempre aplicada para un elemento que indica la ganancia del grupo de subbanda del lado de banda alta, y no estando aplicada la codificación predictiva para un elemento que indica ganancia de grupo de subbanda del lado de banda baja. Por este medio, la cuantificación de vector de ganancia puede llevarse a cabo más eficazmente que
35 cuando se realiza conmutación de aplicación/no aplicación de codificación predictiva para un vector completo. En este momento, en el grupo de subbanda del lado de banda baja, es también eficaz un método en el cual se realiza cuantificación de vector estando aplicada codificación predictiva a una subbanda cuantificada en una trama pasada, y no estando aplicada codificación predictiva a una subbanda no cuantificada en una trama pasada. También, para un elemento que indica ganancia de grupo de subbanda del lado de banda baja, se realiza cuantificación
40 conmutando entre la aplicación y no aplicación de codificación predictiva usando subbandas que componen una banda objetivo de cuantificación seleccionada en una trama pasada en tiempo, como se describe en la realización 1. Por este medio, la cuantificación de vector de ganancia puede realizarse aún más eficazmente. Es posible también para la presente invención aplicarse a una configuración que combine las configuraciones anteriormente descritas.
45 Esto concluye una descripción de realizaciones de la presente invención.
En las anteriores realizaciones, se han descrito casos a modo de ejemplo en los que el método de seleccionar una banda objetivo de cuantificación es seleccionar la región con la energía más alta en todas las bandas, pero la presente invención no est� limitada a esto, y una cierta banda puede seleccionarse también preliminarmente de
50 antemano, después de lo cual una banda objetivo de cuantificación se selecciona finalmente en la banda seleccionada preliminarmente. En un caso de este tipo, una banda seleccionada preliminarmente puede decidirse de acuerdo con la tasa de muestro de señal de entrada, tasa de bits de codificación, o similar. Por ejemplo, un método es seleccionar una banda baja preliminarmente cuando la tasa de muestreo es baja.
55 En las anteriores realizaciones, se usa la MDCT como un método de codificación de transformación, y por lo tanto “coeficiente de MDCT” usado en las anteriores realizaciones significa esencialmente “espectro”. Por lo tanto, la expresión “coeficiente de MDCT” puede sustituirse por “espectro”.
En las anteriores realizaciones, se han mostrado ejemplos en los que los aparatos 200, 200a, 400, 600, 800, 1010, 60 1200 y 1400 de decodificación de habla reciben como entrada y procesan datos codificados transmitidos de los aparatos 100, 100a, 300, 500, 700, 1000, 1100 y 1300 de codificación de habla, respectivamente, pero la salida de datos codificados mediante un aparato de codificación de una configuración diferente capaz de generar datos codificados que tengan una configuración similar puede introducirse y procesarse también.
5 Un aparato de codificación, aparato de decodificación y método de los mismos de acuerdo con la presente invención no est�n limitados a las realizaciones anteriormente descritas, y diversas variaciones y modificaciones pueden ser posibles sin alejarse del alcance de la presente invención. Por ejemplo, es posible para las realizaciones implementarse estando combinadas apropiadamente.
10 Es posible para un aparato de codificación y aparato de decodificación de acuerdo con la presente invención instalarse en un aparato de terminal de comunicación y aparato de estación base en un sistema de comunicación móvil, posibilitando de esta manera que se proporcione un aparato de terminal de comunicación, aparato de estación base y sistema de comunicación móvil que tienen el mismo tipo de efectos operacionales que los anteriormente descritos.
15 Se ha descrito en este punto un caso a modo de ejemplo en el que la presente invención est� configurada como hardware, pero es también posible para la presente invención implementarse mediante software. Por ejemplo, el mismo tipo de funciones que aquellas de un aparato de codificación y aparato de decodificación de acuerdo con la presente invención pueden realizarse escribiendo un algoritmo de un método de codificación y método de
20 decodificación de acuerdo con la presente invención en un lenguaje de programación, almacenar este programa en memoria y tenerlo ejecutado mediante un medio de procesamiento de información.
Los bloques de función usados en las descripciones de las anteriores realizaciones se implementan típicamente como LSI, que son circuitos integrados. Estos pueden implementarse individualmente como chips únicos, o un único
25 chip puede incorporar algunos o todos ellos.
En este punto, se ha usado el término LSI, pero los términos IC, sistema LSI, s�per LSI, ultra LSI y as� sucesivamente pueden usarse también de acuerdo con diferencias en el grado de integración.
30 El método de implementación de circuitería integrada no est� limitado a LSI, y la implementación por medio de circuitería especializada o un procesador de fin general puede usarse también. Un FPGA (Campo de Matriz de Puertas Programables) para el que es posible programación después de fabricación LSI, o un procesador reconfigurable que permite reconfiguraci�n de conexiones de celdas de circuitos y ajustes en un LSI, puede usarse también.
35 En el caso de la introducción de una tecnología de implementación de circuito integrado en la cual se sustituya LSI por una tecnología diferente como un avance en, o derivación de, tecnología de semiconductores, la integración de los bloques de función puede, por supuesto, realizarse usando esa tecnología. La aplicación de biotecnolog�a o similar es también una posibilidad.
Aplicabilidad industrial
Un aparato de codificación y as� sucesivamente de acuerdo con la presente invención es adecuado para uso en un aparato de terminal de comunicación, aparato de estación base o similar, en un sistema de comunicación móvil.

Claims (16)

  1. REIVINDICACIONES
    1. Un aparato (100, 100a, 500, 700) de codificación de habla adaptado para realizar codificación en una base trama a trama, comprendiendo el aparato de codificación de habla:
    5 una sección (101) de transformación adaptada para transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia; una sección (102) de selección adaptada para dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas, y adaptada adicionalmente para seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas, y adaptada adicionalmente para generar una información de banda que indica la banda objetivo de cuantificación; una sección (103) de cuantificación de forma adaptada para cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación; una sección (105, 505, 705) de cuantificación de ganancia adaptada para codificar una ganancia del parámetro
    15 de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia; y una sección (104) de determinación adaptada:
    para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado, y para determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado,
    25 donde la sección de cuantificación de ganancia est� adaptada:
    para obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada cuando la sección de determinación ha determinado que la codificación predictiva se ha de realizar, y para obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación cuando la sección de determinación ha determinado que la codificación predictiva no se ha de realizar.
    35 2. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia est� adaptada adicionalmente para obtener la información codificada de ganancia realizando cuantificación de vector de la ganancia del parámetro de dominio de frecuencia.
  2. 3.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia est� adaptada adicionalmente para obtener la información codificada de ganancia realizando cuantificación predictiva de la ganancia usando una ganancia de un parámetro de dominio de frecuencia en una trama pasada.
  3. 4.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est�
    adaptada adicionalmente para seleccionar una región para la que la energía es la más alta entre las regiones 45 compuestas de una pluralidad de subbandas como la banda objetivo de cuantificación.
  4. 5. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est� adaptada adicionalmente para seleccionar una banda para la que la energía es la más alta entre las bandas candidatas como la banda objetivo de cuantificación, cuando las bandas candidatas existen para las que un número de subbandas comunes a la banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado y la energía es igual a o mayor que un valor predeterminado, y donde la sección de selección est� adaptada adicionalmente para seleccionar una banda para la que la energía es la más alta en todas las bandas del dominio de frecuencia como la banda objetivo de cuantificación, cuando las bandas candidatas no existen.
    55 6. El aparto de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est� adaptada adicionalmente para seleccionar una banda más cercana a la banda objetivo de cuantificación seleccionada en el pasado entre las bandas para las que la energía es igual a o mayor que un valor predeterminado que la banda objetivo de cuantificación.
  5. 7.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est� adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de multiplicación por un factor de ponderaci�n que es más grande cuanto más est� una subbanda hacia un lado de banda baja.
  6. 8.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est�
    65 adaptada adicionalmente para seleccionar una subbanda fijada al lado de banda baja como la banda objetivo de cuantificación.
  7. 9. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est� adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de multiplicación por un factor de ponderaci�n que es más grande cuanto más alta es la frecuencia de selección en el pasado de una subbanda.
  8. 10.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, que comprende adicionalmente una sección (504) de interpolación adaptada para realizar interpolación en una ganancia de un parámetro de dominio de frecuencia en una subbanda no cuantificada en el pasado entre las subbandas indicadas mediante la información de banda usando información codificada de ganancia pasada, para obtener un valor de interpolación, donde la sección de cuantificación de ganancia est� adaptada adicionalmente para usar también el valor de interpolación cuando realiza la codificación predictiva.
  9. 11.
    El aparato de codificación de habla acuerdo con la reivindicación 1, que comprende adicionalmente una sección
    (704) de decisión adaptada para decidir un coeficiente de predicción de manera que un factor de ponderaci�n de un
    15 valor de ganancia de una trama pasada es más grande cuanto más grande es una subbanda común a una banda objetivo de cuantificación de una trama pasada y una banda objetivo de cuantificación de una trama actual, donde la sección de cuantificación de ganancia est� adaptada adicionalmente para usar el coeficiente de predicción cuando realiza la codificación predictiva.
  10. 12.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est� adaptada adicionalmente para seleccionar de manera fija una subbanda predeterminada como parte de la banda objetivo de cuantificación.
  11. 13.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección est�
    25 adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de la multiplicación por un factor de ponderaci�n que es más grande cuanto más est� una subbanda hacia un lado de banda alta en parte de la banda objetivo de cuantificación.
  12. 14.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia est� adaptada adicionalmente para realizar codificación predictiva en una ganancia de un parámetro de dominio de frecuencia en parte de la banda objetivo de cuantificación, y para realizar codificación no predictiva en una ganancia de un parámetro de dominio de frecuencia en una parte restante.
  13. 15.
    El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de
    35 ganancia est� adaptada adicionalmente para realizar cuantificación de vector de la ganancia de una pluralidad no consecutiva de subbandas.
  14. 16. Un aparato (200, 200a, 600, 800) de decodificación de habla que comprende:
    una sección (201) de recepción adaptada para recibir información de banda que indica una banda objetivo de cuantificación, que est� compuesta de un número natural de subbandas consecutivas de una pluralidad de subbandas, donde la pluralidad de subbandas es un parámetro de dominio de frecuencia subdividido de una señal de audio/habla de entrada; una sección (202) de descuantificaci�n de forma adaptada para decodificar una información codificada de forma
    45 en la que una forma de un parámetro de dominio de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una forma decodificada; una sección (204, 604, 804) de descuantificaci�n de ganancia adaptada para decodificar una información codificada de ganancia, en la que una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una ganancia decodificada, y para decodificar un parámetro de frecuencia usando la forma decodificada y la ganancia decodificada para generar un parámetro de dominio de frecuencia decodificado; una sección (205) de transformación de domino de tiempo adaptada para transformar el parámetro de dominio de frecuencia decodificado a un dominio de tiempo para obtener una señal decodificada de dominio de tiempo; y una sección (203) de determinación adaptada:
    55 para encontrar un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la información de banda recibida para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada es igual a o mayor que un valor predeterminado, y para determinar que la decodificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado,
    donde la sección de descuantificaci�n de ganancia est� adaptada:
    65 para realizar decodificación predicativa de la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación de trama actual usando la ganancia obtenida en la decodificación de ganancia pasada, cuando la sección de determinación ha determinado que la decodificación predictiva se ha de realizar; y para realizar directamente descuantificaci�n de la información codificada de ganancia, en la que la ganancia de un parámetro de dominio de frecuencia se cuantifica en la banda objetivo de cuantificación de trama actual
    5 cuando la sección de determinación ha determinado que la decodificación predictiva no se ha de realizar.
  15. 17. Un método de codificación de habla para realizar codificación en una base trama a trama, comprendiendo el método las etapas de:
    10 transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia; dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas; seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas;
    15 generar una información de banda que indica la banda objetivo de cuantificación; cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de forma; codificar una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia;
    20 determinar que la codificación predicativa se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado; determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado;
    25 obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada, cuando se determina que la codificación predictiva se ha de realizar; y obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación, cuando se determina que la codificación predictiva no se ha
    30 de realizar.
  16. 18. Un método de decodificación de habla que comprende las etapas de:
    recibir información de banda que indica una banda objetivo de cuantificación, que est� compuesta de un número
    35 natural de subbandas consecutivas de una pluralidad de subbandas, donde la pluralidad de subbandas es un parámetro de dominio de frecuencia subdividido de una señal de audio/habla de entrada; decodificar una información codificada de forma en la que una forma de un parámetro de domino de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una forma decodificada; decodificar una información codificada de ganancia, en la que una ganancia de un parámetro de dominio de
    40 frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una ganancia decodificada; decodificar el parámetro de domino de frecuencia usando la forma decodificada y la ganancia decodificada para generar un parámetro de dominio de frecuencia decodificada; transformar el parámetro de dominio de frecuencia decodificada a un dominio de tiempo para obtener una señal decodificada de dominio de tiempo;
    45 encontrar un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la información de banda recibida; determinar que la decodificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada es igual a o mayor que un valor predeterminado;
    50 determinar que la decodificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado; realizar decodificación predictiva de la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación de trama actual usando la ganancia obtenida en la decodificación de ganancia pasada, cuando se determina que la decodificación predictiva se ha de realizar; y
    55 realizar directamente descuantificaci�n de la información codificada de ganancia, en la que la ganancia de un parámetro de dominio de frecuencia se cuantifica en la banda objetivo de cuantificación de trama actual, cuando se determina que la decodificación predictiva no se ha de realizar.
ES07850512.0T 2006-12-13 2007-12-12 Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes Active ES2474915T3 (es)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2006336270 2006-12-13
JP2006336270 2006-12-13
JP2007053499 2007-03-02
JP2007053499 2007-03-02
JP2007132078 2007-05-17
JP2007132078 2007-05-17
JP2007185078 2007-07-13
JP2007185078 2007-07-13
PCT/JP2007/073966 WO2008072670A1 (ja) 2006-12-13 2007-12-12 符号化装置、復号装置、およびこれらの方法

Publications (1)

Publication Number Publication Date
ES2474915T3 true ES2474915T3 (es) 2014-07-09

Family

ID=39511687

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07850512.0T Active ES2474915T3 (es) 2006-12-13 2007-12-12 Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes

Country Status (10)

Country Link
US (1) US8352258B2 (es)
EP (1) EP2101318B1 (es)
JP (1) JP5328368B2 (es)
KR (1) KR101412255B1 (es)
CN (1) CN101548316B (es)
AU (1) AU2007332508B2 (es)
BR (1) BRPI0721079A2 (es)
ES (1) ES2474915T3 (es)
SG (1) SG170078A1 (es)
WO (1) WO2008072670A1 (es)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8233636B2 (en) * 2005-09-02 2012-07-31 Nec Corporation Method, apparatus, and computer program for suppressing noise
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
WO2009057329A1 (ja) * 2007-11-01 2009-05-07 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
WO2011042464A1 (en) * 2009-10-08 2011-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
TWI451403B (zh) 2009-10-20 2014-09-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、用以將音訊資訊編碼之方法、用以將音訊資訊解碼之方法及使用區域從屬算術編碼對映規則之電腦程式
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
EP2500901B1 (en) * 2009-11-12 2018-09-19 III Holdings 12, LLC Audio encoder apparatus and audio encoding method
CN102598125B (zh) * 2009-11-13 2014-07-02 松下电器产业株式会社 编码装置、解码装置及其方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
US10269363B2 (en) * 2010-03-09 2019-04-23 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatus, program, and recording medium
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
CN104392726B (zh) * 2010-03-31 2018-01-02 韩国电子通信研究院 编码设备和解码设备
EP2562750B1 (en) * 2010-04-19 2020-06-10 Panasonic Intellectual Property Corporation of America Encoding device, decoding device, encoding method and decoding method
KR101336879B1 (ko) * 2010-05-12 2013-12-04 광주과학기술원 통신 시스템에서 신호 부호화 장치 및 방법
US8751225B2 (en) 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
US9294060B2 (en) * 2010-05-25 2016-03-22 Nokia Technologies Oy Bandwidth extender
CN102959873A (zh) * 2010-07-05 2013-03-06 日本电信电话株式会社 编码方法、解码方法、装置、程序及记录介质
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
EP2610866B1 (en) * 2010-08-24 2015-04-22 LG Electronics Inc. Method and device for processing audio signals
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
EP2772911B1 (en) * 2011-10-24 2017-12-20 LG Electronics Inc. Method and device for quantizing voice signals in a band-selective manner
EP2916318B1 (en) * 2012-11-05 2019-09-25 Panasonic Intellectual Property Corporation of America Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
ES2970676T3 (es) * 2012-12-13 2024-05-30 Fraunhofer Ges Forschung Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento decodificación de audio vocal, y procedimiento de decodificación de audio vocal
CA2928882C (en) 2013-11-13 2018-08-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
US20150170655A1 (en) 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
KR102626320B1 (ko) * 2014-03-28 2024-01-17 삼성전자주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CN107077857B (zh) 2014-05-07 2021-03-09 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
BR112017000629B1 (pt) 2014-07-25 2021-02-17 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschug E.V. aparelho de codificação de sinal de áudio e método de codificação de sinal de áudio
WO2016039150A1 (ja) 2014-09-08 2016-03-17 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
US10148468B2 (en) * 2015-06-01 2018-12-04 Huawei Technologies Co., Ltd. Configurable architecture for generating a waveform
KR102587134B1 (ko) * 2017-06-19 2023-10-06 알티엑스 에이에스 음성 신호 인코딩 및 디코딩
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN112583878B (zh) * 2019-09-30 2023-03-14 阿波罗智能技术(北京)有限公司 车辆信息校验方法、装置、设备和介质
US11575896B2 (en) * 2019-12-16 2023-02-07 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
KR102423977B1 (ko) * 2019-12-27 2022-07-22 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH08211900A (ja) 1995-02-01 1996-08-20 Hitachi Maxell Ltd ディジタル音声圧縮方式
TW321810B (es) * 1995-10-26 1997-12-01 Sony Co Ltd
JPH09127987A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
US6453288B1 (en) * 1996-11-07 2002-09-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for producing component of excitation vector
JP4003240B2 (ja) 1996-11-07 2007-11-07 松下電器産業株式会社 音声符号化装置及び音声復号化装置
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
WO2003042979A2 (en) * 2001-11-14 2003-05-22 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2006104017A1 (ja) * 2005-03-25 2006-10-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
JP4599558B2 (ja) * 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
US8433581B2 (en) * 2005-04-28 2013-04-30 Panasonic Corporation Audio encoding device and audio encoding method
EP1876586B1 (en) * 2005-04-28 2010-01-06 Panasonic Corporation Audio encoding device and audio encoding method
JP4679969B2 (ja) 2005-06-01 2011-05-11 大豊建設株式会社 トンネルの掘進方法およびシールド機
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP2007053499A (ja) 2005-08-16 2007-03-01 Fujifilm Holdings Corp ホワイトバランス制御装置及び撮像装置
JP5025485B2 (ja) * 2005-10-31 2012-09-12 パナソニック株式会社 ステレオ符号化装置およびステレオ信号予測方法
JP4729388B2 (ja) 2005-11-10 2011-07-20 株式会社フロム工業 厨芥処理設備の排水システム
JP4519073B2 (ja) 2006-01-10 2010-08-04 三洋電機株式会社 組電池の充放電制御方法と制御装置
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP4347323B2 (ja) 2006-07-21 2009-10-21 富士通株式会社 音声符号変換方法及び装置
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム

Also Published As

Publication number Publication date
AU2007332508A1 (en) 2008-06-19
BRPI0721079A2 (pt) 2014-07-01
SG170078A1 (en) 2011-04-29
EP2101318A4 (en) 2011-03-16
US20100169081A1 (en) 2010-07-01
KR101412255B1 (ko) 2014-08-14
KR20090087920A (ko) 2009-08-18
EP2101318B1 (en) 2014-06-04
JP5328368B2 (ja) 2013-10-30
CN101548316A (zh) 2009-09-30
CN101548316B (zh) 2012-05-23
US8352258B2 (en) 2013-01-08
JPWO2008072670A1 (ja) 2010-04-02
AU2007332508B2 (en) 2012-08-16
EP2101318A1 (en) 2009-09-16
WO2008072670A1 (ja) 2008-06-19
AU2007332508A2 (en) 2010-02-25

Similar Documents

Publication Publication Date Title
ES2474915T3 (es) Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes
ES2629453T3 (es) Codificador, descodificador y procedimiento de codificación
JP4954080B2 (ja) 変換符号化装置および変換符号化方法
EP2235719B1 (en) Audio encoder and decoder
JP5058152B2 (ja) 符号化装置および符号化方法
RU2488897C1 (ru) Кодирующее устройство, декодирующее устройство и способ
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
EP2012305B1 (en) Audio encoding device, audio decoding device, and their method
US8010349B2 (en) Scalable encoder, scalable decoder, and scalable encoding method
JP2006510947A (ja) 可変ビットレート通話符号化における線形予測パラメータの強力な予測ベクトル量子化方法と装置
US20100280833A1 (en) Encoding device, decoding device, and method thereof
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
CN101131820A (zh) 编码设备、解码设备、编码方法和解码方法
WO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
JPWO2011132368A1 (ja) 符号化装置、復号装置、符号化方法及び復号方法
JPWO2011058758A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2013057895A1 (ja) 符号化装置及び符号化方法
JP7279160B2 (ja) サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
RU2459283C2 (ru) Кодирующее устройство, декодирующее устройство и способ
RU2464650C2 (ru) Устройство и способ кодирования, устройство и способ декодирования
WO2011045927A1 (ja) 符号化装置、復号装置およびこれらの方法
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法