ES2284133T3 - Segmentacion del habla. - Google Patents

Segmentacion del habla. Download PDF

Info

Publication number
ES2284133T3
ES2284133T3 ES05250981T ES05250981T ES2284133T3 ES 2284133 T3 ES2284133 T3 ES 2284133T3 ES 05250981 T ES05250981 T ES 05250981T ES 05250981 T ES05250981 T ES 05250981T ES 2284133 T3 ES2284133 T3 ES 2284133T3
Authority
ES
Spain
Prior art keywords
correlations
time
voice
voice signal
previously established
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05250981T
Other languages
English (en)
Inventor
Hirokazu Kudoh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sega Corp
Original Assignee
Sega Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sega Corp filed Critical Sega Corp
Application granted granted Critical
Publication of ES2284133T3 publication Critical patent/ES2284133T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Un método ejecutable en ordenador de análisis de la voz que detecta los límites de fonemas a partir de una señal de voz de entrada, que comprende: un primer paso que especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso de extracción de la señal de voz contenida en un margen de tiempo de una longitud previamente establecida desde dicho punto en el tiempo; y un tercer paso de descomposición de dicha señal de voz extraída en datos de componentes de la frecuencia, en que se hallan n datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello dichos pasos primero, segundo y tercero n veces, donde n es un número natural de al menos 6 para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de n de dichos datos de componentes de la frecuencia mediante la obtención de la correlación i-ésima, donde i es un número natural de al menos 1 y no mayor que (n-1), basado en el elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i+1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecido; se hallan (n-2) diferencias entre correlaciones a partir de las (n-1) de dichas correlaciones, hallando para ello la diferencia k-ésima entre correlaciones basada en la correlación k-ésima y en dicha correlación (k+1)-ésima, donde k es un número natural de al menos 1 y no mayor que (n-2); cuando m está definido como el número que especifica la diferencia entre correlaciones que es mayor que dos diferencias entre correlaciones adyacentes que la diferencia entre correlaciones especificadas en las (n-2) diferencias entre correlaciones desde la primera hasta la (n-2)-ésima, se halla el número m definido, es decir el m que satisface la condición de que la diferencia m-ésima entre correlaciones esmayor que la diferencia (m-1)ésima entre correlaciones y es mayor que la diferencia (m+1)-ésima entre correlaciones cuando se cambia m de uno en uno desde 2 hasta (n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; y se divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.

Description

Segmentación del habla.
Antecedentes del invento 1. Campo del invento
El presente invento se refiere a un dispositivo de análisis de la voz, a un programa de análisis de la voz, y a un método para análisis de la voz. Expuesto con más detalle, se refiere a un dispositivo de generación de imágenes que emplea un método de análisis de la voz de acuerdo con el presente invento y, en particular, a un dispositivo de generación de imágenes de animación en sincronismo con los labios que crea animación (animación en sincronismo con los labios) de modo que se cambia la forma de la boca de acuerdo con la voz.
2. Descripción de la técnica asociada
La tecnología del análisis de la voz se emplea actualmente en varios campos. Son ejemplos la identificación de un locutor por la voz, la conversión de la voz en texto, o bien la generación de animación en sincronismo con los labios de modo que se varía la forma de la boca de acuerdo con la voz. El procesado que se lleva a cabo en estos casos comporta, respectivamente: en el caso de la tecnología del análisis de la voz, la extracción de fonemas, es decir, de las unidades que se emplean para diferenciar los significados de las palabras, a partir de la voz; en el caso de identificación del locutor, la identificación de un locutor usando el grado de similitud entre los fonemas extraídos y patrones de referencia registrados de antemano; en el caso de conversión de textos, la presentación de letras correspondientes a los fonemas extraídos en una presentación o similar; y en el caso de creación de animación en sincronismo con los labios, la presentación de una imagen correspondiente al fonema extraído en una pantalla de presentación o similar.
La técnica anterior incluye los siguientes métodos de extracción de fonemas de la voz. Por ejemplo, en el sistema de identificación de locutor descrito en la Patente Japonesa Publicada Nº H6-32007, los fonemas se extraen determinando, para cada vocal, los intervalos tales que la distancia entre un patrón de referencia previamente dado de entrada y la voz del locutor es menor que un valor previamente establecido y estableciendo una correspondencia entre esos intervalos y las vocales.
Tales intervalos para extraer fonemas se denominan segmentos. En el dispositivo de generación de imágenes de animación de la solicitud de patente Japonesa Dejada Abierta para pública inspección Nº 2003-233389, se lleva a cabo un análisis formante usando por ejemplo una Modelización Sinusoidal Compuesta (CSM) y se extraen fonemas sobre la base de la información formante para caracterizar las vocales.
Sumario del invento
Sin embargo, con objeto de efectuar la determinación de los segmentos usando la distancia desde un patrón de referencia, se debe preparar una base de datos en la cual estén registrados los patrones de referencia para cada locutor. Sin embargo, esto da inevitablemente por resultado una enorme cantidad de datos, que depende del número de locutores, lo que amplía el tiempo de procesado requerido para el análisis de la voz. Es por lo tanto difícil aplicar esto a situaciones en las cuales se requiera un procesado en tiempo real (tal como, por ejemplo, para crear una animación en sincronismo con los labios). También, cuando se inscribe un nuevo locutor, surge la tarea de añadir los patrones de referencia del nuevo locutor a la base de datos. La tarea de gestionar la base de datos se hace por lo tanto engorrosa, y el sistema es de difícil aplicación a un número indefinidamente grande de locutores.
También se tiene que, en la presente situación, la extracción de hecho de fonemas usando la información formante es difícil de aplicar a situaciones en las que se requiera el procesado en tiempo real, debido al tiempo que se requiere para tal procesado. Aparte de esto, se conoce un método de extracción de fonemas en el que se utiliza, por ejemplo, el análisis de "cepstrum" (inversa de la transformada de Fourier del logaritmo del espectro) de LPC (Codificación Predictiva Lineal). Se ha visto que la precisión de la extracción de fonemas usando este método aumenta a medida que aumenta el número de veces de repetición, es decir, que hay un efecto de aprendizaje. A la inversa, con objeto de aumentar la precisión de la extracción, es necesario preparar de antemano los resultados de los análisis para un gran número de señales de aprendizaje; es por lo tanto difícil de aplicar este método a un número indefinidamente grande de locutores.
Además, es sabido que el carácter de la envolvente espectral varía considerablemente, dependiendo del método de representación o del método de extracción afectado por factores tales como la determinación del grado o número de repeticiones, y se requiere por lo tanto habilidad por parte del analista.
Es conocido de la técnica anterior un método ejecutable en ordenador de análisis de la voz, con el cual se detectan los límites de los fonemas a partir de una señal de voz de entrada, empleando una técnica basada en el uso de un reconocedor de la unidad acústico-fonética “Hidden Markov Model” (HML). Tanto el reconocedor como el sistema de segmentación sacan partido de la base de datos de discurso continuo acústico-fonética DARPA-TIMIT del Inglés Americano. El sistema proporciona un buen tanto por ciento de localización de límites correctos, y se ha descrito en la comunicación de BRUGNARA F Y OTROS: "AUTOMATIC SEGMENTATION AND LABELING OF SPEECH BASED ON HIDDEN MARKOV MODELS" ("Segmentación y Etiquetado Automático del Discurso en Base a Modelos Hidden Markov"), ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, HOLANDA. Vol. 12 Nº 4, 1 agosto 1993, págs. 357-370, XP000393652 ISSN: 0167-6393.
Un objeto del presente invento es proporcionar un dispositivo de análisis de la voz y un método de análisis de la voz mediante los cuales se pueda efectuar el procesado del análisis de la voz en tiempo real, y que sea susceptible de aplicación a un gran número de locutores sin necesidad de preparar patrones de referencia para cada locutor. Un desarrollo del invento proporciona un dispositivo de generación de imágenes de animación susceptible de procesar en tiempo real mediante la aplicación de ese método de análisis de la voz.
A continuación se describirán varios aspectos del presente invento, en los que ha de quedar entendido que los "grados de cambio" a los que se hace referencia son realmente diferencias entre las correlaciones expresadas. El presente invento queda definido en las reivindicaciones independientes que se acompañan.
De acuerdo con un primer aspecto del presente invento, los anteriores objetos se consiguen proporcionando para ello un método de análisis de la voz ejecutable en ordenador, con el cual se detectan los límites de los fonemas a partir de la voz de entrada, que incluye: un primer paso en el que se especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso en el que se extrae la señal de voz contenida en un margen de tiempo previamente establecido a partir de dicho punto en el tiempo; y un tercer paso de descomposición de dicha señal de voz extraída en datos de componentes de la frecuencia, en los que se hallan datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello dichos pasos primero, segundo y tercero n veces (donde n es un número natural de al menos 6) para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de dichas n datos de componentes de la frecuencias, obteniendo para ello la correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1)) en base al elemento i-ésimo de dichos datos de componentes de la frecuencia y el elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida; se hallan (n-2) de dichos grados de cambio a partir de dichas (n-1) correlaciones, hallando para ello el grado k-ésimo de cambio en base a la correlación k-ésima y en dicha correlación (k + 1)-ésima (donde k es un número natural de al menos 1 y no mayor que (n-2)); cuando se ha definido m como el número que especifica el grado de cambio que es mayor que dos grados de cambio adyacentes al grado de cambio especificado en los (n-2) grados de cambio a partir del primero hasta el (n-2)-ésimo, se halla el número m definido, es decir un m que satisface la condición de que el grado m-ésimo de cambio es mayor que el grado (m-1)-ésimo de cambio y es mayor que el grado (m + 1)-ésimo de cambio cuando se cambia m de uno en uno desde 2 hasta (n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; y se divide la citada señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
De acuerdo con un segundo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método de análisis de la voz de acuerdo con el primer aspecto, en el que además: se calculan las cantidades características para cada sección de dichas señales de voz divididas y se especifican dichos fonemas de dichas secciones, comparando para ello dichas cantidades características con datos de referencia para cada uno de dichos fonemas.
De acuerdo con un tercer aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método de análisis de la voz de acuerdo con el primer aspecto, en el que se desplaza el tiempo previamente establecido para el margen de tiempo de dicha longitud previamente establecida para formar partes que se solapan mutuamente.
De acuerdo con un cuarto aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método de análisis de la voz de acuerdo con el primer aspecto, en el que dicha correlación es un valor obtenido sumando para ello los productos de las amplitudes correspondientes a los mismos componentes de la frecuencia.
De acuerdo con un quinto aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método de análisis de la voz de acuerdo con el primer aspecto, en el que se hallan dichos datos de componentes de la frecuencia mediante la transformada de Fourier de componentes de la frecuencia de dicha señal de voz extraída.
De acuerdo con un sexto aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método de análisis de la voz de acuerdo con el segundo aspecto, en el que se determinan dichas cantidades características de acuerdo con una amplitud de cada componente de la frecuencia obtenida mediante la transformada de Fourier de dicha señal de voz contenida en la sección de dicha señal de voz dividida obtenida mediante dicha división.
De acuerdo con un séptimo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un método ejecutable en ordenador de generación de imágenes de animación en el cual se presenta una imagen correspondiente a las divisiones de los fonemas de una señal de voz inicial, que comprende un primer paso que especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso en el que se extrae la señal de voz contenida en un margen de tiempo de longitud previamente establecida a partir de dicho punto en el tiempo; y un tercer paso en el que se descompone dicha señal de voz extraída en datos de componentes de la frecuencia, en los que se hallan n datos de componente de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello dichos pasos primero, segundo y tercero n veces (donde n es un número natural de al menos 6) para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de dichos n datos de componentes de la frecuencia, obteniendo para ello la correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1) en base al elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i + 1)-ésimo de dichos datos de componente de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida; se hallan (n-2) di dichos grados de cambio a partir de las citadas (n-1) correlaciones, hallando para ello el grado k-ésimo de cambio en base a la correlación k-ésima y en dicha correlación (k + 1)-ésima (donde k es un número natural de al menos 1 y no mayor que (n-2)), cuando se define m como el número que especifica el grado de cambio que es mayor que dos grados de cambio adyacentes a los grados de cambio especificados en los (n-2) grados de cambio desde el primero hasta el (n-2)-ésimo, se halla el número m definido, es decir el m que satisface la condición de que el grado m-ésimo de cambio es mayor que el grado (m-1)-ésimo de cambio y es mayor que el grado (m + 1)-ésimo de cambio cuando se cambia m de uno en uno desde dos hasta (n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; se divide dicha señal de voz de entrada en una pluralidad de secciones, de acuerdo con dichos márgenes de tiempo especificados; se calculan las cantidades características para cada sección de las señales de voz divididas; se especifican dichos fonemas de dichas secciones comparando para ello dichas cantidades características con datos de referencia para cada uno de dichos fonemas; y se presentan las imágenes correspondientes a dichos fonemas de dichas secciones, que se cambian de manera que coincidan con dichas secciones.
De acuerdo con un octavo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un programa de análisis de la voz que sea ejecutable por un ordenador que comprenda una CPU y que detecte los límites de los fonemas a partir de la voz de entrada, el programa hace que la CPU ejecute: un primer paso en el que se especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso en el que se extrae la señal de voz contenida en un margen de tiempo de longitud previamente establecida a partir de dicho punto en el tiempo; y un tercer paso en el que se descompone dicha señal de voz extraída en datos de componentes de la frecuencia, en que se hallan n datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello n veces dichos pasos primero, segundo y tercero mediante dicha CPU (donde n es un número natural de al menos 6) para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de dichos n dados de componentes de la frecuencia, obteniendo para ello la correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1)) en base al elemento i-ésimo de dichos datos de componentes de la frecuencia y el elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida; se hallan dichos )n-2) grados de cambio a partir de dichas (n-1) correlaciones, hallando para ello el grado k-ésimo de cambio basado en la correlación k-ésima y dicha correlación (k + 1)-ésima (en donde k es un número natural de al menos 1 y no mayor que (n-2)); cuando se define m como el número que especifica el grado de cambio que es mayor que dos grados de cambio adyacentes al grado de cambio especificado en los (n-2) grados de cambio desde el primero hasta el (n-2)-ésimo),se halla el número m definido, es decir, el m que satisface la condición de que el grado de cambio m-ésimo es mayor que el grado de cambio (m-1)-ésimo y es mayor que el grado de cambio (m + 1)-ésimo cuando se cambia m de uno en uno desde 2 hasta (n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; y se divide dicha señal de voz de entrada mediante dicha CPU en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
De acuerdo con un noveno aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un programa de análisis de la voz de acuerdo con el octavo aspecto, que hace además que la CPU ejecute: el cálculo de las cantidades características para cada sección de las señales de voz divididas y se especifican dichos fonemas de dichas secciones comparando para ello dichas cantidades características con los datos de referencia para cada uno de dichos fonemas.
De acuerdo con un décimo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un programa de análisis de la voz de acuerdo con el noveno aspecto, en que el tiempo previamente establecido se desplaza para el margen de tiempo de dicha longitud previamente establecida para formar partes que se solapan mutuamente; dicha correlación es un valor obtenido sumando para ello los productos de las amplitudes correspondientes a los mismos componentes de la frecuencia; se hallan dichos datos de los componentes de la frecuencia mediante la transformada de Fourier de dichos componentes de la frecuencia extraídos de la señal de voz; y se determinan dichas cantidades características de acuerdo con la amplitud de cada componente de la frecuencia obtenido mediante la transformada de Fourier de dicha señal de voz contenida en la sección de dicha señal de voz dividida.
De acuerdo con un undécimo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un programa de generación de imágenes de animación que es ejecutable en un ordenador que comprende una CPU y presenta una imagen correspondiente a las divisiones de los fonemas a partir de una señal de voz de entrada, dicho programa hace que la CPU ejecute: un primer paso en el que especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso en el que se extrae la señal de voz contenida en un margen de tiempo de longitud previamente establecida desde dicho punto en el tiempo; y un tercer paso en el que se descompone dicha señal de voz extraída en datos de componentes de la frecuencia, en que se halan m datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida repitiendo para ello dichos pasos primero, segundo y tercero n veces (donde n es un número natural de al menos 6) para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de dichos n datos de componentes de la frecuencia, obteniendo para ello la correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1)), basada en el elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida; se hallan (n-2) de dichos grados de cambio a partir de las mencionadas (n-1) correlaciones, hallando para ello el grado k-ésimo de cambio en base a la correlación k-ésima y en dicha correlación (k + 1)-ésima (donde k es un número natural de al menos 1 y no mayor que (n-2)); cuando se define m como el número que especifica el grado de cambio que es mayor que dos grados de cambio adyacentes al grado de cambio especificado en los (n-2) grados de cambio, desde el primero hasta el (n-2)-ésimo, se halla el número m definido, es decir, un m que satisface la condición de que el grado de cambio m-ésimo es mayor que el grado de cambio (m + 1)-ésimo cuando se cambia m de uno en uno, desde 2 hasta ((n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; se divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados; se calculan las cantidades características para cada sección de las señales de voz divididas; se especifican dichos fonemas de dichas secciones comparando para ello dichas cantidades características con datos de referencia para cada uno de dichos fonemas; y se presentan imágenes correspondientes a dichos fonemas de dichas secciones, que se cambian de manera que coincidan con dichas secciones.
De acuerdo con un duodécimo aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un medio de almacenamiento que almacena un programa de acuerdo con cualquiera de los aspectos del octavo al duodécimo.
De acuerdo con un décimotercer aspecto del presente invento, se consiguen los anteriores objetos proporcionando para ello un dispositivo de análisis de la voz que incluye: una unidad de descomposición de la frecuencia que halla n datos de componentes de la frecuencia extraídos de una señal de voz contenida en n márgenes de tiempo de longitudes previamente establecidas, repitiendo para ello n veces (donde n es un número natural de al menos 6), a intervalos previamente establecidos, para especificar un punto en el tiempo en una señal de voz de entrada, extraer una señal de voz contenida en un margen de tiempo de la longitud previamente establecida desde dicho punto en el tiempo, y descomponer dicha señal de voz extraída: en datos componentes de la frecuencia; una unidad de cálculo del grado de cambio que halla (n-1) correlaciones a partir de dichos n datos de componentes de la frecuencia, obteniendo para ello una correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1) en base al elemento i-ésimo de dichos datos de componentes de la frecuencia y al elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida, y que halla (n-2) de dichos grados de cambio a partir de las citadas (n-1) correlaciones, hallando para ello el grado de cambio k-ésimo basado en la correlación k-ésima y en dicha correlación (k + 1)-ésima (donde k es un número natural de al menos 1 y no mayor que (n-2)); y una unidad de determinación de segmentos que halla un número definido, estando definido el número m como el número que especifica el grado de cambio que es mayor que el grado de cambio adyacente al grado de cambio especificado en los (n-2) grados de cambio desde el primero hasta el (n-2)-ésimo, es decir, el número m definido que satisface la condición de que el grado de cambio m-ésimo es mayor que el grado de cambio (m-1)-ésimo y es mayor que el grado de cambio (m + 1)-ésimo cuando se cambia m de uno en uno desde 2 hasta (n-3), que especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido, y que divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
De acuerdo con un décimocuarto aspecto del presente invento, se consiguen los anteriores aspectos proporcionando para ello un dispositivo de generación de imágenes de animación que incluye: una unidad de descomposición en frecuencias que haya n datos de componentes de la frecuencia extraídos de una señal de voz contenida en n márgenes de tiempo de longitud previamente establecida, repitiendo para ello n veces (donde n es un número natural de al menos 6), a intervalos previamente establecidos, para especificar un punto en el tiempo en una señal de voz de entrada, para extraer una señal de voz contenida en un margen de tiempo de la longitud previamente establecida desde dicho punto en el tiempo, y para descomponer dicha señal de voz extraída en datos de componentes de la frecuencia; una unidad de cálculo del grado de cambio que halla (n-1) correlaciones a partir de n de dichos datos de componentes de la frecuencia, obteniendo para ello la correlación i-ésima (donde i es un número natural de al menos 1 y no mayor que (n-1)), basado en el elemento i-ésimo de dichos datos de componente de la frecuencia y en el elemento (i + 1)-ésimo de dichos datos de componente de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida, y que halla ((n-2) de dichos grados de cambio a partir de las mencionadas (n-1) correlaciones, hallando para ello el grado k-ésimo de cambio basado en la correlación k-ésima y en dicha correlación (k + 1)-ésima (donde k es un número natural de al menos 1 y no mayor que (n-2)); una unidad de determinación de segmentos que halla un número definido, estando definido el número m definido como el número que especifica el grado de cambio que es mayor que dos grados de cambio adyacentes al grado de cambio especificado en los (n-2) grados de cambio desde el primero hasta el (n-2)-ésimo, es decir, el número m definido que satisface la condición de que el grado m-ésimo de cambio es mayor que el grado (m-1)-ésimo de cambio, y es mayor que el grado de cambio (m + 1)-ésimo cuando se cambia m de uno en uno desde 2 hasta (n-3), que especifica un margen de tiempo de dicha magnitud previamente establecida de acuerdo con el número m definido y que divide dicha señal de voz de entrada en una pluralidad de secciones, de acuerdo con dichos márgenes de tiempo especificados; una unidad de extracción de fonemas que especifica los citados fonemas de dichas secciones, calculando para ello las cantidades características para cada sección de la señal de voz dividida y comparando los datos de referencia de cada uno de dichos fonemas y dichas cantidades características; y una unidad de presentación de animación que presenta imágenes correspondientes a dichos fonemas de dichas secciones, siendo cambiadas esas imágenes de manera que se hagan coincidir con dichas secciones.
Empleando el presente invento, se puede conseguir un procesado ágil del análisis de la voz en tiempo real, simplemente preparando para ello de antemano los resultados del análisis de la voz de entrada de una pluralidad de sujetos como datos de referencia, sin necesidad de preparar patrones de referencia para cada locutor. También, puesto que no se requiere una operación de registro de patrones de referencia para cada locutor, y solamente se ha de preparar una vez el patrón de referencia, se puede hacer frente a un número indefinidamente grande de locutores. Además, puesto que no se requiere una base de datos para almacenar los patrones de referencia de cada locutor, es posible la instalación incluso en un aparato de una pequeña capacidad de almacenamiento.
Breve descripción de los dibujos
La Fig. 1 es un diagrama bloque de una disposición de un dispositivo de generación de imágenes de acuerdo con una realización del presente invento;
La Fig. 2 es un diagrama bloque de una disposición de una unidad de análisis de la voz (dispositivo de análisis de la voz) de acuerdo con el presente invento;
La Fig. 3 es un organigrama en el que se da una explicación del procesado en un dispositivo de generación de imágenes de acuerdo con una realización del presente invento;
La Fig. 4 es una vista que se da como explicación de la división en páginas del paso S2 de la Fig. 3;
La Fig. 5 es una vista en la que se ha representado la relación de la frecuencia y la amplitud cuando se lleva a cabo el análisis de los componentes de la frecuencia del paso S2 de la Fig. 3;
La Fig. 6 es una vista en la que se han representado los resultados de la descomposición de la frecuencia con respecto a una pluralidad de páginas;
La Fig. 7 es una vista en la que se ha representado cómo se lleva a cabo el cálculo de la correlación entre páginas adyacentes;
La Fig. 8 es una vista en la que se ha representado la relación entre un parámetro ligado a la página y la diferencia S(y) de correlación;
La Fig. 9 es una vista que se da como explicación de la descomposición de la frecuencia para cada segmento; y
La Fig. 10 es una vista que se da como explicación de la animación correspondiente a los fonemas.
Descripción de las realizaciones preferidas
En lo que sigue se describen realizaciones del presente invento con referencia a los dibujos. Sin embargo, el alcance técnico del presente invento se expone en las reivindicaciones de la patente.
La Fig. 1 es un diagrama bloque de la distribución de un dispositivo de generación de imágenes de acuerdo con una realización del presente invento. Es éste un dispositivo de generación de animación en sincronismo con los labios que genera una animación correspondiente a la voz de entrada. Un dispositivo de generación de imágenes de acuerdo con esta realización incluye como una unidad de análisis de la voz 1 un dispositivo de análisis de la voz de acuerdo con el presente invento y, además, que tiene una CPU 2, una RAM (Memoria de Acceso Directo) de trabajo 3, una unidad de cálculo de la geometría 4, un restituidor 5, una unidad de generación de textura 6, una RAM de textura 7, una unidad de presentación 8, y una memoria intermedia de cuadros 9. Estas unidades principales se implementan por medio de un programa que se ejecuta mediante la CPU (Unidad de Procesado Central) 2 que se ha previsto en el dispositivo de generación de imágenes, pero también podrían ser implementadas usando equipo físico.
La CPU 2 controla un programa que genera una imagen. Los programas o datos usados por la CPU 2 son almacenados en la RAM de trabajo 3. La unidad de análisis de la voz 1 analiza la voz de entrada para extraer fonemas incluidos en la voz de entrada y da salida a información de temporización para determinar el tiempo de la presentación de una imagen correspondiente a cada fonema.
Bajo el control de la CPU 2, la unidad 4 de cálculo de la geometría lee y da entrada a datos poligonales que componen datos del objeto tridimensional en un sistema de coordenadas universal de la RAM de trabajo 3. A continuación lleva a cabo la transformación de las coordenadas en datos de un sistema de coordenadas de punto de vista cuyo origen es el punto de vista. Los datos poligonales que son procesados por la unidad 4 de cálculo de la geometría son dados de entrada al restituidor 5, donde los datos de las unidades poligonales son convertidos en datos de unidades de píxeles.
Los datos de unidades de píxeles son dados de entrada a la unidad 6 de generación de textura, donde se genera el color de la textura en unidades de píxeles, basadas en los datos de textura almacenados en la RAM de textura 7. La unidad de presentación 8 efectúa un procesado de eliminación de cara oculta y/o de la ocultación que se requiera de los datos de imágenes procedentes de la unidad 6 de generación de textura, y luego escribe los datos en la memoria intermedia de cuadros 9, al tiempo que los convierte en coordenadas bidimensionales. Los datos que son escritos en la memoria intermedia de cuadros 9 son leídos repetidamente y convertidos en una señal de vídeo a la que se da salida. De este modo, las imágenes correspondientes a los respectivos fonemas son cambiadas y presentadas en una pantalla de presentación, por ejemplo, no representada, de acuerdo con la información de temporización. El bloque funcional distinto al de la unidad de análisis de la voz 1 en la Fig. 1, es una unidad de presentación de animación para presentar la animación.
La Fig. 2 es un diagrama bloque de la disposición de una unidad de análisis de la voz (dispositivo de análisis de la voz) de acuerdo con el presente invento. La unidad de análisis de la voz 1 tiene una unidad de entrada 11, la unidad de conversión de AD (Analógico a Digital) 12, la unidad d descomposición en frecuencias 13, la unidad de cálculo del grado de cambio 14, la unidad de determinación de segmentos 15, la unidad de extracción de fonemas 16, y la unidad de almacenamiento 17. Estas unidades funcionales se realizan por medio de un programa que se ejecuta en la CPU (Unidad de Procesado Central) pero también podrían ser ejecutadas usando equipo físico. También, en relación con la CPU, si se ha incluido una CPU en la unidad de análisis de la voz 1, se puede emplear la CPU, no representada, incluida en esa unidad de análisis de la voz 1, o bien se puede emplear también una CPU externa (por ejemplo, la CPU 2 de la Fig. 1).
La unidad de entrada 11 es una interfaz a la cual se da entrada de la voz. La entrada de la voz a la unidad de análisis de la voz 1 se efectúa, por ejemplo, por medio de una señal de entrada procedente de un micrófono, o bien por la señal de salida de un aparato de audio conectado mediante un cable de audio. En este caso, la unidad de entrada 11 tiene respectivos terminales de entrada para un micrófono o para una conexión de audio por cable. También se puede dar entrada a la voz por medio de datos digitales, tales como un archivo de ondas o un archivo de MP3 (MPEG-1 Capa de Audio 3). En este caso, la unidad de entrada 11 está provista de una interfaz de conexión para la transferencia de datos (por ejemplo, una interfaz de USB (Bus en Serie Universal), una interfaz en paralelo, una interfaz del IEEE (Instituto de Ingenieros Eléctricos y Electrónicos de los EE.UU.) 1394, o un bus interno.
Si los datos de voz de entrada son una señal analógica, ésta se convierte en datos digitales por medio de una unidad 12 de conversión de analógico/digital (AD). Los datos de voz obtenidos mediante este proceso de conversión digital son asociados con datos en serie del tiempo, con una amplitud en un tiempo dado, y son dados de entrada a una unidad 13 de descomposición en frecuencias. La unidad 13 de descomposición en frecuencias recorta los sucesivos márgenes de tiempo desplazados (las denominadas páginas) de longitud previamente establecida, divide los datos de voz en una pluralidad de páginas, y analiza los componentes de la frecuencia de cada una de las páginas (usando, por ejemplo, una transformada de Fourier discreta). También se puede denominar a las páginas como cuadros o como cuadros de voz.
Los datos de componentes de la frecuencia para cada página son dados de entrada a la unidad 14 de cálculo del cambio de grado, en donde se calcula el grado de cambio, basado en la correlación (el método de cálculo del mismo se describirá más adelante) entre páginas adyacentes. El grado de cambio calculado se da de entrada a la unidad 15 de determinación de segmentos, donde se especifican los segmentos, que forman intervalos para la extracción de fonemas, en términos de su correlación. Estos se han especificado como grupos de páginas cuyos límites de segmento (más concretamente, sus posiciones de partida) son adyacentes. La unidad 16 de extracción de fonemas extrae después los fonemas, para cada segmento que haya sido así determinado, por coincidencia con los datos de referencia almacenados en la unidad de almacenamiento 17. Puesto que los límites del segmento se han especificado como números de página, cuando se determina un segmento, se efectúa la información de temporización de la temporización con la cual cambia el fonema, o en otras palabras, se obtiene con ello la información de temporización para determinar el tiempo para el que se haya de presentar una imagen correspondiente a cada fonema.
Los datos de referencia almacenados en la unidad de almacenamiento 17 son datos de referencia obtenidos por promedio de los resultados obtenidos mediante el análisis de antemano de las voces de una pluralidad de sujetos, de acuerdo con el procedimiento por el cual se analiza la voz de entrada. Por consiguiente, la unidad 1 de análisis de la voz extrae los fonemas contenidos en la voz de entrada y da salida a la información de temporización para determinar los tiempos para los cuales hayan de presentarse las imágenes correspondientes a los fonemas.
La Fig. 3 es un organigrama que se da como explicación del procesado en un dispositivo de generación de imágenes de acuerdo con una realización del presente invento. También, de la Fig. 4 a la Fig. 10 son vistas que se dan como explicación de los pasos del organigrama de la Fig. 3. La Fig. 3 se describirá con referencia a éstos, como sea apropiado.
En primer lugar, se efectúa (S1) la conversión de analógico/digital (AD) de la voz de entrada. Esto se realiza dando entrada a la voz que fue dada de entrada a través de la unidad de entrada 11 a la unidad de conversión de AD 12, donde la señal analógica que fue dada de entrada desde, por ejemplo, un micrófono, se convierte en datos digitales. Si la voz de entrada son datos digitales, se omite el paso S1.
A continuación, la unidad 13 de descomposición en frecuencias divide los datos de voz en una pluralidad de páginas, recortando para ello los sucesivos márgenes de tiempo desplazados (denominados páginas) de longitudes previamente establecida, y analiza los componentes de la frecuencia de cada una de las páginas (S2). La longitud previamente establecida es más corta que el fonema más corto (aproximadamente 1/10 segundos=. Se ha comprobado por la experiencia que se obtiene una precisión suficiente si esa longitud previamente establecida es de una décima parte del fonema más corto (es decir, de aproximadamente 1/100 segundos). Haciendo que la longitud previamente establecida sea más corta que esa, simplemente se aumenta la cantidad de procesado, sin ventaja alguna. La longitud previamente establecida se estableces por lo tanto, preferiblemente, en aproximadamente de 1/10 a 1/100
segundos.
La Fig. 4 es una vista que se da como explicación de la división en páginas del paso S2 de la Fig. 3. La forma de onda de la voz de entrada se ha representado mediante un gráfico en el cual se toma el tiempo a lo largo del eje horizontal y la amplitud a lo largo del eje vertical. Esta forma de onda se divide en una pluralidad de páginas, tomando una página como un margen de tiempo de longitud previamente establecida (en este caso, de 1024 puntos, siendo un punto (1/44100) de segundo) partiendo del punto en el tiempo de partida D (puntos en el tiempo de la entrada de voz de partida), desplazando sucesivamente estas páginas en 441 puntos en cada caso.
Es de hacer notar que aunque en este caso la longitud previamente establecida fue establecida en 1024 puntos, ésta podría ser convenientemente alterada para tomar en consideración, por ejemplo, la frecuencia de muestreo de la señal de voz o la velocidad de la dicción del locutor. También, aunque en este caso existen partes que se solapan en los márgenes de tiempo, dado que el tiempo de desplazamiento es más corto que el margen de tiempo de la longitud previamente establecida, se podría tomar un margen de tiempo de longitud previamente establecida tal que no hubiera partes que se solapasen.
La Fig. 5 es una vista en la que se ha representado la relación de la frecuencia y la amplitud cuando se lleva a cabo el análisis de los componentes de la frecuencia del paso S2 de la Fig. 3. Esta es una vista obtenida llevando a cabo la transformación de Fourier discreta en N puntos en la forma de onda contenida en cada página de la Fig. 4. Concretamente, si la amplitud de un punto N en la página m viene representada por {x(m,k) | k = 0...N-1}, la transformación de Fourier discreta viene expresada por la siguiente ecuación (A)
1
donde
\vskip1.000000\baselineskip
2
Puesto que ésta es simétrica alrededor del eje de la amplitud (véase la Fig. 5), es suficiente emplear solamente la región positiva de la frecuencia.
La Fig. 6 es una vista en la que se han representado los resultados de la descomposición en frecuencias con respecto a una pluralidad de páginas. En la Fig. 6, para simplificar, los gráficos de componentes de la frecuencia de la misma forma se han dispuesto lado a lado, pero, de hecho, los gráficos de componentes de la frecuencia cambiarán para cada página, ya que la forma de onda de la voz de entrada difiere dependiendo del tiempo transcurrido.
La unidad 14 de cálculo del grado de cambio calcula entonces en primer lugar, usando la siguiente ecuación (B), la correlación entre páginas adyacentes (S3).
3
La forma en que se calcula la correlación y el significado de la ecuación (B) se describirán usando la Fig. 7.
La Fig. 7 es una vista en la que se ha representado como se realiza el cálculo de la correlación entre páginas adyacentes. La Fig. 7 es un ejemplo del cálculo de la correlación de, por ejemplo, la página m y la página (m + 1) (es decir, en el caso de que sea x = m en la ecuación (B)) de las páginas adyacentes representadas en la Fig. 6. Se halla la correlación tomando la suma para N puntos de los valores obtenidos multiplicando las amplitudes correspondientes a la misma componente de la frecuencia en cada una de las páginas. En la Fig. 7, en primer lugar se multiplica la amplitud A (m,k) de la página m por la amplitud A (m + 1, k) de la página (m + 1) correspondiente a la misma componente de la frecuencia k. Se calcula la correlación de la página m y la página (m + 1) tomando para ello la suma mientras se cambia k desde 0 hasta N-1.
\newpage
La unidad 14 de cálculo del grado de cambio promedia entonces la correlación hallada por la ecuación (B) usando la siguiente ecuación (C), con objeto de eliminar el ruido (S4).
4
Cuanto menor sea el cambio en la forma del gráfico de los componentes de la frecuencia cuando cambia la página, tanto menor será el cambio en el valor de la correlación Q(x) hallado mediante la ecuación (C). A la inversa, cuando cambia la forma del gráfico del componente de la frecuencia, hay un gran cambio en el valor de la correlación Q(x), comparada con la correlación de las páginas adyacentes y subsiguientes. Por consiguiente, las páginas en las que tenga lugar un cambio del gráfico de los componentes de la frecuencia se pueden tomar como que definen las posiciones de los límites de nuevos fonemas (es decir, límites de segmentos). Tomando la diferencia entre correlaciones como el grado de cambio, se puede por lo tanto definir un segmento especificando para ello páginas adyacentes que satisfagan la condición de que el grado de cambio en ellas, comparado con los grados de cambio anterior y siguiente, sea mayor que estos dos (S5). En el paso S5, la unidad 15 de determinación de segmentos especifica las páginas adyacentes que satisfacen la condición dada en lo que antecede, de la función diferencia de las correlaciones. Para este fin se emplea la correlación Q(x) de la cual ha sido eliminado el ruido. A continuación se continuará la descripción usando la Fig. 8. El grado de cambio, es decir, la diferencia de correlaciones, puede expresarse mediante S(y) = Q(y + 1)-Q(y).
La Fig. 8 es una vista en la que se ha ilustrado la relación entre un parámetro ligado a la página y la diferencia S(y) de correlación. La que se entiende por S(1), correspondiente al parámetro ligado a la página y = 1, es un valor obtenido por resta de las correlaciones (Q(1)) de la primera página y la segunda página adyacentes de la correlación (Q(2)) de la segunda y la tercera páginas adyacentes. Aunque una página no puede ser especificada directamente por el parámetro ligado a la página, se especifica con éste un grupo de páginas adyacentes que especifican un límite de segmento.
Se especifican entonces grupos de páginas adyacentes correspondientes a números naturales y, para los cuales ese grado de cambio s(y) satisface la relación s(y-1) < S(y) y S(y + 1)< <S(y) como posiciones de partida de fonemas. Como se ha descrito en lo que antecede, la forma de onda de una voz de entrada cambia considerablemente en las posiciones de cambio de fonema, de modo que las posiciones que presenten acusados cambios indican las posiciones de partida de nuevos fonemas. En el caso de la Fig. 8, hay cuatro lugares en los que el número natural y satisface las relaciones S/y-1) < S(y), y S(y + 1) < S(y) (habiéndose designado estas, respectivamente, como los parámetros ligados a la página y_{1}, y_{2}, y_{3} e y_{4}), de modo que se extraen cuatro fonemas desde el primer segmento hasta el cuarto segmento.
El parámetro y_{1} ligado a la página indica la página de partida del segmento hasta la página y_{1}, o bien la página y_{1} + 1. No importa cual de estas sea la que se use. Sin embargo, en la señal de voz que está siendo analizada, éstas se tratan como siendo la misma. Esto mismo es de aplicación a otros parámetros ligados a páginas, que especifiquen las posiciones de partida de los segmentos. A continuación, la unidad 16 de extracción de fonemas calcula una cantidad característica para cada segmento determinado en el paso S5 (S6). Por ejemplo, un método típico de cálculo de las propiedades características ordinarias es la técnica de descomponer la voz de entrada en componentes de la frecuencia en cada segmento, efectuando la transformación de Fourier inversa y efectuando luego un análisis "cepstrum". Un ejemplo del mismo es el de descomponer la voz de entrada en componentes de la frecuencia para cada segmento, y usar la amplitud de esos componentes de la frecuencia como cantidades características. Si el segmento y la página coinciden, se pueden emplear los resultados de la descomposición en frecuencias para cada página, hallados en el paso S2.
La Fig. 9 es una vista que se da como explicación de la descomposición en frecuencias para cada segmento. Esta ilustra como se calculan los componentes de la frecuencia mediante una transformada de Fourier discreta de punto N para cada segmento. Para simplificar, en la Fig. 9 los gráficos de componentes de la frecuencia de la misma forma, se han dispuesto lado a lado pero, de hecho, los gráficos de componentes de la frecuencia cambiarán para cada página, ya que la forma de onda de la voz de entrada difiere, dependiendo del tiempo transcurrido.
A continuación, se extraen los fonemas por coincidencia con los datos de referencia (S7). Como datos de referencia, se emplean datos obtenidos promediando los resultados de ejecutar el procedimiento desde el anterior paso S1 hasta S6 con respecto a una pluralidad de sujetos de antemano. Una vez que hayan sido creados tales datos de referencia, y almacenados en la unidad de almacenamiento 17, se puede conseguir la extracción de fonemas estable con independencia de los cambios de usuario subsiguientes; en particular, es posible la aplicación a un número indefinidamente grande de usuarios. En relación con el método de la coincidencia, se pueden aplicar técnicas bien conocidas, tales como las de coincidencia de DP.
Por medio del procesado desde el anterior paso S1 hasta S7, se pueden especificar los segmentos y fonemas y las páginas de los límites de los segmentos contenidos en la voz de entrada. También, si se especifican las páginas de los límites de los segmentos, en la presente realización, se completa también la extracción de información de temporización, ya que la conversión a un punto en el tiempo puede conseguirse usando {el punto en el tiempo de partida D + producto de 441 puntos y (página de límite de segmento-1)}. Se presenta entonces la animación correspondiente al fonema, de acuerdo con la disposición descrita en la Fig. 1, usando el fonema y la información de temporización que se tiene de salida desde la unidad 1 de análisis de la voz (S8).
La Fig. 10 es una vista que se da como explicación de la animación correspondiente a fonemas. Suponiendo que, por ejemplo, se hayan seleccionado archivos como los fonemas extraídos y se hayan almacenado datos de referencia para cada vocal en la unidad de almacenamiento 17, si se almacenan los datos correspondientes a la animación para cada vocal representada en la Fig. 10 en la RAM de trabajo 3, se puede presentar la animación correspondiente a cada vocal contenida en la voz de entrada, usando para ello el dispositivo de generación de imágenes de la Fig.1. Por ejemplo, se pueden presentar las imágenes correspondientes a cada vocal por asociación de la imagen "a" de la Fig. 10 con la vocal "a", y la asociación de la imagen "i" de la Fig. 10 con la vocal "i".
Como se ha descrito en lo que antecede, con esta realización del presente invento se puede conseguir un procesado ágil de análisis de la voz en tiempo real, simplemente preparando para ello de antemano los resultados del análisis de la voz de entrada de una pluralidad de sujetos como datos de referencia, sin necesidad de preparar patrones de referencia para cada locutor. También, puesto que no se requiere una operación de registro de patrones de referencia para cada locutor y solamente se ha de preparar el patrón de referencia una vez, se puede hacer frente a un número indefinidamente grande de locutores. Además, puesto que no se requiere una base de datos para almacenar los patrones de referencia de cada locutor, es posible la instalación incluso en un aparato de pequeña capacidad de almacenamiento.
Como ejemplos de posibles aplicaciones se incluyen la animación para salas de de charla en línea, la animación en juegos de vídeo (en particular, juegos de vídeo que sean jugados en el modo de conversación, o bien juegos en los que se desempeñe un papel), o bien en sistemas de recepción de funcionamiento automático, empleados en hospitales o en instituciones financieras. etc.
Es de hacer notar que, aunque en esta realización se ha descrito un método que fue puesto en práctica como un dispositivo de generación de imágenes, también se podría poner en práctica como un método o programa procesado de acuerdo con el organigrama representado en la Fig. 3. Además, aunque en esta realización se ha descrito un método que fue puesto en práctica como un dispositivo de generación de imágenes, también sería posible la aplicación, por ejemplo, a un dispositivo de conversión de voz/letras, con el que se presentan las letras correspondientes a fonemas. En este caso, el bloque funcional que presenta la animación en la disposición de la Fig. 1 (bloque funcional distinto al de la unidad 1 de análisis de la voz de la Fig. 1) está sustituido por un bloque funcional que presenta letras, y que puede cambiar el paso S8 (organigrama de la Fig. 3) mediante el cual se presenta animación, de modo que se presenten letras. También, aunque, en esta realización, se ha descrito un método de ejecución como un dispositivo de generación de imágenes que incluye una unidad 1 de análisis de la voz, también sería posible la realización de la unidad de análisis de la voz como un dispositivo independiente (dispositivo de análisis de la voz). En este caso, se prescinde del paso S8 del organigrama representado en la Fig. 3, y se hace uso del fonema o información de temporización a la que se da salida desde el dispositivo de análisis de la voz, mediante el procesado en un dispositivo separado que está conectado al mismo.

Claims (14)

1. Un método ejecutable en ordenador de análisis de la voz que detecta los límites de fonemas a partir de una señal de voz de entrada, que comprende:
un primer paso que especifica un punto en el tiempo en dicha señal de voz de entrada;
un segundo paso de extracción de la señal de voz contenida en un margen de tiempo de una longitud previamente establecida desde dicho punto en el tiempo; y
un tercer paso de descomposición de dicha señal de voz extraída en datos de componentes de la frecuencia, en que
se hallan n datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello dichos pasos primero, segundo y tercero n veces, donde n es un número natural de al menos 6 para cada tiempo previamente establecido;
se hallan (n-1) correlaciones a partir de n de dichos datos de componentes de la frecuencia mediante la obtención de la correlación i-ésima, donde i es un número natural de al menos 1 y no mayor que (n-1), basado en el elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecido;
se hallan (n-2) diferencias entre correlaciones a partir de las (n-1) de dichas correlaciones, hallando para ello la diferencia k-ésima entre correlaciones basada en la correlación k-ésima y en dicha correlación (k + 1)-ésima, donde k es un número natural de al menos 1 y no mayor que (n-2);
cuando m está definido como el número que especifica la diferencia entre correlaciones que es mayor que dos diferencias entre correlaciones adyacentes que la diferencia entre correlaciones especificadas en las (n-2) diferencias entre correlaciones desde la primera hasta la (n-2)-ésima, se halla el número m definido, es decir el m que satisface la condición de que la diferencia m-ésima entre correlaciones es mayor que la diferencia (m-1)ésima entre correlaciones y es mayor que la diferencia (m + 1)-ésima entre correlaciones cuando se cambia m de uno en uno desde 2 hasta (n-3);
se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; y
se divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
2. El método de análisis de la voz de acuerdo con la reivindicación 1, que comprende además:
calcular las cantidades características para cada sección de dichas señales de voz divididas; y
especificar dichos fonemas de dichas secciones, comparando para ello dichas cantidades características con datos de referencia para cada uno de dichos fonemas.
3. El método de análisis de la voz de acuerdo con la reivindicación 1,
en el que el tiempo previamente establecido es desplazado para el margen de tiempo de dicha longitud previamente establecido para formar partes que se solapan mutuamente.
4. El método de análisis de la voz de acuerdo con la reivindicación 1,
en el que dicha correlación es un valor obtenido sumando los productos de las amplitudes correspondientes a los mismos componentes de la frecuencia,
5. El método de análisis de la voz de acuerdo con la reivindicación 1,
en el que dichos datos de componentes de la frecuencia se hallan mediante la transformación de Fourier de componentes de la frecuencia de dicha señal de voz extraída.
6. El método de análisis de la voz de acuerdo con la reivindicación 2,
en el que dichas cantidades características se determinan de acuerdo con la amplitud de cada componente de la frecuencia obtenida por transformación de Fourier de dicha señal de voz contenida en la sección de dicha señal de voz dividida.
7. El método de análisis de la voz de acuerdo con la reivindicación 2,
en el que se presentan las imágenes de animación correspondientes a dichos fonemas de dichas secciones, siendo cambiadas de manera que coincidan con dichas secciones.
8. Un programa de análisis de la voz que cuando se corre en un ordenador que comprende una CPU, hace que la CPU realice cada uno de los pasos de un método de acuerdo con la reivindicación 1.
9. El programa de análisis de la voz de acuerdo con la reivindicación 8, que hace además que la CPU ejecute:
el cálculo de las cantidades características para cada sección de las señales de voz divididas; y
la especificación de dichos fonemas de dichas secciones por comparación de dichas cantidades características con datos de referencia para cada uno de dichos fonemas.
10. El programa de análisis de la voz de acuerdo con la reivindicación 9,
en el que el tiempo previamente establecido es desplazado en el margen de tiempo de dicha longitud previamente establecida para formar partes que se solapan mutuamente;
dicha correlación es un valor obtenido sumando los productos de las amplitudes correspondientes a las mismas componentes de la frecuencia;
dichos datos de componentes de la frecuencia se hallan mediante la transformación de Fourier de dichas componentes de la frecuencia extraídas de la señal de voz; y
dichas cantidades características se determinan de acuerdo con la amplitud de cada componente de la frecuencia obtenida por transformación de Fourier de dicha señal de voz contenida en la sección de dicha señal de voz dividida.
11. El programa de análisis de la voz de acuerdo con la reivindicación 9,
en el que se presentan las imágenes de animación correspondientes a dichos fonemas de dichas secciones, siendo cambiadas de manera que coincidan con dichas secciones.
12. Un medio de almacenamiento que almacena un programa de acuerdo con cualquiera de la reivindicación 8 a la reivindicación 11.
13. Un dispositivo de análisis de la voz que comprende:
una unidad de descomposición en frecuencias (13) que halla n datos de componentes de la frecuencia extraídos de una señal de voz contenida en n márgenes de tiempo de longitud previamente establecida, repitiendo para ello n veces (donde n es un número natural de al menos 6), a intervalos previamente establecidos, especificando para ello un punto en el tiempo en una señal de voz de entrada por extracción de una señal de voz contenida en un margen de tiempo de la longitud previamente establecida desde dicho punto en el tiempo, y por descomposición de dicha señal de voz extraída en datos de componentes de la frecuencia;
una unidad (14) de cálculo del grado de cambio que halla (n-1) correlaciones a partir de n de dichos datos de componentes de la frecuencia mediante la obtención de la correlación i-ésima, donde i es un número natural de al menos 1 y no mayor que (n-1), basado en el elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i + 1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecida, y que halla (n-2) diferencias entre correlaciones de las (n-1) correlaciones citadas, hallando para ello la k-ésima diferencia entre correlaciones, basada en la correlación k-ésima y en la citada (k + 1)-ésima correlación, siendo k un número natural de al menos 1 y no mayor que (n-2); y
una unidad (15) de determinación de segmentos que halla un número definido, siendo el número definido m el definido como el número que especifica la diferencia entre correlaciones que es mayor que las dos diferencias entre correlaciones adyacentes a la diferencia entre correlaciones especificada en las (n-2) diferencias entre correlaciones desde la primera hasta la (n-2)-ésima, a saber, el número m definido que satisface la condición de que la m-ésima diferencia entre correlaciones es mayor que la (m-1)-ésima diferencia entre correlaciones y es mayor que la (m + 1)-ésima diferencia entre correlaciones, cuando se cambia m de uno en uno desde 2 hasta (n-3), que especifica un margen de tiempo de dicha longitud previamente establecida, de acuerdo con el número m definido, y que divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
14. Un dispositivo de generación de imágenes de animación con un dispositivo de análisis de la voz de acuerdo con la reivindicación 13, que comprende además:
\newpage
una unidad (16) de extracción de fonemas, que especifica los citados fonemas de dichas secciones mediante el cálculo de las cantidades características para cada sección de la señal de voz dividida y la comparación de los datos de referencia de cada uno de dichos fonemas y dichas cantidades características; y
una unidad (8) de presentación de la animación que presenta imágenes correspondientes a dichos fonemas de dichas secciones, siendo esas imágenes cambiadas de manera que coincidan con dichas secciones.
ES05250981T 2004-02-26 2005-02-22 Segmentacion del habla. Active ES2284133T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-51998 2004-02-26
JP2004051998A JP4792703B2 (ja) 2004-02-26 2004-02-26 音声解析装置、音声解析方法及び音声解析プログラム

Publications (1)

Publication Number Publication Date
ES2284133T3 true ES2284133T3 (es) 2007-11-01

Family

ID=34747518

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05250981T Active ES2284133T3 (es) 2004-02-26 2005-02-22 Segmentacion del habla.

Country Status (6)

Country Link
US (1) US7680660B2 (es)
EP (1) EP1569201B1 (es)
JP (1) JP4792703B2 (es)
CN (1) CN1319042C (es)
DE (1) DE602005000896T2 (es)
ES (1) ES2284133T3 (es)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
EP2259610B1 (en) * 2009-06-02 2012-08-08 Vodafone Holding GmbH Registering a mobile device in a mobile communication network
US20110143768A1 (en) * 2009-12-14 2011-06-16 Lane Sean L Methods and apparatus related to region-specific mobile device and infrastructure detection, analysis and display
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
WO2014066855A1 (en) * 2012-10-26 2014-05-01 The Regents Of The University Of California Methods of decoding speech from brain activity data and devices for practicing the same
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
US10002543B2 (en) * 2014-11-04 2018-06-19 Knotbird LLC System and methods for transforming language into interactive elements
US10057681B2 (en) * 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
CN108170710A (zh) * 2017-11-28 2018-06-15 苏州市东皓计算机***工程有限公司 一种计算机声音识别***
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
JP6672380B2 (ja) * 2018-05-29 2020-03-25 株式会社コロプラ ゲームプログラム、キャラクタ制御プログラム、方法、および情報処理装置
CN109087629A (zh) * 2018-08-24 2018-12-25 苏州玩友时代科技股份有限公司 一种基于语音识别的口型动画实现方法及装置
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN116129926B (zh) * 2023-04-19 2023-06-09 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58148443A (ja) 1982-03-01 1983-09-03 Seiko Epson Corp 半導体集積回路装置
JPS6136798A (ja) * 1984-07-30 1986-02-21 松下電器産業株式会社 音声セグメンテ−シヨン法
JPS61100956A (ja) 1984-10-22 1986-05-19 Nec Corp モノブリツド集積回路
NL8500377A (nl) 1985-02-12 1986-09-01 Philips Nv Werkwijze en inrichting voor het segmenteren van spraak.
JP2664136B2 (ja) * 1985-08-30 1997-10-15 株式会社日立製作所 音声認識装置
JP2863818B2 (ja) * 1990-08-31 1999-03-03 工業技術院長 動画像の変化点検出方法
JPH04263298A (ja) * 1991-02-16 1992-09-18 Nippon Sheet Glass Co Ltd 音声認識装置
US5630017A (en) * 1991-02-19 1997-05-13 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JP3269162B2 (ja) 1992-03-23 2002-03-25 日本電気株式会社 エレクトロルミネッセンス表示パネル駆動回路
JPH0632007A (ja) 1992-07-15 1994-02-08 Sony Corp リボンカートリッジ
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
JP3081108B2 (ja) 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
US6377918B1 (en) * 1997-03-25 2002-04-23 Qinetiq Limited Speech analysis using multiple noise compensation
JP2000100072A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2000324499A (ja) * 1999-05-14 2000-11-24 Fujitsu Ltd 画像処理装置及びシーンチェンジ検出方法
JP2002108382A (ja) * 2000-09-27 2002-04-10 Sony Corp リップシンクを行うアニメーション方法および装置
JP2002215180A (ja) 2001-01-17 2002-07-31 Digital Media Lab Inc 通信装置
JP2003233389A (ja) 2002-02-12 2003-08-22 Yamaha Corp アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法

Also Published As

Publication number Publication date
JP4792703B2 (ja) 2011-10-12
US7680660B2 (en) 2010-03-16
EP1569201A1 (en) 2005-08-31
DE602005000896D1 (de) 2007-05-31
JP2005241997A (ja) 2005-09-08
CN1319042C (zh) 2007-05-30
EP1569201B1 (en) 2007-04-18
US20050192805A1 (en) 2005-09-01
DE602005000896T2 (de) 2008-01-17
CN1661675A (zh) 2005-08-31

Similar Documents

Publication Publication Date Title
ES2284133T3 (es) Segmentacion del habla.
CN109377539B (zh) 用于生成动画的方法和装置
CN110136698B (zh) 用于确定嘴型的方法、装置、设备和存储介质
US10553201B2 (en) Method and apparatus for speech synthesis
US9548048B1 (en) On-the-fly speech learning and computer model generation using audio-visual synchronization
US7636662B2 (en) System and method for audio-visual content synthesis
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
US20150073794A1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN108538308B (zh) 基于语音的口型和/或表情模拟方法及装置
CN113539240B (zh) 动画生成方法、装置、电子设备和存储介质
WO2020248388A1 (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN110047121B (zh) 端到端的动画生成方法、装置及电子设备
Naert et al. Coarticulation analysis for sign language synthesis
CN113223123A (zh) 图像处理方法和图像处理装置
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN114420097A (zh) 语音定位方法、装置、计算机可读介质及电子设备
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN116095357B (zh) 虚拟主播的直播方法、装置及***
Abel et al. A data driven approach to audiovisual speech mapping
CN114581570B (zh) 一种三维脸部动作生成方法和***
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115967781A (zh) 视频特效显示方法、装置、电子设备及存储介质
CN113362432B (zh) 一种面部动画生成方法及装置
Ji Design and implementation of virtual host based on machine learning algorithm