ES2284133T3 - Segmentacion del habla. - Google Patents
Segmentacion del habla. Download PDFInfo
- Publication number
- ES2284133T3 ES2284133T3 ES05250981T ES05250981T ES2284133T3 ES 2284133 T3 ES2284133 T3 ES 2284133T3 ES 05250981 T ES05250981 T ES 05250981T ES 05250981 T ES05250981 T ES 05250981T ES 2284133 T3 ES2284133 T3 ES 2284133T3
- Authority
- ES
- Spain
- Prior art keywords
- correlations
- time
- voice
- voice signal
- previously established
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims description 83
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000003384 imaging method Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100247669 Quaranfil virus (isolate QrfV/Tick/Afghanistan/EG_T_377/1968) PB1 gene Proteins 0.000 description 1
- 101150025928 Segment-1 gene Proteins 0.000 description 1
- 101100242902 Thogoto virus (isolate SiAr 126) Segment 1 gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
Un método ejecutable en ordenador de análisis de la voz que detecta los límites de fonemas a partir de una señal de voz de entrada, que comprende: un primer paso que especifica un punto en el tiempo en dicha señal de voz de entrada; un segundo paso de extracción de la señal de voz contenida en un margen de tiempo de una longitud previamente establecida desde dicho punto en el tiempo; y un tercer paso de descomposición de dicha señal de voz extraída en datos de componentes de la frecuencia, en que se hallan n datos de componentes de la frecuencia extraídos de la señal de voz contenida en n márgenes de tiempo de dicha longitud previamente establecida, repitiendo para ello dichos pasos primero, segundo y tercero n veces, donde n es un número natural de al menos 6 para cada tiempo previamente establecido; se hallan (n-1) correlaciones a partir de n de dichos datos de componentes de la frecuencia mediante la obtención de la correlación i-ésima, donde i es un número natural de al menos 1 y no mayor que (n-1), basado en el elemento i-ésimo de dichos datos de componentes de la frecuencia y en el elemento (i+1)-ésimo de dichos datos de componentes de la frecuencia correspondientes a dicha señal de voz contenida en márgenes de tiempo mutuamente adyacentes de dicha longitud previamente establecido; se hallan (n-2) diferencias entre correlaciones a partir de las (n-1) de dichas correlaciones, hallando para ello la diferencia k-ésima entre correlaciones basada en la correlación k-ésima y en dicha correlación (k+1)-ésima, donde k es un número natural de al menos 1 y no mayor que (n-2); cuando m está definido como el número que especifica la diferencia entre correlaciones que es mayor que dos diferencias entre correlaciones adyacentes que la diferencia entre correlaciones especificadas en las (n-2) diferencias entre correlaciones desde la primera hasta la (n-2)-ésima, se halla el número m definido, es decir el m que satisface la condición de que la diferencia m-ésima entre correlaciones esmayor que la diferencia (m-1)ésima entre correlaciones y es mayor que la diferencia (m+1)-ésima entre correlaciones cuando se cambia m de uno en uno desde 2 hasta (n-3); se especifica un margen de tiempo de dicha longitud previamente establecida de acuerdo con el número m definido; y se divide dicha señal de voz de entrada en una pluralidad de secciones de acuerdo con dichos márgenes de tiempo especificados.
Description
Segmentación del habla.
El presente invento se refiere a un dispositivo
de análisis de la voz, a un programa de análisis de la voz, y a un
método para análisis de la voz. Expuesto con más detalle, se refiere
a un dispositivo de generación de imágenes que emplea un método de
análisis de la voz de acuerdo con el presente invento y, en
particular, a un dispositivo de generación de imágenes de animación
en sincronismo con los labios que crea animación (animación en
sincronismo con los labios) de modo que se cambia la forma de la
boca de acuerdo con la voz.
La tecnología del análisis de la voz se emplea
actualmente en varios campos. Son ejemplos la identificación de un
locutor por la voz, la conversión de la voz en texto, o bien la
generación de animación en sincronismo con los labios de modo que
se varía la forma de la boca de acuerdo con la voz. El procesado que
se lleva a cabo en estos casos comporta, respectivamente: en el
caso de la tecnología del análisis de la voz, la extracción de
fonemas, es decir, de las unidades que se emplean para diferenciar
los significados de las palabras, a partir de la voz; en el caso de
identificación del locutor, la identificación de un locutor usando
el grado de similitud entre los fonemas extraídos y patrones de
referencia registrados de antemano; en el caso de conversión de
textos, la presentación de letras correspondientes a los fonemas
extraídos en una presentación o similar; y en el caso de creación
de animación en sincronismo con los labios, la presentación de una
imagen correspondiente al fonema extraído en una pantalla de
presentación o similar.
La técnica anterior incluye los siguientes
métodos de extracción de fonemas de la voz. Por ejemplo, en el
sistema de identificación de locutor descrito en la Patente Japonesa
Publicada Nº H6-32007, los fonemas se extraen
determinando, para cada vocal, los intervalos tales que la distancia
entre un patrón de referencia previamente dado de entrada y la voz
del locutor es menor que un valor previamente establecido y
estableciendo una correspondencia entre esos intervalos y las
vocales.
Tales intervalos para extraer fonemas se
denominan segmentos. En el dispositivo de generación de imágenes de
animación de la solicitud de patente Japonesa Dejada Abierta para
pública inspección Nº 2003-233389, se lleva a cabo
un análisis formante usando por ejemplo una Modelización Sinusoidal
Compuesta (CSM) y se extraen fonemas sobre la base de la
información formante para caracterizar las vocales.
Sin embargo, con objeto de efectuar la
determinación de los segmentos usando la distancia desde un patrón
de referencia, se debe preparar una base de datos en la cual estén
registrados los patrones de referencia para cada locutor. Sin
embargo, esto da inevitablemente por resultado una enorme cantidad
de datos, que depende del número de locutores, lo que amplía el
tiempo de procesado requerido para el análisis de la voz. Es por lo
tanto difícil aplicar esto a situaciones en las cuales se requiera
un procesado en tiempo real (tal como, por ejemplo, para crear una
animación en sincronismo con los labios). También, cuando se
inscribe un nuevo locutor, surge la tarea de añadir los patrones de
referencia del nuevo locutor a la base de datos. La tarea de
gestionar la base de datos se hace por lo tanto engorrosa, y el
sistema es de difícil aplicación a un número indefinidamente grande
de locutores.
También se tiene que, en la presente situación,
la extracción de hecho de fonemas usando la información formante es
difícil de aplicar a situaciones en las que se requiera el procesado
en tiempo real, debido al tiempo que se requiere para tal
procesado. Aparte de esto, se conoce un método de extracción de
fonemas en el que se utiliza, por ejemplo, el análisis de
"cepstrum" (inversa de la transformada de Fourier del logaritmo
del espectro) de LPC (Codificación Predictiva Lineal). Se ha visto
que la precisión de la extracción de fonemas usando este método
aumenta a medida que aumenta el número de veces de repetición, es
decir, que hay un efecto de aprendizaje. A la inversa, con objeto
de aumentar la precisión de la extracción, es necesario preparar de
antemano los resultados de los análisis para un gran número de
señales de aprendizaje; es por lo tanto difícil de aplicar este
método a un número indefinidamente grande de locutores.
Además, es sabido que el carácter de la
envolvente espectral varía considerablemente, dependiendo del método
de representación o del método de extracción afectado por factores
tales como la determinación del grado o número de repeticiones, y
se requiere por lo tanto habilidad por parte del analista.
Es conocido de la técnica anterior un método
ejecutable en ordenador de análisis de la voz, con el cual se
detectan los límites de los fonemas a partir de una señal de voz de
entrada, empleando una técnica basada en el uso de un reconocedor
de la unidad acústico-fonética “Hidden Markov Model”
(HML). Tanto el reconocedor como el sistema de segmentación sacan
partido de la base de datos de discurso continuo
acústico-fonética DARPA-TIMIT del
Inglés Americano. El sistema proporciona un buen tanto por ciento de
localización de límites correctos, y se ha descrito en la
comunicación de BRUGNARA F Y OTROS: "AUTOMATIC SEGMENTATION AND
LABELING OF SPEECH BASED ON HIDDEN MARKOV MODELS"
("Segmentación y Etiquetado Automático del Discurso en Base a
Modelos Hidden Markov"), ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM,
HOLANDA. Vol. 12 Nº 4, 1 agosto 1993, págs. 357-370,
XP000393652 ISSN: 0167-6393.
Un objeto del presente invento es proporcionar
un dispositivo de análisis de la voz y un método de análisis de la
voz mediante los cuales se pueda efectuar el procesado del análisis
de la voz en tiempo real, y que sea susceptible de aplicación a un
gran número de locutores sin necesidad de preparar patrones de
referencia para cada locutor. Un desarrollo del invento proporciona
un dispositivo de generación de imágenes de animación susceptible
de procesar en tiempo real mediante la aplicación de ese método de
análisis de la voz.
A continuación se describirán varios aspectos
del presente invento, en los que ha de quedar entendido que los
"grados de cambio" a los que se hace referencia son realmente
diferencias entre las correlaciones expresadas. El presente invento
queda definido en las reivindicaciones independientes que se
acompañan.
De acuerdo con un primer aspecto del presente
invento, los anteriores objetos se consiguen proporcionando para
ello un método de análisis de la voz ejecutable en ordenador, con el
cual se detectan los límites de los fonemas a partir de la voz de
entrada, que incluye: un primer paso en el que se especifica un
punto en el tiempo en dicha señal de voz de entrada; un segundo
paso en el que se extrae la señal de voz contenida en un margen de
tiempo previamente establecido a partir de dicho punto en el tiempo;
y un tercer paso de descomposición de dicha señal de voz extraída
en datos de componentes de la frecuencia, en los que se hallan datos
de componentes de la frecuencia extraídos de la señal de voz
contenida en n márgenes de tiempo de dicha longitud previamente
establecida, repitiendo para ello dichos pasos primero, segundo y
tercero n veces (donde n es un número natural de al menos 6) para
cada tiempo previamente establecido; se hallan (n-1)
correlaciones a partir de dichas n datos de componentes de la
frecuencias, obteniendo para ello la correlación i-ésima (donde i es
un número natural de al menos 1 y no mayor que
(n-1)) en base al elemento i-ésimo de dichos datos
de componentes de la frecuencia y el elemento (i + 1)-ésimo de
dichos datos de componentes de la frecuencia correspondientes a
dicha señal de voz contenida en márgenes de tiempo mutuamente
adyacentes de dicha longitud previamente establecida; se hallan
(n-2) de dichos grados de cambio a partir de dichas
(n-1) correlaciones, hallando para ello el grado
k-ésimo de cambio en base a la correlación k-ésima y en dicha
correlación (k + 1)-ésima (donde k es un número natural de al menos
1 y no mayor que (n-2)); cuando se ha definido m
como el número que especifica el grado de cambio que es mayor que
dos grados de cambio adyacentes al grado de cambio especificado en
los (n-2) grados de cambio a partir del primero
hasta el (n-2)-ésimo, se halla el número m definido,
es decir un m que satisface la condición de que el grado m-ésimo de
cambio es mayor que el grado (m-1)-ésimo de cambio y
es mayor que el grado (m + 1)-ésimo de cambio cuando se cambia m de
uno en uno desde 2 hasta (n-3); se especifica un
margen de tiempo de dicha longitud previamente establecida de
acuerdo con el número m definido; y se divide la citada señal de
voz de entrada en una pluralidad de secciones de acuerdo con dichos
márgenes de tiempo especificados.
De acuerdo con un segundo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método de análisis de la voz de acuerdo con el primer
aspecto, en el que además: se calculan las cantidades
características para cada sección de dichas señales de voz divididas
y se especifican dichos fonemas de dichas secciones, comparando
para ello dichas cantidades características con datos de referencia
para cada uno de dichos fonemas.
De acuerdo con un tercer aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método de análisis de la voz de acuerdo con el primer
aspecto, en el que se desplaza el tiempo previamente establecido
para el margen de tiempo de dicha longitud previamente establecida
para formar partes que se solapan mutuamente.
De acuerdo con un cuarto aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método de análisis de la voz de acuerdo con el primer
aspecto, en el que dicha correlación es un valor obtenido sumando
para ello los productos de las amplitudes correspondientes a los
mismos componentes de la frecuencia.
De acuerdo con un quinto aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método de análisis de la voz de acuerdo con el primer
aspecto, en el que se hallan dichos datos de componentes de la
frecuencia mediante la transformada de Fourier de componentes de la
frecuencia de dicha señal de voz extraída.
De acuerdo con un sexto aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método de análisis de la voz de acuerdo con el segundo
aspecto, en el que se determinan dichas cantidades características
de acuerdo con una amplitud de cada componente de la frecuencia
obtenida mediante la transformada de Fourier de dicha señal de voz
contenida en la sección de dicha señal de voz dividida obtenida
mediante dicha división.
De acuerdo con un séptimo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un método ejecutable en ordenador de generación de imágenes de
animación en el cual se presenta una imagen correspondiente a las
divisiones de los fonemas de una señal de voz inicial, que comprende
un primer paso que especifica un punto en el tiempo en dicha señal
de voz de entrada; un segundo paso en el que se extrae la señal de
voz contenida en un margen de tiempo de longitud previamente
establecida a partir de dicho punto en el tiempo; y un tercer paso
en el que se descompone dicha señal de voz extraída en datos de
componentes de la frecuencia, en los que se hallan n datos de
componente de la frecuencia extraídos de la señal de voz contenida
en n márgenes de tiempo de dicha longitud previamente establecida,
repitiendo para ello dichos pasos primero, segundo y tercero n
veces (donde n es un número natural de al menos 6) para cada tiempo
previamente establecido; se hallan (n-1)
correlaciones a partir de dichos n datos de componentes de la
frecuencia, obteniendo para ello la correlación i-ésima (donde i es
un número natural de al menos 1 y no mayor que (n-1)
en base al elemento i-ésimo de dichos datos de componentes de la
frecuencia y en el elemento (i + 1)-ésimo de dichos datos de
componente de la frecuencia correspondientes a dicha señal de voz
contenida en márgenes de tiempo mutuamente adyacentes de dicha
longitud previamente establecida; se hallan (n-2) di
dichos grados de cambio a partir de las citadas
(n-1) correlaciones, hallando para ello el grado
k-ésimo de cambio en base a la correlación k-ésima y en dicha
correlación (k + 1)-ésima (donde k es un número natural de al menos
1 y no mayor que (n-2)), cuando se define m como el
número que especifica el grado de cambio que es mayor que dos grados
de cambio adyacentes a los grados de cambio especificados en los
(n-2) grados de cambio desde el primero hasta el
(n-2)-ésimo, se halla el número m definido, es
decir el m que satisface la condición de que el grado m-ésimo de
cambio es mayor que el grado (m-1)-ésimo de cambio
y es mayor que el grado (m + 1)-ésimo de cambio cuando se cambia m
de uno en uno desde dos hasta (n-3); se especifica
un margen de tiempo de dicha longitud previamente establecida de
acuerdo con el número m definido; se divide dicha señal de voz de
entrada en una pluralidad de secciones, de acuerdo con dichos
márgenes de tiempo especificados; se calculan las cantidades
características para cada sección de las señales de voz divididas;
se especifican dichos fonemas de dichas secciones comparando para
ello dichas cantidades características con datos de referencia para
cada uno de dichos fonemas; y se presentan las imágenes
correspondientes a dichos fonemas de dichas secciones, que se
cambian de manera que coincidan con dichas secciones.
De acuerdo con un octavo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un programa de análisis de la voz que sea ejecutable por un
ordenador que comprenda una CPU y que detecte los límites de los
fonemas a partir de la voz de entrada, el programa hace que la CPU
ejecute: un primer paso en el que se especifica un punto en el
tiempo en dicha señal de voz de entrada; un segundo paso en el que
se extrae la señal de voz contenida en un margen de tiempo de
longitud previamente establecida a partir de dicho punto en el
tiempo; y un tercer paso en el que se descompone dicha señal de voz
extraída en datos de componentes de la frecuencia, en que se hallan
n datos de componentes de la frecuencia extraídos de la señal de
voz contenida en n márgenes de tiempo de dicha longitud previamente
establecida, repitiendo para ello n veces dichos pasos primero,
segundo y tercero mediante dicha CPU (donde n es un número natural
de al menos 6) para cada tiempo previamente establecido; se hallan
(n-1) correlaciones a partir de dichos n dados de
componentes de la frecuencia, obteniendo para ello la correlación
i-ésima (donde i es un número natural de al menos 1 y no mayor que
(n-1)) en base al elemento i-ésimo de dichos datos
de componentes de la frecuencia y el elemento (i + 1)-ésimo de
dichos datos de componentes de la frecuencia correspondientes a
dicha señal de voz contenida en márgenes de tiempo mutuamente
adyacentes de dicha longitud previamente establecida; se hallan
dichos )n-2) grados de cambio a partir de dichas
(n-1) correlaciones, hallando para ello el grado
k-ésimo de cambio basado en la correlación k-ésima y dicha
correlación (k + 1)-ésima (en donde k es un número natural de al
menos 1 y no mayor que (n-2)); cuando se define m
como el número que especifica el grado de cambio que es mayor que
dos grados de cambio adyacentes al grado de cambio especificado en
los (n-2) grados de cambio desde el primero hasta
el (n-2)-ésimo),se halla el número m definido, es
decir, el m que satisface la condición de que el grado de cambio
m-ésimo es mayor que el grado de cambio (m-1)-ésimo
y es mayor que el grado de cambio (m + 1)-ésimo cuando se cambia m
de uno en uno desde 2 hasta (n-3); se especifica un
margen de tiempo de dicha longitud previamente establecida de
acuerdo con el número m definido; y se divide dicha señal de voz de
entrada mediante dicha CPU en una pluralidad de secciones de acuerdo
con dichos márgenes de tiempo especificados.
De acuerdo con un noveno aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un programa de análisis de la voz de acuerdo con el octavo
aspecto, que hace además que la CPU ejecute: el cálculo de las
cantidades características para cada sección de las señales de voz
divididas y se especifican dichos fonemas de dichas secciones
comparando para ello dichas cantidades características con los datos
de referencia para cada uno de dichos fonemas.
De acuerdo con un décimo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un programa de análisis de la voz de acuerdo con el noveno
aspecto, en que el tiempo previamente establecido se desplaza para
el margen de tiempo de dicha longitud previamente establecida para
formar partes que se solapan mutuamente; dicha correlación es un
valor obtenido sumando para ello los productos de las amplitudes
correspondientes a los mismos componentes de la frecuencia; se
hallan dichos datos de los componentes de la frecuencia mediante la
transformada de Fourier de dichos componentes de la frecuencia
extraídos de la señal de voz; y se determinan dichas cantidades
características de acuerdo con la amplitud de cada componente de la
frecuencia obtenido mediante la transformada de Fourier de dicha
señal de voz contenida en la sección de dicha señal de voz
dividida.
De acuerdo con un undécimo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un programa de generación de imágenes de animación que es
ejecutable en un ordenador que comprende una CPU y presenta una
imagen correspondiente a las divisiones de los fonemas a partir de
una señal de voz de entrada, dicho programa hace que la CPU
ejecute: un primer paso en el que especifica un punto en el tiempo
en dicha señal de voz de entrada; un segundo paso en el que se
extrae la señal de voz contenida en un margen de tiempo de longitud
previamente establecida desde dicho punto en el tiempo; y un tercer
paso en el que se descompone dicha señal de voz extraída en datos
de componentes de la frecuencia, en que se halan m datos de
componentes de la frecuencia extraídos de la señal de voz contenida
en n márgenes de tiempo de dicha longitud previamente establecida
repitiendo para ello dichos pasos primero, segundo y tercero n veces
(donde n es un número natural de al menos 6) para cada tiempo
previamente establecido; se hallan (n-1)
correlaciones a partir de dichos n datos de componentes de la
frecuencia, obteniendo para ello la correlación i-ésima (donde i es
un número natural de al menos 1 y no mayor que
(n-1)), basada en el elemento i-ésimo de dichos
datos de componentes de la frecuencia y en el elemento (i +
1)-ésimo de dichos datos de componentes de la frecuencia
correspondientes a dicha señal de voz contenida en márgenes de
tiempo mutuamente adyacentes de dicha longitud previamente
establecida; se hallan (n-2) de dichos grados de
cambio a partir de las mencionadas (n-1)
correlaciones, hallando para ello el grado k-ésimo de cambio en
base a la correlación k-ésima y en dicha correlación (k + 1)-ésima
(donde k es un número natural de al menos 1 y no mayor que
(n-2)); cuando se define m como el número que
especifica el grado de cambio que es mayor que dos grados de cambio
adyacentes al grado de cambio especificado en los
(n-2) grados de cambio, desde el primero hasta el
(n-2)-ésimo, se halla el número m definido, es
decir, un m que satisface la condición de que el grado de cambio
m-ésimo es mayor que el grado de cambio (m + 1)-ésimo cuando se
cambia m de uno en uno, desde 2 hasta ((n-3); se
especifica un margen de tiempo de dicha longitud previamente
establecida de acuerdo con el número m definido; se divide dicha
señal de voz de entrada en una pluralidad de secciones de acuerdo
con dichos márgenes de tiempo especificados; se calculan las
cantidades características para cada sección de las señales de voz
divididas; se especifican dichos fonemas de dichas secciones
comparando para ello dichas cantidades características con datos de
referencia para cada uno de dichos fonemas; y se presentan imágenes
correspondientes a dichos fonemas de dichas secciones, que se
cambian de manera que coincidan con dichas secciones.
De acuerdo con un duodécimo aspecto del presente
invento, se consiguen los anteriores objetos proporcionando para
ello un medio de almacenamiento que almacena un programa de acuerdo
con cualquiera de los aspectos del octavo al duodécimo.
De acuerdo con un décimotercer aspecto del
presente invento, se consiguen los anteriores objetos proporcionando
para ello un dispositivo de análisis de la voz que incluye: una
unidad de descomposición de la frecuencia que halla n datos de
componentes de la frecuencia extraídos de una señal de voz contenida
en n márgenes de tiempo de longitudes previamente establecidas,
repitiendo para ello n veces (donde n es un número natural de al
menos 6), a intervalos previamente establecidos, para especificar un
punto en el tiempo en una señal de voz de entrada, extraer una
señal de voz contenida en un margen de tiempo de la longitud
previamente establecida desde dicho punto en el tiempo, y
descomponer dicha señal de voz extraída: en datos componentes de la
frecuencia; una unidad de cálculo del grado de cambio que halla
(n-1) correlaciones a partir de dichos n datos de
componentes de la frecuencia, obteniendo para ello una correlación
i-ésima (donde i es un número natural de al menos 1 y no mayor que
(n-1) en base al elemento i-ésimo de dichos datos de
componentes de la frecuencia y al elemento (i + 1)-ésimo de dichos
datos de componentes de la frecuencia correspondientes a dicha señal
de voz contenida en márgenes de tiempo mutuamente adyacentes de
dicha longitud previamente establecida, y que halla
(n-2) de dichos grados de cambio a partir de las
citadas (n-1) correlaciones, hallando para ello el
grado de cambio k-ésimo basado en la correlación k-ésima y en dicha
correlación (k + 1)-ésima (donde k es un número natural de al menos
1 y no mayor que (n-2)); y una unidad de
determinación de segmentos que halla un número definido, estando
definido el número m como el número que especifica el grado de
cambio que es mayor que el grado de cambio adyacente al grado de
cambio especificado en los (n-2) grados de cambio
desde el primero hasta el (n-2)-ésimo, es decir, el
número m definido que satisface la condición de que el grado de
cambio m-ésimo es mayor que el grado de cambio
(m-1)-ésimo y es mayor que el grado de cambio (m +
1)-ésimo cuando se cambia m de uno en uno desde 2 hasta
(n-3), que especifica un margen de tiempo de dicha
longitud previamente establecida de acuerdo con el número m
definido, y que divide dicha señal de voz de entrada en una
pluralidad de secciones de acuerdo con dichos márgenes de tiempo
especificados.
De acuerdo con un décimocuarto aspecto del
presente invento, se consiguen los anteriores aspectos
proporcionando para ello un dispositivo de generación de imágenes
de animación que incluye: una unidad de descomposición en
frecuencias que haya n datos de componentes de la frecuencia
extraídos de una señal de voz contenida en n márgenes de tiempo de
longitud previamente establecida, repitiendo para ello n veces
(donde n es un número natural de al menos 6), a intervalos
previamente establecidos, para especificar un punto en el tiempo en
una señal de voz de entrada, para extraer una señal de voz
contenida en un margen de tiempo de la longitud previamente
establecida desde dicho punto en el tiempo, y para descomponer dicha
señal de voz extraída en datos de componentes de la frecuencia; una
unidad de cálculo del grado de cambio que halla
(n-1) correlaciones a partir de n de dichos datos
de componentes de la frecuencia, obteniendo para ello la correlación
i-ésima (donde i es un número natural de al menos 1 y no mayor que
(n-1)), basado en el elemento i-ésimo de dichos
datos de componente de la frecuencia y en el elemento (i + 1)-ésimo
de dichos datos de componente de la frecuencia correspondientes a
dicha señal de voz contenida en márgenes de tiempo mutuamente
adyacentes de dicha longitud previamente establecida, y que halla
((n-2) de dichos grados de cambio a partir de las
mencionadas (n-1) correlaciones, hallando para ello
el grado k-ésimo de cambio basado en la correlación k-ésima y en
dicha correlación (k + 1)-ésima (donde k es un número natural de al
menos 1 y no mayor que (n-2)); una unidad de
determinación de segmentos que halla un número definido, estando
definido el número m definido como el número que especifica el grado
de cambio que es mayor que dos grados de cambio adyacentes al grado
de cambio especificado en los (n-2) grados de cambio
desde el primero hasta el (n-2)-ésimo, es decir, el
número m definido que satisface la condición de que el grado
m-ésimo de cambio es mayor que el grado (m-1)-ésimo
de cambio, y es mayor que el grado de cambio (m + 1)-ésimo cuando
se cambia m de uno en uno desde 2 hasta (n-3), que
especifica un margen de tiempo de dicha magnitud previamente
establecida de acuerdo con el número m definido y que divide dicha
señal de voz de entrada en una pluralidad de secciones, de acuerdo
con dichos márgenes de tiempo especificados; una unidad de
extracción de fonemas que especifica los citados fonemas de dichas
secciones, calculando para ello las cantidades características para
cada sección de la señal de voz dividida y comparando los datos de
referencia de cada uno de dichos fonemas y dichas cantidades
características; y una unidad de presentación de animación que
presenta imágenes correspondientes a dichos fonemas de dichas
secciones, siendo cambiadas esas imágenes de manera que se hagan
coincidir con dichas secciones.
Empleando el presente invento, se puede
conseguir un procesado ágil del análisis de la voz en tiempo real,
simplemente preparando para ello de antemano los resultados del
análisis de la voz de entrada de una pluralidad de sujetos como
datos de referencia, sin necesidad de preparar patrones de
referencia para cada locutor. También, puesto que no se requiere
una operación de registro de patrones de referencia para cada
locutor, y solamente se ha de preparar una vez el patrón de
referencia, se puede hacer frente a un número indefinidamente grande
de locutores. Además, puesto que no se requiere una base de datos
para almacenar los patrones de referencia de cada locutor, es
posible la instalación incluso en un aparato de una pequeña
capacidad de almacenamiento.
La Fig. 1 es un diagrama bloque de una
disposición de un dispositivo de generación de imágenes de acuerdo
con una realización del presente invento;
La Fig. 2 es un diagrama bloque de una
disposición de una unidad de análisis de la voz (dispositivo de
análisis de la voz) de acuerdo con el presente invento;
La Fig. 3 es un organigrama en el que se da una
explicación del procesado en un dispositivo de generación de
imágenes de acuerdo con una realización del presente invento;
La Fig. 4 es una vista que se da como
explicación de la división en páginas del paso S2 de la Fig. 3;
La Fig. 5 es una vista en la que se ha
representado la relación de la frecuencia y la amplitud cuando se
lleva a cabo el análisis de los componentes de la frecuencia del
paso S2 de la Fig. 3;
La Fig. 6 es una vista en la que se han
representado los resultados de la descomposición de la frecuencia
con respecto a una pluralidad de páginas;
La Fig. 7 es una vista en la que se ha
representado cómo se lleva a cabo el cálculo de la correlación entre
páginas adyacentes;
La Fig. 8 es una vista en la que se ha
representado la relación entre un parámetro ligado a la página y la
diferencia S(y) de correlación;
La Fig. 9 es una vista que se da como
explicación de la descomposición de la frecuencia para cada
segmento; y
La Fig. 10 es una vista que se da como
explicación de la animación correspondiente a los fonemas.
En lo que sigue se describen realizaciones del
presente invento con referencia a los dibujos. Sin embargo, el
alcance técnico del presente invento se expone en las
reivindicaciones de la patente.
La Fig. 1 es un diagrama bloque de la
distribución de un dispositivo de generación de imágenes de acuerdo
con una realización del presente invento. Es éste un dispositivo de
generación de animación en sincronismo con los labios que genera
una animación correspondiente a la voz de entrada. Un dispositivo de
generación de imágenes de acuerdo con esta realización incluye como
una unidad de análisis de la voz 1 un dispositivo de análisis de la
voz de acuerdo con el presente invento y, además, que tiene una CPU
2, una RAM (Memoria de Acceso Directo) de trabajo 3, una unidad de
cálculo de la geometría 4, un restituidor 5, una unidad de
generación de textura 6, una RAM de textura 7, una unidad de
presentación 8, y una memoria intermedia de cuadros 9. Estas
unidades principales se implementan por medio de un programa que se
ejecuta mediante la CPU (Unidad de Procesado Central) 2 que se ha
previsto en el dispositivo de generación de imágenes, pero también
podrían ser implementadas usando equipo físico.
La CPU 2 controla un programa que genera una
imagen. Los programas o datos usados por la CPU 2 son almacenados
en la RAM de trabajo 3. La unidad de análisis de la voz 1 analiza la
voz de entrada para extraer fonemas incluidos en la voz de entrada
y da salida a información de temporización para determinar el tiempo
de la presentación de una imagen correspondiente a cada fonema.
Bajo el control de la CPU 2, la unidad 4 de
cálculo de la geometría lee y da entrada a datos poligonales que
componen datos del objeto tridimensional en un sistema de
coordenadas universal de la RAM de trabajo 3. A continuación lleva
a cabo la transformación de las coordenadas en datos de un sistema
de coordenadas de punto de vista cuyo origen es el punto de vista.
Los datos poligonales que son procesados por la unidad 4 de cálculo
de la geometría son dados de entrada al restituidor 5, donde los
datos de las unidades poligonales son convertidos en datos de
unidades de píxeles.
Los datos de unidades de píxeles son dados de
entrada a la unidad 6 de generación de textura, donde se genera el
color de la textura en unidades de píxeles, basadas en los datos de
textura almacenados en la RAM de textura 7. La unidad de
presentación 8 efectúa un procesado de eliminación de cara oculta
y/o de la ocultación que se requiera de los datos de imágenes
procedentes de la unidad 6 de generación de textura, y luego escribe
los datos en la memoria intermedia de cuadros 9, al tiempo que los
convierte en coordenadas bidimensionales. Los datos que son
escritos en la memoria intermedia de cuadros 9 son leídos
repetidamente y convertidos en una señal de vídeo a la que se da
salida. De este modo, las imágenes correspondientes a los
respectivos fonemas son cambiadas y presentadas en una pantalla de
presentación, por ejemplo, no representada, de acuerdo con la
información de temporización. El bloque funcional distinto al de la
unidad de análisis de la voz 1 en la Fig. 1, es una unidad de
presentación de animación para presentar la animación.
La Fig. 2 es un diagrama bloque de la
disposición de una unidad de análisis de la voz (dispositivo de
análisis de la voz) de acuerdo con el presente invento. La unidad
de análisis de la voz 1 tiene una unidad de entrada 11, la unidad
de conversión de AD (Analógico a Digital) 12, la unidad d
descomposición en frecuencias 13, la unidad de cálculo del grado de
cambio 14, la unidad de determinación de segmentos 15, la unidad de
extracción de fonemas 16, y la unidad de almacenamiento 17. Estas
unidades funcionales se realizan por medio de un programa que se
ejecuta en la CPU (Unidad de Procesado Central) pero también podrían
ser ejecutadas usando equipo físico. También, en relación con la
CPU, si se ha incluido una CPU en la unidad de análisis de la voz 1,
se puede emplear la CPU, no representada, incluida en esa unidad de
análisis de la voz 1, o bien se puede emplear también una CPU
externa (por ejemplo, la CPU 2 de la Fig. 1).
La unidad de entrada 11 es una interfaz a la
cual se da entrada de la voz. La entrada de la voz a la unidad de
análisis de la voz 1 se efectúa, por ejemplo, por medio de una señal
de entrada procedente de un micrófono, o bien por la señal de
salida de un aparato de audio conectado mediante un cable de audio.
En este caso, la unidad de entrada 11 tiene respectivos terminales
de entrada para un micrófono o para una conexión de audio por
cable. También se puede dar entrada a la voz por medio de datos
digitales, tales como un archivo de ondas o un archivo de MP3
(MPEG-1 Capa de Audio 3). En este caso, la unidad de
entrada 11 está provista de una interfaz de conexión para la
transferencia de datos (por ejemplo, una interfaz de USB (Bus en
Serie Universal), una interfaz en paralelo, una interfaz del IEEE
(Instituto de Ingenieros Eléctricos y Electrónicos de los EE.UU.)
1394, o un bus interno.
Si los datos de voz de entrada son una señal
analógica, ésta se convierte en datos digitales por medio de una
unidad 12 de conversión de analógico/digital (AD). Los datos de voz
obtenidos mediante este proceso de conversión digital son asociados
con datos en serie del tiempo, con una amplitud en un tiempo dado, y
son dados de entrada a una unidad 13 de descomposición en
frecuencias. La unidad 13 de descomposición en frecuencias recorta
los sucesivos márgenes de tiempo desplazados (las denominadas
páginas) de longitud previamente establecida, divide los datos de
voz en una pluralidad de páginas, y analiza los componentes de la
frecuencia de cada una de las páginas (usando, por ejemplo, una
transformada de Fourier discreta). También se puede denominar a las
páginas como cuadros o como cuadros de voz.
Los datos de componentes de la frecuencia para
cada página son dados de entrada a la unidad 14 de cálculo del
cambio de grado, en donde se calcula el grado de cambio, basado en
la correlación (el método de cálculo del mismo se describirá más
adelante) entre páginas adyacentes. El grado de cambio calculado se
da de entrada a la unidad 15 de determinación de segmentos, donde
se especifican los segmentos, que forman intervalos para la
extracción de fonemas, en términos de su correlación. Estos se han
especificado como grupos de páginas cuyos límites de segmento (más
concretamente, sus posiciones de partida) son adyacentes. La unidad
16 de extracción de fonemas extrae después los fonemas, para cada
segmento que haya sido así determinado, por coincidencia con los
datos de referencia almacenados en la unidad de almacenamiento 17.
Puesto que los límites del segmento se han especificado como
números de página, cuando se determina un segmento, se efectúa la
información de temporización de la temporización con la cual cambia
el fonema, o en otras palabras, se obtiene con ello la información
de temporización para determinar el tiempo para el que se haya de
presentar una imagen correspondiente a cada fonema.
Los datos de referencia almacenados en la unidad
de almacenamiento 17 son datos de referencia obtenidos por promedio
de los resultados obtenidos mediante el análisis de antemano de las
voces de una pluralidad de sujetos, de acuerdo con el procedimiento
por el cual se analiza la voz de entrada. Por consiguiente, la
unidad 1 de análisis de la voz extrae los fonemas contenidos en la
voz de entrada y da salida a la información de temporización para
determinar los tiempos para los cuales hayan de presentarse las
imágenes correspondientes a los fonemas.
La Fig. 3 es un organigrama que se da como
explicación del procesado en un dispositivo de generación de
imágenes de acuerdo con una realización del presente invento.
También, de la Fig. 4 a la Fig. 10 son vistas que se dan como
explicación de los pasos del organigrama de la Fig. 3. La Fig. 3 se
describirá con referencia a éstos, como sea apropiado.
En primer lugar, se efectúa (S1) la conversión
de analógico/digital (AD) de la voz de entrada. Esto se realiza
dando entrada a la voz que fue dada de entrada a través de la unidad
de entrada 11 a la unidad de conversión de AD 12, donde la señal
analógica que fue dada de entrada desde, por ejemplo, un micrófono,
se convierte en datos digitales. Si la voz de entrada son datos
digitales, se omite el paso S1.
A continuación, la unidad 13 de descomposición
en frecuencias divide los datos de voz en una pluralidad de
páginas, recortando para ello los sucesivos márgenes de tiempo
desplazados (denominados páginas) de longitudes previamente
establecida, y analiza los componentes de la frecuencia de cada una
de las páginas (S2). La longitud previamente establecida es más
corta que el fonema más corto (aproximadamente 1/10 segundos=. Se ha
comprobado por la experiencia que se obtiene una precisión
suficiente si esa longitud previamente establecida es de una décima
parte del fonema más corto (es decir, de aproximadamente 1/100
segundos). Haciendo que la longitud previamente establecida sea más
corta que esa, simplemente se aumenta la cantidad de procesado, sin
ventaja alguna. La longitud previamente establecida se estableces
por lo tanto, preferiblemente, en aproximadamente de 1/10 a
1/100
segundos.
segundos.
La Fig. 4 es una vista que se da como
explicación de la división en páginas del paso S2 de la Fig. 3. La
forma de onda de la voz de entrada se ha representado mediante un
gráfico en el cual se toma el tiempo a lo largo del eje horizontal
y la amplitud a lo largo del eje vertical. Esta forma de onda se
divide en una pluralidad de páginas, tomando una página como un
margen de tiempo de longitud previamente establecida (en este caso,
de 1024 puntos, siendo un punto (1/44100) de segundo) partiendo del
punto en el tiempo de partida D (puntos en el tiempo de la entrada
de voz de partida), desplazando sucesivamente estas páginas en 441
puntos en cada caso.
Es de hacer notar que aunque en este caso la
longitud previamente establecida fue establecida en 1024 puntos,
ésta podría ser convenientemente alterada para tomar en
consideración, por ejemplo, la frecuencia de muestreo de la señal
de voz o la velocidad de la dicción del locutor. También, aunque en
este caso existen partes que se solapan en los márgenes de tiempo,
dado que el tiempo de desplazamiento es más corto que el margen de
tiempo de la longitud previamente establecida, se podría tomar un
margen de tiempo de longitud previamente establecida tal que no
hubiera partes que se solapasen.
La Fig. 5 es una vista en la que se ha
representado la relación de la frecuencia y la amplitud cuando se
lleva a cabo el análisis de los componentes de la frecuencia del
paso S2 de la Fig. 3. Esta es una vista obtenida llevando a cabo la
transformación de Fourier discreta en N puntos en la forma de onda
contenida en cada página de la Fig. 4. Concretamente, si la
amplitud de un punto N en la página m viene representada por
{x(m,k) | k = 0...N-1}, la transformación
de Fourier discreta viene expresada por la siguiente ecuación
(A)
donde
\vskip1.000000\baselineskip
Puesto que ésta es simétrica alrededor del eje
de la amplitud (véase la Fig. 5), es suficiente emplear solamente
la región positiva de la frecuencia.
La Fig. 6 es una vista en la que se han
representado los resultados de la descomposición en frecuencias con
respecto a una pluralidad de páginas. En la Fig. 6, para
simplificar, los gráficos de componentes de la frecuencia de la
misma forma se han dispuesto lado a lado, pero, de hecho, los
gráficos de componentes de la frecuencia cambiarán para cada
página, ya que la forma de onda de la voz de entrada difiere
dependiendo del tiempo transcurrido.
La unidad 14 de cálculo del grado de cambio
calcula entonces en primer lugar, usando la siguiente ecuación (B),
la correlación entre páginas adyacentes (S3).
La forma en que se calcula la correlación y el
significado de la ecuación (B) se describirán usando la Fig. 7.
La Fig. 7 es una vista en la que se ha
representado como se realiza el cálculo de la correlación entre
páginas adyacentes. La Fig. 7 es un ejemplo del cálculo de la
correlación de, por ejemplo, la página m y la página (m + 1) (es
decir, en el caso de que sea x = m en la ecuación (B)) de las
páginas adyacentes representadas en la Fig. 6. Se halla la
correlación tomando la suma para N puntos de los valores obtenidos
multiplicando las amplitudes correspondientes a la misma componente
de la frecuencia en cada una de las páginas. En la Fig. 7, en
primer lugar se multiplica la amplitud A (m,k) de la página m por la
amplitud A (m + 1, k) de la página (m + 1) correspondiente a la
misma componente de la frecuencia k. Se calcula la correlación de la
página m y la página (m + 1) tomando para ello la suma mientras se
cambia k desde 0 hasta N-1.
\newpage
La unidad 14 de cálculo del grado de cambio
promedia entonces la correlación hallada por la ecuación (B) usando
la siguiente ecuación (C), con objeto de eliminar el ruido (S4).
Cuanto menor sea el cambio en la forma del
gráfico de los componentes de la frecuencia cuando cambia la página,
tanto menor será el cambio en el valor de la correlación
Q(x) hallado mediante la ecuación (C). A la inversa, cuando
cambia la forma del gráfico del componente de la frecuencia, hay un
gran cambio en el valor de la correlación Q(x), comparada
con la correlación de las páginas adyacentes y subsiguientes. Por
consiguiente, las páginas en las que tenga lugar un cambio del
gráfico de los componentes de la frecuencia se pueden tomar como que
definen las posiciones de los límites de nuevos fonemas (es decir,
límites de segmentos). Tomando la diferencia entre correlaciones
como el grado de cambio, se puede por lo tanto definir un segmento
especificando para ello páginas adyacentes que satisfagan la
condición de que el grado de cambio en ellas, comparado con los
grados de cambio anterior y siguiente, sea mayor que estos dos (S5).
En el paso S5, la unidad 15 de determinación de segmentos
especifica las páginas adyacentes que satisfacen la condición dada
en lo que antecede, de la función diferencia de las correlaciones.
Para este fin se emplea la correlación Q(x) de la cual ha
sido eliminado el ruido. A continuación se continuará la
descripción usando la Fig. 8. El grado de cambio, es decir, la
diferencia de correlaciones, puede expresarse mediante S(y)
= Q(y + 1)-Q(y).
La Fig. 8 es una vista en la que se ha ilustrado
la relación entre un parámetro ligado a la página y la diferencia
S(y) de correlación. La que se entiende por S(1),
correspondiente al parámetro ligado a la página y = 1, es un valor
obtenido por resta de las correlaciones (Q(1)) de la primera
página y la segunda página adyacentes de la correlación
(Q(2)) de la segunda y la tercera páginas adyacentes. Aunque
una página no puede ser especificada directamente por el parámetro
ligado a la página, se especifica con éste un grupo de páginas
adyacentes que especifican un límite de segmento.
Se especifican entonces grupos de páginas
adyacentes correspondientes a números naturales y, para los cuales
ese grado de cambio s(y) satisface la relación
s(y-1) < S(y) y S(y + 1)<
<S(y) como posiciones de partida de fonemas. Como se ha
descrito en lo que antecede, la forma de onda de una voz de entrada
cambia considerablemente en las posiciones de cambio de fonema, de
modo que las posiciones que presenten acusados cambios indican las
posiciones de partida de nuevos fonemas. En el caso de la Fig. 8,
hay cuatro lugares en los que el número natural y satisface las
relaciones S/y-1) < S(y), y S(y +
1) < S(y) (habiéndose designado estas, respectivamente,
como los parámetros ligados a la página y_{1}, y_{2}, y_{3} e
y_{4}), de modo que se extraen cuatro fonemas desde el primer
segmento hasta el cuarto segmento.
El parámetro y_{1} ligado a la página indica
la página de partida del segmento hasta la página y_{1}, o bien
la página y_{1} + 1. No importa cual de estas sea la que se use.
Sin embargo, en la señal de voz que está siendo analizada, éstas se
tratan como siendo la misma. Esto mismo es de aplicación a otros
parámetros ligados a páginas, que especifiquen las posiciones de
partida de los segmentos. A continuación, la unidad 16 de
extracción de fonemas calcula una cantidad característica para cada
segmento determinado en el paso S5 (S6). Por ejemplo, un método
típico de cálculo de las propiedades características ordinarias es
la técnica de descomponer la voz de entrada en componentes de la
frecuencia en cada segmento, efectuando la transformación de
Fourier inversa y efectuando luego un análisis "cepstrum". Un
ejemplo del mismo es el de descomponer la voz de entrada en
componentes de la frecuencia para cada segmento, y usar la amplitud
de esos componentes de la frecuencia como cantidades
características. Si el segmento y la página coinciden, se pueden
emplear los resultados de la descomposición en frecuencias para
cada página, hallados en el paso S2.
La Fig. 9 es una vista que se da como
explicación de la descomposición en frecuencias para cada segmento.
Esta ilustra como se calculan los componentes de la frecuencia
mediante una transformada de Fourier discreta de punto N para cada
segmento. Para simplificar, en la Fig. 9 los gráficos de componentes
de la frecuencia de la misma forma, se han dispuesto lado a lado
pero, de hecho, los gráficos de componentes de la frecuencia
cambiarán para cada página, ya que la forma de onda de la voz de
entrada difiere, dependiendo del tiempo transcurrido.
A continuación, se extraen los fonemas por
coincidencia con los datos de referencia (S7). Como datos de
referencia, se emplean datos obtenidos promediando los resultados
de ejecutar el procedimiento desde el anterior paso S1 hasta S6 con
respecto a una pluralidad de sujetos de antemano. Una vez que hayan
sido creados tales datos de referencia, y almacenados en la unidad
de almacenamiento 17, se puede conseguir la extracción de fonemas
estable con independencia de los cambios de usuario subsiguientes;
en particular, es posible la aplicación a un número indefinidamente
grande de usuarios. En relación con el método de la coincidencia, se
pueden aplicar técnicas bien conocidas, tales como las de
coincidencia de DP.
Por medio del procesado desde el anterior paso
S1 hasta S7, se pueden especificar los segmentos y fonemas y las
páginas de los límites de los segmentos contenidos en la voz de
entrada. También, si se especifican las páginas de los límites de
los segmentos, en la presente realización, se completa también la
extracción de información de temporización, ya que la conversión a
un punto en el tiempo puede conseguirse usando {el punto en el
tiempo de partida D + producto de 441 puntos y (página de límite de
segmento-1)}. Se presenta entonces la animación
correspondiente al fonema, de acuerdo con la disposición descrita en
la Fig. 1, usando el fonema y la información de temporización que
se tiene de salida desde la unidad 1 de análisis de la voz (S8).
La Fig. 10 es una vista que se da como
explicación de la animación correspondiente a fonemas. Suponiendo
que, por ejemplo, se hayan seleccionado archivos como los fonemas
extraídos y se hayan almacenado datos de referencia para cada vocal
en la unidad de almacenamiento 17, si se almacenan los datos
correspondientes a la animación para cada vocal representada en la
Fig. 10 en la RAM de trabajo 3, se puede presentar la animación
correspondiente a cada vocal contenida en la voz de entrada, usando
para ello el dispositivo de generación de imágenes de la Fig.1. Por
ejemplo, se pueden presentar las imágenes correspondientes a cada
vocal por asociación de la imagen "a" de la Fig. 10 con la
vocal "a", y la asociación de la imagen "i" de la Fig. 10
con la vocal "i".
Como se ha descrito en lo que antecede, con esta
realización del presente invento se puede conseguir un procesado
ágil de análisis de la voz en tiempo real, simplemente preparando
para ello de antemano los resultados del análisis de la voz de
entrada de una pluralidad de sujetos como datos de referencia, sin
necesidad de preparar patrones de referencia para cada locutor.
También, puesto que no se requiere una operación de registro de
patrones de referencia para cada locutor y solamente se ha de
preparar el patrón de referencia una vez, se puede hacer frente a
un número indefinidamente grande de locutores. Además, puesto que no
se requiere una base de datos para almacenar los patrones de
referencia de cada locutor, es posible la instalación incluso en un
aparato de pequeña capacidad de almacenamiento.
Como ejemplos de posibles aplicaciones se
incluyen la animación para salas de de charla en línea, la animación
en juegos de vídeo (en particular, juegos de vídeo que sean jugados
en el modo de conversación, o bien juegos en los que se desempeñe
un papel), o bien en sistemas de recepción de funcionamiento
automático, empleados en hospitales o en instituciones financieras.
etc.
Es de hacer notar que, aunque en esta
realización se ha descrito un método que fue puesto en práctica como
un dispositivo de generación de imágenes, también se podría poner
en práctica como un método o programa procesado de acuerdo con el
organigrama representado en la Fig. 3. Además, aunque en esta
realización se ha descrito un método que fue puesto en práctica
como un dispositivo de generación de imágenes, también sería posible
la aplicación, por ejemplo, a un dispositivo de conversión de
voz/letras, con el que se presentan las letras correspondientes a
fonemas. En este caso, el bloque funcional que presenta la animación
en la disposición de la Fig. 1 (bloque funcional distinto al de la
unidad 1 de análisis de la voz de la Fig. 1) está sustituido por un
bloque funcional que presenta letras, y que puede cambiar el paso S8
(organigrama de la Fig. 3) mediante el cual se presenta animación,
de modo que se presenten letras. También, aunque, en esta
realización, se ha descrito un método de ejecución como un
dispositivo de generación de imágenes que incluye una unidad 1 de
análisis de la voz, también sería posible la realización de la
unidad de análisis de la voz como un dispositivo independiente
(dispositivo de análisis de la voz). En este caso, se prescinde del
paso S8 del organigrama representado en la Fig. 3, y se hace uso
del fonema o información de temporización a la que se da salida
desde el dispositivo de análisis de la voz, mediante el procesado
en un dispositivo separado que está conectado al mismo.
Claims (14)
1. Un método ejecutable en ordenador de análisis
de la voz que detecta los límites de fonemas a partir de una señal
de voz de entrada, que comprende:
un primer paso que especifica un punto en el
tiempo en dicha señal de voz de entrada;
un segundo paso de extracción de la señal de voz
contenida en un margen de tiempo de una longitud previamente
establecida desde dicho punto en el tiempo; y
un tercer paso de descomposición de dicha señal
de voz extraída en datos de componentes de la frecuencia, en que
se hallan n datos de componentes de la
frecuencia extraídos de la señal de voz contenida en n márgenes de
tiempo de dicha longitud previamente establecida, repitiendo para
ello dichos pasos primero, segundo y tercero n veces, donde n es un
número natural de al menos 6 para cada tiempo previamente
establecido;
se hallan (n-1) correlaciones a
partir de n de dichos datos de componentes de la frecuencia mediante
la obtención de la correlación i-ésima, donde i es un número
natural de al menos 1 y no mayor que (n-1), basado
en el elemento i-ésimo de dichos datos de componentes de la
frecuencia y en el elemento (i + 1)-ésimo de dichos datos de
componentes de la frecuencia correspondientes a dicha señal de voz
contenida en márgenes de tiempo mutuamente adyacentes de dicha
longitud previamente establecido;
se hallan (n-2) diferencias
entre correlaciones a partir de las (n-1) de dichas
correlaciones, hallando para ello la diferencia k-ésima entre
correlaciones basada en la correlación k-ésima y en dicha
correlación (k + 1)-ésima, donde k es un número natural de al menos
1 y no mayor que (n-2);
cuando m está definido como el número que
especifica la diferencia entre correlaciones que es mayor que dos
diferencias entre correlaciones adyacentes que la diferencia entre
correlaciones especificadas en las (n-2)
diferencias entre correlaciones desde la primera hasta la
(n-2)-ésima, se halla el número m definido, es decir
el m que satisface la condición de que la diferencia m-ésima entre
correlaciones es mayor que la diferencia (m-1)ésima
entre correlaciones y es mayor que la diferencia (m + 1)-ésima entre
correlaciones cuando se cambia m de uno en uno desde 2 hasta
(n-3);
se especifica un margen de tiempo de dicha
longitud previamente establecida de acuerdo con el número m
definido; y
se divide dicha señal de voz de entrada en una
pluralidad de secciones de acuerdo con dichos márgenes de tiempo
especificados.
2. El método de análisis de la voz de acuerdo
con la reivindicación 1, que comprende además:
calcular las cantidades características para
cada sección de dichas señales de voz divididas; y
especificar dichos fonemas de dichas secciones,
comparando para ello dichas cantidades características con datos de
referencia para cada uno de dichos fonemas.
3. El método de análisis de la voz de acuerdo
con la reivindicación 1,
en el que el tiempo previamente establecido es
desplazado para el margen de tiempo de dicha longitud previamente
establecido para formar partes que se solapan mutuamente.
4. El método de análisis de la voz de acuerdo
con la reivindicación 1,
en el que dicha correlación es un valor obtenido
sumando los productos de las amplitudes correspondientes a los
mismos componentes de la frecuencia,
5. El método de análisis de la voz de acuerdo
con la reivindicación 1,
en el que dichos datos de componentes de la
frecuencia se hallan mediante la transformación de Fourier de
componentes de la frecuencia de dicha señal de voz extraída.
6. El método de análisis de la voz de acuerdo
con la reivindicación 2,
en el que dichas cantidades características se
determinan de acuerdo con la amplitud de cada componente de la
frecuencia obtenida por transformación de Fourier de dicha señal de
voz contenida en la sección de dicha señal de voz dividida.
7. El método de análisis de la voz de acuerdo
con la reivindicación 2,
en el que se presentan las imágenes de animación
correspondientes a dichos fonemas de dichas secciones, siendo
cambiadas de manera que coincidan con dichas secciones.
8. Un programa de análisis de la voz que cuando
se corre en un ordenador que comprende una CPU, hace que la CPU
realice cada uno de los pasos de un método de acuerdo con la
reivindicación 1.
9. El programa de análisis de la voz de acuerdo
con la reivindicación 8, que hace además que la CPU ejecute:
el cálculo de las cantidades características
para cada sección de las señales de voz divididas; y
la especificación de dichos fonemas de dichas
secciones por comparación de dichas cantidades características con
datos de referencia para cada uno de dichos fonemas.
10. El programa de análisis de la voz de acuerdo
con la reivindicación 9,
en el que el tiempo previamente establecido es
desplazado en el margen de tiempo de dicha longitud previamente
establecida para formar partes que se solapan mutuamente;
dicha correlación es un valor obtenido sumando
los productos de las amplitudes correspondientes a las mismas
componentes de la frecuencia;
dichos datos de componentes de la frecuencia se
hallan mediante la transformación de Fourier de dichas componentes
de la frecuencia extraídas de la señal de voz; y
dichas cantidades características se determinan
de acuerdo con la amplitud de cada componente de la frecuencia
obtenida por transformación de Fourier de dicha señal de voz
contenida en la sección de dicha señal de voz dividida.
11. El programa de análisis de la voz de acuerdo
con la reivindicación 9,
en el que se presentan las imágenes de animación
correspondientes a dichos fonemas de dichas secciones, siendo
cambiadas de manera que coincidan con dichas secciones.
12. Un medio de almacenamiento que almacena un
programa de acuerdo con cualquiera de la reivindicación 8 a la
reivindicación 11.
13. Un dispositivo de análisis de la voz que
comprende:
una unidad de descomposición en frecuencias (13)
que halla n datos de componentes de la frecuencia extraídos de una
señal de voz contenida en n márgenes de tiempo de longitud
previamente establecida, repitiendo para ello n veces (donde n es
un número natural de al menos 6), a intervalos previamente
establecidos, especificando para ello un punto en el tiempo en una
señal de voz de entrada por extracción de una señal de voz contenida
en un margen de tiempo de la longitud previamente establecida desde
dicho punto en el tiempo, y por descomposición de dicha señal de
voz extraída en datos de componentes de la frecuencia;
una unidad (14) de cálculo del grado de cambio
que halla (n-1) correlaciones a partir de n de
dichos datos de componentes de la frecuencia mediante la obtención
de la correlación i-ésima, donde i es un número natural de al menos
1 y no mayor que (n-1), basado en el elemento
i-ésimo de dichos datos de componentes de la frecuencia y en el
elemento (i + 1)-ésimo de dichos datos de componentes de la
frecuencia correspondientes a dicha señal de voz contenida en
márgenes de tiempo mutuamente adyacentes de dicha longitud
previamente establecida, y que halla (n-2)
diferencias entre correlaciones de las (n-1)
correlaciones citadas, hallando para ello la k-ésima diferencia
entre correlaciones, basada en la correlación k-ésima y en la citada
(k + 1)-ésima correlación, siendo k un número natural de al menos 1
y no mayor que (n-2); y
una unidad (15) de determinación de segmentos
que halla un número definido, siendo el número definido m el
definido como el número que especifica la diferencia entre
correlaciones que es mayor que las dos diferencias entre
correlaciones adyacentes a la diferencia entre correlaciones
especificada en las (n-2) diferencias entre
correlaciones desde la primera hasta la (n-2)-ésima,
a saber, el número m definido que satisface la condición de que la
m-ésima diferencia entre correlaciones es mayor que la
(m-1)-ésima diferencia entre correlaciones y es
mayor que la (m + 1)-ésima diferencia entre correlaciones, cuando se
cambia m de uno en uno desde 2 hasta (n-3), que
especifica un margen de tiempo de dicha longitud previamente
establecida, de acuerdo con el número m definido, y que divide
dicha señal de voz de entrada en una pluralidad de secciones de
acuerdo con dichos márgenes de tiempo especificados.
14. Un dispositivo de generación de imágenes de
animación con un dispositivo de análisis de la voz de acuerdo con la
reivindicación 13, que comprende además:
\newpage
una unidad (16) de extracción de fonemas, que
especifica los citados fonemas de dichas secciones mediante el
cálculo de las cantidades características para cada sección de la
señal de voz dividida y la comparación de los datos de referencia
de cada uno de dichos fonemas y dichas cantidades características;
y
una unidad (8) de presentación de la animación
que presenta imágenes correspondientes a dichos fonemas de dichas
secciones, siendo esas imágenes cambiadas de manera que coincidan
con dichas secciones.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004-51998 | 2004-02-26 | ||
JP2004051998A JP4792703B2 (ja) | 2004-02-26 | 2004-02-26 | 音声解析装置、音声解析方法及び音声解析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2284133T3 true ES2284133T3 (es) | 2007-11-01 |
Family
ID=34747518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05250981T Active ES2284133T3 (es) | 2004-02-26 | 2005-02-22 | Segmentacion del habla. |
Country Status (6)
Country | Link |
---|---|
US (1) | US7680660B2 (es) |
EP (1) | EP1569201B1 (es) |
JP (1) | JP4792703B2 (es) |
CN (1) | CN1319042C (es) |
DE (1) | DE602005000896T2 (es) |
ES (1) | ES2284133T3 (es) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
EP2259610B1 (en) * | 2009-06-02 | 2012-08-08 | Vodafone Holding GmbH | Registering a mobile device in a mobile communication network |
US20110143768A1 (en) * | 2009-12-14 | 2011-06-16 | Lane Sean L | Methods and apparatus related to region-specific mobile device and infrastructure detection, analysis and display |
RU2445718C1 (ru) * | 2010-08-31 | 2012-03-20 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
WO2014066855A1 (en) * | 2012-10-26 | 2014-05-01 | The Regents Of The University Of California | Methods of decoding speech from brain activity data and devices for practicing the same |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
US10002543B2 (en) * | 2014-11-04 | 2018-06-19 | Knotbird LLC | System and methods for transforming language into interactive elements |
US10057681B2 (en) * | 2016-08-01 | 2018-08-21 | Bose Corporation | Entertainment audio processing |
TWI606390B (zh) * | 2016-09-23 | 2017-11-21 | 元鼎音訊股份有限公司 | 可自動調整聲音輸出之方法及電子裝置 |
JP6337362B1 (ja) * | 2017-11-02 | 2018-06-06 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、及び、認知機能評価システム |
CN108170710A (zh) * | 2017-11-28 | 2018-06-15 | 苏州市东皓计算机***工程有限公司 | 一种计算机声音识别*** |
CN108538308B (zh) * | 2018-01-09 | 2020-09-29 | 网易(杭州)网络有限公司 | 基于语音的口型和/或表情模拟方法及装置 |
JP6672380B2 (ja) * | 2018-05-29 | 2020-03-25 | 株式会社コロプラ | ゲームプログラム、キャラクタ制御プログラム、方法、および情報処理装置 |
CN109087629A (zh) * | 2018-08-24 | 2018-12-25 | 苏州玩友时代科技股份有限公司 | 一种基于语音识别的口型动画实现方法及装置 |
CN113112993B (zh) * | 2020-01-10 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
CN111540344B (zh) * | 2020-04-21 | 2022-01-21 | 北京字节跳动网络技术有限公司 | 声学网络模型训练方法、装置及电子设备 |
CN116129926B (zh) * | 2023-04-19 | 2023-06-09 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58148443A (ja) | 1982-03-01 | 1983-09-03 | Seiko Epson Corp | 半導体集積回路装置 |
JPS6136798A (ja) * | 1984-07-30 | 1986-02-21 | 松下電器産業株式会社 | 音声セグメンテ−シヨン法 |
JPS61100956A (ja) | 1984-10-22 | 1986-05-19 | Nec Corp | モノブリツド集積回路 |
NL8500377A (nl) | 1985-02-12 | 1986-09-01 | Philips Nv | Werkwijze en inrichting voor het segmenteren van spraak. |
JP2664136B2 (ja) * | 1985-08-30 | 1997-10-15 | 株式会社日立製作所 | 音声認識装置 |
JP2863818B2 (ja) * | 1990-08-31 | 1999-03-03 | 工業技術院長 | 動画像の変化点検出方法 |
JPH04263298A (ja) * | 1991-02-16 | 1992-09-18 | Nippon Sheet Glass Co Ltd | 音声認識装置 |
US5630017A (en) * | 1991-02-19 | 1997-05-13 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
JP3269162B2 (ja) | 1992-03-23 | 2002-03-25 | 日本電気株式会社 | エレクトロルミネッセンス表示パネル駆動回路 |
JPH0632007A (ja) | 1992-07-15 | 1994-02-08 | Sony Corp | リボンカートリッジ |
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
JP3081108B2 (ja) | 1994-08-11 | 2000-08-28 | 株式会社トレンディ | 話者分類処理装置及び方法 |
US6377918B1 (en) * | 1997-03-25 | 2002-04-23 | Qinetiq Limited | Speech analysis using multiple noise compensation |
JP2000100072A (ja) * | 1998-09-24 | 2000-04-07 | Sony Corp | 情報信号処理方法及び装置 |
JP2000324499A (ja) * | 1999-05-14 | 2000-11-24 | Fujitsu Ltd | 画像処理装置及びシーンチェンジ検出方法 |
JP2002108382A (ja) * | 2000-09-27 | 2002-04-10 | Sony Corp | リップシンクを行うアニメーション方法および装置 |
JP2002215180A (ja) | 2001-01-17 | 2002-07-31 | Digital Media Lab Inc | 通信装置 |
JP2003233389A (ja) | 2002-02-12 | 2003-08-22 | Yamaha Corp | アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法 |
-
2004
- 2004-02-26 JP JP2004051998A patent/JP4792703B2/ja not_active Expired - Lifetime
-
2005
- 2005-02-18 US US11/060,754 patent/US7680660B2/en not_active Expired - Fee Related
- 2005-02-22 ES ES05250981T patent/ES2284133T3/es active Active
- 2005-02-22 DE DE602005000896T patent/DE602005000896T2/de active Active
- 2005-02-22 EP EP05250981A patent/EP1569201B1/en not_active Expired - Fee Related
- 2005-02-25 CN CNB2005100510306A patent/CN1319042C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4792703B2 (ja) | 2011-10-12 |
US7680660B2 (en) | 2010-03-16 |
EP1569201A1 (en) | 2005-08-31 |
DE602005000896D1 (de) | 2007-05-31 |
JP2005241997A (ja) | 2005-09-08 |
CN1319042C (zh) | 2007-05-30 |
EP1569201B1 (en) | 2007-04-18 |
US20050192805A1 (en) | 2005-09-01 |
DE602005000896T2 (de) | 2008-01-17 |
CN1661675A (zh) | 2005-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2284133T3 (es) | Segmentacion del habla. | |
CN109377539B (zh) | 用于生成动画的方法和装置 | |
CN110136698B (zh) | 用于确定嘴型的方法、装置、设备和存储介质 | |
US10553201B2 (en) | Method and apparatus for speech synthesis | |
US9548048B1 (en) | On-the-fly speech learning and computer model generation using audio-visual synchronization | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
US8676574B2 (en) | Method for tone/intonation recognition using auditory attention cues | |
US20150073794A1 (en) | Speech syllable/vowel/phone boundary detection using auditory attention cues | |
CN108538308B (zh) | 基于语音的口型和/或表情模拟方法及装置 | |
CN113539240B (zh) | 动画生成方法、装置、电子设备和存储介质 | |
WO2020248388A1 (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
CN110047121B (zh) | 端到端的动画生成方法、装置及电子设备 | |
Naert et al. | Coarticulation analysis for sign language synthesis | |
CN113223123A (zh) | 图像处理方法和图像处理装置 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN114420097A (zh) | 语音定位方法、装置、计算机可读介质及电子设备 | |
CN113903361A (zh) | 基于人工智能的语音质检方法、装置、设备及存储介质 | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及*** | |
Abel et al. | A data driven approach to audiovisual speech mapping | |
CN114581570B (zh) | 一种三维脸部动作生成方法和*** | |
CN114363531B (zh) | 基于h5的文案解说视频生成方法、装置、设备以及介质 | |
CN115967781A (zh) | 视频特效显示方法、装置、电子设备及存储介质 | |
CN113362432B (zh) | 一种面部动画生成方法及装置 | |
Ji | Design and implementation of virtual host based on machine learning algorithm |