ES2245418T3 - Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz. - Google Patents

Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz.

Info

Publication number
ES2245418T3
ES2245418T3 ES02801278T ES02801278T ES2245418T3 ES 2245418 T3 ES2245418 T3 ES 2245418T3 ES 02801278 T ES02801278 T ES 02801278T ES 02801278 T ES02801278 T ES 02801278T ES 2245418 T3 ES2245418 T3 ES 2245418T3
Authority
ES
Spain
Prior art keywords
voice
temporary
training
model
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02801278T
Other languages
English (en)
Inventor
Bernhard Kammerer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2245418T3 publication Critical patent/ES2245418T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procedimiento para crear segmentos de referencia que describen módulos de voz a partir de señales de voz de entrenamiento pronunciadas para sistemas de reconocimiento de voz, con las siguientes etapas: - segmentación de la señal de voz de entrenamiento en módulos de voz correspondientes a una trascripción predeterminada, - análisis de la señal de entrenamiento en una cuadrícula temporal predeterminada con determinadas ventanas temporales para obtener al menos un vector característico para cada ventana temporal, de tal modo que se configuran modelos de entrenamiento que contienen en cada caso vectores característicos en la sucesión temporal de la señal de voz de entrenamiento, - determinación de una estructura temporal intermedia que es una manifestación intermedia de la duración de variación y de la sucesión temporal de las características de los módulos de voz, para cada uno de los módulos de voz con una secuencia de ventanas temporales, - asociación de los vectores característicos por medio de una reproducción temporal no lineal a las ventanas temporales de los módulos de voz y almacenamiento de los vectores característicos asociados en cada caso a un módulo de voz en la sucesión predeterminada por las ventanas temporales, como segmento de referencia.

Description

Procedimiento para la creación de segmentos de referencia que describen módulos de voz y procedimiento para la modelización de unidades de voz de un modelo de prueba de voz.
Procedimiento para la creación de segmentos de referencia que describen módulos de voz y procedimiento para la modelización de unidades de voz de un modelo de prueba de pronunciado.
La invención se refiere a un procedimiento para la creación de segmentos de referencia que describen módulos de voz y a un procedimiento para la modelización de unidades de voz de un modelo de prueba de voz en un sistema de reconocimiento de voz.
Anteriormente, los sistemas de reconocimiento de voz convencionales se basan en el principio de alineamiento temporal dinámico (Dynamic time Warping, DTW). En este caso, para cada palabra se almacena como modelo de referencia una sucesión completa de vectores característicos -obtenidos por una expresión de entrenamiento para esta palabra- y, en la fase operativa, se compara con un modelo de prueba de una señal de voz que va a reconocerse, por medio de una correspondencia no lineal. Con la comparación se determina la separación mínima entre el respectivo modelo de referencia y el modelo de prueba, y el modelo de referencia con la separación más pequeña con respecto al modelo de prueba se selecciona como el modelo de referencia que describe el modelo prueba adecuada-
mente.
En este procedimiento resulta desventajoso que deba establecerse un modelo de referencia para cada palabra que va a reconocerse, por lo que el libro de códigos que contiene los modelos de referencia es muy extenso y el esfuerzo de entrenar un sistema de reconocimiento de voz de este tipo, en el que para cada palabra se almacena un modelo de referencia, es consecuentemente muy grande. En este caso no es posible generar modelos de referencia para palabras que se desvían del vocabulario aprendido. Según esta publicación, se explican las características que representan los modelos de referencia, que se registran en cada caso para ventanas de análisis consecutivas con una separación de, por ejemplo, 10 ms mediante la función de autocorrelación, y que en lo sucesivo se indican como características de autocorrelación, y las características espectrales. Las características de autocorrelación describen la señal de voz contenida en la ventana de análisis en el intervalo temporal y las características espectrales, que se registran mediante una transformación de Fourier, describen las señales de voz en el intervalo de frecuencia. Además, se comentan algunas medidas de separación diferentes para determinar una separación entre dos vectores característicos. Para mejorar el reconocimiento independientemente del hablante, en este procedimiento conocido se crean para cada palabra varios modelos de referencia, determinándose los modelos de referencia de nuevo a partir de varias señales de entrenamiento. En este caso, se determinan tanto la estructura temporal del modelo de referencia completo como la estructura característica. Para la creación de grupos de modelos de referencia, que están asociados en cada caso a una palabra, y que presentan una estructura temporal determinada, los modelos de entrenamiento no lineales se reproducen sobre un modelo intermedio asociado a esta palabra o a esta clase de palabra, y después se realiza de forma separada un agrupamiento de los vectores característicos del modelo de entrenamiento y del modelo de referencia presente ya en la clase para cada ventana de análisis.
Con este procedimiento especial puede lograrse una tasa de reconocimiento muy buena, aunque está sujeto sin embargo a las desventajas ya mencionadas del procedimiento DTW.
Los sistemas de reconocimiento de voz más nuevos se basan en el procedimiento HMM (modelos ocultos de Markov). En este caso, en la fase de entrenamiento se recogen segmentos de voz (por ejemplo fonemas o sílabas) de muchas señales de voz de diferentes palabras y se dividen en nodos (por ejemplo un nodo por cada sonido inicial - intermedio - sonido final). Los vectores característicos que describen las señales de voz se asocian al nodo y se almacenan en un libro de códigos.
Durante el reconocimiento de voz, el modelo de prueba se reproduce mediante una reproducción no lineal (por ejemplo con ayuda del algoritmo de Viterbi) en una sucesión de nodos definida por la trascripción (por ejemplo una descripción fonética) de la palabra. Puesto que los nodos sólo describen segmentos de palabra, pueden crearse modelos de referencia mediante el enlace de nodos o segmentos para prácticamente cualquier palabra de una lengua. Puesto que en una lengua generalmente hay claramente menos fonemas o sílabas que palabras, la cantidad de nodos es esencialmente menor que la cantidad de modelos de referencia que describen palabras completas que deben almacenarse en el procedimiento DTW. Por esto, el esfuerzo de entrenamiento del sistema de reconocimiento de voz se reduce notablemente con respecto al procedimiento DTW.
Sin embargo, en este procedimiento es desventajoso que, dentro de un nodo, ya no pueda determinarse la sucesión temporal de vectores característicos. Esto resulta problemático especialmente en el caso de segmentos largos -como por ejemplo una "a" larga-, a los que se adaptan a menudo muchos vectores característicos de nodos parecidos, a pesar de que la sucesión temporal de los vectores no concuerde. Por este motivo, la tasa de reconocimiento puede verse perjudicada considerablemente.
En Aibar P. et al.: "Multiple template modeling of sublexical units", en: "Speech Recognition and Understanding", páginas. 516 a 524, Editorial Springer, Berlin, 1992, así como en Castro M. J. et al.: "Automatic selection of sublexic templates by using dynamic time warping techniques", en: "Proceedings of the European Signal Processing Conference", volumen 5, Nº 2, páginas. 1351 a 1354, Barcelona, 1990, se describe una segmentación de una señal de voz de entrenamiento en módulos de voz y un análisis para registrar un vector característico. En este caso también se realizan divisiones. En Ney H.: "The use of a one-stage dynamic programming algorithms for connected Word recognition", en: "IEEE Transactions of Acoustics, Speech, and Signal Processing", páginas. 263 a 271, vol. ASSP-32, Nº 2, 1984, se da a conocer un reconocimiento de palabras en un oración expresad de forma continua, en el que se emplea una plantilla de referencia para cada palabra.
El objetivo de la invención se basa, por lo tanto, en crear un procedimiento para generar segmentos de referencia que describen módulos de voz y un procedimiento para la modelización de unidades de voz, con los que en un sistema de reconocimiento de voz puedan lograrse altas tasas de reconocimiento con un esfuerzo de entrenamiento bajo.
El objetivo se alcanza por un procedimiento para crear segmentos de referencia que describen módulos de voz con las características de la reivindicación 1 y por un procedimiento para la modelización de unidades de voz con las características de la reivindicación 8. Las configuraciones ventajosas de la invención se exponen en las reivindicaciones dependientes.
El procedimiento emplea o crea segmentos de referencia que describen módulos de voz, que contienen características estructuradas temporalmente.
Estos segmentos de referencia se crean en una fase de entrenamiento, que por ejemplo puede desarrollarse de la siguiente manera:
-
selección de unidades inferiores de palabra adecuadas como módulos de voz (fonemas, difonemas, sílabas,...)
-
determinación de una estructura temporal intermedia para la sucesión de los vectores característicos para los módulos de voz seleccionados entre una pluralidad de ejemplos de voz,
-
selección y asociación de vectores característicos para cada una de las ventanas temporales de la estructura temporal típica,
-
almacenamiento de los modelos determinados de esta manera para cada módulo de voz, que representan los segmentos de referencia y están formados por vectores característicos, y que se disponen en un libro de códigos de forma correspondiente a la estructura temporal.
La fase de reconocimiento puede desarrollarse, por ejemplo, de la siguiente manera:
-
combinación de los segmentos de referencia en un modelo de referencia para una unidad de voz, como por ejemplo una palabra que va a reconocerse (por ejemplo correspondiente a la descripción fonética de esta palabra),
-
realización de una comparación no lineal del modelo de prueba que va a reconocerse con los modelos de referencia y determinación, en cada caso, de una separación total entre los modelos de referencia y el modelo de prueba, empleándose para cada ventana temporal la separación mínima entre el vector característico del modelo de prueba y los vectores característicos típicos de los módulos de voz asociados a través de la comparación no lineal,
-
selección del modelo de referencia con la separación más pequeña con respecto al modelo de prueba.
El procedimiento según la invención emplea un libro de códigos en el que se registran los segmentos de referencia que describen módulos de voz con características estructuradas temporalmente, es decir, que las características se almacenan en una sucesión determinada como segmentos de referencia.
Resultan ventajas esenciales muy especialmente, cuando los módulos de voz individuales de un modelo de referencia, como por ejemplo una palabra, son por ejemplo un fonema, un difonema, un trifonema o una sílaba. De esta manera, las ventajas de los sistemas DTW y HMM pueden combinarse, manteniéndose, por un lado, la estructura temporal, pero, por otro lado, pudiéndose generar también modelos de referencia para nuevas palabras a partir de las sílabas previstas.
Estos módulos de voz se describen por segmentos de referencia con una estructura temporal típica, de modo que para cada sección de tiempo de un módulo de voz puede preverse uno o más vectores característicos. Estas sucesiones de características o vectores característicos con las respectivas características alternativas para cada ventana temporal describen los módulos de voz, tal como aparecen típicamente en el modelo de entrenamiento. Mediante la combinación de varios segmentos de referencia en un modelo de referencia, se obtiene un modelo de referencia, cuyo módulo de voz contiene la estructura temporal determinada en el entrenamiento del sistema de reconocimiento de voz, con lo que el modelo de referencia formado de esta manera se estructura temporalmente de manera precisa, como es el caso en los procedimientos DTW conocidos.
Sin embargo, puesto que los segmentos de referencia sólo describen módulos de voz individuales en cada caso, en la fase de entrenamiento únicamente deben crearse aquellos segmentos de referencia que crean módulos de voz, cuya cantidad es esencialmente inferior a la cantidad de modelos de referencia según el procedimiento DTW.
En comparación con los sistemas de reconocimiento de voz conocidos basados en el procedimiento HMMM, con el procedimiento según la invención se obtiene una estructuración temporal esencialmente más precisa de los modelos de referencia, ya que los vectores característicos asociados a un nodo del procedimiento HMM se almacenan sin información temporal y, por este motivo, el procedimiento HMM no presenta una estructuración temporal dentro de un nodo. Esta diferencia conduce a un aumento esencial de la tasa de reconocimiento mediante el procedimiento según la invención con respecto al procedimiento HMM.
En lo que respecta al procedimiento HMM conocido resulta además ventajoso también que no sea necesario crear segmentos de referencia especiales que tengan en cuenta el contexto -es decir, los segmentos adyacentes-, ya que la mayor varianza en los intervalos de transición entre módulos de voz adyacentes pueden representarse mediante alternativas características adicionales para cada ventana temporal. Además, con la invención se dividen módulos de voz temporalmente largos en varias ventanas temporales como módulos de voz cortos, de tal manera que la descripción de los módulos de voz individuales se consigue en módulos de voz tanto cortos como largos con la misma calidad. Por el contrario, en el procedimiento HMM conocido, los módulos de voz se representan por una determinada cantidad fijada arbitrariamente de nodos, que es independiente de la longitud de los módulos de voz.
El procedimiento según la invención para crear segmentos de referencia para la modelización de unidades de voz comprende las siguientes etapas:
-
segmentación de la señal de voz de entrenamiento en módulos de voz según una trascripción prevista,
-
análisis de la señal de entrenamiento en una cuadrícula temporal predeterminada con determinadas ventanas temporales para obtener al menos un vector característico para cada ventana temporal, con lo cual se configuran modelos de entrenamiento, que contienen en cada caso vectores característicos en la sucesión temporal de la señal de voz de entrenamiento,
-
determinación de una estructura temporal intermedia para cada uno de los módulos de voz con una secuencia de ventanas temporales,
-
asociación, por medio de una reproducción temporalmente no lineal de los vectores característicos, de las ventanas temporales del módulo de voz y almacenamiento de los vectores característicos asociados en cada caso a un módulo de voz en la sucesión prevista por las ventanas temporales como segmento de referencia.
Con este procedimiento se crean segmentos de referencia que contienen vectores característicos presentes en la sucesión temporal de la señal de voz de entrenamiento y que se pueden asociar en cada caso a un módulo de voz. De esta manera, la estructura temporal de la señal de voz de entrenamiento se representa en los segmentos de referencia y, dado que los segmentos de referencia pueden asociarse en cada caso a un módulo de referencia, es posible concatenar a partir de los segmentos de referencia un modelo de referencia correspondiente a una palabra.
La invención se explicará más detalladamente a continuación, a modo de ejemplo, con ayuda de los dibujos. En los dibujos muestran:
la figura 1, esquemáticamente el procedimiento para la creación de segmentos de referencia (en la fase de entrenamiento),
la figura 2, esquemáticamente vectores característicos agrupados del módulo de voz "a", obtenidos a partir de ejemplos de voz con diferentes contextos,
la figura 3, el procedimiento de modelización de unidades de voz en un diagrama de flujo, y
la figura 4, esquemáticamente una matriz de reproducción con los modelos de referencia, formada por segmentos de referencia y el modelo de prueba,
la figura 5, un reconocimiento de voz según un sistema de reconocimiento de voz HMM,
la figura 6, una determinación de la sucesión temporal intermedia en la estructura de fonemas "ts",
la figura 7, una determinación de la sucesión temporal intermedia en la estructura de fonemas "ai",
la figura 8, un procedimiento empleado en la división para la reproducción no lineal, así como la proyección sobre un modelo resultante,
la figura 9, una búsqueda durante el reconocimiento con el sistema de reconocimiento de voz HMM correspondiente a los estados, según el estado de la técnica,
la figura 10, una búsqueda durante el reconocimiento con modelos de referencia según el procedimiento propuesto.
El procedimiento según la invención para la modelización de módulos de voz en sistemas de reconocimiento de voz emplea un libro de códigos en el que se almacenan segmentos de referencia que describen en cada caso un módulo de voz con características estructuradas temporalmente. En la presente forma de realización, los módulos de voz representan en cada caso fonemas o diptongos y las características estructuradas temporalmente son vectores característicos espectrales que se almacenan en los segmentos de referencia en la sucesión, que corresponde a una señal de voz típica del respectivo módulo de voz.
Los segmentos de referencia se dividen en ventanas temporales, pudiendo asociarse cada ventana temporal con varios vectores característicos como alternativas. Los fonemas cortos, por ejemplo una "t", pueden presentar únicamente una sola ventana temporal. Generalmente, sin embargo, se prevén varias ventanas temporales, cuya cantidad resulta de la duración de los fonemas o diptongos individuales, durante la creación de los segmentos de referencia, dividida por la duración de las ventanas temporales.
La cantidad de vectores característicos por ventana temporal puede variar. En el presente ejemplo de realización la cantidad de vectores característicos máxima por ventana temporal se limita a tres. En el marco de la presente invención, puede ser conveniente limitar la cantidad máxima de vectores característicos esencialmente a valores mayores, como por ejemplo de 10 a 15, o no prever ningún límite correspondiente.
El principio fundamental de la presente invención se basa en que, para la fase de reconocimiento, los segmentos de referencia estructurados temporalmente se combinan en un modelo de referencia y el modelo de referencia se compara con un modelo de prueba, que se deriva de una señal de voz pronunciada y que va a reconocerse.
La figura 1 muestra el desarrollo de un procedimiento para crear segmentos de referencia para la modelización de unidades de voz. El procedimiento comienza con la recogida de expresiones de entrenamiento con la aparición repetida de todos los módulos (S10) de voz necesarios junto con la trascripción correspondiente. Estos datos se depositan en una base D1 de datos que comprende las señale de voz pronunciadas y la correspondiente identificación fonética. El contenido de esta base D1 de datos se separa según una trascripción prevista en registros D2 de datos, que se asocian, en cada caso, a un fonema o diptongo individual o a otros módulos de voz adecuados (S11).
Los datos de voz almacenados en las registros D2 de datos se analizan en una cuadrícula temporal fija, es decir, que las señales de voz de entrenamiento se subdividen en ventanas temporales t, de tal modo que se obtienen modelos de entrenamiento que contienen en cada caso vectores característicos en la sucesión temporal de la señal de voz de entrenamiento y pueden asociarse en cada caso a un módulo de voz. Estos modelos de entrenamiento se almacenan en los registros D3 de datos.
Para cada módulo de voz se determina un modelo de entrenamiento intermedio con una estructura temporal obtenida y una estructura característica obtenida. A este respecto, para los modelos presentes de un módulo de voz, se determina un desarrollo temporal intermedio y también una manifestación intermedia de las características. Esto puede realizarse, por ejemplo, mediante una reproducción no lineal, tal como se describe, por ejemplo, en los capítulos 4.2 y 4.3 de "Sprecherunabhängigkeit und Sprechadaption", Bernhard R. Kämmerer, Informatik Fachberichte 244, Editorial Springer, 1990. En este caso se obtiene, en primer lugar, a partir de las estructuras temporales individuales del modelo de entrenamiento, mediante una reproducción no lineal, una estructura temporal intermedia, y se determinan los vectores característicos asociados en este caso. Estos modelos intermedios se almacenan en registros D4 de datos.
Mediante una estructura temporal intermedia representativa, es decir, una manifestación intermedia de la duración de variación y la sucesión temporal de características de los módulos de voz, se mantiene la posibilidad para la adaptación temporal no lineal de compensar las distorsiones más pequeñas.
A partir de los datos almacenados en los registros D3 y D4 de datos, se agrupan (S14) para cada ventana temporal del modelo intermedio de un módulo de voz determinado, los vectores característicos de todos los modelos. Como procedimiento de agrupamiento pueden utilizarse planteamientos conocidos, como el algoritmo de Leader, algoritmo de K-means u otros. De ahí se produce para cada módulo de voz, un modelo que se representa mediante uno o varios vectores característicos por ventana temporal. Estos modelos forman los segmentos de referencia según la invención, que se almacenan en registros D5 de datos adicionales. Los registros D5 de datos forman el resultado del procedimiento según la invención y son la base para el reconocimiento posterior.
Mediante una combinación de la división de las estructuras temporales con un agrupamiento de las características asociadas, pueden evitarse las desventajas mencionadas de los reconocedores de voz HMM.
La figura 2 muestra esquemáticamente los vectores característicos agrupados del módulo de voz "a", que se ha obtenido de los ejemplos de voz con diferente contexto. En este caso, no se prevé ninguna cantidad fija de vectores característicos alternativos por ventana temporal, sino que se deja que el procedimiento de agrupamiento determine la cantidad según la varianza. En la zona intermedia resultan menos vectores característicos que en la zona periférica, ya que los vectores característicos de ejemplos de voz distintos se parecen mucho en la zona intermedia, pero debido a los diferentes contextos se diferencian mucho en la zona periférica. En consecuencia, en las zonas periféricas se producen como resultado del procedimiento de agrupamiento más vectores característicos que representan estas diferencias.
Puesto que las diferencias contextuales pueden representarse en las zonas periféricas de los módulos de voz mediante vectores característicos alternativos, no es necesario formar segmentos de referencia completos para módulos de voz en diferentes contextos, como es el caso de los procedimientos HMM conocidos, de tal modo que la cantidad de módulos de voz en la invención puede mantenerse esencialmente baja.
La figura 3 muestra esquemáticamente el procedimiento según la invención para la modelización de unidades de voz de un modelo de prueba pronunciado en un sistema de reconocimiento de voz en forma de un diagrama de flujo. En la figura 4 se indica, para la situación del reconocimiento de una expresión de prueba, una matriz de reproducción en forma de un sistema de coordenadas.
Este procedimiento emplea un libro de códigos en el que se almacenan los segmentos de referencia estructurados temporalmente. En el presente ejemplo de realización, los módulos de voz representan en cada caso fonemas o diptongos y las características estructuradas temporalmente son vectores característicos espectrales que se almacenan en los segmentos de referencia en la sucesión que corresponde a una señal de voz típica del módulo de voz respectivo. El procedimiento emplea además una base de datos en la que se almacenan unidades de voz con su descripción fonética. En el presente ejemplo de realización, las unidades de voz son palabras y la descripción fonética de las palabras mostradas en la figura 4 "eins" y "zwei" es:
"ai""n""s" y "t" "s" "w" "ai"
El procedimiento empieza con la etapa S1.
En la etapa S2 una señal de voz que va a reconocerse por un sistema de reconocimiento de voz se transforma en un modelo de prueba, convirtiendo la señal de voz en vectores característicos espectrales correspondientes. Estos vectores característicos del modelo de prueba se representan esquemáticamente a lo largo de la abcisa.
En la etapa 3 los segmentos de referencia se concatenan, en cada caso, según la descripción fonética de las palabras almacenadas en la base de datos, en un modelo de referencia.
Puesto que, en los segmentos de referencia, los vectores característicos se asocian a determinadas ventanas t temporales y se determina su sucesión, los modelos de referencia forman una secuencia que se extiende por varios fonemas y diptongos de vectores característicos ordenados temporalmente y, por tanto, estructurados temporalmente.
Junto a la ordenada se representan esquemáticamente los fonemas y diptongos individuales para las palabras "eins" y "zwei", es decir "ai", "n", "s" y "t"... "ai" junto con los segmentos de referencia correspondientes. Estos segmentos de referencia RS se dividen según la ventana t temporal de la fase de análisis, en de 1 a 4 ventanas t temporales de una duración predeterminada. Cada segmento de referencia presenta en este sentido para cada ventana de referencia tres vectores MV característicos en cada caso.
En la etapa S4 los vectores característicos del modelo de prueba se representan con una reproducción temporal no lineal de las características de los segmentos de referencia del modelo de referencia (= combinaciones de vectores característicos consecutivos de una palabra). Estos tipos de reproducciones no lineales pueden realizarse según los procedimientos DTW empleados habitualmente anteriormente, o según el algoritmo Viterbi. Estas reproducciones no lineales son adecuadas para el reconocimiento tanto de manera aislada como también de manera conjunta de palabras pronunciadas (discurso fluido).
En esta reproducción, los modelos de prueba se reproducen en todos los modelos de referencia, y entre los modelos de referencia y el modelo de prueba se calculan las separaciones correspondientes según una medida de separación predeterminada. En la matriz de reproducción se muestran recorridos de distorsión VP, con los que se reproducen los vectores característicos del modelo de prueba en los modelos de referencia.
Se conocen distintas medidas de separación en el estado de la técnica (véase por ejemplo capítulos 3.5.1 en Bernhard R. Kämmerer: "Sprecherunabhängigkeit und Sprechadaption", Informatik Fachberichte 244, Editorial Springer, 1990).
Sin embargo, durante la reproducción, a diferencia de los procedimientos anteriores, en cada asociación de una ventana temporal de la expresión de prueba con una ventana temporal de los modelos de referencia, se forma la separación más pequeña entre el vector característico de prueba y los vectores característicos de referencia alternativos presentes.
De forma correspondiente a las normas de la reproducción no lineal, estas distancias mínimas individuales se acumulan a lo largo del recorrido de distorsión en una separación total para la palabra.
En el marco de la invención también es posible emplear procedimientos de "poda" (Pruning) al comparar el modelo de prueba con los modelos de referencia, o limitar la cantidad de modelos de referencia que van a compararse con el modelo de prueba mediante el empleo de modelos de voz.
En la etapa S5 el modelo de referencia que presenta la separación total más pequeña con el modelo de prueba, se selecciona como resultado del reconocimiento. Los recorridos de distorsión impresos en negrita indican la reproducción en el modelo de referencia seleccionado.
Preferiblemente, la distorsión máxima de los recorridos de distorsión se limita a una determinada zona de trabajo, es decir, que no deben reproducirse más como una determinada cantidad n de vectores característicos del modelo de prueba en una ventana temporal del modelo de referencia, ni debe reproducirse un vector característico en más de la determinada cantidad n de ventanas temporales. n es un número entero en el intervalo de 2 a 5. Esto tiene como consecuencia que el recorrido de distorsión en la matriz de reproducción se desarrolla dentro de un recorrido k (figura 4).
En el procedimiento descrito anteriormente, cada vector característico describe una señal de voz para una ventana temporal con una duración predeterminada, que se sitúa en el intervalo de 5 ms a 20 ms y preferiblemente es de 10 ms. En lugar de características espectrales pueden emplearse también características de autocorrelación u otras características adecuadas, como por ejemplo características CPL (coeficientes de predicción lineales), características MFCC (coeficientes de filtro Mel) o características CC (coeficientes cepstrales).
En el ejemplo anterior, cada segmento de referencia representa un fonema o un diptongo. En el marco de la invención, sin embargo, es posible que los segmentos de referencia representen difonemas, trifonemas, sílabas u otras unidades secundarias adecuadas. Igualmente una unidad de voz puede representar además de una palabra también una frase o similar.
Los segmentos de referencia según la invención describen módulos de voz por medio de vectores característicos, almacenándose los vectores característicos en una sucesión típica que resulta de los datos de voz de entrenamiento. Para cada vector característico se indican vectores característicos alternativos. Durante la modelización de unidades de voz más grandes, los segmentos de referencia se combinan para describir las unidades de voz, de modo que se reconoce con un esfuerzo de entrenamiento muy bajo cualquier palabra. El reconocimiento se basa en una reproducción no lineal, mediante la que se toman los vectores característicos alternativos para determinar la coincidencia local. La reproducción no lineal puede usarse tanto para una sola palabra pronunciada como para un discurso continuo.
Las diferencias con los reconocedores de voz HMM y la determinación de la estructura temporal intermedia deben aclararse a continuación con más detalle por medio de las reproducciones 1 a 5.
En los sistemas de reconocimiento de voz HMM del estado de la técnica con un reconocimiento independiente del hablante, se recogen para el entrenamiento de un idioma muestras de voz de muchísimos hablantes. En este caso se realiza la selección de las referencias para la fase de reconocimiento posterior, de tal modo que
1.
se pronuncian según la pauta expresiones de entrenamiento,
2.
las señales de voz resultantes se analizan (frecuencia) en una cuadrícula fija (10 ms-20 ms) (frecuencia -)y se almacenan las características,
3.
la sucesión de características (iterativa) se divide temporalmente de acuerdo con la trascripción fonética, de modo que la mayoría de las veces cada fonema se divide adicionalmente en una cantidad fija de estados (por ejemplo 3 estados: inicio del fonema - núcleo del fonema - final del fonema),
4.
a partir de las características individuales de todas las secciones de todas las expresiones que corresponden a un estado, se selecciona una cantidad de representantes (por ejemplo por un procedimiento de agrupamiento), que se depositan en un libro de códigos para la fase de reconocimiento posterior. Alternativamente también pueden depositarse distribuciones de los componentes característicos.
Después, están representados en el libro de códigos para cada fonema por ejemplo 3 grupos con varios representantes en cada caso:
Inicio
característica a (A,1)
\quad
...
\quad
característica a (a,x)
Intermedio
característica a (M,1)
\quad
...
\quad
característica a (M,y)
Final
característica a (E,1)
\quad
...
\quad
característica a (E,z)
Es importante que dentro del estado ya no haya una sucesión de las características. Todas pueden aparecer en cada lugar con la misma probabilidad.
En la fase de reconocimiento (búsqueda Viterbi), las característica de la señale que va a reconocerse se comparan con los representantes (por ejemplo cálculo de la separación). Dentro de un estado se selecciona entonces la separación mínima. En este caso, la sucesión original de las características dentro de un estado no juega ningún papel. El tiempo de permanencia en un estado o se define a través de la probabilidad de repetición fija en comparación con la probabilidad de transición al siguiente estado (disminución exponencial de la probabilidad global según la cantidad de repeticiones) o se regula mediante una duración intermedia determinada por los datos de entrenamiento (por ejemplo distribución de la probabilidad de Gaus en la duración). La estructura aproximada se define sólo por la sucesión de los estados (es decir, debe pasar en primer lugar por la reproducción no lineal (Viterbi) desde el estado de "inicio" a través del estado "intermedio" hasta el estado "final".
De ello se deducen las siguientes desventajas:
-
Representación temporal no adecuada. La división fija en por ejemplo 3 estados no se ajusta a la duración muy diferente de las manifestaciones reales de fonemas. Una "a" o un sonido vocal "ai" por ejemplo puede durar mucho (tal vez 20 ventanas de análisis = 200 ms), entonces se reproducen muchas características en un estado. Esto corresponde a una representación aproximada no proporcionada. Una "p" puede ser muy corta (tal vez solo 3 ventanas de análisis), por lo que resulta una modelización muy precisa.
-
Selectividad reducida. En fonemas largos, la búsqueda Viterbi puede extraer los representantes más adecuados para cada estado. Esto puede conducir a que, por ejemplo, un representante que se encuentra en realidad en el final del estado sea tomado para una zona mayor de la señal de prueba. Lo que tiene como consecuencia una separación total demasiada pequeña en conjunto y una pérdida de diferenciabilidad, especialmente esto se refiere a palabras cuyos fonemas son muy parecidos y se origina por un error de análisis una determinada superposición de las características.
-
Distorsión temporal aproximada en la reproducción. Dado que la señal de prueba "se separa totalmente" (es decir, en la sucesión original de 10 ms de las características), aunque las referencias se representan con los pocos estados, la reproducción debe situar también secciones mayores de la señal de prueba en un estado. De esta manera, se pierde que la velocidad de habla sólo puede variar en unos límites estrechos. (En este caso un es que, por ejemplo, los sistemas de dictado pueden tratar mejor expresiones pronunciadas rápidamente que las pronunciadas normal o lentamente).
Estas desventajas deben reducirse y/o eliminarse con la invención.
En este caso, los fonemas no se describen por una cantidad fija de estados, sino por un modelo (= una sucesión de características), que se obtiene a partir de las expresiones de entrenamiento. La idea de esto es realizar en el sitio de referencia una separación similar tal como en el lado de prueba. Las etapas individuales para ello son
1.
Se pronuncian expresiones de entrenamiento según la pauta,
2.
las señales de voz resultantes se analizan (frecuencia) en una cuadrícula fija (10 ms-20 ms) y se almacenan las características,
3.
la sucesión de características (iterativa) se divide temporalmente según la trascripción fonética, de manera que se recortan en cada caso modelos para los fonemas,
4.
a partir de los modelos de todas las expresiones que corresponden a un fonema, se calcula una "estructura temporal" intermedia relativa a la sucesión temporal de las características, a la cantidad de características así como a la manifestación de la características,
5.
para cada "marco" (es decir, cada sección de análisis) de la estructura temporal intermedia, se elabora un pequeño libro de códigos con las características representativas (para cubrir las características específicas del hablante).
La etapa 4 debe visualizarse por medio de las figuras 6 y 7. Los modelos que sirven para la secuencia de fonemas "ts" se pronuncian y se segmentan a partir de distintas expresiones. La división de una "ts" muy corta con 11 ventanas de análisis y una "ts" larga con 17 ventanas de análisis lleva a un modelo intermedio con 14 ventanas de análisis y características espectrales, que presentan en su caso una característica intermedia, y reproducen la "estructura temporal" (sucesión característica).
En el segundo ejemplo se expresó el sonido vocal "ai", siendo en este caso la longitud de los sonidos por tanto también de la división casi idéntica, para ello se debe reconocer en la sucesión característica de las características el efecto de la división.
Los ejemplos muestran una división de n=2 modelos de entrenamiento. Lógicamente, esto se da naturalmente también para cualquier n.
La figura 8 muestra los procedimientos empleados en la división para la reproducción no lineal de i y j así como la proyección de un modelo i' resultante.
Para la etapa 5 se conserva ahora la estructura intermedia resultante. En esta estructura, se reproducen de forma no lineal en esta estructura todos los modelos observados en el entrenamiento. Por cada marco de la estructura intermedia se lleva a cabo un agrupamiento de las características reproducidas en él.
En la fase de reconocimiento, las palabras que van a reconocerse se componen a partir de las referencias para los fonemas correspondientes a la trascripción fonética. En los HMM "tradicionales" los estados se suceden uno tras otro, en el procedimiento propuesto los segmentos de referencia. La denominada búsqueda (la reproducción óptima de la señal de prueba en las referencias formadas) se realiza en HMM entonces, por ejemplo, por un algoritmo Viterbi, en el procedimiento propuesto por un principio (general) del "Dynamic Time Warping". En este procedimiento el espacio de búsqueda se expande por el aumento permitido durante la transición desde un punto de la cuadrícula (en la matriz desde un modelo de referencia y de prueba) al siguiente. En este sentido, un aumento "1" significa una reproducción lineal, un aumento "0" un colapso del modelo de prueba global en un estado del modelo de referencia, y un aumento "ilimitado" un colapso del modelo de referencia global en un marco de análisis del modelo de prueba.
Como puede observarse en las figuras 9 y 10, en el algoritmo Viterbi deben permitirse mediante la diferente separación de referencia y prueba también aumentos "0". En el nuevo procedimiento, por el contrario, la reproducción puede limitarse, por ejemplo, a una zona (0,5...2), es decir se supone que en comparación con una velocidad de habla media, la señal de prueba puede pronunciarse como mínimo la mitad de rápido y como máximo el doble de rápido. Mediante la zona de reproducción limitada, la búsqueda se "ve obligada", a comparar también todas las secciones del modelo relevantes y a no omitir sencillamente secciones enteras.

Claims (14)

1. Procedimiento para crear segmentos de referencia que describen módulos de voz a partir de señales de voz de entrenamiento pronunciadas para sistemas de reconocimiento de voz, con las siguientes etapas:
-
segmentación de la señal de voz de entrenamiento en módulos de voz correspondientes a una trascripción predeterminada,
-
análisis de la señal de entrenamiento en una cuadrícula temporal predeterminada con determinadas ventanas temporales para obtener al menos un vector característico para cada ventana temporal, de tal modo que se configuran modelos de entrenamiento que contienen en cada caso vectores característicos en la sucesión temporal de la señal de voz de entrenamiento,
-
determinación de una estructura temporal intermedia que es una manifestación intermedia de la duración de variación y de la sucesión temporal de las características de los módulos de voz, para cada uno de los módulos de voz con una secuencia de ventanas temporales,
-
asociación de los vectores característicos por medio de una reproducción temporal no lineal a las ventanas temporales de los módulos de voz y almacenamiento de los vectores característicos asociados en cada caso a un módulo de voz en la sucesión predeterminada por las ventanas temporales, como segmento de referencia.
2. Procedimiento según la reivindicación 1, caracterizado porque los módulos de voz son fonemas, diptongos, difonemas, trifonemas o sílabas.
3. Procedimiento según la reivindicación 1 ó 2, caracterizado porque las características de los modelos de prueba se representan como vectores característicos con características espectrales, características de autocorrelación, características CPL, características MFCC o características CC.
4. Procedimiento según las reivindicaciones 1 a 3, caracterizado porque la sucesión temporal intermedia se obtiene sucesivamente mediante la división de las reproducciones no lineales del modelo de entrenamiento para el módulo de voz.
5. Procedimiento según las reivindicaciones 1 a 4, caracterizado porque los vectores característicos asociados en cada caso a una ventana temporal se agrupan.
6. Procedimiento según la reivindicación 5, caracterizado porque los vectores característicos por cada ventana temporal se limitan a una cantidad determinada.
7. Procedimiento según la reivindicación 5, caracterizado porque la cantidad de los vectores característicos alternativos resulta de la varianza de los vectores característicos del modelo de entrenamiento reproducidos en una ventana temporal.
8. Procedimiento para la modelización de unidades de voz de un modelo de prueba pronunciado en un sistema de reconocimiento de voz, en el que los segmentos de referencia que describen módulos de voz con vectores característicos estructurados temporalmente están contenidos en un libro de códigos, con las siguientes etapas:
-
combinación de varios modelos de referencia a partir de segmentos de referencia que representan unidades de voz, empleándose segmentos de referencia que se formaron con un procedimiento según una de las reivindicaciones 1 a 7,
-
realización de una comparación no lineal de los modelos de referencia con el modelo de prueba y determinación en cada caso de una separación entre los modelos de referencia y el modelo de prueba,
-
selección del modelo de referencia con la separación más pequeña con el modelo de prueba, asociándose el modelo de prueba con la unidad de voz representada por los segmentos de referencia.
9. Procedimiento según la reivindicación 8, caracterizado porque los modelos de referencia representan en cada caso una palabra que va a reconocerse.
10. Procedimiento según la reivindicación 9, caracterizado porque un modelo de referencia se forma como concatenación de los segmentos de referencia para los módulos de voz según la trascripción para la palabra que va a reconocerse.
11. Procedimiento según las reivindicaciones 8 a 10, caracterizado porque la comparación no lineal se realiza mediante una adaptación temporal no lineal del modelo de prueba sobre el modelo de referencia para las palabras que van a reconocerse.
12. Procedimiento según la reivindicación 11, caracterizado porque la adaptación temporal no lineal se limita a una zona de trabajo fijada.
13. Procedimiento según las una de las reivindicaciones 8 a 12, caracterizado porque en la comparación no lineal se selecciona la separación local como mínimo de las separaciones entre el vector característico correspondiente del modelo de prueba y los vectores característicos alternativos de los segmentos de referencia.
14. Procedimiento según una de las reivindicaciones 8 a 13, caracterizado porque en la reproducción no lineal se limita la distorsión.
ES02801278T 2001-10-11 2002-10-01 Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz. Expired - Lifetime ES2245418T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10150144 2001-10-11
DE10150144 2001-10-11

Publications (1)

Publication Number Publication Date
ES2245418T3 true ES2245418T3 (es) 2006-01-01

Family

ID=7702144

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02801278T Expired - Lifetime ES2245418T3 (es) 2001-10-11 2002-10-01 Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz.

Country Status (5)

Country Link
US (1) US7398208B2 (es)
EP (1) EP1435087B1 (es)
DE (1) DE50204114D1 (es)
ES (1) ES2245418T3 (es)
WO (1) WO2003034402A1 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793127B2 (en) 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
US7873724B2 (en) * 2003-12-05 2011-01-18 Microsoft Corporation Systems and methods for guiding allocation of computational resources in automated perceptual systems
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
CN101923856B (zh) * 2009-06-12 2012-06-06 华为技术有限公司 语音识别训练处理、控制方法及装置
US8880352B2 (en) 2010-11-29 2014-11-04 Siemens Aktiengesellschaft System and method for analyzing an electrophysiological signal
CN104347071B (zh) * 2013-08-02 2020-02-07 科大讯飞股份有限公司 生成口语考试参***的方法及***
JP2017508188A (ja) * 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US9947342B2 (en) * 2014-03-12 2018-04-17 Cogito Corporation Method and apparatus for speech behavior visualization and gamification
US10276188B2 (en) 2015-09-14 2019-04-30 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN111243625B (zh) * 2020-01-03 2023-03-24 合肥讯飞数码科技有限公司 设备的清晰度测试方法、装置、设备及可读存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
JPS5945583A (ja) * 1982-09-06 1984-03-14 Nec Corp パタンマッチング装置
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
DE4322372A1 (de) * 1993-07-06 1995-01-12 Sel Alcatel Ag Verfahren und Vorrichtung zur Spracherkennung
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
DE19610848A1 (de) 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
CN1138252C (zh) * 1998-05-15 2004-02-11 西门子公司 通过计算机在交谈语音中识别至少一个密钥字的方法和设备

Also Published As

Publication number Publication date
EP1435087A1 (de) 2004-07-07
EP1435087B1 (de) 2005-08-31
DE50204114D1 (de) 2005-10-06
US20040249639A1 (en) 2004-12-09
US7398208B2 (en) 2008-07-08
WO2003034402A1 (de) 2003-04-24

Similar Documents

Publication Publication Date Title
US20180075844A1 (en) Speech recognition system and method
CN101436403B (zh) 声调识别方法和***
ES2245418T3 (es) Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz.
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Serrino et al. Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition.
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
Wagner Automatic labelling of continuous speech with a given phonetic transcription using dynamic programming algorithms
Salvi Developing acoustic models for automatic speech recognition in Swedish
Metze Articulatory features for conversational speech recognition
Hamaker et al. Advances in alphadigit recognition using syllables
JP2005234504A (ja) 音声認識装置及びhmm発音モデルをトレーニングする方法
Colla et al. A connected speech recognition system using a diphone-based language model
Azmi et al. Syllable-based automatic arabic speech recognition in noisy-telephone channel
RU2119196C1 (ru) Способ лексической интерпретации слитной речи и система для его реализации
Caballero et al. Data driven multidialectal phone set for Spanish dialects.
Phuong et al. Development of high-performance and large-scale vietnamese automatic speech recognition systems
KR102182408B1 (ko) 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Huerta et al. The development of the 1997 CMU Spanish broadcast news transcription system
Kessens et al. Automatic detection and verification of Dutch phonological rules
JP3231365B2 (ja) 音声認識装置
Zhang et al. Kham Dialect Speech Synthesis Based on Deep Learning
Trancoso et al. From Portuguese to Mirandese: fast porting of a letter-to-sound module using FSTs