ES2248018T3 - Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos. - Google Patents
Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos.Info
- Publication number
- ES2248018T3 ES2248018T3 ES00304415T ES00304415T ES2248018T3 ES 2248018 T3 ES2248018 T3 ES 2248018T3 ES 00304415 T ES00304415 T ES 00304415T ES 00304415 T ES00304415 T ES 00304415T ES 2248018 T3 ES2248018 T3 ES 2248018T3
- Authority
- ES
- Spain
- Prior art keywords
- instruction
- events
- acoustic
- states
- probable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013179 statistical model Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Traffic Control Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Un método para uso en un programa informático para reconocimiento de voz que funciona en diversos estados y ejecuta un programa para poner en práctica diversos sucesos, para reconocer una instrucción oral, que comprende los pasos de: monitorizar (54) al menos uno de dichos sucesos y estados; recibir una instrucción procesada correspondiente a dicha instrucción oral; analizar (44) dicha instrucción procesada de acuerdo con al menos un modelo acústico a fin de identificar una probable coincidencia acústica; analizar (48) dicha instrucción procesada a fin de identificar una probable coincidencia de contexto usando un modelo estadístico para analizar al menos uno de dichos sucesos y estados de acuerdo con un conjunto finito de instrucciones ponderadas de acuerdo con la probabilidad estadística de sus sucesos correspondientes que ocurren en el estado dado; y proporcionar una instrucción reconocida basada en dichas probables coincidencias acústicas y de contexto.
Description
Método y aparato para mejorar la precisión del
reconocimiento de la orden de voz utilizando limitaciones basadas en
eventos.
Este invento se refiere al campo de las
aplicaciones de ordenador de reconocimiento de voz, y más
específicamente, a un sistema para mejorar la precisión de la orden
de reconocimiento de un sistema de reconocimiento de voz.
El reconocimiento de voz es el proceso mediante
el cual las señales acústicas, recibidas a través de un micrófono,
son convertidas en palabras mediante un ordenador. Una vez
reconocidas, las palabras pueden ser usadas en diferentes
aplicaciones de programas informáticos con fines tales como
preparación de documentos, introducción de datos, y mando y control.
El reconocimiento de voz es generalmente un problema difícil debido
a la gran variedad de características de pronunciaciones, acentos y
voz de cada orador. Por lo tanto, se utilizan conjuntos de
limitaciones para tomar decisiones sobre las palabras pronunciadas
por un usuario.
Los sistemas normales de reconocimiento de voz al
dictado utilizan dos conjuntos de limitaciones, es decir, un modelo
acústico y un modelo de lenguaje. El modelo acústico considera los
sonidos que forman las palabras y el modelo de lenguaje considera el
contexto gramatical en el que se usan las palabras. Estos modelos se
usan a menudo para ayudar a reducir el espacio de búsqueda de
posibles palabras y a resolver ambigüedades como las que se producen
entre palabras que suenan igual. Tales modelos tienden a ser
sistemas basados en estadísticas y pueden ser proporcionados en
diversas formas. El modelo de lenguaje más sencillo, por ejemplo,
puede ser especificado como una red de estado finito, en la que se
dan de forma explícita las palabras permisibles que siguen a cada
palabra. Sin embargo, también se han desarrollado modelos de
lenguaje más sofisticados que se especifican con relación a una
gramática de contexto especificado.
Al usar un sistema de reconocimiento de voz para
controlar el sistema y el funcionamiento y navegación de la
aplicación del programa informático, se formula un conjunto de
instrucciones para tareas y funciones específicas. Cada instrucción
es normalmente una o dos palabras de una frase corta que representa
una expresión común para realizar una operación dada. Los sistemas
típicos de reconocimiento de instrucciones de voz pueden tener un
gran número de tales instrucciones. Para que el orador no tenga que
memorizar la expresión precisa de las instrucciones, sistemas
sofisticados también reconocen expresiones alternativas que tienen
el mismo significado que una instrucción conocida. Normalmente, se
emplean modelos de lenguaje, como se hace en el reconocimiento al
dictado, para limitar sintácticamente las instrucciones
habladas.
Sin embargo, debido a que las instrucciones, y
sus contrapartes sinónimas, son normalmente una o dos palabras, los
modelos sintácticos son a menudo ineficaces. Así, los sistemas de
reconocimiento de voz convencionales tienen una muy fuerte
dependencia de modelos acústicos para seleccionar una de un conjunto
de instrucciones, y como consecuencia, tienen dificultad en
reconocer las instrucciones pronunciadas. Por ejemplo, si la
instrucción pronunciada suena similar a otras instrucciones, el
sistema de reconocimiento de voz puede ejecutar una instrucción no
deseada, o el sistema de reconocimiento puede no ejecutar ninguna
instrucción. En cualquier caso, el orador tendrá que volver a dictar
la instrucción o introducirla con otro dispositivo de
introducción.
El documento de patente de EEUU nº 5867817
describe un gestor de reconocimiento de voz para un sistema de
visualización montada en la cabeza que es sensible a la voz,
esencialmente para funcionar con manos libres.
El documento de patente de EEUU nº 5390279
describe dividiendo las reglas de pronunciación por contexto para
reconocimiento de voz. Los contextos de cada regla de reconocimiento
de voz se determinan cuando está activa cada una de las reglas. En
un intervalo se determinan o agrupan o dividen contextos comunes de
reglas de pronunciación en conjuntos de reglas de pronunciación de
acuerdo con estos contextos comunes. Entonces se puede realizar la
generación rápida de un modelo de lenguaje por detección de un texto
corriente en un segundo intervalo.
Consecuentemente, sería deseable proporcionar un
sistema para mejorar la precisión del reconocimiento de
instrucciones orales para controlar el sistema y el funcionamiento
de la aplicación.
Es un objeto del presente invento proporcionar
una técnica que remedie las anteriores desventajas.
De acuerdo con el presente invento proporcionamos
un método, en un sistema de ordenador para reconocimiento de voz,
que funciona en diversos estados y el funcionamiento de un programa
para realizar diferentes sucesos, para reconocer una instrucción
oral, que comprende los pasos de: monitorizar al menos uno de dichos
sucesos y estados; recibir una instrucción procesada correspondiente
a dicha instrucción oral; analizar dicha instrucción procesada de
acuerdo con al menos un modelo acústico a fin de identificar una
probable coincidencia acústica; analizar dicha instrucción procesada
a fin de identificar una probable coincidencia de contexto usando un
modelo estadístico para analizar al menos uno de dichos sucesos y
estados; y proporcionar una instrucción reconocida basada en dichas
probables coincidencias acústicas y de contexto.
También un método, en un sistema de ordenador de
reconocimiento de voz para mejorar la precisión con la que se
reconoce una instrucción oral, que comprende los pasos de:
monitorizar los sucesos del sistema; predecir un suceso siguiente
usando un modelo estadístico para analizar dichos sucesos del
sistema; y estimar dichas instrucciones habladas de acuerdo con
dicho suceso siguiente.
Se ha determinado que el contexto en el que una
instrucción oral es ejecutada se puede utilizar como un sustituto de
los modelos de lenguaje utilizados para reconocimiento del dictado.
En particular, las estructuras de datos basadas en sucesos, que son
indicativas del contexto en el que se da la instrucción, se usan
como limitaciones en el proceso de reconocimiento. Así, el presente
invento proporciona un sistema para mejorar la precisión de
reconocimiento de la instrucción en sistemas de reconocimiento de
voz.
Específicamente, el presente invento funciona en
un programa informático de reconocimiento de voz que funciona en
diversos estados y que ejecuta un programa para realizar diversos
sucesos. El método y el sistema se realizan monitorizando los
sucesos y estados y recibiendo una instrucción procesada que
corresponde a una instrucción oral. La instrucción procesada es
analizada de acuerdo con uno o más modelos acústicos a fin de
identificar una probable coincidencia acústica. Igualmente, la
instrucción es analizada de acuerdo con al menos uno de los sucesos
y estados a fin de identificar una probable coincidencia de
contexto. Con base en las probables coincidencias acústicas y de
contexto, el sistema proporciona una instrucción reconocida.
El presente invento proporciona el objeto y la
ventaja del reconocimiento preciso de sistemas hablados y mandos de
control de aplicación. El presente invento proporciona un
reconocimiento preciso de la instrucción de voz incluso si la
instrucción oral es solamente una única palabra.
Los estados y sucesos pueden incluir la actividad
de control del sistema, aplicaciones activas, instrucciones
anteriores y una cola de sucesos. Así, el presente invento
proporciona un objeto y una ventaja adicionales porque uno o más
parámetros de limitación existen, o pueden ser realizados por, el
sistema de ordenador sin la necesidad de que el sistema de
reconocimiento de voz suministre datos adicionales y utilice espacio
de almacenamiento o memoria de ordenador.
El análisis de los estados y sucesos del sistema
a fin de identificar la probable coincidencia de contexto pueden
realizarse utilizando una técnica de modelo estadístico. Y, se
pueden usar sucesos y estados pasados para modificar el modelo
estadístico. Así, el presente invento permite el objeto y ventaja
adicionales de proporcionar un modelo estadístico preparado para las
elecciones de instrucciones de un orador dado o para el conjunto de
oradores que usan el sistema.
Estos y otros objetos, ventajas y aspectos del
invento serán más manifiestos a partir de la siguiente descripción.
En la descripción se hace referencia a los dibujos anejos que forman
parte de ella, y en los que se muestra una realización preferida del
invento. Tal realización no representa necesariamente todo el
alcance del invento, por lo que se hace referencia a las
reivindicaciones anejas para interpretar el alcance del invento.
En los dibujos se muestran las realizaciones que
son actualmente preferidas, quedando entendido, sin embargo, que el
invento no está limitado a las mismas disposiciones y medios
mostrados, en los que:
la Figura 1 muestra un programa informático de
reconocimiento de voz con el que se puede utilizar el método y
sistema del presente invento;
la Figura 2 es un diagrama de bloques que muestra
una arquitectura típica del programa informático de la Figura 1 que
tiene un instrumento de reconocimiento de voz;
la Figura 3 es un diagrama de bloques que muestra
la arquitectura de un instrumento de reconocimiento de voz, que
incluye el presente invento;
la Figura 4 es un organigrama de bloques que
ilustra un proceso de reconocimiento de instrucciones de voz de
acuerdo con el presente invento;
la Figura 5 muestra los estados y sucesos de un
sistema a modo de ejemplo que puede ser usado para poner en práctica
el presente invento; y
la Figura 6 muestra el proceso de reconocimiento
de instrucciones orales de acuerdo con el presente invento para los
estados y sucesos del sistema a modo de ejemplo de la Figura 5.
Con referencia a los dibujos en detalle, en los
que caracteres con la misma referencia representan los elementos
correspondientes a lo largo de las diversas vistas, más
específicamente con referencia a la Figura 1, un programa
informático con el que se puede practicar el presente invento está
referido generalmente con el número de referencia 10. El programa
informático 10 está preferiblemente compuesto por un ordenador 12
que tiene una unidad central de proceso 14 (Figura 2), al menos un
dispositivo de memoria 16 y los correspondientes circuitos
electrónicos (no mostrados). El programa informático 10 también
incluye dispositivos de entrada de usuario, un teclado 18 y un
dispositivo apuntador 20, un micrófono 22, altavoces 24, y una
pantalla de vídeo 26, todos los cuales están operativamente
conectados al ordenador 10 a través de unos circuitos de interfaz
apropiados. El dispositivo apuntador 20 y los altavoces 24 pueden
ser una parte del programa informático 10, aunque no son necesarios
para el funcionamiento del invento.
Generalmente, el sistema de ordenador 10, como se
ha descrito anteriormente, puede ser satisfecho por cualquiera de
los muchos ordenadores personales multimedia de alta velocidad
comercialmente disponibles de fabricantes tales como International
Business Machines Corporation, Compaq, Hewlett Packard, o Apple
Computers. Los dispositivos de memoria 16 incluyen preferiblemente
un módulo de memoria electrónica de acceso aleatorio y un
dispositivo de memoria masiva, tal como un controlador de disco
magnético. La unidad de proceso central 14 puede ser cualquier chip
procesador apropiado, tal como cualquiera de los chips
microprocesadores de la familia Pentium comercialmente disponibles
en Intel Corporation.
Con referencia a la Figura 2, que ilustra una
arquitectura típica de un programa informático 10 que tiene un
sistema de reconocimiento de voz, el sistema incluye un sistema
operativo 28 y un sistema 30 de reconocimiento de voz. El sistema 30
de reconocimiento de voz incluye una aplicación 32 de instrumento de
reconocimiento y una aplicación 34 de navegación de voz. También
puede incluir una aplicación 36 de procesamiento de texto.
En la Figura 2, el dispositivo 32 de
reconocimiento de voz, el navegador de voz 34 y el procesador de
texto 36 se muestran como programas de aplicación independientes.
Sin embargo, se debe advertir que el invento no está limitado a este
aspecto, y estas aplicaciones podrían ser puestas en práctica como
una aplicación única más compleja. También, el sistema 30 puede ser
modificado para funcionar sin la aplicación 36 de procesador de
texto si el sistema 30 de reconocimiento de voz va a ser usado
solamente para instrucción y control.
En una realización preferida, el sistema
operativo 28 es uno de los sistemas operativos de la familia
Windows, tales como Windows NT, Windows 95 o Windows 98, que están
disponibles en Microsoft Corporation de Redmond, Washington. Sin
embargo, el presente invento no está limitado a este aspecto, ya que
puede usarse con cualquier otro tipo de sistema operativo
informático.
Con referencia todavía a la Figura 2, en general,
una señal analógica de audio que contiene instrucciones de voz es
recibida por el micrófono 22 y es procesada dentro del ordenador 12
por circuitos de audio convencionales, que tienen un convertidor de
analógico a digital que produce una forma digitalizada de la señal.
El sistema operativo 28 transfiere la señal de instrucción digital
al sistema 30 de reconocimiento de voz, donde la instrucción es
reconocida por el dispositivo 32 de reconocimiento de voz (como se
describe más adelante). La instrucción reconocida es después enviada
como una frase de texto a una aplicación, tal como la aplicación 34
de navegador de voz, para realizar la función de control.
Con referencia ahora a la Figura 3, con más
detalle, el instrumento 32 de reconocimiento de voz recibe una
instrucción digital de voz desde el sistema operativo 28. La señal
digital es después transformada en el bloque de representación 38 en
un útil conjunto de datos muestreando la señal digital a un ritmo
fijado, normalmente cada 10-20 milisegundos. El
bloque 38 produce una nueva representación de la señal de audio, que
entonces puede ser usada en fases sucesivas del proceso de
reconocimiento de instrucción de voz para determinar la probabilidad
de que la parte de una forma de onda analizada se corresponde con un
suceso fonético particular. Este proceso tiene como fin resaltar de
modo perceptivo las características importantes independientes del
altavoz de la señal de instrucción de voz digitalizada recibida del
sistema operativo 28. En el bloque de clasificación 40, la señal de
instrucción de voz procesada se usa a fin de identificar, de todo el
conjunto de instrucciones de control, un subconjunto de
instrucciones probables que corresponden a la instrucción de voz
digitalizada (como se describe con detalle más adelante). Este
conjunto de instrucciones probables es buscado en el bloque 42 para
obtener la instrucción reconocida. Una vez que la instrucción ha
sido reconocida, se usa para ejecutar la correspondiente función de
sistema o aplicación.
Con referencia todavía a la Figura 3, el bloque
de clasificación 40 es realizado por el bloque 44 de modelización
acústica 44, por el bloque de modelización de contextos 46 y por el
bloque de análisis estadístico 48. En el bloque de modelización
acústica 44, algoritmos conocidos procesan la señal de instrucción
oral para adaptar modelos acústicos independientes del altavoz,
contenidos en la memoria 16, con la señal acústica del altavoz
actual e identificar una o más instrucciones de probable
coincidencia. En el bloque 46 algoritmos adicionales procesan la
señal de instrucción de acuerdo con el estado actual así como
sucesos de contexto que suceden antes o a la vez que la instrucción
oral. En el bloque 48 los estados y sucesos del sistema se analizan
preferentemente de forma estadística, utilizando técnicas
estadísticas de modelización, a fin de identificar una o más
instrucciones probables que coincidan con el contexto en el que se
dio la instrucción. El bloque 46 puede ser ejecutado
independientemente de la modelización acústica 44 o ser realizado
siguiendo la modelización acústica para limitar más las probables
coincidencias acústicas.
Con referencia ahora a la Figura 4, el proceso de
reconocimiento de instrucciones orales comienza en el paso 50 en el
que el dispositivo de reconocimiento de voz 32 obtiene la señal de
instrucción digitalizada del sistema operativo 28. En el paso 52, el
instrumento 32 de reconocimiento de voz adquiere modelos acústicos
de la memoria 16. Después, en el paso 54, el programa informático 10
se monitoriza para discernir el estado actual del sistema así como
los sucesos del sistema o de la aplicación ejecutados antes de o al
mismo tiempo que la instrucción oral. Los datos del estado o suceso
pueden ser archivados en la memoria de acceso aleatorio o en un
archivo histórico almacenado en el dispositivo de almacenaje masivo,
y ser solicitados durante el proceso de reconocimiento de
instrucción. O, el estado y los sucesos del sistema pueden ser
comprobados una vez, o muestreados a un ritmo fijado, durante el
proceso de reconocimiento sin guardarlos en la memoria. De cualquier
forma los estados y sucesos en sí mismos suministran datos para el
análisis de contexto, y por lo tanto, el sistema de reconocimiento
de voz del presente invento no requiere almacenar grandes archivos
de datos de
contexto.
contexto.
En particular, el instrumento 32 de
reconocimiento de voz adquiere datos correspondientes a la actividad
del sistema, a aplicaciones activas, a instrucciones anteriores, y a
una cola de sucesos. Específicamente, estas estructuras de datos
incluyen actividades tales como: entradas de usuario procedentes de
voz o de un ratón, estilógrafo o teclado; funcionamiento de menús
desplegables o botones; la activación de aplicaciones o de
miniaplicaciones dentro de una aplicación; instrucciones anteriores;
y de sucesos vacíos, esto es, cuando no está archivada ninguna
actividad en una cola de sucesos en un periodo de tiempo prescrito.
Estos estados y sucesos del sistema, en especial las instrucciones
anteriores, pueden ser seguidas y usadas por el orador o por el
sistema para crear instrucciones de voz nuevas o truncadas basadas
en la frecuencia en la que se usan ciertas combinaciones de
instrucciones. Estos datos también pueden ser usados en una base en
curso para actualizar el modelo estadístico, de forma que pueda ser
adaptado a un patrón de elección de instrucción de usuario.
Con referencia todavía a la Figura 4, en el paso
56, la señal de audio es modelada acústicamente y los datos de
contexto son analizados estadísticamente a fin de identificar las
probables coincidencias respectivas acústicas y de contexto, como se
ha descrito anteriormente. Basándose en estas coincidencias, en el
paso 58, una instrucción es "reconocida" como que corresponde a
la instrucción oral. En el paso 60, el instrumento 32 de
reconocimiento de voz comunica con el sistema operativo 28 o con una
aplicación, tal como el navegador de voz 34, para poner en práctica
la instrucción reconocida. El sistema comprueba después y busca una
señal de instrucción adicional en el paso 62. Si existe una
instrucción adicional, el dispositivo 32 de reconocimiento de voz
recibe la señal y se repite el proceso anterior, de lo contrario, la
rutina se detiene.
A modo de ilustración, el presente invento puede
ser puesto en puesto en práctica usando la red finita de muestras de
estados y sucesos ilustrada en la Figura 5. En este caso, la red
comienza en el estado 64 con el programa informático teniendo una
aplicación de procesador de texto activa. En este estado, como no se
ha cargado ningún archivo de texto, un conjunto de sucesos incluye
las instrucciones: "nuevo" y "abierto". La realización de
uno de estos sucesos hace que el sistema esté en el estado 66
"archivo cargado", en el que los sucesos "cerrar" o
"salida" pueden ser realizados para colocar el sistema en un
estado 68 "ningún archivo cargado".
Con referencia ahora a la Figura 6 que ilustra un
proceso de reconocimiento de muestra usando los estados y sucesos
del contexto del sistema de la Figura 5, en el bloque 70, un altavoz
pronuncia una instrucción de archivo "nuevo" que es recibida a
través del micrófono 22. En el bloque 72, se adquiere un modelo
acústico, que en este caso es un conjunto finito de palabras. En el
bloque 74, la instrucción oral se modela acústicamente y se asignan
a cada instrucción valores o pesos de reconocimiento en el conjunto
de modelo acústico. La palabras de más peso, aquí "nuevo" el
50%, es identificada como la coincidencia acústica más probable.
También, el sistema operativo informático 28 es monitorizado en los
actuales y anteriores estados del sistema, en el bloque 76. En este
caso, como se ve en el bloque 78, éste incluye solamente el estado
"procesador de texto activo". En el bloque 80%, se analiza
estadísticamente la instrucción oral, aquí de acuerdo con un
conjunto finito de instrucciones ponderadas de acuerdo con la
probabilidad estadística de que sus sucesos correspondientes que
sucedan en el estado dado. La instrucción de mayor peso,
"nuevo" en el 60%, es identificada como la coincidencia de
contexto más probable. En este punto, ambos modelos comparan la
instrucción oral con la instrucción "nuevo", que el
reconocimiento de voz selecciona como la instrucción oral.
Con referencia todavía a la Figura 6, la
instrucción de archivo "nuevo" es ejecutada a continuación y el
sistema se mueve al estado 66 "archivo cargado". Ahora, el
orador pronuncia una instrucción de archivo "cerrar" que se
recibe a través del micrófono 22, en el bloque 82. Se debe advertir
que como los sistemas de reconocimiento de voz convencionales
realizan ambas funciones de instrucción y control del dictado de
voz, los modelos acústicos contienen términos distintos de
instrucciones, tales como "ropa" en este ejemplo. En el bloque
84, se adquiere otro modelo acústico, que nuevamente es un conjunto
finito de instrucciones. En el bloque 84, la instrucción oral es
modelada acústicamente y se asignan valores o pesos a cada
instrucción en el conjunto de modelo acústico a fin de identificar
una probable coincidencia acústica. Nuevamente, el sistema operativo
informático 28 es monitorizado para los actuales y anteriores
estados del sistema, en el bloque 88, que ahora incluye los estados
de "procesador de texto activo" y "archivo cargado" así
como el suceso de archivo "nuevo", como se muestra en el bloque
90. En el bloque 92, la instrucción oral es analizada
estadísticamente, nuevamente de acuerdo con un conjunto finito de
instrucciones ponderadas y se identifica una probable coincidencia
de contexto. Ahora, de acuerdo con el modelo estadístico, dos
palabras: "cerrar" y "ropa" son igualmente probable que
sean la instrucción oral. Sin embargo, de acuerdo con el análisis de
los estados y sucesos, la instrucción que coincide es "cerrar".
Así, el sistema reconoce y ejecuta el archivo instrucción
"cerrar".
En el caso en que el modelo acústico y el
análisis de contexto proporcionen términos diferentes como posibles
coincidencias, la coincidencia acústica y la coincidencia de
contexto pueden ser cada una ponderada para establecer cuál de las
dos prevalece.
Mientras que la anterior especificación ilustra y
describe las realizaciones preferidas del invento, queda entendido
que el invento no está limitado a la exacta construcción aquí
descrita. Consecuentemente, se debería hacer referencia a las
siguientes reivindicaciones, más que a la anterior especificación,
como indicación del alcance del invento.
Claims (11)
1. Un método para uso en un programa informático
para reconocimiento de voz que funciona en diversos estados y
ejecuta un programa para poner en práctica diversos sucesos, para
reconocer una instrucción oral, que comprende los pasos de:
monitorizar (54) al menos uno de dichos sucesos y
estados;
recibir una instrucción procesada correspondiente
a dicha instrucción oral;
analizar (44) dicha instrucción procesada de
acuerdo con al menos un modelo acústico a fin de identificar una
probable coincidencia acústica;
analizar (48) dicha instrucción procesada a fin
de identificar una probable coincidencia de contexto usando un
modelo estadístico para analizar al menos uno de dichos sucesos y
estados de acuerdo con un conjunto finito de instrucciones
ponderadas de acuerdo con la probabilidad estadística de sus sucesos
correspondientes que ocurren en el estado dado; y
proporcionar una instrucción reconocida basada en
dichas probables coincidencias acústicas y de contexto.
2. El método de acuerdo con la reivindicación 1,
en el que dichos sucesos incluyen al menos una de entre una
actividad de control del sistema, una aplicación activa, una
instrucción anterior y una cola de sucesos.
3. El método de acuerdo con la reivindicación 2,
en el que se usan sucesos y estados pasados para modificar dicho
modelo estadístico.
4. El método de acuerdo con la reivindicación 1
que adicionalmente comprende los pasos de:
predecir un suceso siguiente usando dicho modelo
estadístico, y
estimar dicha instrucción oral de acuerdo con
dicho suceso siguiente.
5. El método de acuerdo con la reivindicación 4,
en el que dichos sucesos del sistema incluyen al menos una de entre
una actividad de control del sistema, una aplicación activa, una
instrucción anterior y una cola de sucesos.
6. El método de acuerdo con la reivindicación 5,
en el que se usan sucesos pasados del sistema para modificar dicho
modelo estadístico.
7. El método de acuerdo con la reivindicación 5,
que además comprende el paso de recibir una instrucción procesada
que corresponde a dicha instrucción oral, y en el que dicho paso de
producir incluye además analizar dicha instrucción procesada de
acuerdo con uno o más modelos acústicos y dicho paso de estimar
incluye además identificar una probable instrucción de acuerdo con
dicho uno o más modelos acústicos.
8. Un sistema para reconocer una instrucción
oral, que comprende:
medios para monitorizar al menos uno de los
estados y sucesos del sistema;
medios para recibir una instrucción procesada
correspondiente a dicha instrucción oral;
medios para analizar dicha instrucción procesada
de acuerdo con al menos un modelo acústico a fin de identificar una
probable coincidencia acústica y que usan un modelo estadístico para
analizar al menos uno de dichos sucesos y estados a fin de
identificar una probable coincidencia de contexto de acuerdo con un
conjunto finito de instrucciones ponderadas de acuerdo con la
probabilidad estadística de sus sucesos correspondientes que ocurren
en el estado dado; y
medios para proporcionar una instrucción
reconocida basada en dichas probables coincidencias acústicas y de
contexto.
9. El sistema citado en la reivindicación 8, en
el que dichos sucesos incluyen al menos una de entre una actividad
de control del sistema, una aplicación activa, una instrucción
anterior y una cola de sucesos.
10. El sistema citado en la reivindicación 9, en
el que se usan sucesos y estados pasados para modificar dicho modelo
estadístico.
11. Una memoria que puede ser leída por una
máquina y, que tiene almacenado en ella un programa informático que
tiene una pluralidad de secciones codificadas ejecutable por una
máquina para hacer que la máquina realice el método de cualquiera de
las reivindicaciones 1 a 7.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US321918 | 1999-05-29 | ||
US09/321,918 US6345254B1 (en) | 1999-05-29 | 1999-05-29 | Method and apparatus for improving speech command recognition accuracy using event-based constraints |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2248018T3 true ES2248018T3 (es) | 2006-03-16 |
Family
ID=23252615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00304415T Expired - Lifetime ES2248018T3 (es) | 1999-05-29 | 2000-05-24 | Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6345254B1 (es) |
EP (1) | EP1063635B1 (es) |
AT (1) | ATE308097T1 (es) |
CA (1) | CA2303718A1 (es) |
DE (1) | DE60023398T2 (es) |
ES (1) | ES2248018T3 (es) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8239197B2 (en) * | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
AU2003222132A1 (en) | 2002-03-28 | 2003-10-13 | Martin Dunsmuir | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
US20030195751A1 (en) * | 2002-04-10 | 2003-10-16 | Mitsubishi Electric Research Laboratories, Inc. | Distributed automatic speech recognition with persistent user parameters |
JP3724461B2 (ja) * | 2002-07-25 | 2005-12-07 | 株式会社デンソー | 音声制御装置 |
CN1714390B (zh) * | 2002-11-22 | 2010-12-22 | 微差通信奥地利有限责任公司 | 语音识别设备和方法 |
US7392183B2 (en) * | 2002-12-27 | 2008-06-24 | Intel Corporation | Schedule event context for speech recognition |
US7552221B2 (en) | 2003-10-15 | 2009-06-23 | Harman Becker Automotive Systems Gmbh | System for communicating with a server through a mobile communication device |
DE602004010054T2 (de) * | 2004-01-19 | 2008-03-06 | Harman Becker Automotive Systems Gmbh | Betätigung eines Sprachdialogsystems |
DE602004017955D1 (de) * | 2004-01-29 | 2009-01-08 | Daimler Ag | Verfahren und System zur Sprachdialogschnittstelle |
EP1560199B1 (en) * | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodal data input |
EP1562180B1 (en) * | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Speech dialogue system and method for controlling an electronic device |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US9570086B1 (en) | 2011-11-18 | 2017-02-14 | Google Inc. | Intelligently canceling user input |
US9530409B2 (en) | 2013-01-23 | 2016-12-27 | Blackberry Limited | Event-triggered hands-free multitasking for media playback |
US10311865B2 (en) | 2013-10-14 | 2019-06-04 | The Penn State Research Foundation | System and method for automated speech recognition |
US10310923B1 (en) | 2014-08-28 | 2019-06-04 | Seagate Technology Llc | Probabilistic aging command sorting |
US10831403B2 (en) | 2017-05-19 | 2020-11-10 | Seagate Technology Llc | Probabalistic command aging and selection |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
CA2115210C (en) * | 1993-04-21 | 1997-09-23 | Joseph C. Andreshak | Interactive computer system recognizing spoken commands |
US5465317A (en) * | 1993-05-18 | 1995-11-07 | International Business Machines Corporation | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
US5867817A (en) * | 1996-08-19 | 1999-02-02 | Virtual Vision, Inc. | Speech recognition manager |
-
1999
- 1999-05-29 US US09/321,918 patent/US6345254B1/en not_active Expired - Lifetime
-
2000
- 2000-04-05 CA CA002303718A patent/CA2303718A1/en not_active Abandoned
- 2000-05-24 AT AT00304415T patent/ATE308097T1/de not_active IP Right Cessation
- 2000-05-24 EP EP00304415A patent/EP1063635B1/en not_active Expired - Lifetime
- 2000-05-24 ES ES00304415T patent/ES2248018T3/es not_active Expired - Lifetime
- 2000-05-24 DE DE60023398T patent/DE60023398T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE308097T1 (de) | 2005-11-15 |
DE60023398D1 (de) | 2005-12-01 |
CA2303718A1 (en) | 2000-11-29 |
US6345254B1 (en) | 2002-02-05 |
DE60023398T2 (de) | 2006-07-06 |
EP1063635A3 (en) | 2003-02-05 |
EP1063635A2 (en) | 2000-12-27 |
EP1063635B1 (en) | 2005-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2248018T3 (es) | Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos. | |
US6754627B2 (en) | Detecting speech recognition errors in an embedded speech recognition system | |
US6308157B1 (en) | Method and apparatus for providing an event-based “What-Can-I-Say?” window | |
US6327566B1 (en) | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US6269335B1 (en) | Apparatus and methods for identifying homophones among words in a speech recognition system | |
US6185530B1 (en) | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system | |
US6192337B1 (en) | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system | |
US6374214B1 (en) | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP2005234572A (ja) | 談話機能に対する予測モデルを判定する方法およびシステム | |
Matarneh et al. | Speech recognition systems: A comparative review | |
EP1525577B1 (en) | Method for automatic speech recognition | |
JP3803029B2 (ja) | 音声認識装置 | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
US6745165B2 (en) | Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system | |
US20010016814A1 (en) | Method and device for recognizing predefined keywords in spoken language | |
JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
JP6070809B1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
JP6632764B2 (ja) | 意図推定装置及び意図推定方法 | |
JP4220151B2 (ja) | 音声対話装置 | |
US6275803B1 (en) | Updating a language model based on a function-word to total-word ratio | |
JP2008216618A (ja) | 音声判別装置 |