ES2248018T3 - Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos. - Google Patents

Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos.

Info

Publication number
ES2248018T3
ES2248018T3 ES00304415T ES00304415T ES2248018T3 ES 2248018 T3 ES2248018 T3 ES 2248018T3 ES 00304415 T ES00304415 T ES 00304415T ES 00304415 T ES00304415 T ES 00304415T ES 2248018 T3 ES2248018 T3 ES 2248018T3
Authority
ES
Spain
Prior art keywords
instruction
events
acoustic
states
probable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00304415T
Other languages
English (en)
Inventor
Barbara Elaine IBM United Kingdom Ltd. Ballard
James R. IBM United Kingdom Ltd. Lewis
Amado. IBM United Kingdom Ltd. Nassiff
Kerry A. IBM United Kingdom Ltd. Ortega
Ronald E. IBM United Kingdom Ltd. Vanbuskirk
Huifang IBM United Kingdom Ltd. Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of ES2248018T3 publication Critical patent/ES2248018T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Un método para uso en un programa informático para reconocimiento de voz que funciona en diversos estados y ejecuta un programa para poner en práctica diversos sucesos, para reconocer una instrucción oral, que comprende los pasos de: monitorizar (54) al menos uno de dichos sucesos y estados; recibir una instrucción procesada correspondiente a dicha instrucción oral; analizar (44) dicha instrucción procesada de acuerdo con al menos un modelo acústico a fin de identificar una probable coincidencia acústica; analizar (48) dicha instrucción procesada a fin de identificar una probable coincidencia de contexto usando un modelo estadístico para analizar al menos uno de dichos sucesos y estados de acuerdo con un conjunto finito de instrucciones ponderadas de acuerdo con la probabilidad estadística de sus sucesos correspondientes que ocurren en el estado dado; y proporcionar una instrucción reconocida basada en dichas probables coincidencias acústicas y de contexto.

Description

Método y aparato para mejorar la precisión del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos.
Antecedentes del invento 1. Campo técnico
Este invento se refiere al campo de las aplicaciones de ordenador de reconocimiento de voz, y más específicamente, a un sistema para mejorar la precisión de la orden de reconocimiento de un sistema de reconocimiento de voz.
2. Descripción de la técnica relacionada
El reconocimiento de voz es el proceso mediante el cual las señales acústicas, recibidas a través de un micrófono, son convertidas en palabras mediante un ordenador. Una vez reconocidas, las palabras pueden ser usadas en diferentes aplicaciones de programas informáticos con fines tales como preparación de documentos, introducción de datos, y mando y control. El reconocimiento de voz es generalmente un problema difícil debido a la gran variedad de características de pronunciaciones, acentos y voz de cada orador. Por lo tanto, se utilizan conjuntos de limitaciones para tomar decisiones sobre las palabras pronunciadas por un usuario.
Los sistemas normales de reconocimiento de voz al dictado utilizan dos conjuntos de limitaciones, es decir, un modelo acústico y un modelo de lenguaje. El modelo acústico considera los sonidos que forman las palabras y el modelo de lenguaje considera el contexto gramatical en el que se usan las palabras. Estos modelos se usan a menudo para ayudar a reducir el espacio de búsqueda de posibles palabras y a resolver ambigüedades como las que se producen entre palabras que suenan igual. Tales modelos tienden a ser sistemas basados en estadísticas y pueden ser proporcionados en diversas formas. El modelo de lenguaje más sencillo, por ejemplo, puede ser especificado como una red de estado finito, en la que se dan de forma explícita las palabras permisibles que siguen a cada palabra. Sin embargo, también se han desarrollado modelos de lenguaje más sofisticados que se especifican con relación a una gramática de contexto especificado.
Al usar un sistema de reconocimiento de voz para controlar el sistema y el funcionamiento y navegación de la aplicación del programa informático, se formula un conjunto de instrucciones para tareas y funciones específicas. Cada instrucción es normalmente una o dos palabras de una frase corta que representa una expresión común para realizar una operación dada. Los sistemas típicos de reconocimiento de instrucciones de voz pueden tener un gran número de tales instrucciones. Para que el orador no tenga que memorizar la expresión precisa de las instrucciones, sistemas sofisticados también reconocen expresiones alternativas que tienen el mismo significado que una instrucción conocida. Normalmente, se emplean modelos de lenguaje, como se hace en el reconocimiento al dictado, para limitar sintácticamente las instrucciones habladas.
Sin embargo, debido a que las instrucciones, y sus contrapartes sinónimas, son normalmente una o dos palabras, los modelos sintácticos son a menudo ineficaces. Así, los sistemas de reconocimiento de voz convencionales tienen una muy fuerte dependencia de modelos acústicos para seleccionar una de un conjunto de instrucciones, y como consecuencia, tienen dificultad en reconocer las instrucciones pronunciadas. Por ejemplo, si la instrucción pronunciada suena similar a otras instrucciones, el sistema de reconocimiento de voz puede ejecutar una instrucción no deseada, o el sistema de reconocimiento puede no ejecutar ninguna instrucción. En cualquier caso, el orador tendrá que volver a dictar la instrucción o introducirla con otro dispositivo de introducción.
El documento de patente de EEUU nº 5867817 describe un gestor de reconocimiento de voz para un sistema de visualización montada en la cabeza que es sensible a la voz, esencialmente para funcionar con manos libres.
El documento de patente de EEUU nº 5390279 describe dividiendo las reglas de pronunciación por contexto para reconocimiento de voz. Los contextos de cada regla de reconocimiento de voz se determinan cuando está activa cada una de las reglas. En un intervalo se determinan o agrupan o dividen contextos comunes de reglas de pronunciación en conjuntos de reglas de pronunciación de acuerdo con estos contextos comunes. Entonces se puede realizar la generación rápida de un modelo de lenguaje por detección de un texto corriente en un segundo intervalo.
Consecuentemente, sería deseable proporcionar un sistema para mejorar la precisión del reconocimiento de instrucciones orales para controlar el sistema y el funcionamiento de la aplicación.
Es un objeto del presente invento proporcionar una técnica que remedie las anteriores desventajas.
Resumen del invento
De acuerdo con el presente invento proporcionamos un método, en un sistema de ordenador para reconocimiento de voz, que funciona en diversos estados y el funcionamiento de un programa para realizar diferentes sucesos, para reconocer una instrucción oral, que comprende los pasos de: monitorizar al menos uno de dichos sucesos y estados; recibir una instrucción procesada correspondiente a dicha instrucción oral; analizar dicha instrucción procesada de acuerdo con al menos un modelo acústico a fin de identificar una probable coincidencia acústica; analizar dicha instrucción procesada a fin de identificar una probable coincidencia de contexto usando un modelo estadístico para analizar al menos uno de dichos sucesos y estados; y proporcionar una instrucción reconocida basada en dichas probables coincidencias acústicas y de contexto.
También un método, en un sistema de ordenador de reconocimiento de voz para mejorar la precisión con la que se reconoce una instrucción oral, que comprende los pasos de: monitorizar los sucesos del sistema; predecir un suceso siguiente usando un modelo estadístico para analizar dichos sucesos del sistema; y estimar dichas instrucciones habladas de acuerdo con dicho suceso siguiente.
Se ha determinado que el contexto en el que una instrucción oral es ejecutada se puede utilizar como un sustituto de los modelos de lenguaje utilizados para reconocimiento del dictado. En particular, las estructuras de datos basadas en sucesos, que son indicativas del contexto en el que se da la instrucción, se usan como limitaciones en el proceso de reconocimiento. Así, el presente invento proporciona un sistema para mejorar la precisión de reconocimiento de la instrucción en sistemas de reconocimiento de voz.
Específicamente, el presente invento funciona en un programa informático de reconocimiento de voz que funciona en diversos estados y que ejecuta un programa para realizar diversos sucesos. El método y el sistema se realizan monitorizando los sucesos y estados y recibiendo una instrucción procesada que corresponde a una instrucción oral. La instrucción procesada es analizada de acuerdo con uno o más modelos acústicos a fin de identificar una probable coincidencia acústica. Igualmente, la instrucción es analizada de acuerdo con al menos uno de los sucesos y estados a fin de identificar una probable coincidencia de contexto. Con base en las probables coincidencias acústicas y de contexto, el sistema proporciona una instrucción reconocida.
El presente invento proporciona el objeto y la ventaja del reconocimiento preciso de sistemas hablados y mandos de control de aplicación. El presente invento proporciona un reconocimiento preciso de la instrucción de voz incluso si la instrucción oral es solamente una única palabra.
Los estados y sucesos pueden incluir la actividad de control del sistema, aplicaciones activas, instrucciones anteriores y una cola de sucesos. Así, el presente invento proporciona un objeto y una ventaja adicionales porque uno o más parámetros de limitación existen, o pueden ser realizados por, el sistema de ordenador sin la necesidad de que el sistema de reconocimiento de voz suministre datos adicionales y utilice espacio de almacenamiento o memoria de ordenador.
El análisis de los estados y sucesos del sistema a fin de identificar la probable coincidencia de contexto pueden realizarse utilizando una técnica de modelo estadístico. Y, se pueden usar sucesos y estados pasados para modificar el modelo estadístico. Así, el presente invento permite el objeto y ventaja adicionales de proporcionar un modelo estadístico preparado para las elecciones de instrucciones de un orador dado o para el conjunto de oradores que usan el sistema.
Estos y otros objetos, ventajas y aspectos del invento serán más manifiestos a partir de la siguiente descripción. En la descripción se hace referencia a los dibujos anejos que forman parte de ella, y en los que se muestra una realización preferida del invento. Tal realización no representa necesariamente todo el alcance del invento, por lo que se hace referencia a las reivindicaciones anejas para interpretar el alcance del invento.
Breve descripción de los dibujos
En los dibujos se muestran las realizaciones que son actualmente preferidas, quedando entendido, sin embargo, que el invento no está limitado a las mismas disposiciones y medios mostrados, en los que:
la Figura 1 muestra un programa informático de reconocimiento de voz con el que se puede utilizar el método y sistema del presente invento;
la Figura 2 es un diagrama de bloques que muestra una arquitectura típica del programa informático de la Figura 1 que tiene un instrumento de reconocimiento de voz;
la Figura 3 es un diagrama de bloques que muestra la arquitectura de un instrumento de reconocimiento de voz, que incluye el presente invento;
la Figura 4 es un organigrama de bloques que ilustra un proceso de reconocimiento de instrucciones de voz de acuerdo con el presente invento;
la Figura 5 muestra los estados y sucesos de un sistema a modo de ejemplo que puede ser usado para poner en práctica el presente invento; y
la Figura 6 muestra el proceso de reconocimiento de instrucciones orales de acuerdo con el presente invento para los estados y sucesos del sistema a modo de ejemplo de la Figura 5.
Descripción de la realización preferida
Con referencia a los dibujos en detalle, en los que caracteres con la misma referencia representan los elementos correspondientes a lo largo de las diversas vistas, más específicamente con referencia a la Figura 1, un programa informático con el que se puede practicar el presente invento está referido generalmente con el número de referencia 10. El programa informático 10 está preferiblemente compuesto por un ordenador 12 que tiene una unidad central de proceso 14 (Figura 2), al menos un dispositivo de memoria 16 y los correspondientes circuitos electrónicos (no mostrados). El programa informático 10 también incluye dispositivos de entrada de usuario, un teclado 18 y un dispositivo apuntador 20, un micrófono 22, altavoces 24, y una pantalla de vídeo 26, todos los cuales están operativamente conectados al ordenador 10 a través de unos circuitos de interfaz apropiados. El dispositivo apuntador 20 y los altavoces 24 pueden ser una parte del programa informático 10, aunque no son necesarios para el funcionamiento del invento.
Generalmente, el sistema de ordenador 10, como se ha descrito anteriormente, puede ser satisfecho por cualquiera de los muchos ordenadores personales multimedia de alta velocidad comercialmente disponibles de fabricantes tales como International Business Machines Corporation, Compaq, Hewlett Packard, o Apple Computers. Los dispositivos de memoria 16 incluyen preferiblemente un módulo de memoria electrónica de acceso aleatorio y un dispositivo de memoria masiva, tal como un controlador de disco magnético. La unidad de proceso central 14 puede ser cualquier chip procesador apropiado, tal como cualquiera de los chips microprocesadores de la familia Pentium comercialmente disponibles en Intel Corporation.
Con referencia a la Figura 2, que ilustra una arquitectura típica de un programa informático 10 que tiene un sistema de reconocimiento de voz, el sistema incluye un sistema operativo 28 y un sistema 30 de reconocimiento de voz. El sistema 30 de reconocimiento de voz incluye una aplicación 32 de instrumento de reconocimiento y una aplicación 34 de navegación de voz. También puede incluir una aplicación 36 de procesamiento de texto.
En la Figura 2, el dispositivo 32 de reconocimiento de voz, el navegador de voz 34 y el procesador de texto 36 se muestran como programas de aplicación independientes. Sin embargo, se debe advertir que el invento no está limitado a este aspecto, y estas aplicaciones podrían ser puestas en práctica como una aplicación única más compleja. También, el sistema 30 puede ser modificado para funcionar sin la aplicación 36 de procesador de texto si el sistema 30 de reconocimiento de voz va a ser usado solamente para instrucción y control.
En una realización preferida, el sistema operativo 28 es uno de los sistemas operativos de la familia Windows, tales como Windows NT, Windows 95 o Windows 98, que están disponibles en Microsoft Corporation de Redmond, Washington. Sin embargo, el presente invento no está limitado a este aspecto, ya que puede usarse con cualquier otro tipo de sistema operativo informático.
Con referencia todavía a la Figura 2, en general, una señal analógica de audio que contiene instrucciones de voz es recibida por el micrófono 22 y es procesada dentro del ordenador 12 por circuitos de audio convencionales, que tienen un convertidor de analógico a digital que produce una forma digitalizada de la señal. El sistema operativo 28 transfiere la señal de instrucción digital al sistema 30 de reconocimiento de voz, donde la instrucción es reconocida por el dispositivo 32 de reconocimiento de voz (como se describe más adelante). La instrucción reconocida es después enviada como una frase de texto a una aplicación, tal como la aplicación 34 de navegador de voz, para realizar la función de control.
Con referencia ahora a la Figura 3, con más detalle, el instrumento 32 de reconocimiento de voz recibe una instrucción digital de voz desde el sistema operativo 28. La señal digital es después transformada en el bloque de representación 38 en un útil conjunto de datos muestreando la señal digital a un ritmo fijado, normalmente cada 10-20 milisegundos. El bloque 38 produce una nueva representación de la señal de audio, que entonces puede ser usada en fases sucesivas del proceso de reconocimiento de instrucción de voz para determinar la probabilidad de que la parte de una forma de onda analizada se corresponde con un suceso fonético particular. Este proceso tiene como fin resaltar de modo perceptivo las características importantes independientes del altavoz de la señal de instrucción de voz digitalizada recibida del sistema operativo 28. En el bloque de clasificación 40, la señal de instrucción de voz procesada se usa a fin de identificar, de todo el conjunto de instrucciones de control, un subconjunto de instrucciones probables que corresponden a la instrucción de voz digitalizada (como se describe con detalle más adelante). Este conjunto de instrucciones probables es buscado en el bloque 42 para obtener la instrucción reconocida. Una vez que la instrucción ha sido reconocida, se usa para ejecutar la correspondiente función de sistema o aplicación.
Con referencia todavía a la Figura 3, el bloque de clasificación 40 es realizado por el bloque 44 de modelización acústica 44, por el bloque de modelización de contextos 46 y por el bloque de análisis estadístico 48. En el bloque de modelización acústica 44, algoritmos conocidos procesan la señal de instrucción oral para adaptar modelos acústicos independientes del altavoz, contenidos en la memoria 16, con la señal acústica del altavoz actual e identificar una o más instrucciones de probable coincidencia. En el bloque 46 algoritmos adicionales procesan la señal de instrucción de acuerdo con el estado actual así como sucesos de contexto que suceden antes o a la vez que la instrucción oral. En el bloque 48 los estados y sucesos del sistema se analizan preferentemente de forma estadística, utilizando técnicas estadísticas de modelización, a fin de identificar una o más instrucciones probables que coincidan con el contexto en el que se dio la instrucción. El bloque 46 puede ser ejecutado independientemente de la modelización acústica 44 o ser realizado siguiendo la modelización acústica para limitar más las probables coincidencias acústicas.
Con referencia ahora a la Figura 4, el proceso de reconocimiento de instrucciones orales comienza en el paso 50 en el que el dispositivo de reconocimiento de voz 32 obtiene la señal de instrucción digitalizada del sistema operativo 28. En el paso 52, el instrumento 32 de reconocimiento de voz adquiere modelos acústicos de la memoria 16. Después, en el paso 54, el programa informático 10 se monitoriza para discernir el estado actual del sistema así como los sucesos del sistema o de la aplicación ejecutados antes de o al mismo tiempo que la instrucción oral. Los datos del estado o suceso pueden ser archivados en la memoria de acceso aleatorio o en un archivo histórico almacenado en el dispositivo de almacenaje masivo, y ser solicitados durante el proceso de reconocimiento de instrucción. O, el estado y los sucesos del sistema pueden ser comprobados una vez, o muestreados a un ritmo fijado, durante el proceso de reconocimiento sin guardarlos en la memoria. De cualquier forma los estados y sucesos en sí mismos suministran datos para el análisis de contexto, y por lo tanto, el sistema de reconocimiento de voz del presente invento no requiere almacenar grandes archivos de datos de
contexto.
En particular, el instrumento 32 de reconocimiento de voz adquiere datos correspondientes a la actividad del sistema, a aplicaciones activas, a instrucciones anteriores, y a una cola de sucesos. Específicamente, estas estructuras de datos incluyen actividades tales como: entradas de usuario procedentes de voz o de un ratón, estilógrafo o teclado; funcionamiento de menús desplegables o botones; la activación de aplicaciones o de miniaplicaciones dentro de una aplicación; instrucciones anteriores; y de sucesos vacíos, esto es, cuando no está archivada ninguna actividad en una cola de sucesos en un periodo de tiempo prescrito. Estos estados y sucesos del sistema, en especial las instrucciones anteriores, pueden ser seguidas y usadas por el orador o por el sistema para crear instrucciones de voz nuevas o truncadas basadas en la frecuencia en la que se usan ciertas combinaciones de instrucciones. Estos datos también pueden ser usados en una base en curso para actualizar el modelo estadístico, de forma que pueda ser adaptado a un patrón de elección de instrucción de usuario.
Con referencia todavía a la Figura 4, en el paso 56, la señal de audio es modelada acústicamente y los datos de contexto son analizados estadísticamente a fin de identificar las probables coincidencias respectivas acústicas y de contexto, como se ha descrito anteriormente. Basándose en estas coincidencias, en el paso 58, una instrucción es "reconocida" como que corresponde a la instrucción oral. En el paso 60, el instrumento 32 de reconocimiento de voz comunica con el sistema operativo 28 o con una aplicación, tal como el navegador de voz 34, para poner en práctica la instrucción reconocida. El sistema comprueba después y busca una señal de instrucción adicional en el paso 62. Si existe una instrucción adicional, el dispositivo 32 de reconocimiento de voz recibe la señal y se repite el proceso anterior, de lo contrario, la rutina se detiene.
A modo de ilustración, el presente invento puede ser puesto en puesto en práctica usando la red finita de muestras de estados y sucesos ilustrada en la Figura 5. En este caso, la red comienza en el estado 64 con el programa informático teniendo una aplicación de procesador de texto activa. En este estado, como no se ha cargado ningún archivo de texto, un conjunto de sucesos incluye las instrucciones: "nuevo" y "abierto". La realización de uno de estos sucesos hace que el sistema esté en el estado 66 "archivo cargado", en el que los sucesos "cerrar" o "salida" pueden ser realizados para colocar el sistema en un estado 68 "ningún archivo cargado".
Con referencia ahora a la Figura 6 que ilustra un proceso de reconocimiento de muestra usando los estados y sucesos del contexto del sistema de la Figura 5, en el bloque 70, un altavoz pronuncia una instrucción de archivo "nuevo" que es recibida a través del micrófono 22. En el bloque 72, se adquiere un modelo acústico, que en este caso es un conjunto finito de palabras. En el bloque 74, la instrucción oral se modela acústicamente y se asignan a cada instrucción valores o pesos de reconocimiento en el conjunto de modelo acústico. La palabras de más peso, aquí "nuevo" el 50%, es identificada como la coincidencia acústica más probable. También, el sistema operativo informático 28 es monitorizado en los actuales y anteriores estados del sistema, en el bloque 76. En este caso, como se ve en el bloque 78, éste incluye solamente el estado "procesador de texto activo". En el bloque 80%, se analiza estadísticamente la instrucción oral, aquí de acuerdo con un conjunto finito de instrucciones ponderadas de acuerdo con la probabilidad estadística de que sus sucesos correspondientes que sucedan en el estado dado. La instrucción de mayor peso, "nuevo" en el 60%, es identificada como la coincidencia de contexto más probable. En este punto, ambos modelos comparan la instrucción oral con la instrucción "nuevo", que el reconocimiento de voz selecciona como la instrucción oral.
Con referencia todavía a la Figura 6, la instrucción de archivo "nuevo" es ejecutada a continuación y el sistema se mueve al estado 66 "archivo cargado". Ahora, el orador pronuncia una instrucción de archivo "cerrar" que se recibe a través del micrófono 22, en el bloque 82. Se debe advertir que como los sistemas de reconocimiento de voz convencionales realizan ambas funciones de instrucción y control del dictado de voz, los modelos acústicos contienen términos distintos de instrucciones, tales como "ropa" en este ejemplo. En el bloque 84, se adquiere otro modelo acústico, que nuevamente es un conjunto finito de instrucciones. En el bloque 84, la instrucción oral es modelada acústicamente y se asignan valores o pesos a cada instrucción en el conjunto de modelo acústico a fin de identificar una probable coincidencia acústica. Nuevamente, el sistema operativo informático 28 es monitorizado para los actuales y anteriores estados del sistema, en el bloque 88, que ahora incluye los estados de "procesador de texto activo" y "archivo cargado" así como el suceso de archivo "nuevo", como se muestra en el bloque 90. En el bloque 92, la instrucción oral es analizada estadísticamente, nuevamente de acuerdo con un conjunto finito de instrucciones ponderadas y se identifica una probable coincidencia de contexto. Ahora, de acuerdo con el modelo estadístico, dos palabras: "cerrar" y "ropa" son igualmente probable que sean la instrucción oral. Sin embargo, de acuerdo con el análisis de los estados y sucesos, la instrucción que coincide es "cerrar". Así, el sistema reconoce y ejecuta el archivo instrucción "cerrar".
En el caso en que el modelo acústico y el análisis de contexto proporcionen términos diferentes como posibles coincidencias, la coincidencia acústica y la coincidencia de contexto pueden ser cada una ponderada para establecer cuál de las dos prevalece.
Mientras que la anterior especificación ilustra y describe las realizaciones preferidas del invento, queda entendido que el invento no está limitado a la exacta construcción aquí descrita. Consecuentemente, se debería hacer referencia a las siguientes reivindicaciones, más que a la anterior especificación, como indicación del alcance del invento.

Claims (11)

1. Un método para uso en un programa informático para reconocimiento de voz que funciona en diversos estados y ejecuta un programa para poner en práctica diversos sucesos, para reconocer una instrucción oral, que comprende los pasos de:
monitorizar (54) al menos uno de dichos sucesos y estados;
recibir una instrucción procesada correspondiente a dicha instrucción oral;
analizar (44) dicha instrucción procesada de acuerdo con al menos un modelo acústico a fin de identificar una probable coincidencia acústica;
analizar (48) dicha instrucción procesada a fin de identificar una probable coincidencia de contexto usando un modelo estadístico para analizar al menos uno de dichos sucesos y estados de acuerdo con un conjunto finito de instrucciones ponderadas de acuerdo con la probabilidad estadística de sus sucesos correspondientes que ocurren en el estado dado; y
proporcionar una instrucción reconocida basada en dichas probables coincidencias acústicas y de contexto.
2. El método de acuerdo con la reivindicación 1, en el que dichos sucesos incluyen al menos una de entre una actividad de control del sistema, una aplicación activa, una instrucción anterior y una cola de sucesos.
3. El método de acuerdo con la reivindicación 2, en el que se usan sucesos y estados pasados para modificar dicho modelo estadístico.
4. El método de acuerdo con la reivindicación 1 que adicionalmente comprende los pasos de:
predecir un suceso siguiente usando dicho modelo estadístico, y
estimar dicha instrucción oral de acuerdo con dicho suceso siguiente.
5. El método de acuerdo con la reivindicación 4, en el que dichos sucesos del sistema incluyen al menos una de entre una actividad de control del sistema, una aplicación activa, una instrucción anterior y una cola de sucesos.
6. El método de acuerdo con la reivindicación 5, en el que se usan sucesos pasados del sistema para modificar dicho modelo estadístico.
7. El método de acuerdo con la reivindicación 5, que además comprende el paso de recibir una instrucción procesada que corresponde a dicha instrucción oral, y en el que dicho paso de producir incluye además analizar dicha instrucción procesada de acuerdo con uno o más modelos acústicos y dicho paso de estimar incluye además identificar una probable instrucción de acuerdo con dicho uno o más modelos acústicos.
8. Un sistema para reconocer una instrucción oral, que comprende:
medios para monitorizar al menos uno de los estados y sucesos del sistema;
medios para recibir una instrucción procesada correspondiente a dicha instrucción oral;
medios para analizar dicha instrucción procesada de acuerdo con al menos un modelo acústico a fin de identificar una probable coincidencia acústica y que usan un modelo estadístico para analizar al menos uno de dichos sucesos y estados a fin de identificar una probable coincidencia de contexto de acuerdo con un conjunto finito de instrucciones ponderadas de acuerdo con la probabilidad estadística de sus sucesos correspondientes que ocurren en el estado dado; y
medios para proporcionar una instrucción reconocida basada en dichas probables coincidencias acústicas y de contexto.
9. El sistema citado en la reivindicación 8, en el que dichos sucesos incluyen al menos una de entre una actividad de control del sistema, una aplicación activa, una instrucción anterior y una cola de sucesos.
10. El sistema citado en la reivindicación 9, en el que se usan sucesos y estados pasados para modificar dicho modelo estadístico.
11. Una memoria que puede ser leída por una máquina y, que tiene almacenado en ella un programa informático que tiene una pluralidad de secciones codificadas ejecutable por una máquina para hacer que la máquina realice el método de cualquiera de las reivindicaciones 1 a 7.
ES00304415T 1999-05-29 2000-05-24 Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos. Expired - Lifetime ES2248018T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US321918 1999-05-29
US09/321,918 US6345254B1 (en) 1999-05-29 1999-05-29 Method and apparatus for improving speech command recognition accuracy using event-based constraints

Publications (1)

Publication Number Publication Date
ES2248018T3 true ES2248018T3 (es) 2006-03-16

Family

ID=23252615

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00304415T Expired - Lifetime ES2248018T3 (es) 1999-05-29 2000-05-24 Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos.

Country Status (6)

Country Link
US (1) US6345254B1 (es)
EP (1) EP1063635B1 (es)
AT (1) ATE308097T1 (es)
CA (1) CA2303718A1 (es)
DE (1) DE60023398T2 (es)
ES (1) ES2248018T3 (es)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
AU2003222132A1 (en) 2002-03-28 2003-10-13 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
CN1714390B (zh) * 2002-11-22 2010-12-22 微差通信奥地利有限责任公司 语音识别设备和方法
US7392183B2 (en) * 2002-12-27 2008-06-24 Intel Corporation Schedule event context for speech recognition
US7552221B2 (en) 2003-10-15 2009-06-23 Harman Becker Automotive Systems Gmbh System for communicating with a server through a mobile communication device
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
EP1560199B1 (en) * 2004-01-29 2008-07-09 Harman Becker Automotive Systems GmbH Multimodal data input
EP1562180B1 (en) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US9570086B1 (en) 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9530409B2 (en) 2013-01-23 2016-12-27 Blackberry Limited Event-triggered hands-free multitasking for media playback
US10311865B2 (en) 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US10310923B1 (en) 2014-08-28 2019-06-04 Seagate Technology Llc Probabilistic aging command sorting
US10831403B2 (en) 2017-05-19 2020-11-10 Seagate Technology Llc Probabalistic command aging and selection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5867817A (en) * 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager

Also Published As

Publication number Publication date
ATE308097T1 (de) 2005-11-15
DE60023398D1 (de) 2005-12-01
CA2303718A1 (en) 2000-11-29
US6345254B1 (en) 2002-02-05
DE60023398T2 (de) 2006-07-06
EP1063635A3 (en) 2003-02-05
EP1063635A2 (en) 2000-12-27
EP1063635B1 (en) 2005-10-26

Similar Documents

Publication Publication Date Title
ES2248018T3 (es) Metodo y aparato para mejorar la precision del reconocimiento de la orden de voz utilizando limitaciones basadas en eventos.
US6754627B2 (en) Detecting speech recognition errors in an embedded speech recognition system
US6308157B1 (en) Method and apparatus for providing an event-based “What-Can-I-Say?” window
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US6269335B1 (en) Apparatus and methods for identifying homophones among words in a speech recognition system
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6192337B1 (en) Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6374214B1 (en) Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
Matarneh et al. Speech recognition systems: A comparative review
EP1525577B1 (en) Method for automatic speech recognition
JP3803029B2 (ja) 音声認識装置
US6591236B2 (en) Method and system for determining available and alternative speech commands
US6745165B2 (en) Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
US20010016814A1 (en) Method and device for recognizing predefined keywords in spoken language
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP6632764B2 (ja) 意図推定装置及び意図推定方法
JP4220151B2 (ja) 音声対話装置
US6275803B1 (en) Updating a language model based on a function-word to total-word ratio
JP2008216618A (ja) 音声判別装置