ES2227421T3

ES2227421T3 - Modelos de lenguaje jerarquicos.

Info

Publication number: ES2227421T3
Application number: ES02700489T
Authority: ES
Inventors: Mark Edward Epstein
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-01
Filing date: 2002-02-28
Publication date: 2005-04-01
Anticipated expiration: 2022-02-28
Also published as: US20020123891A1; JP3940363B2; CA2437620A1; ATE276568T1; CN1535460A; CN1256714C; EP1366490A2; DE60201262T2; DE60201262D1; JP2004523004A; KR100563365B1; EP1366490B1; WO2002071391A3; KR20030076686A; CA2437620C; US6754626B2; WO2002071391A2

Abstract

Un método para crear una jerarquía de modelos contextuales, cuyo método comprende: a) medir la distancia entre cada uno de la pluralidad de modelos contextuales utilizando una métrica de distancia, y en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de usuario dentro de un sistema basado en el diálogo; b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en cuanto a distancia que los otros de dicha pluralidad de modelos contextuales; c) unir dichos modelos contextuales identificados en un modelo contextual generador; d) repetir las operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo de raíz; y e) alisar estadísticamente dicha jerarquía de dicha pluralidad de modelos contextuales, con lo que resulta un modelo de lenguaje de reconocimiento de habla.

Description

Modelos de lenguaje jerárquicos.

Antecedentes de la invención Campo de aplicación técnica

Esta invención se refiere al campo de los sistemas basados en el reconocimiento del habla y en el diálogo, y más particularmente al uso de modelos de lenguaje para convertir el habla en texto.

Descripción de la técnica correspondiente

El reconocimiento del habla es un proceso mediante el cual, una señal acústica recibida por un micrófono es convertida en un juego de palabras, números, o símbolos de texto por un ordenador. Estas palabras reconocidas pueden ser utilizadas entonces en una cierta variedad de aplicaciones de programa lógico de ordenador, con fines de preparación de documentos, entrada de datos, órdenes, y control. Las mejoras en los sistemas de reconocimiento del habla proporcionan un modo importante para mejorar la productividad del usuario.

Los sistemas de reconocimiento del habla pueden modelar y clasificar señales acústicas para formar modelos acústicos, que son representaciones de unidades lingüísticas básicas conocidas como fonemas. A la recepción de la señal acústica, el sistema de reconocimiento del habla puede analizar la señal acústica, identificar una serie de modelos acústicos dentro de la señal acústica, y derivar una lista de candidatos potenciales a palabras para una serie dada de modelos acústicos.

Subsiguientemente, el sistema de reconocimiento del habla puede analizar contextualmente los candidatos potenciales a palabras con el uso de un modelo de lenguaje como guía. Específicamente, el modelo de lenguaje puede expresar restricciones impuestas en la manera en la que las palabras pueden ser combinadas para formar frases. El modelo de lenguaje es típicamente un modelo estadístico que puede expresar la posibilidad de que una palabra aparezca inmediatamente adyacente a otra u otras palabras. El modelo de lenguaje puede ser especificado como una red de estado finito, en la que las palabras permisibles que siguen a cada palabra están relacionadas explícitamente, o pueden ser puestas en práctica de una manera más complicada haciendo uso de una gramática sensible al contexto. Otros modelos de ejemplos de lenguajes pueden incluir, aunque sin limitarse a ello, modelos de n gramas y modelos de lenguaje de entropía máxima, cada uno de los cuales es conocido en la técnica. Un ejemplo común de modelo de lenguaje puede ser un modelo de n gramas. En particular, los modelos de bigrama y de trigrama son ejemplos de modelos de n gramas utilizados comúnmente dentro de esta técnica.

Modelos de lenguaje convencional pueden ser derivados del análisis de un cuerpo de aprendizaje de texto. Dicho cuerpo de aprendizaje contiene un texto que refleja la manera común en la que hablan los seres humanos. El cuerpo de aprendizaje puede ser tratado para determinar los modelos de lenguaje estadísticos utilizados por el sistema de reconocimiento del habla, para convertir el habla en texto, denominado también descodificación de habla. Ha de apreciarse también que dichos métodos son conocidos en la técnica. Por ejemplo, para una explicación más detallada de los modelos de lenguaje y de los métodos de formación de dichos modelos, véase la publicación "Métodos estadísticos para reconocimiento del habla" por Frederic Jelinek (The Press ed. 1997). Actualmente en la técnica, los sistemas de reconocimiento de habla pueden utilizar una combinación de modelos de lenguaje para convertir una pronunciación hablada del usuario en texto. Cada modelo de lenguaje puede ser utilizado para determinar una secuencia de texto resultante. Dichas secuencias de texto resultantes a partir de cada modelo de lenguaje pueden ser ponderadas estadísticamente para determinar el resultado más preciso o probable. Por ejemplo, los sistemas de reconocimiento de habla pueden incorporar un modelo de lenguaje genérico o general incluido dentro del sistema, así como un modelo de lenguaje específico del usuario derivado de las diversas primeras sesiones de dictado o documentos dictados por un usuario. Algunos sistemas de reconocimiento de habla pueden continuar la mejora de un modelo de lenguaje existente a medida que un usuario dicta nuevos documentos o inicia nuevas sesiones de dictado. Por tanto, en muchos sistemas de reconocimiento de habla convencionales, los modelos de lenguaje pueden ser actualizados de manera continua.

La publicación PCT WO 00/58945 describe un aparato para el reconocimiento de habla con una jerarquía de modelos de lenguaje dispuestos con modelos de contexto más genérico a modelos de contexto más específico.

Desafortunadamente, dado que los modelos de lenguaje continúan creciendo, puede ser reducida la importancia del dictado del usuario sobre una materia específica. En particular, el efecto de las sesiones de habla más recientes puede ser disminuido debido al crecimiento masivo de datos dentro del modelo de lenguaje. De igual modo, dictados de usuario más recientes, referidos o no a una materia específica, pueden también disminuir su importancia dentro del modelo de lenguaje creciente. Esto ocurre principalmente con respecto a modelos de lenguaje estadístico, en los que la importancia estadística de una sesión o documento particular que puede ser utilizado para mejorar el modelo de lenguaje, es disminuida por un juego de datos siempre en expansión. Este efecto estadístico puede ser significativo, por ejemplo, en el caso en que los modelos de habla del usuario cambien a medida que dicho usuario se familiarice y acostumbre a cooperar con el sistema basado en el reconocimiento del habla o en el diálogo. En especial, cualquier mejora de un modelo de lenguaje que resulta de una única sesión o documento, que puede producir una cantidad limitada de datos, en especial a la luz del juego total de datos correspondiente al modelo de lenguaje, posiblemente no alterará el comportamiento de un sistema basado en la estadística del habla. En consecuencia, el modelo de lenguaje puede no reflejar con precisión el cambio en el estilo de dictado del usuario.

Pueden existir problemas similares dentro del contexto de sistemas basados en el diálogo, tales como sistemas de comprensión de lenguaje natural donde el usuario puede responder verbalmente a una o más indicaciones o consultas del sistema. Aunque dichos sistemas pueden incluir uno o más modelos de lenguaje para tratar las respuestas del usuario, los modelos de lenguaje adaptados a indicaciones específicas pueden ser formados con el uso de una cantidad insuficiente de datos. En consecuencia, dichos modelos de lenguaje pueden ser demasiado específicos para tratar con precisión el habla recibida. Específicamente, los modelos de lenguaje pueden carecer de capacidad de abstracción del modelo del lenguaje, para tratar una respuesta de usuario más generalizada.

Sumario de la invención

La invención que aquí se describe se refiere a un método para la creación de una jerarquía de modelos contextuales como se expone en la reivindicación 1, un método de uso de dichos modelos contextuales para convertir el habla en texto como se expone en la reivindicación 4, y una máquina de almacenamiento legible como se expone en la reivindicación 7. El método de la invención puede ser utilizado dentro de un sistema de reconocimiento de habla, y dentro de un sistema de comprensión del lenguaje natural basado en el diálogo. En particular, la invención puede crear una pluralidad de modelos contextuales a partir de diferentes sesiones de habla del usuario, documentos, partes de documentos, o respuestas del usuario en forma de pronunciaciones habladas. Estos modelos contextuales pueden ser organizados o agrupados en modalidad de abajo a arriba en pares relacionados, con el uso de una métrica de distancia conocida. Los pares relacionados de modelos de lenguaje pueden ser unidos de modo continuo hasta construir una estructura a modo de árbol. Dicha estructura a modo de árbol de modelos contextuales, o jerarquía de modelos contextuales, puede expandirse hacia fuera a partir de un nodo de raíz sencillo. La jerarquía de los modelos contextuales puede ser interpolada con el uso de un cuerpo de retención de texto y técnicas conocidas, tales como interpolaciones excluidas o procedimiento de retroceso. En especial, la invención no resulta limitada así por las técnicas de alisamiento específicas aquí descritas. Por el contrario, puede ser utilizada cualquier técnica de alisamiento adecuada conocida.

Después de determinada y alisada la jerarquía de los modelos contextuales, las pronunciaciones habladas del usuario recibidas pueden ser tratadas con el uso de la jerarquía resultante de los modelos contextuales. Uno o más modelos contextuales dentro de la jerarquía de ellos pueden ser identificados con las correspondientes una o más pronunciaciones habladas del usuario recibidas. Estos modelos contextuales identificados pueden ser utilizados para tratar las subsiguientes pronunciaciones habladas del usuario recibidas.

Un aspecto de la invención puede incluir un método de conversión de habla en texto con el uso de la jerarquía de los modelos contextuales. Dicha jerarquía puede ser alisada estadísticamente en un modelo de lenguaje. El método puede incluir: a) tratamiento del texto con una pluralidad de modelos contextuales, cada uno de los cuales puede corresponder a un nodo en una jerarquía de la pluralidad de modelos contextuales. El tratamiento del texto puede ser ejecutado en serie o en paralelo. Incluido también en el método puede haber: b) identificación de al menos uno de los modelos contextuales relativos al texto recibido, y c) tratamiento de las pronunciaciones habladas subsiguientes del usuario con al menos un modelo contextual identificado.

Al menos uno de pluralidad de modelos contextuales puede corresponder a un documento o una parte de él, una sección de un documento, al menos una respuesta del usuario recibida en un estado de diálogo particular en un sistema basado en el diálogo, o al menos una respuesta del usuario recibida en un emplazamiento particular dentro de una operación particular en un sistema basado en el diálogo. Aún más, el citado al menos uno de la pluralidad de modelos contextuales puede corresponder a la sintaxis de una indicación del sistema basado en diálogo, una indicación del sistema basado en el diálogo particular, o un mensaje de correo electrónico recibido.

Breve descripción de los dibujos

En los dibujos adjuntos se muestran realizaciones preferidas en la actualidad, aunque no obstante se entiende que la invención no se limita a las disposiciones precisas e instrumentaciones mostradas.

La fig. 1 es diagrama esquemático de un ejemplo de sistema de ordenador sobre el que puede ser utilizada la invención.

La fig. 2 es un diagrama esquemático que muestra un ejemplo de arquitectura para el reconocimiento de habla.

Las figs. 3A y 3B son diagramas esquemáticos que muestran componentes típicos que pueden estar comprendidos en un aparato de reconocimiento de habla.

La fig. 4 es un diagrama de bloques que ilustra un ejemplo de jerarquía de modelos contextuales.

La fig. 5 es una tabla del flujo de acciones que ilustra un ejemplo del método de la invención.

La fig. 6 es una tabla del flujo de acciones que ilustra un ejemplo del método de la invención.

Descripción detallada de la realización

La realización que aquí se describe se refiere a un método para crear una jerarquía de modelos contextuales, y el uso de estos modelos para convertir el habla en texto. El método de la realización puede ser utilizado dentro de un sistema de reconocimiento de habla, y dentro de un sistema basado en el diálogo de comprensión de un lenguaje natural. En particular, la realización puede crear una pluralidad de modelos contextuales a partir de sesiones de habla del usuario diferentes, documentos, partes de documentos, o respuestas en forma de pronunciaciones habladas del usuario. Estos modelos contextuales pueden ser organizados o agrupados en modalidad de abajo a arriba, en pares relacionados, con el uso de una métrica de distancia conocida. En especial, la organización de los modelos contextuales en pares relacionados puede ser ejecutada de modo automático y dinámico en un cierto tiempo de ejecución. Los pares relacionados de modelos contextuales pueden ser unidos para formar un modelo contextual generador. El procedimiento puede ser repetido hasta que surge una jerarquía de modelos contextuales que se asemeja a una estructura arbórea. La jerarquía puede tener un nodo de raíz sencilla, desde la cual se extienden otros nodos. En especial, cada nodo de la jerarquía de los modelos contextuales puede corresponder a un modelo contextual. Debe apreciarse que el término "modelo contextual" aquí utilizado puede referirse a un modelo de lenguaje formado a partir de datos de aprendizaje obtenidos de un documento sencillo, una parte de un documento, o en el caso de un sistema de Comprensión de Lenguaje Natural (NLU), una o más de las pronunciaciones o respuestas habladas del usuario.

La jerarquía resultante de los modelos contextuales puede ser interpolada con el uso de un cuerpo de retención de texto, y el empleo de técnicas conocidas tales como supresión de interpolación o procedimiento de situación retrasada. En especial, la invención no se limita a las técnicas de alisamiento específicas aquí descritas. Por el contrario, puede ser utilizada cualquier técnica de alisamiento conocida.

Después de determinada la jerarquía de los modelos contextuales, las pronunciaciones habladas del usuario recibidas pueden ser tratadas con el uso de la jerarquía resultante de los modelos contextuales. En particular, puede ser identificado un modelo contextual dado dentro de la jerarquía de ellos, que corresponde a o que refleja con más precisión una o más pronunciaciones habladas del usuario recibidas. Por ejemplo, la realización puede tratar una pronunciación hablada del usuario recibida con la jerarquía de los modelos contextuales, e identificar el modelo contextual que proporciona el texto resultante que posee el grado más alto de aceptación. La realización puede trabajar sobre la hipótesis de que las pronunciaciones habladas del usuario subsiguientes pueden corresponder a una materia similar a la de las pronunciaciones habladas de dicho usuario recibidas con anterioridad y utilizadas para identificar el correspondiente modelo contextual. Por tanto, dichas pronunciaciones subsiguientes pueden ser tratadas con el modelo contextual identificado, para conseguir una actuación del sistema de reconocimiento de voz mejorado.

En particular, la jerarquía resultante de los modelos contextuales y el modelo de lenguaje alisado pueden permitir que el tratamiento de las subsiguientes pronunciaciones habladas del usuario sea más generalizado. Esto puede ser especialmente beneficioso aplicado a un sistema NLU, en el que modelos de lenguaje "en aprendizaje" pueden afectar adversamente a la actuación del sistema. Específicamente, la jerarquía alisada de modelos contextuales puede ser dirigida hacia el nodo de raíz, de modo que los modelos contextuales resulten más generalizados pero sigan sensibles al contexto, o hacia las hojas donde los modelos contextuales se hacen más específicos pero aún sensibles al contexto.

La fig. 1 muestra un sistema 100 de ordenador típico para uso en conjunción con la presente realización. El sistema puede incluir un ordenador 105 que a su vez incluye una unidad de tratamiento central (CPU) 110, uno o más dispositivos de memoria 115, y los circuitos asociados. Los dispositivos de memoria 115 pueden estar compuestos de una memoria electrónica de acceso aleatorio y un medio auxiliar de almacenamiento de datos. El sistema puede incluir también un micrófono 120 conectado operativamente al sistema de ordenador a través de un circuito de interfaz adecuado 125, y una unidad opcional 130 de visualización de interfaz de usuario tal como un terminal de datos de vídeo conectado operativamente al sistema. La CPU puede estar compuesta de cualquier microprocesador adecuado u otra unidad de tratamiento electrónico, como es bien conocido por los expertos en la técnica. Unos altavoces 135 y 140, así como un dispositivo de interfaz, tal como un ratón 145, y un teclado 150, pueden estar dispuestos con el sistema, aunque no necesariamente para la actuación de la invención como aquí se describe. Los diversos requerimientos de equipo físico para el sistema de ordenador como aquí se expone, pueden ser satisfechos en general por uno cualquiera de los muchos ordenadores de alta velocidad adquiribles comercialmente.

La fig. 2 es un diagrama esquemático que ilustra una arquitectura típica para un sistema de reconocimiento de habla en el sistema de ordenador 100. Como se muestra en la fig. 2, dentro de la memoria 115 de dicho sistema 100 puede haber un sistema operativo 200 y un aparato 210 de reconocimiento de habla. Incluida también puede haber una aplicación 220 de procesador de texto de habla y una aplicación 230 de navegador de voz. No obstante, la invención no se limita a lo expuesto, y el aparato 210 de reconocimiento de habla puede ser utilizado con cualquier otro programa de aplicación habilitado para la voz. En la fig. 2, el aparato 210 de reconocimiento de habla, la aplicación 220 de procesador de texto de habla, y la aplicación 230 de navegador de voz, se muestran como programas de aplicación separados. No obstante, ha de hacerse notar que la invención no se limita a esto, y los diversos programas de aplicación citados pueden ser puestos en práctica como uno solo más complejo. Por ejemplo, el aparato 210 de reconocimiento de habla puede ser combinado con la aplicación 220 de procesador de texto de habla, o con cualquier otra aplicación que esté habilitada para la voz. Igualmente, si ningún otro programa de aplicación controlado por el habla ha de ser accionado en conjunción con la aplicación 220 del procesador de textos de habla y con el aparato 210 de reconocimiento de habla, el sistema puede ser modificado para trabajar sin la aplicación 230 de navegador de voz. Esta aplicación 230 ayuda principalmente a coordinar el funcionamiento del aparato 210 de reconocimiento de habla.

Los componentes antes citados pueden ser materializados de modo centralizado dentro del sistema 100 de ordenador. Alternativamente, dichos componentes pueden ser materializados de modo distribuido, y los diferentes elementos pueden estar repartidos en diversos sistemas de ordenador interconectados. En cualquier caso, los componentes pueden estar materializados en equipo físico, en programa lógico, o una combinación de ellos. Cualquier clase de sistema de ordenador u otro aparato destinado a llevar a cabo los métodos aquí descritos es adecuado. El sistema que aquí se describe puede ser puesto en práctica mediante un programador, con el uso de herramientas desarrolladas adquiribles comercialmente para el sistema de trabajo particular utilizado.

Medios de programa de ordenador o programa de ordenador, significan en el presente contexto cualquier expresión, en cualquier lenguaje, código, o notación, de un juego de instrucciones destinadas a hacer que un sistema cuente con capacidad de tratamiento de información para ejecutar una función particular, ya sea directamente o después de uno o ambos conceptos siguientes: a) conversión a otro lenguaje, código, o notación; b) reproducción en una forma de material diferente.

Durante el funcionamiento, las señales de audio representativas del sonido recibido en el micrófono 120 pueden ser tratadas dentro del ordenador 100 con el uso de un circuito de audio de ordenador convencional, de modo que resulte disponible para el sistema operativo 200 en forma digitalizada. Alternativamente, las señales de audio pueden ser recibidas a través de la red de comunicaciones de ordenador desde otro sistema de ordenador en formato analógico o digital, o de otro dispositivo transductivo tal como un teléfono. Las señales de audio recibidas por el sistema de ordenador 100 son proporcionadas convencionalmente al aparato 210 de reconocimiento de habla a través del sistema operativo 200 de ordenador, con objeto de efectuar funciones de reconocimiento de habla. Como en los sistemas de reconocimiento de habla convencionales, las señales de audio pueden ser tratadas por el aparato 210 de reconocimiento de habla, para identificar palabras habladas por el usuario ante el micrófono 120. La fig. 3A es un diagrama de bloques que muestra los componentes típicos que pueden comprender el aparato 210 de reconocimiento de habla. Como se muestra en la fig. 3, dicho aparato 210 de reconocimiento de habla recibe una señal de habla digitalizada procedente del sistema operativo. El sistema es transformado subsiguientemente en un bloque 310 de representación, dentro de un juego útil de datos por muestreo de la señal en algunos espacios de tiempo fijos, típicamente cada 10 a 20 mseg. El bloque de representación produce una nueva representación de la señal de audio, que puede ser utilizada entonces en etapas subsiguientes del procedimiento de reconocimiento de la voz para determinar la probabilidad de que la parte de la forma de onda justamente analizada corresponda a un suceso fonético particular. Este procedimiento está destinado a enfatizar perceptualmente importantes características independientes del que habla, en las señales del habla recibidas procedentes del sistema operativo. En el bloque 320 de modelación/clasificación, unos algoritmos tratan ulteriormente las señales de habla, para adaptar los modelos acústicos independientes del hablante a los del que habla en ese momento. Finalmente, en el bloque de búsqueda 330 son utilizados unos algoritmos para guiar al aparato de búsqueda hacia las palabras más probables correspondientes a la señal de habla. El procedimiento de búsqueda en el bloque 330 de ella se produce con ayuda de los modelos acústicos 340, modelos de léxico 350, y modelos de lenguaje 360.

Los modelos de lenguaje 360 pueden ser utilizados para ayudar a reducir el número de posibles palabras correspondientes a una señal de habla, cuando una palabra es utilizada junto con otras en una secuencia. El modelo de lenguaje puede ser especificado como una red de estado finito, donde las palabras permisibles que siguen a cada palabra son relacionadas explícitamente, o puede ser puesto en práctica de manera más complicada haciendo uso de una gramática sensible al contexto. Otros ejemplos de modelos de lenguaje pueden incluir, sin limitarse a ello, modelos de n gramas y modelos de entropía máxima del lenguaje, cada uno de los cuales es conocido en la técnica. En cualquier caso, es deseable con frecuencia actualizar el contenido del modelo de lenguaje con información relativa a los patrones de habla que probablemente se encontrarán en el caso de un usuario específico. El procedimiento de búsqueda determina la palabra candidata que tiene el grado de aceptación más alto de salir en el texto.

Dicho grado de aceptación refleja la posibilidad de que una palabra particular candidata corresponda con precisión a la pronunciación del habla de un usuario. El grado de aceptación puede ser un valor derivado de los modelos acústicos, modelos de léxico, y modelos de lenguaje. Por ejemplo, el citado grado de aceptación puede tener en cuenta la posibilidad de que una palabra candidata particular represente la pronunciación del habla del usuario, determinada con el uso del modelo acústico, además de la probabilidad de la palabra candidata particular pueda ser situada próxima a otra palabra o a un grupo de ellas, como se determine con el uso del modelo de lenguaje.

El texto reconocido puede ser proporcionado a un Director de Sesión de Modelo de Lenguaje (LMSM) 380. En base a la probabilidad de que el texto resultante refleje con precisión la pronunciación del habla del usuario recibida, el LMSM 380 puede determinar un modelo contextual más apropiado que puede ser utilizado para el tratamiento de pronunciaciones del habla del usuario recibidas subsiguientemente. Más específicamente, el LMSM 380 puede identificar un modelo contextual que pueda ser utilizado para tratar textos, en los que el texto resultante pueda tener la más alta probabilidad de reflejar la pronunciación del habla del usuario recibida. Por tanto, el LMSM 380 puede seleccionar un modelo contextual adecuado para uso en el tratamiento del habla recibida subsiguientemente. Como se muestra, el LMSM 380 puede proporcionar un camino de realimentación al sistema de reconocimiento de habla.

El LMSM 380 puede reconocer también secciones de documentos. Por ejemplo, dicho LMSM 380 puede determinar la sección de un documento por el emplazamiento de un cursor dentro de dicho documento. El LMSM 380 puede ser programado con uno o más modelos o plantillas, cuyos modelos pueden contener indicaciones de diferentes secciones del documento, tales como la introducción, antecedentes, u otra sección definible de un documento. Las secciones pueden ser definidas por el usuario, y pueden ser materias específicas. Por ejemplo, las secciones pueden ser subpartes de un documento, que pueden o no ser un texto de una materia específica que incluye una sección verdadera o falsa, una sección de respuesta corta, o una sección de elección múltiple. En especial, los programas convencionales de tratamiento de palabras pueden proporcionar la división en secciones de los documentos.

El LMSM 380 puede estar programado también para determinar cuándo ha de ordenar al Formador de Modelo de Lenguaje (LMB) 390 la formación de un nuevo modelo contextual, y la reordenación de la jerarquía de los modelos contextuales. El LMB 390 puede formar dinámicamente un nuevo modelo contextual inicial, así como reordenar la jerarquía de los modelos contextuales. Por ejemplo, si modelos contextuales iniciales han de ser formados a partir de documentos, el LMSM 380 puede determinar cuándo un documento o parte de él está completo, de modo que pueda ser formado un nuevo modelo contextual, y pueda ser reordenada la jerarquía de los modelos contextuales. Más específicamente, cuando el usuario cierra un documento, o se informa de otro modo al sistema de reconocimiento de habla que el usuario ha terminado de dictar un documento o una parte de él, el LMSM 380 puede instruir al LMB 390 para comenzar a reordenar la jerarquía de los modelos contextuales. El LMSM 380 puede ser programado con varios modelos o plantillas y secciones de documentos, como se utilizan en los programas de tratamiento de textos, de modo que al completarse uno cualquiera de ellos pueda resultar que la jerarquía de los modelos contextuales es reordenada. Por ejemplo, el LMSM 380 puede formar dinámicamente un modelo contextual correspondiente a la sección de un documento, y reordenar la jerarquía de los modelos contextuales cuando el cursor de un programa de edición de texto abandone esa sección del documento. De igual modo, si los modelos contextuales son formados de partes de documentos, tales como párrafos, la terminación de un párrafo, por ejemplo, una orden de retorno manual, puede indicar al LMSM 380 que instruya al LMB 390 pata formar un nuevo modelo contextual basado en el texto incluido dentro del párrafo más reciente. El LMB 390 puede entonces modificar la jerarquía de los modelos contextuales. Como antes se ha dicho, los modelos contextuales iniciales pueden incorporar modelos o plantillas de documentos, documentos, secciones de ellos, o partes de documentos.

La fig. 3B es un diagrama de bloques que muestra los componentes típicos que pueden comprender el aparato 210 de reconocimiento de habla, similar al diagrama de bloques de la fig. 3A. Sin embargo, la fig. 3B puede incluir un sistema NLU (Comprensión de lenguaje natural). En especial, el sistema NLU se distingue porque puede incluir un ordenador para comprender y extraer información del lenguaje humano hablado o escrito. Dichos sistemas pueden funcionar de manera complementaria con una cierta variedad de otras aplicaciones de ordenador cuando existe la necesidad de comprender el lenguaje humano. Los sistemas NLU pueden extraer la información relevante contenida dentro del texto y suministrar luego dicha información a otro programa de aplicación.

El sistema NLU puede comunicar con el LMSM 380 para proporcionar a éste información relativa a la pronunciación hablada del usuario en respuesta a un sistema basado en el diálogo. Dicha información puede incluir el tipo de operación particular en la que está ocupado el usuario, el lugar del usuario dentro de la operación, la indicación del sistema basada en el diálogo particular, y la sintaxis de dicha indicación. Por ejemplo, el sistema NLU 395 puede proporcionar al LMSM información de la pronunciación hablada del usuario con la que respondió a una indicación preguntando por el nombre de una cuenta en el contexto de una transacción de reembolso en un sistema financiero. Además, el sistema NLU puede informar al LMSM de que la respuesta prevista era un número, una frase de un texto que tenía una sintaxis particular o relativa a un objeto particular, o una indicación de sí o no.

Por ejemplo, los modelos contextuales iniciales pueden ser formados a partir de las respuestas del usuario relativas al estado de un diálogo dado, el objeto de una operación dada, el emplazamiento del usuario dentro de una operación particular, las respuestas del usuario a una indicación particular del diálogo conocido, o a la sintaxis de la indicación del diálogo a la que el usuario está respondiendo. El estado de un diálogo dado puede referirse en general a cada uno de los factores antes mencionados.

El objeto de una operación dada puede referirse a la acción u orden que el usuario está pidiendo. Por ejemplo, en un sistema de dirección financiera, las operaciones pueden incluir reembolsos, transferencias, depósitos, etc. En el contexto de un sistema de viajes, las operaciones pueden incluir reservas, vuelos, alquileres de coches, etc. Las operaciones pueden ser aplicaciones específicas basadas en los sistemas a los que el sistema NLU proporciona una interfaz. Por tanto, pueden formarse modelos contextuales de acuerdo con cada objeto identificable dentro del sistema basado en diálogo.

El emplazamiento dentro de una operación puede proporcionar información contextual relativa a una respuesta del usuario. Específicamente, cualquier operación dada puede requerir uno o más parámetros del usuario especificados. Por tanto, en base a los parámetros recibidos y en adición al tipo particular de transacción iniciada, el sistema de reconocimiento de habla puede formar un modelo contextual sin conocer la indicación exacta del sistema basado en el diálogo a la que el usuario ha respondido, basado sólo en la información correspondiente al emplazamiento del usuario dentro de una operación dada.

Modelos contextuales pueden ser formados a partir de las respuestas del usuario a las indicaciones de un sistema particular conocido basado en el diálogo. Adicionalmente, pueden ser formados modelos contextuales a partir de respuestas del usuario a preguntas que tienen una sintaxis particular. Por ejemplo, las respuestas del usuario a indicaciones de "sí" o "no" del sistema pueden ser agrupadas para formar un modelo de lenguaje. De igual modo, las respuestas del usuario a indicaciones de "quién", "qué", "dónde", "cuándo", "por qué" pueden ser agrupadas, así como las respuestas del usuario a una elección múltiple o indicaciones de tipo de lista.

El alisamiento estadístico puede aliviar los problemas con respecto a un subaprendizaje o uso de una pequeña cantidad de datos de aprendizaje. Adicionalmente, la estructura jerárquica permite que los sistemas de reconocimiento de habla traten pronunciaciones habladas del usuario con modelos generalizados en aumento, que permanecen sensibles al contexto. Por tanto, si la respuesta de un usuario no está conforme con los datos previamente recogidos, puede ser utilizado un modelo contextual más generalizado para tratar dicha respuesta.

Por tanto, el LMB 390 puede formar dinámicamente modelos contextuales, por ejemplo los modelos contextuales iniciales, en los que cada uno de ellos puede ser formado a partir de un agrupamiento de una o más respuestas del usuario. Igualmente, el LMB 390 puede reformar dinámicamente la jerarquía de los modelos contextuales que responden a la recepción de la pronunciación hablada del usuario, dada en respuesta a una indicación del diálogo. El sistema de la fig. 3B difiere también del de la fig. 3A en que el sistema NLU puede generar una indicación de diálogo que puede ser reproducida mediante una grabación, o con el uso de un texto para tecnología hablada.

La fig. 4 muestra un ejemplo de jerarquía de los modelos contextuales 360 de la fig. 3. El modelo de lenguaje 360 es mostrado como un estructura en árbol que tiene unos nodos múltiples A, B, C, D, E, y F extendidos bajo el nodo de raíz. Cada nodo puede corresponder a un modelo contextual. El par de nodos de hoja C y D, y el par de nodos de hoja E y F, citados también como nodos terminales, pueden ser identificados como pares de modelos contextuales relacionados que utilizan una métrica de distancia conocida. Por ejemplo, dicha métrica de distancia puede incluir, sin limitarse a ello, la distancia Kullback-Liebler, entropía relativa, discriminación, o divergencia. En cualquier caso, el nivel inferior de los modelos contextuales puede ser agrupado en pares con el uso de la métrica conocida. Este procedimiento, conocido como agrupamiento de abajo a arriba, puede ser continuado hasta que se determine un nodo de raíz.

En otra realización de la invención, los modelos contextuales pueden ser agrupados según la materia objeto de la sesión de dictado de la que se deriva el modelo contextual. Por ejemplo, el sistema de reconocimiento de habla puede utilizar algoritmos de búsqueda de palabras y tecnología de lenguaje natural para clasificar cada modelo contextual individual (nodo) de acuerdo con un objeto predeterminado. El modelo contextual puede ser etiquetado de acuerdo con ello, de modo que no sólo puedan ser relacionados modelos contextuales en pares, sino que los sistemas de reconocimiento de voz puedan agrupar sólo modelos contextuales relacionados, clasificados bajo un objeto particular. Alternativamente, el usuario puede definir una clasificación del objeto particular. En ese caso, el usuario puede introducir una serie de palabras clave, que el sistema de reconocimiento de voz puede utilizar para clasificar modelos contextuales. El sistema de reconocimiento de habla puede permitir también que el usuario eluda la clasificación de un modelo contextual.

Los pares agrupados de modelos contextuales pueden ser unidos en un modelo contextual generador. Por ejemplo, el nodo A puede ser un generador derivado de sus descendientes fundidos, los nodos C y D. De igual modo, el nodo B puede ser un generador que puede ser derivado de sus descendientes, los nodos de hoja E y F. La fusión de dos nodos descendientes para formar un generador puede ser llevada a cabo con el uso de una cierta variedad de métodos. Uno de ellos puede ser de interpolación. Por ejemplo, los candidatos potenciales a una palabra pueden ser tratados con el uso de cada modelo contextual de nodo descendiente. Subsiguientemente, las dos posibles frases resultantes pueden ser comparadas, y puede seleccionarse el resultado más probable. La probabilidad asociada a cada resultado de modelo contextual puede ser multiplicada por una constante ponderada. En tal caso, la constante aplicada por ejemplo, a la hoja C, y la constante aplicada a la hoja D pueden tener una suma de 1. Otro método de fundir los nodos descendientes para formar un generador puede incluir el uso de los datos correspondientes a cada nodo descendiente, para formar un nuevo modelo contextual con el uso de métodos conocidos para formar dichos modelos. Por tanto, los datos utilizados para formar el modelo contextual generador en un nodo pueden ser los datos compuestos de los dos descendientes del generador.

Con independencia del método particular utilizado para fundir dos nodos, en cada nivel de la jerarquía de los modelos contextuales, el agrupamiento de nodos pareados y su unión en un nodo generador puede continuar hasta alcanzar un nodo de raíz. Los nodos generadores A y B pueden incluir características compartidas en sus descendientes. De igual modo, el nodo raíz puede incluir características compartidas en sus descendientes, los modelos contextuales correspondientes a los nodos A y B. Por tanto, la jerarquía de los modelos contextuales proporciona un surtido de ellos, cada uno de los cuales incorpora una mezcla de estilos de habla dependientes del usuario incorporados a él. En el caso de que modelos contextuales generadores sean formados con el uso de datos compuestos, la jerarquía resultante de los modelos contextuales puede ser citada como modelo de lenguaje jerárquico sencillo. De acuerdo con ello, los modelos contextuales inferiores son los modelos más específicos. Si un modelo contextual particular no proporciona un nivel de confianza satisfactoria, puede ascenderse en el árbol hasta un modelo contextual más generalizado.

La fig. 5 es una tabla 500 de flujo de acciones que ilustra un ejemplo de método para la creación de modelos contextuales jerárquicos, que se ejecuta mediante el uso del sistema de ordenador de la fig. 1 y el aparato de reconocimiento de habla de la fig. 2. El método comienza en un estado en el que el sistema de reconocimiento de habla ha acumulado una pluralidad de modelos contextuales tales como los asociados a los nodos de hoja C, D, E, y F, la fila inferior de la jerarquía de modelos contextuales que ha de ser creada. Estos modelos contextuales iniciales pueden diferir en función del uso. Por ejemplo, para un dictado general, el sistema de reconocimiento de habla puede crear un nuevo modelo contextual por cada sesión de dictado previo, documento, parte de un documento, o sección de un documento correspondiente a un usuario particular.

En la ilustración, el sistema de reconocimiento de habla puede generar un modelo contextual para solicitudes de patente. Aún más, dicho sistema puede generar un modelo contextual para cada parte de una solicitud de patente. Por ejemplo, las reivindicaciones de varias solicitudes de patente pueden contener características similares, como cada una de las otras partes de una solicitud de patente, tales como el resumen, descripción detallada, así como el sumario de ella. Por tanto, puede ser formado un modelo contextual por cada parte de un documento tal como una solicitud de patente. Otra realización puede incluir la formación de un modelo contextual para las subpartes. Por ejemplo, un modelo contextual puede ser formado para las reivindicaciones independientes, y otro para las reivindicaciones dependientes. Cualquier parte identificable de un documento puede ser utilizada para formar el correspondiente modelo contextual. Procesadores de texto convencionales puede subdividir documentos en una o más secciones. Por ejemplo, estas subdivisiones pueden ser utilizadas también para generar un modelo contextual por cada subdivisión identificable de un documento.

Para modelos contextuales utilizados en sistemas de diálogo, cada modelo contextual inicial puede corresponder al juego de frases que son las respuestas a cada indicación emitida por el sistema de diálogo. En cualquier caso, los modelos contextuales iniciales, o una fila inferior de la jerarquía, pueden servir como base para cualquier interpolación entre los modelos contextuales o cualquier otra formación subsiguiente de nuevos modelos contextuales generadores, los cuales pueden comprender la jerarquía del modelo contextual resultante.

El sistema de reconocimiento de habla puede incluir un parámetro ajustable por el usuario para instruir al sistema de reconocimiento de habla, para almacenar los modelos contextuales de las últimas n sesiones de dictado, documentos, o respuestas correspondientes a un usuario particular. Alternativamente, el sistema de reconocimiento de habla puede almacenar los últimos n modelos contextuales correspondientes a una clasificación de un objeto particular de modelo contextual. Por ejemplo, pueden ser almacenados los últimos n modelos contextuales relacionados con una actividad o negocio, los últimos n modelos contextuales de cartas personales, etc. Además, puede ser especificado el parámetro sobre la base de uno por usuario, así como uno sobre la base del objeto de clasificación. Por tanto, un usuario A puede determinar el valor total de n, además de un valor uniforme de n por cada clasificación de objeto. El usuario B puede establecer también un valor general de n, además de valores diferentes de n por cada clasificación de objeto. Además, los valores del juego n del usuario B pueden ser totalmente independientes de los valores del juego n del usuario A. Con ello se permite que el sistema sea generalizado como se necesite.

El método 500 de la fig. 5 puede ser ejecutado sobre la base de un usuario. Además, si el sistema ordenador de la fig. 1 posee una potencia de tratamiento adecuada, dicho método 500 puede ser ejecutado al comienzo de cada sesión de dictado de un nuevo usuario, documento, o respuesta de dicho usuario. Por tanto, la jerarquía de los modelos contextuales a un usuario particular puede ser actualizada constantemente. De manera alternativa, el método 500 puede ser ejecutado automáticamente por el sistema de reconocimiento de voz sobre bases periódicas, o de manera fuera de línea en respuesta a una petición del usuario.

En cualquier caso, en la operación 510, el sistema de reconocimiento de voz puede utilizar una métrica de distancia para determinar lo próximamente relacionado que cada modelo contextual está con otro modelo correspondiente a un usuario particular. Como ya se ha dicho, el sistema de reconocimiento de habla puede utilizar la distancia Kullback-Liebler, así como la clasificación del objeto de cada modelo contextual para la determinación de la relación o distancia. Después de completada la operación 510, el método puede continuar a la operación 520.

En la operación 520, el sistema de reconocimiento de habla puede identificar el par de modelos contextuales que tiene la menor distancia. Completada la operación 520, el método puede pasar a la operación 530, donde los modelos contextuales pueden ser unidos. Como antes se ha dicho, los modelos contextuales pueden ser unidos por interpolación, o mediante el uso de los datos de cada modelo contextual descendiente, para formar un nuevo modelo generador. Si los modelos contextuales están siendo reconstruidos en cada generador unido, el nodo de raíz puede corresponder al uso de un modelo de lenguaje sencillo. En ese caso, los nodos del modelo contextual jerárquico pueden ser alisados con el uso de datos que pueden ser retenidos fuera o excluidos de la derivación inicial del modelo contextual. Los datos excluidos pueden ser utilizados entonces para ejecutar el alisamiento estadístico del modelo contextual jerárquicamente resultante. Por tanto, el modelo contextual puede ser la interpolación de todos los modelos contextuales desde un nodo de hoja al nodo de raíz. Con independencia de ello, después de completada la operación 530, el método puede continuar a la operación 540.

En la operación 540, el sistema de reconocimiento de habla puede determinar si se ha establecido un nodo de raíz sencillo. Más específicamente, el sistema de reconocimiento de voz puede determinar si la jerarquía de los modelos contextuales termina en un nodo sencillo. Si es así, el método puede concluir, Si no, el método puede efectuar un bucle de vuelta atrás a la operación 510 para repetirla. Se apreciará que el método 500 puede repetirse como se necesite, y cada iteración a través de dicho método crea otro nivel de jerarquía de los modelos contextuales en modalidad ascendente, con progresión hacia un nodo de raíz sencillo.

La fig. 6 es una tabla de flujo de acciones 600 que muestra un ejemplo de método de conversión de habla en texto con el uso de la jerarquía de los modelos contextuales de la fig. 4. En particular, el sistema de reconocimiento de habla puede seleccionar un modelo contextual adecuado para tratar pronunciaciones habladas de usuario subsiguientes basadas en las pronunciaciones recibidas. Si el sistema de ordenador tiene suficiente potencia de tratamiento, de modo que pueda convertir el habla en texto en tiempo real sin un retardo razonable, puede ser ejecutada la determinación del modelo contextual por cada pronunciación o frase recibidas del usuario por el sistema de reconocimiento de habla. Por ejemplo, después de cada pausa detectable en la pronunciación hablada del usuario recibida, el sistema de reconocimiento de habla puede ejecutar el método 600.

Alternativamente, la determinación puede ser efectuada al comienzo de una sesión de dictado, periódicamente a lo largo de la sección hablada, o en respuesta a una orden del usuario para ejecutar dicha determinación. Por ejemplo, el sistema de reconocimiento de habla puede ejecutar la determinación automáticamente después de que el usuario ha dictado durante un tiempo predeterminado, o como consecuencia de que el grado de certeza quede por debajo de un valor de umbral predeterminado. En el caso de petición del usuario, éste puede pedir que se haga la determinación cuando él cambia a un estilo u objeto del dictado diferente, por ejemplo, de correspondencia de negocios a correspondencia personal.

El método 600 puede comenzar en la operación 610, en la que el sistema de reconocimiento de habla recibe una entrada de texto. La entrada de texto puede estar derivada de un sistema de reconocimiento de habla, o puede ser un texto dentro de un documento existente. En especial, el texto puede ser un mensaje de correo electrónico recibido. Después de completada la operación 610, el método puede continuar a la operación 620. En ésta, el sistema de reconocimiento de habla puede tratar el texto recibido con el uso de los modelos jerárquicamente contextuales. Por ejemplo, el texto puede ser tratado con cada uno de los modelos contextuales contenidos dentro de la jerarquía de ellos. El modelo contextual que proporcione el texto que tenga el más alto grado de certeza puede ser identificado como el modelo correcto o más adecuado para uso en la conversión en texto de la subsiguiente pronunciación hablada del usuario. El procedimiento puede ser efectuado en forma de serie o paralelo.

Por ejemplo, en un sistema basado en el diálogo, aunque puede esperarse que una respuesta de "sí" o "no" de un usuario corresponde a una indicación particular del diálogo, el usuario puede responder "sí; no obstante yo preferiría X". En este caso, el usuario ha respondido y ha proporcionado una información adicional. Por tanto, aunque un sistema basado en el diálogo puede incluir un modelo contextual correspondiente a la indicación a la que ha respondido el usuario, la respuesta de éste puede reflejar con más precisión una respuesta prevista a otra indicación del sistema. En especial, una respuesta prevista que no se limita a "sí" o "no". Con independencia de ello, el texto derivado del sistema de reconocimiento de habla puede ser tratado con la jerarquía de los modelos contextuales. Puede ser identificado el modelo contextual que proporcione un texto que posee el más alto grado de certeza. En especial, debido a que la respuesta del usuario variaba con respecto al tipo previsto de ella por el sistema NLU, el modelo contextual identificado puede ser diferente al modelo contextual asociado por lo general a las respuestas del usuario tratadas correspondientes a una indicación de diálogo particular a la que ha respondido dicho usuario. El modelo contextual identificado puede diferir también del modelo contextual utilizado por el sistema de reconocimiento de habla para convertir la pronunciación hablada del usuario en texto.

En otra realización de la invención, puede ser identificado un modelo contextual correspondiente a una sección de un documento identificable. Por ejemplo, si un usuario está dictando un documento, y el sistema de reconocimiento de habla determina que el cursor del usuario está situado dentro de una sección particular del documento, el citado sistema puede identificar el modelo contextual correspondiente a esa sección del documento. El modelo contextual identificado puede ser utilizado, al menos inicialmente, para tratar pronunciaciones habladas del usuario recibidas mientras el cursor del usuario esté situado dentro de la correspondiente sección del documento. Aún más, el usuario puede especificar la sección del documento al sistema de reconocimiento de habla en otro método, tal como de habla u orden de puntero. En especial, pueden ser incorporados también otros métodos de determinación de modelo contextual. Por ejemplo, en base a grados de certeza insatisfactorios, el sistema de reconocimiento de habla puede interrumpir el uso del modelo contextual identificado a favor de otro modelo contextual.

Se apreciará que el sistema de reconocimiento de habla puede identificar uno o más modelos contextuales que producen texto con un grado de certeza por encima de un valor de umbral mínimo predeterminado. En tal caso, dicho sistema puede utilizar cada modelo contextual identificado cuando los resultados con el uso de cada modelo puedan ser ponderados empleando coeficientes de probabilidad. Por ejemplo, el coeficiente puede estar relacionado directamente con los grados de certeza del texto resultante. Alternativamente, el sistema de reconocimiento de habla puede extrapolar entre los modelos contextuales identificados. Aún más, puede ser seleccionado el modelo contextual que proporcione el texto que tenga el grado de certeza más alto. Completada la operación 620, el método puede continuar a la operación 630.

En la operación 630, el modelo contextual identificado puede ser utilizado para tratar pronunciaciones habladas del usuario subsiguientes en el sistema de reconocimiento de habla. Dicho sistema puede continuar sobre el supuesto de que las pronunciaciones subsiguientes del usuario que se producen dentro de un tiempo particular de la determinación del modelo contextual, tienen probablemente una sintaxis y vocabulario similares o se refieren a una materia similar como la del texto utilizado para hacer la determinación. Por tanto, además de la selección del modelo contextual en base a la materia tratada, en relación con un sistema de dictado, el método puede seleccionar un modelo contextual a partir de la jerarquía de modelos contextuales, de acuerdo con el estado de diálogo en el sistema NLU.

Otra realización de la invención puede incluir la selección de un modelo contextual en base a un mensaje de correo electrónico recibido. Por ejemplo, un mensaje de correo electrónico recibido puede ser tratado para determinar un modelo contextual apropiado correspondiente a ese correo electrónico. El modelo contextual identificado puede ser utilizado para convertir pronunciaciones habladas subsiguientes del usuario en texto. En especial, el modelo contextual puede ser utilizado para convertir las pronunciaciones del usuario durante una sesión de dictado en la que dicho usuario esté respondiendo al mensaje de correo electrónico recibido. Por tanto, dicho correo electrónico recibido puede ser tratado para determinar el modelo contextual que corresponde al objeto del correo electrónico recibido. Dicho modelo contextual puede ser utilizado para tratar la respuesta dictada por el usuario a ese correo electrónico. Además, el sistema de reconocimiento de habla puede tratar las partes diferentes del mensaje electrónico recibido, incluido el objeto del mensaje. En otra realización de la invención, el objeto puede constituir un factor adicional acordado para la determinación de un modelo contextual adecuado. Después de completada la operación 630, el método puede pasar a la operación 640.

En la operación 640, si se ha completado el segmento, el método puede pasar a la operación 650. Si no es así, el método puede continuar a la operación 610, para reunir más texto. En especial, el segmento puede corresponder a la unidad de texto utilizada para formar los modelos contextuales iniciales que sirven como fundamento para la jerarquía de dichos modelos contextuales. Por ejemplo, el segmento puede corresponder a un documento, párrafo, frase, o parte del documento, o una respuesta del usuario a una indicación del diálogo dada. Una vez seleccionada la cantidad predeterminada de texto, el segmento está completo. Alternativamente, el usuario puede notificar al sistema de reconocimiento de voz del comienzo y final de la pronunciación hablada, para ser convertida en texto. En cualquier caso, la cuantía de texto utilizado para formar un modelo contextual inicial puede ser reunida para completar así un segmento.

Si el segmento ha sido completado en la operación 650, el método puede formar dinámicamente un nuevo modelo contextual correspondiente a dicho segmento completado. Adicionalmente, puede ser ejecutado el método 500 para reformar dinámicamente la jerarquía de los modelos contextuales. Después de completada la operación 650, el método puede repetirse.

Claims

1. Un método para crear una jerarquía de modelos contextuales, cuyo método comprende:

a) medir la distancia entre cada uno de la pluralidad de modelos contextuales utilizando una métrica de distancia, y en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de usuario dentro de un sistema basado en el diálogo;

b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en cuanto a distancia que los otros de dicha pluralidad de modelos contextuales;

c) unir dichos modelos contextuales identificados en un modelo contextual generador;

d) repetir las operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo de raíz; y

e) alisar estadísticamente dicha jerarquía de dicha pluralidad de modelos contextuales, con lo que resulta un modelo de lenguaje de reconocimiento de habla.

2. El método de la reivindicación 1, cuya operación c) de unir comprende además:

- interpolar entre dichos modelos contextuales identificados, cuya interpolación da por resultado una combinación de los citados modelos contextuales identificados.

3. El método de la reivindicación 1, cuya operación c) de unir comprende además:

- formar un modelo contextual generador con el uso de datos correspondientes a dichos modelos contextuales identificados.

4. Un método para convertir el habla en texto con el uso de una jerarquía de modelos contextuales creada por el método según una cualquiera de las reivindicaciones 1 a 3, en el que dicha jerarquía de modelos contextuales es alisada estadísticamente en un modelo de lenguaje, cuyo método comprende:

a) tratar un texto con una pluralidad de modelos contextuales, en el que cada uno de dicha pluralidad de modelos contextuales corresponde a un nodo en la jerarquía de los modelos contextuales;

b) identificar al menos uno de dichos modelos contextuales relacionado con dicho texto; y

c) tratar las subsiguientes pronunciaciones habladas del usuario con dicho al menos un modelo contextual identificado.

5. El método de la reivindicación 4, en el que dicha operación a) es ejecutada en serie o en paralelo.

6. El método de las reivindicaciones 4 ó 5, en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a uno o más de lo siguiente:

I) un documento o una parte de un documento;

II) al menos una respuesta de un usuario recibida en un estado de diálogo particular en un sistema basado en el diálogo;

III) al menos una respuesta de un usuario recibida en un emplazamiento particular dentro de una operación particular, a su vez dentro de un sistema basado en el diálogo;

IV) la sintaxis de una indicación en un sistema basado en el diálogo;

V) una indicación de un sistema basado en el diálogo, particular y conocido; o

VI) un mensaje de correo electrónico recibido.

7. Una máquina de almacenamiento legible, que tiene almacenado en ella un programa de ordenador que cuenta con una pluralidad de secciones de código ejecutables por una máquina, para hacer que ésta efectúe las operaciones de:

a) medir la distancia entre cada uno de la pluralidad de modelos contextuales con el uso de una métrica de distancia, en la que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de un usuario dentro de un sistema basado en el diálogo;

b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en distancia que los otros de dicha pluralidad de modelos contextuales;

d) repetir dichas operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo común; y

e) alisar estadísticamente dicha jerarquía de la citada pluralidad de modelos contextuales, de lo que resulta un modelo de lenguaje de reconocimiento de habla.

8. La máquina de almacenamiento legible de la reivindicación 7, cuya operación c) de unir comprende además:

9. La máquina de almacenamiento legible de la reivindicación 7, cuya operación c) de unir comprende además:

10. Una máquina de almacenamiento legible según las reivindicaciones 7, 8 ó 9, que tiene almacenado en ella otro programa de ordenador que cuenta con una pluralidad de secciones de código ejecutables por una máquina, para hacer que ésta efectúe las operaciones de:

a) tratar un texto con una pluralidad de modelos contextuales, y en la que cada uno de dicha pluralidad de modelos contextuales corresponde a un nodo en una jerarquía de dicha pluralidad de modelos contextuales;

b) identificar al menos uno de dichos modelos contextuales que se refiera a dicho texto; y