ES2227421T3 - Modelos de lenguaje jerarquicos. - Google Patents

Modelos de lenguaje jerarquicos.

Info

Publication number
ES2227421T3
ES2227421T3 ES02700489T ES02700489T ES2227421T3 ES 2227421 T3 ES2227421 T3 ES 2227421T3 ES 02700489 T ES02700489 T ES 02700489T ES 02700489 T ES02700489 T ES 02700489T ES 2227421 T3 ES2227421 T3 ES 2227421T3
Authority
ES
Spain
Prior art keywords
contextual
models
hierarchy
user
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02700489T
Other languages
English (en)
Inventor
Mark Edward Epstein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of ES2227421T3 publication Critical patent/ES2227421T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

Un método para crear una jerarquía de modelos contextuales, cuyo método comprende: a) medir la distancia entre cada uno de la pluralidad de modelos contextuales utilizando una métrica de distancia, y en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de usuario dentro de un sistema basado en el diálogo; b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en cuanto a distancia que los otros de dicha pluralidad de modelos contextuales; c) unir dichos modelos contextuales identificados en un modelo contextual generador; d) repetir las operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo de raíz; y e) alisar estadísticamente dicha jerarquía de dicha pluralidad de modelos contextuales, con lo que resulta un modelo de lenguaje de reconocimiento de habla.

Description

Modelos de lenguaje jerárquicos.
Antecedentes de la invención Campo de aplicación técnica
Esta invención se refiere al campo de los sistemas basados en el reconocimiento del habla y en el diálogo, y más particularmente al uso de modelos de lenguaje para convertir el habla en texto.
Descripción de la técnica correspondiente
El reconocimiento del habla es un proceso mediante el cual, una señal acústica recibida por un micrófono es convertida en un juego de palabras, números, o símbolos de texto por un ordenador. Estas palabras reconocidas pueden ser utilizadas entonces en una cierta variedad de aplicaciones de programa lógico de ordenador, con fines de preparación de documentos, entrada de datos, órdenes, y control. Las mejoras en los sistemas de reconocimiento del habla proporcionan un modo importante para mejorar la productividad del usuario.
Los sistemas de reconocimiento del habla pueden modelar y clasificar señales acústicas para formar modelos acústicos, que son representaciones de unidades lingüísticas básicas conocidas como fonemas. A la recepción de la señal acústica, el sistema de reconocimiento del habla puede analizar la señal acústica, identificar una serie de modelos acústicos dentro de la señal acústica, y derivar una lista de candidatos potenciales a palabras para una serie dada de modelos acústicos.
Subsiguientemente, el sistema de reconocimiento del habla puede analizar contextualmente los candidatos potenciales a palabras con el uso de un modelo de lenguaje como guía. Específicamente, el modelo de lenguaje puede expresar restricciones impuestas en la manera en la que las palabras pueden ser combinadas para formar frases. El modelo de lenguaje es típicamente un modelo estadístico que puede expresar la posibilidad de que una palabra aparezca inmediatamente adyacente a otra u otras palabras. El modelo de lenguaje puede ser especificado como una red de estado finito, en la que las palabras permisibles que siguen a cada palabra están relacionadas explícitamente, o pueden ser puestas en práctica de una manera más complicada haciendo uso de una gramática sensible al contexto. Otros modelos de ejemplos de lenguajes pueden incluir, aunque sin limitarse a ello, modelos de n gramas y modelos de lenguaje de entropía máxima, cada uno de los cuales es conocido en la técnica. Un ejemplo común de modelo de lenguaje puede ser un modelo de n gramas. En particular, los modelos de bigrama y de trigrama son ejemplos de modelos de n gramas utilizados comúnmente dentro de esta técnica.
Modelos de lenguaje convencional pueden ser derivados del análisis de un cuerpo de aprendizaje de texto. Dicho cuerpo de aprendizaje contiene un texto que refleja la manera común en la que hablan los seres humanos. El cuerpo de aprendizaje puede ser tratado para determinar los modelos de lenguaje estadísticos utilizados por el sistema de reconocimiento del habla, para convertir el habla en texto, denominado también descodificación de habla. Ha de apreciarse también que dichos métodos son conocidos en la técnica. Por ejemplo, para una explicación más detallada de los modelos de lenguaje y de los métodos de formación de dichos modelos, véase la publicación "Métodos estadísticos para reconocimiento del habla" por Frederic Jelinek (The Press ed. 1997). Actualmente en la técnica, los sistemas de reconocimiento de habla pueden utilizar una combinación de modelos de lenguaje para convertir una pronunciación hablada del usuario en texto. Cada modelo de lenguaje puede ser utilizado para determinar una secuencia de texto resultante. Dichas secuencias de texto resultantes a partir de cada modelo de lenguaje pueden ser ponderadas estadísticamente para determinar el resultado más preciso o probable. Por ejemplo, los sistemas de reconocimiento de habla pueden incorporar un modelo de lenguaje genérico o general incluido dentro del sistema, así como un modelo de lenguaje específico del usuario derivado de las diversas primeras sesiones de dictado o documentos dictados por un usuario. Algunos sistemas de reconocimiento de habla pueden continuar la mejora de un modelo de lenguaje existente a medida que un usuario dicta nuevos documentos o inicia nuevas sesiones de dictado. Por tanto, en muchos sistemas de reconocimiento de habla convencionales, los modelos de lenguaje pueden ser actualizados de manera continua.
La publicación PCT WO 00/58945 describe un aparato para el reconocimiento de habla con una jerarquía de modelos de lenguaje dispuestos con modelos de contexto más genérico a modelos de contexto más específico.
Desafortunadamente, dado que los modelos de lenguaje continúan creciendo, puede ser reducida la importancia del dictado del usuario sobre una materia específica. En particular, el efecto de las sesiones de habla más recientes puede ser disminuido debido al crecimiento masivo de datos dentro del modelo de lenguaje. De igual modo, dictados de usuario más recientes, referidos o no a una materia específica, pueden también disminuir su importancia dentro del modelo de lenguaje creciente. Esto ocurre principalmente con respecto a modelos de lenguaje estadístico, en los que la importancia estadística de una sesión o documento particular que puede ser utilizado para mejorar el modelo de lenguaje, es disminuida por un juego de datos siempre en expansión. Este efecto estadístico puede ser significativo, por ejemplo, en el caso en que los modelos de habla del usuario cambien a medida que dicho usuario se familiarice y acostumbre a cooperar con el sistema basado en el reconocimiento del habla o en el diálogo. En especial, cualquier mejora de un modelo de lenguaje que resulta de una única sesión o documento, que puede producir una cantidad limitada de datos, en especial a la luz del juego total de datos correspondiente al modelo de lenguaje, posiblemente no alterará el comportamiento de un sistema basado en la estadística del habla. En consecuencia, el modelo de lenguaje puede no reflejar con precisión el cambio en el estilo de dictado del usuario.
Pueden existir problemas similares dentro del contexto de sistemas basados en el diálogo, tales como sistemas de comprensión de lenguaje natural donde el usuario puede responder verbalmente a una o más indicaciones o consultas del sistema. Aunque dichos sistemas pueden incluir uno o más modelos de lenguaje para tratar las respuestas del usuario, los modelos de lenguaje adaptados a indicaciones específicas pueden ser formados con el uso de una cantidad insuficiente de datos. En consecuencia, dichos modelos de lenguaje pueden ser demasiado específicos para tratar con precisión el habla recibida. Específicamente, los modelos de lenguaje pueden carecer de capacidad de abstracción del modelo del lenguaje, para tratar una respuesta de usuario más generalizada.
Sumario de la invención
La invención que aquí se describe se refiere a un método para la creación de una jerarquía de modelos contextuales como se expone en la reivindicación 1, un método de uso de dichos modelos contextuales para convertir el habla en texto como se expone en la reivindicación 4, y una máquina de almacenamiento legible como se expone en la reivindicación 7. El método de la invención puede ser utilizado dentro de un sistema de reconocimiento de habla, y dentro de un sistema de comprensión del lenguaje natural basado en el diálogo. En particular, la invención puede crear una pluralidad de modelos contextuales a partir de diferentes sesiones de habla del usuario, documentos, partes de documentos, o respuestas del usuario en forma de pronunciaciones habladas. Estos modelos contextuales pueden ser organizados o agrupados en modalidad de abajo a arriba en pares relacionados, con el uso de una métrica de distancia conocida. Los pares relacionados de modelos de lenguaje pueden ser unidos de modo continuo hasta construir una estructura a modo de árbol. Dicha estructura a modo de árbol de modelos contextuales, o jerarquía de modelos contextuales, puede expandirse hacia fuera a partir de un nodo de raíz sencillo. La jerarquía de los modelos contextuales puede ser interpolada con el uso de un cuerpo de retención de texto y técnicas conocidas, tales como interpolaciones excluidas o procedimiento de retroceso. En especial, la invención no resulta limitada así por las técnicas de alisamiento específicas aquí descritas. Por el contrario, puede ser utilizada cualquier técnica de alisamiento adecuada conocida.
Después de determinada y alisada la jerarquía de los modelos contextuales, las pronunciaciones habladas del usuario recibidas pueden ser tratadas con el uso de la jerarquía resultante de los modelos contextuales. Uno o más modelos contextuales dentro de la jerarquía de ellos pueden ser identificados con las correspondientes una o más pronunciaciones habladas del usuario recibidas. Estos modelos contextuales identificados pueden ser utilizados para tratar las subsiguientes pronunciaciones habladas del usuario recibidas.
Un aspecto de la invención puede incluir un método de conversión de habla en texto con el uso de la jerarquía de los modelos contextuales. Dicha jerarquía puede ser alisada estadísticamente en un modelo de lenguaje. El método puede incluir: a) tratamiento del texto con una pluralidad de modelos contextuales, cada uno de los cuales puede corresponder a un nodo en una jerarquía de la pluralidad de modelos contextuales. El tratamiento del texto puede ser ejecutado en serie o en paralelo. Incluido también en el método puede haber: b) identificación de al menos uno de los modelos contextuales relativos al texto recibido, y c) tratamiento de las pronunciaciones habladas subsiguientes del usuario con al menos un modelo contextual identificado.
Al menos uno de pluralidad de modelos contextuales puede corresponder a un documento o una parte de él, una sección de un documento, al menos una respuesta del usuario recibida en un estado de diálogo particular en un sistema basado en el diálogo, o al menos una respuesta del usuario recibida en un emplazamiento particular dentro de una operación particular en un sistema basado en el diálogo. Aún más, el citado al menos uno de la pluralidad de modelos contextuales puede corresponder a la sintaxis de una indicación del sistema basado en diálogo, una indicación del sistema basado en el diálogo particular, o un mensaje de correo electrónico recibido.
Breve descripción de los dibujos
En los dibujos adjuntos se muestran realizaciones preferidas en la actualidad, aunque no obstante se entiende que la invención no se limita a las disposiciones precisas e instrumentaciones mostradas.
La fig. 1 es diagrama esquemático de un ejemplo de sistema de ordenador sobre el que puede ser utilizada la invención.
La fig. 2 es un diagrama esquemático que muestra un ejemplo de arquitectura para el reconocimiento de habla.
Las figs. 3A y 3B son diagramas esquemáticos que muestran componentes típicos que pueden estar comprendidos en un aparato de reconocimiento de habla.
La fig. 4 es un diagrama de bloques que ilustra un ejemplo de jerarquía de modelos contextuales.
La fig. 5 es una tabla del flujo de acciones que ilustra un ejemplo del método de la invención.
La fig. 6 es una tabla del flujo de acciones que ilustra un ejemplo del método de la invención.
Descripción detallada de la realización
La realización que aquí se describe se refiere a un método para crear una jerarquía de modelos contextuales, y el uso de estos modelos para convertir el habla en texto. El método de la realización puede ser utilizado dentro de un sistema de reconocimiento de habla, y dentro de un sistema basado en el diálogo de comprensión de un lenguaje natural. En particular, la realización puede crear una pluralidad de modelos contextuales a partir de sesiones de habla del usuario diferentes, documentos, partes de documentos, o respuestas en forma de pronunciaciones habladas del usuario. Estos modelos contextuales pueden ser organizados o agrupados en modalidad de abajo a arriba, en pares relacionados, con el uso de una métrica de distancia conocida. En especial, la organización de los modelos contextuales en pares relacionados puede ser ejecutada de modo automático y dinámico en un cierto tiempo de ejecución. Los pares relacionados de modelos contextuales pueden ser unidos para formar un modelo contextual generador. El procedimiento puede ser repetido hasta que surge una jerarquía de modelos contextuales que se asemeja a una estructura arbórea. La jerarquía puede tener un nodo de raíz sencilla, desde la cual se extienden otros nodos. En especial, cada nodo de la jerarquía de los modelos contextuales puede corresponder a un modelo contextual. Debe apreciarse que el término "modelo contextual" aquí utilizado puede referirse a un modelo de lenguaje formado a partir de datos de aprendizaje obtenidos de un documento sencillo, una parte de un documento, o en el caso de un sistema de Comprensión de Lenguaje Natural (NLU), una o más de las pronunciaciones o respuestas habladas del usuario.
La jerarquía resultante de los modelos contextuales puede ser interpolada con el uso de un cuerpo de retención de texto, y el empleo de técnicas conocidas tales como supresión de interpolación o procedimiento de situación retrasada. En especial, la invención no se limita a las técnicas de alisamiento específicas aquí descritas. Por el contrario, puede ser utilizada cualquier técnica de alisamiento conocida.
Después de determinada la jerarquía de los modelos contextuales, las pronunciaciones habladas del usuario recibidas pueden ser tratadas con el uso de la jerarquía resultante de los modelos contextuales. En particular, puede ser identificado un modelo contextual dado dentro de la jerarquía de ellos, que corresponde a o que refleja con más precisión una o más pronunciaciones habladas del usuario recibidas. Por ejemplo, la realización puede tratar una pronunciación hablada del usuario recibida con la jerarquía de los modelos contextuales, e identificar el modelo contextual que proporciona el texto resultante que posee el grado más alto de aceptación. La realización puede trabajar sobre la hipótesis de que las pronunciaciones habladas del usuario subsiguientes pueden corresponder a una materia similar a la de las pronunciaciones habladas de dicho usuario recibidas con anterioridad y utilizadas para identificar el correspondiente modelo contextual. Por tanto, dichas pronunciaciones subsiguientes pueden ser tratadas con el modelo contextual identificado, para conseguir una actuación del sistema de reconocimiento de voz mejorado.
En particular, la jerarquía resultante de los modelos contextuales y el modelo de lenguaje alisado pueden permitir que el tratamiento de las subsiguientes pronunciaciones habladas del usuario sea más generalizado. Esto puede ser especialmente beneficioso aplicado a un sistema NLU, en el que modelos de lenguaje "en aprendizaje" pueden afectar adversamente a la actuación del sistema. Específicamente, la jerarquía alisada de modelos contextuales puede ser dirigida hacia el nodo de raíz, de modo que los modelos contextuales resulten más generalizados pero sigan sensibles al contexto, o hacia las hojas donde los modelos contextuales se hacen más específicos pero aún sensibles al contexto.
La fig. 1 muestra un sistema 100 de ordenador típico para uso en conjunción con la presente realización. El sistema puede incluir un ordenador 105 que a su vez incluye una unidad de tratamiento central (CPU) 110, uno o más dispositivos de memoria 115, y los circuitos asociados. Los dispositivos de memoria 115 pueden estar compuestos de una memoria electrónica de acceso aleatorio y un medio auxiliar de almacenamiento de datos. El sistema puede incluir también un micrófono 120 conectado operativamente al sistema de ordenador a través de un circuito de interfaz adecuado 125, y una unidad opcional 130 de visualización de interfaz de usuario tal como un terminal de datos de vídeo conectado operativamente al sistema. La CPU puede estar compuesta de cualquier microprocesador adecuado u otra unidad de tratamiento electrónico, como es bien conocido por los expertos en la técnica. Unos altavoces 135 y 140, así como un dispositivo de interfaz, tal como un ratón 145, y un teclado 150, pueden estar dispuestos con el sistema, aunque no necesariamente para la actuación de la invención como aquí se describe. Los diversos requerimientos de equipo físico para el sistema de ordenador como aquí se expone, pueden ser satisfechos en general por uno cualquiera de los muchos ordenadores de alta velocidad adquiribles comercialmente.
La fig. 2 es un diagrama esquemático que ilustra una arquitectura típica para un sistema de reconocimiento de habla en el sistema de ordenador 100. Como se muestra en la fig. 2, dentro de la memoria 115 de dicho sistema 100 puede haber un sistema operativo 200 y un aparato 210 de reconocimiento de habla. Incluida también puede haber una aplicación 220 de procesador de texto de habla y una aplicación 230 de navegador de voz. No obstante, la invención no se limita a lo expuesto, y el aparato 210 de reconocimiento de habla puede ser utilizado con cualquier otro programa de aplicación habilitado para la voz. En la fig. 2, el aparato 210 de reconocimiento de habla, la aplicación 220 de procesador de texto de habla, y la aplicación 230 de navegador de voz, se muestran como programas de aplicación separados. No obstante, ha de hacerse notar que la invención no se limita a esto, y los diversos programas de aplicación citados pueden ser puestos en práctica como uno solo más complejo. Por ejemplo, el aparato 210 de reconocimiento de habla puede ser combinado con la aplicación 220 de procesador de texto de habla, o con cualquier otra aplicación que esté habilitada para la voz. Igualmente, si ningún otro programa de aplicación controlado por el habla ha de ser accionado en conjunción con la aplicación 220 del procesador de textos de habla y con el aparato 210 de reconocimiento de habla, el sistema puede ser modificado para trabajar sin la aplicación 230 de navegador de voz. Esta aplicación 230 ayuda principalmente a coordinar el funcionamiento del aparato 210 de reconocimiento de habla.
Los componentes antes citados pueden ser materializados de modo centralizado dentro del sistema 100 de ordenador. Alternativamente, dichos componentes pueden ser materializados de modo distribuido, y los diferentes elementos pueden estar repartidos en diversos sistemas de ordenador interconectados. En cualquier caso, los componentes pueden estar materializados en equipo físico, en programa lógico, o una combinación de ellos. Cualquier clase de sistema de ordenador u otro aparato destinado a llevar a cabo los métodos aquí descritos es adecuado. El sistema que aquí se describe puede ser puesto en práctica mediante un programador, con el uso de herramientas desarrolladas adquiribles comercialmente para el sistema de trabajo particular utilizado.
Medios de programa de ordenador o programa de ordenador, significan en el presente contexto cualquier expresión, en cualquier lenguaje, código, o notación, de un juego de instrucciones destinadas a hacer que un sistema cuente con capacidad de tratamiento de información para ejecutar una función particular, ya sea directamente o después de uno o ambos conceptos siguientes: a) conversión a otro lenguaje, código, o notación; b) reproducción en una forma de material diferente.
Durante el funcionamiento, las señales de audio representativas del sonido recibido en el micrófono 120 pueden ser tratadas dentro del ordenador 100 con el uso de un circuito de audio de ordenador convencional, de modo que resulte disponible para el sistema operativo 200 en forma digitalizada. Alternativamente, las señales de audio pueden ser recibidas a través de la red de comunicaciones de ordenador desde otro sistema de ordenador en formato analógico o digital, o de otro dispositivo transductivo tal como un teléfono. Las señales de audio recibidas por el sistema de ordenador 100 son proporcionadas convencionalmente al aparato 210 de reconocimiento de habla a través del sistema operativo 200 de ordenador, con objeto de efectuar funciones de reconocimiento de habla. Como en los sistemas de reconocimiento de habla convencionales, las señales de audio pueden ser tratadas por el aparato 210 de reconocimiento de habla, para identificar palabras habladas por el usuario ante el micrófono 120. La fig. 3A es un diagrama de bloques que muestra los componentes típicos que pueden comprender el aparato 210 de reconocimiento de habla. Como se muestra en la fig. 3, dicho aparato 210 de reconocimiento de habla recibe una señal de habla digitalizada procedente del sistema operativo. El sistema es transformado subsiguientemente en un bloque 310 de representación, dentro de un juego útil de datos por muestreo de la señal en algunos espacios de tiempo fijos, típicamente cada 10 a 20 mseg. El bloque de representación produce una nueva representación de la señal de audio, que puede ser utilizada entonces en etapas subsiguientes del procedimiento de reconocimiento de la voz para determinar la probabilidad de que la parte de la forma de onda justamente analizada corresponda a un suceso fonético particular. Este procedimiento está destinado a enfatizar perceptualmente importantes características independientes del que habla, en las señales del habla recibidas procedentes del sistema operativo. En el bloque 320 de modelación/clasificación, unos algoritmos tratan ulteriormente las señales de habla, para adaptar los modelos acústicos independientes del hablante a los del que habla en ese momento. Finalmente, en el bloque de búsqueda 330 son utilizados unos algoritmos para guiar al aparato de búsqueda hacia las palabras más probables correspondientes a la señal de habla. El procedimiento de búsqueda en el bloque 330 de ella se produce con ayuda de los modelos acústicos 340, modelos de léxico 350, y modelos de lenguaje 360.
Los modelos de lenguaje 360 pueden ser utilizados para ayudar a reducir el número de posibles palabras correspondientes a una señal de habla, cuando una palabra es utilizada junto con otras en una secuencia. El modelo de lenguaje puede ser especificado como una red de estado finito, donde las palabras permisibles que siguen a cada palabra son relacionadas explícitamente, o puede ser puesto en práctica de manera más complicada haciendo uso de una gramática sensible al contexto. Otros ejemplos de modelos de lenguaje pueden incluir, sin limitarse a ello, modelos de n gramas y modelos de entropía máxima del lenguaje, cada uno de los cuales es conocido en la técnica. En cualquier caso, es deseable con frecuencia actualizar el contenido del modelo de lenguaje con información relativa a los patrones de habla que probablemente se encontrarán en el caso de un usuario específico. El procedimiento de búsqueda determina la palabra candidata que tiene el grado de aceptación más alto de salir en el texto.
Dicho grado de aceptación refleja la posibilidad de que una palabra particular candidata corresponda con precisión a la pronunciación del habla de un usuario. El grado de aceptación puede ser un valor derivado de los modelos acústicos, modelos de léxico, y modelos de lenguaje. Por ejemplo, el citado grado de aceptación puede tener en cuenta la posibilidad de que una palabra candidata particular represente la pronunciación del habla del usuario, determinada con el uso del modelo acústico, además de la probabilidad de la palabra candidata particular pueda ser situada próxima a otra palabra o a un grupo de ellas, como se determine con el uso del modelo de lenguaje.
El texto reconocido puede ser proporcionado a un Director de Sesión de Modelo de Lenguaje (LMSM) 380. En base a la probabilidad de que el texto resultante refleje con precisión la pronunciación del habla del usuario recibida, el LMSM 380 puede determinar un modelo contextual más apropiado que puede ser utilizado para el tratamiento de pronunciaciones del habla del usuario recibidas subsiguientemente. Más específicamente, el LMSM 380 puede identificar un modelo contextual que pueda ser utilizado para tratar textos, en los que el texto resultante pueda tener la más alta probabilidad de reflejar la pronunciación del habla del usuario recibida. Por tanto, el LMSM 380 puede seleccionar un modelo contextual adecuado para uso en el tratamiento del habla recibida subsiguientemente. Como se muestra, el LMSM 380 puede proporcionar un camino de realimentación al sistema de reconocimiento de habla.
El LMSM 380 puede reconocer también secciones de documentos. Por ejemplo, dicho LMSM 380 puede determinar la sección de un documento por el emplazamiento de un cursor dentro de dicho documento. El LMSM 380 puede ser programado con uno o más modelos o plantillas, cuyos modelos pueden contener indicaciones de diferentes secciones del documento, tales como la introducción, antecedentes, u otra sección definible de un documento. Las secciones pueden ser definidas por el usuario, y pueden ser materias específicas. Por ejemplo, las secciones pueden ser subpartes de un documento, que pueden o no ser un texto de una materia específica que incluye una sección verdadera o falsa, una sección de respuesta corta, o una sección de elección múltiple. En especial, los programas convencionales de tratamiento de palabras pueden proporcionar la división en secciones de los documentos.
El LMSM 380 puede estar programado también para determinar cuándo ha de ordenar al Formador de Modelo de Lenguaje (LMB) 390 la formación de un nuevo modelo contextual, y la reordenación de la jerarquía de los modelos contextuales. El LMB 390 puede formar dinámicamente un nuevo modelo contextual inicial, así como reordenar la jerarquía de los modelos contextuales. Por ejemplo, si modelos contextuales iniciales han de ser formados a partir de documentos, el LMSM 380 puede determinar cuándo un documento o parte de él está completo, de modo que pueda ser formado un nuevo modelo contextual, y pueda ser reordenada la jerarquía de los modelos contextuales. Más específicamente, cuando el usuario cierra un documento, o se informa de otro modo al sistema de reconocimiento de habla que el usuario ha terminado de dictar un documento o una parte de él, el LMSM 380 puede instruir al LMB 390 para comenzar a reordenar la jerarquía de los modelos contextuales. El LMSM 380 puede ser programado con varios modelos o plantillas y secciones de documentos, como se utilizan en los programas de tratamiento de textos, de modo que al completarse uno cualquiera de ellos pueda resultar que la jerarquía de los modelos contextuales es reordenada. Por ejemplo, el LMSM 380 puede formar dinámicamente un modelo contextual correspondiente a la sección de un documento, y reordenar la jerarquía de los modelos contextuales cuando el cursor de un programa de edición de texto abandone esa sección del documento. De igual modo, si los modelos contextuales son formados de partes de documentos, tales como párrafos, la terminación de un párrafo, por ejemplo, una orden de retorno manual, puede indicar al LMSM 380 que instruya al LMB 390 pata formar un nuevo modelo contextual basado en el texto incluido dentro del párrafo más reciente. El LMB 390 puede entonces modificar la jerarquía de los modelos contextuales. Como antes se ha dicho, los modelos contextuales iniciales pueden incorporar modelos o plantillas de documentos, documentos, secciones de ellos, o partes de documentos.
La fig. 3B es un diagrama de bloques que muestra los componentes típicos que pueden comprender el aparato 210 de reconocimiento de habla, similar al diagrama de bloques de la fig. 3A. Sin embargo, la fig. 3B puede incluir un sistema NLU (Comprensión de lenguaje natural). En especial, el sistema NLU se distingue porque puede incluir un ordenador para comprender y extraer información del lenguaje humano hablado o escrito. Dichos sistemas pueden funcionar de manera complementaria con una cierta variedad de otras aplicaciones de ordenador cuando existe la necesidad de comprender el lenguaje humano. Los sistemas NLU pueden extraer la información relevante contenida dentro del texto y suministrar luego dicha información a otro programa de aplicación.
El sistema NLU puede comunicar con el LMSM 380 para proporcionar a éste información relativa a la pronunciación hablada del usuario en respuesta a un sistema basado en el diálogo. Dicha información puede incluir el tipo de operación particular en la que está ocupado el usuario, el lugar del usuario dentro de la operación, la indicación del sistema basada en el diálogo particular, y la sintaxis de dicha indicación. Por ejemplo, el sistema NLU 395 puede proporcionar al LMSM información de la pronunciación hablada del usuario con la que respondió a una indicación preguntando por el nombre de una cuenta en el contexto de una transacción de reembolso en un sistema financiero. Además, el sistema NLU puede informar al LMSM de que la respuesta prevista era un número, una frase de un texto que tenía una sintaxis particular o relativa a un objeto particular, o una indicación de sí o no.
Por ejemplo, los modelos contextuales iniciales pueden ser formados a partir de las respuestas del usuario relativas al estado de un diálogo dado, el objeto de una operación dada, el emplazamiento del usuario dentro de una operación particular, las respuestas del usuario a una indicación particular del diálogo conocido, o a la sintaxis de la indicación del diálogo a la que el usuario está respondiendo. El estado de un diálogo dado puede referirse en general a cada uno de los factores antes mencionados.
El objeto de una operación dada puede referirse a la acción u orden que el usuario está pidiendo. Por ejemplo, en un sistema de dirección financiera, las operaciones pueden incluir reembolsos, transferencias, depósitos, etc. En el contexto de un sistema de viajes, las operaciones pueden incluir reservas, vuelos, alquileres de coches, etc. Las operaciones pueden ser aplicaciones específicas basadas en los sistemas a los que el sistema NLU proporciona una interfaz. Por tanto, pueden formarse modelos contextuales de acuerdo con cada objeto identificable dentro del sistema basado en diálogo.
El emplazamiento dentro de una operación puede proporcionar información contextual relativa a una respuesta del usuario. Específicamente, cualquier operación dada puede requerir uno o más parámetros del usuario especificados. Por tanto, en base a los parámetros recibidos y en adición al tipo particular de transacción iniciada, el sistema de reconocimiento de habla puede formar un modelo contextual sin conocer la indicación exacta del sistema basado en el diálogo a la que el usuario ha respondido, basado sólo en la información correspondiente al emplazamiento del usuario dentro de una operación dada.
Modelos contextuales pueden ser formados a partir de las respuestas del usuario a las indicaciones de un sistema particular conocido basado en el diálogo. Adicionalmente, pueden ser formados modelos contextuales a partir de respuestas del usuario a preguntas que tienen una sintaxis particular. Por ejemplo, las respuestas del usuario a indicaciones de "sí" o "no" del sistema pueden ser agrupadas para formar un modelo de lenguaje. De igual modo, las respuestas del usuario a indicaciones de "quién", "qué", "dónde", "cuándo", "por qué" pueden ser agrupadas, así como las respuestas del usuario a una elección múltiple o indicaciones de tipo de lista.
El alisamiento estadístico puede aliviar los problemas con respecto a un subaprendizaje o uso de una pequeña cantidad de datos de aprendizaje. Adicionalmente, la estructura jerárquica permite que los sistemas de reconocimiento de habla traten pronunciaciones habladas del usuario con modelos generalizados en aumento, que permanecen sensibles al contexto. Por tanto, si la respuesta de un usuario no está conforme con los datos previamente recogidos, puede ser utilizado un modelo contextual más generalizado para tratar dicha respuesta.
Por tanto, el LMB 390 puede formar dinámicamente modelos contextuales, por ejemplo los modelos contextuales iniciales, en los que cada uno de ellos puede ser formado a partir de un agrupamiento de una o más respuestas del usuario. Igualmente, el LMB 390 puede reformar dinámicamente la jerarquía de los modelos contextuales que responden a la recepción de la pronunciación hablada del usuario, dada en respuesta a una indicación del diálogo. El sistema de la fig. 3B difiere también del de la fig. 3A en que el sistema NLU puede generar una indicación de diálogo que puede ser reproducida mediante una grabación, o con el uso de un texto para tecnología hablada.
La fig. 4 muestra un ejemplo de jerarquía de los modelos contextuales 360 de la fig. 3. El modelo de lenguaje 360 es mostrado como un estructura en árbol que tiene unos nodos múltiples A, B, C, D, E, y F extendidos bajo el nodo de raíz. Cada nodo puede corresponder a un modelo contextual. El par de nodos de hoja C y D, y el par de nodos de hoja E y F, citados también como nodos terminales, pueden ser identificados como pares de modelos contextuales relacionados que utilizan una métrica de distancia conocida. Por ejemplo, dicha métrica de distancia puede incluir, sin limitarse a ello, la distancia Kullback-Liebler, entropía relativa, discriminación, o divergencia. En cualquier caso, el nivel inferior de los modelos contextuales puede ser agrupado en pares con el uso de la métrica conocida. Este procedimiento, conocido como agrupamiento de abajo a arriba, puede ser continuado hasta que se determine un nodo de raíz.
En otra realización de la invención, los modelos contextuales pueden ser agrupados según la materia objeto de la sesión de dictado de la que se deriva el modelo contextual. Por ejemplo, el sistema de reconocimiento de habla puede utilizar algoritmos de búsqueda de palabras y tecnología de lenguaje natural para clasificar cada modelo contextual individual (nodo) de acuerdo con un objeto predeterminado. El modelo contextual puede ser etiquetado de acuerdo con ello, de modo que no sólo puedan ser relacionados modelos contextuales en pares, sino que los sistemas de reconocimiento de voz puedan agrupar sólo modelos contextuales relacionados, clasificados bajo un objeto particular. Alternativamente, el usuario puede definir una clasificación del objeto particular. En ese caso, el usuario puede introducir una serie de palabras clave, que el sistema de reconocimiento de voz puede utilizar para clasificar modelos contextuales. El sistema de reconocimiento de habla puede permitir también que el usuario eluda la clasificación de un modelo contextual.
Los pares agrupados de modelos contextuales pueden ser unidos en un modelo contextual generador. Por ejemplo, el nodo A puede ser un generador derivado de sus descendientes fundidos, los nodos C y D. De igual modo, el nodo B puede ser un generador que puede ser derivado de sus descendientes, los nodos de hoja E y F. La fusión de dos nodos descendientes para formar un generador puede ser llevada a cabo con el uso de una cierta variedad de métodos. Uno de ellos puede ser de interpolación. Por ejemplo, los candidatos potenciales a una palabra pueden ser tratados con el uso de cada modelo contextual de nodo descendiente. Subsiguientemente, las dos posibles frases resultantes pueden ser comparadas, y puede seleccionarse el resultado más probable. La probabilidad asociada a cada resultado de modelo contextual puede ser multiplicada por una constante ponderada. En tal caso, la constante aplicada por ejemplo, a la hoja C, y la constante aplicada a la hoja D pueden tener una suma de 1. Otro método de fundir los nodos descendientes para formar un generador puede incluir el uso de los datos correspondientes a cada nodo descendiente, para formar un nuevo modelo contextual con el uso de métodos conocidos para formar dichos modelos. Por tanto, los datos utilizados para formar el modelo contextual generador en un nodo pueden ser los datos compuestos de los dos descendientes del generador.
Con independencia del método particular utilizado para fundir dos nodos, en cada nivel de la jerarquía de los modelos contextuales, el agrupamiento de nodos pareados y su unión en un nodo generador puede continuar hasta alcanzar un nodo de raíz. Los nodos generadores A y B pueden incluir características compartidas en sus descendientes. De igual modo, el nodo raíz puede incluir características compartidas en sus descendientes, los modelos contextuales correspondientes a los nodos A y B. Por tanto, la jerarquía de los modelos contextuales proporciona un surtido de ellos, cada uno de los cuales incorpora una mezcla de estilos de habla dependientes del usuario incorporados a él. En el caso de que modelos contextuales generadores sean formados con el uso de datos compuestos, la jerarquía resultante de los modelos contextuales puede ser citada como modelo de lenguaje jerárquico sencillo. De acuerdo con ello, los modelos contextuales inferiores son los modelos más específicos. Si un modelo contextual particular no proporciona un nivel de confianza satisfactoria, puede ascenderse en el árbol hasta un modelo contextual más generalizado.
La fig. 5 es una tabla 500 de flujo de acciones que ilustra un ejemplo de método para la creación de modelos contextuales jerárquicos, que se ejecuta mediante el uso del sistema de ordenador de la fig. 1 y el aparato de reconocimiento de habla de la fig. 2. El método comienza en un estado en el que el sistema de reconocimiento de habla ha acumulado una pluralidad de modelos contextuales tales como los asociados a los nodos de hoja C, D, E, y F, la fila inferior de la jerarquía de modelos contextuales que ha de ser creada. Estos modelos contextuales iniciales pueden diferir en función del uso. Por ejemplo, para un dictado general, el sistema de reconocimiento de habla puede crear un nuevo modelo contextual por cada sesión de dictado previo, documento, parte de un documento, o sección de un documento correspondiente a un usuario particular.
En la ilustración, el sistema de reconocimiento de habla puede generar un modelo contextual para solicitudes de patente. Aún más, dicho sistema puede generar un modelo contextual para cada parte de una solicitud de patente. Por ejemplo, las reivindicaciones de varias solicitudes de patente pueden contener características similares, como cada una de las otras partes de una solicitud de patente, tales como el resumen, descripción detallada, así como el sumario de ella. Por tanto, puede ser formado un modelo contextual por cada parte de un documento tal como una solicitud de patente. Otra realización puede incluir la formación de un modelo contextual para las subpartes. Por ejemplo, un modelo contextual puede ser formado para las reivindicaciones independientes, y otro para las reivindicaciones dependientes. Cualquier parte identificable de un documento puede ser utilizada para formar el correspondiente modelo contextual. Procesadores de texto convencionales puede subdividir documentos en una o más secciones. Por ejemplo, estas subdivisiones pueden ser utilizadas también para generar un modelo contextual por cada subdivisión identificable de un documento.
Para modelos contextuales utilizados en sistemas de diálogo, cada modelo contextual inicial puede corresponder al juego de frases que son las respuestas a cada indicación emitida por el sistema de diálogo. En cualquier caso, los modelos contextuales iniciales, o una fila inferior de la jerarquía, pueden servir como base para cualquier interpolación entre los modelos contextuales o cualquier otra formación subsiguiente de nuevos modelos contextuales generadores, los cuales pueden comprender la jerarquía del modelo contextual resultante.
El sistema de reconocimiento de habla puede incluir un parámetro ajustable por el usuario para instruir al sistema de reconocimiento de habla, para almacenar los modelos contextuales de las últimas n sesiones de dictado, documentos, o respuestas correspondientes a un usuario particular. Alternativamente, el sistema de reconocimiento de habla puede almacenar los últimos n modelos contextuales correspondientes a una clasificación de un objeto particular de modelo contextual. Por ejemplo, pueden ser almacenados los últimos n modelos contextuales relacionados con una actividad o negocio, los últimos n modelos contextuales de cartas personales, etc. Además, puede ser especificado el parámetro sobre la base de uno por usuario, así como uno sobre la base del objeto de clasificación. Por tanto, un usuario A puede determinar el valor total de n, además de un valor uniforme de n por cada clasificación de objeto. El usuario B puede establecer también un valor general de n, además de valores diferentes de n por cada clasificación de objeto. Además, los valores del juego n del usuario B pueden ser totalmente independientes de los valores del juego n del usuario A. Con ello se permite que el sistema sea generalizado como se necesite.
El método 500 de la fig. 5 puede ser ejecutado sobre la base de un usuario. Además, si el sistema ordenador de la fig. 1 posee una potencia de tratamiento adecuada, dicho método 500 puede ser ejecutado al comienzo de cada sesión de dictado de un nuevo usuario, documento, o respuesta de dicho usuario. Por tanto, la jerarquía de los modelos contextuales a un usuario particular puede ser actualizada constantemente. De manera alternativa, el método 500 puede ser ejecutado automáticamente por el sistema de reconocimiento de voz sobre bases periódicas, o de manera fuera de línea en respuesta a una petición del usuario.
En cualquier caso, en la operación 510, el sistema de reconocimiento de voz puede utilizar una métrica de distancia para determinar lo próximamente relacionado que cada modelo contextual está con otro modelo correspondiente a un usuario particular. Como ya se ha dicho, el sistema de reconocimiento de habla puede utilizar la distancia Kullback-Liebler, así como la clasificación del objeto de cada modelo contextual para la determinación de la relación o distancia. Después de completada la operación 510, el método puede continuar a la operación 520.
En la operación 520, el sistema de reconocimiento de habla puede identificar el par de modelos contextuales que tiene la menor distancia. Completada la operación 520, el método puede pasar a la operación 530, donde los modelos contextuales pueden ser unidos. Como antes se ha dicho, los modelos contextuales pueden ser unidos por interpolación, o mediante el uso de los datos de cada modelo contextual descendiente, para formar un nuevo modelo generador. Si los modelos contextuales están siendo reconstruidos en cada generador unido, el nodo de raíz puede corresponder al uso de un modelo de lenguaje sencillo. En ese caso, los nodos del modelo contextual jerárquico pueden ser alisados con el uso de datos que pueden ser retenidos fuera o excluidos de la derivación inicial del modelo contextual. Los datos excluidos pueden ser utilizados entonces para ejecutar el alisamiento estadístico del modelo contextual jerárquicamente resultante. Por tanto, el modelo contextual puede ser la interpolación de todos los modelos contextuales desde un nodo de hoja al nodo de raíz. Con independencia de ello, después de completada la operación 530, el método puede continuar a la operación 540.
En la operación 540, el sistema de reconocimiento de habla puede determinar si se ha establecido un nodo de raíz sencillo. Más específicamente, el sistema de reconocimiento de voz puede determinar si la jerarquía de los modelos contextuales termina en un nodo sencillo. Si es así, el método puede concluir, Si no, el método puede efectuar un bucle de vuelta atrás a la operación 510 para repetirla. Se apreciará que el método 500 puede repetirse como se necesite, y cada iteración a través de dicho método crea otro nivel de jerarquía de los modelos contextuales en modalidad ascendente, con progresión hacia un nodo de raíz sencillo.
La fig. 6 es una tabla de flujo de acciones 600 que muestra un ejemplo de método de conversión de habla en texto con el uso de la jerarquía de los modelos contextuales de la fig. 4. En particular, el sistema de reconocimiento de habla puede seleccionar un modelo contextual adecuado para tratar pronunciaciones habladas de usuario subsiguientes basadas en las pronunciaciones recibidas. Si el sistema de ordenador tiene suficiente potencia de tratamiento, de modo que pueda convertir el habla en texto en tiempo real sin un retardo razonable, puede ser ejecutada la determinación del modelo contextual por cada pronunciación o frase recibidas del usuario por el sistema de reconocimiento de habla. Por ejemplo, después de cada pausa detectable en la pronunciación hablada del usuario recibida, el sistema de reconocimiento de habla puede ejecutar el método 600.
Alternativamente, la determinación puede ser efectuada al comienzo de una sesión de dictado, periódicamente a lo largo de la sección hablada, o en respuesta a una orden del usuario para ejecutar dicha determinación. Por ejemplo, el sistema de reconocimiento de habla puede ejecutar la determinación automáticamente después de que el usuario ha dictado durante un tiempo predeterminado, o como consecuencia de que el grado de certeza quede por debajo de un valor de umbral predeterminado. En el caso de petición del usuario, éste puede pedir que se haga la determinación cuando él cambia a un estilo u objeto del dictado diferente, por ejemplo, de correspondencia de negocios a correspondencia personal.
El método 600 puede comenzar en la operación 610, en la que el sistema de reconocimiento de habla recibe una entrada de texto. La entrada de texto puede estar derivada de un sistema de reconocimiento de habla, o puede ser un texto dentro de un documento existente. En especial, el texto puede ser un mensaje de correo electrónico recibido. Después de completada la operación 610, el método puede continuar a la operación 620. En ésta, el sistema de reconocimiento de habla puede tratar el texto recibido con el uso de los modelos jerárquicamente contextuales. Por ejemplo, el texto puede ser tratado con cada uno de los modelos contextuales contenidos dentro de la jerarquía de ellos. El modelo contextual que proporcione el texto que tenga el más alto grado de certeza puede ser identificado como el modelo correcto o más adecuado para uso en la conversión en texto de la subsiguiente pronunciación hablada del usuario. El procedimiento puede ser efectuado en forma de serie o paralelo.
Por ejemplo, en un sistema basado en el diálogo, aunque puede esperarse que una respuesta de "sí" o "no" de un usuario corresponde a una indicación particular del diálogo, el usuario puede responder "sí; no obstante yo preferiría X". En este caso, el usuario ha respondido y ha proporcionado una información adicional. Por tanto, aunque un sistema basado en el diálogo puede incluir un modelo contextual correspondiente a la indicación a la que ha respondido el usuario, la respuesta de éste puede reflejar con más precisión una respuesta prevista a otra indicación del sistema. En especial, una respuesta prevista que no se limita a "sí" o "no". Con independencia de ello, el texto derivado del sistema de reconocimiento de habla puede ser tratado con la jerarquía de los modelos contextuales. Puede ser identificado el modelo contextual que proporcione un texto que posee el más alto grado de certeza. En especial, debido a que la respuesta del usuario variaba con respecto al tipo previsto de ella por el sistema NLU, el modelo contextual identificado puede ser diferente al modelo contextual asociado por lo general a las respuestas del usuario tratadas correspondientes a una indicación de diálogo particular a la que ha respondido dicho usuario. El modelo contextual identificado puede diferir también del modelo contextual utilizado por el sistema de reconocimiento de habla para convertir la pronunciación hablada del usuario en texto.
En otra realización de la invención, puede ser identificado un modelo contextual correspondiente a una sección de un documento identificable. Por ejemplo, si un usuario está dictando un documento, y el sistema de reconocimiento de habla determina que el cursor del usuario está situado dentro de una sección particular del documento, el citado sistema puede identificar el modelo contextual correspondiente a esa sección del documento. El modelo contextual identificado puede ser utilizado, al menos inicialmente, para tratar pronunciaciones habladas del usuario recibidas mientras el cursor del usuario esté situado dentro de la correspondiente sección del documento. Aún más, el usuario puede especificar la sección del documento al sistema de reconocimiento de habla en otro método, tal como de habla u orden de puntero. En especial, pueden ser incorporados también otros métodos de determinación de modelo contextual. Por ejemplo, en base a grados de certeza insatisfactorios, el sistema de reconocimiento de habla puede interrumpir el uso del modelo contextual identificado a favor de otro modelo contextual.
Se apreciará que el sistema de reconocimiento de habla puede identificar uno o más modelos contextuales que producen texto con un grado de certeza por encima de un valor de umbral mínimo predeterminado. En tal caso, dicho sistema puede utilizar cada modelo contextual identificado cuando los resultados con el uso de cada modelo puedan ser ponderados empleando coeficientes de probabilidad. Por ejemplo, el coeficiente puede estar relacionado directamente con los grados de certeza del texto resultante. Alternativamente, el sistema de reconocimiento de habla puede extrapolar entre los modelos contextuales identificados. Aún más, puede ser seleccionado el modelo contextual que proporcione el texto que tenga el grado de certeza más alto. Completada la operación 620, el método puede continuar a la operación 630.
En la operación 630, el modelo contextual identificado puede ser utilizado para tratar pronunciaciones habladas del usuario subsiguientes en el sistema de reconocimiento de habla. Dicho sistema puede continuar sobre el supuesto de que las pronunciaciones subsiguientes del usuario que se producen dentro de un tiempo particular de la determinación del modelo contextual, tienen probablemente una sintaxis y vocabulario similares o se refieren a una materia similar como la del texto utilizado para hacer la determinación. Por tanto, además de la selección del modelo contextual en base a la materia tratada, en relación con un sistema de dictado, el método puede seleccionar un modelo contextual a partir de la jerarquía de modelos contextuales, de acuerdo con el estado de diálogo en el sistema NLU.
Otra realización de la invención puede incluir la selección de un modelo contextual en base a un mensaje de correo electrónico recibido. Por ejemplo, un mensaje de correo electrónico recibido puede ser tratado para determinar un modelo contextual apropiado correspondiente a ese correo electrónico. El modelo contextual identificado puede ser utilizado para convertir pronunciaciones habladas subsiguientes del usuario en texto. En especial, el modelo contextual puede ser utilizado para convertir las pronunciaciones del usuario durante una sesión de dictado en la que dicho usuario esté respondiendo al mensaje de correo electrónico recibido. Por tanto, dicho correo electrónico recibido puede ser tratado para determinar el modelo contextual que corresponde al objeto del correo electrónico recibido. Dicho modelo contextual puede ser utilizado para tratar la respuesta dictada por el usuario a ese correo electrónico. Además, el sistema de reconocimiento de habla puede tratar las partes diferentes del mensaje electrónico recibido, incluido el objeto del mensaje. En otra realización de la invención, el objeto puede constituir un factor adicional acordado para la determinación de un modelo contextual adecuado. Después de completada la operación 630, el método puede pasar a la operación 640.
En la operación 640, si se ha completado el segmento, el método puede pasar a la operación 650. Si no es así, el método puede continuar a la operación 610, para reunir más texto. En especial, el segmento puede corresponder a la unidad de texto utilizada para formar los modelos contextuales iniciales que sirven como fundamento para la jerarquía de dichos modelos contextuales. Por ejemplo, el segmento puede corresponder a un documento, párrafo, frase, o parte del documento, o una respuesta del usuario a una indicación del diálogo dada. Una vez seleccionada la cantidad predeterminada de texto, el segmento está completo. Alternativamente, el usuario puede notificar al sistema de reconocimiento de voz del comienzo y final de la pronunciación hablada, para ser convertida en texto. En cualquier caso, la cuantía de texto utilizado para formar un modelo contextual inicial puede ser reunida para completar así un segmento.
Si el segmento ha sido completado en la operación 650, el método puede formar dinámicamente un nuevo modelo contextual correspondiente a dicho segmento completado. Adicionalmente, puede ser ejecutado el método 500 para reformar dinámicamente la jerarquía de los modelos contextuales. Después de completada la operación 650, el método puede repetirse.

Claims (10)

1. Un método para crear una jerarquía de modelos contextuales, cuyo método comprende:
a) medir la distancia entre cada uno de la pluralidad de modelos contextuales utilizando una métrica de distancia, y en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de usuario dentro de un sistema basado en el diálogo;
b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en cuanto a distancia que los otros de dicha pluralidad de modelos contextuales;
c) unir dichos modelos contextuales identificados en un modelo contextual generador;
d) repetir las operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo de raíz; y
e) alisar estadísticamente dicha jerarquía de dicha pluralidad de modelos contextuales, con lo que resulta un modelo de lenguaje de reconocimiento de habla.
2. El método de la reivindicación 1, cuya operación c) de unir comprende además:
- interpolar entre dichos modelos contextuales identificados, cuya interpolación da por resultado una combinación de los citados modelos contextuales identificados.
3. El método de la reivindicación 1, cuya operación c) de unir comprende además:
- formar un modelo contextual generador con el uso de datos correspondientes a dichos modelos contextuales identificados.
4. Un método para convertir el habla en texto con el uso de una jerarquía de modelos contextuales creada por el método según una cualquiera de las reivindicaciones 1 a 3, en el que dicha jerarquía de modelos contextuales es alisada estadísticamente en un modelo de lenguaje, cuyo método comprende:
a) tratar un texto con una pluralidad de modelos contextuales, en el que cada uno de dicha pluralidad de modelos contextuales corresponde a un nodo en la jerarquía de los modelos contextuales;
b) identificar al menos uno de dichos modelos contextuales relacionado con dicho texto; y
c) tratar las subsiguientes pronunciaciones habladas del usuario con dicho al menos un modelo contextual identificado.
5. El método de la reivindicación 4, en el que dicha operación a) es ejecutada en serie o en paralelo.
6. El método de las reivindicaciones 4 ó 5, en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a uno o más de lo siguiente:
I) un documento o una parte de un documento;
II) al menos una respuesta de un usuario recibida en un estado de diálogo particular en un sistema basado en el diálogo;
III) al menos una respuesta de un usuario recibida en un emplazamiento particular dentro de una operación particular, a su vez dentro de un sistema basado en el diálogo;
IV) la sintaxis de una indicación en un sistema basado en el diálogo;
V) una indicación de un sistema basado en el diálogo, particular y conocido; o
VI) un mensaje de correo electrónico recibido.
7. Una máquina de almacenamiento legible, que tiene almacenado en ella un programa de ordenador que cuenta con una pluralidad de secciones de código ejecutables por una máquina, para hacer que ésta efectúe las operaciones de:
a) medir la distancia entre cada uno de la pluralidad de modelos contextuales con el uso de una métrica de distancia, en la que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de un usuario dentro de un sistema basado en el diálogo;
b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en distancia que los otros de dicha pluralidad de modelos contextuales;
c) unir dichos modelos contextuales identificados en un modelo contextual generador;
d) repetir dichas operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo común; y
e) alisar estadísticamente dicha jerarquía de la citada pluralidad de modelos contextuales, de lo que resulta un modelo de lenguaje de reconocimiento de habla.
8. La máquina de almacenamiento legible de la reivindicación 7, cuya operación c) de unir comprende además:
- interpolar entre dichos modelos contextuales identificados, cuya interpolación da por resultado una combinación de los citados modelos contextuales identificados.
9. La máquina de almacenamiento legible de la reivindicación 7, cuya operación c) de unir comprende además:
- formar un modelo contextual generador con el uso de datos correspondientes a dichos modelos contextuales identificados.
10. Una máquina de almacenamiento legible según las reivindicaciones 7, 8 ó 9, que tiene almacenado en ella otro programa de ordenador que cuenta con una pluralidad de secciones de código ejecutables por una máquina, para hacer que ésta efectúe las operaciones de:
a) tratar un texto con una pluralidad de modelos contextuales, y en la que cada uno de dicha pluralidad de modelos contextuales corresponde a un nodo en una jerarquía de dicha pluralidad de modelos contextuales;
b) identificar al menos uno de dichos modelos contextuales que se refiera a dicho texto; y
c) tratar las subsiguientes pronunciaciones habladas del usuario con dicho al menos un modelo contextual identificado.
ES02700489T 2001-03-01 2002-02-28 Modelos de lenguaje jerarquicos. Expired - Lifetime ES2227421T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US798655 1985-11-15
US09/798,655 US6754626B2 (en) 2001-03-01 2001-03-01 Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context

Publications (1)

Publication Number Publication Date
ES2227421T3 true ES2227421T3 (es) 2005-04-01

Family

ID=25173942

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02700489T Expired - Lifetime ES2227421T3 (es) 2001-03-01 2002-02-28 Modelos de lenguaje jerarquicos.

Country Status (10)

Country Link
US (1) US6754626B2 (es)
EP (1) EP1366490B1 (es)
JP (1) JP3940363B2 (es)
KR (1) KR100563365B1 (es)
CN (1) CN1256714C (es)
AT (1) ATE276568T1 (es)
CA (1) CA2437620C (es)
DE (1) DE60201262T2 (es)
ES (1) ES2227421T3 (es)
WO (1) WO2002071391A2 (es)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
KR100480272B1 (ko) * 2001-10-31 2005-04-07 삼성전자주식회사 소결합 고도 병렬 라우터 내의 라우팅 조정 프로토콜을위한 프리픽스 통합 방법
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
US8656274B2 (en) * 2003-10-30 2014-02-18 Avaya Inc. Automatic identification and storage of context information associated with phone numbers in computer documents
CA2486128C (en) 2003-10-30 2011-08-23 At&T Corp. System and method for using meta-data dependent language modeling for automatic speech recognition
US7295981B1 (en) 2004-01-09 2007-11-13 At&T Corp. Method for building a natural language understanding model for a spoken dialog system
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
CN1655232B (zh) * 2004-02-13 2010-04-21 松下电器产业株式会社 上下文相关的汉语语音识别建模方法
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US7908143B2 (en) * 2004-04-28 2011-03-15 International Business Machines Corporation Dialog call-flow optimization
US8768969B2 (en) * 2004-07-09 2014-07-01 Nuance Communications, Inc. Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US8335688B2 (en) 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
ATE514162T1 (de) 2005-12-08 2011-07-15 Nuance Comm Austria Gmbh Dynamische erzeugung von kontexten zur spracherkennung
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7992091B2 (en) * 2006-03-30 2011-08-02 At&T Intellectual Property I, L.P. Message-oriented divergence and convergence of message documents
US9497314B2 (en) * 2006-04-10 2016-11-15 Microsoft Technology Licensing, Llc Mining data for services
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
EP2030196B1 (en) * 2006-06-22 2018-09-05 Multimodal Technologies, LLC Verification of extracted data
ATE466361T1 (de) * 2006-08-11 2010-05-15 Harman Becker Automotive Sys Spracherkennung mittels eines statistischen sprachmodells unter verwendung von quadratwurzelglättung
US8418217B2 (en) 2006-09-06 2013-04-09 Verizon Patent And Licensing Inc. Systems and methods for accessing media content
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8316320B2 (en) * 2006-10-03 2012-11-20 Verizon Patent And Licensing Inc. Expandable history tab in interactive graphical user interface systems and methods
US8464295B2 (en) * 2006-10-03 2013-06-11 Verizon Patent And Licensing Inc. Interactive search graphical user interface systems and methods
US20080091423A1 (en) * 2006-10-13 2008-04-17 Shourya Roy Generation of domain models from noisy transcriptions
WO2008058842A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457967B2 (en) * 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8977537B2 (en) 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
US9733901B2 (en) 2011-07-26 2017-08-15 International Business Machines Corporation Domain specific language design
US10229139B2 (en) 2011-08-02 2019-03-12 Cavium, Llc Incremental update heuristics
US8719331B2 (en) * 2011-08-02 2014-05-06 Cavium, Inc. Work migration in a processor
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9275411B2 (en) 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US9361884B2 (en) 2013-03-11 2016-06-07 Nuance Communications, Inc. Communicating context across different components of multi-modal dialog applications
US9761225B2 (en) 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9269354B2 (en) 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US10083200B2 (en) 2013-03-14 2018-09-25 Cavium, Inc. Batch incremental update
US9195939B1 (en) 2013-03-15 2015-11-24 Cavium, Inc. Scope in decision trees
US9595003B1 (en) 2013-03-15 2017-03-14 Cavium, Inc. Compiler with mask nodes
US10229144B2 (en) 2013-03-15 2019-03-12 Cavium, Llc NSP manager
US9626960B2 (en) * 2013-04-25 2017-04-18 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9558749B1 (en) 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
US9972311B2 (en) 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3161666A1 (en) * 2014-06-25 2017-05-03 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
US10108603B2 (en) * 2015-06-01 2018-10-23 Nuance Communications, Inc. Processing natural language text with context-specific linguistic model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10274911B2 (en) * 2015-06-25 2019-04-30 Intel Corporation Conversational interface for matching text of spoken input based on context model
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
EP3770903B1 (en) * 2016-06-08 2024-01-31 Google LLC Scalable dynamic class language modeling
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108573697B (zh) * 2017-03-10 2021-06-01 北京搜狗科技发展有限公司 一种语言模型更新方法、装置及设备
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10832658B2 (en) 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
JP6965846B2 (ja) * 2018-08-17 2021-11-10 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
US11372823B2 (en) * 2019-02-06 2022-06-28 President And Fellows Of Harvard College File management with log-structured merge bush
CN112017642B (zh) * 2019-05-31 2024-04-26 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN114078469B (zh) * 2022-01-19 2022-05-10 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4320522A (en) * 1980-05-09 1982-03-16 Harris Corporation Programmable frequency and signalling format tone frequency encoder/decoder circuit
CH662224A5 (de) * 1982-10-01 1987-09-15 Zellweger Uster Ag Digitalfilter fuer fernsteuerempfaenger, insbesondere fuer rundsteuerempfaenger.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5257313A (en) * 1990-07-09 1993-10-26 Sony Corporation Surround audio apparatus
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
US5742797A (en) * 1995-08-11 1998-04-21 International Business Machines Corporation Dynamic off-screen display memory manager
US5832492A (en) * 1995-09-05 1998-11-03 Compaq Computer Corporation Method of scheduling interrupts to the linked lists of transfer descriptors scheduled at intervals on a serial bus
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US5913038A (en) * 1996-12-13 1999-06-15 Microsoft Corporation System and method for processing multimedia data streams using filter graphs
EP0903727A1 (en) 1997-09-17 1999-03-24 Istituto Trentino Di Cultura A system and method for automatic speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
JP4244423B2 (ja) * 1999-01-28 2009-03-25 株式会社デンソー 適正単語列推定装置
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text

Also Published As

Publication number Publication date
US20020123891A1 (en) 2002-09-05
JP3940363B2 (ja) 2007-07-04
CA2437620A1 (en) 2002-09-12
ATE276568T1 (de) 2004-10-15
CN1535460A (zh) 2004-10-06
CN1256714C (zh) 2006-05-17
EP1366490A2 (en) 2003-12-03
DE60201262T2 (de) 2005-11-17
DE60201262D1 (de) 2004-10-21
JP2004523004A (ja) 2004-07-29
KR100563365B1 (ko) 2006-03-22
EP1366490B1 (en) 2004-09-15
WO2002071391A3 (en) 2002-11-21
KR20030076686A (ko) 2003-09-26
CA2437620C (en) 2005-04-12
US6754626B2 (en) 2004-06-22
WO2002071391A2 (en) 2002-09-12

Similar Documents

Publication Publication Date Title
ES2227421T3 (es) Modelos de lenguaje jerarquicos.
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
Ostendorf et al. The Boston University radio news corpus
Wang et al. Automatic classification of intonational phrase boundaries
US7603278B2 (en) Segment set creating method and apparatus
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7113903B1 (en) Method and apparatus for providing stochastic finite-state machine translation
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP4729902B2 (ja) 音声対話システム
Ross et al. A dynamical system model for generating fundamental frequency for speech synthesis
Cooper Text-to-speech synthesis using found data for low-resource languages
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
Hamad et al. Arabic text-to-speech synthesizer
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
JP2003162524A (ja) 言語処理装置
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
Hanane et al. TTS-SA (A text-to-speech system based on standard arabic)
Campbell Extra-semantic protocols; input requirements for the synthesis of dialogue speech
KR0175249B1 (ko) 음성 합성을 위한 한국어 문장의 발음처리 방법
Naik et al. E-Blind examination system
Chuu LIESHOU: A Mandarin conversational task agent for the Galaxy-II architecture
Thilak et al. Speech recognizer for Tamil language
Nkosi Creation of a pronunciation dictionary for automatic speech recognition: a morphological approach
CN117672182A (zh) 一种基于人工智能的声音克隆方法及***