ES2227421T3 - Modelos de lenguaje jerarquicos. - Google Patents
Modelos de lenguaje jerarquicos.Info
- Publication number
- ES2227421T3 ES2227421T3 ES02700489T ES02700489T ES2227421T3 ES 2227421 T3 ES2227421 T3 ES 2227421T3 ES 02700489 T ES02700489 T ES 02700489T ES 02700489 T ES02700489 T ES 02700489T ES 2227421 T3 ES2227421 T3 ES 2227421T3
- Authority
- ES
- Spain
- Prior art keywords
- contextual
- models
- hierarchy
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 74
- 230000004044 response Effects 0.000 claims description 35
- 238000009499 grossing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003292 diminished effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Un método para crear una jerarquía de modelos contextuales, cuyo método comprende: a) medir la distancia entre cada uno de la pluralidad de modelos contextuales utilizando una métrica de distancia, y en el que al menos uno de dicha pluralidad de modelos contextuales corresponde a una parte de un documento o una respuesta de usuario dentro de un sistema basado en el diálogo; b) identificar dos de dicha pluralidad de modelos contextuales, cuyos modelos contextuales identificados están más próximos en cuanto a distancia que los otros de dicha pluralidad de modelos contextuales; c) unir dichos modelos contextuales identificados en un modelo contextual generador; d) repetir las operaciones a), b), y c) hasta crear una jerarquía de dicha pluralidad de modelos contextuales, cuya jerarquía tiene un nodo de raíz; y e) alisar estadísticamente dicha jerarquía de dicha pluralidad de modelos contextuales, con lo que resulta un modelo de lenguaje de reconocimiento de habla.
Description
Modelos de lenguaje jerárquicos.
Esta invención se refiere al campo de los
sistemas basados en el reconocimiento del habla y en el diálogo, y
más particularmente al uso de modelos de lenguaje para convertir el
habla en texto.
El reconocimiento del habla es un proceso
mediante el cual, una señal acústica recibida por un micrófono es
convertida en un juego de palabras, números, o símbolos de texto
por un ordenador. Estas palabras reconocidas pueden ser utilizadas
entonces en una cierta variedad de aplicaciones de programa lógico
de ordenador, con fines de preparación de documentos, entrada de
datos, órdenes, y control. Las mejoras en los sistemas de
reconocimiento del habla proporcionan un modo importante para
mejorar la productividad del usuario.
Los sistemas de reconocimiento del habla pueden
modelar y clasificar señales acústicas para formar modelos
acústicos, que son representaciones de unidades lingüísticas
básicas conocidas como fonemas. A la recepción de la señal
acústica, el sistema de reconocimiento del habla puede analizar la
señal acústica, identificar una serie de modelos acústicos dentro
de la señal acústica, y derivar una lista de candidatos potenciales
a palabras para una serie dada de modelos acústicos.
Subsiguientemente, el sistema de reconocimiento
del habla puede analizar contextualmente los candidatos potenciales
a palabras con el uso de un modelo de lenguaje como guía.
Específicamente, el modelo de lenguaje puede expresar restricciones
impuestas en la manera en la que las palabras pueden ser combinadas
para formar frases. El modelo de lenguaje es típicamente un modelo
estadístico que puede expresar la posibilidad de que una palabra
aparezca inmediatamente adyacente a otra u otras palabras. El
modelo de lenguaje puede ser especificado como una red de estado
finito, en la que las palabras permisibles que siguen a cada
palabra están relacionadas explícitamente, o pueden ser puestas en
práctica de una manera más complicada haciendo uso de una gramática
sensible al contexto. Otros modelos de ejemplos de lenguajes pueden
incluir, aunque sin limitarse a ello, modelos de n gramas y modelos
de lenguaje de entropía máxima, cada uno de los cuales es conocido
en la técnica. Un ejemplo común de modelo de lenguaje puede ser un
modelo de n gramas. En particular, los modelos de bigrama y de
trigrama son ejemplos de modelos de n gramas utilizados comúnmente
dentro de esta técnica.
Modelos de lenguaje convencional pueden ser
derivados del análisis de un cuerpo de aprendizaje de texto. Dicho
cuerpo de aprendizaje contiene un texto que refleja la manera común
en la que hablan los seres humanos. El cuerpo de aprendizaje puede
ser tratado para determinar los modelos de lenguaje estadísticos
utilizados por el sistema de reconocimiento del habla, para
convertir el habla en texto, denominado también descodificación de
habla. Ha de apreciarse también que dichos métodos son conocidos en
la técnica. Por ejemplo, para una explicación más detallada de los
modelos de lenguaje y de los métodos de formación de dichos
modelos, véase la publicación "Métodos estadísticos para
reconocimiento del habla" por Frederic Jelinek (The Press ed.
1997). Actualmente en la técnica, los sistemas de reconocimiento de
habla pueden utilizar una combinación de modelos de lenguaje para
convertir una pronunciación hablada del usuario en texto. Cada
modelo de lenguaje puede ser utilizado para determinar una
secuencia de texto resultante. Dichas secuencias de texto
resultantes a partir de cada modelo de lenguaje pueden ser
ponderadas estadísticamente para determinar el resultado más
preciso o probable. Por ejemplo, los sistemas de reconocimiento de
habla pueden incorporar un modelo de lenguaje genérico o general
incluido dentro del sistema, así como un modelo de lenguaje
específico del usuario derivado de las diversas primeras sesiones de
dictado o documentos dictados por un usuario. Algunos sistemas de
reconocimiento de habla pueden continuar la mejora de un modelo de
lenguaje existente a medida que un usuario dicta nuevos documentos
o inicia nuevas sesiones de dictado. Por tanto, en muchos sistemas
de reconocimiento de habla convencionales, los modelos de lenguaje
pueden ser actualizados de manera continua.
La publicación PCT WO 00/58945 describe un
aparato para el reconocimiento de habla con una jerarquía de
modelos de lenguaje dispuestos con modelos de contexto más genérico
a modelos de contexto más específico.
Desafortunadamente, dado que los modelos de
lenguaje continúan creciendo, puede ser reducida la importancia del
dictado del usuario sobre una materia específica. En particular, el
efecto de las sesiones de habla más recientes puede ser disminuido
debido al crecimiento masivo de datos dentro del modelo de
lenguaje. De igual modo, dictados de usuario más recientes,
referidos o no a una materia específica, pueden también disminuir
su importancia dentro del modelo de lenguaje creciente. Esto ocurre
principalmente con respecto a modelos de lenguaje estadístico, en
los que la importancia estadística de una sesión o documento
particular que puede ser utilizado para mejorar el modelo de
lenguaje, es disminuida por un juego de datos siempre en expansión.
Este efecto estadístico puede ser significativo, por ejemplo, en el
caso en que los modelos de habla del usuario cambien a medida que
dicho usuario se familiarice y acostumbre a cooperar con el sistema
basado en el reconocimiento del habla o en el diálogo. En especial,
cualquier mejora de un modelo de lenguaje que resulta de una única
sesión o documento, que puede producir una cantidad limitada de
datos, en especial a la luz del juego total de datos correspondiente
al modelo de lenguaje, posiblemente no alterará el comportamiento
de un sistema basado en la estadística del habla. En consecuencia,
el modelo de lenguaje puede no reflejar con precisión el cambio en
el estilo de dictado del usuario.
Pueden existir problemas similares dentro del
contexto de sistemas basados en el diálogo, tales como sistemas de
comprensión de lenguaje natural donde el usuario puede responder
verbalmente a una o más indicaciones o consultas del sistema.
Aunque dichos sistemas pueden incluir uno o más modelos de lenguaje
para tratar las respuestas del usuario, los modelos de lenguaje
adaptados a indicaciones específicas pueden ser formados con el uso
de una cantidad insuficiente de datos. En consecuencia, dichos
modelos de lenguaje pueden ser demasiado específicos para tratar
con precisión el habla recibida. Específicamente, los modelos de
lenguaje pueden carecer de capacidad de abstracción del modelo del
lenguaje, para tratar una respuesta de usuario más generalizada.
La invención que aquí se describe se refiere a un
método para la creación de una jerarquía de modelos contextuales
como se expone en la reivindicación 1, un método de uso de dichos
modelos contextuales para convertir el habla en texto como se
expone en la reivindicación 4, y una máquina de almacenamiento
legible como se expone en la reivindicación 7. El método de la
invención puede ser utilizado dentro de un sistema de
reconocimiento de habla, y dentro de un sistema de comprensión del
lenguaje natural basado en el diálogo. En particular, la invención
puede crear una pluralidad de modelos contextuales a partir de
diferentes sesiones de habla del usuario, documentos, partes de
documentos, o respuestas del usuario en forma de pronunciaciones
habladas. Estos modelos contextuales pueden ser organizados o
agrupados en modalidad de abajo a arriba en pares relacionados, con
el uso de una métrica de distancia conocida. Los pares relacionados
de modelos de lenguaje pueden ser unidos de modo continuo hasta
construir una estructura a modo de árbol. Dicha estructura a modo de
árbol de modelos contextuales, o jerarquía de modelos contextuales,
puede expandirse hacia fuera a partir de un nodo de raíz sencillo.
La jerarquía de los modelos contextuales puede ser interpolada con
el uso de un cuerpo de retención de texto y técnicas conocidas,
tales como interpolaciones excluidas o procedimiento de retroceso.
En especial, la invención no resulta limitada así por las técnicas
de alisamiento específicas aquí descritas. Por el contrario, puede
ser utilizada cualquier técnica de alisamiento adecuada
conocida.
Después de determinada y alisada la jerarquía de
los modelos contextuales, las pronunciaciones habladas del usuario
recibidas pueden ser tratadas con el uso de la jerarquía resultante
de los modelos contextuales. Uno o más modelos contextuales dentro
de la jerarquía de ellos pueden ser identificados con las
correspondientes una o más pronunciaciones habladas del usuario
recibidas. Estos modelos contextuales identificados pueden ser
utilizados para tratar las subsiguientes pronunciaciones habladas
del usuario recibidas.
Un aspecto de la invención puede incluir un
método de conversión de habla en texto con el uso de la jerarquía
de los modelos contextuales. Dicha jerarquía puede ser alisada
estadísticamente en un modelo de lenguaje. El método puede incluir:
a) tratamiento del texto con una pluralidad de modelos contextuales,
cada uno de los cuales puede corresponder a un nodo en una
jerarquía de la pluralidad de modelos contextuales. El tratamiento
del texto puede ser ejecutado en serie o en paralelo. Incluido
también en el método puede haber: b) identificación de al menos
uno de los modelos contextuales relativos al texto recibido, y c)
tratamiento de las pronunciaciones habladas subsiguientes del
usuario con al menos un modelo contextual identificado.
Al menos uno de pluralidad de modelos
contextuales puede corresponder a un documento o una parte de él,
una sección de un documento, al menos una respuesta del usuario
recibida en un estado de diálogo particular en un sistema basado en
el diálogo, o al menos una respuesta del usuario recibida en un
emplazamiento particular dentro de una operación particular en un
sistema basado en el diálogo. Aún más, el citado al menos uno de la
pluralidad de modelos contextuales puede corresponder a la sintaxis
de una indicación del sistema basado en diálogo, una indicación del
sistema basado en el diálogo particular, o un mensaje de correo
electrónico recibido.
En los dibujos adjuntos se muestran realizaciones
preferidas en la actualidad, aunque no obstante se entiende que la
invención no se limita a las disposiciones precisas e
instrumentaciones mostradas.
La fig. 1 es diagrama esquemático de un ejemplo
de sistema de ordenador sobre el que puede ser utilizada la
invención.
La fig. 2 es un diagrama esquemático que muestra
un ejemplo de arquitectura para el reconocimiento de habla.
Las figs. 3A y 3B son diagramas esquemáticos que
muestran componentes típicos que pueden estar comprendidos en un
aparato de reconocimiento de habla.
La fig. 4 es un diagrama de bloques que ilustra
un ejemplo de jerarquía de modelos contextuales.
La fig. 5 es una tabla del flujo de acciones que
ilustra un ejemplo del método de la invención.
La fig. 6 es una tabla del flujo de acciones que
ilustra un ejemplo del método de la invención.
La realización que aquí se describe se refiere a
un método para crear una jerarquía de modelos contextuales, y el
uso de estos modelos para convertir el habla en texto. El método de
la realización puede ser utilizado dentro de un sistema de
reconocimiento de habla, y dentro de un sistema basado en el diálogo
de comprensión de un lenguaje natural. En particular, la
realización puede crear una pluralidad de modelos contextuales a
partir de sesiones de habla del usuario diferentes, documentos,
partes de documentos, o respuestas en forma de pronunciaciones
habladas del usuario. Estos modelos contextuales pueden ser
organizados o agrupados en modalidad de abajo a arriba, en pares
relacionados, con el uso de una métrica de distancia conocida. En
especial, la organización de los modelos contextuales en pares
relacionados puede ser ejecutada de modo automático y dinámico en
un cierto tiempo de ejecución. Los pares relacionados de modelos
contextuales pueden ser unidos para formar un modelo contextual
generador. El procedimiento puede ser repetido hasta que surge una
jerarquía de modelos contextuales que se asemeja a una estructura
arbórea. La jerarquía puede tener un nodo de raíz sencilla, desde la
cual se extienden otros nodos. En especial, cada nodo de la
jerarquía de los modelos contextuales puede corresponder a un
modelo contextual. Debe apreciarse que el término "modelo
contextual" aquí utilizado puede referirse a un modelo de
lenguaje formado a partir de datos de aprendizaje obtenidos de un
documento sencillo, una parte de un documento, o en el caso de un
sistema de Comprensión de Lenguaje Natural (NLU), una o más de las
pronunciaciones o respuestas habladas del usuario.
La jerarquía resultante de los modelos
contextuales puede ser interpolada con el uso de un cuerpo de
retención de texto, y el empleo de técnicas conocidas tales como
supresión de interpolación o procedimiento de situación retrasada.
En especial, la invención no se limita a las técnicas de
alisamiento específicas aquí descritas. Por el contrario, puede ser
utilizada cualquier técnica de alisamiento conocida.
Después de determinada la jerarquía de los
modelos contextuales, las pronunciaciones habladas del usuario
recibidas pueden ser tratadas con el uso de la jerarquía resultante
de los modelos contextuales. En particular, puede ser identificado
un modelo contextual dado dentro de la jerarquía de ellos, que
corresponde a o que refleja con más precisión una o más
pronunciaciones habladas del usuario recibidas. Por ejemplo, la
realización puede tratar una pronunciación hablada del usuario
recibida con la jerarquía de los modelos contextuales, e
identificar el modelo contextual que proporciona el texto
resultante que posee el grado más alto de aceptación. La realización
puede trabajar sobre la hipótesis de que las pronunciaciones
habladas del usuario subsiguientes pueden corresponder a una
materia similar a la de las pronunciaciones habladas de dicho
usuario recibidas con anterioridad y utilizadas para identificar el
correspondiente modelo contextual. Por tanto, dichas
pronunciaciones subsiguientes pueden ser tratadas con el modelo
contextual identificado, para conseguir una actuación del sistema de
reconocimiento de voz mejorado.
En particular, la jerarquía resultante de los
modelos contextuales y el modelo de lenguaje alisado pueden
permitir que el tratamiento de las subsiguientes pronunciaciones
habladas del usuario sea más generalizado. Esto puede ser
especialmente beneficioso aplicado a un sistema NLU, en el que
modelos de lenguaje "en aprendizaje" pueden afectar
adversamente a la actuación del sistema. Específicamente, la
jerarquía alisada de modelos contextuales puede ser dirigida hacia
el nodo de raíz, de modo que los modelos contextuales resulten más
generalizados pero sigan sensibles al contexto, o hacia las hojas
donde los modelos contextuales se hacen más específicos pero aún
sensibles al contexto.
La fig. 1 muestra un sistema 100 de ordenador
típico para uso en conjunción con la presente realización. El
sistema puede incluir un ordenador 105 que a su vez incluye una
unidad de tratamiento central (CPU) 110, uno o más dispositivos de
memoria 115, y los circuitos asociados. Los dispositivos de memoria
115 pueden estar compuestos de una memoria electrónica de acceso
aleatorio y un medio auxiliar de almacenamiento de datos. El
sistema puede incluir también un micrófono 120 conectado
operativamente al sistema de ordenador a través de un circuito de
interfaz adecuado 125, y una unidad opcional 130 de visualización
de interfaz de usuario tal como un terminal de datos de vídeo
conectado operativamente al sistema. La CPU puede estar compuesta de
cualquier microprocesador adecuado u otra unidad de tratamiento
electrónico, como es bien conocido por los expertos en la técnica.
Unos altavoces 135 y 140, así como un dispositivo de interfaz, tal
como un ratón 145, y un teclado 150, pueden estar dispuestos con el
sistema, aunque no necesariamente para la actuación de la invención
como aquí se describe. Los diversos requerimientos de equipo físico
para el sistema de ordenador como aquí se expone, pueden ser
satisfechos en general por uno cualquiera de los muchos ordenadores
de alta velocidad adquiribles comercialmente.
La fig. 2 es un diagrama esquemático que ilustra
una arquitectura típica para un sistema de reconocimiento de habla
en el sistema de ordenador 100. Como se muestra en la fig. 2,
dentro de la memoria 115 de dicho sistema 100 puede haber un sistema
operativo 200 y un aparato 210 de reconocimiento de habla. Incluida
también puede haber una aplicación 220 de procesador de texto de
habla y una aplicación 230 de navegador de voz. No obstante, la
invención no se limita a lo expuesto, y el aparato 210 de
reconocimiento de habla puede ser utilizado con cualquier otro
programa de aplicación habilitado para la voz. En la fig. 2, el
aparato 210 de reconocimiento de habla, la aplicación 220 de
procesador de texto de habla, y la aplicación 230 de navegador de
voz, se muestran como programas de aplicación separados. No
obstante, ha de hacerse notar que la invención no se limita a esto,
y los diversos programas de aplicación citados pueden ser puestos en
práctica como uno solo más complejo. Por ejemplo, el aparato 210 de
reconocimiento de habla puede ser combinado con la aplicación 220
de procesador de texto de habla, o con cualquier otra aplicación
que esté habilitada para la voz. Igualmente, si ningún otro
programa de aplicación controlado por el habla ha de ser accionado
en conjunción con la aplicación 220 del procesador de textos de
habla y con el aparato 210 de reconocimiento de habla, el sistema
puede ser modificado para trabajar sin la aplicación 230 de
navegador de voz. Esta aplicación 230 ayuda principalmente a
coordinar el funcionamiento del aparato 210 de reconocimiento de
habla.
Los componentes antes citados pueden ser
materializados de modo centralizado dentro del sistema 100 de
ordenador. Alternativamente, dichos componentes pueden ser
materializados de modo distribuido, y los diferentes elementos
pueden estar repartidos en diversos sistemas de ordenador
interconectados. En cualquier caso, los componentes pueden estar
materializados en equipo físico, en programa lógico, o una
combinación de ellos. Cualquier clase de sistema de ordenador u otro
aparato destinado a llevar a cabo los métodos aquí descritos es
adecuado. El sistema que aquí se describe puede ser puesto en
práctica mediante un programador, con el uso de herramientas
desarrolladas adquiribles comercialmente para el sistema de trabajo
particular utilizado.
Medios de programa de ordenador o programa de
ordenador, significan en el presente contexto cualquier expresión,
en cualquier lenguaje, código, o notación, de un juego de
instrucciones destinadas a hacer que un sistema cuente con capacidad
de tratamiento de información para ejecutar una función particular,
ya sea directamente o después de uno o ambos conceptos siguientes:
a) conversión a otro lenguaje, código, o notación; b) reproducción
en una forma de material diferente.
Durante el funcionamiento, las señales de audio
representativas del sonido recibido en el micrófono 120 pueden ser
tratadas dentro del ordenador 100 con el uso de un circuito de
audio de ordenador convencional, de modo que resulte disponible para
el sistema operativo 200 en forma digitalizada. Alternativamente,
las señales de audio pueden ser recibidas a través de la red de
comunicaciones de ordenador desde otro sistema de ordenador en
formato analógico o digital, o de otro dispositivo transductivo tal
como un teléfono. Las señales de audio recibidas por el sistema de
ordenador 100 son proporcionadas convencionalmente al aparato 210
de reconocimiento de habla a través del sistema operativo 200 de
ordenador, con objeto de efectuar funciones de reconocimiento de
habla. Como en los sistemas de reconocimiento de habla
convencionales, las señales de audio pueden ser tratadas por el
aparato 210 de reconocimiento de habla, para identificar palabras
habladas por el usuario ante el micrófono 120. La fig. 3A es un
diagrama de bloques que muestra los componentes típicos que pueden
comprender el aparato 210 de reconocimiento de habla. Como se
muestra en la fig. 3, dicho aparato 210 de reconocimiento de habla
recibe una señal de habla digitalizada procedente del sistema
operativo. El sistema es transformado subsiguientemente en un bloque
310 de representación, dentro de un juego útil de datos por
muestreo de la señal en algunos espacios de tiempo fijos,
típicamente cada 10 a 20 mseg. El bloque de representación produce
una nueva representación de la señal de audio, que puede ser
utilizada entonces en etapas subsiguientes del procedimiento de
reconocimiento de la voz para determinar la probabilidad de que la
parte de la forma de onda justamente analizada corresponda a un
suceso fonético particular. Este procedimiento está destinado a
enfatizar perceptualmente importantes características
independientes del que habla, en las señales del habla recibidas
procedentes del sistema operativo. En el bloque 320 de
modelación/clasificación, unos algoritmos tratan ulteriormente las
señales de habla, para adaptar los modelos acústicos independientes
del hablante a los del que habla en ese momento. Finalmente, en el
bloque de búsqueda 330 son utilizados unos algoritmos para guiar al
aparato de búsqueda hacia las palabras más probables
correspondientes a la señal de habla. El procedimiento de búsqueda
en el bloque 330 de ella se produce con ayuda de los modelos
acústicos 340, modelos de léxico 350, y modelos de lenguaje
360.
Los modelos de lenguaje 360 pueden ser utilizados
para ayudar a reducir el número de posibles palabras
correspondientes a una señal de habla, cuando una palabra es
utilizada junto con otras en una secuencia. El modelo de lenguaje
puede ser especificado como una red de estado finito, donde las
palabras permisibles que siguen a cada palabra son relacionadas
explícitamente, o puede ser puesto en práctica de manera más
complicada haciendo uso de una gramática sensible al contexto. Otros
ejemplos de modelos de lenguaje pueden incluir, sin limitarse a
ello, modelos de n gramas y modelos de entropía máxima del
lenguaje, cada uno de los cuales es conocido en la técnica. En
cualquier caso, es deseable con frecuencia actualizar el contenido
del modelo de lenguaje con información relativa a los patrones de
habla que probablemente se encontrarán en el caso de un usuario
específico. El procedimiento de búsqueda determina la palabra
candidata que tiene el grado de aceptación más alto de salir en el
texto.
Dicho grado de aceptación refleja la posibilidad
de que una palabra particular candidata corresponda con precisión a
la pronunciación del habla de un usuario. El grado de aceptación
puede ser un valor derivado de los modelos acústicos, modelos de
léxico, y modelos de lenguaje. Por ejemplo, el citado grado de
aceptación puede tener en cuenta la posibilidad de que una palabra
candidata particular represente la pronunciación del habla del
usuario, determinada con el uso del modelo acústico, además de la
probabilidad de la palabra candidata particular pueda ser situada
próxima a otra palabra o a un grupo de ellas, como se determine con
el uso del modelo de lenguaje.
El texto reconocido puede ser proporcionado a un
Director de Sesión de Modelo de Lenguaje (LMSM) 380. En base a la
probabilidad de que el texto resultante refleje con precisión la
pronunciación del habla del usuario recibida, el LMSM 380 puede
determinar un modelo contextual más apropiado que puede ser
utilizado para el tratamiento de pronunciaciones del habla del
usuario recibidas subsiguientemente. Más específicamente, el LMSM
380 puede identificar un modelo contextual que pueda ser utilizado
para tratar textos, en los que el texto resultante pueda tener la
más alta probabilidad de reflejar la pronunciación del habla del
usuario recibida. Por tanto, el LMSM 380 puede seleccionar un
modelo contextual adecuado para uso en el tratamiento del habla
recibida subsiguientemente. Como se muestra, el LMSM 380 puede
proporcionar un camino de realimentación al sistema de
reconocimiento de habla.
El LMSM 380 puede reconocer también secciones de
documentos. Por ejemplo, dicho LMSM 380 puede determinar la sección
de un documento por el emplazamiento de un cursor dentro de dicho
documento. El LMSM 380 puede ser programado con uno o más modelos o
plantillas, cuyos modelos pueden contener indicaciones de
diferentes secciones del documento, tales como la introducción,
antecedentes, u otra sección definible de un documento. Las
secciones pueden ser definidas por el usuario, y pueden ser
materias específicas. Por ejemplo, las secciones pueden ser
subpartes de un documento, que pueden o no ser un texto de una
materia específica que incluye una sección verdadera o falsa, una
sección de respuesta corta, o una sección de elección múltiple. En
especial, los programas convencionales de tratamiento de palabras
pueden proporcionar la división en secciones de los documentos.
El LMSM 380 puede estar programado también para
determinar cuándo ha de ordenar al Formador de Modelo de Lenguaje
(LMB) 390 la formación de un nuevo modelo contextual, y la
reordenación de la jerarquía de los modelos contextuales. El LMB
390 puede formar dinámicamente un nuevo modelo contextual inicial,
así como reordenar la jerarquía de los modelos contextuales. Por
ejemplo, si modelos contextuales iniciales han de ser formados a
partir de documentos, el LMSM 380 puede determinar cuándo un
documento o parte de él está completo, de modo que pueda ser formado
un nuevo modelo contextual, y pueda ser reordenada la jerarquía de
los modelos contextuales. Más específicamente, cuando el usuario
cierra un documento, o se informa de otro modo al sistema de
reconocimiento de habla que el usuario ha terminado de dictar un
documento o una parte de él, el LMSM 380 puede instruir al LMB 390
para comenzar a reordenar la jerarquía de los modelos contextuales.
El LMSM 380 puede ser programado con varios modelos o plantillas y
secciones de documentos, como se utilizan en los programas de
tratamiento de textos, de modo que al completarse uno cualquiera de
ellos pueda resultar que la jerarquía de los modelos contextuales
es reordenada. Por ejemplo, el LMSM 380 puede formar dinámicamente
un modelo contextual correspondiente a la sección de un documento,
y reordenar la jerarquía de los modelos contextuales cuando el
cursor de un programa de edición de texto abandone esa sección del
documento. De igual modo, si los modelos contextuales son formados
de partes de documentos, tales como párrafos, la terminación de un
párrafo, por ejemplo, una orden de retorno manual, puede indicar al
LMSM 380 que instruya al LMB 390 pata formar un nuevo modelo
contextual basado en el texto incluido dentro del párrafo más
reciente. El LMB 390 puede entonces modificar la jerarquía de los
modelos contextuales. Como antes se ha dicho, los modelos
contextuales iniciales pueden incorporar modelos o plantillas de
documentos, documentos, secciones de ellos, o partes de
documentos.
La fig. 3B es un diagrama de bloques que muestra
los componentes típicos que pueden comprender el aparato 210 de
reconocimiento de habla, similar al diagrama de bloques de la fig.
3A. Sin embargo, la fig. 3B puede incluir un sistema NLU
(Comprensión de lenguaje natural). En especial, el sistema NLU se
distingue porque puede incluir un ordenador para comprender y
extraer información del lenguaje humano hablado o escrito. Dichos
sistemas pueden funcionar de manera complementaria con una cierta
variedad de otras aplicaciones de ordenador cuando existe la
necesidad de comprender el lenguaje humano. Los sistemas NLU pueden
extraer la información relevante contenida dentro del texto y
suministrar luego dicha información a otro programa de
aplicación.
El sistema NLU puede comunicar con el LMSM 380
para proporcionar a éste información relativa a la pronunciación
hablada del usuario en respuesta a un sistema basado en el diálogo.
Dicha información puede incluir el tipo de operación particular en
la que está ocupado el usuario, el lugar del usuario dentro de la
operación, la indicación del sistema basada en el diálogo
particular, y la sintaxis de dicha indicación. Por ejemplo, el
sistema NLU 395 puede proporcionar al LMSM información de la
pronunciación hablada del usuario con la que respondió a una
indicación preguntando por el nombre de una cuenta en el contexto
de una transacción de reembolso en un sistema financiero. Además,
el sistema NLU puede informar al LMSM de que la respuesta prevista
era un número, una frase de un texto que tenía una sintaxis
particular o relativa a un objeto particular, o una indicación de
sí o no.
Por ejemplo, los modelos contextuales iniciales
pueden ser formados a partir de las respuestas del usuario
relativas al estado de un diálogo dado, el objeto de una operación
dada, el emplazamiento del usuario dentro de una operación
particular, las respuestas del usuario a una indicación particular
del diálogo conocido, o a la sintaxis de la indicación del diálogo
a la que el usuario está respondiendo. El estado de un diálogo dado
puede referirse en general a cada uno de los factores antes
mencionados.
El objeto de una operación dada puede referirse a
la acción u orden que el usuario está pidiendo. Por ejemplo, en un
sistema de dirección financiera, las operaciones pueden incluir
reembolsos, transferencias, depósitos, etc. En el contexto de un
sistema de viajes, las operaciones pueden incluir reservas, vuelos,
alquileres de coches, etc. Las operaciones pueden ser aplicaciones
específicas basadas en los sistemas a los que el sistema NLU
proporciona una interfaz. Por tanto, pueden formarse modelos
contextuales de acuerdo con cada objeto identificable dentro del
sistema basado en diálogo.
El emplazamiento dentro de una operación puede
proporcionar información contextual relativa a una respuesta del
usuario. Específicamente, cualquier operación dada puede requerir
uno o más parámetros del usuario especificados. Por tanto, en base
a los parámetros recibidos y en adición al tipo particular de
transacción iniciada, el sistema de reconocimiento de habla puede
formar un modelo contextual sin conocer la indicación exacta del
sistema basado en el diálogo a la que el usuario ha respondido,
basado sólo en la información correspondiente al emplazamiento del
usuario dentro de una operación dada.
Modelos contextuales pueden ser formados a partir
de las respuestas del usuario a las indicaciones de un sistema
particular conocido basado en el diálogo. Adicionalmente, pueden
ser formados modelos contextuales a partir de respuestas del
usuario a preguntas que tienen una sintaxis particular. Por ejemplo,
las respuestas del usuario a indicaciones de "sí" o "no"
del sistema pueden ser agrupadas para formar un modelo de lenguaje.
De igual modo, las respuestas del usuario a indicaciones de
"quién", "qué", "dónde", "cuándo", "por
qué" pueden ser agrupadas, así como las respuestas del usuario a
una elección múltiple o indicaciones de tipo de lista.
El alisamiento estadístico puede aliviar los
problemas con respecto a un subaprendizaje o uso de una pequeña
cantidad de datos de aprendizaje. Adicionalmente, la estructura
jerárquica permite que los sistemas de reconocimiento de habla
traten pronunciaciones habladas del usuario con modelos
generalizados en aumento, que permanecen sensibles al contexto. Por
tanto, si la respuesta de un usuario no está conforme con los datos
previamente recogidos, puede ser utilizado un modelo contextual más
generalizado para tratar dicha respuesta.
Por tanto, el LMB 390 puede formar dinámicamente
modelos contextuales, por ejemplo los modelos contextuales
iniciales, en los que cada uno de ellos puede ser formado a partir
de un agrupamiento de una o más respuestas del usuario. Igualmente,
el LMB 390 puede reformar dinámicamente la jerarquía de los modelos
contextuales que responden a la recepción de la pronunciación
hablada del usuario, dada en respuesta a una indicación del
diálogo. El sistema de la fig. 3B difiere también del de la fig. 3A
en que el sistema NLU puede generar una indicación de diálogo que
puede ser reproducida mediante una grabación, o con el uso de un
texto para tecnología hablada.
La fig. 4 muestra un ejemplo de jerarquía de los
modelos contextuales 360 de la fig. 3. El modelo de lenguaje 360 es
mostrado como un estructura en árbol que tiene unos nodos múltiples
A, B, C, D, E, y F extendidos bajo el nodo de raíz. Cada nodo puede
corresponder a un modelo contextual. El par de nodos de hoja C y D,
y el par de nodos de hoja E y F, citados también como nodos
terminales, pueden ser identificados como pares de modelos
contextuales relacionados que utilizan una métrica de distancia
conocida. Por ejemplo, dicha métrica de distancia puede incluir, sin
limitarse a ello, la distancia Kullback-Liebler,
entropía relativa, discriminación, o divergencia. En cualquier
caso, el nivel inferior de los modelos contextuales puede ser
agrupado en pares con el uso de la métrica conocida. Este
procedimiento, conocido como agrupamiento de abajo a arriba, puede
ser continuado hasta que se determine un nodo de raíz.
En otra realización de la invención, los modelos
contextuales pueden ser agrupados según la materia objeto de la
sesión de dictado de la que se deriva el modelo contextual. Por
ejemplo, el sistema de reconocimiento de habla puede utilizar
algoritmos de búsqueda de palabras y tecnología de lenguaje natural
para clasificar cada modelo contextual individual (nodo) de acuerdo
con un objeto predeterminado. El modelo contextual puede ser
etiquetado de acuerdo con ello, de modo que no sólo puedan ser
relacionados modelos contextuales en pares, sino que los sistemas de
reconocimiento de voz puedan agrupar sólo modelos contextuales
relacionados, clasificados bajo un objeto particular.
Alternativamente, el usuario puede definir una clasificación del
objeto particular. En ese caso, el usuario puede introducir una
serie de palabras clave, que el sistema de reconocimiento de voz
puede utilizar para clasificar modelos contextuales. El sistema de
reconocimiento de habla puede permitir también que el usuario eluda
la clasificación de un modelo contextual.
Los pares agrupados de modelos contextuales
pueden ser unidos en un modelo contextual generador. Por ejemplo, el
nodo A puede ser un generador derivado de sus descendientes
fundidos, los nodos C y D. De igual modo, el nodo B puede ser un
generador que puede ser derivado de sus descendientes, los nodos de
hoja E y F. La fusión de dos nodos descendientes para formar un
generador puede ser llevada a cabo con el uso de una cierta
variedad de métodos. Uno de ellos puede ser de interpolación. Por
ejemplo, los candidatos potenciales a una palabra pueden ser
tratados con el uso de cada modelo contextual de nodo descendiente.
Subsiguientemente, las dos posibles frases resultantes pueden ser
comparadas, y puede seleccionarse el resultado más probable. La
probabilidad asociada a cada resultado de modelo contextual puede
ser multiplicada por una constante ponderada. En tal caso, la
constante aplicada por ejemplo, a la hoja C, y la constante
aplicada a la hoja D pueden tener una suma de 1. Otro método de
fundir los nodos descendientes para formar un generador puede
incluir el uso de los datos correspondientes a cada nodo
descendiente, para formar un nuevo modelo contextual con el uso de
métodos conocidos para formar dichos modelos. Por tanto, los datos
utilizados para formar el modelo contextual generador en un nodo
pueden ser los datos compuestos de los dos descendientes del
generador.
Con independencia del método particular utilizado
para fundir dos nodos, en cada nivel de la jerarquía de los modelos
contextuales, el agrupamiento de nodos pareados y su unión en un
nodo generador puede continuar hasta alcanzar un nodo de raíz. Los
nodos generadores A y B pueden incluir características compartidas
en sus descendientes. De igual modo, el nodo raíz puede incluir
características compartidas en sus descendientes, los modelos
contextuales correspondientes a los nodos A y B. Por tanto, la
jerarquía de los modelos contextuales proporciona un surtido de
ellos, cada uno de los cuales incorpora una mezcla de estilos de
habla dependientes del usuario incorporados a él. En el caso de que
modelos contextuales generadores sean formados con el uso de datos
compuestos, la jerarquía resultante de los modelos contextuales
puede ser citada como modelo de lenguaje jerárquico sencillo. De
acuerdo con ello, los modelos contextuales inferiores son los
modelos más específicos. Si un modelo contextual particular no
proporciona un nivel de confianza satisfactoria, puede ascenderse
en el árbol hasta un modelo contextual más generalizado.
La fig. 5 es una tabla 500 de flujo de acciones
que ilustra un ejemplo de método para la creación de modelos
contextuales jerárquicos, que se ejecuta mediante el uso del
sistema de ordenador de la fig. 1 y el aparato de reconocimiento de
habla de la fig. 2. El método comienza en un estado en el que el
sistema de reconocimiento de habla ha acumulado una pluralidad de
modelos contextuales tales como los asociados a los nodos de hoja
C, D, E, y F, la fila inferior de la jerarquía de modelos
contextuales que ha de ser creada. Estos modelos contextuales
iniciales pueden diferir en función del uso. Por ejemplo, para un
dictado general, el sistema de reconocimiento de habla puede crear
un nuevo modelo contextual por cada sesión de dictado previo,
documento, parte de un documento, o sección de un documento
correspondiente a un usuario particular.
En la ilustración, el sistema de reconocimiento
de habla puede generar un modelo contextual para solicitudes de
patente. Aún más, dicho sistema puede generar un modelo contextual
para cada parte de una solicitud de patente. Por ejemplo, las
reivindicaciones de varias solicitudes de patente pueden contener
características similares, como cada una de las otras partes de una
solicitud de patente, tales como el resumen, descripción detallada,
así como el sumario de ella. Por tanto, puede ser formado un modelo
contextual por cada parte de un documento tal como una solicitud de
patente. Otra realización puede incluir la formación de un modelo
contextual para las subpartes. Por ejemplo, un modelo contextual
puede ser formado para las reivindicaciones independientes, y otro
para las reivindicaciones dependientes. Cualquier parte
identificable de un documento puede ser utilizada para formar el
correspondiente modelo contextual. Procesadores de texto
convencionales puede subdividir documentos en una o más secciones.
Por ejemplo, estas subdivisiones pueden ser utilizadas también para
generar un modelo contextual por cada subdivisión identificable de
un documento.
Para modelos contextuales utilizados en sistemas
de diálogo, cada modelo contextual inicial puede corresponder al
juego de frases que son las respuestas a cada indicación emitida
por el sistema de diálogo. En cualquier caso, los modelos
contextuales iniciales, o una fila inferior de la jerarquía, pueden
servir como base para cualquier interpolación entre los modelos
contextuales o cualquier otra formación subsiguiente de nuevos
modelos contextuales generadores, los cuales pueden comprender la
jerarquía del modelo contextual resultante.
El sistema de reconocimiento de habla puede
incluir un parámetro ajustable por el usuario para instruir al
sistema de reconocimiento de habla, para almacenar los modelos
contextuales de las últimas n sesiones de dictado, documentos, o
respuestas correspondientes a un usuario particular.
Alternativamente, el sistema de reconocimiento de habla puede
almacenar los últimos n modelos contextuales correspondientes a una
clasificación de un objeto particular de modelo contextual. Por
ejemplo, pueden ser almacenados los últimos n modelos contextuales
relacionados con una actividad o negocio, los últimos n modelos
contextuales de cartas personales, etc. Además, puede ser
especificado el parámetro sobre la base de uno por usuario, así como
uno sobre la base del objeto de clasificación. Por tanto, un
usuario A puede determinar el valor total de n, además de un valor
uniforme de n por cada clasificación de objeto. El usuario B puede
establecer también un valor general de n, además de valores
diferentes de n por cada clasificación de objeto. Además, los
valores del juego n del usuario B pueden ser totalmente
independientes de los valores del juego n del usuario A. Con ello se
permite que el sistema sea generalizado como se necesite.
El método 500 de la fig. 5 puede ser ejecutado
sobre la base de un usuario. Además, si el sistema ordenador de la
fig. 1 posee una potencia de tratamiento adecuada, dicho método 500
puede ser ejecutado al comienzo de cada sesión de dictado de un
nuevo usuario, documento, o respuesta de dicho usuario. Por tanto,
la jerarquía de los modelos contextuales a un usuario particular
puede ser actualizada constantemente. De manera alternativa, el
método 500 puede ser ejecutado automáticamente por el sistema de
reconocimiento de voz sobre bases periódicas, o de manera fuera de
línea en respuesta a una petición del usuario.
En cualquier caso, en la operación 510, el
sistema de reconocimiento de voz puede utilizar una métrica de
distancia para determinar lo próximamente relacionado que cada
modelo contextual está con otro modelo correspondiente a un usuario
particular. Como ya se ha dicho, el sistema de reconocimiento de
habla puede utilizar la distancia Kullback-Liebler,
así como la clasificación del objeto de cada modelo contextual para
la determinación de la relación o distancia. Después de completada
la operación 510, el método puede continuar a la operación 520.
En la operación 520, el sistema de reconocimiento
de habla puede identificar el par de modelos contextuales que tiene
la menor distancia. Completada la operación 520, el método puede
pasar a la operación 530, donde los modelos contextuales pueden ser
unidos. Como antes se ha dicho, los modelos contextuales pueden ser
unidos por interpolación, o mediante el uso de los datos de cada
modelo contextual descendiente, para formar un nuevo modelo
generador. Si los modelos contextuales están siendo reconstruidos
en cada generador unido, el nodo de raíz puede corresponder al uso
de un modelo de lenguaje sencillo. En ese caso, los nodos del modelo
contextual jerárquico pueden ser alisados con el uso de datos que
pueden ser retenidos fuera o excluidos de la derivación inicial del
modelo contextual. Los datos excluidos pueden ser utilizados
entonces para ejecutar el alisamiento estadístico del modelo
contextual jerárquicamente resultante. Por tanto, el modelo
contextual puede ser la interpolación de todos los modelos
contextuales desde un nodo de hoja al nodo de raíz. Con
independencia de ello, después de completada la operación 530, el
método puede continuar a la operación 540.
En la operación 540, el sistema de reconocimiento
de habla puede determinar si se ha establecido un nodo de raíz
sencillo. Más específicamente, el sistema de reconocimiento de voz
puede determinar si la jerarquía de los modelos contextuales
termina en un nodo sencillo. Si es así, el método puede concluir, Si
no, el método puede efectuar un bucle de vuelta atrás a la
operación 510 para repetirla. Se apreciará que el método 500 puede
repetirse como se necesite, y cada iteración a través de dicho
método crea otro nivel de jerarquía de los modelos contextuales en
modalidad ascendente, con progresión hacia un nodo de raíz
sencillo.
La fig. 6 es una tabla de flujo de acciones 600
que muestra un ejemplo de método de conversión de habla en texto con
el uso de la jerarquía de los modelos contextuales de la fig. 4. En
particular, el sistema de reconocimiento de habla puede seleccionar
un modelo contextual adecuado para tratar pronunciaciones habladas
de usuario subsiguientes basadas en las pronunciaciones recibidas.
Si el sistema de ordenador tiene suficiente potencia de
tratamiento, de modo que pueda convertir el habla en texto en tiempo
real sin un retardo razonable, puede ser ejecutada la determinación
del modelo contextual por cada pronunciación o frase recibidas del
usuario por el sistema de reconocimiento de habla. Por ejemplo,
después de cada pausa detectable en la pronunciación hablada del
usuario recibida, el sistema de reconocimiento de habla puede
ejecutar el método 600.
Alternativamente, la determinación puede ser
efectuada al comienzo de una sesión de dictado, periódicamente a lo
largo de la sección hablada, o en respuesta a una orden del usuario
para ejecutar dicha determinación. Por ejemplo, el sistema de
reconocimiento de habla puede ejecutar la determinación
automáticamente después de que el usuario ha dictado durante un
tiempo predeterminado, o como consecuencia de que el grado de
certeza quede por debajo de un valor de umbral predeterminado. En el
caso de petición del usuario, éste puede pedir que se haga la
determinación cuando él cambia a un estilo u objeto del dictado
diferente, por ejemplo, de correspondencia de negocios a
correspondencia personal.
El método 600 puede comenzar en la operación 610,
en la que el sistema de reconocimiento de habla recibe una entrada
de texto. La entrada de texto puede estar derivada de un sistema de
reconocimiento de habla, o puede ser un texto dentro de un
documento existente. En especial, el texto puede ser un mensaje de
correo electrónico recibido. Después de completada la operación
610, el método puede continuar a la operación 620. En ésta, el
sistema de reconocimiento de habla puede tratar el texto recibido
con el uso de los modelos jerárquicamente contextuales. Por ejemplo,
el texto puede ser tratado con cada uno de los modelos contextuales
contenidos dentro de la jerarquía de ellos. El modelo contextual
que proporcione el texto que tenga el más alto grado de certeza
puede ser identificado como el modelo correcto o más adecuado para
uso en la conversión en texto de la subsiguiente pronunciación
hablada del usuario. El procedimiento puede ser efectuado en forma
de serie o paralelo.
Por ejemplo, en un sistema basado en el diálogo,
aunque puede esperarse que una respuesta de "sí" o "no" de
un usuario corresponde a una indicación particular del diálogo, el
usuario puede responder "sí; no obstante yo preferiría X". En
este caso, el usuario ha respondido y ha proporcionado una
información adicional. Por tanto, aunque un sistema basado en el
diálogo puede incluir un modelo contextual correspondiente a la
indicación a la que ha respondido el usuario, la respuesta de éste
puede reflejar con más precisión una respuesta prevista a otra
indicación del sistema. En especial, una respuesta prevista que no
se limita a "sí" o "no". Con independencia de ello, el
texto derivado del sistema de reconocimiento de habla puede ser
tratado con la jerarquía de los modelos contextuales. Puede ser
identificado el modelo contextual que proporcione un texto que
posee el más alto grado de certeza. En especial, debido a que la
respuesta del usuario variaba con respecto al tipo previsto de ella
por el sistema NLU, el modelo contextual identificado puede ser
diferente al modelo contextual asociado por lo general a las
respuestas del usuario tratadas correspondientes a una indicación
de diálogo particular a la que ha respondido dicho usuario. El
modelo contextual identificado puede diferir también del modelo
contextual utilizado por el sistema de reconocimiento de habla para
convertir la pronunciación hablada del usuario en texto.
En otra realización de la invención, puede ser
identificado un modelo contextual correspondiente a una sección de
un documento identificable. Por ejemplo, si un usuario está
dictando un documento, y el sistema de reconocimiento de habla
determina que el cursor del usuario está situado dentro de una
sección particular del documento, el citado sistema puede
identificar el modelo contextual correspondiente a esa sección del
documento. El modelo contextual identificado puede ser utilizado, al
menos inicialmente, para tratar pronunciaciones habladas del
usuario recibidas mientras el cursor del usuario esté situado
dentro de la correspondiente sección del documento. Aún más, el
usuario puede especificar la sección del documento al sistema de
reconocimiento de habla en otro método, tal como de habla u orden
de puntero. En especial, pueden ser incorporados también otros
métodos de determinación de modelo contextual. Por ejemplo, en base
a grados de certeza insatisfactorios, el sistema de reconocimiento
de habla puede interrumpir el uso del modelo contextual
identificado a favor de otro modelo contextual.
Se apreciará que el sistema de reconocimiento de
habla puede identificar uno o más modelos contextuales que producen
texto con un grado de certeza por encima de un valor de umbral
mínimo predeterminado. En tal caso, dicho sistema puede utilizar
cada modelo contextual identificado cuando los resultados con el
uso de cada modelo puedan ser ponderados empleando coeficientes de
probabilidad. Por ejemplo, el coeficiente puede estar relacionado
directamente con los grados de certeza del texto resultante.
Alternativamente, el sistema de reconocimiento de habla puede
extrapolar entre los modelos contextuales identificados. Aún más,
puede ser seleccionado el modelo contextual que proporcione el
texto que tenga el grado de certeza más alto. Completada la
operación 620, el método puede continuar a la operación 630.
En la operación 630, el modelo contextual
identificado puede ser utilizado para tratar pronunciaciones
habladas del usuario subsiguientes en el sistema de reconocimiento
de habla. Dicho sistema puede continuar sobre el supuesto de que
las pronunciaciones subsiguientes del usuario que se producen dentro
de un tiempo particular de la determinación del modelo contextual,
tienen probablemente una sintaxis y vocabulario similares o se
refieren a una materia similar como la del texto utilizado para
hacer la determinación. Por tanto, además de la selección del modelo
contextual en base a la materia tratada, en relación con un sistema
de dictado, el método puede seleccionar un modelo contextual a
partir de la jerarquía de modelos contextuales, de acuerdo con el
estado de diálogo en el sistema NLU.
Otra realización de la invención puede incluir la
selección de un modelo contextual en base a un mensaje de correo
electrónico recibido. Por ejemplo, un mensaje de correo electrónico
recibido puede ser tratado para determinar un modelo contextual
apropiado correspondiente a ese correo electrónico. El modelo
contextual identificado puede ser utilizado para convertir
pronunciaciones habladas subsiguientes del usuario en texto. En
especial, el modelo contextual puede ser utilizado para convertir
las pronunciaciones del usuario durante una sesión de dictado en la
que dicho usuario esté respondiendo al mensaje de correo
electrónico recibido. Por tanto, dicho correo electrónico recibido
puede ser tratado para determinar el modelo contextual que
corresponde al objeto del correo electrónico recibido. Dicho modelo
contextual puede ser utilizado para tratar la respuesta dictada por
el usuario a ese correo electrónico. Además, el sistema de
reconocimiento de habla puede tratar las partes diferentes del
mensaje electrónico recibido, incluido el objeto del mensaje. En
otra realización de la invención, el objeto puede constituir un
factor adicional acordado para la determinación de un modelo
contextual adecuado. Después de completada la operación 630, el
método puede pasar a la operación 640.
En la operación 640, si se ha completado el
segmento, el método puede pasar a la operación 650. Si no es así, el
método puede continuar a la operación 610, para reunir más texto.
En especial, el segmento puede corresponder a la unidad de texto
utilizada para formar los modelos contextuales iniciales que sirven
como fundamento para la jerarquía de dichos modelos contextuales.
Por ejemplo, el segmento puede corresponder a un documento,
párrafo, frase, o parte del documento, o una respuesta del usuario a
una indicación del diálogo dada. Una vez seleccionada la cantidad
predeterminada de texto, el segmento está completo.
Alternativamente, el usuario puede notificar al sistema de
reconocimiento de voz del comienzo y final de la pronunciación
hablada, para ser convertida en texto. En cualquier caso, la
cuantía de texto utilizado para formar un modelo contextual inicial
puede ser reunida para completar así un segmento.
Si el segmento ha sido completado en la operación
650, el método puede formar dinámicamente un nuevo modelo contextual
correspondiente a dicho segmento completado. Adicionalmente, puede
ser ejecutado el método 500 para reformar dinámicamente la
jerarquía de los modelos contextuales. Después de completada la
operación 650, el método puede repetirse.
Claims (10)
1. Un método para crear una jerarquía de
modelos contextuales, cuyo método comprende:
a) medir la distancia entre cada uno de la
pluralidad de modelos contextuales utilizando una métrica de
distancia, y en el que al menos uno de dicha pluralidad de modelos
contextuales corresponde a una parte de un documento o una respuesta
de usuario dentro de un sistema basado en el diálogo;
b) identificar dos de dicha pluralidad de modelos
contextuales, cuyos modelos contextuales identificados están más
próximos en cuanto a distancia que los otros de dicha pluralidad de
modelos contextuales;
c) unir dichos modelos contextuales identificados
en un modelo contextual generador;
d) repetir las operaciones a), b), y c) hasta
crear una jerarquía de dicha pluralidad de modelos contextuales,
cuya jerarquía tiene un nodo de raíz; y
e) alisar estadísticamente dicha jerarquía de
dicha pluralidad de modelos contextuales, con lo que resulta un
modelo de lenguaje de reconocimiento de habla.
2. El método de la reivindicación 1, cuya
operación c) de unir comprende además:
- interpolar entre dichos modelos contextuales
identificados, cuya interpolación da por resultado una combinación
de los citados modelos contextuales identificados.
3. El método de la reivindicación 1, cuya
operación c) de unir comprende además:
- formar un modelo contextual generador con el
uso de datos correspondientes a dichos modelos contextuales
identificados.
4. Un método para convertir el habla en texto
con el uso de una jerarquía de modelos contextuales creada por el
método según una cualquiera de las reivindicaciones 1 a 3, en el
que dicha jerarquía de modelos contextuales es alisada
estadísticamente en un modelo de lenguaje, cuyo método
comprende:
a) tratar un texto con una pluralidad de modelos
contextuales, en el que cada uno de dicha pluralidad de modelos
contextuales corresponde a un nodo en la jerarquía de los modelos
contextuales;
b) identificar al menos uno de dichos modelos
contextuales relacionado con dicho texto; y
c) tratar las subsiguientes pronunciaciones
habladas del usuario con dicho al menos un modelo contextual
identificado.
5. El método de la reivindicación 4, en el que
dicha operación a) es ejecutada en serie o en paralelo.
6. El método de las reivindicaciones 4 ó 5, en el
que al menos uno de dicha pluralidad de modelos contextuales
corresponde a uno o más de lo siguiente:
I) un documento o una parte de un documento;
II) al menos una respuesta de un usuario recibida
en un estado de diálogo particular en un sistema basado en el
diálogo;
III) al menos una respuesta de un usuario
recibida en un emplazamiento particular dentro de una operación
particular, a su vez dentro de un sistema basado en el diálogo;
IV) la sintaxis de una indicación en un sistema
basado en el diálogo;
V) una indicación de un sistema basado en el
diálogo, particular y conocido; o
VI) un mensaje de correo electrónico
recibido.
7. Una máquina de almacenamiento legible, que
tiene almacenado en ella un programa de ordenador que cuenta con una
pluralidad de secciones de código ejecutables por una máquina, para
hacer que ésta efectúe las operaciones de:
a) medir la distancia entre cada uno de la
pluralidad de modelos contextuales con el uso de una métrica de
distancia, en la que al menos uno de dicha pluralidad de modelos
contextuales corresponde a una parte de un documento o una
respuesta de un usuario dentro de un sistema basado en el
diálogo;
b) identificar dos de dicha pluralidad de modelos
contextuales, cuyos modelos contextuales identificados están más
próximos en distancia que los otros de dicha pluralidad de modelos
contextuales;
c) unir dichos modelos contextuales identificados
en un modelo contextual generador;
d) repetir dichas operaciones a), b), y c) hasta
crear una jerarquía de dicha pluralidad de modelos contextuales,
cuya jerarquía tiene un nodo común; y
e) alisar estadísticamente dicha jerarquía de la
citada pluralidad de modelos contextuales, de lo que resulta un
modelo de lenguaje de reconocimiento de habla.
8. La máquina de almacenamiento legible de la
reivindicación 7, cuya operación c) de unir comprende además:
- interpolar entre dichos modelos contextuales
identificados, cuya interpolación da por resultado una combinación
de los citados modelos contextuales identificados.
9. La máquina de almacenamiento legible de la
reivindicación 7, cuya operación c) de unir comprende además:
- formar un modelo contextual generador con el
uso de datos correspondientes a dichos modelos contextuales
identificados.
10. Una máquina de almacenamiento legible según
las reivindicaciones 7, 8 ó 9, que tiene almacenado en ella otro
programa de ordenador que cuenta con una pluralidad de secciones de
código ejecutables por una máquina, para hacer que ésta efectúe las
operaciones de:
a) tratar un texto con una pluralidad de modelos
contextuales, y en la que cada uno de dicha pluralidad de modelos
contextuales corresponde a un nodo en una jerarquía de dicha
pluralidad de modelos contextuales;
b) identificar al menos uno de dichos modelos
contextuales que se refiera a dicho texto; y
c) tratar las subsiguientes pronunciaciones
habladas del usuario con dicho al menos un modelo contextual
identificado.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US798655 | 1985-11-15 | ||
US09/798,655 US6754626B2 (en) | 2001-03-01 | 2001-03-01 | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2227421T3 true ES2227421T3 (es) | 2005-04-01 |
Family
ID=25173942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02700489T Expired - Lifetime ES2227421T3 (es) | 2001-03-01 | 2002-02-28 | Modelos de lenguaje jerarquicos. |
Country Status (10)
Country | Link |
---|---|
US (1) | US6754626B2 (es) |
EP (1) | EP1366490B1 (es) |
JP (1) | JP3940363B2 (es) |
KR (1) | KR100563365B1 (es) |
CN (1) | CN1256714C (es) |
AT (1) | ATE276568T1 (es) |
CA (1) | CA2437620C (es) |
DE (1) | DE60201262T2 (es) |
ES (1) | ES2227421T3 (es) |
WO (1) | WO2002071391A2 (es) |
Families Citing this family (151)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
KR100480272B1 (ko) * | 2001-10-31 | 2005-04-07 | 삼성전자주식회사 | 소결합 고도 병렬 라우터 내의 라우팅 조정 프로토콜을위한 프리픽스 통합 방법 |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
FR2841355B1 (fr) | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
US6944612B2 (en) * | 2002-11-13 | 2005-09-13 | Xerox Corporation | Structured contextual clustering method and system in a federated search engine |
US20040138883A1 (en) * | 2003-01-13 | 2004-07-15 | Bhiksha Ramakrishnan | Lossless compression of ordered integer lists |
US7171358B2 (en) * | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
US8656274B2 (en) * | 2003-10-30 | 2014-02-18 | Avaya Inc. | Automatic identification and storage of context information associated with phone numbers in computer documents |
CA2486128C (en) | 2003-10-30 | 2011-08-23 | At&T Corp. | System and method for using meta-data dependent language modeling for automatic speech recognition |
US7295981B1 (en) | 2004-01-09 | 2007-11-13 | At&T Corp. | Method for building a natural language understanding model for a spoken dialog system |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
CN1655232B (zh) * | 2004-02-13 | 2010-04-21 | 松下电器产业株式会社 | 上下文相关的汉语语音识别建模方法 |
US8687792B2 (en) * | 2004-04-22 | 2014-04-01 | Hewlett-Packard Development Company, L.P. | System and method for dialog management within a call handling system |
US7908143B2 (en) * | 2004-04-28 | 2011-03-15 | International Business Machines Corporation | Dialog call-flow optimization |
US8768969B2 (en) * | 2004-07-09 | 2014-07-01 | Nuance Communications, Inc. | Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US8335688B2 (en) | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US7840404B2 (en) * | 2004-09-20 | 2010-11-23 | Educational Testing Service | Method and system for using automatic generation of speech features to provide diagnostic feedback |
US7392187B2 (en) * | 2004-09-20 | 2008-06-24 | Educational Testing Service | Method and system for the automatic generation of speech features for scoring high entropy speech |
US7630976B2 (en) * | 2005-05-10 | 2009-12-08 | Microsoft Corporation | Method and system for adapting search results to personal information needs |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
ATE514162T1 (de) | 2005-12-08 | 2011-07-15 | Nuance Comm Austria Gmbh | Dynamische erzeugung von kontexten zur spracherkennung |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
US7835911B2 (en) * | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US7992091B2 (en) * | 2006-03-30 | 2011-08-02 | At&T Intellectual Property I, L.P. | Message-oriented divergence and convergence of message documents |
US9497314B2 (en) * | 2006-04-10 | 2016-11-15 | Microsoft Technology Licensing, Llc | Mining data for services |
US8831943B2 (en) * | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
EP2030196B1 (en) * | 2006-06-22 | 2018-09-05 | Multimodal Technologies, LLC | Verification of extracted data |
ATE466361T1 (de) * | 2006-08-11 | 2010-05-15 | Harman Becker Automotive Sys | Spracherkennung mittels eines statistischen sprachmodells unter verwendung von quadratwurzelglättung |
US8418217B2 (en) | 2006-09-06 | 2013-04-09 | Verizon Patent And Licensing Inc. | Systems and methods for accessing media content |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8316320B2 (en) * | 2006-10-03 | 2012-11-20 | Verizon Patent And Licensing Inc. | Expandable history tab in interactive graphical user interface systems and methods |
US8464295B2 (en) * | 2006-10-03 | 2013-06-11 | Verizon Patent And Licensing Inc. | Interactive search graphical user interface systems and methods |
US20080091423A1 (en) * | 2006-10-13 | 2008-04-17 | Shourya Roy | Generation of domain models from noisy transcriptions |
WO2008058842A1 (en) * | 2006-11-16 | 2008-05-22 | International Business Machines Corporation | Voice activity detection system and method |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US8285539B2 (en) * | 2007-06-18 | 2012-10-09 | International Business Machines Corporation | Extracting tokens in a natural language understanding application |
US9342588B2 (en) * | 2007-06-18 | 2016-05-17 | International Business Machines Corporation | Reclassification of training data to improve classifier accuracy |
US8521511B2 (en) * | 2007-06-18 | 2013-08-27 | International Business Machines Corporation | Information extraction in a natural language understanding system |
US9058319B2 (en) * | 2007-06-18 | 2015-06-16 | International Business Machines Corporation | Sub-model generation to improve classification accuracy |
US8019760B2 (en) * | 2007-07-09 | 2011-09-13 | Vivisimo, Inc. | Clustering system and method |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8457967B2 (en) * | 2009-08-15 | 2013-06-04 | Nuance Communications, Inc. | Automatic evaluation of spoken fluency |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8977537B2 (en) | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
US9733901B2 (en) | 2011-07-26 | 2017-08-15 | International Business Machines Corporation | Domain specific language design |
US10229139B2 (en) | 2011-08-02 | 2019-03-12 | Cavium, Llc | Incremental update heuristics |
US8719331B2 (en) * | 2011-08-02 | 2014-05-06 | Cavium, Inc. | Work migration in a processor |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9275411B2 (en) | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
US9361884B2 (en) | 2013-03-11 | 2016-06-07 | Nuance Communications, Inc. | Communicating context across different components of multi-modal dialog applications |
US9761225B2 (en) | 2013-03-11 | 2017-09-12 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
US9269354B2 (en) | 2013-03-11 | 2016-02-23 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
US10083200B2 (en) | 2013-03-14 | 2018-09-25 | Cavium, Inc. | Batch incremental update |
US9195939B1 (en) | 2013-03-15 | 2015-11-24 | Cavium, Inc. | Scope in decision trees |
US9595003B1 (en) | 2013-03-15 | 2017-03-14 | Cavium, Inc. | Compiler with mask nodes |
US10229144B2 (en) | 2013-03-15 | 2019-03-12 | Cavium, Llc | NSP manager |
US9626960B2 (en) * | 2013-04-25 | 2017-04-18 | Nuance Communications, Inc. | Systems and methods for providing metadata-dependent language models |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9558749B1 (en) | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US20150309984A1 (en) * | 2014-04-25 | 2015-10-29 | Nuance Communications, Inc. | Learning language models from scratch based on crowd-sourced user text input |
US9972311B2 (en) | 2014-05-07 | 2018-05-15 | Microsoft Technology Licensing, Llc | Language model optimization for in-domain application |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3161666A1 (en) * | 2014-06-25 | 2017-05-03 | Nuance Communications, Inc. | Semantic re-ranking of nlu results in conversational dialogue applications |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
KR101610151B1 (ko) * | 2014-10-17 | 2016-04-08 | 현대자동차 주식회사 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9734826B2 (en) | 2015-03-11 | 2017-08-15 | Microsoft Technology Licensing, Llc | Token-level interpolation for class-based language models |
US10108603B2 (en) * | 2015-06-01 | 2018-10-23 | Nuance Communications, Inc. | Processing natural language text with context-specific linguistic model |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10274911B2 (en) * | 2015-06-25 | 2019-04-30 | Intel Corporation | Conversational interface for matching text of spoken input based on context model |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
EP3770903B1 (en) * | 2016-06-08 | 2024-01-31 | Google LLC | Scalable dynamic class language modeling |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN108573697B (zh) * | 2017-03-10 | 2021-06-01 | 北京搜狗科技发展有限公司 | 一种语言模型更新方法、装置及设备 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10832658B2 (en) | 2017-11-15 | 2020-11-10 | International Business Machines Corporation | Quantized dialog language model for dialog systems |
CN108922543B (zh) * | 2018-06-11 | 2022-08-16 | 平安科技(深圳)有限公司 | 模型库建立方法、语音识别方法、装置、设备及介质 |
JP6965846B2 (ja) * | 2018-08-17 | 2021-11-10 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
US11372823B2 (en) * | 2019-02-06 | 2022-06-28 | President And Fellows Of Harvard College | File management with log-structured merge bush |
CN112017642B (zh) * | 2019-05-31 | 2024-04-26 | 华为技术有限公司 | 语音识别的方法、装置、设备及计算机可读存储介质 |
CN114078469B (zh) * | 2022-01-19 | 2022-05-10 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、终端和存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4320522A (en) * | 1980-05-09 | 1982-03-16 | Harris Corporation | Programmable frequency and signalling format tone frequency encoder/decoder circuit |
CH662224A5 (de) * | 1982-10-01 | 1987-09-15 | Zellweger Uster Ag | Digitalfilter fuer fernsteuerempfaenger, insbesondere fuer rundsteuerempfaenger. |
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5257313A (en) * | 1990-07-09 | 1993-10-26 | Sony Corporation | Surround audio apparatus |
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
US5694558A (en) * | 1994-04-22 | 1997-12-02 | U S West Technologies, Inc. | Method and system for interactive object-oriented dialogue management |
US5742797A (en) * | 1995-08-11 | 1998-04-21 | International Business Machines Corporation | Dynamic off-screen display memory manager |
US5832492A (en) * | 1995-09-05 | 1998-11-03 | Compaq Computer Corporation | Method of scheduling interrupts to the linked lists of transfer descriptors scheduled at intervals on a serial bus |
US6278973B1 (en) * | 1995-12-12 | 2001-08-21 | Lucent Technologies, Inc. | On-demand language processing system and method |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
US5913038A (en) * | 1996-12-13 | 1999-06-15 | Microsoft Corporation | System and method for processing multimedia data streams using filter graphs |
EP0903727A1 (en) | 1997-09-17 | 1999-03-24 | Istituto Trentino Di Cultura | A system and method for automatic speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
US6185530B1 (en) * | 1998-08-14 | 2001-02-06 | International Business Machines Corporation | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
JP4244423B2 (ja) * | 1999-01-28 | 2009-03-25 | 株式会社デンソー | 適正単語列推定装置 |
US6253179B1 (en) * | 1999-01-29 | 2001-06-26 | International Business Machines Corporation | Method and apparatus for multi-environment speaker verification |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6308151B1 (en) * | 1999-05-14 | 2001-10-23 | International Business Machines Corp. | Method and system using a speech recognition system to dictate a body of text in response to an available body of text |
-
2001
- 2001-03-01 US US09/798,655 patent/US6754626B2/en not_active Expired - Lifetime
-
2002
- 2002-02-28 EP EP02700489A patent/EP1366490B1/en not_active Expired - Lifetime
- 2002-02-28 KR KR1020037010835A patent/KR100563365B1/ko not_active IP Right Cessation
- 2002-02-28 CA CA002437620A patent/CA2437620C/en not_active Expired - Fee Related
- 2002-02-28 WO PCT/GB2002/000889 patent/WO2002071391A2/en active IP Right Grant
- 2002-02-28 CN CNB02805640XA patent/CN1256714C/zh not_active Expired - Fee Related
- 2002-02-28 ES ES02700489T patent/ES2227421T3/es not_active Expired - Lifetime
- 2002-02-28 JP JP2002570227A patent/JP3940363B2/ja not_active Expired - Fee Related
- 2002-02-28 AT AT02700489T patent/ATE276568T1/de not_active IP Right Cessation
- 2002-02-28 DE DE60201262T patent/DE60201262T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20020123891A1 (en) | 2002-09-05 |
JP3940363B2 (ja) | 2007-07-04 |
CA2437620A1 (en) | 2002-09-12 |
ATE276568T1 (de) | 2004-10-15 |
CN1535460A (zh) | 2004-10-06 |
CN1256714C (zh) | 2006-05-17 |
EP1366490A2 (en) | 2003-12-03 |
DE60201262T2 (de) | 2005-11-17 |
DE60201262D1 (de) | 2004-10-21 |
JP2004523004A (ja) | 2004-07-29 |
KR100563365B1 (ko) | 2006-03-22 |
EP1366490B1 (en) | 2004-09-15 |
WO2002071391A3 (en) | 2002-11-21 |
KR20030076686A (ko) | 2003-09-26 |
CA2437620C (en) | 2005-04-12 |
US6754626B2 (en) | 2004-06-22 |
WO2002071391A2 (en) | 2002-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2227421T3 (es) | Modelos de lenguaje jerarquicos. | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
Ostendorf et al. | The Boston University radio news corpus | |
Wang et al. | Automatic classification of intonational phrase boundaries | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US7113903B1 (en) | Method and apparatus for providing stochastic finite-state machine translation | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP4729902B2 (ja) | 音声対話システム | |
Ross et al. | A dynamical system model for generating fundamental frequency for speech synthesis | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
Hamad et al. | Arabic text-to-speech synthesizer | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
JP2003162524A (ja) | 言語処理装置 | |
US20030216921A1 (en) | Method and system for limited domain text to speech (TTS) processing | |
Hanane et al. | TTS-SA (A text-to-speech system based on standard arabic) | |
Campbell | Extra-semantic protocols; input requirements for the synthesis of dialogue speech | |
KR0175249B1 (ko) | 음성 합성을 위한 한국어 문장의 발음처리 방법 | |
Naik et al. | E-Blind examination system | |
Chuu | LIESHOU: A Mandarin conversational task agent for the Galaxy-II architecture | |
Thilak et al. | Speech recognizer for Tamil language | |
Nkosi | Creation of a pronunciation dictionary for automatic speech recognition: a morphological approach | |
CN117672182A (zh) | 一种基于人工智能的声音克隆方法及*** |