ES2198758T3

ES2198758T3 - Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz.

Info

Publication number: ES2198758T3
Application number: ES98952622T
Authority: ES
Inventors: Anthony Rodrigo
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2004-02-01
Anticipated expiration: 2018-09-22
Also published as: ATE239336T1; JP2002525689A; EP1116373B1; EP1116373A1; JP4067276B2; WO2000017854A1; DE69814181D1; DE69814181T2; US7212970B2; AU1025399A; US20010047258A1

Abstract

Sistema de control por voz para una red (4) de telecomunicaciones, que comprende: a) medios de carga para cargar una información de definición de estados de un servidor (5) de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor (5) de aplicaciones de red; b) medios de determinación para determinar un conjunto de órdenes válidas para dicho servidor (5) de aplicaciones de red sobre la base de dicha información de definición de estados; y c) medios de comprobación para comprobar una validez de una orden de texto, obtenida al convertir una orden de voz de entrada que se va a utilizar para controlar dicho servidor (5) de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.

Description

Procedimiento y sistema de configuración de un sistema de reconocimiento por voz.

Campo de la invención

La presente invención se refiere a un sistema y un procedimiento de control por voz para una red de telecomunicaciones, en los que un servidor de aplicaciones de red se controla sobre la base de una orden de voz.

Antecedentes de la invención

En los sistemas de reconocimiento distribuido de la voz (DSR), el usuario puede controlar una aplicación sobre la base de mensajes de control hablados suministrados a unos medios o un motor de reconocimiento automático de la voz (ASR). Los mensajes de control hablados se convierten por medio del motor ASR en órdenes de texto que se envían a la aplicación que se ejecuta en un servidor de aplicaciones de red (NAS) correspondiente o a un terminal de abonado tal como una estación móvil (MS) desde la cual se han recibido los mensajes de control hablados.

La función básica de un sistema de reconocimiento distribuido de la voz en el contexto de las aplicaciones móviles es la capacidad de que una estación móvil ofrezca características de reconocimiento automático de la voz con la ayuda de un motor ASR ó servidor ASR de alta potencia dispuesto en la red. De este modo, la función básica de la estación móvil es la transmisión de una orden de voz de entrada hacia este motor ASR de la red para realizar las tareas de reconocimiento y devolver los resultados. El resultado puede ser una palabra o una orden reconocida en formato de texto. A continuación la estación móvil puede utilizar el texto para realizar las funciones necesarias. El documento EP-A-382670 da a conocer un ejemplo de la generación de aplicaciones con salida de voz, sobre la base de una máquina accionada por estados, y controladas típicamente a través de un teclado de teléfono TouchTone.

Otra función de un sistema de este tipo es proporcionar a la estación móvil el acceso a otros servidores de aplicaciones, es decir, la WWW (World Wide Web) (Malla Multimedia Mundial) de Internet, correo electrónico, correo de voz y similares, a través de órdenes de voz. De este modo, el usuario con este tipo de estación móvil puede conectarse a estos servidores de aplicaciones y emitir órdenes de voz. Para conseguir esto, la estación móvil transmite una señal de voz (audio) hacia el motor ASR. El motor ASR realizará el reconocimiento de la voz para obtener las órdenes de texto correspondientes. Estas órdenes de texto se devuelven a la estación móvil. A continuación la estación móvil utiliza estas órdenes de texto para controlar un servidor de aplicaciones de red (NAS) correspondiente que puede ser cualquier servidor en una red de datos tal como Internet que proporciona varios servicios tales como WWW, lectores de correo electrónico, correo de voz y otros.

Como habitualmente el motor ASR se ejecuta en una plataforma que también puede ejecutar otras aplicaciones o realizar otra tareas, es posible transferir otras funciones al motor ASR, tales como el procesado de la orden de texto obtenida para establecer la operación requerida y contactar con el servidor pertinente. A continuación, transmite la información recuperada del servidor contactado de aplicaciones de red de vuelta hacia la estación móvil. En esta situación, la estación móvil recibe una entrada de voz, la envía hacia un motor ASR de red que realiza el reconocimiento de la voz, ejecuta las funciones necesarias sobre la base de órdenes de voz y envía la información o los resultados recuperados hacia la estación móvil.

A continuación, se describen los ejemplos correspondientes a los casos anteriores:

Ejemplo 1

El usuario podría decir ``Llamar a John Smith''. En este caso, el motor ASR convierte la voz en texto y devuelve el texto ``Llamar a John Smith'' a la estación móvil, en donde a continuación el software de aplicación en la estación móvil recupera el número correspondiente a John Smith y realiza una operación de llamada.

Ejemplo 2

La orden de voz en la estación móvil podría ser ``Información de las carreras''. En este caso, el motor ASR convierte la voz en texto, y devuelve el texto ``Información de las carreras'' a la estación móvil. De este modo, el software de aplicación de la estación móvil reconoce que el usuario desea acceder al servidor de la red que proporciona una Información sobre las carreras de caballos. Por consiguiente, la estación móvil establece una conexión con el servidor pertinente, recupera los últimos resultados de las carreras y visualiza los resultados en una pantalla de la estación móvil.

Ejemplo 3

Una orden de voz introducida en la estación móvil podría ser ``Leer el correo electrónico''. En este caso, el motor ASR convierte la voz en texto y devuelve el texto ``Leer el correo electrónico'' a la estación móvil. De este modo, el software de aplicación de la estación móvil reconoce que el usuario desea acceder al servidor de la red que proporciona acceso al buzón de correo electrónico del usuario. En este caso, la estación móvil envía una orden al motor ASR para establecer una conexión con el servidor pertinente de aplicación de correo electrónico. Seguidamente, el motor ASR no devuelve la voz reconocida, sino que procesa adicionalmente la voz convertida. En el caso de que la orden de voz fuera ``Mensaje 1'', el motor ASR recibe la voz y la traduce en una orden de texto ``Mensaje 1'' y transmite esta orden de texto al servidor de aplicación de correo electrónico. A su vez, el servidor de aplicación de correo electrónico devuelve el texto del Mensaje 1 al motor ASR. A continuación el motor ASR transmitirá este texto a la estación móvil. El diálogo puede continuar con el Mensaje 2, 3 y así sucesivamente, en donde cada orden de voz del usuario será manipulada por el motor ASR, hasta que el usuario emita una orden de salida o hasta que se reciba un mensaje desde la estación móvil para finalizar la sesión.

En los ejemplos anteriores 1 y 2, la única función del motor ASR es convertir la voz en texto y enviar los resultados de vuelta a la estación móvil para un procesado adicional. Por esta razón, los servidores de aplicaciones de red recibirán órdenes directamente desde la estación móvil. No obstante, en el ejemplo anterior 3, el propio motor ASR procesa la voz convertida y accede directamente al servidor pertinente de aplicaciones de red para recibir los resultados del servidor de aplicaciones de red y pasar los resultados de vuelta a la estación móvil.

De este modo, se requiere que la estación móvil o el motor ASR se comuniquen con el servidor de aplicaciones de red para emitir órdenes de usuario hacia el servidor de aplicaciones de red y recibir respuestas desde el servidor de aplicaciones de red.

No obstante, en cualquiera de los dos casos se encuentra el siguiente problema. Se considera que la aplicación de correo electrónico a leer soporta órdenes tales como A{Mensaje 1, Mensaje 2... Mensaje N y Salir} en el menú de nivel superior. En el caso de que el usuario ya esté leyendo un mensaje, las órdenes en este contexto son B{Eliminar, Salir, Mensaje siguiente}. Por esta razón, si el usuario está en el menú de nivel superior e introduce una orden de voz diferente a las del conjunto de órdenes A, el servidor de aplicaciones de red responderá con un mensaje de error. Incluso si el usuario emite una orden de voz del conjunto de órdenes B, esta orden seguirá siendo una orden errónea, ya que el contexto o estado del servidor de aplicaciones de red es diferente.

Por otra parte, en la estación móvil también se podrían introducir órdenes irrelevantes para el contexto debido al ruido y a condiciones similares. Todas estas señales de voz se convertirán en un texto por medio del motor ASR y se enviarán al servidor de aplicaciones de red que responderá con mensajes de error.

Como dichos escenarios se pueden producir frecuentemente, el procesado de órdenes válidas por parte del servidor de aplicaciones de red se retardará, ya que para responder a dichas órdenes no válidas se requieren unos anchos de banda de la red y un tiempo del procesador del servidor de aplicaciones valiosos.

Por otra parte, el problema anterior conduce a un retardo en la respuesta del motor ASR a un mensaje de voz de entrada, ya que debe esperar por respuestas del servidor de aplicaciones de red.

Por consiguiente, el tiempo total de respuesta en la estación móvil aumentará, de tal manera que puede que el usuario repita la orden o cambie la orden lo cual aumenta los retardos todavía más y conduce a un rendimiento deficiente del sistema.

Resumen de la invención

Es un objetivo de la presente invención proporcionar un sistema y un procedimiento de control por voz que presenta un tiempo de respuesta total reducido.

Este objetivo se consigue mediante un sistema de control por voz para una red de telecomunicaciones, que comprende:

medios de carga para cargar una información de definición de estados de un servidor de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor de aplicaciones de red;

medios de determinación para determinar un conjunto de órdenes válidas para dicho servidor de aplicaciones de red sobre la base de dicha información de definición de estados; y

medios de comprobación para comprobar una validez de una orden de texto, obtenida al convertir una orden de voz de entrada que se utilizará para controlar dicho servidor de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.

Además, el objetivo anterior se consigue mediante un procedimiento de control por voz para una red de telecomunicaciones, que comprende las siguientes etapas:

carga de una información de definición de estados de un servidor de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor de aplicaciones de red;

determinación de un conjunto de órdenes válidas para dicho servidor de aplicaciones de red sobre la base de dicha información de definición de estados; y

comprobación de una validez de una orden de texto, obtenida al convertir una orden de voz que se utilizará para controlar dicho servidor de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.

Por consiguiente, como basándose en una información de definición de estados proporcionada por el servidor de aplicaciones de red se puede determinar un conjunto de órdenes válidas, se puede comprobar la validez de una orden de texto obtenida antes de transmitir la orden de texto hacia el servidor de aplicaciones de red. De este modo, se puede evitar la transmisión de mensajes de texto erróneos para evitar los retardos y las pérdidas correspondientes de tiempo de procesado del servidor de aplicaciones de red.

Preferentemente, los medios de carga se pueden disponer para cargar una información de gramática y/o vocabulario que especifica un conjunto total de órdenes validas soportadas por el servidor de aplicaciones de red, en donde los medios de determinación se pueden disponer para determinar dicho conjunto de órdenes válidas sobre la base de dicho conjunto total de órdenes válidas y una información de transición de estados en dicha información de definición de estados.

De este modo, el sistema de control por voz puede seguir el ritmo de los estados reales del servidor de aplicaciones de red haciendo referencia a las reglas de transición de estados para limitar el conjunto total de órdenes válidas a aquellas órdenes que se corresponden con el estado real del servidor de aplicaciones de red.

Como alternativa, los medios de determinación se pueden disponer para hacer que los medios de carga carguen un archivo de gramática dependiente de los estados que define un conjunto de órdenes validas para un estado específico del servidor de aplicaciones de red, cuando los medios de determinación determinan un cambio de estado sobre la base de una información de transición de estados incluida en la información de definición de estados.

De este modo, haciendo referencia a la información de transición de estados se carga únicamente el conjunto de órdenes válidas aplicables a un estado específico del servidor de aplicaciones de red. De este modo, se puede mejorar la precisión y las conexiones de la red se pueden utilizar más eficazmente.

Preferentemente, el sistema de control de la red puede comprender unos medios de reconocimiento por voz para convertir una orden de voz de entrada recibida desde un terminal de abonado en la orden de texto a suministrar al servidor de aplicaciones de red. De este modo, en la red se puede disponer un sistema central de control por voz al que pueden acceder terminales individuales de abonado. En el caso de que se utilice un Protocolo de Aplicación Inalámbrica (WAP) en una red de servicios móviles, el sistema de control por voz se puede implementar en un servidor de Aplicación de Telefonía Inalámbrica (WTA), en donde el servidor WTA se puede disponer de manera que recibe la orden de texto desde unos medios de reconocimiento de la voz de la red para convertir en dicha orden de texto una orden de voz de entrada recibida desde un terminal de abonado. De este modo, con un reconocimiento de voz optimizado se pueden mejorar las aplicaciones WTA existentes.

Como alternativa, el sistema de control por voz puede ser un terminal de abonado que tenga unos medios de entrada para introducir una orden de voz, unos medios de transmisión para transmitir la orden de voz hacia unos medios de reconocimiento de la voz de la red de telecomunicaciones, y unos medios de recepción para recibir la orden de texto de los medios de reconocimiento de la voz, en donde los medios de transmisión están dispuestos de manera que transmiten la orden de texto recibida hacia el servidor de aplicaciones de red.

De este modo, la comprobación de la validez de la orden de texto recibida se realiza en el terminal de abonado, por ejemplo, la estación móvil, antes de que se transmita hacia el servidor de aplicaciones de red. Por esta razón, el tiempo de procesado en el servidor de aplicaciones de red se puede reducir, ya que recibirá únicamente órdenes válidas.

La información de definición de estados puede ser un archivo de datos tal como un archivo de Lenguaje de Marcado Inalámbrico (WML) ó un archivo de Lenguaje de Marcado de Hipertexto (HTML). Este archivo de datos se puede enviar en línea hacia el sistema de control por voz como parte de la información estándar enviada por el servidor de aplicaciones de red.

Además, la información de definición de estados puede incluir una instrucción de carga para cargar el archivo de gramática y/o vocabulario dependiente de los estados. De este modo, el sistema de control por voz puede utilizar la instrucción de carga directamente para cargar el conjunto específico de órdenes válidas en el caso de que se determine un cambio del estado del servidor de aplicaciones de red.

Preferentemente, la información de definición de estados puede ser proporcionada por el servidor de aplicaciones de red en el momento de la configuración del servidor.

Además, la información de definición de estados se puede almacenar junto con una información de conjuntos de órdenes en un servidor de red que se ejecute en el hardware del sistema de control por voz.

Preferentemente, el sistema de control por voz puede comprender una pluralidad de medios de reconocimiento de la voz específicos del vendedor, en donde en la información de definición de estados se definen los parámetros correspondientes para dicha pluralidad de medios de reconocimiento de la voz específicos del vendedor. De este modo, se puede obtener un sistema universal de control por voz que se basa en una plataforma independiente de hardware y software. Así, dependiendo del servidor de aplicaciones de red se pueden seleccionar los medios de reconocimiento de la voz específicos del vendedor y el hardware de procesado de audio requeridos.

En las reivindicaciones dependientes se definen otras variantes preferidas de la presente invención.

Breve descripción de los dibujos

A continuación, se describirá más detalladamente la invención sobre la base de una forma de realización preferida y haciendo referencia a los dibujos adjuntos, en los cuales

la Fig. 1 muestra un diagrama de bloques de una red de telecomunicaciones que comprende un sistema de control por voz según la forma de realización preferida de la presente invención;

la Fig. 2 muestra un diagrama de flujo de un procedimiento de control por voz según la forma de realización preferida de la presente invención; y

la Fig. 3 muestra un diagrama de bloques de una red de telecomunicaciones que comprende un sistema de control por voz basado en el protocolo WAP según la forma de realización preferida de la presente invención.

Descripción de la forma de realización preferida

En la Fig. 1 se muestra un diagrama de bloques de una red de telecomunicaciones que comprende el sistema de control por voz según la forma de realización preferida de la presente invención. Según la Fig. 1, una estación móvil (MS) 1 está conectada por radio a un subsistema de estaciones base (BSS) 2 que está conectado a una red 4 de telecomunicaciones a través de un centro de conmutación de servicios móviles (MSC) 3. La red 4 de telecomunicaciones puede ser una red de datos tal como Internet que proporciona varios servicios.

Además, un servidor de aplicaciones de red (NAS) 5 está conectado a la red 4 para proporcionar un servicio específico basándose en órdenes correspondientes. Adicionalmente, como medios centrales se proporcionan unos medios o motor 6 de reconocimiento automático (ASR) de voz para permitir la entrada de voz en terminales de abonado tales como la estación móvil 1.

Para precisar el proceso de reconocimiento y llegar a velocidades de reconocimiento con una precisión mayor, en el motor ASR 6 se utilizan características específicas del lenguaje. Para conseguir una precisión elevada del reconocimiento de la voz, la aplicación se debe sintonizar de forma precisa a un contexto requerido. Esto se realiza especificando un vocabulario para la aplicación y gramáticas que son válidos en el contexto de la aplicación. El vocabulario es básicamente un conjunto de palabras a reconocer por el motor ASR 6, por ejemplo, palabras tales como Cerrar, Leer, Mensaje, Naranja, Bolígrafo, Silla, Salir, Abrir, etcétera. En el motor ASR 6, se pueden proporcionar unos medios para especificar la gramática para una aplicación determinada. Esto se podría conseguir por medio de una gramática basada en reglas como por ejemplo:

public <Orden> = [<Cortesía>] <Acción><Objeto> (y <Objeto>)*;

<Acción> = Leer | Siguiente | eliminar;

<Objeto> = mensaje | asunto;

<Cortesía> = Por favor;

En la gramática anterior basada en reglas, se especifica una regla pública, <Orden>, que puede ser pronunciada por un usuario. La regla es una combinación de reglas secundarias <Acción>, <Objeto> y <Cortesía>, en donde los corchetes alrededor de <Cortesía> indican una característica opcional del mismo. De este modo, la gramática anterior soportaría las siguientes órdenes: ``leer mensaje'', ``por favor leer asunto y mensaje'', etcétera.

En aplicaciones ASR basadas en órdenes, se utilizan gramáticas basadas en reglas para definir todas las entradas habladas las cuales está programada para gestionar la aplicación. Básicamente la gramática basada en reglas especifica todas las órdenes habladas (o sintaxis de gramática) que son soportadas por una aplicación. En el caso de un lector de correos electrónicos, el archivo de gramática contiene todas las órdenes que aceptará la aplicación del lector de correos electrónicos (por ejemplo, Mensaje 1, Mensaje 2, ..., Mensaje N, Salir, Eliminar y Mensaje siguiente).

Generalmente el motor ASR 6 carga el archivo de gramática asociado antes de iniciar el reconocimiento de la voz. Algunas aplicaciones pueden tener incluso múltiples archivos de gramática para definir diferentes contextos de una aplicación tales como el servidor 5 de aplicaciones de red, en donde se requiere que el motor ASR 6 cargue el archivo de gramática dependiente del contexto en tiempo de ejecución.

En la forma de realización preferida, se definen un archivo de gramática, un archivo de vocabulario y un archivo de definición de estados de aplicación (archivo ASD). De este modo, cada servidor 5 de aplicaciones de red produce un archivo ASD, un archivo de gramática y/o un archivo de vocabulario. El archivo de gramática se adapta a los requisitos del motor ASR 6, en donde los motores ASR 6 de diferentes vendedores pueden tener diferentes formatos de archivo de gramática.

El archivo ASD es un archivo que describe todos los estados posibles de la aplicación y cómo saltar entre estados, junto con las órdenes válidas para cada estado. De este modo, el archivo ASD proporciona unos medios para especificar los archivos de gramática dependientes del contexto y también un nombre de archivo de vocabulario. Esta es una característica importante, ya que una aplicación determinada puede utilizar diferentes gramáticas y/o vocabularios dependiendo del contexto. Si esta información se carga en el motor ASR 6 en línea, el reconocimiento de la voz y el tiempo de respuesta total se pueden mejorar notablemente debido al conjunto pequeño de órdenes válidas y a la alta precisión de reconocimiento resultante.

En el caso de que el archivo ASD se base en una sintaxis similar al HTML (Lenguaje de Marcado de Hipertexto), se podría definir de la forma siguiente:

<ASD>

<STATE = ``Menú principal'', COMMANDS = <MSG>, NEXTSTATE=``Leer'',

<QUIT>, NEXTSTATE=`` '' >;

<STATE = ``Leer'', COMMANDS = <NXT>, NEXTSTATE=``Leer'', <PREV>,

NEXTSTATE=``Leer'', <QUIT>, NEXTSTATE=``Menú principal''>;

\hskip1cm :

<MSG> = MENSAJE<DIGITS>

<NXT> = SIGUIENTE

<PREV> = PREVIO

<QUIT> = SALIR

<DIGITS> = 1|2|3|4|5;

\hskip1cm :

</GRAMMAR>

</APP>

</ASD>

en donde una etiqueta <ASD> identifica el archivo como un tipo de archivo que proporciona la definición de los estados del servidor 5 de aplicaciones de red, una etiqueta <APP> especifica el nombre de la aplicación y una etiqueta <STATE> define un estado determinado, es decir, el nombre del estado, las órdenes válidas para este estado, y con cada orden, se define también el siguiente estado hacia el cual debe saltar la aplicación. Dicha etiqueta <STATE> se define para cada estado de la aplicación de la red. La etiqueta <GRAMMAR> proporciona unos medios de definición de las órdenes y la sintaxis de las órdenes.

Según el archivo anterior, la aplicación debe saltar al estado ``Leer'' después de los Mensajes 1, 2, 3... N. La etiqueta <digits> define una gramática específica. En el presente caso, la etiqueta <GRAMMAR> muestra que los dígitos podrían ser 1, 2, 3, 4 ó 5. Después de la orden ``Salir'' se debería salir de la aplicación (lo cual se indica como un estado NULO (`` '')). Se debe indicar que el estado se debe transferir al ``Menú principal'', cuando se emite una orden ``Salir'' en el estado ``Leer''.

Utilizando este enfoque, el archivo ASD comunica al motor ASR 6 ó a la estación móvil 1 qué órdenes son válidas para un contexto determinado. Para que la estación móvil 1 ó el motor ASR 6 sigan el ritmo de los estados del servidor 5 de aplicaciones de red, en el archivo ASD se proporcionan además reglas de transición de estados. Utilizando otras etiquetas que incluyen un archivo de gramática dependiente del contexto, sería posible dar instrucciones la motor ASR 6 sobre qué archivo de gramática o de vocabulario se debe cargar. De este modo, se puede proporcionar una flexibilidad mayor y se puede hacer que el reconocimiento sea más preciso, ya que el motor ASR 6 se sintoniza con precisión al contexto del servidor de aplicaciones de red. A continuación se muestra un ejemplo correspondiente a una etiqueta de este tipo:

<STATE=``Leer'' LOADGRAMMAR=``URL=ftp://hs.gh.com/Reademail.gmr''

LOADVOCABULARY=``URL=ftp://hs.gh.com/Readmail.vcb''

COMMANDS=``Siguiente'', NEXTSTATE=``Leer'', <PREV>, NEXTSTATE=``Leer'',

<QUIT>, NEXTSTATE=``Menú principal''>;

La Fig. 2 muestra un diagrama de flujo de un ejemplo correspondiente a un procesado de reconocimiento de la voz según se realiza en la forma de realización preferida.

Inicialmente, el motor ASR 6 carga un archivo ASD correspondiente del servidor 5 de aplicaciones de red con el que se va producir la conexión (S101). En el archivo ASD cargado, se dan instrucciones al motor ASR para que cargue un archivo de gramática dependiente de los estados, es decir, ``Read Email.gmr'', cuando el servidor 5 de aplicaciones de red entra en el estado ``Leer''. Como alternativa, el motor ASR 6 puede cargar un archivo de gramática general del servidor 5 de aplicaciones de red (S102).

Sobre la base del archivo de gramática, a continuación se determinan órdenes de texto válidas para el reconocimiento de la voz (S103). En el caso de un archivo de gramática dependiente de los estados, las órdenes definidas en el archivo de gramática cargado se determinan como órdenes válidas para el reconocimiento de la voz. En el caso de un archivo de gramática general, las órdenes válidas se seleccionan del archivo de gramática general según una información correspondiente proporcionada en el archivo ASD. Por consiguiente, en este estado se permiten únicamente las órdenes válidas determinadas o por lo menos hasta que se cargue un archivo de gramática diferente.

Seguidamente, desde la estación móvil 1 se recibe una orden de voz (S104) y se realiza el reconocimiento de la voz para la orden de voz recibida (S105). A continuación la orden de texto obtenida por el procesado de reconocimiento de la voz a partir de la orden de voz recibida se comprueba en relación con las órdenes de texto válidas determinadas (S106).

En el caso de que en la etapa 107 se determine una orden válida, la orden de texto se suministra directamente al servidor 5 de aplicaciones de red o la estación móvil 1 (S108). En cualquier otro caso, se lleva a cabo una mensajería de errores para informar a la estación móvil 1 sobre la orden de voz errónea (S109).

Seguidamente, el motor ASR 6 se remite a las reglas de transición de estados definidas en el archivo ASD y determina si la orden suministrada conduce a un cambio de estado del servidor 5 de aplicaciones de red (S110). Si no se ha determinado un cambio de estado, el procesado vuelve a la etapa S104 para recibir otra orden de voz y, si se requiere, realizar el reconocimiento de la voz de las otras órdenes de voz recibidas.

Si se ha determinado un cambio de estado, el procesado vuelve a la etapa 103 y el motor ASR 6 se remite al archivo ASD para determinar un conjunto nuevo de órdenes de texto válidas. Esto se puede conseguir bien cargando un archivo nuevo de gramática dependiente de los estados según una instrucción proporcionada en el archivo ASD, o bien seleccionado órdenes válidas nuevas del archivo general de gramática sobre la base de una información correspondiente en el archivo ASD. Subsiguientemente, en la etapa 104 se recibe una orden de voz nueva y en la etapa 105 se continúa con el reconocimiento de la voz.

Un aspecto importante es que es necesario que las aplicaciones de tipo DSR dispongan de un procedimiento estándar para traspasar características específicas de la aplicación al motor ASR 6, ya que el motor ASR 6 es un recurso ASR de propósito general y cualquier aplicación de red debería poder utilizar las características ASR produciendo archivos de definición de estados y de gramática. Por esta razón, según la forma de realización preferida, el motor ASR 6 puede cargar un archivo de gramática nuevo en tiempo de ejecución. Esto significa que al motor ASR 6 se le pueden dar instrucciones para cargar únicamente las reglas de gramática aplicables a un estado/contexto específico del servidor 5 de aplicaciones de red haciendo referencia al archivo ASD. Esto mejora considerablemente la precisión del reconocimiento y la eficacia de la utilización de las conexiones de la red.

Una implementación del servidor 5 de aplicaciones de red y su interfaz de usuario pueden variar dependiendo de la plataforma de software y hardware utilizada. La mayoría de servidores 5 de aplicaciones de red pueden proporcionar una interfaz HTTP (es decir, HTML), un WAP (Protocolo de Aplicación Inalámbrica - WML) ó una Interfaz de Aplicación privada (API). Si el archivo ASD se adapta bien al WML (Lenguaje de Marcado Inalámbrico) o bien al HTML (Lenguaje de Marcado de Hipertexto), se puede utilizar como un archivo de definición universal para estados de aplicación u órdenes de voz en cualquier tipo de aplicación que se ejecute en un servidor 5 de aplicaciones de red. Utilizando esta información ASD, el motor ASR 6 podría construir una representación interna de la aplicación NAS pertinente. A continuación esta representación o modelo se puede utilizar para mantener el motor ASR 6 sincronizado con los estados de aplicación del servidor 5 de aplicaciones de red.

Por ello, cada servidor 5 de aplicaciones de red que proporciona una característica de reconocimiento de la voz tendrá su(s) carta(s) WML específica(s) según la voz o su ubicación HTML. Como ejemplo, para un servicio de noticias diarias, el URL (Localizador Uniforme de Recursos) de la información de definición de estados podría ser un archivo tal como:

//services.internal.net/dailynews/speechsettings

Por esta razón, es necesario que el sistema de control por voz, ya esté en la estación móvil 1 ó en un servidor de red, cargue este archivo desde el URL determinado.

Además, si el servidor 5 de aplicaciones de red es realmente un servidor de origen HTTP ó WAP, en ese caso la primera carta WML ó página HTML enviada por este servidor puede incluir el URL específico mencionado bajo una etiqueta especial. De este modo, a la estación móvil 1 se le puede informar de que esta aplicación soporta un control por voz y de que es necesario cargar el archivo de este URL para proporcionar la capacidad de reconocimiento de la voz.

Así, los archivos ASD se podrían enviar en línea hacia el motor ASR 6, como parte de los scripts HTML/WML estándar enviados por el servidor 5 de aplicaciones de red. El motor ASR 6 interpretaría estos scripts automáticamente y llevaría el ritmo del servidor 5 de aplicaciones de red para procesar las órdenes de voz eficazmente y ejecutar funciones tales como la carga en línea de archivos de gramática y otras. En este caso el motor ASR 6 se remitiría directamente al URL especificado en la etiqueta LOADGRAMMAR para leer el archivo de gramática asociado.

Para otras aplicaciones no WML/HTML del servidor 5 de aplicaciones de red, los archivos ASD son suministrados por el servidor 5 de aplicaciones de red al motor ASR 6 en el momento de la configuración, es decir, cuando está desconectado. Estos archivos ASD se deben producir de acuerdo con la especificación de tipo HTML descrita anteriormente y se almacenarán junto con un archivo de gramática en un servidor WWW (por ejemplo, www.asr.com) que se ejecuta en el hardware del motor ASR 6.

En el inicio de una interacción entre el motor ASR 6 y el servidor 5 de aplicaciones de red, en primer lugar el motor ASR 6 carga el archivo ASD del servidor www.asr.com y construye la representación/modelo del estado interno de la aplicación del servidor 5 de aplicaciones de red. Seguidamente, el motor ASR puede llevar el ritmo de los estados del servidor 5 de aplicaciones de red y procesa las órdenes de voz eficazmente y ejecuta funciones tales como la carga de archivos de gramática en tiempo de ejecución. En este caso, la etiqueta LOADGRAMMAR incluye el URL completo que apunta a www.asr.com.

Si la aplicación del servidor 5 de aplicaciones de red es, por ejemplo, un ``servidor de correo de voz'' con un nombre de aparato vmsvr, en ese caso se utilizaría, por ejemplo, el siguiente URL:

``http://www.asr.com/vmsvr/Grammar/vmail.gmr''

Las aplicaciones anteriores se basaban en la utilización de un único motor ASR 6 en la red 4. En dicho caso, el motor ASR 6 se implementa en plataformas fijas de hardware y software. Desde el punto de vista de las aplicaciones de la estación móvil, este motor ASR universal 6 gestiona las solicitudes ASR y responde con las correspondientes órdenes de texto.

No obstante, en el caso de que el motor ASR 6 se base en una plataforma independiente de hardware y software tal como Java con JSAPI (API de voz Java, es decir, una API estándar que se está desarrollando actualmente y que proporciona una API común para motores ASR de vendedores distintos), las funciones del archivo ASD se pueden ampliar todavía más. En este caso, se puede proporcionar una flexibilidad de selección de un hardware requerido de procesado de audio y un motor ASR específico 6 del vendedor en dependencia de la aplicación del servidor 5 de aplicaciones de red. Esto significa que un motor ASR lógico se puede conectar al motor ASR físico específico 6 del vendedor sobre la base de los requisitos de la aplicación del servidor 5 de aplicaciones de red, de tal manera que para el procesado de audio se puede utilizar incluso un hardware personalizado. Los parámetros opcionales correspondientes se pueden definir en el archivo ASD utilizando etiquetas adicionales.

A continuación, se describe un ejemplo de una implementación del archivo ASD en una aplicación WAP, que puede ser utilizado por los operadores para mejorar sus ofertas de servicios existentes. En los ejemplos anteriores, el archivo ASD era utilizado por el servidor o motor ASR 6 para realizar una reconocimiento de la voz basado en el contexto. En este ejemplo, tal como se muestra en la Fig. 3, el archivo ASD es utilizado por un servidor diferente de aplicaciones, es decir, el servidor WTA (Aplicación de Telefonía Inalámbrica) 7 en el WAP, para realizar tareas similares. En este caso, se considera la utilización de teléfonos o estaciones móviles 1 habilitadas para el WAP.

La estación móvil habilitada 1 para el WAP puede tener la pila completa del WAP instalada y ejecuta el WAE (Entorno de Aplicación Inalámbrica). El servidor WTA 7 tiene la capacidad de controlar los servicios de la red 4, que en el presente caso es una red estándar de servicios móviles. El servidor WTA 7 actúa como un generador de contenidos principales. El contenido se puede personalizar para y descargar hacia el cliente, que es la estación móvil 1 que ejecuta un software WAP. El servidor WTA 7 podría realizar también funciones de control de llamada tales como informar a la estación móvil 1 sobre detalles de llamadas entrantes a través de acontecimientos WTA.

Además, se proporciona un servidor ASR 6 basado en la red que permite una aplicación para conectarse al servidor de voz sobre la base de parámetros tales como la ID/dirección de la aplicación, la MSISDN, el tipo de codificación de la voz, la ID del archivo de gramática (para seleccionar una regla de gramática adecuada) y otros parámetros opcionales. Por otra parte, el servidor ASR 6 puede tener la capacidad de realizar una llamada saliente hacia un número MSISDN determinado, en donde el servidor ASR 6 extrae la entrada de audio recibida que tiene un formato PCM, CEP u otro formato, suministra la entrada de audio a un motor de reconocimiento de la voz y obtiene el texto reconocido, y envía el texto a la ID/dirección de la aplicación de llamada. A continuación el servidor WTA 7 comprueba la validez del texto y también puede controlar el servidor ASR 6 para cargar archivos de gramática, etcétera.

Cada servidor 5 de aplicaciones de red que tiene una interfaz de voz proporciona un archivo ASD al servidor WTA 7, junto con una baraja de cartas WML básica, es decir un documento WML, correspondiente a ese servicio. El servidor WTA 7 carga el archivo ASD y puede cambiar el WML enviado a la estación móvil 1 sobre la base de los valores fijados del archivo ASD. Sobre la base del archivo ASD, las funciones de audio de la estación móvil 1 y los valores fijados del servidor ASR 6 se controlan dependiendo del contexto de aplicación.

En el presente ejemplo, el archivo ASD puede definir atributos tales como un motor ASR a utilizar para una aplicación real, un tipo de codificación soportado por el motor ASR utilizado por la aplicación real habilitada para la voz, un archivo de gramática por defecto (nombre de archivo) a utilizar, un vocabulario por defecto (nombre de archivo o palabras) y estados de la aplicación real, es decir, una jerarquía de menús. Cada menú proporciona especificaciones para órdenes soportadas en el menú y los correspondientes estados SIGUIENTE, reglas de gramática y vocabularios nuevos, que pueden anular los valores establecidos previamente, y parámetros que especifican si la aplicación real requiere un micrófono o un altavoz de la estación móvil 1 que se activará o desactivará.

A continuación, se describirá el funcionamiento del presente ejemplo basado en WAP sobre la base de una aplicación de servicio meteorológico y una aplicación de servicio de correo de voz.

Aplicación de servicio meteorológico

El proveedor de servicios (u operador) proporciona un servicio meteorológico a sus abonados móviles y ofrece el servicio a través de una interfaz de voz. El operador ha instalado el servidor ASR 6 en su red 4 y tiene la intención de utilizar este servidor ASR 6 junto con el servidor WTA 7 para proporcionar al servicio meteorológico una interfaz de voz.

En este caso, el usuario de la estación móvil 1 activa un menú meteorológico ya preparado para utilizar la interfaz de voz. Esta solicitud es enviada por el WAE hacia el servidor WTA 7. A continuación, el servidor WTA 7 envía una baraja de cartas WML cargadas previamente desde el correspondiente servidor 5 de aplicaciones de red y referentes al servicio meteorológico, hacia la estación móvil 1. Llegado este punto, el software WAE de la estación móvil 1 pasa a un modo de escucha para responder a una llamada entrante del servidor ASR 6 de la red 4. Seguidamente, el servidor WTA 7 envía una solicitud de una sesión ASR hacia el servidor ASR 6, incluyendo una MSISDN, una ID de sesión asignada con el servidor WTA 7, y también una ID de una regla de gramática a utilizar. El nombre de la regla de gramática se obtiene a partir del archivo ASD cargado previamente del servidor correspondiente 5 de aplicaciones de red para el servicio meteorológico.

El servidor ASR 6 garantiza los recursos requeridos, es decir, están disponibles los puertos de marcación de salida y las sesiones ASR en el motor de voz, y envía una confirmación al servidor WTA 7. Subsiguientemente, el servidor ASR 6 llama a la MSISDN y la red 4 envía una indicación de llamada a la estación móvil 1. El software WAE de la estación móvil 1 responde automáticamente a la llamada y se establece una conexión de voz entre el servidor ASR 6 y la estación móvil 1. De hecho, la señalización de llamada anterior entre la estación móvil 1 y el servidor ASR 6 se realiza a través del servidor WTA 7.

Según el WML dependiente de la aplicación obtenido a partir del servidor WTA 7, la estación móvil 1 desactiva su altavoz y envía cualquier entrada de audio recibida a través de su micrófono por medio de la conexión de voz establecida. La entrada de audio se puede codificar mediante el software WAE según un formato requerido, es decir, PCM, CEP u otros. El servidor ASR 6 convierte la entrada de audio recibida en texto y envía el texto obtenido hacia el servidor WTA 7.

Desde que se inició la sesión meteorológica, el servidor WTA 7 ha cargado el archivo ASD correspondiente y en este momento está en una posición de comparar el texto recibido con las órdenes válidas dependientes del contexto. Si se ha recibido una orden válida, por ejemplo, ``Londres GB'', el servidor WTA 7 solicita el WML/HTML correspondiente a Londres GB del servidor 5 de aplicaciones de red que proporciona el servicio meteorológico. El servidor 5 de aplicaciones de red responde con el informe meteorológico solicitado correspondiente a Londres y el servidor WTA 7 suministra a la estación móvil 1 la baraja de cartas WML correspondiente al tiempo meteorológico de Londres. En el caso de que en el conjunto de cartas WML se cambien las reglas de la gramática o el vocabulario, el archivo ASD contiene una información correspondiente y el servidor WTA 7 envía hacia el servidor ASR 6 las reglas de la gramática o el vocabulario nuevos a utilizar para el tiempo meteorológico de Londres. De este modo, el servidor ASR 6 está preparado para utilizar la gramática o el vocabulario nuevos requeridos para las cartas WML nuevas.

Seguidamente, el texto convertido por el servidor ASR 6 a partir de las órdenes de voz recibidas desde la estación móvil 1 se envía hacia el servidor WTA 7 que comprueba su validez. En el caso de que se haya recibido una orden válida, por ejemplo, ``Heathrow'', el servidor WTA 7 solicita la información meteorológica correspondiente a Heathrow Londres, y el servidor 5 de aplicaciones de red responde con el informe meteorológico solicitado. A continuación, el servidor WTA 7 suministra a la estación móvil 1 la baraja de cartas WML correspondiente al tiempo meteorológico de Heathrow Londres.

Aplicación de servicio de correo de voz

En este caso, el proveedor de servicios (u operador) proporciona a un servicio de correo de voz una interfaz de voz con sus abonados móviles.

El servidor 5 de aplicaciones de red que proporciona el servicio de correo de voz envía un mensaje nuevo de correo de voz hacia el servidor WTA 7. A continuación, el servidor WTA 7 envía hacia la estación móvil 1 una baraja de cartas WML cargadas previamente desde el servidor 5 de aplicaciones de red y referentes al servicio de correo de voz. Llegado este punto, el software WAE de la estación móvil 1 pasa a un modo de escucha para responder a una llamada entrante del servidor ASR 6 de la red 4. A continuación, la estación móvil 1 envía al servidor WTA 7 una solicitud ASR que indica que el usuario utilizará la interfaz de voz con el servicio de correo de voz. Llegado este punto, el servidor WTA 7 da instrucciones a la red 4 para que envíe todas las indicaciones de llamadas entrantes hacia el servidor WTA 7.

Seguidamente, el servidor WTA 7 envía al servidor ASR 6 una solicitud de una sesión ASR, incluyendo una MSISDN, una ID de sesión asignada con el servidor WTA 7, y también una ID de una regla de gramática a utilizar. El nombre de la regla de gramática se obtiene a partir del archivo ASD cargado previamente del servidor correspondiente 5 de aplicaciones de red para el servicio de correo de voz.

El servidor ASR 6 garantiza los recursos requeridos, es decir, están disponibles los puertos de marcación de salida y las sesiones ASR en el motor de voz, y envía una confirmación al servidor WTA 7. Subsiguientemente, el servidor ASR 6 llama a la MSISDN y la red 4 envía una indicación de llamada a la estación móvil 1. El software WAE de la estación móvil 1 responde automáticamente a la llamada y se establece una conexión de voz entre el servidor ASR 6 y la estación móvil 1.

Según el WML dependiente de la aplicación obtenido a partir del servidor WTA 7, la estación móvil 1 activa tanto su altavoz como su micrófono, y envía cualquier entrada de audio recibida a través de su micrófono por medio de la conexión de voz establecida. La entrada de audio se puede codificar mediante el software WAE según un formato requerido, es decir, PCM, CEP u otros. El servidor ASR 6 convierte la entrada de audio recibida en texto.

En este momento, el servidor WTA 7 envía una orden de llamada a la MSISDN determinada hacia el servidor 5 de aplicaciones de red que proporciona el servicio de correo de voz, que a continuación llama a la MSISDN. En este caso, se establece una llamada múltiple, ya que el servidor ASR 6 requiere una entrada de voz en la estación móvil 1 y el servidor 5 de aplicaciones de red necesita enviar audio a la estación móvil 1. Estos dos servicios están en máquinas diferentes y puede que no tengan ninguna API (Interfaz de Programación de Aplicación) o conexión entre ellos. Como ambos servidores necesitan acceder a la estación móvil 1, se requiere un establecimiento de llamada múltiple, la cual se explica a continuación.

En el establecimiento de la llamada múltiple, el servidor WTA 7 recibe una indicación de llamada para la MSISDN y envía un mensaje de acontecimiento de indicación de llamada hacia la estación móvil 1 con parámetros especiales para dar instrucciones de que se realice una adición de la llamada a una llamada múltiple. La estación móvil 1 envía un mensaje de mantenimiento de la llamada para dar órdenes a la red 4 de que mantenga la llamada 1, es decir, la llamada del servidor ASR 6 con la estación móvil 1. A continuación, la estación móvil 1 acepta la llamada 2, es decir, la llamada del servidor 5 de aplicaciones de red con la estación móvil 1, y se establece una conexión de voz. Seguidamente, la estación móvil 1 da órdenes para que se produzca el establecimiento de una llamada múltiple, es decir, con la llamada 1 y 2, de tal manera que en este momento tanto el servidor ASR 6 como el servidor 5 de aplicaciones de red están conectados con la estación móvil 1.

Desde que se inició la sesión de correo de voz, el servidor WTA 7 ha cargado el archivo ASD correspondiente para el correo de voz y en este momento está en una posición de comparar el texto recibido con las órdenes válidas dependientes del contexto. Si se ha recibido una orden válida, por ejemplo, ``Antonio'', el servidor WTA 7 pide al servidor 5 de aplicaciones de red que proporciona el servicio de correo de voz que reproduzca el mensaje ``Antonio''. Por consiguiente, el servidor 5 de aplicaciones de red ejecuta la reproducción del mensaje ``Antonio''.

Debería entenderse que la descripción anterior y los dibujos adjuntos están destinados únicamente a ilustrar la presente invención. En particular, la presente invención no se limita la reconocimiento de la voz o a sistemas de control para teléfonos móviles, sino que se puede utilizar en cualquier red de datos. De este modo, el aparato y el procedimiento según la invención pueden variar dentro del ámbito de las reivindicaciones adjuntas.

Se describen un sistema y un procedimiento de control por voz, en los que desde un servidor de aplicaciones de red se carga una información de definición de estados. La información de definición de estados define estados posibles del servidor de aplicaciones de red y se utiliza para determinar un conjunto de órdenes válidas del servidor de aplicaciones de red, de tal manera que, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas, se puede comprobar una validez de una orden de texto obtenida al convertir una orden de voz de entrada. De este modo, se puede evitar una transmisión de órdenes de texto erróneas hacia el servidor de aplicaciones de red de manera que se reduce el tiempo total de procesado y los retardos de respuesta.

Claims

1. Sistema de control por voz para una red (4) de telecomunicaciones, que comprende:

a): medios de carga para cargar una información de definición de estados de un servidor (5) de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor (5) de aplicaciones de red;

b): medios de determinación para determinar un conjunto de órdenes válidas para dicho servidor (5) de aplicaciones de red sobre la base de dicha información de definición de estados; y

c): medios de comprobación para comprobar una validez de una orden de texto, obtenida al convertir una orden de voz de entrada que se va a utilizar para controlar dicho servidor (5) de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.

2. Sistema según la reivindicación 1, en el que dichos medios de carga se disponen de manera que cargan una información de gramática y/o vocabulario que especifica un conjunto total de órdenes validas soportadas por dicho servidor de aplicaciones de red, en donde dichos medios de determinación se disponen de manera que determinan dicho conjunto de órdenes válidas sobre la base de dicho conjunto total de órdenes válidas y una información de transición de estados incluida en dicha información de definición de estados.

3. Sistema según la reivindicación 1, en el que dichos medios de determinación se disponen de manera que hacen que dichos medios de carga carguen un archivo de gramática dependiente de los estados que define un conjunto de órdenes validas para un estado específico del servidor (5) de aplicaciones de red, cuando dichos medios de determinación determinan un cambio de estado sobre la base de una información de transición de estados incluida en dicha información de definición de estados.

4. Sistema según cualquiera de las reivindicaciones anteriores, en el que dicho sistema de control por voz comprende unos medios (6) de reconocimiento de la voz para convertir una orden de voz de entrada recibida desde un terminal (1) de abonado en dicha orden de texto a suministrar a dicho servidor (5) de aplicaciones de red.

5. Sistema según cualquiera de las reivindicaciones 1 a 3, en el que dicha red (4) de telecomunicaciones es una red de servicios móviles y dicho sistema de control por voz se implementa en un servidor (7) Aplicación de Telefonía Inalámbrica (WTA), y en el que dicho servidor WTA (7) se puede disponer de manera que recibe dicha orden de texto desde unos medios (6) de reconocimiento de la voz de la red para convertir en dicha orden de texto una orden de voz de entrada recibida desde un terminal (1) de abonado.

6. Sistema según cualquiera de las reivindicaciones 1 a 3, en el que dicho sistema de control por voz comprende un terminal (1) de abonado que presenta unos medios de entrada para introducir una orden de voz, unos medios de transmisión para transmitir dicha orden de voz hacia unos medios (6) de reconocimiento de la voz de dicha red (4) de telecomunicaciones, y unos medios de recepción para recibir dicha orden de texto desde los medios (6) de reconocimiento de la voz, en el que dichos medios de transmisión se disponen de manera que transmiten la orden de texto recibida hacia dicho servidor (5) de aplicaciones de red.

7. Sistema según la reivindicación 3, en el que dicha información de definición de estados incluye una instrucción de carga para cargar el archivo de gramática dependiente de los estados.

8. Sistema según cualquiera de las reivindicaciones anteriores, en el que dicha información de definición de estados es un archivo de datos.

9. Sistema según la reivindicación 8, en el que dicho archivo de datos es un archivo WML.

10. Sistema según la reivindicación 8, en el que dicho archivo de datos es un archivo HTML.

11. Sistema según la reivindicación 9 ó 10, en el que dicho archivo de datos se envía en línea hacia dicho sistema de control por voz como parte de una información estándar enviada por dicho servidor (5) de aplicaciones de red.

12. Sistema según la reivindicación 1, en el que dicha información de definición de estados la proporciona dicho servidor (5) de aplicaciones de red en un momento de configuración.

13. Sistema según la reivindicación 4, en el que dicha información de definición de estados se almacena junto con una información de conjuntos de órdenes en un servidor de red que se ejecuta en un hardware de dicho sistema de control por voz.

14. Sistema según la reivindicación 4 ó 6, en el que dicho sistema de control por voz comprende una pluralidad de medios de reconocimiento de la voz específicos del vendedor, y en el que en dicha información de definición de estados se definen los parámetros correspondientes de dicha pluralidad de medios de reconocimiento de la voz específicos del vendedor.

15. Procedimiento de control por voz para una red de telecomunicaciones, que comprende las siguientes etapas:

a): carga de una información de definición de estados de una aplicación de red, en la que dicha información de definición de estados define todos los estados posibles de dicha aplicación de red;

b): determinación de un conjunto de órdenes válidas para dicha aplicación de red sobre la base de dicha información de definición de estados; y

c): comprobación de una validez de una orden de texto, obtenida al convertir una orden de voz que se utilizará para controlar dicha aplicación de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.

16. Procedimiento según la reivindicación 15, que comprende además las etapas de carga de una información de gramática y/o vocabulario que especifica un conjunto total de órdenes validas para dicha aplicación de red, en donde dicha etapa de determinación se realiza sobre la base de dicho conjunto total de órdenes válidas y una información de transición de estados incluida en dicha información de definición de estados.

17. Procedimiento según la reivindicación 15, que comprende además la etapa de carga de un archivo de gramática dependiente de los estados que define un conjunto de órdenes validas para un estado específico de dicha aplicación de red, cuando se ha determinado un cambio de estado sobre la base de la información de transición de estados incluida en dicha información de definición de estados.