ES2254664T3

ES2254664T3 - Procedimiento para permitir la interaccion por voz con una pagina web.

Info

Publication number: ES2254664T3
Application number: ES02717055T
Authority: ES
Inventors: Fabrizio Mediavoice S.R.L. GIACOMELLI
Original assignee: MEDIAVOICE Srl
Current assignee: MEDIAVOICE Srl
Priority date: 2001-03-12
Filing date: 2002-03-12
Publication date: 2006-06-16
Anticipated expiration: 2022-03-12
Also published as: ATE309598T1; ITRM20010126A0; DE60207217D1; WO2002073599A1; US20040141597A1; DE60207217T2; EP1371057B1; ITRM20010126A1; EP1371057A1

Abstract

Un procedimiento destinado a permitir la interacción por voz de una página web, cuya visualización está definida por un archivo de visualización correspondiente, comprendiendo el procedimiento el reconocimiento por un motor de reconocimiento de voz de una frase en una señal sonora emitida en la proximidad de medios de micrófono, estando el procedimiento caracterizado porque un archivo de configuración de voz correspondiente, que define una máquina de estados que comprende uno o más estados que incluyen un estado inicial de la página web, está asociado a dicha página web, incluyendo dicho archivo de configuración de voz, para cada estado: - uno o más primeros elementos de información, referente cada uno a una frase correspondiente reconocible por dicho motor de reconocimiento de voz, y, para cada uno de dichos primeros elementos de información, - uno o más segundos elementos de información referentes a uno o más comandos correspondientes para la interacción con dicha página web, y/o - un tercer elemento de información que se refiere a una conexión correspondiente a otra página web, y/o - un cuarto elemento de información que identifica un estado subsiguiente correspondiente, incluyendo el procedimiento las siguientes etapas sucesivas: A1 - inicializar una variable de estado actual al estado inicial de la página web, B1 - cargar una gramática correspondiente al estado actual y que incluya dichas frases reconocibles en dicho motor de reconocimiento de voz, C1- reconocer, por medio de dicho motor de reconocimiento de voz, una frase pronunciada en la proximidad de dichos medios de micrófono entre dichas frases reconocibles correspondientes al estado actual, D1- cuando uno o más comandos de interacción correspondan a la frase reconocida, ejecutar tales comandos, E1 - cuando un estado subsiguiente corresponda a la frase reconocida, actualizar la variable de estado actual al estado subsiguiente y repetir las etapas del procedimiento partiendo de la primera etapa subsiguiente a laetapa A1.

Description

Procedimiento para permitir la interacción por voz con una página web.

Esta invención se refiere a un procedimiento destinado a permitir la interacción por voz de una página web o un sitio web, que comprende una o más páginas web, estando definida la visualización de cada página web por un documento de visualización correspondiente en formato electrónico, o archivo, siendo tal el procedimiento que se permite que un usuario interactúe también pronunciando frases, también en lenguaje natural, con una página web habilitada que se solicita por medio de un ordenador de usuario, o cliente, o por medio de un aparato telefónico, sin que el procedimiento según esta invención requiera cambio alguno de los archivos de visualización de página web almacenados en el servidor. En esta memoria descriptiva así como en las reivindicaciones, una yuxtaposición preferentemente ordenada de una o más palabras se designará en cualquier caso por el término "frase".

En particular, usando el procedimiento según esta invención, cuando un ordenador de usuario o un cliente solicita una página web habilitada, se habilitará al usuario que opera sobre dicho cliente a seleccionar los comandos destinados a la interacción con la página, así como con los dispositivos electrónicos usuales, siendo igualmente tal interacción una interacción por voz.

Esta invención se refiere también a los instrumentos necesarios para llevar a la práctica el procedimiento al igual que el aparato que realiza el procedimiento.

En la siguiente descripción, se ilustrará la invención en referencia principalmente a una conexión entre un ordenador servidor, o simplemente servidor, y un cliente que solicita una página web del servidor, únicamente a título de ejemplificación y no con carácter de limitación, puesto que la invención puede aplicarse igualmente a una conexión telefónica entre un servidor y un aparato telefónico de usuario.

Se sabe que la tecnología vocal comprende sustancialmente dos tecnologías distintas y complementarias: el reconocimiento de voz o ASR (reconocimiento automático del habla) y la síntesis de voz o TTS (texto a voz).

La tecnología ASR permite el reconocimiento de la voz del usuario mediante un ordenador, provisto de un micrófono y de dispositivos electrónicos de audio, y un programa o software informático apropiado. Los dispositivos electrónicos de audio traducen los sonidos de las palabras pronunciadas que llegan al micrófono en señales eléctricas que son interpretadas por dicho software como cadenas de caracteres correspondientes.

Por otra parte, la tecnología TTS consiste en una operación contraria en la que un ordenador provisto de un software apropiado, dispositivos electrónicos de audio y un altavoz realizan una traducción de las palabras de un texto almacenado en sonidos, en palabras pronunciadas.

Los módulos de software que realizan el reconocimiento de voz y las operaciones de síntesis de voz se denominan motores vocales o de voz. Por consiguiente, existen motores de reconocimiento de voz y de síntesis de voz.

Los motores representan la capa de más bajo nivel en la arquitectura del software de voz, que también incluye al menos un programa de aplicación de voz, que representa la capa de nivel más elevado. Para permitir la interacción entre los motores y el programa de aplicación, es necesaria una capa de interfaz. Actualmente, la interfaz más popular para los programas de aplicación de voz, hasta el punto de convertirse en un estándar de hecho, es una interfaz denominada SAPI (Interfaz de programación de aplicaciones de discurso) desarrollada por Microsoft®.

La tecnología para el reconocimiento de voz y, como consecuencia, el motor ASR son bastante complejos. De hecho, el reconocimiento de las palabras pronunciadas es una operación extremadamente articulada que comprende un análisis estadístico de la señal procedente del micrófono. Tal análisis requiere una explotación masiva de los recursos del ordenador en los niveles tanto del procesador como de la memoria del sistema. Existen sustancialmente dos tipos de reconocimiento de voz: el reconocimiento con fines de dictado.

El reconocimiento con fines de mandato y control es el más simple de los dos tipos de reconocimiento de voz e implica una explotación inferior de los recursos del sistema. En este caso, el usuario sólo puede pronunciar un conjunto restringido de palabras que comprende a lo sumo unas miles de palabras. Este tipo de reconocimiento de voz se utiliza corrientemente para la interacción por voz con el software de aplicación. En este caso, el conjunto de comandos que habrá de usarse en la gestión del software es, sin duda alguna, restringido y la palabra en cuestión puede expresarse con dicho tipo de reconocimiento de mandato y control. Este tipo de reconocimiento de voz en general es independiente del usuario que pronuncia los comandos. Esto implica que el aparato usado no necesita estrictamente ninguna sesión de entrenamiento destinada al aprendizaje del modelo o patrón de voz del usuario.

Por otra parte, el reconocimiento de voz con fines de dictado libre sólo proporciona al usuario la posibilidad de dictar libremente un texto basado en un vocabulario de términos que actualmente puede incluir hasta 200.000 palabras, según el motor ASR. El reconocimiento con fines de dictado obviamente requiere más recursos del sistema, y posee intrínsecamente una tasa de error superior, que se reduce al mínimo por medio de una sesión de aprendizaje por el motor ASR del modelo de voz del usuario que interactúa con el propio motor ASR. Esto implica que, con el propósito de reducir al mínimo la tasa de error en el reconocimiento del dictado libre, el propio reconocimiento se hace dependiente del usuario específico que ha realizado la sesión de aprendizaje. Se ha demostrado que los motores de reconocimiento de voz más recientes están adaptados para permitir el reconocimiento del dictado incluso tras sesiones de corta duración (en el intervalo de diez minutos) para aprender el modelo de voz del usuario.

La tecnología de síntesis de voz y el motor TTS son extremadamente más simples y resultan completamente independientes del usuario. El parámetro crítico de un motor de síntesis de voz es su semejanza con la voz humana y, por consiguiente, su inteligibilidad y naturalidad. Los motores de síntesis de voz más recientes ya no generan sonidos metálicos como ha ocurrido hasta los últimos años. En particular, la realización de lo que se define en lingüística como signos suprasegmentales da como resultado una musicalidad que simula eficazmente las variaciones de tono y de acento de la voz.

En la actualidad, muchos centros de investigaciones y compañías que trabajan en el campo de la informática estudian la posibilidad de permitir que un usuario visualice una página web sobre su ordenador o cliente de usuario para interactuar con el mismo por medio de los comandos pronunciados. Un ordenador de usuario y, más ampliamente, un aparato, incluso uno móvil, provisto de una capacidad de procesamiento utilizable por un usuario será designado en la descripción siguiente con el término cliente.

Como es sabido, una página web es un documento o archivo electrónico, cuyos elementos de información están estructurados de modo hipertextual, permitiendo con ello que se visualicen imágenes, películas, sonidos sobre el monitor de un ordenador. Un documento electrónico estará designado en lo sucesivo con el término archivo. En particular, los archivos de visualización de página web pueden implementarse en varios lenguajes, tales como "HTLM", "JPS", "ASP", "JAVA", y estos se visualizan por medio de una interfaz gráfica designada (y siempre indicada en lo sucesivo con el término) "navegador".

Por el término "web" puede entenderse una arquitectura de software para acceder a los archivos de visualización de las páginas web según son almacenadas sobre un servidor por millares y conectada por medio de la red de telecomunicación. En la siguiente descripción, un ordenador servidor o un ordenador que permite a uno o más clientes aprovechar o encontrar recursos de la red estará designado en cualquier caso con el término servidor. Por otra parte, el término servidor también designará un ordenador servidor con el que puede conectarse un aparato telefónico de usuario, posiblemente un radioteléfono celular, por medio de una red telefónica, posiblemente una red celular, de manera que interaccione mediante la voz con el propio servidor con el fin de obtener y/o suministrar información.

Un conjunto de páginas web cuyos archivos de visualización están almacenados en una única estructura de datos, teniendo generalmente una organización en árbol y siendo accesible desde una página "raíz" inicial identificable de forma única, se llama sitio web. Generalmente, cada página de un sitio web es accesible por medio de una dirección única que la identifica.

Como es sabido, la red de telecomunicación más usada actualmente para la navegación es la red Internet. Un navegador permite la navegación en la red Internet y permite la visualización de las páginas web y la utilización de los múltiples servicios ofrecidos por los sitios web visitados. Cuando un cliente solicita que un servidor suministre una página web cuyo archivo de visualización está almacenado en el propio servidor, el cliente indica específicamente al servidor la dirección única que identifica la página, siendo conocida tal dirección como el identificador URL de la página web (y ésta estará indicada con tal término en la descripción que sigue). En particular, un identificador URL (Localizador uniforme de recursos) es un identificador universal de recursos que especifica igualmente un protocolo de identificación entre servidor y cliente para transmitir el archivo de visualización de la página web solicitada.

Los enfoques sugeridos hasta ahora para permitir una interacción por voz entre un usuario y una página web prevén la modificación del archivo de visualización de la página web, en ambos casos la conexión a un servidor se efectúa por medio de un cliente o un aparato telefónico de usuario.

Esto resulta ser un inconveniente evidente, tanto más cuanto que es necesario llevar a cabo tal operación sobre todas las páginas de un sitio web.

El documento WO99/48088 desvela un sistema y un procedimiento destinados a implementar un programa de navegador Web controlado por la voz que se ejecuta sobre un ordenador acoplado a la ropa, con el fin de permitir la navegación dentro de una página web y en otra página web correspondiente a enlaces de hipertexto mostrados en la página web visualizada por el navegador web controlado por la voz.

El documento US-A-6385583 desvela un sistema complejo de respuesta de voz interactiva (IVR) y/o sistema de portal de voz que permite que un usuario acceda a información por medio de interacción por voz o marcación por tonos DTMF con el sistema, de manera que se haga que el sistema recupere la información deseada. En particular, el sistema desvelado posee aplicaciones de voz desarrolladas específicamente, implementadas en un lenguaje de marcado específico para servicios interactivos.

El enfoque propuesto de acuerdo con esta invención debe considerarse en este contexto.

Por consiguiente, un objeto de esta invención es proporcionar un procedimiento destinado a permitir una interacción por voz de una página web o un sitio web de tal manera que se permita al usuario seleccionar los comandos de interacción con la página, al igual que con los dispositivos electrónicos usuales, también pronunciando frases, también en lenguaje natural, sin necesidad alguna de modificar los archivos de visualización de página web almacenados en el servidor, siendo generadas dichas páginas dinámicamente, empezando por páginas escritas con lenguajes específicos populares (tales como, por ejemplo, Broadvision ®) u otras aplicaciones desarrolladas con tal propósito.

Un objeto adicional de esta invención es permitir un acceso por voz a la página web tanto a través de un aparato cliente o móvil provisto de capacidad de procesamiento como a través de un aparato telefónico. De esta manera, el procedimiento según esta invención permite la interacción por voz de un sitio web denominado "multicanal", o un sitio web accesible desde un ordenador cliente, en particular un ordenador personal, desde un aparato telefónico y desde todos los aparatos móviles provistos de software.

Un objeto adicional de esta invención es proporcionar todos los medios necesarios para realizar el procedimiento al igual que aparatos adaptados para realizar tal procedimiento.

El asunto específico de esta invención es un procedimiento destinado a permitir la interacción por voz de una página web, cuya visualización está definida por un archivo de visualización correspondiente, que comprende el reconocimiento por un motor de reconocimiento de voz de una frase en una señal sonora emitida en la proximidad de medios de micrófono, estando caracterizado el procedimiento porque un archivo de configuración de voz correspondiente que define una máquina de estados que comprende uno o más estados incluyendo un estado inicial de la página web está asociado a dicha página web, incluyendo dicho archivo de configuración de voz, para cada
estado,

- uno o más primeros elementos de información, refiriéndose cada uno a una frase correspondiente reconocible por dicho motor de reconocimiento de voz, y, para cada uno de dichos primeros elementos de información,

- uno o más segundos elementos de información que se refieren a uno o más comandos correspondientes para la interacción con dicha página web, y/o

- un tercer elemento de información que se refiere a una conexión correspondiente a otra página web, y/o

- un cuarto elemento de información que identifica un estado subsiguiente correspondiente,

incluyendo el procedimiento las siguientes etapas sucesivas:

A1- inicializar una variable de estado actual al estado inicial de la página web,

B1- cargar una gramática correspondiente al estado actual y que incluya dichas frases reconocibles en dicho motor de reconocimiento de voz,

C1- reconocer, por medio de dicho motor de reconocimiento de voz, una frase pronunciada en la proximidad de dichos medios de micrófono entre dichas frases reconocibles correspondientes al estado actual,

D1- cuando uno o más comandos de interacción correspondan a la frase reconocida, ejecutar tales comandos,

E1- cuando un estado subsiguiente corresponda a la frase reconocida, actualizar la variable de estado actual a la etapa subsiguiente y repetir las etapas del procedimiento empezando por la primera etapa subsiguiente a la etapa A1.

De acuerdo con esta invención, el procedimiento puede comprender además, después de la etapa D1, la etapa siguiente:

F1- cuando una conexión a otra página web a la que está asociado otro archivo de configuración de voz correspondiente corresponda al estado actual, repetir todas las etapas del procedimiento en relación con dicha otra página web.

De acuerdo todavía con esta invención, respecto a al menos un estado, al menos uno de dichos primeros elementos de información coincide con la frase correspondiente reconocible por dicho motor de reconocimiento de voz.

Cuando las páginas web se generan en modo dinámico y, por consiguiente, los contenidos de las frases que deben reconocerse (que podrían recuperarse de una base de datos o generarse dinámicamente) no son conocidas a priori, respecto a al menos un estado, uno o más de dichos primeros elementos de información son referencias a frases correspondientes reconocibles por dicho motor de reconocimiento de voz y están incluidos en primeros archivos correspondientes, comprendiendo además dicho procedimiento, después de dicha etapa A1 y antes de dicha etapa B1, la etapa siguiente:

A2- cuando una o más referencias a frases correspondientes incluidas en primeros archivos correspondientes corresponden al estado actual, recuperar de dichos primeros archivos las frases reconocibles por dicho motor de reconocimiento de voz incluidas en el mismo.

Con preferencia, de acuerdo con esta invención, dichos primeros archivos coinciden en un único primer archivo y, con más preferencia incluso, dicho único primer archivo es el archivo de visualización de la página web.

De acuerdo todavía con esta invención, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, al menos uno de dichos elementos de información puede coincidir con los comandos correspondientes destinados a la interacción con la página web.

Cuando las páginas en cuestión se generan en modo dinámico y los comandos que deben ejecutarse no son conocidos a priori, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, uno o más de dichos segundos elementos de información pueden ser referencias a uno o más comandos correspondientes destinados a la interacción con la página web incluida en segundos archivos correspondientes, comprendiendo además el procedimiento, después de dicha etapa C1 y antes de dicha etapa D1, la etapa siguiente:

C2- cuando una o más referencias a uno o más comandos correspondientes destinados a la interacción con la página web incluida en segundos archivos correspondientes corresponden a la frase reconocida, recuperar de dichos segundos archivos los comandos de interacción incluidos en los mismos.

Con preferencia, de acuerdo con esta invención, dichos segundos archivos coinciden en un único segundo archivo y, con más preferencia incluso, dicho único segundo archivo es el archivo de visualización de la página web.

De nuevo, de acuerdo con esta invención, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, dicho tercer elemento de información puede coincidir con la conexión correspondiente a otra página web.

Cuando las páginas web en cuestión se generan en modo dinámico y la dirección para la conexión a otra página web no es conocida a priori, en lo que respecta a al menos uno de dichos primeros elementos de información de al menos un estado, dicho tercer elemento de información es una referencia a una conexión correspondiente a otra página web incluida en un tercer archivo correspondiente, preferentemente el archivo de visualización de la página
web.

Con preferencia, de acuerdo con esta invención, el archivo de configuración de voz también incluye, respecto a al menos un estado:

- uno o más quintos elementos de información, relacionado cada uno con un texto correspondiente que debe ser sintetizado vocalmente,

comprendiendo además dicho procedimiento, después de dicha etapa A1, la siguiente etapa:

B2- cuando uno o más textos que deben sintetizarse correspondan al estado actual, sintetizar vocalmente al menos uno de dichos textos por medio de un motor de síntesis de voz.

De acuerdo todavía con esta invención, respecto a al menos un estado, al menos uno de dichos quintos elementos de información coincide con el texto correspondiente que debe sintetizarse vocalmente.

Cuando las páginas web en cuestión se generan en modo dinámico y los contenidos de las frases que deben expresarse (que podrían recuperarse de una base de datos o generarse dinámicamente) no son conocidos a priori, respecto a al menos un estado, uno o más de dichos quintos elementos de información pueden ser referencias a textos correspondientes que deben sintetizarse vocalmente incluidos en cuartos archivos correspondientes, comprendiendo además el procedimiento, después de dicha etapa A1 y antes de dicha etapa B2, la etapa siguiente:

B3- cuando una o más referencias a textos correspondientes que deben sintetizarse vocalmente incluidos en cuartos archivos correspondientes corresponden al estado actual, recuperar de dichos cuartos archivos los textos que deben sintetizarse incluidos en los mismos.

Con preferencia, de acuerdo con esta invención, dichos cuartos archivos coinciden en un único cuarto archivo y, con más preferencia incluso, dicho único cuarto archivo es el archivo de visualización de la página web.

En una forma de realización preferida, respecto a cada estado, el archivo de configuración de voz está organizado según una estructura de datos que incluye:

- una primera sección (ASR) destinada al reconocimiento de voz, que incluye una o más primeras subsecciones, incluyendo cada una de ellas:

a): uno de dichos primeros elementos de información refiriéndose a frases correspondientes reconocibles por dicho motor de reconocimiento de voz,

b): un código de identificación alfanumérico,

- una segunda sección (CMD) destinada a comandos de interacción, que incluye una o más subsecciones, incluyendo cada una uno de dichos segundos elementos de información que se refieren a dichos comandos correspondientes destinados a la interacción con la página web,

incluyendo dicho código de identificación alfanumérico:

b1) dicho cuarto elemento de información, en formato alfanumérico, que identifica el estado subsiguiente correspondiente a la frase reconocible de la misma primera subsección, y

b2) un primer subcódigo alfanumérico que identifica al menos una segunda subsección de la segunda sección (CMD) de los comandos de interacción del estado actual o del subsiguiente.

Todavía de acuerdo con esta invención, al menos una segunda subsección de la segunda sección (CMD) de los comandos de interacción puede estar vacía (o puede tomar un valor nulo).

Con preferencia, de acuerdo con esta invención, al menos una segunda subsección de la segunda sección (CMD) de los comandos de interacción incluye un comando destinado a la conexión a otra página web.

Aún con más preferencia, de acuerdo con esta invención, dicha estructura de datos conforme a la que está organizado el archivo de configuración de voz respecto a cada estado comprende además:

- una tercera sección (TTS) destinada a la síntesis de voz, que comprende una o más terceras subsecciones, incluyendo cada una de ellas al menos uno de dichos quintos elementos de información que se refieren a dichos textos correspondientes que deben sintetizarse.

Todavía de acuerdo con esta invención, dicho código de identificación alfanumérico puede comprender además:

b3) un segundo subcódigo alfanumérico que identifica al menos una tercera subsección de la tercera sección (TTS) para síntesis de voz del estado actual o del subsiguiente.

De acuerdo adicionalmente con esta invención, al menos una tercera subsección de la tercera sección (TTS) para síntesis de voz puede estar vacía (o puede tomar un valor nulo).

Todavía de acuerdo con esta invención, dicha estructura de datos conforme a la que está organizado el archivo de configuración de voz respecto a cada estado puede comprender además:

- una cuarta sección (ADV) destinada a mensajes publicitarios, que comprende una o más cuartas subsecciones, incluyendo cada una de ellas al menos uno de dichos quintos elementos de información que se refieren a dichos textos correspondientes que deben sintetizarse.

b4) un tercer subcódigo alfanumérico que identifica al menos una cuarta subsección de la cuarta sección (ADV) para mensajes publicitarios vocales del estado actual o del subsiguiente.

De acuerdo adicionalmente con esta invención, al menos una cuarta subsección de la cuarta sección (ADV) destinada a mensajes publicitarios vocales puede estar vacía (o puede tomar un valor nulo).

En una forma de realización preferida de esta invención, el archivo de visualización y el archivo de configuración de voz están almacenados en un servidor, accesible a través de una red de telecomunicación por al menos un cliente de usuario, comprendiendo además dicho procedimiento, a petición de una página web por un cliente provisto de dichos medios de micrófono y de un motor de reconocimiento de voz, antes de dicha etapa C1, las dos etapas siguientes:

A0.1- transmitir el archivo de visualización de la página web solicitada desde dicho servidor a dicho cliente,

A0.2- visualizar dicha página web en dicho cliente y, antes de dicha etapa A1, la etapa siguiente:

A0.3- transmitir el archivo de configuración de voz de la página web solicitada desde dicho servidor a dicho cliente y, después de dicha etapa D1, la etapa siguiente:

F2-: cuando una conexión a otra página web corresponda al estado actual, solicitar dicho cliente dicha otra página web desde dicho servidor.

Los asistentes o agentes gráficos, definidos técnicamente como "caracteres" son una interfaz de interacción natural entre un usuario y las aplicaciones de un ordenador cliente. Tales caracteres son componentes de software que se muestran como figuras, preferentemente figuras animadas (interfaces gráficas animadas), que permiten que el usuario interactúe con las aplicaciones según se comunica con tales figuras. Algunas formas de realización de esta invención utilizan las funciones de síntesis y reconocimiento de voz junto con tales interfaces gráficas, preferentemente animadas, como asistentes, cuyos movimientos y comportamientos están definidos basados en eventos o acciones gestionados por dichas aplicaciones de voz. Por consiguiente, una lógica de procesamiento apropiada según se realiza en una aplicación ejecutada por el cliente utiliza preferentemente un asistente vocal animado, que funciona en base a los elementos de información incluidos en los archivos de configuración de voz.

Por consiguiente, preferentemente de acuerdo con esta invención, el archivo de configuración de voz incluye además, respecto a al menos un estado:

- uno o más sextos elementos de información, relacionado cada uno con una interfaz gráfica correspondiente que debe visualizarse,

comprendiendo además el procedimiento, después de dicha etapa A1, la siguiente etapa:

B4- cuando una o más interfaces gráficas corresponden al estado actual, visualizar al menos una de dichas interfaces gráficas en dicho cliente.

Aún con más preferencia, de acuerdo con esta invención, al menos una de dichas interfaces gráficas que deben visualizarse comprende una interfaz gráfica animada y en la que el sexto elemento de información correspondiente comprende los comandos de movimiento relacionados.

Todavía de acuerdo con esta invención, al menos una de dichas interfaces gráficas que deben visualizarse puede incluir un texto.

En una forma de realización preferida, dicha estructura de datos, conforme a la que está organizado dicho archivo de configuración de voz respecto a cada estado, comprende además:

- una quinta sección destinada a comandos de movimiento, que comprende una o más quintas subsecciones, incluyendo cada una de ellas al menos uno de dichos sextos elementos de información relacionados con dichos comandos de movimiento de una interfaz gráfica animada correspondiente.

De nuevo de acuerdo con esta invención, cada quinta subsección de dicha quinta sección puede incluir un elemento de información que se refiere a la posición de llegada y un elemento de información que se refiere a la velocidad de movimiento de dicha interfaz gráfica animada.

De nuevo de acuerdo con esta invención, dicho código de identificación alfanumérico puede comprender además:

b5) un cuarto subcódigo de identificación alfanumérico destinado a identificar al menos una quinta subsección de dicha quinta sección (MOV) de los comandos de movimiento del estado actual o del subsiguiente.

De acuerdo adicionalmente con esta invención, al menos una quinta subsección de la quinta sección de los comandos de movimiento puede estar vacía (o puede tomar un valor nulo).

Como alternativa al acceso a través de una conexión entre un servidor y un cliente, esta invención garantiza accesos a través de red telefónica, que se hace posible por medio de una aplicación ejecutada sobre dicho servidor con la utilización de la misma lógica que se ha ejecutado sobre el cliente e ilustrada previamente en referencia a la conexión entre servidor y cliente. Esto permite que el usuario interactúe con las páginas web por medio de una simple llamada telefónica, transmitiendo comandos vocales y recibiendo respuestas sintetizadas o previamente grabadas. Los archivos de configuración de voz para aplicación a través de conexión telefónica tienen la misma estructura que los utilizados en una conexión entre servidor y cliente, incluso si carecen de la posibilidad de visualizar una interfaz gráfica como asistente. En este caso, el proceso de interacción por voz se implementa de tal manera que permite un rápido diálogo telefónico interactivo diferente del establecido en una conexión entre un servidor y un cliente, puesto que la interfaz para el usuario es puramente vocal, en lugar de gráfica igualmente.

Por consiguiente, de acuerdo con una forma de realización alternativa de esta invención, dicho archivo de visualización y dicho archivo de configuración de voz están almacenados en un servidor, accesible por medio de una red telefónica desde al menos un aparato telefónico de usuario, estando provisto dicho servidor de al menos un motor de síntesis de voz y un motor de reconocimiento de voz, estando provisto dicho aparato telefónico de usuario de dichos medios de micrófono al igual que de medios de reproducción de sonido destinados a reproducir los textos tal y como sintetizados vocalmente por dicho motor de síntesis de voz.

Todavía de acuerdo con esta invención, dicha red telefónica es una red radiotelefónica celular y en la que dicho aparato telefónico de usuario es un aparato de radioteléfono celular.

Un asunto adicional de esta invención es un procedimiento destinado a permitir la interacción por voz de un sitio web, que comprende una o más páginas web, estando definida la visualización de cada página web por un archivo de visualización correspondiente, estando caracterizado el procedimiento por la realización, respecto a al menos una página de dicho sitio web, de dicho procedimiento destinado a permitir la interacción por voz de una página web.

En este caso, de acuerdo con esta invención, los archivos de visualización y los archivos de configuración de voz de las páginas web del sitio pueden estar almacenados en un servidor, accesible por medio de una red de telecomunicación desde al menos un cliente de usuario.

Igualmente en esta forma de realización, el procedimiento puede comprender además, antes de dicha etapa A0.3, la etapa siguiente:

A0.0 comprobar si existe un archivo de configuración de voz de la página web solicitada,

ejecutando el procedimiento las etapas del procedimiento destinado a permitir la interacción por voz de una página web sólo cuando el resultado de dicha etapa de comprobación A0.0 sea positivo.

De acuerdo adicionalmente con esta invención, si el resultado de dicha etapa de comprobación A0.0 fuera negativo, el procedimiento puede realizar la siguiente etapa:

F3- señalar a través de dicho cliente que la página web solicitada no está habilitada para la interacción por voz, preferentemente mediante síntesis de voz de un mensaje efectuado por el motor de síntesis de voz.

Como alternativa, de acuerdo con esta invención, los archivos de visualización y los archivos de configuración de voz de las páginas web del sitio en cuestión están almacenados en un servidor, accesible por medio de una red telefónica desde al menos un aparato telefónico de usuario, y el procedimiento puede realizar, respecto a al menos una página de dicho sitio web, el procedimiento destinado a permitir la interacción por voz de una página web.

Un asunto adicional de esta invención es un ordenador que tiene uno o más archivos de visualización de páginas web almacenados en su interior, caracterizado porque tiene además almacenado en su interior, para al menos una página web respecto a la que éste tiene el archivo de visualización relacionado almacenado en su interior, un archivo de configuración de voz correspondiente adaptado para permitir la interacción por voz de una página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Con preferencia, de acuerdo con esta invención, el ordenador tiene almacenados en su interior los archivos de configuración de voz de páginas web pertenecientes a un único sitio web de acuerdo con la misma estructura de datos según la que están almacenados los archivos de visualización de la página web del sitio en cuestión.

En este caso, cada página web podría tener un archivo de configuración de voz asociado a la misma a través de un cliente y un archivo de configuración de voz asociado a la misma a través de un aparato telefónico. Con preferencia, los archivos de configuración de voz tienen los mismos nombres que los archivos de visualización de las páginas web relacionadas, pero con extensiones "mv" y "mvt" para la vocalización a través de cliente y a través de aparato telefónico, respectivamente.

De acuerdo con esta invención, tal ordenador puede ser un servidor, accesible a través de una red de telecomunicación desde al menos un cliente de usuario que solicita una página web cuyo archivo de visualización está almacenado en dicho servidor, y caracterizado además porque éste está adaptado, en respuesta a un cliente que solicita una página web cuyo archivo de visualización correspondiente está almacenado en su interior, para realizar dicha etapa A0.3 de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Un asunto adicional de esta invención es un ordenador o cliente de usuario provisto de medios de micrófono y de un motor de síntesis de voz y de un motor de reconocimiento de voz, adaptados para acceder a un servidor a través de una red de telecomunicación, con el fin de solicitar una página web cuyo archivo de configuración de voz correspondiente está almacenado en dicho servidor, caracterizado porque éste está adaptado para recibir el archivo de configuración de voz de la página web solicitada y está adaptado para realizar dichas etapas A0.2, A1, B1, C1, D1, E1 y F2, posiblemente en combinación con la etapa F1 y/o la etapa A2 y/o la etapa C2 y/o la etapa B2 y/o la etapa B3 y/o la etapa B4 del procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Esta invención desvela y reivindica además un ordenador de servidor, accesible a través de una red telefónica desde al menos un aparato telefónico de usuario, estando provisto tal servidor de un motor de síntesis de voz y de un motor de reconocimiento de voz adaptados para realizar las etapas del procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Un asunto adicional de esta invención es una señal eléctrica, magnética o electromagnética caracterizada porque ésta incluye al menos un archivo de configuración de voz de una página web, posiblemente provisto de uno o más sextos elementos de información, relacionado cada uno con una interfaz gráfica correspondiente que debe visualizarse, adaptado para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web tal y se ha como descrito anteriormente.

Esta invención desvela y reivindica además un soporte de memoria legible por un ordenador, caracterizado porque éste incluye al menos un archivo de configuración de voz de una página web, posiblemente provisto de uno o más sextos elementos de información, relacionado cada uno con una interfaz gráfica correspondiente que debe visualizarse, adaptado para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

De nuevo de acuerdo con esta invención, tal soporte de memoria puede tener almacenados en su interior los archivos de configuración de voz de páginas web pertenecientes a un único sitio web, de acuerdo con la misma estructura de datos según la que están almacenados los archivos de visualización de la página web del sitio en cuestión.

Un asunto específico adicional de esta invención es un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando operan sobre un ordenador, dicha etapa A0.3 del procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Un asunto específico adicional de esta invención es un soporte de memoria legible por un ordenador que tiene un programa almacenado en su interior, caracterizado porque dicho programa es un programa informático como acaba de describirse anteriormente.

Un asunto específico adicional de esta invención es un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando operan sobre un ordenador, dichas etapas A0.2, A1, B1, C1, D1, E1 y F2, posiblemente en combinación con la etapa F1 y/o la etapa A2 y/o la etapa C2 y/o la etapa B2 y/o la etapa B3 y/o la etapa B4 del procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente.

Un asunto específico adicional de esta invención es un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando operan sobre un ordenador, las etapas del procedimiento destinado a permitir la interacción por voz de una página web tal y como se ha descrito anteriormente, respecto a una conexión entre un servidor que tiene un archivo de configuración de voz almacenado en su interior y un aparato telefónico de usuario a través de una red telefónica.

Todavía un asunto específico adicional de esta invención es un soporte de memoria legible por un ordenador que tiene un programa almacenado en su interior, caracterizado porque dicho programa es un programa informático como acaba de describirse anteriormente.

Esta invención se describirá a continuación, a título de ilustración, no con carácter de limitación, de acuerdo con sus formas de realización preferidas, en referencia particularmente a las Figuras de los dibujos que se adjuntan, en las que:

la Figura 1 muestra esquemáticamente la conexión entre un cliente y un servidor para solicitar una página web habilitada para interacción por voz de acuerdo con una forma de realización preferida del procedimiento según esta invención;

la Figura 2 muestra esquemáticamente una forma de realización preferida del archivo de configuración de voz de una página web según esta invención;

la Figura 3 muestra esquemáticamente los módulos de la aplicación de software sobre el cliente que realiza el procedimiento según esta invención; y

la Figura 4 muestra un diagrama de flujo que representa esquemáticamente la forma de realización preferida del procedimiento destinado a permitir la interacción por voz de un sitio web según esta invención.

La siguiente descripción estará relacionada sustancialmente con las formas de realización de esta invención comprendiendo un servidor accesible desde al menos un cliente, que solicita una página web del servidor por medio de una red de telecomunicación.

El procedimiento según esta invención consiste en proporcionar:

sobre el servidor: una estructura de archivos de configuración de voz de las páginas de un sitio web que es especular a la estructura de los archivos de visualización, e incluye los elementos de información referentes a los textos que deben ser vocalizados por la página web, las palabras/frases pronunciables por el usuario y las estructuras de las conversaciones; y

sobre el cliente: una lógica de procesamiento apropiada implementada en una aplicación de software y que opera sobre los elementos de información de dichos archivos de configuración de voz.

\newpage

Como se ha dicho anteriormente, el procedimiento está adaptado para permitir la interacción por voz de una página web de un sitio web; éste permite una total interacción por voz entre un usuario y cualquier sitio.

La característica principal del procedimiento se realiza porque no existe necesidad de efectuar cambio alguno en el sitio web existente.

En referencia a la Figura 1, cuando un usuario con su cliente 1 se conecta a través de un navegador a un sitio almacenado sobre un servidor 2 y solicita una página web del mismo, la aplicación de software prevista sobre dicho cliente 1 descarga localmente uno o más archivos almacenados de forma apropiada sobre dicho servidor 2. Tales archivos permitirán tanto la síntesis de voz como el reconocimiento de voz del usuario que deben llevarse a cabo.

Se establecerá por consiguiente un diálogo bidireccional, entre el usuario y la página del sitio web de manera que se permita la navegación tanto dentro del sitio web en cuestión como en otros sitios habilitados para la interacción por voz por medio del mismo procedimiento.

Sobre el servidor 2 habrá de realizarse una estructura de archivos organizada en un directorio de un sitio web, provisto de una raíz, que incluirá los archivos de configuración de voz. En otras palabras, el procedimiento garantiza la generación de una estructura especular a (o incluso coincidente con) la estructura de los archivos de visualización del sitio web convencional, que tiene tantos archivos de configuración de voz como páginas web que deben habilitarse para la interacción por voz. Dicho servidor 2 también podría tener los archivos de configuración de voz accesibles a través de la red telefónica almacenados en su interior, estando organizados dichos archivos en la misma estructura o en una estructura adicional similar a (o coincidente con) la estructura de los archivos de visualización.

En referencia a la Figura 2, un archivo de configuración de voz está compuesto de estados, o macrosecciones de información que representan los estados de la interacción por voz entre el usuario y la página web. Cada estado está a su vez compuesto de cinco secciones: una primera sección ASR relacionada con el reconocimiento de voz; una segunda sección CMD relacionada con los comandos de interacción; una tercera sección TTS relacionada con la síntesis de voz; una cuarta sección ADV relacionada con mensajes publicitarios vocales y una quinta sección MOV relacionada con comandos de movimiento de una interfaz gráfica animada que representa un asistente vocal.

En otras formas de realización, también es posible que los archivos de configuración de voz tengan los mismos elementos de información ensamblados de maneras diferentes. Por ejemplo, las secciones TTS de los varios estados podrían estar ensambladas en una única sección TTS; o la sección ADV podría estar incorporada con la sección TTS o con la sección CMD.

Las secciones TTS, CMD y ADV de todos los estados incluyen respectivamente, respecto a una página web particular, todas las frases posibles que deben sintetizarse, todos los comandos de interacción posibles que puede ejecutar la aplicación sobre el cliente 1 respecto a dicha página web particular y (preferentemente todos los punteros a ubicaciones de memoria que contienen) todos los mensajes publicitarios posibles que puedan sintetizarse.

Cada estado definido en el archivo de configuración de voz incluye los elementos de información que necesita la aplicación sobre el cliente 1 para formular, desde la página web actual, las preguntas y/o aseveraciones relacionadas para comprender las pronunciaciones del usuario.

La sección ASR de cada estado incluye un conjunto de filas (o subsecciones), compuesto cada uno de dos partes principales: la primera parte incluye una frase que la aplicación del cliente puede reconocer, mientras que la segunda parte incluye todos los elementos de información referentes a las acciones que puede realizar la misma aplicación, respecto a la frase reconocida. En la forma de realización de la Figura 2, esta segunda parte incluye tres grupos de dígitos (en particular, tres grupos de dos dígitos decimales): el primer grupo identifica el estado de destino, a saber el estado subsiguiente de la interacción por voz entre el usuario y la página web actual; el segundo grupo identifica la frase que debe vocalizarse tal y como está incluida en la sección TTS del estado presente; el tercer grupo identifica el comando de la sección CMD del estado presente que deberá ejecutar la aplicación en cuestión con el reconocimiento de la frase.

La sección MOV comprende los movimientos y/o las posiciones que puede adoptar el asistente vocal respecto a este estado particular.

En algunos casos, pueden faltar los comandos que deben ejecutarse y/o los textos que deben sintetizarse y/o los movimientos del asistente vocal y, como consecuencia de ello, las secciones o subsecciones relacionadas pueden estar vacías, o pueden tomar un valor nulo ("mil").

El conjunto de grupos de dígitos puede ampliarse en grupos adicionales, que indican operaciones de tratamiento adicionales que podría realizar la aplicación; por ejemplo, un grupo de dígitos adicional podría indicar un mensaje publicitario específico que debe sintetizarse con el reconocimiento de una frase particular compuesta de una o más palabras.

Además, el número de secciones o subsecciones de cada estado puede aumentarse. Las secciones y/o subsecciones adicionales podrían añadir elementos de información útiles con el fin de permitir que se realicen operaciones de tratamiento junto con las operaciones de vocalización de la página web relacionada (por ejemplo, los mensajes publicitarios que pueden sintetizarse podrían estar configurados dentro de los estados a través de dicha sección ADV).

Cuando las páginas web están realizadas de manera dinámica y cuando no existe conocimiento previo de los contenidos, por ejemplo, de las frases que deben vocalizarse y/o reconocerse y/o de los comandos relacionados que deben ejecutarse (tal como cuando estos son el resultado de las operaciones de procesamiento del servidor como textos recuperados desde una base de datos o generados dinámicamente), esta invención tiene en cuenta tal comportamiento dinámico. De hecho, los archivos de configuración de voz incluyen elementos de información tales que permiten que la aplicación identifique las partes dinámicas.

En particular, la aplicación sobre el cliente 1 reconoce las partes dinámicas de los archivos de configuración de voz y sustituye por consiguiente las partes de otro archivo, preferentemente el archivo de visualización.

Estrictamente con carácter de ejemplificación, una frase que debe sintetizarse podría ubicarse a través de un primer índice destinado a indicar el punto de inicio del texto y un segundo índice destinado a indicar el punto final del texto, identificando estos índices únicamente el objeto del archivo de visualización de la página web que debe sintetizarse. Estos dos índices incluyen elementos adaptados para identificar, dentro de la estructura del archivo de visualización, el nivel de incorporación del objeto (o el nivel de profundidad del objeto dentro del archivo de visualización) al igual que su posición dentro de dicho nivel específico. Suponiendo que el archivo de visualización incluya un objeto definido por el siguiente lenguaje HTML:

<TBOBY>

<TR>

<TD> primer texto que debe sonorizarse </TD>

<TD> segundo texto que debe sonorizarse </TD>

</TR>

</TBODY>

Cuando se desea vocalizar el segundo texto, el archivo de configuración de voz referente a esta página web podría incluir el siguiente puntero dinámico a esos contenidos que deben vocalizarse:

[TTS]

...

\textdollar (TBODY, 1 (TR, 1 (TD,2))), (TBODY, 1 (TR,1 (/TD,2)))

...

puede observarse que el índice de inicio de texto

(TBODY, 1 (TR, 1 (TD,2)))

y el índice de final de texto

(TBODY, 1 TR,1 (/TR, 1 (/TD, 2)))

identifican únicamente un contenido, igualmente un contenido dinámico, dentro del archivo de visualización de la página web. Se tendrá en cuenta que los contenidos dinámicos de los archivos de configuración de voz se distinguen por sí mismos con respecto a los estáticos por la presencia de un carácter específico, tal como "\textdollar".

La indicación de contenidos dinámicos según esta invención incluye cualquier tipo de meta-información sobre soporte adaptado para operar como contenedor de información de la página web o contenedor para indicadores a los elementos de información de la página web. Tales contenedores comprenden las denominadas "hojas de estilo" según se normalizan por la unión de W3C bajo el término "hojas de estilo en cascada" (CSS). En particular, los estilos pueden expresarse bien mediante un código interno de la página web, o bien mediante archivos externos (a saber las CSS) conectados con la propia página web. Otras hojas de estilo similares a las CSS son los denominados archivos de "transformación", tales como, por ejemplo, los archivos en formato XSL.

Asimismo, la indicación de contenidos dinámicos según esta invención puede realizarse indicando elementos de información incluidos en una etiqueta y, en líneas generales, objetos de la página web con modos más potentes que la simple especificación de las coordenadas, como se ha mostrado anteriormente en el ejemplo. En particular, tales modos más potentes incluyen referencias al tipo de indicación de objetos (por ejemplo, tablas) junto con nombres específicos y con sus coordenadas, con el fin de hacer más sólida tal indicación, también en vista de cualquier posible cambio en la estructura de etiquetas de la página web.

Además, cuando se desea realizar una indicación de contenidos dinámicos, es posible utilizar lenguaje de programa del tipo "escritura". Cuando algunas páginas web se generan de forma periódica (por ejemplo cada día) con un nombre diferente pero con la misma estructura, un archivo único de configuración de voz es creado y utilizado por la aplicación sobre el cliente 1 en relación con todas las páginas web con las que puede estar asociado el archivo en cuestión.

En el caso específico de páginas web dinámicas, puede generarse cierto número de estructuras diferentes en relación con la misma página web. En este caso, se genera un archivo de configuración de voz en relación con cualquier estructura posible relacionada con dicha página web dinámica específica. También en este caso, la aplicación sobre el cliente 1 reconoce la estructura y utiliza el archivo de configuración de voz correcto asociado a la misma.

Ventajosamente, los archivos de configuración de voz pueden almacenarse sobre el servidor 2 y/o pueden transmitirse a través de la red en formato comprimido.

Asimismo, se inserta un archivo especial en el directorio raíz del sitio web habilitado y es requerido por la aplicación residente en el cliente 1 sólo cuando se efectúa una petición de cualquier página web del sitio. De este modo, la aplicación tendrá la posibilidad de comprobar si el sitio al que accede es un sitio habilitado para la interacción por voz según esta invención.

En referencia a la Figura 3, la aplicación de software eficaz tal y como se ha dicho anteriormente está residente en el cliente 1 del usuario y está compuesta sustancialmente de los siguientes módulos:

- un motor TTS para la síntesis de voz;

- un motor ASR para el reconocimiento de voz;

- una interfaz para programas de aplicación de voz SAPI y

- un programa de aplicación de voz 10 que utiliza las gramáticas dinámicas que actúan como filtros respecto a lo que el usuario puede pronunciar.

Los motores de voz pueden ser de cualquier tipo, o, en otras palabras, la aplicación de software no está sujeta a un tipo/modelo particular. Ésta utiliza preferentemente la norma SAPI.

La aplicación 10 sobre el cliente 1 permite, por una parte, interactuar mediante la voz con una página del sitio web y, por otra parte, permite navegar tanto dentro del propio sitio como a otros sitios web habilitados para la interacción por voz según esta invención.

Puesto que esta invención es independiente de los motores de voz específicos, igualmente respecto al lenguaje utilizado, se hace posible la vocalización de los sitios con contenidos en múltiples lenguajes.

En referencia al diagrama de flujo de la Figura 4, puede observarse que la aplicación 10 sobre el cliente 1 utiliza los archivos de configuración de voz de las páginas web tal y como están almacenadas sobre el servidor 2, con el fin de realizar las operaciones anteriores. En particular, cuando un usuario se conecta con su cliente 1 a un navegador en su página inicial o "home page" de un sitio habilitado, por ejemplo www.mediavoice.it, la aplicación en cuestión 10, al comprobar que el sitio web en cuestión está habilitado para la interacción por voz y que la página web solicitada también está habilitada para la interacción por voz, entra automáticamente en el directorio relacionado del sitio web habilitado y descarga localmente el archivo de configuración de voz existente en su interior como correspondiente a la página web solicitada (//mediavoice.it/home.mv). El archivo de configuración de voz habilita la aplicación sobre el cliente 1 a realizar un diálogo eficaz entre el usuario y la página web visualizada, que posiblemente incluye una sucesión, incluso una sucesión muy larga, de preguntas y respuestas, entre el usuario y la página particular en cuestión del sitio web.

La aplicación 10 sobre el cliente 1, tras haber descargado localmente el archivo de configuración de voz, almacena las secciones referentes a los diferentes estados en una estructura de memoria interna e inicializa el motor de reconocimiento vocal cargando la gramática definida en la sección ASR referente al estado inicial. Entonces, la aplicación 10 sintetiza la primera frase del estado inicial (por ejemplo, una frase de bienvenida a la página web). Posteriormente, prosigue la interacción por voz entre el usuario y la aplicación 10 que opera como interfaz vocal a la página web actual.

Cuando el usuario pronuncia una frase o solicita algo de la página contenida en la gramática actual, la aplicación reconoce la frase y realiza las operaciones asociadas a tal frase, tal y como está definido en la segunda sección ASR de la propia frase. En particular, el usuario también puede pronunciar cualquier identificador URL de una conexión o vínculo incluido en la página actual.

La aplicación 10 pronuncia entonces la frase asociada, ejecuta el comando correspondiente y pasa por sí misma al estado subsiguiente. La transferencia al nuevo estado implica la construcción y la descarga de la gramática definida en la sección ASR y la síntesis de voz de la sección TTS del estado presente.

La presencia de dichos N estados dentro del mismo archivo de configuración de voz se necesita entonces en vista de que, incluso sobre la misma página web, es posible establecer un diálogo entre el usuario del cliente 1 y la página web en cuestión.

Cuando el comando referente al reconocimiento de una frase particular implica la navegación, mediante el navegador, por otra página web, la aplicación 10 reanuda su ciclo descargando el archivo de configuración de voz correspondiente y emprendiendo de nuevo las acciones anteriormente descritas.

La lógica de operación del cliente 1 también puede aplicarse a la utilización de aparatos provistos de capacidad de procesamiento, tales como dispositivos móviles/portátiles, tales como ordenador de mano o PC portátil.

El procedimiento de vocalización de un sitio web, en particular sitios web de canales múltiples, puede ser, al menos parcialmente, llevado a cabo automáticamente por medio de instrumentos desarrollados provistos de algoritmos dedicados adaptados para generar archivos de configuración de voz partiendo de los archivos de visualización de las páginas web. Tales instrumentos de desarrollo pueden incluir diferentes funciones de acuerdo con el tipo de acceso que se desee aplicar a las páginas web y, por consiguiente, de acuerdo con los instrumentos desde los que se desee realizar las posibilidades de acceso a las mismas páginas web (por ejemplo PC, dispositivos telefónicos, ordenador de mano). Los instrumentos de desarrollo también podrían grabar en un archivo dedicado todas las operaciones realizadas, en particular todos los archivos de configuración de voz generados, con el fin de controlar los mismos.

Las formas de realización preferidas de esta invención se han descrito, y se ha sugerido anteriormente cierto número de variaciones, pero deberá comprenderse expresamente que el experto en la materia puede realizar otras variaciones y cambios, sin alejarse por ello del alcance de la misma, tal y como se define en las reivindicaciones que se adjuntan.

Claims

1. Un procedimiento destinado a permitir la interacción por voz de una página web, cuya visualización está definida por un archivo de visualización correspondiente, comprendiendo el procedimiento el reconocimiento por un motor de reconocimiento de voz de una frase en una señal sonora emitida en la proximidad de medios de micrófono, estando el procedimiento caracterizado porque un archivo de configuración de voz correspondiente, que define una máquina de estados que comprende uno o más estados que incluyen un estado inicial de la página web, está asociado a dicha página web, incluyendo dicho archivo de configuración de voz, para cada estado:

- uno o más primeros elementos de información, referente cada uno a una frase correspondiente reconocible por dicho motor de reconocimiento de voz, y, para cada uno de dichos primeros elementos de información,

- uno o más segundos elementos de información referentes a uno o más comandos correspondientes para la interacción con dicha página web, y/o

incluyendo el procedimiento las siguientes etapas sucesivas:

E1 - cuando un estado subsiguiente corresponda a la frase reconocida, actualizar la variable de estado actual al estado subsiguiente y repetir las etapas del procedimiento partiendo de la primera etapa subsiguiente a la etapa A1.

2. Un procedimiento según la reivindicación 1, caracterizado porque comprende además, después de la etapa D1, la etapa siguiente:

3. Un procedimiento según la reivindicación 1 ó 2, caracterizado porque, respecto a al menos un estado, al menos uno de dichos primeros elementos de información coincide con la frase correspondiente reconocible por dicho motor de reconocimiento de voz.

4. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a al menos un estado, uno o más de dichos primeros elementos de información son referencias a frases correspondientes reconocibles por dicho motor de reconocimiento de voz y están incluidos en primeros archivos correspondientes, comprendiendo además dicho procedimiento, después de dicha etapa A1 y antes de dicha etapa B1, la etapa siguiente:

A2- cuando una o más referencias a frases correspondientes incluidas en primeros archivos correspondientes correspondan al estado actual, recuperar de dichos primeros archivos las frases reconocibles por dicho motor de reconocimiento de voz incluidas en el mismo.

5. Un procedimiento según la reivindicación 4, caracterizado porque dichos primeros archivos coinciden en un único primer archivo.

6. Un procedimiento según la reivindicación 5, caracterizado porque dicho único primer archivo es el archivo de visualización de la página web.

7. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, al menos uno de dichos elementos de información coincide con los comandos correspondientes destinados a la interacción con la página web.

8. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, uno o más de dichos segundos elementos de información son referencias a uno o más comandos correspondientes destinados a la interacción con la página web incluida en segundos archivos correspondientes, comprendiendo además el procedimiento, después de dicha etapa C1 y antes de dicha etapa D1, la etapa siguiente:

9. Un procedimiento según la reivindicación 8, caracterizado porque dichos segundos archivos coinciden en un único segundo archivo.

10. Un procedimiento según la reivindicación 9, caracterizado porque dicho único segundo archivo es el archivo de visualización de la página web.

11. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, dicho tercer elemento de información coincide con la conexión correspondiente a otra página web.

12. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a al menos uno de dichos primeros elementos de información de al menos un estado, dicho tercer elemento de información es una referencia a una conexión correspondiente a otra página web incluida en un tercer archivo correspondiente.

13. Un procedimiento según la reivindicación 12, caracterizado porque dicho tercer archivo es el archivo de visualización de la página web.

14. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque el archivo de configuración de voz también incluye, respecto a al menos un estado:

15. Un procedimiento según la reivindicación 14, caracterizado porque, respecto a al menos un estado, al menos uno de dichos quintos elementos de información coincide con el texto correspondiente que debe sintetizarse vocalmente.

16. Un procedimiento según la reivindicación 14 ó 15, caracterizado porque, respecto a al menos un estado, uno o más de dichos quintos elementos de información son referencias a textos correspondientes que deben sintetizarse vocalmente incluidos en cuartos archivos correspondientes, comprendiendo además el procedimiento, después de dicha etapa A1 y antes de dicha etapa B2, la etapa siguiente:

B3- cuando una o más referencias a textos correspondientes que deben sintetizarse vocalmente incluidos en cuartos archivos correspondientes corresponden al estado actual, recuperar de dichos cuartos archivos los textos que deben sintetizarse vocalmente incluidos en los mismos.

17. Un procedimiento según la reivindicación 16, caracterizado porque dichos cuartos archivos coinciden en un único cuarto archivo.

18. Un procedimiento según la reivindicación 17, caracterizado porque dicho único cuarto archivo es el archivo de visualización de la página web.

19. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque, respecto a cada estado, el archivo de configuración de voz está organizado según una estructura de datos que incluye:

a): uno de dichos primeros elementos de información referentes a frases correspondientes reconocibles por dicho motor de reconocimiento de voz,

b): un código de identificación alfanumérico,

incluyendo dicho código de identificación alfanumérico:

20. Un procedimiento según la reivindicación 19, caracterizado porque al menos una segunda subsección de la segunda sección (CMD) de los comandos de interacción está vacía.

21. Un procedimiento según la reivindicación 19 ó 20, caracterizado porque al menos una segunda subsección de la segunda sección (CMD) de los comandos de interacción incluye un comando destinado a la conexión a otra página web.

22. Un procedimiento según una cualquiera de las reivindicaciones 14 a 18 y según una cualquiera de las reivindicaciones 19 a 21, caracterizado porque dicha estructura de datos conforme a la que está organizado el archivo de configuración de voz respecto a cada estado comprende además:

23. Un procedimiento según la reivindicación 22, caracterizado porque dicho código de identificación alfanumérico comprende además:

24. Un procedimiento según la reivindicación 22 ó 23, caracterizado porque al menos una tercera subsección de la tercera sección (TTS) destinada a la síntesis de voz está vacía.

25. Un procedimiento según una cualquiera de las reivindicaciones 14 a 18 y según una cualquiera de las reivindicaciones 19 a 24, caracterizado porque dicha estructura de datos conforme a la que está organizado el archivo de configuración de voz respecto a cada estado comprende además:

26. Un procedimiento según la reivindicación 25, caracterizado porque dicho código de identificación alfanumérico comprende además:

27. Un procedimiento según la reivindicación 25 ó 26, caracterizado porque al menos una cuarta subsección de la cuarta sección (ADV) destinada a mensajes publicitarios está vacía.

28. Un procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque el archivo de visualización y el archivo de configuración de voz están almacenados en un servidor, accesible a través de una red de telecomunicación por al menos un cliente de usuario, comprendiendo además dicho procedimiento, con la solicitud de una página web por un cliente provisto de dichos medios de micrófono y de un motor de reconocimiento de voz,

antes de dicha etapa C1, las siguientes etapas:

A0.3- transmitir el archivo de configuración de voz de la página web solicitada desde dicho servidor a dicho cliente y,

después de dicha etapa D1, la etapa siguiente:

F2- cuando una conexión a otra página web corresponda al estado actual, solicitar dicho cliente dicha otra página web desde dicho servidor.

29. Un procedimiento según la reivindicación 28, caracterizado porque el archivo de configuración de voz comprende además, respecto a al menos un estado:

comprendiendo además el procedimiento, después de la etapa A1, la siguiente etapa:

B4- cuando una o más interfaces gráficas correspondan al estado actual, visualizar al menos una de dichas interfaces gráficas en dicho cliente.

30. Un procedimiento según la reivindicación 29, caracterizado porque al menos una de dichas interfaces gráficas que deben visualizarse comprende una interfaz gráfica animada y porque el sexto elemento de información correspondiente comprende los comandos de movimiento relacionados.

31. Un procedimiento según la reivindicación 29 ó 30, caracterizado porque al menos una de dichas interfaces gráficas que deben visualizarse incluye un texto.

32. Un procedimiento según una cualquiera de las reivindicaciones 19 a 27 y según la reivindicación 30, caracterizado porque dicha estructura de datos, conforme a la que está organizado dicho archivo de configuración de voz respecto a cada estado, comprende además:

- una quinta sección (MOV) destinada a comandos de movimiento, que comprende una o más quintas subsecciones, incluyendo cada una de ellas al menos uno de dichos sextos elementos de información relacionados con dichos comandos de movimiento de una interfaz gráfica animada correspondiente.

33. Un procedimiento según la reivindicación 32, caracterizado porque cada quinta subsección de dicha quinta sección (MOV) incluye un elemento de información referente a la posición de llegada y un elemento de información referente a la velocidad de movimiento de dicha interfaz gráfica animada.

34. Un procedimiento según la reivindicación 32 ó 33, caracterizado porque dicho código de identificación alfanumérico comprende además:

35. Un procedimiento según una cualquiera de las reivindicaciones 32 a 34, caracterizado porque al menos una quinta subsección de la quinta sección (MOV) de los comandos de movimiento está vacía.

36. Un procedimiento según una cualquiera de las reivindicaciones 28 a 35, caracterizado porque dicha red de telecomunicación es la red Internet.

37. Un procedimiento según una cualquiera de las reivindicaciones 14 a 18 ó según una cualquiera de las reivindicaciones 22 a 27, caracterizado porque dicho archivo de visualización y dicho archivo de configuración de voz están almacenados en un servidor, accesible por medio de una red telefónica desde al menos un aparato telefónico de usuario, estando provisto dicho servidor de al menos un motor de síntesis de voz y un motor de reconocimiento de voz, estando provisto dicho aparato telefónico de usuario de dichos medios de micrófono al igual que de medios de reproducción de sonido destinados a reproducir los textos tal y como sintetizados vocalmente por dicho motor de síntesis de voz.

38. Un procedimiento según la reivindicación 37, caracterizado porque dicha red telefónica es una red radiotelefónica celular y porque dicho aparato telefónico de usuario es un aparato radiotelefónico celular.

39. Un procedimiento destinado a permitir la interacción por voz de un sitio web, que comprende una o más páginas web, estando definida la visualización de cada página web por un archivo de visualización correspondiente, estando el procedimiento caracterizado por la realización, respecto a al menos una página de dicho sitio web, de dicho procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 1 a 27.

40. Un procedimiento según la reivindicación 39, caracterizado porque los archivos de visualización y los archivos de configuración de voz de las páginas web del sitio están almacenados en un servidor, accesible por medio de una red de telecomunicación desde al menos un cliente de usuario, y porque el procedimiento realiza, respecto a al menos una página de dicho sitio web, el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 28 a 36.

41. Un procedimiento según la reivindicación 40, caracterizado porque comprende además, antes de la etapa A0.3, la etapa siguiente:

42. Un procedimiento según la reivindicación 41, caracterizado porque, si el resultado de dicha etapa de comprobación A0.0 fuera negativa, el procedimiento realiza la etapa siguiente:

F3- señalar a través de dicho cliente que la página web solicitada no está habilitada para la interacción por voz.

43. Un procedimiento según la reivindicación 42, caracterizado porque dicha etapa F3 se compone de la síntesis de voz de un mensaje efectuado por el motor de síntesis de voz.

44. Un procedimiento según la reivindicación 39, caracterizado porque los archivos de visualización y los archivos de configuración de voz de las páginas web del sitio en cuestión están almacenados en un servidor, accesible por medio de una red de telecomunicación desde al menos un aparato telefónico de usuario, y porque el procedimiento realiza, respecto a al menos una página de dicho sitio web, el procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 37 ó 38.

45. Un ordenador que tiene uno o más archivos de visualización de páginas web almacenados en su interior, caracterizado porque tiene además almacenado en su interior, para al menos una página web respecto a la que éste tiene el archivo de visualización relacionado almacenado en su interior, un archivo de configuración de voz correspondiente adaptado para permitir la interacción por voz de una página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 1 a 27.

46. Un ordenador según la reivindicación 45, caracterizado porque tiene almacenados en su interior los archivos de configuración de voz de páginas web pertenecientes a un único sitio web de acuerdo con la misma estructura de datos según la que están almacenados los archivos de visualización de la página web del sitio en cuestión.

47. Un ordenador según la reivindicación 45 ó 46, caracterizado porque éste es un servidor, accesible a través de una red de telecomunicación desde al menos un cliente de usuario que solicita una página web cuyo archivo de visualización está almacenado en dicho servidor, y además caracterizado porque está adaptado, en respuesta a un cliente que solicita una página web cuyo archivo de visualización correspondiente está almacenado en su interior, para realizar dicha etapa A0.3 de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 28 a 36.

48. Un ordenador o cliente de usuario provisto de medios de micrófono y de un motor de síntesis de voz y de un motor de reconocimiento de voz, adaptado para acceder a un servidor según la reivindicación 47 a través de una red de telecomunicación con el fin de solicitar una página web cuyo archivo de configuración de voz correspondiente está almacenado en dicho servidor, caracterizado porque éste está adaptado para recibir el archivo de configuración de voz de la página web solicitada y está adaptado para realizar dichas etapas A0.2, A1, B1, C1, D1, E1 y F2 del procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 28 a
36.

49. Un ordenador o cliente de usuario según la reivindicación 48, caracterizado porque está adaptado además para realizar dicha etapa F1 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 2.

50. Un ordenador o cliente de usuario según la reivindicación 48 ó 49, caracterizado porque está adaptado además para realizar dicha etapa A2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 4.

51. Un ordenador o cliente de usuario según una cualquiera de las reivindicaciones 48 a 50, caracterizado porque está adaptado además para realizar dicha etapa C2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 8.

52. Un ordenador o cliente de usuario según una cualquiera de las reivindicaciones 48 a 51, caracterizado porque está adaptado además para realizar dicha etapa B2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 14.

53. Un ordenador o cliente de usuario según la reivindicación 52, caracterizado porque está adaptado además para realizar dicha etapa B3 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 16.

54. Un ordenador o cliente de usuario según una cualquiera de las reivindicaciones 48 a 53, caracterizado porque está adaptado además para realizar dicha etapa B4 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 29.

55. Un ordenador según la reivindicación 45 ó 46, caracterizado porque éste es un servidor, accesible a través de una red telefónica desde al menos un aparato telefónico de usuario, porque está provisto de un motor de síntesis de voz y de un motor de reconocimiento de voz, y además caracterizado porque está adaptado para realizar las etapas del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 37 ó
38.

56. Una señal eléctrica, magnética o electromagnética caracterizada porque incluye al menos un archivo de configuración de voz de una página web adaptada para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 1 a 27.

57. Una señal eléctrica, magnética o electromagnética según la reivindicación 56, caracterizada porque dicho al menos un archivo de configuración de voz de una página web está adaptado para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 29 a 35.

58. Un soporte de memoria legible por un ordenador, caracterizado porque incluye al menos un archivo de configuración de voz de una página web adaptada para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 1 a 27.

59. Un soporte de memoria según la reivindicación 58, caracterizado porque dicho al menos un archivo de configuración de voz de una página web está adaptado para permitir la interacción por voz de la página web de acuerdo con el procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 29 a 35.

60. Un soporte de memoria según la reivindicación 58 ó 59, caracterizado porque tiene almacenados en su interior los archivos de configuración de voz de páginas web pertenecientes a un único sitio web de acuerdo con la misma estructura de datos según la que están almacenados los archivos de visualización de la página web del sitio en cuestión.

61. Un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando estos operan sobre un ordenador, dicha etapa A0.3 del procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 28 a 36.

62. Un soporte de memoria legible por un ordenador que tiene almacenado en su interior un programa, caracterizado porque dicho programa es un programa informático según la reivindicación 61.

63. Un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando estos operan sobre un ordenador, dichas etapas A0.2, A1, B1, C1, D1, E1 y F2 del procedimiento destinado a permitir la interacción por voz de una página web según una cualquiera de las reivindicaciones 28 a 36.

64. Un programa informático según la reivindicación 63, caracterizado porque incluye además medios de código adaptados para realizar, cuando estos operan sobre un ordenador, dicha etapa F1 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 2.

65. Un programa informático según la reivindicación 63 ó 64, caracterizado porque está adaptado además para realizar dicha etapa A2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 4.

66. Un programa informático según una cualquiera de las reivindicaciones 63 a 65, caracterizado porque está adaptado además para realizar dicha etapa C2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 8.

67. Un programa informático según una cualquiera de las reivindicaciones 63 a 66, caracterizado porque está adaptado además para realizar dicha etapa B2 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 14.

68. Un programa informático según la reivindicación 67, caracterizado porque está adaptado además para realizar dicha etapa B3 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 16.

69. Un programa informático según una cualquiera de las reivindicaciones 63 a 68, caracterizado porque está adaptado además para realizar dicha etapa B4 del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 29.

70. Un soporte de memoria legible por un ordenador que tiene almacenado en su interior un programa, caracterizado porque dicho programa es un programa informático según una cualquiera de las reivindicaciones 63 a 69.

71. Un programa informático caracterizado porque incluye medios de código adaptados para realizar, cuando estos operan sobre un ordenador, las etapas del procedimiento destinado a permitir la interacción por voz de una página web según la reivindicación 37 ó 38.

72. Un soporte de memoria legible por un ordenador que tiene almacenado en su interior un programa, caracterizado porque dicho programa es un programa informático según la reivindicación 71.