ES2254664T3 - Procedimiento para permitir la interaccion por voz con una pagina web. - Google Patents
Procedimiento para permitir la interaccion por voz con una pagina web.Info
- Publication number
- ES2254664T3 ES2254664T3 ES02717055T ES02717055T ES2254664T3 ES 2254664 T3 ES2254664 T3 ES 2254664T3 ES 02717055 T ES02717055 T ES 02717055T ES 02717055 T ES02717055 T ES 02717055T ES 2254664 T3 ES2254664 T3 ES 2254664T3
- Authority
- ES
- Spain
- Prior art keywords
- web page
- voice
- interaction
- procedure
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 145
- 230000003993 interaction Effects 0.000 title claims abstract description 108
- 230000005236 sound signal Effects 0.000 claims abstract description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000003786 synthesis reaction Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 18
- 230000001755 vocal effect Effects 0.000 claims description 13
- 238000012800 visualization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000001413 cellular effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
Abstract
Un procedimiento destinado a permitir la interacción por voz de una página web, cuya visualización está definida por un archivo de visualización correspondiente, comprendiendo el procedimiento el reconocimiento por un motor de reconocimiento de voz de una frase en una señal sonora emitida en la proximidad de medios de micrófono, estando el procedimiento caracterizado porque un archivo de configuración de voz correspondiente, que define una máquina de estados que comprende uno o más estados que incluyen un estado inicial de la página web, está asociado a dicha página web, incluyendo dicho archivo de configuración de voz, para cada estado: - uno o más primeros elementos de información, referente cada uno a una frase correspondiente reconocible por dicho motor de reconocimiento de voz, y, para cada uno de dichos primeros elementos de información, - uno o más segundos elementos de información referentes a uno o más comandos correspondientes para la interacción con dicha página web, y/o - un tercer elemento de información que se refiere a una conexión correspondiente a otra página web, y/o - un cuarto elemento de información que identifica un estado subsiguiente correspondiente, incluyendo el procedimiento las siguientes etapas sucesivas: A1 - inicializar una variable de estado actual al estado inicial de la página web, B1 - cargar una gramática correspondiente al estado actual y que incluya dichas frases reconocibles en dicho motor de reconocimiento de voz, C1- reconocer, por medio de dicho motor de reconocimiento de voz, una frase pronunciada en la proximidad de dichos medios de micrófono entre dichas frases reconocibles correspondientes al estado actual, D1- cuando uno o más comandos de interacción correspondan a la frase reconocida, ejecutar tales comandos, E1 - cuando un estado subsiguiente corresponda a la frase reconocida, actualizar la variable de estado actual al estado subsiguiente y repetir las etapas del procedimiento partiendo de la primera etapa subsiguiente a laetapa A1.
Description
Procedimiento para permitir la interacción por
voz con una página web.
Esta invención se refiere a un procedimiento
destinado a permitir la interacción por voz de una página web o un
sitio web, que comprende una o más páginas web, estando definida la
visualización de cada página web por un documento de visualización
correspondiente en formato electrónico, o archivo, siendo tal el
procedimiento que se permite que un usuario interactúe también
pronunciando frases, también en lenguaje natural, con una página
web habilitada que se solicita por medio de un ordenador de usuario,
o cliente, o por medio de un aparato telefónico, sin que el
procedimiento según esta invención requiera cambio alguno de los
archivos de visualización de página web almacenados en el servidor.
En esta memoria descriptiva así como en las reivindicaciones, una
yuxtaposición preferentemente ordenada de una o más palabras se
designará en cualquier caso por el término "frase".
En particular, usando el procedimiento según esta
invención, cuando un ordenador de usuario o un cliente solicita una
página web habilitada, se habilitará al usuario que opera sobre
dicho cliente a seleccionar los comandos destinados a la
interacción con la página, así como con los dispositivos
electrónicos usuales, siendo igualmente tal interacción una
interacción por voz.
Esta invención se refiere también a los
instrumentos necesarios para llevar a la práctica el procedimiento
al igual que el aparato que realiza el procedimiento.
En la siguiente descripción, se ilustrará la
invención en referencia principalmente a una conexión entre un
ordenador servidor, o simplemente servidor, y un cliente que
solicita una página web del servidor, únicamente a título de
ejemplificación y no con carácter de limitación, puesto que la
invención puede aplicarse igualmente a una conexión telefónica
entre un servidor y un aparato telefónico de usuario.
Se sabe que la tecnología vocal comprende
sustancialmente dos tecnologías distintas y complementarias: el
reconocimiento de voz o ASR (reconocimiento automático del habla) y
la síntesis de voz o TTS (texto a voz).
La tecnología ASR permite el reconocimiento de la
voz del usuario mediante un ordenador, provisto de un micrófono y
de dispositivos electrónicos de audio, y un programa o software
informático apropiado. Los dispositivos electrónicos de audio
traducen los sonidos de las palabras pronunciadas que llegan al
micrófono en señales eléctricas que son interpretadas por dicho
software como cadenas de caracteres correspondientes.
Por otra parte, la tecnología TTS consiste en una
operación contraria en la que un ordenador provisto de un software
apropiado, dispositivos electrónicos de audio y un altavoz realizan
una traducción de las palabras de un texto almacenado en sonidos,
en palabras pronunciadas.
Los módulos de software que realizan el
reconocimiento de voz y las operaciones de síntesis de voz se
denominan motores vocales o de voz. Por consiguiente, existen
motores de reconocimiento de voz y de síntesis de voz.
Los motores representan la capa de más bajo nivel
en la arquitectura del software de voz, que también incluye al
menos un programa de aplicación de voz, que representa la capa de
nivel más elevado. Para permitir la interacción entre los motores y
el programa de aplicación, es necesaria una capa de interfaz.
Actualmente, la interfaz más popular para los programas de
aplicación de voz, hasta el punto de convertirse en un estándar de
hecho, es una interfaz denominada SAPI (Interfaz de programación de
aplicaciones de discurso) desarrollada por Microsoft®.
La tecnología para el reconocimiento de voz y,
como consecuencia, el motor ASR son bastante complejos. De hecho,
el reconocimiento de las palabras pronunciadas es una operación
extremadamente articulada que comprende un análisis estadístico de
la señal procedente del micrófono. Tal análisis requiere una
explotación masiva de los recursos del ordenador en los niveles
tanto del procesador como de la memoria del sistema. Existen
sustancialmente dos tipos de reconocimiento de voz: el
reconocimiento con fines de dictado.
El reconocimiento con fines de mandato y control
es el más simple de los dos tipos de reconocimiento de voz e
implica una explotación inferior de los recursos del sistema. En
este caso, el usuario sólo puede pronunciar un conjunto restringido
de palabras que comprende a lo sumo unas miles de palabras. Este
tipo de reconocimiento de voz se utiliza corrientemente para la
interacción por voz con el software de aplicación. En este caso, el
conjunto de comandos que habrá de usarse en la gestión del software
es, sin duda alguna, restringido y la palabra en cuestión puede
expresarse con dicho tipo de reconocimiento de mandato y control.
Este tipo de reconocimiento de voz en general es independiente del
usuario que pronuncia los comandos. Esto implica que el aparato
usado no necesita estrictamente ninguna sesión de entrenamiento
destinada al aprendizaje del modelo o patrón de voz del
usuario.
Por otra parte, el reconocimiento de voz con
fines de dictado libre sólo proporciona al usuario la posibilidad
de dictar libremente un texto basado en un vocabulario de términos
que actualmente puede incluir hasta 200.000 palabras, según el
motor ASR. El reconocimiento con fines de dictado obviamente
requiere más recursos del sistema, y posee intrínsecamente una tasa
de error superior, que se reduce al mínimo por medio de una sesión
de aprendizaje por el motor ASR del modelo de voz del usuario que
interactúa con el propio motor ASR. Esto implica que, con el
propósito de reducir al mínimo la tasa de error en el reconocimiento
del dictado libre, el propio reconocimiento se hace dependiente del
usuario específico que ha realizado la sesión de aprendizaje. Se ha
demostrado que los motores de reconocimiento de voz más recientes
están adaptados para permitir el reconocimiento del dictado incluso
tras sesiones de corta duración (en el intervalo de diez minutos)
para aprender el modelo de voz del usuario.
La tecnología de síntesis de voz y el motor TTS
son extremadamente más simples y resultan completamente
independientes del usuario. El parámetro crítico de un motor de
síntesis de voz es su semejanza con la voz humana y, por
consiguiente, su inteligibilidad y naturalidad. Los motores de
síntesis de voz más recientes ya no generan sonidos metálicos como
ha ocurrido hasta los últimos años. En particular, la realización de
lo que se define en lingüística como signos suprasegmentales da
como resultado una musicalidad que simula eficazmente las
variaciones de tono y de acento de la voz.
En la actualidad, muchos centros de
investigaciones y compañías que trabajan en el campo de la
informática estudian la posibilidad de permitir que un usuario
visualice una página web sobre su ordenador o cliente de usuario
para interactuar con el mismo por medio de los comandos
pronunciados. Un ordenador de usuario y, más ampliamente, un
aparato, incluso uno móvil, provisto de una capacidad de
procesamiento utilizable por un usuario será designado en la
descripción siguiente con el término cliente.
Como es sabido, una página web es un documento o
archivo electrónico, cuyos elementos de información están
estructurados de modo hipertextual, permitiendo con ello que se
visualicen imágenes, películas, sonidos sobre el monitor de un
ordenador. Un documento electrónico estará designado en lo sucesivo
con el término archivo. En particular, los archivos de
visualización de página web pueden implementarse en varios
lenguajes, tales como "HTLM", "JPS", "ASP",
"JAVA", y estos se visualizan por medio de una interfaz gráfica
designada (y siempre indicada en lo sucesivo con el término)
"navegador".
Por el término "web" puede entenderse una
arquitectura de software para acceder a los archivos de
visualización de las páginas web según son almacenadas sobre un
servidor por millares y conectada por medio de la red de
telecomunicación. En la siguiente descripción, un ordenador servidor
o un ordenador que permite a uno o más clientes aprovechar o
encontrar recursos de la red estará designado en cualquier caso con
el término servidor. Por otra parte, el término servidor también
designará un ordenador servidor con el que puede conectarse un
aparato telefónico de usuario, posiblemente un radioteléfono
celular, por medio de una red telefónica, posiblemente una red
celular, de manera que interaccione mediante la voz con el propio
servidor con el fin de obtener y/o suministrar información.
Un conjunto de páginas web cuyos archivos de
visualización están almacenados en una única estructura de datos,
teniendo generalmente una organización en árbol y siendo accesible
desde una página "raíz" inicial identificable de forma única,
se llama sitio web. Generalmente, cada página de un sitio web es
accesible por medio de una dirección única que la identifica.
Como es sabido, la red de telecomunicación más
usada actualmente para la navegación es la red Internet. Un
navegador permite la navegación en la red Internet y permite la
visualización de las páginas web y la utilización de los múltiples
servicios ofrecidos por los sitios web visitados. Cuando un cliente
solicita que un servidor suministre una página web cuyo archivo de
visualización está almacenado en el propio servidor, el cliente
indica específicamente al servidor la dirección única que identifica
la página, siendo conocida tal dirección como el identificador URL
de la página web (y ésta estará indicada con tal término en la
descripción que sigue). En particular, un identificador URL
(Localizador uniforme de recursos) es un identificador universal de
recursos que especifica igualmente un protocolo de identificación
entre servidor y cliente para transmitir el archivo de
visualización de la página web solicitada.
Los enfoques sugeridos hasta ahora para permitir
una interacción por voz entre un usuario y una página web prevén la
modificación del archivo de visualización de la página web, en ambos
casos la conexión a un servidor se efectúa por medio de un cliente
o un aparato telefónico de usuario.
Esto resulta ser un inconveniente evidente, tanto
más cuanto que es necesario llevar a cabo tal operación sobre todas
las páginas de un sitio web.
El documento WO99/48088 desvela un sistema y un
procedimiento destinados a implementar un programa de navegador Web
controlado por la voz que se ejecuta sobre un ordenador acoplado a
la ropa, con el fin de permitir la navegación dentro de una página
web y en otra página web correspondiente a enlaces de hipertexto
mostrados en la página web visualizada por el navegador web
controlado por la voz.
El documento
US-A-6385583 desvela un sistema
complejo de respuesta de voz interactiva (IVR) y/o sistema de
portal de voz que permite que un usuario acceda a información por
medio de interacción por voz o marcación por tonos DTMF con el
sistema, de manera que se haga que el sistema recupere la
información deseada. En particular, el sistema desvelado posee
aplicaciones de voz desarrolladas específicamente, implementadas en
un lenguaje de marcado específico para servicios interactivos.
El enfoque propuesto de acuerdo con esta
invención debe considerarse en este contexto.
Por consiguiente, un objeto de esta invención es
proporcionar un procedimiento destinado a permitir una interacción
por voz de una página web o un sitio web de tal manera que se
permita al usuario seleccionar los comandos de interacción con la
página, al igual que con los dispositivos electrónicos usuales,
también pronunciando frases, también en lenguaje natural, sin
necesidad alguna de modificar los archivos de visualización de
página web almacenados en el servidor, siendo generadas dichas
páginas dinámicamente, empezando por páginas escritas con lenguajes
específicos populares (tales como, por ejemplo, Broadvision ®) u
otras aplicaciones desarrolladas con tal propósito.
Un objeto adicional de esta invención es permitir
un acceso por voz a la página web tanto a través de un aparato
cliente o móvil provisto de capacidad de procesamiento como a través
de un aparato telefónico. De esta manera, el procedimiento según
esta invención permite la interacción por voz de un sitio web
denominado "multicanal", o un sitio web accesible desde un
ordenador cliente, en particular un ordenador personal, desde un
aparato telefónico y desde todos los aparatos móviles provistos de
software.
Un objeto adicional de esta invención es
proporcionar todos los medios necesarios para realizar el
procedimiento al igual que aparatos adaptados para realizar tal
procedimiento.
El asunto específico de esta invención es un
procedimiento destinado a permitir la interacción por voz de una
página web, cuya visualización está definida por un archivo de
visualización correspondiente, que comprende el reconocimiento por
un motor de reconocimiento de voz de una frase en una señal sonora
emitida en la proximidad de medios de micrófono, estando
caracterizado el procedimiento porque un archivo de configuración de
voz correspondiente que define una máquina de estados que comprende
uno o más estados incluyendo un estado inicial de la página web
está asociado a dicha página web, incluyendo dicho archivo de
configuración de voz, para cada
estado,
estado,
- uno o más primeros elementos de información,
refiriéndose cada uno a una frase correspondiente reconocible por
dicho motor de reconocimiento de voz, y, para cada uno de dichos
primeros elementos de información,
- uno o más segundos elementos de información
que se refieren a uno o más comandos correspondientes para la
interacción con dicha página web, y/o
- un tercer elemento de información que se
refiere a una conexión correspondiente a otra página web, y/o
- un cuarto elemento de información que
identifica un estado subsiguiente correspondiente,
incluyendo el procedimiento las siguientes etapas
sucesivas:
A1- inicializar una variable de estado actual al
estado inicial de la página web,
B1- cargar una gramática correspondiente al
estado actual y que incluya dichas frases reconocibles en dicho
motor de reconocimiento de voz,
C1- reconocer, por medio de dicho motor de
reconocimiento de voz, una frase pronunciada en la proximidad de
dichos medios de micrófono entre dichas frases reconocibles
correspondientes al estado actual,
D1- cuando uno o más comandos de interacción
correspondan a la frase reconocida, ejecutar tales comandos,
E1- cuando un estado subsiguiente corresponda a
la frase reconocida, actualizar la variable de estado actual a la
etapa subsiguiente y repetir las etapas del procedimiento empezando
por la primera etapa subsiguiente a la etapa A1.
De acuerdo con esta invención, el procedimiento
puede comprender además, después de la etapa D1, la etapa
siguiente:
F1- cuando una conexión a otra página web a la
que está asociado otro archivo de configuración de voz
correspondiente corresponda al estado actual, repetir todas las
etapas del procedimiento en relación con dicha otra página web.
De acuerdo todavía con esta invención, respecto a
al menos un estado, al menos uno de dichos primeros elementos de
información coincide con la frase correspondiente reconocible por
dicho motor de reconocimiento de voz.
Cuando las páginas web se generan en modo
dinámico y, por consiguiente, los contenidos de las frases que deben
reconocerse (que podrían recuperarse de una base de datos o
generarse dinámicamente) no son conocidas a priori, respecto
a al menos un estado, uno o más de dichos primeros elementos de
información son referencias a frases correspondientes reconocibles
por dicho motor de reconocimiento de voz y están incluidos en
primeros archivos correspondientes, comprendiendo además dicho
procedimiento, después de dicha etapa A1 y antes de dicha etapa B1,
la etapa siguiente:
A2- cuando una o más referencias a frases
correspondientes incluidas en primeros archivos correspondientes
corresponden al estado actual, recuperar de dichos primeros archivos
las frases reconocibles por dicho motor de reconocimiento de voz
incluidas en el mismo.
Con preferencia, de acuerdo con esta invención,
dichos primeros archivos coinciden en un único primer archivo y,
con más preferencia incluso, dicho único primer archivo es el
archivo de visualización de la página web.
De acuerdo todavía con esta invención, respecto a
al menos uno de dichos primeros elementos de información de al
menos un estado, al menos uno de dichos elementos de información
puede coincidir con los comandos correspondientes destinados a la
interacción con la página web.
Cuando las páginas en cuestión se generan en modo
dinámico y los comandos que deben ejecutarse no son conocidos a
priori, respecto a al menos uno de dichos primeros elementos de
información de al menos un estado, uno o más de dichos segundos
elementos de información pueden ser referencias a uno o más comandos
correspondientes destinados a la interacción con la página web
incluida en segundos archivos correspondientes, comprendiendo
además el procedimiento, después de dicha etapa C1 y antes de dicha
etapa D1, la etapa siguiente:
C2- cuando una o más referencias a uno o más
comandos correspondientes destinados a la interacción con la página
web incluida en segundos archivos correspondientes corresponden a la
frase reconocida, recuperar de dichos segundos archivos los
comandos de interacción incluidos en los mismos.
Con preferencia, de acuerdo con esta invención,
dichos segundos archivos coinciden en un único segundo archivo y,
con más preferencia incluso, dicho único segundo archivo es el
archivo de visualización de la página web.
De nuevo, de acuerdo con esta invención, respecto
a al menos uno de dichos primeros elementos de información de al
menos un estado, dicho tercer elemento de información puede
coincidir con la conexión correspondiente a otra página web.
Cuando las páginas web en cuestión se generan en
modo dinámico y la dirección para la conexión a otra página web no
es conocida a priori, en lo que respecta a al menos uno de
dichos primeros elementos de información de al menos un estado,
dicho tercer elemento de información es una referencia a una
conexión correspondiente a otra página web incluida en un tercer
archivo correspondiente, preferentemente el archivo de visualización
de la página
web.
web.
Con preferencia, de acuerdo con esta invención,
el archivo de configuración de voz también incluye, respecto a al
menos un estado:
- uno o más quintos elementos de información,
relacionado cada uno con un texto correspondiente que debe ser
sintetizado vocalmente,
comprendiendo además dicho procedimiento, después
de dicha etapa A1, la siguiente etapa:
B2- cuando uno o más textos que deben
sintetizarse correspondan al estado actual, sintetizar vocalmente al
menos uno de dichos textos por medio de un motor de síntesis de
voz.
De acuerdo todavía con esta invención, respecto a
al menos un estado, al menos uno de dichos quintos elementos de
información coincide con el texto correspondiente que debe
sintetizarse vocalmente.
Cuando las páginas web en cuestión se generan en
modo dinámico y los contenidos de las frases que deben expresarse
(que podrían recuperarse de una base de datos o generarse
dinámicamente) no son conocidos a priori, respecto a al
menos un estado, uno o más de dichos quintos elementos de
información pueden ser referencias a textos correspondientes que
deben sintetizarse vocalmente incluidos en cuartos archivos
correspondientes, comprendiendo además el procedimiento, después de
dicha etapa A1 y antes de dicha etapa B2, la etapa siguiente:
B3- cuando una o más referencias a textos
correspondientes que deben sintetizarse vocalmente incluidos en
cuartos archivos correspondientes corresponden al estado actual,
recuperar de dichos cuartos archivos los textos que deben
sintetizarse incluidos en los mismos.
Con preferencia, de acuerdo con esta invención,
dichos cuartos archivos coinciden en un único cuarto archivo y, con
más preferencia incluso, dicho único cuarto archivo es el archivo de
visualización de la página web.
En una forma de realización preferida, respecto a
cada estado, el archivo de configuración de voz está organizado
según una estructura de datos que incluye:
- una primera sección (ASR) destinada al
reconocimiento de voz, que incluye una o más primeras subsecciones,
incluyendo cada una de ellas:
- a)
- uno de dichos primeros elementos de información refiriéndose a frases correspondientes reconocibles por dicho motor de reconocimiento de voz,
- b)
- un código de identificación alfanumérico,
- una segunda sección (CMD) destinada a
comandos de interacción, que incluye una o más subsecciones,
incluyendo cada una uno de dichos segundos elementos de información
que se refieren a dichos comandos correspondientes destinados a la
interacción con la página web,
incluyendo dicho código de identificación
alfanumérico:
b1) dicho cuarto elemento de información, en
formato alfanumérico, que identifica el estado subsiguiente
correspondiente a la frase reconocible de la misma primera
subsección, y
b2) un primer subcódigo alfanumérico que
identifica al menos una segunda subsección de la segunda sección
(CMD) de los comandos de interacción del estado actual o del
subsiguiente.
Todavía de acuerdo con esta invención, al menos
una segunda subsección de la segunda sección (CMD) de los comandos
de interacción puede estar vacía (o puede tomar un valor nulo).
Con preferencia, de acuerdo con esta invención,
al menos una segunda subsección de la segunda sección (CMD) de los
comandos de interacción incluye un comando destinado a la conexión a
otra página web.
Aún con más preferencia, de acuerdo con esta
invención, dicha estructura de datos conforme a la que está
organizado el archivo de configuración de voz respecto a cada
estado comprende además:
- una tercera sección (TTS) destinada a la
síntesis de voz, que comprende una o más terceras subsecciones,
incluyendo cada una de ellas al menos uno de dichos quintos
elementos de información que se refieren a dichos textos
correspondientes que deben sintetizarse.
Todavía de acuerdo con esta invención, dicho
código de identificación alfanumérico puede comprender además:
b3) un segundo subcódigo alfanumérico que
identifica al menos una tercera subsección de la tercera sección
(TTS) para síntesis de voz del estado actual o del subsiguiente.
De acuerdo adicionalmente con esta invención, al
menos una tercera subsección de la tercera sección (TTS) para
síntesis de voz puede estar vacía (o puede tomar un valor nulo).
Todavía de acuerdo con esta invención, dicha
estructura de datos conforme a la que está organizado el archivo de
configuración de voz respecto a cada estado puede comprender
además:
- una cuarta sección (ADV) destinada a
mensajes publicitarios, que comprende una o más cuartas
subsecciones, incluyendo cada una de ellas al menos uno de dichos
quintos elementos de información que se refieren a dichos textos
correspondientes que deben sintetizarse.
Todavía de acuerdo con esta invención, dicho
código de identificación alfanumérico puede comprender además:
b4) un tercer subcódigo alfanumérico que
identifica al menos una cuarta subsección de la cuarta sección (ADV)
para mensajes publicitarios vocales del estado actual o del
subsiguiente.
De acuerdo adicionalmente con esta invención, al
menos una cuarta subsección de la cuarta sección (ADV) destinada a
mensajes publicitarios vocales puede estar vacía (o puede tomar un
valor nulo).
En una forma de realización preferida de esta
invención, el archivo de visualización y el archivo de configuración
de voz están almacenados en un servidor, accesible a través de una
red de telecomunicación por al menos un cliente de usuario,
comprendiendo además dicho procedimiento, a petición de una página
web por un cliente provisto de dichos medios de micrófono y de un
motor de reconocimiento de voz, antes de dicha etapa C1, las dos
etapas siguientes:
A0.1- transmitir el archivo de visualización de
la página web solicitada desde dicho servidor a dicho cliente,
A0.2- visualizar dicha página web en dicho
cliente y, antes de dicha etapa A1, la etapa siguiente:
A0.3- transmitir el archivo de configuración de
voz de la página web solicitada desde dicho servidor a dicho
cliente y, después de dicha etapa D1, la etapa siguiente:
- F2-
- cuando una conexión a otra página web corresponda al estado actual, solicitar dicho cliente dicha otra página web desde dicho servidor.
Los asistentes o agentes gráficos, definidos
técnicamente como "caracteres" son una interfaz de interacción
natural entre un usuario y las aplicaciones de un ordenador cliente.
Tales caracteres son componentes de software que se muestran como
figuras, preferentemente figuras animadas (interfaces gráficas
animadas), que permiten que el usuario interactúe con las
aplicaciones según se comunica con tales figuras. Algunas formas de
realización de esta invención utilizan las funciones de síntesis y
reconocimiento de voz junto con tales interfaces gráficas,
preferentemente animadas, como asistentes, cuyos movimientos y
comportamientos están definidos basados en eventos o acciones
gestionados por dichas aplicaciones de voz. Por consiguiente, una
lógica de procesamiento apropiada según se realiza en una
aplicación ejecutada por el cliente utiliza preferentemente un
asistente vocal animado, que funciona en base a los elementos de
información incluidos en los archivos de configuración de voz.
Por consiguiente, preferentemente de acuerdo con
esta invención, el archivo de configuración de voz incluye además,
respecto a al menos un estado:
- uno o más sextos elementos de información,
relacionado cada uno con una interfaz gráfica correspondiente que
debe visualizarse,
comprendiendo además el procedimiento, después de
dicha etapa A1, la siguiente etapa:
B4- cuando una o más interfaces gráficas
corresponden al estado actual, visualizar al menos una de dichas
interfaces gráficas en dicho cliente.
Aún con más preferencia, de acuerdo con esta
invención, al menos una de dichas interfaces gráficas que deben
visualizarse comprende una interfaz gráfica animada y en la que el
sexto elemento de información correspondiente comprende los
comandos de movimiento relacionados.
Todavía de acuerdo con esta invención, al menos
una de dichas interfaces gráficas que deben visualizarse puede
incluir un texto.
En una forma de realización preferida, dicha
estructura de datos, conforme a la que está organizado dicho
archivo de configuración de voz respecto a cada estado, comprende
además:
- una quinta sección destinada a comandos de
movimiento, que comprende una o más quintas subsecciones,
incluyendo cada una de ellas al menos uno de dichos sextos elementos
de información relacionados con dichos comandos de movimiento de
una interfaz gráfica animada correspondiente.
De nuevo de acuerdo con esta invención, cada
quinta subsección de dicha quinta sección puede incluir un elemento
de información que se refiere a la posición de llegada y un elemento
de información que se refiere a la velocidad de movimiento de dicha
interfaz gráfica animada.
De nuevo de acuerdo con esta invención, dicho
código de identificación alfanumérico puede comprender además:
b5) un cuarto subcódigo de identificación
alfanumérico destinado a identificar al menos una quinta subsección
de dicha quinta sección (MOV) de los comandos de movimiento del
estado actual o del subsiguiente.
De acuerdo adicionalmente con esta invención, al
menos una quinta subsección de la quinta sección de los comandos de
movimiento puede estar vacía (o puede tomar un valor nulo).
Como alternativa al acceso a través de una
conexión entre un servidor y un cliente, esta invención garantiza
accesos a través de red telefónica, que se hace posible por medio de
una aplicación ejecutada sobre dicho servidor con la utilización de
la misma lógica que se ha ejecutado sobre el cliente e ilustrada
previamente en referencia a la conexión entre servidor y cliente.
Esto permite que el usuario interactúe con las páginas web por
medio de una simple llamada telefónica, transmitiendo comandos
vocales y recibiendo respuestas sintetizadas o previamente
grabadas. Los archivos de configuración de voz para aplicación a
través de conexión telefónica tienen la misma estructura que los
utilizados en una conexión entre servidor y cliente, incluso si
carecen de la posibilidad de visualizar una interfaz gráfica como
asistente. En este caso, el proceso de interacción por voz se
implementa de tal manera que permite un rápido diálogo telefónico
interactivo diferente del establecido en una conexión entre un
servidor y un cliente, puesto que la interfaz para el usuario es
puramente vocal, en lugar de gráfica igualmente.
Por consiguiente, de acuerdo con una forma de
realización alternativa de esta invención, dicho archivo de
visualización y dicho archivo de configuración de voz están
almacenados en un servidor, accesible por medio de una red
telefónica desde al menos un aparato telefónico de usuario, estando
provisto dicho servidor de al menos un motor de síntesis de voz y
un motor de reconocimiento de voz, estando provisto dicho aparato
telefónico de usuario de dichos medios de micrófono al igual que de
medios de reproducción de sonido destinados a reproducir los textos
tal y como sintetizados vocalmente por dicho motor de síntesis de
voz.
Todavía de acuerdo con esta invención, dicha red
telefónica es una red radiotelefónica celular y en la que dicho
aparato telefónico de usuario es un aparato de radioteléfono
celular.
Un asunto adicional de esta invención es un
procedimiento destinado a permitir la interacción por voz de un
sitio web, que comprende una o más páginas web, estando definida la
visualización de cada página web por un archivo de visualización
correspondiente, estando caracterizado el procedimiento por la
realización, respecto a al menos una página de dicho sitio web, de
dicho procedimiento destinado a permitir la interacción por voz de
una página web.
En este caso, de acuerdo con esta invención, los
archivos de visualización y los archivos de configuración de voz de
las páginas web del sitio pueden estar almacenados en un servidor,
accesible por medio de una red de telecomunicación desde al menos
un cliente de usuario.
Igualmente en esta forma de realización, el
procedimiento puede comprender además, antes de dicha etapa A0.3,
la etapa siguiente:
A0.0 comprobar si existe un archivo de
configuración de voz de la página web solicitada,
ejecutando el procedimiento las etapas del
procedimiento destinado a permitir la interacción por voz de una
página web sólo cuando el resultado de dicha etapa de comprobación
A0.0 sea positivo.
De acuerdo adicionalmente con esta invención, si
el resultado de dicha etapa de comprobación A0.0 fuera negativo, el
procedimiento puede realizar la siguiente etapa:
F3- señalar a través de dicho cliente que la
página web solicitada no está habilitada para la interacción por
voz, preferentemente mediante síntesis de voz de un mensaje
efectuado por el motor de síntesis de voz.
Como alternativa, de acuerdo con esta invención,
los archivos de visualización y los archivos de configuración de
voz de las páginas web del sitio en cuestión están almacenados en un
servidor, accesible por medio de una red telefónica desde al menos
un aparato telefónico de usuario, y el procedimiento puede realizar,
respecto a al menos una página de dicho sitio web, el procedimiento
destinado a permitir la interacción por voz de una página web.
Un asunto adicional de esta invención es un
ordenador que tiene uno o más archivos de visualización de páginas
web almacenados en su interior, caracterizado porque tiene además
almacenado en su interior, para al menos una página web respecto a
la que éste tiene el archivo de visualización relacionado almacenado
en su interior, un archivo de configuración de voz correspondiente
adaptado para permitir la interacción por voz de una página web de
acuerdo con el procedimiento destinado a permitir la interacción por
voz de una página web tal y como se ha descrito anteriormente.
Con preferencia, de acuerdo con esta invención,
el ordenador tiene almacenados en su interior los archivos de
configuración de voz de páginas web pertenecientes a un único sitio
web de acuerdo con la misma estructura de datos según la que están
almacenados los archivos de visualización de la página web del sitio
en cuestión.
En este caso, cada página web podría tener un
archivo de configuración de voz asociado a la misma a través de un
cliente y un archivo de configuración de voz asociado a la misma a
través de un aparato telefónico. Con preferencia, los archivos de
configuración de voz tienen los mismos nombres que los archivos de
visualización de las páginas web relacionadas, pero con extensiones
"mv" y "mvt" para la vocalización a través de cliente y a
través de aparato telefónico, respectivamente.
De acuerdo con esta invención, tal ordenador
puede ser un servidor, accesible a través de una red de
telecomunicación desde al menos un cliente de usuario que solicita
una página web cuyo archivo de visualización está almacenado en
dicho servidor, y caracterizado además porque éste está adaptado, en
respuesta a un cliente que solicita una página web cuyo archivo de
visualización correspondiente está almacenado en su interior, para
realizar dicha etapa A0.3 de acuerdo con el procedimiento destinado
a permitir la interacción por voz de una página web tal y como se
ha descrito anteriormente.
Un asunto adicional de esta invención es un
ordenador o cliente de usuario provisto de medios de micrófono y de
un motor de síntesis de voz y de un motor de reconocimiento de voz,
adaptados para acceder a un servidor a través de una red de
telecomunicación, con el fin de solicitar una página web cuyo
archivo de configuración de voz correspondiente está almacenado en
dicho servidor, caracterizado porque éste está adaptado para recibir
el archivo de configuración de voz de la página web solicitada y
está adaptado para realizar dichas etapas A0.2, A1, B1, C1, D1, E1
y F2, posiblemente en combinación con la etapa F1 y/o la etapa A2
y/o la etapa C2 y/o la etapa B2 y/o la etapa B3 y/o la etapa B4 del
procedimiento destinado a permitir la interacción por voz de una
página web tal y como se ha descrito anteriormente.
Esta invención desvela y reivindica además un
ordenador de servidor, accesible a través de una red telefónica
desde al menos un aparato telefónico de usuario, estando provisto
tal servidor de un motor de síntesis de voz y de un motor de
reconocimiento de voz adaptados para realizar las etapas del
procedimiento destinado a permitir la interacción por voz de una
página web tal y como se ha descrito anteriormente.
Un asunto adicional de esta invención es una
señal eléctrica, magnética o electromagnética caracterizada porque
ésta incluye al menos un archivo de configuración de voz de una
página web, posiblemente provisto de uno o más sextos elementos de
información, relacionado cada uno con una interfaz gráfica
correspondiente que debe visualizarse, adaptado para permitir la
interacción por voz de la página web de acuerdo con el procedimiento
destinado a permitir la interacción por voz de una página web tal y
se ha como descrito anteriormente.
Esta invención desvela y reivindica además un
soporte de memoria legible por un ordenador, caracterizado porque
éste incluye al menos un archivo de configuración de voz de una
página web, posiblemente provisto de uno o más sextos elementos de
información, relacionado cada uno con una interfaz gráfica
correspondiente que debe visualizarse, adaptado para permitir la
interacción por voz de la página web de acuerdo con el procedimiento
destinado a permitir la interacción por voz de una página web tal y
como se ha descrito anteriormente.
De nuevo de acuerdo con esta invención, tal
soporte de memoria puede tener almacenados en su interior los
archivos de configuración de voz de páginas web pertenecientes a un
único sitio web, de acuerdo con la misma estructura de datos según
la que están almacenados los archivos de visualización de la página
web del sitio en cuestión.
Un asunto específico adicional de esta invención
es un programa informático caracterizado porque incluye medios de
código adaptados para realizar, cuando operan sobre un ordenador,
dicha etapa A0.3 del procedimiento destinado a permitir la
interacción por voz de una página web tal y como se ha descrito
anteriormente.
Un asunto específico adicional de esta invención
es un soporte de memoria legible por un ordenador que tiene un
programa almacenado en su interior, caracterizado porque dicho
programa es un programa informático como acaba de describirse
anteriormente.
Un asunto específico adicional de esta invención
es un programa informático caracterizado porque incluye medios de
código adaptados para realizar, cuando operan sobre un ordenador,
dichas etapas A0.2, A1, B1, C1, D1, E1 y F2, posiblemente en
combinación con la etapa F1 y/o la etapa A2 y/o la etapa C2 y/o la
etapa B2 y/o la etapa B3 y/o la etapa B4 del procedimiento
destinado a permitir la interacción por voz de una página web tal y
como se ha descrito anteriormente.
Un asunto específico adicional de esta invención
es un soporte de memoria legible por un ordenador que tiene un
programa almacenado en su interior, caracterizado porque dicho
programa es un programa informático como acaba de describirse
anteriormente.
Un asunto específico adicional de esta invención
es un programa informático caracterizado porque incluye medios de
código adaptados para realizar, cuando operan sobre un ordenador,
las etapas del procedimiento destinado a permitir la interacción
por voz de una página web tal y como se ha descrito anteriormente,
respecto a una conexión entre un servidor que tiene un archivo de
configuración de voz almacenado en su interior y un aparato
telefónico de usuario a través de una red telefónica.
Todavía un asunto específico adicional de esta
invención es un soporte de memoria legible por un ordenador que
tiene un programa almacenado en su interior, caracterizado porque
dicho programa es un programa informático como acaba de describirse
anteriormente.
Esta invención se describirá a continuación, a
título de ilustración, no con carácter de limitación, de acuerdo
con sus formas de realización preferidas, en referencia
particularmente a las Figuras de los dibujos que se adjuntan, en
las que:
la Figura 1 muestra esquemáticamente la conexión
entre un cliente y un servidor para solicitar una página web
habilitada para interacción por voz de acuerdo con una forma de
realización preferida del procedimiento según esta invención;
la Figura 2 muestra esquemáticamente una forma de
realización preferida del archivo de configuración de voz de una
página web según esta invención;
la Figura 3 muestra esquemáticamente los módulos
de la aplicación de software sobre el cliente que realiza el
procedimiento según esta invención; y
la Figura 4 muestra un diagrama de flujo que
representa esquemáticamente la forma de realización preferida del
procedimiento destinado a permitir la interacción por voz de un
sitio web según esta invención.
La siguiente descripción estará relacionada
sustancialmente con las formas de realización de esta invención
comprendiendo un servidor accesible desde al menos un cliente, que
solicita una página web del servidor por medio de una red de
telecomunicación.
El procedimiento según esta invención consiste en
proporcionar:
sobre el servidor: una estructura de archivos de
configuración de voz de las páginas de un sitio web que es
especular a la estructura de los archivos de visualización, e
incluye los elementos de información referentes a los textos que
deben ser vocalizados por la página web, las palabras/frases
pronunciables por el usuario y las estructuras de las
conversaciones; y
sobre el cliente: una lógica de procesamiento
apropiada implementada en una aplicación de software y que opera
sobre los elementos de información de dichos archivos de
configuración de voz.
\newpage
Como se ha dicho anteriormente, el procedimiento
está adaptado para permitir la interacción por voz de una página
web de un sitio web; éste permite una total interacción por voz
entre un usuario y cualquier sitio.
La característica principal del procedimiento se
realiza porque no existe necesidad de efectuar cambio alguno en el
sitio web existente.
En referencia a la Figura 1, cuando un usuario
con su cliente 1 se conecta a través de un navegador a un sitio
almacenado sobre un servidor 2 y solicita una página web del mismo,
la aplicación de software prevista sobre dicho cliente 1 descarga
localmente uno o más archivos almacenados de forma apropiada sobre
dicho servidor 2. Tales archivos permitirán tanto la síntesis de
voz como el reconocimiento de voz del usuario que deben llevarse a
cabo.
Se establecerá por consiguiente un diálogo
bidireccional, entre el usuario y la página del sitio web de manera
que se permita la navegación tanto dentro del sitio web en cuestión
como en otros sitios habilitados para la interacción por voz por
medio del mismo procedimiento.
Sobre el servidor 2 habrá de realizarse una
estructura de archivos organizada en un directorio de un sitio web,
provisto de una raíz, que incluirá los archivos de configuración de
voz. En otras palabras, el procedimiento garantiza la generación de
una estructura especular a (o incluso coincidente con) la estructura
de los archivos de visualización del sitio web convencional, que
tiene tantos archivos de configuración de voz como páginas web que
deben habilitarse para la interacción por voz. Dicho servidor 2
también podría tener los archivos de configuración de voz
accesibles a través de la red telefónica almacenados en su interior,
estando organizados dichos archivos en la misma estructura o en una
estructura adicional similar a (o coincidente con) la estructura de
los archivos de visualización.
En referencia a la Figura 2, un archivo de
configuración de voz está compuesto de estados, o macrosecciones de
información que representan los estados de la interacción por voz
entre el usuario y la página web. Cada estado está a su vez
compuesto de cinco secciones: una primera sección ASR relacionada
con el reconocimiento de voz; una segunda sección CMD relacionada
con los comandos de interacción; una tercera sección TTS relacionada
con la síntesis de voz; una cuarta sección ADV relacionada con
mensajes publicitarios vocales y una quinta sección MOV relacionada
con comandos de movimiento de una interfaz gráfica animada que
representa un asistente vocal.
En otras formas de realización, también es
posible que los archivos de configuración de voz tengan los mismos
elementos de información ensamblados de maneras diferentes. Por
ejemplo, las secciones TTS de los varios estados podrían estar
ensambladas en una única sección TTS; o la sección ADV podría estar
incorporada con la sección TTS o con la sección CMD.
Las secciones TTS, CMD y ADV de todos los estados
incluyen respectivamente, respecto a una página web particular,
todas las frases posibles que deben sintetizarse, todos los comandos
de interacción posibles que puede ejecutar la aplicación sobre el
cliente 1 respecto a dicha página web particular y (preferentemente
todos los punteros a ubicaciones de memoria que contienen) todos
los mensajes publicitarios posibles que puedan sintetizarse.
Cada estado definido en el archivo de
configuración de voz incluye los elementos de información que
necesita la aplicación sobre el cliente 1 para formular, desde la
página web actual, las preguntas y/o aseveraciones relacionadas
para comprender las pronunciaciones del usuario.
La sección ASR de cada estado incluye un conjunto
de filas (o subsecciones), compuesto cada uno de dos partes
principales: la primera parte incluye una frase que la aplicación
del cliente puede reconocer, mientras que la segunda parte incluye
todos los elementos de información referentes a las acciones que
puede realizar la misma aplicación, respecto a la frase reconocida.
En la forma de realización de la Figura 2, esta segunda parte
incluye tres grupos de dígitos (en particular, tres grupos de dos
dígitos decimales): el primer grupo identifica el estado de
destino, a saber el estado subsiguiente de la interacción por voz
entre el usuario y la página web actual; el segundo grupo
identifica la frase que debe vocalizarse tal y como está incluida
en la sección TTS del estado presente; el tercer grupo identifica el
comando de la sección CMD del estado presente que deberá ejecutar
la aplicación en cuestión con el reconocimiento de la frase.
La sección MOV comprende los movimientos y/o las
posiciones que puede adoptar el asistente vocal respecto a este
estado particular.
En algunos casos, pueden faltar los comandos que
deben ejecutarse y/o los textos que deben sintetizarse y/o los
movimientos del asistente vocal y, como consecuencia de ello, las
secciones o subsecciones relacionadas pueden estar vacías, o pueden
tomar un valor nulo ("mil").
El conjunto de grupos de dígitos puede ampliarse
en grupos adicionales, que indican operaciones de tratamiento
adicionales que podría realizar la aplicación; por ejemplo, un grupo
de dígitos adicional podría indicar un mensaje publicitario
específico que debe sintetizarse con el reconocimiento de una frase
particular compuesta de una o más palabras.
Además, el número de secciones o subsecciones de
cada estado puede aumentarse. Las secciones y/o subsecciones
adicionales podrían añadir elementos de información útiles con el
fin de permitir que se realicen operaciones de tratamiento junto
con las operaciones de vocalización de la página web relacionada
(por ejemplo, los mensajes publicitarios que pueden sintetizarse
podrían estar configurados dentro de los estados a través de dicha
sección ADV).
Cuando las páginas web están realizadas de manera
dinámica y cuando no existe conocimiento previo de los contenidos,
por ejemplo, de las frases que deben vocalizarse y/o reconocerse y/o
de los comandos relacionados que deben ejecutarse (tal como cuando
estos son el resultado de las operaciones de procesamiento del
servidor como textos recuperados desde una base de datos o
generados dinámicamente), esta invención tiene en cuenta tal
comportamiento dinámico. De hecho, los archivos de configuración de
voz incluyen elementos de información tales que permiten que la
aplicación identifique las partes dinámicas.
En particular, la aplicación sobre el cliente 1
reconoce las partes dinámicas de los archivos de configuración de
voz y sustituye por consiguiente las partes de otro archivo,
preferentemente el archivo de visualización.
Estrictamente con carácter de ejemplificación,
una frase que debe sintetizarse podría ubicarse a través de un
primer índice destinado a indicar el punto de inicio del texto y un
segundo índice destinado a indicar el punto final del texto,
identificando estos índices únicamente el objeto del archivo de
visualización de la página web que debe sintetizarse. Estos dos
índices incluyen elementos adaptados para identificar, dentro de la
estructura del archivo de visualización, el nivel de incorporación
del objeto (o el nivel de profundidad del objeto dentro del archivo
de visualización) al igual que su posición dentro de dicho nivel
específico. Suponiendo que el archivo de visualización incluya un
objeto definido por el siguiente lenguaje HTML:
<TBOBY>
<TR>
<TD> primer texto que debe sonorizarse
</TD>
<TD> segundo texto que debe sonorizarse
</TD>
</TR>
</TBODY>
Cuando se desea vocalizar el segundo texto, el
archivo de configuración de voz referente a esta página web podría
incluir el siguiente puntero dinámico a esos contenidos que deben
vocalizarse:
[TTS]
...
\textdollar (TBODY, 1 (TR, 1 (TD,2))), (TBODY,
1 (TR,1 (/TD,2)))
...
puede observarse que el índice de inicio de
texto
(TBODY, 1 (TR, 1 (TD,2)))
y el índice de final de texto
(TBODY, 1 TR,1 (/TR, 1 (/TD, 2)))
identifican únicamente un contenido, igualmente
un contenido dinámico, dentro del archivo de visualización de la
página web. Se tendrá en cuenta que los contenidos dinámicos de los
archivos de configuración de voz se distinguen por sí mismos con
respecto a los estáticos por la presencia de un carácter específico,
tal como "\textdollar".
La indicación de contenidos dinámicos según esta
invención incluye cualquier tipo de meta-información
sobre soporte adaptado para operar como contenedor de información
de la página web o contenedor para indicadores a los elementos de
información de la página web. Tales contenedores comprenden las
denominadas "hojas de estilo" según se normalizan por la unión
de W3C bajo el término "hojas de estilo en cascada" (CSS). En
particular, los estilos pueden expresarse bien mediante un código
interno de la página web, o bien mediante archivos externos (a
saber las CSS) conectados con la propia página web. Otras hojas de
estilo similares a las CSS son los denominados archivos de
"transformación", tales como, por ejemplo, los archivos en
formato XSL.
Asimismo, la indicación de contenidos dinámicos
según esta invención puede realizarse indicando elementos de
información incluidos en una etiqueta y, en líneas generales,
objetos de la página web con modos más potentes que la simple
especificación de las coordenadas, como se ha mostrado anteriormente
en el ejemplo. En particular, tales modos más potentes incluyen
referencias al tipo de indicación de objetos (por ejemplo, tablas)
junto con nombres específicos y con sus coordenadas, con el fin de
hacer más sólida tal indicación, también en vista de cualquier
posible cambio en la estructura de etiquetas de la página web.
Además, cuando se desea realizar una indicación
de contenidos dinámicos, es posible utilizar lenguaje de programa
del tipo "escritura". Cuando algunas páginas web se generan de
forma periódica (por ejemplo cada día) con un nombre diferente pero
con la misma estructura, un archivo único de configuración de voz es
creado y utilizado por la aplicación sobre el cliente 1 en relación
con todas las páginas web con las que puede estar asociado el
archivo en cuestión.
En el caso específico de páginas web dinámicas,
puede generarse cierto número de estructuras diferentes en relación
con la misma página web. En este caso, se genera un archivo de
configuración de voz en relación con cualquier estructura posible
relacionada con dicha página web dinámica específica. También en
este caso, la aplicación sobre el cliente 1 reconoce la estructura
y utiliza el archivo de configuración de voz correcto asociado a la
misma.
Ventajosamente, los archivos de configuración de
voz pueden almacenarse sobre el servidor 2 y/o pueden transmitirse
a través de la red en formato comprimido.
Asimismo, se inserta un archivo especial en el
directorio raíz del sitio web habilitado y es requerido por la
aplicación residente en el cliente 1 sólo cuando se efectúa una
petición de cualquier página web del sitio. De este modo, la
aplicación tendrá la posibilidad de comprobar si el sitio al que
accede es un sitio habilitado para la interacción por voz según
esta invención.
En referencia a la Figura 3, la aplicación de
software eficaz tal y como se ha dicho anteriormente está residente
en el cliente 1 del usuario y está compuesta sustancialmente de los
siguientes módulos:
- un motor TTS para la síntesis de voz;
- un motor ASR para el reconocimiento de
voz;
- una interfaz para programas de aplicación de
voz SAPI y
- un programa de aplicación de voz 10 que
utiliza las gramáticas dinámicas que actúan como filtros respecto a
lo que el usuario puede pronunciar.
Los motores de voz pueden ser de cualquier tipo,
o, en otras palabras, la aplicación de software no está sujeta a un
tipo/modelo particular. Ésta utiliza preferentemente la norma
SAPI.
La aplicación 10 sobre el cliente 1 permite, por
una parte, interactuar mediante la voz con una página del sitio web
y, por otra parte, permite navegar tanto dentro del propio sitio
como a otros sitios web habilitados para la interacción por voz
según esta invención.
Puesto que esta invención es independiente de los
motores de voz específicos, igualmente respecto al lenguaje
utilizado, se hace posible la vocalización de los sitios con
contenidos en múltiples lenguajes.
En referencia al diagrama de flujo de la Figura
4, puede observarse que la aplicación 10 sobre el cliente 1 utiliza
los archivos de configuración de voz de las páginas web tal y como
están almacenadas sobre el servidor 2, con el fin de realizar las
operaciones anteriores. En particular, cuando un usuario se conecta
con su cliente 1 a un navegador en su página inicial o "home
page" de un sitio habilitado, por ejemplo
www.mediavoice.it, la aplicación en cuestión 10, al
comprobar que el sitio web en cuestión está habilitado para la
interacción por voz y que la página web solicitada también está
habilitada para la interacción por voz, entra automáticamente en el
directorio relacionado del sitio web habilitado y descarga
localmente el archivo de configuración de voz existente en su
interior como correspondiente a la página web solicitada
(//mediavoice.it/home.mv). El archivo de configuración de
voz habilita la aplicación sobre el cliente 1 a realizar un diálogo
eficaz entre el usuario y la página web visualizada, que
posiblemente incluye una sucesión, incluso una sucesión muy larga,
de preguntas y respuestas, entre el usuario y la página particular
en cuestión del sitio web.
La aplicación 10 sobre el cliente 1, tras haber
descargado localmente el archivo de configuración de voz, almacena
las secciones referentes a los diferentes estados en una estructura
de memoria interna e inicializa el motor de reconocimiento vocal
cargando la gramática definida en la sección ASR referente al estado
inicial. Entonces, la aplicación 10 sintetiza la primera frase del
estado inicial (por ejemplo, una frase de bienvenida a la página
web). Posteriormente, prosigue la interacción por voz entre el
usuario y la aplicación 10 que opera como interfaz vocal a la
página web actual.
Cuando el usuario pronuncia una frase o solicita
algo de la página contenida en la gramática actual, la aplicación
reconoce la frase y realiza las operaciones asociadas a tal frase,
tal y como está definido en la segunda sección ASR de la propia
frase. En particular, el usuario también puede pronunciar cualquier
identificador URL de una conexión o vínculo incluido en la página
actual.
La aplicación 10 pronuncia entonces la frase
asociada, ejecuta el comando correspondiente y pasa por sí misma al
estado subsiguiente. La transferencia al nuevo estado implica la
construcción y la descarga de la gramática definida en la sección
ASR y la síntesis de voz de la sección TTS del estado presente.
La presencia de dichos N estados dentro del mismo
archivo de configuración de voz se necesita entonces en vista de
que, incluso sobre la misma página web, es posible establecer un
diálogo entre el usuario del cliente 1 y la página web en
cuestión.
Cuando el comando referente al reconocimiento de
una frase particular implica la navegación, mediante el navegador,
por otra página web, la aplicación 10 reanuda su ciclo descargando
el archivo de configuración de voz correspondiente y emprendiendo
de nuevo las acciones anteriormente descritas.
La lógica de operación del cliente 1 también
puede aplicarse a la utilización de aparatos provistos de capacidad
de procesamiento, tales como dispositivos móviles/portátiles, tales
como ordenador de mano o PC portátil.
El procedimiento de vocalización de un sitio web,
en particular sitios web de canales múltiples, puede ser, al menos
parcialmente, llevado a cabo automáticamente por medio de
instrumentos desarrollados provistos de algoritmos dedicados
adaptados para generar archivos de configuración de voz partiendo de
los archivos de visualización de las páginas web. Tales
instrumentos de desarrollo pueden incluir diferentes funciones de
acuerdo con el tipo de acceso que se desee aplicar a las páginas web
y, por consiguiente, de acuerdo con los instrumentos desde los que
se desee realizar las posibilidades de acceso a las mismas páginas
web (por ejemplo PC, dispositivos telefónicos, ordenador de mano).
Los instrumentos de desarrollo también podrían grabar en un archivo
dedicado todas las operaciones realizadas, en particular todos los
archivos de configuración de voz generados, con el fin de controlar
los mismos.
Las formas de realización preferidas de esta
invención se han descrito, y se ha sugerido anteriormente cierto
número de variaciones, pero deberá comprenderse expresamente que el
experto en la materia puede realizar otras variaciones y cambios,
sin alejarse por ello del alcance de la misma, tal y como se define
en las reivindicaciones que se adjuntan.
Claims (72)
1. Un procedimiento destinado a permitir la
interacción por voz de una página web, cuya visualización está
definida por un archivo de visualización correspondiente,
comprendiendo el procedimiento el reconocimiento por un motor de
reconocimiento de voz de una frase en una señal sonora emitida en la
proximidad de medios de micrófono, estando el procedimiento
caracterizado porque un archivo de configuración de voz
correspondiente, que define una máquina de estados que comprende
uno o más estados que incluyen un estado inicial de la página web,
está asociado a dicha página web, incluyendo dicho archivo de
configuración de voz, para cada estado:
- uno o más primeros elementos de información,
referente cada uno a una frase correspondiente reconocible por
dicho motor de reconocimiento de voz, y, para cada uno de dichos
primeros elementos de información,
- uno o más segundos elementos de información
referentes a uno o más comandos correspondientes para la
interacción con dicha página web, y/o
- un tercer elemento de información que se
refiere a una conexión correspondiente a otra página web, y/o
- un cuarto elemento de información que
identifica un estado subsiguiente correspondiente,
incluyendo el procedimiento las siguientes etapas
sucesivas:
A1- inicializar una variable de estado actual al
estado inicial de la página web,
B1- cargar una gramática correspondiente al
estado actual y que incluya dichas frases reconocibles en dicho
motor de reconocimiento de voz,
C1- reconocer, por medio de dicho motor de
reconocimiento de voz, una frase pronunciada en la proximidad de
dichos medios de micrófono entre dichas frases reconocibles
correspondientes al estado actual,
D1- cuando uno o más comandos de interacción
correspondan a la frase reconocida, ejecutar tales comandos,
E1 - cuando un estado subsiguiente corresponda a
la frase reconocida, actualizar la variable de estado actual al
estado subsiguiente y repetir las etapas del procedimiento partiendo
de la primera etapa subsiguiente a la etapa A1.
2. Un procedimiento según la reivindicación 1,
caracterizado porque comprende además, después de la etapa
D1, la etapa siguiente:
F1- cuando una conexión a otra página web a la
que está asociado otro archivo de configuración de voz
correspondiente corresponda al estado actual, repetir todas las
etapas del procedimiento en relación con dicha otra página web.
3. Un procedimiento según la reivindicación 1 ó
2, caracterizado porque, respecto a al menos un estado, al
menos uno de dichos primeros elementos de información coincide con
la frase correspondiente reconocible por dicho motor de
reconocimiento de voz.
4. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a al menos un estado, uno o más de dichos primeros elementos de
información son referencias a frases correspondientes reconocibles
por dicho motor de reconocimiento de voz y están incluidos en
primeros archivos correspondientes, comprendiendo además dicho
procedimiento, después de dicha etapa A1 y antes de dicha etapa B1,
la etapa siguiente:
A2- cuando una o más referencias a frases
correspondientes incluidas en primeros archivos correspondientes
correspondan al estado actual, recuperar de dichos primeros archivos
las frases reconocibles por dicho motor de reconocimiento de voz
incluidas en el mismo.
5. Un procedimiento según la reivindicación 4,
caracterizado porque dichos primeros archivos coinciden en
un único primer archivo.
6. Un procedimiento según la reivindicación 5,
caracterizado porque dicho único primer archivo es el archivo
de visualización de la página web.
7. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a al menos uno de dichos primeros elementos de información de al
menos un estado, al menos uno de dichos elementos de información
coincide con los comandos correspondientes destinados a la
interacción con la página web.
8. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a al menos uno de dichos primeros elementos de información de al
menos un estado, uno o más de dichos segundos elementos de
información son referencias a uno o más comandos correspondientes
destinados a la interacción con la página web incluida en segundos
archivos correspondientes, comprendiendo además el procedimiento,
después de dicha etapa C1 y antes de dicha etapa D1, la etapa
siguiente:
C2- cuando una o más referencias a uno o más
comandos correspondientes destinados a la interacción con la página
web incluida en segundos archivos correspondientes corresponden a la
frase reconocida, recuperar de dichos segundos archivos los
comandos de interacción incluidos en los mismos.
9. Un procedimiento según la reivindicación 8,
caracterizado porque dichos segundos archivos coinciden en
un único segundo archivo.
10. Un procedimiento según la reivindicación 9,
caracterizado porque dicho único segundo archivo es el
archivo de visualización de la página web.
11. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a al menos uno de dichos primeros elementos de información de al
menos un estado, dicho tercer elemento de información coincide con
la conexión correspondiente a otra página web.
12. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a al menos uno de dichos primeros elementos de información de al
menos un estado, dicho tercer elemento de información es una
referencia a una conexión correspondiente a otra página web incluida
en un tercer archivo correspondiente.
13. Un procedimiento según la reivindicación 12,
caracterizado porque dicho tercer archivo es el archivo de
visualización de la página web.
14. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque el archivo
de configuración de voz también incluye, respecto a al menos un
estado:
- uno o más quintos elementos de información,
relacionado cada uno con un texto correspondiente que debe ser
sintetizado vocalmente,
comprendiendo además dicho procedimiento, después
de dicha etapa A1, la siguiente etapa:
B2- cuando uno o más textos que deben
sintetizarse correspondan al estado actual, sintetizar vocalmente al
menos uno de dichos textos por medio de un motor de síntesis de
voz.
15. Un procedimiento según la reivindicación 14,
caracterizado porque, respecto a al menos un estado, al
menos uno de dichos quintos elementos de información coincide con el
texto correspondiente que debe sintetizarse vocalmente.
16. Un procedimiento según la reivindicación 14
ó 15, caracterizado porque, respecto a al menos un estado,
uno o más de dichos quintos elementos de información son referencias
a textos correspondientes que deben sintetizarse vocalmente
incluidos en cuartos archivos correspondientes, comprendiendo además
el procedimiento, después de dicha etapa A1 y antes de dicha etapa
B2, la etapa siguiente:
B3- cuando una o más referencias a textos
correspondientes que deben sintetizarse vocalmente incluidos en
cuartos archivos correspondientes corresponden al estado actual,
recuperar de dichos cuartos archivos los textos que deben
sintetizarse vocalmente incluidos en los mismos.
17. Un procedimiento según la reivindicación 16,
caracterizado porque dichos cuartos archivos coinciden en un
único cuarto archivo.
18. Un procedimiento según la reivindicación 17,
caracterizado porque dicho único cuarto archivo es el archivo
de visualización de la página web.
19. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque, respecto
a cada estado, el archivo de configuración de voz está organizado
según una estructura de datos que incluye:
- una primera sección (ASR) destinada al
reconocimiento de voz, que incluye una o más primeras subsecciones,
incluyendo cada una de ellas:
- a)
- uno de dichos primeros elementos de información referentes a frases correspondientes reconocibles por dicho motor de reconocimiento de voz,
- b)
- un código de identificación alfanumérico,
- una segunda sección (CMD) destinada a
comandos de interacción, que incluye una o más subsecciones,
incluyendo cada una uno de dichos segundos elementos de información
que se refieren a dichos comandos correspondientes destinados a la
interacción con la página web,
incluyendo dicho código de identificación
alfanumérico:
b1) dicho cuarto elemento de información, en
formato alfanumérico, que identifica el estado subsiguiente
correspondiente a la frase reconocible de la misma primera
subsección, y
b2) un primer subcódigo alfanumérico que
identifica al menos una segunda subsección de la segunda sección
(CMD) de los comandos de interacción del estado actual o del
subsiguiente.
20. Un procedimiento según la reivindicación 19,
caracterizado porque al menos una segunda subsección de la
segunda sección (CMD) de los comandos de interacción está vacía.
21. Un procedimiento según la reivindicación 19
ó 20, caracterizado porque al menos una segunda subsección
de la segunda sección (CMD) de los comandos de interacción incluye
un comando destinado a la conexión a otra página web.
22. Un procedimiento según una cualquiera de las
reivindicaciones 14 a 18 y según una cualquiera de las
reivindicaciones 19 a 21, caracterizado porque dicha
estructura de datos conforme a la que está organizado el archivo de
configuración de voz respecto a cada estado comprende además:
- una tercera sección (TTS) destinada a la
síntesis de voz, que comprende una o más terceras subsecciones,
incluyendo cada una de ellas al menos uno de dichos quintos
elementos de información que se refieren a dichos textos
correspondientes que deben sintetizarse.
23. Un procedimiento según la reivindicación 22,
caracterizado porque dicho código de identificación
alfanumérico comprende además:
b3) un segundo subcódigo alfanumérico que
identifica al menos una tercera subsección de la tercera sección
(TTS) para síntesis de voz del estado actual o del subsiguiente.
24. Un procedimiento según la reivindicación 22
ó 23, caracterizado porque al menos una tercera subsección
de la tercera sección (TTS) destinada a la síntesis de voz está
vacía.
25. Un procedimiento según una cualquiera de las
reivindicaciones 14 a 18 y según una cualquiera de las
reivindicaciones 19 a 24, caracterizado porque dicha
estructura de datos conforme a la que está organizado el archivo de
configuración de voz respecto a cada estado comprende además:
- una cuarta sección (ADV) destinada a
mensajes publicitarios, que comprende una o más cuartas
subsecciones, incluyendo cada una de ellas al menos uno de dichos
quintos elementos de información que se refieren a dichos textos
correspondientes que deben sintetizarse.
26. Un procedimiento según la reivindicación 25,
caracterizado porque dicho código de identificación
alfanumérico comprende además:
b4) un tercer subcódigo alfanumérico que
identifica al menos una cuarta subsección de la cuarta sección (ADV)
para mensajes publicitarios vocales del estado actual o del
subsiguiente.
27. Un procedimiento según la reivindicación 25
ó 26, caracterizado porque al menos una cuarta subsección de
la cuarta sección (ADV) destinada a mensajes publicitarios está
vacía.
28. Un procedimiento según una cualquiera de las
reivindicaciones precedentes, caracterizado porque el archivo
de visualización y el archivo de configuración de voz están
almacenados en un servidor, accesible a través de una red de
telecomunicación por al menos un cliente de usuario, comprendiendo
además dicho procedimiento, con la solicitud de una página web por
un cliente provisto de dichos medios de micrófono y de un motor de
reconocimiento de voz,
antes de dicha etapa C1, las siguientes
etapas:
A0.1- transmitir el archivo de visualización de
la página web solicitada desde dicho servidor a dicho cliente,
A0.2- visualizar dicha página web en dicho
cliente y, antes de dicha etapa A1, la etapa siguiente:
A0.3- transmitir el archivo de configuración de
voz de la página web solicitada desde dicho servidor a dicho
cliente y,
después de dicha etapa D1, la etapa
siguiente:
F2- cuando una conexión a otra página web
corresponda al estado actual, solicitar dicho cliente dicha otra
página web desde dicho servidor.
29. Un procedimiento según la reivindicación 28,
caracterizado porque el archivo de configuración de voz
comprende además, respecto a al menos un estado:
- uno o más sextos elementos de información,
relacionado cada uno con una interfaz gráfica correspondiente que
debe visualizarse,
comprendiendo además el procedimiento, después de
la etapa A1, la siguiente etapa:
B4- cuando una o más interfaces gráficas
correspondan al estado actual, visualizar al menos una de dichas
interfaces gráficas en dicho cliente.
30. Un procedimiento según la reivindicación 29,
caracterizado porque al menos una de dichas interfaces
gráficas que deben visualizarse comprende una interfaz gráfica
animada y porque el sexto elemento de información correspondiente
comprende los comandos de movimiento relacionados.
31. Un procedimiento según la reivindicación 29
ó 30, caracterizado porque al menos una de dichas interfaces
gráficas que deben visualizarse incluye un texto.
32. Un procedimiento según una cualquiera de las
reivindicaciones 19 a 27 y según la reivindicación 30,
caracterizado porque dicha estructura de datos, conforme a
la que está organizado dicho archivo de configuración de voz
respecto a cada estado, comprende además:
- una quinta sección (MOV) destinada a
comandos de movimiento, que comprende una o más quintas
subsecciones, incluyendo cada una de ellas al menos uno de dichos
sextos elementos de información relacionados con dichos comandos de
movimiento de una interfaz gráfica animada correspondiente.
33. Un procedimiento según la reivindicación 32,
caracterizado porque cada quinta subsección de dicha quinta
sección (MOV) incluye un elemento de información referente a la
posición de llegada y un elemento de información referente a la
velocidad de movimiento de dicha interfaz gráfica animada.
34. Un procedimiento según la reivindicación 32
ó 33, caracterizado porque dicho código de identificación
alfanumérico comprende además:
b5) un cuarto subcódigo de identificación
alfanumérico destinado a identificar al menos una quinta subsección
de dicha quinta sección (MOV) de los comandos de movimiento del
estado actual o del subsiguiente.
35. Un procedimiento según una cualquiera de las
reivindicaciones 32 a 34, caracterizado porque al menos una
quinta subsección de la quinta sección (MOV) de los comandos de
movimiento está vacía.
36. Un procedimiento según una cualquiera de las
reivindicaciones 28 a 35, caracterizado porque dicha red de
telecomunicación es la red Internet.
37. Un procedimiento según una cualquiera de las
reivindicaciones 14 a 18 ó según una cualquiera de las
reivindicaciones 22 a 27, caracterizado porque dicho archivo
de visualización y dicho archivo de configuración de voz están
almacenados en un servidor, accesible por medio de una red
telefónica desde al menos un aparato telefónico de usuario, estando
provisto dicho servidor de al menos un motor de síntesis de voz y un
motor de reconocimiento de voz, estando provisto dicho aparato
telefónico de usuario de dichos medios de micrófono al igual que de
medios de reproducción de sonido destinados a reproducir los textos
tal y como sintetizados vocalmente por dicho motor de síntesis de
voz.
38. Un procedimiento según la reivindicación 37,
caracterizado porque dicha red telefónica es una red
radiotelefónica celular y porque dicho aparato telefónico de
usuario es un aparato radiotelefónico celular.
39. Un procedimiento destinado a permitir la
interacción por voz de un sitio web, que comprende una o más
páginas web, estando definida la visualización de cada página web
por un archivo de visualización correspondiente, estando el
procedimiento caracterizado por la realización, respecto a al
menos una página de dicho sitio web, de dicho procedimiento
destinado a permitir la interacción por voz de una página web según
una cualquiera de las reivindicaciones 1 a 27.
40. Un procedimiento según la reivindicación 39,
caracterizado porque los archivos de visualización y los
archivos de configuración de voz de las páginas web del sitio están
almacenados en un servidor, accesible por medio de una red de
telecomunicación desde al menos un cliente de usuario, y porque el
procedimiento realiza, respecto a al menos una página de dicho
sitio web, el procedimiento destinado a permitir la interacción por
voz de una página web según una cualquiera de las reivindicaciones
28 a 36.
41. Un procedimiento según la reivindicación 40,
caracterizado porque comprende además, antes de la etapa
A0.3, la etapa siguiente:
A0.0 comprobar si existe un archivo de
configuración de voz de la página web solicitada,
ejecutando el procedimiento las etapas del
procedimiento destinado a permitir la interacción por voz de una
página web sólo cuando el resultado de dicha etapa de comprobación
A0.0 sea positivo.
42. Un procedimiento según la reivindicación 41,
caracterizado porque, si el resultado de dicha etapa de
comprobación A0.0 fuera negativa, el procedimiento realiza la etapa
siguiente:
F3- señalar a través de dicho cliente que la
página web solicitada no está habilitada para la interacción por
voz.
43. Un procedimiento según la reivindicación 42,
caracterizado porque dicha etapa F3 se compone de la síntesis
de voz de un mensaje efectuado por el motor de síntesis de voz.
44. Un procedimiento según la reivindicación 39,
caracterizado porque los archivos de visualización y los
archivos de configuración de voz de las páginas web del sitio en
cuestión están almacenados en un servidor, accesible por medio de
una red de telecomunicación desde al menos un aparato telefónico de
usuario, y porque el procedimiento realiza, respecto a al menos una
página de dicho sitio web, el procedimiento destinado a permitir la
interacción por voz de una página web según la reivindicación 37 ó
38.
45. Un ordenador que tiene uno o más archivos de
visualización de páginas web almacenados en su interior,
caracterizado porque tiene además almacenado en su interior,
para al menos una página web respecto a la que éste tiene el
archivo de visualización relacionado almacenado en su interior, un
archivo de configuración de voz correspondiente adaptado para
permitir la interacción por voz de una página web de acuerdo con el
procedimiento destinado a permitir la interacción por voz de una
página web según una cualquiera de las reivindicaciones 1 a 27.
46. Un ordenador según la reivindicación 45,
caracterizado porque tiene almacenados en su interior los
archivos de configuración de voz de páginas web pertenecientes a un
único sitio web de acuerdo con la misma estructura de datos según
la que están almacenados los archivos de visualización de la página
web del sitio en cuestión.
47. Un ordenador según la reivindicación 45 ó
46, caracterizado porque éste es un servidor, accesible a
través de una red de telecomunicación desde al menos un cliente de
usuario que solicita una página web cuyo archivo de visualización
está almacenado en dicho servidor, y además caracterizado
porque está adaptado, en respuesta a un cliente que solicita una
página web cuyo archivo de visualización correspondiente está
almacenado en su interior, para realizar dicha etapa A0.3 de
acuerdo con el procedimiento destinado a permitir la interacción
por voz de una página web según una cualquiera de las
reivindicaciones 28 a 36.
48. Un ordenador o cliente de usuario provisto
de medios de micrófono y de un motor de síntesis de voz y de un
motor de reconocimiento de voz, adaptado para acceder a un servidor
según la reivindicación 47 a través de una red de telecomunicación
con el fin de solicitar una página web cuyo archivo de configuración
de voz correspondiente está almacenado en dicho servidor,
caracterizado porque éste está adaptado para recibir el
archivo de configuración de voz de la página web solicitada y está
adaptado para realizar dichas etapas A0.2, A1, B1, C1, D1, E1 y F2
del procedimiento destinado a permitir la interacción por voz de una
página web según una cualquiera de las reivindicaciones 28 a
36.
36.
49. Un ordenador o cliente de usuario según la
reivindicación 48, caracterizado porque está adaptado además
para realizar dicha etapa F1 del procedimiento destinado a permitir
la interacción por voz de una página web según la reivindicación
2.
50. Un ordenador o cliente de usuario según la
reivindicación 48 ó 49, caracterizado porque está adaptado
además para realizar dicha etapa A2 del procedimiento destinado a
permitir la interacción por voz de una página web según la
reivindicación 4.
51. Un ordenador o cliente de usuario según una
cualquiera de las reivindicaciones 48 a 50, caracterizado
porque está adaptado además para realizar dicha etapa C2 del
procedimiento destinado a permitir la interacción por voz de una
página web según la reivindicación 8.
52. Un ordenador o cliente de usuario según una
cualquiera de las reivindicaciones 48 a 51, caracterizado
porque está adaptado además para realizar dicha etapa B2 del
procedimiento destinado a permitir la interacción por voz de una
página web según la reivindicación 14.
53. Un ordenador o cliente de usuario según la
reivindicación 52, caracterizado porque está adaptado además
para realizar dicha etapa B3 del procedimiento destinado a permitir
la interacción por voz de una página web según la reivindicación
16.
54. Un ordenador o cliente de usuario según una
cualquiera de las reivindicaciones 48 a 53, caracterizado
porque está adaptado además para realizar dicha etapa B4 del
procedimiento destinado a permitir la interacción por voz de una
página web según la reivindicación 29.
55. Un ordenador según la reivindicación 45 ó
46, caracterizado porque éste es un servidor, accesible a
través de una red telefónica desde al menos un aparato telefónico
de usuario, porque está provisto de un motor de síntesis de voz y
de un motor de reconocimiento de voz, y además caracterizado
porque está adaptado para realizar las etapas del procedimiento
destinado a permitir la interacción por voz de una página web según
la reivindicación 37 ó
38.
38.
56. Una señal eléctrica, magnética o
electromagnética caracterizada porque incluye al menos un
archivo de configuración de voz de una página web adaptada para
permitir la interacción por voz de la página web de acuerdo con el
procedimiento destinado a permitir la interacción por voz de una
página web según una cualquiera de las reivindicaciones 1 a 27.
57. Una señal eléctrica, magnética o
electromagnética según la reivindicación 56, caracterizada
porque dicho al menos un archivo de configuración de voz de una
página web está adaptado para permitir la interacción por voz de la
página web de acuerdo con el procedimiento destinado a permitir la
interacción por voz de una página web según una cualquiera de las
reivindicaciones 29 a 35.
58. Un soporte de memoria legible por un
ordenador, caracterizado porque incluye al menos un archivo
de configuración de voz de una página web adaptada para permitir la
interacción por voz de la página web de acuerdo con el
procedimiento destinado a permitir la interacción por voz de una
página web según una cualquiera de las reivindicaciones 1 a 27.
59. Un soporte de memoria según la
reivindicación 58, caracterizado porque dicho al menos un
archivo de configuración de voz de una página web está adaptado
para permitir la interacción por voz de la página web de acuerdo con
el procedimiento destinado a permitir la interacción por voz de una
página web según una cualquiera de las reivindicaciones 29 a
35.
60. Un soporte de memoria según la
reivindicación 58 ó 59, caracterizado porque tiene
almacenados en su interior los archivos de configuración de voz de
páginas web pertenecientes a un único sitio web de acuerdo con la
misma estructura de datos según la que están almacenados los
archivos de visualización de la página web del sitio en
cuestión.
61. Un programa informático caracterizado
porque incluye medios de código adaptados para realizar, cuando
estos operan sobre un ordenador, dicha etapa A0.3 del procedimiento
destinado a permitir la interacción por voz de una página web según
una cualquiera de las reivindicaciones 28 a 36.
62. Un soporte de memoria legible por un
ordenador que tiene almacenado en su interior un programa,
caracterizado porque dicho programa es un programa
informático según la reivindicación 61.
63. Un programa informático caracterizado
porque incluye medios de código adaptados para realizar, cuando
estos operan sobre un ordenador, dichas etapas A0.2, A1, B1, C1, D1,
E1 y F2 del procedimiento destinado a permitir la interacción por
voz de una página web según una cualquiera de las reivindicaciones
28 a 36.
64. Un programa informático según la
reivindicación 63, caracterizado porque incluye además medios
de código adaptados para realizar, cuando estos operan sobre un
ordenador, dicha etapa F1 del procedimiento destinado a permitir la
interacción por voz de una página web según la reivindicación 2.
65. Un programa informático según la
reivindicación 63 ó 64, caracterizado porque está adaptado
además para realizar dicha etapa A2 del procedimiento destinado a
permitir la interacción por voz de una página web según la
reivindicación 4.
66. Un programa informático según una cualquiera
de las reivindicaciones 63 a 65, caracterizado porque está
adaptado además para realizar dicha etapa C2 del procedimiento
destinado a permitir la interacción por voz de una página web según
la reivindicación 8.
67. Un programa informático según una cualquiera
de las reivindicaciones 63 a 66, caracterizado porque está
adaptado además para realizar dicha etapa B2 del procedimiento
destinado a permitir la interacción por voz de una página web según
la reivindicación 14.
68. Un programa informático según la
reivindicación 67, caracterizado porque está adaptado además
para realizar dicha etapa B3 del procedimiento destinado a permitir
la interacción por voz de una página web según la reivindicación
16.
69. Un programa informático según una cualquiera
de las reivindicaciones 63 a 68, caracterizado porque está
adaptado además para realizar dicha etapa B4 del procedimiento
destinado a permitir la interacción por voz de una página web según
la reivindicación 29.
70. Un soporte de memoria legible por un
ordenador que tiene almacenado en su interior un programa,
caracterizado porque dicho programa es un programa
informático según una cualquiera de las reivindicaciones 63 a
69.
71. Un programa informático caracterizado
porque incluye medios de código adaptados para realizar, cuando
estos operan sobre un ordenador, las etapas del procedimiento
destinado a permitir la interacción por voz de una página web según
la reivindicación 37 ó 38.
72. Un soporte de memoria legible por un
ordenador que tiene almacenado en su interior un programa,
caracterizado porque dicho programa es un programa
informático según la reivindicación 71.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT2001RM000126A ITRM20010126A1 (it) | 2001-03-12 | 2001-03-12 | Metodo di abilitazione dell'interazione vocale di una pagina o di un sito web. |
ITRM01A0126 | 2001-03-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2254664T3 true ES2254664T3 (es) | 2006-06-16 |
Family
ID=11455316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02717055T Expired - Lifetime ES2254664T3 (es) | 2001-03-12 | 2002-03-12 | Procedimiento para permitir la interaccion por voz con una pagina web. |
Country Status (7)
Country | Link |
---|---|
US (1) | US20040141597A1 (es) |
EP (1) | EP1371057B1 (es) |
AT (1) | ATE309598T1 (es) |
DE (1) | DE60207217T2 (es) |
ES (1) | ES2254664T3 (es) |
IT (1) | ITRM20010126A1 (es) |
WO (1) | WO2002073599A1 (es) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1576769A4 (en) * | 2002-11-13 | 2011-08-31 | Intel Corp | MULTIMODE WEB INTERACTION ON A WIRELESS NETWORK |
JP4891072B2 (ja) * | 2003-06-06 | 2012-03-07 | ザ・トラスティーズ・オブ・コロンビア・ユニバーシティ・イン・ザ・シティ・オブ・ニューヨーク | ウェブ・ページを音声付勢するためのシステム及び方法 |
CA2571009C (en) * | 2005-09-23 | 2010-10-05 | Bce Inc. | Methods and systems for touch-free call origination |
CA2570737C (en) * | 2005-09-23 | 2010-04-06 | Bce Inc. | Methods and systems for touch-free call handling |
US20070294927A1 (en) * | 2006-06-26 | 2007-12-27 | Saundra Janese Stevens | Evacuation Status Indicator (ESI) |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US8060371B1 (en) | 2007-05-09 | 2011-11-15 | Nextel Communications Inc. | System and method for voice interaction with non-voice enabled web pages |
US20100086107A1 (en) * | 2008-09-26 | 2010-04-08 | Tzruya Yoav M | Voice-Recognition Based Advertising |
US9292253B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US10157612B2 (en) * | 2012-08-02 | 2018-12-18 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9781262B2 (en) * | 2012-08-02 | 2017-10-03 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9400633B2 (en) * | 2012-08-02 | 2016-07-26 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9292252B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US20160274864A1 (en) * | 2015-03-20 | 2016-09-22 | Google Inc. | Systems and methods for enabling user voice interaction with a host computing device |
CN106547511B (zh) * | 2015-09-16 | 2019-12-10 | 广州市动景计算机科技有限公司 | 一种语音播读网页信息的方法、浏览器客户端及服务器 |
US10373614B2 (en) | 2016-12-08 | 2019-08-06 | Microsoft Technology Licensing, Llc | Web portal declarations for smart assistants |
CN109313649B (zh) * | 2017-03-24 | 2022-05-31 | 微软技术许可有限责任公司 | 用于聊天机器人的基于语音的知识共享的方法和装置 |
CN110709923B (zh) * | 2017-03-31 | 2023-03-03 | 株式会社OPTiM | 语音内容记录***、方法以及记录介质 |
CN107332678A (zh) * | 2017-06-02 | 2017-11-07 | 深圳市华阅文化传媒有限公司 | 阅读页面语音互动的方法及*** |
IT202000005716A1 (it) | 2020-03-18 | 2021-09-18 | Mediavoice S R L | Metodo di navigazione di una risorsa mediante interazione vocale |
US11257396B2 (en) * | 2020-03-18 | 2022-02-22 | Sas Institute Inc. | User interfaces for converting geospatial data into audio outputs |
US11460973B1 (en) | 2022-04-11 | 2022-10-04 | Sas Institute Inc:. | User interfaces for converting node-link data into audio outputs |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69619592T2 (de) * | 1995-04-11 | 2002-11-07 | Dragon Systems Inc | Bewegung eines auf dem Bildschirm gezeigten Zeigers |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US6125376A (en) * | 1997-04-10 | 2000-09-26 | At&T Corp | Method and apparatus for voice interaction over a network using parameterized interaction definitions |
AU3104599A (en) * | 1998-03-20 | 1999-10-11 | Inroad, Inc. | Voice controlled web browser |
US6269336B1 (en) * | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
US6470317B1 (en) * | 1998-10-02 | 2002-10-22 | Motorola, Inc. | Markup language to allow for billing of interactive services and methods thereof |
US20020010584A1 (en) * | 2000-05-24 | 2002-01-24 | Schultz Mitchell Jay | Interactive voice communication method and system for information and entertainment |
-
2001
- 2001-03-12 IT IT2001RM000126A patent/ITRM20010126A1/it unknown
-
2002
- 2002-03-12 DE DE60207217T patent/DE60207217T2/de not_active Expired - Fee Related
- 2002-03-12 EP EP02717055A patent/EP1371057B1/en not_active Expired - Lifetime
- 2002-03-12 WO PCT/IT2002/000151 patent/WO2002073599A1/en not_active Application Discontinuation
- 2002-03-12 ES ES02717055T patent/ES2254664T3/es not_active Expired - Lifetime
- 2002-03-12 US US10/471,577 patent/US20040141597A1/en not_active Abandoned
- 2002-03-12 AT AT02717055T patent/ATE309598T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ATE309598T1 (de) | 2005-11-15 |
ITRM20010126A0 (it) | 2001-03-12 |
DE60207217D1 (de) | 2005-12-15 |
WO2002073599A1 (en) | 2002-09-19 |
US20040141597A1 (en) | 2004-07-22 |
DE60207217T2 (de) | 2006-08-03 |
EP1371057B1 (en) | 2005-11-09 |
ITRM20010126A1 (it) | 2002-09-12 |
EP1371057A1 (en) | 2003-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2254664T3 (es) | Procedimiento para permitir la interaccion por voz con una pagina web. | |
US7548858B2 (en) | System and method for selective audible rendering of data to a user based on user input | |
US8682671B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US6587822B2 (en) | Web-based platform for interactive voice response (IVR) | |
CA2818004C (en) | Text conversion and representation system | |
JP7111818B2 (ja) | セキュアな処理環境内のデータ転送 | |
US20060194181A1 (en) | Method and apparatus for electronic books with enhanced educational features | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP2002366186A (ja) | 音声合成方法及びそれを実施する音声合成装置 | |
CN105940446A (zh) | 例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的电脑程序产品和仿人机器人 | |
US20070055520A1 (en) | Incorporation of speech engine training into interactive user tutorial | |
CN1279804A (zh) | 通过听觉表示sgml数据页的***和方法 | |
JP2005249829A (ja) | 音声認識を行うコンピュータネットワークシステム | |
ES2254086T3 (es) | Terminal portatil con marcacion vocal minimizando la utilizacion de memoria. | |
Engell | TaleTUC: Text-to-Speech and Other Enhancements to Existing Bus Route Information Systems | |
JP2009086597A (ja) | テキスト音声変換サービスシステム及び方法 | |
Dobrišek et al. | Evolution of the information-retrieval system for blind and visually-impaired people | |
WO2002099786A1 (en) | Method and device for multimodal interactive browsing | |
Walker et al. | A new W3C markup standard for text-to-speech synthesis | |
Zhou | The NAO robot as a Personal Assistant | |
Islam et al. | Voice command based android java code generator | |
Draxler | Speech databases | |
CN116027946A (zh) | 互动小说中图片信息处理方法及装置 | |
Carrión | On the development of Adaptive and Portable Spoken Dialogue Systems: Emotion Recognition, Language Adaptation and Field Evaluation | |
Rozinaj | Terminals for the smart information retrieval |