ES2966686T3

ES2966686T3 - Asistente digital

Info

Publication number: ES2966686T3
Application number: ES18382291T
Authority: ES
Inventors: Jimenez Xabier Uribe-Etxebarria
Original assignee: Sherpa Europe S L
Current assignee: Sherpa Europe S L
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2024-05-29
Anticipated expiration: 2038-04-27
Also published as: EP3561660C0; EP3561660A1; WO2019207192A1; US11405742B2; US20210243545A1; EP3561660B1

Abstract

La presente invención se refiere a un método para que un asistente digital genere datos de salida, siendo implementado dicho método mediante una computadora. Además, la invención también se refiere a un programa informático y un dispositivo electrónico. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Asistente digital

Objeto de la invención

La presente invención está dirigida a un método de generación de datos de salida por parte de un asistente digital, siendo dicho método implementado por ordenador.

Adicionalmente, la invención se dirige también a un programa de ordenador y a un dispositivo electrónico en relación con este método, todo englobado en el campo de los asistentes digitales.

En particular, la presente invención permite simular el posicionamiento, en el espacio próximo a un usuario, de un asistente digital mediante audio con efecto tridimensional, donde dicho espacio se considera próximo al usuario siempre que sea lo suficientemente cercano al usuario como para que este usuario pueda percibir el audio.

Antecedentes de la invención

Los asistentes digitales actuales, asociados a dispositivos electrónicos, proporcionan una ayuda a los usuarios de dichos dispositivos, automatizando y realizando tareas a través de la interacción con el usuario. El documento US2017/094439A1 se refiere a la reproducción de una escena de audio virtual (por ejemplo un concierto musical) con un dispositivo de realidad virtual. El documento US2011/106825A1 se refiere a la implementación de un menú de audio virtual (por ejemplo la selección de música) con un dispositivo de realidad virtual.

La interacción que se da entre un asistente digital y un usuario debe ser eficaz, produciéndose actualmente o bien mediante interacción por voz en ambas direcciones, o bien mediante texto escrito o a través de algún elemento, tal como un botón o pantalla táctil presente en el propio dispositivo. También es posible la interacción entre el asistente digital y el usuario visualmente o a través de una acción, tal como un movimiento del usuario.

Por lo tanto, el usuario le hace llegar al asistente digital por cualquiera de los medios descritos una determinada solicitud, que el asistente digital atiende y responde, remitiendo dicha respuesta al usuario en cualquiera de las formas ya referidas (interacción por voz, texto, acciones, etc).

Sin embargo, los asistentes digitales actuales tienen limitaciones en la comunicación con el usuario, lo que conlleva posibles problemas de interpretación por parte del usuario de la respuesta generada por el asistente digital. Por ejemplo, la emisión de una respuesta por parte de un asistente digital por medio de audio o mensajes sonoros puede suponer una pérdida tanto de parte del contenido de la respuesta como de parte de los efectos sonoros que la respuesta pueda contener en la transmisión al usuario, generándose así una falta de información y/o malinterpretación del mensaje recibido por el usuario. Adicionalmente, esta pérdida de contenido y/o efectos en el mensaje recibido por el usuario producen una dilación en la recepción y comprensión del mensaje por parte del usuario.

Descripción de la invención

La presente invención propone una solución a los problemas anteriores mediante un método implementado por ordenador para generar datos de salida por parte de un asistente digital, según la reivindicación 1, un programa de ordenador que permita llevar a cabo dicho método, según la reivindicación 7, y un dispositivo electrónico según la reivindicación 8. En las reivindicaciones dependientes se definen realizaciones preferidas de la invención.

Un primer aspecto inventivo proporciona un método implementado por ordenador para generar datos de salida por parte de un asistente digital asociado a un dispositivo electrónico, en donde un usuario envía al asistente digital una petición específica y el asistente digital atiende y responde a dicha petición enviando una respuesta al usuario como datos de salida, y en donde el método comprende las siguientes etapas:

a) recibir datos de entrada en el dispositivo; en donde los datos de entrada comprenden datos en forma de texto, audio, señal visual, señal táctil, señal de un sensor y/o metadatos,

b) determinar si, en respuesta a dichos datos de entrada, han de proporcionarse datos de salida que incluyan audio con efecto tridimensional,

c) generar datos de salida, en donde en el caso de haber determinado que han de proporcionarse datos de salida que incluyan audio con efecto tridimensional, la generación de los datos de salida comprende incluir audio con efecto tridimensional en dichos datos de salida, y

d) emitir los datos de salida,

en donde la etapa b) comprende detectar si existen al menos dos emisores de audio conectados al dispositivo, y en donde: - en el caso de haber al menos dos emisores de audio conectados, se determina que han de proporcionarse datos de salida que incluyan audio con efecto tridimensional, y

- en el caso de haber menos de dos emisores de audio conectados, se determina que no han de proporcionarse datos de salida que incluyan audio con efecto tridimensional,

en donde la etapa c) de este primer aspecto inventivo comprende las siguientes etapas:

c1) evaluar los datos de entrada recibidos por el dispositivo electrónico,

c2) determinar los datos de salida adecuados a la evaluación de los datos de entrada recibidos por dicho dispositivo, y c3) generar los datos de salida adecuados a la determinación de la etapa b) y a la evaluación de los datos de entrada recibidos, y

en donde el audio con efecto tridimensional procede de un foco virtual y la posición de dicho foco virtual simula la posición del asistente digital;

en donde el método además comprende:

- consultar al menos una base de datos interna o externa al dispositivo electrónico, y

- utilizar el resultado de la consulta en la generación de los datos de salida;

en donde en una situación en la que el usuario del asistente digital interactúa con una persona, el asistente digital:

- procesa los datos de entrada obtenidos tanto del usuario como de la persona hablante, y

- emite los datos de salida al usuario a través de dos emisores de audio tales que los datos de salida de audio se emiten con un efecto tridimensional permitiendo que el usuario perciba la presencia del asistente virtual en el lado opuesto al lado en el que se localiza la persona hablante.

A lo largo de este documento, se entenderá que un asistente digital es un agente generado mediante software y que interacciona con un usuario, a diferencia de los asistentes personales, referidos a una persona o grupos de personas que permiten resolver tareas para un usuario presencialmente o mediante una conexión en remoto.

El presente método es ejecutado por parte de un dispositivo electrónico, que recibe los datos de entrada correspondientes, siendo estos datos de entrada los datos que contienen información suficiente para que el asistente digital genere datos de salida en forma de respuesta o indicaciones, dependiendo de los datos de entrada recibidos por parte del dispositivo electrónico.

El dispositivo electrónico puede ser cualquier dispositivo electrónico personal, tal como un teléfono móvil, una tableta, un ordenador, etc.

En una realización particular, el dispositivo electrónico personal se encuentra conectado con auriculares o altavoces inteligentes, o con cualquier emisor de audio inteligente.

En una realización particular, el dispositivo electrónico puede o bien estar próximo al usuario, o bien estar en remoto.

En una realización particular, los datos de entrada comprenden una petición de información por parte de un usuario, un resultado de una consulta a una base de datos, información obtenida por al menos un sensor.

Así, los datos de entrada pueden ser por ejemplo el resultado de una búsqueda periódica de nueva información que realice el dispositivo electrónico a bases de datos externas, tales como información sobre meteorología, resultados deportivos o recomendaciones gastronómicas relacionadas con los gustos e intereses del usuario. Los datos de entrada pueden ser también, por ejemplo, el resultado de la recepción automática de nueva información por parte del dispositivo electrónico.

Los datos de entrada pueden ser también una pregunta o una consulta o interacción explícita realizada por el usuario al asistente digital.

Así, el dispositivo electrónico puede recibir datos de entrada a través de un teclado, micrófono, pantalla táctil, sensores o elementos que permitan introducir datos o datos pre-procesados y convertidos en metadatos capaces de ser interpretados por el dispositivo electrónico.

Los datos de salida proporcionados por el asistente digital pueden contener audio con efecto tridimensional, lo cual se determinará en función de la comprobación de la existencia de dos emisores de audio conectados al dispositivo.

Dicha comprobación es realizada por el propio dispositivo, configurado para detectar la conexión, o bien cableada o bien inalámbrica, de al menos dos emisores de audio capaces de emitir datos de salida, en particular datos de salida en forma de audio. Dichos al menos dos emisores se corresponden con al menos dos canales distintos de reproducción.

La existencia de al menos dos emisores de audio conectados al dispositivo permite al usuario recibir los datos de salida incluyendo audio con efecto tridimensional, de manera que la recepción del mensaje o respuesta emitida por parte del asistente digital sea más rápida, realista y clara para el usuario, siendo adicionalmente dicho mensaje más completo.

Por ello, de manera ventajosa, la inclusión de efecto tridimensional en audio como parte de los datos de salida transmitidos por el asistente digital permite una mayor rapidez de asimilación del mensaje por parte del usuario así como un mayor realismo del mensaje trasmitido a través de los datos de salida.

El audio con efecto tridimensional, comprendido como parte de los datos de salida generados por el método según el presente aspecto inventivo permite mantener toda la información que el asistente digital considera necesaria para hacer llegar al usuario. De esta forma, se evitan posibles ambigüedades en la información recibida por parte del usuario, estando esta información enriquecida.

En una realización particular, el audio con efecto tridimensional se genera mediante cualquier técnica adaptada para la escucha binaural. Es decir, el audio que incluye efecto tridimensional, siendo dicho audio los datos de salida o parte de dichos datos de salida generados, es o bien generado o bien configurado mediante elementos pregrabados con técnica binaural. En un ejemplo particular, los elementos pregrabados podrían también ser obtenidos mediante holofonía.

El audio binaural es aquel que intenta crear para el usuario una sensación de sonido tridimensional similar a la de estar físicamente en el lugar donde se producen los sonidos. Se diferencia del estéreo en que reproduce el sonido en un rango de izquierda a derecha y en profundidad obteniéndose así un sonido en tres dimensiones.

La escucha con efecto binaural de un sonido se consigue mediante la imitación de las señales auditivas naturales recibidas por cada uno de los dos oídos, siendo por tanto una técnica que permite, de manera ventajosa, dar una sensación más rica de espacio, lo que permite una experiencia más realista y tridimensional, así como percibir de dónde proviene el sonido recibido. Es decir, la generación de sonidos con efecto tridimensional de manera que el usuario pueda percibirlos mediante escucha binaural implica la generación de un sonido corregido y adaptado a cada uno de los oídos de tal manera que el efecto tridimensional implementado en él a través de distintas variables le permite incorporar los efectos asociados a la posición, movimiento, timbre y distancia del foco del sonido hasta el usuario. Así, el sonido recibido por cada oído es corregido o modificado de manera diferente de forma que permita asociar un efecto que provea de mayor realismo al mensaje trasladado, consiguiéndose de esta forma un mejor entendimiento de este mensaje por parte del usuario.

Una vez se ha determinado la necesidad de incluir audio con efecto tridimensional en los datos de salida, el dispositivo electrónico genera dichos datos de salida para emitirlos y, de esta forma, hacerlos llegar al usuario como respuesta a los datos de entrada recibidos por el dispositivo.

En una realización particular, la generación de audio con efecto tridimensional comprende la etapa de establecer la posición virtual inicial de donde procede dicho audio y al menos una de las siguientes acciones:

- desfasar temporalmente el audio generado para su emisión por parte de uno de los al menos dos emisores de audio, y - aplicar una diferencia de intensidad o de amplitud al audio generado para su emisión por parte de uno de los al menos dos emisores de audio.

El audio con efecto tridimensional comprendido en los datos de salida generados es emitido por parte de un foco virtual de sonido.

Para la generación de audio con efecto tridimensional, es necesario establecer la situación en el espacio del foco virtual de sonido con respecto a los dos emisores de audio, o posición virtual inicial de dicho foco virtual de sonido, de donde procede el audio generado que se transmite hacia los dos emisores de audio. Dependiendo de dicha posición virtual inicial, el audio generado para cada uno de los dos emisores de audio es adaptado para incorporar el efecto tridimensional.

De esta forma, se toma como referencia un foco virtual de audio que se sitúe en el punto medio de la recta imaginaria que une los dos emisores de audio. Cualquier modificación de la situación de dicho foco virtual de audio implica las siguientes modificaciones en la onda de sonido:

- Desfase temporal: el audio generado por el foco llega en instantes distintos a cada uno de los dos emisores de audio. Por lo tanto, la generación de audio con efecto tridimensional implica incorporar a dicho audio un desfase temporal, dependiente de la distancia del foco de audio a cada uno de los dos emisores de audio, que le otorgue un efecto de realidad al audio generado. En este caso, un foco situado en un punto equidistante a ambos emisores de audio no incorpora ningún desfase temporal en el audio generado. En el caso de que dicho punto no sea equidistante, el desfase temporal afecta únicamente a uno de los dos emisores de audio, en particular al más lejano del foco, al que el sonido llega más tarde.

- Modificación de intensidad o amplitud de la onda de sonido: la intensidad o amplitud del audio generado por el foco virtual de sonido puede ser modificada bajo dos situaciones. Por un lado, el audio llega con menor intensidad al emisor de audio que se encuentra más alejado a dicho foco virtual, por lo que la generación de audio con efecto tridimensional implica modificar la onda de sonido de manera que para cada emisor de audio se ajusta la intensidad o amplitud de la onda que ha de llegar. Adicionalmente, la existencia de un cuerpo situado entre los dos emisores de audio provoca una variación de intensidad en el audio recibido por cada uno de los dos emisores, en particular, el audio generado por el foco virtual de sonido se ve modificado en la intensidad de alguna o la totalidad de frecuencias que lo componen, haciendo así al audio generado o bien perder o bien disminuir o modificar la intensidad asociada a ciertas frecuencias en su recepción por parte de uno de los dos emisores de audio. En concreto, en un ejemplo particular se pierden determinadas frecuencias (por ejemplo, las más agudas) de dicho audio debido al efecto pantalla causado por el cuerpo existente. Por tanto, uno de los al menos dos emisores de audio recibe el audio generado ya corregido en su intensidad para determinadas frecuencias, atenuando o eliminando estas frecuencias para incorporar el mencionado efecto pantalla.

Adicionalmente, la intensidad o amplitud de la onda de sonido puede ser modificada también en el caso de que el foco virtual de audio se aleje o acerque a los al menos dos emisores de audio.

Adicionalmente, la modificación de la situación de un foco virtual de audio puede suponer también la necesidad de corrección o eliminación de ciertas frecuencias del audio.

Es conocido cómo realizar estas correcciones relativas al desfase temporal, la modificación de intensidad, de amplitud o de frecuencia en función de la situación espacial de cada uno de los emisores de audio y del foco de sonido.

Estas acciones permiten, de manera individual, modificar la onda de sonido asociada al audio a transmitir, de manera que dicho audio incluya un efecto tridimensional que permita una mejor comprensión del mensaje, evitando ambigüedades en dicho mensaje, por parte del usuario, así como una reducción del tiempo de asimilación de dicho mensaje por parte del usuario.

Así, una vez que la posición virtual inicial del foco virtual de sonido es establecida, se procede a aplicar las correcciones necesarias sobre el audio a transmitir al usuario, generando así el efecto tridimensional necesario.

Dichas correcciones aplicadas son conocidas, y proveen de factores correctores para el desfase temporal, intensidad o amplitud y frecuencia a considerar para cada uno de los al menos dos emisores de audio.

Los factores correctores se seleccionan en función de la posición virtual del foco de sonido, que se determina automáticamente o de forma predeterminada, y que puede modificarse durante la emisión del sonido para dar un efecto de movimiento del asistente digital, siendo la posición virtual de dicho foco de sonido la posición deseada para la situación del asistente digital.

En una realización particular, se parte de la referencia mencionada para el foco virtual de audio, siendo ésta la posición del foco virtual en el punto medio de la recta imaginaria que une los dos emisores de audio.

A partir de dicha posición virtual inicial, es posible modificar la posición virtual siguiendo patrones de movimiento, o bien aleatorios o bien predeterminados, de manera que se simula el movimiento del asistente digital. Los patrones de movimiento pueden ser creados también atendiendo a distintas acciones del asistente digital o a los datos de entrada recibidos por parte del dispositivo electrónico.

Esto es, trasladando la posición virtual del foco virtual en torno al espacio próximo al usuario se consigue que el audio con efecto tridimensional emitido por dicho foco virtual, y por lo tanto atribuido al asistente digital, sea percibido por el usuario de la misma forma que lo haría si un foco real de sonido estuviera en movimiento a su alrededor. Esto se obtiene a base de correcciones aplicadas sobre el audio generado en función de la posición en cada instante del foco virtual de sonido.

En una realización particular, los patrones de movimiento del foco virtual de sonido están condicionados a la situación de otros focos de sonido del entorno, datos de entrada recibidos por el dispositivo electrónico o datos de salida que han de ser generados en respuesta a estos datos de entrada.

En una realización particular, los datos de salida comprenden uno o varios componentes seleccionados de entre: audio, imagen, texto, contenido aumentado, contenido de realidad virtual o al menos una sentencia para la ejecución de acciones internas o externas al dispositivo electrónico.

Por tanto, la etapa d) del método objeto del primer aspecto inventivo en donde se emiten los datos de salida ya generados puede combinar distintos formatos de datos. Esto es, no solo puede emitir datos de salida en forma de audio a través de los al menos dos emisores de audio del dispositivo sino que, por ejemplo, los datos de salida pueden incluir también un mensaje o señal visual emitida a través de una pantalla, o una sentencia que permita realizar una acción tal como la de encender/apagar el propio dispositivo electrónico.

El contenido aumentado permite combinar imagen captada por el dispositivo electrónico con información adicional, preferiblemente con información visual adicional. Esto permite proveer de datos de salida con realidad aumentada. En una realización particular, los datos de salida comprenden una combinación de realidad aumentada y audio con efecto tridimensional.

El contenido de realidad virtual permite simular información visual de la manera más real posible, incorporando así esta información a los datos de salida. Esto permite proveer de datos de salida con realidad virtual.

En una realización particular, los datos de salida comprenden una combinación de realidad virtual y audio con efecto tridimensional.

Es decir, la generación de datos de salida por parte del asistente digital comprende la combinación de dos evaluaciones:

- Una primera evaluación, ejecutada durante la etapa b), en donde se determina si es necesario que los datos de salida incluyan audio con efecto tridimensional, de manera que el mensaje a transmitir mediante dichos datos de salida sea comprendido de manera más rápida por parte del usuario así como que sea percibido de forma más realista, enriqueciendo así el mensaje contenido en dichos datos de salida, y

- Una segunda evaluación relativa a los datos de entrada recibidos por parte del dispositivo electrónico. Dicha evaluación implica tener en cuenta las características relativas al propio mensaje o consulta implícita en los datos de entrada recibidos, y en función de estas características elaborar una serie de datos de salida, bien conteniendo audio con efecto tridimensional o no en función del resultado de la primera evaluación, que respondan de manera eficaz a la petición relacionada con los datos de entrada.

Ventajosamente, la combinación de ambas evaluaciones permite que el mensaje o respuesta a trasmitir mediante los datos de salida se ajuste a las necesidades del usuario, y colabore por tanto en la resolución de posibles consultas que éste pueda tener o informe de manera puntual a dicho usuario de posible información de su interés.

En una realización particular, la etapa c) del presente aspecto inventivo comprende evaluar al menos una de las siguientes variables: contexto de los datos de entrada, tipo de información a proporcionar como datos de salida, posición espacial del dispositivo electrónico que implementa el método, posición espacial de un usuario del dispositivo electrónico que implementa el método, hora, fecha, ruido ambiente en un entorno del dispositivo electrónico que implementa el método. Dichas variables evaluadas permiten aportar la información precisa para la determinación de los datos de salida a generar.

Es decir, en función de la evaluación de la al menos una de las anteriores variables, el asistente digital permite generar una respuesta adecuada y acorde a los datos de entrada recibidos por el dispositivo, de manera satisfactoria para el usuario.

Así, variables tales como el contexto de los datos de entrada permiten tener en cuenta la pragmática del mensaje o información que se suministra a través de los datos de entrada al dispositivo, y que de manera implícita contienen la consulta o interés del usuario del asistente digital.

Una combinación de todas las anteriores variables es posible, llegando así al dispositivo una combinación de información como datos de entrada más completa para la que se determinará como datos de salida una respuesta acorde a todas las variables contempladas.

En una realización particular, la posición virtual del foco virtual de sonido se actualiza cada vez que el usuario realiza un movimiento, en particular, cada vez que dicho movimiento afecta a la posición en la que se sitúan los al menos dos emisores de audio. Este movimiento puede ser tanto de traslación como de rotación en relación con cualquiera de los tres ejes del sistema de referencia espacial, recalculándose la nueva posición virtual del foco virtual y aplicando las correcciones necesarias al audio generado en función de:

- la nueva posición virtual del foco virtual de sonido en el espacio, y

- la posición virtual de dicho foco en relación con la posición del usuario en el espacio.

En un segundo aspecto inventivo, la invención proporciona un programa de ordenador que comprende código de programa que, cuando es ejecutado en un ordenador, hace que el ordenador lleve a cabo las etapas del método según el primer aspecto inventivo.

Así, dicho programa de ordenador permite al dispositivo electrónico ejecutar las etapas especificadas en el método descrito anteriormente.

El programa además comprende instrucciones para consultar al menos una base de datos interna o externa al dispositivo electrónico.

De esta forma, el dispositivo electrónico es capaz de conectarse con bases de datos internas a dicho dispositivo, por ejemplo almacenadas en una memoria, o bases de datos externas a dicho dispositivo, por ejemplo bases de datos existentes a través de Internet o existentes en servidores externos.

En una realización particular, la conexión del dispositivo electrónico a cualquiera de dichas bases de datos se realiza o bien de manera activa por parte del usuario, o bien de manera proactiva por parte del asistente digital.

El programa además comprende instrucciones para utilizar el resultado de la consulta en la generación de los datos de salida. De esta forma, el resultado de la consulta es tenido en cuenta como parte de los datos de entrada recibidos por parte del dispositivo electrónico, y se evalúan junto con el resto de variables para la generación de un mensaje adecuado a las necesidades del usuario.

En un tercer aspecto inventivo, la invención proporciona un dispositivo electrónico que comprende un procesador, una memoria accesible desde el procesador, y un programa almacenado en la memoria, comprendiendo el programa instrucciones para llevar a cabo un método según el primer aspecto inventivo, comprendiendo además el dispositivo al menos un emisor de datos de salida.

En una realización particular, el dispositivo electrónico comprende dos emisores de audio.

En una realización particular, los al menos dos emisores de audio del dispositivo electrónico son dos auriculares. Dichos auriculares se encuentran conectados con cada uno de los oídos del usuario.

Descripción de los dibujos

Estas y otras características y ventajas de la invención, se pondrán más claramente de manifiesto a partir de la descripción detallada que sigue de una forma preferida de realización, dada únicamente a título de ejemplo ilustrativo y no limitativo, con referencia a las figuras que se acompañan.

Figura 1 En esta figura se muestra un diagrama de flujo del método de generación de respuesta por parte de un asistente digital según una realización del primer aspecto inventivo.

Figura 2 En esta figura se muestra un primer ejemplo de un dispositivo según un tercer aspecto inventivo. Figura 3 En esta figura se muestra un ejemplo particular de las funciones de un asistente digital.

Figura 4 En esta figura se muestra el uso de un asistente digital según la invención reivindicada.

Figuras 5A y 5B En estas figuras se muestran dos ejemplos de situación de un foco virtual de sonido con respecto a un usuario en relación con su posición lineal.

Figura 5C En esta figura se muestra un sistema de referencia con respecto a un usuario que permitirá la situación de un foco virtual de sonido con respecto a un usuario en relación con su posición lineal. Figuras 6A y 6B En estas figuras se muestran dos ejemplos de situación de un foco virtual de sonido con respecto a un usuario en relación con su posición angular.

Exposición detallada de la invención

La Figura 1 muestra un diagrama de flujo del método de generación de datos de salida por parte de un asistente digital según un primer aspecto inventivo.

Tal y como muestra la figura 1, el método comprende una primera etapa (100) de recepción de datos de entrada en el dispositivo electrónico.

Una vez recibidos (100) dichos datos de entrada, el método mediante una evaluación de los datos de entrada, realiza una determinación (110) sobre los datos de salida a proporcionar. El método determina en esta segunda etapa (110) si el asistente digital debe proveer al usuario de datos de salida que incluyan audio con efecto tridimensional o si, por el contrario, los datos de salida proporcionados no han de incluir audio con dicho efecto tridimensional.

Una vez realizada la etapa de determinación (110), el método realiza una tercera etapa de generación (120) de los datos de salida correspondientes, incluyendo audio con efecto tridimensional en el caso de que se hayan detectado al menos dos emisores de audio conectados al dispositivo, preferiblemente dos auriculares que el usuario porta en los oídos y que le permiten percibir el audio con efecto tridimensional generado como parte de los datos de salida en la presente etapa de generación (120).

En el caso de que no se hayan detectado al menos dos emisores de audio conectados al dispositivo, los datos de salida pueden incluir audio que no contenga efecto tridimensional, dado que no es posible para el usuario percibirlo sin contar con al menos dos emisores de audio que permitan transmitir los datos de salida generados en la etapa de generación (120).

Finalmente, el método comprende una última etapa de emisión (140) de datos de salida en la que dichos datos de salida, con o sin audio con efecto tridimensional son emitidos de manera que el usuario puede recibirlos, como respuesta a los datos de entrada recibidos (100) en la primera etapa del método.

La figura 2 muestra un ejemplo de un dispositivo electrónico (1). Dicho dispositivo electrónico (1) comprende elementos que permiten introducir en la unidad de procesamiento (2) una serie de datos de entrada.

El presente dispositivo electrónico (1) comprende una pantalla táctil (3), que permite introducir información por parte del usuario a través de los botones, teclado o iconos gráficos correspondientes.

El dispositivo electrónico (1) comprende también una serie de sensores que permiten la entrada de datos a la unidad de procesamiento (2). Dichos sensores son un detector de imágenes (6.1), detector gestual (6.2) y un detector de reconocimiento facial (6.3).

La entrada de este tipo de datos a la unidad de procesamiento (2) permite determinar por parte de la unidad de procesamiento (2) quién es el usuario, de manera que se adecuen las preferencias informativas del asistente digital dirigidas a éste. La misma unidad permite también detectar gestos.

El dispositivo electrónico (1) comprende además en esta realización otro tipo de sensores, tales como un acelerómetro (7.1), un giroscopio (7.2) y un detector de proximidad (7.3), que permiten introducir en la unidad de procesamiento (2) datos como la distancia de una persona al usuario del dispositivo (1), la posición del usuario y sus posibles movimientos. El dispositivo (1) contiene también un GPS que permite determinar de manera precisa las coordenadas de posicionamiento del usuario.

Adicionalmente, el dispositivo electrónico (1) comprende un micrófono (8.1), que permite al usuario introducir como datos de entrada en la unidad de procesamiento (2) datos de voz, para así plantear preguntas o cuestiones al asistente digital. El dispositivo electrónico (1) comprende adicionalmente un sensor de dirección de audio (8.2) que permite distinguir sonidos dirigidos al dispositivo (1) tanto por parte del usuario como de las personas a su alrededor o del entorno. Este sensor (8.2) permite determinar la posición de la fuente del sonido así como su distancia aproximada hasta el sensor (8.2). Los datos de entrada (21) pueden ser introducidos adicionalmente a través de un teclado, puntero, y/o controlador. La unidad de procesamiento (2) del dispositivo (1) comprende un procesador (2.1) que almacena el programa mediante el cual se ejecutan las sentencias correspondientes a las distintas etapas (100 a 140) del método que se observa en la figura 1 y que, por tanto, analiza cada uno de los datos de entrada determinando la respuesta necesaria como datos de salida a emitir hacia el usuario.

El procesador (2.1) permite a su vez coordinar tanto la entrada de datos como la salida de datos correspondiente a cada entrada, así como su conexión con bases de datos externas o internas al dispositivo (1).

La unidad de procesamiento (2) comprende también una memoria (2.2) en donde se alojan tanto las bases de datos internas del dispositivo (1) como los datos del usuario del asistente digital.

Cada uno de los elementos que permiten introducir datos de entrada en la unidad de procesamiento (2) comprende una comunicación bidireccional con dicha unidad de procesamiento (2).

Tras el análisis por parte de la unidad de procesamiento (2) de los datos de entrada, se generan una serie de datos de salida que son emitidos a través de unos auriculares (4), en particular dos auriculares (4.1, 4.2) situados cada uno en un oído del usuario. Los datos de salida pueden ser emitidos también mediante unos altavoces (4).

La figura 3 muestra un ejemplo particular de las funciones de un asistente digital (10). Este asistente digital (10) puede estar implementado tanto en un ordenador sin conexión a redes como en un ordenador conectado a una red de ordenadores.

El presente asistente digital (10) comprende un módulo receptor (11) de datos de entrada, que permite la introducción de datos de entrada (21) en el asistente digital (10) en distintos formatos para su tratamiento y determinación de la respuesta adecuada a generar como datos de salida (22).

El presente módulo receptor (11) envía los datos de entrada recibidos (21) o bien en forma de audio (23), texto o imagen (24) o cualquier otro formato (25) hacia el módulo de procesamiento (14).

En el caso de tratarse de datos en forma de audio (23), estos datos pasan a través del módulo de audio (12) y del módulo de procesamiento de lenguaje natural (13) antes de ser introducido en el módulo de procesamiento (14).

El módulo de audio (12) permite traducir un audio emitido por parte de un usuario, así como el posible ruido ambiente que rodea a dicho usuario, en texto y/o metadatos, de manera que sean legibles para el módulo de procesamiento (14). Adicionalmente, el módulo de audio (12) permite también reconocer al usuario emisor del audio recibido por el asistente digital (10), de manera preferida conteniendo el asistente (10) una relación de posibles usuarios y su huella de voz. El módulo de procesamiento de lenguaje natural (13) permite tomar el texto y/o metadatos obtenidos por el módulo de audio (12) y desambiguarlo, obteniendo así tanto el significado como la intención del mensaje de audio recibido por el módulo de audio (12), ya que, a parte del audio emitido por el usuario, el módulo de audio (12) permite también obtener información contextual asociada con dicho usuario. La desambiguación de los datos obtenidos por parte del módulo de audio (12) se obtiene a través de análisis del tipo semántico, sintáctico, léxico, morfológico, pragmático, funcional y emocional entre otros.

Adicionalmente, el sonido ambiente entrante junto con el audio recibido por el asistente (10) es eliminado sin que esto provoque una pérdida de contenido del mensaje introducido en dicho asistente (10).

Cada uno de los datos de entrada (21) debidamente tratados por parte del módulo receptor (11), el módulo de audio (12) y el módulo de procesamiento de lenguaje natural (13) según corresponda, es recibido por el módulo de procesamiento (14).

Este módulo de procesamiento (14) permite gestionar dichos datos y/o metadatos, así como determinar la necesidad de consulta con los servicios de información internos y externos (18), o bases de datos externas o internas.

El módulo de procesamiento (14) se comunica de forma bidireccional con el módulo proactivo (17), que comprende un perfil de usuario (17.1).

El módulo proactivo (17) puede estar activo ininterrumpidamente, y permite en base a un umbral de certidumbre conocido decidir acerca de consultas o información que considere relevantes para el usuario. Es decir, en base a las acciones del usuario, su información más relevante o datos tales como su geolocalización, el módulo proactivo (17) permite generar un perfil de usuario (17.1) que permite la emisión de cierta información relevante sin necesidad de contar con una cuestión o pregunta expresa del usuario, sino automática en base a búsquedas iterativas generadas por parte del propio módulo proactivo (17).

Así, el módulo proactivo (17) se comunica con el módulo de procesamiento (14), que permite su conexión con servicios de información internos y externos (18) para la consulta de información relevante.

En función de dicha consulta, el módulo proactivo (17) genera una serie de datos que serán procesados por el módulo de procesamiento (14) y que darán lugar de manera correspondiente a datos de salida (22) hacia el usuario en forma de notificaciones o acciones correspondientes.

Tanto el módulo proactivo (17) como los servicios de información internos y externos (18) están conectados mediante red (30) con cualquier elemento externo, por cable y/o de manera inalámbrica.

Los datos y/o metadatos obtenidos por parte del módulo de procesamiento (14) son transferidos al módulo de respuesta (15), módulo que permite la generación de nuevos datos y/o metadatos en forma de datos de salida (22), que son emitidos al usuario por parte del módulo emisor (16).

El módulo de respuesta (15) comprende un módulo de dialogo (15.1) que permite generar el texto necesario a partir de los datos y/o metadatos obtenidos por parte del módulo de procesamiento (14) de manera que el usuario sea capaz de recibir datos de salida en la forma de un mensaje coherente.

Este módulo de diálogo (15.1) comprende a su vez un módulo TTS (15.2) o' Text to Speech’(texto a audio) así como un módulo de sonidos y efectos (15.3). El módulo TTS (15.2) convierte el texto que conforma los datos de salida (22) en forma de mensaje al usuario en audio, mientras que el módulo de sonidos y efectos (15.3) genera u obtiene los sonidos necesarios que permiten incluir en el audio un efecto tridimensional.

El módulo de respuesta (15) comprende adicionalmente un módulo generador de otras respuestas (15.4), que permite a la vez que la respuesta generada por el módulo de dialogo (15.1), generar respuestas de otro tipo, tales como visuales, así como sentencias para la ejecución de acciones predeterminadas que acompañen a dicha respuesta.

Tanto el módulo de dialogo (15.1) como el módulo generador de otras respuestas (15.4) permiten su conexión con servicios de información internos y externos (18) de manera que pueden tomar tanto datos de audio (23) como texto o imágenes (24) necesarias para la generación de la respuesta correspondiente.

El módulo de respuesta (15) transmite los datos generados al módulo emisor (16), que a su vez los emite al usuario a través de los al menos dos emisores de audio, en este caso dos auriculares alojados en los oídos del usuario, así como de cualquier otro medio de emisión como pantalla, altavoces, o en forma de acciones ejecutadas por el propio dispositivo electrónico o por otro dispositivo.

En un ejemplo particular, el asistente digital (10) comprende también un módulo de guion (no mostrado en la figura), comprendido en el módulo de respuesta (15), que genera el texto necesario para configurar un mensaje que pueda ser comprendido por un usuario. Dicho mensaje puede ir acompañado de sonidos, música o ruido ambiente, es decir, efectos sonoros que sirven de ayuda al usuario para comprender mejor el mensaje, y que son generados por un módulo distinto a este módulo de guion.

La figura 4 muestra el uso de un asistente digital (10) según una invención reivindicada.

En esta figura, se muestra una situación en la cual el usuario (30) del asistente digital (10) interactúa con una persona (40).

Tal y como se observa en la figura, la persona (40) se sitúa en el lado derecho del usuario (30), emitiendo por tanto sonidos que llegan tanto al usuario (30) como al módulo receptor (11) del asistente digital (10) por dicho lado.

El asistente digital (10) procesa los datos de entrada (21) obtenidos tanto del usuario (30) en caso de haberlos, como de la persona (40) hablante, y emite una serie de datos de salida (22) acordes a los mensajes recibidos, tales como por ejemplo el reconocimiento mediante la voz de la persona (40), información relativa a su mensaje, o información relativa a la propia persona (40), todo ello siendo de interés para el usuario (30).

El asistente digital (10) emite dichos datos de salida (22) hacia el usuario, y lo hace a través de los dos emisores de audio alojados en los oídos de dicho usuario (30) de forma que los datos de salida (22) de audio son emitidos con un efecto tridimensional que permiten al usuario (30) percibir la presencia del asistente digital (10) en el lado contrario al lado en el que se sitúa la persona (40) hablante, en este caso en su lado izquierdo.

Esto evita la confusión del usuario (30) relativa a los distintos mensajes recibidos tanto por parte de la persona (40) hablante como del propio asistente digital (10).

El efecto tridimensional incluido en el audio, y emitido como parte de los datos de salida (22) permiten también una mejor asimilación del mensaje por parte del usuario (30) en casos en que el asistente digital (10) es requerido para realizar cualquier búsqueda o consulta por parte del usuario (30), así como en el caso de que el propio asistente digital (10), mediante el módulo proactivo (17), permita la emisión de datos de salida (22) de interés para el usuario (30).

Las figuras 5A y 5B muestran la situación espacial de un foco (50) virtual de audio con respecto a la posición de un usuario (30). En el contexto de la presente invención se considera que el foco (50) virtual es el origen virtual del sonido proporcionado por el asistente digital. Dicha situación, en un punto determinado del espacio, influye en el mensaje que recibe un usuario (30) desde dicho foco (50) virtual.

En la figura 5A se muestra un foco (50) virtual situado en un punto del espacio alejado de los dos oídos del usuario (30), por lo que el mensaje emitido por parte de dicho foco (50) virtual y recibido por los auriculares portados por los oídos del usuario (30) se encuentra corregido con respecto al desfase temporal, amplitud e intensidad.

Sin embargo, la figura 5B muestra un foco (50) virtual situado en un punto del espacio que, aunque alejado de los dos oídos del usuario (30), se encuentra en un punto equidistante a ambos oídos. Por lo tanto, el mensaje emitido por parte de dicho foco (50) virtual y recibido por los auriculares portados por los oídos del usuario (30) se encuentra corregido únicamente con respecto a la amplitud e intensidad de la onda del audio generado, y no introduce ningún desfase temporal al estar igualmente separado de ambos oídos.

La figura 5C muestra un usuario (30), en donde los dos puntos extremos (31, 32) representan los oídos de dicho usuario (30). El punto intermedio, origen del sistema de referencia cartesiano mostrado, representa el punto situado en la línea imaginaria que une ambos oídos (31, 32), de manera que el eje X establece un conjunto de posiciones equidistantes a ambos oídos en las que, si se sitúa un foco virtual de sonido (no mostrado), no sería necesaria la corrección del audio emitido por éste en cuanto al desfase temporal.

La figura 6A muestra un usuario (30) orientado en el espacio con respecto a un foco (50) virtual de sonido. Tal y como se puede observar, el usuario se encuentra orientado hacia la dirección X, con su oído derecho directamente enfrentado al foco (50) virtual de sonido.

Siguiendo el patrón mostrado en esta figura mediante una línea curva, cuando el usuario (30) gira la cabeza un ángulo de 90° hacia el foco (50) virtual, la posición virtual de dicho foco (50) en relación con la del usuario (30) cambia.

Así, tal y como se muestra en la figura 6B, la posición del usuario (30) ha variado, y ahora se encuentra directamente enfrentado al foco (50) virtual de sonido, quedando dicho foco (50) virtual situado en un punto equidistante a los dos oídos del usuario (30).

Tal y como se observa, el sistema de referencia se modifica, acorde con la nueva posición del usuario (30), estando éste de nuevo orientado hacia la dirección X, y variando la posición relativa entre el usuario (30) y el foco (50) virtual de sonido.

Con esta modificación de la posición del usuario (30), el asistente digital (no mostrado):

- o bien modifica su posición virtual, y por tanto la del foco (50) virtual de sonido de manera análoga a la modificación de posición realizada por el usuario (30), esto es, rotando también 90° en el mismo sentido que el usuario (30),

- o bien mantiene su posición virtual de manera que su posición en relación con el usuario (30) se ve modificada.

En el primer caso, la percepción del usuario (30) del sonido emitido por el foco (50) virtual de sonido es la misma, debido a que el foco (50) se reubica de manera que el audio es recibido por el usuario de la misma manera que en la posición inicial.

En el segundo caso, la percepción del sonido emitido por el foco (50) virtual de sonido es corregida en base a las variables mencionadas anteriormente, por lo que al verse modificada la posición del foco (50) virtual en relación con el usuario (30), el sonido es percibido por éste de manera distinta.

En un ejemplo adicional, no mostrado en las figuras, el asistente digital permite, mediante el módulo de respuesta, añadir efectos sonoros a los datos de salida emitidos al usuario, que ya comprenden audio con efecto tridimensional.

De manera particular en este ejemplo, si el usuario demanda al asistente una información determinada, el asistente digital genera unos datos de salida que se corresponden con la información demandada, provista al usuario. Sin embargo, de manera adicional, el asistente digital también incorpora, durante el proceso de búsqueda, un efecto sonoro a los datos de salida, tal como el ruido de archivadores al abrirse, pasos del asistente digital en movimiento, o el ruido de papeles, que simulan la búsqueda que el asistente digital está realizando en paralelo. De esta forma, el usuario recibe información de manera continua del asistente digital, desde que emite su solicitud hasta que le es respondida por parte del asistente digital, mediante dichos efectos sonoros y recibiendo la repuesta final como datos de salida que incluyan audio con efecto tridimensional que permita también una mejor comprensión del mensaje transmitido, así como su enriquecimiento y evitar ambigüedades de dicho mensaje.

Claims

REIVINDICACIONES

1. Método implementado por ordenador para generar datos de salida (22) por parte de un asistente digital (10) asociado a un dispositivo electrónico (1), en donde un usuario (30) envía al asistente digital (10) una petición específica y el asistente digital (10) atiende y responde a dicha petición enviando una respuesta al usuario (30) como datos de salida (22), y en donde el método comprende las siguientes etapas:

a) recibir datos de entrada (21) en el dispositivo (1); en donde los datos de entrada (21) comprenden datos en forma de texto, audio, señal visual, señal táctil, señal de un sensor y/o metadatos,

b) determinar si, en respuesta a dichos datos de entrada (21), han de proporcionarse datos de salida (22) que incluyan audio (23) con efecto tridimensional,

c) generar datos de salida (22), en donde en el caso de haber determinado que han de proporcionarse datos de salida (22) que incluyan audio (23) con efecto tridimensional, la generación de los datos de salida (22) comprende incluir audio (23) con efecto tridimensional en dichos datos de salida (22), y

d) emitir los datos de salida (22),

en donde la etapa b) comprende detectar si existen al menos dos emisores de audio conectados al dispositivo (1), y en donde:

- en el caso de haber al menos dos emisores de audio conectados, se determina que han de proporcionarse datos de salida (22) que incluyan audio (23) con efecto tridimensional, y

- en el caso de haber menos de dos emisores de audio conectados, se determina que no han de proporcionarse datos de salida (22) que incluyan audio (23) con efecto tridimensional,

en donde la etapa c) comprende:

- evaluar los datos de entrada (21) recibidos,

- determinar los datos de salida (22) adecuados a la evaluación de los datos de entrada (21) recibidos, y

- generar los datos de salida (22) adecuados a la determinación de la etapa b) y a la evaluación de los datos de entrada (21) recibidos, y

en donde el audio (23) con efecto tridimensional procede de un foco (50) virtual en una posición virtual, la posición virtual siendo la posición de dicho foco (50) virtual que simula la posición del asistente digital (10);

en donde el método además comprende:

- consultar al menos una base de datos interna o externa al dispositivo electrónico (1), y

- utilizar el resultado de la consulta en la generación de los datos de salida (22); y

en donde en una situación en la que el usuario (30) del asistente digital (10) interactúa con una persona (40), el asistente digital (10):

- procesa los datos de entrada (21) obtenidos tanto del usuario (30) como de la persona (40) hablante, y - emite los datos de salida (22) al usuario a través de dos emisores de audio tales que los datos de salida de audio (22) se emiten con un efecto tridimensional permitiendo que el usuario (30) perciba la presencia del asistente virtual (10) en el lado opuesto al lado en el que se localiza la persona (40) hablante.

2. Método según cualquiera de las reivindicaciones anteriores en donde la etapa c) comprende evaluar al menos una de las siguientes variables: contexto de los datos de entrada (21), tipo de información a proporcionar como datos de salida (22) , posición espacial del dispositivo electrónico (1) que implementa el método, posición espacial del usuario (30) del dispositivo electrónico (1) que implementa el método, hora, fecha, ruido ambiente en un entorno del dispositivo electrónico (1) que implementa el método.

3. Método según cualquiera de las reivindicaciones anteriores en donde la generación de audio (23) con efecto tridimensional comprende la etapa de establecer la posición virtual inicial de donde procede dicho audio (23) y al menos una de las siguientes acciones:

- desfasar temporalmente el audio (23) generado para su emisión por parte de uno de los al menos dos emisores de audio, y

- aplicar una diferencia de intensidad o de amplitud al audio (23) generado para su emisión por parte de al menos uno de los al menos dos emisores de audio.

4. Método según cualquiera de las reivindicaciones anteriores en donde los datos de salida (22) comprenden uno o varios componentes seleccionados de entre: audio, imagen, texto, contenido aumentado, contenido de realidad virtual o al menos una sentencia para la ejecución de acciones externas.

5. Método según cualquiera de las reivindicaciones anteriores en donde los datos de entrada (21) comprenden una petición de información por parte del usuario (30), un resultado de una consulta a una base de datos, información obtenida por al menos un sensor.

6. Método según cualquiera de las reivindicaciones anteriores en donde el audio (23) con efecto tridimensional se genera mediante cualquier técnica adaptada para la escucha binaural.

7. Programa de ordenador que comprende código de programa que, cuando es ejecutado en un ordenador, hace que el ordenador lleve a cabo las etapas del método según cualquiera de las reivindicaciones anteriores.

8. Dispositivo electrónico (1) que comprende:

un procesador (2.1),

una memoria (2.2) accesible desde el procesador (2.1), y

un programa almacenado en la memoria (2.2), comprendiendo el programa instrucciones para llevar a cabo un método según cualquiera de las reivindicaciones 1 a 6, y

al menos un emisor de datos de salida (22).

9. Dispositivo electrónico (1) según la reivindicación anterior que comprende dos emisores de audio.

10. Dispositivo electrónico según la reivindicación anterior en donde los al menos dos emisores de audio son dos auriculares (4.1, 4.2).