ES2327522T3 - Procedimiento de reconocimiento de palabra distribuido. - Google Patents

Procedimiento de reconocimiento de palabra distribuido. Download PDF

Info

Publication number
ES2327522T3
ES2327522T3 ES04718327T ES04718327T ES2327522T3 ES 2327522 T3 ES2327522 T3 ES 2327522T3 ES 04718327 T ES04718327 T ES 04718327T ES 04718327 T ES04718327 T ES 04718327T ES 2327522 T3 ES2327522 T3 ES 2327522T3
Authority
ES
Spain
Prior art keywords
signal
parameters
server
modeling
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04718327T
Other languages
English (en)
Inventor
Jean Monne
Jean-Pierre Petit
Patrick Brisard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2327522T3 publication Critical patent/ES2327522T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)
  • Devices For Executing Special Programs (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

Un procedimiento de reconocimiento de palabra distribuido, que incluye al menos un terminal de usuario y al menos un servidor aptos para comunicarse entre ellos por medio de una red de telecomunicaciones, según el cual a nivel de terminal de usuario, se realizan al menos las etapas siguientes: - obtener una señal de audio a reconocer; - calcular los parámetros de modelización de la señal de audio a reconocer; e - intentar asociar una forma memorizada a los parámetros de modelización; y, según el cual, a nivel de servidor se realizan al menos las etapas siguientes: - recibir una señal emitida por el terminal de usuario; - intentar asociar una forma memorizada a la señal recibida; caracterizado por las etapas siguientes, realizadas a nivel de terminal de usuario: - independientemente de la etapa de intento de asociar una forma memorizada: - seleccionar una señal entre al menos la señal de audio a reconocer y una señal que indique los parámetros de modelización, en función de criterios relativos a la carga de los diferentes medios de procesamiento a nivel de terminal y de servidor, y/o en función de criterios relativos a la disponibilidad de canales de transmisión de voz o de datos; y - emitir la señal seleccionada con destino al servidor.

Description

Procedimiento de reconocimiento de palabra distribuido.
La presente invención se refiere al sector del mando vocal de aplicaciones, ejercido sobre terminales de usuario, gracias al establecimiento de medios de reconocimiento de palabra. Los terminales usuarios considerados son todos los dispositivos dotados de un medio de captura de la palabra normalmente un micrófono, que poseen capacidades de procesamiento de ese sonido y conectados a uno o a más servidores por un canal de transmisión. Se trata, por ejemplo, de aparatos de mando, de mando a distancia utilizados en aplicaciones domóticas, en automóviles (mando del autorradio o de otras funciones del vehículo), en los PC o en estaciones telefónicas. El campo de las aplicaciones afectadas es esencialmente donde el usuario manda una acción, solicita una información o quiere interaccionar a distancia utilizando un mando vocal. La utilización de mandos vocales no excluye la existencia en el terminal de usuario de otros medios de acción (sistema multimodal), y el retorno de informaciones, de estados o de respuestas puede hacerse igualmente en forma combinada visual, sonora, olfativa y cualquier otro medio humano de percepción.
De manera general, los medios para la realización del reconocimiento de palabra comprenden medios de obtención de una señal de audio, medios de análisis acústico que extraen los parámetros de modelización y, por último, medios de reconocimiento que comparan estos parámetros de modelización extraídos de los modelos, y proponen la forma memorizada en los modelos que puede asociarse de la manera más probable a la señal. Opcionalmente, pueden utilizarse medios de detección de actividad vocal VAD (del inglés "Voice Activity Detection"). Aseguran la detección de las secuencias correspondientes a la palabra y antes de ser reconocidas. Extraen la señal de audio de entrada, fuera de los períodos de inactividad vocal, de los segmentos de la palabra, que se tratarán a continuación por los medios de extracción de los parámetros de modelización.
Más particularmente, la invención se apoya en las interacciones entre los tres modos de reconocimiento de palabra mencionados, embarcado, centralizado y distribuido.
En un modo de reconocimiento de palabra embarcado, el conjunto de los medios para efectuar el reconocimiento de palabra se encuentran a nivel de terminal de usuario. Las limitaciones de este modo de reconocimiento están, por consiguiente, principalmente ligadas a la potencia de los procesadores embarcados, y a la memoria disponible para almacenar los modelos de reconocimiento de palabra. En cambio, este modo permite un funcionamiento autónomo, sin conexión a un servidor, y de este modo, está condenado a un gran desarrollo ligado a la reducción del coste de la capacidad de procesamiento.
En un modo de reconocimiento de palabra centralizado, todo el procedimiento de reconocimiento de palabra y los modelos de reconocimiento se encuentran y se ejecutan en una máquina, llamada generalmente servidor vocal, accesible para el terminal de usuario. El terminal transmite simplemente al servidor una señal de palabra. Este método se utiliza principalmente en las aplicaciones ofertadas por los operadores de telecomunicaciones. Un terminal básico puede así acceder a servicios evolucionados, activados por la voz. En un servidor de reconocimiento de palabra pueden establecerse numerosos tipos de reconocimiento de palabra (robusto, flexible, de muy amplio vocabulario, vocabulario dinámico, palabra continua, mono o multilocutores, varias lenguas, etc.). En efecto, las máquinas centralizadas tienen capacidades de almacenamiento de modelos, tamaños de memoria de trabajo y potencias de cálculos importantes y crecientes.
En un modo de reconocimiento de palabra distribuido, los medios de análisis acústico están embarcados en el terminal de usuario, estando los medios de reconocimiento a nivel del servidor. En este modo distribuido, en la fuente se puede realizar, ventajosamente, una función de eliminación de efectos sonoros asociada a los medios de extracción de los parámetros de modelización. Sólo los parámetros de modelización se transmiten, lo que permite una ganancia sustancial en caudal de transmisión, particularmente interesante para las aplicaciones multimodales. Además, la señal a reconocer puede estar mejor protegida contra los errores de transmisión. Opcionalmente, se puede también embarcar la detección de actividad vocal (VAD) para transmitir los parámetros de modelización sólo durante las secuencias de palabras, lo que tiene como ventaja reducir en gran manera el tiempo de transmisión activa. El reconocimiento de palabra distribuido permite además transmitir en el mismo canal de transmisión de las señales de palabra y de datos, principalmente texto, imágenes o vídeos. La red de transmisión puede ser, por ejemplo, de tipo IP, GPRS, WLAN o Ethernet. Este modo permite, igualmente, beneficiarse de procedimientos de protección y de corrección contra las pérdidas de paquetes que constituyen la señal transmitida con destino al servidor. Sin embargo, necesita la disponibilidad de canales de transmisión de datos, con un protocolo estricto de transmisión.
La invención propone un sistema de reconocimiento de palabra que incluye los terminales de usuarios y los servidores combinando las diferentes funciones ofertadas por los modos de reconocimiento de palabra embarcado, centralizado y distribuido para ofrecer la máxima eficacia, comodidad y ergonomía a los usuarios de servicios multimodales en los que se utiliza el mando vocal.
La Patente US 6 487 534-B1 describe un sistema de reconocimiento de palabra distribuido que incluye un terminal de usuario que dispone de medios de detección de actividad vocal, de medios de extracción de los parámetros de modelización y de medios de reconocimiento. Este sistema comprende además un servidor que dispone igualmente de medios de reconocimiento. El procedimiento descrito consiste en efectuar una primera fase de reconocimiento a nivel de terminal de usuario. Después, en función de los resultados de esta primera fase, los parámetros de modelización calculados a nivel de terminal pueden, entonces, enviarse con destino al servidor, principalmente a fin de determinar, esta vez gracias a los medios de reconocimiento del servidor, una forma memorizada en los modelos de éste y asociada a la señal enviada.
El objetivo pretendido por el sistema descrito en el documento citado es disminuir la carga a nivel de servidor. Sin embargo, resulta que el reconocimiento se efectúa lo mejor posible después del tiempo necesario en la primera fase en el terminal. Cuando debe tener lugar una segunda fase, el tiempo de reconocimiento total es igual al tiempo de reconocimiento de la primera fase más el de la segunda fase.
El documento US 6 122 613 describe igualmente un sistema de reconocimiento de palabra en el que se hace un reconocimiento de palabra a partir de una señal de audio en serie o en paralelo a nivel de un servidor y de un terminal.
El documento US2003/00 4720 se refiere, también, a un sistema de reconocimiento de palabra dentro del que se busca aumentar la tolerancia a las faltas debidas a la transmisión de datos.
Un objetivo de la presente invención es proponer un procedimiento que pretenda optimizar el tiempo necesario en el reconocimiento de palabra y, por consiguiente, en la realización de la acción solicitada por el usuario.
Según un primer aspecto, la invención propone un procedimiento de reconocimiento de palabra distribuido, que incluye al menos un terminal de usuario y al menos un servidor, aptos para comunicar entre ellos por medio de una red de telecomunicaciones, según el cual a nivel de terminal de usuario, se realizan al menos las etapas siguientes:
- obtener una señal de audio a reconocer; y,
- calcular los parámetros de modelización de la señal de audio a reconocer; e,
- intentar asociar una forma memorizada a los parámetros de modelización; e,
- independientemente de la etapa de intento de asociar una forma memorizada:
-
seleccionar una señal entre al menos la señal de audio a reconocer y una señal que indique los parámetros de modelización, en función de criterios relativos a la carga de los diferentes medios de procesamiento a nivel de terminal y de servidor, y/o en función de los criterios relacionados con la disponibilidad de los canales de transmisión de voz o de datos; y
-
emitir, con destino al servidor, la señal seleccionada;
y, según el cual, a nivel del servidor, se realizan al menos las etapas siguientes:
- recibir la señal emitida por el terminal de usuario;
- intentar asociar una forma memorizada a la señal recibida.
\vskip1.000000\baselineskip
Un procedimiento según la invención permite evitar acumular un tiempo de procesamiento a nivel de terminal y un tiempo de procesamiento a nivel de servidor, y así disminuir el tiempo para dar curso a la solicitud del usuario.
Permite también aprovecharse de las ventajas de las características de los medios de reconocimiento de los que disponen respectivamente el terminal y el servidor, principalmente cuando la señal a reconocer es de naturaleza indefinida para determinar lo antes posible la respuesta a efectuar.
En los modos de establecimiento preferidos, la señal emitida por el terminal de usuario con destino al servidor se selecciona entre al menos la señal de audio a reconocer y una señal que indica los parámetros de modelización. Entonces, si la señal recibida es de tipo de audio, el servidor calcula los parámetros de modelización de la señal de audio recibida; e intenta asociar una forma memorizada a los parámetros de modelización de la señal de audio recibida. Si la señal recibida indica los parámetros de modelización, el servidor intenta asociar una forma memorizada a dichos parámetros de modelización.
La elección de la señal transmitida - la señal de audio (comprimida o no) o la señal entregada por los medios de cálculo de los parámetros de modelización del terminal - puede definirse por el tipo de aplicaciones en curso, por el estado de la red, o a continuación de una coordinación entre los medios de control respectivos del terminal y del servidor.
Ventajosamente, la obtención por el terminal de la señal a reconocer incluye una detección de actividad vocal aplicada a una señal de audio de origen para producir la señal de audio a reconocer eliminando la señal de origen de períodos de inactividad vocal. La señal a emitir se seleccionará, por consiguiente, entre esta señal de audio eliminada de los períodos de inactividad vocal y la señal que indica los parámetros de modelización.
En un modo de establecimiento del procedimiento según la invención, la señal emitida se selecciona de una señal entre al menos la señal de audio de origen, la señal de audio representativa de la señal de origen eliminada de períodos de inactividad vocal después de la detección vocal y la señal que indica los parámetros de modelización.
Ventajosamente, si la señal recibida es una señal de audio eliminada de períodos de inactividad vocal, el servidor calcula parámetros de modelización de señal recibida e intenta asociar una forma memorizada a los parámetros de modelización de la señal de audio recibida. Cuando la señal recibida es una señal de tipo audio, pero sobre la cual no se ha realizado detección de actividad vocal, el servidor realiza una detección de actividad vocal aplicada a la señal de audio recibida para producir una señal de audio a reconocer eliminando la señal de origen de períodos de inactividad vocal. Después, calcula parámetros de modelización de la señal de audio a reconocer. Por último, intenta asociar una forma memorizada a los parámetros de modelización.
Ventajosamente, se escoge la forma memorizada asociada determinada a nivel de terminal, si existe. Se escoge la forma memorizada asociada determinada en primer lugar. O aún se escoge la forma memorizada mejor asociada según un criterio definido (por ejemplo, probabilidad de verosimilitud).
Según un segundo aspecto, la invención propone un terminal de usuario para establecer el procedimiento de reconocimiento de palabra distribuido descrito anteriormente.
Según un tercer aspecto, la invención propone un servidor para establecer el procedimiento de reconocimiento de palabra distribuido descrito anteriormente.
En un modo de realización preferido, al menos ciertos medios para realizar el procesamiento del reconocimiento a nivel de terminal (medios de extracción de parámetros o medios de reconocimiento) se han cargado a distancia por medio de la red de telecomunicaciones. Por ejemplo, pueden ser cargados a distancia por el servidor.
Otras características y ventajas de la invención surgirán aún de la lectura de la descripción que viene a continuación. Ésta es puramente ilustrativa y debe leerse con respecto a los dibujos adjuntos en los que la figura única es un esquema que representa un ejemplo de terminal de usuario y un ejemplo de servidor según la invención.
El sistema representado en la figura única incluye un servidor 1 y un terminal de usuario 2, que comunican entre sí por medio de una red (no representada) que dispone de canales para la transmisión de señales de voz y de canales para la transmisión de señales de datos.
El terminal 2 incluye un micrófono 4, que recoge la palabra a reconocer de un usuario en forma de una señal de audio. El terminal 2 incluye igualmente los módulos 5, 6 y 7. El módulo de detección de actividad vocal VAD 5 asegura la detección de las secuencias correspondientes a la palabra y debiendo ser reconocidas. Este módulo 5 está pensado, por ejemplo, para detectar rápidamente las palabras de mando. El módulo 6 efectúa un análisis acústico de manera conocida de por sí: calcula los parámetros de modelización, realizando una función de eliminación de efectos sonoros.
El módulo 7 ejecuta un algoritmo de reconocimiento de tipo conocido, por ejemplo a base de modelos de Markov ocultos con un vocabulario de tamaño reducido. Este motor 7 de reconocimiento puede funcionar en modo de un solo hablante, y necesita una fase de aprendizaje previa a partir de la voz del usuario.
El terminal comprende un controlador 8 adaptado para seleccionar una señal de audio entre la señal de audio de salida del micrófono 4, una señal representativa de los segmentos de palabra extraídos por los medios 5 de detección de actividad vocal y una señal indicativa de los parámetros de modelización 6.
El terminal comprende además una interfaz 9 para la emisión en la red, con destino al servidor, de la señal seleccionada por el controlador 8.
El servidor 1 incluye una interfaz 10 de red para recibir las señales que se le dirigen y un controlador 11 que analiza la señal recibida y la dirige a continuación, selectivamente, hacia un módulo de procesamiento del servidor entre varios módulos 12, 13 y 14. El módulo 12 es un detector de actividad vocal, que asegura la detección de los segmentos correspondientes a la palabra de manera similar al módulo 5. No obstante, puede ser diferente del módulo 5, y por ejemplo pensado para detectar rápidamente frases enteras. Su tiempo de reacción puede, por consiguiente, ser diferente al del módulo 5. En el presente ejemplo, su tiempo de reacción será más lento. El módulo 13 asegura el cálculo de parámetros de modelización de manera parecida al módulo 6 de cálculo del terminal. No obstante, el modelo de cálculo puede ser diferente. El módulo 14 ejecuta un algoritmo de reconocimiento de tipo conocido, por ejemplo a base de modelos de Markov ocultos con un vocabulario de tamaño arbitrario, por ejemplo superior a 100.000 palabras. Este motor 14 de reconocimiento compara los parámetros de entrada con modelos de palabra que representan palabras o frases y determina la mejor forma asociada, teniendo en cuenta modelos sintácticos que describen los encadenamientos de las palabras esperadas, los modelos relativos al léxico que precisan las diferentes pronunciaciones de las palabras y los modelos acústicos representativos de los sonidos pronunciados. Estos modelos son, por ejemplo, multilocutores, capaces de reconocer, con una buena fiabilidad, la palabra, independientemente del que habla.
El controlador 11 actúa sobre el módulo de VAD 12, el módulo de cálculo de los parámetros 13 y el motor 14 de reconocimiento de manera que:
a) cuando la señal recibida por la interfaz 10 de red es de tipo audio y no indica segmentos de palabra obtenidos después de la detección de actividad vocal, activar el módulo 12 de detección de actividad vocal dirigiéndole la señal recibida como señal de entrada, dirigir después los segmentos de palabra extraídos por el módulo 12 al módulo de cálculo de los parámetros 13 de modelización como parámetros de entrada, y después dirigir los parámetros extraídos por este módulo 13 al motor 14 de reconocimiento como parámetros de entrada;
b) cuando la señal recibida por la interfaz 10 de recepción indica segmentos de palabra después de la detección de actividad vocal, activar el módulo de cálculo de parámetros 13 de modelización dirigiéndole la señal recibida como señal de entrada, y después dirigir los parámetros extraídos por este módulo 13 al motor 14 de reconocimiento como parámetros de entrada;
c) cuando la señal recibida por la interfaz 10 de recepción indica parámetros de modelización, dirigir dichos parámetros indicados al motor 14 de reconocimiento como parámetros de entrada.
Consideremos una aplicación en la que el usuario expresa: "llamada a Antonio", figurando Antonio en el repertorio local. La señal de audio correspondiente obtenida por el micrófono 4 del terminal es tratada por el módulo VAD 5, que extrae de ella los segmentos de palabra los cuales se dirigen a su vuelta a los módulos 6, que calcula los parámetros de modelización. Estos parámetros son a continuación dirigidos al motor 7 de reconocimiento para asociarle una forma que provenga del diccionario local. En paralelo, el controlador 8 ha seleccionado una señal a emitir entre la señal de audio de origen, una señal de audio que indica los segmentos de palabra extraídos de la señal de audio de origen después de la detección de actividad vocal y una señal que indica los parámetros de modelización. La señal seleccionada se emite con la ayuda de la interfaz 9 de emisión con destino al servidor.
En el modo de realización considerado, la señal seleccionada por el controlador del terminal 8 es la señal de audio de origen, que ha sido enviada en dirección al servidor tan pronto como ha sido adquirida por el micrófono 4.
El servidor recepciona la señal a reconocer enviada por el terminal y la trata como se ha indicado en el apartado a) anterior.
El proceso de reconocimiento se efectúa así por ambas partes. El terminal determina en un tiempo T1 una forma asociada F1; el servidor determina otra forma asociada F2 en un tiempo T2 diferente de T1. Una de las formas es aceptada según un criterio de elección. El criterio de elección puede ser, por ejemplo, el siguiente: se escoge la forma encontrada más rápidamente y desde que se encuentra, sin esperar la determinación de otra forma. El aplicativo local al terminal pasa entonces a la fase aplicativa siguiente.
Después, el usuario expresa "buscar el mensaje de Josiane".
La respuesta a nivel de terminal no es consistente y se salda con un rechazo después de un tiempo T1'. El reconocimiento se efectúa en paralelo a nivel de servidor y acaba en un tiempo T2' con la determinación de una forma asociada, que va a permitir interpretar el mensaje solicitado por el usuario.
Un procedimiento de reconocimiento según la invención permite así combinar las ventajas de los sistemas de reconocimiento a nivel de terminal y de servidor. Las palabras cortas son rápidamente determinadas por el motor 7 de reconocimiento del terminal y las frases más complejas son reconocidas rápidamente por el motor 14 de reconocimiento del servidor. El tiempo de procesamiento se optimiza más aún cuando los VAD respectivos presentan características adaptadas, siendo el VAD 5 del terminal, por ejemplo, pensado para detectar, rápidamente, palabras de mando y siendo el VAD 12 del servidor pensado para detectar, rápidamente, frases.
El controlador del terminal 8 determina la señal a transmitir con destino al servidor, por ejemplo en función de criterios de control. Éstos criterios pueden, por ejemplo, estar ligados a la aplicación afectada, o a problemáticas de cargas de los diferentes medios de procesamiento a nivel de terminal y de servidor (los medios de control respectivos pueden cooperar), o aún a problemáticas de disponibilidad de los canales de transmisión de voz o de los canales de transmisión de datos.
Por ejemplo, para ciertos terminales, la señal enviada será sistemáticamente una señal que indique parámetros de modelización. Para otros terminales, la señal enviada dependerá de la aplicación en curso.
En un modo de realización de la invención, en caso de problemas de disponibilidad de canales de datos o del módulo 6 de cálculo del terminal considerado, el controlador 8 se adapta para transmitir la señal de audio (de origen o después de VAD). Esta señal de audio podrá ser transmitida por los canales de transmisión de señales de voz disponibles.
La manera de determinar la forma finalmente aceptada y que será utilizada en el momento de proseguir la aplicación, entre una forma asociada suministrada por el módulo de reconocimiento del servidor y una forma asociada suministrada por el terminal, puede efectuarse sobre la base de diferentes criterios, que pueden variar de un terminal a otro, pero también de una aplicación a otra o de un contexto determinado a otro.
Estos criterios pueden dar, por ejemplo, prioridad al reconocimiento efectuado a nivel de terminal, o a la forma asociada que presente la mayor tasa de probabilidad, o aún a la forma determinada más rápidamente. Estos criterios de elección pueden estar integrados, por ejemplo, en los controladores 8, 11 del terminal o del servidor.
El servidor según la invención es igualmente apto para efectuar el reconocimiento de palabra sobre una señal transmitida por un terminal que no dispone de medios de extracción de parámetros de modelización, ni de medios de reconocimiento (o en los cuales los medios de extracción o de reconocimiento están inactivos) y que disponen opcionalmente de VAD.
En un modo de realización, el motor 7 de reconocimiento del terminal 2 es un programa ejecutable cargado a distancia, por ejemplo desde el servidor, por medios clásicos de transferencia de datos.
Ventajosamente, para una aplicación determinada del terminal 2, los modelos de reconocimiento del terminal pueden ser cargados a distancia o puestos al día en el transcurso de una sesión aplicativa conectada a la red.
Otros recursos de programas y de sistemas de programación útiles en el reconocimiento de palabra pueden ser, también, cargados a distancia desde el servidor 1, como el módulo 6 de cálculo de parámetros de modelización o el detector de actividad vocal 5.
Podrían describirse otros ejemplos estableciendo, por ejemplo, aplicaciones relacionadas con vehículos, con electrodomésticos y multimedia.
Como lo presentado en los ejemplos de realización anteriormente descritos, un sistema según la invención permite utilizar en un tiempo de procesamiento optimizado para un resultado optimizado los diferentes recursos necesarios para el procesamiento del reconocimiento de palabra y presentes a nivel de terminal (por ejemplo para la carga a distancia) y de servidor.

Claims (18)

1. Un procedimiento de reconocimiento de palabra distribuido, que incluye al menos un terminal de usuario y al menos un servidor aptos para comunicarse entre ellos por medio de una red de telecomunicaciones, según el cual a nivel de terminal de usuario, se realizan al menos las etapas siguientes:
-
obtener una señal de audio a reconocer;
-
calcular los parámetros de modelización de la señal de audio a reconocer; e
-
intentar asociar una forma memorizada a los parámetros de modelización;
y, según el cual, a nivel de servidor se realizan al menos las etapas siguientes:
-
recibir una señal emitida por el terminal de usuario;
-
intentar asociar una forma memorizada a la señal recibida;
caracterizado por las etapas siguientes, realizadas a nivel de terminal de usuario:
-
independientemente de la etapa de intento de asociar una forma memorizada:
-
seleccionar una señal entre al menos la señal de audio a reconocer y una señal que indique los parámetros de modelización, en función de criterios relativos a la carga de los diferentes medios de procesamiento a nivel de terminal y de servidor, y/o en función de criterios relativos a la disponibilidad de canales de transmisión de voz o de datos; y
-
emitir la señal seleccionada con destino al servidor.
2. Un procedimiento de reconocimiento de palabra distribuido según la reivindicación 1, según el cual la señal emitida por el terminal de usuario con destino al servidor se selecciona entre al menos la señal de audio a reconocer y una señal que indique los parámetros de modelización;
según el cual si la señal recibida es de tipo audio, el servidor calcula los parámetros de modelización de la señal de audio recibida, e intenta asociar una forma memorizada a los parámetros de modelización de la señal de audio recibida;
y según el cual si la señal recibida indica los parámetros de modelización, el servidor intenta asociar una forma memorizada a dichos parámetros de modelización.
3. Un procedimiento según la reivindicación 1 o la reivindicación 2, según el cual la obtención en el terminal de la señal a reconocer incluye una detección de actividad vocal para producir la señal de audio a reconocer en forma de segmentos de palabra extraídos de una señal de audio de origen fuera de períodos de inactividad vocal.
4. Un procedimiento según la reivindicación 3, según el cual la señal emitida es una señal seleccionada entre al menos la señal de audio de origen, la señal de audio a reconocer en forma de segmentos extraídos después de la detección vocal y la señal que indica los parámetros de modelización.
5. Un procedimiento según las reivindicaciones 2 a 4, según el cual cuando la señal recibida es de tipo audio:
-
si la señal de audio recibida está en forma de segmentos de palabra extraídos después de detección vocal, el servidor calcula los parámetros de modelización de la señal recibida e intenta asociar una forma memorizada a los parámetros de modelización de la señal de audio recibida;
-
si no lo está, el servidor realiza una detección de actividad vocal aplicada a la señal de audio recibida para producir una señal de audio en forma de segmentos de palabras extraídos de la señal de audio recibida fuera de períodos de inactividad vocal, después calcula los parámetros de modelización de la señal de audio e intenta asociar una forma memorizada a los parámetros de modelización.
6. Un procedimiento según una cualquiera de las reivindicaciones precedentes, según el cual se escoge la forma memorizada asociada determinada al nivel de terminal cuando ésta existe.
7. Un procedimiento según las reivindicaciones 1 a 5, según el cual se escoge la forma memorizada asociada determinada lo más rápidamente.
8. Un procedimiento según las reivindicaciones 1 a 6, según el cual se escoge la forma memorizada mejor asociada según un criterio de elección definido.
\global\parskip0.950000\baselineskip
9. Un terminal de usuario para establecer un procedimiento de reconocimiento de palabra distribuido, según una de las reivindicaciones 1 a 8, que incluye:
-
medios de obtención de una señal de audio a reconocer;
-
medios de cálculo de parámetros de modelización de la señal de audio; y
-
medios de reconocimiento para asociar al menos una forma memorizada a los parámetros de modelización calculados por los medios de cálculo;
caracterizado porque comprende:
-
medios de control para seleccionar una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indique los parámetros de modelización calculados en función de criterios relativos a la carga de los diferentes medios de procesamiento a nivel de terminal y de servidor, y/o en función de criterios relativos a la disponibilidad de canales de transmisión de voz o de datos.
10. Un terminal de usuario según la reivindicación 9, en el que los medios de obtención de la señal de audio a reconocer comprenden medios de detección de actividad vocal para producir la señal a reconocer en forma de segmentos de palabra extraídos de una señal de audio de origen, fuera de períodos de inactividad vocal.
11. Un terminal de usuario según la reivindicación 10, en el que los medios de control se adaptan para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio de origen, la señal de audio a reconocer en forma de segmentos de palabra extraídos por los medios de detección de actividad vocal y la señal que indica los parámetros de modelización calculados.
12. Un terminal de usuario según las reivindicaciones 9 a 11, en el que al menos una parte de los medios de cálculo de parámetros y de los medios de reconocimiento se cargan a distancia desde el servidor.
13. Un terminal de usuario según las reivindicaciones 9 a 12, que incluye medios de determinación de la forma memorizada a escoger entre las formas memorizadas determinadas respectivamente en terminal y en el servidor.
14. Un servidor adaptado para establecer un procedimiento de reconocimiento de palabra distribuido según una de las reivindicaciones 1 a 8 que comprende:
-
medios de recepción procedentes de un terminal de usuario de una señal seleccionada en dicho terminal; y
-
medios de reconocimiento para asociar al menos una forma memorizada a los parámetros de modelización de entrada;
-
medios de cálculo de parámetros de modelización de una señal de entrada;
caracterizado porque comprende:
-
medios de control para mandar los medios de cálculo y los medios de reconocimiento de manera que:
\bullet
cuando la señal recibida por los medios de recepción sea de tipo audio, se activen los medios de cálculo de parámetros dirigiéndoles la señal seleccionada como señal de entrada, y se dirijan los parámetros calculados por los medios de cálculo a los medios de reconocimiento como parámetros de entrada, y,
\bullet
cuando la señal seleccionada recibida por los medios de recepción indican parámetros de modelización, se dirijan dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
15. Un servidor según la reivindicación 14, que comprende además medios de detección de actividad para producir la señal a reconocer en forma de segmentos de palabra extraídos de una señal de audio de origen fuera de períodos de inactividad vocal y en el que los medios de control se adaptan para mandar los medios de cálculo de parámetros y los medios de reconocimiento cuando la señal recibida es de tipo audio de manera que:
\bullet
si la señal recibida de tipo audio está en forma de segmentos de palabra después de la detección de actividad vocal, se activen los medios de cálculo de parámetros dirigiéndoles la señal recibida, como señal de entrada, después se dirijan los parámetros calculados por los medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
\bullet
si no lo está, se activen los medios de detección de actividad vocal del servidor dirigiéndoles la señal recibida como señal de entrada, después se dirijan los segmentos extraídos por los medios de detección de actividad vocal a los medios de cálculo de parámetros como parámetros de entrada, después se dirijan los parámetros calculados por los medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada.
\global\parskip1.000000\baselineskip
16. Un servidor según una de las reivindicaciones 14 a 15, que comprende medios para cargar a distancia recursos de programas y de sistemas de información de reconocimiento vocal por medio de red de telecomunicaciones con destino a un terminal.
17. Un servidor según la reivindicación 16, en el que dichos recursos comprenden al menos un módulo entre: un módulo de VAD, un módulo de cálculo de parámetros de modelización de una señal de audio y un módulo de reconocimiento para asociar al menos una forma memorizada a los parámetros de modelización.
18. Un servidor según las reivindicaciones 14 a 17, que incluye medios de determinación de la forma memorizada a escoger entre las formas memorizadas determinadas respectivamente en el terminal y en el servidor.
ES04718327T 2003-03-25 2004-03-08 Procedimiento de reconocimiento de palabra distribuido. Expired - Lifetime ES2327522T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0303614 2003-03-25
FR0303614A FR2853126A1 (fr) 2003-03-25 2003-03-25 Procede de reconnaissance de parole distribuee

Publications (1)

Publication Number Publication Date
ES2327522T3 true ES2327522T3 (es) 2009-10-30

Family

ID=32947139

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04718327T Expired - Lifetime ES2327522T3 (es) 2003-03-25 2004-03-08 Procedimiento de reconocimiento de palabra distribuido.

Country Status (8)

Country Link
US (1) US7689424B2 (es)
EP (1) EP1606796B1 (es)
CN (1) CN1764946B (es)
AT (1) ATE433181T1 (es)
DE (1) DE602004021359D1 (es)
ES (1) ES2327522T3 (es)
FR (1) FR2853126A1 (es)
WO (1) WO2004088637A1 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106272A2 (fr) * 2005-04-07 2006-10-12 France Telecom Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
US8103253B2 (en) 2005-09-22 2012-01-24 Cisco Technology, Inc. System and method for transmitting messages to a wireless communication device
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US9135809B2 (en) 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
JP6416752B2 (ja) * 2013-04-19 2018-10-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 家電機器の制御方法、家電機器制御システム、及びゲートウェイ
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测***及方法
JP6276132B2 (ja) 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
WO2018034059A1 (ja) * 2016-08-17 2018-02-22 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US9779755B1 (en) * 2016-08-25 2017-10-03 Google Inc. Techniques for decreasing echo and transmission periods for audio communication sessions
CN108010523B (zh) * 2016-11-02 2023-05-09 松下电器(美国)知识产权公司 信息处理方法以及记录介质
CN110033765A (zh) * 2019-04-11 2019-07-19 中国联合网络通信集团有限公司 一种语音识别的方法及终端

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
JP2002540477A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアント−サーバ音声認識
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition

Also Published As

Publication number Publication date
WO2004088637A1 (fr) 2004-10-14
DE602004021359D1 (de) 2009-07-16
EP1606796A1 (fr) 2005-12-21
EP1606796B1 (fr) 2009-06-03
FR2853126A1 (fr) 2004-10-01
US7689424B2 (en) 2010-03-30
US20070061147A1 (en) 2007-03-15
CN1764946A (zh) 2006-04-26
CN1764946B (zh) 2010-08-11
ATE433181T1 (de) 2009-06-15

Similar Documents

Publication Publication Date Title
ES2327522T3 (es) Procedimiento de reconocimiento de palabra distribuido.
ES2331698T3 (es) Sistema de reconocimiento de voz distribuido.
EP3559944B1 (en) Server side hotwording
CN105765650B (zh) 带有多向解码的语音辨识器
CN110534099B (zh) 语音唤醒处理方法、装置、存储介质及电子设备
US9330669B2 (en) System and method for performing dual mode speech recognition
ES2291440T3 (es) Procedimiento, modulo, dispositivo y servidor para reconocimiento de voz.
US20210065711A1 (en) Temporary account association with voice-enabled devices
JP6497372B2 (ja) 音声対話装置および音声対話方法
EP3526789B1 (en) Voice capabilities for portable audio device
US20190378500A1 (en) Temporary account association with voice-enabled devices
US10194023B1 (en) Voice user interface for wired communications system
JPWO2003015076A1 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
US10326886B1 (en) Enabling additional endpoints to connect to audio mixing device
CN110349575A (zh) 语音识别的方法、装置、电子设备和存储介质
JP2021140134A (ja) 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
KR20180075009A (ko) 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법
US11823549B1 (en) Contextual response to motion-based event
US20200156537A1 (en) Voice activated vehicle alarm
CN111091819A (zh) 语音识别装置和方法、语音交互***和方法
US11348579B1 (en) Volume initiated communications
CN110556111A (zh) 语音数据处理方法及装置、***、电子设备、存储介质
CN110570843B (zh) 一种用户语音识别方法和装置
CN110033584B (zh) 服务器、控制方法以及计算机可读取记录介质
CN114596840B (zh) 语音识别方法、装置、设备及计算机可读存储介质