ES2577705T3

ES2577705T3 - Procedimiento y sistema para obtener información relevante de una comunicación por voz

Info

Publication number: ES2577705T3
Application number: ES13382034.0
Authority: ES
Inventors: Diego URDIALES DELGADO
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Filing date: 2013-02-04
Publication date: 2016-07-18
Anticipated expiration: 2033-02-04

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Procedimiento y sistema para obtener informacion relevante de una comunicacion por voz Campo tecnico de la invencion

La presente invencion se refiere, en general, al campo del reconocimiento de voz y, mas espedficamente, se refiere al analisis de comunicaciones por voz para extraer automaticamente informacion relevante de dicha comunicacion por voz y convertirla potencialmente en texto.

Antecedentes de la invencion

El “reconocimiento de voz” es la traduccion de palabras dichas en texto. Tambien se conoce como “reconocimiento de voz automatico” (ASR). En la actualidad, los sistemas de reconocimiento de voz automatico (ASR) van dirigidos principalmente al analisis de flujos de audio individuales, tales como aquellos que proceden de un dictado de voz, una orden de voz o un mensaje de buzon de voz. Ejemplos de tales sistemas incluyen aquellos que se usan en aplicaciones comerciales de transcripcion de correo de voz, en aplicaciones de asistente virtual, etc. Aunque sena util tener tambien una representacion textual del contenido de las llamadas de voz, los sistemas de ASR actuales apenas se dirigen al analisis de flujos de audio interrelacionados tales como aquellos que proceden de una llamada de voz.

La investigacion en el reconocimiento de voz se ha caracterizado por la acumulacion constante de pequenas mejoras incrementales. Tambien ha habido una tendencia a concentrarse en tareas mas diffciles debido tanto al progreso en el rendimiento del reconocimiento de voz como a la disponibilidad de ordenadores mas rapidos. La transcripcion de voz a texto automatizada para mensajes cortos de voz, tales como aquellos que se dejan en los sistemas de buzon de voz, o para el dictado de SMS u ordenes, ha estado disponible como un servicio con altos niveles de precision durante algun tiempo. El siguiente paso natural sena extender esta funcionalidad a llamadas de voz, es decir, comunicaciones por voz mas largas en las que dos o mas partes se comunican de manera smcrona a traves de voz. Sin embargo, resulta evidente que una transcripcion completa, palabra por palabra, de una llamada de voz no es la manera optima de transmitir el significado de la conversacion de voz para un usuario.

El problema de analizar el contenido de una llamada de voz a traves del reconocimiento de voz automatico tiene varias particularidades que lo diferencian de otras tareas relacionadas con el ASR:

En primer lugar, como al menos dos partes estan incluidas en la comunicacion por voz, hay al menos dos flujos de audio para una unica comunicacion. Segun el sistema en el que se realice la comunicacion por voz y la configuracion de la arquitectura, puede alimentarse con un unico flujo de audio el sistema de ASR, que contiene el audio agregado de todas las partes de la comunicacion por voz; o pueden alimentarse flujos de audio separados, uno para cada participante individual de la comunicacion por voz. Esto difiere de otras tareas relacionadas con el ASR, en las que hay un unico flujo de audio no agregado alimentando al motor del ASR.

Acusticamente, como el audio de la llamada de voz se transmite por flujo entre las partes en la llamada a traves de una red, esta sujeto a interferencias, perdidas de paquetes y otras degradaciones. Estas degradaciones no se producen cuando el audio se graba y envfa a traves de la red, en lugar de transmitirse por flujo en tiempo real.

Lingufsticamente, el audio de la llamada de voz es bastante diferente a otros tipos de audio de voz. Como dos o mas partes estan hablando en la llamada, cada canal de audio contiene habitualmente largos periodos en silencio, correspondientes a tiempos en los que ese orador esta escuchando a otra parte. Las llamadas de voz son una forma de comunicacion en lmea (la sesion es en vivo y la voz se transmite a medida que se pronuncia), es mas probable que contengan vacilaciones, frases construidas de manera inapropiada, palabras o frases incompletas, sonidos no verbales y palabras onomatopeyicas. En general, las llamadas de voz contienen una menor proporcion de palabras lingufsticamente coherentes que otras formas de comunicacion. Y, como las partes en una llamada de voz habitualmente se conocen entre sf y la naturaleza en tiempo real de una llamada de voz permite aclarar inmediatamente cualquier malentendido, las llamadas de voz incluyen elipsis, referencias a conceptos o palabras no mencionados y, en general, expresiones del lenguaje que solo conocen las partes participates, con mayor frecuencia que otros tipos de audio de voz.

La tecnica anterior incluye ejemplos tales como la solicitud de patente estadounidense US 2008/0201143, que describe un sistema y un procedimiento para extraer el contenido de conversaciones de audio, centrando su atencion en (pero sin limitarse a) la monitorizacion de llamadas realizadas por presos en instituciones correccionales. El sistema descrito en ese documento extrae determinadas caractensticas del audio de la llamada de voz. Sin embargo, esa solicitud de patente es fundamentalmente un sistema de etiquetado o control, cuyo objetivo es identificar fragmentos irregulares, sospechosos o poco habituales dentro de la conversacion de voz.

Otra solucion de la tecnica anterior se proporciona en los sistemas y procedimientos de transcripcion inteligente de llamadas divulgados en la solicitud estadounidense US2010/158213. Una transcripcion de una llamada telefonica es creada y suplementada con informacion adicional, automaticamente o a peticion. Puede anadirse informacion adicional cuando se detectan palabras clave, tal como agregar expansion de acronimos cuando se detecta un

5

10

15

20

25

30

35

40

45

50

acronimo, o agregar informacion de identificacion a una tarea importante cuando se detecta la mencion de la tarea. Por lo tanto, se centra principalmente en el enriquecimiento de una transcripcion de audio incluyendo informacion adicional.

La patente estadounidense US 7599475 B2 propone un procedimiento y un aparato para revelar aspectos comerciales u organizativos de una organizacion en senales de audio capturadas desde interacciones, difusiones u otros ongenes. El procedimiento y el aparato activan un proceso para detectar sucesos dentro de la senal de audio, y activan luego un proceso adicional, que consume mas recursos, alrededor de los sucesos detectados, realzando asf la eficacia del proceso. Los sucesos detectados y la salida del proceso adicional son analizados por un proceso de analisis para revelar aspectos comerciales, terminos u otros sucesos en la senal de audio.

Ademas la solicitud de patente estadounidense US 2007/0071206, centrada en la monitorizacion de conversaciones en instituciones correccionales, contempla tanto la separacion de llamadas de voz en canales (diarizacion) como el aprovechamiento de la informacion de prosodia para mejorar la deteccion de sucesos poco habituales en llamadas de voz, o localizar aquellas llamadas que podnan requerir una revision manual. Sin embargo, esta limitada porque no incluye un enfoque sistematico para el uso de diferentes aspectos de la informacion de audio, y no solo prosodia y texto, de manera individual o en combinacion. De nuevo, esto sigue el objetivo de controlar o etiquetar llamadas, no de extraer la informacion relevante contenida en la llamada de voz.

Cuando se aplican a flujos de audio interrelacionados tales como aquellos que proceden de llamadas de voz, los sistemas de ASR actuales, como los mencionados anteriormente, tienen diversas desventajas. Debido a la naturaleza lingufstica del audio de la llamada de voz, en el que muchas de las palabras no tienen un significado lingufstico, muchas de las frases estan incompletas y tambien abundan las palabras que son onomatopeyicas o estan incompletas, los sistemas que pretenden proporcionar una transcripcion completa para la llamada de voz (motores de transcripcion) proporcionan demasiada informacion que es de poca utilidad.

Para superar esta desventaja, pueden usarse los sistemas de ASR que pretenden devolver solo palabras o frases coherentes que se dicen en la llamada de voz, tales como el sistema de ASR de localizacion de palabras clave.

Sumario de la invencion

La presente invencion soluciona el problema, mencionado anteriormente, de analizar multiples flujos de audio de voz de una llamada de voz para obtener palabras significativas que contienen la informacion relevante de dicha llamada. Por tanto, de acuerdo a la reivindicacion 1, se presenta un procedimiento para obtener informacion relevante de una comunicacion por voz proporcionada, entre al menos dos usuarios, en el que la comunicacion por voz comprende al menos dos flujos de voz (21) pertenecientes a dichos al menos dos usuarios, comprendiendo el procedimiento las siguientes etapas:

a) generar marcadores con sellos temporales, asociados a dichos al menos dos flujos de voz segun determinadas caractensticas extrafdas de dichos al menos dos flujos de voz (21), en donde, cuando cierta caractenstica es comun (55) para ambos flujos de voz, generar un marcador adicional con sello temporal (54) que indica una correlacion entre dichos al menos dos flujos de voz (21);

b) extraer (57) determinadas piezas de informacion de dichos al menos dos flujos de voz segun cierta informacion que comprenden los marcadores;

c) transcribir (58) las determinadas piezas de informacion en texto para obtener la informacion relevante de la comunicacion por voz.

Los canales pueden no estar disponibles por separado y el procedimiento puede incluir una etapa adicional para solucionarlo, que consiste en separar dichos al menos dos flujos de voz, pertenecientes a dichos al menos dos usuarios, de la comunicacion por voz.

En una realizacion de la invencion, las caractensticas extrafdas de los flujos de voz se toman de la siguiente lista: entonacion, volumen, velocidad del habla y ruido. A partir de estas caractensticas se procesan los flujos de voz para generar los marcadores con sellos temporales. Dichos marcadores con sellos temporales contienen cierta informacion, que puede organizarse en una tupla que comprende elementos de la siguiente lista: un identificador para el flujo de voz, un sello temporal de inicio, un sello temporal de finalizacion, una indicacion del tipo de marcador y otros detalles del marcador.

La invencion propuesta puede comprender la etapa adicional de comparar una caractenstica de los flujos de voz con un patron configurado previamente. Por tanto, los marcadores generados pueden comprender informacion adicional tal como un nivel de confianza, o la indicacion de cuales de los patrones configurados previamente coincidieron.

Una realizacion de la invencion tambien usa la transcripcion de voz a texto y la localizacion de palabras para generar marcadores. Por tanto, los marcadores generados pueden comprender el nivel de confianza de la transcripcion o las palabras localizadas.

5

10

15

20

25

30

35

40

45

50

Una realizacion de la invencion comprende extraer la pieza de informacion contenida dentro de los sellos temporales de inicio y finalizacion definidos en el marcador. Segun el tipo de marcador, la accion adoptada puede ser extraer la pieza de informacion, del mismo flujo de voz, o de otro flujo de voz distinto al indicado por el identificador de la tupla, contenida despues del sello temporal de inicio definido en el marcador para una duracion espedfica.

La invencion propuesta puede comprender pasar las piezas de informacion extrafda a traves de un sistema de reconocimiento de voz automatico, basado en la gramatica, con una gramatica espedfica. Y, optativamente, las piezas de informacion extrafda pueden hacerse pasar a traves de un sistema de reconocimiento de voz automatico con un modelo de lenguaje espedfico.

Como etapa adicional, el procedimiento puede comprender almacenar la comunicacion por voz en un dispositivo de almacenamiento de datos, aunque en algunas realizaciones todas las etapas se realizan en tiempo real.

Otro aspecto de la invencion, segun lo reivindicado en la reivindicacion 2, se refiere a un sistema para obtener informacion relevante de una comunicacion por voz proporcionada entre al menos dos usuarios, en donde la comunicacion de voz comprende al menos dos flujos de voz pertenecientes a dichos al menos dos usuarios, comprendiendo el sistema:

- un generador de marcadores (22) que recibe dichos al menos dos flujos de voz (21) para ser analizados y generar marcadores con sellos temporales, de acuerdo a ciertas caractensticas extrafdas de dichos al menos dos flujos de voz, en donde, cuando cierta caractenstica es comun (55) a ambos flujos de voz, generar un marcador adicional con sello temporal (54) que indica una correlacion entre dichos al menos dos flujos de voz;

- un procesador de acciones (24) para extraer determinadas piezas de informacion de dichos al menos dos flujos de voz, de acuerdo a alguna informacion comprendida por los marcadores

y transcribir las determinadas piezas de informacion en texto, obteniendo asf la informacion relevante de la comunicacion por voz.

Los flujos pueden no estar disponibles por separado y el sistema puede incluir un modulo de diarizacion de flujo para separar al menos dos flujos de voz, pertenecientes a diferentes usuarios, de la comunicacion por voz proporcionada.

El sistema tambien puede comprender los siguientes modulos en el generador de marcadores:

- un analizador de senal de voz para medir niveles de ruido en un flujo de voz y variaciones en el volumen, y compararlos con patrones de ruido y volumen configurados previamente;

- un analizador de prosodia para detectar la entonacion del habla y compararla con patrones configurados previamente;

- un motor de reconocimiento de voz automatico, configurado para la localizacion de palabras, para detectar en un flujo de voz cualquiera de las palabras de una lista definida previamente;

- un motor de reconocimiento de voz automatico configurado para la transcripcion, para medir la velocidad del habla en palabras por unidad de tiempo;

- un analizador de segundo orden conectado a los modulos previos para detectar marcadores repetidos, marcadores que se producen simultaneamente en ambos dichos al menos dos flujos de voz y demuestran cierta correlacion comparandolos con patrones de correlacion.

Y el procesador de acciones tambien puede comprender los siguientes modulos:

- un divisor de flujo de audio para extraer un segmento de un flujo de voz definido por su hora de inicio y su hora de finalizacion, o duracion;

- un reconocimiento de voz de audio configurado para la transcripcion de un flujo de voz en texto;

- un modulo de procesamiento de texto para buscar palabras, frases o patrones espedficos.

Un ultimo aspecto de la invencion se refiere a un producto de programa de ordenador que comprende un codigo de programa de ordenador adaptado para realizar el procedimiento de la invencion, cuando dicho codigo de programa se ejecuta en un ordenador, un procesador de senales digitales, una formacion de compuertas programables en el terreno, un circuito integrado espedfico de la aplicacion, un microprocesador, un micro-controlador o cualquier otra forma de hardware programable.

Descripcion de los dibujos

Para completar la descripcion que esta realizandose, y con el objetivo de ayudar a entender mejor las caractensticas de la invencion, segun un ejemplo preferido de una realizacion practica de la misma, acompanando a dicha descripcion como parte integrante de la misma, hay un conjunto de dibujos en los que, a modo de ilustracion y sin

5

10

15

20

25

30

35

40

45

limitacion, se ha representado lo siguiente:

la figura 1 muestra una muestra de una comunicacion por voz entre 2 partes.

La figura 2 muestra un diagrama de bloques que representa una realizacion de la invencion.

La figura 3 muestra otra realizacion que anade un modulo de diarizacion a la realizacion de la figura 2.

La figura 4 muestra una realizacion del modulo generador de marcadores en detalle.

La figura 5 muestra una realizacion del modulo procesador de acciones en detalle.

La figura 6 ilustra la generacion de marcadores para una realizacion particular de la invencion.

La figura 7 ilustra el procesador de acciones para la misma realizacion particular que la figura 6.

Descripcion detallada de la invencion

La invencion describe un proceso, en terminos generales, para analizar flujos de audio interrelacionados, tales como aquellos que proceden de llamadas de voz, para extraer, y convertir potencialmente en texto, la informacion relevante contenida en la comunicacion por voz. A continuacion se da a conocer en detalle un caso espedfico de comunicaciones por voz entre dos partes segun una realizacion de la invencion. Sin embargo, el procedimiento puede generalizarse para su aplicacion a una comunicacion generica por voz entre n partes, de maneras evidentes para un experto en la tecnica.

El procedimiento propuesto en esta invencion identificana informacion relevante en la conversacion de voz y la presentana al usuario. Esta invencion no tiene como objetivo una transcripcion textual completa, sino que se centra en identificar la informacion relevante en la conversacion de voz.

Como etapa intermedia en el procedimiento, el procesamiento identifica marcadores en cada uno de los flujos de voz individuales. Los marcadores se definen como fragmentos con sello temporal en un flujo de voz de audio, que se marcan para ayudar en el proceso de reconocimiento. Se usan algunas caractensticas extrafdas de los flujos de voz de audio para generar los marcadores, e incluso se incluyen. Es posible definir un marcador como una tupla que contiene las siguientes caractensticas, o campos, segun esta realizacion:

- Hora de inicio

- Hora de finalizacion

- Identificador de canal (es decir, para una llamada de voz de dos partes, si esta en el canal de la parte del que llama o el canal de la parte a la que se llama, o ambos)

- Tipo de marcador

- Detalles del marcador

El procesamiento individual de los flujos de voz puede dar como resultado la identificacion de marcadores segun diversos criterios, dando como resultado por tanto diferentes tipos de marcador. Segun esta realizacion particular de la invencion propuesta, los marcadores generados se dan a conocer mas adelante. Una vez que se han elegido las caractensticas que van a buscarse, se comparan los flujos de voz con patrones configurados previamente, para identificar los marcadores:

• Marcadores de localizacion de palabras: estos marcadores se identifican cuando se detecta una palabra o una frase en uno de los flujos de voz de audio. Un ejemplo es un marcador para la deteccion de la frase “Debenas tomar nota de esto”. En este caso, el campo de “detalles del marcador” de la tupla puede contener la palabra o frase que se detecto.

• Marcadores de entonacion: estos marcadores se identifican cuando se detecta un determinado patron de entonacion en uno de los flujos de audio. Un ejemplo puede ser un aumento considerable en la entonacion. En este caso, el campo “detalles del marcador” de la tupla puede contener informacion sobre el patron de entonacion que se detecto.

• Marcadores de volumen: estos marcadores se identifican cuando el volumen del audio en un canal cambia de una manera espedfica. Un ejemplo puede ser un periodo sostenido de volumen de voz aumentado. En este caso, el campo “detalles del marcador” de la tupla puede contener informacion sobre el cambio en el volumen que se detecto.

• Marcadores de velocidad del habla: estos marcadores se identifican cuando la velocidad del habla en un canal cambia de una manera espedfica. Un ejemplo puede ser la deteccion de un intervalo con una velocidad del habla mas lenta. En este caso, el campo “detalles del marcador” de la tupla puede contener informacion sobre la

5

10

15

20

25

30

35

40

45

50

manera espedfica en la que cambio la velocidad del habla.

• Marcadores de ruido: estos marcadores se identifican cuando se detectan determinados patrones de ruido o niveles de ruido en un canal. Un ejemplo puede ser un intervalo con musica alta. En este caso, el tipo, nivel y patron del ruido pueden estar incluidos en el campo “detalles del marcador” de la tupla.

• Marcadores de confianza de transcripcion: estos marcadores se identifican cuando una palabra, o secuencia de palabras, tienen confianzas de transcripcion por encima o por debajo de un determinado umbral, o dentro de un intervalo de confianza espedfico. Un ejemplo de esto puede ser la deteccion de una secuencia de al menos cinco palabras consecutivas con un nivel de confianza por debajo del 50%. La informacion de la palabra o las palabras, y sus confianzas respectivas, pueden incluirse en el campo “detalles del marcador” de la tupla.

• Marcadores mixtos: estos marcadores se identifican cuando se produce una combinacion de otros marcadores simultaneamente, o de otro modo, en combinacion. Un ejemplo puede ser la deteccion simultanea de la velocidad del habla mas lenta y la confianza de transcripcion baja. La informacion sobre los sucesos individuales que activaron el marcador puede incluirse en el campo “detalles del marcador” de la tupla.

Del mismo modo se realiza un procesamiento doble de los flujos de voz (es decir, un procesamiento simultaneo de ambos flujos de voz) y, de este modo, puede identificarse un segundo conjunto de marcadores segun diversos criterios. Los marcadores generados por el procesamiento doble reflejan diferentes tipos de correlacion entre los flujos de voz, dando como resultado por tanto diferentes tipos de marcador:

• Marcadores de correlacion: estos marcadores se identifican cuando se cumple una determinada condicion en ambos canales de audio, cuando cada flujo de voz de esta realizacion particular pertenece a un canal diferente. Un ejemplo de un marcador de correlacion en relacion con la localizacion de palabras clave puede ser “la frase <toma nota de esto> y la palabra <repetir> se dicen en diferentes canales en un intervalo de 5 segundos”. En este caso, los campos “detalles del marcador” de la tupla pueden incluir detalles sobre la condicion de correlacion que se cumplio.

• Marcadores de repeticion entre canales: un subtipo espedfico de un marcador de correlacion, los marcadores de repeticion entre canales se identifican cuando se detecta la misma palabra o frase en ambos canales dentro de un determinado intervalo de tiempo. No se requiere una coincidencia exacta para identificar el marcador de repeticion entre canales (es decir, puede haber una tolerancia a ligeras discrepancias entre las palabras dichas en un canal y en el otro). Un ejemplo es el siguiente dialogo:

Canal A: “Mi numero es siete cuatro seis”

Canal B: “Siete cuatro seis...”

Canal A: “Dieciseis”

Canal B: “Uno seis...”

No se pretende que estas listas de tipos de marcador sean exhaustivas, sino que deben considerarse como una realizacion particular de la invencion propuesta para complementar el sumario de la invencion sin tener en cuenta ninguna limitacion derivada de esta realizacion particular. Evidentemente pueden usarse diferentes criterios y sucesos de activacion para la identificacion de marcadores, sin desviarse del esprntu de la invencion descrita.

Despues de haber generado los marcadores, el procedimiento de la invencion realiza determinadas acciones sobre los flujos de voz, segun los marcadores, para extraer piezas de informacion potencialmente relevante de la comunicacion por voz. En esta realizacion particular, las acciones que pueden adoptarse son:

- Extraer una pieza de informacion especificada en el marcador contenido dentro de los sellos temporales de inicio y finalizacion del marcador, y hacerla pasar a traves de un motor de transcripcion.

- Extraer la pieza de informacion, no del flujo de voz (o canal) especificado en el marcador, sino del otro canal, despues del sello temporal de finalizacion del marcador, para una duracion espedfica, y hacerla pasar a traves de un motor de transcripcion.

Como una variacion, en otra realizacion, se extrae la pieza de informacion empezando por la primera vez que se detecta el habla, despues del sello temporal del marcador.

- Extraer la pieza de informacion del otro canal (no el especificado en el marcador) despues del sello temporal de finalizacion del marcador, para una duracion espedfica, y hacerla pasar a traves de un motor de ASR basado en la gramatica, con una gramatica espedfica.

- Extraer la pieza de informacion del otro canal (no el especificado en el marcador) despues del sello temporal de finalizacion del marcador, para una duracion espedfica, y hacerla pasar a traves de un motor de ASR con un modelo de lenguaje (LM) espedfico.

5

10

15

20

25

30

35

40

45

50

55

Las acciones anteriores dan como resultado un fragmento de texto y/o audio ex^do de la conversacion de voz, que contiene una pieza de informacion relevante. Despues de haber procesado todos los marcadores, la recopilacion de esos fragmentos constituye una representacion util de la conversacion de voz.

La figura 1 representa una muestra de una conversacion de voz de 2 partes. El canal 1 (1) ilustra graficamente un marcador identificado - espedficamente, un marcador de localizacion de palabras de un unico canal (3) para las palabras “puede repetir” - y una accion (4) asociada con el mismo. La accion en este ejemplo es: “ejecutar un fragmento de 6 segundos a traves de un motor de transcripcion”. El area de la senal de audio englobada dentro del area de marcador (5) representa el fragmento de audio comprendido entre los sellos temporales de inicio y finalizacion del marcador. La accion ejemplar ilustrada es la extraccion de la pieza de informacion del otro canal (no el especificado en el marcador), del sello temporal de finalizacion del marcador y para una duracion espedfica de seis segundos, seguida por su transcripcion. La ventana de seis segundos se representa en la figura 1 mediante el area 5 dentro de la senal del canal 2 (2).

La figura 2 representa el sistema de la invencion. Los flujos de audio de voz (21) se proporcionan a un modulo generador de marcadores (22), que procesa los flujos de audio de voz de la llamada de voz y genera los marcadores correspondientes. La entrada del generador de marcadores, como ya se menciono, puede comprender varios flujos de audio de voz. Una vez generados los marcadores, dichos marcadores (23) se envfan a un procesador de acciones (24) que toma los marcadores como entrada y ejecuta determinadas acciones sobre los flujos de audio de voz segun cierta configuracion, generando informacion relevante (25) como resultado. Las siguientes figuras profundizan mas en detalle.

Como elemento adicional para la realizacion del sistema representado en la figura 2, la figura 3 representa un modulo de diarizacion del orador (37). La comunicacion por voz (36) se dirige al modulo de diarizacion para solucionar los casos en los que los diferentes canales en la comunicacion por voz no estan disponibles por separado. Entonces el modulo de diarizacion del orador recibe la comunicacion por voz en un fragmento y, aplicando un analisis de voz en la comunicacion por voz, dicha comunicacion por voz se divide en varios flujos, incluyendo cada uno las partes de la comunicacion por voz de entrada en las que habla cada parte. A continuacion, los flujos de audio de voz resultantes pueden alimentar al modulo generador de marcadores, que es equivalente al del sistema ilustrado en la figura 2.

La figura 4 representa una realizacion mas detallada del modulo generador de marcadores (22). Aunque solo se ilustra un flujo de audio de voz, debe entenderse que puede usarse el mismo ejemplo o un ejemplo diferente de cada uno de los componentes ilustrados para procesar cada uno de los flujos de audio. Por ejemplo, en el caso basico de una conversacion de voz bilateral, en un caso el modulo de duplicacion del flujo de audio puede actuar en el primer flujo, y en otro caso ese modulo puede actuar en el segundo flujo, etc.

Un modulo de duplicacion del flujo de audio (41) duplica cada trama del flujo de voz entrante para generar N copias del flujo de voz, para su envfo a los modulos procesadores de audio. Los modulos procesadores de audio son los modulos que procesan cada flujo de voz para generar los marcadores. En la figura 4, la realizacion representada comprende cuatro modulos procesadores de audio:

- Un analizador de senales de voz (42), que puede medir niveles de ruido en la senal de voz y variaciones en el volumen de voz, y compararlos con patrones de ruido (46) o patrones de volumen (47) configurados previamente. Este modulo genera marcadores de volumen y marcadores de ruido, tal como se describio anteriormente.

- Un analizador de prosodia (43), que puede detectar la entonacion del habla, y compararla con patrones de entonacion configurados previamente (48). El analizador de prosodia y el analizador de senales de voz son, en realizaciones alternativas de la invencion, modulos separados, o solo instancias de un detector de actividad de voz (VAD) disponible en el estado de la tecnica.

- Un motor de ASR configurado para la localizacion de palabras (44), que toma una lista de palabras configuradas (49) y puede detectarlas en el flujo de audio de voz, si estan presentes.

- Un motor de ASR configurado para la transcripcion (45), que produce una transcripcion del flujo de audio de voz y puede medir la velocidad del habla comparandola con patrones de velocidad del habla configurados previamente (50) (es decir, palabras por unidad de tiempo); calcular una confianza de la transcripcion, comparandola con patrones de confianza de transcripcion, configurados previamente (51), de cada palabra o frase; buscar construcciones espedficas en el habla, mas alla de frases fijas (tales como expresiones de fecha o numeros de telefono). El motor de ASR configurado para la localizacion de palabras y el motor de ASR configurado para la transcripcion son, en realizaciones alternativas de la invencion, modulos separados, o solo instancias de un motor de reconocimiento de voz (ASR), estando configurada cada instancia con diferentes modelos y/o modalidades de operacion.

- Analizador de segundo orden (53). Siempre que se genere un marcador por cualquiera de los modulos de procesador de audio (42, 43, 44, 45), un analizador de segundo orden evalua el conjunto de todos los marcadores generados (54). Este analisis puede dar como resultado la generacion de uno o mas marcadores de segundo orden, tales como marcadores de correlacion si la comparacion de los marcadores generados con patrones de correlacion

5

10

15

20

25

30

35

40

45

50

55

configurados previamente (55) es satisfactoria, o marcadores de patron mixtos si la comparacion de los marcadores generados con patrones mixtos configurados previamente (56) es satisfactoria. Estos nuevos marcadores pueden activar de nuevo el procesado del analizador de segundo orden y, a su vez, dar como resultado la generacion de marcadores adicionales. Aunque la configuracion de los patrones mixtos y los patrones de correlacion evita que este proceso caiga en bucles infinitos o tiempos de procesamiento prolongados, pueden fijarse restricciones adicionales para garantizar esto. Ejemplos de tales restricciones son: no tener en cuenta marcadores con una antiguedad de mas de N segundos; tener en cuenta unicamente los M marcadores generados en ultimo lugar.

Ademas, segun una realizacion de la invencion, el analisis de segundo orden tambien puede dar como resultado la eliminacion de uno o mas marcadores, segun reglas configuradas. Un ejemplo de esto es evitar marcadores duplicados (por ejemplo dos marcadores de “volumen de voz alto” que aparezcan demasiado cerca en el tiempo entre sf), o cuando un nuevo marcador generado en el analisis de segundo orden hace que los marcadores de primer orden que lo activaron sean innecesarios (por ejemplo, un determinado marcador de patron de entonacion y un marcador de localizacion de palabras para el nombre del otro participante en la conversacion [“Juan!”] pueden activar un marcador de segundo orden de “llamada de atencion”, que transmite el significado compuesto de ambos marcadores de primer orden, haciendo que sean innecesarios).

La figura 5 ilustra una realizacion mas detallada del modulo procesador de acciones (24). Los marcadores generados por el modulo generador de marcadores (22) son la entrada para el modulo procesador de acciones, que realiza acciones en los flujos de audio de voz segun la informacion contenida en los marcadores y extrae la informacion relevante contenida en la comunicacion por voz.

El modulo procesador de acciones esta configurado para decidir que accion corresponde a cada marcador. El modulo procesador de acciones toma cada marcador generado, calcula la accion a realizar segun la configuracion de accion (60), a continuacion la ejecuta por medio de un proceso de ejecucion de acciones. La realizacion particular de la figura 5 ilustra tres procesos diferentes de ejecucion de acciones a modo de ejemplo:

- Un divisor de flujo de audio (57) para extraer un segmento de un flujo de audio definido por su sello

temporal de inicio y su sello temporal de finalizacion (o duracion).

- Un motor de ASR configurado para la transcripcion (58), para transcribir la voz contenida en un flujo de audio de voz, o un segmento de audio, a texto.

- Un procesador de texto (59), para buscar palabras, frases o patrones (gramatica) en un texto de entrada.

El procesamiento de un marcador puede dar como resultado una o mas acciones; la ejecucion de una accion puede implicar uno o mas procesos de ejecucion de acciones (por ejemplo, puede implicar la extraccion de un segmento de 5 segundos de un flujo de audio, hacer pasar ese segmento a traves del motor de ASR para su transcripcion, a continuacion hacer pasar la transcripcion a traves del procesamiento de texto para identificar un patron de fecha). La ejecucion de una accion puede dar como resultado cero o mas fragmentos de informacion relevante.

Las figuras 6 y 7 presentan una realizacion particular de la invencion propuesta. Para proporcionar algo de claridad, esta implfcita una definicion simplificada de informacion relevante, concretamente, la informacion relevante solo comprende lo que dicen las partes despues de una frase introductoria tal como “por favor anote ...”, “escriba ...” o “puede tomar nota de ...”. Ademas, esta realizacion particular considera una llamada normal, entre 2 partes, en la que ambos canales estan disponibles por separado para el procesamiento.

Espedficamente, la figura 6 ilustra la generacion de marcadores para esta realizacion particular. Hay un modulo procesador de audio, concretamente, un motor de ASR para la localizacion de palabras (70). En la figura 6, estan activas dos instancias del modulo y se encargan de procesar cada uno de los flujos de audio en la llamada de voz. El motor de ASR para la localizacion de palabras esta configurado para etiquetar cada incidencia de las frases de una lista de localizacion de palabras (71): “anote”, “escriba”, “tome nota”. En la figura 6, se supone que la persona que llama produce el flujo de voz 74 y dice una de estas frases en dos momentos diferentes de la conversacion de voz, por tanto, se generan los marcadores 1 y 3 (72). La persona a la que se llama produce el flujo de voz 75 y dice una de esas frases una vez durante la conversacion de voz (por tanto, se genera el marcador 2 (73))

La figura 6 tambien muestra la definicion espedfica del marcador 1 (76), como una tupla que contiene la hora de inicio y la hora de finalizacion, el canal al que se refiere (en este caso, el canal 1, que es la identificacion dada a la persona que llama), el tipo de marcador (localizacion de palabras) y los detalles espedficos del marcador. Para un marcador de localizacion de palabras, se supone que se incluyen tanto la frase espedfica que activo el marcador (en este caso, “tome nota”) como la confianza de la deteccion.

La figura 7 ilustra el modulo procesador de acciones para esta realizacion particular. Como continuacion de la figura 6, que ilustra el generador de marcadores de la realizacion, la salida (76) es la entrada del procesador de acciones. El procesador de acciones comprende dos procesos de ejecucion de acciones: un divisor de flujo de audio (77) y un motor de ASR para la transcripcion (78). Tambien se muestra una configuracion de accion de muestra, que contiene una regla (79). Esta regla especifica las acciones que van a realizarse en un marcador de localizacion de palabras como, por ejemplo, el “marcador 1” (76), concretamente:

5

10

15

20

25

• Extraer un segmento del canal al que se refiere el marcador, comenzando 3 segundos despues de la hora de finalizacion del marcador, y con una duracion de 15 segundos.

• Transcribir ese segmento.

Esta regla pretende recuperar la informacion espedfica que el orador pretendfa destacar cuando dijo la frase de activacion, que habitualmente viene un poco despues de decir “anote que”, “escriba”, etc.

Despues de haber aplicado la accion, se obtiene un texto resultante, que contiene la informacion relevante identificada (80).

Un ejemplo de un caso para ello puede ser:

Para la regla:

“Regla de configuracion de accion n° 1:

Si tipo _ marcador = “localizacion de palabras”:

Segmento=divid(id_flujo,hora_fin +3s, 15s)

Transcribir (segmento)”

Y para la informacion relevante:

“detalles mi numero de telefono es uno ocho tres cuatro nueve dos seises nueve tres cuatro cinco. Lo repetire”

Como puede observarse, el sistema proporciona informacion util, aunque la calidad de la informacion identificada puede mejorarse en este caso anadiendo, segun otra realizacion de la invencion, un modulo de procesamiento de texto como un proceso de ejecucion de acciones, configurado para buscar numeros de telefono en un texto de entrada.

El procedimiento de la invencion, segun una realizacion particular, comprende procesar cada uno de los flujos de voz en la comunicacion por voz de manera consecutiva o, segun otra realizacion, en paralelo. Puede realizarse en tiempo real (es decir, mientras se produce la comunicacion por voz), otras su finalizacion.

A lo largo de todo este documento, se usan los terminos llamada de voz, conversacion de voz y comunicacion por voz de manera intercambiable para significar la comunicacion smcrona entre dos o mas partes por voz. Todo lo que se indica sobre llamadas de voz puede aplicarse a comunicaciones de video, considerando solo la parte de voz de la comunicacion de video.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Procedimiento para obtener informacion relevante de una comunicacion por voz proporcionada entre al menos dos usuarios, en el que la comunicacion por voz comprende al menos dos flujos de voz (21) pertenecientes a dichos al menos dos usuarios, comprendiendo el procedimiento las siguientes etapas:

a) generar marcadores con sellos temporales (23), asociados a dichos al menos dos flujos de voz, segun determinadas caractensticas extrafdas de dichos al menos dos flujos de voz, en el que, cuando cierta caractenstica es comun (55) a ambos flujos de voz, generar un marcador con sello temporal (54) adicional, que indica una correlacion entre dichos al menos dos flujos de voz (21);

b) extraer (57) determinadas piezas de informacion de dichos al menos dos flujos de voz, segun cierta informacion que comprenden los marcadores;

c) transcribir (58) las determinadas piezas de informacion en texto para obtener la informacion relevante (25) de la comunicacion por voz.
2. El procedimiento segun la reivindicacion 1, que comprende ademas separar dichos al menos dos flujos de voz, pertenecientes a dichos al menos dos usuarios, de la comunicacion por voz.
3. El procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que las determinadas caractensticas de la etapa a) comprenden al menos una de las siguientes caractensticas: entonacion, volumen, velocidad del habla, ruido.
4. El procedimiento segun una cualquiera de las reivindicaciones anteriores, en el que la cierta informacion que comprenden los marcadores esta contenida en una tupla que, a su vez, comprende elementos de la siguiente lista: un identificador para el flujo de voz perteneciente a cada usuario, un sello temporal de inicio, un sello temporal de finalizacion, una indicacion del tipo de marcador, otros detalles del marcador.
5. El procedimiento segun una cualquiera de las reivindicaciones anteriores, que comprende ademas comparar una caractenstica de dichos al menos dos flujos de voz con un patron configurado previamente.
6. El procedimiento segun la reivindicacion 4, en el que la etapa b) de extraer una pieza de informacion comprende ademas extraer la pieza de informacion contenida dentro de los sellos temporales de inicio y finalizacion definidos en el marcador.
7. El procedimiento segun la reivindicacion 4, en el que la etapa b) de extraer una pieza de informacion comprende ademas extraer la pieza de informacion, del otro flujo de voz distinto al indicado por el identificador de la tupla, contenida despues del sello temporal de inicio definido en el marcador para una duracion espedfica.
8. El procedimiento segun una cualquiera de las reivindicaciones anteriores, que comprende ademas pasar las piezas de informacion extrafdas a traves de un sistema de reconocimiento de voz automatico, basado en la gramatica, con una gramatica espedfica.
9. El procedimiento segun una cualquiera de las reivindicaciones anteriores, que comprende ademas pasar las piezas de informacion extrafdas a traves de un sistema de reconocimiento de voz automatico con un modelo de lenguaje espedfico.
10. El procedimiento segun cualquiera de las reivindicaciones anteriores, en el que las etapas se realizan en tiempo real.
11. El procedimiento segun cualquiera de las reivindicaciones 1 a 9, que comprende ademas almacenar la comunicacion por voz en un dispositivo de almacenamiento de datos.
12. Sistema para obtener informacion relevante de una comunicacion por voz proporcionada entre al menos dos usuarios, en el que la comunicacion por voz comprende al menos dos flujos de voz, pertenecientes a dichos al menos dos usuarios, comprendiendo el sistema:

- un generador de marcadores (22) que esta adaptado para recibir dichos al menos dos flujos de voz (21) que van a analizarse, y esta adaptado para generar marcadores con sellos temporales, segun ciertas caractensticas extrafdas desde dichos al menos dos flujos de voz, en el que, cuando cierta caractenstica es comun (55) a ambos flujos de voz, esta adaptado para generar un marcador con sello temporal (54) adicional, que indica una correlacion entre dichos al menos dos flujos de voz;

- un procesador de acciones (24) adaptado para extraer determinadas piezas de informacion de dichos al menos dos flujos de voz, segun alguna informacion comprendida por los marcadores, y adaptado para transcribir las determinadas piezas de informacion, en texto, estando por tanto adaptado para obtener la informacion relevante (25) de la comunicacion por voz.

5

10

15

20

25
13. Sistema segun la reivindicacion 12, que comprende ademas un modulo de diarizacion de flujo, adaptado para separar al menos dos flujos de voz, pertenecientes a diferentes usuarios, de la comunicacion por voz proporcionada.
14. Sistema segun la reivindicacion anterior, en el que el generador de marcadores comprende ademas al menos uno de los siguientes modulos:

- un analizador de senal de voz, adaptado para medir niveles de ruido en un flujo de voz y variaciones en el volumen, y adaptado para compararlos con patrones de ruido y volumen configurados previamente;

- un analizador de prosodia adaptado para detectar la entonacion del habla y compararla con patrones configurados previamente;

- un motor de reconocimiento de voz automatico, configurado para la localizacion de palabras, adaptado para detectar en un flujo de voz cualquiera de las palabras o frases de una lista definida previamente;

- un motor de reconocimiento de voz automatico, configurado para la transcripcion, para medir una velocidad del habla en palabras por unidad de tiempo;

- un analizador de segundo orden conectado a los modulos previos, adaptado para detectar marcadores repetidos, marcadores que se producen simultaneamente en ambos de dichos al menos dos flujos de voz y demuestran cierta correlacion comparandolos con patrones de correlacion.
15. Sistema segun la reivindicacion 12, en el que el procesador de acciones comprende ademas los siguientes modulos:

- un divisor de flujo de audio, adaptado para extraer un segmento de un flujo de voz definido por su hora de inicio y su hora de finalizacion, o su duracion;

- un modulo de reconocimiento de voz de audio, configurado para la transcripcion de un flujo de voz en texto;

- un modulo procesador de texto, adaptado para buscar palabras, frases o patrones espedficos.
16. Un producto de programa de ordenador que comprende un codigo de programa de ordenador adaptado para realizar el procedimiento segun cualquiera de las reivindicaciones 1a 11 cuando dicho codigo de programa se ejecuta en un ordenador, un procesador de senales digitales, una formacion de compuertas programables en el terreno, un circuito integrado espedfico de la aplicacion, un microprocesador, un micro-controlador o cualquier otra forma de hardware programable.