ES2374008B1

ES2374008B1 - Codificación, modificación y síntesis de segmentos de voz.

Info

Publication number: ES2374008B1
Application number: ES200931212A
Authority: ES
Inventors: Miguel Ángel Rodríguez Crespo; José Gregorio Escalada Sardina; Ana Armenta López De Vicuña
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Priority date: 2009-12-21
Filing date: 2009-12-21
Publication date: 2012-12-28
Anticipated expiration: 2029-12-21
Also published as: ES2532887T3; US20110320207A1; CL2011002407A1; MX2011009873A; BR112012015144A2; AR079623A1; EP2517197A1; US8812324B2; CO6362071A2; PE20121044A1; ES2374008A1; WO2011076779A1; EP2517197B1

Abstract

Método de análisis, modificación y síntesis de señal de voz que comprende una fase de localización de ventanas de análisis mediante un proceso iterativo de determinación de la fase de la primera componente sinusoidal y comparación entre el valor de fase de dicha componente y un valor predeterminado, una fase de selección de tramas de análisis correspondientes a un alófono y reajuste de la duración y la frecuencia fundamental según unos umbrales y una fase de generación de voz sintética a partir de las tramas de síntesis tomando como información espectral de la trama de síntesis la información de la trama de análisis más cercana y tomando tantas tramas de síntesis como periodos tenga la señal sintética. El método permite una localización coherente de las ventanas de análisis dentro de los periodos de la señal y generar de forma exacta los instantes de síntesis de manera síncrona con el periodo fundamental.

Description

Codiﬁcación, modiﬁcación y síntesis de segmentos de voz.

Campo de la invención

La presente invención se aplica a las tecnologías del habla. Más concretamente, pertenece a las técnicas de tratamiento digital de la señal de voz usadas, entre otros, dentro de conversores texto-voz.

Antecedentes de la invención

Muchos de los sistemas de conversión texto-voz actuales se basan en la concatenación de unidades acústicas tomadas de voz pregrabada. Esta aproximación es la que permitió dar el salto de calidad necesario para el uso de conversores texto-voz en multitud de aplicaciones comerciales (fundamentalmente, en la generación de información hablada a partir de texto en sistemas de respuesta vocal interactiva a los que se accede telefónicamente).

Aunque la concatenación de unidades acústicas permite obviar el difícil problema de modelar completamente la producción de la voz humana, tiene que manejar otro problema básico: cómo concatenar trozos de voz tomados de distintos ﬁcheros de origen, que pueden presentar diferencias apreciables en los puntos de pegado.

Las posibles causas de discontinuidad y defectos en la voz sintética son de diverso tipo:

1.: La diferencia en las características del espectro de la señal en los puntos de pegado: frecuencias y anchos de banda de los formantes, forma y amplitud de la envolvente espectral.

2.: Pérdida de la coherencia de fase entre las tramas de voz que se pegan. Se puede ver también como desplazamientos relativos inconsistentes de la posición de las tramas de voz (ventanas) a ambos lados de un punto de pegado. El pegado entre tramas incoherentes produce una desintegración o dispersión de la forma de onda que se percibe como una importante perdida de calidad. La voz resultante suena poco natural: mezclada y confusa.

3.: Diferencias prosódicas (entonación y duración) entre las unidades pregrabadas y la prosodia objetivo (deseada) para la síntesis de un enunciado.

Por este motivo, los conversores texto-voz suelen emplear diversos procedimientos de tratamiento de la señal de voz que permiten, tras la concatenación de unidades, unirlas suavemente en los puntos de pegado, y modiﬁcar su prosodia para que resulte continua y natural. Y todo ello debe hacerse degradando lo menos posible la señal original.

Los sistemas de conversión texto-voz más tradicionales contaban con un repertorio de unidades relativamente reducido (por ejemplo, difonemas o demisílabas), en los que normalmente sólo se disponía de un candidato para cada una de las posibles combinaciones de sonidos contempladas. En estos sistemas la necesidad de hacer modiﬁcaciones a las unidades es muy elevada.

Los sistemas de conversión texto-voz más recientes se basan en la selección de unidades de un inventario mucho más amplio (síntesis por corpus). Este amplio inventario dispone de muchas alternativas de las diferentes combinaciones entre sonidos, que se diferencian en su contexto fonético, prosodia, posición dentro de la palabra y del enunciado. La selección óptima de esas unidades de acuerdo a un criterio de coste mínimo (costes de unidad y de concatenación) permite reducir la necesidad de hacer modiﬁcaciones en las unidades, y mejora mucho la calidad y naturalidad de la voz sintética resultante. Pero no es posible eliminar totalmente la necesidad de manipular las unidades pregrabadas, porque los corpus de voz son ﬁnitos y no pueden asegurar una completa cobertura para sintetizar de manera natural cualquier enunciado, y siempre habrá puntos de pegado.

Existen distintos métodos de representación y modiﬁcación de la señal de voz que han sido usados dentro de conversores texto-voz.

Los métodos basados en el solapamiento y suma de ventanas de la señal de voz en el dominio temporal (métodos PSOLA, “Pitch Synchronous Overlap and Add”) gozan de gran aceptación y difusión. El más clásico de estos métodos aparece descrito en “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using dyphones”

(E. Moulines y F. Charpentier, Speech Communication, vol. 9, pp. 453-467, dic. 1990). Se obtienen tramas (ventanas) de la señal de voz de manera síncrona con el periodo fundamental (“pitch”). Las ventanas de análisis deben estar centradas en los instantes de cierre de la glotis (GCI’s, “Glottal Closure Instants”) u otros puntos identiﬁcables dentro de cada periodo de la señal, que deben encontrarse cuidadosamente y ser etiquetados coherentemente, para evitar desajustes de fase en los puntos de pegado. El marcado de estos puntos es una tarea laboriosa que no se puede realizar de forma completamente automática (requiere ajustes), y que condiciona el buen funcionamiento del sistema. La modiﬁcación de duración y frecuencia fundamental (F0) se realiza mediante la inserción o borrado de tramas, y el alargamiento o estrechamiento de las mismas (cada trama de síntesis es un periodo de la señal, y el desplazamiento entre dos tramas sucesivas es el inverso de la frecuencia fundamental). Puesto que los métodos PSOLA no incluyen un modelo explícito de la señal de voz, la tarea de interpolar las características espectrales de la señal en los puntos de pegado resulta difícil de realizar.

El método MBROLA (“Multi-Band Resynthesis Overlap and Add”) descrito en “Text-to-Speech Synthesis based on a MBE re-synthesis of the segments database” (T. Dutoit y H. Leich, Speech Communication, vol. 13, pp. 435440, 1993) aborda el problema de la falta de coherencia de fase en los pegados sintetizando una versión modiﬁcada de las partes sonoras de la base de datos de voz, forzando que tengan un F0 y una fase determinada (igual en todos los casos). Pero este proceso afecta a la naturalidad de la voz.

También se han propuesto métodos tipo LPC (“Linear Predictive Coding”) para hacer síntesis de voz, como el descrito en “An approach to Text-to-Speech synthesis” (R. Sproat and J. Olive, Speech Coding and Synthesis, pp. 611-633, Elsevier, 1995). Estos métodos limitan la calidad de la voz al suponer un modelo de sólo polos. El resultado depende mucho de si la voz original de referencia se ajusta mejor o peor a las suposiciones del modelo. Suele plantear problemas especialmente con voces femeninas e infantiles.

También se han propuesto modelos de tipo sinusoidal, en los que la señal de voz se representa mediante una suma de componentes sinusoidales. Los parámetros de los modelos sinusoidales permiten hacer de forma bastante directa e independiente tanto la interpolación de parámetros como las modiﬁcaciones prosódicas. En cuanto a asegurar la coherencia de fase en los puntos de pegado, algunos modelos han optado por manejar un estimador de los instantes de cierre de la glotis (proceso que no siempre da buenos resultados), como por ejemplo en “Speech Synthesis based on Sinusoidal Modeling” (M. W. Macon, PhD Thesis, Georgia Institute of Technology, oct. 1996). En otros casos se ha asumido la simpliﬁcación de considerar una hipótesis de fase mínima (que afecta a la naturalidad de la voz en algunos casos, haciendo que se perciba más hueca y amortiguada), como en un trabajo publicado por algunos de los inventoresde esta propuesta: “On the Use of a Sinusoidal Model for Speech Synthesis in Text-to-Speech” (M. Á. Rodríguez, P. Sanz, L. Monzón y J. G. Escalada, Progress in Speech Synthesis, pp. 57-70, Springer, 1996).

Los modelos sinusoidales han ido incorporando diferentes aproximaciones para resolver el problema de la coherencia de fase. En “Removing Linear Phase Mismatches in Concatenative Speech Synthesis” (Y. Stylianou, IEEE Transactions on Speech and Audio Processing, vol. 9, no. 3, pp. 232-239 marzo 2001) se propone un método para analizar la voz con ventanas que se desplazan de acuerdo al F0 de la señal, pero sin necesidad de que estén centradas en los GCI’s. Esas tramas son sincronizadas a posteriori en un punto común basándose en la información del espectro de fase de la señal, sin afectar a la calidad de la voz. Se aplica la propiedad de la Transformada de Fourier en la que añadir una componente lineal al espectro de fase equivale a desplazar la forma de onda en el dominio del tiempo. Se fuerza que el primer armónico de la señal quede con una fase resultante de valor 0, y el resultado es que todas las ventanas de voz quedan centradas de manera coherente respecto a la forma de onda, independientemente de en qué punto concreto de un periodo de la señal se centró originalmente. Así, las tramas corregidas pueden ser combinadas de manera coherente en la síntesis.

Para la extracción de parámetros se realizan procedimientos de análisis mediante síntesis como los expuestos en “An Analysis-by-Synthesis Approach to Sinusoidal Modelling Applied to Speech and Music Signal Processing”

(E. Bryan George, PhD Thesis, Georgia Institute of Technology, nov. 1991) o en “Speech Analysis/Synthesis and Modiﬁcation Using an Analysis-by-Synthesis/Overlap-Add Sinusoidal Model” (E. Bryan George, Mark J. T. Smith, IEEE Transsactions on Speech and Audio Processing, vol. 5, no. 5, pp. 389-406, sep. 1997).

En resumen, los problemas técnicos más habituales a los que se enfrentan los sistemas de conversión texto-voz basados en concatenación de unidades se derivan de la falta de coherencia de fase en los puntos de pegado entre unidades.

Objeto de la invención

La invención tiene por objeto paliar los problemas técnicos citados en el apartado anterior. Para ello, propone un método que hace posible respetar una localización coherente de las ventanas de análisis dentro de los periodos de la señal y generar de forma exacta y adecuada los instantes de síntesis de manera síncrona con el periodo fundamental. El método de la invención comprende:

a.: una fase de localización de ventanas de análisis mediante un proceso iterativo de determinación de la fase de la primera componente sinusoidal de la señal y comparación entre el valor de fase de dicha componente y un valor predeterminado hasta encontrar una posición para la que la diferencia de fase representa un desplazamiento temporal menor a media muestra de voz,

b.: una fase de selección de tramas de análisis correspondientes a un alófono y reajuste de la duración y la frecuencia fundamental según un modelo, de manera que si la diferencia entre la duración original o la frecuencia fundamental original y las que se quieren imponer supera unos umbrales, se ajustan la duración y la frecuencia fundamental para generar tramas de síntesis,

c.: una fase de generación de voz sintética a partir de las tramas de síntesis tomando como información espectral de la trama de síntesis la información de la trama de análisis más cercana y tomando tantas tramas de síntesis como periodos tenga la señal sintética.

De preferencia, una vez localizada la primera ventana de análisis se busca la siguiente desplazándose medio periodo y así sucesivamente. Opcionalmente se hace una corrección de fase añadiendo una componente lineal a la fase de todas las sinusoides de la trama. Opcionalmente el umbral de modiﬁcación para la duración es menor del 25%, preferiblemente menor del 15%. También el umbral de modiﬁcación para la frecuencia fundamental es opcionalmente menor del 15%, de preferencia menor del 10%.

La fase de generación a partir de las tramas de síntesis se realiza preferentemente por solapamiento y suma con ventanas triangulares. La invención se reﬁere también al uso del método de cualquiera de las reivindicaciones anteriores en conversores de texto-voz, la mejora de la inteligibilidad de las grabaciones de voz y para pegar segmentos de grabaciones de voz diferenciados en cualquier característica de su espectro.

Breve descripción de las ﬁguras

Con objeto de ayudar a una mejor comprensión de las características de la invención de acuerdo con un ejemplo preferente de realización práctica de la misma, se acompaña la siguiente descripción de un juego de dibujos en donde con carácter ilustrativo se ha representado lo siguiente:

Figura 1.-Extracción de parámetros sinusoidales.

Figura 2.-Localización de las ventanas de análisis.

Figura 3.-Cambio a duración doble.

Figura 4.-Localización de las ventanas de síntesis (1).

Figura 5.-Localización de las ventanas de síntesis (2).

Descripción detallada de la invención

La invención es un método de 1) análisis, y 2) modiﬁcación y síntesis de señal de voz que ha sido creado para su uso, por ejemplo, en un Conversor Texto-Voz (CTV).

1. Análisis de la señal de voz

El modelo sinusoidal empleado representa la señal de voz mediante la suma de un conjunto de sinusoides caracterizadas por sus amplitudes, frecuencias y fases. El análisis de la señal de voz consiste en encontrar el número de sinusoides componentes, y los parámetros que las caracterizan. Este análisis se realiza de forma localizada en determinados instantes de tiempo. Dichos instantes de tiempo y los parámetros asociados a ellos son los que constituyen las tramas de análisis de la señal.

El proceso de análisis no forma parte del funcionamiento del CTV, sino que se realiza previamente sobre los ﬁcheros de voz para generar una serie de ﬁcheros de tramas de análisis que luego serán empleados por las herramientas que se han desarrollado para crear los locutores (voces sintéticas) que el CTV carga y maneja para sintetizar la voz.

Los puntos más relevantes que caracterizan el análisis de la señal de voz son:

a. Extracción de parámetros

El procedimiento se apoya en la deﬁnición de una función del grado de parecido entre la señal original y la reconstruida a partir de un conjunto de sinusoides. Esta función se basa en el cálculo del error cuadrático medio.

Teniendo en cuenta esta función de error, la obtención de los parámetros sinusoidales se hace de manera iterativa. Partiendo de la señal original, se busca cuál es la terna de valores (amplitud, frecuencia y fase) que representa la sinusoide que reduce en mayor medida el error. Esa sinusoide se emplea para actualizar la señal que representa el error entre señal original y estimada y, de nuevo, se repite el cálculo para encontrar la nueva terna de valores que minimiza el error residual. Así se continúa hasta que se determina el conjunto total de parámetros de la trama (bien porque se alcanza un valor de relación señal/ruido determinado, porque se alcanza un número máximo de componentes sinusoidales, o porque no es posible añadir más componentes). La ﬁgura 1 presenta este método iterativo de obtención de los parámetros sinusoidales.

Este método de análisis hace que el cálculo de una componente sinusoidal se haga teniendo en cuenta el efecto acumulado de todas las componentes sinusoidales calculadas anteriormente (cosa que no sucedía con otros métodos de análisis basados en los máximos del espectro de amplitud de la FFT, “Fast Fourier Transform”). También proporciona un método objetivo que nos garantiza que nos aproximamos a la señal original de forma progresiva.

Una importante diferencia entre los procedimientos conocidos anteriormente y el propuesto por la invención es la localización de las ventanas de análisis. En las referencias citadas las ventanas de análisis, aunque tienen una anchura dependiente del periodo fundamental, se desplazan a una tasa ﬁja (un valor de 10 mseg de desplazamiento es bastante común). En nuestro caso, aprovechando que se dispone de los ﬁcheros de voz completa (no hay que analizar la voz a medida que llega), las ventanas de análisis también tienen una anchura dependiente del periodo fundamental, pero su posición se determina de una manera iterativa, según se describe a continuación.

b. Análisis iterativo síncrono con la frecuencia fundamental

La localización de las ventanas inﬂuye en el cálculo de los parámetros estimados en cada trama de análisis. Las ventanas (que pueden ser de distinto tipo) se diseñan para enfatizar las propiedades de la señal de voz en su centro, y se atenúan hacia sus extremos. En esta invención se ha mejorado la coherencia en la localización de las ventanas, de manera que éstas se sitúen en lugares lo más homogéneos posible a lo largo de la señal de voz. Se ha incorporado un nuevo mecanismo iterativo de localización de las ventanas de análisis.

Este nuevo mecanismo consiste en averiguar, para las tramas sonoras, cuál es la fase de la primera componente sinusoidal de la señal (la más cercana al primer armónico), y comprobar la diferencia entre ese valor y un valor de fase deﬁnido como objetivo (se puede considerar un valor 0, sin pérdida de generalidad). Si esa diferencia de fase representa un desplazamiento temporal igual o superior a media muestra de voz, se descartan los valores del análisis de esa trama, y se vuelve a hacer un análisis desplazando la ventana el número de muestras necesario. El proceso se va repitiendo hasta encontrar el valor adecuado de la posición de la ventana, momento en el que se dan por buenos los parámetros sinusoidales analizados. Una vez encontrada la posición, se busca la siguiente ventana de análisis desplazándose medio periodo. En el caso de que durante el proceso se encuentre una trama sorda, se dará el análisis por válido, y se desplazará 5 mseg hacia delante para buscar la posición de la siguiente trama de análisis.

Este procedimiento iterativo de localización de las ventanas de análisis se ilustra en la ﬁgura 2.

c. Fase de excitación residual

Tras localizar la posición de la ventana se hace una corrección de fase (añadir una componente lineal de fase a todas las sinusoides de la trama) para que el valor correspondiente asociado a la primera componente sinusoidal sea el valor objetivo para el ﬁchero de voz. Pero, además, se conserva el valor residual representado por la diferencia entre ambos valores, y se guarda como uno de los parámetros de la trama. Ese valor será habitualmente muy pequeño gracias al análisis iterativo síncrono con la frecuencia fundamental, pero puede tener importancia relativa en los casos en los que el F0 es alto (las correcciones de fase al añadir una componente lineal son proporcionales a la frecuencia). Además, se tiene en cuenta porque permite reconstruir la señal sintética alineada con la señal original (en los casos en los que no se modiﬁcan los valores de F0 y duración de las tramas de análisis).

d. Cuantiﬁcación

Los parámetros del análisis sinusoidal (frecuencias, amplitudes y fases de las sinusoides componentes) se obtienen como números en punto ﬂotante. Para disminuir las necesidades de ocupación de memoria para almacenar los resultados del análisis se realiza una cuantiﬁcación.

Las componentes que representan la parte armónica de la señal (y que forman la envolvente espectral) se cuantiﬁcan conjuntamente con las componentes adicionales (inarmónicas o ruidosas). Todas las componentes quedan ordenadas en frecuencias crecientes antes de la cuantiﬁcación.

Se cuantiﬁca la diferencia de frecuencia entre componentes consecutivas. Si esta diferencia supera el umbral marcado por el máximo valor cuantiﬁcable, se añade una componente adicional ﬁcticia (marcada por un valor especial de diferencia de frecuencia, amplitud 0.0, y fase 0.0).

Las fases de las componentes son obtenidas en módulo 2π (valores comprendidos entre -π y π). Aunque esto diﬁculta la interpolación de valores de fase en puntos distintos a los conocidos, nos permite acotar el margen de valores y facilita la cuantiﬁcación.

2. Modiﬁcación y síntesis de la señal de voz

La modiﬁcación y síntesis de la señal de voz son los procesos que se realizan dentro del CTV para generar una señal de voz sintética:

•: Que pronuncie la secuencia de sonidos correspondiente al texto de entrada.

•: Que lo haga a partir de las tramas de análisis que componen el inventario de unidades del locutor.

•: Que responda a la prosodia (duración y frecuencia fundamental) generada por los modelos prosódicos del CTV.

Para esto es preciso seleccionar una secuencia de tramas de la voz original (tramas de análisis), modiﬁcarlas adecuadamente para dar lugar a una secuencia de tramas modiﬁcadas (tramas de síntesis), y hacer la síntesis de voz con la nueva secuencia de tramas.

La selección de las unidades se realiza mediante técnicas de selección basadas en corpus.

Hay que tener en cuentas los siguientes puntos:

•: La voz natural no es puramente armónica, como queda demostrado en la obtención de los parámetros de las tramas de análisis. Por tanto, generar una voz sintética puramente armónica es una simpliﬁcación que puede afectar a la calidad percibida. La síntesis con componentes sinusoidales que no sean puramente armónicas puede ayudar a mejorar dicha calidad.

•: La síntesis síncrona con el periodo fundamental (que haya una correspondencia biunívoca entre tramas de síntesis y periodos de la señal sintética) favorece la coherencia de la señal, y disminuye la dispersión de la forma de onda (por ejemplo, cuando se realizan alargamientos y/o aumenta el F0 respecto a los valores de duración y F0).

•: Cuanto más se respeten las características de la señal original, mejor será la calidad de la voz generada (más próxima a la señal original). Hay que intentar modiﬁcar poco las tramas de análisis, siempre que sea posible.

A continuación se plantean los procedimientos de modiﬁcación y síntesis de la señal empleados en la invención.

a. Recuperación de parámetros

Lo primero que se hace es recuperar los parámetros sinusoidales a partir de los valores cuantiﬁcados que se guardan en las tramas de análisis. Para ello, se siguen de forma inversa los pasos que se dieron en la cuantiﬁcación.

La nueva forma de organizar los parámetros sinusoidales (frecuencias, amplitudes y fases de las sinusoides componentes) tras la recuperación es:

•: En primer lugar, se encontrarán los parámetros correspondientes a las sinusoides que modelan la envolvente espectral, en orden creciente de frecuencias (entre 0 y π). Las sinusoides que modelan la envolvente espectral son las que representan la componente sonora de la señal, y se emplearán como puntos base de interpolación para calcular valores de amplitud y/o fase en otras frecuencias sonoras.

•: A continuación, se encontrarán los parámetros correspondientes a las sinusoides que no modelan la envolvente espectral, y que consideramos como “ruidosas”, “inarmónicas” o “sordas”. Estas componentes “ruidosas” también aparecen en orden creciente de frecuencias (pero siempre tras la última componente de la envolvente, que debe estar obligatoriamente en la frecuencia π).

b.: Ajuste de duración

El procedimiento general es que una vez que tenemos reunidas las tramas de análisis correspondientes a un alófono, se calcula la duración acumulada original de esas tramas. Se compara esta duración con el valor calculado por el modelo de duraciones del locutor (duración sintética), y se calcula un factor que relaciona ambas duraciones. Ese factor se emplea para modiﬁcar las duraciones originales de cada trama, de forma que las nuevas duraciones (desplazamiento entre tramas de síntesis) son proporcionales a las duraciones originales.

Además se ha deﬁnido un umbral para hacer el ajuste de duraciones. Si la diferencia entre la duración original y la que se quiere imponer está dentro de un margen (se puede considerar un valor del 15% al 25% de la duración sintética, aunque este valor se puede ajustar) se respeta la duración original, sin hacer ningún tipo de ajuste. En el caso de que sea necesario ajustar la duración, el ajuste se hace para que la duración impuesta sea el extremo del margen deﬁnido más cercano al valor original.

c. Asignación del F0

Se dispone de unos valores de F0 generados por el modelo de entonación (F0 sintético). Esos valores están asignados a los instantes inicial, medio y ﬁnal del alófono. Una vez que se conocen las tramas componentes del alófono y su duración, se hace una interpolación de los valores de F0 sintéticos disponibles en esos tres puntos, para obtener los valores de F0 sintético correspondientes a cada una de las tramas. Esta interpolación se hace teniendo en cuenta los valores de duración asignados a cada una de las tramas.

Con esto, para cada una de las tramas de análisis se dispone de un valor de F0 original y otro valor de F0 sintético (el que en principio se pretende imponer).

Una alternativa es hacer un ajuste semejante al de duraciones: deﬁnir un margen (alrededor del 10% o 15% del valor de F0 sintético) dentro del cual no se harían modiﬁcaciones del valor de F0 original, y ajustar las modiﬁcaciones a los extremos de ese mismo margen (al extremo más cercano al valor original).

Puesto que el cambio del F0 de las tramas afecta de manera apreciable a la calidad de la voz sintética, otra alternativa es respetar los valores de F0 originales de las tramas de análisis, sin hacer ningún tipo de modiﬁcación (a excepción de las derivadas de la interpolación espectral, de la que se hablará más adelante). Esta última opción permite preservar mejor las características de timbre y nitidez de la voz original.

d. Interpolación espectral

La interpolación espectral realizada se basa en principios comunes de este tipo de tareas, como las expuestas en “Speech Concatenation and Synthesis Using an Overlap-Add Sinusoidal Model” (Michael W. Macon y Mark A. Clements, ICASSP 96 Conference Proceedings, mayo 1996).

La interpolación espectral se realiza en los puntos en los que se produce un “pegado” de tramas que no se encontraban consecutivas originalmente en el corpus de voz. Estos puntos se corresponden con la parte central de un alófono que es la que, en principio, presenta unas características acústicas más estables. La selección de unidades realizada para la síntesis basada en corpus tiene también en cuenta el contexto en el que se encuentran los alófonos, con el propósito de que las tramas “pegadas” sean acústicamente semejantes (minimizando las diferencias debidas a la coarticulación por encontrarse en contextos diferentes).

A pesar de todo, la interpolación es necesaria para suavizar las transiciones debidas al “pegado” entre tramas.

Como los sonidos sordos pueden incluir variaciones importantes en el espectro, incluso entre tramas sucesivas contiguas originalmente, se ha optado por no interpolar en los puntos de pegado correspondientes a sonidos teóricamente sordos, para evitar introducir un efecto de suavizado que no resulta natural en muchos casos, y que hace perder nitidez y detalle.

La interpolación espectral consiste en identiﬁcar el punto en el que se produce el pegado, determinando cuál es la última trama de la parte izquierda del alófono (UPI), y la primera trama de la parte derecha del alófono (PPD). Una vez encontradas estas tramas, se deﬁne un área de interpolación hacia ambos lados del punto de pegado que incluye 25 milisegundos a cada lado (a no ser que se sobrepasen los límites del alófono, por llegar antes a la frontera con el alófono anterior o siguiente). Cuando ya se han deﬁnido las tramas de voz que pertenecen a cada una de las zonas de interpolación (la izquierda y la derecha), se realiza la interpolación. La interpolación consiste en considerar que una trama interpolada se construye mediante la combinación de la trama preexistente (trama “propia”), ponderada por un factor (peso “propio”), y la trama que está al otro lado de la frontera de pegado (trama “asociada”), también ponderada por otro factor (peso “asociado”). Ambos pesos deben sumar 1.0, y se hacen evolucionar de manera proporcional a la duración de las tramas. Concretando lo dicho:

•: En la zona izquierda, la última trama de la parte izquierda (UPI), con un peso de 0.5, se combina con la primera trama de la parte derecha (PPD), también con un peso de 0.5. A medida que nos desplazamos hacia la izquierda y nos alejamos del punto de pegado, el peso “propio” va aumentando (el de cada una de las tramas), y el peso “asociado” va disminuyendo (el de la trama PPD).

•: En la zona derecha, la primera trama de la parte derecha (PPD), con un peso de 0.5, se combina con la última trama de la parte izquierda (UPI), también con un peso de 0.5. A medida que nos desplazamos hacia la derecha y nos alejamos del punto de pegado, el peso “propio” va aumentando (el de cada una de las tramas), y el peso “asociado” va disminuyendo (el de la trama UPI).

La interpolación espectral afecta a diversos parámetros de las tramas:

•: El valor que representa la envolvente de amplitud. En las tramas “propias” este valor es sustituido por la combinación lineal del valor original de la trama “propia” y el valor original de la trama “asociada”. Con esto se pretenden evitar las discontinuidades de amplitud.

•: El valor de frecuencia fundamental (F0). Igualmente, en las tramas “propias” este valor es sustituido por la combinación lineal del valor original de la trama “propia” y el valor original de la trama “asociada”. La interpolación del F0 hace que, aunque en principio se respeten los valores del F0 original de las tramas, estos queden modiﬁcados para hacer una evolución suave en los puntos de pegado (con lo que se evitan las discontinuidades de F0).

•: La información espectral propiamente dicha, reﬂejada en las componentes sinusoidales de cada trama. Cada trama se considera compuesta por dos conjuntos de componentes sinusoidales: el de la trama “propia” y el de la trama “asociada”. Cada uno de los conjuntos de parámetros queda afectado por el peso correspondiente. Con esto, se pretenden evitar las discontinuidades espectrales (los cambios bruscos de timbre en medio de un sonido).

e.: Diferencias respecto a los armónicos

Antes de continuar con el proceso de síntesis, se calculan para cada trama unos datos que nos permiten estimar cuál sería el conjunto de frecuencias correspondiente a una frecuencia fundamental dada.

Como ya se ha dicho antes, la voz natural no es puramente armónica. En el análisis, se han obtenido unas frecuencias, junto a sus amplitudes y fases correspondientes, que representan la envolvente de la señal. También se dispone de una estimación de la frecuencia fundamental (F0). Las frecuencias de las sinusoides componentes que representan la envolvente de la señal no son múltiplos exactos del F0.

Las componentes sinusoidales que representan la envolvente de la señal se han obtenido de manera que haya una (y solo una) en la zona de frecuencias correspondiente a cada uno de los teóricos armónicos (múltiplos exactos del F0). Los datos que se calculan son los factores entre la frecuencia real de cada una de las componentes sinusoidales que representan la envolvente, y su frecuencia armónica correspondiente. Como siempre se fuerza en el análisis que exista una componente sinusoidal en la frecuencia 0 y en la frecuencia π (aunque realmente no existan, en cuyo caso su amplitud sería 0), disponemos de un conjunto de puntos caracterizados por su frecuencia (la de los armónicos teóricos originales más las frecuencias 0 y π) y el factor entre frecuencia real y frecuencia armónica (en 0 y π ese factor será 1.0). Cuando queramos conocer las frecuencias “corregidas” o “equivalentes” de las componentes sinusoidales que correspondan a un valor de F0 determinado, distinto del valor de F0 original de la trama, se hará lo siguiente:

•: Se tomará un múltiplo de la nueva frecuencia fundamental (un nuevo armónico).

•: Se localizarán los datos de frecuencia armónica original y factor anterior y siguiente al nuevo armónico.

•: Se obtendrá un factor intermedio mediante la interpolación lineal de los factores anterior y siguiente.

•: Se aplicará ese factor al nuevo armónico, para obtener su frecuencia “corregida” correspondiente.

De este modo se podrán obtener nuevos conjuntos de frecuencias para un F0 dado que no sean puramente armónicas. El procedimiento también asegura que si se usa la frecuencia fundamental original, se obtendrían las frecuencias de las componentes sinusoidales originales.

f. Localización de las tramas de síntesis

Uno de los aspectos más destacados de la invención es la determinación de las tramas de síntesis.

El primer punto en la determinación de las tramas de síntesis es la localización de las mismas, y el cálculo de algunos de los parámetros relacionados con esa localización: el valor del F0 en ese instante, y el valor residual de la fase de la primera componente sinusoidal (desplazamiento respecto al centro de la trama).

Recordemos que en el análisis los parámetros de cada trama se obtuvieron de forma que la fase de la primera componente sinusoidal fuera una determinada. Los parámetros representan la forma de onda de un periodo de la voz, centrada en un punto adecuado (alrededor de la zona de mayor energía de un periodo) y homogéneo para todas las tramas (procedan del mismo ﬁchero de voz o no).

Puesto que el objetivo perseguido es hacer una síntesis síncrona con el periodo fundamental, eso exige que se disponga de tantas tramas como periodos de la señal sintética.

Si se quiere sintetizar la voz entre dos tramas de análisis sucesivas, y no se modiﬁca ni la duración entre las tramas ni el F0 de cada una de ellas, las tramas de síntesis que habría que emplear coincidirían exactamente con las tramas de análisis.

Pero en un caso general, en el que puede haber modiﬁcaciones tanto del F0 como de la duración, el número de tramas de síntesis necesario para sintetizar la voz entre dos tramas de análisis cambiará.

Supongamos un caso sencillo en el que tenemos dos tramas de análisis que tienen exactamente el mismo valor de F0, y que se encontraban separadas originalmente un número de muestras D (igual al periodo fundamental de ambas tramas). Si en síntesis se aumentara la duración al doble (separación 2D), para sintetizar de forma síncrona con el periodo fundamental la señal entre las dos tramas de análisis originales, habría que emplear tres tramas de síntesis localizadas en las duraciones 0, D y 2D (tomando como referencia de duraciones la primera de las tramas de análisis, y localizando la segunda de las tramas de análisis en 2D). En la ﬁgura 3 se representa este caso sencillo.

Si se producen cambios de duración y/o F0, la segunda de las tramas de análisis puede quedar localizada en un punto en el que sea necesario añadir un desplazamiento temporal (una desviación de fase de su primera componente sinusoidal) para representar correctamente la forma de onda correspondiente en ese punto (que no será necesariamente un punto donde haya que localizar una trama de síntesis).Habrá que registrar y tener en cuenta ese desplazamiento temporal para el intervalo de síntesis posterior entre esa trama y la que venga a continuación. Llamamos a este valor variación de fase debida a los cambios de F0 y/o duración, y lo representamos por δ.

Vamos a exponer el proceso que se sigue para localizar las tramas de síntesis, y obtener los parámetros que deben caracterizarlas (además del conjunto de amplitudes frecuencias y fases de cada una).

El proceso se aplica entre dos tramas de análisis consecutivas, identiﬁcadas por los índices k y k+1. Se suponen conocidos ciertos valores de la trama k (la trama de la izquierda) que se irán actualizando a medida que se vayan recorriendo las tramas de análisis. Estos valores se reﬁeren a la fase de la primera componente sinusoidal de la trama (la más cercana al primer armónico de la señal de voz), y son:

Donde:

θk fase de la primera componente de la trama k.

ϕk fase residual de la primera componente de la trama k, obtenida durante el análisis de la señal de voz.

δk variación de fase de la primera componente de la trama k, debida a los cambios de F0 y/o duración respecto a

los valores originales.

En primer lugar, se obtienen ciertos valores bajo la hipótesis de que no ha habido cambios de F0 ni duración, que se tendrán en cuenta en los cálculos posteriores. Estos valores son:

Donde:

Δθ incremento de fase debido a la evolución temporal de una trama a otra.

ρk+1 corrección del incremento de fase para la trama k+1.

Que se obtienen a partir de datos conocidos: Fk frecuencia de la primera componente de la trama k. Fk+1 frecuencia de la primera componente de la trama k+1. D distancia (duración) entre las tramas k y k+1, expresada en número de muestras. Fs frecuencia de muestreo de la señal. M número entero que se emplea para incrementar ϕk+1 (fase residual de la primera componente de la trama k+1)

en un múltiplo de 2π para asegurar una evolución de fase lo más lineal posible.

El cálculo de Δθ y ρk+1 anterior corresponde al caso de que las tramas entre las que se va a sintetizar estaban contiguas en el corpus de voz original (no se ha producido “pegado”).

Si se hubiera producido “pegado” (las tramas no estaban contiguas en el corpus de voz original), se toman unos valores de Δθ y ρk+1 iguales a cero, dado que las tramas no se encontraban consecutivas y, por tanto, no se puede establecer una relación entre ambas.

Con estos datos se obtienen otros nuevos, ya teniendo en cuenta los cambios de F0 y duración. Los valores modiﬁcados respecto a los valores originales se representan con un apóstrofo:

El valor δk+1 es la variación de fase resultante para la trama k+1 debida a los cambios de F0 y/o duración, que será tomada como referencia para los cálculos entre esa trama y la que la siga, en la siguiente iteración (la trama k+1 pasará a ser la trama k, y la trama k+2 pasará a ser la trama k+1).

Con los datos obtenidos hasta ahora, se puede calcular:

Donde θk+1 es la fase resultante de la primera componente de la trama k.

Se ha llegado a la formulación de una función polinómica que calcula de forma continua la evolución de la fase de la primera componente desde la trama k a la trama k+1 (desde una trama hasta la siguiente) en función del índice de las muestras entre ambas tramas. Esta función es un polinomio de orden 3 (polinomio cúbico) que tiene que cumplir ciertas condiciones de contorno:

•: El valor θk de la fase de la primera componente de la trama de la izquierda (la correspondiente al instante de tiempo o índice de muestras 0).

•: El valor θk+1 de la fase de la primera componente de la trama de la derecha (la correspondiente al instante de tiempo o índice de muestras D’).

•: El valor F’k de la frecuencia de la primera componente de la trama de la izquierda.

•: El valor F’k+1 de la frecuencia de la primera componente de la trama de la derecha.

Teniendo en cuenta que la derivada de la fase es la frecuencia, se pueden imponen las condiciones de contorno y obtener los valores de los cuatro coeﬁcientes del polinomio cúbico interpolador de fase.

Una vez que se dispone de todos los datos necesarios para determinar el polinomio cúbico que representa la evolución de la desviación de fase, se trata de localizar los puntos en los que se situarán las ventanas de síntesis para que sean síncronas con el periodo fundamental.

Este proceso consiste en encontrar los puntos (los índices de desplazamiento respecto a la trama de la izquierda) en los que el valor del polinomio es lo más cercanoa0oaun múltiplo entero de 2π. Como resultado de todo el proceso de localización de tramas de síntesis se obtendrá:

•: El número de tramas de síntesis existentes entre dos tramas de análisis. Puede que incluso no haya ninguna trama de síntesis entre dos tramas de análisis (por ejemplo si baja mucho el F0, y/o disminuye mucho la duración).

•: Los índices enteros correspondientes a los puntos del polinomio en los que el valor sea lo más cercano posible a 0 o a un múltiplo entero de 2π. Esos índices son los que identiﬁcan los lugares en los que se situarán las ventanas de síntesis.

•: El valor de fase dado por el polinomio en esos puntos. Será la fase residual correspondiente a la trama de síntesis que habrá que situar en esos puntos.

•: El valor de F0 en esos puntos, calculado como interpolación lineal de los valores de las tramas de análisis de la izquierda y de la derecha.

En las ﬁguras 4 y 5 se esquematiza el proceso de obtención de la localización de las tramas de síntesis y sus parámetros asociados.

g. Parámetros para la síntesis

Una vez que se dispone de un conjunto de tramas de síntesis (las situadas entre dos tramas de análisis), se trata de obtener los parámetros que nos permitirán realizar la generación de la señal de voz sintética. Estos parámetros son los valores de frecuencia, amplitud y fase de las componentes sinusoidales. Usualmente nos referimos a esas ternas de parámetros como “picos”, porque en las formulaciones más clásicas de los modelos sinusoidales, como “Speech Analysis/Synthesis Based on a Sinusoidal Representation” (Robert J. McAulay y Thomas F. Quatieri, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-34, no. 4, agosto 1986), los parámetros del análisis se obtenían al localizar los máximos locales (o “picos”) del espectro de amplitud.

Antes de obtener los “picos”, es necesario caracterizar completamente las tramas de síntesis. De estas tramas ya conocemos el F0 y la fase residual de la primera componente sinusoidal, además de la distancia (número de muestras) respecto a la trama anterior. Lo que no hemos acabado de precisar es la información espectral que caracterizará a esas tramas.

En rigor, si la posición de las tramas de síntesis no coincide con la de las tramas de análisis empleadas para obtenerlas, habría que hacer algún tipo de interpolación o mezcla del espectro de las tramas de análisis para caracterizar el espectro de las tramas de síntesis situadas entre las tramas de análisis. Se han hecho pruebas de este tipo (con una estrategia similar a la empleada en la interpolación espectral en los puntos de pegado) con un resultado bastante bueno. Sin embargo, considerando el impacto que esta interpolación tiene en la carga de cálculo y teniendo en cuenta que en la síntesis por corpus se confía en no modiﬁcar mucho los valores de prosodia de la voz original, se ha optado por tomar una estrategia mucho más simple: la información espectral de una trama de síntesis es la misma que la de la trama de análisis más cercana.

Para obtener los “picos” de síntesis correspondientes a una trama, se comprueba en primer lugar el tipo de trama y los valores del F0 que hay que emplear en la síntesis y del F0 que originalmente tenía la trama.

Si la trama es completamente sorda (la probabilidad de sonoridad es 0), o los valores de F0 original y sintético coinciden, los “picos” de síntesis coinciden con los “picos” de análisis (tanto los que modelan la envolvente como los adicionales). Sólo es necesario introducir la fase residual de la primera componente sinusoidal (obtenida mediante el polinomio cúbico), para alinear adecuadamente la trama.

Si la trama no es completamente sorda y el F0 sintético no coincide con el original, entonces hay que hacer un muestreo del espectro para obtener los picos. En primer lugar se usa la probabilidad de sonoridad de la trama para calcular la frecuencia de corte que separa la parte sonora de la parte sorda del espectro. Dentro de la parte sonora, se van tomando múltiplos del F0 de síntesis (armónicos). Para cada armónico, se calcula la frecuencia corregida de acuerdo a lo que se ha dicho en un apartado anterior (Diferencias respecto a los armónicos). Seguidamente, se obtienen los valores de amplitud y fase correspondientes a la frecuencia corregida, usando los “picos” que modelan la envolvente de la señal original. La interpolación se hace sobre la parte real e imaginaria de los “picos” de la envolvente original que tienen una frecuencia más cercana (superior e inferior) a la frecuencia corregida. Una vez alcanzada la frecuencia de corte, se añaden los “picos” originales que se encuentren por encima de ella (tanto los “picos” que modelan la envolvente original como los inarmónicos).

En este segundo caso (trama que no es completamente sorda, y con un F0 sintético que no coincide con el original) es necesario introducir dos correcciones:

•: Una corrección de amplitud. El hecho de cambiar la frecuencia hace que cambie el número de “picos” que se encuentran dentro de la parte sonora. Esto hace que la señal sintetizada tenga una amplitud distinta a la de la señal original, que se traduce en un cambio en la sensación del volumen percibido (la señal se escucha más “débil”, si aumenta el F0, o más “fuerte”, si disminuye el F0). Se calcula un factor basado en la relación entre los valores de F0 sintético y original, con el propósito de mantener la energía de la parte sonora de la señal. Este factor sólo se aplica a la amplitud de los “picos” de la parte sonora.

•: Una corrección de fase. Cuando se cambia el F0, la frecuencia de la primera componente sinusoidal es diferente al valor que tenía originalmente y, consecuentemente, también la fase de esa componente será distinta. En el análisis, se obtenía una fase residual que se eliminaba de la trama original para que la fase de la primera componente tuviera un valor concreto (el que correspondía a una trama adecuadamente centrada en la forma de onda del periodo). La corrección de fase que hay que introducir tiene en cuenta, en primer lugar, la recuperación del valor concreto de fase para la primera componente sinusoidal sintética. También tiene en cuenta la fase residual que hay que añadir a la trama (procedente de los cálculos realizados con el polinomio cúbico). La corrección de fase tiene en cuenta ambos efectos, y se aplica a todos los picos de la señal (recordemos que una componente lineal de fase equivale a un desplazamiento de la forma de onda).

En los casos en los que una trama de síntesis está afectada por la interpolación espectral debida al “pegado” hay que tener en cuenta que su espectro se compone de dos partes: la debida a su espectro “propio” y la debida al espectro “asociado” de la trama con la que se combina. La forma de tratar este caso en la obtención de parámetros para la síntesis consiste en obtener los “picos” tanto para el espectro “propio” como para el espectro “asociado” (afectados cada uno de ellos por el factor de amplitud correspondiente al peso “propio” y “asociado” que tienen en la combinación), y considerar que la trama se compone de ambos conjuntos de picos. Hay que destacar que se emplea el mismo valor de F0 sintético y de fase residual en la obtención de los “picos” en ambos espectros.

h. Síntesis por solapamiento y suma

La síntesis se realiza combinando, en el dominio del tiempo, las sinusoides de dos tramas de síntesis sucesivas. Las muestras generadas son las que se encuentran en los puntos que hay entre ellas.

En cada punto, la muestra generada por la trama de la izquierda se multiplica por un peso que va disminuyendo linealmente hasta llegar a un valor cero en el punto correspondiente a la trama de la derecha. Por el contrario, la muestra generada por la trama de la derecha se multiplica por un peso complementario al de la trama de la izquierda (1 menos el peso correspondiente a la trama de la izquierda). Esto es lo que se conoce como solapamiento y suma con ventanas triangulares.

Claims

REIVINDICACIONES

1. Método de análisis, modiﬁcación y síntesis de señal de voz que comprende:

a.

una fase de localización de ventanas de análisis mediante un proceso iterativo de determinación de la fase de la primera componente sinusoidal de la señal y comparación entre el valor de fase de dicha componente y un valor predeterminado hasta encontrar una posición para la que la diferencia de fase representa un desplazamiento temporal menor a media muestra de voz.

b.

una fase de selección de tramas de análisis correspondientes a un alófono y reajuste de la duración y la frecuencia fundamental según un modelo, de manera que si la diferencia entre la duración original o la frecuencia fundamental original y las que se quieren imponer supera unos umbrales, se ajustan la duración y la frecuencia fundamental para generar tramas de síntesis.

c.

una fase de generación de voz sintética a partir de las tramas de síntesis tomando como información espectral de la trama de síntesis la información de la trama de análisis más cercana y tomando tantas tramas de síntesis como periodos tenga la señal sintética.
2.

Método según la reivindicación 1, donde una vez localizada la primera ventana de análisis se busca la siguiente desplazándose medio periodo y así sucesivamente.
3.

Método según las reivindicaciones 1 ó 2 donde se hace una corrección de fase añadiendo una componente lineal a la fase de todas las sinusoides de la trama.
4.

Método según cualquiera de las reivindicaciones anteriores donde el umbral de modiﬁcación para la duración es menor del 25%.
5. Método según la reivindicación 4 donde el umbral de modiﬁcación para la duración es menor del 15%.
6.

Método según cualquiera de las reivindicaciones anteriores donde el umbral de modiﬁcación para la frecuencia fundamental es menor del 15%.
7.

Método según la reivindicación 6 donde el umbral de modiﬁcación para la frecuencia fundamental es menor del 10%.
8.

Método según cualquiera de las reivindicaciones anteriores, donde la fase de generación a partir de las tramas de síntesis se realiza por solapamiento y suma con ventanas triangulares.
9. Uso del método de cualquiera de las reivindicaciones anteriores en conversores de texto-voz.
10.

Uso del método de cualquiera de las reivindicaciones 1 a 9 para mejorar la inteligibilidad de las grabaciones de voz.
11.

Uso del método de cualquiera de las reivindicaciones 1 a 9 para pegar segmentos de grabaciones de voz diferenciados en cualquier característica de su espectro.

OFICINA ESPAÑOLA DE PATENTES Y MARCAS

N.º solicitud: 200931212

ESPAÑA

Fecha de presentación de la solicitud: 21.12.2009

Fecha de prioridad:

INFORME SOBRE EL ESTADO DE LA TECNICA

51 Int. Cl. : G10L13/02 (2006.01) G10L13/04 (2006.01)

DOCUMENTOS RELEVANTES

Categoría

56 Documentos citados Reivindicaciones afectadas

A A A A

WO 2007007253 A1 (KONINKL PHILIPS ELECTRONICS NV et al.) 18.01.2007 US 5452398 A (YAMADA KEIICHI et al.) 19.09.1995 US 2006111908 A1 (SAKATA GORO) 25.05.2006 EP 1256931 A1 (SONY FRANCE SA et al.) 13.11.2002 1 1 1 1

Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud

El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:

Fecha de realización del informe 30.01.2012

Examinador M. C. González Vasserot Página 1/4

INFORME DEL ESTADO DE LA TÉCNICA

Nº de solicitud: 200931212

Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) G10L Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de

búsqueda utilizados) INVENES, EPODOC

Informe del Estado de la Técnica Página 2/4

OPINIÓN ESCRITA

Nº de solicitud: 200931212

Fecha de Realización de la Opinión Escrita: 30.01.2012

Declaración

Novedad (Art. 6.1 LP 11/1986)

Reivindicaciones Reivindicaciones 1-11 SI NO

Actividad inventiva (Art. 8.1 LP11/1986)

Reivindicaciones Reivindicaciones 1-11 SI NO

Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).

Base de la Opinión.-

La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.

Informe del Estado de la Técnica Página 3/4

OPINIÓN ESCRITA

Nº de solicitud: 200931212

1. Documentos considerados.-

A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.

Documento

Número Publicación o Identificación Fecha Publicación

D01

WO 2007007253 A1 (KONINKL PHILIPS ELECTRONICS NV et al.) 18.01.2007

D02

US 5452398 A (YAMADA KEIICHI et al.) 19.09.1995

D03

US 2006111908 A1 (SAKATA GORO) 25.05.2006

D04

EP 1256931 A1 (SONY FRANCE SA et al.) 13.11.2002
2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración

Los documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Así, la invención reivindicada se considera que cumple los requisitos de novedad, actividad inventiva y aplicación industrial. 1.-El objeto de la presente solicitud de patente consiste en un método de análisis, modificación y síntesis de señal de voz perteneciendo a las técnicas de tratamiento digital de señal de voz usadas dentro de conversores texto-voz. Comprende una fase de localización de ventanas de análisis mediante un proceso iterativo de determinación de la fase de la primera componente sinusoidal y comparación entre el valor de fase de dicha componente y un valor predeterminado, una fase de selección de tramas de análisis y reajuste de la duración y la frecuencia fundamental según unos umbrales y una fase de generación de voz sintética a partir de las tramas de síntesis tomando como información espectral de la trama de síntesis la información de la trama de análisis más cercana y tomando tantas tramas de síntesis como periodos tenga la señal sintética. El método permite una localización coherente de las ventanas de análisis dentro de los periodos de la señal y generar de forma exacta los instantes de síntesis de manera síncrona con el periodo fundamental. 2.-El problema planteado por el solicitante es, al obtener las tramas (ventanas) de la señal de voz de manera síncrona con el periodo fundamental (pitch), las ventanas de análisis deben estar centradas en los instantes de cierre de la glotis u otros puntos identificables dentro de cada periodo de la señal, que deben encontrarse cuidadosamente y ser etiquetados coherentemente, para evitar desajustes en los puntos de pegado. Este método trata de facilitar las tareas de interpolar las características espectrales de la señal en los puntos de pegado y paliar los problemas técnicos más habituales a los que se enfrentan los sistemas de conversión texto-voz basados en concatenación de unidades se derivan de la falta de coherencia de fase en los puntos de pegado entre unidades. El documento D1 puede considerarse como el representante del estado de la técnica más cercano ya que en este documento confluyen la mayoría de las características técnicas reivindicadas.

Análisis de la reivindicación independiente 1

D1 se diferencia del documento de solicitud de patente en que no localiza las ventanas de análisis mediante un proceso iterativo de determinación de la fase de la primera componente sinusoidal de la señal y comparación entre el valor de fase de dicha componente y un valor determinado hasta encontrar una posición para la que la diferencia de fase representa un desplazamiento temporal menor a media muestra de voz. La reivindicación 1 es nueva (Art. 6.1 LP 11/1986) y tiene actividad inventiva (Art. 8.1 LP11/1986).

Análisis del resto de los documentos

De este modo, ni el documento D1, ni ninguno del resto de los documentos citados en el Informe del Estado de la Técnica, tomados solos o en combinación, revelan la invención en estudio tal y como es definida en las reivindicaciones independientes, de modo que los documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Además, en los documentos citados no hay sugerencias que dirijan al experto en la materia a una combinación que pudiera hacer evidente la invención definida por estas reivindicaciones y no se considera obvio para una persona experta en la materia aplicar las características incluidas en los documentos citados y llegar a la invención como se revela en la misma.

Informe del Estado de la Técnica Página 4/4