PT685835E

PT685835E - Reconhecimento de discurso baseado em hmms

Info

Publication number: PT685835E
Application number: PT95107651T
Authority: PT
Inventors: Jari Ranta
Original assignee: Tecnomen Oy
Priority date: 1994-05-30
Filing date: 1995-05-19
Publication date: 2000-04-28
Also published as: NO307394B1; US5943647A; DE69512961T2; EP0685835B1; ES2139112T3; EP0685835A1; DK0685835T3; ATE186150T1; DE69512961D1; NO952049D0; FI98162C; FI942518A0; FI98162B; NO952049L; FI942518A; GR3032375T3

Description

DESCRICÂQ EDÍarafe: "RECONHECIMENTO DE DISCURSO BASEADO EM HMMs" O problema que deve ser resolvido A precisão do reconhecimento de discurso de um orador independente é inadequada com os algoritmos actuais, especialmente quando o reconhecimento é feito através de linhas telefónicas de marcação. A precisão de um identificador de discurso significa a capacidade para reconhecer uma expressão oral por comparação com os modelos de palavras previamente computados no sistema.

Soluções actuais e as suas desvantagens

Tradicionalmente são utilizados, nos identificadores de discurso, os modelos ocultos de Markov (HMM - Hidden Markov models) que se baseiam na teoria das probabilidades. Durante a fase de reconhecimento é calculada a probabilidade de um certo modelo poder produzir a expressão oral. O modelo cuja probabilidade é maior é seleccionado como sendo a palavra reconhecida. A referência [2] representa um método de reconhecimento de discurso que utiliza a quantização de vectores (VQ) com HMMs, em vez de correspondência estatística de padrões. Durante a fase de reconhecimento, calcula-se o erro quadrado entre o modelo da palavra e a expressão oral dada. Os modelos de palavras são HMMs em que cada estado tem o seu próprio livro de códigos VQ. Cada livro de códigos VQ é calculado a partir dos dados de formação com o algoritmo de quantização de vector LBG [5], e contém os parâmetros de discurso típicos que ocorrem nesse estado. O modelo que origina o menor erro quadrado é escolhido como sendo a palavra reconhecida. O algoritmo de Viterbi modificado, que é utilizado no cálculo da distância também é apresentado em [2].

Um identificador de discurso, que utiliza HMMs com densidades de mistura contínuas, é apresentado em [3]. Este utiliza o cepstrum deduzido a partir da análise LPC e a sua derivada como parâmetros de discurso (derivada espectral). O vector, que é calculado a partir do discurso, contém informação a curto termo sobre as mudanças espectrais no sinal (via o cepstrum) e a derivada espectral de curto termo contém informação sobre o alcance de maior tempo (via o cepstrum delta). Ao adicionar a derivada espectral aos parâmetros de discurso, obtêm-se uma apresentação bidimensional mais precisa do sinal de discurso que varia no tempo (frequência e tempo). Segundo [3], isto aumenta a precisão de reconhecimento do modelo HMM que utiliza densidades de mistura continua.

No entanto, a exactidão do reconhecimento com ambos estes métodos é inadequada.

Um algoritmo patenteado [4], que é utilizado para verificação do orador, dá uma taxa de 1% de falsa rejeição e de reconhecimento falso quando utiliza números de zero a nove, para levar a cabo a verificação (a referência não menciona quantos números tem que dizer o utilizador durante o processo de verificação).

Invenção A ideia é combinar os métodos apresentados em [2] e [3], i.e., adicionar a derivada espectral apresentada em [3] aos parâmetros de discurso do algoritmo HMM-VQ em [2], e obter uma melhor precisão do reconhecimento. A invenção providencia um método de reconhecimento de discurso, como definido na reivindicação 1. O identificador de linguagem em [2], que utiliza uma medida de distorção VQ, é comparado com os conhecidos HMMs estatísticos que utilizam densidades de misturas descontínuas ou continuas, e a superioridade do HMM-VQ sobre o HMM tradicional é claramente demonstrada. Devido ao facto da utilização da derivada espectral nos HMMs estatísticos melhorar a precisão do reconhecimento, ao adicionar-se a derivada espectral ao modelo HMM-VQ, a precisão do reconhecimento pode ser ainda mais aperfeiçoada. As derivadas espectrais contêm informação sobre um período de tempo ainda maior. Ao combinar os dois conjuntos de parâmetros, pode obter-se uma maior taxa de reconhecimento do que se apenas se usar o espectro de discurso, tal como em [2]. Durante o processo de formação são calculados os livros de código VQ separadamente para o espectro do discurso e para as derivadas espectrais.

Quando se utilizaram dados de teste obtidos através de linhas telefónicas de marcação, a exactidão do reconhecimento foi superior em comparação com o método de [2]. Foram utilizados 100 oradores para formação e foram utilizados 25 oradores diferentes para a experiência. O vocabulário consistiu em onze palavras em Finlandês e obteve-se uma exactidão de 98,85%. Se fosse estabelecido um limiar, de modo a que a distância relativa entre a melhor palavra e a segunda melhor palavra fosse superior a 10%, antes que fosse reconhecida uma palavra válida, obter-se-ia uma exactidão de 100%, enquanto que 1,5% das entradas seriam rejeitadas. A referência dá uma precisão de reconhecimento de 100%, mas os dados de teste foram gravados através de um microfone de alta fidelidade. É muito mais difícil reconhecer o discurso, a partir de um telefone, devido à largura limitada da banda e devido ao facto das frequências das respostas das linhas telefónicas poderem variar imenso.

Exemplo de uma aplicação utilizando a invenção O método proposto pode ser utilizado para o reconhecimento do discurso da mesma maneira do que os HMMs estatísticos. As unidades de discurso a reconhecer podem ser palavras, fonemas, trífones, etc.

Por exemplo, a aplicação pode ser um sistema de voz, em que os comandos do menu são dados por alta voz em vez de através de botões («se quiser ouvir uma mensagem, pressione 3...»). O sistema é treinado para reconhecer um pequeno vocabulário de palavras de comando o qual é comparado com o discurso pronunciado pelo utilizador. O mesmo algoritmo pode ser utilizado para verificação do orador e experiências preliminares tiveram resultados promissores. Ao utilizar apenas uma palavra para verificação a taxa de erro foi 0.21%. O erro é calculado multiplicando o número de falsas rejeições e. de reconhecimentos falsos e obtendo a raiz quadrada do resultado [6]. Foram utilizados cinco oradores diferentes "verdadeiros" no teste, os quais foram comparados com 185 impostores. Os modelos de palavras foram calculados a partir de cinco repetições de uma palavra (compare-se isto com [4], em que se obtém menos de 1% de taxa de rejeições). A taxa de erro obtida em [6] foi de 3.2% e utilizaram-se amostras de discurso de alta qualidade na experiência. A capacidade para reconhecer o orador através do telefone é importante nas aplicações de correio de voz em que o telefone não pode enviar tons DTMF. Neste caso não existe nenhum método mais fiável para reconhecer aquele que chama do que a sua própria voz.

Descrição operacional

Apresenta-se seguidamente um método para reconhecimento de discurso independente de um orador descontínuo. O método de reconhecimento utiliza HMMs, com quantização de vectores para representar os parâmetros de discurso. O HMM é uma máquina de estado simples em que a transição pode apenas ocorrer para o estado corrente ou para o próximo estado. O diagrama de bloco das diferentes fases do reconhecimento do discurso é dado na Figura. 1. O novo identificador de discurso utiliza modelos HMM, de modo a que cada estado seja descrito por dois livros de códigos VQ diferentes. Um é obtido usando os parâmetros espectrais calculados com a análise PLP [1], e o outro é obtido usando os parâmetros de derivação espectrais.

Diferentes fases do reconhecimento 1. Análise do discurso O discurso a reconhecer é analisado com análise PLP [1] em partes de 30 mseg e utilizando intervalos de 15 mseg. A fase de análise dá os parâmetros do discurso cc^m), em que 1< m< 5, representando este intervalo de 15 mseg. O vector cc^m), no instante t, é ponderado com a janela Wc{m), que resulta em 4 cim) = cc&m) *Wc(m).

(D 2. 0 cálculo dos parâmetros A referência [3] descreve o modo como a utilização da derivada espectral melhora a exactidão do reconhecimento de um HMM estatístico. A derivada espectral significa a média ponderada dos parâmetros espectrais, obtidos a partir da fase de análise. A média é calculada sobre uma janela de tempo curta segundo a equação (2) k ACt(m) = [ Σ kc^/lm) ] * G, 1< m < 5, K= 2 (2) em que G é um factor de amplificação seleccionado de modo a que as variâncias dos vectores c^m) e Ac^m) sejam iguais. O valor aqui utilizado foi 0,2. Ao combinar estes dois vectores obtém-se um conjunto de parâmetros que descreve o intervalo de tempo / 0/ = { Ci(m), ACj(ni) } (3) o qual consiste em dez elementos. O conjunto de parâmetros do discurso é representado por C e o parâmetro da derivada espectral é representado por AC, i.e. C = {c/(/77)} e AC = { Ac^m)} (4) 3. Fase de treino

Os modelos de palavras são treinados separadamente para os parâmetros espectrais C e para os parâmetros da derivada espectral aC. Os modelos são treinados utilizando um algoritmo de quantização de vectores e o processo de treino encontra-se ilustrado na figura 2. 1. As amostras de discursos que são utilizadas para o treino são previamente analisadas por análise PLP e obtém-se C e aC. Estes vectores descrevem o discurso com intervalos de 15 mseg. Cada amostra de discurso analisada é em primeiro lugar dividida linearmente em estados, de modo a que cada estado tenha a mesma quantidade de vectores. Os estados correspondem aos estados num HMM. Se é necessário um HMM com oito estados, cada amostra de discurso analisada é dividida em oito partes de igual comprimento. Esta divisão linear dá um ponto de partida para o algoritmo de treino. 2. Um livro de códigos separado é calculado para cada estado num HMM. O algoritmo de quantização de vectores é aplicado a cada vector de cada estado e de cada amostra. Por exemplo, todos os vectores que pertencem ao primeiro estado, em cada amostra de discurso, são utilizados para criar o livro de códigos para o primeiro estado. O mesmo é feito para ao estados desde o segundo até ao oitavo. Os livros de códigos contêm um conjunto de vectores que dão o quadrado da distância mínima entre os vectores usados para o treino. Existem vários algoritmos para desenhar um quantizador de vectores; um método apresentado em [5] é aqui utilizado. 3. Quando são calculados os livros de códigos óptimos a partir dos vectores de treino, é calculada a distorção VQ de cada amostra de discurso em relação ao modelo. O somatório denota a «excelência» do modelo. Quanto menor fôr a distorsão total, melhor o modelo representa as palavras que foram usadas quando o modelo foi criado. 4. O somatório é comparado com o somatório obtido na iteração anterior. Se o somatório fôr maior do que o somatório anterior, o treino acaba.

5. Se o novo somatório é menor, as amostras de discurso são divididas num novo conjunto de estados e o processo de aprendizagem continua a partir do passo 2. A sequência óptima de estados é encontrada utilizando o algoritmo de Viterbi. E importante que as amostras de discurso sejam recolhidas a partir do mesmo ambiente em que se pretende utilizar o identificador. Se fôr necessário reconhecer o discurso por telefone, então os modelos de palavras têm que ser treinados com palavras recolhidas através do telefone. Se forem utilizados ambientes diferentes no treino e no reconhecimento, a precisão do reconhecimento degrada-se substancialmente. 4. O cálculo da distância É calculada a distância de uma palavra, entre o discurso proferido e o modelo da palavra. A distância D de cada modelo de palavra é calculada com o algoritmo de Viterbi modificado [2], segundo a seguinte equação. D = min Σ {d(Q, VQX1) + ά(Δρ, I/Q„) + d(xHf λ})} (5) x /=1

Em que x0Xi...Xl significa a sequência de estados de um HMM e VQxi representa o livro de códigos no estado x,. O número de estados do HMM é representado por 5, i.e., 1< Xj < S. L é o número de intervalos numa palavra. d^x,-i, x}) é zero se houver uma transição do estado xu para o estado x,; em todos os outros casos c{xí-i, x,,) = cc. d[Ci, VQXj) representa a menor distância entre os vectores c, e VQX, a qual é definida como c(clf VQxi) = min d^c,, vqj), vqj e VQxi. j 7 (6) (7) em que o(q, vqj) é definido como 5 dyCi, vqj) = Σ (¢(/77) - W7//77))2 m=l

Onde vqjé um componente no livro de códigos. O número de componentes de um livro de códigos VQxté uma potência de dois, normalmente 16 ou 32. A equação (7) calcula o erro quadrado menor entre o vector c,e o componente vqjúo livro de códigos. A equação (6) calcula o erro quadrado menor entre o vector c-, e o livro de códigos VQXj. Do mesmo modo, c{aq, VQxj) representa a menor distância entre os vectores aq e VQx,. O algoritmo de Viterbi dado em (5) é calculado recursiva mente de modo a que a distorção VQ seja adicionada ao mesmo tempo a ambos os conjuntos de parâmetros, i.e., o quadrado da menor distância calculada para os parâmetros espectrais e para os parâmetros da derivada espectral. Isto pode ser escrito como = min{g(j,t-l) + c{c/f VQ;) + c{Ac/f VQJ) + dUJ)} (8) D=g{S,L), t= 1,2,..., L ja j= 1,2,...,5.

Aqui está a ideia da invenção na forma matemática. O termo c^aq, VQJ) é adicionado ao algoritmo de Viterbi e a equação (8) é calculada para cada intervalo temporal ide 15mseg. Existe também a possibilidade de usar dois HMMs, em que o primeiro é calculado usando os parâmetros espectrais e em que o segundo é calculado usando os parâmetros espectrais derivados. Os resultados destes dois modelos são então adicionados com a ponderação adequada para obter o resultado final do reconhecimento. 8

Referências: [1] H. Hermansky, «Perceptual linear predictive (PLP) analysis of speech», Journal of acoustical Society of America», Vol. 87, n°4, Abril 1990, pp. 1738 - 1752.

[2] Nakagawa, S and Suzuki, Η., «A new speech recognition method based on VQ-distortion measure and HMM», ICASSP-93, pp. 11-676 - 11-679.

[3] L.R., Rabiner, Wilpon, J.G., and Soong, F. K., «High performance connected digit recognition usin hidden Markov models», IEEE Transactions on Acoustics Speech and Signal Processing, vol. 37, pp. 1214 - 1225, Agosto 1989.

[4] High Accuracy Speaker Verification System, Ensigma Ltd.

[5] Linde, Y., Buzo, A., Gray, R. M., »An algorithm for Vector Quantizer Design», IEEE Transactions on Communications, vol. COM-28, N°l, Janeiro 1980.

[6] Burton, D. K., «Text-Dependent Speaker Verification Using Vector Quantization Source Coding», IEEE Transactions on Acoustics Speech and Signal Processing, vol. ASSP-35, n°2, pp. 133 - 143, Fevereiro 1987.

Lisboa,

NOV«s ........^•^KliDADflNDU-SIRiAi.

Av.Duc^d-Aví·^ i^.vraUSBQA TEL 9

Claims

REIVINDICACAO 1- Um método de reconhecimento de discurso baseado em modelos ocultos de Markov (HMM) que utiliza a análise perceptual linear prenunciativa (PLP) para calcular os parâmetros de discurso do discurso proferido, em que se calcula a distorção VQ dos parâmetros de discurso a partir dos livros de códigos, em que os livros de códigos são gerados usando o algoritmo LBG, em que o modelo da palavra que tem a menor distorção VQ é seleccionado como sendo a palavra reconhecida, caracterizado pelo facto do algoritmo LBG ser utilizado para treinar os modelos de palavras separadamente para os parâmetros espectrais e para os parâmetros da derivada espectral e pelo facto de se utilizarem livros de códigos diferentes para ambos os conjuntos de parâmetros, os quais, por sua vez, são utilizados para modelar cada estado de um HMM. Lisboa, O AQLNTT OFICIAL DA PROPREDADt fOLfSTKIA;

FRANCISCO Dl NCVAh AGí-N 1 [ O!'!('!/'.!. DA ΡΚΟΡβΙΓΟΛΙΧ ..VJS! WAL Av. Duque D' Av:U, ?.l V - DCO ΙΙΓ.30Α 1£L.: 547763 / 3ϊ5ΧΛ8 1