PT685835E - Reconhecimento de discurso baseado em hmms - Google Patents

Reconhecimento de discurso baseado em hmms Download PDF

Info

Publication number
PT685835E
PT685835E PT95107651T PT95107651T PT685835E PT 685835 E PT685835 E PT 685835E PT 95107651 T PT95107651 T PT 95107651T PT 95107651 T PT95107651 T PT 95107651T PT 685835 E PT685835 E PT 685835E
Authority
PT
Portugal
Prior art keywords
speech
parameters
spectral
word
hmm
Prior art date
Application number
PT95107651T
Other languages
English (en)
Inventor
Jari Ranta
Original Assignee
Tecnomen Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tecnomen Oy filed Critical Tecnomen Oy
Publication of PT685835E publication Critical patent/PT685835E/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Telephone Function (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

DESCRICÂQ EDÍarafe: "RECONHECIMENTO DE DISCURSO BASEADO EM HMMs" O problema que deve ser resolvido A precisão do reconhecimento de discurso de um orador independente é inadequada com os algoritmos actuais, especialmente quando o reconhecimento é feito através de linhas telefónicas de marcação. A precisão de um identificador de discurso significa a capacidade para reconhecer uma expressão oral por comparação com os modelos de palavras previamente computados no sistema.
Soluções actuais e as suas desvantagens
Tradicionalmente são utilizados, nos identificadores de discurso, os modelos ocultos de Markov (HMM - Hidden Markov models) que se baseiam na teoria das probabilidades. Durante a fase de reconhecimento é calculada a probabilidade de um certo modelo poder produzir a expressão oral. O modelo cuja probabilidade é maior é seleccionado como sendo a palavra reconhecida. A referência [2] representa um método de reconhecimento de discurso que utiliza a quantização de vectores (VQ) com HMMs, em vez de correspondência estatística de padrões. Durante a fase de reconhecimento, calcula-se o erro quadrado entre o modelo da palavra e a expressão oral dada. Os modelos de palavras são HMMs em que cada estado tem o seu próprio livro de códigos VQ. Cada livro de códigos VQ é calculado a partir dos dados de formação com o algoritmo de quantização de vector LBG [5], e contém os parâmetros de discurso típicos que ocorrem nesse estado. O modelo que origina o menor erro quadrado é escolhido como sendo a palavra reconhecida. O algoritmo de Viterbi modificado, que é utilizado no cálculo da distância também é apresentado em [2].
Um identificador de discurso, que utiliza HMMs com densidades de mistura contínuas, é apresentado em [3]. Este utiliza o cepstrum deduzido a partir da análise LPC e a sua derivada como parâmetros de discurso (derivada espectral). O vector, que é calculado a partir do discurso, contém informação a curto termo sobre as mudanças espectrais no sinal (via o cepstrum) e a derivada espectral de curto termo contém informação sobre o alcance de maior tempo (via o cepstrum delta). Ao adicionar a derivada espectral aos parâmetros de discurso, obtêm-se uma apresentação bidimensional mais precisa do sinal de discurso que varia no tempo (frequência e tempo). Segundo [3], isto aumenta a precisão de reconhecimento do modelo HMM que utiliza densidades de mistura continua.
No entanto, a exactidão do reconhecimento com ambos estes métodos é inadequada.
Um algoritmo patenteado [4], que é utilizado para verificação do orador, dá uma taxa de 1% de falsa rejeição e de reconhecimento falso quando utiliza números de zero a nove, para levar a cabo a verificação (a referência não menciona quantos números tem que dizer o utilizador durante o processo de verificação).
Invenção A ideia é combinar os métodos apresentados em [2] e [3], i.e., adicionar a derivada espectral apresentada em [3] aos parâmetros de discurso do algoritmo HMM-VQ em [2], e obter uma melhor precisão do reconhecimento. A invenção providencia um método de reconhecimento de discurso, como definido na reivindicação 1. O identificador de linguagem em [2], que utiliza uma medida de distorção VQ, é comparado com os conhecidos HMMs estatísticos que utilizam densidades de misturas descontínuas ou continuas, e a superioridade do HMM-VQ sobre o HMM tradicional é claramente demonstrada. Devido ao facto da utilização da derivada espectral nos HMMs estatísticos melhorar a precisão do reconhecimento, ao adicionar-se a derivada espectral ao modelo HMM-VQ, a precisão do reconhecimento pode ser ainda mais aperfeiçoada. As derivadas espectrais contêm informação sobre um período de tempo ainda maior. Ao combinar os dois conjuntos de parâmetros, pode obter-se uma maior taxa de reconhecimento do que se apenas se usar o espectro de discurso, tal como em [2]. Durante o processo de formação são calculados os livros de código VQ separadamente para o espectro do discurso e para as derivadas espectrais.
Quando se utilizaram dados de teste obtidos através de linhas telefónicas de marcação, a exactidão do reconhecimento foi superior em comparação com o método de [2]. Foram utilizados 100 oradores para formação e foram utilizados 25 oradores diferentes para a experiência. O vocabulário consistiu em onze palavras em Finlandês e obteve-se uma exactidão de 98,85%. Se fosse estabelecido um limiar, de modo a que a distância relativa entre a melhor palavra e a segunda melhor palavra fosse superior a 10%, antes que fosse reconhecida uma palavra válida, obter-se-ia uma exactidão de 100%, enquanto que 1,5% das entradas seriam rejeitadas. A referência dá uma precisão de reconhecimento de 100%, mas os dados de teste foram gravados através de um microfone de alta fidelidade. É muito mais difícil reconhecer o discurso, a partir de um telefone, devido à largura limitada da banda e devido ao facto das frequências das respostas das linhas telefónicas poderem variar imenso.
Exemplo de uma aplicação utilizando a invenção O método proposto pode ser utilizado para o reconhecimento do discurso da mesma maneira do que os HMMs estatísticos. As unidades de discurso a reconhecer podem ser palavras, fonemas, trífones, etc.
Por exemplo, a aplicação pode ser um sistema de voz, em que os comandos do menu são dados por alta voz em vez de através de botões («se quiser ouvir uma mensagem, pressione 3...»). O sistema é treinado para reconhecer um pequeno vocabulário de palavras de comando o qual é comparado com o discurso pronunciado pelo utilizador. O mesmo algoritmo pode ser utilizado para verificação do orador e experiências preliminares tiveram resultados promissores. Ao utilizar apenas uma palavra para verificação a taxa de erro foi 0.21%. O erro é calculado multiplicando o número de falsas rejeições e. de reconhecimentos falsos e obtendo a raiz quadrada do resultado [6]. Foram utilizados cinco oradores diferentes "verdadeiros" no teste, os quais foram comparados com 185 impostores. Os modelos de palavras foram calculados a partir de cinco repetições de uma palavra (compare-se isto com [4], em que se obtém menos de 1% de taxa de rejeições). A taxa de erro obtida em [6] foi de 3.2% e utilizaram-se amostras de discurso de alta qualidade na experiência. A capacidade para reconhecer o orador através do telefone é importante nas aplicações de correio de voz em que o telefone não pode enviar tons DTMF. Neste caso não existe nenhum método mais fiável para reconhecer aquele que chama do que a sua própria voz.
Descrição operacional
Apresenta-se seguidamente um método para reconhecimento de discurso independente de um orador descontínuo. O método de reconhecimento utiliza HMMs, com quantização de vectores para representar os parâmetros de discurso. O HMM é uma máquina de estado simples em que a transição pode apenas ocorrer para o estado corrente ou para o próximo estado. O diagrama de bloco das diferentes fases do reconhecimento do discurso é dado na Figura. 1. O novo identificador de discurso utiliza modelos HMM, de modo a que cada estado seja descrito por dois livros de códigos VQ diferentes. Um é obtido usando os parâmetros espectrais calculados com a análise PLP [1], e o outro é obtido usando os parâmetros de derivação espectrais.
Diferentes fases do reconhecimento 1. Análise do discurso O discurso a reconhecer é analisado com análise PLP [1] em partes de 30 mseg e utilizando intervalos de 15 mseg. A fase de análise dá os parâmetros do discurso cc^m), em que 1< m< 5, representando este intervalo de 15 mseg. O vector cc^m), no instante t, é ponderado com a janela Wc{m), que resulta em 4 cim) = cc&m) *Wc(m).
(D 2. 0 cálculo dos parâmetros A referência [3] descreve o modo como a utilização da derivada espectral melhora a exactidão do reconhecimento de um HMM estatístico. A derivada espectral significa a média ponderada dos parâmetros espectrais, obtidos a partir da fase de análise. A média é calculada sobre uma janela de tempo curta segundo a equação (2) k ACt(m) = [ Σ kc^/lm) ] * G, 1< m < 5, K= 2 (2) em que G é um factor de amplificação seleccionado de modo a que as variâncias dos vectores c^m) e Ac^m) sejam iguais. O valor aqui utilizado foi 0,2. Ao combinar estes dois vectores obtém-se um conjunto de parâmetros que descreve o intervalo de tempo / 0/ = { Ci(m), ACj(ni) } (3) o qual consiste em dez elementos. O conjunto de parâmetros do discurso é representado por C e o parâmetro da derivada espectral é representado por AC, i.e. C = {c/(/77)} e AC = { Ac^m)} (4) 3. Fase de treino
Os modelos de palavras são treinados separadamente para os parâmetros espectrais C e para os parâmetros da derivada espectral aC. Os modelos são treinados utilizando um algoritmo de quantização de vectores e o processo de treino encontra-se ilustrado na figura 2. 1. As amostras de discursos que são utilizadas para o treino são previamente analisadas por análise PLP e obtém-se C e aC. Estes vectores descrevem o discurso com intervalos de 15 mseg. Cada amostra de discurso analisada é em primeiro lugar dividida linearmente em estados, de modo a que cada estado tenha a mesma quantidade de vectores. Os estados correspondem aos estados num HMM. Se é necessário um HMM com oito estados, cada amostra de discurso analisada é dividida em oito partes de igual comprimento. Esta divisão linear dá um ponto de partida para o algoritmo de treino. 2. Um livro de códigos separado é calculado para cada estado num HMM. O algoritmo de quantização de vectores é aplicado a cada vector de cada estado e de cada amostra. Por exemplo, todos os vectores que pertencem ao primeiro estado, em cada amostra de discurso, são utilizados para criar o livro de códigos para o primeiro estado. O mesmo é feito para ao estados desde o segundo até ao oitavo. Os livros de códigos contêm um conjunto de vectores que dão o quadrado da distância mínima entre os vectores usados para o treino. Existem vários algoritmos para desenhar um quantizador de vectores; um método apresentado em [5] é aqui utilizado. 3. Quando são calculados os livros de códigos óptimos a partir dos vectores de treino, é calculada a distorção VQ de cada amostra de discurso em relação ao modelo. O somatório denota a «excelência» do modelo. Quanto menor fôr a distorsão total, melhor o modelo representa as palavras que foram usadas quando o modelo foi criado. 4. O somatório é comparado com o somatório obtido na iteração anterior. Se o somatório fôr maior do que o somatório anterior, o treino acaba.
5. Se o novo somatório é menor, as amostras de discurso são divididas num novo conjunto de estados e o processo de aprendizagem continua a partir do passo 2. A sequência óptima de estados é encontrada utilizando o algoritmo de Viterbi. E importante que as amostras de discurso sejam recolhidas a partir do mesmo ambiente em que se pretende utilizar o identificador. Se fôr necessário reconhecer o discurso por telefone, então os modelos de palavras têm que ser treinados com palavras recolhidas através do telefone. Se forem utilizados ambientes diferentes no treino e no reconhecimento, a precisão do reconhecimento degrada-se substancialmente. 4. O cálculo da distância É calculada a distância de uma palavra, entre o discurso proferido e o modelo da palavra. A distância D de cada modelo de palavra é calculada com o algoritmo de Viterbi modificado [2], segundo a seguinte equação. D = min Σ {d(Q, VQX1) + ά(Δρ, I/Q„) + d(xHf λ})} (5) x /=1
Em que x0Xi...Xl significa a sequência de estados de um HMM e VQxi representa o livro de códigos no estado x,. O número de estados do HMM é representado por 5, i.e., 1< Xj < S. L é o número de intervalos numa palavra. d^x,-i, x}) é zero se houver uma transição do estado xu para o estado x,; em todos os outros casos c{xí-i, x,,) = cc. d[Ci, VQXj) representa a menor distância entre os vectores c, e VQX, a qual é definida como c(clf VQxi) = min d^c,, vqj), vqj e VQxi. j 7 (6) (7) em que o(q, vqj) é definido como 5 dyCi, vqj) = Σ (¢(/77) - W7//77))2 m=l
Onde vqjé um componente no livro de códigos. O número de componentes de um livro de códigos VQxté uma potência de dois, normalmente 16 ou 32. A equação (7) calcula o erro quadrado menor entre o vector c,e o componente vqjúo livro de códigos. A equação (6) calcula o erro quadrado menor entre o vector c-, e o livro de códigos VQXj. Do mesmo modo, c{aq, VQxj) representa a menor distância entre os vectores aq e VQx,. O algoritmo de Viterbi dado em (5) é calculado recursiva mente de modo a que a distorção VQ seja adicionada ao mesmo tempo a ambos os conjuntos de parâmetros, i.e., o quadrado da menor distância calculada para os parâmetros espectrais e para os parâmetros da derivada espectral. Isto pode ser escrito como = min{g(j,t-l) + c{c/f VQ;) + c{Ac/f VQJ) + dUJ)} (8) D=g{S,L), t= 1,2,..., L ja j= 1,2,...,5.
Aqui está a ideia da invenção na forma matemática. O termo c^aq, VQJ) é adicionado ao algoritmo de Viterbi e a equação (8) é calculada para cada intervalo temporal ide 15mseg. Existe também a possibilidade de usar dois HMMs, em que o primeiro é calculado usando os parâmetros espectrais e em que o segundo é calculado usando os parâmetros espectrais derivados. Os resultados destes dois modelos são então adicionados com a ponderação adequada para obter o resultado final do reconhecimento. 8
Referências: [1] H. Hermansky, «Perceptual linear predictive (PLP) analysis of speech», Journal of acoustical Society of America», Vol. 87, n°4, Abril 1990, pp. 1738 - 1752.
[2] Nakagawa, S and Suzuki, Η., «A new speech recognition method based on VQ-distortion measure and HMM», ICASSP-93, pp. 11-676 - 11-679.
[3] L.R., Rabiner, Wilpon, J.G., and Soong, F. K., «High performance connected digit recognition usin hidden Markov models», IEEE Transactions on Acoustics Speech and Signal Processing, vol. 37, pp. 1214 - 1225, Agosto 1989.
[4] High Accuracy Speaker Verification System, Ensigma Ltd.
[5] Linde, Y., Buzo, A., Gray, R. M., »An algorithm for Vector Quantizer Design», IEEE Transactions on Communications, vol. COM-28, N°l, Janeiro 1980.
[6] Burton, D. K., «Text-Dependent Speaker Verification Using Vector Quantization Source Coding», IEEE Transactions on Acoustics Speech and Signal Processing, vol. ASSP-35, n°2, pp. 133 - 143, Fevereiro 1987.
Lisboa,
NOV«s ........^•^KliDADflNDU-SIRiAi.
Av.Duc^d-Aví·^ i^.vraUSBQA TEL 9

Claims (1)

  1. REIVINDICACAO 1- Um método de reconhecimento de discurso baseado em modelos ocultos de Markov (HMM) que utiliza a análise perceptual linear prenunciativa (PLP) para calcular os parâmetros de discurso do discurso proferido, em que se calcula a distorção VQ dos parâmetros de discurso a partir dos livros de códigos, em que os livros de códigos são gerados usando o algoritmo LBG, em que o modelo da palavra que tem a menor distorção VQ é seleccionado como sendo a palavra reconhecida, caracterizado pelo facto do algoritmo LBG ser utilizado para treinar os modelos de palavras separadamente para os parâmetros espectrais e para os parâmetros da derivada espectral e pelo facto de se utilizarem livros de códigos diferentes para ambos os conjuntos de parâmetros, os quais, por sua vez, são utilizados para modelar cada estado de um HMM. Lisboa, O AQLNTT OFICIAL DA PROPREDADt fOLfSTKIA;
    FRANCISCO Dl NCVAh AGí-N 1 [ O!'!('!/'.!. DA ΡΚΟΡβΙΓΟΛΙΧ ..VJS! WAL Av. Duque D' Av:U, ?.l V - DCO ΙΙΓ.30Α 1£L.: 547763 / 3ϊ5ΧΛ8 1
PT95107651T 1994-05-30 1995-05-19 Reconhecimento de discurso baseado em hmms PT685835E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FI942518A FI98162C (fi) 1994-05-30 1994-05-30 HMM-malliin perustuva puheentunnistusmenetelmä

Publications (1)

Publication Number Publication Date
PT685835E true PT685835E (pt) 2000-04-28

Family

ID=8540797

Family Applications (1)

Application Number Title Priority Date Filing Date
PT95107651T PT685835E (pt) 1994-05-30 1995-05-19 Reconhecimento de discurso baseado em hmms

Country Status (10)

Country Link
US (1) US5943647A (pt)
EP (1) EP0685835B1 (pt)
AT (1) ATE186150T1 (pt)
DE (1) DE69512961T2 (pt)
DK (1) DK0685835T3 (pt)
ES (1) ES2139112T3 (pt)
FI (1) FI98162C (pt)
GR (1) GR3032375T3 (pt)
NO (1) NO307394B1 (pt)
PT (1) PT685835E (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
KR20010055168A (ko) * 1999-12-09 2001-07-04 윤덕용 인터넷 환경에서의 화자확인
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
KR100932538B1 (ko) * 2007-12-12 2009-12-17 한국전자통신연구원 음성 합성 방법 및 장치
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN107039036B (zh) * 2017-02-17 2020-06-16 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
KR0132894B1 (ko) * 1992-03-13 1998-10-01 강진구 영상압축부호화 및 복호화 방법과 그 장치
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition

Also Published As

Publication number Publication date
NO307394B1 (no) 2000-03-27
US5943647A (en) 1999-08-24
DE69512961T2 (de) 2000-07-13
EP0685835B1 (en) 1999-10-27
ES2139112T3 (es) 2000-02-01
EP0685835A1 (en) 1995-12-06
DK0685835T3 (da) 2000-02-14
ATE186150T1 (de) 1999-11-15
DE69512961D1 (de) 1999-12-02
NO952049D0 (no) 1995-05-23
FI98162C (fi) 1997-04-25
FI942518A0 (fi) 1994-05-30
FI98162B (fi) 1997-01-15
NO952049L (no) 1995-12-01
FI942518A (fi) 1995-12-01
GR3032375T3 (en) 2000-04-27

Similar Documents

Publication Publication Date Title
US4908865A (en) Speaker independent speech recognition method and system
AU707355B2 (en) Speech recognition
PT685835E (pt) Reconhecimento de discurso baseado em hmms
Wilpon et al. Application of hidden Markov models for recognition of a limited set of words in unconstrained speech
KR19990043998A (ko) 패턴인식시스템
KR20010102549A (ko) 화자 인식 방법 및 장치
Gallardo Human and automatic speaker recognition over telecommunication channels
Sajjan et al. Leveraging LSTM models for overlap detection in multi-party meetings
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US6519563B1 (en) Background model design for flexible and portable speaker verification systems
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Yuan et al. Binary quantization of feature vectors for robust text-independent speaker identification
Kim et al. On approximating line spectral frequencies to LPC cepstral coefficients
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Sehr et al. Distant-talking continuous speech recognition based on a novel reverberation model in the feature domain.
JPH10254473A (ja) 音声変換方法及び音声変換装置
Singh et al. Features and techniques for speaker recognition
Li Speech recognition of mandarin monosyllables
Roucos et al. Word recognition using multisensor speech input in high ambient noise
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
Raghavan Speaker and environment adaptation in continuous speech recognition
Bharadwaj et al. Recognition of Speaker Using Vector Quantization and MFCC
Gu et al. An implementation and evaluation of an on-line speaker verification system for field trials
Ali et al. Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi
EP0190489B1 (en) Speaker-independent speech recognition method and system