PT1010168E - Eliminacao acelerada de ruido de convolucao - Google Patents

Eliminacao acelerada de ruido de convolucao Download PDF

Info

Publication number
PT1010168E
PT1010168E PT79103498T PT98909699T PT1010168E PT 1010168 E PT1010168 E PT 1010168E PT 79103498 T PT79103498 T PT 79103498T PT 98909699 T PT98909699 T PT 98909699T PT 1010168 E PT1010168 E PT 1010168E
Authority
PT
Portugal
Prior art keywords
signal
power
log
transformation
frequency band
Prior art date
Application number
PT79103498T
Other languages
English (en)
Inventor
Hugo Van Hamme
Original Assignee
Lernout & Hauspie Speechprod
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lernout & Hauspie Speechprod filed Critical Lernout & Hauspie Speechprod
Publication of PT1010168E publication Critical patent/PT1010168E/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Complex Calculations (AREA)
  • Soil Working Implements (AREA)
  • Absorbent Articles And Supports Therefor (AREA)
  • Folding Of Thin Sheet-Like Materials, Special Discharging Devices, And Others (AREA)

Description

DESCRIÇÃO "ELIMINAÇÃO ACELERADA DE RUÍDO DE CONVOLUÇÃO" A presente invenção refere-se a um método e aparelho para eliminar ruído de convolução que surge através de um canal de comunicações, com o fim de, por exemplo, facilitar o reconhecimento automático de características de voz que são independentes do canal.
Embora o reconhecimento de voz por humanos seja muito robusto contra distorções estacionárias do sinal de voz introduzidas pelo equipamento de captação e reprodução de voz e pelo canal telefónico, estas distorções, filtrando efectivamente o sinal de voz, podem degradar o desempenho dos sistemas de reconhecimento automático de voz. A fim de que a voz seja automaticamente reconhecida, é produzida uma representação paramétrica da voz de entrada que é optimamente independente, na medida possível, das fontes de ruído enumeradas. O efeito de fontes de ruído tais como as enumeradas é mais convolucional do que aditivo, e portanto aparece como uma perturbação aditiva no domínio da potência-log em que cada banda de frequência é caracterizada pelo logaritmo de uma estimativa da potência de sinal nessa banda. A análise do sinal nos domínios espectral-log e cepsetral ("cepstral") é discutida in Rabiner e Juang, Fundamentais of Speech Recognition, (Prentice Hall, 1993). O ruído convolucional é tipicamente constante ou lentamente variável. Uma técnica conhecida para remoção de ruído convolucional, de outro modo conhecida como "normalização de canal", é a retirada de uma média, ou no domínio potência-log ou no domínio
7/V'* •'\s - 2 -cepsetral ("cepstral"), correspondente a mais uma transformaçao do logaritmo da transformação de Fourier do sinal do domínio-tempo. A eliminação típica de mído de convolução baseada na retirada de média implica três passos: a. seleccionar partes de sinal contendo voz para serem usadas em calcular uma média; b. computar a média, calculada durante um período de tempo tipicamente na ordem de segundos a dezenas de segundos, da potência de ruído em cada banda de potência-log; c. subtrair a média, numa base de banda-por-banda, do sinal em cada banda.
Um exemplo para esta técnica de eliminação de ruído de convolução é descrito in Gales et. al., "Robust Speech Recognition in Additive and Convolutional Noise using Parallel Model Combination", Computer Speech and Language, vol. 9, no. 4, Oct. 1995, pp. 289-307.
Uma vez que a média computada para cada banda é uma escalar, o conjunto de médias computadas pode ser encarado como um vector médio (isto é, um vector, cada elemento do qual é uma média). A retirada de média deste tipo pode ser aplicada nos domínios quer potência-log quer cepsetral ("ceps trai"). O vector médio tem uma dimensionalidade igual ao número total de bandas de frequência. Assim, têm de ser reunidos dados suficientes para proporcionar um número de parâmetros (isto é, os elementos do vector médio) igual ao número de elementos do vector. Isto requer que vários segundos de voz sejam tipicamente necessários antes - 3 -Ι/Ι^η
de técnicas deste tipo poderem ser aplicadas com êxito. Tais técnicas estão, por isso, sujeitas às seguintes dificuldades: a. estão disponíveis dados insuficientes para as primeiras poucas palavras pronunciadas para computar o vector médio de modo fiável; b. se o cálculo de média corrente incorporar acidentalmente um segmento que não contém dados de voz, o vector médio é incorrectamente calculado, e a recuperação requer um longo período para acumular um novo cálculo de média significativo.
Uma outra técnica aplicada para eliminação de ruído convolucional é a técnica RASTA, em que é realizada filtragem linear com uma componente passa-alto, correspondente à subtracção do cépsetro ("cepstrum") médio durante os 200 milisegundos precedentes. Uma desvantagem desta técnica é a introdução de uma dependência de contexto devida ao facto de que a componente subtraída depende fortemente de fonemas pronunciados no passado imediato. É de notar que o ruído aditivo não é visado pelas técnicas precedentes.
De acordo com um aspecto da invenção, em uma das suas realizações, é proporcionado um método para remover ruído convolucional de um sinal. O método tem os passos de: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, onde o sinal tem uma potência em cada banda de frequência; b. computar um logaritmo de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado, para derivar uma transformação
J - 4 - do sinal num domínio espectral-log; c. adaptar um espectro de potência-log suavizado ao logaritmo da transformação do sinal no domínio espectral-log, para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído convolucional no domínio espectral-log; e d. remover uma função do espectro de potência-log adaptado da transformação do sinal no domínio espectral-log.
De acordo com realizações alternativas da invenção, o passo de computar um logaritmo pode incluir computar um logaritmo de uma potência média do sinal em cada banda de frequência, e o passo de adaptar um espectro de potência-log suavizado pode incluir seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência em cada banda de frequência. O passo de computar um logaritmo pode incluir fazer amostragem do sinal em estruturas discretas que podem incluir períodos de menos de 20 milisegundos. O passo de adaptar um espectro de potência-log suavizado pode incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da transformação do sinal no domínio espectral-log em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares. O passo de caracterizar o sinal pode incluir a atribuição de uma potência a cada banda de frequência num conjunto de bandas em escala de MEL.
De acordo com outras realizações da invenção, o passo de adaptar um espectro de potência-log suavizado pode incluir comprimir preliminarmente a
LS y - 5 -quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado. O passo de adaptar um espectro de potência-log suavizado pode incluir adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda e pode incluir efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência. O passo de remover da transformação do sinal uma função do espectro de potência-log adaptado pode incluir actualizar o espectro de potência-log adaptado para produzir uma estimativa actualizada do vector médio baseada na transformação do sinal durante pelo menos um período de tempo subsequente, e pode também incluir subtrair do sinal o espectro de potência-log adaptado.
De acordo com um outro aspecto da presente invenção, é proporcionado um método para remover ruído convolucional de um sinal. O método tem os passos de: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, tendo o sinal uma potência em cada banda de frequência; b. computar uma fimção de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado, para derivar uma transformação do sinal num domínio de transformação; c. adaptar um espectro de domínio de transformação suavizado à transformação do sinal no domínio de transformação, para derivar um espectro de domínio de transformação adaptado correspondente ao efeito de ruído convolucional no domínio de transformação; e
d. remover uma função do espectro de domínio de transformação adaptado da transformação do sinal no domínio de transformação.
De acordo com mais um aspecto da presente invenção, é proporcionado um aparelho para remover ruído convolucional de um canal capaz de transportar um sinal. O aparelho tem um processador espectral para transformar estruturas sucessivas do sinal numa transformação do sinal num domínio espectral-log e um registo de memória acoplado ao processador espectral para armazenar um conjunto de amplitudes espectrais-log resultantes do funcionamento do processador espectral. O aparelho também tem um processador de modelos em comunicação com o registo de memória para adaptar um modelo recursivamente suavizado ao conjunto de amplitudes espectrais-log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído de convolução no domínio espectral-log. O aparelho também tem um dispositivo de saída para subtrair o modelo recursivamente suavizado da transformação do sinal para obter uma transformação residual e para transmitir a transformação residual para subsequente descodificação. A invenção será mais prontamente compreendida por referência à seguinte descrição, apreciada com os desenhos que a acompanham, nos quais: FIG. 1 é um traçado do espectro-log de uma estrutura contendo voz de dados de sinal, antes e depois da aplicação de um método de modelação passa-banda de acordo com uma realização preferida da invenção; e FIG. 2 é um traçado do espectro-log da FIG. 1 calculado em média sobre um número que excede 1000 de estruturas de dados de sinal, antes e depois da aplicação de um método de modelação passa-banda de acordo com uma realização preferida da invenção. - 7 -
<--Ν /
•1 Λ 7
De acordo com uma realização preferida da invenção, o processo de eliminação de ruído de convolução é acelerado por aquisição de dados suficientes para modelar um vector médio em termos de menos parâmetros do que o número de bandas de frequência, reduzindo desse modo a duração de intervalos de tempo contendo conteúdo de voz que tem de ser amostrado para estabelecer ou actualizar um vector médio para uso em subtracção de média. Realizações da invenção são aqui descritas, sem limitação, no contexto de reconhecimento de voz, podendo contudo ser proporcionadas pela invenção vantagens em outras aplicações de processamento de sinal.
Embora sejam aqui descritas realizações da invenção em termos da extracção de um vector "médio" para uso em subtracção de média, deve ser entendido que os métodos e técnicas aqui descritos podem ser igualmente aplicados à derivação de várias outras características do vector de dados, tais, por exemplo, como o mediano ou máximo do vector de dados. O termo "médio", onde ocorre, pode ser substituído, como exemplo, por um operador X definido no espaço de vectores de dados {x}, tal que X(x+a) = X(x) + a, onde x é o vector de dados variável no tempo e a é um vector constante no espaço {x}.
Na prática, de acordo com uma realização preferida da invenção, o logaritmo da potência em cada de uma pluralidade de bandas de frequência é recolhido numa base de estrutura por estrutura, com uma estrutura a ser amostrada a uma taxa especificada, tipicamente na ordem de 10 milisegundos. A estrutura amostrada contém dados espectrais correspondentes ao conteúdo espectral do período de amostragem, o conteúdo espectral obtido por meio de uma transformação rápida de Fourier dos dados temporais. Outras representações espectrais dos dados podem também ser usadas dentro do âmbito da invenção. - 8 - - 8 - / ίΜή A escala de frequência nos termos da qual os dados espectrais de estruturas são representados pode ser qualquer escala de frequência empregada na análise de voz ou noutros dados de sinal. A título de exemplo, a análise de voz emprega muitas vezes as bandas de frequência de MEL com base em estudos empíricos de percepção subjectiva de altura de som. Altemativamente, a frequência pode ser lançada em termos das bandas "críticas" perceptivas em escala de BARK. Qualquer inclusão ("binning") de potência de sinal em bandas de frequência está dentro do âmbito da invenção como descrito aqui e nas reivindicações anexas.
Referindo-nos à FIG. 1, é mostrado o espectro-log 10 de dados de sinal adquiridos durante o curso de uma única estrutura, como transformado num domínio de frequência. As inclusões ("bins") de frequência numeradas são traçadas ao longo da abcissa, enquanto o logaritmo da potência em cada banda é traçado ao longo da ordenada. Como acima discutido, a inclusão em frequência pode ser realizada num de vários métodos conhecidos na técnica de processamento de sinal. A estrutura de dados transformados representada na FIG. 1 corresponde a uma estrutura que contém energia vocal. Tais estruturas pode ser referidas como estruturas "elegíveis para CMS", na medida em que contêm energia total suficiente para utilmente transportar informação relativa ao núcleo convolvente que deve ser removido no processo de eliminação de ruído. A selecção de estruturas elegíveis para CMS é efectuada por um discriminador que rejeita as estruturas que contêm energia total insuficiente para contribuir substancialmente para a derivação de uma média. "CMS" refere-se particularmente à subtracção de média cepsetral, mas é aqui empregado num sentido mais geral igualmente aplicável à eliminação de ruído de convolução em espaço espectral-log. - 9 - - 9 -
iyUi-i
I
De acordo com realizações da invenção, o espectro-log 10 pode representar qualquer vector de dados espectral-log, e não é limitado ao particular vector de dados espectral-log captado durante uma estrutura temporal. Por exemplo, dados de estruturas sucessivas podem ser acumulados ou calculados em média ou processados, anteriormente à implementação da suavização que será abaixo descrita em pormenor. Adicionalmente, o uso de aproximações ao logaritmo ou outras dependências ou características funcionais do sinal em lugar do logaritmo como aqui descritas estão também dentro do âmbito da invenção como reivindicado nas reivindicações anexas. A forma particular do espectro-log 10 pode conter canais de frequência localmente optimizados, tais como o canal designado pelo numeral 12. Canais localmente optimizados podem ocorrer devido ao facto de que a energia num sinal de voz é concentrada em formadores, a frequência dominante caracterizando ressonâncias ou regiões de acentuação associadas com diferentes sons. Uma estrutura contendo voz é susceptível de apresentar picos nos formadores de um fonema expresso durante essa estrutura. Assim, se o espectro-log 10 tivesse de ser usado como uma componente na remoção de uma média no domínio espectral-log, a média seria contaminada pela presença de picos relativamente localizados tais como 12.
Um método para suprimir as ressonâncias tais como 12, de acordo com realizações da presente invenção, é suavizar o espectro-log 10 no domínio espectral-log por um modelo de ordem-baixa, isto é, um modelo contendo um número K de parâmetros livres que é menor do que o número N de canais de frequência nos quais os dados de sinal foram incluídos. Em particular, o espectro-log 10 pode ser suavizado de modo a não apresentar ressonâncias e assim modelar
/ -10-uma contribuição convolucional que, semelhantemente, apresenta uma resposta de magnitude de passa-banda.
Como passo subsequente, de acordo com certas realizações da invenção, uma vez que foram seleccionadas estruturas que entrarão na computação de média, o espectro-log 10 de uma estrutura pode ser comprimido, de modo a controlar o efeito de formadores de voz. Assim, picos proeminentes tais como 12 são limitados no processo. A quantidade de compressão pode ser mais ou menos extensa, de acordo com a particular realização da invenção empregada. Adicionalmente, de acordo com realizações alternativas da invenção, a filtragem não-linear de vários géneros conhecidos na técnica pode ser aplicada antes da compressão a fim de obter uma estimativa robusta do valor máximo observado para impedir compressão anómala. O espectro-log 10, possivelmente comprimido, é então suavizado por lhe ser adaptado um modelo de mínimo-quadrados tal como representado pela curva tracejada 14. O modelo 14 pode ser derivado da maneira seguinte, intervalos K são definidos em toda a gama de bandas de frequência, correspondendo, de modo equivalente, a K+l pontos de interrupção separando os intervalos. Uma curva quadrática é definida a cada intervalo, sendo as curvas quadráticas adaptadas ao espectro-log 10, no sentido de mínimo-quadrados como geralmente usado em matemática, usando qualquer algoritmo de adaptação numérico conhecido na técnica. Um segmento quadrático definido num intervalo indexado j, tem a forma funcional: qj (x) = aj (* - fj \ + bj (x -fj)+ Cj
Um
J - 11 -para frequências x entre osj ° e (j+1) ° pontos de interrupção.
De acordo com uma realização preferida da presente invenção, os segmentos quadráticos adaptados aos intervalos de frequências respectivos são tanto contínuos como diferenciáveis nos pontos de interrupção, de tal modo que o espectro modelo resultante, neste caso um segmento quadrático, é uma função "bem-comportada” do número ordinal da banda de frequência, ou, noutros termos, "ligado de modo suave", como referido por pessoas de usual perícia em matemática. Dado que diversas características do vector médio modelo podem ser conhecidas a priori, são vantajosamente impostas certas condições no procedimento de adaptação. A função de transferência do canal de transmissão / aquisição tipicamente diminui acentuadamente tanto nas baixas como nas altas frequências, o vector médio desejado tendo assim a forma de uma passa-banda em frequências centrais com joelhos agudos em cortes de frequência baixa e alta. Assim, a adaptação é constrangida a ser côncava ("derramando água") como apresentada pelo modelo 14, correspondendo a coeficientes quadráticos negativos aj. Para forçar a forma de passa-banda, pode ser necessário que alguns dos segmentos sejam adaptados por segmentos lineares de preferência a segmentos quadráticos. A adaptação resultante é assim o modelo suavizado 14. Numa realização preferida da invenção, a adaptação de mínimo-quadrados é efectuada por remoção de colunas (as que correspondem a uma solução positiva para algum aj na iteração anterior) numa decomposição-QR até que os quadráticos e linhas rectas concatenados de modo suave tenham uma forma de passa-banda. Assim, inicialmente, todos os segmentos têm um parâmetro aj livre estimado com a decomposição de QR e, em cada um de uma série de passos iterativos, são resolvidos os coeficientes dos segmentos quadráticos. Se resulta um aj positivo, a coluna correspondente ao aj positivo é removida da QR, o aj correspondente ó colocado em zero, e o segmento quadrático é substituído por uma - 12- - 12-
<L / s/L·'-'· f / LS linha recta. Os parâmetros de segmentos são então novamente resolvidos, repetindo-se este processo até todos os af s serem negativos ou zero. Contudo, outros métodos de alcançar a potência-log ou o espectro cepsetral suavizados estão dentro do âmbito da invenção, como reivindicado nas reivindicações anexas.
Referindo-nos agora à FIG. 2, a média de mais de 1000 estruturas de dados não suavizados (em bruto) é designada pela curva 20, ao passo que a versão suavizada, após aplicação do algoritmo de adaptação acima descrito, é designada pela curva 22, que tem a forma de passa-banda côncava prescrita.
De acordo com uma realização da invenção, a média, derivada como acima descrito, pode ser actualizada recursivamente, como sabido por pessoas especializadas na técnica. A título de exemplo, a estimativa do vector médio (ou, semelhantemente, a estimativa de qualquer quantidade que caracteriza a potência de sinal em cada banda de frequência) na estrutura t, designada μ, , pode ser actualizada a partir da estimativa do vector médio na estrutura t-1 adicionando o resto do vector de potência-log na estrutura t, ponderado pelo inverso de uma constante de tempo T correspondendo, tipicamente, a na ordem de 50 estruturas, assim: μ,=μ,-
Além de acumulação ou actualização da estimativa do vector médio, outras operações matemáticas podem ser empreendidas para modificar a estimativa do vector médio. Semelhantemente, pode ser obtida saída útil subtraindo a estimativa do vector médio, ou o seu equivalente como discutido, da transformação -13- do sinal no domínio espectral-log ou, de outro modo, operando sobre o sinal usando informação incorporada na estimativa do vector médio.
As realizações descritas da invenção destinam-se a ser meramente exemplares e numerosas variações e modificações serão evidentes para os especializados na técnica. Todas essas variações e modificações destinam-se a estar dentro do âmbito da presente invenção como definido nas reivindicações anexas.
Lisboa, 19 de Novembro de 2001 luís silva carvalho '
Agente Oficial da Propriedade Industrial RUA VICTOR CORDON, 14 1200 LISBOA

Claims (25)

  1. {/(AM L··-' - 1 - REIVINDICAÇÕES 1. Um método para remover ruído convolucional de um sinal, compreendendo: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, o sinal tendo uma potência em cada banda de frequência; b. computar um logaritmo de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado para derivar uma transformação do sinal num domínio espectral-log; c. adaptar um espectro de potência-log suavizado ao logaritmo da transformação do sinal no domínio espectral log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído convolucional no domínio espectral-log; e d. remover uma função do espectro de potência-log adaptado da transformação do sinal no domínio espectral-log.
  2. 2. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir computar um logaritmo de uma potência média do sinal em cada banda de frequência.
  3. 3. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência.
  4. 4. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir fazer amostragem do sinal em estruturas discretas.
  5. 5. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir fazer amostragem do sinal em estruturas discretas incluindo períodos de menos de 20 milisegundos.
  6. 6. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos quadráticos ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência.
  7. 7. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos e segmentos lineares.
  8. 8. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares.
  9. 9. Um método de acordo com a reivindicação 1, em que o passo de caracterizar o sinal incluir a atribuição de uma potência a cada banda de frequência num conjunto de bandas em escala de MEL.
  10. 10. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir comprimir preliminarmente a quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado.
  11. 11. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda.
  12. 12. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência.
  13. 13. Um método de acordo com a reivindicação 1, em que o passo de remover uma função do espectro de potência-log adaptado da transformação do sinal incluir actualizar o espectro de potência-log adaptado para produzir uma estimativa actualizada do vector médio baseada na transformação do sinal durante pelo menos um período de tempo subsequente.
  14. 14. Um método de acordo com a reivindicação 1, em que o passo de remover uma função do espectro de potência-log adaptado da transformação do sinal incluir subtrair o espectro de potência-log adaptado do sinal.
  15. 15. Um método para remover ruído convolucional de um sinal, compreendendo: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, o sinal tendo uma potência em cada banda de frequência; b. computar uma função de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado para derivar uma transformação do sinal num domínio de transformação; c. adaptar um espectro de domínio de transformação suavizado à transformação do sinal no domínio de transformação para derivar um espectro de domínio de transformação adaptado correspondente ao efeito de ruído convolucional no domínio de transformação; e d. remover uma função do espectro de domínio de transformação adaptado da transformação do sinal no domínio de transformação.
  16. 16. Um aparelho para remover ruído convolucional de um canal capaz de transportar um sinal, o aparelho compreendendo: a. um processador espectral para transformar estruturas sucessivas do sinal numa transformação do sinal num domínio espectral-log; b. um registo de memória acoplado ao processador espectral para armazenar um conjunto de amplitudes espectrais-log resultantes do funcionamento do processador espectral; c. um processador de modelos em comunicação com o registo de memória para adaptar um modelo recursivamente suavizado ao conjunto de amplitudes espectrais-log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído de convolução no domínio espectral-log; e
    i.-' J - 5 - d. um dispositivo de saída para subtrair o modelo recursivamente suavizado da transformação do sinal para obter uma transformação residual e para transmitir a transformação residual para subsequente descodificação.
  17. 17. Um aparelho de acordo com a reivindicação 16, em que além disso, inclui um discriminador para seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência.
  18. 18. Um aparelho de acordo com a reivindicação 16, em que o processador espectral inclui um dispositivo de amostragem para fazer amostragem do sinal em estruturas discretas.
  19. 19. Um aparelho de acordo com a reivindicação 16, em que o processador espectral inclui um dispositivo de amostragem para fazer amostragem do sinal em estruturas discretas incluindo períodos de menos de 20 milisegundos.
  20. 20. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos quadráticos ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência.
  21. 21. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos e segmentos lineares. - 6 -
  22. 22. Um aparelho de acordo com a reivindicação 16, ern que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares.
  23. 23. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para comprimir preliminarmente a quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado.
  24. 24. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda.
  25. 25. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência. Lisboa, 19 de Novembro de 2001
    luís silva carvalho Agente Oficial da Propriedade Industrial RUA ViCTOR CORDON, 14 Λ ΟΛΛ I ICOrVA
PT79103498T 1997-02-21 1998-02-13 Eliminacao acelerada de ruido de convolucao PT1010168E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US3846897P 1997-02-21 1997-02-21

Publications (1)

Publication Number Publication Date
PT1010168E true PT1010168E (pt) 2002-02-28

Family

ID=21900145

Family Applications (1)

Application Number Title Priority Date Filing Date
PT79103498T PT1010168E (pt) 1997-02-21 1998-02-13 Eliminacao acelerada de ruido de convolucao

Country Status (11)

Country Link
US (1) US6044340A (pt)
EP (1) EP1010168B1 (pt)
JP (1) JP2001512585A (pt)
AT (1) ATE205628T1 (pt)
AU (1) AU737067B2 (pt)
CA (1) CA2278231A1 (pt)
DE (1) DE69801674T2 (pt)
DK (1) DK1010168T3 (pt)
ES (1) ES2161522T3 (pt)
PT (1) PT1010168E (pt)
WO (1) WO1998037542A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351729B1 (en) * 1999-07-12 2002-02-26 Lucent Technologies Inc. Multiple-window method for obtaining improved spectrograms of signals
DE10005609C1 (de) * 2000-02-09 2001-08-09 Siemens Ag Verfahren zur Spracherkennung
US6694294B1 (en) * 2000-10-31 2004-02-17 Qualcomm Incorporated System and method of mu-law or A-law compression of bark amplitudes for speech recognition
US7697700B2 (en) * 2006-05-04 2010-04-13 Sony Computer Entertainment Inc. Noise removal for electronic device with far field microphone on console
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
US7697620B2 (en) 2005-11-14 2010-04-13 Ibiquity Digital Corporation Equalizer for AM in-band on-channel radio receivers
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
US20170275986A1 (en) * 2015-11-05 2017-09-28 Halliburton Energy Services Inc. Fluid flow metering with point sensing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition

Also Published As

Publication number Publication date
EP1010168B1 (en) 2001-09-12
ES2161522T3 (es) 2001-12-01
ATE205628T1 (de) 2001-09-15
DE69801674T2 (de) 2002-06-20
JP2001512585A (ja) 2001-08-21
DE69801674D1 (de) 2001-10-18
AU737067B2 (en) 2001-08-09
WO1998037542A1 (en) 1998-08-27
DK1010168T3 (da) 2001-12-27
EP1010168A1 (en) 2000-06-21
AU6416098A (en) 1998-09-09
CA2278231A1 (en) 1998-08-27
US6044340A (en) 2000-03-28

Similar Documents

Publication Publication Date Title
Kim et al. Power-normalized cepstral coefficients (PNCC) for robust speech recognition
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP4484283B2 (ja) 音声処理装置及び方法
US6438513B1 (en) Process for searching for a noise model in noisy audio signals
JPWO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
JPH08506427A (ja) 雑音減少
PT1010168E (pt) Eliminacao acelerada de ruido de convolucao
JP4965891B2 (ja) 信号処理装置およびその方法
KR20150117114A (ko) 잡음 제거 장치 및 방법
Mourad Speech enhancement based on stationary bionic wavelet transform and maximum a posterior estimator of magnitude-squared spectrum
Erell et al. Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech
CN105869652B (zh) 心理声学模型计算方法和装置
CN108962275B (zh) 一种音乐噪声抑制方法及装置
Fu et al. Perceptual wavelet adaptive denoising of speech.
Joshi et al. Sub-band based histogram equalization in cepstral domain for speech recognition
Veselinovic et al. A wavelet transform approach to blind adaptive filtering of speech from unknown noises
Fu et al. A novel speech enhancement system based on wavelet denoising
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Demuynck et al. Synthesizing speech from speech recognition parameters
Farahani et al. Robust features for noisy speech recognition based on filtering and spectral peaks in autocorrelation domain
Kinnunen et al. Frequency warping and robust speaker verification: a comparison of alternative mel-scale representations.
Manfredi et al. SVD-based portable device for real-time hoarse voice denoising
Farahani et al. Consideration of correlation between noise and clean speech signals in autocorrelation-based robust speech recognition
Dwivedi et al. Performance Comparison among Different Wiener Filter Algorithms for Speech Enhancement
Salhi et al. A novel approach for auditory spectrum enhancement to improve speech recognition's robustness