PT89978B - Aparelho detector da actividade vocal e aparelho telefonico movel que o contem - Google Patents

Aparelho detector da actividade vocal e aparelho telefonico movel que o contem Download PDF

Info

Publication number
PT89978B
PT89978B PT89978A PT8997889A PT89978B PT 89978 B PT89978 B PT 89978B PT 89978 A PT89978 A PT 89978A PT 8997889 A PT8997889 A PT 8997889A PT 89978 B PT89978 B PT 89978B
Authority
PT
Portugal
Prior art keywords
signal
measure
speech
noise
vocal
Prior art date
Application number
PT89978A
Other languages
English (en)
Other versions
PT89978A (pt
Inventor
Daniel Kennetw Freeman
Ivan Boyd
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by British Telecomm filed Critical British Telecomm
Publication of PT89978A publication Critical patent/PT89978A/pt
Publication of PT89978B publication Critical patent/PT89978B/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

DESCRIÇÃO
DA
PATENTE DE INVENÇÃO
N.° 89 978
REQUERENTE: BRITISH TELECOMMUNICATIONS public limited company, britânica, industrial e comercial, com sede em 81 Newgate Street, London EC1A 7AJ, Inglaterra.
EPÍGRAFE:
APARELHO DETECDOR DA ACTIVADADE VOCAL E APARELHO TELEFÚNICO MOVEL QUE 0 CONTEM
INVENTORES: Daniel Kennetw Freeman e Ivan Boyd.
Reivindicação do direito de prioridade ao abrigo do artigo 4.° da Convenção de Paris de 20 de Março de 1883.
Reino Unido em 11 de Março de 1988,06 de
Junho de 1988 e em 24 de Agosto de 1988,sob os n9s......
8805795, 8813346.7 e 88201105.8, respectivamente.
INPI. MOD. 113 R F 18732
Descrição referente à patente de invenção de BRITISH TELECOMMUNICATIONS public limited company, britânica, industrial e comercial, com sede em 81 Newgate Street, London EClA 7AJ, Inglaterra, (inventores: Daniel Kennetw Freeman e Ivan Boyd, residentes na Inglaterra), para APARELHO DETECTOR DA ACTIVIDADE VOCAL E APARELHO TELEFÓNICO MÓVEL QUE O CONTEM.
Descrição
Um detector da actividade vocal é um dispositivo ao qual se fornece um sinal com a finalidade de detectar períodos de conversação ou períodos contendo apenas ruido. Embora a presente invenção não se limite a isso, uma aplicação de interes se particular de tais detectores é nos sistemas de radiotelefone móvel, onde o conhecimento da presença ou não de sinais de conversação pode ser explorado por um codificador da fala para melhorar a utilização eficiente do espectro das frequências ;adioeléctricas e onde é também muito provável que o nível de ruido (proveniente de uma unidade montada no veículo) seja elevado .
A essência da detecção da actividade vocal consiste em determinar uma medida que difira apreciavelmente entre os períodos de fala e de ausência de fala. Nos aparelhos que incluem um codificador da fala, está disponível um certo número de parâmetros a partir de um ou outro andar do codificador sendo portanto desejável economizar no processamento necessário pela utilização de alguns desses parâmetros. Em muitos ambientes, as fontes de ruido principais ocorrem em áreas definidas conhecidas do aspectro de frequências. Por exemplo, num automóvel, uma grande parte do ruido (por exemplo ruido do motor) concentra-se nas zonas de baixas frequências do espectro. Quando se dispuser de um tal conhecimento da posição espectral do ruido, é desejável basear a decisão sobre se a fala está presente ou ausente em medidas feitas a partir da porção do espectro que contém relativamente pouco ruido. Seria evidentemente possível na prática pré-filtrar o sinal antes da sua análise para detectar a activada vocal, mas quando o detector de actividade vocal se seguir à saida de um codificador da fala, a pré-filtragem distorce o sinal vocal a codificar.
Segundo um primeiro aspecto da presente invenção, proporciona-se um aparelho de detecção da actividade vocal que compreende meios para receber um sinal de entrada, meios para fazer uma estimativa da componente do sinal de ruido no sinal de entrada, meios para formar continuamente uma medida M da semelhança espectral entre uma porção do sinal de entrada e o sinal de ruido e meios para comparar um parâmetro derivado da medida M com um valor de limiar T para produzir uma saida para indicar a presença ou a ausência de fala, em função de esse valor ser ou não excedido.
De acordo com um segundo aspecto da presente invenção proporciona-se um aparelho de detecção da actividade vocal que compreende: meios para formar continuamente uma medida da distorção espectral da semelhança entre uma porção do sinal de entrada e porções mais primitivas do sinal de entrada e meios para comparar o grau de veriação entre valores sucessivos da medi da com um valor de limiar, para produzir uma saida que indica a presença ou a ausência de fala em função de esse valor ser ou não excedido.
De preferência, a medida é a medida da distorção Itakura-Saito.
Outros aspectos da presente invenção estão definidos nas reivindicações.
Vão agora descrever-se algumas formas de realização da presente invenção, a título de exemplo, com referência aos desenhos anexos, cujas figuras representam:
A fig. 1, um esquema de blocos de uma primeira forma
BAD ORIGINAL
de realização da presente invenção;
A fig. 2, uma segunda forma de realização da presente invenção;
A fig. 3, uma terceira forma preferida de realização da presente invenção.
princípio geral subjacente a um primeiro detector de actividade vocal segundo uma primeira forma de realização da presente invenção é o seguinte.
De uma trama de n amostras do sinal o' Sl' S2' S3' ., sn_jJ, quando passar através de um filtro digital com resposta finita ao impulso unitário (FIR) de quarta ordem ideal, com a resposta ao impulso unitário (1, h^, h^, h2, h^), resultará um sinal filtrado (ignorando as amostras de tramas anteriores) ' = <s0>
(s. (s. (s + hoso), + 'Vl hiso’ + h0s2 + hlSl + h2sQ), + h0s3 + 1>Λ + + ·νο>, (S5 + h0SS + hlS3 + h?S7 + hri’· (sl (s
0’’5 + + h2s3
1' ^3S2 ) ' coeficiente de autocorrelação de ordem zero é a soma de cada termo elevado ao quadrado, que pode ser normalizado, isto é, dividido pelo número total de termos ( para comprimentos constantes das tramas é mais fácil omitir a divisão); o valor do sinal filtrado será assim o
(s sendo este valor portanto uma medida da potência do sinal filtrado ideal s1 - por outras palavras, da parte do sinal s_ que cai na banda de passagem do filtro ideal.
Desenvolvendo e desprezando os 4 primeiros termos
R1 = (s + h s + h.s„ + h.,s. hos ' 0 4 03 1 2 2130
+ is,. + hQs4 + his3 + h2s2 + h3Sl?
+ ...
+ +
+ +
2 S4 + h0S4S3 + hls4s2 + h2S4Sl + h3S4S0
h0s4S3 4- h0s0 + VlS3s2 + h0h2s3sl + h0h3s3SC
hls4s2 + h0hlS3S2 + u2 2 hls2 + hlh2s2sl + hlh3s2sC
h2s4sl + h0hLS3Sl + hlh2S2sl + .2 2 h2sl + h2h3SlS0
h3 = 4S,l + h0h3S3S0 + hlh3s2s0 + h2h3sls0 2 2 h3s0
R0 (1 + h0+ hl+ h2+ h3^ + R ( -h0 + 2hQhi + 2hih2 + 2h2h3^
4- R2 (2h^ + 2h3h3 + 2hQh2) + (2h2 + 2h9h3^
R4 '2h3)
Assim, R’q pode ser obtido a partir de uma combinação dos coeficientes de autocorrelação R^, ponderados por meio das constantes entre parênteses que determinam a banda de frequências a que responde o valor de R'q- De facto, os termos entre parênteses são os coeficientes de autocorrelação da resposta do filtro ideal ao impulso unitário, de modo que a expressão anterior pode simplificar-se para
N_ R’o = RoHo + 2T~ ríhí- (1) i = 1 onde N é a ordem do filtro e H. são coeficientes de autocorre1 lação (não normalizados) da resposta do filtro ao impulso unitário .
Por outras palavras, o efeito nos coeficientes de autocorrelação do sinal da filtragem de um sinal pode ser simulado pela produção de uma soma ponderada dos coeficientes de auto4
correlação do sinal (não filtrado), usando a resposta ao impulso que teria o filtro requerido.
Assim, um algoritmo relativamente simples, envolvendo um pequeno número de operações de multiplicação, pode simular o efeito de um filtro digital que exige tipicamente cem vezes este número de operações de multiplicação.
Esta operação de filtragem pode em alternativa ser vista como uma forma de comparação de espectros, sendo o espectro do sinal comparado com um espectro de referência (o inverso da resposta do filtro ideal). Como o filtro ideal nesta aplicação é escolhido de modo a aproximar-se do inverso do espectro do ruido, esta operação pode ser considerada como uma comparação espectral entre os espectros da fala e do ruido e o coeficiente de autocorrelação de ordem zero assim gerado (isto é, a energia do sinal inverso filtrado) como uma medida da dissemelhança entre os espectros. Usa-se a medida da distorção Itakura-Saito na LPC para estabelecer a adaptação entre o filtro preditor e o espectro de entrada, sendo numa forma expressa por
Μ = R„A„ + 2 i=l onde Αθ ... são os coeficientes de autocorrelação do conjunto dos parâmetros da LPC. Ver-se-á que isto é muito semelhante à relação atrás deduzida e, se se recordar que os coeficientes da LPC são as derivações de um filtro FIR que possui a resposta espectral inversa do sinal de entrada de modo que o conjunto dos coeficientes da LPC é a resposta ao impulso do filtro da LPC inversa, será evidente que a medida da distorção Itakura-Saito é de facto simplesmente uma forma da equação (1), sendo a resposta H do filtro o inverso da forma espectral do modelo com todos os polos do sinal de entrada.
De facto, é também possível transpor o espectro usando os coeficientes da LPC do espectro de ensaio e os coeficientes de autocorrelação do espectro de referência para obter uma medida diferente da semelhança espectral.
A medida da distorção I-S está discutida com pormenor
em Speech Coding based upon Vector Quantisation por A. Buzo, A.H. Gray, R. M. Gray e J.D. Markel, IEEE Trans. on ASSP, Vol. ASSP-28, N° 5, Outubro de 1980.
Como as tramas do sinal têm apenas um comprimento finito e se despreza um certo número de termos (N, sendo N a ordem do filtro), o resultado anterior é apenas uma aproximação; ele dá no entanto um indicador surpreendentemente bom da presença ou ausência de fala e pode portanto ser usado como medida M na detecção da fala. Num ambiente em que o espectro do cuido é bem conhecido e -estacionário, é muito possível simplesmente usar coeficientes h^, h^, ... fixos para o modelo de filtro de ruido inverso.
Porém, um aparelho que possa adaptar-se a diferentes ambientes de ruido é muito mais útil.
Com referência à fig. 1, nuaa primeira forma de realização, um sinal proveniente de um microfone (não representado) é recebido numa entrada (1) e convertido em amostras digitais _s com uma frequência de amostragem apropriada por meio de um conversor analógico-digital (2) (ADC). Uma unidade (3) de análise da codificação LPC (num codificador LPC de tipo conhecido) deduz então, para tramas sucessivas de n (por exemplo 160) amostras, um conjunto de N (por exemplo 8 ou 12) coeficientes do filtro LPC, que são transmitidos para representar a fala na entrada. O sinal de fala _s entra também numa unidade correlacionadora (ACF) (4) (normalmente fazendo parte do codificador LPC (3), visto que o vector de autocorrelação R^ da fala é também produzido como uma fase da análise da LPC, embora se compreenda que pode proporcionar-se um correlacionador separado). O correlacionador (4) produz o vector de autocorrelação R^, incluindo o coeficiente de correlação de ordem zero Ρθ e pelo menos mais dois coeficientes de autocorrelação R^, R2 , R^. Estes são depois fornecidos a uma unidade multiplicadora (5).
Uma segunda entrada (11) está ligada a um segundo microfone situado distante do locutor de modo a receber apenas ruido de fundo. A entrada deste microfone é convertida numa série de amostras de entrada digitais, pelo conversor analógico-digital ADC (12), e analisada para a LPC por um segundo anali6
_ sador LPC (13). Os coeficientes LPC do ruido produzidos pelo analisador LPC (13) passam para o correlacionador (14) e o vector de autocorrelação assim produzido é multiplicado termo-a-termo pelos coeficientes de autocorrelação R do sinal de entrada proveniente do microfone da fala, no multiplicador (5), e os coeficientes ponderados assim produzidos são combinados no adicionador (6) de acordo com a equação 1 de modo a aplicar um filtro com a forma inversa da do espectro do ruido proveniente do microfone que capta apenas o ruido (que na prática é a mesma forma do espectro do ruido no microfone que capta o sinal mais o ruido), filtrando assim a maior parte do ruido. A medida M resultante é sujeita a um limiar no circuito de limiar (7) para produzir uma saida lógica (8) que indica a presença ou a ausência da fala; se M tiver o nível elevado, admite-se que está presente a fala.
No entanto, esta forma de realização exige dois microfones e dois analisadores LPC, o que aumenta o custo e n complexidade do equipamento.
Em alternativa, uma outra forma de realização utiliza uma medida correspondente formada utilizando as autocorrelações do microfone (11) que capta só ruido e os coeficientes LPC provenientes do microfone principal (L), de modo que é necessário um autocorrelacionador extra, em vez de um outro analisador LPC.
Estas formas de realização podem portanto operar com ambientes diferentes tendo ruidos com frequências diferentes ou num espectro de ruido que varia num ambiente dado.
Fazendo agora referência à fig. 2, na forma de realização preferida da presente invenção, proporciona-se uma memória tampão (15) que armazena um conjunto de coeficientes LPC (ou o vector de autocorrelação do conjunto) deduzidos a partir da entrada (1) do microfone num período identificado como sendo um período com ausência de fala (isto é, apenas com ruido). Estes coeficientes são depois usados para deduzir uma medida utilizando a equação 1, o que evidentemente também corresponde à • medida de distorção Itakura-Saito, excepto que apenas se utili. za uma única trama registada na memória de coeficientes LPC cor7 respondentes a uma aproximação do espectro de ruido inverso, em vez da trama piresente de coeficientes LPC.
O vector L. dos coeficientes LPC saido do analisador 1 (3) é também encaminhado para um correlacionador (ACF) (14), que produz o vector de autocorrelação do vector de coeficientes LPC. A memória tampão (15) é controlada pela saída de presença/ausência da fala do circuito de limiar (7), de modo tal que durante as tramas de fala a memória tampão retém os coeficientes de autocorrelação de ruido, mas durante as tramas de ruido pode usac-se um novo conjunto de coeficientes LPC para actualizar a memória tampão, por exemplo por um interruptor múltiplo (16), através do qual as saidas do correlacionador (14), que transmitem cada um dos coeficientes de autocorrelação, são ligadas à memória tampão (15). Compreender-se-á que o correlacionador (14) pode ser colocado depois da memória tampão (15). Além disso, a descisão da presença/ausência da fala para a actualização dos coeficientes não necessita de ser derivada da saída (8), podendo ser ( e é, de preferência) derivada de outro modo.
Como ocorrem períodos frequentes sem fala, os coeficientes LPC armazenados na memória tampão são actualizados de tempos a tempos, de modo que o aparelho é assim capaz de seguir alterações do espectro do ruido. Compreender-se-á que uma tal actualização da memória tampão pode ser necessária apenas ocasionalmente ou pode ocorrer apenas uma vez no início do funcionamento do detector, se (como sucede muitas vezes) o espectro no ruido for relativamente estacionário no tempo, mas no caso de um ambiente de radiotelefone móvel prefere-se a actualização frequente.
Numa modificação desta forma de realização, o sistema inicialmente utiliza a equação 1 com termos dos coeficientes correspondentes a um filtro passa-alto fixo simples e depois começa a adaptar-se, por comutação, à utilização dos coeficientes LPC dos períodos de ruido. Se, por qualquer razão, falhar a detecção da fala, o sistema pode regressar à utilização do filtro passa-alto simples.
É possível normalizar a medida anterior dividindo por Rq, de modo que a expressão a submeter ao circuito de limiar tem a forma
N = A0 + 2T~ i = i Rq
Esta medida é independente da energia total do sinal numa trama e é assim compensada para grandes variações de nível, mas dá um contraste um tanto menos marcado entre ruido e fala, não sendo por isso de preferência usada em ambiente de nível elevado.
Em vez de utilizar a análise LPC para deduzir os coeficientes do filtro inferso do sinal de ruido (a partir de períodos do microfone de ruido ou de períodos só com ruido, como nas várias formas de realização anteriores), é possível modelar o espectro inverso do ruido usando um filtro adaptativo de tipo conhecido; como o espectro do ruido se altera apenas lentamente (como adiante se discute) é aceitável uma taxa de adaptação dos coeficientes relativamente lenta comum para esses filtros. Numa forma de realização, que corresponde à fig. 1, a unidade de análise LPC (13) e simplesmente substituída por um filtro adaptativo (por exemplo um filtro FIR transversal ou um filtro em rede) ligado de modo a tornar o ruido ruido branco na entrada por modelação do filtro inverso, e sendo os seus coeficientes fornecidos como anteriormente ao autocorrelacionador (14) .
Numa segunda forma de realização, correspondente à fig. 2, o dispositivo de análise LPC (3) é substituído por um tal filtro adaptativo, omitindo-se a memória tampão (15), mas o interruptor (16) funciona para impedir que o filtro adaptativo adapte os seus coeficientes durante os períodos de fala.
Vai agora descrever-se um segundo detector de actividade da fala de acordo com um outro aspecto da presente invenção.
Do que atrás se expôs, será evidente que o vector dos coeficientes LPC é simplesmente a resposta ao impulso de um fil- 9 -
tro FIR que tem uma resposta que se aproxima da forma espectral inversa do sinal de entrada. Quando se forma a medida da distorção Itakura-Saito entre tramas adjacentes, ela é de facto igual à potência do sinal, como é filtrado pelo filtro LPC da trama anterior. Assim, se os espectros das tramas adjacentes diferirem pouco, uma porção correspondente pequena da potência espectral de uma trama escarpar-se-à à filtragem e a medida será baixa. Correspondentemente, uma diferença espectral inter-tramas grande produz uma medida alta da distorção Itakura-Saito, de modo que a medida reflecte a semelhança espectral das tramas adjacentes. Num codificador da fala, é desejável minimizar a taxa de transmissão de dados, de modo que a duração da trama é feita o maior possível; por outras palavras, se a duração da trama for suficientemente grande, então um sinal de fala apresenta uma variação espectral significativa de trama para trama (se não for assim, a codificação é redundante).
Por outro lado, o ruido tem uma variação espectral lenta de trama para trama e assim, num período em que a fala está ausente do sinal, a medida da distorção Itakura-Saito será correspondentemente baixa - visto que a aplicação do filtro LPC inverso a partir da trama anterior separa por filtragem a maior parte da potência do ruido.
Tipicamente, a medida da distorção Itakura-Saito entre tramas adjacentes de um sinal com ruido contendo fala intermitente é mais elevada durante os períodos de fala que nos períodos de ruido; o grau de variação (tal como é ilustrado pelo desvio padrão) é mais elevado e menos variável intermitentemente .
Nota-se que o desvio padrão de M é também uma medida fiável; o efeito de tomar cada desvio padrão é essencialmente tornar a medida mais uniforme.
Nesta segunda forma do detector de actividade vocal, o parâmetro medido usado para decidir se a fala está presente é preferivelmente o desvio padrão da medida da distorção Itakura-Saito, podendo no entanto usar-se outras medidas de variância e outras medidas da distorção espectral (com base, por exemplo, na análise FFT (Fast Fourier Transform- Transformação de
Fourier rápida)). Verificou-se ser vantajoso utilizar um limiar adaptativo na detecção da actividade vocal. Tais limiares não precisam de ser ajustados durante os períodos de fala ou o sinal de fala será eliminado por um limiar. É portanto necessário controlar o adaptador de limiar usando um sinal de controlo da presença/ausência da fala, sendo preferível que este sinal de controlo seja independente da saida do adaptador de limiar.
limiar T é ajustado adaptativamente de modo a manter o nível do limiar precisamente acima do nível da medida M quando apenas estiver presente o ruido. Como a medida variará em geral aleatoriamente quando o ruido está presente, a variação do limiar faz-se determinando um nível médio estendido a um certo número de blocos e ajustando o limiar a um nível proporcional a esta média. Num ambiente ruidoso isso não é no entanto suficiente, sendo assim também levada em conta uma determinação do grau de variação do parâmetro em vérios blocos.
O valor de limiar T é portanto preferivelmente calculado de acordo com
T = M' + K.d sendo Μ' o valor médio da medida sobre um certo número de tramas consecutivas, d o desvio padrão da medida nessas tramas e K uma constante (que pode ter tipicamente o valor 2).
Na prática é preferido não retomar a adaptação imedia tamente depois de ter sido indicada a ausência da fala, mas sim esperar para garantir que a queda é estável (para impedir a comutação rápida repetida entre os estados de adaptação e de não adaptação).
Fazendo agora referência à fig. 3, numa forma preferida de realização da presente invenção, que incorpora os aspec tos anteriores, uma entrada (1) recebe um sinal que é explorado e digitalizado pelo conversor analógico-digital (ADC) (2), e fornecido à entrada de um analisador de filtro inverso (3), que na prática faz parte de um codificador da fala com o qual o detector da actividade vocal tem de trabalhar e que gera coeficientes (tipicamente 8) de um filtro correspondente ao inverso do espectro do sinal de entrada. O sinal digitalizado é também fornecido a um autocorrelacionador (4) ACF (que faz parte do analisador (3)) que gera o vector R^ de autocorrelação do sinal de entrada (ou pelo menos tantos termos de ordem inferior quantos os coeficientes LPC). 0 funcionamento destas partes do aparelho é como se descreveu para as fig. 1 e 2. De preferência, os coeficientes de autocorrelação são então transformados nu ma média estendida a várias tramas de fala sucessivas (tipicamente com uma duração de 5 a 20 ms) para melhorar a sua fiabili_ dade. Isso pode conseguir-se armazenando cada conjunto de coef_i cientes de autocorrelação pelo autocorrelacionador (4) numa memória tampão (4a) e utilizando um calculador de médias (4b) (AV) para produzir uma soma ponderada dos coeficientes de autocorrelação correntes R. e os das tramas anteriores armazenadas na me í — mória tampão (4a) e por ela fornecidas. A média Ra^ dos coefic_i entes de autocorrelação assim obtida é fornecida a um meio de ponderação e adição (5,6) que recebe também o vector de autocor relação A dos coeficientes do filtro inverso no período com ruído memorizados, a partir do autocorrelacionador (14) através da memória tampão (15), formando a partir de Ra^ e de A^ uma me dida M de preferência definida por
N
M = An + 2> Ra.A.
/ li
Esta medida é depois sujeita a um circuito de limiar (7) de comparação com um certo nível de limiar, proporcionando o resultado lógico uma indicação da presença ou ausência da fala na saída (8) .
Para que os coeficientes do filtro inverso correspondam a uma estimativa boa do inverso do espectro do ruído, é desejável actualizar estes coeficientes durante períodos de ruí. do (e, evidentemente, não os actualizar durante os períodos de fala),. É no entanto preferível que a decisão presença/ausência de fala em que se baseia a actualização não dependa do resultado da actualização ou então uma trama do sinal única erradamente iiidentifiçada pode ter como consequência que o detector de actividade vocal se desprenda e identifique erradamente as
tramas seguintes. Portanto, de preferência proporciona-se um circuito gerador de sinais de controlo (20), efectivamente um detector de actividade vocal separado, que forma um sinal de controlo independente que indica a presença ou a ausência da fala para controlar o analisador de filtro inverso (3) (ou a memória tampão (8)), de modo que os coeficientes de correlação do filtro inverso usados para formar a medida M apenas são actualizados durante os períodos de ruido. O circuito gerador do sinal de controlo (20) inclui o analisador LPC (21) (que mais uma vez faz parte de um codificador da fala e, especificamente, pode ser o analisador (3) ) que produz um conjunto de coeficientes NL da LPC correspondentes ao sinal de entrada e um autocorrelacionador ACF (21a) (que pode ser o autocorrelacionador (3a)) que deduz os coeficientes de autocorrelação de PL .
Se o analisador (21) for o analisador (3), então M.=L. e B.=A..
1111
Estes coeficientes de autocorrelação são depois fornecidos a um dispositivo de ponderação e adição (22,23) (equivalentes ao (5,6)) que recebe também o vector de autocorrelação FL do sinal de entrada proveniente do autocorrelacionador (4). Calcula-se assim uma medida da semelhança espectral entre a trama de fala de entrada e a trama de fala anterior; essa medida pode ser a medida da distorção Itakura-Saito entre R^ da trama presente e da trama anterior, como atrás se explicou, ou em vez disso, pode ser derivada pelo cálculo da medida de distorção Itakura-Saito para e da trama presente, e subtraindo (no subtractor (25)) a medida corresponde para a trama anterior armazenada na memória tampão (24) para gerar um sinal de diferença espectral (em qualquer dos casos, a medida é de preferência normalizada relativamente à energia, dividindo por R^). Como é evidente, a memória tampão (24) é depois actualizada. Este sinal de diferença espectral, quando sujeito ao circuito de limiar (26), como atrás de descreveu, é um indicador da presença ou ausência da fala. Verificou-se no entanto que embora esta medida seja excelente para distinguir o ruido da fala não vocal (um problema que os sistemas da técnica anterior são em geral incapazes de resolver) é em geral menos apto para distinguir o ruido da fala vocal. Por conseguinte é preferivelmente proporcionado além disso, no circuito (20), um circuito de detecção
da fala vocal que compreende um analisador das alturas do som (27) (que na prática pode fazer parte de um codificador da fala e em particular pode medir o valor do atraso do preditor a longo prazo produzido num codificador LPC multi-impulsos). 0 analisador (27) produz um sinal lógico que é verdadeiro quando se detecta a fala vocal, sendo este sinal, juntamente com a medida sujeita ao circuito de limiar derivada do circuito de limiar (26) (que será em geral verdadeiro quando estiver presente a fala não vocal), levado às entradas de uma porta NOR (28) para gerar um sinal que é falso quando estiver presente a fala e verdadeiro quando estiver presente o ruido. Este sinal é fornecido à memória tampão (8) (ou ao analisador de filtro inverso (3)) de modo que os coeficientes do filtro inverso L^ são actualizados apenas durante os períodos de ruido.
O adaptador de limiar (29) está também ligado para receber a saida de controlo do sinal de ausência de fala do circuito (20). A saida do adaptador de limiar (29) é fornecida ao circuito de limiar (7),. O adaptador de limiar opera para incrementar ou decrementar ou decrementar o limiar, por degraus que são proporcionais ao valor instantâneo do limiar, até que o limiar se aproxime do nível da potência de ruido (que pode ser convenientemente derivado, por exmeplo, dos circuitos de ponderação e adição (22,23)). Quando o sinal de entrada for muito baixo, pode ser desejável que o limiar seja ajustado automaticamente a um nível fixo, baixo, visto que aos níveis do sinal baixos o efeito da quantificação do sinal produzido pelo conversor analógico-digital (2) pode produzir resultados pouco fiáveis.
Pode ainda proporcionar-se um dispositivo de retenção (30), que funciona para medir a duração das indicações de fala depois do circuito de limiar (7) e, quando a presença de fala tiver sido indicada durante um período de tempo constante pré-determinado, a saida é retida durante um curto tempo de retenção. Deste modo impede-se a supressão das sequências de dados de fala de baixo nível, a meio, evitando uma selecção apropriada da constante de tempo o disparo do gerador de retenção (30) por picos de curta duração que seja falsamente indica14 dos como fala. Evidentemente que se compreende que todas as fun ções anteriores podem ser executadas por um dispositivo de processamento digital único programado de maneira adequada, por exemplo um processador de sinais digitais formado numa plaqueta DSP (Digital Signal Processing), fazendo parte de um codificador-descodificador LPC assim realizado (sendo essa a forma de realização preferida), ou como um microcomputador ou uma microcontrolador numa plaqueta com o dispositivo de memória associado .
Convenientemente, como atrás se descreveu, o aparelho de detecção vocal pode ser realizado na prática como parte de um codec LPC. Em alternativa, quando os coeficien tes de autocorrelação do sinal ou as medidas relacionadas (correlação parcial ou coeficientes parcor) forem transmitidos a uma estação distante, a detecção vocal pode fazer-se a distância a partir do codec.

Claims (1)

  1. REIVINDICAÇÕES
    - la Aparelho detector da actividade vocal, caracteri zado por compreender meios para receber um sinal de entrada, meios para fazer adaptativamente a estimativa da componente do sinal de ruído no sinal de entrada, meios para formar periódica mente uma medida M da similaridade espectral entre uma porção do sinal de entrada e a componente do sinal de ruído, e meios para comparar um parâmetro derivado da medida M com um valor de limiar T, e meios para produzir uma saída para indicar a presen ça ou a ausência de fala em função de esse valor ser ou não excedido .
    - 2â Aparelho de acordo com a reivindicação 1, caracterizado por os meios adaptativos para fazer a estimativa do ruído compreenderem meios para calcular os coeficientes da correlação da resposta ao impulso unitário de um filtro FIR que tem uma resposta que se aproxima do inverso do espectro de curto prazo da componente do sinal de ruido, e por os meios para formar a medida compreenderem meios para calcular os coeficientes de autocorrelação R^ do sinal, meios ligados para receber F ε A., e para calcular M a partir dos mesmos, sendo o parâmetro o valor de M.
    - 3â Aparelho de acordo com a reivindicação 2, caracterizado por ser
    M = R„A0 + RiAi
    - 4ã Aparelho de acordo com a reivindicação 2, caracterizado por ser
    M = A + 25 R . A .
    0 Z , 1 1 R0
    - 5a Aparelho de acordo com qualquer das reivindicações 2 a 4, caracterizado por compreender além disso uma entrada disposta para recebe: um segundo sinal, analogamente sujeito a ruido, do qual está ausente o sinal vocal, compreendendo os meios de cálculo dos A. meios de análise LPC para derivar valores de A^ a partir do segundo sinal.
    - 6ã Aparelho de acordo com qualquer das reivindicações 2 a 4, caracterizado por compreender ainda uma memória tampão ligada para armazenar dados a partir dos quais podem ser derivados os coeficientes de autocorrelação A^ da referida resposta do filtro, sendo a referida resposta do filtro calculada perio16 dicamente a partir do sinal pelos meios de análise LPC, sendo o aparelho ligado e controlado de modo tal que a medida M é calculada usando os referidos dados armazenados e sendo os referidos dados armazenados actualizados apenas a partir de períodos em que se verifica estar ausente a fala.
    - 7ã Aparelho de acordo com qualquer das reivindicações 1 a 4, caracterizado por os meios para fazer a estimativa do ruido incluírem um filtro adaptativo.
    - 8â Aparelho de acordo com qualquer das reivindicações 2 a 6, caracterizado por os meios para o cálculo dos coeficientes de autocorrelação do sinal estarem dispostos para fazer esse cálculo em função dos coeficientes de autocorrelação de várias porções sucessivas do sinal.
    - 9a Aparelho de acordo com a reivindicação 1, caracterizado por a medida M ser uma medida de distorção espectral.
    - lOã Aparelho de acordo com a reivindicação 9, caracterizado por a medida M ser a medida de distorção Itakura-Saito.
    - llâ Aparelho de acordo com qualquer das reivindicações anteriores, caracterizado por compreender além disso meios para ajustar o referido limiar pré-determinado T durante períodos em que se verifica estar ausente a fala.
    cr'
    123
    Aparelho de acordo com a reivindicação 11, caracterizado além disso por compreender segundos meios de detecção da actividade vocal dispostos para impedir o ajustamen to do valor do limiar quando estiver presente a fala.
    - 133 Aparelho de acordo com as reivindicações 11 ou 12, caracterizado por o valor do limiar T, quando ajustado, ser ajustado para ser igual ã média da medida mais um termo que é função do desvio padrão da medida.
    - 143 Aparelho de acordo com a reivindicação 6, caracterizado por compreender além disso meios para indicar a ausência de fala para controlar a actualização dos referidos dados armazenados, sendo os meios para indicar a ausência de fa la constituídos por um segundo dispositivo de detecção da actividade vocal.
    - 153 Aparelho de acordo com as reivindicações 13 e 14, caracterizado por o segundo dispositivo de detecção da actividade vocal controlar quer a adaptação do limiar quer a actualização dos dados.
    - 163 Aparelho de acordo com as reivindicações 13 a 15 ou 17, caracterizado por o referido segundo dispositivo de detecção da actividade vocal compreender meios para gerar uma medida da semelhança espectral entre uma parte do sinal de entrada e porções anteriores do sinal de entrada.
    17â
    Aparelho de acordo com a reivindicação 16, caracterizado por os meios para gerar a medida da semelhança compreenderem meios para proporcionar uma medida presente da distorção a partir dos dados do filtro da codificação linear preditiva (LPC) e dos dados da autocorrelação referentes a uma parte presente do sinal de entrada, meios para proporcionar uma medida da distorção equivalente de uma trama passada correspondente a uma porção anterior do sinal de entrada e meios para ge rar um sinal que indica o grau de semelhança entre os mesmos como indicador da presença ou ausência de sinais vocais.
    - 18§ Aparelho de acordo com as reivindicações 16 ou 17, caracterizado por os referidos meios de detecção da actividade vocal compreenderem meios de detecção de sinais vocais que compreendem meios de análise da altura dos sons para gerar um sinal indicativo da presença de sinais vocais de que também depende a saída dos referidos meios de detecção da actividade vocal.
    - 19§ Processo para a detecção da actividade vocal num sinal, caracterizado por compreender as fases de comparar o espectro do sinal com um espectro de ruído estimado, for mar uma medida variável da similaridade espectral entre os mesmos e comparar essa medida com um limiar.
    - 20â Aparelho para codificação de sinais da fala, caracterizado por incluir aparelhos de acordo com qualquer das reivindicações anteriores.
    21â
    Aparelho telefónico móvel, caracteriza do por incluir aparelhos de acordo com qualquer das reivindica ções anteriores.
    0 requerente declara que os primeiros pedidos desta patente foram apresentados no Reino Unido em 11 de Março de 1988, 6 de Junho de 1988 e em 24 de Agosto de 1988 sob os NQs. 8805795, 8813346.7 e 8820105.8, respectivamente.
    Lisboa, 10 de Março de 1989.
PT89978A 1988-03-11 1989-03-10 Aparelho detector da actividade vocal e aparelho telefonico movel que o contem PT89978B (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection

Publications (2)

Publication Number Publication Date
PT89978A PT89978A (pt) 1989-11-10
PT89978B true PT89978B (pt) 1995-03-01

Family

ID=27263821

Family Applications (1)

Application Number Title Priority Date Filing Date
PT89978A PT89978B (pt) 1988-03-11 1989-03-10 Aparelho detector da actividade vocal e aparelho telefonico movel que o contem

Country Status (16)

Country Link
EP (2) EP0335521B1 (pt)
JP (2) JP3321156B2 (pt)
KR (1) KR0161258B1 (pt)
AU (1) AU608432B2 (pt)
BR (1) BR8907308A (pt)
CA (1) CA1335003C (pt)
DE (2) DE68929442T2 (pt)
DK (1) DK175478B1 (pt)
ES (2) ES2047664T3 (pt)
FI (2) FI110726B (pt)
HK (1) HK135896A (pt)
IE (1) IE61863B1 (pt)
NO (2) NO304858B1 (pt)
NZ (1) NZ228290A (pt)
PT (1) PT89978B (pt)
WO (1) WO1989008910A1 (pt)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (pt) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
NO316610B1 (no) 2004-03-08
EP0335521B1 (en) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (pt) 1994-01-12
FI115328B (fi) 2005-04-15
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
EP0548054A2 (en) 1993-06-23
DK175478B1 (da) 2004-11-08
NO982568L (no) 1990-11-09
NO304858B1 (no) 1999-02-22
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (en) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
DE68910859T2 (de) 1994-12-08
HK135896A (en) 1996-08-02
EP0548054B1 (en) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
PT89978B (pt) Aparelho detector da actividade vocal e aparelho telefonico movel que o contem
US5276765A (en) Voice activity detection
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
US4630304A (en) Automatic background noise estimator for a noise suppression system
KR100278423B1 (ko) 정상신호 및 비정상신호의 판별
US6453289B1 (en) Method of noise reduction for speech codecs
JP3224132B2 (ja) 音声活動検出装置
FI123708B (fi) Menetelmä ja laite koodausnopeuden valitsemiseksi muuttuvanopeuksisessa vokooderissa
KR950000842B1 (ko) 피치 검출기
KR20010075343A (ko) 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치
RU2010101881A (ru) Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
JP2000503837A (ja) エコー測度を計算する方法および装置
EP0653091B1 (en) Discriminating between stationary and non-stationary signals
US5632004A (en) Method and apparatus for encoding/decoding of background sounds
JP3418005B2 (ja) 音声ピッチ検出装置
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
Lim et al. Acoustic blur kernel with sliding window for blind estimation of reverberation time
JP2892462B2 (ja) コード励振線形予測符号化器
JPH087596B2 (ja) 雑音抑圧型音声検出器
Cole et al. A real-time floating point variable frame rate LPC vocoder
JPH04251299A (ja) 音声区間検出方法
WO2007040883A2 (en) Voice activity detector

Legal Events

Date Code Title Description
FG3A Patent granted, date of granting

Effective date: 19940801

PC3A Transfer or assignment

Free format text: LG ELECTRONICS INC. KR

Effective date: 20040804

MM4A Annulment/lapse due to non-payment of fees, searched and examined patent

Free format text: MAXIMUM VALIDITY LIMIT REACHED

Effective date: 20090801