DE3750314T2 - Sprachprozessor. - Google Patents

Sprachprozessor.

Info

Publication number
DE3750314T2
DE3750314T2 DE3750314T DE3750314T DE3750314T2 DE 3750314 T2 DE3750314 T2 DE 3750314T2 DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T2 DE3750314 T2 DE 3750314T2
Authority
DE
Germany
Prior art keywords
speech
gain
signal
stored
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3750314T
Other languages
English (en)
Other versions
DE3750314D1 (de
Inventor
Nicholas John Arnold Forse
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE3750314D1 publication Critical patent/DE3750314D1/de
Publication of DE3750314T2 publication Critical patent/DE3750314T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Circuits Of Receivers In General (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimiles In General (AREA)
  • Telephone Function (AREA)
  • Analogue/Digital Conversion (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Machine Translation (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Multi-Process Working Machines And Systems (AREA)
  • Sewing Machines And Sewing (AREA)

Description

  • Diese Erfindung bezieht sich auf Sprachprozessoren mit automatischer Verstärkungsfaktorsteuerung und insbesondere auf Spracherkenner.
  • Automatische Spracherkenner arbeiten, indem sie Merkmale vergleichen, die hörbaren Sprachsignalen entnommen sind. Merkmale, die der zu erkennenden Sprache entnommen sind, werden mit gespeicherten Merkmalen verglichen, die von einer bekannten Sprachäußerung entnommen sind.
  • Zur genauen Erkennung ist es wichtig, daß die Merkmale, die dem gleichen Wort oder Laut, das oder der dann zu unterschiedlichen Zeiten gesprochen wird, entnommen sind, genügend ähnlich sind. Jedoch macht es der große Dynamikbereich von Sprache schwierig, dies zu erreichen, insbesondere in Bereichen, wie dem freihändigen Telefonieren, wo der durch das Mikrofon empfangene Tonpegel über einen weiten Bereich variieren kann. Um diese Sprachpegel-Variation zu kompensieren, verwenden die meisten Spracherkenner eine Form einer automatischen Verstärkungsfaktorsteuerung (AGC).
  • Die AGC-Schaltung steuert den Verstärkungsfaktor, um zu versichern, daß der durchschnittliche Signalpegel, der von dem Merkmals-Extrahierer verwendet wird, so nahe wie möglich über eine gegebene Zeitperiode konstant ist. Somit wird leisen Sprachäußerungen ein größerer Verstärkungsfaktor verliehen als lauten Äußerungen. Diese Form eines AGC läuft gut, wenn das Eingabesignal kontinuierliche Sprache ist, da nach einer Zeitperiode der Schaltungsverstärkungsfaktor den Signalpegel optimieren wird, um eine konsistente Merkmalsextrahierung zu ergeben. Bei Nichtvorhandensein von Sprache wird der Verstärkungsfaktor der AGC-Schaltung jedoch auf einen Pegel ansteigen, der durch das Hintergrundrauschen bestimmt ist, so daß beim Einsetzen einer Sprachäußerung der Verstärkungsfaktor der AGC-Schaltung zu hoch eingestellt sein wird. Während der Äußerung wird der Verstärkungsfaktor der Schaltung automatisch reduziert, wobei die Geschwindigkeit der Verstärkungsfaktoränderung durch die "Angriffs"-Zeit der AGC bestimmt ist. Der Beginn einer Äußerung ist somit einem viel größeren Verstärkungsfaktor unterworfen, und jegliche entnommenen Merkmale werden einen viel größeren Energiegehalt haben als ähnliche Merkmale, die später entnommen werden, wenn der Verstärkungsfaktor reduziert worden ist.
  • Dieser Verzerrungseffekt ist abhängig von dem Eingangssignalpegel; je größer der Sprachpegel ist, umso größer ist die Verzerrung. Somit werden die ersten wenigen entnommenen Merkmale nicht den in fiktiver Weise ähnlich gespeicherten Merkmalen entsprechen, und dies kann oft zu einer schwachen Erkennungsfähigkeit führen.
  • Es ist ein Ziel der vorliegenden Erfindung, eine Lösung zu diesem Problem anzugeben.
  • Gemäß der vorliegenden Erfindung wird ein Sprachprozessor bereitgestellt, der aufweist: einen Eingang, um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung, um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler, um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung, um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegten Verstärkungsfaktor anzeigend ist; und daß am Ende einer Abtastperiode die Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.
  • In einem Sprachprozessor gemäß der Erfindung, der als ein Spracherkenner konfiguriert ist, wird eine automatische Verstärkungsfaktorsteuerung durch eine digital geschaltete Dämpfungseinheit bereitgestellt, deren Verstärkungsfaktor durch den Mikroprozessor bestimmt wird, der die Spracherkennung ausführt. Der Mikroprozessor steuert den Verstärkungsfaktor; um zu versichern, daß der Dynamikbereich des Analog-Digital- Wandlers (was zwischen Merkmalsextrahierung und dem Mikroprozessor auftritt, der den Erkenner steuert, selbst wenn analoge AGCs verwendet werden) nicht überschritten wird (außer während der Anpassung des AGC). Der prinzipielle Unterschied zwischen den bekannten analogen AGCs und dem System gemäß der Erfindung liegt darin, daß im letzteren der Mikroprozessor eine Steuerung der Verstärkungsfaktoreinstellung ausübt und daher den verwendeten Verstärkungsfaktor für jedes entnommene Merkmal speichern kann. Nachdem die Äußerung beendet ist, kann der Mikroprozessor die optimale Verstärkungsfaktoreinstellung für die vollständige Äußerung bestimmen. Alle gespeicherten Merkmale werden dann auf diese optimale Verstärkungsfaktoreinstellung normalisiert. Damit wird ein konsistenter Satz von Merkmalen unabhängig vom Eingangssignal-Verstärkungsfaktor entnommen.
  • Ausführungsbeispiele der Erfindung werden weiter beschrieben und mit Bezug auf die begleitende Zeichnung erklärt werden, in der:
  • Fig. 1 ein schematisches Diagramm eines Spracherkenners gemäß der vorliegenden Erfindung ist.
  • In dieser Patentanmeldung ist die Erfindung mit Bezugnahme auf einen Spracherkenner beschrieben, der das Abgleichen von Schablonen verwendet; wie jedoch dem Fachmann bewußt ist, ist die Erfindung gleichermaßen anwendbar auf jeden der herkömmlichen Typen von Spracherkennern, einschließlich jenen, die ein stochastisches Modellieren, Markov- Ketten, dynamisches Zeitverziehen und Phonem-Erkennung verwenden.
  • Spracherkennung basiert auf dem Vergleichen von Energiekonturen von einer Anzahl (allgemein 8 bis 16) von Filterkanälen. Während Sprache vorhanden ist, wird das Energiespektrum von jedem Filterkanal mit einem Analog-Digital-Wandler (A-D) digitalisiert, um eine Schablone zu erzeugen, die in einem Speicher gespeichert ist.
  • Die anfängliche Phase der Erkennung ist als "Training" bekannt und besteht aus dem Erzeugen der Referenz-Schablonen, indem die Worte auf den Erkenner gesprochen werden, die erkannt werden sollen. Sobald Referenz-Schablonen für die zu erkennenden Worte hergestellt worden sind, kann eine Spracherkennung versucht werden.
  • Wenn der Erkenner einer Äußerung ausgesetzt wird, erzeugt er eine Test-Schablone, die mit den Referenz-Schablonen in dem Speicher verglichen werden können, um die nächstliegende Übereinstimmung zu finden.
  • Die fundamentalen Elemente des Spracherkenners gemäß der vorliegenden Erfindung sind in Fig. 1 gezeigt. Sprachsignale, die durch das Mikrofon 1 empfangen und durch einen Verstärker 2 verstärkt sind, werden zu einer Filterbank 3a geführt. In der Filterbank werden die Sprachsignale in eine Vielzahl (in diesem Fall 16) von Frequenzbändern gefiltert, und die Signale werden durch einen Gleichrichter 4 gleichgerichtet. Die gefilterten und gleichgerichteten Signale werden durch einen Tiefpaßfilter 3b geglättet und dann sequentiell durch einen Multiplexer 5 abgetastet, der das resultierende Einkanalsignal an die DAGC-Schaltung 8 speist, die ihrerseits einen Analog-Digital-Wandler 6 speist, von dem der digitalisierte Signalstrom zu dem steuernden Mikroprozessor 7 geführt wird.
  • Der Multiplexer adressiert jeden Filterkanal für 20 Mikrosekunden, bevor der Nächste adressiert wird. Am Ende jedes 10 Millisekunden Zeitschlitzes wird die abgetastete Energie jedes Kanals für diese Periode gespeichert. Die Schablonen, die während des Trainings oder der Erkennung erzeugt werden, bestehen aus bis zu 100 Zeitschlitz-Abtastungen für jeden Filterkanal.
  • Die digitale AGC arbeitet auf die folgende Weise. Jedesmal, wenn der Multiplexer einen Filterkanal adressiert, beurteilt der Mikroprozessor den Energiepegel des Kanals, um zu bestimmen, ob der A-D-Wandler überlastet worden ist und daher der Verstärkungsfaktor zu hoch ist. Wenn der Mikroprozessor bestimmt, daß der Verstärkungsfaktor zu hoch ist, dekrementiert er den Verstärkungsfaktor der AGC um einen Schritt, was einer Reduzierung im Verstärkungsfaktor von 1,5 dB entspricht, und betrachtet erneut den Energiepegel des Kanals. Der Multiplexer schreitet nicht zyklisch zu dem nächsten Kanal fort, bis der Mikroprozessor bestimmt hat, daß der Verstärkungsfaktor in ausreichender Weise reduziert worden ist, um ein Überlasten des A-D-Wandlers zu verhindern. Wenn der Multiplexer zyklisch zu dem nächsten Filterkanal fortschreitet, wird der Verstärkungsfaktor der AGC-Schaltung an dem neuen niedrigen Pegel gehalten, außer wenn dieser Pegel zu einem Überlasten des A-D-Wandlers mit dem Energiepegel des neuen Kanals führt, in welchem Fall der Verstärkungsfaktor nach unten inkrementiert wird, wie vorher beschrieben. Wenn der Multiplexer den letzten Filterkanal adressiert hat, normalisiert der Mikroprozessor die Energiepegel aller Kanäle, indem ihre Verstärkungskoeffizienten (die zusammen mit der Energiepegelinformation in dem Speicher 9 gespeichert worden ist, welcher zu dem Mikroprozessor gehört) auf das durch den Mikroprozessor festgelegte Minimum eingestellt werden. Auf diese Weise wird ein konsistenter Satz von Merkmalen unabhängig von dem anfänglichen Eingangssignalverstärkungsfaktor und irgendwelchen Änderungen im Verstärkungsfaktor während der Bildung der Schablone entnommen.
  • Es ist auch eine Anforderung an den Spracherkenner, den Anfang und das Ende der Sprache oder des Worts mit einem hohen Maß an Genauigkeit zu erfassen. Der Spracherkenner gemäß der vorliegenden Erfindung verwendet die folgende Technik:
  • A. Der Energiepegel des Hintergrundrauschens wird gemessen und für 32 Zeitschlitze (bei 10 Millisekunden für eine Abtastung) gespeichert, während gleichzeitig die Verstärkungsfaktoren der AGC-Schaltung wie oben beschrieben eingestellt (reduziert) werden, um mit der maximalen Rauschenergie umzugehen.
  • B. Die Abtastung maximaler Energie wird gefunden, indem alle die Filterwerte für jeden Zeitschlitz addiert werden, durch 16 (die Anzahl von Filterkanälen) dividiert werden, und mit einem Verstärkungsfaktor entsprechend dem Verstärkungsfaktor der DAGC-Schaltung multipliziert werden, und indem dann jeder Zeitschlitz verglichen wird, um das Maximum zu finden.
  • C. Die Schwelle, die überschritten werden muß, bevor angenommen wird, daß Sprache vorhanden ist, ist eingestellt, um gleich 1,5mal die maximale Rauschenergie, die in Schritt B bestimmt ist, zu sein.
  • D. Die durchschnittliche Rauschenergie für jeden Filterkanal wird gefunden und gespeichert (für jeden Kanal ist es die Summe der Energien über alle 32 Zeitschlitze, dividiert durch 32), um eine Rauschschablone festzulegen.
  • E. Danach wird die Filterbank alle 10 Millisekunden abgefahren, und die Daten werden in einem temporären Umlaufspeicher aus 100 Zeitabtastungen gespeichert, bis die durchschnittliche Filterenergie die in C berechnete Rausch/Sprach-Schwelle überschreitet.
  • F. Wenn die Rausch/Sprach-Schwelle nach 32 Abtastungen nicht überschritten ist, wird eine Prüfung durchgeführt, um zu versichern, daß der Verstärkungsfaktor der DAGC-Schaltung nicht zu niedrig eingestellt ist. Dies wird gemacht, indem der maximale Filterkanalwert betrachtet wird, der in diesen 32 Zeitschlitzen gespeichert ist. Wenn dieser Maximalpegel um 1,5 dB oder mehr unter dem maximal akzeptierbaren Eingangspegel für den A-D-Wandler ist, wird der Verstärkungsfaktor der AGC um 1 inkrementiert, um den Verstärkungsfaktor um 1,5 dB zu erhöhen.
  • Wenn die Schwelle nach 32 Abtastungen nicht überschritten ist und die DAGC-Einstellung richtig ist, dann wird die Rausch/Sprach-Schwelle erneut berechnet, indem die Maximalenergie über die letzten 32 Abtastungen (wie in B) gefunden wird und mit 1,5 (wie in C) multipliziert wird.
  • G. Sobald die Rausch/Sprach-Schwelle überschritten worden ist, wird die Filterbank alle 10 Millisekunden abgefahren, und die Filterdaten werden in dem Speicher gespeichert, um die Sprachschablonen zu bilden, bis entweder 100 Abtastungen eingetragen worden sind oder bis der Energiepegel unterhalb die Rausch/ Sprach-Schwelle für 20 aufeinanderfolgende Abtastungen fällt. Wie oben beschrieben, wird, wenn während der Dateneingabe der A-D-Wandler überlastet wird, die AGC-Einstellung um 1 dekrementiert, und die Daten für diesen Filterkanal werden erneut verarbeitet. Wenn während des Abfahrens der 16 Filterkanäle der Verstärkungsfaktor der DAGC-Schaltung reduziert wird, werden die Daten von allen 16 Kanälen erneut eingegeben, so daß alle Filterdaten der gleichen AGC-Einstellung entsprechen. Der verwendete AGC-Wert wird in dem Speicher zusammen mit den Filterdaten aufgezeichnet. Die verwendete AGC-Einstellung am Anfang jedes Zeitschlitzes wird von dem vorherigen Zeitrahmen genommen, wodurch der Verstärkungsfaktor während der Sprachverarbeitungsphase nur reduziert werden kann (nicht erhöht). Dies stellt kein Problem dar, da am Ende der Schablonenperiode alle Schablonendaten auf eine einheitliche AGC-Einstellung normalisiert werden.
  • H. Um zu versichern, daß der Anfang von Sprache nicht durch die Sprach/Rausch-Detektor-Schwelle verfehlt wird, werden die 15 Zeitabtastungen vor der Spracherfassung von dem temporären Umlaufspeicher an den Anfang der "Sprach"-Schablone transferriert.
  • I. Wenn mehr als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die Rauschschablone durch Analysieren (wie in D) der ältesten 32 Zeitrahmen in dem temporären Umlaufspeicher erneut berechnet. Wenn weniger als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die in Schritt D festgelegte Rauschschablone in den folgenden Schritten verwendet.
  • J. Die minimale Verstärkungsfaktoreinstellung der AGC über der Sprachschablone wird dann gefunden und sowohl die Sprach- als auch die Rauschschablone werden auf diese Einstellung normalisiert, was dazu führt, daß beide Schablonen die Werte enthalten, die eingetragen worden wären, wäre dieser Verstärkungsfaktor von Anfang an verwendet worden.
  • K. Die normalisierte Rauschschablone wird dann von jedem Zeitrahmen der normalisierten Sprachschablone subtrahiert.
  • L. Die maximale Energie in der normalisierten Sprachschablone wird nun gefunden, und eine neue Rausch/Sprach-Schwelle wird berechnet - gleich der maximalen Energie minus 18 dB. Diese neue Schwelle wird verwendet, um die normalisierte Sprachschablone abzufahren, um den Anfangs- und den Endpunkt der Sprache zu bestimmen.
  • M. Die Sprachschablone wird dann am Anfangs- und am Endpunkt gestutzt und wird entweder in dem Speicher (Training) gespeichert oder zur Erkennung verwendet. Das folgende tabellenartige Beispiel stellt die Werte dar, die nach dem Messen des Hintergrundrauschens für 320 Millisekunden (32 Zeitschlitze von jeweils 10 Millisekunden) gespeichert werden. Filterbanknummer echte durchschnittliche Energie Durchschnittliche Rauschschablone
  • Ein DAGC-Wert von 4 ist äquivalent einer 6 dB-Dämpfung des Signals, das in den A-D läuft, und somit müßten, um die "echte" Energie zu berechnen, alle die obigen Filterbankwerte verdoppelt werden.
  • Die maximale echte Energie (die gemittelt über alle Filter) war: -410.
  • Schwelle, die zum Starten/Beenden einer Schablonenaufzeichnung zu überschreiten ist: -615.
  • Da die Hauptanwendung der Erfindung die Spracherkennung ist, ist sie mit Bezug auf diese Anwendung beschrieben worden. Jedoch ist, wie einem Fachmann bewußt sein wird, die Erfindung nicht nur auf Spracherkennung anwendbar, sondern ist auf praktisch jede Situation anwendbar, wo Sprachsignale zur Merkmalsentnahme verarbeitet werden.
  • Der Sprachprozessor gemäß der vorliegenden Erfindung ist besonders geeignet zur Verwendung in Anwendungen, wo Hintergrundrauschen und Variationen im Pegel dieses Hintergrundrauschens ein Problem für bekannte Sprachprozessoren ist. Eine solche Anwendung ist beim freihändigen Telefonieren und insbesondere freihändiges Telefonieren, bei dem zellulare Funkendgeräte involviert sind. Solche Endgeräte werden häufig in Kraftfahrzeugen verwendet, wo es zweckmäßig ist, eine Spracherkennung zu verwenden, um eine freihändige Rufverbindung und freihändiges Wählen zu gewährleisten. Das Problem erwächst jedoch daraus, daß Wind-, Fahrbahn- und Motorgeräusche sich stark ändern und eine genaue Erkennung von Sprache schwierig machen. Wenn Spracherkennung für freihändiges Telefonieren bei dieser Anwendung voll akzeptabel sein soll, ist es klar notwendig, daß der Erkenner gesprochene Befehle akzeptiert und richtig in Antwort darauf agiert beim Vorhandensein von Hintergrundrauschen, ohne regelmäßig zu erfordern, daß die Befehle wiederholt werden.
  • Die verbesserte Genauigkeit der Erfindung, die durch die vorliegende Erfindung gewährleistet wird, ist von besonderem Vorteil bei dieser Anwendung.

Claims (10)

1. Sprachprozessor, der aufweist: einen Eingang (1), um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung (3), um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler (6), um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung (8), um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegte Verstärkung anzeigend ist; und daß am Ende einer Abtastperiode die gespeicherten Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.
2. Sprachprozessor nach Anspruch 1, bei dem jeder entnommene Spektralparameter dem Energiegehalt eines bestimmten Frequenzbandes in einem Zeitschlitz der Länge t entspricht, weiterhin dadurch gekennzeichnet, daß für jeden entnommenen Parameter der an den Analog-Digital-Wandler angelegte Signalpegel in einem kleinen Bruchteil der Zeit t bestimmt wird, und wenn der Signalpegel größer als ein vorbestimmter Pegel ist, wird die Verstärkung reduziert und der Signalpegel erneut bemessen, wobei die Signalstärkebemessung und die Verstärkungsreduzierung innerhalb des Zeitschlitzes t wiederholt werden, bis der Signalpegel an einem Endpegel ist, der den vorbestimmten Pegel nicht überschreitet.
3. Sprachprozessor nach Anspruch 2, wobei der vorbestimmte Pegel gleich dem Maximalpegel ist, der nicht den Dynamikbereich des Analog-Digital-Wandlers überschreitet.
4. Sprachprozessor nach Anspruch 2 oder 3, wobei in einem einzelnen Zeitschlitz der Länge t die spektralen Parameter für eine Vielzahl von diskreten Frequenzbändern festgelegt werden, weiterhin dadurch gekennzeichnet, daß die unterschiedlichen Frequenzbänder sequentiell adressiert werden, wobei der Endverstärkungskoeffizient jedes Frequenzbandes als der anfängliche Verstärkungskoeffizient des nächsten adressierten Frequenzbandes verwendet wird.
5. Sprachprozessor nach einem der Ansprüche 2 bis 4, wobei die Abtastperiode sich aus einer Vielzahl von Zeitschlitzen der Länge t zusammensetzt.
6. Sprachprozessor nach einem der vorhergehenden Ansprüche, wobei dieser als Spracherkenner konfiguriert ist.
7. Sprachprozessor nach einem der vorhergehenden Ansprüche, wobei die Verstärkungssteuerungseinrichtung ein digital geschaltetes Dämpfungsglied unter der Steuerung eines Mikroprozessors aufweist, wobei einer dessen Eingänge mit dem Digitalausgang des Analog-Digital-Wandlers verbunden ist, wobei die Verstärkung des Dämpfungsglieds durch den Mikroprozessor bestimmt wird.
8. Zellulares Funk-Endgerät, das einen Spracherkenner zum Wählen von Funktionen in Antwort auf gesprochene Anweisungen aufweist, dadurch gekennzeichnet, daß der Spracherkenner einen Sprachprozessor nach einem der Ansprüche 1 bis 5 aufweist.
9. Verfahren zum Verarbeiten von Sprache, das aufweist:
Filtern eines Eingabesprachsignals in eine Vielzahl von Spektralkomponenten über eine Abtastperiode;
sequentielles Verstärken der Vielzahl von Spektralkomponenten durch entsprechende Signalverstärkungsfaktoren;
Umwandeln der verstärkten Vielzahl von Spektralkomponenten in Digitalsignale, die die Spektralkomponenten darstellen;
Messen und Speichern von Signalen, die (a) Spektralkomponenten des Eingabesprachsignals und (b) die entsprechenden Signalverstärkungsfaktoren darstellen; und
Einstellen des Wertes der gespeicherten Spektralkomponenten, die zumindest zu einem anfänglichen Abschnitt des Sprachsignals gehören, um auf dem kleinsten Signalverstärkungsfaktor, der in der Abtastperiode verwendet wird, zu beruhen, um nachfolgende Spektralkomponenten des Sprachsignals innerhalb der Abtastperiode zu verstärken.
10. Verfahren zum Verarbeiten von Sprache, das aufweist:
Empfangen von Eingabesprachsignalen und Bereitstellen von davon gemessenen Spektralparameter-Digitaldaten einschließlich einer automatischen Verstärkungseinstellung, die den Pegel der gemessenen Sprachsignalkomponenten einstellt, die jedoch nach dem anfänglichen Teil eines Sprachsignals inhärent eine übermäßige Signalverstärkung bereitstellen kann, welche Verstärkung danach automatisch auf geringere Pegel während des Fortlaufs des Sprachsignals eingestellt wird;
und Speichern und nachfolgendes Reduzieren übermäßiger Signalverstärkungsfaktoren, die zu den Sprachsignalkomponenten während zumindest des anfänglichen Teiles eines Sprachsignals gehören, um eine optimierte effektive Signalverstärkung über das gesamte Sprachsignal zu erzeugen, dessen optimierte Verstärkung auf der kleinsten Signalverstärkung beruht, die während des Fortlaufs des Sprachsignals verwendet wird.
DE3750314T 1986-06-02 1987-05-29 Sprachprozessor. Expired - Fee Related DE3750314T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB868613327A GB8613327D0 (en) 1986-06-02 1986-06-02 Speech processor

Publications (2)

Publication Number Publication Date
DE3750314D1 DE3750314D1 (de) 1994-09-08
DE3750314T2 true DE3750314T2 (de) 1994-11-17

Family

ID=10598774

Family Applications (2)

Application Number Title Priority Date Filing Date
DE3752288T Expired - Fee Related DE3752288T2 (de) 1986-06-02 1987-05-29 Sprachprozessor
DE3750314T Expired - Fee Related DE3750314T2 (de) 1986-06-02 1987-05-29 Sprachprozessor.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE3752288T Expired - Fee Related DE3752288T2 (de) 1986-06-02 1987-05-29 Sprachprozessor

Country Status (13)

Country Link
US (1) US4912766A (de)
EP (2) EP0248609B1 (de)
JP (3) JP2561850B2 (de)
KR (1) KR950011963B1 (de)
AT (2) ATE183009T1 (de)
CA (1) CA1310418C (de)
DE (2) DE3752288T2 (de)
DK (1) DK171426B1 (de)
ES (1) ES2056819T3 (de)
FI (1) FI92113C (de)
GB (1) GB8613327D0 (de)
HK (1) HK137096A (de)
WO (1) WO1987007750A1 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK510275A (da) * 1975-11-12 1977-05-13 Struers K S Elektrolytisk polerapparat
JPH02189600A (ja) * 1989-01-19 1990-07-25 Sanyo Electric Co Ltd 音声認識装置
US5333155A (en) * 1991-04-25 1994-07-26 Rohde & Schwarz Gmbh & Co. Kg Method and system for transmitting digital audio signals from recording studios to the various master stations of a broadcasting network
US6134521A (en) * 1994-02-17 2000-10-17 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
WO1997008684A1 (en) * 1995-08-24 1997-03-06 British Telecommunications Public Limited Company Pattern recognition
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US6188986B1 (en) 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
DE19960161C2 (de) * 1998-12-15 2002-03-28 Daimler Chrysler Ag Verfahren zur Detektion von sprachmodulierten Sendungen
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6910011B1 (en) 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
AU2003901539A0 (en) * 2003-03-28 2003-05-01 Cochlear Limited Noise floor estimator
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US20060146652A1 (en) * 2005-01-03 2006-07-06 Sdi Technologies, Inc. Sunset timer
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US7117075B1 (en) * 2005-08-15 2006-10-03 Report On Board Llc Driver activity and vehicle operation logging and reporting
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung
WO2013061252A2 (en) * 2011-10-24 2013-05-02 Cochlear Limited Post-filter common-gain determination
JP6127422B2 (ja) 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3411153A (en) * 1964-10-12 1968-11-12 Philco Ford Corp Plural-signal analog-to-digital conversion system
US4000369A (en) * 1974-12-05 1976-12-28 Rockwell International Corporation Analog signal channel equalization with signal-in-noise embodiment
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
CA1056504A (en) * 1975-04-02 1979-06-12 Visvaldis A. Vitols Keyword detection in continuous speech using continuous asynchronous correlation
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
US4262355A (en) * 1979-05-11 1981-04-14 Rca Corporation System for limiting intermodulation distortion of talkspurt signals
US4292470A (en) * 1979-09-10 1981-09-29 Interstate Electronics Corp. Audio signal recognition computer
JPS56126896A (en) * 1980-03-10 1981-10-05 Nippon Electric Co Voice recognizing system
US4352957A (en) * 1980-03-17 1982-10-05 Storage Technology Corporation Speech detector circuit with associated gain control for a tasi system
JPS56159400U (de) * 1980-04-24 1981-11-27
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
JPS57178299A (en) * 1981-04-27 1982-11-02 Kyosan Electric Mfg Recognition pattern preparation system
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS5984300A (ja) * 1982-11-08 1984-05-15 株式会社日立製作所 音声区間検出回路
JPS59111697A (ja) * 1982-12-17 1984-06-27 株式会社日立製作所 音声認識方式
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS6063600A (ja) * 1983-08-26 1985-04-11 日本電気株式会社 可変閾値型音声検出器
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
JPS6085628A (ja) * 1983-10-15 1985-05-15 Fujitsu Ten Ltd 通信装置
JPS60254100A (ja) * 1984-05-30 1985-12-14 沖電気工業株式会社 音声認識方式
JPS6195398A (ja) * 1984-10-17 1986-05-14 株式会社東芝 音声認識装置
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
JPS61113100A (ja) * 1984-11-08 1986-05-30 ヤマハ株式会社 音声パラメ−タ検出装置
FR2576472B1 (fr) * 1985-01-22 1988-02-12 Alcatel Thomson Faisceaux Procede et dispositif de commande automatique de gain d'un recepteur en acces multiple a repartition temporelle
JPH0673079B2 (ja) * 1985-03-29 1994-09-14 沖電気工業株式会社 音声区間検出回路
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式

Also Published As

Publication number Publication date
FI92113B (fi) 1994-06-15
DE3752288T2 (de) 2000-07-06
JPH09325790A (ja) 1997-12-16
HK137096A (en) 1996-08-02
DK282587A (da) 1987-12-03
EP0248609A1 (de) 1987-12-09
ES2056819T3 (es) 1994-10-16
DE3752288D1 (de) 1999-09-09
DK282587D0 (da) 1987-06-02
CA1310418C (en) 1992-11-17
FI872450A0 (fi) 1987-06-02
JP2561850B2 (ja) 1996-12-11
EP0248609B1 (de) 1994-08-03
EP0750291B1 (de) 1999-08-04
ATE183009T1 (de) 1999-08-15
GB8613327D0 (en) 1986-07-09
FI92113C (fi) 1994-09-26
JP2654503B2 (ja) 1997-09-17
EP0750291A1 (de) 1996-12-27
ATE109582T1 (de) 1994-08-15
DE3750314D1 (de) 1994-09-08
WO1987007750A1 (en) 1987-12-17
KR880701435A (ko) 1988-07-27
FI872450A (fi) 1987-12-03
US4912766A (en) 1990-03-27
DK171426B1 (da) 1996-10-21
KR950011963B1 (ko) 1995-10-12
JPS63503487A (ja) 1988-12-15
JPH0677894A (ja) 1994-03-18

Similar Documents

Publication Publication Date Title
DE3750314T2 (de) Sprachprozessor.
DE69527300T2 (de) Automatische empfindlichkeitssteuerung
DE3856280T2 (de) Rauschunterdrückungssystem
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69636985T2 (de) Sprachanwesenheitdetektor für halbduplex-audiokommunikationssystem
DE4126902C2 (de) Sprachintervall - Feststelleinheit
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE4031638C2 (de)
DE69021168T2 (de) Automatische verstärkungsregelung mittels eines signalprozessors.
DE3235279A1 (de) Spracherkennungseinrichtung
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE3750365T2 (de) Sprecheridentifizierung.
DE3314570A1 (de) Verfahren und anordnung zur einstellung der verstaerkung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE2021126C3 (de) Spracherkennungs anordnung
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
WO2001084536A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
EP0845921A1 (de) Verfahren und Schaltung zur Verstärkungsregelung in digitalen Hörgeräten
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE69614799T2 (de) Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz
EP0946015B1 (de) Verfahren und Vorrichtung zur Beurteilung der Übertragungsqualität

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee