DE3642591C2 - - Google Patents

Info

Publication number
DE3642591C2
DE3642591C2 DE19863642591 DE3642591A DE3642591C2 DE 3642591 C2 DE3642591 C2 DE 3642591C2 DE 19863642591 DE19863642591 DE 19863642591 DE 3642591 A DE3642591 A DE 3642591A DE 3642591 C2 DE3642591 C2 DE 3642591C2
Authority
DE
Germany
Prior art keywords
patterns
packets
pattern
frequency
frequencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19863642591
Other languages
English (en)
Other versions
DE3642591A1 (de
Inventor
Max Josef 8000 Muenchen De Probst
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE19853545447 external-priority patent/DE3545447A1/de
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE19863642591 priority Critical patent/DE3642591A1/de
Publication of DE3642591A1 publication Critical patent/DE3642591A1/de
Application granted granted Critical
Publication of DE3642591C2 publication Critical patent/DE3642591C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

Die Erfindung bezieht sich auf ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.
Gerade in geräuschvoller Umgebung bereitet das selbsttätige Erkennen menschlicher Sprache nicht unerhebliche Schwierigkeiten. Die Sprachinformation ist häufig von Geräuschen überlagert und derart gestört, daß sogar die Erkennung mit Hilfe des menschlichen Gehörs häufig mißlingt. Darüber hinaus ist gerade das exakte Erkennen von gesprochener menschlicher Information in besonderen Anwendungsfällen, beispielsweise beim Kraftfahrzeug das schnelle und exakte Erfassen derartiger Informationen, unbedingt erforderlich, um ggf. davon abhängige Steuervorgänge schnell und sicher durchführen zu können. Es ist zwar theoretisch möglich, akustische Signale hinsichtlich verschiedener Parameter, wie beispielsweise Grundfrequenz, Energieinhalt und dgl. zu analysieren. Derartiges erfordert jedoch einen erheblichen apparativen Aufwand und ist in der Regel besonders zeitaufwendig. Diese Möglichkeit scheidet somit sowohl unter Kosten- als auch unter Zeitgründen für die meisten Anwendungsfälle aus.
Es ist weiter bekannt (EP 00 77 558 A1), ein Verfahren der eingangs genannten Art so auszugestalten, daß mit konstanter Abtastfrequenz eine Frequenzanalyse akustischer Signale vorgenommen wird und auf diese Weise ein "Sprachabdruck" gewonnen wird. Damit ist es möglich, einen einzelnen Sprecher zu identifizieren oder ein gesprochenes Wort zu erkennen. Ein derartiges Verfahren ist mit einem hohen Aufwand verbunden.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art zu schaffen, das mit geringem apparativem Aufwand ein exaktes Erkennen menschlicher Worte ermöglicht.
Die Erfindung löst diese Aufgabe durch die kennzeichnenden Merkmale des Patentanspruchs 1.
Unter Frequenzmuster ist ein aus einer Frequenzanalyse gewonnenes n-, vorzugsweise zwei-dimensionales Muster zu verstehen, wie z. B. aus der Veröffentlichung eines Vortragsmanuskripts eines Mitarbeiters der Gippon Electronic, Kawasaki City vom 09. 11. 1984 zum Thema "A speech recognition LSI chip set" hervorgeht.
Wesentlich für die Erfindung ist zunächst die Analyse der akustischen Signale hinsichtlich ihrer Frequenz. Menschliche Sprache zeichnet sich im Unterschied zu Geräuschen dadurch aus, daß sie definierte Frequenzen bzw. Frequenzen in vorgegebenen Bereichen enthält. So ist menschlicher Sprache eine Grundfrequenz gemeinsam, die bedingt durch die anatomischen Verhältnisse des Sprechers zwischen 80 Hertz (bei Männern) und 400 Hertz (bei Kindern) liegt. Damit zusammenhängend sind Oberfrequenzen, die in definiertem Verhältnis zur Grundfrequenz stehen und die bei der Laut- oder Wortbildung erzeugt werden. Wird ein Paket akustische Signale z. B. hinsichtlich des angegebenen Bereiches für die Grundfequenz untersucht und ist eine derartige Frequenz nicht vorhanden, so läßt sich daraus mit Sicherheit ableiten, daß es sich nicht um menschliche Sprache handelt.
In diesem Falle wird das Paket akustischer Signale eindeutig dem Bereich des Geräusches zugeordnet und in Form eines Vergleichsmuster abgespeichert. Die Anzahl der zum Vergleich herangezogenen Vergleichsmuster für die Geräusche ist abhängig vom jeweiligen Einsatzort und auf eine maximale Zahl von zehn bis zwölf beschränkt. Für besondere Anwendungsfälle, beipielsweise in relativ ruhiger Umgebung, genügen in der Regel eine Anzahl von zwei bis drei Vergleichsgeräusche, um sämtliche akustische Signale eindeutig dem Bereich Geräusch oder menschliche Sprache zuzuordnen. Bei einer Umgebung, die wesentlich geräuschvoller ist, wie beispielsweise im Kraftfahrzeug, genügt eine Zahl von maximal zwölf Vergleichssignalen bzw. Vergleichsmustern, um sämtliche Geräusche abzudecken und mit deren Hilfe den Inhalt menschlicher Sprache in einem Paket akustischer Signale zu erkennen.
Hierzu werden die Pakete, die aufgrund der vorhandenen Frequenzen dem Bereich der menschlichen Sprache zuzuordnen sind, von ihrem Geräuschanteil befreit. Dies geschieht, indem von derartigen Paketen, die neben den akustischen Signalen aufgrund menschlicher Sprache auch Geräusche enthalten, der Geräuschanteil abgezogen wird. Hierzu werden von diesen Paketen die gespeicherten Geräuschmuster abgezogen. Zumindest eines der verbleibenden Differenzmuster enthält die gesuchte sprachliche Information, die ihrerseits mit einer vorgegebenen Information in Form eines Wortmusters verglichen wird. Das Wortmuster ist nach demselben Algorithmus wie das Frequenzmuster dieses Pakets gebildet. Durch Übereinstimmung wird damit die gesprochene Information identifiziert.
Die Vergleichsmuster können auf unterschiedliche Weise vorgehalten werden. So ist es beispielsweise möglich, eine Reihe von Standard- Vergleichsmustern vorzuhalten. Demgegenüber ist es wesentlich vorteilhafter, die für Umgebungsgeräusche typischen Muster anhand der tatsächlichen Geräusche abzuspeichern. Hierzu werden die Pakete, die eindeutig dem Bereich der Geräusche zuzuordnen sind, nacheinander abgespeichert und durch das jeweils zuletzt abgespeicherte Geräuschmuster das erste abgespeicherte Geräuschmuster ersetzt. Die Arbeitsweise dieser Speicheranordnung ist dann entsprechend der eines Schieberegisters. Es sind somit die letzten Geräuschmuster abgespeichert, die für die situativen Geräusche maßgeblich sind und die somit zumindest annähernd identisch sind mit den auf das zuletzt abgespeicherte Geräuschmuster fol­ genden Geräuschmustern.
Auch die Differenzmuster können auf unterschiedliche Weise erzeugt sein. So ist es beispielsweise möglich, ebenfalls mit Standards zu arbeiten. Demgegenüber ist es wesentlich den tatsächlichen Verhältnissen angepaßt, wenn die Wortmuster in einem vorangehenden Lernschritt festgehalten werden. Damit werden auch die unterschiedlichen Wortmuster, die von ein und demselben Sprecher zu unterschiedlichen Zeiten geliefert werden, ohne weiteres erkennbar.
Eine Verbesserung der Erfindung besteht in den Merkmalen, die im Patentanspruch 4 angegeben sind. Die Wahl der unterschiedlich, den Umgebungsgeräuschen angepaßten Algorithmen sei anhand eines Beispiels verdeutlicht. Es seien g(x) und f(x) diese unterschiedlichen Algorithmen, a der symbolische Ausdruck für ein Geräusch und w ein zu identifizierendes Wort, das von angenommen demselben Geräusch a überlagert ist. Das Differenzmuster ergibt sich dann zu
g(x)| x=a+w - f(x)| x=a = g(a+w)-f(a) =
g(a)-f(a) + w · g′(a) + . . . .
Damit ergibt sich aber der geschilderte Zusammenhang. Abhängig vom Geräusch a ist bei geeigneter Wahl der Algorithmen g und f die Differenz g(a)-f(a) = 0, der verbleibende Ausdruck enthält das Wort w und einen Therm, der den Resteinfluß des Algorithmus g, bezogen auf das Geräusch a beschreibt. Bei nicht zu stark variablem Geräusch innerhalb des Pakets ist die Ableitung g′ nahezu eine Konstante.
Die Erfindung ist anhand eines in der Zeichnung dargestellten Ausführungsbeispiels weiter erläutert.
Das Verfahren zur Spracherkennung in einem Kraftfahrzeug ist hinsichtlich der verwendeten Elemente in der Zeichnung dargestellt. Als erstes werden die vorhandenen akustischen Signale mit Hilfe eines Mikrofons 1 aufgenommen, in Pakete zeitlich gleicher Länge aufgeteilt und diese Pakete in einem Frequenzanalysator 2 eingegeben. Sind in diesen Paketen Frequenzen, wie sie typischerweise für menschliche Sprache charakteristisch sind, nicht vorhanden, so werden diese Pakete in eine Mustererzeugungseinrichtung 3 geleitet. Dort wird mit Hilfe des Algorithmus f bekannterweise ein zweidimensionales Flächenmuster erzeugt, das repräsentativ ist für den zeitlichen Frequenzverlauf der Pakete. Ein derartiges Paket ist schematisch in der Mustererzeugungseinrichtung 3 gezeigt. Die dort erzeugten Frequenzmuster werden als Referenzmuster (Vergleichsmuster) in einen Geräuschspeicher 4 eingegeben, der in der Lage ist, zwölf aufeinander folgende Frequenzmuster zu speichern. Er arbeitet nach Art eines Schieberegisters. Das bedeutet, daß das zuletzt auftretende Referenzmuster das zeitlich erste gespeicherte Referenzmuster ersetzt. Im Geräuschspeicher 4 sind somit die zwölf zuletzt aufgetretenen Referenzmuster gespeichert.
Sind in den Paketen hingegen Frequenzen vorhanden, die für menschliche Sprache charakteristisch sind, so wird das auftretende Paket mit Hilfe des Frequenzanalysators 2 in einen Mustererzeuger 5 eingeleitet, der insoweit entsprechend der Mustererzeugungseinrichtung 3 arbeitet, als er ebenfalls ein zweidimensionales Frequenzmuster erzeugt. Er bildet dieses Frequenzmuster vorzugsweise nach einem anderen Algorithmus g. Die beiden verwendeten Algorithmen f und g sind abhängig von der Umgebung bzw. der Form der Referenzmuster so gewählt, daß die Differenzmuster die wesentlichen Merkmale der jeweiligen Sprache vollständig und nur gering durch die Geräusche beeinflußt enthalten.
Das im Mustererzeuger 5 gebildete Frequenzmuster wird in eine Vergleichseinrichtung 6 eingegeben, die hiervon die im Geräuschspeicher 4 enthaltenen Referenzmuster subtrahiert. Die sich daraus ergebenden und in einen Teil 6′ der Vergleichseinrichtung 6 gebildeten Differenzmuster werden mit vorgegebenen Wortmustern verglichen. Dabei ist die Zahl der Differenzmuster gleich der Zahl der im Geräuschspeicher 4 enthaltenen Referenzmuster.
Die zum Vergleich herangezogenen Wortmuster wiederum sind in einem Wortspeicher 7 enthalten. In diesem Wortspeicher werden die Wortmuster unter definierten Bedingungen und beispielsweise in einem vorangehenden Lernschritt bei fehlendem Geräusch eingegeben.
Jedem der Wortmuster ist eine definierte Folge von Steuerbefehlen oder dergleichen zugeordnet, die bei Übereinstimmung des in der Vergleichseinrichtung 6 enthaltenen Differenzmusters mit einem Wortmuster ausgelöst werden. Die dadurch hervorgerufene Steuerung von Ausrüstungs- oder Steuerbauteilen des Kraftfahrzeugs geschieht in bekannter Weise.

Claims (4)

1. Verfahren zur Spracherkennung in geräuschvoller Umgebung, insbesondere in einem Kraftfahrzeug, bei dem akustische Signale und als Frequenzmuster wiedergegeben werden, dadurch gekennzeichnet, daß die akustischen Signale in Pakete konstanter Länge aufgeteilt werden, daß die Pakete nach für menschliche Sprache typischen Frequenzen untersucht werden, daß die Frequenzmuster der Pakete, die derartige Frequenzen nicht enthalten, nacheinander als Vergleichsmuster abgespeichert werden, daß von jedem Frequenzmuster der Pakete, die derartige Frequenzen enthalten, die vorhandenen Vergleichsmuster abgezogen werden und daß die danach verbleibenden Differenzmuster mit vorgegebenen Wortmustern verglichen werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Vergleichsmuster fortlaufend entsprechend der Arbeitsweise eines Schieberegisters abgespeichert werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Wortmuster in einem vorangehenden Lernschritt erzeugt werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Frequenzmuster der Pakete, die für menschliche Sprache typische Frequenzen enthalten und die Vergleichsmuster nach unterschiedlichen Algorithmen gebildet sind, die abhängig von der jeweiligen Umgebung so gestaltet sind, daß die Differenzmuster die wesentlichen Merkmale der menschlichen Sprache enthalten.
DE19863642591 1985-12-20 1986-12-12 Verfahren zur spracherkennung in geraeuschvoller umgebung Granted DE3642591A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863642591 DE3642591A1 (de) 1985-12-20 1986-12-12 Verfahren zur spracherkennung in geraeuschvoller umgebung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19853545447 DE3545447A1 (de) 1985-12-20 1985-12-20 System zur integration eines personalcomputers oder eines aehnlichen rechners in ein fahrzeug zur benutzung als fahrbares buero
DE19863642591 DE3642591A1 (de) 1985-12-20 1986-12-12 Verfahren zur spracherkennung in geraeuschvoller umgebung

Publications (2)

Publication Number Publication Date
DE3642591A1 DE3642591A1 (de) 1987-11-12
DE3642591C2 true DE3642591C2 (de) 1989-03-02

Family

ID=25839172

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19863642591 Granted DE3642591A1 (de) 1985-12-20 1986-12-12 Verfahren zur spracherkennung in geraeuschvoller umgebung

Country Status (1)

Country Link
DE (1) DE3642591A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4012349A1 (de) * 1989-04-19 1990-10-25 Ricoh Kk Einrichtung zum beseitigen von geraeuschen
DE19735504A1 (de) * 1997-08-16 1999-02-18 Magna Sitzsysteme Gmbh Mse Sea Sitzverstelleinrichtung

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3732394A1 (de) * 1987-09-25 1989-04-06 Siemens Ag Verfahren zur kompensation von stoergeraeuschen fuer in fahrzeugen installierte sprecherabhaengige spracherkennungssysteme
DE3808038A1 (de) * 1988-03-10 1989-09-28 Siemens Ag Verfahren zur automatischen anpassung eines spracherkennungssystems
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4012349A1 (de) * 1989-04-19 1990-10-25 Ricoh Kk Einrichtung zum beseitigen von geraeuschen
DE19735504A1 (de) * 1997-08-16 1999-02-18 Magna Sitzsysteme Gmbh Mse Sea Sitzverstelleinrichtung

Also Published As

Publication number Publication date
DE3642591A1 (de) 1987-11-12

Similar Documents

Publication Publication Date Title
DE3645118C2 (de)
DE2953262C2 (de)
DE2536640C3 (de) Anordnung zur Erkennung von Geräuschen
DE2918533C2 (de)
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE68922016T2 (de) Einrichtung zur Sprachverarbeitung.
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE4328752B4 (de) Spracherkennungssystem
DE4010028C2 (de) Spracherkennungsverfahren
DE3642591C2 (de)
EP0231490B1 (de) Verfahren zur Spracherkennung in geräuschvoller Umgebung
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
DE4445983C2 (de) Verfahren zur Rauschunterdrückung und Vorrichtungen zur Durchführung der Verfahren
DE3810068C2 (de)
DE19952049A1 (de) Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
DE4330847A1 (de) Vorrichtung und Verfahren zur Datenverarbeitung
DE4110300C2 (de) Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee