DE3642591C2 - - Google Patents
Info
- Publication number
- DE3642591C2 DE3642591C2 DE19863642591 DE3642591A DE3642591C2 DE 3642591 C2 DE3642591 C2 DE 3642591C2 DE 19863642591 DE19863642591 DE 19863642591 DE 3642591 A DE3642591 A DE 3642591A DE 3642591 C2 DE3642591 C2 DE 3642591C2
- Authority
- DE
- Germany
- Prior art keywords
- patterns
- packets
- pattern
- frequency
- frequencies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 10
- 230000000052 comparative effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
Die Erfindung bezieht sich auf ein Verfahren nach dem
Oberbegriff des Patentanspruchs 1.
Gerade in geräuschvoller Umgebung bereitet das
selbsttätige Erkennen menschlicher Sprache nicht
unerhebliche Schwierigkeiten. Die Sprachinformation ist
häufig von Geräuschen überlagert und derart gestört, daß
sogar die Erkennung mit Hilfe des menschlichen Gehörs
häufig mißlingt. Darüber hinaus ist gerade das exakte
Erkennen von gesprochener menschlicher Information in
besonderen Anwendungsfällen, beispielsweise beim
Kraftfahrzeug das schnelle und exakte Erfassen
derartiger Informationen, unbedingt erforderlich, um
ggf. davon abhängige Steuervorgänge schnell und sicher
durchführen zu können. Es ist zwar theoretisch möglich,
akustische Signale hinsichtlich verschiedener Parameter,
wie beispielsweise Grundfrequenz, Energieinhalt und dgl.
zu analysieren. Derartiges erfordert jedoch einen
erheblichen apparativen Aufwand und ist in der Regel
besonders zeitaufwendig. Diese Möglichkeit scheidet somit
sowohl unter Kosten- als auch unter Zeitgründen für die
meisten Anwendungsfälle aus.
Es ist weiter bekannt (EP 00 77 558 A1), ein Verfahren der
eingangs genannten Art so auszugestalten, daß mit
konstanter Abtastfrequenz eine Frequenzanalyse
akustischer Signale vorgenommen wird und auf diese Weise
ein "Sprachabdruck" gewonnen wird. Damit ist es möglich,
einen einzelnen Sprecher zu identifizieren oder ein
gesprochenes Wort zu erkennen. Ein derartiges Verfahren
ist mit einem hohen Aufwand verbunden.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren
der eingangs genannten Art zu schaffen, das mit
geringem apparativem Aufwand ein exaktes Erkennen
menschlicher Worte ermöglicht.
Die Erfindung löst diese Aufgabe durch die kennzeichnenden
Merkmale des Patentanspruchs 1.
Unter Frequenzmuster ist ein aus einer Frequenzanalyse gewonnenes
n-, vorzugsweise zwei-dimensionales Muster zu verstehen, wie
z. B. aus der Veröffentlichung eines Vortragsmanuskripts eines
Mitarbeiters der Gippon Electronic, Kawasaki City vom 09. 11. 1984
zum Thema "A speech recognition LSI chip set" hervorgeht.
Wesentlich für die Erfindung ist zunächst die Analyse der akustischen
Signale hinsichtlich ihrer Frequenz. Menschliche Sprache
zeichnet sich im Unterschied zu Geräuschen dadurch aus, daß sie
definierte Frequenzen bzw. Frequenzen in vorgegebenen Bereichen
enthält. So ist menschlicher Sprache eine Grundfrequenz gemeinsam,
die bedingt durch die anatomischen Verhältnisse des Sprechers
zwischen 80 Hertz (bei Männern) und 400 Hertz (bei Kindern)
liegt. Damit zusammenhängend sind Oberfrequenzen, die in definiertem
Verhältnis zur Grundfrequenz stehen und die bei der
Laut- oder Wortbildung erzeugt werden. Wird ein Paket akustische
Signale z. B. hinsichtlich des angegebenen Bereiches für die Grundfequenz
untersucht und ist eine derartige Frequenz nicht vorhanden,
so läßt sich daraus mit Sicherheit ableiten, daß es sich nicht
um menschliche Sprache handelt.
In diesem Falle wird das Paket akustischer Signale eindeutig dem
Bereich des Geräusches zugeordnet und in Form eines Vergleichsmuster
abgespeichert. Die Anzahl der zum Vergleich herangezogenen
Vergleichsmuster für die Geräusche ist abhängig vom jeweiligen
Einsatzort und auf eine maximale Zahl von zehn bis zwölf beschränkt.
Für besondere Anwendungsfälle, beipielsweise in relativ
ruhiger Umgebung, genügen in der Regel eine Anzahl von zwei bis
drei Vergleichsgeräusche, um sämtliche akustische Signale eindeutig
dem Bereich Geräusch oder menschliche Sprache zuzuordnen.
Bei einer Umgebung, die wesentlich geräuschvoller ist, wie beispielsweise
im Kraftfahrzeug, genügt eine Zahl von maximal zwölf
Vergleichssignalen bzw. Vergleichsmustern, um sämtliche Geräusche
abzudecken und mit deren Hilfe den Inhalt menschlicher Sprache in
einem Paket akustischer Signale zu erkennen.
Hierzu werden die Pakete, die aufgrund der vorhandenen Frequenzen
dem Bereich der menschlichen Sprache zuzuordnen sind, von ihrem
Geräuschanteil befreit. Dies geschieht, indem von derartigen
Paketen, die neben den akustischen Signalen aufgrund menschlicher
Sprache auch Geräusche enthalten, der Geräuschanteil abgezogen
wird. Hierzu werden von diesen Paketen die gespeicherten
Geräuschmuster abgezogen. Zumindest eines der verbleibenden
Differenzmuster enthält die gesuchte sprachliche Information, die
ihrerseits mit einer vorgegebenen Information in Form eines Wortmusters
verglichen wird. Das Wortmuster ist nach demselben
Algorithmus wie das Frequenzmuster dieses Pakets gebildet. Durch
Übereinstimmung wird damit die gesprochene Information identifiziert.
Die Vergleichsmuster können auf unterschiedliche Weise vorgehalten
werden. So ist es beispielsweise möglich, eine Reihe von Standard-
Vergleichsmustern vorzuhalten. Demgegenüber ist es wesentlich
vorteilhafter, die für Umgebungsgeräusche typischen Muster anhand
der tatsächlichen Geräusche abzuspeichern. Hierzu werden die
Pakete, die eindeutig dem Bereich der Geräusche zuzuordnen sind,
nacheinander abgespeichert und durch das jeweils zuletzt abgespeicherte
Geräuschmuster das erste abgespeicherte Geräuschmuster
ersetzt. Die Arbeitsweise dieser Speicheranordnung ist dann entsprechend
der eines Schieberegisters. Es sind somit die letzten
Geräuschmuster abgespeichert, die für die situativen Geräusche
maßgeblich sind und die somit zumindest annähernd identisch sind
mit den auf das zuletzt abgespeicherte Geräuschmuster fol
genden
Geräuschmustern.
Auch die Differenzmuster können auf unterschiedliche Weise erzeugt
sein. So ist es beispielsweise möglich, ebenfalls mit Standards zu
arbeiten. Demgegenüber ist es wesentlich den tatsächlichen Verhältnissen
angepaßt, wenn die Wortmuster in einem vorangehenden
Lernschritt festgehalten werden. Damit werden auch die unterschiedlichen
Wortmuster, die von ein und demselben Sprecher zu
unterschiedlichen Zeiten geliefert werden, ohne weiteres erkennbar.
Eine Verbesserung der Erfindung besteht in den Merkmalen, die im
Patentanspruch 4 angegeben sind. Die Wahl der unterschiedlich,
den Umgebungsgeräuschen angepaßten Algorithmen sei anhand
eines Beispiels verdeutlicht. Es seien g(x) und f(x) diese unterschiedlichen
Algorithmen, a der symbolische Ausdruck für ein
Geräusch und w ein zu identifizierendes Wort, das von angenommen
demselben Geräusch a überlagert ist. Das Differenzmuster ergibt
sich dann zu
g(x)| x=a+w - f(x)| x=a = g(a+w)-f(a) =
g(a)-f(a) + w · g′(a) + . . . .
g(a)-f(a) + w · g′(a) + . . . .
Damit ergibt sich aber der geschilderte Zusammenhang. Abhängig
vom Geräusch a ist bei geeigneter Wahl der Algorithmen g und f
die Differenz g(a)-f(a) = 0, der verbleibende Ausdruck enthält
das Wort w und einen Therm, der den Resteinfluß des Algorithmus
g, bezogen auf das Geräusch a beschreibt. Bei nicht zu stark
variablem Geräusch innerhalb des Pakets ist die Ableitung g′
nahezu eine Konstante.
Die Erfindung ist anhand eines in der Zeichnung dargestellten
Ausführungsbeispiels weiter erläutert.
Das Verfahren zur Spracherkennung in einem Kraftfahrzeug ist
hinsichtlich der verwendeten Elemente in der Zeichnung dargestellt.
Als erstes werden die vorhandenen akustischen Signale mit
Hilfe eines Mikrofons 1 aufgenommen, in Pakete zeitlich gleicher
Länge aufgeteilt und diese Pakete in einem Frequenzanalysator 2
eingegeben. Sind in diesen Paketen Frequenzen, wie sie typischerweise
für menschliche Sprache charakteristisch sind, nicht vorhanden,
so werden diese Pakete in eine Mustererzeugungseinrichtung
3 geleitet. Dort wird mit Hilfe des Algorithmus f bekannterweise
ein zweidimensionales Flächenmuster erzeugt, das repräsentativ ist
für den zeitlichen Frequenzverlauf der Pakete. Ein derartiges
Paket ist schematisch in der Mustererzeugungseinrichtung 3 gezeigt. Die dort erzeugten
Frequenzmuster werden als Referenzmuster (Vergleichsmuster) in einen Geräuschspeicher
4 eingegeben, der in der Lage ist, zwölf aufeinander
folgende Frequenzmuster zu speichern. Er arbeitet nach Art
eines Schieberegisters. Das bedeutet, daß das zuletzt auftretende
Referenzmuster das zeitlich erste gespeicherte Referenzmuster
ersetzt. Im Geräuschspeicher 4 sind somit die zwölf zuletzt aufgetretenen
Referenzmuster gespeichert.
Sind in den Paketen hingegen Frequenzen vorhanden, die für
menschliche Sprache charakteristisch sind, so wird das auftretende
Paket mit Hilfe des Frequenzanalysators 2 in einen Mustererzeuger 5 eingeleitet,
der insoweit entsprechend der Mustererzeugungseinrichtung 3 arbeitet,
als er ebenfalls ein zweidimensionales Frequenzmuster erzeugt. Er
bildet dieses Frequenzmuster vorzugsweise nach einem anderen
Algorithmus g. Die beiden verwendeten Algorithmen f und g sind
abhängig von der Umgebung bzw. der Form der Referenzmuster so
gewählt, daß die Differenzmuster die wesentlichen Merkmale der
jeweiligen Sprache vollständig und nur gering durch die Geräusche
beeinflußt enthalten.
Das im Mustererzeuger 5 gebildete Frequenzmuster wird in eine
Vergleichseinrichtung 6 eingegeben, die hiervon die im Geräuschspeicher
4 enthaltenen Referenzmuster subtrahiert. Die sich daraus
ergebenden und in einen Teil 6′ der Vergleichseinrichtung 6 gebildeten
Differenzmuster werden mit vorgegebenen Wortmustern verglichen.
Dabei ist die Zahl der Differenzmuster gleich der Zahl der im
Geräuschspeicher 4 enthaltenen Referenzmuster.
Die zum Vergleich herangezogenen Wortmuster wiederum sind in
einem Wortspeicher 7 enthalten. In diesem Wortspeicher werden die
Wortmuster unter definierten Bedingungen und beispielsweise in
einem vorangehenden Lernschritt bei fehlendem Geräusch eingegeben.
Jedem der Wortmuster ist eine definierte Folge von Steuerbefehlen
oder dergleichen zugeordnet, die bei Übereinstimmung des in
der Vergleichseinrichtung 6 enthaltenen Differenzmusters mit einem Wortmuster
ausgelöst werden. Die dadurch hervorgerufene Steuerung von Ausrüstungs-
oder Steuerbauteilen des Kraftfahrzeugs geschieht in
bekannter Weise.
Claims (4)
1. Verfahren zur Spracherkennung in geräuschvoller
Umgebung, insbesondere in einem Kraftfahrzeug, bei
dem akustische Signale und als Frequenzmuster
wiedergegeben werden, dadurch gekennzeichnet, daß
die akustischen Signale in Pakete konstanter Länge aufgeteilt werden, daß
die Pakete nach für menschliche Sprache typischen
Frequenzen untersucht werden, daß die
Frequenzmuster der Pakete, die derartige Frequenzen
nicht enthalten, nacheinander als Vergleichsmuster
abgespeichert werden, daß von jedem Frequenzmuster
der Pakete, die derartige Frequenzen enthalten, die
vorhandenen Vergleichsmuster abgezogen werden und
daß die danach verbleibenden Differenzmuster mit
vorgegebenen Wortmustern verglichen werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die
Vergleichsmuster fortlaufend entsprechend der Arbeitsweise
eines Schieberegisters abgespeichert werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Wortmuster in einem vorangehenden Lernschritt erzeugt
werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet,
daß die Frequenzmuster der Pakete, die für menschliche
Sprache typische Frequenzen enthalten und die Vergleichsmuster
nach unterschiedlichen Algorithmen gebildet
sind, die abhängig von der jeweiligen Umgebung so gestaltet
sind, daß die Differenzmuster die wesentlichen Merkmale der
menschlichen Sprache enthalten.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863642591 DE3642591A1 (de) | 1985-12-20 | 1986-12-12 | Verfahren zur spracherkennung in geraeuschvoller umgebung |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19853545447 DE3545447A1 (de) | 1985-12-20 | 1985-12-20 | System zur integration eines personalcomputers oder eines aehnlichen rechners in ein fahrzeug zur benutzung als fahrbares buero |
DE19863642591 DE3642591A1 (de) | 1985-12-20 | 1986-12-12 | Verfahren zur spracherkennung in geraeuschvoller umgebung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3642591A1 DE3642591A1 (de) | 1987-11-12 |
DE3642591C2 true DE3642591C2 (de) | 1989-03-02 |
Family
ID=25839172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19863642591 Granted DE3642591A1 (de) | 1985-12-20 | 1986-12-12 | Verfahren zur spracherkennung in geraeuschvoller umgebung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3642591A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4012349A1 (de) * | 1989-04-19 | 1990-10-25 | Ricoh Kk | Einrichtung zum beseitigen von geraeuschen |
DE19735504A1 (de) * | 1997-08-16 | 1999-02-18 | Magna Sitzsysteme Gmbh Mse Sea | Sitzverstelleinrichtung |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3732394A1 (de) * | 1987-09-25 | 1989-04-06 | Siemens Ag | Verfahren zur kompensation von stoergeraeuschen fuer in fahrzeugen installierte sprecherabhaengige spracherkennungssysteme |
DE3808038A1 (de) * | 1988-03-10 | 1989-09-28 | Siemens Ag | Verfahren zur automatischen anpassung eines spracherkennungssystems |
US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
-
1986
- 1986-12-12 DE DE19863642591 patent/DE3642591A1/de active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4012349A1 (de) * | 1989-04-19 | 1990-10-25 | Ricoh Kk | Einrichtung zum beseitigen von geraeuschen |
DE19735504A1 (de) * | 1997-08-16 | 1999-02-18 | Magna Sitzsysteme Gmbh Mse Sea | Sitzverstelleinrichtung |
Also Published As
Publication number | Publication date |
---|---|
DE3642591A1 (de) | 1987-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3645118C2 (de) | ||
DE2953262C2 (de) | ||
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
DE2918533C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE68922016T2 (de) | Einrichtung zur Sprachverarbeitung. | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE4328752B4 (de) | Spracherkennungssystem | |
DE4010028C2 (de) | Spracherkennungsverfahren | |
DE3642591C2 (de) | ||
EP0231490B1 (de) | Verfahren zur Spracherkennung in geräuschvoller Umgebung | |
DE4209296A1 (de) | Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE10025655B4 (de) | Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten | |
EP1212751B1 (de) | Verfahren zur unterdrückung von störrauschen in einem signalfeld | |
DE4445983C2 (de) | Verfahren zur Rauschunterdrückung und Vorrichtungen zur Durchführung der Verfahren | |
DE3810068C2 (de) | ||
DE19952049A1 (de) | Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners | |
DE4330847A1 (de) | Vorrichtung und Verfahren zur Datenverarbeitung | |
DE4110300C2 (de) | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung | |
DE3630518C2 (de) | Einrichtung zum lautweisen Identifizieren eines Sprechmusters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |