DE2400027A1 - Verfahren und vorrichtung zum erkennen von worten - Google Patents

Verfahren und vorrichtung zum erkennen von worten

Info

Publication number
DE2400027A1
DE2400027A1 DE19742400027 DE2400027A DE2400027A1 DE 2400027 A1 DE2400027 A1 DE 2400027A1 DE 19742400027 DE19742400027 DE 19742400027 DE 2400027 A DE2400027 A DE 2400027A DE 2400027 A1 DE2400027 A1 DE 2400027A1
Authority
DE
Germany
Prior art keywords
template
information
sound
sequence
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19742400027
Other languages
English (en)
Inventor
George M White
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of DE2400027A1 publication Critical patent/DE2400027A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

XEROX CORPORATION, ROCHESTER, N.Y./USA
Verfahren und Vorrichtung zum Erkennen von Worten
Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erkennen von Worten, indem diese gesprochenen Laute in ein Audiosignal umgewandelt werden, worauf eine Aufspaltung in N-Frequenzbänder vorgenommen wird, sovile eine Vorrichtung zur Durchführung dieses Verfahrens.
Es sind bereits verschiedene Versuche gemacht worden, um die menschliche Sprache auf maschinellem Wege zu erfassen. Ein derartiges System, welches unter dem Namen "Audrey" bekannt ist, besteht in der zeitabhängigen Messung von zwei Frequenzen, worauf ein Vergleich dieser Meßwerte· mit gespeicherten Mustern durchgeführt wird. Das die beste Korrelation ergebende gespeicherte Muster wird dann für die Auswertung herangezogen.
Es ist ferner ein stärker linquistisch ausgerichtetes System bekannt, welches einen großen Rechner verwendet, um eine Analyse von einzelnen Segmenten der Sprachwellen-
40 9 8 30/0753
-Z-
formen durchzuführen. Die auftretenden Wellenformen werden dabei zuerst in einzelne Minimalsegmente unterteilt, welche jeweils einem bestimmten Zeitintervall zugeordnet" sind. Die akustisch ähnlich ausgebildeten Minimalsegmente werden dann zu größeren Segmenten zusammengefaßt, welche'entweder einem Dauersignal oder einem Übergangssignal entsprechend. Einzelne Eigenschaften - wie Vokal oder Nichtvokal, Too.fall, Intensität, Frequenz und Amplitude - werden dann verwendet, um jedes Segment in vier Phänomengruppen zu klassifizieren. Jedem Segment innerhalb einer Phänomengruppe wird dann eine bestimmte Phänomenbezeichnung zugeordnet.
Es ist ferner ein weiteres System vorgeschlagen worden, welches zur Maschinenerkennung eine Zuordnung von Lauten verwendet. Dabei wird das Audio-Signal in eine Mehrzahl von Frequenzbänder bzw. Frequenzkanäle aufgeteilt, worauf die einzelnen Segmente zeitintegriert werden. Jeder Laut wird dann durch eine Folge von Erkennungswerten in einem N-dimensionalen Raum dargestellt, wobei dieser N-diirensionale Raum durch N-Filterbereiche festgelegt ist. Dem sich ergebenden Verlauf wird dann eine Bezeichnung zugeordnet, welche den Verlauf in Bezug auf Referenzpunkte identifiziert, die innerhalb des Raumes der betreffenden Bezeichnung entsprechen. Die sich ergebende Folgvon Identifizierungen legen eine Erkennungswertfolge fest, welche mit der Erkennungswertfolge von bekannten Worten zur Erkennung verglichen wird.
Demzufolge ist es Ziel der vorliegenden Erfindung, ein Verfahren zum Erkennen von Worten zu schaffen, welches durch Verwendung einer künstlichen Intelligenz in der Lage ist? aufeinanderfolgende Stufen von Lernschritten durchzuführen. Erfindungsgemäß wird dies durch Vorsehen der im kennzeichnenden Teil des Anspruches 1 aufgeführten Verfahrensschritte erreicht.
409830/0753
Während alle diese Systeme in gewissem Maße eine Erkennung erlauben, indem verschiedene Maßnahmen für einen Merkmalvergleich durchgeführt werden, so gibt es jedoch bisher kein System, welches von sich aus die Erzeugung von Testmerkmalen erlaubt. Wenn man die Aufeinanderfolge von bestimmten Lernschritten in der geistigen Entwicklung des Menschen betrachtet, so liegt ein wesentlicher Faktor gemäß Jean Piaget darin, daß die Verfügbarkeit bestimmter geistiger Fähigkeiten bei Kindern entsprechend wohl definierter Entwicklungsstufen erfolgt. Es wird die Auffassung vertreten, daß eine in Serie vorhandene Lernmodalität vorhanden ist, sobald ein Kind bestimmte Tatbestände - beispielsweise die menschliche Sprache - zu erkennen lernt» Man kann demzufolge davon ausgehen, daß das erfindungsgemäße Spracherkennungsverfahren mit künstlichen Intelligenzeigenschaften - insbesondere mit in Serie ablaufenden Lernschritten und Mustererkennung von Merkmalen - Vorteile gegenüber dem Stand der Technik aufweist, welcher allein auf die Mustererkennung von Merkmalen ausgerichtet ist.
Die Erfindung soll nunmehr anhand eines Ausführungsbeispiels näher erläutert und beschrieben werden, wobei auf die beigefügte Zeichnung Bezug genommen ist. Es zeigen:
Fig. 1
ein schematisches Blockdiagramm der erfindungsgemäßen Vorrichtung,
Fig. 2
ein schematisches Blockdiagramm eines Teils der in Fig. 1 dargestellten Vorrichtung,
Fig. 3
ein schematisches Blockdiagramm eines Teils der in Fig. 2 dargestellten Einrichtung,
409830/0753
Fig. 4
ein schematisches Blockdiagrairan eines Teils der in Fig. 1 dargestellten Vorrichtung/ und
Fig. 5 -■ 7
scheraatische Blockdiagramme von Teilen der in Fig. 2 dargestellten Einrichtung.
Fig. 1 zeigt eine Ausfuhrungsform der erfindungsgemäßen Vorrichtung zum Erkennen von Worten. Die zu identifizierenden Sprachlaute werden einem Mikrofon 2 zugeführt, von welchem das gebildete Audiosignal einem Vorverstärker zugeführt wird, der das Audiosignal vor seiner Analyse verstärkt. Das verstärkte Audiosignal wird dann einer Verarbeitungseinheit 6 zugeführt, in welcher eine Verarbeitung in Abhängigkeit von N-Frequenzbändern durchgeführt wird. Die verarbeiteten Signale werden dann einer Auswerteinheit 1o zur Speicherung und Auswertung zugeführt. Die gespeicherten und/oder ausgewerteten Signale v/erden dann über eine Leitung 2o einer Periferieeinheit, - beispielsweise einer Wiedergabeeinheit unter Verwendung einder Kathodenstrahlröhre - zugeführt werden.
Die Verarbeitungseinheit 6 besteht aus einer N-Bandpassfilter aufweisenden Filtereinheit 12, einem Integrator 14 und einem Analog-Digitalwandler 16. Die Filtereinheit 12 spaltet das einlaufende Audiosignal in N-Kanäle vorgegebener Bandbreite X1(t) ...X^(t) auf. In diesem Zusammenhang kann beispielsweise ein Hewlett-Packard 24 Kanal-Filter-Satz mit einer Bandbreite von jeweils einem Drittel einer Oktave verwendet v/erden. Die Bandbreiten sind dabei vorzugsweise innerhalb eines Frequenzbereiches von 15o bis I0.000 Hertz entsprechend einer geometrischen Reihe gewählt. Die Kanäle der Filtereinheit 12 legen bestimmte Bereiche für die örtliche Fixierung bestimmter Töne des Audiosignals fest.
409830/0753
Die innerhalb eines Zeitintervall von 1o Millisekunden vorhandene Energie jedes der N-Kanäle wird einem Integrator 14 zugeführt, welcher die in jedem Kanal auftretenden Wellenformfluktationen eliminiert« Der Integrator 14 kann dabei für jeden Kanal nur eine Parallelschaltung eines Kondensators und eines Verstärkers sein. Das Ausgangssignal des Integrators 14 wird dann nach Umwandlung der Signale X1(t) der Auswerteinheit 1o zugeführt.
Die Auswerteinheit 1o ist genauer in Fig. 2 dargestellt. Die von dem Analog-Digitalwandler 16 erzeugten Signale X. (t) . „ .X^At) v/erden einem Detektor 3o zugeführt, welcher die Anwesenheit von Sprachsignalen anzeigt. Der Detektor 3o ist dabei in seiner einfachsten Form ein Schwellwertdetektor, bei welchem eine Zehnerdiode mit einem oder mehreren der Kanäle verbunden ist. Sobald ein bestimmter Schwellwert überschritten ist, .wird der Beginn eines Sprachsignals durch das Auftreten eines Anfangssignals BEG angezeigt. Wenn hingegen der Schwellwert am Ende eines Sprachsignals nicht mehr erreicht wird, dann wird ein Schlußsignal END abgegeben. Der Detektor 3o ist so ausgelegt, daß er dem in dem Folgenden noch zu beschreibenden Pufferspeicher 52 und der ebenfalls noch zu erörternden Steuereinheit 64 ein Signal übermittelt, sobald der Beginn bzw. das Ende eines Sprachlautes auftritt.
Die ausgangsseitig von dem Detektor 3o auftretenden Signale X1 bis X^ werden daraufhin innerhalb eines Normalisierers 32 amplitudenmäßig normalisiert» Der Normalisierer 32 ist genauer in Fig. 3 dargestellt. Die Energiesignale X- bis X^ werden innerhalb eines Summierkreises 1o1 miteinander summiert, worauf das somit gebildete Summensignal innerhalb eines Dividierkreises 1o3 durch die Anzahl N der vorhandenen Kanäle dividiert wird, sodaß ein der mittleren Energie eines Kanals entsprechendes Signal C gebildet wird. Mit Hilfe von Summierkreisen 1o5 bis 1o7 wird ferner die Differenz zwischen dem Energiesignal jedes Kanals und dem mittleren Energiesignal gebildet, sodaß normalisierte Energiesignale X1...Xn
40 98 30/0753
erzeugt werden. Der Normalisiere!- 32 gewährleistet somit, daß unabhängig von dem Tonvolumen des vor dem Mikrofon 2 erzeugten Tones derselbe Satz von Energiewerten auf den einzelnen Kanälen erzeugt wird. Demzufolge sind die Kanalenergien am Ausgang des Normalisierers 32 amplitudenkonstant,
Die normalisierten Signale X1...X^ v/erden einer Lerneinheit 36 zugeführt.- Diese Lerneinheit 36 wird durch ein Signal einer Einstelleinheit 4o aktiviert, welche aus einer Anzahl von Sxgnalgeneratoren besteht, die manuell gesteuert sind. Eine erste Stufe des Lernprozesses wird durch die Lerneinheit 36 in Verbindung mit einer derselben zugeordneten Abstandsmatrix 38 gebildet. Die Lerneinheit 36 ist in Verbindung mit einem Erkennungswert-Lokalisationsspeicher in Fig. 4 dargestellt. Die manuell zu betätigenden Schalter SW....SW sind so eingestellt, daß sie identifizierte phonetische Laute, welche den Orten 111...116 zugeordnet sind - beispielsweise "A", "E" und "S" - wählen. Der Benutzer einer Vorrichtung gemäß Fig« I muß jeden gewählten Laut aussprechen, um auf diese Weise den einzelnen gewählten phonetischen Lauten zugeordnete mittlere Energien über die Kanäle X.....X^. zur Speicherung dem Speicher 42 zuzuführen, so wie dies durch die Speicherorte C.., C3...C angezeigt ist. Diese gewählten und aufeinanderfolgend gesprochenen phonetischen Laute stellen Lernlaute dar, welche die Äbstandsmatrik 38 füllen. Gemäß Fig. 5 besteht diese Abstandsmatrik 38 aus einer Matrix von Einheiten CDF in Verbindung mit Speicherorten CD... Die Speicherorte CD.. halten einen einzigen Eingang für jedes Paar von Lauten, welche gemäß 5a von dem Speicher 42 in Form von Probenwerten, abgeleitet sind. Zwischen den Speicherorten CD.. und den paarweise auftretenden Speicherorten des Speichers 42 sind Einheiten CDF vorgesehen, welche die paarweisen Töne in Form von Eingangssignalen erhalten um damit den Abstand zwischen entsprechenden Erkennungswerten jedes Paares festzulegen, worauf das Resultat in der Matrix der Elemente CD.. speichern.
4 09830/0753
Die Einheiten CDF ergeben Erkennungswertabstandsfunktionen, welche durch die in den Fig. 5b und 5c dargestellten Ausführungsformen dargestellt sind. Die Eingänge der Einheiten CDF werden wahlweise den Einheiten LDF zugeführt, während Ausgangssignale durch einen Summierkreis 191 summiert werden, wodurch Erkennungswertabstände erzeugt werden, die in den Matrix-Speicherorten CD,. angeordnet sind. Die Einheiten' LDF ergeben eine Serienkombination eines Subtrahierkreises 2o1 und eines v/eiteren Kreises 2o3, um damit als Ausgangssignal Absolutwerte der Differenz zwischen den Eingängen der Einheiten LDF abzugeben.,
Der Kodierer 34 erhält die normalisierten Signale X1.ο»Χ,, um die zugehörige Erkennungswertbezeichnung C. (t) mit einem beliebigen Zeitschlitz der Signalwellenform in Verbindung zu bringen» Die Kanalenergien gelangen durch den Kodierer 34 in entsprechende Kanäle, welche wahlweise durch die Erkennungswertabstandsfunktionseinheiten CDF als Probenwert abgetastet werden, wobei diese Einheiten CDF Orten innerhalb des Speichers 42 gemäß Fig. 6 zugeordnet sind. Die Zuordnung der Bezeichnungen C. (t) wird durch Messung zwischen M-Referenzpunkten der Speicherorte C., C2...C erreicht. Die M-Referenzpunkte sind in einem N-dimensionalen Raum angeordnet, welcher durch die entsprechenden Kanäle als Koordinaten dieses Raumes festgelegt ist, wobei die Punkte in diesem Raum durch Energiewerte der entsprechendenKanäle in jedem der Zeitschlitze der Signalwellenformen festgelegt sind. Zusätzlich wird eine beispielsweise aus einem mechanischen Schalter bestehende Schalteinheit 261 verwendet, welche entsprechende Eingänge für einen bestimmten Zeitschlitz als Probewert entnimmt, um damit die erzeugte Bezeichnung C.(t) für jeden gegebenen Zeitschlitz anzuzeigen. Es erfolgt dann jene Erkennungswertbezeichnungszuordnung, welche im Bereich des nächstliegendsten Referenzpunktes liegt.
409830/0753
Vor der Lernnormalisierung bezüglich des Sprechers sind entweder keine Referenzpunkte oder ein Satz von Referenzpunkten innerhalb der Speicherorte C1, C„...C vorhanden, welche dann erst in Bezug auf eine die Stimme eines neuen Sprechers eingestellt werden müssen. In beiden Fällen werden die Referenzpunkte gewählt, welche jene Teile des Raumes festlegen, der am häufigsten durch Lautfolgen benützt wird.
Die Signale X1...X, gelangen von dem Kodierer 34 an entsprechende Eingänge eines Extrahierers 46, welcher den Abstand zwischen benachbarten Zeitschlitzen in den Energiekanälen messen und einen Geschv/indigkeitsprofilvektor V(t) erzeugen, der einem Segmentierer 48 zugeführt wird. Der Geschv/indigkeitsprofilvektor V(t) wird in dem Extrahierer 46 erzeugt, von welchem eine Ausführungsform in Fig. 7 dargestellt ist. Gemäß Fig. 7a besteht der Extrahierer 46 aus einer Mehrzahl von Einheiten TDIF, welche jedem einzelnen Kanal zugeordnet sind. Auf diese Weise werden Aus gangs signale erzeugt, v/elche für die Ableitung des Geschwindigkeitsvektors V(t) in einem Summierkreis 3o1 summiert werden. Die Einheiten TDIF sind gemäß Fig. 7b zeitverzögerte Differenzkreise. Die Energiehöhe eines bestimmten Kanals v/ird innerhalb eines Kreises 323 in Form eines Probenwertes entnommen, wobei dieser Kreis 323 dem bereits erwähnten Kreis LDF entspricht.Ein anderes Eingangssignal des Kreises 32 3 wird von einem Verzögerungskreis 321 abgeleitet, welcher ebenfalls von demselben Kanal Probenv/erte entnimmt, um damit eine Zeitverzögerung von einer Zeiteinheit zu ergeben. Das Ausgangssignal der Einheit TDIF ist demzufolge ein Signal, v/elches den Absolutwert der Differenz der Eingangswerte für den Kreis/aarstellt.
Dem Segmentierer 48 werden ebenfalls die Erkennungswertbezeichnungen C. (t) sowie der Geschv/indigkeitsprofilvektor V(t) zugeführt. Der Segmentierer 48 überprüft die Erkennungswertfolge, v/elche aus einer Kette von Ein-angssignalen C.(t) in Abhängigkeit des Geschwindigkeitsprofil-
409830/0753
vektors V(t) besteht, wodurch an den tibergangspositionen des Geschwindigkeitsprofils bzv/. der Erkennungsv/ert folge der Bezeichnungen C.(t) Segmentmarkierungen S(t) auftreten. Entsprechend der einfachsten Ausführungsform ergibt der grafische Ausgang des Profils V(t) eine Kurve mit Spitzen und Tälern. Die Segmentmarkierungen S(t) entsprechen dabei den Ausgangssignalen zu Zeitpunkten T, bei welchen die Kurve V(t) durch einen Maximal- oder Minimalwert geht. Die Erkennungswertfolge C.(t), C.(t-1)...C.(-j) tritt dabei auf, sobald j > 5 ist, wobei i ein beliebiger konstanter Wert ist. Selbstverständlich gibt es ebenfalls andere Ausführungsformen, um eine Maschinenerkennung dieser Zustände im Rahmen der vorliegenden Erfindung zu erreichen.
Die Segmentmarkierungen S(t), die Buchstabenfolgen C.(t)...C.(t-j) und die.Geschwindigkeitsprofile V(t) für einen beliebigen Laut werden in einem Pufferspeicher 52 eingegeben. Beim ersten Laut v/erden die Inhalte des Pufferspeichers 52 einer Schabloneneinheit 54 übergeben, von v/o in Abhängigkeit eines Signals der Steuereinheit 64 eine Weitergabe an einen Schablonenspeicher 58 erfolgt. Die Steuereinheit 64 kann ein beliebiger Signalgenerator sein, welcher in Abhängigkeit eines Signals der Benutzungsperson gesteuert ist. Die Benutzungsperson erzeugt Signale für die verschiedenen Einheiten, um damit den Betriebsablauf zu steuern. Bei jeder Wiederholung eines Lautes werden die Inhalte eines Pufferspeichers 52 zwei verschiedenen Schabloneneinheiten 54, 56 zugeführt. Diese Schabloneneinheiten 54, 56 sind in der einfachsten Form Speicherregister.
Mit Hilfe der Steuereinheit 64 v/ird daraufhin ein Signal erzeugt, durch welches ein Schalter 6o betätigt wird, der die Inhalte des Schablonenspeichers 58 jenen Speicherorten innerhalb der Schabloneneinheit 54 zuführt, die in der Nähe der Speicherorte der neuen Lautinformation liegen. Die Information, welche gemeinsam für die danebenliegenden
409830/0753
Speicherorte in der Schabloneneinheit 5 4 ist, v/ird dann zur Speicherung dem Schablonenspeicher 58 zugeführt. Die in dem Schablonenspeicher 58 gespeicherte Information v/ird über den Schalter 6o der Schabioneneinheit 56 ausgelesen, in welcher ein Vergleich mit der neuen Information von dem Pufferspeicher 52 durchgeführt wird, sodaß bei jeder Wiederholung eines Lautes eine kontinuiierliche Entwicklung der in dem.Schablonenspeicher 58 gespeicherten Information zustandekommt. Die eine Identifikation eines Lautes erlaubende Information wird als "Schablone" bezeichnet.
Die Schablonen können wie bereits erwähnt in Übereinstimmung mit der Zuordnung von Segmentmarkierungen S(t) segmentiert werden, worauf diese Segmente selbst aneinander angepaßt werden. Neue Segmente v/erden mit alten zusammengefaßt, wenn immer eine Ähnlichkeit bzw. eine Übereinstimmung festgestellt wird. Jedes Segment wird mathematisch durch seine Position, seine Länge, die auftretende Erkennungswertfolge, Standardabweichungen in Bezug ε.α£ Position und Länge zugeordnete Koeffizienten bezüglich der Wichtigkeit des Segments identifiziert. Die Übereinstimmung von zwei Segmenten erfolgt durch Messung der Differenz in Position, Länge und der Erkennungswert folge. Jedesmal, v/enn ein Segment zusammengefaßt wird, v/ird der Koeffizient um 1 erhöht. Die Koeffizienten beeinflussen das Endresultat, welches bei der Übereinstimmung der Merkmale einer neuen Information mit der Schabloneninformation auftritt. Dieses Endresultat entspricht der übereinstimmenden Information, welche innerhalb der Schablonen^inheit 54 erzeugt v/erden, wobei gemeinsamen Informationen erhöhtes Gewicht gegeben v/ird. Mit den jeweiligen Wiederholungen eines Lautes wird dieser Ablauf wiederholt, um Endresultate abzuleiten, welche jeder neuen Schablone zugeordnet sind.
Demzufolge v/ird für jede Schablone ein Endresultat identifiziert. Die Schablonen sind mit Zahlen von 1 bis η bezeichnet, wobei ein Index K verwendet wird.
409830/0753
A4 -
Der Benutzer kann eine Feinabstimmung der Endresultatskoeffizienten durchführen, welche für jede Schablone innerhalb des Schablonenspeichers 58 eingespeichert sind. Zu diesem Zweck werden einem Vokabular-Analysator 62 Signale zugeführt, um bezüglich der Koeffizienten Einstellungen zu machen, sodaß zwischen ähnlichen Lauten genügend Unterscheidbarkeit vorhanden ist. Der Analysator 62 kann dabei ein Indexregister sein, welches in Abhängigkeit' eines Steuersignals der Steuereinheit 64 einzelne Koeffizienten verwendet.
Im Hinblick auf eine Berücksichtigung der angepaßten Information in der Schabloneneinheit 54 wird durch die Entwicklung von besseren Schablonen die in der Schabloneneinheit 56 während der Folge von Wiederholungen der Laute eingespeicherte Information auch einem Klassifizierer 7o zugeführt. Diese Information wird durch eine Statistikeinheit 66 probenweise erfaßt. Diese Statistikeinheit 66 ist in ihrer einfachsten Form ein Register, welches von einer derartigen Information innerhalb eines zugehörigen Speichers 68 statistische Werte ableitet.
Der Klassifizierer 7o ist ein Sammler, welcher die Messung von neu erzeugten Schabloneinformationen im Vergleich zu in dem Speicher 68 eingespeicherten Informationen erlaubt. Beispielsweise kann die Unterscheidungsinformation bezüglich nicht identifizierter Schablonen von dem k-Wert der Schablone und dem mit der betreffenden Schablone identifizierten Endresultat - d.h. den Werten"k" und "score" erreicht werden. Ein vollkommenes Endresultat bzw. eine 1oo%ige Erkennung eines Lautes wird angenommen, wenn ein betreffender k-Wert dem höchst erzielbaren Endresultat entspricht. Die Werte "k" und"score" für jede Schablone legen einen nicht identifizierten Punkt innerhalb eines n-dimensionalen Raumes fest, welcher in Bezug auf ein vollkommenes Endresultat innerhalb dieses Raumes gemessen wird. Die entsprechenden Koordinaten sind demzufolge Mittelwertsabstände, wodurch stabile Referenzpunkte innerhalb dieses Raumes ent-
409830/0753
-AZ-
sprechend eines vollkommenen Endresultates gebildet werden. Ein nicht identifizierter Punkt innerhalb des Raumes wird mit jener Bezeichnung versehen, welche die Koordinaten des Referenzpunktes identifizieren, der im Hinblick auf eine Identifikation am nächsten liegt. Bei dieser Ausführungsform sind die Koordinatenbezeichnungen eines vollkommenen Endresultates abwechselnde (alternative ) Worte. Die Schabloneninformation, welche mit einer dieser Bezeichnungen dargestellt ist, identifiziert in einer Wiedergabeeinrichtung 22 es als dieses Wort der Einstelleinheit 4o.
409830/0753

Claims (1)

  1. 24 81ο /*
    Patentansprüche
    1. Verfahren zum Erkennen von gesprochenen Lauten, indem diese gesprochenen Laute in ein Audiosignal umgewandelt werden, worauf eine Aufspaltung in N-Frequenzbänder vorgenommen wird, dadurch gekennzeichnet , daß diese Signale der N-Frequenzbänder in entsprechende Energiewerte kodiert werden, daß von jedem Laut aus einer Serie von Energiewerten eine Erkennungsfolge gebildet wird, daß ein Geschwindigkeitsprofil des Lautes erzeugt wird, daß die Erkennungsfolge und das Geschwindigkeitsprofil kombiniert werden, wodurch Informationen für die Festlegung von Lautschablonen erzeugt v/erden, und daß die Information entsprechend den Schablonen mit entsprechenden Informationen bekannter Worte verglichen wird, um auf diese Weise die mit der verglichenen Schabloneninformation zugehörigen Laute zu identifizieren.
    2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß im Rahmen des Vergleichsschrittes die Übereinstimmung im Hinblick auf eine angenommene Wichtigkeit der eine Schablone bildenden Information mit jeder Schablone festgestellt wird und daß die Identifikation eines Lautes in Verbindung mit einer Schablone in Abhängigkeit der größten Menge eines vollkommenen Endresultats erfolgt.
    3. Verfahren nach Anspruch 2, dadurch gekennzeichnet , daß durch Wiederholungen desselben Lautes mit Hilfe der gemeinsamen Schabloneninformation starke Schablonen hergestellt werden.
    409830/0753
    2Α0Π027
    4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Endresultate im Hinblick auf das Auftreten derselben gemeinsamen Informationen während Wiederholungen gewichtsmäßig beeinflußt werden.
    5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Erkennungsfolge in Übereinstimmung mit Minimal- und Maximalwerten des Geschwindigkeitsprofils segmentiert wird.
    6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Lautfolge aus einer aus einer Serie von Punkten in Bezug auf die Zeitschlitze gebildet wird, wobei die Punkte durch Koordinaten definierbar sind und wobei jeder Punkt die Energiegröße in Bezug auf ein entsprechendes Energieband in einem N-dimensionalen Raum darstellt, und daß die Kodierung derart vorgenommen wird, daß jeder Punkt der Lautfolge vorgewählten Referenzpunkten zugeordnet v/ird, wodurch für jeden Laut eine Bezeichnungs folge erzeugt v/ird.
    7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Bezeichnung·des nächsten Referenzpunktes jedem der einzelnen Punkte zugeordnet wird.
    8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß jedes Segment durch eine Position, eine Länge, eine Bezeichnungsfolge und Endresultatskoeffizienten entsprechender Wichtigkeit jedes Segments identifiziert wird.
    9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß jeder Schablone entsprechend der Wichtigkeit der Segmente ein Endresultat zugeordnet wird, und daß die Identifikation mit der Schablone erfolgt, welche die größte Nähe eines vollkommenen Endresultates aufweist.
    409830/0753
    1ο. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß aus aufeinanderfolgenden V7iederholungen desselben Lautes sehr starke unveränderliche Schablonen gebildet werden.
    11. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 1o, dadurch gekennzeichnet , daß folgende Elemente vorgesehen sind:
    a) ein Mikrofon (2), welches die gesprochenen Laute in Audiosignale umwandelt,
    b) eine Filtereinheit (12), welche die Audiosignale in N-Frequenzbänder aufteilt,
    c) ein Kodierer (34), welcher die vorgegebenen Werte entsprechend Energiegrößen der N-Bänder kodiert,
    d) eine Einrichtung zur Erzeugung einer Signalfolge für jeden Laut,
    e) eine Einrichtung zur Erzeugung eines Geschwindigkeitsprofils des Lautes,
    f) eine Einrichtung zum Kombinieren der Signalfolge und des Geschwindigkeitsprofils zur Erzeugung einer Information, die die Lautschablone festlegt, und
    g) einer Vergleichseinrichtung, welche die Schablonen mit der Information von bekannten Worten vergleicht, um die mit den verglichenen Schabloneninformationen zugeordneten Laute zu identifizieren.
    12. Vorrichtung nach Anspruch 11, dadurch gekennzeich n. e t , daß eine Einrichtung vorgesehen ist, um die Signalfolge in Abhängigkeit von Minimal- und Maximalpunkten des Geschwindigkeitsprofils zu segmentieren.
    409830/0753
    13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, welche eine Lautfolge festlegt, die aus einer Serie von Punkten in Bezug auf Zeitschlitze im Hinblick auf die Dauer jedes Signals festlegt, wobei die Punkte durch Koordinaten festgelegt sind, bei welchen jeder die Energiegrößen entsprechend einem zugehörigen Energieband innerhalb eines N-dimensionalen Raumes.darstellt und daß die Kodiereinrichtung für jeden Punkt eine Bezeichnung ergibt, demzufolge mit Hilfe von Bezeichnungen der in dem Raum vor zugeordneten Referenzpunkten eine Bezeichnungsfolge entsprechend jenem Laut erzeugt ist.
    14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet , daß- der Kodierer 34 die Bezeichnung des nächsten Referenzpunktes zu jedem der Punkte zuordnet.
    15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet , daß jedes Segment durch eine Position, eine Länge, eine Bezeichnungsfolge und Endresultatskoeffizienten entsprechend der Wichtigkeit des Segments identifizierbar ist.
    16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet , daß die Vergleichseinrichtung eine Übereinstimmung mit jeder Schablone entsprechend der Wichtigkeit der- Segmente festlegt, mit v/elcher jede Schablone zugeordnet ist, und daß eine Einrichtung vorhanden ist, welche jenen Laut identifiziert, der in Bezug auf die Schablone das beste Endresultat aufweist.
    17. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet , daß eine Einrichtung vorgesehen ist, mit welcher durch aufeinanderfolgende Wiederholungen desselben Lautes mit Hilfe der gemeinsamen Schabloneninformation sehr starke Schablonen herstellbar sind.
    409830/0753
    18. Vorrichtung nach Anspruch 17, dadurch gekennzeichnet , daß ein Normalisierer (32) vorgesehen ist, v/elcher die Energiewerte der entsprechenden Frequenzbänder normalisiert.
    19. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß ein Integrator (14) vorgesehen ist, welcher eine Zeitintegration der Audiosignale vornimmt.
    20. Vorrichtung nach einem der Ansprüche 12 bis 19, dadurch gekennzeichnet , daß entsprechend der Wichtigkeit einer eine Schablone bildenden Information ein Endresultat für jede Schablone hergestellt ist und daß eine Einrichtung vorhanden ist, welche in Abhängigkeit der größten Nähe eines vollkommenen Endresultates eine Identifikation eines Lautes erlaubt.
    21. Vorrichtung nach Anspruch 2o, dadurch gekennzeichnet , daß eine Einrichtung vorhanden ist, entsprechend welcher durch aufeinanderfolgende Wiederholungen desselben Lautes mit Hilfe der gemeinsamen Schabloneninformation sehr stabile Schablonen gewinnbar sind.
    22. Vorrichtung nach Anspruch 21, dadurch gekennzeichnet , daß eine Wägeexnrichtunq vorhanden ist, welche in Abhängigkeit des Auftretens derselben gemeinsamen Information während der Wiederholungen eine Wägung der entsprechenden Endresultate durchführt.
    0 9 8 3 0 / 0 7 S 3
    Leerseite
DE19742400027 1973-01-08 1974-01-02 Verfahren und vorrichtung zum erkennen von worten Pending DE2400027A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US32189873A 1973-01-08 1973-01-08

Publications (1)

Publication Number Publication Date
DE2400027A1 true DE2400027A1 (de) 1974-07-25

Family

ID=23252518

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742400027 Pending DE2400027A1 (de) 1973-01-08 1974-01-02 Verfahren und vorrichtung zum erkennen von worten

Country Status (7)

Country Link
JP (1) JPS49104506A (de)
AU (1) AU6431174A (de)
BE (1) BE809492A (de)
DE (1) DE2400027A1 (de)
ES (1) ES422105A1 (de)
FR (1) FR2213554A1 (de)
NL (1) NL7400087A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3200645A1 (de) * 1982-01-12 1983-07-21 Matsushita Electric Works, Ltd., Kadoma, Osaka "verfahren und vorrichtung zur spracherkennung"
DE4001063A1 (de) * 1989-09-05 1991-03-07 Gerhard Morgenroth Brillengestell

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2433800A1 (fr) * 1978-08-17 1980-03-14 Thomson Csf Discriminateur de parole et recepteur comportant un tel discriminateur

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3200645A1 (de) * 1982-01-12 1983-07-21 Matsushita Electric Works, Ltd., Kadoma, Osaka "verfahren und vorrichtung zur spracherkennung"
DE4001063A1 (de) * 1989-09-05 1991-03-07 Gerhard Morgenroth Brillengestell

Also Published As

Publication number Publication date
AU6431174A (en) 1975-07-10
BE809492A (fr) 1974-05-02
FR2213554A1 (de) 1974-08-02
ES422105A1 (es) 1976-08-01
NL7400087A (de) 1974-07-10
JPS49104506A (de) 1974-10-03

Similar Documents

Publication Publication Date Title
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE2953262C2 (de)
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3416238C2 (de) Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE69705830T2 (de) Sprachverarbeitung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE2659096C2 (de)
DE2918533C2 (de)
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE69224253T2 (de) Sprachkodiergerät
DE2825082A1 (de) Verfahren zur spracherkennung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE4031638A1 (de) Spracherkennungseinrichtung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69128582T2 (de) Methode zur Phonemunterscheidung