DE4328752B4 - Spracherkennungssystem - Google Patents

Spracherkennungssystem Download PDF

Info

Publication number
DE4328752B4
DE4328752B4 DE4328752A DE4328752A DE4328752B4 DE 4328752 B4 DE4328752 B4 DE 4328752B4 DE 4328752 A DE4328752 A DE 4328752A DE 4328752 A DE4328752 A DE 4328752A DE 4328752 B4 DE4328752 B4 DE 4328752B4
Authority
DE
Germany
Prior art keywords
speech
output
frequency band
multilayer neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4328752A
Other languages
English (en)
Other versions
DE4328752A1 (de
Inventor
Ho-Sun Chung
Soo-Yong Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Goldstar Electron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goldstar Electron Co Ltd filed Critical Goldstar Electron Co Ltd
Publication of DE4328752A1 publication Critical patent/DE4328752A1/de
Application granted granted Critical
Publication of DE4328752B4 publication Critical patent/DE4328752B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Spracherkennungssystem zur Erkennung von Fernbedienungsbefehlen von Haushaltselektrogeräten, mit:
a) einem Mikrofon (200) zum Empfangen der durch einen Bediener ausgesprochenen Sprache,
b) einer Sprachanalysiereinrichtung (210) zum Analysieren der durch das Mikrofon (200) eingegebenen Sprache,
c) einer Erfassungseinrichtung (220) zum Erfassen eines Sprachausschnitts der Sprache von der Sprachanalysiereinrichtung (200) und zur Durchführung einer Zeitachsennormalisierung und einer Binärwandlung des Sprachausschnitts, und
d) einem mehrschichtigen neuronalen Netzwerk (230) zum Empfangen der binärgewandelten Daten der Erfassungseinrichtung (220) und zum anschließenden Durchführen eines Lernprozesses, um dadurch ein Spracherkennungsergebnis (240) auszugeben,
wobei das mehrschichtige neuronale Netzwerk (230) erste, zweite und dritte mehrschichtige neuronale Netzwerke umfaßt, deren Ergebnisse vereint und ausgegeben werden, und wobei jedes der ersten, zweiten und dritten mehrschichtigen neuronalen Netzwerke eine vorbestimmte Anzahl von subneuronalen Netzwerken mit einer vorbestimmten Anzahl von Stufen enthält, wobei die Ausgangssignale der subneuronalen Netzwerke vereint und ausgegeben werden.

Description

  • Die Erfindung bezieht sich auf ein Spracherkennungssystem und insbesondere auf ein Spracherkennungssystem zur Erkennung von mündlichen Befehlen für die Fernbedienung von Haushaltselektrogeräten.
  • Zur Erkennung der von einem Menschen spontan ausgesprochenen Sprache ist in üblichen Spracherkennungssystemen ein enormer Rechenaufwand nötig, um eine Anpassung an eine Vielzahl von Sprachmerkmalen zu ermöglichen. Daher sind übliche Spracherkennungssysteme hinsichtlich ihrer Ausführbarkeit und Eignung eingeschränkt, und eine Echtzeitspracherkennung wird erschwert. Zur Lösung der mit der Mustererkennung wie z.B. der Spracherkennung verbundenen Probleme wurde daher ein neuronales Netzwerkmodell vorgeschlagen.
  • Die Druckschrift DE 40 10 028 A1 offenbart z. B. ein Spracherkennungsgerät und -verfahren, die von einem Mikrofon empfangene Spracheingangssignale empfangen. Ein Sprachsignal wird bei einer ersten Analyse unter Verwendung eines Hidden-Semi-Markov-Modells und eines asymmetrischen Dynamic-Time-Warping-Algorithmus analysiert und bei einer zweiten Analyse unter Verwendung von Mehrschichtperzeptron-Verfahren in Verbindung mit einem neuronalen Netzwerk analysiert. Wenn die erste Analyse ein gesprochenes Wort mit einem bestimmten Maß an Sicherheit identifiziert, kann sie allein verwendet werden. Ansonsten wird auch die zweite Analyse verwendet.
  • Ferner offenbart die Druckschrift DE 38 19 178 A1 ein Spracherkennungsverfahren und eine Spracherkennungseinrichtung. Dabei wird durch eine Digitalisierung, Korrektur und Zuweisung zu Kanälen ein binäres Zeit-Spektrumsmuster aus Leistungsspektrumsdaten von Sprachsignalen erzeugt. Daraufhin werden Sprachabschnitte in dem erzeugten binären Zeit-Spektrumsmuster erfaßt. Eine Sprachidentifizierung vergleicht Ähnlichkeitsgrade einer sprecherunabhängigen Erkennung mit denen einer sprecherabhängigen Erkennung und identifiziert einen Kandidaten mit dem höchsten Ähnlichkeitsgrad als Erkennungsergebnis.
  • Im Bereich der Sprachmustererkennung wurden verschiedene Modelle neuronaler Netzwerke vorgeschlagen. In diesen Modellen wird häufig ein Mehrschichtperzeptron verwendet. Das Mehrschichtperzeptron weist jedoch die Nachteile auf, daß es sich zur Bestimmung des zu einer wahren Lösung gehörenden Fehlerwertes in ein lokales Minimum des Lernvorgangs bewegt, bei dem sich der Fehlerwert nach und nach verringert und danach wieder ansteigt, und daß die Lernzeit zu lange ist. Zudem ist die Realisation der Hardwarekonstruktion aufwendig, so daß ein Einsatz für weitere Anwendungen nicht möglich ist.
  • Es ist daher Aufgabe der Erfindung, ein Spracherkennungssystem zur Erkennung von Fernbedienungsbefehlen für Haushaltselektrogeräte bereitzustellen, in dem ein mehrschichtiges neuronales Netzwerk eingesetzt wird, das Fehler minimieren kann.
  • Diese Aufgabe wird durch ein Spracherkennungssystem zur Erkennung von Fernbedienungsbefehlen von Haushaltselektrogeräten gemäß dem unabhängigen Patentanspruch 1 gelöst. Vorteilhafte Ausgestaltungen des Spracherkennungssystems sind in den abhängigen Patentansprüchen 2 bis 4 definiert.
  • Durch das erfindungsgemäße mehrschichtige neuronale Netzwerk werden die oben beschriebenen Nachteile vermieden, wobei seine Anwendung speziell für den Bereich der Mustererkennung wie z. B. der Symbol- oder Spracherkennung vorgesehen ist.
  • Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnung näher beschrieben. Es zeigen:
  • 1 ein Blockschaltbild eines erfindungsgemäßen Fernbedienungsbefehls-Erkennungssystems eines Haushaltselektrogeräts, in dem ein mehrschichtiges neuronales Netzwerk eingesetzt wird,
  • 2 Original-Erkennungszielworte, die in einem Erkennungsexperiment verwendet wurden,
  • 3 Daten, die nach Erfassung des Sprachausschnitts des Erkennungszielworts "power" erhalten wurden,
  • 4a4c Diagramme, die Binärwandlungsverfahren darstellen,
  • 5a eine Tabelle, die ein Ergebnis der Binärwandlung der in 3 gezeigten Daten nach dem in 4a gezeigten Verfahren darstellt,
  • 5b eine Tabelle, die ein Ergebnis der Binärwandlung der in 3 gezeigten Daten nach dem in 4c gezeigten Verfahren darstellt,
  • 6 ein Blockschaltbild, das die Verarbeitungssequenz der erfaßten zeitachsennormalisierten Sprachausschnittsdaten darstellt,
  • 7 ein Lernverfahren eines mehrschichtigen neuronalen Netzwerks zur Erhöhung der Erkennungsrate des erfindungsgemäßen Spracherkennungssystems, und
  • 8 ein Ergebnis, das mittels einer Programmsimulation der Spracherkennung anhand von Fernseh- und Videorekorderbefehlen erhalten wurde.
  • Bevor das erfindungsgemäße Spracherkennungssystem unter Bezugnahme auf die Zeichnung beschrieben wird, wird zunächst der Lernalgorithmus des mehrschichtigen neuronalen Netzwerks beschrieben. Der Algorithmus verfährt wie folgt:
    • a) Initialisiere die Gewichtungsfaktoren für alle Knoten
    • b) Stelle die Werte des Eingangs und seines entsprechenden Ausgangs zur Verfügung.
    • c) Summiere die Produkte der Eingangswerte mit den Gewichtungsfaktoren eines jeden Knotens und erzeuge dadurch die Ausgangsdaten unter Verwendung einer hart begrenzenden, nicht linearen Funktion: fh(x) = 1 für x > 0 fh(x) = –1 für x <= 0 (1)
      Figure 00050001
      wobei fh eine hart begrenzende Funktion, Xi das i-te Eingangssignal, Wji den Gewichtungsfaktor zwischen dem i-ten und dem j-ten Knoten, und OUTj den Ausgangswert am j-ten Knoten kennzeichnet.
    • d) Vergleiche den Ausgangswert am Ausgangsknoten mit dem gewünschten Ausgangswert, um dadurch den Fehler zwischen, beiden zu bestimmen, und speichere dann die den Fehlerwerten entsprechenden Änderungen der Gewichtungsfaktoren: ΔWji = (Dj – Oj) (3)wobei Wji die Änderung des Gewichtungsfaktors, Dj den gewünschten Ausgangswert des j-ten Knoten, und Oj den Ausgangswert des j-ten Knoten kennzeichnet.
    • e) Führe die Schritte b) bis d) für alle Eingangswerte durch und beende den Lernprozess, wenn alle Ausgangswerte identisch mit den gewünschten Werten sind. Andernfalls addiere die Summe der Gewichtungsfaktoränderungen zum Gewichtungsfaktor hinzu:
      Figure 00050002
      wobei W(T–1)ji den Gewichtungsfaktor vor der Änderung und Wji den Gewichtungsfaktor nach der Änderung kennzeichnet.
    • f) Führe eine vorbestimmte Anzahl von Wiederholungen der Schritte b) bis e) durch und vergrößere die Anzahl der Schichten, bis das gewünschte Resultat erhalten wird. Wiederhole danach die Schritte b) bis e), wobei der Ausgangswert der erweiterten Schicht und der ursprüngliche Eingangswert als neuer Eingangswert verwendet werden.
  • Beim Lernalgorithmus des mehrschichtigen neuronalen Netzwerks sollten die Gewichtungsfaktoren der Synapsen zur Erleichterung der Hardware-Konstruktion ganzzahlig sein. Ferner – wird die hart begrenzende Funktion als Übertragungsfunktion der Neuronen verwendet, für deren Eingangs- und Ausgangswerte binäre Zahlen verwendet werden. Als Regel gilt, daß, solange der Lernprozess der vorangegangenen Schicht nicht erfolgreich war, die Anzahl der Schichten vergrößert wird und daß der Lernprozess solange durchgeführt wird, bis der Ausgangswert identisch mit dem gewünschten Ausgangswert ist.
  • 1 zeigt ein Blockschaltbild eines Fernbedienungsbefehls-Erkennungssystems für Haushaltselektrogeräte, in dem ein mehrschichtiges neuronales Netzwerk eingesetzt wird. Unter Bezugnahme auf 1 enthält das System ein Mikrofon 200 zum Empfangen der Sprache, einen Sprachanalysator 210 zur Extrahierung der Charakteristiken der vom Mikrofon 200 übertragenen Sprache, eine Erfassungseinrichtung 220 zur Erfassung des Sprachausschnitts der durch den Sprachanalysator 210 verarbeiteten Sprache und zur Durchführung einer Zeitachsennormalisierung und einer Binärwandlung des Sprachausschnitts, und ein mehrschichtiges neuronales Netzwerk 230 zum Empfangen der binärgewandelten Daten der Erfassungseinrichtung 220 zum Durchführen des Lernprozesses und zum anschließenden Ausgeben des Spracherkennungsergebnisses.
  • Eine erfindungsgemäße Fernbedienung ist wie in 1 gezeigt aufgebaut. Die Fernbedienung sendet ein der erkannten Sprache entsprechendes Fernsteuerungssignal aus, um dadurch das elektronische Haushaltsgerät zum Ausführen der gewünschten Funktion zu veranlassen. Das erkannte Sprachsignal wird auch auf dem Bildschirm angezeigt.
  • 2 zeigt eine Liste von Erkennungszielworten, wie sie in einem Experiment verwendet wurden. Gemäß 2 bestehen die Erkennungszielworte aus 23 Fernseh- und Videorekorderbefehlen und den koreanischen Zahlen "young" bis "koo", die den deutschen Zahlen 1 bis 9 entsprechen.
  • 3 zeigt eine Tabelle, die die Daten nach der Erfassung des Sprachausschnitts in dem Erkennungszielwort "power" darstellt.
  • Es werden die Ausgangssignale einer 16-kanaligen Filterbank verwendet, sodaß der Sprachausschnitt in 16 Frequenzbänder F1-F16 unterteilt wird. Die Analyseperiode der Sprachdaten wird auf 16 ms festgesetzt. Von den analysierten Daten werden die Rahmen erfaßt, deren Energieniveau höher als ein vorbestimmter Schwellwert ist, so daß diese kontinuierlichen Rahmen als Sprachausschnitt zusammengefaßt werden.
  • Da das gleiche Wort etwas länger oder kürzer ausgesprochen werden kann, werden die erfaßten Sprachausschnittsdaten nach jeweils 30 Rahmen zeitachsennormalisiert, was der durchschnittlichen Dauer eines zwei- oder dreisilbigen Wortes entspricht. Die Normalisierung wird dadurch erreicht, daß Teile der Rahmen proportional entfernt werden, wenn das Wort länger als ein Referenzrahmen ist und daß Teile des Rahmens proportional kopiert werden, wenn das Wort kürzer als der Referenzrahmen ist.
  • Die 4a-4c zeigen Binärwandlungsverfahren. Gemäß 4a wird angenommen, daß zwei benachbarte Frequenzbänder ein erstes bzw. ein zweites Frequenzband sind und daß, wenn das Energieniveau des ersten Frequenzbandes höher als das des benachbarten zweiten Frequenzbandes ist, dem ersten Frequenzband der Wert "1" oder dem zweiten Frequenzband der Wert "0" zugewiesen wird. Gemäß 4b wird einem Frequenzband der Wert "1" zugewiesen, wenn das Energieniveau des Frequenzbandes höher ist als das der beiden Nachbarfrequenzbänder, zwischen denen sich das Frequenzband befindet, oder andernfalls wird dem Frequenzband der Wert "0" zugewiesen. Gemäß 4c werden die in einen Sprachausschnitt eingeteilten Daten in einer festen Proportion normalisiert und der Wert "1" wird einem Frequenzband zugewiesen, dessen Energieniveau höher als ein vorgestimmter Schwellwert ist, oder andernfalls wird dem Frequenzband der Wert "0" zugewiesen.
  • 5a zeigt eine Tabelle des Ergebnisses der Binärwandlung der in 3 gezeigten Daten nach dem in 4a gezeigten Verfahren.
  • 5b zeigt eine Tabelle des Ergebnisses der Binärwandlung der in 3 gezeigten Daten nach dem in 4c gezeigten Verfahren.
  • Die Binärwandlungsergebnisse der 5a und 5b werden als Eingangswerte für ein mehrschichtiges neuronales Netzwerk verwendet. Das mehrschichtige neuronale Netzwerk führt den oben beschriebenen Algorithmus bei Erhalt der binärgewandelten Ergebnisse durch.
  • 6 zeigt ein Blockschaltbild der Verarbeitungssequenz, nach der die erfaßten zeitachsennormalisierten Sprachaus schnittsdaten verarbeitet werden. Gemäß 6 werden die erfaßten zeitachsennormalisierten Sprachausschnittsdaten mittels drei Arten von Binärwandlungsschaltungen 300 binärgewandelt. Danach werden die binärgewandelten Daten anhand eines Lernprozesses von drei mehrschichtigen neuronalen Netzwerken 310 verarbeitet. Die durch den Lernprozess erhaltenen Daten werden einer Maximalwert-Ausgabeschaltung 320 eingegeben, wodurch die Maximalwerte erzeugt werden. Danach werden die Ergebnisse der Maximalwert-Ausgabeschaltungen 320 mittels einer Endwerterkennungsschaltung 330 vereinigt, wobei die Endwerterkennungsschaltung 330 den endgültigen Erkennungswert erzeugt.
  • Durch die gleichzeitige Verwendung von drei verschiedener. Binärwandlungsverfahrenn können die Sprachcharakteristiker differenzierter ausgedrückt werden, um dadurch eine bessere Erkennungsrate zu sichern. Weiterhin wird durch die vorliegende Erfindung ein zusätzliches Verfahren zum Erzielen eines verbesserten Lernergebnisses bereitgestellt.
  • 7 zeigt ein Lernverfahren, das ein verbessertes Ergebnis zur Folge hat. Gemäß Fig. 7 enthält ein mehrschichtiges neuronales Netzwerk eine vorbestimmte Anzahl von subneuronalen Netzwerken und jedes der subneuronalen Netzwerke enthält weiterhin seine eigenen subneuronalen Netzwerke, die dadurch die Erkennungsrate erhöhen. Das erfindungsgemäße Spracherkennungssystem enthält eine Vielzahl von neuronalen Netzwerken 400 zur Durchführung des Lernprozesses bei Empfang der binärgewandelten Signale und eine Vielzahl von subneuronalen Netzwerken 410, die mit den neuronalen Netzwerken 400 verbunden sind. Ebenso können die subneuronalen Netzwerke ihre eigenen subneuronalen Netzwerke enthalten.
  • Somit können die Ausgangsdaten, die nicht durch das neuronale Netzwerk ermittelt werden können, von den subneuronalen Netzwerken 400 gelernt werden, wodurch das endgültige Ergebnis erhalten wird. Die Ausgangsdaten, die nicht durch die subneuronalen Netzwerke 410 ermittelt werden, können von ihren eigenen subneuronalen Netzwerken gelernt werden. Wird z.B. der Lernprozess anhand der koreanischen Zahlen "il" und chil", "sahm" und "pahl", und "yuk" und "koo" durchgeführt, die paarweise ähnlich erscheinen und daher schwer zu unterscheiden sind, so können diese Zahlenpaare ein weiteres Mal gelernt werden. Dieses Verfahren wird erfindungsgemäß zur Erhöhung der Erkennungsrate des Lernprozesses eingeführt.
  • 8 zeigt eine Programmsimulation von Fernseh- und Videorekorderbefehlen, die auf dem Monitor eines, Computersystems angezeigt wird. Zum jetzigen Zeitpunkt umfassen die Studierdaten des mehrschichtigen neuronalen Netzwerks mehr als 300 Daten für jedes von einem Sprecher ausgesprochene Modul, bei insgesamt 10 Modulen. Für die Erkennung wird eine Zeitdauer von ungefähr 0.2 Sekunden benötigt, was den Aufbau eines Echtzeitsystems ermöglicht. Nach dem Lernprozess zeigten die Studierdaten eine Erkennungsrate von 100% und die Testdaten eine Erkennungsrate von 90%, was als hohe Rate angesehen werden kann.
  • Dementsprechend kann durch das erfindungsgemäße Spracherkennungssystem und das erfindungsgemäße Spracherkennungsverfahren die Spracherkennungsrate verbessert werden.
  • Spracherkennungssystem zur Erkennung von mündlichen Befehlen für die Fernbedienung eines Fernsehgeräts oder Videorekorders mit einem Mikrofon zum Empfangen der von einem Bediener ausgesprochenen Sprache, einer Sprachanalysiereinrichtung zum Analysieren der über das Mikrofon eingegebenen Sprache, einer Erfassungseinrichtung zur Erfassung eines Sprachausschnitts der Sprache von der Sprachanalysiereinrichtung und zum Durchführen einer Zeitachsennormalisierung und einer Binärwandlung des erfaßten Sprachausschnitts, und einem mehrschichtigen, neuronalen Netzwerk zum Empfangen der binärgewandelten Daten der Erfassungseinrichtung und zum anschließenden Durchführen eines Lernprozesses, um dadurch ein Spracherkennungsergebnis auszugeben. Durch die vorliegende Erfindung kann die Erkennungsrate von Sprachsignalen erhöht werden.

Claims (4)

  1. Spracherkennungssystem zur Erkennung von Fernbedienungsbefehlen von Haushaltselektrogeräten, mit: a) einem Mikrofon (200) zum Empfangen der durch einen Bediener ausgesprochenen Sprache, b) einer Sprachanalysiereinrichtung (210) zum Analysieren der durch das Mikrofon (200) eingegebenen Sprache, c) einer Erfassungseinrichtung (220) zum Erfassen eines Sprachausschnitts der Sprache von der Sprachanalysiereinrichtung (200) und zur Durchführung einer Zeitachsennormalisierung und einer Binärwandlung des Sprachausschnitts, und d) einem mehrschichtigen neuronalen Netzwerk (230) zum Empfangen der binärgewandelten Daten der Erfassungseinrichtung (220) und zum anschließenden Durchführen eines Lernprozesses, um dadurch ein Spracherkennungsergebnis (240) auszugeben, wobei das mehrschichtige neuronale Netzwerk (230) erste, zweite und dritte mehrschichtige neuronale Netzwerke umfaßt, deren Ergebnisse vereint und ausgegeben werden, und wobei jedes der ersten, zweiten und dritten mehrschichtigen neuronalen Netzwerke eine vorbestimmte Anzahl von subneuronalen Netzwerken mit einer vorbestimmten Anzahl von Stufen enthält, wobei die Ausgangssignale der subneuronalen Netzwerke vereint und ausgegeben werden.
  2. Spracherkennungssystem nach Anspruch 1, wobei die Erfassungseinrichtung (220) eine erste Einrichtung aufweist, die einem ersten Frequenzband einen ersten Zustandswert zuweist, wenn das Ausgangssignal des ersten Frequenzbandes der erfaßten zeitachsennormalisierten Sprachausschnittsdaten größer als das eines benachbarten zweiten Frequenzbandes ist, oder andernfalls einen zweiten Zustandswert dem ersten Frequenzband zuweist, eine zweite Einrichtung aufweist, die dem ersten Frequenzband einen ersten Zustandswert zuweist, wenn das Ausgangssignal des ersten Frequenzbandes der erfaßten zeitachsennormalisierten Sprachausschnittsdaten größer ist als die seiner benachbarten Frequenzbänder, zwischen denen sich das erste Frequenzband befindet, oder andernfalls dem ersten Frequenzband einen zweiten Zustandswert zuweist, und eine dritte Einrichtung zur Normalisierung der erfaßten zeitachsennormalisierten Sprachausschnittsdaten in einer vorbestimmten Proportion und zur Zuweisung eines ersten Zustandswerts zu einem Frequenzband, wenn der Ausgangswert in dem Frequenzband größer als ein Schwellwert ist, oder andernfalls zur Zuweisung eines zweiten Zustandswerts zu dem Frequenzband.
  3. Spracherkennungssystem nach Anspruch 2, wobei die ersten, zweiten und dritten mehrschichtigen neuronalen Netzwerke entsprechend mit der ersten, zweiten bzw. dritten Einrichtung verbunden sind.
  4. Spracherkennungssystem nach einem der vorstehenden Ansprüche, wobei in dem mehrschichtigen neuronalen Netzwerk ein Lernverfahren zur Erkennung von Fernbedienungsbefehlen für Haushaltselektrogeräte durchgeführt wird, das die Schritte umfaßt: a) Initialisieren der Gewichtungsfaktoren für alle Knoten, b) Bereitstellen der Eingangswerte und der entsprechenden Ausgangswerte, c) Aufsummieren der Produkte der Eingangswerte mit den Gewichtungsfaktoren an jedem Knoten, um dadurch ein Ausgangssignal unter Verwendung einer hart begrenzenden, nicht linearen Funktion zu erzeugen, d) Vergleichen des Ausgangssignals am Ausgangsknoten mit einem gewünschten Ausgangswert, um dadurch den Fehler zwischen den beiden zu berechnen, und danach Speichern der Änderung des Gewichtungsfaktors entsprechend den Fehlerwerten, e) Durchführen der Schritte b) bis d) für alle Eingangssignale und Abbrechen des Lernvorgangs, wenn alle Ausgangswerte identisch mit den gewünschten Werten sind, andernfalls Hinzuaddieren der Summe der Änderungen der Gewichtungsfaktoren zu jedem entsprechenden Gewichtungsfaktor, und f) Durchführen einer vorbestimmten Anzahl von Wiederholungen der Schritte b) bis e) und Erhöhen der Anzahl von Schichten, wenn das gewünschte Ergebnis nicht erhalten wird, danach Wiederholen der Schritte b) bis e), wobei das Ausgangssignal der erweiterten Schicht und das ursprüngliche Eingangssignal als neues Eingangssignal eingegeben wird.
DE4328752A 1992-08-27 1993-08-26 Spracherkennungssystem Expired - Fee Related DE4328752B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR92-15484 1992-08-27
KR1019920015484A KR100202425B1 (ko) 1992-08-27 1992-08-27 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템

Publications (2)

Publication Number Publication Date
DE4328752A1 DE4328752A1 (de) 1994-03-03
DE4328752B4 true DE4328752B4 (de) 2004-08-05

Family

ID=19338592

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4328752A Expired - Fee Related DE4328752B4 (de) 1992-08-27 1993-08-26 Spracherkennungssystem

Country Status (5)

Country Link
US (1) US5471557A (de)
JP (1) JPH06161496A (de)
KR (1) KR100202425B1 (de)
DE (1) DE4328752B4 (de)
FR (1) FR2695246B1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5904697A (en) * 1995-02-24 1999-05-18 Heartport, Inc. Devices and methods for performing a vascular anastomosis
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
CN1536800B (zh) 1997-07-03 2010-04-28 株式会社东芝 卫星广播***
DE19754382A1 (de) * 1997-12-08 1999-06-10 Siemens Nixdorf Inf Syst Gerätekombination aus Fernseh- und Rechnerteil mit Zugriff zu einem Kommunikationsnetz sowie Fernbedienung dafür
US7266498B1 (en) * 1998-12-18 2007-09-04 Intel Corporation Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu
JP3979556B2 (ja) * 1998-12-22 2007-09-19 パイオニア株式会社 番組選択装置及び番組選択方法
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
DE60123803T2 (de) * 2000-07-28 2007-09-06 Koninklijke Philips Electronics N.V. System zur steuerung eines gerätes mittels sprachbefehlen
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US7966177B2 (en) * 2001-08-13 2011-06-21 Hans Geiger Method and device for recognising a phonetic sound sequence or character sequence
KR20030034443A (ko) * 2001-10-23 2003-05-09 삼성전자주식회사 음성 인식 사용자 인터페이스 제어 장치 및 방법
KR20030047153A (ko) * 2001-12-08 2003-06-18 임소영 음성인식을 적용한 전자 기기의 신방식 유저 인터페이스시스템 및 방법
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
CN103679185B (zh) * 2012-08-31 2017-06-16 富士通株式会社 卷积神经网络分类器***、其训练方法、分类方法和用途
KR102392087B1 (ko) 2017-07-10 2022-04-29 삼성전자주식회사 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
DE4010028A1 (de) * 1989-04-12 1990-10-18 Smiths Industries Plc Spracherkennungsverfahren

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2558682B2 (ja) * 1987-03-13 1996-11-27 株式会社東芝 知的ワ−クステ−シヨン
US5136653A (en) * 1988-01-11 1992-08-04 Ezel, Inc. Acoustic recognition system using accumulate power series
US5214745A (en) * 1988-08-25 1993-05-25 Sutherland John G Artificial neural device utilizing phase orientation in the complex number domain to encode and decode stimulus response patterns
GB8911461D0 (en) * 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
US5086479A (en) * 1989-06-30 1992-02-04 Hitachi, Ltd. Information processing system using neural network learning function
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
JPH03123399A (ja) * 1989-10-06 1991-05-27 Ricoh Co Ltd 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
DE4010028A1 (de) * 1989-04-12 1990-10-18 Smiths Industries Plc Spracherkennungsverfahren

Also Published As

Publication number Publication date
JPH06161496A (ja) 1994-06-07
KR100202425B1 (ko) 1999-06-15
FR2695246A1 (fr) 1994-03-04
US5471557A (en) 1995-11-28
DE4328752A1 (de) 1994-03-03
FR2695246B1 (fr) 1996-06-21

Similar Documents

Publication Publication Date Title
DE4328752B4 (de) Spracherkennungssystem
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3855035T2 (de) Mehrschichtiges Neuronalnetzwerk mit dynamischer Programmierung
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69634247T2 (de) Klassifiziervorrichtung mit einem neuronalen Netz zum adaptiven Filtern
DE68929102T2 (de) Lernverarbeitungssystem
DE3819178C2 (de)
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE4309985A1 (de) Geräuschreduktion zur Spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE69615293T2 (de) Lesekanal mit künstlichem neuronalen Netzwerk

Legal Events

Date Code Title Description
8141 Disposal/no request for examination
8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G10L 15/22

8170 Reinstatement of the former position
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee