DE60023736T2 - Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen - Google Patents

Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen Download PDF

Info

Publication number
DE60023736T2
DE60023736T2 DE60023736T DE60023736T DE60023736T2 DE 60023736 T2 DE60023736 T2 DE 60023736T2 DE 60023736 T DE60023736 T DE 60023736T DE 60023736 T DE60023736 T DE 60023736T DE 60023736 T2 DE60023736 T2 DE 60023736T2
Authority
DE
Germany
Prior art keywords
stage
models
speech
word
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60023736T
Other languages
English (en)
Other versions
DE60023736D1 (de
Inventor
Frederic Soufflet
Nour-Eddine Tazine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Application granted granted Critical
Publication of DE60023736D1 publication Critical patent/DE60023736D1/de
Publication of DE60023736T2 publication Critical patent/DE60023736T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die Erfindung bezieht sich auf die Verwendung eines Spracherkennungsverfahrens, das mehrere Sprachmodelle zur Gewinnung einer besseren Erkennung enthält. Die Erfindung betrifft auch eine Vorrichtung diese Verfahren anzuwenden.
  • Die Informationssysteme oder Kontrollsysteme verwenden zunehmend eine Sprachschnittstelle, um die Interaktion mit dem Benutzer schnell und intuitiv zu gestalten. Diese Systeme werden immer komplexer, die unterstützten Dialogarten sind immer umfangreicher und man kommt in den Bereich der kontinuierlichen Spracherkennung mit sehr umfangreichem Vokabular.
  • Die Spracherkennung mit grossem Vokabular basiert auf den Hidden-Markov-Modellen, sowohl für den akustischen Teil als auch auf für den Sprachmodellteil.
  • Die Erkennung eines Satzes läuft darauf hinaus, die wahrscheinlichste Wortfolge zu finden unter Kenntnis der über das Mikrofon aufgenommenen akustischen Daten.
  • Der Algorithmus von Viterbi wird allgemein zu diesem Zweck verwendet.
  • Für die praktischen Probleme jedoch, das heisst zum Beispiel für Vokabulare, die aus mehreren Tausend Worten bestehen und selbst für Modelle mit einer einfachen Sprache vom Typ bigram, beinhaltet das zu analysierende Markovsche Netz zu viele Zustände, damit der Algorithmus von Viterbi in diesem Zustand angewendet werden könnte.
  • Vereinfachungen sind notwendig.
  • Eine bekannte Vereinfachung ist das „beam-search" genannte Verfahren („Lichtstrahlsuchen"). Die Idee auf der es basiert ist einfach: im Verlauf des Viterbi-Algorithmus werden einige Zustände des Gitters entfernt, wenn das Ergebnis, das sie erzielen, niedriger als eine bestimmter Schwellenwert ist (wobei das Gitter eine zeitliche Darstellung der Zustände und Übergänge im Markovschen Netz ist). Diese Ausdünnung reduziert erheblich die Zahl der Zustände, die im Laufe der Suche nach der wahrscheinlichsten Wortfolge in den Vergleich einbezogen werden. Eine klassische Variante ist das Verfahren „N-beast search" (Suche den n-besten Lösungen), die am Ausgang die n-Wortfolgen liefert, die das beste Ergebnis erzielen.
  • Die im Verlauf des „N-best search" – Verfahrens benutzte Ausdünnung, die auf den gemittelten Ergebnissen in der links rechts Satzanalyse basiert, ist manchmal nicht zur Suche der besten Wortfolge geeignet: Zwei grundlegende Probleme bestehen:
    Auf der einen Seite, wenn dieses Verfahren auf die Sprachmodelle des Typs n-gram angepasst wird, in denen die ganze Sprachmodellinformation über die wahrscheinlichste Wortfolge begrenzt ist auf n aufeinander folgenden, gerade analysierten Worten, ist es für die Sprachmodelle des Grammatikentyps, die ein Modell mit den Einflüssen der Abstände zwischen Wortgruppen schaffen, weniger wirkungsvoll. Es kann also passieren, dass die n besten berücksichtigten Wortfolgen in einem bestimmten Stadium der Dekodierung, nicht mehr die möglichen Kandidaten in der Schlussphase der Satzanalyse sind, da der Rest des Satzes ihre Kandidatur beschädigt, vor Sätzen mit einem schwächeren Ergebnis als zu Beginn, stimmt jedoch besser mit dem Sprachmodell überein, wie es durch die bekannten Grammatiken dargestellt wird.
    Auf der anderen Seite geschieht es oft, dass eine Anwendung modulweise oder in mehreren Schritten, wobei jedes Modul mit genauen Funktionalitäten der Schnittstelle versehen ist, mit zunächst unterschiedlichen Sprachmodellen, entwickelt wird. Im n-best – Verfahren werden diese verschiedenen Sprachmodelle vermischt und es ergibt sich daraus, wenn eine Untergruppe der Anwendung befriedigende Erkennungswerte geliefert hat, es nicht garantiert ist, dass diese Werte, wenn man neue Module hinzufügt, auch erhalten bleiben, selbst wenn ihr Anwendungsgebiet unterschiedlich ist: die beiden Modelle werden sich gegenseitig stören.
  • Dazu zeigt die 1 ein Schaubild eines auf Grammatiken basierenden Sprachmodells. Die schwarzen Kreise stellen die Entscheidungsschritte dar, die Striche zwischen den kreisen stellen die Übergänge dar, auf die das Sprachmodell die Erzeugungswahrscheinlichkeit ausübt und die weissen Kreise stellen die Worte des Vokabulars dar, die mit Markovschen Netzen verbunden sind, die dank der phonetischen Kenntniss ihrer möglichen Aussprachen aufgebaut wurden.
  • Wenn in der Anwendung mehrere Grammatiken aktiv sind, werden die Sprachmodelle jeder einzelnen Grammatik zusammengelegt, um nur ein Netz zu bilden. Die anfängliche Wahrscheinlichkeit, jede der Grammatiken zu aktivieren, geschieht normalerweise zwischen den Grammatiken zu gleichen Teilen, wie das auch in der 2 beschrieben ist, wo man unterstellt, dass die beiden Übergänge, die vom Ursprungsknoten ausgehen, die gleiche Wahrscheinlichkeit haben.
  • Man kommt also zum Ursprungsproblem nur eines Sprachmodells zurück und das „bean search"-Verfahren erlaubt durch eine Ausdünnung der Suchwege, die als die am wenigsten wahrscheinlichen betrachtet werden, den Satz zu finden, der den höchsten Wert darstellt (oder die n Sätze im Fall des n-best search).
  • Die Erfindung zielt auf ein Spracherkennungsverfahren ab, das eine Stufe der Erkennung eines akustischen Signals beinhaltet, sowie ein Stufe der akusto-phonetischen Entschlüsselung und eine Stufe der sprachlichen Dekodierung, die dadurch gekennzeichnet ist, dass die Stufe der Sprachdekodierung folgende Stufen beinhaltet:
    • – eine von der Vielzahl der Sprachmodelle getrennte Anwendungsstufe zur Analyse einer Audiosequenz, um eine Vielzahl von Wortfolgekandidaten zu bestimmen;
    • – eine Bestimmungsstufe mit einem Suchmotor für die wahrscheinlichste Wortfolge unter den Wortfolgekandidaten.
  • Gemäß einem besonderen Ausführungsbeispiel ist die Bestimmung durch den Suchmotor eine Funktion der während der Anwendung der Sprachmodelle nicht in Betracht gezogenen Parameter.
  • Gemäß einem besonderen Ausführungsbeispiel sind die Sprachmodelle auf Grammatiken aufgebaut.
  • Das Ziel der Erfindung ist auch eine Vorrichtung zur Spracherkennung und beinhaltet einen Audioprozessor zur Audiosignalerkennung und einen Sprachdekodierer zur Festlegung einer Wortfolge, die dem Audiosignal entspricht, dadurch gekennzeichnet, dass der Sprachdekodierer:
    • – eine Vielzahl von Sprachmodellen für eine getrennte Anwendung zur Analyse eines gleichen Satzes beinhaltet, um eine Vielzahl von Wortfolgekandidaten fest zu legen.
    • – einen Suchmotor zur Festlegung der am meisten wahrscheinlichen Wortfolgekandidaten, unter der Vielzahl von Wortfolgekandidaten, beinhaltet.
  • Andere Besonderheiten und Vorteile der Erfindung werden bei der Beschreibung eines Ausführungsbeispieles auftreten, das aber keine einschränkende Wirkung hat und durch die anhängenden Abbildungen erklärt wird, darunter zeigt die:
  • 1 ein Diagramm in Baumstruktur mit schematischer Darstellung eines Sprachmodells auf der Grundlage von Grammatiken;
  • 2 ein Diagramm in Baumstruktur mit schematischer Umsetzung eines Suchalgorithmus auf der Basis von zwei Sprachmodellen des Typs aus der 1 und in einem Modell vereint.
  • 3 ein Diagramm in Baumstruktur nach einem erfindungsgemäßem Ausführungsbeispiel, angewendet auf zwei Sprachmodelle.
  • 4 ein Diagramm in Blockform in Übereinstimmung mit dem Ausführungsbeispiel, unter Einsatz unterschiedlicher Sprachmodelle durch unterschiedliche Instanzen des Suchalgorithmus;
  • 5 ein Diagramm in Blockform einer Worterkennungsvorrichtung unter Einsatz des gleichen Verfahrens wie das Ausführungsbeispiel.
  • Die vorgeschlagene Lösung beruht auf einer Ausdünnung der Wortbedeutungen während des Algorithmus des Beam search: die Anwendung ist in zwei unabhängige Module geteilt, wobei beide mit einem besonderen Sprachmodell verbunden sind.
  • Für jedes dieser Module wird eine Suche n-best search gestartet, ohne dass sich ein Modul über die Werte des anderen Moduls sorgen müsste. Diese Analysen beziehen sich auf unterschiedliche Informationen und sind demnach unabhängig und können parallel gestartet werden und sich der Architektur der Multiprozessortechnik bedienen.
  • Wir werden die Erfindung für den Fall wo das Sprachmodell auf der Benutzung von Grammatiken basiert, beschreiben, dabei kann aber auch ein Model vom Typ n-gram Vorteile aus der Erfindung ziehen.
  • Zur Beschreibung des vorliegenden Ausführungsbeispiels versetze man sich in den Bereich der Anwendungen in der Unterhaltungselektronik, genauer: eine Benutzerschnittstelle eines Fernsehgerätes, die ein Spracherkennungsmodell in Gang setzt. Das Mikrofon befindet sich in der Fernbedienung, während die aufgenommenen Audiodaten zum Fernsehgerät gesendet werden, genauer gesagt zur Sprachanalyse geschickt werden. Der Empfänger beinhaltet dazu eine Worterkennungsvorrichtung.
  • Die 5 ist ein beispielhaftes Blockdiagramm der Vorrichtung 1 zur Worterkennung. Für die Klarheit der Darstellung wurde die Gesamtheit der notwendigen Mittel zur Worterkennung in der Vorrichtung 1 untergebracht, selbst wenn im Rahmen der beabsichtigten Anwendung gewisse Elemente, am Anfang der Kette, in der Fernbedienung des Empfängers gezeigt werden.
  • Diese Vorrichtung beinhaltet einen Prozessor 2 für das Audiosignal und sorgt für die Digitalisierung des vom Mikrofon 3 kommenden Audiosignals über den Signalerkennungsschaltkreis 4. Der Prozessor übersetzt auch die digitalen Abtastmuster in akustische Symbole, die in einem vorbestimmten Alphabet ausgewählt wurden. Zu diesem Zweck beinhaltet er einen akusto-phonetischen Dekodierer 5. Ein Sprachdekodierer 6 bearbeitet diese Symbole mit dem Ziel, für eine Symbolfolge A, die Folge W der am meisten wahrscheinlichen Worte zu bestimmen, wobei die Folge A gegeben ist.
  • Der Sprachdekodierer benutzt ein akustische Modell 7 und ein Sprachmodell 8, die durch einen Suchalgorithmus durch Hypothese 9 in Gang gesetzt werden. Das akustische Modell ist beispielsweise ein Modell „Hidden Markov model oder HMM) genannt. Es wird zur Errechnung von Akustikwerten für Wortsequenzen (Wahrscheinlichkeiten) benutzt, die im Laufe der Entschlüsselung in Frage kommen. Das im vorliegenden Ausführungsbeispiel eingesetzte Sprachmodell basiert auf einer Grammatik, die unter Zuhilfenahme der Syntaxregeln der Backus Naur-Form beschrieben wurden. Das Sprachmodell wird benötigt, um die Analyse des Audio-Datenstroms zu führen und um die Sprachwerte zu kalkulieren. Der Erkennungsalgorithmus, der genau gesagt der Erkennungsmotor ist, ist für das vorliegende Beispiel ein Algorithmus, der auf dem Algorithmus des Typs Viterbi beruht und n-best genannt wird. Der Algorithmus des Typs n-best bestimmt bei jedem Schritt einer Satzanalyse die n Sequenzen der wahrscheinlichsten Worte, wobei die gesammelten Audiodaten gegeben sind. Am Satzende wird die wahrscheinlichste Lösung unter den n Kandidaten ausgewählt.
  • Die Begriffe des obigen Abschnitts sind für unter Fachleuten bekannt, jedoch werden zusätzliche Informationen in Bezug auf den besonderen Algorithmus n-best in der folgenden Veröffentlichung ausgeführt:
    „Statistical methods for speech recognition" von F. Jelinek, MIT Press 1999 ISBN o-262-10066-5 pp 79–84. Andere Algorithmen können auch eingesetzt werden. Insbesondere andere Algorithmen des Typs "Beam Search" wovon "n-best" eine Variante ist.
  • Der akusto-phonetische Dekodierer und der Sprachdekodierer können durch Einsatz eines geeigneten Programms mit einem Mikroprozessor, der Zugang zu einem Speichers mit dem Algorithmus des Erkennungsmotors und den Akustik- und Sprachmodellen hat, realisiert werden.
  • Gemäß dem vorliegenden Ausführungsbeispiel, setzt die Vorrichtung mehrere Sprachmodelle in Gang. Die beabsichtigte Anwendung ist eine Benutzerschnittstelle mit Sprachsteuerung zur Steuerung eines elektronischen Programmführers, ein erstes Sprachmodell ist zur Filterung der vorgeschlagenen Senderprogramme angepasst, mit dem Ziel, zeitliche oder thematische Filter auf Basis von Daten verfügbarer Sender anzuwenden, während ein zweites Sprachmodell für einen Senderwechsel, ausserhalb des Programmführerkontextes, (zapping) angepasst ist. Es stellt sich in der Praxis heraus, dass Sätze, die sich akustisch sehr ähnlich sind, im Rahmen der Kontexte beider Modelle, sehr unterschiedliche Bedeutungen haben können.
  • Die 3 ist ein Schaubild, auf dem die Verzweigungen schematisch dargestellt sind, entsprechend für jedes der beiden Modelle. Wie in den 1 und 2 die schwarzen Kreise die Entscheidungsstufen darstellen, so zeigen die Striche die Übergänge, denen das Sprachmodell die Zutreffswahrscheinlichkeit zuordnet, die weissen Kreise stehen für Wörter aus dem Vokabular, dem die Markovschen Netze zugeordnet sind, die aufgrund der phonetischen Kenntnis der möglichen Aussprache, erstellt wurden.
  • Verschiedene Instanzen des beam search-Verfahrens werden getrennt für jedes Modell angewendet. Die Letzteren sind nicht zusammen geführt, sondern bleiben getrennt und jede Verfahrensinstanz liefert den wahrscheinlichsten Satz für das zugeordnete Modell.
  • Gemäß einer Variante des Ausführungsbeispiels wendet man ein Verfahren des Typs n-best bei einem oder mehreren oder allen Modellen an.
  • Sobald die Analyse für alle Module beendet ist, dient der beste Wert (oder die besten Werte, je nach Variante) von jedem Modul zur Wahl, auf klassische Art, des eventuell verstandenen Satzes.
  • Gemäß einer Variante des Ausführungsbeispiels, werden, nachdem die Analyse aller Module einmal stattgefunden hat, die verschiedenen Kandidatensätze, die aus dieser Analyse hervorgegangen sind, für eine zweite, feinere, Analyse herangezogen, wobei man die nicht eingesetzten akustischen Parameter der vorhergehenden Analysephase benutzt.
  • Die vorgeschlagene Verarbeitung besteht darin, dass kein globales Sprachmodell geformt wird, sondern dass man Teilsprachmodelle speichert. Jedes wird auf eine unabhängige Art mit einem beam-search Algorithmus behandelt und der Wert der besten Sequenzen wird berechnet.
  • Die Erfindung beruht also auf einer Gesamtheit von getrennten Modulen, wobei jedes Modul von einem Teil der Systemressourcen profitiert, die einen oder mehrere Prozessoren in einer bevorrechtigten Mehrfachzugriffsarchitektur vorschlagen kann, so wie in der 4 dargestellt ist.
  • Es ist ein Vorteil, dass der Irrtum in jedem Sprachmodell an sich gering ist und dass die Summe der Irrtümer von n vorhandenen Sprachmodellen geringer als die Irrtümer die aus ihrem Zusammenschluss entstehen würden. Die Verarbeitung der Daten verlangt also weniger Rechenaufwand.
  • Andererseits gibt schon die Kenntnis des Ursprungssprachenmodells des Satzes, bei der Wahl des besten Satzes unter den Ergebnissen der verschiedenen Suchverfahren, eine Information über seinen Sinn und über das Anwendungsgebiet, das ihm zugeordnet ist. Die zugehörigen Parser können also diesen Gebieten gewidmet werden und demzufolge einfacher und wirkungsvoller sein.
  • In unserer Erfindung stellt ein Modul den gleichen Erkennungswert dar, oder genauer gesagt, liefert die gleiche Gesamtheit der n-besten Sätze und denselben Wert für jeden Satz, ob er alleine oder mit anderen Modulen verwendet wird. Es gibt keine Verminderung der Leistung aufgrund einer Vereinigung der Module zu einem einzigen Modul.
  • Referenzen:
    • Error bounds für convolutional codes and an asysmetrically optimum decoding algorithm. A.J. Viterbi IEEE Transactions or Information Theory, Band IT-13, Seiten 260–67, 1967
    • Statistical mehtods for speech recognition. F. Jelinek. MIT Press ISBN 0-262-100066-5 Seiten 79–84
    • Perceptual linear prediction (PLP) analysis of speech. Hynek Hermansky Journal of the Acoustical Society of America, Band 87, Nr. 4, 1990, 1738.1752

Claims (7)

  1. Verfahren zur Spracherkennung, die eine Stufe zur Erfassung eines akustischen Signals, eine Stufe zur akustophonetischen Dekodierung und eine Stufe zur Sprachdekodierung beinhaltet, dadurch gekennzeichnet, dass die Stufe zur Sprachdekodierung aus folgenden Stufen besteht: – getrennte Anwendungsstufen für eine Vielzahl von Sprachanalysemodellen, einer Tonfolge zur Bestimmung einer Vielzahl von Wortfolgekandidaten, die mit den jeweiligen Modellen verbunden sind; – Bestimmungsstufe mit einem Suchmotor der wahrscheinlichsten Wortfolge unter den Wortfolgekandidaten.
  2. Verfahren gemäß Anspruch 1 dadurch gekennzeichnet, dass es eine zweite Analysephase beinhaltet und die Wortfolgekandidaten benutzt, die aus der mit jedem Modul durchgeführten Analyse und den akustischen Parametern stammen und während der vorangegangen Analysephase nicht angewendet wurden.
  3. Verfahren gemäß einem der Ansprüche 1 oder 2 dadurch gekennzeichnet, dass die Sprachmodelle auf Grammatiken aufgebaut sind.
  4. Verfahren gemäß einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, dass jedes Sprachmodell einem unterschiedlichen Anwendungskontext entspricht.
  5. Verfahren gemäß dem Anspruch 1 dadurch gekennzeichnet, dass die Anwendungsstufe für jedes Sprachmodell die Stufe zur Generierung der wahrscheinlichsten Wortfolge beinhaltet.
  6. Verfahren gemäß Anspruch 1 dadurch gekennzeichnet, dass die Anwendungsstufe die Durchführung eines Verfahrens der Art n-best für eines oder mehrere oder für die Gesamtheit der Sprachmodelle beinhaltet.
  7. Stimmerkennungsvorrichtung die einen Audioprozessor (2) zur Erstellung eines Audiosignals und einen Sprachdekodierer (6) zur Bestimmung einer Wortfolge, die dem Audiosignal entspricht, enthält und dadurch gekennzeichnet ist, dass der Sprachdekodierer – eine Vielzahl an Sprachmodellen (8) enthält mit einer von der Anwendung abgetrennten Analyse des selben Satzes zur Bestimmung einer Vielzahl von Wortsequenzenkandidaten, die mit den jeweiligen Modellen verbunden sind; – ein Suchmotor zur Bestimmung der wahrscheinlichsten Wortfolge innerhalb der Vielzahl der Wortfolgekandidaten.
DE60023736T 1999-12-02 2000-12-01 Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen Expired - Lifetime DE60023736T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9915189 1999-12-02
FR9915189 1999-12-02
PCT/FR2000/003356 WO2001041126A1 (fr) 1999-12-02 2000-12-01 Procede et dispositif de reconnaissance vocale a modeles de langage disjoints

Publications (2)

Publication Number Publication Date
DE60023736D1 DE60023736D1 (de) 2005-12-08
DE60023736T2 true DE60023736T2 (de) 2006-08-10

Family

ID=9552792

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60023736T Expired - Lifetime DE60023736T2 (de) 1999-12-02 2000-12-01 Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen

Country Status (8)

Country Link
US (1) US20030093272A1 (de)
EP (1) EP1234303B1 (de)
JP (1) JP2003515778A (de)
CN (1) CN1254787C (de)
AU (1) AU2181601A (de)
DE (1) DE60023736T2 (de)
MX (1) MXPA02005387A (de)
WO (1) WO2001041126A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
DE10024895A1 (de) * 2000-05-19 2001-11-22 Thomson Brandt Gmbh System zur Bedienung eines Gerätes der Unterhaltungselektronik
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
JP2004240086A (ja) * 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識信頼性評価方法、装置、音声認識信頼性評価プログラム及びこのプログラムを記録した記録媒体
US7321852B2 (en) * 2003-10-28 2008-01-22 International Business Machines Corporation System and method for transcribing audio files of various languages
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
EP2030196B1 (de) * 2006-06-22 2018-09-05 Multimodal Technologies, LLC Verifizierung extrahierter daten
US7805305B2 (en) * 2006-10-12 2010-09-28 Nuance Communications, Inc. Enhancement to Viterbi speech processing algorithm for hybrid speech models that conserves memory
US8239366B2 (en) * 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
WO2018140420A1 (en) 2017-01-24 2018-08-02 Honeywell International, Inc. Voice control of an integrated room automation system
US10984329B2 (en) 2017-06-14 2021-04-20 Ademco Inc. Voice activated virtual assistant with a fused response
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830960B2 (ja) * 1988-12-06 1996-03-27 日本電気株式会社 高速音声認識装置
JP2905674B2 (ja) * 1993-10-04 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者連続音声認識方法
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
JP2871557B2 (ja) * 1995-11-08 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5953701A (en) * 1998-01-22 1999-09-14 International Business Machines Corporation Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6502072B2 (en) * 1998-11-20 2002-12-31 Microsoft Corporation Two-tier noise rejection in speech recognition
EP1055228A1 (de) * 1998-12-17 2000-11-29 ScanSoft, Inc. Automatisches sprachgesteuertes abfragesystem
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
JP2001051690A (ja) * 1999-08-16 2001-02-23 Nec Corp パターン認識装置

Also Published As

Publication number Publication date
EP1234303B1 (de) 2005-11-02
WO2001041126A1 (fr) 2001-06-07
AU2181601A (en) 2001-06-12
US20030093272A1 (en) 2003-05-15
CN1254787C (zh) 2006-05-03
DE60023736D1 (de) 2005-12-08
JP2003515778A (ja) 2003-05-07
EP1234303A1 (de) 2002-08-28
MXPA02005387A (es) 2004-04-21
CN1402868A (zh) 2003-03-12

Similar Documents

Publication Publication Date Title
DE60023736T2 (de) Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69829235T2 (de) Registrierung für die Spracherkennung
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE112017003563T5 (de) Verfahren und system einer automatischen spracherkennung unter verwendung a-posteriori-vertrauenspunktzahlen
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)